小嗷犬 - 分享技术，记录生活

ICPC省赛的纪念品 [图片]再战西工大 [图片]CSDN 发了一块奖牌 [图片]耕读田园摘桃子、收辣椒 [图片]ICPC 省赛拿奖了 [图片]去西工大打比赛了 [图片]去语文老师家包饺子 [图片]阿里云星级博主发的奖章，亮闪闪的 [图片]疫情隔离在寝室，学校发的食物 [图片]CCPC绵阳站 [图片]ICPC省赛的纪念品 [图片]再战西工大 [图片]

【论文笔记】Improved Baselines with Visual Instruction Tuning

学习笔记

未读

【论文笔记】Improved Baselines with Visual Instruction Tuning

发表于11-24-20242-9-2025 大模型论文笔记多模态0 条评论

基本信息标题: Improved Baselines with Visual Instruction Tuning 作者: Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee 发表: CVPR 2024 arXiv: https://arxiv.org/abs/2310.03744 摘要大型多模态模型（LMM）最近在视觉指令调整方面取得了令人鼓舞的进展。在本文中，我们首次系统地研究了在LLaVA框架下，LMM在受控环境中的设计选择。我们表明，LLaVA中的全连接视觉-语言连接器出人意料地强大且数据高效。通过简单的LLaVA修改，即使用CLIP-ViT-L-336px进行MLP投影，并添加以学术任务为导向的VQA数据以及带有响应格式提示，我们建立了更强的基线，在11个基准测试中达到了最先进水平。我们的最终13B检查点仅使用了120万条公开数据，并在单个8-A100节点上完成完整训练仅需大约1天。此外，我们还对LMM中的开放性问题进行了初步探索，包括扩展到更高分辨率的输入、组合能力以及模型幻觉等。我们希望这使最先进的LMM研究 ...

【论文笔记】Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

学习笔记

未读

【论文笔记】Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

发表于11-24-20242-9-2025 大模型论文笔记多模态0 条评论

基本信息标题: Video-LLaVA: Learning United Visual Representation by Alignment Before Projection 作者: Bin Lin, Yang Ye, Bin Zhu, Jiaxi Cui, Munan Ning, Peng Jin, Li Yuan 发表: EMNLP 2024 arXiv: https://arxiv.org/abs/2311.10122 摘要大型视觉-语言模型（LVLM）提高了视觉-语言理解中各种下游任务的表现。大多数现有方法将图像和视频编码到不同的特征空间中，然后将它们作为输入馈送到大语言模型。然而，由于缺乏图像和视频的统一标记化，即投影前的错位，大语言模型（LLM）从多个投影层中学习多模态交互变得具有挑战性。在这项工作中，我们将视觉表示统一到语言特征空间，以推动基础LLM向统一的LVLM发展。因此，我们建立了一个简单但稳健的LVLM基线，即Video-LLaVA，它从图像和视频的混合数据集中学习，相互增强。 Video-LLaVA在5个图像问答数据集和4个图像基准工具包的9个 ...

【论文笔记】LLaVA-o1: Let Vision Language Models Reason Step-by-Step

学习笔记

未读

【论文笔记】LLaVA-o1: Let Vision Language Models Reason Step-by-Step

发表于11-23-20242-9-2025 大模型论文笔记多模态0 条评论

基本信息标题: LLaVA-o1: Let Vision Language Models Reason Step-by-Step 作者: Guowei Xu, Peng Jin, Li Hao, Yibing Song, Lichao Sun, Li Yuan arXiv: https://arxiv.org/abs/2411.10440 摘要大型语言模型在推理能力方面取得了显著进步，尤其是在推理时间扩展方面，如OpenAI的o1模型所示。然而，当前的视觉-语言模型（VLMs）在执行系统化和结构化推理方面往往存在困难，尤其是在处理复杂的视觉问答任务时。在本研究中，我们引入了LLaVA-o1，这是一种新型的VLM，旨在进行自主的多阶段推理。与思维链提示不同，LLaVA-o1独立进行总结、视觉解释、逻辑推理和结论生成的连续阶段。这种结构化方法使LLaVA-o1在推理密集型任务上的精度得到了显著提高。为了实现这一点，我们编译了LLaVA-o1-100k数据集，整合了来自各种视觉问答来源的样本，并提供了结构化推理注释。此外，我们提出了一种推理时间阶段级束搜索方法，它能够有效地进 ...

【论文笔记】BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices

学习笔记

未读

【论文笔记】BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices

发表于11-23-20242-9-2025 大模型论文笔记多模态0 条评论

基本信息标题: BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices 作者: Xudong Lu, Yinghao Chen, Cheng Chen, Hui Tan, Boheng Chen, Yina Xie, Rui Hu, Guanxin Tan, Renshou Wu, Yan Hu, Yi Zeng, Lei Wu, Liuyang Bian, Zhaoxiong Wang, Long Liu, Yanzhou Yang, Han Xiao, Aojun Zhou, Yafei Wen, Xiaoxin Chen, Shuai Ren, Hongsheng Li arXiv: https://arxiv.org/abs/2411.10640 摘要多模态大型语言模型（MLLMs）的兴起和日益普及，在提升日常生活的各个方面具有巨大潜力，从改善沟通到促进学习和问题解决。作为日常生活中的重要伴侣，手机是MLLMs最有效和易于部署的平 ...

【论文笔记】Improving Gloss-free Sign Language Translation by Reducing Representation Density

学习笔记

未读

【论文笔记】Improving Gloss-free Sign Language Translation by Reducing Representation Density

发表于11-18-20242-9-2025 大模型论文笔记手语翻译多模态0 条评论

基本信息标题: Improving Gloss-free Sign Language Translation by Reducing Representation Density 作者: Jinhui Ye, Xing Wang, Wenxiang Jiao, Junwei Liang, Hui Xiong 发表: NeurIPS 2024 arXiv: https://arxiv.org/abs/2405.14312 摘要 gloss-free手语翻译（SLT）旨在开发无需昂贵gloss标注的、性能良好的SLT系统，但目前仍显著落后于gloss-based的翻译方法。在本文中，我们确定了一个可能成为gloss-free SLT性能瓶颈的表示密度问题。具体来说，表示密度问题描述了语义上不同的手势在特征空间中的视觉表示往往紧密排列在一起，这使得gloss-free方法难以区分不同的手势，并导致性能急剧下降。为了解决表示密度问题，我们引入了一种简单但有效的对比学习策略，即SignCL，它鼓励gloss-free模型以自监督的方式学习更具判别性的特征表示。我们的实验表明，所提出的 ...

【论文笔记】LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models

学习笔记

未读

【论文笔记】LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models

发表于11-17-20242-9-2025 大模型论文笔记多模态0 条评论

基本信息标题: LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models 作者: Yanwei Li, Chengyao Wang, Jiaya Jia 发表: ECCV 2024 arXiv: https://arxiv.org/abs/2311.17043 摘要在这项工作中，我们提出了一种新颖的方法来解决视觉语言模型（VLMs）在视频和图像理解中的token生成挑战，称为LLaMA-VID。当前的VLMs虽然在图像描述和视觉问答等任务上表现出色，但在处理长视频时由于视觉token过多而面临计算负担。 LLaMA-VID通过用两个不同的token来表示每一帧，即上下文token和内容token，来解决这个问题。上下文token根据用户输入编码整体图像上下文，而内容token封装了每一帧中的视觉线索。这种双token策略显著减少了长视频的负载，同时保留了关键信息。通常，LLaMA-VID使现有框架能够支持长达一小时的视频，并通过额外的上下文token提高了其上限。它已被证明在大多数基于视频或图像的基准测 ...

【论文笔记】P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks

学习笔记

未读

【论文笔记】P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks

发表于11-17-20242-9-2025 大模型论文笔记微调0 条评论

基本信息标题: P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks 作者: Xiao Liu, Kaixuan Ji, Yicheng Fu, Weng Lam Tam, Zhengxiao Du, Zhilin Yang, Jie Tang 发表: ACL 2022 arXiv: https://arxiv.org/abs/2110.07602 摘要 Prompt tuning，仅对冻结的语言模型进行连续提示调整，在训练过程中显著降低了每个任务的存储和内存使用。然而，在自然语言理解（NLU）的背景下，先前的研究表明，Prompt tuning对于正常规模的预训练模型表现不佳。我们还发现，现有的Prompt tuning方法无法处理困难的序列标注任务，这表明其缺乏通用性。我们提出一个新颖的实证发现，经过适当优化的Prompt tuning可以在广泛的模型规模和NLU任务中普遍有效。它在只有0.1%-3%调整参数的情况下，与微调的性能相匹 ...

【论文笔记】LoRA: Low-Rank Adaptation of Large Language Models

学习笔记

未读

【论文笔记】LoRA: Low-Rank Adaptation of Large Language Models

发表于11-17-20242-9-2025 大模型论文笔记微调0 条评论

基本信息标题: LoRA: Low-Rank Adaptation of Large Language Models 作者: Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen 发表: ICLR 2022 arXiv: https://arxiv.org/abs/2106.09685 摘要自然语言处理的一个重要范例是在通用领域数据上进行大规模预训练，并适应特定任务或领域。随着我们预训练更大规模的模型，全量微调，即重新训练所有模型参数，变得越来越不可行。以GPT-3 175B为例——部署独立实例的微调模型，每个模型都有175B个参数，成本过高。我们提出了低秩适应，或称LoRA，它冻结预训练模型的权重，并将可训练的秩分解矩阵注入到Transformer架构的每一层，极大地减少了下游任务的可训练参数数量。与使用Adam微调的GPT-3 175B相比，LoRA可以将可训练参数数量减少10,000倍，并将GPU内存需求减少3 ...

【论文笔记】Towards Privacy-Aware Sign Language Translation at Scale

学习笔记

未读

【论文笔记】Towards Privacy-Aware Sign Language Translation at Scale

发表于11-16-20242-9-2025 大模型论文笔记手语翻译多模态0 条评论

基本信息标题: Towards Privacy-Aware Sign Language Translation at Scale 作者: Phillip Rust, Bowen Shi, Skyler Wang, Necati Cihan Camgöz, Jean Maillard 发表: ACL 2024 arXiv: https://arxiv.org/abs/2402.09611 摘要主要阻碍手语翻译（SLT）进步的因素是数据稀缺。目前网络上可用的手语数据中，很大一部分由于缺乏对齐字幕，无法用于训练监督模型。此外，使用大规模网络爬取的数据集进行SLT扩展存在隐私风险，因为其中包含生物识别信息，而SLT技术的负责任开发应考虑到这一点。在本研究中，我们提出了一种两阶段框架，用于大规模隐私感知SLT，以解决这两个问题。我们引入了SSVP-SLT，该系统利用匿名和无标注视频上的自监督视频预训练，随后在精心挑选的并行数据集上进行监督SLT微调。 SSVP-SLT在How2Sign数据集上实现了最先进的微调和零样本gloss-free SLT性能，其性能超过最强基线3 BLEU ...

【论文笔记】SCOPE: Sign Language Contextual Processing with Embedding from LLMs

学习笔记

未读

【论文笔记】SCOPE: Sign Language Contextual Processing with Embedding from LLMs

发表于11-16-20242-9-2025 大模型论文笔记手语翻译多模态0 条评论

基本信息标题: SCOPE: Sign Language Contextual Processing with Embedding from LLMs 作者: Yuqi Liu, Wenqian Zhang, Sihan Ren, Chengyu Huang, Jingyi Yu, Lan Xu arXiv: https://arxiv.org/abs/2409.01073 摘要手语，全球约7000万聋人使用，是一种视觉语言，传达视觉和语境信息。基于视觉的手语识别（SLR）和翻译（SLT）的当前方法由于数据集多样性有限和忽略语境相关信息，在对话场景中存在困难。为了解决这些挑战，我们引入了SCOPE（基于LLM嵌入的手语语境处理），这是一种新颖的语境感知视觉SLR和SLT框架。对于SLR，我们通过多模态编码器利用对话语境来增强Gloss级识别。对于随后的SLT，我们通过结合先前的对话语境进一步微调大型语言模型（LLM）。我们还贡献了一个新的手语数据集，其中包含72小时的中国手语视频，涉及各种场景的语境对话。实验结果表明，我们的SCOPE框架在多个数据集上实现了最先进的性 ...