基本信息 标题: Video-LLaVA: Learning United Visual Representation by Alignment Before Projection 作者: Bin Lin, Yang Ye, Bin Zhu, Jiaxi Cui, Munan Ning, Peng Jin, Li Yuan 发表: EMNLP 2024 arXiv: https://arxiv.org/abs/2311.10122 摘要 大型视觉-语言模型(LVLM)提高了视觉-语言理解中各种下游任务的表现。 大多数现有方法将图像和视频编码到不同的特征空间中,然后将它们作为输入馈送到大语言模型。 然而,由于缺乏图像和视频的统一标记化,即投影前的错位,大语言模型(LLM)从多个投影层中学习多模态交互变得具有挑战性。 在这项工作中,我们将视觉表示统一到语言特征空间,以推动基础LLM向统一的LVLM发展。 因此,我们建立了一个简单但稳健的LVLM基线,即Video-LLaVA,它从图像和视频的混合数据集中学习,相互增强。 Video-LLaVA在5个图像问答数据集和4个图像基准工具包的9个 ...
基本信息 标题: LLaVA-o1: Let Vision Language Models Reason Step-by-Step 作者: Guowei Xu, Peng Jin, Li Hao, Yibing Song, Lichao Sun, Li Yuan arXiv: https://arxiv.org/abs/2411.10440 摘要 大型语言模型在推理能力方面取得了显著进步,尤其是在推理时间扩展方面,如OpenAI的o1模型所示。 然而,当前的视觉-语言模型(VLMs)在执行系统化和结构化推理方面往往存在困难,尤其是在处理复杂的视觉问答任务时。 在本研究中,我们引入了LLaVA-o1,这是一种新型的VLM,旨在进行自主的多阶段推理。与思维链提示不同,LLaVA-o1独立进行总结、视觉解释、逻辑推理和结论生成的连续阶段。 这种结构化方法使LLaVA-o1在推理密集型任务上的精度得到了显著提高。 为了实现这一点,我们编译了LLaVA-o1-100k数据集,整合了来自各种视觉问答来源的样本,并提供了结构化推理注释。 此外,我们提出了一种推理时间阶段级束搜索方法,它能够有效地进 ...
学习笔记
未读基本信息 标题: BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices 作者: Xudong Lu, Yinghao Chen, Cheng Chen, Hui Tan, Boheng Chen, Yina Xie, Rui Hu, Guanxin Tan, Renshou Wu, Yan Hu, Yi Zeng, Lei Wu, Liuyang Bian, Zhaoxiong Wang, Long Liu, Yanzhou Yang, Han Xiao, Aojun Zhou, Yafei Wen, Xiaoxin Chen, Shuai Ren, Hongsheng Li arXiv: https://arxiv.org/abs/2411.10640 摘要 多模态大型语言模型(MLLMs)的兴起和日益普及,在提升日常生活的各个方面具有巨大潜力,从改善沟通到促进学习和问题解决。 作为日常生活中的重要伴侣,手机是MLLMs最有效和易于部署的平 ...
基本信息 标题: Improving Gloss-free Sign Language Translation by Reducing Representation Density 作者: Jinhui Ye, Xing Wang, Wenxiang Jiao, Junwei Liang, Hui Xiong 发表: NeurIPS 2024 arXiv: https://arxiv.org/abs/2405.14312 摘要 gloss-free手语翻译(SLT)旨在开发无需昂贵gloss标注的、性能良好的SLT系统,但目前仍显著落后于gloss-based的翻译方法。 在本文中,我们确定了一个可能成为gloss-free SLT性能瓶颈的表示密度问题。 具体来说,表示密度问题描述了语义上不同的手势在特征空间中的视觉表示往往紧密排列在一起,这使得gloss-free方法难以区分不同的手势,并导致性能急剧下降。 为了解决表示密度问题,我们引入了一种简单但有效的对比学习策略,即SignCL,它鼓励gloss-free模型以自监督的方式学习更具判别性的特征表示。 我们的实验表明,所提出的 ...
基本信息 标题: LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models 作者: Yanwei Li, Chengyao Wang, Jiaya Jia 发表: ECCV 2024 arXiv: https://arxiv.org/abs/2311.17043 摘要 在这项工作中,我们提出了一种新颖的方法来解决视觉语言模型(VLMs)在视频和图像理解中的token生成挑战,称为LLaMA-VID。 当前的VLMs虽然在图像描述和视觉问答等任务上表现出色,但在处理长视频时由于视觉token过多而面临计算负担。 LLaMA-VID通过用两个不同的token来表示每一帧,即上下文token和内容token,来解决这个问题。 上下文token根据用户输入编码整体图像上下文,而内容token封装了每一帧中的视觉线索。 这种双token策略显著减少了长视频的负载,同时保留了关键信息。 通常,LLaMA-VID使现有框架能够支持长达一小时的视频,并通过额外的上下文token提高了其上限。 它已被证明在大多数基于视频或图像的基准测 ...
学习笔记
未读基本信息 标题: P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks 作者: Xiao Liu, Kaixuan Ji, Yicheng Fu, Weng Lam Tam, Zhengxiao Du, Zhilin Yang, Jie Tang 发表: ACL 2022 arXiv: https://arxiv.org/abs/2110.07602 摘要 Prompt tuning,仅对冻结的语言模型进行连续提示调整,在训练过程中显著降低了每个任务的存储和内存使用。 然而,在自然语言理解(NLU)的背景下,先前的研究表明,Prompt tuning对于正常规模的预训练模型表现不佳。 我们还发现,现有的Prompt tuning方法无法处理困难的序列标注任务,这表明其缺乏通用性。 我们提出一个新颖的实证发现,经过适当优化的Prompt tuning可以在广泛的模型规模和NLU任务中普遍有效。 它在只有0.1%-3%调整参数的情况下,与微调的性能相匹 ...
基本信息 标题: LoRA: Low-Rank Adaptation of Large Language Models 作者: Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen 发表: ICLR 2022 arXiv: https://arxiv.org/abs/2106.09685 摘要 自然语言处理的一个重要范例是在通用领域数据上进行大规模预训练,并适应特定任务或领域。 随着我们预训练更大规模的模型,全量微调,即重新训练所有模型参数,变得越来越不可行。 以GPT-3 175B为例——部署独立实例的微调模型,每个模型都有175B个参数,成本过高。 我们提出了低秩适应,或称LoRA,它冻结预训练模型的权重,并将可训练的秩分解矩阵注入到Transformer架构的每一层,极大地减少了下游任务的可训练参数数量。 与使用Adam微调的GPT-3 175B相比,LoRA可以将可训练参数数量减少10,000倍,并将GPU内存需求减少3 ...
基本信息 标题: Towards Privacy-Aware Sign Language Translation at Scale 作者: Phillip Rust, Bowen Shi, Skyler Wang, Necati Cihan Camgöz, Jean Maillard 发表: ACL 2024 arXiv: https://arxiv.org/abs/2402.09611 摘要 主要阻碍手语翻译(SLT)进步的因素是数据稀缺。 目前网络上可用的手语数据中,很大一部分由于缺乏对齐字幕,无法用于训练监督模型。 此外,使用大规模网络爬取的数据集进行SLT扩展存在隐私风险,因为其中包含生物识别信息,而SLT技术的负责任开发应考虑到这一点。 在本研究中,我们提出了一种两阶段框架,用于大规模隐私感知SLT,以解决这两个问题。 我们引入了SSVP-SLT,该系统利用匿名和无标注视频上的自监督视频预训练,随后在精心挑选的并行数据集上进行监督SLT微调。 SSVP-SLT在How2Sign数据集上实现了最先进的微调和零样本gloss-free SLT性能,其性能超过最强基线3 BLEU ...
基本信息 标题: SCOPE: Sign Language Contextual Processing with Embedding from LLMs 作者: Yuqi Liu, Wenqian Zhang, Sihan Ren, Chengyu Huang, Jingyi Yu, Lan Xu arXiv: https://arxiv.org/abs/2409.01073 摘要 手语,全球约7000万聋人使用,是一种视觉语言,传达视觉和语境信息。 基于视觉的手语识别(SLR)和翻译(SLT)的当前方法由于数据集多样性有限和忽略语境相关信息,在对话场景中存在困难。 为了解决这些挑战,我们引入了SCOPE(基于LLM嵌入的手语语境处理),这是一种新颖的语境感知视觉SLR和SLT框架。 对于SLR,我们通过多模态编码器利用对话语境来增强Gloss级识别。 对于随后的SLT,我们通过结合先前的对话语境进一步微调大型语言模型(LLM)。 我们还贡献了一个新的手语数据集,其中包含72小时的中国手语视频,涉及各种场景的语境对话。 实验结果表明,我们的SCOPE框架在多个数据集上实现了最先进的性 ...
基本信息 标题: Prefix-Tuning: Optimizing Continuous Prompts for Generation 作者: Xiang Lisa Li, Percy Liang 发表: ACL 2021 arXiv: https://arxiv.org/abs/2101.00190 摘要 微调是利用大型预训练语言模型进行下游任务的事实上的方法。 然而,微调会修改所有语言模型参数,因此需要为每个任务存储一个完整副本。 在本文中,我们提出了Prefix-tuning,这是一种轻量级的自然语言生成任务微调替代方案,它保持语言模型参数冻结,并优化一系列连续的任务特定向量,我们称之为Prefix。 Prefix-tuning从语言模型的提示中汲取灵感,允许后续标记将此Prefix视为“虚拟token”。 我们将Prefix-tuning应用于GPT-2进行表格到文本生成,以及应用于BART进行摘要。 我们表明,通过仅修改0.1%的参数,Prefix-tuning在全数据设置中获得了可比的性能,在低数据设置中优于微调,并且更好地推广到训练期间未见过的主题示例。 全量微调( ...