基本信息 标题: Improving Gloss-free Sign Language Translation by Reducing Representation Density 作者: Jinhui Ye, Xing Wang, Wenxiang Jiao, Junwei Liang, Hui Xiong 发表: NeurIPS 2024 arXiv: https://arxiv.org/abs/2405.14312 摘要 gloss-free手语翻译(SLT)旨在开发无需昂贵gloss标注的、性能良好的SLT系统,但目前仍显著落后于gloss-based的翻译方法。 在本文中,我们确定了一个可能成为gloss-free SLT性能瓶颈的表示密度问题。 具体来说,表示密度问题描述了语义上不同的手势在特征空间中的视觉表示往往紧密排列在一起,这使得gloss-free方法难以区分不同的手势,并导致性能急剧下降。 为了解决表示密度问题,我们引入了一种简单但有效的对比学习策略,即SignCL,它鼓励gloss-free模型以自监督的方式学习更具判别性的特征表示。 我们的实验表明,所提出的 ...
基本信息 标题: LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models 作者: Yanwei Li, Chengyao Wang, Jiaya Jia 发表: ECCV 2024 arXiv: https://arxiv.org/abs/2311.17043 摘要 在这项工作中,我们提出了一种新颖的方法来解决视觉语言模型(VLMs)在视频和图像理解中的token生成挑战,称为LLaMA-VID。 当前的VLMs虽然在图像描述和视觉问答等任务上表现出色,但在处理长视频时由于视觉token过多而面临计算负担。 LLaMA-VID通过用两个不同的token来表示每一帧,即上下文token和内容token,来解决这个问题。 上下文token根据用户输入编码整体图像上下文,而内容token封装了每一帧中的视觉线索。 这种双token策略显著减少了长视频的负载,同时保留了关键信息。 通常,LLaMA-VID使现有框架能够支持长达一小时的视频,并通过额外的上下文token提高了其上限。 它已被证明在大多数基于视频或图像的基准测 ...
学习笔记
未读基本信息 标题: P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks 作者: Xiao Liu, Kaixuan Ji, Yicheng Fu, Weng Lam Tam, Zhengxiao Du, Zhilin Yang, Jie Tang 发表: ACL 2022 arXiv: https://arxiv.org/abs/2110.07602 摘要 Prompt tuning,仅对冻结的语言模型进行连续提示调整,在训练过程中显著降低了每个任务的存储和内存使用。 然而,在自然语言理解(NLU)的背景下,先前的研究表明,Prompt tuning对于正常规模的预训练模型表现不佳。 我们还发现,现有的Prompt tuning方法无法处理困难的序列标注任务,这表明其缺乏通用性。 我们提出一个新颖的实证发现,经过适当优化的Prompt tuning可以在广泛的模型规模和NLU任务中普遍有效。 它在只有0.1%-3%调整参数的情况下,与微调的性能相匹 ...
基本信息 标题: LoRA: Low-Rank Adaptation of Large Language Models 作者: Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen 发表: ICLR 2022 arXiv: https://arxiv.org/abs/2106.09685 摘要 自然语言处理的一个重要范例是在通用领域数据上进行大规模预训练,并适应特定任务或领域。 随着我们预训练更大规模的模型,全量微调,即重新训练所有模型参数,变得越来越不可行。 以GPT-3 175B为例——部署独立实例的微调模型,每个模型都有175B个参数,成本过高。 我们提出了低秩适应,或称LoRA,它冻结预训练模型的权重,并将可训练的秩分解矩阵注入到Transformer架构的每一层,极大地减少了下游任务的可训练参数数量。 与使用Adam微调的GPT-3 175B相比,LoRA可以将可训练参数数量减少10,000倍,并将GPU内存需求减少3 ...
基本信息 标题: Towards Privacy-Aware Sign Language Translation at Scale 作者: Phillip Rust, Bowen Shi, Skyler Wang, Necati Cihan Camgöz, Jean Maillard 发表: ACL 2024 arXiv: https://arxiv.org/abs/2402.09611 摘要 主要阻碍手语翻译(SLT)进步的因素是数据稀缺。 目前网络上可用的手语数据中,很大一部分由于缺乏对齐字幕,无法用于训练监督模型。 此外,使用大规模网络爬取的数据集进行SLT扩展存在隐私风险,因为其中包含生物识别信息,而SLT技术的负责任开发应考虑到这一点。 在本研究中,我们提出了一种两阶段框架,用于大规模隐私感知SLT,以解决这两个问题。 我们引入了SSVP-SLT,该系统利用匿名和无标注视频上的自监督视频预训练,随后在精心挑选的并行数据集上进行监督SLT微调。 SSVP-SLT在How2Sign数据集上实现了最先进的微调和零样本gloss-free SLT性能,其性能超过最强基线3 BLEU ...
基本信息 标题: SCOPE: Sign Language Contextual Processing with Embedding from LLMs 作者: Yuqi Liu, Wenqian Zhang, Sihan Ren, Chengyu Huang, Jingyi Yu, Lan Xu arXiv: https://arxiv.org/abs/2409.01073 摘要 手语,全球约7000万聋人使用,是一种视觉语言,传达视觉和语境信息。 基于视觉的手语识别(SLR)和翻译(SLT)的当前方法由于数据集多样性有限和忽略语境相关信息,在对话场景中存在困难。 为了解决这些挑战,我们引入了SCOPE(基于LLM嵌入的手语语境处理),这是一种新颖的语境感知视觉SLR和SLT框架。 对于SLR,我们通过多模态编码器利用对话语境来增强Gloss级识别。 对于随后的SLT,我们通过结合先前的对话语境进一步微调大型语言模型(LLM)。 我们还贡献了一个新的手语数据集,其中包含72小时的中国手语视频,涉及各种场景的语境对话。 实验结果表明,我们的SCOPE框架在多个数据集上实现了最先进的性 ...
基本信息 标题: Prefix-Tuning: Optimizing Continuous Prompts for Generation 作者: Xiang Lisa Li, Percy Liang 发表: ACL 2021 arXiv: https://arxiv.org/abs/2101.00190 摘要 微调是利用大型预训练语言模型进行下游任务的事实上的方法。 然而,微调会修改所有语言模型参数,因此需要为每个任务存储一个完整副本。 在本文中,我们提出了Prefix-tuning,这是一种轻量级的自然语言生成任务微调替代方案,它保持语言模型参数冻结,并优化一系列连续的任务特定向量,我们称之为Prefix。 Prefix-tuning从语言模型的提示中汲取灵感,允许后续标记将此Prefix视为“虚拟token”。 我们将Prefix-tuning应用于GPT-2进行表格到文本生成,以及应用于BART进行摘要。 我们表明,通过仅修改0.1%的参数,Prefix-tuning在全数据设置中获得了可比的性能,在低数据设置中优于微调,并且更好地推广到训练期间未见过的主题示例。 全量微调( ...
基本信息 标题: The Power of Scale for Parameter-Efficient Prompt Tuning 作者: Brian Lester, Rami Al-Rfou, Noah Constant 发表: EMNLP 2021 arXiv: https://arxiv.org/abs/2104.08691 摘要 在这项工作中,我们探讨了“prompt tuning”,这是一种简单而有效的机制,用于学习“soft prompt”以条件化冻结的语言模型执行特定下游任务。 与GPT-3使用的离散文本提示不同,soft prompt是通过反向传播学习的,并且可以调整以包含来自任意数量token示例的信号。 我们端到端的学习方法在少样本学习方面优于GPT-3。 更令人惊讶的是,通过使用T5在模型大小上的消融实验,我们表明提示微调在规模上变得更加具有竞争力:当模型超过数十亿参数时,我们的方法缩小了差距并匹配了模型微调(所有模型权重都进行调整)的强大性能。 这一发现尤其相关,因为大型模型成本高昂且难以共享和部署,而能够重复使用一个冻结模型执行多个下游任务可以减轻这一负担。 ...
基本信息 标题: Parameter-Efficient Transfer Learning for NLP 作者: Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin de Laroussilhe, Andrea Gesmundo, Mona Attariyan, Sylvain Gelly 发表: ICML 2019 arXiv: https://arxiv.org/abs/1902.00751 摘要 参数高效的NLP迁移学习对NLP中的大型预训练模型微调是一种有效的迁移机制。 然而,在存在许多下游任务的情况下,微调在参数上效率低下:每个任务都需要一个全新的模型。 作为替代方案,我们提出了带有适配器模块的迁移。 适配器模块产生一个紧凑且可扩展的模型;它们为每个任务仅添加少量可训练参数,并且可以添加新任务而无需重新访问之前的任务。 原始网络的参数保持不变,从而实现了高度的参数共享。 为了证明适配器的有效性,我们将最近提出的BERT Transformer模型迁移到26个不同的文本分类 ...
基本信息 标题: Wings: Learning Multimodal LLMs without Text-only Forgetting 作者: Yi-Kai Zhang, Shiyin Lu, Yang Li, Yanqing Ma, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye arXiv: https://arxiv.org/abs/2406.03496 摘要 多模态大型语言模型(MLLMs)以训练好的LLM为基础,首先将图像与文本对齐,然后对多模态混合输入进行微调。 然而,MLLM在灾难性地忘记了仅包含文本的指令,这些指令不包括图像,可以在初始LLM中解决。 在本文中,我们提出了WINGS,这是一种新型的MLLM,在纯文本对话和多模态理解方面都表现出色。 分析MLLM在多模态指令中的注意力发现,纯文本遗忘与从预图像文本到后图像文本的注意力转移有关。 据此,我们构建了额外的模块,作为增强学习器来补偿注意力转移。 互补的Visual Learner和Textual Learn ...