基本信息 标题: PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models 作者: Fanxu Meng, Zhaohui Wang, Muhan Zhang 发表: NeurIPS 2024 arXiv: https://arxiv.org/abs/2404.02948 摘要 为了参数高效地微调(PEFT)大型语言模型(LLMs),低秩适应(LoRA)方法通过两个矩阵的乘积近似模型变化 ΔW∈Rm×n\Delta W \in \mathbb{R}^{m \times n}ΔW∈Rm×n,其中 A∈Rm×rA \in \mathbb{R}^{m \times r}A∈Rm×r 和 B∈Rr×nB \in \mathbb{R}^{r \times n}B∈Rr×n,且 r≪min(m,n)r \ll \min(m, n)r≪min(m,n)。AAA 用高斯噪声初始化,而 BBB 用零初始化。LoRA 冻结原始模型 WWW 并更新“Noise & Zero” ...
基本信息 标题: Direct Preference Optimization: Your Language Model is Secretly a Reward Model 作者: Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, Chelsea Finn 发表: NeurIPS 2024 arXiv: https://arxiv.org/abs/2305.18290 摘要 尽管大规模无监督语言模型(LM)能够学习广泛的世界知识和一些推理技能,但由于其训练过程完全无监督,因此精确控制其行为是困难的。 现有的获取此类可控性的方法收集人类对模型生成相对质量的标签,并微调无监督LM以符合这些偏好,通常采用基于人类反馈的强化学习(RLHF)。 然而,RLHF是一个复杂且往往不稳定的程序,首先拟合一个反映人类偏好的奖励模型,然后使用强化学习对大型无监督LM进行微调,以最大化这个估计的奖励,同时不偏离原始模型太远。 在本文中,我们引入了RLHF中奖励模型的新参数化方法,这使 ...
基本信息 标题: LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models 作者: Yukang Chen, Shengju Qian, Haotian Tang, Xin Lai, Zhijian Liu, Song Han, Jiaya Jia 发表: ICLR 2024 arXiv: https://arxiv.org/abs/2309.12307 摘要 我们提出了LongLoRA,一种高效的微调方法,它通过有限的计算成本扩展了预训练大型语言模型(LLM)的上下文大小。 通常,使用长上下文大小训练LLM在计算上非常昂贵,需要大量的训练时间和GPU资源。例如,在 819281928192 个上下文长度的训练中,自注意力层的计算成本是 204820482048 个上下文长度的 161616 倍。 在本文中,我们从两个方面加速了LLM上下文扩展。 一方面,尽管在推理过程中需要密集的全局注意力,但通过稀疏局部注意力可以有效地进行模型微调。提出的移位稀疏注意力(S2-Attn)有效地实现了上下文扩展,与使用 ...
基本信息 标题: NEFTune: Noisy Embeddings Improve Instruction Finetuning 作者: Neel Jain, Ping-yeh Chiang, Yuxin Wen, John Kirchenbauer, Hong-Min Chu, Gowthami Somepalli, Brian R. Bartoldson, Bhavya Kailkhura, Avi Schwarzschild, Aniruddha Saha, Micah Goldblum, Jonas Geiping, Tom Goldstein 发表: ICLR 2023 arXiv: https://arxiv.org/abs/2310.05914 摘要 我们表明,通过简单的增强,语言模型微调可以得到改进,有时甚至可以显著提高。 NEFTune在训练过程中向嵌入向量添加噪声。 使用Alpaca对LLaMA-2-7B进行标准微调,在AlpacaEval上的成绩为29.79%,而使用带噪声的嵌入时,成绩上升至64.69%。NEFTune在现代指令数据集上也优于强大的基线。 使 ...
基本信息 标题: QLoRA: Efficient Finetuning of Quantized LLMs 作者: Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer 发表: NeurIPS 2023 arXiv: https://arxiv.org/abs/2305.14314 摘要 我们提出了QLoRA,一种高效的微调方法,能够将内存使用量降低到足以在单个48GB GPU上微调一个65B参数模型,同时保持完整的16位微调任务性能。 QLoRA通过冻结的、4位量化预训练语言模型将梯度反向传播到低秩适配器(LoRA)。 我们最好的模型系列,命名为Guanaco,在Vicuna基准测试中优于所有之前公开发布的模型,达到ChatGPT性能的99.3%,而只需在单个GPU上微调24小时。 QLoRA引入了多项创新以节省内存而不牺牲性能: 4-bit NormalFloat,一种信息论上对正态分布权重最优的新数据类型; Double Quantization,通过量化量化常数来减少平均内存占用; Paged Opt ...
基本信息 标题: Contrastive Learning for Sign Language Recognition and Translation 作者: Shiwei Gan, Yafeng Yin, Zhiwei Jiang, K. Xia, Linfu Xie, Sanglu Lu 发表: IJCAI 2023 摘要 当前端到端手语处理架构中广泛存在两个问题。一个是 CTC 尖峰 现象,这削弱了连续手语识别(CSLR)中的视觉表征能力。另一个是 暴露偏差 问题,这导致在手语翻译(SLT)推理过程中翻译错误的累积。 在这篇论文中,我们通过引入对比学习来解决这些问题,旨在增强视觉级特征表示和语义级错误容忍度。 具体来说,为了缓解 CTC 尖峰现象并增强视觉级表示,我们设计了一种视觉对比损失,通过最小化同一手语视频中不同增强样本帧之间的视觉特征距离,从而使模型能够进一步探索特征,利用大量未标记的帧以无监督的方式。 为了缓解暴露偏差问题并提高语义级错误容忍度,我们设计了一种语义对比损失,通过将预测的句子重新输入到语义模块,并比较真实序列和预测序列的特征,使模型暴露于自身的错误中。 ...
基本信息 标题: CDFSL-V: Cross-Domain Few-Shot Learning for Videos 作者: Sarinda Samarasinghe, Mamshad Nayeem Rizve, Navid Kardan, Mubarak Shah 发表: ICCV 2023 arXiv: https://arxiv.org/abs/2309.03989 摘要 少量样本视频动作识别是一种有效的方法,只需少量标记示例即可识别新类别,从而减少了收集和标注大规模视频数据集的挑战。 现有的视频动作识别方法依赖于同一领域的大型标记数据集。然而,这种设置并不现实,因为新类别可能来自不同的数据领域,这些领域可能具有不同的时空特征。源域和目标域之间的这种差异可能构成重大挑战,使传统的少量样本动作识别技术失效。 为了解决这个问题,在本工作中,我们提出了一种新的跨域少量样本视频动作识别方法,该方法利用自监督学习和课程学习来平衡源域和目标域的信息。 具体来说,我们的方法采用基于掩码自动编码器的自监督训练目标,以自监督的方式从源数据和目标数据中学习。然后,一个渐进式课程学习平衡了从源数据 ...
基本信息 标题: Top-nσn\sigmanσ: Not All Logits Are You Need 作者: Chenxia Tang, Jianchun Liu, Hongli Xu, Liusheng Huang arXiv: https://arxiv.org/abs/2411.07641 摘要 大型语言模型(LLMs)通常使用贪婪解码或低温采样进行推理任务,这反映了一种在多样性和准确性之间的权衡观念。 我们通过引入 top-nσ 这一新颖的采样方法挑战了这一传统方法。该方法直接基于 pre-softmax logits,利用统计阈值进行操作。 我们的核心见解是,logits 自然分为高斯分布的噪声区域和独立的信息区域,从而在不进行复杂概率操作的情况下,实现了高效的token过滤。 与现有方法(例如,top-p、min-p)在较高温度下无意中包含更多噪声token不同,top-nσ 能够在不同温度缩放情况下保持稳定的采样空间。 我们还从理论上分析了 top-nσ 的行为,以更好地理解其特性。 通过在四个专注于推理的数据集上的广泛实验结果表明,我们的方法不仅优于现有的采样方 ...
学习笔记
未读基本信息 标题: CoSign: Exploring Co-occurrence Signals in Skeleton-based Continuous Sign Language Recognition 作者: Peiqi Jiao, Yuecong Min, Yanan Li, Xiaotao Wang, Lei Lei, Xilin Chen 发表: ICCV 2023 摘要 共现信号(例如手势、面部表情和唇形模式)在连续手语识别(CSLR)中起着至关重要的作用。 与RGB数据相比,骨架数据提供了一种更高效、更简洁的表示形式,为CSLR中共现信号的探索奠定了良好的基础。 然而,骨架数据通常仅作为辅助视觉定位的工具,未能获得足够的关注。 在本文中,我们提出了一种简单但有效的基于GCN(图卷积网络)的方法,称为CoSign,用于整合共现信号并探索骨架数据在CSLR中的潜力。 具体来说,我们提出了一种面向组的GCN,以更好地利用每种信号的知识,并通过一种互补的正则化方法来防止信号间复杂的共适应。 此外,我们提出了一种双流框架,逐步融合骨架数据中的静态和动态信息。 在三个公开的CSL ...
基本信息 标题: Visual Alignment Pre-training for Sign Language Translation 作者: Peiqi Jiao, Yuecong Min, Xilin Chen 发表: ECCV 2024 摘要 手语翻译(Sign Language Translation, SLT)旨在将手语视频翻译为文本句子。 尽管gloss序列为SLT中的视觉表征学习提供了有效的对齐监督信息,但标注gloss的高成本限制了其可扩展性。 现有工作在gloss-free的情况下尚未取得令人满意的结果。 在本研究中,我们将这一挑战归因于视觉token和文本token之间的灵活对应关系,并通过从文本句子中构建类似gloss的约束来解决这一问题。 具体而言,我们提出了一种 视觉对齐预训练(Visual Alignment Pre-training, VAP) 方案,通过以贪婪的方式对齐视觉和文本token来利用视觉信息。 VAP方案增强了视觉编码器捕获语义感知视觉信息的能力,并促进了与在大规模语料库上预训练的翻译模块的更好适配。 针对四个SLT基准的实验结果证明了V ...