基本信息 标题: VisionZip: Longer is Better but Not Necessary in Vision Language Models 作者: Senqiao Yang, Yukang Chen, Zhuotao Tian, Chengyao Wang, Jingyao Li, Bei Yu, Jiaya Jia arXiv: https://arxiv.org/abs/2412.04467 摘要 近期视觉-语言模型在性能上的提升是通过增加视觉token的长度实现的,这使得它们比文本token长得多,并显著提高了计算成本。 然而,我们发现流行的视觉编码器(如CLIP和SigLIP)生成的视觉token存在大量冗余。 为了解决这个问题,我们提出了VisionZip,这是一种简单而有效的方法,它选择一组信息token作为语言模型的输入,减少视觉token的冗余,提高效率,同时保持模型性能。 所提出的VisionZip可以广泛应用于图像和视频理解任务,非常适合现实场景中的多轮对话,其中先前的方法往往表现不佳。 实验结果表明,VisionZip在几乎所有设置中至少比 ...
学习笔记
未读基本信息 标题: LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment 作者: Bin Zhu, Bin Lin, Munan Ning, Yang Yan, Jiaxi Cui, HongFa Wang, Yatian Pang, Wenhao Jiang, Junwu Zhang, Zongwei Li, Wancai Zhang, Zhifeng Li, Wei Liu, Li Yuan 发表: ICLR 2024 arXiv: https://arxiv.org/abs/2310.01852 摘要 视频语言(VL)预训练在多个下游任务中取得了显著的进步。 然而,当前的VL预训练框架难以扩展到多个模态(N模态,N≥3),超出视觉和语言之外。 因此,我们提出了LanguageBind,将语言作为不同模态之间的纽带,因为语言模态得到了充分探索且包含丰富的语义。 具体来说,我们冻结了VL预训练获得的语言编码器,然后使用对比学习训练其他模 ...
基本信息 标题: BSL-1K: Scaling up co-articulated sign language recognition using mouthing cues 作者: Samuel Albanie, Gül Varol, Liliane Momeni, Triantafyllos Afouras, Joon Son Chung, Neil Fox, Andrew Zisserman 发表: ECCV 2020 arXiv: https://arxiv.org/abs/2007.12131 摘要 近年来,在细粒度手势和动作分类以及机器翻译方面的进展,预示着自动手语识别成为现实的可能。 实现这一目标的关键障碍是缺乏适当的训练数据,这源于手语标注的高度复杂性和合格标注者的有限供应。 在本研究中,我们提出了一种新的可扩展方法,用于收集连续视频中的手语识别数据。 我们利用广播视频的弱对齐字幕以及关键词检测方法,自动定位1000小时视频中1000个手势词汇的手语实例。 我们的贡献如下: 我们展示了如何利用手势者的口型提示从视频数据中获得高质量的手语标注——结果是BSL-1K数 ...
基本信息 标题: A Token-level Contrastive Framework for Sign Language Translation 作者: Biao Fu, Peigen Ye, Liang Zhang, Pei Yu, Cong Hu, Yidong Chen, Xiaodong Shi 发表: ICASSP 2023 arXiv: https://arxiv.org/abs/2204.04916 摘要 手语翻译(SLT)是一种有望弥合聋人与听力人士之间沟通鸿沟的技术。 最近,研究人员采用了需要大规模语料库进行训练的神经机器翻译(NMT)方法来实现SLT。 然而,公开可用的SLT语料库非常有限,这导致了token表示的崩溃和生成token的不准确。 为了缓解这一问题,我们提出了ConSLT,这是一种新的针对手语翻译的token级对比学习框架,通过将token级对比学习融入SLT解码过程来学习有效的token表示。 具体来说,ConSLT在解码过程中将每个token及其由不同dropout掩码生成的对应token视为正对,然后随机从不在当前句子中的词汇中抽取K个to ...
基本信息 标题: A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation 作者: Yutong Chen, Fangyun Wei, Xiao Sun, Zhirong Wu, Stephen Lin 发表: CVPR 2022 arXiv: https://arxiv.org/abs/2203.04287 摘要 本文提出了一种简单的迁移学习基线用于手语翻译。 现有的手语数据集(例如PHOENIX-2014T、CSL-Daily)仅包含约1万至2万对手语视频、gloss标注和文本,这比训练口语翻译模型的典型平行数据小一个数量级。 因此,数据成为训练有效手语翻译模型的瓶颈。为了缓解这个问题,我们提出从包含大量外部监督的通用领域数据集逐步预训练模型,直至领域内数据集。 具体来说,我们在人类动作的通用领域和gloss标注的领域内数据集上预训练手语到gloss的视觉网络,并在多语言语料库的通用领域和gloss到文本语料库的领域内预训练gloss到文本的翻译网络。 联合模型通过一个名为视觉 ...
基本信息 标题: Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation 作者: Jungeun Kim, Hyeongwoo Jeon, Jongseong Bae, Ha Young Kim arXiv: https://arxiv.org/abs/2411.16789 摘要 手语翻译(SLT)是一项具有挑战性的任务,涉及将手语图像翻译成口语。 为了使SLT模型成功完成这项任务,它们必须弥合模态差距,并识别手语组件的细微变化,以准确理解其含义。 为了解决这些挑战,我们提出了一种新颖的gloss-free SLT框架,称为Multimodal Sign Language Translation(MMSLT),该框架利用了现成多模态大型语言模型(MLLMs)的表征能力。 具体来说,我们使用MLLMs生成手语组件的详细文本描述。 然后,通过我们提出的多模态语言预训练模块,我们将这些描述特征与手语视频特征相结合,使它们在口语句子空间内对齐。 我们的方法在基准数据集PHOENIX14T和CSL-Daily ...
基本信息 标题: Magnifier Prompt: Tackling Multimodal Hallucination via Extremely Simple Instructions 作者: Yuhan Fu, Ruobing Xie, Jiazhen Liu, Bangxiang Lan, Xingwu Sun, Zhanhui Kang, Xirong Li 发表: ICLR 2024 arXiv: https://arxiv.org/abs/2410.11701 全文摘要 这篇论文主要讨论了如何解决多模态大语言模型中的幻觉问题。 作者提出了一个名为MagPrompt的简单有效方法,通过极其简单的指令来处理幻觉问题。 MagPrompt基于两个关键原则设计各种有效的提示,并展示了鲁棒性: 多模态大语言模型应该更加关注图像; 当图像与模型内部知识存在冲突时,多模态大语言模型应优先考虑图像。 MagPrompt不需要训练即可使用,并且可以应用于开源和闭源模型,如GPT-4o和Gemini-pro。 实验结果表明,MagPrompt在多个数据集上表现良好,其效果甚至比更复杂的 ...
基本信息 标题: Towards Online Continuous Sign Language Recognition and Translation 作者: Ronglai Zuo, Fangyun Wei, Brian Mak 发表: EMNLP 2024 arXiv: https://arxiv.org/abs/2401.05336 摘要 研究连续手语识别(CSLR)对于弥合聋人和听力正常人士之间的沟通差距至关重要。 许多先前的研究已经使用连接主义时间分类(CTC)损失来训练他们的模型。 在推理过程中,这些基于CTC的模型通常需要整个手语视频作为输入来做出预测,这个过程被称为离线识别,它存在高延迟和大量内存使用的问题。 在本工作中,我们迈出了在线CSLR的第一步。我们的方法包括三个阶段: 开发手语字典; 在字典上训练孤立手语识别模型; 对输入手语序列采用滑动窗口方法,将每个手势片段输入到优化后的模型进行在线识别。 此外,我们的在线识别模型可以通过集成词义到文本网络来扩展以支持在线翻译,并可以增强任何离线模型的表现。 通过这些扩展,我们的在线方法在三个流行的基准测试中实现了 ...
基本信息 标题: Number it: Temporal Grounding Videos like Flipping Manga 作者: Yongliang Wu, Xinting Hu, Yuyang Sun, Yizhou Zhou, Wenbo Zhu, Fengyun Rao, Bernt Schiele, Xu Yang arXiv: https://arxiv.org/abs/2411.10332 摘要 视频大型语言模型(Vid-LLMs)在理解视频内容以进行问答对话方面取得了显著进展。 然而,它们在将这种视觉理解扩展到需要精确时间定位的任务上存在困难,这些任务被称为视频时间定位(VTG)。 为了解决这一差距,我们引入了数字提示(NumPro),这是一种新颖的方法,它通过为每个视频帧添加独特的数字标识符,使Vid-LLMs能够将视觉理解与时间定位相结合。 将视频视为一系列编号的帧图像,NumPro将VTG转化为一个直观的过程:按顺序翻阅漫画分镜。 这使得Vid-LLMs能够“阅读”事件时间线,准确地将视觉内容与相应的时序信息联系起来。 我们的实验表明,NumPro显著提 ...
基本信息 标题: Improved Baselines with Visual Instruction Tuning 作者: Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee 发表: CVPR 2024 arXiv: https://arxiv.org/abs/2310.03744 摘要 大型多模态模型(LMM)最近在视觉指令调整方面取得了令人鼓舞的进展。 在本文中,我们首次系统地研究了在LLaVA框架下,LMM在受控环境中的设计选择。 我们表明,LLaVA中的全连接视觉-语言连接器出人意料地强大且数据高效。通过简单的LLaVA修改,即使用CLIP-ViT-L-336px进行MLP投影,并添加以学术任务为导向的VQA数据以及带有响应格式提示,我们建立了更强的基线,在11个基准测试中达到了最先进水平。 我们的最终13B检查点仅使用了120万条公开数据,并在单个8-A100节点上完成完整训练仅需大约1天。 此外,我们还对LMM中的开放性问题进行了初步探索,包括扩展到更高分辨率的输入、组合能力以及模型幻觉等。 我们希望这使最先进的LMM研究 ...