基本信息 标题: MLSLT: Towards Multilingual Sign Language Translation 作者: Aoxiong Yin, Zhou Zhao, Weike Jin, Meng Zhang, Xingshan Zeng, Xiaofei He 发表: CVPR 2022 主页: https://mlslt.github.io/ 摘要 截至目前,大部分研究集中在双语手语翻译(BSLT)。然而,此类模型在构建多语言手语翻译系统中效率低下。 为了解决这个问题,我们引入了多语言手语翻译(MSLT)任务。该任务旨在使用单个模型完成多种手语和口语之间的翻译。 随后,我们提出了MSLT的第一个模型——MLSLT,它包含两种新颖的动态路由机制,用于控制不同语言之间参数共享的程度。层内语言特定路由通过层内的软门控制从标记级别通过共享参数和语言特定参数的数据流动比例,层间语言特定路由通过层间的软门控制和学习不同语言在语言层面的数据流动路径。 为了评估MSLT的性能,我们收集了第一个公开的多语言手语理解数据集——Spreadthesign-Ten(SP-10),该数据集 ...
基本信息 标题: X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs 作者: Sirnam Swetha, Jinyu Yang, Tal Neiman, Mamshad Nayeem Rizve, Son Tran, Benjamin Yao, Trishul Chilimbi, Mubarak Shah 发表: ECCV 2024 arXiv: https://arxiv.org/abs/2407.13851 摘要 近期在多模态大型语言模型(MLLMs)方面的进步,通过将视觉感知能力整合到大型语言模型(LLMs)中,已经彻底改变了视觉-语言理解领域。 该领域的流行趋势涉及使用来自视觉-语言对比学习(CL)的视觉编码器,擅长捕捉整体表示,但在捕捉详细局部模式方面存在困难。 在本工作中,我们通过结合通过掩码图像建模(MIM)获得的高频和详细视觉表示与由CL捕获的语义丰富的低频表示,来增强MLLMs的视觉表示。为了实现这一目标,我们引入了X-Former,这是一个轻量级的Transformer模块,通 ...
基本信息 标题: VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval 作者: Junjie Zhou, Zheng Liu, Shitao Xiao, Bo Zhao, Yongping Xiong 发表: ACL 2024 main conference arXiv: https://arxiv.org/abs/2406.04292 摘要 多模态检索在实践中的应用越来越广泛。然而,现有的检索器大多以文本为导向,缺乏处理视觉信息的能力。尽管存在像CLIP这样的视觉-语言模型,但当前的方法在表示纯文本和纯图像数据方面受到严重限制。 在本工作中,我们提出了一种新的嵌入模型VISTA,用于通用多模态检索。 我们的工作提出了三个方面的技术贡献: 我们引入了一种灵活的架构,通过引入视觉标记嵌入,将强大的文本编码器与图像理解能力相结合。 我们开发了两种数据生成策略,这些策略带来了高质量的合成图像-文本,以促进嵌入模型的训练。 我们引入了一种多阶段训练算法,该算法首先使用大量弱标签数据将视觉标记嵌入与 ...
学习笔记
未读基本信息 标题: MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding 作者: Yue Cao, Yangzhou Liu, Zhe Chen, Guangchen Shi, Wenhai Wang, Danhuai Zhao, Tong Lu arXiv: https://arxiv.org/abs/2410.11829 摘要 尽管在通过跨模态交互理解复杂人类意图的多模态大型语言模型(MLLMs)方面取得了显著进展,但捕捉复杂的图像细节仍然具有挑战性。 先前的方法通过集成多个视觉编码器来增强视觉细节,引入了冗余和计算开销。我们观察到,大多数MLLMs仅利用视觉编码器的最后一层特征图进行视觉表示,忽略了浅层特征图中丰富的细粒度信息。 为了解决这个问题,我们提出了MMFuser,这是一种简单而有效的多层特征融合器,能够高效地整合来自视觉Transformer(ViTs)的深层和浅层特征。 具体来说,它利用语义对齐的深层特征作为Query,动态地从浅层特征中 ...
基本信息 标题: Sign2GPT Leveraging Large Language Models for Gloss-Free Sign Language Translation 作者: Ryan Wong, Necati Cihan Camgoz, Richard Bowden 发表: ICLR2024 arXiv: https://arxiv.org/abs/2405.04164 摘要 自动手语翻译需要整合计算机视觉和自然语言处理技术,以有效弥合手语和口语之间的沟通鸿沟。然而,由于大规模训练数据支持手语翻译的不足,我们需要利用口语资源。 我们提出了一种新颖的手语翻译框架,名为Sign2GPT,它通过轻量级适配器利用大规模预训练的视觉和语言模型,实现gloss-free手语翻译。轻量级适配器对于手语翻译至关重要,因为它们克服了有限数据集大小和训练长手语视频时的计算需求。 我们还提出了一种新的预训练策略,该策略指导我们的编码器从自动提取的伪gloss中学习手语表示,而无需gloss顺序信息或标注。 我们在两个公开的手语翻译基准数据集上评估了我们的方法,即RWTH-PHOENIX- ...
基本信息 标题: Fine-tuned CLIP Models are Efficient Video Learners 作者: Hanoona Rasheed, Muhammad Uzair Khattak, Muhammad Maaz, Salman Khan, Fahad Shahbaz Khan 发表: CVPR 2023 arXiv: https://arxiv.org/abs/2212.03640 这项工作探讨了名为ViFi-CLIP(Video Fine-tuned CLIP)的简单基线在将图像预训练的CLIP适应视频领域方面的能力。图示比较了vanilla CLIP及其针对视频进行适配的几个变体(在Kinetics-400上训练,在UCF-101和HMDB-51上评估)的无监督性能。从ViFi-CLIP(第4列)获得的视频嵌入的t-SNE可视化与vanilla CLIP(第1列)、单独调优的视频文本CLIP(第2列)和图像编码器(第3列)的嵌入以及最新的最先进工作XCLIP(最后一列)的嵌入进行了比较(Δ表示与XCLIP的差异)。ViFi-CLIP的嵌入具有更好的可分 ...
学习笔记
未读基本信息 标题: Factorized Learning Assisted with Large Language Model for Gloss-free Sign Language Translation 作者: Zhigang Chen, Benjia Zhou, Jun Li, Jun Wan, Zhen Lei, Ning Jiang, Quan Lu, Guoqing Zhao 发表: LREC-COLING 2024 arXiv: https://arxiv.org/abs/2403.12556 摘要 先前的手语翻译(SLT)方法通过依赖gloss注释实现卓越的性能。然而,标注高质量gloss是一项劳动密集型任务,这限制了SLT的进一步发展。 尽管一些方法通过联合训练视觉编码器和翻译网络来追求gloss-free SLT,但这些努力仍然存在性能不佳和利用强大的大语言模型(LLM)不足的问题。 最严重的是,我们发现直接将LLM引入SLT会导致视觉表示学习不足,因为LLM主导了学习曲线。 为了解决这些问题,我们提出了Factorized Learning assisted ...
基本信息 标题: CLIP4Clip An empirical study of CLIP for end to end video clip retrieval and captioning 作者: Huaishao Luo, Lei Ji, Ming Zhong, Yang Chen, Wen Lei, Nan Duan, Tianrui Li arXiv: https://arxiv.org/abs/2104.08860 摘要 视频片段检索和视频描述任务在多模态研究中扮演着至关重要的角色,是多模态理解和生成的基础研究问题。 CLIP(对比语言-图像预训练)模型展示了从网络收集的图像-文本数据集中学习视觉概念的力量。 在本文中,我们提出了一种CLIP4Clip模型,以端到端的方式将图像-文本预训练的CLIP模型的知识迁移到视频-文本任务。 此外,我们进行了多项实证研究,包括: 图像特征是否足以用于视频-文本检索和视频描述? 基于CLIP在大型视频-文本数据集上的后预训练如何影响性能? 建模视频帧之间时间依赖关系的实际机制是什么? 模型的超参数敏感性。 大量的实验结果表明,从C ...
基本信息 标题: VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs 作者: Zesen Cheng, Sicong Leng, Hang Zhang, Yifei Xin, Xin Li, Guanzheng Chen, Yongxin Zhu, Wenqi Zhang, Ziyang Luo, Deli Zhao, Lidong Bing arXiv: https://arxiv.org/abs/2406.07476 摘要 本文介绍了VideoLLaMA 2,一套旨在提升视频和音频任务中时空建模和音频理解的Video Large Language Models(视频-LLMs)。 在继承前代的基础上,VideoLLaMA 2引入了定制的时空卷积(STC)连接器,能够有效捕捉视频数据的复杂时空动态。 此外,我们通过联合训练将音频分支整合到模型中,从而通过无缝融合音频线索丰富了模型的多模态理解能力。 在多项选择视频问答(MC-VQA)、开放式视频问答(OE-VQ ...
基本信息 标题: Flamingo: a Visual Language Model for Few-Shot Learning 作者: Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob L Menick, Sebastian Borgeaud, Andy Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikołaj Bińkowski, Ricardo Barreira, Oriol Vinyals, Andrew Zisserman, Karén Simonyan 发表: ...