基本信息 标题: CiCo: Domain-Aware Sign Language Retrieval via Cross-Lingual Contrastive Learning 作者: Yiting Cheng, Fangyun Wei, Jianmin Bao, Dong Chen, Wenqiang Zhang 发表: CVPR 2023 arXiv: https://arxiv.org/abs/2303.12793 摘要 这项工作聚焦于手语检索——这是一个最近提出的手语理解任务。 手语检索由两个子任务组成:文本到手语视频检索(T2V)和手语视频到文本检索(V2T)。 与传统的视频-文本检索不同,手语视频不仅包含视觉信号,还因其作为自然语言的特性而具有丰富的语义信息。 基于这一特性,我们将手语检索形式化为一个跨语言检索问题,同时也是一个视频-文本检索任务。 具体而言,我们考虑了手语和自然语言的语言学特性,同时识别精细的跨语言(即手语-单词)映射,并在对比文本和手语视频的过程中,将它们投影到一个联合嵌入空间中。此过程被称为跨语言对比学习。 另一个挑战来源于数据稀缺问题——手语数 ...
基本信息 标题: Cross-lingual few-shot sign language recognition 作者: Yunus Can Bilge, Nazli Ikizler-Cinbis, Ramazan Gokberk Cinbis 发表: Pattern Recognition 2024 摘要 全球有超过150种手语,每种手语都有许多本地变体和数千种手势。 然而,为每种手语收集标注数据以训练模型是一项繁重且高度依赖专家的任务。 为了解决这一问题,本文提出了在跨语言环境下的少样本手语识别 (FSSLR) 问题。 核心动机是能够识别一种新的手势,即使该手势在训练过程中未曾见过,仅基于少量示例即可实现。 为了解决这一问题,我们提出了一种新颖的基于嵌入的框架,该框架首先提取基于视频和手部特征的时空视觉表示,以及手部关键点估计。 为了建立一个全面的测试基准,我们提出了三个覆盖多种语言的元学习 FSSLR 基准,并对所提出的框架进行了广泛评估。 实验结果表明,所提出方法在单语言和跨语言环境下的少样本手语识别任务中具有良好的效果和优越性。 介绍 单语言和跨语言少样本手语识别 (F ...
基本信息 标题: Multimodal Cross-Domain Few-Shot Learning for Egocentric Action Recognition 作者: Masashi Hatano, Ryo Hachiuma, Ryo Fujii, Hideo Saito 发表: ECCV 2024 arXiv: https://arxiv.org/abs/2405.19917 摘要 我们研究了一种新颖的跨域小样本学习任务(CD-FSL),该任务采用多模态输入和未标注的目标数据来进行第一人称视角(egocentric)动作识别。 本文同时解决了CD-FSL场景下第一人称动作识别的两个关键挑战:(1)第一人称视频(如日常生活 vs 工业领域)中极大的域间差异,以及(2)现实应用中的计算成本。 我们提出了MM-CDFSL,这是一种域自适应且计算效率高的方法,旨在增强对目标域的适应性并降低推理成本。 为了解决第一个挑战,我们提出将多模态蒸馏引入到学生RGB模型中,使用教师模型进行训练。 每个教师模型分别在其对应模态的源域和目标域数据上独立训练。 通过在多模态蒸馏过程中仅利用未标注 ...
基本信息 标题: Improving Sign Language Translation with Monolingual Data by Sign Back-Translation 作者: Hao Zhou, Wengang Zhou, Weizhen Qi, Junfu Pu, Houqiang Li 发表: CVPR 2021 arXiv: https://arxiv.org/abs/2105.12397 摘要 尽管在手语翻译(SLT)领域已有开创性工作,但存在一个非平凡的障碍,即平行手语文本数据的有限数量。 为了解决这个平行数据瓶颈,我们提出了一种手语回译(SignBT)方法,该方法将大量口语文本纳入SLT训练。 利用文本到gloss翻译模型,我们首先将单语种文本回译成其gloss序列。然后,通过在特征级别上拼接从估计的gloss到手语库中的片段,生成配对的手语序列。 最后,合成的平行数据作为端到端训练编码器-解码器SLT框架的强大补充。 为了促进SLT研究,我们进一步贡献了CSL-Daily,这是一个大规模的连续SLT数据集。它提供了口语翻译和gloss级标注。 主题围绕人 ...
基本信息 标题: Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks 作者: Bin Xiao, Haiping Wu, Weijian Xu, Xiyang Dai, Houdong Hu, Yumao Lu, Michael Zeng, Ce Liu, Lu Yuan 发表: CVPR 2024 arXiv: https://arxiv.org/abs/2311.06242 摘要 我们介绍了Florence-2,这是一种新型的视觉基础模型,具有统一、基于提示的表示,适用于各种计算机视觉和视觉-语言任务。 尽管现有的大型视觉模型在迁移学习方面表现出色,但它们在执行简单指令的多样化任务时遇到了困难,这种能力意味着需要处理各种空间层次和语义粒度的复杂性。 Florence-2被设计为以文本提示作为任务指令,并以文本形式生成期望的结果,无论是描述、目标检测、定位还是分割。 这种多任务学习设置需要大规模、高质量的标注数据。 为此,我们共同开发了FLD-5B,它包含对1260万张图像的54亿 ...
基本信息 标题: Editing Models with Task Arithmetic 作者: Gabriel Ilharco, Marco Tulio Ribeiro, Mitchell Wortsman, Suchin Gururangan, Ludwig Schmidt, Hannaneh Hajishirzi, Ali Farhadi 发表: ICLR 2023 arXiv: https://arxiv.org/abs/2212.04089 摘要 改变预训练模型的行为——例如,提高其在下游任务上的性能或减轻在预训练过程中学习的偏差——是开发机器学习系统时的常见做法。 在本工作中,我们提出了一种以任务向量为中心的新范式来引导神经网络的行为。 任务向量指定了预训练模型权重空间中的一个方向,使得在该方向上的移动可以改善任务性能。 我们通过从在任务上微调后的模型权重中减去预训练模型的权重来构建任务向量。 我们表明,这些任务向量可以通过如取反和加法等算术运算进行修改和组合,并且相应地引导结果模型的行为。 取反任务向量会降低目标任务上的性能,而对控制任务上的模型行为影响很小。 此外,将 ...
基本信息 标题: Visual Prompt Tuning 作者: Menglin Jia, Luming Tang, Bor-Chun Chen, Claire Cardie, Serge Belongie, Bharath Hariharan, Ser-Nam Lim 发表: ECCV 2022 arXiv: https://arxiv.org/abs/2203.12119 摘要 当前在适应预训练模型的方法中,涉及更新所有骨干参数,即全量微调。 本文介绍了视觉提示微调(VPT),作为大规模视觉Transformer模型中全量微调的高效且有效的替代方案。 受到最近在大规模语言模型高效调优方面的进展的启发,VPT在保持模型骨干冻结的同时,仅在输入空间引入少量(小于模型参数的1%)可训练参数。 通过在广泛下游识别任务上的大量实验,我们表明VPT相较于其他参数高效调优协议实现了显著的性能提升。 最重要的是,VPT在很多情况下甚至优于全量微调,无论是在模型容量还是训练数据规模上,同时降低了每项任务的存储成本。 代码可在https://github.com/kmnp/vpt获取。 方法 P ...
基本信息 标题: CLIP-guided Prototype Modulating for Few-shot Action Recognition 作者: Xiang Wang, Shiwei Zhang, Jun Cen, Changxin Gao, Yingya Zhang, Deli Zhao, Nong Sang 发表: IJCV 2023 arXiv: https://arxiv.org/abs/2303.02982 摘要 从大规模对比语言图像预训练如CLIP近期在众多下游任务中展现出显著的成功,但在具有挑战性的小样本动作识别(FSAR)任务上仍处于探索阶段。 在本工作中,我们旨在将CLIP强大的多模态知识迁移,以缓解数据稀缺导致的原型估计不准确问题,这是低样本环境中的关键问题。 为此,我们提出了一种名为CLIP-FSAR的CLIP引导原型调制框架,它包含两个关键组件:一个视频-文本对比目标和一个原型调制。 具体来说,前者通过对比视频及其对应的类别文本描述,弥合了CLIP与小样本视频任务之间的任务差异。 后者利用CLIP的可迁移文本概念,通过时间Transformer自适应 ...
学习笔记
未读基本信息 标题: How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites 作者: Zhe Chen, Weiyun Wang, Hao Tian, Shenglong Ye, Zhangwei Gao, Erfei Cui, Wenwen Tong, Kongzhi Hu, Jiapeng Luo, Zheng Ma, Ji Ma, Jiaqi Wang, Xiaoyi Dong, Hang Yan, Hewei Guo, Conghui He, Botian Shi, Zhenjiang Jin, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai ...
学习笔记
未读基本信息 标题: Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion 作者: Jiuhai Chen, Jianwei Yang, Haiping Wu, Dianqi Li, Jianfeng Gao, Tianyi Zhou, Bin Xiao arXiv: https://arxiv.org/abs/2412.04424 摘要 我们提出了一种名为 Florence-VL 的新型多模态大语言模型家族,该模型通过 Florence-2 生成视觉基础模型增强了视觉表示。 与广泛使用的基于对比学习的 CLIP 风格视觉 Transformer 不同,Florence-2 能够捕捉不同层次和方面的视觉特征,这使得它们更灵活,可以适应各种下游任务。 我们提出了一种新的特征融合架构和创新训练方案,有效地将 Florence-2 的视觉特征集成到预训练的 LLM,如 Phi 3.5 和 LLama 3 中。 特别是,我们提出了“depth-br ...