原创学习笔记大模型论文笔记手语翻译多模态

【论文笔记】SCOPE: Sign Language Contextual Processing with Embedding from LLMs

发表于2024-11-16更新于2025-01-05

字数总计:846阅读时长:2分钟阅读量: 成都评论数:

AI-摘要

小嗷犬 GPT

AI初始化中...

介绍自己 🙈

生成本文简介 👋

推荐相关文章 📖

前往主页 🏠

前往爱发电购买

学习笔记大模型论文笔记手语翻译多模态

【论文笔记】SCOPE: Sign Language Contextual Processing with Embedding from LLMs

小嗷犬2024-11-162025-01-05

基本信息

标题: SCOPE: Sign Language Contextual Processing with Embedding from LLMs
作者: Yuqi Liu, Wenqian Zhang, Sihan Ren, Chengyu Huang, Jingyi Yu, Lan Xu
arXiv: https://arxiv.org/abs/2409.01073

摘要

手语，全球约7000万聋人使用，是一种视觉语言，传达视觉和语境信息。

基于视觉的手语识别（SLR）和翻译（SLT）的当前方法由于数据集多样性有限和忽略语境相关信息，在对话场景中存在困难。

为了解决这些挑战，我们引入了SCOPE（基于LLM嵌入的手语语境处理），这是一种新颖的语境感知视觉SLR和SLT框架。

对于SLR，我们通过多模态编码器利用对话语境来增强Gloss级识别。

对于随后的SLT，我们通过结合先前的对话语境进一步微调大型语言模型（LLM）。

我们还贡献了一个新的手语数据集，其中包含72小时的中国手语视频，涉及各种场景的语境对话。

实验结果表明，我们的SCOPE框架在多个数据集上实现了最先进的性能，包括Phoenix-2014T、CSL-Daily和我们的SCOPE数据集。

此外，对聋人社区参与者的调查进一步验证了我们的方法在实际应用中的鲁棒性和有效性。

我们的数据集和代码将开源，以促进进一步的研究。

(a) 我们的SCOPE数据集包含丰富的上下文信息和手语视频。
(b) 我们的SCOPE框架是一个强大的基于上下文的手语识别/翻译模型，能够识别基于对话的手语手势，预测词素，并在LLMs的帮助下生成口语句子。

方法

SCOPE框架

我们的嵌入对齐编码器将运动特征转换为嵌入，该嵌入能够捕捉整个运动序列的语言信息。将嵌入空间与冻结的LLM对齐，可以实现整合先前句子的上下文信息以识别gloss。最后，Q-LoRA微调通过辅助上下文信息，将预测的gloss翻译成口语。

SCOPE数据集

给定对话文本，经验丰富的手语者会制作相应的手语视频，并附上自我标注的词汇表。对于每个视频，其他手语者根据词汇表和文本复制数据。

数据集比较。广泛使用的手语数据集的关键统计数据。我们的数据集是目前包含对话上下文信息的中国手语（CSL）数据集中最大的数据集。

实验

主实验

消融实验

总结

我们提出了SCOPE数据集，这是首个包含词义和文本注释的基于对话的中文手语数据集。

该数据集包含从专业聋人群体收集的72.4小时手语视频，并辅以59,231个文本注释。

基于此数据集，我们引入了SCOPE框架，这是一个专门为解决手语识别（SLR）和手语翻译（SLT）任务而设计的强大流程，具有丰富的上下文信息。

我们的全面评估证明了我们方法的有效性以及我们的数据集为手语社区带来的显著改进。

我们相信，SCOPE将催化基于上下文的手语处理未来的研究。

小嗷犬

分享技术，记录生活

原创【论文笔记】SCOPE: Sign Language Contextual Processing with Embedding from LLMs

打赏作者

感谢你赐予我前进的力量

WeChat Pay
Alipay

赞赏者名单

因为你们的支持让我意识到写文章的价值🙏

运营模式与责任

本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自小嗷犬！

大模型44 论文笔记65 手语翻译20 多模态41

喜欢这篇文章的人也看了

【论文笔记】Factorized Learning Assisted with Large Language Model for Gloss-free Sign Language Translation

【论文笔记】Improving Gloss-free Sign Language Translation by Reducing Representation Density

【论文笔记】Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation

【论文笔记】Sign2GPT Leveraging Large Language Models for Gloss-Free Sign Language Translation

【论文笔记】Towards Privacy-Aware Sign Language Translation at Scale

【论文笔记】Attention Prompting on Image for Large Vision-Language Models

评论

✅ 你无需删除空行，直接评论以获取最佳展示效果