基本信息 标题: VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs 作者: Zesen Cheng, Sicong Leng, Hang Zhang, Yifei Xin, Xin Li, Guanzheng Chen, Yongxin Zhu, Wenqi Zhang, Ziyang Luo, Deli Zhao, Lidong Bing arxiv: https://arxiv.org/abs/2406.07476 摘要 本文介绍了VideoLLaMA 2,一套旨在提升视频和音频任务中时空建模和音频理解的Video Large Language Models(视频-LLMs)。 在继承前代的基础上,VideoLLaMA 2引入了定制的时空卷积(STC)连接器,能够有效捕捉视频数据的复杂时空动态。 此外,我们通过联合训练将音频分支整合到模型中,从而通过无缝融合音频线索丰富了模型的多模态理解能力。 在多项选择视频问答(MC-VQA)、开放式视频问答(OE-VQ ...
基本信息 标题: Flamingo: a Visual Language Model for Few-Shot Learning 作者: Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob L Menick, Sebastian Borgeaud, Andy Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikołaj Bińkowski, Ricardo Barreira, Oriol Vinyals, Andrew Zisserman, Karén Simonyan 发表: ...
基本信息 标题: Visual Instruction Tuning 作者: Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee 发表: Advances in Neural Information Processing Systems 36 (NeurIPS 2023) arxiv: https://arxiv.org/abs/2304.08485 项目主页: https://llava-vl.github.io/ 摘要 使用机器生成的指令遵循数据对大型语言模型(LLMs)进行指令微调已被证明可以提升新任务上的零样本能力,但在多模态领域这一想法探索较少。 我们首次尝试使用仅语言GPT-4生成多模态语言-图像指令遵循数据。 通过对这些生成数据进行指令微调,我们引入了LLaVA:大型语言和视觉助手,这是一个端到端训练的大规模多模态模型,它将视觉编码器和LLM连接起来,以实现通用视觉和语言理解。 为了促进未来对视觉指令遵循的研究,我们构建了两个具有多样性和挑战性应用任务的评估基准。 我们的实验表明,LLaVA展示了令人印象深刻的跨模态聊 ...
基本信息 标题: Sign Language Transformers: Joint End-to-end Sign Language Recognition and Translation 作者: Necati Cihan Camgo, Oscar Kollerq, Simon Hadfield and Richard Bowden 发表: 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) DOI: 10.1109/CVPR42600.2020.01004 摘要 先前关于手语翻译的研究表明,拥有中级手语词汇表示(有效识别单个手势)可以显著提高翻译性能。事实上,当前最先进的翻译技术需要词汇级别的标记化才能运行。我们提出了一种基于Transformer的新型架构,该架构可以联合学习连续手语识别和翻译,并且可以端到端地训练。 这是通过使用连接主义时序分类(CTC)损失将识别和翻译问题绑定到单个统一架构中实现的。这种联合方法不需要任何真实时间信息,同时解决了两个相互依赖的序列到序列学习问题, ...
引言 在自然语言处理(NLP)领域,如何高效地将连续的文本序列分割成有意义的单元是一项基础且重要的任务。传统的基于规则的方法或者统计方法在处理大规模数据时往往面临着效率低下和灵活性不足的问题。近年来,Byte Pair Encoding (BPE) 算法因其简单有效而成为了一种流行的分词技术。本文旨在介绍BPE算法的基本原理及其在实际应用中的优势。 BPE算法简介 BPE是一种无监督的分词方法,它通过对训练语料库进行分析,逐步合并最频繁出现的字符对来构建词汇表。这种方法能够有效地处理多种语言,尤其是当面临大量未见过的数据时表现出色。 算法步骤 初始化词汇表: Step1:从训练语料库中提取所有唯一的字符作为初始词汇表 VVV。 迭代过程: Step2:计算所有可能的字符对出现的频率,找出出现频率最高的字符对 x,x′x, x'x,x′。 Step3:将该字符对替换为一个新的词元 xx′xx'xx′,并在训练语料库中进行更新。 Step4:将新的词元 xx′xx'xx′ 添加到词汇表 VVV 中。 这一过程会重复进行,直到达到预定的词汇表 ...
学习笔记
未读do_sample do_sample 参数控制是否使用采样方法生成输出。当 do_sample=True 时,模型会根据下一个 token 的概率分布进行采样;当 do_sample=False 时,模型会选择概率最大的 token 作为输出。 temperature temperature 参数通过影响 softmax 控制生成输出时每个 token 的概率分布的平滑程度。 不考虑 temperature 参数,softmax 概率分布的计算公式为: prob(xi)=exi∑j=1nexj\text{prob}(x_i) = \frac{e^{x_i}}{\sum_{j=1}^{n} e^{x_j}} prob(xi)=∑j=1nexjexi 加入 temperature 参数后,softmax 概率分布的计算公式为: prob(xi,t)=exit∑j=1nexjt\text{prob}(x_i,t) = \frac{e^{\frac{x_i}{t}}}{\sum_{j=1}^{n} e^{\frac{x_j}{t}}} prob(xi,t)=∑j=1netxj ...
赛事链接:https://www.aicrowd.com/challenges/amazon-kdd-cup-2024-multi-task-online-shopping-challenge-for-llms 简述 想象一下,您正试图通过网店为朋友的生日寻找一份完美的礼物。您必须浏览无数产品,阅读评论以衡量质量,比较价格,最后决定购买。这个过程非常耗时,有时还会因为信息量和可选项太多而不知所措。网上购物的复杂性在于,既要在产品、评论和价格的网络中穿梭,又要根据自己的理解和偏好做出最佳决定,这可能会让人不知所措。 这项挑战旨在利用大语言模型(LLM)简化这一过程。虽然目前的技术往往无法理解特定购物术语和知识的细微差别、客户行为、偏好以及产品和语言的多样性,但我们相信,大语言模型具有多任务和少量学习的能力,有潜力驾驭如此复杂的在线购物。在这一潜力的激励下,本挑战赛推出了 ShopBench,这是一个模拟现实世界中在线购物复杂性的综合基准。我们邀请参与者设计功能强大的 LLM,以改进最先进的技术如何更好地帮助我们浏览网上购物,使其成为一种更直观、更令人满意的体验,就像现实生活中知识渊博的购 ...
简介(Introduction) 本项目是一个基于 Transformer 的中文对联生成器,使用 PyTorch 构建模型,使用 Gradio 构建 Web UI。 数据集:https://www.kaggle.com/datasets/marquis03/chinese-couplets-dataset GitHub 仓库:https://github.com/Marquis03/Chinese-Couplets-Generator-based-on-Transformer Gitee 仓库:https://gitee.com/marquis03/Chinese-Couplets-Generator-based-on-Transformer 项目结构(Structure) 12345678910111213141516171819202122232425262728.├── config│ ├── __init__.py│ └── config.py├── data│ ├── fixed_couplets_in.txt│ └── fixed_couplets_out ...
Scheduler Warm-up + CosineAnnealingLR 1234567891011121314import mathwarm_up_iter = 10T_max = 50lr_max = 0.1lr_min = 1e-5def WarmupCosineAnnealingLR(cur_iter): if cur_iter < warm_up_iter: return (lr_max - lr_min) * (cur_iter / warm_up_iter) + lr_min else: return lr_min + 0.5 * (lr_max - lr_min) * ( 1 + math.cos((cur_iter - warm_up_iter) / (T_max - warm_up_iter) * math.pi) ) 前 warm_up_iter 步,学习率从 lr_min 线性增加到 lr_max;后 T_max - warm_up_iter 步,学习率按照余弦退火从 lr_ma ...
VAE 简介 变分自编码器(Variational Autoencoder,VAE)是一种深度学习中的生成模型,它结合了自编码器(Autoencoder, AE)和概率建模的思想,在无监督学习环境中表现出了强大的能力。VAE 在 2013 年由 Diederik P. Kingma 和 Max Welling 首次提出,并迅速成为生成模型领域的重要组成部分。 基本原理 自编码器(AE)基础: 自编码器是一种神经网络结构,通常由两部分组成:编码器(Encoder)和解码器(Decoder)。原始数据通过编码器映射到一个低维的潜在空间(或称为隐空间),这个低维向量被称为潜变量(latent variable)。然后,潜变量再通过解码器重构回原始数据的近似版本。在训练过程中,自编码器的目标是使得输入数据经过编码-解码过程后能够尽可能地恢复原貌,从而学习到数据的有效表示。 VAE的引入与扩展: VAE 将自编码器的概念推广到了概率框架下。在 VAE 中,潜变量不再是确定性的,而是被赋予了概率分布。具体来说,对于给定的输入数据,编码器不直接输出一个点估计值,而是输出潜变量的均值和方差(假设潜变量 ...