基本信息 标题: Visual Instruction Tuning 作者: Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee 发表: Advances in Neural Information Processing Systems 36 (NeurIPS 2023) arXiv: https://arxiv.org/abs/2304.08485 项目主页: https://llava-vl.github.io/ 摘要 使用机器生成的指令遵循数据对大型语言模型(LLMs)进行指令微调已被证明可以提升新任务上的零样本能力,但在多模态领域这一想法探索较少。 我们首次尝试使用仅语言GPT-4生成多模态语言-图像指令遵循数据。 通过对这些生成数据进行指令微调,我们引入了LLaVA:大型语言和视觉助手,这是一个端到端训练的大规模多模态模型,它将视觉编码器和LLM连接起来,以实现通用视觉和语言理解。 为了促进未来对视觉指令遵循的研究,我们构建了两个具有多样性和挑战性应用任务的评估基准。 我们的实验表明,LLaVA展示了令人印象深刻的跨模态聊 ...
基本信息 标题: Sign Language Transformers: Joint End-to-end Sign Language Recognition and Translation 作者: Necati Cihan Camgo, Oscar Kollerq, Simon Hadfield and Richard Bowden 发表: 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) DOI: 10.1109/CVPR42600.2020.01004 摘要 先前关于手语翻译的研究表明,拥有中级手语词汇表示(有效识别单个手势)可以显著提高翻译性能。事实上,当前最先进的翻译技术需要词汇级别的标记化才能运行。我们提出了一种基于Transformer的新型架构,该架构可以联合学习连续手语识别和翻译,并且可以端到端地训练。 这是通过使用连接主义时序分类(CTC)损失将识别和翻译问题绑定到单个统一架构中实现的。这种联合方法不需要任何真实时间信息,同时解决了两个相互依赖的序列到序列学习问题, ...
引言 在自然语言处理(NLP)领域,如何高效地将连续的文本序列分割成有意义的单元是一项基础且重要的任务。传统的基于规则的方法或者统计方法在处理大规模数据时往往面临着效率低下和灵活性不足的问题。近年来,Byte Pair Encoding (BPE) 算法因其简单有效而成为了一种流行的分词技术。本文旨在介绍BPE算法的基本原理及其在实际应用中的优势。 BPE算法简介 BPE是一种无监督的分词方法,它通过对训练语料库进行分析,逐步合并最频繁出现的字符对来构建词汇表。这种方法能够有效地处理多种语言,尤其是当面临大量未见过的数据时表现出色。 算法步骤 初始化词汇表: Step1:从训练语料库中提取所有唯一的字符作为初始词汇表 VVV。 迭代过程: Step2:计算所有可能的字符对出现的频率,找出出现频率最高的字符对 x,x′x, x'x,x′。 Step3:将该字符对替换为一个新的词元 xx′xx'xx′,并在训练语料库中进行更新。 Step4:将新的词元 xx′xx'xx′ 添加到词汇表 VVV 中。 这一过程会重复进行,直到达到预定的词汇表 ...
学习笔记
未读do_sample do_sample 参数控制是否使用采样方法生成输出。当 do_sample=True 时,模型会根据下一个 token 的概率分布进行采样;当 do_sample=False 时,模型会选择概率最大的 token 作为输出。 temperature temperature 参数通过影响 softmax 控制生成输出时每个 token 的概率分布的平滑程度。 不考虑 temperature 参数,softmax 概率分布的计算公式为: prob(xi)=exi∑j=1nexj\text{prob}(x_i) = \frac{e^{x_i}}{\sum_{j=1}^{n} e^{x_j}} prob(xi)=∑j=1nexjexi 加入 temperature 参数后,softmax 概率分布的计算公式为: prob(xi,t)=exit∑j=1nexjt\text{prob}(x_i,t) = \frac{e^{\frac{x_i}{t}}}{\sum_{j=1}^{n} e^{\frac{x_j}{t}}} prob(xi,t)=∑j=1netxj ...
赛事链接:https://www.aicrowd.com/challenges/amazon-kdd-cup-2024-multi-task-online-shopping-challenge-for-llms 简述 想象一下,您正试图通过网店为朋友的生日寻找一份完美的礼物。您必须浏览无数产品,阅读评论以衡量质量,比较价格,最后决定购买。这个过程非常耗时,有时还会因为信息量和可选项太多而不知所措。网上购物的复杂性在于,既要在产品、评论和价格的网络中穿梭,又要根据自己的理解和偏好做出最佳决定,这可能会让人不知所措。 这项挑战旨在利用大语言模型(LLM)简化这一过程。虽然目前的技术往往无法理解特定购物术语和知识的细微差别、客户行为、偏好以及产品和语言的多样性,但我们相信,大语言模型具有多任务和少量学习的能力,有潜力驾驭如此复杂的在线购物。在这一潜力的激励下,本挑战赛推出了 ShopBench,这是一个模拟现实世界中在线购物复杂性的综合基准。我们邀请参与者设计功能强大的 LLM,以改进最先进的技术如何更好地帮助我们浏览网上购物,使其成为一种更直观、更令人满意的体验,就像现实生活中知识渊博的购 ...
简介(Introduction) 本项目是一个基于 Transformer 的中文对联生成器,使用 PyTorch 构建模型,使用 Gradio 构建 Web UI。 数据集:https://www.kaggle.com/datasets/marquis03/chinese-couplets-dataset GitHub 仓库:https://github.com/Marquis03/Chinese-Couplets-Generator-based-on-Transformer Gitee 仓库:https://gitee.com/marquis03/Chinese-Couplets-Generator-based-on-Transformer 项目结构(Structure) 12345678910111213141516171819202122232425262728.├── config│ ├── __init__.py│ └── config.py├── data│ ├── fixed_couplets_in.txt│ └── fixed_couplets_out ...
Scheduler Warm-up + CosineAnnealingLR 1234567891011121314import mathwarm_up_iter = 10T_max = 50lr_max = 0.1lr_min = 1e-5def WarmupCosineAnnealingLR(cur_iter): if cur_iter < warm_up_iter: return (lr_max - lr_min) * (cur_iter / warm_up_iter) + lr_min else: return lr_min + 0.5 * (lr_max - lr_min) * ( 1 + math.cos((cur_iter - warm_up_iter) / (T_max - warm_up_iter) * math.pi) ) 前 warm_up_iter 步,学习率从 lr_min 线性增加到 lr_max;后 T_max - warm_up_iter 步,学习率按照余弦退火从 lr_ma ...
VAE 简介 变分自编码器(Variational Autoencoder,VAE)是一种深度学习中的生成模型,它结合了自编码器(Autoencoder, AE)和概率建模的思想,在无监督学习环境中表现出了强大的能力。VAE 在 2013 年由 Diederik P. Kingma 和 Max Welling 首次提出,并迅速成为生成模型领域的重要组成部分。 基本原理 自编码器(AE)基础: 自编码器是一种神经网络结构,通常由两部分组成:编码器(Encoder)和解码器(Decoder)。原始数据通过编码器映射到一个低维的潜在空间(或称为隐空间),这个低维向量被称为潜变量(latent variable)。然后,潜变量再通过解码器重构回原始数据的近似版本。在训练过程中,自编码器的目标是使得输入数据经过编码-解码过程后能够尽可能地恢复原貌,从而学习到数据的有效表示。 VAE的引入与扩展: VAE 将自编码器的概念推广到了概率框架下。在 VAE 中,潜变量不再是确定性的,而是被赋予了概率分布。具体来说,对于给定的输入数据,编码器不直接输出一个点估计值,而是输出潜变量的均值和方差(假设潜变量 ...
比赛介绍 比赛链接 DataCastle 员工离职预测:https://challenge.datacastle.cn/v3/cmptDetail.html?id=342 赛题描述 给定影响员工离职的因素和员工是否离职的记录,建立模型预测有可能离职的员工。 评分标准 评分算法为准确率,准确率越高,说明正确预测出离职员工与留职员工的效果越好。 评分算法参考代码如下: 1234from sklearn.metrics import accuracy_scorey_true = [1, 0, 1, 0]y_pred = [1, 1, 1, 0]score = accuracy_score(y_true, y_pred) 比赛数据 数据下载 百度网盘:https://pan.baidu.com/share/init?surl=UjkKggnWQMIBhrU1vPm1sw&pwd=99gu 数据说明 数据主要包括影响员工离职的各种因素工资、出差、工作环境满意度、工作投入度、是否加班、是否升职、工资提升比例等. 以及员工是否已经离职的对应记录。 数据分为训练数据和测试数据,分别保存在 tr ...
ragged2e 宏包简介 ragged2e 是一个 LaTeX 宏包,它为 LaTeX 文档提供了一种改进的、更加灵活的文本对齐方式,特别是对于那些需要避免完全齐行对齐(justified)而采用不对齐排版样式(如左对齐、右对齐或两端对齐但内部单词间距可变)的情况。在标准的 LaTeX 中,纯文本段落默认是齐行对齐的,但在某些情况下,比如窄栏布局或者特定设计要求下,用户可能希望使用更为灵活和自然的不对齐排列。 主要功能: 改进的 ragged 右边距设置: \RaggedRight 命令用于设置左对齐同时允许右侧边缘不规则的文本段落,但会尽可能均匀地分布单词间距,相比标准的 \raggedright 提供了更美观的结果。 \RaggedLeft 则实现右对齐,左侧边缘参差不齐,同样优化了单词间距。 居中对齐命令: \Centering 用于创建居中的段落环境,不同于 \centering,它不会影响行间距。 两端对齐选项: 虽然 ragged2e 不直接支持完整的两端对齐,但它可以辅助实现类似效果,通过调整字间距和断词规则来尽量使每行长度接近。 微调控制: ...