Transformer速查宝典:模子、架构、磨炼措施的论文都在这里了
选自kipply's blog
作者 :kipply
机械之心编译
编纂 :梓文 、查宝措施张倩
论文大合集,典模的论一篇文章就搞定 。架构
AI 睁开快捷 ,磨炼这对于适才入门或者是文都正想跟上「潮水」的内行们来说并不友好 。假如有一份详细周全的查宝措施知识列表可能会辅助他们更快走上「正途」。
明天给巨匠带来一篇 Transformer 的典模的论综述文章,供巨匠清晰 Transformer 的架构下场服从及相关技术。
本篇综述涵盖了 21 种模子、磨炼11 种架构变更 、文都7 种预磨炼后处置技术以及 3 种磨炼技术(尚有 5 种不属于以上技术的查宝措施工具) 。模子搜罗 GPT-三 、典模的论GPT-四、架构Gopher、磨炼AlphaCode 、文都RETRO、GPT-3.五、Chinchilla 、Flamingo 等。一些紧张的架构变更搜罗多查问留意力、浓密留意力、混合专家等。同时还介绍了 RLHF、CAI、Minerva 等预磨炼后处置技术以及超参 。所有内容均凭证紧张性以及配合性妨碍排序 ,并将链接附不才方。
如下为机械之心不修正原义对于文章妨碍编译的内容。
一 、模子
如下模子的属性若未清晰剖析 ,要末未果真,要末简陋凭证尺度 GPT 配置装备部署。
1.GPT-3
属性 :175B 参数,96 层 ,12288 嵌入维度,96 个留意力头
论文地址:https://arxiv.org/pdf/2005.14165.pdf
宣告概况 Open AI 宣告于 2020 年 5 月
本文是继 GPT-2 论文(2018 及扩展定律论文后,狂语言模子的一片独创性论文。如下是论文中指出无关 GPT-3 的特色 。
它在一个 300B token 的数据集上妨碍磨炼 。该数据集主要由过滤后的 Co妹妹on Crawl 以及一些书籍、收集文本以及维基百科组成;
运用了 BPE tokenizer(与 GPT-2 相同);
2048 高下文长度;
交替运用密集以及浓密留意力层;
在最后的 375M toks 中,学习率升至 0.6 × 10^-4,260B toks 后余弦衰减至 10%;
在前 12B 个 token 中 ,批巨细从 32k toks 回升到 3.2M toks;
4x MLP 投影率,如 2017 年 Transformer 论文所示;
50k 辞汇表(vocab size)。
以上的良多特色组成为了一种尺度配置装备部署 ,被其后的模子一再运用 。
在论文记实超参数的表 2.1 中有一个可能的拼写过错 ,其中 GPT-3 13B 被记作为具备 5140 的嵌入维度,这里理当是 5120 。
2.GPT-4
陈说地址:https://arxiv.org/pdf/2303.08774.pdf
宣告概况 :Open AI 2022 年 8 月对于其实现预磨炼 ,宣告于 2023 年 3 月 。
GPT-4 是 OpenAI 提供的一个模子 ,其架构不明(技术上相似于 Transformer)。技术陈说主要搜罗大部份评估(服从展现精采) ,以及可能从较小模子精确判断出的不断扩展服从。陈说还记实了后退模子清静性的措施,并演示了 GPT-4 的多模态能耐,这种能耐彷佛是用相似于 Flamingo 的方式磨炼的 。
3.Gopher
属性 :280B 参数,260B 非嵌入参数,80 层,16384 嵌入维度,128 个留意力头
论文地址 :https://arxiv.org/pdf/2112.11446.pdf
宣告概况 :DeepMind 在 2020 年尾对于其妨碍磨炼 ,宣告于 2021 年 12 月。
Gopher 是 DeepMind 在 2021 年宣告的第一个大型语言模子。它运用 RMSNorm 而不是 LayerNorm,运用 Transformer-XL 的相对于位置编码妄想而不是相对于位置编码 ,这便是嵌入参数如斯之多的原因。
它运用 SentencePiece 妨碍分词 ,辞汇表巨细为 32k,并用 300B token 妨碍磨炼,其中一半来自为 Gopher 群集的 MassiveText ,以及书籍、Co妹妹on Crawl 、维基百科 、往事以及 Github。
4.AlphaCode
属性:41B 参数 ,8 个编码器层 ,56 个解码器层 ,6144 嵌入维度
论文地址 :https://arxiv.org/pdf/2203.07814.pdf
宣告概况