选自 Ahead of AI
作者:Sebastian Raschka
机器之心编译
(资料图片仅供参考)
编辑:马梓文
从四篇论文入手,Sebastian 再谈 Transformer 架构图。
前段时间,一条指出谷歌大脑团队论文《Attention Is All You Need》中 Transformer 构架图与代码不一致的推文引发了大量的讨论。
对于 Sebastian 的这一发现,有人认为属于无心之过,但同时也会令人感到奇怪。毕竟,考虑到 Transformer 论文的流行程度,这个不一致问题早就应该被提及 1000 次。
Sebastian Raschka 在回答网友评论时说,「最最原始」的代码确实与架构图一致,但 2017 年提交的代码版本进行了修改,但同时没有更新架构图。这也是造成「不一致」讨论的根本原因。
随后,Sebastian 在 Ahead of AI 发布文章专门讲述了为什么最初的 Transformer 构架图与代码不一致,并引用了多篇论文简要说明了 Transformer 的发展变化。
以下为文章原文,让我们一起看看文章到底讲述了什么:
几个月前,我分享了《Understanding Large Language Models: A Cross-Section of the Most Relevant Literature To Get Up to Speed》,积极的反馈非常鼓舞人心!因此,我添加了一些论文,以保持列表的新鲜感和相关性。
同时,保持列表简明扼要是至关重要的,这样大家就可以用合理的时间就跟上进度。还有一些论文,信息量很大,想来也应该包括在内。
我想分享四篇有用的论文,从历史的角度来理解 Transformer。虽然我只是直接将它们添加到理解大型语言模型的文章中,但我也在这篇文章中单独来分享它们,以便那些之前已经阅读过理解大型语言模型的人更容易找到它们。
On Layer Normalization in the Transformer Architecture ( 2020 )
虽然下图(左)的 Transformer 原始图(https://arxiv.org/abs/1706.03762)是对原始编码器 - 解码器架构的有用总结,但该图有一个小小的差异。例如,它在残差块之间进行了层归一化,这与原始 Transformer 论文附带的官方 ( 更新后的) 代码实现不匹配。下图(中)所示的变体被称为 Post-LN Transformer。
Transformer 架构论文中的层归一化表明,Pre-LN 工作得更好,可以解决梯度问题,如下所示。许多体系架构在实践中采用了这种方法,但它可能导致表征的崩溃。
因此,虽然仍然有关于使用 Post-LN 或前 Pre-LN 的讨论,也有一篇新论文提出了将两个一起应用:《 ResiDual: Transformer with Dual Residual Connections》(https://arxiv.org/abs/2304.14802),但它在实践中是否有用还有待观察。
图注:图源 https://arxiv.org/abs/1706.03762 ( 左 & 中 ) and https://arxiv.org/abs/2002.04745 ( 右)
Learning to Control Fast-Weight Memories: An Alternative to Dynamic Recurrent Neural Networks ( 1991 )
这篇文章推荐给那些对历史花絮和早期方法感兴趣的人,这些方法基本上类似于现代 Transformer。
例如,在比 Transformer 论文早 25 年的 1991 年,Juergen Schmidhuber 提出了一种递归神经网络的替代方案(https://www.semanticscholar.org/paper/Learning-to-Control-Fast-Weight-Memories%3A-An-to-Schmidhuber/bc22e87a26d020215afe91c751e5bdaddd8e4922),称为 Fast Weight Programmers ( FWP ) 。FWP 方法涉及一个前馈神经网络,它通过梯度下降缓慢学习,来编程另一个神经网络的快速权值的变化。
这篇博客 ( https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2 ) 将其与现代 Transformer 进行类比,如下所示 :
在今天的 Transformer 术语中,FROM 和 TO 分别称为键 ( key ) 和值 ( value ) 。应用快速网络的输入称为查询。本质上,查询由快速权重矩阵 ( fast weight matrix ) 处理,它是键和值的外积之和 ( 忽略归一化和投影 ) 。由于两个网络的所有操作都是可微的,我们通过加法外积或二阶张量积获得了端到端可微主动控制的权值快速变化。因此,慢速网络可以通过梯度下降学习,在序列处理期间快速修改快速网络。这在数学上等同于 ( 除了归一化之外 ) 后来被称为具有线性化自注意的 Transformer ( 或线性 Transformer ) 。
正如上文摘录所提到的,这种方法现在被称为线性 Transformer 或具有线性化自注意的 Transformer。它们来自于 2020 年出现在 arXiv 上的论文《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention 》(https://arxiv.org/abs/2006.16236)以及《Rethinking Attention with Performers》(https://arxiv.org/abs/2009.14794)。
2021 年,论文《Linear Transformers Are Secretly Fast Weight Programmers》(https://arxiv.org/abs/2102.11174)明确表明了线性化自注意力和 20 世纪 90 年代的快速权重编程器之间的等价性。
图源:https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2
Universal Language Model Fine-tuning for Text Classification ( 2018 )
这是另一篇从历史角度来看非常有趣的论文。它是在原版《Attention Is All You Need》发布一年后写的,并没有涉及 transformer,而是专注于循环神经网络,但它仍然值得关注。因为它有效地提出了预训练语言模型和迁移学习的下游任务。虽然迁移学习已经在计算机视觉中确立,但在自然语言处理 ( NLP ) 领域还没有普及。ULMFit(https://arxiv.org/abs/1801.06146)是首批表明预训练语言模型在特定任务上对其进行微调后,可以在许多 NLP 任务中产生 SOTA 结果的论文之一。
ULMFit 建议的语言模型微调过程分为三个阶段 :
1. 在大量的文本语料库上训练语言模型;
2. 根据任务特定的数据对预训练的语言模型进行微调,使其能够适应文本的特定风格和词汇;
3. 微调特定任务数据上的分类器,通过逐步解冻各层来避免灾难性遗忘。
在大型语料库上训练语言模型,然后在下游任务上对其进行微调的这种方法,是基于 Transformer 的模型和基础模型 ( 如 BERT、GPT-2/3/4、RoBERTa 等 ) 使用的核心方法。
然而,作为 ULMFiT 的关键部分,逐步解冻通常在实践中不进行,因为 Transformer 架构通常一次性对所有层进行微调。
Gopher 是一篇特别好的论文(https://arxiv.org/abs/2112.11446),包括大量的分析来理解 LLM 训练。研究人员在 3000 亿个 token 上训练了一个 80 层的 2800 亿参数模型。其中包括一些有趣的架构修改,比如使用 RMSNorm ( 均方根归一化 ) 而不是 LayerNorm ( 层归一化 ) 。LayerNorm 和 RMSNorm 都优于 BatchNorm,因为它们不局限于批处理大小,也不需要同步,这在批大小较小的分布式设置中是一个优势。RMSNorm 通常被认为在更深的体系架构中会稳定训练。
除了上面这些有趣的花絮之外,本文的主要重点是分析不同规模下的任务性能分析。对 152 个不同任务的评估显示,增加模型大小对理解、事实核查和识别有毒语言等任务最有利,而架构扩展对与逻辑和数学推理相关的任务从益处不大。
图注:图源 https://arxiv.org/abs/2112.11446
原文链接:https://magazine.sebastianraschka.com/p/why-the-original-transformer-figure
THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
关键词:
(责任编辑:黄俊飞)推荐内容
- 此「错」并非真的错:从四篇经典论文入手
- 成都土拍火爆:71家房企抢1块地 清水住
- 新型、高效的催化剂可用于电催化二氧化碳
- 熊猫邮局迎“大运”-天天简讯
- 天天新资讯:研究发现,电蚊香液有肝毒性
- 兰州,到底需要怎样的开发商?
- 天天热议:唯科科技:空气净化器订单因加
- 生物放大_关于生物放大介绍_环球播资讯
- 【全球热闻】伪装学渣实体书淘宝是不是真
- 环球看点!“五险一金”缴费工资启动合并
- 今日要闻!好游快报工具箱怎么存档 好游
- 湖南哪些三本征集志愿时间院校名单
- 2023全球制药50强出炉 我省企业恒瑞医药
- 辽宁省人社厅聚焦热点难点问题着力深化“
- 荷兰国家队大名单:德容、阿克在列 韦霍
- 今日观点!校长用凳子砸伤女教师?当地介
- OPPO Reno10加入京东百亿补贴降价100元
- 世界快资讯:中国的世界文化遗产作文500
- 视焦点讯!大空前
- 世界头条:嘴下留情!真正的“致癌水”不
- 天天热头条丨全球连线|非洲留学生中国乡
- 宜组词_宜读音及解释 快消息
- 【全球聚看点】奥德赛和威然怎么选比较好
- 华统股份:5月生猪销售收入同比增长58.9%
- 湘西州深入宣传异地就医直接结算政策
- 如何降低泳池中的氯含量 环球今日讯
- 环球今亮点!朱熹观书有感其一_朱熹观书
- 天天快报!梅西今晚19:00将现身快手直播间
- 医保退休前一次性补缴20年,可以享受终身
- 刚刚,12名涉酒干部被处理!A股直线拉升
- 我国首批五个非遗学田野教学基地成立 天
- 【环球聚看点】潜在百万亿人形机器人市场
- 农业农村部部署大豆玉米带状复合种植夏播
- 苹果头显还没正式发售,廉价版就开始研发
- 广东云浮出台34条措施培育扶持个体工商户
- 苏丹冲突调停方称准备重启停火谈判 敦促
- 当前热点-纯视觉天下第一?特斯拉车主称
- 吾生也有涯而知也无涯出自哪本书_ldquo
- 罐头品牌排行榜(中国罐头品牌排行榜)|
- 天天短讯!正月十五吉祥语(正月十五吉祥
- 确认行政行为违法的起诉期限是怎么规定的
- 显示器销量TOP10公布:AOC第一 小米第二
- 1-5月芯片数据:中国少进口3000亿元,455
- 【环球新视野】非遗融入生活 文化自信自强
- 2023年里昂领事节举办 法国小熊猫学校助
- larger是什么意思中文_larger
- 观速讯丨搜救犬被确诊淋巴瘤晚期,主人带
- 【全球新视野】首台套50万千瓦冲击式水电
- 延安市人民医院顺利完成2023年医师资格实
- 当前短讯!窒息灭火法是指什么_窒息灭火法
- 当前热文:美英领导人发表《大西洋宣言》
- 多措并举促进应届高校毕业生就业 网络招
- 《透明侠侣》转运曲《好事会发生》,史策
- 深圳市公积金管理中心网上办事大厅(深圳
- 全球最新:《星空》欧洲价格曝光 PC本体
- 全球热头条丨上海果然是经济大城!
- 环球微资讯!这些大胆的古早综艺,真的是
- 显示器销量TOP10公布:AOC第一 小米第二
- 当前快看:画图照片怎么改大小kb(画图怎
- 恶魔王子野蛮公主_恶魔王子VS霹雳公主好
- 天天热头条丨全球连线|非洲留学生中国乡
- 宜组词_宜读音及解释 快消息
- 【全球聚看点】奥德赛和威然怎么选比较好
- 华统股份:5月生猪销售收入同比增长58.9%
- 湘西州深入宣传异地就医直接结算政策
- 如何降低泳池中的氯含量 环球今日讯
- 环球今亮点!朱熹观书有感其一_朱熹观书
- 天天快报!梅西今晚19:00将现身快手直播间
- 医保退休前一次性补缴20年,可以享受终身
- 刚刚,12名涉酒干部被处理!A股直线拉升
- 我国首批五个非遗学田野教学基地成立 天
- 【环球聚看点】潜在百万亿人形机器人市场
- 农业农村部部署大豆玉米带状复合种植夏播
- 苹果头显还没正式发售,廉价版就开始研发
- 广东云浮出台34条措施培育扶持个体工商户
- 苏丹冲突调停方称准备重启停火谈判 敦促
- 当前热点-纯视觉天下第一?特斯拉车主称
- 吾生也有涯而知也无涯出自哪本书_ldquo
- 罐头品牌排行榜(中国罐头品牌排行榜)|
- 天天短讯!正月十五吉祥语(正月十五吉祥
- 确认行政行为违法的起诉期限是怎么规定的
- 显示器销量TOP10公布:AOC第一 小米第二
- 1-5月芯片数据:中国少进口3000亿元,455
- 【环球新视野】非遗融入生活 文化自信自强
- 2023年里昂领事节举办 法国小熊猫学校助
- larger是什么意思中文_larger
- 观速讯丨搜救犬被确诊淋巴瘤晚期,主人带
- 【全球新视野】首台套50万千瓦冲击式水电
- 延安市人民医院顺利完成2023年医师资格实
- 当前短讯!窒息灭火法是指什么_窒息灭火法
- 当前热文:美英领导人发表《大西洋宣言》
- 多措并举促进应届高校毕业生就业 网络招
- 《透明侠侣》转运曲《好事会发生》,史策
- 深圳市公积金管理中心网上办事大厅(深圳
- 全球最新:《星空》欧洲价格曝光 PC本体
- 全球热头条丨上海果然是经济大城!
- 环球微资讯!这些大胆的古早综艺,真的是
- 显示器销量TOP10公布:AOC第一 小米第二
- 当前快看:画图照片怎么改大小kb(画图怎
- 恶魔王子野蛮公主_恶魔王子VS霹雳公主好
- 世界观热点:柳先开老点粤语中字(柳先开
- 聚焦:【云视角】寻味云南茶 留住非遗香
- 相公太多不是过疯琳儿_相公太多不是过
- Win10中PUBG蓝屏后如何快速修复
- 环球新动态:南京江宁:“智慧防线”成功
- 我是大运火炬手|倮伍克的子:成就儿时梦
- 文化的概念包括什么(文化的概念和定义)
- 前沿热点:“十年一遇”!数万人被疏散,
- 【环球热闻】【共同缔造安全江夏⑫】做好
- 央妈狂买620亿黄金,背后是大智慧!|环球
- 普元信息与浪潮科技启动战略合作 携手耕
- 焦点播报:电动双面擦玻璃器(擦玻璃器双
- 教师专业技能方面存在问题(教师专业技能
- 糖尿病人不能吃什么水果蔬菜_糖尿病人不
- 烈火金刚小说朗读(烈火金刚小说)
- 银行存款或将迎来4方面“调整”,已经存
- 新动态:阿尔卡拉斯:只有百分之一的机会
- 义务京东代运营_助力京东店铺快速发展
- 环球观速讯丨马自达cx-4和cx30(马自达cx
- 暖心相伴 “义”路同行