(附论文)综述 | Transformer模型的多种变体​-深圳网站优化推广公司
轻识Logo
目标检测与深度学习

共 6527字,需浏览 14分钟

 ·

2021-06-16 11:24

点击左上方蓝字关注我们



全网搜集目标检测相关,人工筛选最优价值内容

编者荐语
自提出至今,Transformer 模型已经在自然语言处理、计算机视觉以及其他更多领域「大展拳脚」,学界也提出了各种各样基于原始模型的变体。文章便是对Transformer模型的一篇系统性综述。

转载自 | 机器之心


自 2017 年 6 月谷歌发布论文《Attention is All You Need》后,Transformer 架构为整个 NLP 领域带来了极大的惊喜。在诞生至今仅仅四年的时间里,Transformer 已经成为自然语言处理领域的主流模型,基于 Transformer 的预训练语言模型更是成为主流。

随着时间的推移,Transformer 还开始了向其他领域的跨界。得益于深度学习的发展,Transformer 在计算机视觉(CV)和音频处理等许多人工智能领域已然杀疯了,成功地引来了学界和业界研究人员的关注目光。到目前为止,研究者已经提出了大量且种类驳杂的 Transformer 变体(又名 X-former),但是仍然缺失系统而全面的 Transformer 变体文献综述。

去年,谷歌发布的论文《Efficient Transformers: A Survey》对高效 Transformer 架构展开了综述,但主要关注 attention 模块的效率问题,对 Transformer 变体的分类比较模糊。

近日,复旦大学计算机科学技术学院邱锡鹏教授团队对种类繁多的 X-former 进行了综述。首先简要介绍了 Vanilla Transformer,提出 X-former 的新分类法。接着从架构修改、预训练和应用三个角度介绍了各种 X-former。最后概述了未来研究的一些潜在方向。


论文链接:https://arxiv.org/pdf/2106.04554.pdf

回顾 Transformer 的发展

Transformer 最初是作为机器翻译的序列到序列模型提出的,而后来的研究表明,基于 Transformer 的预训练模型(PTM) 在各项任务中都有最优的表现。因此,Transformer 已成为 NLP 领域的首选架构,尤其是 PTM。除了语言相关的应用,Transformer 还被用于 CV、音频处理,甚至是化学和生命科学。由于取得了成功,过去几年研究者又提出了各种 Transformer 变体(又名 X-former)。这些 X-former 主要从以下三个不同的角度改进了最初的 Vanilla Transformer


  • 模型效率。应用 Transformer 的一个关键挑战是其处理长序列时的效率低下,这主要是由于自注意力(self-attention)模块的计算和内存复杂度。改进的方法包括轻量级 attention(例如稀疏 attention 变体)和分而治之的方法(例如循环和分层机制);

  • 模型泛化。由于 Transformer 是一种灵活的架构,并且对输入数据的结构偏差几乎没有假设,因此很难在小规模数据上进行训练。改进方法包括引入结构偏差或正则化,对大规模未标记数据进行预训练等;

  • 模型适配。这一系列工作旨在使 Transformer 适应特定的下游任务和应用程序。



虽然可以根据上述角度来组织 X-former,但许多现有的 X-former 可能会解决一个或几个问题。例如,稀疏 attention 变体不但降低了计算复杂度,而且在输入数据上引入了结构先验以缓解小数据集上的过度拟合问题。因此,主要根据 X-former 改进 Vanilla Transformer 的方式进行分类更加有条理:架构修改、预训练和应用。考虑到本次综述的受众可能来自不同的领域,研究者主要关注的是通用架构变体,仅简要讨论了预训练和应用方面的具体变体。

Vanilla Transformer

架构

Vanilla Transformer 是一个序列到序列的模型,由一个编码器和一个解码器组成,二者都是相同的块 𝐿 组成的堆栈。每个编码器块主要由一个多头 self-attention 模块和一个位置前馈网络(FFN)组成。为了构建更深的模型,每个模块周围都采用了残差连接,然后是层归一化模块。与编码器块相比,解码器块在多头 self-attention 模块和位置方面 FFN 之间额外插入了 cross-attention 模块。此外,解码器中的 self-attention 模块用于防止每个位置影响后续位置。Vanilla Transformer 的整体架构如下图所示:


用法

通常有三种不同的方式使用 Transformer 架构:


  • 使用编码器 - 解码器,通常用于序列到序列建模,例如神经机器翻译;

  • 仅使用编码器,编码器的输出用作输入序列的表示,通常用于分类或序列标记问题;

  • 仅使用解码器,其中也移除了编码器 - 解码器 cross-attention 模块,通常用于序列生成,例如语言建模。



Transformer 变体的的分类

截止目前,领域研究人员从架构修改类型、预训练方法和应用这三个方面提出了各种基于 vanilla Transformer 的变体模型。下图显示了 这些变体模型的类别:


而下图显示了本文研究者的分类和一些代表性模型:


Attention 模块

Self-attention 在 Transformer 中非常重要,但在实际应用中存在两个挑战:


  • 复杂度。self-attention 的复杂度为 O(T^2·D)。因此,attention 模块在处理长序列时会遇到瓶颈;

  • 结构先验。Self-attention 对输入没有假设任何结构性偏差,甚至指令信息也需要从训练数据中学习。因此,无预训练的 Transformer 通常容易在中小型数据集上过拟合。



Attention 机制的改进可以分为以下几个方向:


  • 稀疏 attention。将稀疏偏差引入 attention 机制可以降低了复杂性;

  • 线性化 attention。解开 attention 矩阵与内核特征图,然后以相反的顺序计算 attention 以实现线性复杂度;

  • 原型和内存压缩。这类方法减少了查询或键值记忆对的数量,以减少注意力矩阵的大小;

  • 低阶 self-Attention。这一系列工作捕获了 self-Attention 的低阶属性;

  • Attention 与先验。该研究探索了用先验 attention 分布来补充或替代标准 attention;

  • 改进多头机制。该系列研究探索了不同的替代多头机制。



稀疏 attention

在标准的 self-attention 机制中,每个 token 都需要 attend 所有其他的 token。然而,据观察,对于经过训练的 Transformer,学习到的 attention 矩阵 A 在大多数数据点上通常非常稀疏。因此,可以通过结合结构偏差来限制每个查询 attend 的查询键对的数量来降低计算复杂度。

从另一个角度来看,标准 attention 可以被视为一个完整的二部图,其中每个查询从所有内存节点接收信息并更新其表示。而稀疏 attention 可以看成是一个稀疏图,其中删除了节点之间的一些连接。基于确定稀疏连接的指标,研究者将这些方法分为两类:基于位置和基于内容的稀疏 attention。

原子稀疏 attention

基于位置的稀疏 attention 之一是原子稀疏 attention,如下图所示主要有五种模式。彩色方块表示计算的 attention 分数,空白方块表示放弃的 attention 分数。


复合稀疏 attention

而另一种基于位置的稀疏 attention 是复合稀疏 attention,下图显示了其五种主要模式,其中红色框表示序列边界。


扩展稀疏 attention

除了上述模式,一些现有的研究已经针对特定数据类型探索了扩展稀疏模式。下图(a)展示了全局 attention 扩展的抽象视图,其中全局节点是分层组织的,任何一对 token 都与二叉树中的路径相连。红色框表示查询位置,橙色节点 / 方块表示查询关注相应的 token。


还有一些视觉数据的扩展。Image Transformer 探索了两种类型的 attention:


  • 按光栅扫描顺序展平图像像素,然后应用块局部稀疏 attention;
  • 2D 块局部 attention,其中查询块和内存块直接排列在 2D 板中,如上图 (b) 所示。



视觉数据稀疏模式的另一个例子,Axial Transformer 在图像的每个轴上应用独立的 attention 模块。每个 attention 模块沿一个轴混合信息,同时保持另一个轴的信息独立,如上图 (c) 所示。这可以理解为按光栅扫描顺序水平和垂直展平图像像素,然后分别应用具有图像宽度和高度间隙的跨步 attention。

线性化 attention

下图显示了标准 self-attention 和线性化 linear-attention 的复杂度区别。


查询原型和内存压缩

除了使用稀疏 attention 或基于内核的线性化 attention 之外,还可以通过减少查询或键值对的数量来降低 attention 的复杂度,这分别引向了查询原型和内存压缩的方法。

在查询原型设计中,几个查询原型作为计算 attention 分布的主要来源。该模型要么将分布复制到表示的查询的位置,要么用离散均匀分布填充这些位置。

下图 (a) 说明了查询原型的计算流程。除了通过查询原型减少查询数量外,还可以通过在应用 attention 机制之前减少键值对的数量(压缩键值内存)来降低复杂度,如下图(b)所示。


先验 attention

Attention 机制通常将预期值输出为向量的加权和,其中权重是值上的 attention 分布。传统上,分布是从输入生成的,例如 Vanilla Transformer 中的 softmax(QK⊤)。一般情况下,attention 分布也可以来自其他来源,也就是先验。先验注意力分布可以补充或替代输入产生的分布。Attention 的这种表述可以抽象为具有先验 attention,如下图所示。在大多数情况下,两个 attention 分布的融合可以通过在应用 softmax 之前计算对应于先验 attention 和生成 attention 的分数的加权和来完成。


改进的多头机制

多头 attention 的吸引力在于能够共同 attend 来自不同位置的不同表示子空间的信息。然而,没有机制可以保证不同的 attention 头确实地捕捉到不同的特征。

如下图所示,多头机制下三种跨度屏蔽函数𝑚(𝑥)。横轴代表距离𝑥,纵轴代表掩码值。


其他模块级修改

位置的重要性

验证卷积和循环网络不是置换等变是很简单的。然而,Transformer 中的 self-attention 模块和位置前馈层都是置换等变的,这在建模问题时可能是一个问题。例如,在对文本序列建模时,单词的顺序很重要,因此在 Transformer 架构中正确编码单词的位置至关重要。因此,需要额外的机制将位置信息注入到 Transformer 中。一种常见的设计是首先使用向量表示位置信息,然后将向量作为附加输入注入模型。

层的归一化

层归一化 ( Layer Normalization, LN) 以及残差连接被认为是一种稳定深度网络训练的机制(如减轻不适定梯度和模型退化)。在 Vanilla Transformer 中,LN 层位于残差块之间,被称为 post-LN 。后来的 Transformer 实现将 LN 层放在 attention 或 FFN 之前的残差连接内,在最后一层之后有一个额外的 LN 来控制最终输出的大小,即 pre-LN。Pre-LN 已被许多后续研究和实现所采用。pre-LN 和 post-LN 的区别如下图所示。


位置方面的 FFN

尽管很简单,但位置前馈网络 (feed-forward network, FFN) 层对于 Transformer 实现良好性能至关重要。研究者观察到简单地堆叠 self-attention 模块会导致等级崩溃问题以及 token 均匀性归纳偏差,而前馈层是缓解此问题的重要构建块之一。本节探索了研究者对 FFN 模块的修改。

架构级修改

在本章中,研究者介绍了架构层面的 X-former 变体模型。

轻量级 Transformer

除了在模块层面为减轻计算开销所做的努力外,领域内还出现了一些在更高层面进行修改的轻量级 Transformer 模型,如 Lite Transformer、Funnel Transformer 和 DeLighT。 

Strengthening Cross-Block Connectivity 

在 deep Transformer 编码器 - 解码器模型中,解码器中的 cross-attention 模块仅利用编码器的最终输出,因此误差信号必须沿着编码器的深度进行遍历。这使得 Transformer 更易于受到梯度消失等优化问题的影响。

Transparent Attention [8] 使用每个 cross-attention 模块中所有编码器层(包括嵌入层)上的编码器表示的加权和。对于第 j 个编码器块,cross-attention 应表示如下: 


Feedback Transformer[34] 提出在 Transformer 解码器添加反馈机制,其中每个位置均关注来自所有层的历史表示的加权和:


自适应计算时间

与大多数神经模型一样,Vanilla Transformer 使用固定(学习的)计算程序来处理每个输入。一个有趣且有发展潜力的修改是使计算时间以输入为条件,即在 Transformer 模型中引入自适应计算时间(Adaptive Computation Time, ACT)。

如下图 12(a)所示,Universal Transformer (UT) 结合了深度循环(recurrence-over-depth)机制,该机制使用一个在深度上共享的模块来迭代地改进所有符号的表示;图 12(b)中,Conditional Computation Transformer (CCT) 在每个自注意力和前馈层添加一个门控模块来决定是否跳过当前层;图 12(c)中,与 UT 中使用的动态停机机制类似,有一条工作线专门用于调整每个输入的层数以实现良好的速度 - 准确率权衡,这称为「提前退出机制」(early exit mechanism)。


利用「分而治之」策略的 Transformer

自注意力对序列长度的二次复杂度会显著限制一些下游任务的性能。研究者确定了两类有具有代表性的方法,分别是循环和层级 Transformer,具体如下图 13 所示


在循环 Transformer 中,维护一个高速缓存(cache memory)用来合并历史信息。在处理一段文本时,该网络从缓存中的读取作为额外输入。处理完成后,网络通过简单地复制隐藏状态或使用更复杂的机制来写入内存。

层级 Transformer 将输入分层分解为更细粒度的元素。低级特征首先被馈入到 Transformer 编码器,产生输出表示,然后使用池化或其他操作来聚合以形成高级特征,然后通过高级 Transformer 进行处理。

更多的细节介绍可查看原文。

END



双一流大学研究生团队创建,专注于目标检测与深度学习,希望可以将分享变成一种习惯!

整理不易,点赞三连↓

浏览 116
点赞
评论
收藏
分享

手机扫一扫分享

图片
表情
点赞
评论
收藏
分享

手机扫一扫分享

相关内容推荐

阜阳企业网站设计优势普洱室内设计学习网站哪里有茂名主题网站设计尺寸设计网站推荐建筑灯光肇庆市个性网站建设设计价格设计某网站首页设计草图毕业设计汽车销售网站龙岗中小型网站设计公司好吗现代风别墅翻新设计网站丽江哪个设计网站好挣钱网站设计力推亿企帮云南公司网站设计需要多少钱设计一个静态网站多少钱设计一个电商网站大连甘井子网站设计代运营张家界智能化网站设计优势武进区项目网站设计开发是什么招聘网站的数据库设计优秀电商设计网站佛山创意网站设计模板常用的设计网站有哪些建筑效果图设计网站网站设计公司湖南岚鸿网站网站设计的需求分析插画设计师接单平台网站设计调查各类网站设计用色调查南京专业网站设计开发包括什么惠州网站设计书常州电子网站设计开发供应商家怀宁网站设计价格实惠舟山外贸网站设计哪家好网站目录和链接设计南昌网站logo设计徐州创新网站设计多少钱渝中区有名气的网站设计费用内蒙古网站设计培训班宁夏银川市网站设计开发多少钱网站设计类面试应该怎么设计问题西餐厅网站设计网站模板设计完成标准印花图案设计网站有哪些引物设计网站宜城网站设计贝壳下拉全包别墅翻新设计网站龙华定制型网站设计哪家强班旗设计网站福州酒店品牌设计网站江苏电影海报设计网站大庆网站建设计划有哪些看房屋设计的网站以网站排名做毕业设计怎么做河西区常见网站设计多少钱郑州品牌logo设计网站机构网站设计电话咨询百格品牌设计网站毕业旅游网站设计龙华响应式网站设计多少钱购房网站的设计与实现宁夏银川市网站设计开发哪家合适四川成套企业网站设计图片宝贝设计网站国外规划设计公司网站设计师接单网站知乎国外学校网站设计浙江电子网站设计价格表格中国设计网站有哪些南京营销网站设计厂家价格李沧区响应式网站设计北京成套企业网站设计多少钱传统国学教育网站设计龙华响应式网站设计多少钱双峰网站设计邳州数据网站设计优势企业网站设计哪家可靠如何浏览国外工业设计网站网站设计代码的文字如何居中南宁旅游网站设计制作怎样才能设计出一个成功的网站国外著名园林设计网站聊城定制网站建设设计公司哪家好公益网站的设计与实现毕业论文深圳画册设计欣赏网站网站ui设计报价国内网站设计理念电商网站设计排版欣赏生态农业网站设计丹江口手机网站设计学习设计有什么网站球服设计哪个网站好男士在线发型设计网站大面积办公楼设计网站岳阳网站建设设计制作公司母婴店面设计网站推荐汽车造型设计网站浙江信息化网站设计联系方式教育网站订单系统设计锡山区网络网站设计大概费用设计师喜欢去什么网站兴业县外贸网站设计游戏设计企业官方品牌网站武汉创意产品设计网站淘宝详情页设计网站物流网站设计怎么弄吉林省网站画册设计有什么网站用图搜索设计作品韶关市网站建设制作设计怎么样如何设计一个高质量的企业网站未来网站设计的新趋势有哪些抚州大型冷库设计网站盐田门户网站设计落地页设计的网站辽源网站设计贵吗设计个人导航网站室内设计类网站推荐人性化设计网站推荐ps设计一个网站设置多少分辨率网站设计对比江苏参考网站设计联系方式郑州网站设计收费低清远电商网站设计素材下载设计图纸的网站国内设计网站 知乎因纳特电商开发平台软件网站设计文山装修设计的网站哪个好cdr购物网站网页设计网站建设课程设计范文3000字包装设计找灵感去哪个网站长沙外贸网站设计公司费用价格菜单设计类网站水利设计招聘什么网站国外房屋设计网站天门免费设计网站建设价格西安培训品牌设计网站京东商城网站设计方法婚庆网站数据库设计繁体字字体设计网站以u开头的设计的网站京东海报设计网站利川网站设计贝壳下拉国美网站设计总结500字食谱设计网站代码长沙电商网站设计价格安徽友元勘测设计有限公司网站飞讯网站设计图册设计参考网站中式室内设计欣赏网站田径毕业设计网站郑州咖啡logo设计网站津南区手机网站设计中卫门户网站设计无锡国际网站设计技巧西工网站设计公司国内炫酷网站设计认识网站八年级信息技术教学设计简速网站设计包括几方面衡阳企业网站设计哪个好包装设计案例推荐网站旅游类网站设计福州公司网站设计费用设计师用的网站天府新区网站建设设计江西网页网站设计价格网站导航设计有哪些类型科技网站首页设计金华品牌设计网站世界级室内设计优秀的灵感网站查询机械设计方面的网站长沙旅游网站设计服务哪家好设计师 黄海 网站有设计logo的网站张家界房子设计图网站营销网站建设设计制作方案六安互联网网站设计咨询热线新乡网站设计-贝壳下拉 出词人才招聘网站设计关于菱形构成设计的网站首页林芝设计师素材网站怎么登录啊郑州品牌logo设计网站网站设计教程费用标准建筑设计资料网站包装设计师常用素材下载网站清远电器企业网站设计模板苏州品质网站设计价格实惠网站设计代码免费国外设计创意网站html网页设计购物网站报告大理外国人喜欢什么样的网站设计计算机网站设计类论文阿拉尔个性化网站设计产品设计素材网站一个网站的毕业设计文档电子书阅读网站设计手机app设计的网站知乎内建筑设计事务所网站音乐网站网页设计主题思想长春网站设计费用翔安平面设计软件自学免费网站船舶电气设计网站dribbble设计网站登录江苏资讯网站设计哪个好

合作伙伴

深圳网站优化推广公司

龙岗网络公司
深圳网站优化
龙岗网站建设
坪山网站建设
百度标王推广
天下网标王
SEO优化按天计费
SEO按天计费系统