所有分类
  • 所有分类
  • 未分类

为什么Transformer性能出众?揭秘优化算法

🆕最新资讯🆕
为什么Transformer能够在深度学习中取得卓越性能?近期,来自Google AI、苏黎世联邦理工学院、Google DeepMind的研究人员进行了一项新的研究,逆向工程了Transformer,并找到了一些优化方法。他们证明了最小化通用自回归损失会产生基于辅助梯度的优化算法,这种现象被称为“mesa优化”。研究人员还发现,这种优化算法表现出上下文中的小样本学习能力,与模型规模无关。这项研究的贡献包括总结了之前的理论,并展示了Transformer如何通过使用基于梯度的方法优化内部构建的目标来预测自回归序列中的下一个元素。实验证明,使用mesa层替换标准的自注意力层可以获得有希望的结果,证明了该层具有强大的上下文学习能力。同时,这些结果也可以推广到训练语言模型的自回归序列建模中。该研究对于理解Transformer的优化算法和上下文学习能力有重要意义。
来源:https://www.jiqizhixin.com/

原文链接:https://aixinjiyuan.com/1026.html,转载请注明出处~~~
0
广告位招租

评论0

请先
暂时无公告
显示验证码
没有账号?注册  忘记密码?