所有分类
  • 所有分类
  • 未分类

DeepMind提出在视觉Transformer中使用ReLU替代softmax,降低成本

🆕最新资讯🆕
在现代机器学习领域,Transformer架构得到了广泛应用。其中,注意力是一个核心组件,它使用softmax生成token的概率分布。然而,由于softmax执行指数计算和序列长度求和,导致并行化困难。为了解决这个问题,Google DeepMind提出了一个新方法,用不一定输出概率分布的ReLU替代softmax运算。他们还发现,对于视觉Transformer,使用ReLU除以序列长度的注意力可以达到或接近传统的softmax注意力效果。这一方法在并行化方面提供了新方案,因为ReLU注意力能在序列长度维度上实现并行化,且所需的gather运算比传统的注意力少。本篇论文详细探讨了使用逐点式计算来替代softmax的方案,并进行了实验验证。实验结果显示,ReLU注意力与softmax注意力在ImageNet-21k训练方面表现相当,且ReLU注意力具有较少的gather操作。此外,论文还探索了序列长度扩展和添加门对模型的影响。
来源:https://www.jiqizhixin.com/

原文链接:https://aixinjiyuan.com/1068.html,转载请注明出处~~~
0
广告位招租

评论0

请先
暂时无公告
显示验证码
没有账号?注册  忘记密码?