所有分类
  • 所有分类
  • 未分类

谷歌研究:AI「领悟」现象解释!两种脑回路竞争,训练久了不再死记硬背

🆕最新资讯🆕
谷歌PAIR团队最近撰文介绍了AI的“领悟”(Grokking)现象,即训练久了之后,AI不再死记硬背,而是具备了泛化能力。现在,另一支团队(主要成员来自DeepMind)提出了一个通用理论解释,称之为延迟泛化,与AI内部的两种“脑回路”之间的竞争有关。这项研究对于深度学习的物理规律提供了新的洞察,并且呼吁更多类似的研究。根据之前的研究,即使只有5-24个神经元的模型也能通过“领悟”现象实现泛化能力。新研究使用了最小示例构建和大量可视化方法。基于OpenAI在2020年的一项研究,该团队验证了模型内部存在两种算法回路(Circuits):记忆回路Cmem在训练阶段表现良好,但在测试阶段表现不佳;而泛化回路Cgen在训练和测试阶段都表现良好。研究人员通过改变数据集的大小和权重衰减的强度进行实验观察。他们发现,随着训练数据集的增大,Cmem回路的参数范数也增大,即以记忆方式存储训练集所需的信息量。而Cgen的参数范数不受训练集大小的影响,从而实现了类似“举一反三”的泛化能力。研究人员还发现,领悟现象在两种回路之间的竞争中发生。在训练初期,直接死记硬背的Cmem回路具有优势。但随着数据增加和梯度下降的作用,Cgen回路的效率变得更高。这就意味着,领悟发生的三个要素是不同回路之间的竞争、回路效率差异和学习速度差异。进一步的实验还演示了在一定条件下,已经“领悟”的模型可以退化为“逆领悟”,即在泛化后过拟合。团队还调整了模型,实现了“半领悟”状态。他们认为,基于回路效率的分析为理解神经网络的泛化提供了新的视角,并提出了进一步研究的方向。
来源:https://www.qbitai.com

原文链接:https://aixinjiyuan.com/1011.html,转载请注明出处~~~
0
广告位招租

评论0

请先
暂时无公告
显示验证码
没有账号?注册  忘记密码?