谷歌研究：将人类反馈替换为AI在大模型训练中的效果

🆕最新资讯🆕
根据机器之心的报道，谷歌的一项研究表明，在大型语言模型（LLM）的训练中，可以用人工智能（AI）替代人类反馈。这项名为根据人工智能反馈的强化学习（RLAIF）的技术在实验中表现良好，与根据人类反馈的强化学习（RLHF）相当。这一发现意味着人类离LLM的训练过程又近了一步，同时也使得AI训练AI的构想更加接近现实。RLHF是ChatGPT和Bard等现代对话语言模型成功的关键因素之一，它通过强化学习（RL）来对齐语言模型和人类偏好。然而，RLHF对高质量的人类标签有很大的需求。研究表明，大型语言模型能够与人类判断高度对齐，甚至在某些任务上优于人类。Bai等人提出了一种使用AI偏好来训练强化学习微调的奖励模型的方法，称为RLAIF。这项研究表明，在使用AI和人类偏好的组合以及Constitutional AI自我修正技术的情况下，RLMF的性能超过了使用监督式微调的方法。谷歌研究人员进行了直接比较RLAIF和RLHF在摘要任务上的表现。结果显示，RLAIF和RLHF的策略在大多数时间内比监督式微调基准更受人类喜欢，两者之间没有显著差异。此外，人类对RLAIF和RLHF的偏好大致相同。这些结果表明，RLAIF可以替代RLHF，并且具有良好的扩展性。此外，研究者还探讨了使AI生成的偏好与人类偏好对齐的技术。他们发现，通过提供详细的指示并借助思维链推理，可以提高对齐效果。研究者还研究了标记LLM大小和偏好示例数量之间的权衡。这项研究的主要贡献是展示了RLAIF在摘要任务上与RLHF相当的性能，并确定了RLAIF的最佳设置。
来源：https://zhuanlan.zhihu.com/jiqizhixin

原文链接：https://aixinjiyuan.com/711.html，转载请注明出处~~~

评论0

升级VIP

全屏浏览

夜间模式

返回顶部

谷歌研究：将人类反馈替换为AI在大模型训练中的效果

猜你喜欢

评论0

升级VIP

全屏浏览

夜间模式

返回顶部