🆕最新资讯🆕
根据机器之心的报道,谷歌的一项研究表明,在大型语言模型(LLM)的训练中,可以用人工智能(AI)替代人类反馈。这项名为根据人工智能反馈的强化学习(RLAIF)的技术在实验中表现良好,与根据人类反馈的强化学习(RLHF)相当。这一发现意味着人类离LLM的训练过程又近了一步,同时也使得AI训练AI的构想更加接近现实。RLHF是ChatGPT和Bard等现代对话语言模型成功的关键因素之一,它通过强化学习(RL)来对齐语言模型和人类偏好。然而,RLHF对高质量的人类标签有很大的需求。研究表明,大型语言模型能够与人类判断高度对齐,甚至在某些任务上优于人类。Bai等人提出了一种使用AI偏好来训练强化学习微调的奖励模型的方法,称为RLAIF。这项研究表明,在使用AI和人类偏好的组合以及Constitutional AI自我修正技术的情况下,RLMF的性能超过了使用监督式微调的方法。谷歌研究人员进行了直接比较RLAIF和RLHF在摘要任务上的表现。结果显示,RLAIF和RLHF的策略在大多数时间内比监督式微调基准更受人类喜欢,两者之间没有显著差异。此外,人类对RLAIF和RLHF的偏好大致相同。这些结果表明,RLAIF可以替代RLHF,并且具有良好的扩展性。此外,研究者还探讨了使AI生成的偏好与人类偏好对齐的技术。他们发现,通过提供详细的指示并借助思维链推理,可以提高对齐效果。研究者还研究了标记LLM大小和偏好示例数量之间的权衡。这项研究的主要贡献是展示了RLAIF在摘要任务上与RLHF相当的性能,并确定了RLAIF的最佳设置。
来源:https://zhuanlan.zhihu.com/jiqizhixin
原文链接:https://aixinjiyuan.com/711.html,转载请注明出处~~~
评论0