谷歌团队研究证明，AI 标注已达人类水平

据新智元 9 月 5 日报道，谷歌团队的最新研究提出，用大模型替代人类进行偏好标注，也就是 AI 反馈强化学习（RLAIF）。结果发现，RLAIF 可以在不依赖人类标注员的情况下，产生与 RLHF 相当的改进效果，胜率 50%。同时，谷歌研究再次证明了 RLAIF 和 RLHF，比起监督微调（SFT）胜率都超过了 70%。