优于人类参考摘要,OpenAI用人类反馈提升了摘要生成质量
根据该研究的奖励模型进行优化应该使该研究的策略和人的偏好保持一致。但是奖励模型并不能完美地代表标签偏好。虽然该研究希望奖励模型能够泛化到训练期间不可见的摘要,但尚不清楚在奖励模型开始进行无用的评估之前,奖励模型能够优化多少。 为了回答这个问题,研究者创建了一系列针对奖励模型的早期版本进行优化的策略,这些策略都具有不同程度的优化强度,并要求标签者对将其样本与参考摘要进行比较。 奖励模型如何随着模型和数据量的增加进行扩展? 研究者进行了控制变量实验以确定数据量和模型大小如何影响奖励模型的性能。研究者训练了 7 个奖励模型,从 160M 到 13B 参数,从 8k 到 64k 的人类比较数据。 该研究发现,训练数据量增加一倍会导致奖励模型验证集准确率增加大约 1.1%,而模型大小增加一倍则会导致增加大约 1.8%。具体如下图 6 所示: 奖励模型学到了什么? 研究者在几个验证集中评估了该奖励模型,在下表 17 中给出了完整结果: 研究者发现该奖励模型泛化到评估 CNN/DM 摘要,具体如下表 18 所示: 分析用于摘要的自动度量指标 研究者研究了各种自动度量指标如何很好地预测人类的偏好,并将其与 RM 进行比较。具体来讲,研究者在基线监督模型下检查了 ROUGE、摘要长度、从帖子中复制的数量以及对数概率。 如下图 7 所示,使用简单的优化方案优化 ROGUE 并不能持续提高质量,与针对奖励模型的优化相比,针对 ROGUE 的优化不仅可以更快达到峰值,而且质量比率也大大降低。
(编辑:应用网_阳江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |