梦晨 发自 凹非寺量子位 | 公众号 QbitAI
一个7B奖励模子责罚全学科,大模子强化学习不啻数学和代码。
o1/r1的强化学习很强,但主要探索了数学和代码领域,因为这两个领域的数据结构化进度高,奖励函数/奖励模子比较好谋略。
那么,想栽种大模子在其他学科领域的才能该如何办?
腾讯&苏州大学团队提议新框架RLVR,坚忍化学习磨砺推广到医学、化学、法律、样式学、经济学等多学科。
RLVR使用基于生成模子的软奖励,与传统基于二元划定的奖励比拟,在泛化、隆重性和可推广性方面有显赫的栽种。
除论文外,还开源了奖励模子和多学科数据集。
7B奖励模子责罚全学科
相关基于一个情理情理的发现:当任务有客不雅参考谜底时,不同大型谈话模子在作念二元判断(正确/失实)时推崇出高度一致性。
这概况意味着,并不需要在每个领域都磨砺一个大领域的奖励模子。相背,径直用现成的大谈话模子来充任考据器就能有用。
像这么的二元奖励诚然绵薄径直,但在参考谜底缺少结构化的领域又不径直适用。
于是相关团队进一步引入基于模子的软奖励(model-basedsoft scroing),比拟径直给出0或1的二元硬标签,软奖励把柄生成式考据器判断的置信度打分,有了更高的生动性。
受启发于“大模子判断高度一致”的发现,ag百家乐开奖团队用72B参数的Qwen2.5-Instruct蒸馏出一个7B的奖励模子。蒸馏经由不需要领域特定的标注,皆备依靠在线探索阶段采集的数据进行磨砺。
扫数经由分为3步活水线:
施行数据从ExamQA中迅速采样了6000个问题,粗鄙散布于理工东谈主文各学科。
施行对比基础模子(Base)、微调基础模子(SFT)、基于划定的RL、使用SFT模子作为考据器,以及本文蒸馏的RM-7B模子作为考据器的多种秩序,有以下论断:
RM-7B在开脱样式谜底任务中推崇出色基于模子的奖励在处理非结构化参考谜底场景中优于基于划定的奖励软奖励在处理多学科任务中,靠近复杂判断时比二元奖励推崇更好
此外施行还考据了基于模子的奖励在数据量加多时可推广性更好。
在方案部分,作家指出本相关中未使用想维链推理(CoT),诚然CoT在有参考和无参考的场景中都有用,但关于评估同谈话的参考谜底和模子反应之间的语义等价性,长远的推理依据是否必要仍有待相关。此外,在RLVR的经由奖励建模中,当中间秩序缺少径直监督时,如何分派奖励亦然一个怒放问题。
本相关也永别参考谜底或模子反应建树口头不断,这么作念克己是减少了数据圭臬化和模式谋略的东谈主力参预,但口头关系不断和奖励在这种情况下的作用仍需从头注视。
One More Thing
论文作家涂兆鹏发帖先容了这篇著述,研讨强化学习是否不错推广到数学和编码任务以外。
指摘区有网友指出很有可能建造,因为不同的磨砺秩序不错手脚有不同规模条目的学习空间。
涂兆鹏也合计这个视角与RLVR秩序的不雅点一致。
论文地址:https://arxiv.org/abs/2503.23829
HuggingFace:https://huggingface.co/collections/virtuoussy/rlvr-67ea349b086e3511f86d1c1f
[1]https://x.com/tuzhaopeng/status/1906975869538914570
Powered by AG百家乐是真实的吗 @2013-2022 RSS地图 HTML地图