手机号码:13302071130本文来自香港浸会大学和上海交通大学的果真机器学习和理组,已被 ICLR 2026 继承。
现在,RLVR(Reinforcement Learning with Verifiable Rewards)已成为诱妄言语模子理才气的主流手艺阶梯。但是,RLVR 需要质料标注数据来监督励获取,这点是其可推广上的主要瓶颈。
旦走向不需要标注数据的 “自励(Self-rewarding)” 强化学习训练,模子通常会飞快堕入训练崩溃(Training Collapse),看似获取的励(Reward)越来越,本质上却是在行使自我励门径中的舛讹进行励投契(Reward Hacking),而非信得过答对问题获取励。
究竟什么样的强化学习(Reinforcement Learning,RL)训练范式,才能在需果真(Ground-truth)谜底标注的情况下,兑现解析的 RL 训练,诱出模子的理才气?
针对这挑战,来自香港浸会大学和上海交通大学的果真机器学习和理组残暴了个全新的自监督 RL 框架 ——Co-rewarding。该框架通过在数据端或模子端引入互补视角的自监督信号,解析励获取,培植 RL 流程中模子励投契的难度,从而有避 RL 训练崩溃,兑现解析训练和模子理才气的诱。
论文标题:Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models
自我励政策训练模子为什么会致训练崩溃?
在贫穷标注数据的场景下,现在的自我励政策均是通过强化模子的自信心来进行训练,主要分为两个类别:(1)基于熵(Entropy)的法:通过小化模子输出内容的熵(Entropy),或大化自我细则(Self-certainty)等倡导来强化模子的信心;(2)基于致的法:让模子针对同个问题屡次输出后,进行无数投票(Majority-voting)得到伪标签(Pseudo label)来监督 RL 训练。
图 1:左边 4 个图为训练流程中考证集上的能弧线。右边 2 个图为训练流程中的励(Reward)弧线。
论是哪类法,它们齐是让现时模子从单视角产生信号监督我方。这易让模子进行励投契,以种容易式拿到励,而不是产生正确的理旅途。这就像让学生我方监督我方学习时,学生会我方 “开小差” 样。如图 1 所示,模子会发现雷同输出部分 token 不错使得熵小;模子输出个致但古怪的谜底,也不错拿到励。这就模子在 RL 的自我励机制中以投契的式获取到励,励获取与理正确冉冉脱钩,进而致训练崩溃。
图 2:Co-rewarding 框架暗示图。不同于单视角自我监督的法,(a) Co-rewarding 引入其他视角互补的监督信号;(b) 从数据视角,Co-rewarding-I 使用原题和改写题进行相互监督;(c) 从模子视角吉安钢绞线一米多重,Co-rewarding-II 使用个教师参考模子产生伪标签监督现时模子。
Co-rewarding 残暴重要转动:互补视角进行监督和励
针对这挑战,Co-rewarding 残暴避训练崩溃的重要转动:不再信服单视角的监督信号,而是主动引入 “互补视角的监督”,进而加多模子励投契的难度。具体来看,Co-rewarding 分歧从数据视角和模子视角给出两种兑现。
法:Co-rewarding-I(数据视角)
如图 2 (b) 所示,Co-rewarding-I 从数据层面引入互补监督信号,对原问题构建语义等价但表述不同的改写问题(Rephrased Questions),行使原问题与改写问题之间的 “类比致” 进行相互监督:
对原题与改写题分歧进行屡次采样,生成回应。
用原题回应进行无数投票得到的伪标签去监督改写题,用改写题回应无数投票得到的伪标签监督原题。
这种筹画的重要在于:模子须在不同表述下保捏理效果的致,才能捏续赢得励。比较单视角下的致自洽,跨问题的致显贵提了励投契的难度,钢绞线从而有缓解训练崩溃问题。
法二:Co-rewarding-II(模子视角)
如图 2 (c) 所示,Co-rewarding-II 从模子层面解开监督信号与现时 Policy 模子训练之间的耦,即监督信号所需要的伪标签不是从现时 Policy 模子得到,而是个另外的教师模子,这卓绝裁减了现时 Policy 模子关于励信号的截至,增强了励投契的难度:
教师模子针对个问题,生成屡次理回应,并无数投票产生伪标签。
学生 Policy 模子基于教师提供的伪标签进行励获取和 RL 训练。
教师模子需引入个很是的模子,而是由学生模子通过 EMA(指数滑动平均) 新参考模子(Reference Model)得到。
这种 “慢新教师 + 快新学生” 的结构,本质上是种时候解耦的自蒸馏(Self-distillation)机制,大概有避现时 Policy 模子关于励信号的主管,从而显贵裁减训练崩溃风险。
实验效果:不仅加解析,并且能强
在多个训练集(MATH、DAPO-14k)、模子系列(Qwen2.5/3、Llama)上进行实验。并在多个数学理、代码生成和通用域基准数据集上进行评估,Co-rewarding 均展现出比较于现存自我励法的势:
表 1:在 MATH 训练集上的能对比,颜越清楚疏通组内能越好。Co-rewarding-I 比较于好的自我励的基线法在 4 个数学有关的基准上的平均能培植达到 + 4.42
表 2:在 DAPO-14K 训练集上的能对比,颜越清楚疏通组内能越好。Co-rewarding-II 比较于好的自我励基线法在 4 个数学有关的基准上的平均培植达到 + 12.90
从表 1 中得到,在 4 个数学理基准上,比较于好的自励法,Co-rewarding-I 平均能培植达到 + 4.42。从表 2 中得到,Co-rewarding-II 平均能培植达到 + 12.90。
在些情况下,Co-rewarding 甚而越了果真谜底进行监督的 RL 训练得到模子,举例 Qwen3-8B-Base 基于 Co-rewarding-II 在 GSM8K 上达到了 Pass@1 为 94.01。
从图 1 中不雅察得到,Co-rewarding 在训练流程中,考证集上的能弧线捏续培植,励捏续获取,训练崩溃和励劫捏情景发生。
Co-rewarding 在数学有关的训练集上进行训练,在代码生成的基准上依旧取得能培植。
Co-rewarding 在 MMLU-Pro 和 IFEval 等多任务和通用域基准上能保捏解析,未毁灭模子通用域的能。
Co-rewarding 带来的启发
自监督强化学习的重要,在于构造 “可靠” 的监督信号来守护解析和捏续的学习。通过引入互补视角的励监督机制,Co-rewarding 诠释注解了:即便莫得东谈主工标注,通过理可靠的自我励机制,大模子也不错解析、捏续地诱出理才气。这响应了自监督强化学习的后劲,在开脱关于标注数据依赖的同期,加符 Scaling Law 的精神,大概加容易的获取到多的数据用于模子训练。
作家先容
张子卓、朱嘉宁(现 UT Austin 博后)、周展科、李烜、冯啸来自香港浸会大学计较机系果真机器学习和理组,葛馨木和赵孜铧来自上海交通大学,团队师为韩波考验和姚江考验。本商讨责任的作家均在 NeurIPS、ICML、ICLR 等机器学习和东谈主工智能顶会上发表多篇论文,主要商讨向为妄言语模子理。
相关词条:不锈钢保温施工 塑料管材生产线 钢绞线厂家 玻璃棉板 泡沫板橡塑板专用胶1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定吉安钢绞线一米多重,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。