
Datawhale干货
干货作家:ALme,裁剪:青稞AI
断断续续学了泰半年的强化学习了,终于有勇气写一个中枢追想啦(竟然太难交融了),这是这个系列第一篇,尝试对RL for LLM进行从最高脉络启航且阳春白雪的追想,但愿能让RL的学习弧线愈加夷易近东谈主
一. 监督学习范式的固有局限性
大型谈话模子的演进,永久以来依赖于要领的监督学习(Supervised Learning)范式,主要体当今预纯熟(Pretrain)和指示微调(SFT)两个阶段。该范式的中枢在于,模子需要依赖东谈主类给出的、从输入到输出的完整监督信号进行学习。
若要仅凭此旅途达到通用东谈主工智能(AGI)的高度,必须餍足两个近乎理思化的前提条目:
• 监督数据的无限性与完备性:数据量级需趋于无尽,且其分散能遮掩通盘可能遭受的问题,以确保模子的全知性。
• 监督信号的整个完好性:通盘监督数据必须准确无误,不存在职何空虚或偏见,以确保模子的正确性。
张开剩余84%• 监督数据的无限性与完备性:数据量级需趋于无尽,且其分散能遮掩通盘可能遭受的问题,以确保模子的全知性。
• 监督信号的整个完好性:通盘监督数据必须准确无误,不存在职何空虚或偏见,以确保模子的正确性。
然而,在现实中,这两点均难以达成。一方面,高质料的东谈主类标注数据已出现“数据瓶颈”,其分娩老本腾贵且遣散有限。另一方面,东谈主类学问本人存在范围(如好多科学未解之谜),且在标注历程中不行幸免地会引入空虚和主不雅偏见。
因此,探索一种梗概冲破上述局限性的新扩张方法(scaling method)大势所趋。这种新方法需要餍足:
• 数据梗概以更高效、低老本的神色进行限制化扩张。
• 对监督信号的依赖不错放宽,不再要求“众人级别”的完好谜底。
• 数据梗概以更高效、低老本的神色进行限制化扩张。
• 对监督信号的依赖不错放宽,不再要求“众人级别”的完好谜底。
强化学习(RL)为此提供了可能的经管有瞎想。
二. RL:应付挑战的新范式
RL之是以被视为LLM握续进化的重要,源于其两个显耀特征:
• 数据由模子与环境交互自愿生成:这从根蒂上经管了数据起头的遣散,为模子的握续学习提供了近乎无限的原材料。
• 监督信息从“生成式”退化为“考证式”:RL的中枢是奖励信号(reward),它不要求监督者提供完好的“众人谜底”,而只需对模子生成的谜底进行有用性或质料的“考证”。基于“考证谜底的难度远低于生成谜底”这一基工夫实[1],RL大幅缩短了对监督信息质料和标注难度的要求
• 数据由模子与环境交互自愿生成:这从根蒂上经管了数据起头的遣散,为模子的握续学习提供了近乎无限的原材料。
• 监督信息从“生成式”退化为“考证式”:RL的中枢是奖励信号(reward),它不要求监督者提供完好的“众人谜底”,而只需对模子生成的谜底进行有用性或质料的“考证”。基于“考证谜底的难度远低于生成谜底”这一基工夫实[1],RL大幅缩短了对监督信息质料和标注难度的要求
为更显豁地交融RL,咱们不错从它与监督学习的谋划发轫。
监督学习(SFT)的亏空函数不错抒发为:
其中,是教唆(prompt),是模子的生成内容, 是代表东谈主类众人谜底的信得过分散, 是模子的输出战略分散。其瞎想是最小化模子分散与众人分散之间的各异。
RL的亏空函数则可视为一种加权监督学习:
中枢辨认在于
• 引入了权重项
• 代表东谈主类众人谜底的信得过分散被替换为模子我方的输出战略分散
• 引入了权重项
• 代表东谈主类众人谜底的信得过分散被替换为模子我方的输出战略分散
可能有东谈主思说,既然只是加权的监督学习,那RL有什么相当的呢?
四. RL与庸俗加权监督学习的推行辨认
RL的颠倒性在于其权重 的瞎想以及纯熟数据的起头,这使其辨认于旨在调治样本弥留性的传统加权学习:
权重可为负值,达成“违害就利”:传统加权学习的权重每每为非负,用于强调弥留样本。而RL中的权重不错为负。负权重带领模子“幸免”生成特定的举止,而不单是是“师法”祈望的举止。这种“刑事职守”机制是模子梗概快速捣毁失败战略、探索未知但可能更优战略空间(Exploration)的重要[2][3],亦然其才略杰出纯熟数据遣散的根蒂原因。
数据起头与权重和洽,酿成自洽的优化闭环:RL用于学习的数据由模子自身生成。这一特色与上述的赏罚机制相和洽,酿成了一个巨大的自优化轮回:模子生成举止 -> 赢得带有正或负权重的反映 -> 调治战略以增多高权重举止、减少低权重举止 -> 生成更高质料的新举止。通过这一轮回,惟一权重(以及背后的reward)瞎想稳健,模子便有后劲达成握续的自我迭代与才略攀升,最终达到杰出东谈主类的性能水平。
五. RL for LLM的中枢研究问题
在上述框架下,刻下RL for LLM的研究主要围绕以下几个中枢问题张开:
如何从“用于考证的弱监督信号(reward)”推导出每个样本的权重 ?举例,ReST[4]方法中的0-1过滤、PPO[5]中学习的价值函数(value function),以及DeepSeek GRPO[6]中从批次数据中运筹帷幄的上风函数(advantage function),皆是对该问题的不同解法。
相接上少量,如何高效、准确地获取“用于考证的弱监督信号(reward)”?从RLHF可学习的reward model[7],到DeepSeek的rule-based reward,皆是在经管这个问题
RL的两个中枢要领——a.基于加权监督学习的模子更新 与 b.新样本的生成——二者的交互节律是怎样的?是生成一个样本就更新一次(完全在线),一经生成N个样本后更新一次或N次?先前批次生成的样本在后续迭代中是否应该被断念(on-policy vs. off-policy的量度)?PPO/GRPO算法中的修正比值、clip参数、生成批次大小、更新的epoch数量等,皆与这个中枢节律问题淡雅谋划。
RL纯熟应选拔怎样的教唆(prompt)分散 p(x)?以数学问题为例,如何瞎想一个问题序列(课程),才调最大化模子的学习遣散?[8]
进行RL纯熟前,基础模子(base model)需要具备哪些先决才略,才调有用扶助后续的强化学习历程?[9]
以上几点组成了刻下RL for LLM研究的基本蓝图。对这些问题的不停探索息争答,将握续鼓吹大型谈话模子向着更高档的智能样式迈进。这一篇的追想暂告一段落,后续的著述将进行更深切的考虑。
宽宥天下留言有瞎想!
参考[1]All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning
https://arxiv.org/abs/2503.01067
[2]e3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs
https://arxiv.org/pdf/2506.09026
[3]Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data
https://arxiv.org/abs/2404.14367
[4]Reinforced Self-Training (ReST) for Language Modeling
https://arxiv.org/abs/2308.08998
[5]Proximal Policy Optimization Algorithms
https://arxiv.org/abs/1707.06347
[6]DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
https://arxiv.org/abs/2402.03300
[7]Training language models to follow instructions with human feedback
https://arxiv.org/abs/2203.02155
[8]SPEED-RL: Faster Training of Reasoning Models via Online Curriculum Learning
https://arxiv.org/abs/2506.09016
[9]Scaling Test-Time Compute Without Verification or RL is Suboptimal
https://arxiv.org/abs/2502.12118开云网址
发布于:浙江省Powered by Kaiyun「中国大陆」官方网站-门户网站/登录网址 @2013-2022 RSS地图 HTML地图