热搜词:

快手团队: Klear-Reasoner实现AI深度思考

这项由快手科技Klear团队完成的研究发表于2025年8月,详细介绍了他们开发的Klear-Reasoner模型及其背后的创新技术。感兴趣的读者可以通过GitHub项目页面(https://github.com/suu990901/KlearReasoner)了解更多技术细节,完整论文也已在arXiv平台发布。

当我们解决复杂数学题或编程问题时,总是需要一步步仔细思考,不断尝试不同方法,有时甚至要推翻之前的想法重新开始。现在,人工智能也学会了这种深度思考的能力。快手科技的研究团队开发出一个名为Klear-Reasoner的AI模型,它不仅能像人类一样进行长时间的逻辑推理,还在数学和编程领域取得了令人瞩目的成绩。

这个模型就像一个非常聪明的学生,在美国数学邀请赛(AIME)2024年的考试中获得了90.5分的高分,在2025年的考试中也达到了83.2分。要知道,这可是连很多数学专业的大学生都觉得困难的考试。在编程能力测试LiveCodeBench上,它也表现出色,分别在V5和V6版本中取得了66.0%和58.1%的成绩。

更重要的是,这项研究不像很多其他工作那样遮遮掩掩,而是详细公开了整个训练过程的每一个步骤。研究团队发现,训练这样的推理模型就像培养一个优秀的学生一样,需要精心设计的学习材料和恰当的指导方法。他们特别强调,与其给模型提供大量普通质量的学习材料,不如专注于少量但高质量的内容。这就好比让学生做十道精选的好题,比做一百道平庸的练习题更有效果。

在技术创新方面,研究团队提出了一种叫做"梯度保持剪切策略优化"(GPPO)的新方法。传统的AI训练方法在处理某些学习信号时,会简单粗暴地忽略掉一些看似不重要的信息,就像老师批改作业时只看对错而不关注学生的思考过程。而GPPO方法更像一位耐心的导师,即使学生的答案不完全正确,也会从中提取有价值的思考线索,帮助模型更好地学习和改进。

一、从模仿到思考:AI学习方式的根本转变

传统的AI模型训练就像教孩子背诵标准答案,给它看大量的问题和对应的正确答案,让它通过模式识别来学会解题。然而,这种方法在面对需要深度思考的复杂问题时就显得力不从心了。就好比一个只会背诵乘法口诀表的学生,当遇到需要多步骤推理的应用题时就会束手无策。

OpenAI的O1系列模型和DeepSeek的R1模型的成功,让研究者们意识到了长链式思考的重要性。这些模型不是简单地输出答案,而是会展示完整的思考过程,就像学生在草稿纸上一步步推导数学公式一样。但问题是,这些商业模型的训练细节往往不对外公开,就像名厨不愿意分享独门秘方一样,这让其他研究者很难复现或改进这些技术。

快手团队决定打破这种局面。他们以Qwen3-8B作为基础模型,就像选择了一个聪明但还需要进一步培养的学生,然后通过精心设计的训练方法,让它学会了深度推理的能力。整个过程分为两个主要阶段:首先是长链式思考的监督学习,然后是强化学习的进一步优化。

在监督学习阶段,研究团队收集了150万个高质量的数学和编程问题,每个问题都配有详细的解题思路。这些材料主要来源于OpenThoughts、NuminaMath、AceReason-Nemotron等知名数据集,就像为学生精选了最好的教科书和练习册。更重要的是,他们使用DeepSeek-R1-0528这样的顶级模型作为"老师",为每个问题生成详细的解答过程,确保学习材料的质量。

二、质量胜过数量:精选学习材料的智慧

在教育领域有一个普遍认知:与其让学生刷大量题目,不如精选少数高质量的典型题目进行深入思考。快手团队的研究证实了这一点在AI训练中同样适用。他们通过大量实验发现,使用少量高质量的数据源训练出的模型,性能远超使用大量不同质量数据源训练的模型。

这个发现颠覆了很多人的直觉。通常我们会认为,数据越多样化越好,就像让学生接触各种不同类型的题目能提高适应能力。然而实验结果显示,当研究团队只使用最高质量的一到两个数据源时,模型表现最佳。随着加入更多数据源,性能反而开始下降。这就好比一个学生如果同时使用太多不同风格的教科书,反而可能被不一致的解题思路搞糊涂。

更令人意外的是关于错误答案的发现。一般来说,我们会认为应该只让模型学习正确的解题过程,就像老师只会给学生展示标准答案一样。但研究团队发现,这个原则需要根据题目难度来灵活应用。对于简单题目,确实应该只学习正确答案,因为错误的解法会干扰模型对基础概念的理解。但对于困难题目,适当包含一些错误的尝试过程反而有助于模型学习,因为这些"错误"展示了不同的思考路径,帮助模型更好地理解问题的复杂性和解决方案的边界。

研究团队还对比了不同"老师"模型的效果。他们发现,使用更强大的模型作为老师,就像请更有经验的专家来指导学生,确实能带来更好的学习效果。DeepSeek-R1-0528作为老师时,学生模型的表现明显优于使用QwQ-32B或DeepSeek-R1-0120作为老师的情况。这说明在知识传递过程中,老师的水平直接影响学生的学习质量。

三、突破传统限制:梯度保持剪切策略的创新

在强化学习阶段,研究团队面临一个关键挑战。传统的训练方法在处理学习信号时存在一个根本问题:当模型的行为变化太大时,为了保持训练稳定,系统会简单地丢弃一些看似异常的学习信号。这就像一个过度保守的教练,只要运动员尝试稍微冒险的动作就立即制止,结果限制了运动员的潜能发挥。

具体来说,传统的PPO(近端策略优化)方法使用一种叫做"剪切"的机制来控制模型更新的幅度。当某些学习信号超出预设范围时,系统就会将其完全忽略。这种做法虽然确保了训练过程的稳定性,但也带来了两个严重问题。

第一个问题是高熵令牌的剪切。在推理过程中,有些关键决策点对应的令牌具有较高的不确定性,这些往往代表了模型的探索性行为。传统剪切机制会无差别地丢弃这些信号,就像一个谨慎的老师不允许学生尝试任何创新解法,只要求他们按照标准流程作答。这样虽然避免了出错,但也扼杀了创新思维的培养。

第二个问题是负样本收敛延迟。当模型产生不够好的结果时,如果这些结果与之前的行为差异太大,传统方法会忽略这些负面反馈,导致模型无法及时从错误中学习。这就像学生犯错后,老师因为错误太离谱而选择忽视,结果学生不知道自己哪里做错了,继续重复同样的错误。

为了解决这些问题,研究团队提出了梯度保持剪切策略优化(GPPO)方法。这种方法的核心思想是:即使某些学习信号看起来异常,也不应该完全丢弃,而是要以一种温和的方式将其纳入学习过程。就像一位经验丰富的导师,面对学生的异想天开或严重错误时,不是简单地否定,而是从中提取有价值的信息来指导后续学习。

GPPO的工作原理可以这样理解:当模型的某个行为变化超出正常范围时,传统方法会说"这个信号我不要了",而GPPO会说"这个信号我要,但我会调整它的强度,让它以合适的方式影响学习过程"。这样既保持了训练的稳定性,又充分利用了所有可用的学习信息。

四、因材施教:针对数学和编程的专门优化

在实际训练过程中,研究团队发现数学推理和编程解题虽然都需要逻辑思考,但它们的特点和难点却很不相同,需要采用不同的训练策略。

对于数学问题,团队采用了二元奖励机制,就像考试一样非常明确:答对了就给正分,答错了就给负分。但他们特别强调解题过程必须包含在特定的思考标签内,这就好比要求学生不仅要给出答案,还要展示完整的解题步骤。这种要求确保模型不是在瞎猜答案,而是真正学会了推理过程。

编程问题的情况更加复杂。传统的编程训练通常也采用二元评价:代码要么能通过所有测试用例,要么就是失败。但这种方法存在一个严重问题:很多代码可能只是在某些边界情况下出错,其主要逻辑都是正确的。如果简单地将这些部分正确的代码标记为失败,就浪费了其中包含的有价值学习信息。

为了解决这个问题,研究团队引入了"软奖励"机制。如果一段代码通过了16个测试用例中的4个,它就会获得0.25(4/16)的奖励分数,而不是简单的零分。这就像给学生的作业打分时,不是只看最终答案对错,而是根据解题过程的正确程度给出相应分数。这种方法让模型能够从部分正确的尝试中学习,逐步提高代码质量。

在数据筛选方面,团队也采用了不同策略。对于编程数据,他们会过滤掉那些测试用例明显有问题的题目,因为错误的测试用例会给模型传递混乱的学习信号。对于数学数据,他们更注重内容的正确性和逻辑清晰度。

五、协同作用:监督学习与强化学习的完美结合

在强化学习过程中,研究团队还发现了一个重要技巧:将监督学习的损失函数与强化学习的损失函数结合使用,效果比单纯使用强化学习更好。这就好比在训练运动员时,既要让他们在实战中积累经验,也要定期回到基础训练上巩固基本功。

具体做法是,在每次强化学习更新时,如果当前批次中包含正确的解答,就同时计算这些正确解答的监督学习损失,并将其与强化学习损失加权结合。研究团队通过实验发现,当监督学习损失的权重设为0.1时效果最佳。这个比例既能发挥强化学习的探索优势,又能利用监督学习的稳定指导作用。

这种结合的好处是多方面的。首先,它提高了正面示例的利用效率,让模型能够更充分地学习正确的解题模式。其次,监督学习部分起到了"锚点"的作用,防止模型在强化学习过程中偏离正确方向。最后,这种方法有助于缓解"奖励黑客"现象,即模型找到一些技巧性方法来获得高奖励,但实际上并没有真正学会解题。

六、实验验证:全面而深入的性能分析

为了验证GPPO方法的有效性,研究团队进行了详尽的对比实验。他们将GPPO与传统的剪切方法以及最近提出的CISPO方法进行了比较。实验结果显示,GPPO不仅在最终性能上更优秀,训练过程也更加稳定。

在AIME2024数学竞赛测试中,GPPO方法训练的模型达到了82%左右的准确率,而传统剪切方法只能达到76%。在编程能力测试LiveCodeBench V5上,GPPO的优势同样明显,达到了58%的通过率,比传统方法高出约4个百分点。更重要的是,GPPO在整个训练过程中保持了更稳定的梯度范数,说明其训练过程更加可控和可靠。

研究团队还测试了不同超参数设置的影响。他们发现,将监督学习损失的权重α设为0.1时效果最佳。当α为0(即不使用监督学习损失)时,模型性能明显下降。但α过大(如0.2)时,性能也会下降,因为过强的监督信号会抑制模型的探索能力。

在编程领域的软奖励实验中,结果同样令人鼓舞。使用软奖励机制的模型在LiveCodeBench V5上达到了61.0%的成绩,而使用传统硬奖励机制的模型只能达到59.2%。虽然差距看起来不大,但在高难度编程竞赛中,每1%的提升都代表着显著的进步。

七、数据质量的深度探索:意外发现与重要启示

在数据质量研究方面,团队的发现颠覆了许多传统认知。他们使用OpenR1-Math-220k数据集进行了细致的分析,将数据按难度分为简单和困难两类,然后分别测试使用纯正确数据和混合数据(包含正确和错误解答)的训练效果。

结果显示了一个有趣的现象:对于简单问题,使用纯正确数据训练的效果确实更好,这符合我们的直觉。比如在AIME 2024的简单题目上,纯正确数据训练的模型准确率为45.00%,而混合数据训练的只有40.22%。这就像教小学生加法时,应该只给标准的计算步骤,而不要混入错误的方法。

但对于困难问题,情况完全相反。混合数据训练的模型在困难题目上的表现反而更好。在AIME 2024的困难题目上,混合数据训练的模型达到了47.29%的准确率,而纯正确数据训练的只有45.63%。这个现象的原理类似于免疫系统的工作方式:适当接触一些"病毒"(错误解法)反而能增强免疫力(辨别能力)。

这一发现对AI训练具有重要指导意义。它说明我们不应该一刀切地追求数据的"纯洁性",而应该根据任务难度来决定数据筛选策略。对于复杂推理任务,适当包含一些错误示例可能反而有助于模型学习,因为这些错误展示了常见的思维误区和陷阱,帮助模型建立更强的判断能力。

八、架构优化与训练细节:精工细作的技术实现

在具体的技术实现上,研究团队展现了精工细作的态度。他们采用了多阶段训练策略,首先进行数学推理的强化学习,然后进行编程能力的强化学习。这种分阶段的方法就像培养一个全才学生,先专攻数学打好逻辑基础,再学习编程掌握实际应用能力。

在数学强化学习阶段,他们使用了较小的批次大小(16)和较高的学习率(1e-6),这样的设置有助于模型快速适应数学推理的特点。而在编程强化学习阶段,他们调整为更大的批次大小(32)和更低的学习率(5e-7),这种调整反映了编程任务需要更稳定和细致的学习过程。

整个训练过程都在32K的上下文长度下进行,这个长度足以容纳复杂问题的完整推理过程。值得注意的是,即使在推理时使用64K的上下文长度,模型依然表现出色,说明训练的泛化能力很强。

在数据预处理方面,团队采用了严格的去重和过滤策略。他们使用9-gram重叠检测来避免训练数据与测试集的污染,确保评估结果的可靠性。这种严格的数据处理方式体现了科学研究的严谨态度。

九、性能突破与横向对比:站上行业前沿

Klear-Reasoner的最终性能表现令人印象深刻。在32K推理预算下,它就已经达到了与其他使用64K或96K推理预算的顶级模型相当的性能水平。具体来说,在AIME2024上达到83.2%,AIME2025上达到75.6%,LiveCodeBench V5上达到61.6%,LiveCodeBench V6上达到53.1%。

当将推理预算扩展到64K时,Klear-Reasoner的性能进一步提升到了新的高度:AIME2024上90.5%,AIME2025上83.2%,HMMT2025上70.8%,LiveCodeBench V5上66.0%,LiveCodeBench V6上58.1%。这些成绩不仅在同规模模型中位居前列,甚至可以与一些更大规模的商业模型相媲美。

与同行的对比更是突出了这项研究的价值。OpenReasoning-Nemotron-7B虽然使用了500万个长链式思考样本进行训练,但Klear-Reasoner仅用150万样本就取得了更好的效果。这再次证明了"质量胜过数量"的原则,也展示了精心设计的训练方法的重要性。

更值得关注的是,Klear-Reasoner展现出的强化学习效果超越了单纯依靠大量数据的监督学习方法。这说明在AI推理能力的提升上,训练方法的创新比简单增加数据量更加重要。

十、技术创新的理论意义与实践价值

GPPO方法的提出不仅仅是一个技术改进,更代表了对强化学习理论的深入思考。传统的剪切机制虽然保证了训练稳定性,但其"一刀切"的做法忽略了学习信号的复杂性和多样性。GPPO通过保留所有梯度信息但控制其影响强度,实现了稳定性和信息利用率的平衡。

从理论角度看,GPPO体现了"pessimistic update"(悲观更新)的设计思想。当遇到可能过于乐观的更新时,它会保持谨慎;而对于负面反馈,它会积极吸收。这种不对称的处理方式符合学习的基本规律:对好消息保持理性,对坏消息积极反思。

从实践角度看,GPPO为其他研究者提供了一个可行的改进方向。由于其实现相对简单,理论基础扎实,很容易在其他强化学习项目中应用。这种技术的开源分享精神也值得称赞,有助于整个AI研究社区的进步。

在更广泛的意义上,这项研究展示了如何通过精心设计的方法论来突破技术瓶颈。面对AI推理能力提升的挑战,研究团队没有简单地依赖更大的模型或更多的数据,而是深入分析问题本质,提出了针对性的解决方案。这种研究思路对整个AI领域都有重要的启发意义。

说到底,Klear-Reasoner的成功不是偶然的。它体现了科学研究中理论创新与工程实践的完美结合,展示了开放合作与严谨求证的研究态度,更重要的是证明了通过深入思考和精心设计,我们能够让AI在复杂推理任务上达到前所未有的高度。

这项研究的意义远超其技术本身。它告诉我们,在AI发展的道路上,创新思维比简单的资源堆砌更为重要。通过开源分享的方式,快手团队不仅推动了自身技术的发展,也为整个AI研究社区贡献了宝贵的知识财富。对于那些希望深入了解AI推理技术的读者,可以通过项目的GitHub页面获取更多技术细节,这种开放的研究态度值得我们每个人学习和支持。

Q&A

Q1:Klear-Reasoner相比其他AI推理模型有什么独特优势?

A:Klear-Reasoner的最大优势是完全公开了训练细节,并提出了GPPO这种创新的训练方法。它能在32K推理预算下达到其他模型需要64K才能达到的性能,在AIME数学竞赛中获得90.5%的高分。更重要的是,它证明了通过精选高质量数据和优化训练方法,小规模模型也能达到顶级性能。

Q2:GPPO梯度保持剪切策略优化方法解决了什么问题?

A:GPPO解决了传统强化学习训练中的两个关键问题:一是高熵令牌被过度剪切导致探索能力受限,二是负面样本的学习信号被丢弃导致收敛缓慢。它不像传统方法那样简单丢弃异常信号,而是以温和的方式保留所有学习信息,既保证训练稳定又充分利用了所有反馈。

Q3:为什么说质量胜过数量在AI训练中很重要?

A:研究发现使用少量顶级数据源训练的效果远超大量混合数据源。就像学生用一两本优秀教材深度学习比草草浏览十本普通教材效果更好。对于困难问题,适当包含错误示例反而有助于学习,因为这些"错误"展示了不同思维路径,帮助模型建立更强的判断能力。