仅1个数据可以大大增强大型模型的数学推理的性能吗?

这篇文章的第一本是王Yiping,是华盛顿大学的一项医生研究。他的主管和与Du Shaolei相对应的是华盛顿大学的助理教授;其他两个相应的Yelong Shen和Shuohang Wang是Microsoft Genai的首席研究人员。最近,大型语言模型(LLM)在识别能力方面取得了重大发展,尤其是在复杂的数学活动中。鼓励上述发展的主要方法之一是通过可验证的奖励(RLVR)研究加强,该奖励根据数学问题的最终答案的准确性提供了0-1的奖励。但是,大量的研究工作着重于改善RLVR中使用的原始增强算法(例如PPO,GRPO)和DATA的研究,这是不足的。最近,华盛顿大学,西雅图,微软和其他机构的研究人员探索了一个重要的问题:需要多少数据在RLVR中表现正常?他们发现了一种神奇的现象:使用数学数据可以改善各种数学识别活动中的模型性能!纸张标题:具有练习纸示例的推理大语言模型的加强研究地址:https://arxiv.org/abs/2504.20571代码地址:https://github.com/ypwang61/oone shot-rlvrw b b b纪录记录: https://wandb.ai/yipingwanguw/verl_few_shot?nw=nwuseryipingwang22x22x(twitter):https://x.com/ypwang61/status/19175961019610195348000通过培训通过训练(通过训练)通过RLV(1-shot)(通过RLV进行训练)(1-shot)通过训练,通过培训,通过练习,练习,绩效QWEN2.5-1.5B从36.0%到73.6%的数学500,以及QWEN2.5-MATH-7B的性能从51.0%到79.2%的MATH500。此性能类似于使用1.2K数据集(包括此)的RLVR。 RLVR使用两个训练样本,甚至部分优于表演使用称为DSR-SUB的1.2K数据集并使用RLVR的7.5K数学训练集的性能是可比的。在所有6种常用的数学推理活动中都可以观察到这种性能。使用数学训练数据可以进一步扩展到不像弧度的/挑战那样数学的ACTSN,可以进一步扩展到ACTSN。在这项工作的背景中引入背景,本文使用了三个失去损失的损失,包括梯度损失损失,差异-KL品种和熵损失。在这里,政策损失使用GRPO格式中功能的丧失,如果解决数学问题,这与0-1奖励结果一致; KL损失用于在一般任务中维持模型语言质量;虽然熵损失(系数为负)用于鼓励模型产生更多样化的理解模式。对于数据选择,研究人员使用了一个称为历史变化标记的指标将数据分类到数据库(1.2K DS前面提到的R-SUB数据集)在模型训练过程中以较大的变化精度对数据进行优先级。但是,本文强调,这种类型的数据选择不是最好的,而只是为了更好地描述现象。此外,还可以使用许多具有较高历史多样性得分的数据进行1-Shot RLVR,这可能是一种更普遍的现象。此外,研究人员还发现,产生1-Shot RLVR表现良好的数据并不是特别困难。初始模型可以解决一定的可能性。通过1-Shot RLVR进行了实验性观察,该论文还发现了许多有趣的现象:(1)通常在饱和度后:在1-Shot RLVR中发现的纸张,训练单个训练样本的准确性迅速达到了几乎100%,但下游活动的功能在训练过程中仍然有所改善。 (以下文章解释说,自从熵丧失鼓励探索差异以来CE,准确率略低于100%,在培训过程中始终保持政策梯度)。同时,在饱和后概括过程中,过度拟合的发生相对较晚,并且仅在单个堵塞样品超过100万次之后才发生明显的正确答案混合物。目前,任务的推理输出仍然是正常的,并且表现良好。 (2)1-Shot RLVR对于许多数学和非常通用的例子有效。纸尝试了十几个示例,实际上它们都可以取得接近或超过30%的改善数学500。同时,来自数学主题的单个培训数据(例如几何学)可以同时提高其他数学主题的性能(例如代数,数字理论等)。 。更重要的是,本文观察到该模型在下游活动中与词汇相关的词汇的上升频率。 (4)1-shot RLVR可以在D中使用ifferent模型和算法。研究人员已经测试了不同的模型(QWEN2.5-MATH-1.5B/7B,LLAMA-3.2-3B-INSTRUCTION,DEEPSEEK-R1-DISTILL-QWEN-1.5B)和各种RL算法(GRPO,PPO),可以观察到所有良好的改进。此外,此处使用的数据是使用QWEN2.5-MATH-1.5B模型的历史变化标记来计算的,表明某些数据适用于不同模型。消融实验和评论论文是您的主要原因,这是1-Shot RLVR进行改进的主要原因。通过删除其他损失功能,该论文发现该模型通过1-Shot RLVR的改进,主要源自策略梯度的损失,并且与降低KL多样性和体重减轻无关。因此,即使是饱和后的一般现象也类似于“ graggy”现象(这两者都在过度摄入后仍可以在流中众所周知),因为“ gracking”受到正则化方法的高度影响(例如,减肥),并且两者之间仍然存在主要区别。此外,该论文还发现了鼓励探索的重要性,例如,基于滴落梯度的下降,增加了适当的熵损失,可以提高1-Shot RLVR性能,尤其是在饱和后概括方面。作为另一个观察,该论文发现,只有少量步骤量的熵损失的训练也可以提高模型的性能,如果错误数据以1-Shot RLVR发生,这会导致1-Shot RLVR上模型性能的略有改善。那些有纸张的人仍在探索这种现象的原因。摘要和讨论1数学活动中的RLVR表现支持许多以前的论文的结论,也就是说,用于RLVR的基本模型通常具有出色的推理能力,并且该论文进一步表明,很小的数据可以刺激此能力。该论文认为这不寻常的事情可以促进进一步反思RLVR的最新发展,并考虑内部RLVRSystem机制。他们为某些问题留下了一些灵感,例如如何设计更好的RLVR数据选择算法,如何理解1-Shot RLVR和饱和后概括现象,如何更好地鼓励探索以及如何探索其他活动和应用的几个样本RLVR。
请尊重我们的辛苦付出,未经允许,请不要转载九州体育娱乐_bet9九州平台的文章!

下一篇:没有了