近日,第十三届国际学习表征会议(International Conference on Learning Representations,ICLR 2025)正式公布录用论文名单,暨南大学广东智慧教育研究院师生投稿论文被机器学习顶级会议ICLR 2025录用。
ICLR 是深度学习领域的顶级会议,关注有关深度学习各个方面的前沿研究,在人工智能、统计和数据科学领域以及机器视觉、语音识别、文本理解等重要应用领域中发布了众多极其有影响力的论文。会议具有广泛且深远的国际影响力,居谷歌学术人工智能会议影响力排行榜前列,与 NeurIPS、ICML 并称为机器学习领域三大顶会。本次ICLR 2025共接收11,565份投稿,录用率为32.08%
入选论文介绍
论文题目:Advancing Mathematical Reasoning in Language Models: The Impact of Problem-Solving Data, Data Synthesis Methods, and Training Stages |
作者:陈醉(暨南大学&上海科技大学)、刘天乔(好未来)、田密(好未来)、同庆(好未来)、罗伟其(暨南大学)、刘子韬(暨南大学) |
通讯作者:刘子韬(暨南大学) |
摘要:大规模语言模型(LLMs)的发展显著扩展了它们在各个领域的能力。然而,数学推理仍然是一个具有挑战性的领域,这促使人们开发了专门的数学LLMs,如LLEMMA、DeepSeekMath和Qwen2-Math等。这些模型通常遵循一种通用的训练范式:(1) 在预训练阶段,从大量互联网数据中过滤出与数学相关的语料,以增强模型的数学知识;(2) 在后训练阶段,利用问题数据集及其增强版本(如程序思维、进化指令和工具集成推理等)构建监督数据集进行监督微调(SFT),使模型能够遵循指令并以期望的格式生成输出。从先前的研究来看,持续预训练(CPT)阶段似乎对数学推理能力的贡献较小。然而,近期的研究(如Physics of LLM和MiniCPM)强调了在预训练阶段教授模型如何利用记忆知识的重要性。这些发现引发了我们对现有增强数学推理能力的大模型训练范式有效性的关注,当前范式主要关注在预训练阶段记忆更多的数学知识,并在后训练阶段发展推理能力,我们认为是效率较低的做法。因此,我们提出在预训练阶段使用数学问题及其推理步骤(称为问题求解数据)的替代策略,教授模型如何应用其记忆的知识,并基于此提出三个主要研究问题: (1) 在CPT阶段,相较于使用一般的数学语料,提供问题求解数据能否更有效地增强模型的数学推理能力?(2) 如果问题求解数据能够提升数学推理能力,那么来自相同来源的合成数据是否同样有效,哪种合成方法最为高效?(3) 在CPT和SFT阶段,使用相同的问题求解数据所培养的能力有何不同,导致这些差异的因素是什么?我们的研究发现了以下结论,(1) 在CPT阶段,问题求解数据相比于一般数学语料显著增强了模型的数学能力; (2)并对问题求解数据进行自我辅导增强合成方法是最有效的; (3) SFT和CPT都在学习与其数据分布一致的能力,但SFT对域内(IND)学习能力弱于CPT,并且SFT更容易收到数据分布的干扰。对二者而言,提供难度较高的多步骤问题求解数据能够实现更有效的学习,并且CPT更有优势。这些见解为优化LLMs的数学推理能力提供了宝贵指南,最终我们开发了一个强大的数学基础模型——MathGPT-8B。 |