科研速递 | 广东智慧教育研究院师生论文被国际机器学习重要期刊Machine Learning录用

来源:广东智慧教育研究院 发布时间:2025-01-18

       近日,我院2022级硕士研究生郑颖以学生第一作者身份发表题为ArithmeticGPT: Empowering Small-size Large Language Models with Advanced Arithmetic Skills的论文,被国际机器学习重要学术期刊Machine Learning收录。该研究提出了一个名为ArithmeticGPT的框架,旨在针对小型大语言模型(small-size LLMs)不擅长数值运算的问题,提供简单有效的提升方法,能够显著提升其计算的精度和准确性,同时保持其原有的常识推理和问答能力。同时,构建了一个全面的数学算术测评基准Arith3K,以更好地评估LLMs的算术能力。通过在多个数学相关数据集上的评估,ArithmeticGPT展示了其在高级算术计算方面的优越性能。刘子韬为论文唯一通讯作者。

       《Machine Learning》由知名出版社Springer出版,创刊于1986年,是一本著名的国际性期刊,专注于机器学习领域的研究,致力于发布报道高质量的机器学习研究成果。该期刊以描述问题和方法、应用研究和研究方法论问题的论文为特色,也是中国计算机学会 (CCF) 推荐的人工智能领域B类学术期刊。

入选论文介绍

论文题目:ArithmeticGPT: Empowering Small-size Large Language Models with Advanced Arithmetic Skills

作者:刘子韬(暨南大学)、郑颖(暨南大学)、尹治博(好未来)、陈佳豪(好未来)、刘天乔(好未来)、田密(好未来)、罗伟其(暨南大学)

通讯作者:刘子韬

摘要:大语言模型(LLMs)在理解和生成跨多个领域的语言方面展示了显著的能力。然而,它们在高级算术计算方面的表现仍然是一个重大挑战,尤其是对于小型语言模型(small-size LLMs)。因此,本文提出了ArithmeticGPT,一个旨在增强小型语言模型高级算术技能的实用框架。我们精心编制了一个算术指令数据集ArithInstruct,能够教导小型语言模型触发自开发的内部计算API,以便在没有明确指令的情况下进行精确计算。此外,我们受课程学习理论(curriculum learning theory)启发,设计了一个实用的三阶段策略,用ArithInstruct微调小型语言模型,赋予模型高级算术能力的同时保持模型的原始能力,如常识推理和问答。我们还构建了一个全面的数学算术测评基准Arith3K,能够更好地评估LLMs的算术能力。我们在六个公开的数学相关数据集上评估了ArithmeticGPT,并与17个最先进的 LLMs进行了比较,实验结果证明了我们方法的优越性。为了鼓励可重复的研究,我们公开了我们的数据和代码,网址为https://github.com/ai4ed/ArithmeticGPT。