科研速递 | 暨南大学联手谷歌共同举办的AAAI 2024全球大模型数学推理竞赛比赛结果正式发布

为了提高大语言模型的数学和科学推理能力，暨南大学广东智慧教育研究院联合谷歌、好未来（学而思）等多家知名科技企业及高校的专家学者，于2023年10月启动AAAI 2024全球大模型数学解题竞赛，并在近日的AAAI 2024人工智能教育国际研讨会上正式发布比赛结果（https://ai4ed.cc/competitions/aaai2024competition）。

这是全球首个围绕大模型数学能力的比赛。比赛分为两个阶段，第一阶段为公榜阶段，主办方事先随机在给定的数据集中选出30%的数据，供参赛者进行大模型调试。第二阶段则为私榜阶段，参赛者需使用第一阶段调优过的大模型来解答数据集中剩余的70%题目。主办方通过对比参赛者的模型输出答案与正确答案之间的准确率，来为参赛者进行排名。第二阶段的成绩将会作为比赛的最终成绩。

为了更好地探究各类大模型在不同语言上的数学能力，主办方将比赛设置中英文两个赛道。由好未来（学而思）提供比赛所用的中英文数据集——TAL-SAQ7K-CN、TAL-SAQ6K-EN，囊括了国内外多个中小学数学竞赛真题。考虑到可能会使用第三方大模型进行推理，会在一定程度上对比赛成绩产生影响。为了确保公平，主办方将不同赛道的结果按照是否调用第三方大模型进行分类，并根据最终的分数评选出各个不同类别的前三名。

此次比赛同时吸引了来自美国Meta、英伟达、美国康奈尔大学、加州大学洛杉矶分校、英国牛津大学、清华大学、北京大学、中国科学技术大学等来自国内外顶尖科技公司和高等院校的科研人员参与。最终，在来自美国、英国、法国、新加坡、印度、中国等多个国家和地区的120多支参赛队伍中，CPDP-ICST 、cogbase 、MathEducators 、CTYUN-AI 、zuiii 、shengkai 、loveisp 、数学解题推理8支队伍最终胜出。其中CPDP-ICST、cogbase、MathEducators三支队伍同时是中文、英文赛道前三。

中文赛道调用第三方大模型比赛结果：

中文赛道未调用第三方大模型比赛结果：

英文赛道调用第三方大模型比赛结果：

英文赛道未调用第三方大模型比赛结果：

一直以来，数学都被视为人工智能的试金石。目前，大语言模型在应对数学推理方面问题时仍然有很多挑战。研究院的相关负责人表示，教育作为大模型最先落地应用场景之一，当大模型数学能力得到突破时，将能够带来长久性甚至革命性的变革，能够让更多的人享有更多优质教育资源，真正实现大规模个性化教育。此次支持发起全球大模型数学解题能力竞赛，希望能够借助平台的力量，积极推动科技创新，让更多的人可以享受到科技进步的红利。