科研速递 | 暨南大学联手谷歌、学而思共同举办AAAI2024全球大模型数学推理竞赛

发布时间:2023-10-14 来源:广东省智慧教育研究院

日前,由暨南大学广东智慧教育研究院牵头,联合谷歌、学而思等多家知名科技企业及高校的专家学者,依托智慧教育国家新一代人工智能开放创新平台,共同举办的AAAI2024 全球大模型数学推理竞赛,邀请全球人工智能专家、开发者以及爱好者一起用大模型自动解答中小学数学难题,旨在探索、解决人工智能在数学领域的挑战

比赛官网见:‍https://ai4ed.cc/competitions/aaai2024competition

AAAIAssociation for the Advancement of Artificial Intelligence)由计算机科学和人工智能科学家Allen Newell、 Marvin Minsky 和John McCarthy等创办,是国际人工智能领域最为权威与重要的协会之一,AAAI会议被中国计算机学会(CCF)推荐为A类会议。数学一直被视为人工智能的试金石。当大语言模型突破其“先天性的缺陷”(如缺乏复杂推理能力、数值计算不够准确等),成功应对数学推理方面的挑战时,人工智能将进入新的纪元。如何提升大语言模型数学推理能力,突破语言模型的先天不足,成为当下全球人工智能领域关注的重点
       比赛期间,参赛者需使用大模型对给定的数学题目,生成推理步骤与答案。主办方将通过对比参赛者的模型输出答案与正确答案之间的准确率,来为参赛者进行排名。准确率最高的参赛者将会赢得此次比赛
       为了更充分地探究各类大模型的数学推理能力,此次比赛分为中文数学解题和英文数学解题两个赛道。由学而思提供比赛所用的中英文数据集——TAL-SAQ7K-CN、TAL-SAQ6K-EN。该数据集囊括了国内外多个中小学数学竞赛真题,包括中国“迎春杯”数学竞赛、中国“希望”数学邀请赛杯和 AMC等。这些题目格式均经过精心处理,每道题目都包含题目内容,题目难度等级和题目涉及到的从粗粒度到细粒度的知识点链条等字段。与之同时,TAL-SAQ7K-CN、TAL-SAQ6K-EN数据集中涉及到数学表达式已经处理成统一的文本模式 Latex。
       比赛分为两个阶段,第一阶段即日起截止到12月31日,为公榜阶段。主办方事先随机在TAL-SAQ7K-CN和TAL-SAQ6K-EN中选出30%的数据,供参赛者进行大模型调试。第二阶段则从2024年1月1日到1月10日,为私榜阶段。期间,参赛者使用第一阶段调优过的大模型来解答数据集中剩余的70%题目。这一阶段的成绩将会作为比赛的最终成绩。
        此外,主办方还为此次比赛提供了3个测评基准作为参考,即GPT-3.5,GPT-4以及数学大模型MathGPT在公榜上的表现,具体结果如下:
        Track1:

  

 

    Track2:

 

 

2023年10月10日 - 开始日期。

2023年12月31日 - 最后提交截止日期。

2024年1月10日 - 最终比赛结果公布。

这次竞赛将为我们带来全新的体验,让我们在欣赏人工智能强大能力的同时,享受数学的乐趣。让我们一起见证AI如何以新方式解决挑战性问题,为未来铺设新的道路。