近日,Frontiers of Digital Education(FDE,《数字教育前沿(英文)》)正式公布录用论文名单。暨南大学广东智慧教育研究院师生投稿论文被数字教育领域重要学术期刊FDE录用。
Frontiers of Digital Education(《数字教育前沿(英文)》)是由中华人民共和国教育部主管,高等教育出版社主办,由德国施普林格·自然(Springer Nature)负责海外发行的英文学术期刊。本刊为季刊,由高等教育出版社总编辑谭方正担任主编,武汉理工大学校长杨宗凯和中国教育科学研究院院长李永智担任联合主编。
Frontiers of Digital Education旨在反映各国数字教育政策动态、学术前沿和研究热点,探讨数字教育与科技创新重点和难点问题,搭建具有中国特色的数字教育重大成果发布与交流平台,服务数字教育发展。
入选论文介绍
论文题目:MathEval: A Comprehensive Benchmark for Evaluating Large Language Models on Mathematical Reasoning Capabilities |
作者:刘天乔(暨南大学&好未来)、陈醉(暨南大学&上海科技大学)、方振圣(好未来)、罗伟其(暨南大学)、田密(好未来)、刘子韬(暨南大学) |
通讯作者:刘子韬 |
摘要:数学推理是智能的一个基本方面,涵盖从基础算术到复杂问题解决的各个方面。近期,对大型语言模型 (LLM) 数学能力的研究得出的评估结果不一致且不完整。为此,我们推出了 MathEval,这是一个全面的基准测试,旨在系统地评估 LLM 在各种情境、适应策略和评估指标下的数学问题解决能力。MathEval 整合了 22 个不同的数据集,涵盖了广泛的数学学科、语言(包括英语和汉语)和问题类别(从算术和竞赛数学到高等数学),难度从初级到高级不等。为了解决数学推理输出的复杂性并适应不同的模型和题目,我们使用 GPT-4 作为答案提取和比较的自动化流程。此外,我们使用 GPT-4 的结果训练了一个公开的 DeepSeek LLM-7B-Base 模型,从而能够在无需访问 GPT-4 的情况下进行精确的答案验证。为了减少潜在的测试数据污染并真正衡量学习进度,MathEval 每年都会更新最新的中国高考(2023 年高考、2024 年高考)的习题集,从而衡量数学解题能力的真正进步。访问地址为:https://matheval.ai/ |