科研速递 | 广东智慧教育研究院师生论文被国际人工智能教育会议AIED 2026录用

近日，第27届国际人工智能教育会议（International Conference on Artificial Intelligence in Education，AIED 2026）正式公布录用论文名单，暨南大学广东智慧教育研究院师生投稿4篇长文被会议Main Track录用。

AIED作为人工智能与教育交叉领域的顶级国际会议，始终引领着智能教育的前沿探索。今年会议的主题为“从工具到队友：面向增强学习的人机协同”，标志教育领域当前正迈入全新阶段，人工智能不再仅是支持学习的工具，而是作为能够与师生互补、共同实现教育目标的适应性队友，重点探索人机协同智能、共同进化等前沿方向。本次AIED 2026共收到1241份有效投稿，长文录用率约为16.7%。

入选论文介绍

论文题目：MusicTutor: Facilitating Goal-Oriented Singing Practice via Multi-Agent Tutoring Framework

作者：程腾腾（暨南大学博士研究生）、李薛毅（暨南大学博士研究生）、郭腾（暨南大学）、侯明良（暨南大学）、刘子韬（暨南大学）

通讯作者：刘子韬

摘要：歌唱是音乐启蒙教育中的重要组成部分，而初学者在练习过程中通常需要同时面对多个学习目标。现有的歌唱评估与辅导方法大多将歌唱视为单阶段任务进行处理，因此难以围绕学习者不断变化的目标提供连贯且个性化的支持。本文提出了 MusicTutor，这是首个面向目标导向歌唱练习的多智能体辅导框架。MusicTutor 以 Orchestrator 智能体为核心，负责引导学习者明确练习目标，将目标拆解为不同练习阶段，并依据显式的表现证据在多个专门智能体之间进行控制路由。具体而言，Pitch Auditor 智能体用于提取鲁棒的音高信号，以完成音域估计与稳定性分析；Vocal Profiler 智能体基于估计得到的音域生成个性化音阶练习；Phrase Coach 智能体则支持逐句练习，并借助专门的评估器提供即时、面向具体维度的反馈。大量实验结果表明，相比强基线方法，MusicTutor 能够提供更加准确、更加细粒度的多维度歌唱评估。这些结果说明，将任务分解与角色专门化结合起来，是面向歌唱初学者实现实用化、目标导向辅导的一条有效路径。

论文题目：Beyond Next-Response Prediction: Evaluating Knowledge State Transition Consistency in Deep Learning Based Knowledge Tracing Models

作者：白友恒（暨南大学博士研究生）、韩申（好未来）、谭港奕（暨南大学硕士研究生）、陈佳豪（好未来），刘子韬（暨南大学）

通讯作者：刘子韬

摘要：知识追踪（Knowledge Tracing, KT）旨在对学生知识状态的演化过程进行建模，并预测其在后续习题上的表现。近年来，基于深度学习的知识追踪模型在标准评测数据集上取得了优异的预测精度，使知识追踪成为智能导学系统的核心基础模块。然而，当前的评测方法几乎仅聚焦于预测准确率，却忽略了模型所估计的知识状态演化是否符合教育学上的合理规律。为弥补这一研究空白，本文提出一种模型无关的评测框架，用于评估知识状态转移的一致性。我们设计了两项互补指标，包括硬转移一致率（HTCR）与软转移一致率（STCR），用以量化连续的知识状态转移是否符合学习科学理论给出的合理预期。在四个公开数据集上对十种代表性知识追踪模型进行评测后发现：即便AUC得分相近，不同模型的HTCR差异仍可超过10个百分点。实验结果表明，仅依靠预测精度无法完整衡量模型质量，对于需要具备可解释性、且符合理论依据的知识状态估计的教育应用场景而言，状态转移一致性指标是必不可少的补充评价维度。

论文题目： Benchmarking Scientific Formula Vocalization in Large Speech Language Models Toward Accessible Learning

作者：李薛毅（暨南大学博士研究生）、刘天乔（好未来）、郑嘉琪（暨南大学）、刘子韬（暨南大学）、吴永东（暨南大学）

通讯作者：刘子韬

摘要：在线学习平台为盲人和低视力学生提供了更广泛的无障碍学习机会。然而，当课程内容包含科学公式时，平台往往需要依赖语音模型将公式准确朗读出来，才能真正支持学生理解相关知识。尽管近年来大语音模型（LSLMs）在低时延、流式交互等方面展现出显著优势，但其在科学公式朗读任务中的实际能力仍缺乏系统研究。本文提出了 FormulaEval，这是首个面向主流语音模型、用于系统评估科学公式朗读能力的基准。基于数学、物理和化学领域的教育内容，本文构建了一套严格的数据处理流程，并进一步整理形成了三个高质量数据集。与此同时，本文设计了一套全面的评测框架，将字符级指标（Character-level）与基于大语言模型的语义级（Semantics-level）评判相结合，从而同时衡量模型在字面还原和语义保持两个层面的表现，并兼顾不同朗读习惯下的合理差异。我们在 9 个当前先进的语音模型上开展了大量实验，评测对象涵盖端到端模型、纯文本转语音模型以及级联式系统。实验结果表明，现有模型在科学公式朗读任务上的表现与真实教育场景对可靠性的要求之间仍存在明显差距。这一发现表明，面向科学公式准确朗读的专门方法设计与高质量数据资源建设仍然十分必要，对于推动相关技术在真实教学场景中的落地具有重要意义。

论文题目：The Cost of Thinking: Increased Jailbreak Risk in Large Language Models in Education

作者：杨帆（暨南大学博士研究生）、王岢（暨南大学）、窦文周（暨南大学）、帅奕帆（暨南大学博士研究生）、刘子韬（暨南大学)

通讯作者：王岢

摘要：随着大语言模型的快速发展，思考模式作为一种内置推理机制，已成为提升模型在复杂任务上性能的重要手段，并被广泛应用于智能辅导系统等教育场景。然而，我们注意到思考模式可能降低大语言模型的安全性。由于K-12学生批判性思维尚未成熟，易将有害内容误认为正确知识，这一风险在教育场景中尤为突出。为系统验证这一假设，我们在AdvBench、HarmBench和JailbreakBench上对10个大语言模型进行了评估。实验结果证实，思考模式下的攻击成功率几乎普遍高于标准模式，即使是教育专用模型也未能幸免。进一步分析发现，对详细性的追求导致过长的有害推理，而自我合理化机制使模型以“教育目的”为由生成有害内容。针对上述问题，本文提出了包括提示干预类防御和内容检测类防御的完整防御体系，对于保障思考模式LLMs在教育场景中的安全部署具有重要意义。