知识追踪( Knowledge Tracing,KT )是一项基于学生历史学习交互来预测学生未来表现的任务。随着深度学习技术的快速发展,现有的KT方法遵循数据驱动的范式,使用大量的问题解决记录来建模学生的学习过程。然而,尽管教育情境中包含各种可能影响学生学习成果的因素,但现有的公开KT数据集主要由匿名化的ID类特征组成,这可能阻碍了该领域的研究进展。因此,我们提出了XES3G5M,这是一个大规模的数据集,其中包含了大量的问题和相关的知识点( knowledge component,KCs )的辅助信息。XES3G5M数据集是从一个真实的在线数学学习平台收集的,包含7,652个问题,865个KCs,以及来自18,066名学生的5,549,635次学习交互。据我们所知,XES3G5M数据集不仅在数学领域拥有最多的KCs,而且包含最丰富的上下文信息,包括树形结构的KC关系、问题类型、文本内容和分析以及学生响应时间戳。我们希望提出的数据集能有效地促进KT研究工作。
详情见:Liu, Zitao, et al. XES3G5M: A Knowledge Tracing Benchmark Dataset with Auxiliary Information. Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track. 2023.