大规模高质量的数据对模型训练至关重要。在深度学习中,模型的性能直接受到训练数据的影响。高质量的数据可以为模型提供准确、多样化、更全面的信息,从而帮助模型更好地学习和泛化。尤其是在现在的大模型时代,随着模型规模的不断增大,其需要处理更复杂和高维的数据表示。大规模高质量的数据可以为大模型提供更丰富的信息,并且减少错误数据对模型性能的负面影响,比如ChatGPT训练时也使用了很多人工标注的高质量数据。因此,大规模高质量的数据对于训练达模型以实现更高性能和更复杂任务的目标至关重要。
在教育场景中,大规模高质量的数据尤为稀缺。教育数据的质量通常参差不齐,比如数据来源、数据采集的标准化程度等都不统一,且教育系统存在复杂性和多样性,不同地区、学校之间存在差异,这进一步加大了大规模教育数据采集的难度。
在以英语作为第二语言的场景中,目前已经存在一些公开的数据集,如MSR SC 数据集,但是该数据量仅有几千道题目,不足以训练SOTA的语言模型,另外也有一些数据集,题目类型较为单一,如题目中只需要填写一个空,每个空只能填写一个单词,这和实际场景并不相符,在实际英语学习场景中,题目类型是多种多样的,比如:不同的选择题题干中有不同个数的空白,每个空白所能填写的单词数也是不固定的,而目前已知没有一个数据集满足数据量大且题目类型多样的要求。
基于此,广东智慧教育研究院联合北京世纪好未来教育科技有限公司,依托粤港澳智慧教育联合重点实验室和智慧教育国家新一代人工智能开放创新平台,共同发布了数据集:SC-Ques。
SC-Ques是由专业的英语教师校验的英文多项选择题数据集,共包含了289,148道高质量的英文选择题,这些题目被广泛应用于中小学学生英语教学中。SC-Ques不仅数据量大、质量高,且包含的题目类型更为丰富,共包含单空单词(C1)、单空多词(C2)、多空单词(C3)和多空多词(C4)等四种不同类型的英文选择题。上述四种类型的数据示例如下:
SC-Ques数据集中包含C1类型的题目110,645道,C2类型的题目133,249道,C3类型的题目27,886道,C4类型的题目17,368道。另外,数据集中题目的长度也存在多样性,我们统计了题目长度的分布,如下:
基于该数据集,我们进行了自动解题的简单实验:使用该数据集的题干和选项构造数据,基于正确答案构造正例,基于错误答案构造负例,使用数据基于语言模型进行二分类微调,从而对新的测试集题目进行预测,预测为正确的概率最大的选项即为正确答案。
我们尝试了多个语言模型:BERT、RoBERTa、XLNet、BART和DeBERTaV3,最终DeBERTaV3获得了最有效果,在整体测试集上达到94.88%的准确率,在上述C1、C2、C3和C4各类别测试集上分别达到94.68%、94.79%、95.74%、95.30%的准确率。从上述实验结果中,可以看到该大规模高质量的数据集对于语言模型训练的有效性,且能很好地解决教育领域的自动解题任务。该数据集可广泛应用于教育领域英文语言模型的预训练和英语选择题的自动解题,从而促进非英语母语的学习者更好地进行英文学习。
数据集可通过https://github.com/ai4ed/SC-Ques下载,欢迎各位感兴趣的同仁下载使用!
SC-Ques数据集的详细描述,见论文——
SC-Ques: A Sentence Completion Question Dataset for English as a Second Language Learners
刘琼琼,黄雅莹,刘子韬,黄淑妍,陈佳豪,赵翔宇,林桂民,周玉宇,罗伟其
The 19thInternational Conference on Intelligent Tutoring Systems (ITS 2023)
Sentence completion (SC) questions present a sentence with one or more blanks that need to be filled in, three to five possible words or phrases as options. SC questions are widely used for students learning English as a Second Language(ESL). In this paper, we present a large-scale SC dataset, SC-Ques, which is made up of 289,148 ESL SC questions from real-world standardized English examinations. Furthermore, we build a comprehensive benchmark of automatically solving the SC questions by training the large-scale pre-trained language models on the proposed SC-Ques dataset. We conduct detailed analysis of the baseline models performance, limitations and trade-offs. The data and our code are available for research purposes from: https://github.com/ai4ed/SC-Ques.