武汉理工大学
毕业设计(论文)
摘要
自动短答题评分系统(ASAS)是对网络学习系统进行评价的工具之一。其中一种方法是,利用该方法评估过程中考虑的参考数据和参考数据之间的相似性,从而确定参考数据和参考数据之间的相似性。首先,这种方法应该能够提供多种参考答案,能够处理学生答案的多样性。其次,这种方法应该能够在参考答案和学生答案之间提供准确的句子相似度。因此,提出了两种方法来解决这两个问题。第一种方法是利用最大边际相关(MMR)方法自动生成各种参考答案,其准确率为91.95%。第二种方法是使用GAN-LCS精确测量学生答案和参考答案之间的句子相似度,这两个答案的长度明显不同。结果表明,该方法的均方根误差(RMSE)值为0.884,相关系数为0.468。
关键词 自动参考答案生成 短答案评分 最大边缘关联 句子相似度
一 导言
自动短答题评分系统是网络学习过程中的一种评价工具。该系统不仅是对e-learning系统的补充,而且减少了手工系统的评分时间(Peacute;rez和Alfonseca 2005)。与手动更正相比,自动评分还可以提供更客观的评分(Xi和Liang 2011)。根据Burrows等人,到2015年为止,已经开发了多达35个ASAS系统。然而,自动短答案评分算法直到最近才能够提供与人类相同的性能(Shermis 2015;Jayashankar和Sridaran 2017)。因此,需要一种新的方法来提高ASAS系统的精度。
一方面,可以通过使用不同的参考答案来处理学生答案的异质性来获得准确性(Noorbehbahani和Kardan 2011;Rodrigues和Arauacute;jo 2012)。由于学生通过使用同义词、释义和不同的句子结构在自己的版本上构造句子,学生答案的异质性自然而然地显现出来。可以手动和自动生成不同的参考答案。人工参考答案生成的一个例子是使用由(Leacock和Chodorow 2003;Sukkarieh和Blackmore 2009)开发的C-rater系统。C-rater会生成几个不同的参考答案,从而导致相同的抽象。类似的技术也通过(Bachman等人。2002年;Noorbehbahani和Kardan 2011年;Senthil Kumaran和Sankar 2015年)。然而,在这些研究中,参考答案变异的世代是由评价者手工完成的。与前面提到的研究不同,Mohler(Mohler和Mihalcea,2009)试图从可用的学生答案中自动生成参考答案变化。本研究采用Rocchio方法,找出与参考答案金标准最接近的句子相似度水平的学生答案。本文提出的方法之一是修正Rocchio方法的使用,以获得可供选择的参考答案。问题是Rocchio方法需要耗时的训练过程。为了解决这一问题,本文采用Carbonell和Goldstein 1998提出的最大边际相关(MMR)方法自动生成备选参考答案。
另一方面,通过改进学生答案和参考答案之间句子相似度的测量方法,可以提高ASAS系统的准确性。一些研究人员采用的方法需要由Wolska等人。(Wolska 2014年;Ziaietal 2012年;Mohler 2011)。也就是说,在进行实际评估之前,需要对系统进行培训,以识别答案的模式。此外,还需要建立一个知识库,如语料库,作为学习媒体系统,由(Gomaa和Fahmy 2012;Mohler和Mihalcea 2009;Senthil Kumaran和Sankar 2015)完成。同时,一些方法要求句子的最小长度为一个段落(Klein等人。2011年;Adhiti等人。2009)因为应用的方法使用了术语weigthing来衡量短句的相似性。一种简单的方法,直接在两个短句之间测量,以计算学生答案和参考答案之间的相似性,如中所述(Noorbehbahani and 2856 Educ Inf Technol(2018)23:2855–2866 Kardan 2011)。本研究采用修正的Bleu(M-Bleu),其中具有重要作用的词具有更高的权重。问题是,该方法对两个不同长度的句子的测量能力较弱。因此,本文提出了一种称为GAN-LCS(geometrical Average Normalized Longest Common Subsequence,几何平均最长公共子序列)的方法,该方法去除了参考答案中的非贡献词,从而提高了学生答案与不同长度参考答案之间的相似度系数。
二 相关工作
ASAS的公共数据集首次发表于(Mohler和Mihalcea,2009年),但在那篇论文中,Mohler仅使用了2442个数据集中的630个数据。在第二份出版物中,Mohler使用了整个数据集(Mohler等人。2011年)。一些研究人员使用了Mohler发表的数据集,包括(Ziai等人。2012年),(戈马和法赫米,2012年),(苏丹等。2016年)。这些研究将在以下几行中描述。
一项研究(Mohler and Mihalcea 2009)试图开发ASAS系统,尝试测试八种基于知识的方法和两种基于语料库的方法。所有被测方法均归为无监督类。其目的是寻找应用于ASAS系统的最佳方法。结果表明,与基于知识的方法相比,基于语料库的方法具有更好的性能。本研究以相关值表示系统效能,所得相关值为0.463。现有的数据集只提供了一个引用答案。这导致应用的方法无法处理学生答案的多样性。为了提高成绩,Mohler运用Rocchio方法从学生的答案中获得了其他参考答案。通过这个过程,参考答案变得多样化,使得句子相似度结果具有更好的相关性价值。
2011年(Mohler等人 2011年)还出版了使用学习引擎的ASAS。此研究采用图形法与语义词汇测量相结合的方法。在此研究中,Mohler使用两个参数来显示系统的性能,即相关值(从人类得分和机器得分之间的比较中获得的值)和RMSE值(人类得分和机器得分之间的不同值的均方根)。结果表明,先前研究(Mohler和Mihalcea,2009年)的增长相关值为0.464,RMSE值为0978。在研究中,Mohler说,使用RMSE值的性能测试能够测量机器产生的分数和人类产生的分数之间的接近值(Mohler等人。2011年)。
另一项研究(Ziai等人。2012年)使用自然语言处理(NLP)开发ASAS系统。此方法的应用需要足够的语言工具,如词性标记器、词干分析器和树库。本研究得到的相关系数和RMSE值分别为0.405和1.016。最近一项涉及同一数据集的研究是在(Sultan等人。2016年)实施基于监督学习的方法。使用相关性和RMSE值(分别为0.59和0.887)测量系统的性能。
三 资料组
在本文中,我们使用了(Mohler and Mihalcea 2009;Mohleretal。2011年),被称为德克萨斯语料库。数据集由12个作业组成,每个作业由7到10个问题组成,共87个问题。每个问题由大约30名学生回答,因此数据集有2442名学生的答案。有两个评价者,每个评价者对每个学生的答案都给予适当的分数。然后将这两个分数取平均值,并标准化为0到5的范围。最高分为5,表示答案100%正确,0表示不正确。
一方面,德克萨斯州语料库数据集中包含的学生答案的平均长度为19个单词(句子的长度是组成句子的单词数)。最短的句子有一个单词,最长的达到170个单词。这一长度范围被视为一种简短回答问题(Siddiqi等人。其中提到,学生的答案一般由一个短语组成,最多可达三到四个句子。这种情况也得到了(Burrows等人。其中解释说,学生的答案由一个短语对一个段落组成。另一方面,数据集中平均长度为19个单词的学生答案也被视为简短答案,根据(Sukkarieh和Blackmore 2009)中的规定,每个学生答案最多包含100个单词。因此,该数据集反映了短答题的特点,使用此数据集的一些研究人员是(Mohler and Mihalcea 2009;Mohleretal 2011年;戈马和法赫米2012年;Ziaietal。2012年;Senthil Kumaran和Sankar 2015年;Sultan等人 2016年)。
四 系统架构
该系统分为三个阶段,即预处理、参考答案生成和基于GAN-LCS的句子相似度度量。预处理阶段包括三个过程,即小写、标记化和删除标点符号。预处理阶段旨在获得规范形式,以便数据符合下一个过程中使用的算法。第二和第三阶段将在第4.1节和第4.2节中详细说明。
4.1 MMR如何生成参考答案
MMR是一种自动文本摘要算法(Carbonell和Goldstein 1998),它涉及到每个句子和文档标题之间以及文档中句子之间的比较过程。相似度得分最高的句子排在第一位,并标记为相应文档的选定句子。变异句的确定过程是MMR方法从学生答案中选择合适参考答案候选人的基础。式(1)是MMR的公式。
MMR公式的每个组成部分如下所述。学生回答。Q是每个问题的参考答案。Dj是从上一次迭代中选择的MMR值最高的学生答案。lambda;是一个常数,用于调整句子之间的相关性或多样性排名。本文中,lambda;等于0.85,这是基于(Carbonell and Goldstein 1998)的一个结论,即lambda;越接近1,Q的句子越相似,而lambda;越接近0,Q的句子越不相似。方程(1)可用于在每次迭代过程中根据最大的MMR值改变学生的答案。在本文中,我们只使用了三次迭代,因此将产生三个不同的参考答案。因此,将有四个参考答案,包括由人类构造的句子。Sim是一种用余弦系数(CC)来度量句子之间相似度的方法,如式(2)所述。R是参考答案,S是学生答案。
在这项研究中,我们为得分为4的候选人设置了阈值。成绩大于等于4分的,予以录取;成绩小于4分的,不予录取。注意5是学生正确答案的最高分数。
4.2使用GAN-LCS进行简短回答评分
在前一个过程中获得的参考答案的变异,然后作为参考来执行学生答案的评估过程。评价过程不仅关注句子相似度的高低,而且关注系数的大小,即Sim(R,S)。这个系数值可以直接转换为学生回答问题的最终奖励。评估过程中的句子相似度计算采用了公式(3)中的一种新方法,称为GAN-LCS:
R是参考答案,S是学生答案。lcsrnsi是指参考答案和学生答案之间的交集的两个句子之间最长的公共子序列字符。方程(3)是关于测量长度明显不同于其他可用方法的句子的问题。在ASAS系统中,两个不同长度的句子可能被认为是相似的。因此,等式(3)的对数部分通过使用分母min(| R |,| S |)来省略非贡献词。这将增加不同长度的参考答案和学生答案之间的相似度系数值。然后将系数值转换为学生成绩。对于每个可用的参考答案,我们使用公式(3)计算学生和参考答案之间的相似度,以获得最大相似度系数,然后从最大相似系数和最大得分的乘积中得到,如式(4)所示。
Sim(Si,Rj)是第i个学生答案和第j个参考答案之间的相似系数,ms是最大得分。当学生的答案与参考答案中的一个非常相似时,给予最高分数作为奖励。在这项研究中,ms设置为5,因为这个值是最大得分。
五 结果和讨论
本文的研究结果旨在产生三种产出。第一个输出是MMR方法获得参考答案变化的准确度。第二个输出是手动和自动评估的相关值。同时,第三个输出是RMSE值的手动和自动评估。然后将相关性和RMSE值与先前的研究进行比较。以下各段对每一项产出作了解释。第一个输出是MMR方法的精度水平。MMR方法从数据集中的2442个学生答案中选择261个参考答案候选。表8显示了接受或拒绝的参考答案候选人,最后一栏是每个问题所选候选人的总数。还提供了接受和拒绝候选人的百分比值。 剩余内容已隐藏,支付完成后下载完整资料
资料编号:[237925],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。