中文题名: | 基于自然语言处理的作文自动评分系统研究 |
姓名: | |
学号: | 1049721203161 |
保密级别: | 公开 |
论文语种: | chi |
学科代码: | 0810 |
学科名称: | 信息与通信工程 |
学生类型: | 硕士 |
学位: | 工学硕士 |
学校: | 武汉理工大学 |
获奖论文: | |
院系: | |
专业: | |
研究方向: | 信息采集、传输与处理 |
第一导师姓名: | |
第一导师院系: | |
完成日期: | 2015-05-02 |
答辩日期: | 2015-05-14 |
中文关键词: | 作文自动评分 ; 语法错误检测 ; 语言模型 ; 最大熵分类器 |
中文摘要: |
作文自动评分系统是应用计算机技术对英文作文进行评分的系统。作文自动评分系统综合应用了统计学、自然语言处理、语言学及信息检索等领域的技术。目前国外作文评分系统(如E-rater)都得到了广泛运用。但是目前国内学者对英语作文自动评分系统的研究仍然处于初始阶段。随着在线教育的兴起,学生对知识掌握程度的衡量也需要自动化评测工具的帮助,因为传统的人工批改方式不再适用于拥有大量学生的在线教育。相比于人工评分,作文自动评分系统的评分更加快速,更加公正,更加经济。 本文首先基于EDX平台的开源项目研发了基础的作文评分系统。该系统将作文评分过程看作是文本分类过程,采用的分类器是梯度提升决策树分类器。但这个评分系统并不完美,一方面系统特征不能充分反映作文特征,另一方面可扩展性不好,为了添加新的作文题目,需要新的训练集和测试集来重新训练评分模型。国外优秀的作文自动评分系统综合考虑了作文的语法表达、语义内容和篇章结构等评分因素。语法错误数量是衡量语法表达好坏的重要标准,所以论文将作文语法错误检测作为研究重点。 本文随后研究了基于语言模型的语法检测方法。在该系统中,用SRILM工具搭建语言模型服务器。语言模型服务器可以用来查询N-gram词组的概率。根据单词词干为单词生成候选集,然后根据维特比算法求取最优词汇组合。若该词汇组合与原始句子不同,则认为检测出语法错误。但该方法也有缺陷,只能检测出替换类型错误,而无法检测出插入型错误和删除型错误。 本文还研究了冠词和介词错误检测,这两种错误是英语学习者最常犯的语法错误。模型训练集提取自大不列颠国家语料库。因为该语料库可以认为是没有语法错误的,所以初始训练过程无任何错误样本。为了使训练样本更接近英语学习者语言表达,本文在训练过程中添加了人工制造的错误样本,从而引入错误语法信息,提高了分类器对错误信息的敏感度。本文将语法错误检测过程视作分类任务,选取的分类器是对稀疏特征有着强大分类能力的最大熵分类器。从实验结果来看,冠词和介词错误检测系统性取得了与国外大学研究成果相当的结果。论文最后展望了以后的研究重点:语义分析与更多种类的语法错误检测。 |
参考文献: |
[1]韩宁.几个英语自动评分系统的原理与评述[J].中国考试,2009,2009(3):38-44. [2]梁茂成、文秋芳国外作文自动评分系统评述及启示[J],外语电化教学,2007,2007(5):18-24 [13]刘雷. 英语作文智能批改中语法检查的研究与实现[D]. 北京:北京邮电大学. 2013 [14]梁茂成.大规模考试英语作文自动评分系统的研制[M].北京:高等教育出版社.2011 [16]Naber Daniel. A rule-based style and grammar checker. 2003. [37]Stolcke, Andreas. SRILM-an extensible language modeling toolkit [J].INTERSPEECH. 2002. [39]Forney Jr, G. David. The viterbi algorithm[C].Proceedings of the IEEE 61.3 1973: 268-278. |
中图分类号: | TP311.52 |
馆藏号: | TP311.52/3161/2015 |
备注: | 403-西院分馆博硕论文库;203-余家头分馆博硕论文库 |