写作测评工具在大学英语中的应用综述论文

作者:网友分享原创网站原创 点赞:6218 浏览:19382 最后更新时间:2025-01-02
摘 要: 现代教育信息技术应用于语言测试和教学领域是大势所趋,本文介绍了目前国外比较流行的八种写作测评工具。相比较而言,国内对于写作在线测评工具的研究尚处于初始阶段,主要体现在三个方面:理论介绍、模型构建和实证研究。虽然这项技术具备很大优势,但是在技术革新和实际应用方面仍然面对诸多挑战,急需更多的实证研究达到最佳应用效果。
  关键词: 写作在线测评工具 信息技术 语言测试
  

一、引言

  现代教育技术的发展与普及为语言教学和语言测试的发展带来了契机,写作在线测评工具不断研制、开发和应用就是一个极好的例子。写作在线测评工具就是利用现代教育技术对语言学生的作文进行在线判断、评分并且给出及时反馈的计算机软件系统。它以反馈、调控和改善为目的,具有改善教学活动、监控写作过程的功能,能够达到及时反馈、改善、调控学生学习进程的效果。作为衡量语言输出能力的指标——写的能力,无论是检测还是平时训练,都客观、公正的评阅者,给予及时、中肯的反馈,同时为学生提供不断修正、改善的机会,敏锐地捕捉他们的点滴进步,调动他们的写作积极性。计算机技术和信息系统的日新月异为解决这一亘古难题带来了希望,国内外各个领域的专家学者们纷纷研制开发写作在线评阅工具。这种写作在线评阅工具主要应用于语言测试和语言教学领域,已经输入计算机内部的学生作文文本进行评阅,主要用在高风险考试中,作为人工评分的补充进行实际评分;还可以用在语言教学中,对学生的写作能力进行诊断、提供修改倡议等。
  

二、国外写作测评工具综述

  该项技术的研究始于20世纪60年代的美国,目前国外较为成熟的写作自动测评工具主要包括:Project Essay Grade(PEG),Intelligent Essay Assessor(IEA),Electronic Essay Rater(E-rater),Criterion,IntelliMetric,Bayesian Essay Test Scoring System(BETSY),My Access!,以及Writing Roadmap

2.0(WRM)系统等。

  

1.PEG

  作为最早被开发出来的写作自动测评工具,PEG主要所输入文本的一些容易量化的特征,如:长度(包括文章、句子、甚至单词的长度)、标点符号、语法等因素,利用统计中的多元回归分析,给文章评分。尽管PEG在实际应用中与人工评分有着很高的相关性,准确率也很高,但是由于PEG的评分标准只是表层特征,忽视说没有办法量化文章的本质特征,如:内容的相关性、组织体裁、作者的观点态度、篇章结构等,而且不能提出反馈,因此没有教育界的认可和接受。不管怎样,PEG是利用计算机代工阅卷的首次尝试,为后来的技术改善奠定了基础。
  

2.IEA

  IEA的基本原理是潜在语义分析——LSA(latent semantic analysis)技术。潜在语义分析用于作文评分时有三个步骤:,要挑选出有代表性的作文范文样本;其次,这些样本被表示为潜在语义分析中使用的变量;最后,待评分作文在内容和概念的相关性上与这些样本进行比较,从而取最类似范文的平均分数(韩宁,2009)。与PEG只关注文本的表面语言特征相比,IEA关注文本的整体内容,同时包含对文本的写作技巧,如语法、标点等的反馈,与人工评分的相关性也很高,具有更大的教育价值,是作文自动评分系统的重大突破。由于该策略只能对作文内容进行评价,而不顾作文的语言质量,因此评分效度很难保证。而且其设计初衷是为评价本族语作文所用,如果用于评测外语学习者的作文,其信度和效度就很难取得令人满意的效果。
  

3.E-rater

  E-rater利用了多种技术,如统计技术、矢量空间模型技术和人工智能中的自然语言处理技术,因此,E-rater既能够像PEG那样评判作文的语言表层特征,又能够像IEA那样评判作文的内容质量。此外,E-rater还能够对作文的篇章结构进行分析。E-rater兼顾作文的内容和语言形式,是一种混合的自动评分系统,与人工评分之间的一致性达到了最高点。然而,E-rater并非十全十美。其旨在分析语言质量的句法多样性分析模块不能全面衡量语言质量的其他方面,如词法、语言的准确性等,从而影响了评分信度。另外,其旨在分析内容质量的主题内容,分析模块所使用的信息检索技术,与IEA所使用的潜在语义分析相比,有点落伍,不能有效排除由于词汇同义和歧义所产生的干扰信息。其带有创新的篇章结构分析模块主要靠在文本中搜索话语标记语,像in conclusion、first of all等容易产生不良的反拨作用,致使考生认为,只要多使用这些话语标记语就可以得高分。(梁茂成,文秋芳,2007)
  

4.Criterion

  作为一个基于互联网的作文评分和评价怎么写作系统,Criterion不仅可以用于考试评分,还可以给出作文个性化的诊断性反馈。其技术核心是综合了E-rater和另一个软件系统Critique,前者提供评分,后者可以对作者写作能力提供诊断信息,包括语法、用词及写作机制(比如大小写、标点符号)等多方面。Criterion的改善主要体现在三个方面:能评判与分析事先训练过的作文题目、能够给出题目(包括新提供的题目)的诊断反馈信息、可以适用于母语非英语的写作。虽然其反馈的类型比较有限,但是Criterion在提供形成性反馈信息方面毕竟迈出了一大步,开创了写作评价工具怎么写作于教学的先河。
  

5.IntelliMetric

  IntelliMetric是第一套基于人工智能技术开发出的作文评分系统,取代E-rater用来给GMAT作文评分。它能够模仿人工评卷,对作文的内容、形式、组织和写作习惯进行评分,了人工智能、自然语言处理和统计技术的长处,是一种能够内化专家级评卷员集体智慧的学习机。它开发了能够分析词性和句法关系的自然语言处理技术,依据英语标准书面语的主要特征,内化作文中与某些特征相关的每一个得分点评判作文。IntelliMetric能够评估作文中语义、句法、篇章3个层次的300多项特征。据称在性能方面能够跟专家级评卷员给出的分数一样准确。另外,IntelliMetric能够评阅除了英语以外的其他多种语言的作文。