(计算机应用技术专业论文)基于语句相似度计算的主观题自动评分技术研究.pdf_第1页
(计算机应用技术专业论文)基于语句相似度计算的主观题自动评分技术研究.pdf_第2页
(计算机应用技术专业论文)基于语句相似度计算的主观题自动评分技术研究.pdf_第3页
(计算机应用技术专业论文)基于语句相似度计算的主观题自动评分技术研究.pdf_第4页
(计算机应用技术专业论文)基于语句相似度计算的主观题自动评分技术研究.pdf_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

延边大学工学硕士学位论文 摘要 在计算机考试系统中,针对单项选择题、多项选择题和填空题等客观试 题的自动批改技术已经很成熟,被应用于大型的考试系统中。但是,针对简 答题等主观题型的自动批改技术,由于其受到人工智能、自然语言理解等理 论与技术发展的限制,至今还很不完善,没有实用的系统出现。国内对主观 题的批改依然是人工批改,但人工批改的结果会受很多主客观因素的影响, 如学生卷面的整洁程度、学生字体的规范程度、教师当时的情绪状态等,从 而降低了学生之间竞争的公平性和公正性。而计算机的运算速度快、效率高、 精度高、不会疲劳,工作不受主观因素影响,尤其适用于主观题的自动批改。 因此,研究如何利用计算机来实现主观题的自动批改具有很大的现实意义。 本文的主要研究工作是采用语句相似度的计算方法对主观题进行自动批改。 通过对语句相似度的定义和计算模型的建立以及汉语的特殊性分析,同时借 鉴机器翻译、自动文摘、信息检索等领域内一些对语句相似度的研究,提出 了基于多层次融合的语句相似度计算模型。通过对旬予的词形、词态、词义 三个层次计算相似度的基础上,融合这三个层次,从两使句子的相似度计算 更加准确。实验测试表明,本文的主观试题自动评分方法基本可以满足系统 设计的需求,是有效可行的方法。 关键词主观题自动评分;自然语言处理;语句相似度;知网 延边大学工学硕士学位论文 a b s t r a c t i i lt h ec o m p u t e re x 锄i n a t i o ns y s t e m ,t h ea u t o m a t i ca s s e s s m tt e c h n i q u e a i m e da tm o n o m i a lc h o i c es u b j c c t ,m u l t i p l e c h o i c et c s ta n df i l l c db l a n kc t c h a s d e v e l o p e dc o n s u m m a t e l y ,印p l i e dt h el a r g e - s c a i ee x a m i i l a t i o ns y s t e m b u t t h c a u t o m a t i c 船s e s s m e n to fs u b j e c t i v et e c h n i q u ea b o u tb i i e f - a n s w e rt 髓tq u e s t i o n s h 嬲b e 印f a u l t f l i lb e c 卸s eo ft h e d c v e l o p m e n tr c s t d c t i o n o ft h ca n i f i c i a l i n t e l l i g e n c ea n dn a t u r a ll a n g u a g ec o m p r e h e n s i o ns ot h a tt h e r eh a s n tb e e na a p p l i c ds y s t 锄y e t i n ( h i n a t h em a n u a l sa 鼯e s s m e n ti st h em a i nt e c h n i q u et o r c s o t v et h es u b j e c tt e s t s ,b u tt h er c s u l to fm a n u a l sa s s e s s m e n ti si n f l u e n c e db y s u b j e c to ro b j e c tf a c t o r s ,s u c h 髂t h en e a t n e s so fe x 锄i n a t i p a p c r , t h c n o 珈a l j v en 船s 肋du 巫j l yo ft h ef o n t ,l b et c b e 稻啪o t i o ne t t b 船ef a c t o f s r e d u c et h ec o m p e l i t i v ee q u i t a b l e n 懿s 卸dh o n e s t ya m o n g t h es t u d 吼t s t h c c o m p u t e ri sn o ta 丘e c t e db y 如b j e c tf a c c o r sf o ri t sf a s ts p e e d ,h i 曲e f i c i e n c y 勰d p r e c i s i o n ,w h i c hm a k e si ts u i t a b l ef o ra u t o m a t i ca s s e s s m e n to fs u b j e c t i v e h e n c c , i th 弱o p e f a t i o ns i g n i f i c a n c et or e s e 融h o w 幻u s em ec o m p u t e r oa 。h i e v e b e a u t o m a t i ca s s e s s m e n to fs u b j e c t i v e ht h i sd i s s e r t a t i o nt h es e n t e n c e s i m i l a r j t y w 船u s e df o ra u t o m a t i c 鹪s e s s m e n to fs u b j e c t i v e t h ed e f i n i t i o n 孤dt h em o d e i b a s e do ns e n c n c e s i m i l a r i t ya c h i e v e da c t i o na n dc h i n e s ep a r t i c u l a r i f yi s 卸a l y z c d ,a tt h es a m et i m em a c h i n ct h et e c h n i q u 船,s u c h 嬲t r 卸s l a t i o n 肌t o 】m t i c 叭m m a f i z a t i o na l l di n f o 咖a t i o nf e t r i e v a le t c a mu s e d t o s t u d yt h e s t e n c c s i m i l a r i t y an e wm o d e lb a s e do nt h em u l t i - i e v e l 辩n t e n c c s i m i 重撕t yi s p r o p o s e db a s c do na b o v ew o r k si nt l l i sd i s s e r t a t i o n o nt h eb a s i so fc v a l i l a t i n gt h e s i i n i l a r i t ya c c o r d i n gt 0t h cs e m c n c e s m o r p h o l o g y ,s e m 强t i c 锄da c 。印t a t i 伽, 锄a l g a m a t i n g t h e s e t h r e ei c v e l s ,i ti sm o r ea c c u r a t ct oc v a i u a t et h e s e n t e n c e s i m i l a r i ty b ys p e c i 矗cc x p e r i m e n t a lt e s t s ,t h ea u t o m a t i c 硒s 嚣s m e n t0 f s u b j e c t i v es y s t e ms a t i s f i e dt h ed e m a n do f c h es y s t e md c s i g nb 髓i c a l l y f i n a l l y ,t h e e 肌c t i v e n e s s0 ft h ea p p r o a c hi sv e r i f i e db yt h ee x p e i i m e n t s k e y w o r d s :a u t o m a “ca s s e s s m e n to fs u b j e c t i v ee x a m i n a t i o nq u e s t i o n s ;n a t u f a l l a l l g u a g e o c c s s i n g ;s e n t 卸c e s i m i l 蚵t y ;h 0 w - n e t 一一 延边大学工学硕士学位论文 1 1 引言 第1 章绪论 随着计算机技术的飞速发展,很多课程的考试都可以在计算机上进行了。 计算机上机考试可以把教师和考务人员从繁重的命题、印卷、装订试卷、保 密、监考、阅卷、登分等考务工作中解脱出来,使考试趋于更客观、公正、 高效。将先进的计算机技术用于考试系统已成为一个必然的趋势“。考试系 统中对客观题( 选择题、判断题、填空题) 等题型的自动评分技术就是用学 生的答案与标准答案进行匹配,匹配结果一致,则答案正确,否则答案错误, 实现起来比较容易。如果一个考试系统中的考题都是客观题,这样的试卷不 是一份好的试卷,仅有这类题型的试卷对测试学生的能力还存在缺陷。因此, 理想的试卷还应该包括主观题。对于主观题,由于它的答题特点和复杂性, 目前还没有一种考试系统能很好地完成自动评分。 “主观”的含义,一是提供参考答案( 以突出要点为主) 但允许考生作 不同的回答;二是阅卷教师有不同看法和评分标准,在阅卷中允许有规定范 围内的评分误差。以材料( 或情境) 为载体,以问题为中心,通过考生文字描 述作答的一种题型。可以看出,主观题的答案相对于客观题而言,其答案不 是唯一的。而且由于每个人的语言表达能力和语言叙述方式的不同,所书写 的答案也是不一样的。 对于教师而言,手工阅卷时容易出现一些人为的问题,如时间长,人容 易疲劳,前后不一致,融入一些主观因素,从而产生一定程度的不公正性”1 1 2 研究的目的和意义 目前,国内出现的上机考试系统只能解决选择题、判断题等客观题型的 评分,而不能自动识别和批阅主观题。国外在相关领域的研究虽然比国内早 得多,但大致相同。研究并开发出一套用于主观题自动评分的系统是很多学 者正在进行的工作。 如何让教师手工评阅试卷成为历史,把教师从繁重的批改试卷这项工作 中解脱出来,是很多从事计算机科学的人才们的一种愿望。特别是对从事自 延边大学工学硕士学位论文 然语言处理领域的学者们来说,这是终其一生精力,也要去完成的事情。 对主观题自动评分技术的研究,主要涉及到的领域是自然语言处理技术。 自然语言处理是一门前沿的学科,他主要涉及到计算机、中文、数学、心理 学等多个学科门类,是一门交叉学科m 。对主观题自动评分的研究,在一定 程度上能够促进自然语言处理技术的发展。可以说,主观题的自动评分技术 将是自然语言处理在实际应用中的又一次成功典范。 1 3 国内外相关领域的研究现状 随着计算机辅助教学、多媒体处理以及计算机网络等技术的飞速发展和 推广应用,网络教学将成为一种极具应用前景的远程教育模式,并将从根本 上改变人们的学习方式。为了提高在线网络教学质量,各种相关技术得到了 越来越多的重视和研究,其中自动评分技术是难点技术之一,受到广泛关注。 对不同的试题类型,试卷自动化评分的难易程度相差很大,客观题的自动 化评分易于实现,主观题的自动评分实现起来则相当复杂。对于主观题,由于 它的答题特点和复杂性。目前还没有一种考试系统能很好地完成自动阅卷“1 。 这在一定程度上使得上机考试不能真正实用化,从而成为制约考试智能化的 一个重要因素。自2 0 世纪6 0 年代以来,国外许多专家和学者就致力于基于任 意文本答案的主观题的计算机自动评分技术的研究,同时也出现了各种不同 的自动评分系统。相比之下,我国相关研究起步较晚,实用系统也很少见到。 计算机自动评分技术是随着标准化考试的出现而出现的,主要用于考试 后的客观题的自动评分。它具有节省大量人力、迅速准确、避免任何人为因 素干扰等优点,从而广泛应用于各级、各类考试中。随着标准化考试的普及, 针对判断题、单选题、多选题、具有个或多个确定答案的填空题或只看结 果的计算题等客观型试题的自动评分技术已经相当成熟,但是对于那些非客 观题,如论述、问答、写作等无法要求明确、统一答案的试题,由于其自动评 分涉及到人工智能、模式识别和自然语言理解等方面的方法和技术,需要解决 许多技术上的难题,成为考试系统中的一个技术难点“1 。目前国内外的许多院 校和科研机构证在对这个难题展开广泛的研究,也取得了一定的成果。 早在2 0 世纪6 0 年代,国外就已经开始研究如何对学生用自然语言书写的 文章进行自动评分,第一个实现类似功能的系统是1 9 6 6 年开发的( p e g ) 嘲“1 。 尽管p e g 系统的评分达到了较高的准确率,但它仅对文章写作风格进行评价, 而且单纯依靠统计方法来评定文章的质量既没有用到深入的自然语言处理技 延边大学工学硕士学位论文 术,也没有考虑到词汇的语义。 之后,先后出现了l s a ,e d u c a t i o n a l t e s t i n g s e r v i c e l ,e r a t e r ,a t m , a u t o m a r k 等先进的自动评分系统但是都不是很完善0 1 ,都存在着一些问题。 比如:l s a 主要是利用类似于信息检索技术中用到的文档相似度计算方法来 判断文本的相似性,因而适合大规模文本之间相似性度量。但对文本长度短、 甚至只有若干个词的情况,会因数据稀疏而导致结果不正确”1 。 e d u c a t i o n a l t e s t i n g s e r v i c e l 系统实现时包含了大量的预处理和一些人工 干预。e r a t e r 采用的是整体评分策略,从写作风格、修辞等角度整体评判作 文得分情况“o 】,不存在正确或者错误答案,同时该系统需要大量的训练数据 以建立评分模型,这使得系统的应用受到局限。对于那些需要判断答案的内容 是否正确并给出具体分数的自动评分类问题,它就无能为力了。a t m 引入了同 义词词典“,这样系统就可以对概念的同义词、替代词进行识别,增加了系统 的识别能力和准确性。但该系统需要有较强的语法和语义分析能力,这也增加 了系统实现的难度。a u t o m a r k 系统中当学生答案中出现不影响句子意思的拼 写错误时1 ,计算机会判为错误,而手工评分时则判为正确:当学生答案中出 现正确答案和错误答案并存时,计算机会判为正确,而手工评分时则会适当扣 分,严重时会判为错误:计算机无法识别俗语或方言等表达方式等。由此可以 看出,此系统有待于增强自然语言处理功能。 目前国内现有的考试系统中以客观试题居多,曾有人做过对计算机程序 题的自动阅卷,但几乎没有人做过主观题的自动评分,即使提供主观试题, 其阅卷过程也是由教师在计算机上手工完成。对于主观题,运用机器评卷难 免出现很多差错。因为主观题的回答,更多地显示了考生的个性,同一个问 题,不同的考生会有不同的回答。即使对某一点知识掌握程度差不多的学生, 由于语言表达能力的不同,对主观题的回答也不一样。目前,虽然有很多关 于主观题智能识别方面的研究,有的甚至取得了阶段性的成果“”,但大都只 能在某一个,j 、的方面有所突破。国内针对主观试题自动评分技术的研究刚刚 起步,与之相关的文献也不多见。 自动评分技术对于学生自测作业和大规模在线考试非常有意义,它不仅 可以节省大量手工评分工作,并且能立即反馈或直接得到考试结果资料。特 别在智能化组卷方面可以利用评分结果及时了解学生考试情况,动态调整试 题难度和考核的知识点等,是计算机自适应考试的基础,同时也是考试结果 点评和个性化分析的基础,具有很大的实际应用价值。针对判断题、单选题、 多选题、具有一个或多个确定答案的填空题或只看结果的计算题等客观题的 笙望奎兰三兰堡主兰竺丝苎 自动评分技术已经相当成熟,通过基于字符串的匹配就能解决问题。而主观 题自动评分涉及到人工智能、模式识别和自然语言处理等方面的理论,面临 许多技术上的问题,从而成为网络教学系统中的一个技术难点。国外很早就 开始对这个难题展开了广泛的研究,取得了一些成果,其中有的已经进入实 用阶段,并取得了较好的效果。但主观题自动评分技术在很大程度上依赖于 自然语言处理领域中词法、语法、语义等方面的解析、分析和处理技术。由 于目前自然语言理解领域研究水平所限,尤其是自然语言的语义分析技术的 局限性,使得主观题自动评分技术并没有取得重大突破,实现上还存在很大 难度。 李辉阳等研究了有限领域中简述文字的自动判读问题,提出以基于关系 的带权匹配技术来实现计算机辅助教学中的简单论述正误的判定“”。在许多 学科中,要求理解本学科的一些基本知识点及相关概念并对其进行简单论述 是比较重要的考查方式,为此作者研究了基于简单书面论述的判定原理和方 法。他们对概念的表述方式和常用句式进行了较为细致的分析,归纳出三种句 式,进一步把句子中各词之间的关系分为六种,然后根据词在表达语句意义时 的轻重程度并结合上述关系确定它们的权值,权值总分为该题的满分。在自动 识别和判读时,首先对论述语句进行分词并确定它所用的表达旬式属于上述 三类中哪一类,然后分析旬中各部分是否具有正确的逻辑关系,并计算句式中 各核心成分、强化修饰成分、否定修饰成分、转义修饰成分等的权值,最后对 照正确论述语句的权值完成判读过程。该系统在一定程度上模拟了老师阅卷 过程,对计算机自动评分列举题、简述题、简答题等主观题有一定的借鉴意义。 孟爱国等通过分析阅卷教师在评阅主观题时的思维方法,在基于模糊数 学中贴近度理论基础上,引入了单向贴近度的概念,设计了一个主观题自动 评分的算法,给出了具体算法实现与实例,并对算法的使用性能做了详细描 述。该算法认为,影响评分的因素主要有两个:一个是得分点,另一个是学 生答案和标准答案的贴近度,并给出了一个基于关键字匹配和学生答案贴近 度的公式,在计算时需要手工设定三个参数“钉。该算法简单明了,但是精度 不高,没有用到自然语言处理技术,无法进行语义分析。 高思丹等着重对语句相似度的计算进行了深入的研究,利用基于动态规 划的语句相似度计算方法实现了文字类主观题的自动评分“”。在进行语句相 似度计算时,仅对语句进行浅层句法分析,由此得到句子的浅层句法信息, 首先利用关键词匹配法实现短语级匹配,在此基础上,在整旬利用动态规划 算法对短语的相似度矩阵进行计算,找出一条相似度值最大的路径,该值就 延边大学工学硕士学位论文 是所要求的语句相似度。这种方案值得借鉴的地方很多,但是由于是初步的 应用,所以匹配精度不是很高,有待于进一步提高。 可以看出,到目前为止,此方面的研究还处在初级和起步阶段。研究的 学者少,成果少,与之相关的文献更少。 目前通用的、基于自然语言的自动评分系统尚未出现“”,现有的系统都是 针对特定领域、特定需求而设计开发的,这与自然语言处理技术的自身的发展 及其在自动评分系统中的应用水平是密切相关的。由于目前自然语言理解领 域研究水平有限,尤其是自然语言的语义分析技术的局限性,使得主观题自 动评分技术并没有取得重大突破,实现上还存在很大难度。 1 4 研究内容 本文主要的研究内容是使计算机自动阅卷的准确率达到最佳,具体研究 工作主要分为以下几点: ( 1 ) 主观题自动评分,最后得到一个确定的分值。本文主要通过对标准 答案和学生答案的相似度计算得到一个相似度值,根据该题目的总分,最后 得到学生答案的分数。 ( 2 ) 对学生答案分词以后,通过对关键词进行模糊匹配而得到语句相似 度。进一步对关键词进行同义词、近义词的扩展,对扩展后的词语集合进行 深层次的模糊匹配,可以得到基于语句表面信息计算得到的语句相似度。 ( 3 ) 词语的排列顺序在一定程度上影响着语句之问是否相似。通过对词 序的计算以及对关键词出现情况的计算,可以得到基于语句结构信息的语句 相似度。 ( 4 ) 为了更好地表达甸子的信息,语义理解是不可缺少的部分。知网中 对语句概念的解释无疑是目前为止相当权威的。通过知网啭对义原关系的树 状结构结合一些特征信息,可以计算出两个词语的语义相似度。在词语语义 相似度的基础上,可以得到基于语义的语句相似度。 ( 5 ) 以上三种方法体现出了一个句子的三个主要特征;词形、词态、词 义。但是,这三种方法也都存在着自身的缺点,因此我们考虑到将三个层次 进行融合,扬长避短,更加全面、准确地衡量句子之间的相似度。 延边大学工学硕士学位论文 1 5 内容安排 本文的后续章节安排如下: 第二章将介绍相关的理论和技术,主要包括自然语言处理技术的发展和 应用,中文分词技术以及语句相似度计算的方法:第三章将介绍基于多层次 融合的相似度计算模型,分为三个层次:基于词语表面信息的相似度计算、 基于语义信息的相似度计算和基于多层次融合的相似度计算;第四章将介绍 实验及结果分析;最后是本文的结论。 延边大学工学硕士学位论文 2 1 引言 第2 章主观题自动评分技术 针对本学位论文研究的主要问题, 括性的论述,主要有:自然语言处理, 2 2 自然语言处理 本章对所需要的相关支撑理论进行概 中文分词技术,语句相似度计算。 自然语言处理( n a t u r a ll a n g i l a g ep m c e s s i n 舀n l p ) 是一种对自然语言信 息进行处理的技术“”,自然语言处理也称作计算语言学( c o m p u t a t i o n l i n g i l i s t i c s ) 。自然语言处理包括自然语言理解( n a t u r a ll a n g u a g e u n d e r s t a n d i n g ,n u j ) 和自然语言生成( n a t u r a ll a n g u a g cg e n e r a t i o n ,n l g ) 两部分。自然语言理解是指对自然语言的内容和意图的深层把握,而自然语 言生成是指从非自然语言输入到自然语言输出的处理过程。 2 2 1 自然语言处理技术简介 自然语言处理是计算机科学与人工智能领域中的重要方向之一“”,它研 究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然 语言处理是一门融语言学、计算机科学、数学、心理学等学科于一体的科学, 它并不是一般地研究自然语言,其目标在于研制能有效地实现自然语言通信 的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。 实现人机问自然语言通信意味着要使计算机既能理解自然语言文本的意 义,也能以自然语占文本来表达给定的意图和思想等。前者称为自然语言理 解,后者称为自然语言生成。因此,自然语言处理大体包括了自然语言理解 和自然语言生成两个部分。历史上对自然语言理解研究得较多,而对自然语 言生成研究得较少,但这种状况近年来已有所改变。 1 9 5 6 年以前,人们主要进行自然语言处理的基础性研究工作。1 9 5 6 年, 人工智能诞生以后,自然语言处理迅速融入到人工智能研究领域中。1 9 6 7 年, 美国心理学家n e i s s e r 提出了认知心理学,从而把自然语言处理与人类的认 延边大学工学硕士学位论文 知联系起来。7 0 年代初,基于隐马尔可夫模型( h i d nm a r k o vm o d e l ,h m m ) 的统计方法和话语分析( d i s o o u 瑙e a - n a l y s i s ) 取得了重大进展。9 0 年代以后, 随着计算机的速度和存储量大幅增加,自然语言处理的应用不再局限于机器 翻译、语音控制等早期领域了。从9 0 年代末到2 1 世纪初,自然语言处理技 术不再局限于基于规则的方法或仅用基于统计的方法。各种处理技术开始融 合,自然语言处理的研究达到了一个新的层面1 。 2 2 2 自然语言处理技术的主要应用 无论实现自然语言理解,还是自然语言生成,是十分困难的。从目前的 理论和技术现状看,通用的、高质量的自然语言处理系统,仍然是较长期的 努力目标,但是针对一定应用,具有相当自然语言处理能力的实用系统已经 出现,有些已商品化,甚至开始产业化。典型的例子有:数据库和专家系统 的自然语言接口“”、各种机器翻译系统。”、全文信息检索系统”、自动文摘 系统等。 最早的自然语言理解方面的研究工作是机器翻译。1 9 4 9 年,美国人威弗 首先提出了机器翻译设计方案。2 0 世纪6 0 年代,国外对机器翻译曾有大规 模的研究工作,耗费了巨额费用,但人们当时显然是低估了自然语言的复杂 性,语言处理的理论和技术均不成熟,所以进展不大。主要的做法是存储两 种语言的单词、短语对应译法的大辞典,翻译时一一对应,技术上只是调整 语言的同条顺序。但日常生活中语言的翻译远不是如此简单,很多时候还要 参考某句话前后的意思。 从上世纪9 0 年代开始,自然语言处理领域发生了巨大的变化。这种变化 的两个明显的特征是: ( 1 ) 对系统的输入,要求研制的自然语言处理系统能处理大规模的真实 文本,而不象以前的研究性系统那样,只能处理很少的词条和典型句子。只 有这样,研制的系统才有真正的实用价值。 ( 2 ) 对系统的输出,鉴于真实地理解自然语言十分困难,对系统并不要 求能对自然语言文本进行深层的理解,但要能从中抽取有用的信息。例如, 对自然语言文本进行自动提取索引词,过滤,检索,自动提取重要信息,进 行自动摘要等等。 同时,由于强调了“大规模”和“真实文本”,下面两方面的基础性工作也 得到了重视和加强。 延边大学工学硕士学位论文 ( 1 ) 大规模真实语料库的研制。大规模经过不同深度加工的真实文本的 语料库,是研究自然语言统计性质的基础。没有它们,统计方法只能是无源 之水。 ( 2 ) 大规模、信息丰富的词典的编制工作。规模为几万,十几万,甚至 几十万词,含有丰富的信息( 如包含词的搭配信息) 的计算机可用词典对自 然语言处理的重要性是很明显的。 在国内,国家自然科学基金委对自然语言处理应用技术给予了积极支持, 相关的技术主要包括机器翻译、信息检索、自动文摘技术等汹1 。对于自然语 言处理的另外一个领域,自动评分系统,特别是主观题的自动评分尚处于研 究的处级阶段。 2 3 中文分词技术 众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是 以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子ia m as t u d c n t ,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道 s t u d e n t 是一个单词,但是不能很容易明白“学”,“生”两个字合起来才表示一 个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为 切词。“我是一个学生”,分词的结果是:“我是一个学生”。 由于书面汉语是字的序列,词与词之间没有间隔标记,使得词的界定往 往模糊不清伽3 。中文分词技术属于自然语言处理技术范畴,分词是汉语自然 语言处理的第一步”。对于一句话,人可以通过自己的知识来理解哪些是词, 哪些不是词,但如何让计算机也能理解? 其处理过程就是分词算法。 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解 的分词方法和基于统计的分词方法。 2 3 1 基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串 与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串, 则匹配成功( 识别出一个词) 。按照扫描方向的不同,串匹配分词方法可以 分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大( 最 延边大学工学硕士学位论文 长) 匹配和最小( 最短) 匹配;按照是否与词性标注过程相结合,又可以分 为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方 法如下: ( 1 ) 正向最大匹配法( 由左到右的方向) ; ( 2 ) 逆向最大匹配法( 由右到左的方向) ; ( 3 ) 最少切分( 使每一句中切出的词数最小) 。 还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆 向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向 最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略 高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大 匹配的错误率为1 1 6 9 ,单纯使用逆向最大匹配的错误率为l 2 4 5 。但这种精 度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为 一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确 率。 一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字 符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字 符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是 将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并 且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分 的准确率。 2 3 2 基于理解的分词方法 这种分词方法是通过让计算机模拟人对句子的理解能力,达到识别词的 效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和 语义信息来处理歧义现象。它通常包括三个部分:分词予系统、句法语义子 系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子 等的句法和语义信息来对分词歧义进行判断,模拟了人对句子的理解过程。 这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、 复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于 理解的分词系统还处在试验阶段。 延边大学工学硕士学位论文 2 3 3 基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出 现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率能够较 好地反映成词的可信度。可以对语料中相邻共现的各个字的组合频度进行统 计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字x 、y 的 相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度 高于某一个阙值时,便可认为此字组可能构成了一个词。这种方法只需对语 料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统 计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、 但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的” 等,并且对常用词的识别精度差,时空开销大。实际应用的统计分诃系统都 要使用一部基本的分词词典( 常用词词典) 进行串匹配分词,同时使用统计 方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切 分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动 消除歧义的优点。 到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的 分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。 海量科技的分词算法就采用“复方分词法”,用多种算法来处理了不同的分词 问题。 2 4 语句相似度计算 在自然语言处理的许多领域,句子相似度计算是一项非常必要的技术, 并且发挥着重要的作用啪。词语相似度是一个主观性相当强的概念,对于不 同的应用,词语的相似度也不同。词语之间的关系非常复杂,其相似之处很 难用一个简单的数值来进行度量。从某一个角度看非常相似的词语,从另一 个角度看可能相差很大啪1 。如何计算相似度,是与系统的具体实现分不开的, 计算方法基本上可以分为相似程度计算和距离程度计算两大类。按照相似程 度计算,则分值越大越好( 通常在0 1 之间) :而按照距离程度计算,则分 值越小越好,此时分值就是罚分。 现有的代表性语句相似度匹配算法主要有:n i r c n b u r g 等提出的两种串匹 延边大学工学硕士学位论文 配的方法,即更规范的“切块+ 匹配+ 重组”方法和整句级匹配的方法侧。这 两种方法所采用的相似度衡量机制都是词组方法。l a m b r o s 等提出同时依据 句子的表层结构和内容计算相似度的方法o ”。在计算相似度时,系统采用了 两级动态规划技术。应用动态规划算法允许在两个长度不向的甸子之问计算 语句相似度;c a h d n 和s u m i t a 都建立了“距离”或“相似度”衡量机制。 n i l a d r 提出了一种基于线性模型的相似度度量模式m 】,其相关系数由多重回 归技术确定。他将句子的相似性( 更准确地说是是非性) 看成是一系列决定 句子不相似的成分共同作用的结果。哥伦比亚大学的g o l d s d e i n 等人通过最 大边缘相关的方法( m a x i m a lm a 晒n a lr e l e v a n c e ) 进行了相似度计算。”。学 者c h i sh q d i n g 等人采用了隐含语义索引( l a t e n ts 锄a n t i ci n d e x i n g ) 的方 法删。 因为涉及到语言、语句结构和其他一些复杂因素,目前,关于相似度的 定义还没有一个通用方法,因此,有必要根据系统的具体实现去寻找合适的 定义。 国内外对词语语义相似度的计算方法大体可分为两类; ( 1 ) 基于语义词典的词语相似度计算方法。这种方法利用同义词词典, 依据概念之间的上下位关系和同义关系,通过计算两个概念在树状概念层次 体系中的距离来得到词语间的相似度。这种方法简单有效,易于理解,但是 它依赖于比较完备的按照概念间结构层次关系组织的大型语义词典。 ( 2 ) 基于语料库的词语语义相似度计算方法。这种方法利用大规模语料 库,将词语的上下文信息作为语义相似度计算的参照依据。基于语料库的方 法建立在两个词语相似当且仅当他们出于相似的上下文环境中这一假设基础 上。该方法能够客观地反映词语的形态、句法、语义和语用等特点。但性能 比较依赖于语料库的优劣。并存在数据稀疏问题和嗓声干扰。 除上述方法外,还有很多种不同的方法。采用不同的方法,如基于机器 翻译实例的语句相似度计算方法,基于自动文摘的语句相似度计算方法,基 于中文问答系统( e a q ) 的相似度计算方法嘲,还有用于文本分类的文档 相似度计算”1 ,更多的是基于信息检索的语句相似度计算方法。要根据系统 的具体实现下面介绍几种语句相似度计算方法。 延边大学工学硕士学位论文 2 4 1 单向贴近度算法 为解决学生答案和标准答案的贴近度表示问题,可以把学生答案和标准 答案均看成字符串。 把一个字符串分解为单个字符,并把他们构成的有序集合称为一个模糊 集,u = ( u 1 ,u 2 ,u 3 ,u 。) 称为论域,论域u 上的全体模糊子集所组成 的集合记作u ) ,也叫模糊幂集。 为度量两模糊集的接近程度,引入单向贴近度的概念。 定义2 1 :设u = 【u bu 2 ,u 3 ,u 。) ,a ,b 属于f ( u ) 。若映射d :f ( u ) f ( u ) 一 【o ,1 】;满足条件: ( 1 ) d a ) = 1 ( 2 ) d ( b ,b ) = 1 ( 3 ) 若a 包含于b ,而b 包含于c 或a 包含b ,而b 包含c ,则d ( 气b ) d ( a ,c ) 称d b ) 为a 贴近于b 的单向贴近度。 定义2 2 :设a 、b 是字符串,a 中包含n 个字符,d b 表示a 贴近于b 的单向贴近度,按照从左到右的顺序,集合a 中的每个元素在集合中出现的有 效次数之和记为m ,则d b ) = l n 丑,容易验证,它满足单向贴近度的定义。 s 一。 x 砉6 “( 1 【i a ) + ( 1 一p ) 6 。o 4 ) ) s 。 ( 2 1 ) 其中,s 为学生的实际得分;s o 为试题分值;a 为学生答案;加为标准 答案;p 为关键词在该题目中所占分值的比例,o p 1 ;n 为关键词的个数; k 为第i 个关键词;矗i ( k ,a ) 为第i 个关键词与学生答案的单向贴近度。 通过以上计算,不用依靠语义词典和语料库,只根据单纯的匹配,就可 以得到一个分值。但是这种方法精度不会很高。 2 4 2 基于语句表面特征的相似度计算 如果有句子a ,b ,句子a 和b 的相似度用以下公式表示 延边大学工学硕士学位论文 器 ( 2 2 ) w b r d s i m ( 八b ) 表示句子a 和b 的相似度,s a m e w ( p b ) 表示句子a 和 b 中相同词的个数,l e n ( a ) 表示句子a 中的词语个数。 令o n 路w s b ) 表示在语句a ,b 中都出现一次的单词以及相关的扩展 词和同义词的集合,p f i 墙t b ) 表示o n e s w s ( a b ) 中的单词在语句l 中的位 置序号构成的向量。p s e c o n d ( 八b ) 表示p f i r s t 他b ) 中的分量按对应单词在b 中的次序排序生成的向量。“。r e v o r d b ) 表示p s 啪n d ( 气b ) 各相邻分量的逆 序数。此处说明o r d s a m e ( 氏b ) 的意义,其定义如下: f 卜 o r d s 锄e 协助11 0 鱼! ! ! 型( 丝! 皇2 当lo n e s ( 氏b ) l 1 o n s w s a ,8 a l 当io n e s w s b ) l _ 1 ( 2 3 ) 句子a 和b 的相似度有以下公式得到 当lo n e s ( a ,b ) l - o 5 拥即,刃- a l 矸白庙触o ,曰) + a 2 绷,斓g o ,口) ( 2 - 4 ) 其中? l + ? 2 = 1 ,一般取? l = o 9 ,? 2 = 0 1 。 这种方法也是基于匹配的方法,精度不高。 2 4 - 3 基于知网的相似度计算 按照知网的创造者董振东先生自己的说法,知网是一个以汉语 和英语的词语所代表的概念为描述对象,以揭示概念与概念之问以及概念所 具有的属性之间的关系为基本内容的常识知识库。 知网中含有丰富的词汇语义知识和世界知识,为自然语言处理和机 器翻译等方面的研究提供了宝贵的资源。尽管知网提供了详细的档案, 但知网档案的形式化和规范化程度都不高。 知网中有两个重要的概念:“概念”与“义原”。 “概念”是对词汇语义的一种描述。每一个词可以表达为几个概念。 延边大学工学硕士学位论文 “概念”是用种“知识表示语言”来描述的,这种“知识表示语言” 所用的“词汇”称为“义原”。“义原”是用于描述一个“概念”的最小意 义单位。 与一般的语义词典( 如同义词词林或w b r d n e t ) 不同, 知网并不 是简单地将所有的“概念”归结到一个树状的概念层次体系中,而是试图用 一系列的“义原”来对每一个“概念”进行描述。 若语句a 和b 中( a l ,a 2 ,a 3 氏) 和( b l ,b 2 ,b 3 b 。) ,那么对 于词a 1 和b 1 ,如果a 1 有n 个义项( 概念) :a 1 l a l 2 a 1 。,而b 1 有m 个义项( 概念) :b l l ,b 1 2 b 则规定a 1 和b 1 的相似度是各个概念的 相似度之最大值,即: 熨m 卅1 ,b 1 ) 一a 缸x o 。 而在实际的阅卷过程中是有0 分的。为了保证o 分的出现,需要设定个阈 值? ,当整句级匹配的结果s i m ( a ,b ) 的值或关键词匹配的结果( 关键词) 一2 1 延边大学工学硕士学位论文 的值特别小,并且小于设定的阙值? 时,我们就不再进行计算,s 的得分直 接设为o 分。 3 5 本章小结 本章通过一种基于多层次融合的句子相似度计算方法来计算主观题自动 评分系统中学生答案和标准答案之间的相似度,得到学生答案的得分。由于 不同层次对句子相似度计算的贡献不同,该方法对每个层次加了不同的权值, 从而使相似度计算达到最优。 延边大学工学硕士学位论文 4 1 引言 第4 章实验及结果分析 我们从2 0 0 5 级学生的考试卷中抽取了计算机文化基础课程的试卷 1 0 0 份来进行实验。由于试卷中教师已经评完分,这样能够方便地计算出准 确率。 测试答案中一共有5 0 0 条学生答案,其中4 0 0 个学生答案为网上摘录的 与标准答案毫不相关的句子,为嗓音句子,构成噪音集;只有1 0 0 个学生答 案是真正从学生试卷中手工录入计算机中的,构成标准集。把标准集中的学 生答案按照他们的得分分为四个大类,每个类中有2 0 多个句子。也就是说, 我们已经把标准集中的句子事先做好了人工分类,第一类与标准答案极为相 似,第二类与标准答案有些相似,第三类与原始句子不太相似,第四类与标 准答案根本不相似。如果这道题目的满分为1 0 分,第一类应该在8 分以上, 第二类得分应该在5 分以上,第三类得得分在5 分以下,第四类应该是o 分。 让计算机评分和某一位教师的评分完全吻合,或者达到基本吻合,是不 可能的。所以我们把标准集中的学生答案作了大的分类,力求在实验中能够 把学生答案进行准确的分类。 最后我们把标准集和噪音集混杂在一起作为测试集。 4 2 评分系统组成 整个评分系统是基于网络的一个主观题考试系统,学生通过在客户端使 用浏览器来进行答题。 网络主观题考试系统的界面如下: 笙望查堂三兰曼主竺堡丝三 图禾1 网络考试系统 f i g 4 一le x a ms y s t e r mi nn e t w o r k 在网络主观题考试系统的登陆界面中有三种登陆方式:学生登陆、教师 登陆、管理员登陆。学生登陆之后可以进行考试,教师登陆进行题目管理和 评分,管理员登陆后可对后台数据进行管理。整个系统的学生答题过程如下: 学生答题采用动态设定答题时间,题目随机地从题库中选取。当学生答 完一道题目后点击下一题来答下一题,全部答完题目之后提交即可。我们分 别

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论