




文档简介
分类号: U D C : 密级: 编号: 专业硕士学位论文 ( 工程硕士) 考试系统中智能化辅助阅卷技术研究 硕士研究生: 指导教师: 学位级别t 工程领域: 所在单位: 论文提交日期: 论文答辩日期: 学位授予单位: 丁康健 朴秀峰副教授 工程硕士 计算机技术 计算机科学与技术学院 2 0 11 年0 4 月2 1 日 2 0 11 年0 6 月1 4 日 哈尔滨工程大学 , C l a s s i f i e dI n d e x : U D C : AD i s s e r t a t i o nf o rt h eP r o f e s s i o n a lD e g r e eo fM a s t e r ( M a s t e ro f E n g i n e e r i n g ) R e s e a r c ho f I n t e l l i g e n tE x a mS y s t e mA u x i l i a r y M a r k i n gT e c h n o l o g y C a n d i d a t e : S u p e r v i s o r : A c a d e m i cD e g r e eA p p l i e df o r : E n g i n e e r i n gF i e l d : D a t eo fS u b m i s s i o n : D a t eo f0 r a lE x a m i n a t i o n : U n i v e r s i t y : D i n gK a n g i i a a A s s o c i a t eP r o f P i a oX i u f e n g M a s t e ro fE n g i n e e r i n g C o m p u t e rT e c h n o l o g y A p r i l ,2 0 11 J u n e ,2 0 1l H a r b i nE n g i n e e r i n gU n i v e r s i t y V ,伊 V , r 。 、_ 1 0 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由作者本人独立完成的。 有关观点、方法、数据和文献的引用已在文中指出,并与参考文献相对应。除文中已注 明引用的内容外,本论文不包含任何其他个人或集体已经公开发表的作品成果。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声 明的法律结果由本人承担。 作者( 签字) :了胜 日期:劫,年6 月世日 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校攻读学位期间论文工作 的知识产权属于哈尔滨工程大学。哈尔滨工程大学有权保留并向国家有关部门或机构送 交论文的复印件。本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据库进 行检索,可采用影印、缩印或扫描等复制手段保存和汇编本学位论文,可以公布论文的 全部内容。同时本人保证毕业后结合学位论文研究课题再撰写的论文一律注明作者第一 署名单位为哈尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 口在授予学位后即可0 在授予学位1 2 个月后 口解密后) 由哈尔滨工程大 学送交有关部门进行保存、汇编等。 作者( 签鼽丁础导师( 签铋剞、磊讳 日期:山,年多月伽 劫,年石月媚 p o 考试系统中智能化辅助阅卷技术研究 摘要 随着计算机技术及网络技术的迅速发展,近年来利用无纸化考试取代传统的手工考 试是一个非常活跃的研究领域。大学计算机基础课程是各高等院校大学生公共计算 机基础课程之一,经过多年的教学改革,该课程的考核方式将由传统的人工出卷、阅卷 方式改为考试系统自动组卷、阅卷。但是,现有的针对该课程的考试系统大多只能实现 客观题的阅卷,而主观题涉及到人工智能等方面的技术所以至今仍是一个急需解决的难 题。关于O f f i c e 操作题的评阅技术多数都局限于W o r d 和E x c e l 中简单文字内容的操作 上,关于复杂图片类对象的操作处理实现得很少。因此,研究针对该课程的各种题型的 智能阅卷技术具有很大的意义。 本文在对主观题的评阅技术研究和实现上,模拟了人工阅卷的思想,对自然语言处 理的技术和模糊数学中贴近度算法进行研究,提出了基于关键词和语句融合算法以及关 键词权重语义相似度算法。对考生答案首先进行关键词的提取,然后,计算考生答案与 标准答案的贴近度,按照设置的关键词权重计算最后得分。对O f f i c e 操作题的评阅采用 V B A 技术实现自动阅卷,根据设计的解决方案和获取O f f i c e 相关的对象,采用合理评 分实现了预计的功能,既提高了考试的效率又降低了人工阅卷时客观因素的影响,如教 师阅卷时盼心情好与坏都对评阅结果有影响。 本文主要是对考试系统的智能阅卷部分进行研究,在评阅主观题的过程中对现有的 一些评阅技术及方法进行研究并设计了本系统的阅卷流程,即先对考生答案进行分句、 分词等处理,并进行相应的语义分析,最后进行关键词的提取和两个答案之间的贴近度 计算。经过对分词技术的研究,本文采用字符串匹配算法中的最大匹配法进行分词处理。 相似度计算时本文引用了模糊数学中的贴近度算法并对其进行了改进按照加权求和的 方法进行贴近度计算。在智能阅卷模块中按照算法的具体流程设计了实现过程,最终实 现了一个针对大学计算机基础课程自动阅卷的考试实验系统,经测试该系统对于该 课程的评阅达到了很好的阅卷效果。 关键词:自动阅卷;V B A ;语句融合;相似度;权重 考试系统中智能化辅助阅卷技术研究 A b s t r a c t I nr e c e n ty e a r s ,埘t l lt h er a p i dd e v e l o p m e n to ft e c h n o l o g yo fn e t w o r ka n dc o m p u t e r , r e p l a c i n gt h et r a d i t i o n a lp a p e r t e s tb ym a n u a le x a m i n a t i o ni sav e r ya c t i v ea r e ao fr e s e a r c h t h ec o u r s eo f F u n d a m e n t a l so fc o m p u t e r s i so n eo fp u b l i cb a s i cc o u r s ei nm o s to fc o l l e g e s , a f t e ry e a r so ft r a n s f o r m a t i o no fe d u c a t i o n , A s s e s s m e n tm e t h o do ft h eC O u r S ew i l lb et r a n s f o r m a u t o m a t i cg r o u pa n dm a r kv o l u m e sb yt e s ts y s t e m sf r o mt h et r a d i t i o n a lm a l l ) u a lw a y h o w e v e r , t h ee x i s t i n ge x a m i n a t i o ns y s t e mf o rm o s to ft h eC O U P ej u s ta c h i e v et h a ta s s e s s i n go b j e c t i v e i t e m ,t h es u b j e c t i v eq u e s t i o n sr e l a t e dt oa r t i f i c i a li n t e l l i g e n c ea n do t h e ra s p e c t so ft e c h n o l o g y i ss t i l ln e e dt os o l v e T h em o s tm a r kt e c h n i c a lo fO p e r a t i o np r o b l e mo nO f f i c ew e r el i m i t e dt o _ o p e r a t i o no fs i m p l et e x ti nW o r da n dE x c e lc o n t e n t , t h ep r o c e s s i n g c l a s so fc o m p l e xi m a g ei s l i t t l e T h e r e f o r e ,t h es t u d yo fv a r i o u sk i n d so fq u e s t i o n sf o rt h ec o u r s eo fi n t e l l i g e n tm a r k i n g t e c h n o l o g yh a sg r e a ts i g n i f i c a n c e T h i st h e s i so nr e s e a r c ha n di m p l e m e n t a t i o no fm a r k i n gt h es u b j e c t i v eq u e s t i o n , s i m u l a t i o no fa r t i f i c i a lm a r k i n gi d e a s ,n a t u r 2 L ll a n g u a g ep r o c e s s i n gt e c h n o l o g ya n df u z z y m a t h e m a t i c si sd e f i n e di nc l o s es t u d y , p r o p o s e df u s i o na l g o r i t h mb a s e do nk e yw o r d sa n d p h r a s e sa n dk e y w o r d s 。w e i g h t e ds e m a n t i cs i m i l a r i t ya l g o r i t h m e x t r a c t i n g t h ek e y w o r d so f c a n d i d a t e sa n s w e r , t h e nc a l c u l a t et h ec l o s e n e s so fc a n d i d a t e sa n s w e ra n dt h es t a n d a r da n s w e r ,7 a c c o r d i n gt os e tt h ew e i g h to fk e y w o r d s ,c a l c u l a t i o no ft h ef i n a lS C O r e T h em a r k e ro nt h e O f f i c e o p e r a t i n gq u e s t i o n su s i n gV B At e c h n o l o g yi m p l e m e n ta u t o m a t i c a l l ym a r k i n g , a c c o r d i n gt ot h ed e s i g no fs o l u t i o n sa n da c c e s st oO f f i c e - r e l a t e do b j e c t s ,a d o p t i n gr e a s o n a b l e m a r k i n gi m p l e m e n ta n da c h i e v i n gp r e d i c tf u n c t i o n , n o to n l yi m p r o v e st h ee f f i c i e n c yo ft h e e x a m i n a t i o nt i m eb u ta l s or e d u c et h em a n u a lg r a d i n go fo b j e c t i v ef a c t o r s ,g o o do rb a d f e e l i n g so ft e a c h e r sh a v en oe f f e c to nt h eo u t c o m e T h i st h e s i si sm a j o rr e s e a r c ht h et h ei n t e l l i g e n tm a r k i n g ,p a r to fe x a m i n a t i o ns y s t e mt o , i nt h ec o u r s eo fm a r k e dt h es u b j e c t i v eq u e s t i o nr e s e a c ho ns o m eo ft h ee x i s t i n gr e v i e w e r so f t e c h n o l o g ya n dm e t h o d sa n dd e s i g np r o c e s so ft h i ss c o r i n gs y s t e m ,t h ef i r s t ,s l o v i n gt h e c a n d i d a t e sa n s w e rb yc l a u s ea n dp a r t i c i p l e ,a n dt h ec o r r e s p o n d i n gs e m a n t i ca n a l y s i s ,f i n a l l y , k e y w o r de x t r a c t i o na n dc l o s e n e s sb e t w e e nt h et w oa n s w e r st oc a l c u l a t i o n s A f t e rt h er e s e a r c h o nw o r ds e g m e n t a t i o n ,i nt h i sp a p e r , t h es t r i n gm a t c h i n ga l g o r i t h mf o rm a x i m u m m a t c h i n gi n t h es u b - w o r dp r o c e s s i n g T h i sa r t i c l er e f e r st ot h es i m i l a r i t yc a l c u l a t i o no ff u z z ym a t h e m a t i c s 哈尔滨工程大学硕十学位论文 a n di t sc l o s e n e s st oi m p r o v et h ed e f i n i t i o no ft h ew e i g h t e ds u mi na c c o r d a n c ew i mt h e m e t h o do fc a l c u l a t i o nc l o s e a c c o r d i n gt ot h ea l g o r i t h md e s i g n e dt oa c h i e v es p e c i f i cp r o c e s s m o d u l e si nt h es m a r tm a r k i n gp r o c e s s ,f o rt h ee v e n t u a lr e a l i z a t i o no fa U n i v e r s i t yC o m p u t e r F o u n d a t i o n a u t o m a t i cs c o r i n ge x p e r i m e n t a ls y s t e m , t h em a r k e rf o rt h ec o u r s ea c h i e v et oa g o o dm a r k i n gr e s u l t s K e y w o r d s :a u t o m a t i cm a r k i n g ;V B A ;S t a t e m e n t sf u s i o n ;s i m i l a r i t y ;w e i g h t 考试系统中智能化辅助阅卷技术研究 目录 第l 章绪论1 1 1 课题研究的背景。1 1 2 国内外研究的现状1 1 2 1 考试系统的研究现状2 1 2 2 主观题自动阅卷技术的研究现状:3 1 2 3O f f i c e 操作题自动阅卷技术的研究现状4 1 3 研究内容。5 1 4 主要工作及章节安排。6 第2 章阅卷相关技术概述。7 2 1 主观题智能阅卷的关键技术7 2 1 1 自然语言处理7 2 1 2 中文分词:8 2 1 3 潜在语义分析理论1 1 2 1 4 语句相似度算法1 2 2 2O f f i c e 对外接口编程技术1 4 2 2 1V B A 语言1 4 2 2 2V B A 开发O f f i c e 功能15 2 2 3O f f i c e 对象模型15 2 3 本章小结1 6 第3 章主观题自动阅卷的相关算法1 7 3 1 阅卷过程分析。l7 3 2 主观题智能阅卷方法1 7 3 2 1 设计思想18 3 2 2 主观题智能评阅的处理流程18 3 3 基于关键词和语句融合的算法设计2 0 3 3 1 分句算法设计。2 l 3 3 2 分词算法设计2 1 3 3 3 关键词抽取算法设计2 3 3 4 关键词权重语义相似度算法的设计2 4 哈尔滨T 程大学硕+ 学位论文 3 5 本章小结2 5 第4 章考试系统的设计与阅卷技术的实现2 6 4 1 系统工作模式赢2 6 4 2 系统开发环境2 6 4 3 系统总体设计。2 6 4 3 1 管理员模块。2 7 4 3 2 考生模块2 7 4 3 3 教师模块2 8 4 4 阅卷模块的设计与实现2 8 4 4 1 客观题的阅卷。2 8 4 4 2 主观题的阅卷3 0 4 4 3O f j f i c e 操作题的阅卷。3 3 4 5 本章小结3 7 第5 章实验结果及分析。3 8 5 1 实例分析:3 8 5 2 结果分析二4 0 5 2 1 阅卷准确率测试及结果,4 0 5 2 2 算法效率测试及结果4 l 5 3 原因分析和改进措施4 l 5 4 本章小结。4 l j l 吉论4 :! 参考文献。4 3 攻读硕士学位期间发表的论文和取得的科研成果4 6 i 1 2 I ! 谢4 7 个人简历4 8 第1 章绪论 r 皇置置| 置胃暑一 1 1 课题研究的背景 第1 章绪论 近年来,随着我国高等教育事业的不断发展,招生规模也逐渐扩大。对于民办高校 来说,生源也越来越好。这样以来,针对民办高校学生讲解的大学计算机基础课程的考 核操作也面临着严峻的考验。 历年来,一些院校的大学计算机基础课程的考核方式一直是采用人工出卷、阅卷的 方式,所有该课程的任课教师都承担着这门课程的考核工作。每一学期所有任课教师都 会出一到两份的考试试卷,试题组成类型包括选择题、填空题、简答题、论述题和O f f i c e 操作题( 包括W o r d 、E x c e l 、P o w e rP o i n t 三个软件) ,然后将所有试题汇总形成该次考试 的题库,以保证同一考场的学生不会答相同的试卷,可避免出现作弊现象。考试是在机 房进行,学生按照纸介试卷上机考试。考试时,考生需建立自己的文件夹,并在文件夹 中分别保存各个题型的文件,待考试完毕存盘。教师在批阅的时候需要打开每位学生的 电子试卷进行批阅。这样,每次该课程的考试都要经过教师命题、试卷印刷、试卷评阅、 成绩给定及试卷分析等环节,不只是资源浪费,也给教师增加了巨大的工作量,而且很 容易出错。因为,在评阅过程中,对于操作题和主观题,教师会带有自身的主观性,比 如评阅时的心情,考生试卷的工整程度等。同时,由于需要打开的文件过多,教师重复 大量的相同工作,视觉上也会产生疲劳难免会有这样或那样的误差,这就有失考试公平、 公正的原则。 现今,计算机技术正飞跃的发展,网络的应用也普及到各个领域,为了解决上述问 题,针对各种课程的考试系统层出不穷。使用考试系统自动阅卷即减轻了教师的负担又 提高了效率和准确性,保证了考试的公平、公正的原则。但是,目前的考试系统在阅卷 功能实现上已经很好的解决了客观题的评阅,其技术已经非常完善,而对主观题和 O f f i c e 操作题的评阅同人工阅卷相比误差还很大,一般还需人工二次评阅。因此,本论 文的研究重点是如何提高主观题和O f f i c e 操作题的自动阅卷准确率,提高整个考试的效 率。 1 2 国内外研究的现状 随着计算机技术和网络信息技术的不断发展,应运而生了各种各样的考试系统。无 论从单机版还是到现在普遍流行的基于网络的在线考试系统,其考试的流程大都为题库 哈尔滨工程大学硕士学位论文 的建立、考生登录、抽取试卷、考试进行、试卷的提交、系统评分及系统安全的设置等。 现有的考试系统在阅卷子系统部分对客观题的评阅技术已经解决的非常好,但对主 观题和操作题的判卷还存在很多问题【1 1 。尤其针对大学计算机基础课程实现全面的 机考、评一体化仍是现今研究的重要课题。 1 2 1 考试系统的研究现状 目前,无论在国内还是在国外,考试方式都逐步的向无纸化过度。在我国,针对很 多认证考试、等级考试和一些高校的部分课程考试都开发了相应的考试系统,最广泛应 用的就是计算机等级考试系统,G I 迮外语上机考试系统 2 1 等,而公共外语的四、六级等 级考试也要转变为机考。这些已有的考试系统一般价格都比较昂贵,多数都是采用客户 机与服务器模式,安装起来比较麻烦,题型大都局限于选择、判断等客观题,如果有主 观题大都也是需要人工进行评阅。而针对大学计算机基础课程开发的考试系统一般 也只能进行上机考试,即使是使用机器自动阅卷也只能对简单的文档编辑及格式化的操 作进行评阅,大部分试题尤其是复杂的图片操作都要由人工进行,并没有真正的实现智 能阅卷。 在国外,很多高等院校很早就进行了智能阅卷相关技术的研究和探索。许多认证考 试和课程考试采用的都是无纸化考试 3 1 。而在无纸化考试方面研究最早的也是相对技术 比较成熟的美国的P r o m e t r i c 有限公司,主要的业务就是进行计算机相关认证考试服务, 在该领域里,P r o m e t f i c 是目前全球最大的也是最权威的【4 】公司。有关计算机考试的相关 技术就是由该公司开创的,并制定了相应的管理标准,一些国家非盈利性机构、政府机 构以及一些I T 产业机构都是它的客户群,范围非常广泛【5 1 。现在全世界有一百多个国家 的认证考试网络都是该公司建立的,涉及各个领域包括I T 领域的相关认证考试 ( M i c r o s o f t 、O r a c l e 、C i s e o 、S u n 等) 、学业考试( G R E 、G M A T 、T O E F L 等) 以及一些职业 考试等等。这些认证考试都存在一些缺陷,例如价格昂贵、题型固定、数据不能共享以 及无法进行题库管理等,应用起来比较麻烦。 综上,国内、外虽然对相应的机考功能制定的标准不一,但都存在不能与教学管理 系统进行数据的导入和导出以及题型受限的缺陷。由于主观题的在线评阅技术还很不成 熟,涉及到的技术领域比较多,实现起来有一定的困难,所以题型一般只局限于选择、 填空和判断等的客观题。而随着网络技术的广泛应用,一些考试系统的体系结构也由原 有的C S 结构1 6 过渡N B S 结构模式1 7 1 。 2 第1 章绪论 1 2 2 主观题自动阅卷技术的研究现状 目前,国内外推出的各种考试系统在试卷评阅部分对客观题的评阅技术已经非常完 善,而对主观题和O f f i c e n 操作题的评阅一般只是采用人工的方式,实际上并没有真正实 现机考、阅一体化,显得上机考试系统并不真正的实用。因此,现有的考试系统一般只 能智能的组卷不能真正的智能阅卷,考试并没完全智能化。 在2 0 世纪中,为了弥补主观题阅卷的缺陷,国外很多专家和学者致力于研究主观题 阅卷的相关技术,同时也相继出现了各种不同的自动阅卷系统。如P r o j e e tE s s a y G r a d e ( P E G ) 系统,该系统是E l l i sP a g e 等) k 8 】开发的英文作文评分系统,是依靠统计方法 对文章的质量和写作风格进行评定;A u t o m a t e dT e x tM a r k e r ( A T M ) 系统,该系统是C a U e a r D 等人 9 1 开发的对有明确简短答案类试题的计算机辅助评分的系统,可以评判用自然语 言书写的答案,并应用在各类学科上。国外对于主观题阅卷技术的研究大致可以分为两 大类:一类是对简短文字自动阅卷,一般题型分为名词解释、简答题和简短论述题等。 对于这一类试题的评阅一般采用学生答案和参考答案进行比较,按照事先设定好的标准 计算两个答案的匹配程度,并给出得分。另类是对非标准答案的试题进行评阅,这类 试题不局限文本内容,例如作文题等。对于这类试题的评阅方法一般是根据学生的遣词 造句情况以及抽取出答案中的浅层结构信息或语义信息,给出得分。目前,一些国际性 的标准化考试已实现了计算机的自动阅卷【m ”】 在国内,针对各类非标准化试题进行自动评阅的技术研究只是刚刚起步,还没有研 究出很好的解决方法。但是,有些专家和学者也提出了一些较好的观点。如:张量等人 【1 4 】提出了字符串匹配的方法,该方法是根据学生答案字数的多少进行查找错录和漏录 等,主要针对计算机基础考试的中文录入题;李辉阳等人【l5 】也提出了字符串带权匹配技 术,是基于关系的主要是对简单论述题的评语进行审核,审核判阅是否正确等;王邯等 人【1 6 】提出了在语义上对学生答案和标准答案进行匹配用来实现程序类填空题的计算机 自动批改。由于,国内对阅卷技术的研究起步较晚,技术还不成熟,所以目前的一些自 动阅卷系统都能很好的实现对客观题的评阅,主观题的评阅一般要采用教师人工评阅的 办法,并没有真正的实现考试的完全自动阅卷。 由上可以看出,无论是在国内还是国外,无论是技术研究的起步阶段还是趋于成熟 阶段,对主观题的自动阅卷技术中除了P E G # I “ 都涉及到了对自然语言的语义分析技术, 以提高阅卷的准确率【1 7 1 。由于汉语言博大精深、语义丰富,所以主观题的评阅技术涉及 到了人工智能、模式识别和对自然语言的理解等相关技术,成为了阅卷系统中的一个技 3 哈尔滨工程大学硕士学位论文 术难点【1 8 1 。但是,通过对主观题题型的分析,计算机对有些题型的自动评阅还是可以很 好的实现的。例如,名词解释、简答题和简单论述题等,这些试题的答案内容是受限的, 在标准答案中包含了试题的采分点,学生的答案中要有答题的要点才能得分。 在本文中就是通过对现有国内主观题阅卷系统存在的问题和不足进行总结,从评判 试题的要点入手研究怎样进行主观题的评阅。现有阅卷技术存在的问题: ( 1 ) 要求教师录入参考答案时要严格符合规则要求,无形中增加了出题者的工作量。 现在,国内各个领域都存在相应的自动阅卷系统,这些系统的共同点大多是要求录 入参考答案时严格遵守系统评分规则。比如要求出题者在给出试题答案时要确定好答案 中所包含的关键词要素,关键词之间的关系及每个关键词的作用等等,这无形中给出题 者增加了大量的额外工作量。而教师在人工阅卷的过程中,并不是简单的进行关键词匹 配的过程,是要先看学生答案中存在的采分点,然后再看对采分点的描述是否合理、通 顺,最后给出适当的得分。所以在进行自动阅卷技术研究过程中不能只考虑到简单的关 键词匹配,还要考虑到对语句的理解。 ( 2 ) 限定了题目的类型和答案的句式 国内现有的自动阅卷系统大都只能评阅特定的试题类型,对句式也有一定的要求。 如果学生的答案句式不符合规定的句式将不能进行准确的评阅。 ( 3 ) 在进行计算考生答案与标准答案语句相似度时,没有考虑各关键词在语句中所 起作用的比例。 国内现有的自动阅卷系统在进行对学生答案与参考答案语句相似度计算时,只是采 用两个答案中的关键词字符串之间进行匹配,而关键词之间的顺序没有考虑在内以及关 键词在整个答案中所处的位置即重要性,这样会降低评阅的准确率。 1 2 3O 币c e 操作题自动阅卷技术的研究现状 目前,现有的针对 o ,口l ,口2 ,口咧r e , n ) 是D 的奇异 值( t i p 是彳r 彳的非负平方根) ,秩值为k 的D 的近似矩阵皿: 么= k V l I ( 2 - 3 ) ( 2 3 ) 表达式中:仉是m x k 阶矩阵,表示U 中前七列压缩成K 维空间的m 行的词向量: 七是zk x k 阶矩阵,是的前七行、前七列的元素组成,七为因子数,为D 的秩; 圪是七X 丹阶矩阵,表示压缩到K 维空间的刀个文档向量,由y 的前k 行构成。 4 是矩阵D 的k 秩近似矩阵,近似保证了词条矩阵中词和文档之间联系的内在结 构,也就是潜在语义没有被破坏、修改,而且还除去了同义或多义产生的干扰。 2 1 4 语句相似度算法 计算语句之间的相似度,是自然语言处理的众多领域中比较重要的一个技术。因为, 在汉语言文学中词语之间的关系式非常复杂且丰富的,无法用某一个固定的量值来度量 它们之间的相似程度。对于两个词语之间的相似度处于不同的角度衡量可能会得出完全 相反的相似度。所以,正确计算词语间的相似度是十分重要的。 根据前面的基于对本体的计算方法的研究,解决的方法基本可以分为两大类:计算 相似度和距离远近。相似度的值越大越好,而词语之间的距离值越小越好。这里需要引 入模糊数学中的贴近度算法,具体算法分析如下。 1 基于模糊理论的单向贴近度计算方法 在模糊数学中可以用来表示两个模糊集合之间的接近程度 3 6 3 ,也就是模糊数学中的 贴近度。而基于模糊理论的单向贴近度计算方法就是利用模糊数学中的贴近度算法求得 考生答案与标准答案之间的相似程度。在此把两个答案分别看成不同的字符串组成的集 合,进行求两个集合之间的贴近度。对于单项贴近度的概念【3 7 】有以下几个定义。 定义l :在一个字符串中的所有单个字符构成的有序集合的模糊集称为论域,记为 U = 函。,”:,材) ,而论域上模糊子集的很多,把全体模糊子集组成一个集合可以记作 1 2 第2 苹I j 习卷相关技术概述 F 缈) 。使用单向贴进度在两个模糊集可以进行比较,计算接近的程度。 定义2 :把任意一个字符串按照一定的规则分解为单个字符,所有这些字符构成一 个有序集合称为一个模糊集,设u = 函。,“:,“。) ,刀是自然数,表示字符的个数3 引。 对于彳,B ,C F ) ( 也叫模糊幂集) ,用模糊向量 口= ( o l ,口2 ,J ( 2 - 4 ) 表示,每一个元素q - - a ( ,) ,扣1 , 2 ,疗。使用该种表示方式,全体模糊集F 妙) 就 可以表示为刀维模糊向量的集合。即 F 缈) = 口= ( 口l ,口2 ,口。) :0 qs1 ,i = 1 , 2 ,刀) ( 2 5 ) 设全体模糊集F 缈) 的二元函数映射关系表示为 t :,缈) F 妙) 一【o ,1 】(2-6) 若映射关系t 下述的条件都可以成立: ( 1 ) t ,A ) = l ; ( 2 ) t 协,B ) = l ; ( 3 ) 彳B Cj t 0 ,c ) t 0 ,曰) ; 。 那么T 就是F 妙) 上的贴近度函数,t 0 ,B ) 为A 贴j E l a kB 的单向贴近度。 定义3 :有任意两个字符串,假设为字符串彳、B ,在字符串彳中包含刀个字符, 那么彳贴近于B 的单向贴近度可以用t 0 ,B ) 来标识,在此再设集合彳中的每个元素在集 合B 中出现的有效次数和为朋,则按照从左到右的顺序计算t 0 ,B ) = m n ,经过验证得 出,和单向贴近度的定义相符【3 9 1 。 以上阐述了关于单向贴近度的三个定义,根据这三个定义可以得到主观题的评分公 式: 州p 吉善t 船( 墨+ ( 1 - p ) 孙( 4 ) S o ( 2 - 7 ) 公式中的S 为学生卷面的实际分值,& 为试题总体分值,彳为学生卷面的答案,4 为试题的标准答案,P 是关键词在该题目中所占分值的比例,0 P 1 ,力为关键词的 数目,墨为第f 个关键词,t 向( K ,彳) 是第f 个关键词与学生答案的单向贴近度。 2 基于关键字匹配的相似度计算方法 在前面已经介绍了基于统计的分词方法,并没有用到任何自然语言的处理技术,而 基于关键字匹配的相似度计算方法就是简单的进行关键字的匹配,只有运用的合理才能 1 3 哈尔滨工程大学硕士学位论文 达到很好的评阅效果州1 1 。 学生答案和标准答案在进行相似度计算时,是采用学生答案中的整段或整句文字进 行和标准答案之间进行字与字之间或词与词之间的匹配。下面举例分析: 设学生答案和标准答案分别是集合4 和B ,两个集合的相似程度S i m ( 4 ,曰) 为: S i m ( A ,B ) = ( s i m ( ! ;f - ) m + 跏( 词) 一) 2 ( 2 8 ) 瞎1 扛l 其中,m 为4 集合中字符的个数,刀为彳集合中词的个数。通过关键词的匹配和句 子的匹配可以得到两个集合之间的相似度: S i m l ( A ,B ) = p x 关键词+ ( 1 一p ) J 砌( 彳,召) ( 2 - 9 ) 根据公式,贴近度的大小是由关键词匹配程度的高低决定的,这里添加了一个动态 参数P 来调整相似度计算的值,只要关键词匹配程度高,P 的值就越大,相似对就越高, 反之就越小【4 2 】。 2 2O 伍c e 对外接口编程技术 O f f i c e 对外接口编程技术是研究M i e r o s o f lO f f i c e 办公自动化应用软件与外部程序、 组件以及对象之间的通信以及程序调用和功能扩展的技术。通过对外接口技术和外部对 象能扩大O f f i c e 软件的应用功能和领域。用户在开发和使用时,可以利用微软提供的标 准宏语言( V B A ) ,能够控制应用软件中的各种对象。除此之外,还可通过A c t i v e 组件以 及A D O 等技术来实先对以外的对象进行访问。下面主要对V B A 语言进行介绍。 2 2 1V B A 语言 标准宏语言m 刚B a s i cf o rA p p l i c 撕o n ) 【4 3 1 是一种面向对象的编程语言,内嵌在 O f f i c e 办公自动化软件中,其编程格式及方法同V B 。V B A 语言是由微软开发的,主要 用于定制和扩展O f f i c e 办公自动化软件的功能。由于该语言功能强大,使用起来比较简 单,而且还能被其它应用程序以O L E 的形式调用,因此现在很多应用程序都用该语言 扩展其功能,并把该语言嵌入其中作为开发工具。 V B A 是一种面向对象的编程语言,支持可视化的编程环境。特点是具有友好的编 程界面,编程的语言简单、易懂。所有的窗口界面都是由众多对象按照不同的布局设计 的,窗体上的任意对象可设置不同的对象属性值 4 4 1 。对于面向对象的编程语言,最重要 的组成元素就是对象,在编程时要重点把握对象的三要素,属性、方法和事件t 4 5 1 。在 V B A 中的对象包括两种:用户自定义对象和O f f i c e 程序对象库中的对象。前者是具有 1 4 第2 章阅卷相关技术概述 独立功能的特殊模块,而后者提供了应用程序的接口是实现O f f i c e 应用程序的最重要部 分。V B A 可以通过这些接口来控制应用程序,也可以说是V B A 与O f f i c e 应用程序之间 的桥梁。用户在编辑V B A 程序时,必须熟练掌握对象库中每一个对象以及该对象具备 的三要素采用完成一定的任务。 2 2 2V B A 开发O 伍c e 功能 使用V B A 标准宏语言作为O f f i c e 对外编程接口技术,可以实现以下功能: 1 使O f f i c e 任务自动化 在使用O f f i c e 软件的过程中,如果要解决大量重复性的工作只需要通过录制宏用一 条指令就能完成,不仅减少人工劳动量使O f f i c e 任务自动化,而且还提高了工作效率。 2 增强O f f i c e 的功能 O f f i c e 的功能已经很强大了,即使不用编辑一句代码就可完成各种复杂的工作、解 决各种遇到的问题。但是,用户对软件的要求是无止境的,要想满足高效的完成各种复 杂的工作就必须使用V B A 来增强O f f i c e 功能。例如:可以设置W o r d 的拼写检查词库, 自己设置经常遇到的错误等。 3 V B A 可以增强O f f i c e 与用户的交互 在面向对象的编程中,O f f i c e 与用户的交互最典型的是使用窗体界面。因为V B A 是面向对象的编程技术,可以创建窗体界面以及在上面添加一些控件对象等和用户接口 的元素。同过这些接口也可以说是桥梁,用户向应用程序发出请求,对象按照相应的请 求驱动本身的时间过程,并作出响应得出结果。 4 V B A 可以集成O 伍c e 的功能 O f f i c e 办公自动化软件中的所有组成软件并不只是各自独立的完成某些功能,而是 能够形成整体完成特定的功能。这需要通过O L E ( 对象的链接和嵌入) 和D D E ( 动态数据 交换) 技术来集成O f f i c e 的功能。例如,在W o r d 文档中生成图表时对数据表的操作可通 过链接E x c e l 电子表格来实现数据的处理等。 2 2 3O f f i c e 对象模型 O f f i c e 办公自动化软件中的每一个应用程序软件都可以看成是一个对象,都由自身 的A p p l i c a t i o n 对象来表示,在A p p l i c a t i o n 对象中包含所代表的软件中的菜单栏对象包 括菜单及子菜单中的菜单命令,工具栏对象包括各种快捷命令按钮,文档对象等包含所 有的文本、图片、文本框及表格等相应的组成对象,文档对象是M i c r o s o t tW o r dV i s u a l B a s i c 中的主要对象。而每一个对象都有自己的属性、方法和事件,这就构成了用来评 1 5 哈尔滨工程大学硕+ 学位论文 分的依据。例如,以W o r d 为例简单说明文档中包含的一些常用的对象: ( 1 )
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年饲用作物项目提案报告
- 2025年社会人文科学研究服务项目申请报告
- 陕西省2025年中考第三次模拟考试道德与法治试卷(解析版)
- 2025年非油炸食品项目申请报告
- 基于PI3K-Akt通路探讨金天格胶囊对肩袖腱骨愈合的影响及机制研究
- 基于解调硬判决和软判决序列的卷积码参数识别研究
- 基于HNET的压水堆全寿期高保真堆芯物理计算研究
- 基于多减盐策略组合应用的中空盐微球制备与评价
- PMS辅助分子筛负载金属化合物可见光催化去除有机污染物的研究
- 具有B-D功能反应项的捕食-食饵反应扩散系统的分歧解研究
- 血管活性药物静脉输注护理
- 2024年机关事业单位工人汽车驾驶员高级技师国家题库练习题答案
- 村级积分制管理
- Nikon尼康D3100中文说明书
- 国家开放大学2024春《1494员工劳动关系管理》期末考试真题及答案-开
- DBJ∕T 13-234-2024 不发火建筑地面应用技术标准
- 2024年新疆中考地理真题卷及答案
- 人教版初三物理总复习电学专题复习教学设计
- 项目风险记录及跟踪表
- 2024年越南氮化铝陶瓷基板行业现状及前景分析2024-2030
- DL∕T 5158-2012 电力工程气象勘测技术规程
评论
0/150
提交评论