




已阅读5页,还剩60页未读, 继续免费阅读
(语言学及应用语言学专业论文)基于词界字分词技术的机器评卷系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 术语解释题目是人工考试系统中常用的一类题型, 它要求答题者用简明的答案对试题进行作答。由于术语 解释题目既具有客观性试题的排它性,又具有论文性试题 的灵活性,因此,它容易取得测试的高信度,所以一直被命 题者看重。通过对目前比较成熟的机器考试和评分系统 的调查和研究,发现术语解释题目还没有真正进入机器 考试系统。因此,对术语解释题目机器评卷系统进行研究 具有重要的实用价值。 本文选取语言学概论中相关的术语解释题目作为实验 对象,以彭泽润的词理论和罗海清的p c 汉语、e a c 汉语理论为 基础,并在这个基础上运用中文信息处理的相关技术对术 语解释题目的机器评卷系统进行研究。其中对词的处理, 本系统主要应用词界字分词技术以及词匹配技术;词界字 分词技术的基本原理是利用非汉字符号和汉字中的词界字 作为词的界限识别标准,可以用来进行汉语文本分词,这类文 字符号具有词的边界性质。对于单句的处理,本系统主要 涉及汉语的知识表达以及句模匹配技术。 通过对实验数据和结果的分析得知,基于词界字分词 技术的机器评卷系统虽然不能完全保证术语解释题目 机器评卷的准确性,但是,它为这个问题的解决提出了一 条可行途径,并可以在一定程度上解决这个问题。 关键词:词界字;分词;术语解释题目;词匹配;句模匹配: 词理论;p c 汉语;e a c 汉语 a bs t r a c t t e r m i n o l o g ys u b j e c ti sac o m m o n l yu s e dt y p ei na r t i f i c i a le x a m i n a t i o n s y s t e m ,w h i c hr e q u i r e st h o s ec o n c i s ea n s w e r st oq u e s t i o n s b o t ht h e e x c l u s i v i t yo fo b j e c t i v eq u e s t i o n sa n df l e x i b i l i t y o fe x p l a i nq u e s t i o n s m a d et h et e r m i n o l o g ys u b j e c te a s yt ot e s tt h eh i g hr e l i a b i l i t y , w h i c hh a s b e e nv a l u e dp r o p o s i t i o n b yt h ei n v e s t i g a t i o na n dr e s e a r c ho nt h ec u r r e n t s o p h i s t i c a t e dm a c h i n ee x a m i n a t i o na n dm a r k i n gs y s t e m , i tf o u n dt h a tt h e t e r m i n o l o g ys u b j e c th a sn o tr e a l l y e n t e r e dt h em a c h i n et e s t s y s t e m t h e r e f o r e ,t h em a c h i n em a r k i n gs y s t e mo f t e r m i n o l o g ys u b j e c ti so f g r e a t p r a c t i c a lv a l u e t h i sp a p e rs e l e c t e dr e l a t e dt e r m i n o l o g yi ni n t r o d u c t i o nt ol i n g u i s t i c s a se x p e r i m e n t s ,b a s e do np a n gz e r u n sc h i n e s ew o r d st h e o r ya n dl u o h a i q i n g sp cc h i n e s e e a cc h i n e s et h e o r ya s af u n d a m e n t a lt h e o r y , a n de m p l o y e dt h er e l a t e dt e c h n o l o g i e so fc h i n e s ei n f o r m a t i o np r o c e s s i n g t o e x p l a i nt h em a c h i n em a r k i n gs y s t e mo ft e r m i n o l o g ys u b j e c t f o r r e s e a r c h t h es y s t e mm a i n l ya p p l i e ds e c t o rc h a r a c t e rw o r ds e g m e n t a t i o n t e c h n i q u e sa n dw o r dm a t c h i n gt e c h n o l o g yi nt h ep r o c e s s i o no fw o r d s ; t h ef u n d a m e n t a lp r i n c i p l e so fs e g r e g a t i o nm a r k e ri su s i n gn o n c h i n e s e s y m b o l sa n do fs e g r e g a t i o nm a r k e ri nc h i n e s ec h a r a c t e r sa st h ec r i t e r i o n o ft h eb o u n d a r yi d e n t i f i c a t i o n ,w h i c hc a nb eu s e df o rs e g m e n t a t i o no f c h i n e s et e x t ,s u c hs y m b o l si so ft h eq u a l i t yo ft h ew o r db o u n d a r y t h e s y s t e mm a i n l yr e l a t e dt ot h ec h i n e s ek n o w l e d g eb o u n d a r ye x p r e s s i o na n d t h em a t c h i n gt e c h n o l o g yo fs e n t e n c em o d e li nt h ep r o c e s s i o no fs i n g l e s e n t e n c e b a s e do nt h ea n a l y s e so f e x p e r i m e n t a ld a t aa n de x p e r i m e n t a lr e s u l t s , m a c h i n em a r k i n gs y s t e mb a s e do nt h es e g m e n t a t i o nt e c h n o l o g yo f s e g r e g a t i o nm a r k e rc a nn o tg u a r a n t e et h ea c c u r a c yo fm a c h i n em a r k i n g o f t e r m i n o l o g ys u b j e c t s h o w e v e r ,i tr a i s e daf e a s i b l ew a y t os o l v et h i s p r o b l e m ,t ob ec e r t a i ne x t e n t ,c a ns o l v et h ep r o b l e m k e yw o r d s :s e g r e g a t i o nm a r k e r ;s e g m e n t a t i o n ;t e r m i n o l o g ys u b j e c t ; w o r d sm a t c h i n g ;s e n t e n c em o d e lm a t c h i n g ;c h i n e s ew o r d st h e o r y ;p c c h i n e s e ;e a cc h i n e s e i l 湖南师范大学学位论文原创性声明 本人郑重声明:我呈交的学位论文,是本人在导师的指导下, 独立澎亍研究工作取彳导的燥除了政中已经注日月引用的内容 j ;l 夕 ,本敝不含有任何其他个人或集涔已经发表或 ;写过的作 品成夥对杖的研究1 ;故出鲠贡献的个人和集体,都酸在文 章中用h 脯= 拭标明。本人完全意识到本声明的法律结果由本人 张。 靴敝储铭:。惭z d 刃年6 月肜日 湖南师范大学学位论文版权使用授权书 本靴敝储魈7 解激欷骼使月j 靴蒯规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电 子版,肼敝被查阅和借阅。本人授权湖南师范大学可以把本学 位论文的全部或部分内容编入有关燃淄亍艨,可以采用影 印、缩印或扫描等复制手段保存和滞本学位论文。 本学位敝属于( 请在丰且应方眶内打v ) l , 储签名:m日期:年,月日 颠鹳:兰7 漓日期地参月加日 基于词界字分词技术的机器评卷系统研究 0 绪论 0 1 研究内容 从研究的领域来看,本文是一篇计算语言学方面的论文计算语言学 指的是这样一门学科,它通过建立形式化的数学模型来分析、处理自然 语言,并在计算机上用程序来实现分析和处理的过程,从而达到机器来 模拟人的全部或者部分语言能力的目的( 俞士汶2 0 0 3 :2 ) 计算语言学是 植根在多个学科土壤上的奴型学科,它的研究触及了包括计算机科 学、语言学、数学、认知科学等多个学科在内的研究范畴( 冯志伟2 0 0 2 ) 。 但作者始终认为在涉及的多个学科中,语言学和计算机科学才是计算语 言学的根本,才是这个学科发展的不竭源泉,因此,本文的研究内容也始 终以语言学和计算机科学为根本,紧扣彭泽润的词理论和罗海清的p c 汉语、e c 汉语理论,并在这个基础上展开研究。 本文并不打算直接研究计算语言学本体的理论,所讨论的是关于 计算语言学的个实际应用。具体来说,就是如何利用分词技术和句模匹 配技术来对术语解释题目进行机器评卷 既然是关于计算语言学的个实际应用,本课题的研究对象自然涉及 到“计算”和“语言”两个方面( 俞士汶2 0 0 3 :3 ) ,一方面是从“计算”的角度 去看待“术语解释题目”的性质,另一方面是把“术语解释题目”作为某种可 “计算”的对象。相应地来研究适用这类计算的算法过程。这两个方面共同 构成了本课题的杨d 研究内容。 所谓从“计算”的角度去看待“术语解释题目”的性质是指从实际的术 语解释题目样本( 包括命题和答案) 出发,把某个术语解释题目样本当 作个具体的、特殊的、受限的汉语片段,并对它的结构规律加以分析,最 终以精确的、形式化的、可计算的方式呈现出来。 所谓把“术语解释题目”作为某种可“计算”的对象,相应地来研究适用 这类计算的算法过程是指研究如何以机械的、规定了严格操作步骤的程 序来处理术语解释题目,它包括对个语言片段( 某个术语解释题目样 本) 中语言单位( 本课题中主要指词和词组) 的识别,以及如何生成这个 语言片段的知识表达 从理科的角度来看,计算机科学是数学的个分枝,从工科的角度 硕学位论文 来看,计算机科学是物理、电子及相关科学的综合( 钱峰,2 0 0 0 ) 。但是,不 管是从理科还是从工科的角度,计算机科学都是- f q 实验的科学,开发 机器评卷系统同样需要以实验为基础,注重实验过程,尊重实验数据,一 切从事实出发。 为使研究对象具有客观性又不乏代表性,经过多方思考,作者最终选 定了语言理论这门课程进行分析,从中选取并设计试题进行分析研究。 由于术语解释题目机器评卷系统的研发目前还处在初期阶段,因此 对研究对象也存在相应的约束。本文讨论的术语解释题目具有如下约 束: ( 1 ) 本文讨论的对象是用汉语进行作答的术语解释题目,涉及的主 要问题是中文信息处理及汉语语义理解,不包括其它语言的机器分析 及理解; ( 2 ) 考生答案是电子试卷而不是手工试卷,电子试卷和手工试卷间 的转化存在一个文本识别的问题,这是一个非常专业而且复杂的问题 ( 李贵洋,2 0 0 4 ) ,本文不对这个问题进行讨论; ( 3 ) 讨论的术语解释题目是具有标准记分点的术语解释题目,例如, “语言符号的任意性”,而不是全开放性的论文性试题,例如:“你对语言学 的认识”。全开放性的论文性试题虽然也可能存在一定的记分要求,但由 于存在记分要求的概括性和阅卷者的主观性,要实现这类试题的机器 评卷,目前的中文信息处理发展水平是达不到的; ( 4 ) 考生所做答案和标准答案规模不能过大,应控制在2 0 0 个字符 以内( 含标点符号及其它字符) ,考生的答案是机器评卷的主要对象,规 模将直接影响评卷结果,如果规模过大无疑会增加机器分析的难度, 特别是增加机器对汉语文本语义理解的难度,这是本文所不能解决的。 0 2 研究意义 从研究意义来说,写有两个主要方面。第一本课题可以看成是 词理论的一个具体实践。在马庆株给彭泽润词和字研究写的 序言中说“词观念的形成,对于提高计算机处理自然语言的效率 非常重要。汉语的计算机理解和机器翻译等信息技术要求把话语 分成一个一个的词,要求确定话语文本词和词之间的界限。语言 工程要求词的正确切分。”彭泽润在论著中也有许多关于词在 中文信息处理中地位的精辟见解,如:“没有词的界线的书面语,进 2 基于词界字分词技术的机器评卷系统研究 入网络,用计算机处理,非常不方便,对于高层次的信息处理更加是寸步 难行。”( 彭泽润,2 0 0 5 ) ;“汉语一直采用字式书写,没有采用词式书写,因 此在书面上没有词的明确界限。这对于人理解汉语没有造成不可回避的 障碍,但是对于懒处理汉语却是一个必须解决的隅。在书面汉语写 作没有推广词式书写的情况下,让计算机在处理汉语信息以前自动分词, 是个重要的计算语言学任务”( 彭泽润,2 0 0 5 ) 。这些话都是对词在自 然语言处理和语言工程中地位的高瞻远瞩的肯定,作为这个论断 的坚决拥护者,作者认为本课题正是从一个具体的实例来证实 这一论断 本课题的第二个主要意义是术语解释题目机器评卷系统在 现实生活特别是教学活动中的实际意义面对对术语解释题目 机器评卷系统研究意义的种种疑惑,作者持有如下观点: ( 1 ) 虽然从算法角度讲,且前汉语语法的形式化及数学描述确 实不足以实现真正的汉语理解,但是这并不意味着术语解释题目 机器评卷这个具体问题不能求解,因为计算机科学也是- f 实验 的科学,通过具体问题具体分析,缩小实验范围及层次,术语解释题 目的机器评卷是可以得到解决的。 ( 2 ) 虽然,传统考试及评卷系统已经融入并深入我们的社会, 但是它却很可能适应不了我们正在进入并发展的网络社会,为 适应网络社会的发展,网络教学及考试必将普及,作为网络考试系 统的必备组成部分,机器评卷系统必须得到发展( 温晓军2 0 0 1 ) 因此,如果能发展并改进目前已有的术语解释机器评卷系 统,使改进后的系统具有评判具备论文性试题特征的术语解释 题目的能力,让术语解释题目全面进入机器考试系统,将会在如 下几个方面产生重大意义: ( 1 ) 扩充机器评卷系统的评判题型,使扩充后的评卷系统的 评判能力更接近人工评卷系统; ( 2 ) 减轻评卷人员负担,提高评卷效率; ( 3 ) 提高评卷的准确性及客观性,减少人为因素带来的负面 影响: ( 4 ) 通过机器评卷系统效率的提高,促进机器考试系统效率 的全面提高; 3 硕t 学位论文 0 3 研究方法和主要语料来源 概括来说,计算语言学的研究方法可以分为规则方法和统计 方法两类。规则方法和统计方法在如何认识语言知识,以及如何表 示语言知识上存在不同:规则方法主张以建立形式化知识系统的 方式来表示语言知识;统计方法则主张收集实际的语言材料形成 语料库,把语料库本身视作语言知识。这样的语言知识是统计意义 上的知识( 俞士汶2 0 0 3 :1 1 ) 。 本课题是计算语言学的课题,因此,在整个系统的研究和实 验过程中结合了上述两种方法。对于规则方法来说,本文以罗海 清的p c 汉语( 高浓汉语信息) 和e a c 汉语为基础,形成术语解释题 目的知识表达,并结合彭泽润的词界字分词技术对术语解释题 目机器评卷系统进行研究。 就统计方法的应用来说,为保证对语言理论这一课程涵盖内 容进行全面细致的研究,并从中抽取可形成术语解释的问题,本 文搜集并分析了大量相关教材,从中收集实际的语言材料形成 语料库,现在把主要出处记录如下: ( 1 ) 黄弗同理论语言学基础( 武汉:华中师范大学出版社,1 9 8 8 ) ; ( 2 ) 瑞士 索绪尔,高名凯译普通语言学教程( 北京:商务印书 馆,1 9 9 9 ) ; ( 3 ) 彭泽润、李葆嘉语言理论( 长沙:中南大学出版社,2 0 0 0 ) ; ( 4 ) 李宇明语言学概论( 北京:高等教育出版社,2 0 0 0 ) ; ( 5 ) 胡明扬语言学概论( 北京:语文出版社,2 0 0 0 ) ; ( 6 ) 邢福义、吴振国语言学概论( 武汉:华中师范大学出版社, 2 0 0 2 ) ; ( 7 ) 胡明扬语言与语言学( 武汉:湖北教育出版社,1 9 8 5 ) ; ( 8 ) 李宇明理论语言学教程( 武汉:华中师范大学出版社,2 0 0 0 ) ; 作者通过对上述语料进行比较。确定了语言理论所包含的适 合出术语解释题目的基本范围,并针对这个范围进行了命题和 筛选,确定2 0 0 道题目。通过参考相关教材和考试资料,作者为这 2 0 0 道题目给出了标准答案,最终形成了语言理论这门课程的术 语解释题目集,就是本文的主体研究对象,限于篇幅,本文无法把 题目集中所有的题目列出,只能抽取其中个别有代表性的题目作 为例题进行说明。 4 基于词界字分词技术的机器评卷系统研究 本文研究的术语解释题目题干及答案形式如下例: ( 1 ) 语音 语音是在人类大脑神经支配下由发音器官发出的负载一定 意义并且能够被人们理解的声音。语音是语言的物质形式,语汇 和语法都要通过语音来表现,因此,语音是语言的基础。 ( 2 ) 语素 语素是最小的声音和意义结合体。语素最基本的作用是构 词,所以又叫词素。语素都是有意义的语言单位,也都有语音形式, 不过有些语素的语音形式不大固定,有多种语音变体。 说明:由于上述两例作为样本贯穿于全文的分析,所以把它们 分别简称为例1 、例2 。 作者之所以要对这门课程进行全面的研究,而不是只对其中 某些局部进行分析,主要是考虑到以下问题: ( 1 ) 虽然评卷系统处理的基本单位是某一个特定的术语解释 题目,但考生在答题时涉及的知识是整门课程,使用的专业词汇 也涉及到整门课程,所以对这门课程进行个全面的研究是必 要的; ( 2 ) 从机器评卷系统实际应用考虑,系统面对的对象是这门课 程中所有适合的术语解释题且,而不仅是其中的某些特例,因此, 如果只进行特例分析而不进行全面分析,很可能造成分析过程 和结果的片面性 如果把中文信息处理分为字、词,句,句群四个阶段,那么目前 的现状是:已经完成第一阶段的任务,基本完成第二阶段的任务 并努力向第三阶段迈进( 刘迁,2 0 0 6 ) 基于以上现实,本文主要采 用分词和词匹配技术,辅以句模分析、旬模匹配等手段,利用现代 汉语中简单陈述句及因果关系复句句法分析的相关成果,对名词 解释机器评卷系统进行了多角度、深层次研究,并尽可能做到观察 仔细、数据真实、处理得当 对术语解释题目进行机器评卷事实上属于中文信息处理的 范畴,这个过程主要包括字、词、单句及复句的处理对于第一阶 段,由于本系统处理的对象是电子文本,所以在字处理阶段并不 涉及文本识别和汉字输入等基础性问题:对于第四阶段,由于术语 解释题目自身标准答案及考生所作答案采用复句较少,所以复句 处理也不是本文研究的重点本文研究的重点将放在第二三阶 5 硕t 学位论文 段,对于词处理,本系统主要应用分词及词匹配技术;对于单句的 处理,本系统主要涉及汉语的知识表达及句模匹配技术。 为保证机器评卷系统中分词的准确性和可靠性,本文还考查 了一系列相关词表及语料库,记录如下: ( 1 ) 北京大学汉语语言学研究中心现代汉语语料库( 1 0 8 ,4 7 1 ,4 4 7 字) ( h t t p :c c l p k u e d u c n ) ; ( 2 ) 中国社会科学院语言研究所词典编辑室现代汉语词典( 北 京:商务印书馆,2 0 0 2 。简记为现词) ; ( 3 ) r r k 哈特曼、f c 斯托克著,黄长著、林书武、卫志强、周绍 珩译,李振麟、俞琼校语言与语言学辞典( 上海:上海辞书出版社, 1 9 8 0 ) : 说明:下文中列举的例句除了标明转引白某文以外和自造例 旬外,其余全部来自上述语料。其中来源于北京大学汉语语言学研 究中心现代汉语语料库的不作标记。 0 4 研究现状和文献概述 考察本课题的研究现状时,作者认为有两个层面的内容需要 考察。第一个层面是,术语解释题目在机器评卷系统的应用现状。 术语解释题目是人工考试系统中常用的一类题型,它要求答 题者用简单的答案对试题进行作答。由于术语解释题目既具有 客观性试题的排它性,又具有论文性试题表述方面的灵活性,因此 它容易取得测试的高信度,所以一直被命题者看重( 温晓军,2 0 0 1 ) 。 通过对目前较为成熟的机器考试和评分系统,( 如:国家计算 机等级考试系统、湖南省计算机等级考试系统、国家职称计算机考 试系统、教之初计算机考试系统、中小学计算机考试系统) 的调查和 研究,发现术语解释题目还没有真正进入机器考试系统,即使在某 些考试系统存在术语解释题目,也基本不具有相应的机器评卷 系统,而是采用人工阅卷方式( 李新叶2 0 0 4 ) 。 目前已有的机器评卷系统能评判的题型一般以填空和选 择的方式出现( 黄生叶,2 0 0 0 ) 。这类题型从机器识别的角度分析具 有如下两个基本特征: ( 1 ) 对提供的答案进行了明确的标识,比如选择题的选项用 数字或拉丁字符进行标识,填空题中用定长、定值的字符串进行标 6 基于词界字分词技术的机器评卷系统研究 识( 李贯洋2 0 0 4 ) ; ( 2 ) 答题者的答案也具有明确而且特定的标识。答题者只能 通过单选按钮、多选按钮、文本框等编程控件为机器评判提供确定 信息; 因此,术语解释题目的机器评卷系统现阶段在国内的研究 可以说还处在不成熟的阶段,它的研究还具备很大的潜力和 空间。作者认为存在以下基本原因: ( 1 ) 中文信息处理技术自身的发展还处于不成熟的阶段, 特别是汉语的机器理解还处在起步阶段。术语解释题目机器评 卷的核心问题从根本上讲应该属于汉语的机器理解,而目前汉 语机器理解技术的水平还不解决这个核心问题。 ( 2 ) 大多数中文信息处理的研究还停留在理论阶段,并没有 真正投入到实际生产生活中,大多数人认为在汉语机器理解技 术还没有真正成熟前研究术语解释题目的机器评卷是没有意 义的。 ( 3 ) 传统人工考试系统和评卷系统已经根深蒂固,而且得到了 大家的认同,因此大多数人认为在不能保证高准确性和可信度 的前提下来研究机器评卷系统是没有意义的 从上面知道,目前术语解释题目的机器评卷系统处在一个 急需研究却又没人愿意研究的阶段 第二个需要考察的方面是分词技术和在这个基础上形成 的旬模匹配技术在机器评卷系统中的应用现状。 词是语言的基本符号,它是语言中最小又自由的内容和 形式相结合的实体单位( 彭泽润、李葆嘉,2 0 0 0 :2 7 4 ) ,同时词也是中 文信息处理的基础。要进行有效的中文信息处理首先要应用的技术就 是分词技术,目前的分词技术已被应用于机器翻译、信息检索、信息提取等 领域( 姚天顺,2 0 0 3 ) 。但是从调查的结果来看,“词”这个概念并没有真 正进入计算机评卷系统现有的系统中只有“字符串”这个概念。虽然字符串 和字符串匹配技术能够勉强适应目前的计算机评卷系统,但是,这显然是 违背语言单位的客观层次结构的,显然是不利于汉语现代化的“传统汉 字虽然可以成为计算机的加工对象,但是汉语无法通过传统汉字威为计 算机语言”( 彭泽润2 0 0 5 :1 4 4 ) ,把语素、词、词组等各级语言片段混为一 谈,都用“字j 守串”这个棚的概念来表示,是郁导于计算杌处理自然语言语 义的,是不利于自然语言机器理解的 7 硕士学位论文 总而言之,“词”这个概念并没有真正进入计算机评卷系统,分词技术和 在这个基础上形成的旬模匹配技术也没有像其它应用领域那样 在机器评卷系统中得到应用。 1 机器评卷系统可行性和系统结构 1 1 评卷系统可行性研究 要使实现的系统具有评判具备论文性试题特征的术语解释 题目的能力,必须对答题者所作答案进行中文信息处理,而进行中 文文本分词是中文信息处理的基础,因此应用高效的分词技术 将成为整个系统实现的关键。 目前已有的分词技术多是基于词库的词条匹配技术,它们 虽然能在一定程度上完成分词这项任务,但由于自身效率的缺 陷却不能成为评卷系统的核心技术( 邓曙光,2 0 0 5 ) 。而且以往的学 者在实现计算机汉语自动分词技术的时候,一般采用大词表( 孙茂 松、邹嘉彦,1 9 9 5 ) ,这样需要浪费大量处理时间,效率比较低( 彭泽 润2 0 0 5 :2 4 5 ) 。 因此系统需要一种基于小词表的分词技术,而基于词界字 的分词技术正是这样一种技术,它将为后续的其它中文信息处 理打下坚实的基础。 除对答题者所作答案进行分词的可行性研究外,还可以从如 下两方面进行可行性研究: ( 1 ) 以人工评卷系统为基础,对术语解释标准答案进行分析, 发现具有如下基本特征: 标准答案明确、客观,并且一般由文本形式给出; b 标准答案文本篇幅小,一般在2 0 0 个汉字以内( 邵新力, 2 0 0 5 ) : c 标准答案文本中具有明确且数量有限的关键词,人工评 卷时主要根据关键词是否出现,出现位置是否正确进行分步计分 ( 乔国顺,2 0 0 0 ) : ( 2 ) 以人工考试系统为基础,对答题者所作答案进行分析, 发现答题者所作答案具有如下基本特征: 基于词界字分词技术的机器评卷系统研究 a 答案文本篇幅小,且段落结构简单; b 使用的标点简单,多为逗号、句号; c 所作答案多由单句组成,复句数量极其有限; d 组成答案的句模简单,多是判断句; e 作答所用词数目较少而且明确,歧义字串、连接词少; 通过以上两方面的分析,并结合现有的中文信息处理技术分 析得出,建立和改进术语解释题目机器评卷系统已经具备如下至 关重要的基本条件: ( 1 ) 可完成对标准答案中关键词的切分和收集,能形成关键 词集,并能确定关键词的合理排列顺序,能确定关键词集中哪个关 键词更为关键; ( 2 ) 能根据关键词及其顺序形成正确的知识表达,并由此形成 相应的匹配旬模; ( 3 ) 能对答案进行高效的段结构及句结构切分; ( 4 ) 能对考生答案进行准确高效的分词处理; ( 5 ) 能形成考生答案和标准答案之间的词及句模匹配; 由此可见,本选题具有比较高的可行性。 1 2 标准答案处理过程 本文所构建的基于词界字分词技术的术语解释题目机器评卷 系统所处理的对象主要包括两个,一个是标准答案,另一个是考 生答案对于这两个不同对象的处理过程也是不一样的。 对于标准答案来说,处理过程主要由以下三部分组成: ( 1 ) 借助p c 汉语( 高浓汉语信息) 及e a c 汉语,根据记分点形成相 应的知识表达; ( 2 ) 基于已经形成知识表达生成记分点中的匹配关键词集; ( 3 ) 基于已经形成知识表达生成记分点中的匹配句模; 上述3 个子过程都是以p c 汉语( 高浓汉语信息) 及e a c 汉语为基 础的。它们的主要功能包括两个方面,一是使不便于计算机处理的 汉语文本形式化,二是使记分点中的核心部分( 包括关键词集及以 它为基础形成的句模) 呈现出来。流程图如图0 - i 所示: 9 硕士学位论文 1 3 考生答案处理过程 对于考生答案的处理过程如图o 一2 所示:整个过程包括5 个子过程: ( 1 ) 对考生答案进行的预处理 预处理的对象主要是考生答案,其目的主要是在考生答案进 入下一步,也就是分词阶段前对其进行文本规范,减少因非正常语 言因素而带来的分词麻烦( 黄生叶,2 0 0 0 ) 。 ( 2 ) 调用常用词及专业词小词表对考生答案进行分词处理 对已经完成预处理的考生答案,接下来需要做的是进行分词 处理,进行分词处理的目的是为以后的关键词匹配和句模匹配 打下基础。本文通过前期实验的分析得出,在进行分词处理时会 用到两个关键词表,它们是常用词小词表和专业词小词表。 其中常用词小词表可以从现代汉语词典中提取,它主要对答题者所 作答案进行分词处理:之所以认为常用词小词表可以从现代汉语词典中 提取,是考虑到考生在答题时所用的词不会超出他们日常的词汇范 围,而他们所具有的日常词汇范围是不会超出现代汉语词典所包含的 词汇的。考虑到最新版的现代汉语词典共收录了字、词6 万多条,及目前 计算机的运算速度和性能,作者认为以现代汉语词典收录的所有词来 构建常用词小词表也是可行的。 对于专业词小词表来说,需要根据实际的考试科目来进行选 择,如本文是以语言理论这门课程来进行实验的,所以针对这一 课程的评卷系统完全可以根据相关教材及资料中的专业词汇 来组织。 对于词表的调用顺序,会因为系统设计的不同而有区别,本 系统的设计和实施过程中采用的调用顺序和常用的顺序相反, 本系统没有采用常用的先调用常用词小词表然后调用专业词小词 表的顺序,而是先调用专业词小词表再调用常用词小词表的顺序。 之所以采用这一顺序是基于如下考虑: 有些词只存在于专业词小词表中,而不存在于常用词小词表 中,如果先调用常用小词表对它进行匹配可能会出现一些本可以 避免的歧义切分字段。例如“成词语素”,如果不调用专业词小词表把它 看作一个整体进行处理,而先调用常用词小词表对它进行切分,很 有可能被切分成“成词语素”;又如“关联手段”,它很有可能被切分 成“关联手段”。 1 0 基于词界字分词技术的机器评卷系统研究 在实验的过程中作者还遇到了如下类似情况: a 帮会用语帮会用语 b 比喻义比喻义 c 表词文字表词文字 d 不成词语素不成词语素 e 构词语索构词语素 f 关联词语关联词语 g 派生词派生词 i 青年语法学派青年语法学派 i 声学语音学声学语音学 j 饰词性短语饰 司性短语 亿体词性短语体词性短语 l 谓词性短语谓词性短语 乩收尾音收尾音 n 语法学语觯 0 语用意义语用意义 对于上述这些情况,如果先调用专业小词表就可以避免一些不必要 的歧义切分字段,从而提高分词的速度和精确度。 这里还有个问题是必须考虑的,那就是,在调用专业小词表进行分 词后,如何保证切分出来的专业术语不被后续过程( 调用常用词表继续 进行切分) 破坏在处理这个问题时,本系统采用了给切分出来的专业术 语加切分标记的办法在选取切分标记的i i l d i 受,有三个方面的因素需 要考虑: a 所选的切分标记要成对出现,就像“( ”和“) ”叫羊,一前后,并且 可以进行嵌套,这样程序在识别的时候方便; b 所选的切分标记应该出现在基本字符集中,因为基本字符集在最 基本的操作系统中也存在,从而避免了操作系统中字符集不同而产生 的影响: c 所选的切分标记应该是平时不被使用的字符,这样可以保证切 分标记和考生答案不混淆,从而减少不必要的麻烦; 综合上述三条原则,系统最终选定了制表符“广”和、”作为切分标 记引入切分标记后,被专业小词表切分出来的专业术语将会打上切分 标记,当再调用常用词词表进行后续分词处理时,程序旦遇到切分标 记。,和1 ”就不会对其中的内容进行处理 硕上学位论文 在下一步关键词匹配的过程中大部分关键词舒是本考试科耳的专 业词,因此先调用专业小词表进行匹配可以保证这些词切分的准确性, 从而保证下一步关键词匹配的效率。 分词过程切分的对象有两个,一个是标准答案,另一个是考生答 案。其中前者的切分比后者的切分要容易,因为作为标准答案来 说,生僻字段和歧义切分字段出现的可能性较小。而对于考生答案 而言,由于不同考生存在语言表达能力和专业知识理解能力的差 异,因此做的答案也五花八门,这无疑增加了切分的难度。 ( 3 ) 关键词匹配 用p c 汉语编码规则,可以把用汉字记录的标准答案转化成由拉丁 字母表示的拼音词,这种转化可以避免处理过程中许多由汉字文本所带 来的麻烦。关于这个问题有人做过深入而系统的研究。马庆株指出 “有必要提倡以汉语拼音缩写代号代替英语缩写词用来构成信息 网站名、主页名和电子邮箱地址,并用于汉字信息处理,甚至应该考 虑编写基于汉语拼音缩写的应用软件”( 马庆株2 0 0 5 :7 7 ) 。彭泽 润老师指出“特别是在电脑处理汉语的领域,可以说没有什么汉 字编码能够比汉语拼音这种汉语编码更加简便又更加直接接近 汉语。现在我们多数人在用电脑写作的过程中,用词语加拼音的 方式输入汉语。这个实践不仅说明了汉语拼音的巨大威力,而且说 明了正词法是社会的迫切需要”( 彭泽润2 0 0 5 :1 0 7 ) 。 虽然p c 汉语不等于汉语拼音( p c 汉语编码规则是总结了汉语拼音 的内在规则,并在这个基础上建立的) ,虽然本系统研究的也不是汉字输 入问题,但连写的汉字文本带来的麻烦以及拼音词所带来的优势是共同 的。因此在一些学者研究的启发下,本系统才把用汉字记录的标 准答案转化为由拉丁字母表示的拼音词,然后再进行后续处理。 在p c 汉语基础上,通过e a c 汉语书写规则,可以形成标准答案音 节文本的知识表达。知识表达的本质是根据语义关系的层次结构 把语句转化为一个由关键词构成的序列,序列中关键词的排列顺 序可以用来代表关键词在句中的语义重要性。通过选择合适的标 准答案关键词表,并与考生答案进行比较,就可以进行关键词匹配。 ( 4 ) 句模匹配 句模匹配是关键词匹配的后续处理,是对关键词匹配的必要补充。关 键词匹配的结果只能说明考生答案中是否出现了必要的关键词,并不能 说明关键词的出现位置是否恰当,所以在完成了关键词匹配的基础上进 基于词界字分词技术的机器评卷系统研究 行句模匹配是可以进步提高评判的准确性。 ( 5 ) 记分统计 这个过程是根据前两步中的匹配结果,配合评分细则对考生 答案进行记分统计。评分细则由用户根据实际情况给出,有了前面 的评判,这个过程的任务变成了一个 图o - i 标准答案处理流程图 图0 - 2 考生答案处理流程图 2 词界字技术的g h 基础 2 1g h 规则及其应用 p c 汉语和e a c 汉语都是湖南大学人文科学系罗海清教授发 明的,这是罗老师经过多年潜心研究,并付出了辛勤劳动才 得到的劳动成果。罗老师从7 0 年代就开始了p c 汉语的研究, 研究周期长达数年,在这数年的研究过程中,罗老师对汉语 语音内在规律进行了深入探讨,并充分利用这些规律创造了 p c 汉语,并获得了国家专利e c 汉语是建立在p c 汉语基础之 1 3 硕上学位论文 上的,它为汉语文本的形式化和可计算性开辟了有效途径,也 是本系统构建标准答案关键词集及句模的基础。为此,在深入 讨论本系统的每一个过程的细节前,对p c 汉语、e a c 汉语规则进 行介绍是有必要的。 毫无疑问,罗海清教授对于这两种规则及其应用最有发言权。 因此,下文对p c 汉语和e a c 汉语规则及其应用进行说明时,充分考 虑了罗海清教授的观点。对于两种规则介绍的主体部分都源于 罗老师发表在北大中文论坛上的相关帖子,作者只根据实际需要 对帖子中的用例进行了修改,规则部分则是基本原文引用。 p c 汉语又称为高浓汉语信息,它的编码规则是用2 3 个拉丁 字母。表达汉语1 2 7 0 个带调的音节。经统计,用这个规则表达的汉 语音节平均长度是2 3 个拉丁字母。例如,g l s y t g iw w l ki w j nh i t h i ( 计 算机处理语言信息) 这里只用2 0 个字母表达了汉语4 个词共9 个 带调的音节,计算它的平均音节长度大约为:2 2 2 个字母。 浓缩的汉语信息编码规则对中文信息处理的贡献主要表现 在如下方面: ( 1 ) 便于管理大规模的汉语文本资源,利用已有的基于西文 的检索和查找算法可对汉语文本进行高效检索和快速查找,如 可以按字母顺序快速查找文件名,目录名等: ( 2 ) 作为一种类似汉语拼音的汉语音节记录方式,它可以用来 书写程序标识符,从而提高程序的可读性,并为像汇编语言这样的 低级程序语言编程带来方便,从而可以开发出高效的软件内核; ( 3 ) 作为一种类似输入法的编码规则,它可以为中文资料的 输入提供一种高效的途径。 众所周知,用拉丁字母记录汉语拼音是无法描述音节的声调 的。一般的音节表示也需要3 至4 个字母,最长的还需要用到6 个 字母,如c h u a n g ( 窗) 。然而,高浓汉语信息编码规则却为每个音节都 带上了声调,并且使音节的平均长度缩短为2 至3 个字母。这其中 利用的汉语语音的内在规律将在下文进行说明。 2 1 1 增加汉语拼音的元音字母 汉语拼音3 6 个韵母,仅由6 个元音字母组成,它们是:aei0uu , 其中1 1 不能通过普通键盘进行输入。事实上,汉语拼音的书写中也 1 4 基于词界字分词技术的机器评卷系统研究 对n 的使用进行了限制,并用y u 对其进行改写( 在拼音教学里把 音节开头的y 读成i ,如,y ay a ny a n gy a oy u 等) ,如j uq ux uj u eq u ex u e j u nq u n t u ny uy u ey u n 等。因此我们可以去除n 这个元音字母,并按 照上述拼写原理,将u 写成双元音字母的i u ,这样,汉语拼音的3 6 个韵母,实际上只由aei0u5 个元音字母来组成了。 同时,汉语拼音中使用了1 8 个辅音字母,b 、p 、m 、f 、d 、t 、 n 、1 、g 、k 、h 、j 、q 、x 、r 、z 、c 、s 来表示单韵母,再加上z h 、c h 、s h3 个复辅音来表示2 1 个声母。 由于汉语拼音跟英语一样,使用的字符集都是2 6 个拉丁字母, 而且都是由元音和辅音字母组成。显然,我们要增加元音字母,就 必须减少辅音字母,使二者的总数保持在世界通用的这2 6 个字 母上,这样有利于键盘输入 经过对汉语语音的内在规律进行研究,发现凡是与g 、k 、h 相 拼的韵母,都不与声母j 、q 、g 相拼:反过来也一样,凡是与j 、q 、 x 相拼的韵母,都不与声母g k 、h 相拼,由此可以利用这个规律, 舍去不太通用的辅音字母j 、q 、x ,而保留世界通用的3 个辅音字 母g 、k 、h ,如: g i ( 鸡) g i a ( 家) g i e ( 街) k i ( 欺) k i a ( 掐) k i e ( 切) h i ( 西) h i a ( 瞎) h i e ( 些) 到这里,汉语高浓信息拼法的声母就只剩1 8 个了,它们是: bpmf ,dtn1 ,gkh ,y - xr ,zcs 其中,v - x 分别表示z hc hs h ,就是v 读z h ,冒读c h ,x 读s h 了。2 6 个字 母,除去1 8 个辅音字母,其余就是:aei0ujq y8 个元音字母了 其中,jqy 是新增加的3 个元音字母,按照下述韵母构成规则,这 3 个元音字母共构成如下8 个韵母: j m i a n ( 烟) j o i a o ( 腰) j a i a n g ( 央) y m u a n ( 弯) y i u a i ( 歪) y a u a n g ( 汪) q u i o u j ( 优) q o i o n g ( 拥) 由这8 个韵母可以看出,元音字母j 包含了复韵母开头的两个 音素i a - ,y 包含了复韵母开头的两个音素u a - ,q 包含了复韵母开 头的两个音素i o 一,由此,我们可以确定这3 个元音字母的读音,就 是:j 读“呀”,y 读“哇”,q 读“唷” 1 5 硕士学位论文 2 1 2 字母顺序隐含带调韵母的信息 汉语拼音的5 个单韵母aei0u ,可用元音字母aeiou 表示, 如果以英文字母的排列顺序为标准,取每个元音字母本身及后 继3 个连续字母,如a - b - e d ,e f - g h ,i j k l ,o - p q r ,”v 一1 】l ,一x ,可以 对应表示单韵母的】、2 、3 ,4 声,例如: a - b c d :i i l a ( 妈) m b ( 麻) n l c ( 马) m d ( 骂) e f - g h :g e ( 哥) g f ( 革) g g ( 葛) g h ( 各) i j k 一1 :g i ( 机) g j ( 极) g k ( 己) g l ( 计) k i ( 欺) k j ( 其) k k ( 起) k l ( 气) h i ( 嬉) h j ( 习) h k ( 喜) h l ( 戏) o p q - r :b o ( 波) b p ( 博) b q ( 跛) b r ( 簸) u - v - w - x :v u ( 朱) v v ( 竹) w ( 主) v x ( 注) w u ( 出) w v ( 除) 啊( 储) w x ( 触) x u ( 书) x v ( 熟) x w ( 属) x x ( 术) 实际上,字母顺序隐含的带调韵母信息,不仅适应于单韵母,而 且适应于复韵母;因为许
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025咨询服务合同范本模板
- 2025南京市汽车买卖中介合同范本
- 2025建筑工程设计合同(2)工程文档范本
- 海南省儋州市洋浦中学2025-2026学年高二上学期10月月考语文试题(含答案)
- 浮力实验题考试题及答案
- 反思会议考试题目及答案
- 对外汉语考试题及答案
- 东汉医圣考试题及答案
- 2025合同范本:广告位租赁合同样本
- 2025年中国煤制气项目商业计划书
- 2025年下半年四川省泸州市人力资源和社会保障局信息中心招聘3人重点基础提升(共500题)附带答案详解
- 新版苏教版四年级上册科学(全册教案及教学计划及进度表)
- R语言与数据可视化PPT完整全套教学课件
- HYSYS中文操作手册目录
- 产品质量分析报告
- 课件西安课件
- 大学生应征入伍学费补偿申请表-原
- GB/T 25179-2010生活垃圾填埋场稳定化场地利用技术要求
- GA 1016-2012枪支(弹药)库室风险等级划分与安全防范要求
- 海南省建筑工程竣工验收资料
- 脑干听觉诱发电位课件
评论
0/150
提交评论