(计算机应用技术专业论文)受限语境下文本语义相似度计算研究及应用.pdf_第1页
(计算机应用技术专业论文)受限语境下文本语义相似度计算研究及应用.pdf_第2页
(计算机应用技术专业论文)受限语境下文本语义相似度计算研究及应用.pdf_第3页
(计算机应用技术专业论文)受限语境下文本语义相似度计算研究及应用.pdf_第4页
(计算机应用技术专业论文)受限语境下文本语义相似度计算研究及应用.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 考试制度是我国现行教育体制和各类评审选拔中的一个重要环节。文字类考试题分为客 观和主观题。客观题的考后判分可以用计算机实现,主观题尚无法有效地通过计算机进行评 判,有必要研究用计算机进行主观题判分的方法,以节省教师工作量。 开发计算机自动评分系统的关键是找到衡量多个文本间语义相似程度的方法,本文研究 了受限语境下中文文本语义相似度计算,提出一种文本语义形式化表示方法一语片表示 法,主要内容如下方面。 ( 1 ) 针对传统向量空间模型( v s m ) 语义表示法中采用关键词特征项的不足。在组块 概念的基础上,对其进行扩展,提出语片的方法,语片结构为“关键词+ 附属词”。从理论 的可行性和技术的必要性对语片的可用性进行了论证。将语片与关键词、组块等概念作比较, 给出语片区别于它们的地方,并指出语片的特点和优势。用语片表示文本特征项,用于表示 文本语义。建立文本语义的向量空间模型表示形式,用语片的绝对词频作特征项权值,采用 向量夹角余弦法计算文本间的语义相似度。 ( 2 ) 基于操作系统领域文本语料库,通过计算两个词之间的互信息量,筛选出符 合阈值条件的词语,借助于二元语法规则,建立受限语境下两个词之间的相关度数据库,用 于确定附属词。 ( 3 ) 建立了包含4 0 个标识符的中文词语词性标记集、包含1 1 个标识符的虚词词性标 记集、包含6 4 9 个词语的停用词列表和包含3 1 6 2 1 个词语的中文同义词词典,分别用于分词、 标注词性、剔除高频虚词与停用词和同义词处理等中文文本处理环节。 实现了 课程主观题自动判分系统。对1 0 3 6 份试卷进行系统自动判分和 人工判分的对比实验。系统判分正确率为8 5 2 4 。与国家“十五”重大科技攻关项目中的 同类系统进行了对比实验,发现系统有效性与对比系统相当 关键词:向量空间模型,特征项。权重,语言片段。语义,相似度,考试。评分 a b s t r a c t e x a m i n a t i o ns y s t e mi sa l li m p o r t a n ta r e ai nc u n e l i te d u c a t i o ns y s t e ma n dv a r i o u se v a l u a t i o na n d s e l e c t i o ni no u rc o u n t r y w f i t t e ne x a m i n a t i o nc a l lb cd i v i d e di n t o o b j e c t i v ea n ds u b j e c t i v e q 增s i i o 惦o b j e c t i v eq u e s t i o n sc a nb es c o r e db yc o m p u t e r , w h i l es u b j e c t i v eo n e ss t i l lc a nn o tb e i ti se s s e n t i a lt or e s e a r c ht h em e t h o d st os c o r et h es u b j e c t i v eq u e s t i o n sb yc o m p u t e rt os a v et h e w o r k l o a do f t h et e a c h e r s t h ek e yt od e v e l o p i n gs u c hs y s t e mi s 幻f i n dt h em e t h o dt oc a l c u l a t et h et e x t ss e m a n t i cs i m i l a r i t y t h er e s e a r c hi sc o n c e r n e dw i t ht h ec h i n e s ev e r s i o ns e m a n t i cs i m i l a r i t yc a l c u l a t i o nm e t h o di nt h e l i m i t e dc o n t e x t ,i tp u t sf o r w a r dak i n do fm e t h e dt oe x p r e s sc h i n e s et e x ts e m a n t i c - l a n g u a g e f r a g m e n t t h ef o l l o w i n ga r et h em a i np o i n t s ( 1 )1 1 1 ew a d i t i o n a lv e c t o rs p a c em o d e l ( v s m ) s e m a n t i cr e p r e s e n t a t i o nh a sd e f i c i e n c i e s 吲n gk e yw o r d sf e a t t t r ei t e m s n ea r t i c l ep u t sf o r w a r dt h el a n g u a g ef r a g m e n tm e t h o d o n t h e b a s i s o f t h e c o n c e p t o f c h u n l t h es t r u c t u r e o f l a n g u a g ef r a g m e n t i s ”k e y w o r d s + s u b s i d i a r y ”i te x p o u n d sa n dp r o v e st h ea p p l i c a t i o no fl a n g u a g ef r a g m e n tb a s e do nt h e f e a s i b i l i t , o ft h et h e o r ya n dt h en e c e s s i t yo ft h et e c h n i q u e i tc o m p a r e st h el a n g u a g e f r a g m e n tw i t hk e y w o r d sa n dt h ec o n c e p to fc h u n k , p o i n t so u tt h ed i f f e r e n c e sa m o n g t h e ma n ds h o w st h ef e a t u r e sa n da d v a n t a g e so ft h el a n g u a g ef r a g m e n t i tw a st h e l a n g u a g ef r a g m e n t t oe x p r e s st e x tf e a t u r e sa n dt e x ts e m a n t i c s i te s t a b l i s h e st e x t s e m a n t i c su s i n gv s m ,t h ew e i g h t si sa b s o l u t et e r m sf r e q u e n c y ,u s i n gv e c t o rc o s i n e a r i g l et oc a l c u l a t es e m a n t i cs i m i l a r i t i e sb e t w e e nt e x t s ( 2 )b a s e do nt h et e x tc o r p u so f ”o p e r a t i n gs y s t e m ”b yc a l c u l a t i n gt h em u t u a li n f o r m a t i o n b e t w e e nt w ow o r d s , s e l e c tw o r d sw h i c hm e e tt h es e l e c t e dt h r e s h o l dc o n d i l i g l e e d so f t h r e s h o l dv a l u e ,u s i n gt h ed u a lg r a m m a t i c a lr u l e s ,e s t a b l i s hc o r r e l a t i o nd a t a b a s eb e t w e e n t w ow o r d sw i t hi nt h el i m i t e dc o n t e x tt od e t e r m i n et h es u b s i d i a r yw o r d s ( 3 )e s t a b l i s hac h i n e s ew o r dp u s m a r k e rc o l l e c t i o ni n c l u d i n g4 0s y m b o l s af o r mw o r d p o s - m a r k e rc o l l e c t i o ni n c l u d i n gl1s y m b o l se m p t yw o r d s , as t o pw o r dl i s t sc o n t a i n s6 4 9 w o r d sa n dac h i n e s ed i c t i o n a r yo fs y n o n y m sc o n t a l m3 1 ,6 2 1w o r d sw h i c ha r eu s e dt o h a n d l ec h i n e s et e x tp r o c e s s i n g f o rt h e r e s p e c t i v es u b - t e r m s ,p a r t - o f - s p e e c ht a g g i n g , c t o l ss u c ha sr e m o v e do f h i g h f r e q u e n c ys t o pw o r d sa n ds y n o n y m s 1 1 忙s y s t e mo f a u t o m a t c a l l ys c o r i n gs u b j e c t i v eq u e s t i o n sa b o u tt h ec o u r s eo f ”o p e r a t i n gs y s t e m ” h a sb e c ae s t a b l i s h e d t h ee x p e r i m e n ti nw h i c h1 0 3 6t e x tp a p e r ss c o r e db yt h es y s t e mo f a u t o m a t i c a l l ys c o r i n gc o n t r a s t i n g t h e s es c o r e dm a n u a l l ys h o w e dt h a tt h ec o r r e c tr a t eo ft h e f o r m e r o n ew a s8 5 2 4 t b ec o m p a r a t i v ee x p e r i m e n tw i t ht h es i m i l a rs y s t e mo f t h en a t i o n1 5k e y s c i e n t i f i ca n dt e c h n o l o g i c a lp r o j e c t sp r o v e dt h a tt h ee f f e c t i v e so ft h i ss y s t e mi se q u a lt ot h e c o n t r a s ts y s t e m k e y w o r d s :v s m f e a t u r ei t e m s ,w e i g h t ,l a n g u a g ef r a g m e n t ,s e m a n t i c ,s i m i l a r i t y e x a m i n a t i o n ,s c o r e 图表目录 图2 - 1 同义词表编码示意, 图2 - 2 同义词表编码举例 ,9 9 图3 - 1 用语片表示文本的结构1 3 图3 吨合理互信息阈值分布正确率2 0 图4 - 1 主观题自动批改系统第0 层数据流图2 4 图4 - 2 主观题自动批改系统最终数据流图2 4 图4 - 3 语义相似度计算核心模块数据流图2 7 图4 - 4 目录选择2 9 图4 - 5 系统运行中间2 9 图4 - 6 选择数据库文件。2 9 图 7 参数可调2 9 图4 - 8 相似度计算结果3 1 图4 - 9 系统参数可调3 2 图5 - 1 教师评分结果与系统评分结果的比较3 7 图5 - 2 对比输出结果比较3 9 表2 - 1 本文中文文本词性标注标记集6 表2 - 2 词语词性、词频登记列表( 局部) 7 表2 - 3 本文虚词标记符号集8 表3 - 1 三种文本表示方法的优、缺点比较i i 表3 - 2 语片与组块的区别1 5 表3 - 3 参与构建语片的词性标注符号 1 7 表3 - 4 语片组合语法规则。1 7 表3 - 5 词共现互信息矩阵( 局部) 1 9 表3 咱1 2 种互信息量阈值的合理词对正确率分布。2 0 表4 - 1 系统数据库文件一览r 2 5 表4 - 2 源程序函数及其说明3 2 表5 - 1 教师人工评分与系统自动评分结果比较3 6 表5 - 2 系统计算结果准确率分布3 7 v | 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我 所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成 果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同 志对本研究所傲的任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名:逸五日 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和 电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内 容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的 全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。 研究生签名:导师签名:塑垒竺塑日期: 。妒昕j : - 6 第一章引言 第一章引言 本章指出了本研究课题的背景情况和现实意义,介绍了国内外学者在该领域中的开展研究工作和现有 的一些研究成果。指出本文研究过程中的一些重点和难点,并对全文的结构作了综述。 1 1 课题背景 自然语言处理是计算机科学领域和人工智能科学的重要研究方向,同时也是人工智能中最为困难的问 题之一,自然语言处理可以分为自然语言理解和自然语言生成两大部分。文本分类技术的研究属于自然语 言理解的范畴,它的任务是:在给定的分类体系下根据文本内容自动确定文本关联的类别。从数学角度来 看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射, 也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联。现在研究较多的信息检索技术就是文 本分类的应用。文本分类研究中的一个核心问题是文本间相似度计算,它通过采用数学方法对多个文本进 行计算,求得它们的相似程度 考试制度是我国现行教育体制和各类评审选拔中的一个重要环节,通过考试,反映出考生对领域知识 的了解、理解和掌握程度。随着现代远程教育的普及,通过网络利用计算机进行考试的形式己被广泛采用。 对文字类考试,从命题的基本形态种类来分,可以分为客观题( 如填空题、选择题、判断题等) 和主观题 ( 如名词解释题、简答题、论述题、作文题等) 客观题有具体、严格的标准答案,评判起来较为刻板 考后的判分工作可以简单地用计算机程序比对考生答案和标准答案的异同程度来进行,由程序自动判定最 终得分。目前国内网络教育考试系统中以标准化试题居多,即使提供主观试题,其阅卷过程也是由教师在 计算机上手工完成。 文字类主观题判分过程中一个重要的环节是评判标准答案文本和考生答案文本间的语义相似程度。主 观题的评判不能采用计算机程序简单比对的方法,因为主观题反映了答题者对问题的主观理解,这种解答 带有一定的多样性、随意性、个性特征及感情色彩,这是通过简单的计算机程序比对方法无法识别和评判 的,所以这部分工作现在大多还是由人工完成。 有必要研究用机器进行主观题判分的方法,以节省教师的大量人力财力,提高远程教育的质量和灵活 度。此外,计算机自适应练习和考试是今后远程教育的一个重要研究方向,试卷自动批改评分是它的基础。 1 2 研究现状与已取得成果 资料显示,国外对主观题的计算机自动批改技术研究起步于2 0 世纪6 0 年代。许多专家、学者从那时起 开始研究基于任意文本答案的主观题的计算机自动批改技术。各种不同的自动批改系统作为研究成果陆续 出现,第一个系统是e l l i s p a g e 于1 9 6 6 年实现的p r o j e c t e s s a y g r a d e ( p e g ) 1 2 1 国外的研究与成果 ( 一) p r o j e c t e s s a y c n a d e ( p e g ) p e g 系统是一个文本写作质量的评价系统,它运用统计方法,通过分析文本长度,各类词性的词的数 量、词长的变化情况等文本特征,对文本写作风格进行考量和评价。p e g 系统没有深入分析文本的语法和 词汇语义 ( - - ) a t g n ts e m a n t i c a n a l y s i s ( l s a ) l s a 系统使用空间向量表示标准答案和用户答案,以词作为特征项,词频为特征项权值,用余弦法计 算它们的相似度。该系统在文本长度过短时,会因数据稀疏而导致结果不正确。 ( 三) e d u c a t i o n a lt e s t i n gs e r v i c e ( e t s ) e t s 是美国教育考试中心的j i l lb u r s t e i n 等人开发的基于任意文本的短答案自动评价系统,主要用于对 由单句或几个单词组成的短文本答案的评价。系统使用了通过对答案实例进行训练而得到的一个受限领 域、基于概念的词典和一系列概念语法模版,称为词拒语义技术。系统实现时需要大量预处理和人工干预, 东南大学硕士学位论文 评价的结果是“优秀”或“差”之类的等级,而不是具体的分值,有一定的使用局限性。 ( 四) e - r a t e r e - r a t e r 同样是f h j i l lb u r s t e i n 的研究小组开发的,用于美国g m a t 考试中在线测试学生英语写作能力。 系统使用了自然语言处理和统计方法。它通过对文本进行分词、标注词性,句法树解析等过程获得文本句 法多样性信息,从而评价文本的写作风格、修辞技巧等。对文本进行评分。系统没有标准答案,也没有“对” 与“错”的依据。对于那些需要判断答案的内容是否正确并给出具体分数的自动评分类问题,它就无法胜 任了。 ( 五) a u t o m a t e d r e x t m a k e r ( a t m ) a t m 是用于那些答案明确且简短的题目类型的自动评分方法,它将标准答案和用户答案都分解成“可 独立存在”的单元,分析每种答案单元间的依赖关系,将两种答案单元间依赖关系进行匹配,根据匹配结 果进行评分。系统需要有较强的语法和语义分析能力,这增加了系统实现的难度。 ( 六) a u t o m a k e r a u t o m a k e r 是针对开放式问题的任意文本答案自动评分系统。系统将用户答案看作待挖掘的文本,认 为问题的自动批改就是信息获取。对系统而言,每个问题是一个不同的领域,从文本中找出与领域相关的 概念就是该问题的正确答案。该系统在进行句子解析时,对正确性要求较高,否则模式匹配结果会出错。 ( 七) 其它 此外,国外还有大量的研究集中在文本分类研究的应用上,主要是文献检索中文本相似度的计算应用。 广泛使用的i n t c r n e t 全文查询和检索软件g o p h e r 就是文献检索研究的应用,它基于对关键词的匹配和打 分,可以从i n t e m e ti - 找到使用者所关心的各种文献。并且使用者可以对检索出的文献是否感兴趣进行打分, 该软件自动调整下次检索的关键词,经过几次交互后软件所提供的服务会越来越个性化。 虽然都是文本分类研究的应用,但是文本语义相似度计算不完全等同于信息检索。信息检索的目的是 要找出和所关心主题相关的所有文献,要求查全率高,其计算结果是目标文献列表:而文本相似度计算则 是要求定量计算出两个文本在表达语义上的相似程度,要取得好的计算结果,就必须对它进行专门研究。 1 2 2 国内的研究与成果 国内针对文本主观题自动评分的研究工作刚进行不久,与之相关的文献和系统也不多见。 ( 一) 计算机操作考试中文字录入题的评分系统 文献 8 开发了一个计算机操作考试中文字录入题的评分系统,该系统用字符串匹配的方法评判学 生录入文字的多少和误录、漏录情况。 ( 二) c 语言程序设计填空题的自动评分 文献 9 研究了计算机水平考试中c 语言程序设计填空题的自动评分。系统采用类似编译方法的技 术将标准答案和用户答案进行词法和语法分析。将它们分解成标识符,常量和运算符,得到整体语义,进 行语义等价类划分,将处理后的用户答案与等价答案进行匹配。该系统初步实现了填空题的自动评分,但 其评分对象是用程序设计语言书写的经过严格语法规整的语句或表达式,因此该方法不适合自然语言主观 题的自动评分 ( 三) 受限领域内文字简答题的自动评分 文献 1 0 研究了受限领域内文字简答题的自动评分,提出一种基于关系的带权匹配自动评分技术。 他们对概念的表述方式和常用句式进行了较为细致的分析,归纳出三种句式,进而把句子中各词之间的关 系分为六种,然后根据词在表达语句意义时的轻重程度并结合上述关系确定它们的权值,权值总和即为该 题的满分。系统工作时,首先对论述语句进行分词,并确定它所用的表达句式属于三类中哪一类,然后分 析句中各部分是否具有正确逻辑关系,并计算句式中各核心成分、强化修饰成分、否定修饰成分、转义修 饰成分等的权值,最后对照正确论述语句的权值完成判读过程。该系统在一定程度上模拟了老师阅卷过程, 对计算机自动批改列举题、简述题、简答题等主观题有一定的借鉴意义。 ( 四) 南京大学袁春风等作业与考试工具管理工具系统 文献 7 介绍了南京大学袁春风等研究的作业与考试工具管理工具系统。该系统的子课题自 动批改技术研究了两个方面的应用:文本的相似度计算和算式的等价性判断。 2 第一章引言 文本的相似度计算方面提出了基于领域概念网络计算文本相关和相似度的方法,主要工作包括:基于 词典的分词消歧、句法解析、基于领域概念网络的文本相似度计算,实现了基于计算机组成原理课程 的纯文字类短答案的主观题自动批改示例系统。 算式等价性判断研究了用数学规则对算式进行匹配、化简、归一处理,进而计算等价性的方法,主要 工作是基于m a t h m l 内容对算式描述进行编码解析,实现了基于部分初等代数公式的示例系统。 作业与考试工具管理工具系统的文本相似度计算模块首先建立包含特定领域的概念语义信息的知 识库,保存在类关系数据库形式的文件中,用于描述概念的语义信息以及概念之间的相互关系,称为概念 网络( c o n c e p tn e t w o r k ) 。在建立了概念网络的基础上,系统结合句子经过解析得到的树状结构和句子中包含 的特定领域的概念对句子之间的相似度进行计算,计算分为语法层次的相似度计算和语义层次的相似度计 算。语法层次的相似度计算用七个函数对树状结构的句子进行解析,提取句中的领域概念作相似度计算; 语义层次的相似度计算结合了以上解析函数得到的复句层次、单句层次和短语层次的语法信息,并且在概 念网络的支撑下对概念之间的语义信息进行度量。 自然语言的多样性和复杂性会导致不正确的分词和句法分析结果,影响批改效果,因而系统提供了人 工干预的接口,以弥补该缺陷。因为系统缺乏非专业概念间的度量处理,所以系统仅适合于事实类主观试 题的批改。此外,数学规则库和网络概念知识库的完备性对批改效果有很大影响。 1 3 本文主要工作、难点和预期成果 词语相似度研究的是词语之间语义相似度的衡量机制。词语的语义具有相对随意性、可变性和不确定 性。词语相似度是一个主观性相当强的概念,受不同语境的影响极大,词语之间的关系非常复杂,其相似 或差异之处很难用一个简单的数值进行度量。文本相似度与词语相似度有很大不同。文本是一系列词语的 集合,通过这些词语的组合构成了一个具体的语义环境,它的状态是确定的,语义是明确的,研究的难点 是如何使机器“理解”文本的语义。 本文探讨了受限语境下中文文本的语义相似度计算方法,笔者在文中提出中文文本的语片特征项概念 及提取方法,并将其用于文本的语义相似度计算,实现了相应的阅卷判分系统,用于检验该方法的效用。 在笔者设计的语义相似度计算方法中,提出几个前提假设: ( 1 ) 将文本的语境限制在现代汉语中信息技术领域,特别地。由于笔者设计的应用系统是计算 操 作系统课程主观类考试题中标准答案和用户答案间的语义相似度。因此语境进一步限制在操作系统 专业领域文字范围内。 ( 2 ) 语法在语言深层次支持着语言的表层表述,在计算过程中如果能结合对句子进行语法分析,一 定能收到很好的效果。但现有的语法分析方法大都是基础规则描述的,带有一定的经验性和不完整性,所 以不对用户答案文本的语法结构正确性进行分析,即使用户答案中有一些语法错误,只要能表达出逻辑概 念,仍给出相应的语义相似度值。这样一方面可以避免进行复杂的句法分析,另一方面可以增强系统的容 错性和健壮性。 计算机自动阅卷判分系统的开发需要解决中文文本分词及词性标注、文本语义的形式化表示、建立文 本语义知识库、文本问语义相似度计算和未登录词的语义识别等问题,这些环节无论哪一项单独列出来都 是自然语言理解中的难点。本文无法逐一对以上工作进行详细的研究,因为这在时间和精力上都是不允许 的,本文的研究重点放在文本语义的形式化表示、建立文本语义知识库、文本间语义相似度计算上,在系 统开发中其它的工作就借鉴和使用了现有的研究成果。 系统设计开发分为如下几个部分: ( 1 ) 基于词典对文本进行分词、词性和词频标注; ( 2 ) 定义并提取文本的语片; ( 3 ) 用语片对文本语义进行形式化表示; ( 4 ) 语义相似度计算; ( 5 ) 系统集成、测试与验证。 本文的研究方法用于指导 课程客观类文字题自动判分系统的开发工作,并通过精心设 计澳4 试用例,实际运行该系统,对运行结果进行分析与比较。验证研究方法的有效性。 东南大学硕士学位论文 1 4 全文的组织 全文的主要内容共分六章: 第一章是引言,介绍本项研究课题提出的背景,对国内外现有研究工作及成果进行综述,指出他们的 不足之处,最后对笔者的研究工作进行概述。 第二章介绍中文词汇处理。中文词汇处理是所有中文信息处理研究工作的基础,主要包括分词、词性 标注与排歧、高频虚词处理、停用词、同义词和近义词等内容。国内外学者对上述工作进行了较为充分的 研究,取得了较多的成果。本章介绍了中国科学院计算技术研究所的汉语词法分析系统i c t c l a s ,定义 了本文研究工作中使用的分词工具软件、词性标注集、高频虚词集、停用词表和同义词表。 第三章是本文创新工作的体现,提出了一种新的文本语义表示方法话片方法,应用于v s m 文本 表示法中的特征项表示。简单介绍了中文文本语义形式化表示方法,对当前较常用的三种表示方法:布尔 模型、概率模型和向量空间模型分别进行了讨论。并且列表比较了它们的优缺点,指出本文用向量空间模 型表示文本的原因。描述了语片的概念,分析了使用语片在理论上的可行性与技术上的必要性,列出语片 与组块这两个概念的异同点。提出先通过语法规则将文本中的目标词组成候选语片集,再通过计算互信息 量确定词语间的相关度,筛选出满足规定互信息阈值的语片。根据语片的出现频率确定特征项权值,通过 余弦夹角法计算文本间相似度。 第四章具体介绍了系统的设计和实现,重点是语义相似度计算模块的实现。通过一个例子说明系统运 行过程及最终结果。 第五章对本文方法的正确性进行验证,对开发的系统进行测试。通过与南京大学计算机科学与技术系 作业与考试工具自动批改技术研究结果进行比较和分析,验证研究方法的正确性。 第六章对本文目前的研究工作进行总结,提出今后进一步开展研究的设想。 4 第二章文本预处理 第二章文本预处理 中文词语分析是中文信息处理中非常重要的基础工作,在语句分析、词义消歧和信息抽取等方面有着 重要的作用,词语分析结果的质量将直接影响后续工作。中文文本进行语义相似度计算之前,需要对文本 进行的预处理主要就是词语分析,包括分词、标注词性、剔除高频虚词、剔除停用词、同义词归类和语义 排歧等。 2 1 分词 词是最小能够独立活动的有意义语言成分,是自然语言的基石,是语言更高层次自动分析的基础。英 文是以词为单位的,词和词之间是靠空格自然隔开,而中文是以字为基本单位,句子中所有的字连起来用 以表述一个意思。由字成词,再构成子句和句子,词与词之间没有显式的界限。把中文汉字序列切分成有 意义的词,就是中文分词,也称为切词。 2 1 1 常用的分词方法 现有的分词算法可分为三大类:基于字符率匹配的分词方法、基于理解的分词方法和基于统计的分词 方法。哪种分词算法的准确度更高,目前并无定论。对于任何成熟的、效果令人满意的分词系统来说,不 可能单独依靠某一种算法来实现,都需要综合不同的算法。 2 1 2 分词中的难题 在中文分词过程中,有两大难题需要解决:歧义识别和新词识别。 ( 一) 歧义识别 歧义是指一句话可能用两种或者更多的切分方法来表达不同的意思,分为交叉歧义、组合歧义和真歧 义三种。歧义识别的目的就是要通过较好地理解文本上下文语境,选择合适的词语切分方法。 ( 二) 新词识别 新词,又称未登录词,是指在字典中没有收录过,但又确实能称为词的那些词。最典型的是人名,人 可以很容易理解句子“王虎去北京了”中的“王虎”是一个词,因为它是特定的人名,但要是让计算机去 识别就困难了。新词中除了人名以外,还有机构名、地名、产品名,商标名、简称和省略语等,都是很难 处理的问题。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。 2 1 3 本文的方法 中文分词工作既重要又困难,目前国内外学者已经对该课题进行了较多地研究,中国科学院计算技术 研究所的汉语词法分析系统i c t c l a s ( i n s t i t u t eo f c o m p u t i n g t e c h n o l o g y , c h i n e s el e x i e a l a n a l y s i ss y s t e m ) 在其中是较成功的。该系统的功能有中文分词、词性标注和未登录词识别,分词正确率达9 7 以上,未登 录词识别召回率均高于9 0 ,其中中文人名的识别召回率接近9 8 。系统的处理速度较快,可达到 3 1 ,5 k b y t e s s 由于词语预处理工作不是本文的研究重点,鉴于中科院计算所在文本分词和词性标注方面强大的科研 能力和学术成果,本文的分词和词性标注工作就基于i c t c l a s 汉语词法分析系统。 本文将所研究的中文文本语境限制在操作系统专业领域语言环境内,其目的一是先从小范围的文 本环境开展研究,验证方法的有效性,再扩展开去;二是可以提高系统的正确度和效率。 在确定分词系统所用词典时,针对操作系统专业领域的语言特点,对i c t c l a s 原词库进行了筛 选。系统原词库是一个普适词库,针对特定语境的处理效果较为一般,本系统中对词库进行了增、删工作, 增加了一些操作系统领域的词汇,剔除原词库中一些用不到的词语。实验证明,经过改进后,该系统 运行结果能够满足本文的研究需要。 经过分词,文本变成离散的已标记词条集合,接下来对词集进行词性标注。 东南大学硕士学位论文 2 2 词性标注 本文中词语词性的标注基于i c t c l a s 系统所提供的词性标记符号集,共4 0 种标记符号在其基础上 进行了一些筛选,去除那些操作系统专业领域语言环境中对语义表述不起决定作用的词语所属的词性, 最终确定了表2 1 所示的词性标注符号集。 表2 - 1 中所示的词语词性标记覆盖了操作系统专业领域语言环境文本中实意词语的词性。 表2 1 本文中文文本词性标注符号纂 6 第二章文本预处理 2 3 分词、标注词性举例 下面通过一个例子说明系统进行分词和标注词性的过程和结果,文本分词后的结果保存在词性列表 中。 有如下文本: 因为c p u 访问c a c h e 的速度大于访问内存的速度,所以提高了处理速度。 经过分词和标注词性,成为: 因为pc p u n x 访问vc a c h e n x 的u 速度n 大于v 访问v n 内存n 的 u 速度n ,w 所u 以p 提高v 了u 处理v n 速度n 。w 表2 - 2 是系统在实际运行后对语料进行分词和标注词性的数据表的部分行内容。 表2 2 词语词性,词频登记列表( 局部) 表2 2 中,i n d e x 表示词语序号,每个词语的序号并不唯一;m 表示词语内容;词性标记表示该词语 的词性,用表2 1 中的标识符标示,有些词语会有多种词性;c 表示经过系统计算,词语在语料库中 出现的总次数。 2 4 过滤高频虚词 作为分词和词性标注工作的重要补充,在切分文本之后,处理语句中残留的大量虚词就成了完善切分 结果的重要步骤,也是提高系统正确性和效率的保证。 虚词通常是不能单独充当句法成分的词,它承担连接或附着各类实词的语法作用。虚词的意义比实词 “虚”得多,不易捉摸,对文本语义的准确表述不起决定作用。根据能同哪些实词或短语发生关系,以及 发生什么样的关系,可以把虚词分为副词、介词、连词、助词、叹词和拟声词六类。副词能修饰动词或形 容词,不能修饰名词;介词不能单独充当谓语,经常附着在名词、代词、动词前边组成介词结构,有些介 词可附着在动词后构成一个整体,相当于一个动词。 经过统计,在操作系统专业领域语言环境中常用的虚词有3 0 0 多个,并且这些词的出现频率相当 高,如果在分词后不对这些虚词进行处理。就会造成分词后句子中残留大量的无义字词。本文针对操作 系统专业领域语言环境的特点与习惯,经过对i c t c l a s 系统词性标记集进行筛选,确定表2 3 所示的 虚词标记符号集。 7 东南大学硕士学位论文 表2 - 3 虚词标记符号集 标记符号 名称 注释 连词 叹词 语素 拟声词 介词 时语索 时间词 助词 标点符号 语气词 状态词 取英语连词c o n j u n c t i o n 的第1 个字母。 取英语叹词e x c l a m a t i o n 的第1 个字母。 绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。 取英语拟声词o n o s a t o p o e i a 的第1 个字母。 取英语介词p r e p o s i t i o n a l 的第1 个字母。 时间词性语素。时间词代码为t ,在语素的代码g 前面置以t 。 取英语t i m e 的第1 个字母。 取英语助词a u x i l i a r y 取汉字“语”的声母。 取汉字“状”的声母的前一个字母。 2 5 剔除停用词 停用词是指在处理文本时需要忽略掉某些字或词,以提高系统运行的效率和质量,这些字或词即被称 为停用词( s t o pw o r d s ) 。停用词通常是一些出现频率很高,但实际意义不大的词,如常见的“的”、“在”, “是”、“而是”之类。在一定程度上,停用词与虚词有重叠,但它们的消除方法不同,虚词是通过指定词 性进行消除,对于停用词一般利用停用词列表( s t o p - l i s t ) 进行消除。 哈尔滨工业大学信息检索研究室( h t l p :i r h i t e d n c n ) 总结了一些常见的停用词,将其放入免费使用 的停用词表,作为开放语料资源,该资源是一个文本文档,包含了5 0 7 个词语和符号。本文在它的基础上, 根据操作系统专业领域语言环境实际情况,总结了6 4 9 个词语和符号。例如2 3 节例子中“的”,“了”, “以”和“所”等字词均为高频虚词或停用词。在后续处理中要将它们剔除掉。 2 6 合并同义词和近义词 2 6 1 概述 同义词和近义词处理是自然语言处理研究中一项关键性的工作,受到大量学者关注和重视。随着海量 信息的出现,同义词和近义词控制显得更加重要。 目前,在中文文本处理中对同义词有三类处理方法。 ( 一) 使用同义词表 使用同义词表解决文本中同义词和近义词的问题,其主要思想是将文本中出现的同义词和近义词都作 为同一个词处理,即将同义词都视为词表中的标准词。北京师范大学肖明设计的基于中国分类主题词表 的w w w 科技信息资源自动标引系统就是采用的该方法。这种方法的优点是简单、直观,利于计算机实现; 该方法的缺点是没有考虑到同义词之间的差别,只是简单的把同义和近义词作归一化和标准化处理。 ( 二) 将同义词和近义词分开考虑 将同义词和近义词分开考虑的方案对于同义词的处理与第一类方法大体相同,不过。它是以在文本中 出现率最高的词作为标准词;对于近义词则依靠语言学家得到的近义词之间的语义距离来处理。这种方法 是在第一种方法上的改进。在一定程度上解决了近义词关联度的问题;不足是没有考虑到同义词之间的差 异。此外,近义词的处理依赖于语言学家的经验,不便于计算机的处理。 ( 三) 用概念类( 或本体类) 代替词 这种方法主要是由语言学中的“概念同一”说引发而来的。较早提出概念标准的是前苏联的语言学家, 如布达格夫认为“各种不同的同义词是以不同的方式表达了概念的细微差别”。这一理论被国内不少语言 学家所接受,于是开始了汉语概念类的研究,也产生了一些有用的成果,如董振东的知网、梅家驹的 同义词词林等。近几年一些学者开始用概念空间来提取词语特征值,如中科院的“基于概念空间的文 8 c e g o p 喈t u y z 第二章文本顶处理 本检索系统”。但是,自然语言的真正魅力在于它具有灵活的表述形式,特别是同义词或近义词之间的微 妙关系更是难以固定的表示出来。 现在用得最多的技术是使用同义词表,在文本处理中使用同义词表可以有助于提高查全率,但不降低 查准率。 2 6 2 本文的方法 本文的同义词和近义词处理方法是使用同义词表,所用同义词表是在哈工大信息检索研究室提供的 同义词词林扩展版1 0 版的基础上,结合操作系统专业领域语言环境实际特点进行调整,删除一 些用不到的词汇并增加一些专有同义词获得的。 同义词词林扩展版共收词7 7 4 3 4 条,本文中对其进行改进,收词量变为31 6 2 1 条,按照树状的层 次结构把所有收录的词条组织到一起,把词汇分成大、中、小、词群和原子词群5 类。提供了三层编码, 即大类用大写英文字母表示,中类用小写英文字母表示,小类用二位十进制整数表示。例如“b 0 0 1 a 2 7 = 计算机电脑微处理机”,“b 0 0 1 ”是编码,“计算机电脑微处理机”是该类的标题。约定在词段末分别 用“= ”表示“相等”、“同义”;用“# ”代表“不等”、“同类”,属于相关词语;用“固”代表“自我封 闭”、。独立”,它在词典中既没有同义词,也没有相关词,同义词表的编码方式见图2 1 。本文中同义词识 别与归并使用了标记为“= ”的词段,将属于该词段的所有同义词用本词段第一个词语来替代。 编码位 l2345678 符号举例 dal5b02 = 符号性质大类 中类小类词群 原子词群 级别第1 级 第2 级 第3 级第4 级第5 级 编码的示例见图2 - 2 。 图2 1 同义词表编码示意 b 0 0 1 a 2 7 = 计算机电脑微处理机微电脑微机微型机微处理器处理器 d d 0 6 a 0 8 = 互联网计算机网 b a 0 i a 0 2 = 物质质素 b a 0 1 8 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论