(计算机应用技术专业论文)改进的中文分词算法在自动答疑系统中的应用研究.pdf_第1页
(计算机应用技术专业论文)改进的中文分词算法在自动答疑系统中的应用研究.pdf_第2页
(计算机应用技术专业论文)改进的中文分词算法在自动答疑系统中的应用研究.pdf_第3页
(计算机应用技术专业论文)改进的中文分词算法在自动答疑系统中的应用研究.pdf_第4页
(计算机应用技术专业论文)改进的中文分词算法在自动答疑系统中的应用研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机应用技术专业论文)改进的中文分词算法在自动答疑系统中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着i n t e m e t 及网络技术的发展,计算机技术得到了广泛应用。网上教学平台是 i n t e m e t 和网络应用的一个典型案例,而自动答疑系统是网上教学平台中一个不可缺少 的子系统,它能及时解答学生的疑难问题,消除学生的学习障碍。自动答疑系统的发展 依赖于多种技术的综合应用。其中,中文分词技术是自动答疑系统的一个关键环节,它 是自动答疑系统中的一项基本技术,毫不夸张地说,没有分词技术的自动答疑系统都不 具有智能性。 本文正是基于中文分词技术在自动答疑系统中的基础性地位进行研究的。首先,研 究自动答疑系统的背景及现状:然后,对中文分词技术进行简要概述;最后,分析自动 答疑系统中问题的特点,根据这些特点研究适合自动答疑系统的分词算法;在分词结果 的基础上再进行问题的性质研究。在学生提问后将学生提问的问题与知识库中的问题进 行匹配,将匹配度较高的知识库中的问题及答案反馈给学生,实现答疑系统的智能性。 通过对经典的分词算法进行分析比较,本文提出了一种改进的中文分词算法。它的 基本思想是:首先根据断句表,将汉语句子切分为短旬,然后在进行正向最大匹配分词 的同时保存匹配过程中字符串的匹配信息,通过字符串的匹配信息以及改进的逐词扫描 的方法来判断是否存在交集型歧义字段,最后进行消歧处理。改进的分词算法是把长词 优先原则和改进的逐词扫描法结合在一起,采用动态t r i e 索引树的词典机制进行分词, 利用统计方法消除分词过程中出现的歧义。改进的分词算法在继承最大匹配分词算法速 度快、效率高的同时,又利用了统计方法自动消除歧义的优点。 本文除了研究分词算法在自动答疑系统中的应用外,还给出了自动答疑系统的总体 设计模型及系统的模块设计,为系统的详细设计提供参考。 论文最后,给出了系统的分析总结,并就进一步完善和改进提出了意见。 关键词:中文自动分词;自动答疑系统:正向最大匹配;交集型歧义 大连交通大学工学硕士学位论文 a b s t r a c t w i mt h er a p i dd e v e l o p m e n to fi n t e r a c ta n dn e t w o r kt e c h n o l o g y ,c o m p u t e rt e c h n o l o g y h a db e e nu s e dw i d e l y o n l i n et e a c h i n gp l a t f o r mi sat y p i c a le x a m p l eo fi n t e r a c ta n dn e t w o r k a p p l i c a t i o n s a sa l li n d i s p e n s a b l es u b s y s t e mo fo n l i n et e a c h i n gp l a t f o r m ,a u t o m a t i ca n s w e r i n g s y s t e mc a na n s w e rs t u d e n t s d i f f i c u l tp r o b l e m sa n de l i m i n a t el e a r n i n gb a r r i e r si nt i m e n l e d e v e l o p m e n to fa u t o m a t i ca n s w e r i n gs y s t e mi sd e p e n d e do nt h ec o m p r e h e n s i v ea p p l i c a t i o no f o t h e rt e c h n o l o g i e s a m o n gt h e s et e c h n o l o g i e s ,c h i n e s ew o r ds e g m e n t a t i o nt e c h n o l o g yi sa k e yl i n ko fa u t o m a t i ca n s w e r i n gs y s t e m ,i ti sa ni m p o r t a n tt e c h n o l o g yi na u t o m a t i ca n s w e r i n g s y s t e m ,t h i st e c h n o l o g yw i l li m m e d i a t e l yr e l a t et ot h ei n t e l l e c t u a l i t yo fa u t o m a t i ca n s w e r i n g s y s t e m t 1 1 i sp a p e rm o s t l yr e s e a r c h e sc h i n e s ew o r ds e g m e n t a t i o nt e c h n o l o g y b e c a u s ei ti sa b a s a lp l a c ei na u t o m a t i ca n s w e r i n gs y s t e m f i r s t ,t h i sp a p e rw i l lr e s e a r c ht h eb a c k g r o u n da n d c u r r e n ts i t u a t i o no fa u t o m a t i ca n s w e r i n gs y s t e m ;a n dt h e n ,m a k eab r i e fo v e r v i e wo fc h i n e s e w o r ds e g m e n t a t i o nt e c h n o l o g y ;i nt h el a s t ,a n a l y z et h ec h a r a c t e r i s t i c so ft h eq u e s t i o n s , m e a n w h i l e ,r e s e a r c h t h e a d a p t i v e w o r ds e g m e n t a t i o n a l g o r i t h ma c c o r d i n g t ot h e c h a r a c t e r i s t i c s t l l i sp a p e rr e s e a r c h e st h ep r o p e r t i e so ft h ep r o b l e m sb a s e do nt h er e s u l t so f w o r ds e g m e n t a t i o n a f t e rs t u d e n t sq u e s t i o n , t h es y s t e mw i l la u t o m a t i c a l l ym a t c ht h e s i m i l i t u d ed e g r e e 晰t l lt h eq u e s t i o n si nk n o w l e d g eb a s e 。a n dt h e nr e t u r nt h eq u e s t i o n sa n d t h e i ra n s w e r sw h i c hh a v eh i g h e rs i m i l i t u d ed e g r e ei nk n o w l e d g ed a t a b a s et os t u d e n t si no r d e r t oa c h i e v et h ei n t e l l i g e n c eo fa n s w e r i n gs y s t e m t h i sp a p e rp r e s e n t sa ni m p r o v e dw o r ds e g m e n t a t i o na l g o r i t h mb ya n a l y z i n ga n d c o m p a r i n gt h ec l a s s i ca l g o r i t h m i t sb a s i ci d e ai s :f i r s to fa l l ,t h es e n t e n c ew i l lb ec u ti n t o c l a u s e sa c c o r d i n gt ot h ep u n c t u a t i o nt a b l e ,a n dt h e nt h ec l a u s e sw i l lb es e g m e n t e dw o r d s 州n l f m m m e a n w h i l e ,t h es t r i n gm a t c h i n gi n f o r m a t i o nw i l lb es a v e dd u r i n gt h em a t c h i n gp r o c e s s t oj u d g et h eo v e r l a p p e da m b i g u i t yf i e l d s ,a c c o r d i n gt ot h es t r i n gm a t c h i n gi n f o r m a t i o na n d t h ei m p r o v e dw o r db ys c a n n i n gm e t h o d i nt h ee n d ,t h ed i s a m b i g u a t i o np r o c e s sw i l lb ed e a l t w i t l l t h ei m p r o v e dw o r ds e g m e n t a t i o na l g o r i t h mi st h ec o m b i n a t i o no ft h ep r i n c i p l eo f l o n g e s tw o r df i r s ta n dt h ei m p r o v e dw o r db ys c a n n i n gm e t h o d ,a n du t i l i z e st h ed i c t i o n a r y m e c h a n i s mo fd y n a m i ct r i e m e a n w h i l e ,s t a t i s t i c a lm e t h o di sa l s ou s e dt oe l i m i n a t e a m b i g u i t y t h ei m p r o v e dw o r ds e g m e n t a t i o na l g o r i t h mi n h e r i t st h ec h a r a c t e r i s t i c so ff m m w h i c ha r ef a s ta n de f f i c i e n t ,a n dm a k e su s eo ft h et r a i to fs t a t i s t i c a lm e t h o dt oe l i m i n a t e a m b i g u i t y t h i sp a p e rs e a r c h e st h ea p p l i c a t i o no fw o r ds e g m e n t a t i o na l g o r i t h mi na u t o m a t i c a n s w e r i n gs y s t e m ,a n di na d d i t i o n , i tp r e s e n t st h eg e n e r a ld e s i g na n dt h em o d u l ed e s i g no f 摘要 a u t o m a t i ca n s w e r i n gs y s t e m ,t h i sw i l lb er e g a r d e d 嬲ar e f e r e n c ew h e nt h es y s t e mi sd e t a i l e d l y d e s i g n e d i nt h ee n d ,t h i sp a p e rp r e s e n t st h ea n a l y s i sa n ds u m m a r yo ft h es y s t e m ,a n dp u tf o r w a r d t h ev i e w st of u r t h e rp e r f e c t i o na n di m p r o v e m e n t k e y w o r d s :c h i n e s ew o r ds e g m e n t a t i o n ;a u t o m a t i ca n s w e r i n gs y s t e m ;f o r w a r d m a x i m u mm a t c h i n gm e t h o d ;o v e r l a p p e da m b i g u i t y i i i 大连交通大学学位论文版权使用授权书 本学位论文作者完全了解太整塞通太堂有关保护知识产权及保 留、使用学位论文的规定,即:研究生在校攻读学位期间论文工作的 知识产权单位属太蔓塞通太堂,本人保证毕业离校后,发表或使用 论文工作成果时署名单位仍然为太整交通太堂。学校有权保留并向 国家有关部门或机构送交论文的复印件及其电子文档,允许论文被查 阅和借阅。 本人授权太整塞通太堂可以将学位论文的全部或部分内容编入 中国科学技术信息研究所中国学位论文全文数据库等相关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 、 又。 ( 保密的学位论文在解密后应遵守此规定) 学位论文作者签名:她拜 导师签名: 日期:2 0 0 8 年1 0月2 5 日日期:2 0 0 8 年1 0 月2 5 日 学位论文作者毕业后去向: 工作单位: 通讯地址: 电子信箱: 电话: 邮编: 大连交通大学学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢及参考 文献的地方外,论文中不包含他人或集体已经发表或撰写过的研究成 果,也不包含为获得太蓬銮通太堂或其他教育机构的学位或证书而 使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在 论文中作了明确的说明并表示谢意。 本人完全意识到本声明的法律效力,申请学位论文与资料若有不 实之处,由本人承担一切相关责任。 学位论文作者签名:主攻虫矸 日期: 易莎年1 0 月巧日 绪论 绪论 一、课题研究学术背景及意义 随着网络技术及i n t e r n e t 的逐渐成熟,传统的教学方式已不能满足当前海量信息 的教学内容需求,为适应当今社会经济和科技发展对高素质创造型人才的需要,必须创 造一个在老师指导下的学生自主式学习环境。迅猛发展的现代教育技术提供了教学模式 改革所必须的技术支持手段,这种新的技术支持手段就是网络教学。从广义上讲,网络 教学n 1 是指将网络技术作为构成新型学习环境的有机因素,充分体现学习者的主体地位, 以探究学习作为主要学习方式的教学活动。与传统教育相比,网络教学具有开放性、灵 活性、交互性和分散性的特点,它打破了传统、封闭的教学模式,使学生可以在任何时 间、任何地点,学习任何优秀教师开设的课程。网络教学是支持新型教师指导下学生自 主式学习方式的有力工具,因此网络教学越来越受到重视。 答疑是教学活动过程中一个必不可少的环节,如何设计好答疑系统成为网络教学需 要解决的一个重要课题。从现有的答疑系统来看,国外由于在这方面的研究起步较早, 且由于西文语系的特点,使得国外研究出的答疑系统产品智能性相对较高,系统的查全 率和查准率都很高。而汉语由于其分词的复杂性和语义识别等方面的限制,国内对这方 面的研究相对较落后,能被广泛使用且深受好评的答疑系统也非常少见。 功能完善的自动答疑系统相对于传统的面对面答疑有很大的优势,主要体现在以下 三个方面: 1 学生可以突破时空的限制,通过自动答疑系统,及时地获取与问题有关的信息, 从而加深对相关知识的理解和把握,提高学习效率; 2 学生可以快速准确地找到需要的答案,减轻的教师工作量。由于很多问题具有 代表性,涉及课程的重点和难点,往往会不止一个学生提出来,教师只需要详 尽地解答一次并加入到问题解答库中,即可同时解决很多学生的疑惑; 3 学生在学习过程中遇到疑惑时,可以快速地进行答案搜索,提高学生学习的积 极性。 二、课题研究现状 1 9 9 3 年,世界上最早的答疑系统s t a r t 晗1 ( s y n t a c t i ca n a l y s i su s i n gr e v e r s i b l e t r a n s f o r m a t i o n ) 问世,它是m i t 人工智能实验室i n f o l a bg r o u p 的b o r i sk a t z 及其同事 合作开发的一个基于w e b 的答疑系统。 a n s w e r b u s 口1 是另外一个著名的答疑系统,它是基于搜索引擎的答疑系统,选择 g o o g l e ,y a h o o ,y a h o o n e w s ,a l t av i s t a 和w i s e n u t 作为搜索引擎,支持英语,德语,法 大连交通大学工学硕士学位论文 语,西班牙语,意大利语和葡萄牙语自然语言查询。 国外的自动答疑系统h 目旧口1 都是独立运行的系统,不包含于任何的教学平台。这类 系统在问题处理部件都增加了问题判断类型,以及增加了答案处理和解释部件,保证了 系统对问题的更准确理解和呈现答案的简明扼要。相对于国内现存的自动答疑系统,国 外系统在基于自然语言的提问方面做的比国内更加准确和人性化。 国内自动答疑系统8 删1 0 m 帅2 1 主要是通过人工答疑( 如:b b s 、在线答疑、电子邮件 等) 和基于数据库的自动答疑两种方式来实现。自动答疑系统是以一个强大的问题库作 为后台。学生提出一个问题,系统会自动在问题库中搜索相关的问题,学生可以在列出 的问题中寻找有没有合适的解答。如果找不到合适的答案学生可以把问题提交到数据库 让教师来回答。等教师回答好以后就会相应的加到以后的问题搜索里面,这样数据库的 内容就越来越多了,方便以后类似问题的提问了。 国内的自动答疑系统研究起步较晚,使得无论在答案的准确性还是实时性上来说都 比较差。相对于国外现存的自动答疑系统,国内的系统在基于自然语言的提问方面,其 准确性和人性化方面还有一定差距。总的来说,现有的远程教育平台中自动答疑系统的 不足表现在以下三个方面u 引: 1 系统的答疑手段过于单一。上述的各种答疑系统,或者使用搜索匹配的方式来 解答疑问,或者使用实时在线讨论的方式,没能将二者结合起来使用; 2 分词速度慢。每次要对问题进行大量的匹配计算;对专业问题,不能够有效地 分词; 3 答疑系统所给出的答案不够精确。 现有答疑系统的这些不足,极大地限制了网上教学平台的作用。没有一个优秀的答 疑系统,这样的教学平台无疑是不完整的。基于这一现状,作者提出了一种改进的分词 算法,并应用于自动答疑系统中,从而很好地解决了答疑的实时性和准确性,使得答疑 系统更趋于人性化。 三、课题研究的主要内容 本文通过对自然语言处理中的分词技术的研究,并将这些技术应用到自动答疑系统 中,主要进行了以下四方面的工作: 1 对现有的分词算法进行分析并对其进行适应性改进: 2 建立适应自动答疑系统的以专业词汇优先的中文分词词典; 3 对改进的算法进行测试,从理论和实际上证明改进算法的有效性,并进一步对 其性能优化; 4 设计并开发自动答疑系统,并将改进的中文分词算法应用到系统中。 2 第一章中文分词技术概述 第一章中文分词技术概述 词是自然语言中最小的有意义的构成单位。汉语文本是基于单字的文本,汉语的书 面表达方式以汉字作为最小单位,词与词之间没有明显的界限标志,因此,分词是汉语 文本分析处理中首先要解决的问题之一。本章将简要介绍中文分词中的主要问题,包括 中文分词技术原理、应用概况、分词规范、歧义的分类和识别、未登录词的识别等问题。 同时,还将介绍目前几种常见的分词方法:基于字符串的分词方法、基于理解的分词方 法、基于统计的分词方法等。 1 1 什么是中文分词 众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位, 字和词语间没有分隔符。例如,英文句子i 锄f ls t u d e n t ,用中文表述则为:“我是一个 学生 。计算机可以简单地通过空格知道s t u d e n t 是一个单词,但是很难清楚地区分出 “学 、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就 是中文分词,有些人也称为切词。例如“我是一个学生 ,分词后的结果是:“我是 一个学生。 1 2 中文分词技术应用 作为中文信息处理的核心和汉语自然语言理解的基础,中文自动分词技术有着广泛 的应用前景。主要应用领域如下1 1 4 j : 1 信息检索:互联网上的信息正在急剧膨胀,在这海量的信息中,各类信息混杂 在一起,要想充分利用这些信息资源就要对它们进行整理,如果由人来做这项 工作,已经是不可能的,而如果面对中文信息不采用分词技术,那么整理的结 果就过于粗糙,而导致资源的不可用,例如:“制造业和服务业是两个不同的 行业 和“我们出口日本的和服比去年有所增长 中都有“和服,而被当作 同一类来处理,结果是检索“和服 的相关信息,会将他们都检索到,在信息 量少的情况下,似乎还能够忍受,如果是海量信息,这样的结果就会令人讨厌 了。通过引入分词技术,就可以使机器对海量信息的整理更准确更合理,在“制 造业和服务业是两个不同的行业 中“和服 不会被当作一个词来处理,那么 检索“和服 当然不会将它检索到,使得检索结果更准确,效率也会大幅度的 提高。 3 大连交通大学工学硕士学位论文 2 机器翻译:当我们需要把中文翻译为外文时,必须先进行正确的中文分词,将 词确定下来是理解自然语言的第一步,只有跨越了这一步,中文才能最优地进 行翻译,否则分词有错,就更别谈以后的翻译了。基于理解的翻译是机器翻译 的发展方向。自动分词技术的研究是其至关重要的研究部分。 3 文本自动校对:分词是文本校对中的一个基本模块,校对系统运用分词模块对 文本进行分词,运用词语之间搭配的合理性来识别可能的错误。如一些习惯性 错误用法,多字,漏字,同音字错误都可以通过分词检查到。 4 简体繁体自动转换:简体繁体之间的转换,在单字一级,会有一个简体汉字 对应多个繁体汉字的情况,如:“发 对应繁体的“裴 和“鬟 。那么,简 体繁体转换应该将“发”转为“袋”还是“爱 ? 这就引入了如何解决简繁 歧义的问题。此外,简体中文和繁体中文在一些技术术语的运用上也有不同。 简体繁体转换系统也需要解决这种术语的不同用法问题。我们的简体繁体转 换系统运用分词模块切分词语,根据词语以及上下文来决定最可能的转换结果。 5 汉字的拼音一一字转换:w o r d 中提供了对于文本自动标音的功能,汉语存在一 字多音的问题,如何决定多音字的正确拼音,我们仍然利用分词系统作为基础 模块,根据上下文来判别其正确的拼音。 另外,在汉字的印刷体或手写体的识别、汉语文章的自动朗读( 即语音合成) 等等 都有广泛应用,可见中文分词对我们来说意义重大,可以说直接影响到使用中文的每一 个人的方方面面。 1 3 中文分词技术现状 中文自动分词研究最早可追溯到2 0 世纪5 0 年代后期的俄汉翻译机的研制时期。大 约在1 9 6 0 年左右,苏联学者首先提出了“6 5 4 3 2 1 ”的分词方法。这种方法中的 匹配思想成为后来许多分词方法的基础。目前中文自动分词方法至少有十几种,其中最 常见的有:正向最大匹配法、反向最大匹配法、双向最大匹配法、设立切分标志法、最 佳匹配法以及机械分词加歧义校正法和知识分词方法等等。这些方法虽然名称各异,分 词速度也不尽相同,但从本质上可将它们归为两类:一类是基于词典的机械分词方法; 一类是基于规则的分词方法。 目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离, 许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词 是其他中文信息处理的基础,搜索引擎则是中文分词的一个重要应用。其他的比如机器 翻译( m t ) 、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因 4 第章中文分词技术概述 为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计 算机处理技术要想进入中国市场,首先也是要解决中文分词问题。与外国人相比,在中 文研究方面中国人有十分明显的优势。 1 4 常见的中文分词方法 现有的分词算法可分为三大类【l5 j :基于字符串匹配的分词方法、基于理解的分词方 法和基于统计的分词方法。 ( 1 ) 基于字符串的分词方法 基于字符串匹配的分词方法又叫做机械分词方法,它是按照一定的策略将待分析的 汉字串与一个“充分大的 机器词典中的词条进行匹配,若在词典中找到某个字符串, 则匹配成功( 识别出一个词) 。按照扫描方向的不同,串匹配分词方法可以分为正向匹 配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大( 最长) 匹配和最小( 最 短) 匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相 结合的一体化方法。常用的几种机械分词方法【1 6 】有:正向最大匹配、逆向最大匹配和最 少切分法。 还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配 方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹 配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也 较少。统计结果旧表明,单纯使用正向最大匹配的错误率为1 1 6 9 ,单纯使用逆向最大 匹配的错误率1 2 4 5 。但这种精度还远远不能满足实际的需要。实际使用的分词系统, 都是把机械分词作为一种粗分手段,还需通过利用各种其它的语言信息来进一步提高切 分的准确率。 ( 2 ) 基于理解的分词方法 基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。通 常的分析系统,都力图在分词阶段消除所有歧义切分现象。而有些系统则在后续过程中 来处理歧义切分问题,其分词过程只是整个语言理解过程的- d , 部分。其基本思想就是 在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常 包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词 子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了 人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知 识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此,目前基 于理解的分词系统还处在试验阶段。 5 大连交通大学工学硕士学位论文 ( 3 ) 基于统计的分词方法 基于统计的分词方法从形式上看,词是稳定的字的组合,因此在上下文中,相邻的 字同时出现的次数越多,就越有可能构成一个词。因此,字与字相邻共现的频率或概率 能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统 计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字x 、y 的相邻共现概 率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便 可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要 切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性, 会经常抽出一些共现频度高,但并不是词的常用字组,例如“这一 、“之一”、“有 的 、“我的 、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用 的统计分词系统都要使用一部基本的分词词典( 常用词词典) 进行串匹配分词,同时使 用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速 度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。 1 5 中文分词技术难点 一、分词规范 在大多数表音文字中,词是由传统确定的,一般来说不存在分词规范问题。汉语的 书写则以汉字为单位,是一种缺少严格意义的形态变化的表意文字语言,没有明显的形 态界限可以作为分词标志,因而汉语存在特有的分词问题。由于汉语分词存在许多理论 和技术问题,语言学界虽经数十年的努力,但至今尚未制订出一套认识一致的系统、完 整和可行的分词标准。而语言处理技术的发展对分词标准的需求越来越迫切。制订“信 息处理用现代汉语分词规范 的目的就是要克服存在的种种理论和技术困难,为汉语信 息处理提出一整套通用、实用、科学及系统的分词规则。它将对汉语信息处理的规范化, 对各种汉语信息处理系统之间的兼容性起到重要作用,进而还有可能对汉语语言的规范 化起到促进作用i l 引。 词是自然语言的一种客观存在。不管人们是否研究词,是否对词进行分类,它总是 存在于语言之中。词是各民族的人民在长期使用中约定俗成的,不是由专家确定的。拼 音文字由于书写过程必须分词连写。以空格为分词标记,故对词的认识是一致的。汉语 则不同,虽然词客观存在于汉语中,每个人都在使用词,但是书写过程中并不分词连写, 于是对词组和词、单字语素和单字词的划分因人而异,甚至因时而异。汉语信息计算机 处理现在需要制订统一的分词标准1 1 9 1 。 6 第一章中文分词技术概述 信息处理用现代汉语分词规范及自动分词方法f 1 9 】一书中所介绍的词应具有结 合紧密、实用频繁的特点。下面是具体的分词标准实例。 1 结合紧密、使用稳定的二字或三字词,例如: 衣服、漂亮、钞票、研究生、计算机、天安门。 2 四字成语一律为分词单位。例如: 掩耳盗铃、衣锦还乡、方针政策。 四字词或结合紧密,使用稳定的四字词组,如 社会主义、春夏秋冬、官僚主义。 3 五字和五字以上的谚语、格言等,分开后如不违背原有组合的意义,应予以切 分,例如: 时间就是生命 失败为成功之母。 4 结合紧密,使用稳定的词组则不予切分,例如: 不管三七二十一。 5 惯用语和有转义的词或词组,在转义的语言环境下,一律为分词单位,例如: 妇女能项半边天 他真小气,像个铁公鸡。 6 略语一律为分词单位,例如: 奥运会、工农业、科技。 7 分词单位加形成儿化音的“儿一,例如: 玩儿、花儿、偷偷儿。 8 阿拉伯数字等,仍保留原有形式,例如: 1 2 34 5 67 8 9 。 9 现代汉语中其他语言的汉字音译外来词,不予切分,例如: 肯德基、吉他。 1 0 不同的语言环境中的同词异构现象,按照具体语言环境的语义进行切分,例如: 把手拿开 把手坏了。 二、分词算法困难 中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中, 还将面临以下困难: 大连交通大学工学硕士学位论文 1 如何识别未登录词。由于不存在绝对完备的词典,虽然一般的词典都能覆盖大 多数的词语,但有相当一部分的词语不可能穷尽地收入系统词典中,这些词语 称为未登录词或新词。 2 如何廉价高效地获取分词规则是中文分词算法中不可忽略的问题之一。一方面, 目前还没有一个可以利用的大规模的汉语分词语料,而人工加工大规模的分词 语料是耗费很大的工作;另一方面,任一汉字对之间都可能是一个词语边界, 而且分词直接面对的是词,参数空间巨大,目前还没有适用于分词的完全有效 的无指导参数学习方法。近来一些学者试图采用近似的方法来解决知识获取难 题。s p r o a t 2 0 】于1 9 9 6 年提出一种利用串频近似地逼近词频的方法,但该方法易 产生短词较多的切分结果。n a g a t a l 2 1 1 于1 9 9 7 年提出了一种基于最大匹配串频的 改进方法,该方法采用最长匹配的串频近似估计相应的词频,虽然能避免分词 结果中短词的大量出现,但该方法容易产生数据稀疏。此外,孙茂松等【2 2 j 还提 出一种基于汉字互信息的无字典分词方法。 3 歧义字段的切分。歧义字段在中文文本中是普遍存在的,歧义切分是自动分词 中不可避免的现象,是自动分词中一个比较棘手的问题。 4 实时性问题。大多数分词算法只注重分词的准确率,而忽视了分词速度。有些 应用系统,如机助翻译系统,对实时性能要求较高,要求分析算法对输入句子 能做出迅速准确的处理。而对于给定的输入句子,其可能的切分词串数量与句 子长度成指数关系。现已证吲埽】,最坏情况下的穷举搜索算法实际并不可行。 贪心算法虽然能避免组合爆炸,但不能保证输出结果最佳。可见,分词算法的 效率在实时性应用系统中的地位非常重要。 1 6 分词中歧义处理和未登录词识别 一、分词算法中的歧义分类 歧义切分现象是自动分词中不可避免的现象,是自动分词中一个比较棘手的问题。 对歧义切分字段的处理能力,严重影响到汉语自动分词系统的分词精度。实践表明,只 用机械匹配进行分词,其精度最高不超过i 10 0 i i5 0 t 2 3 1 。 歧义切分字段从构成形式上主要分为两类:交集型歧义字段和组合型歧义字段,其 定义如下 t s l : 定义交集型歧义和组合型歧义:设有一汉字串c = c i c 2 伽,如果c 构成词,且存 在整数i i ,i 2 ,i m , j l ,j 2 ,j m ( m 2 ) ,满足: 砌= c i 劬,w 2 = d2 e j 2 ,= “跏分别构成词; 8 第一章中文分词技术概述 l = i l i i 2 2 i 3 一,3 厶一1 一i 如 = t ; 则c 为组合型歧义字段;如果c 不构成词,且存在整数i l ,i 2 ,i m ,j l ,j 2 ,j m ( m 2 ) , 满足: w i = “o ,w 2 = d z 0 2 ,= “跏分别构成词,且c 中不存在包含w i , w 2 ,的词: l = i l i 2 j i 2 ,i 2 i 3 j 2 j 3 ,厶一i 厶 一i = 刀; 则c 为交集型歧义字段。 例如,句子“我心里很难过 和“这条河很难过刀的“难过 是一个组合型歧义字段,句子“我对他有意见 和“导师有意见他 中,字串“有意见 则存在交集型歧义。 据统计,汉语真实文本中,歧义切分现象的出现概率约为1 1 1 0 ,即平均l1 0 个汉 字中出现一次歧义切分。其中,交集型歧义切分现象占8 6 ,因此,这种歧义切分应该 作为重点来加以处理。 目前,歧义识别的方法大致有以下三种l :基于规则的方法、基于统计的方法以及 基于句法一语法分析的方法。因为词的划分不是绝对的,应该在整个句法的框架内识别 区分,所以从分词的结果上看,歧义切分字段还可以分为:具有确定分法的歧义切分字 段和具有不确定分法的歧义切分字段。 这里说的确定与不确定,是对要进行分词的特定短句来说的。例如:在句子“他的 要求不合理”中的交集字段“不合理”,只能唯一地切分成“不合理 。再如“把手 举起来 中组合歧义字段“把手”只能切分成“把手 。因而,在这个短句中它们都 具有固定的切分形式,属于第一类情况。又如“学生会讨论这个问题 中的歧义的字段 “学生会 ,既可以切分成“学生会 ,又可以切分成“学生会一。这两种切分方 法在语法上、语义上在此短句上都是正确的,仅根据此短句不能确定哪种分词形式是正 确的,因而它属于第二类歧义切分字段。 第二类的其他歧义字段的例子有很多:“才能出众 ,“研究所有数据 等等。从 这类例子中不难发现,它们本身就是汉语中歧义问题,解决这类歧义必须依据上下文语 义信息。对歧义组合切分字段进行分类的目的是把由于计算机分词所产生的歧义现象和 自然语言本身所固有的歧义区分开来,使我们能够排除干扰,更好地处理计算机分词所 产生的歧义现象。 要在自动分词阶段解决第二类歧义切分字段,就必须增加对上下文语义信息的处 理,即增加语义理解处理。这无疑对自动分词的效率有很大的影响( 时间上和空间上) , 但目前无法实现。若是在自动分词以后的处理阶段,则会起到事半功倍的效果。统计表 9 大连交通大学工学硕士学位论文 明,第二类歧义字段只占整个歧义字段总数的1 3 0 以下,因此不必在分词阶段花费巨大 的开销处理它们。 二、分词算法中的歧义抽取和消歧 对歧义的识别分为两种,一种是对交集型歧义的抽取,一种是对组合型歧义的抽取。 目前常用的交集型歧义字段抽取技术有以下两种: 1 双向扫描切分法【2 5 j :对同一字段分别采用正向匹配和逆向匹配方法切分,两种 方法所得结果不同者,则认为是歧义字段。该方法有检测盲点【2 6 1 ,同时需要附 加的反向词典索引机制以获取反向匹配结果,以及反向匹配的附加时间开销。 2 全切分发现算法l z 7 】:找出输入字串的所有可能的子串,然后利用某种评价方法 从所有这些可能的子串中选出最佳子串序列作为分词结果。全切分算法穷举所 有切分可能,虽然没有切分盲点但不可避免地导致大量的切分垃圾,这给下一 步处理带来更大的消歧负担,以及成倍的时空开销。同时,由于缺少足够的标 准切分语料进行训练,导致数据稀疏问题,不能获取可靠的启发信息( n - g r a m ) , 反而会导致分词性能的降低。 组合型歧义字段的识别主要以分词词典为依据,即对任意字段a b ,如果a b 、a 、 b 都是词,则a b 为组合型歧义字段。而在真实语料中仅有少数多字词可能存在组合型 歧义,需要确定“分、“合”。在从4 0 万汉字熟语料中抽取的1 3 ,1 4 8 个二字词总 数的1 0 :这些组合型歧义在语料中共出现2 ,2 9 2 次,占二字词总出现次数的6 3 4 , 而其中出现次数最多的前2 7 个就占去总出现次数的6 3 4 ,前5 9 个则占了8 5 1 嘣2 引。 交集型歧义字段的消除主要有以下四种: 1 基于规则的方法【2 9 】:该方法利用从词典里面切分出的词和其词性标注,再通过 搜索规则库,找到符合句法规则的切分结果来消除歧义字段。 2 基于统计的方法【2 9 】【3 0 】:主要采用最大概率法加v i t e r b i 算法( 或动态规划方法) , 该方法也是通过匹配词典,并切分出所有的词。再通过这此词的词频信息利用 一阶马尔科夫模型( m a r k o vm o d e l ) 来计算出所有切分结果的概率。并通过v i t e r b i 算法或动态规划方法来求得概率最大的切分结果。 3 基于实例的方法【3 l 】:利用多种知识实现歧义消除,这些知识包括上下文中词的 词性、同现词、句法关系、词的搭配等。基于实例的方法先从训练语料库中学 习知识,其核心是利用两个实例的特征值计算两个例子间的相似度,选择与歧 义实例最相似的训练实例作为消歧结果。 4 基于词典的方法1 3 i 】:自然语言理解离不开机器词典,歧义消除需通过查机器词 典来获得大量的消歧知识。理想的机器词典可提供详尽的语言学知识,如词法、 l o 第一章中文分词技术概述 句法、语义、语用等,甚至还包括必要的常识。机器词典的各种信息一般采用 各种形式的复杂特征集表示,由于采用了形式化表示方法,避免了自然语言释 义的模糊性,信息采用统一的框架进行描述,具有较好的一致性,但由于大规 模的机器词典的建造是一个知识密集型的计算机语言学基础工程,需要计算机、 语言学、心理学等多学科研究者的组织与协调,且需要大量的资金和人力投入, 。难于取得理想的效果。构建出知识覆盖面广、组织结构优化且便于知识抽取的 机器词典是该方法成功的关键。 组合型歧义字段的处理策略主要有以下四种: 1 在切分和标注一体化的概率模型中进行组合型歧义的消歧【3 2 】:枚举部分常见的 组合型歧义字段,在对文本进行向前最大匹配法初步切分后,用标记位法发现 组合型歧义,由此得到不同的切分路径。然后对每一条切分路径,用词性标记 模型计算得到具有最大概率的词性标记串;然后根据得到的词性标记串计算每 一条切分路径的概率;最后选择所有切分路径中概率最大的路径。这种算法在 计算路径概率时切分次数少的路径占优,因而结果往往会采取合的形式。 2 统计和规则相结合的方法田j :对一些通常只有一种切分方式,只在个别情况下 发生变化的字段采用基于统计信息的切分策略。这种统计方法等同于选择概率 最大的切分形式,小概率的切分形式将会被忽略。对于其它字段,利用组合型 歧义字段与其前后相邻词语的词性有关的特性,采用基于词语词性规则的切分 策略。但是通过人下编写切分规则进行消歧,不仅费事费力,而且很难覆盖所 有的语言现象。 3 。基于向量空间模型的统计方法 3 3 1 :针对组合型歧义字段的切分依赖于其上下文 的句法和语义信息这一特点,提出就问题本身的性质而言,组合型歧义切分字 段的排歧问题是一个与w s d ( w o r ds e n s ed i s a m b i g u a t i o n ) 几乎等价的问题。遵循 这一思路,以w s d 中广泛使用的向量空间法为基本模型。该方法将组合歧义消 歧问题与w s d 问题相提并论,抓住了组合歧义问题的实质,不过采用向量空间 法为基本模型,只考虑特征词的信息,不可避免的会出现数据稀疏问题,为此 不得不采用一些补救手段( 如降维,利用 同义词词林,将频度低的行以语 义码代替,然后将相同的代码合并) ,增加了复杂度和计算量。 4 利用近距离信息进行消歧一一决策表算法阴】:选择种能充分利用近距离信息 进行消歧的算法和计算量。该算法认为:歧义字段在特定的上下文中是非歧义 的,歧义字段的各搭配词( 包括标点符号) 往往为该歧义字段词性和词义的确定 提供有力

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论