(计算机应用技术专业论文)规则和统计相结合的分词算法.pdf_第1页
(计算机应用技术专业论文)规则和统计相结合的分词算法.pdf_第2页
(计算机应用技术专业论文)规则和统计相结合的分词算法.pdf_第3页
(计算机应用技术专业论文)规则和统计相结合的分词算法.pdf_第4页
(计算机应用技术专业论文)规则和统计相结合的分词算法.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机应用技术专业论文)规则和统计相结合的分词算法.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

太原理工大学硕士研究生学位论文 规贝1 l g l 统计相结合的分词算法 摘要 我们已经进入一个信息革命的新时代,这个信息时代的显著特点是计 算机在人类生活的各个方面,起着越来越大的作用。自然语言是人们最重 要的交际工具,它与信息处理有着十分密切的关系。在书面汉语中,词在 句中没有显式的标记。因此,理解汉语的首要任务就是把连续的汉字串分 割成词的序列,即自动分词“。 目前大多数分词研究都完全依赖计算机完成切分工作,不希望人工介 入。但其结果往往不尽如人意。因为计算机要想准确切分文本,就一定要 建立在对文本语义理解的基础之上;而要想让计算机能够理解中文语义, 则首先要进行分词。不难理解,陷入这样的循环之中,是很难得到理想的 切分结果的。 作者在本文中提出了一种新的规则与统计相结合的分词方法。本方法 的新颖之处在于,解决了理解与切分孰先孰后的两难问题,通过人工介入 来选择特定领域词库,从而缩小了规则匹配的范围,提高了词库与待切分 语料的匹配度;在此基础上,优先采用规则方法初分语料,最后使用统计 方法对己切分的语料进行进一步处理。 由于本实验的核心目的是为证明经过人工介入选择特定领域词库,会 使规则与统计相结合的方法对文本的切分准确率明显提高,所以,作者采 用了最有代表性的正向最大匹配的规则切分方法和切分准确率较高的m d 统 计切分方法,分别使用规则切分、统计切分以及规则与统计相结合的方法 处理相同语料,并对切分结果进行统计分析。实验用到的词库关键在于分 i 太原理工大学硕士研究生学位论文 类合理、内容准确以及符合实际。作者经过认真地总结和细心的整理,完 成了词汇的归类和遴选的工作,包括地名、区划、计算机、俗语、动漫游 戏、人名、网络新词以及各学科术语等等共2 5 个专业领域词库,均采用文 本文件格式保存。实验所用语料是中国计算机报产品与应用栏目 的1 4 2 3 篇文章( t x t 格式) 为数据源建立语料库,不计空格,共含中文、 英文及标点1 5 6 ,4 5 3 个,其中,中文字符数为1 2 3 ,7 6 4 个。 经过具体实验验证,将上述两种分词方法通过新方法结合后,对语料 的切分精度明显高于单纯使用规则或统计方法的精度。 关键词:专业词库、分词算法、规则分词、统计分词 太原理工大学硕士研究生学位论文 c h i n e s ew o r ds e g m 匝n t 芦j i o n u s i n gr u l ea n ds t a t i s t i c a b s l r a c t w ea r ei nan e wi n f o r m a t i o na g e t h em o s tn o t a b l ec h a r a c t e ro ft h ea g ei st h a tt h e c o m p u t e r sa l ep l a y i n gm o r ea n dm o r ei m p o r t a n tr o l ei nh u m a n sc o m m o nd a y n a t u r a l l a n g u a g ei st h em o s ti m p o r t a n tt o o li nm a n sc o m m u n i c a t i o n i th a sav e r yc l o s er e l a t i o n s h i p w i t hl a n g u a g em a n a g e m e n t t h ec o m p u t e r sw i t ho n l y4 0y e a r sa r cc h a l l e n g i n gt h ec h i n e s e w o r d sw i t h6 0 0 0y e a r s i nt h ew r i t t e nc h i n e s e , t h e ya t es u c c e s s i v e l yw r i t t e nb e t w e e nc h a r a c t e ra n dc h a r a c t e r , w e r da n dw o r d t h ew o r d sh a v en o to b v i o u sm a r k si nt h es e n t e n c e s o ,t l l ec h i e ft a s ko f u n d e r s t a n d i n gc h i n e s ei st h a ts u c c e s s i v ec h i n e s ec h a r a c t e r sc l u s t e ri s d i v i d e di n t ow o r d s e q u e n c e ,n a m e l ya u t o m a t i cw o r d ss e g m e n t a t i o n w o r d ss e g m e n t a t i o ni s ap r o c e s st h a t s u c c e s s i v ec h a r a c t e rs e q u e n c ei so n c c ea g a i nc o m b i n e dt ow o r ds e q u e n c ea c c o r d i n gt od e f i n i t a c r i t e r i o n a st h eb a s i co fc h i n e s en a t u r a l l a n g u a g eu n d e r s t a n d i n g a u t o m a t i cw o r d s s e g m e n t a t i o ni sm o s t l ya p p l i e dt oi n f o r m a t i o nr e t r i e v a l ,c h i n e s ec h a r a c t e r sp r o c e s s i n g ,s p e e c h p r o c e s s i n g ,c o n t e n tr e c o g n i t i o na n da n a l y s i s ,n a t u r a ll a n g u a g eu n d e r s t a n d i n ga n d s oo n a t p r e s e n t , a c a d e m i am a i n l ya d o p t sc o m p u t e ra u t o m a t i cw o r d ss e g m e n t a t i o nt os o l v ec h i n e s e w o r d ss e g m e n t a t i o n w h e nw eg e tad o c u m e n t , w es h o u l ds k i mi to v e r a n dt h e nr e a dt h ed o c u m e n ts e l e c t e d l y m a n yr e s e a r c h e r sl e tt h ea u t o m a t i cw o r d ss e g m e n t a t i o nf i r s tt oi m i t a t et h eh u m a n b u tw h y d o n tw e s t o pa n dt i l i i i l 【a b o u tt h ep u r p o s eo fr e a d i n g a sam a t t e ro ff a c t , w er e a ds o m e t h i n g 埘t hs o m ei n t a n t i o n e i t h e rt ol e a r no rt oe n t e r t a i n m e n t h o wt ol e tt h ec o m p u t e rc a nt h i n k 】i k e t h eh u m a n sb r a l n ? i t st h em o s ti m p o r t a n ti d e a li nt h i sp a p e rt h a tt h er e a lp u r p o s ei sl e tt h ec o m p u t e r u n d e r s t a n dc h i n e s er a t h e rt h a nc h i n e s ew o r d ss e g m e n t a t i o n s ow ec a ns e l e c tap r o f e s s i o n a l d i c t i o n a r yt or e d u c et h ee x t e n s i o n i ti sr e a l l ya9 0 0 dc h o i c e ip r o p o s eas i m p l em e t h o dt h a tp r e p a r ef o rt h ec h i n e s ew o r d ss e g m e n t a t i o n ,i no t h e r w o r d s ,u s ep r o f e s s i o n a ld i c t i o n a r i e s i nd e t a i l s ,w ec h o i c er i g h tp r o f e s s i o n a ld i c t i o n a r yf i r s t , a n dt h e nd oc h i n e s ew o r ds e g m e n ti ns t a t i s t i cm e t h o d f o l l o wt h i sm e t h o d ,t h ea l g o r i t h ms h o u l db e b e t t e rb o t hi i iv e r a c i t ya n de f f i c i e n c y i k e yw o r d s jp r o f e s s i o n a ld i c t i o n a r y , a l g o r i t h mf o rc h i n e s ew o r ds e g m e n t , r e g u l a rw o r ds e g m e n t , s t a t i s t i cw o r ds e g m e n t i 声明 本人郑重声明:所呈交的学位论文。是本人在指导教师的指导下。 独立进行研究所取得的成果。除文中已经注明引用的内容外。本论文 不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究 做出重要贡献的个人和集体。均已在文中以明确方式标明。本声明的 法律责任由本人承担。 论文作者签名:珐盗瓷 日期: 毕王址 关于学位论文使用权的说明 本人完全了解太原理工大学有关保管、使用学位论文的规定。其 中包括:学校有权保管、并向有关部门送交学位论文的原件与复印 件;学校可以采用影印、缩印或其它复制手段复制并保存学位论文; 学校可允许学位论文被查阅或借阅;学校可以学术交流为目的 复制赠送和交换学位论文;学校可以公布学位论文的全部或部分内 容( 保密学位论文在解密后遵守此规定) o 签名: 导师签名:e l l :之= z :! :三f 太原理工大学硕士研究生学位论文 1 1 课题的意义 第一章绪论 分词算法的探索已经经历了几十年的时间,但大多数研究成果都仍然停留在实验阶 段,为真正应用于现实当中事实上,人们不会漫无目地处理或查看电子文档,不会要 求计算机一次性处理所有类型的文章。绝大多数用户所关心的内容,都只局限在有限的 范围内,虽然文档数目仍是“海量”,但实际上涉及到的核心词汇并不很多。既然是这 样,我们就可以模仿人类阅读文档的过程,在计算机自动分词之前先确定处理对象的专 业领域,从而缩小分词匹配的范围,提高分词精度。 基于这一思想,作者认为,在分词之前,如果给用户提供领域词库,由用户进行有 目的的选择,计算机按照用户的选择优先切分出所选词库中的词,然后再按照一定的算 法进一步细分文章,这样会有效地避免一些切分歧义,提高分词效率和准确率。 1 2 自然语言处理与自动分词 自然语言处理是人工智能领域的一个重要分支,它主要研究计算机对输入的句子、 篇章的分析、理解和生成。旨在建立人与计算机之间友好的交流通道,实现更高层次的 信息交互。自然语言人机接口、专家系统、自动文摘、自动分类、自动标引、信息检索、 机器翻译等,都是自然语言处理在实践中颇有价值的应用实例。自然语言处理过程主要 包括这样几个基本的步骤:词法分析、句法分析以及语义和语用分析等伽,如图卜1 : 图卜1 自然语言处理的基本过程 f i g a r e1 - 1b a s i c a lm a n a g ep r o g r e s so f n a t u r a ll a n g u a g e 1 、词法分析:从输入的字符串序列分解出单词并确定词性。 2 、句法分析:对输入的单词序列进行分析,根据语法知识库,检查是否为合法的 句子结构。 3 、语义和语用分析:广义上是指对各级语言单位( 词、词组、句子、句群) 所包含 太原理丁大学硕士研究生学位论文 的意义和在语言使用过程中所产生的意义进行分析。 对于输入计算机的自然语言字符串序列,计算机通过词法分析、句法分析、语义分 析等对语言信息进行预处理,将分析的结果映射为机器内部可以识别与处理的表示形 式,并可对该内部表示进行推理,重新转化为自然语言表达的字符串序列输出,最终实 现对自然语言的理解。显然,如何进行自然语言自身的语言信息的识别与处理,首先取 决于对构成句子的字词的分析,因为词是“最小的独立运用的语言单位”,因此,自动 分词是自然语言处理最初的、最基本的、无法回避的一个技术环节,同时也是人们研究 的一个热点问题,目前已有的分词方法已不下数十种。自动分词技术将组成语句的核心 词提炼出来供句法、语义分析模块使用。 1 2 i 自然语言理解系统简介 自然语言理解系统的发展可以分为第一代系统和第二代系统两个阶段“3 。第一代系 统建立在对词类和词序分析的基础之上,分析中经常使用统计方法;第二代系统则开始 引进语义甚至语用和语境的因素,几乎完全抛开了统计技术。 第一代自然语言理解系统可以分为四种类型:特殊格式系统、以文本为基础的系统、 有限逻辑系统、一般演绎系统。 第二代自然语言理解系统出现于1 9 7 0 年后,这些系统绝大多数是程序演绎系统, 大量地进行语义、语境以至语用的分析。其中比较有名的系统是l u n a r 系统、s h r d l u 系统、m a r g i e 系统、s a m 系统、p a m 系统。 1 2 2 我国目前的发展状况 我国自然语言理解的研究起步较晚,比国外晚了1 7 年。国外在1 9 6 3 年就建成了早 期的自然语言理解系统,而我国直到1 9 8 0 年才建成了两个汉语自然语言理解模型,都 以人机对话的方式来实现。但是,在国际新一代计算机激烈竞争的影响下,自然语言理 解的研究在国内得到了越来越多的重视,研究单位在逐渐增多,研究队伍也在逐渐壮大。 国内比较有代表性的成果如下: l 、机器翻译:以冯志伟教授为代表的计算语言学学者,早期在机器翻译研究方面做 了大量的工作,并总结出了不少珍贵的经验和方法,为后来的计算语言学研究奠 定了基础0 1 太原理工大学硕士研究生学位论文 2 、语料库研究:清华大学的黄昌宁教授领导的计算语言学实验室,主要从事基于语 料库的汉语理解近年来,在自动分词、自动建立知识库、自动生成句法规则、 自动统计字词的使用和关联频率方面做了大量的工作并发表了不少很有价值的 论文。 3 、篇章理解研究:东北工学院的姚天顺教授和哈尔滨工业大学的王开铸教授等在 计算语言学的篇章理解方面的研究也取得了一定的成就。 4 、概念层次网络:中科院的黄曾阳先生在自然语言研究当中通过长期的探索和总 结,在语义表达方面提出了“概念层次网络”理论。这个理论框架是以语义表达 为基础,并以一种概念化、层次化和网络化的形式来实现对知识的表达,这一理 论的提出为语义处理开辟了一条新路。 5 、受限汉语:北京信息工程学院的周锡令教授主持的受限汉语的研究为自然语言理 解提出了一种新的思路。他认为短期内计算机还很难做到真正的理解自然语言, 在继续对自然语言理解方面进行研究的同时,应该研究受限的规范的汉语,这样 可以让研究成果较快的实用化。 6 、知网:由董振东先生提出的一种汉语知识表示方法1 6 。知网把客观世界看作是有 很多的概念构成。概念与概念之间有各种各样的关系,这些关系相互交织就构成 了一个网。要表示一个客观世界,就是要确定这些概念、概念的属性以及概念之 间的关系。 1 2 3 研究汉语分词的现实意义 中国正在向信息化社会迅速前进,其突出表现是i n t e r n e t 上中文网页的急剧膨胀 和中文电子出版物、中文数字图书馆的迅速普及。以非受限文本为主要对象的中文自然 语言处理研究于是也水涨船高,重要性日益显著。而汉语自动分词是任何中文自然语言 处理系统都难以回避的前期基本“工序”,其作用是怎么估计都不会过分的。只有逾越 这个障碍,中文处理系统才称得上初步打上了“智能”的印记,构建于词平面之上的各 种后续语言分析手段才有展示身手的舞台。否则,系统便只能被束缚在字平面上,裹足 不前 太原理r 人学硕十研究生学位论文 1 3 本文的研究内容 本文着重讨论自然语言理解的基础性环节自动分词。 作者在论文中首先阐述了汉语自动分词技术和所要研究的问题,介绍了自动分词所 采用的方法以及几种典型的自动分词系统,并在简要分析其优缺点的基础上,引出本文 重点:强调在切分之前先确定文章的范围,从而确定主题词库,提高分词准确率。作者 重点收集和整理了大量的专业词典,并通过具体实验验证以上推断。作者提出:用特定 领域词典来限制主题范围,是解决分词瓶颈问题的良方。 作者采用了孙茂松等提出的m d 统计分词算法作为基本分词算法,分三种情况比较, 验证推断结果。具体是:统计方法、规则方法,以及统计和规则相结合的方法。 4 太原理工大学硕士研究生学位论文 第二章汉语自动分词技术简介 2 1 自动分词是中文信息处理的基础工程 2 ,1 1 中文信息处理的概念解释 中文信息处理,是用计算机对中文( 包括口语和书面语) 进行转换、传输、存贮、分 析等m t 的科学伽中文信息处理技术是- - f 与语言学、计算机科学、心理学、数学、 控制论、信息论、声学、自动化技术等多种学科相联系的边缘交叉性学科。随着科学技 术的发展,中文信息处理技术已渗透到社会生活的各个方面,它包括汉字信息处理和汉 语信息处理两个部分。 汉字信息处理是中文信息处理的关键和基础,其难点是汉字编码问题嘲。汉语信息 处理是汉字信息处理的进一步发展,它要在汉字输入的基础上,研究汉语的词汇、句法、 语义、语境的自动处理问题,是中文信息处理的高级阶段。目前,汉语信息处理在机器 翻译、汉语的人机对话和中文情报检索等方面,已经取得了一定的成果。 中文信息处理技术,是自然语言处理的一个分支它需要以大量的语言知识、背景 知识为依据,对中文信息的人脑处理过程进行模拟。当前的中文信息处理系统,还处于 初级阶段,许多处理过程,尤其是机器翻译、人机对话等,还需对汉语本身加以研究, 附加必要的选择条件和限制,例如词汇限制、语句形式限制、语义和语用知识的限制等 等。 2 1 2 为什么说自动分词是中文信息处理的基础工程 中文信息处理技术是我国重要的计算机应用技术。在计算机产业中,唯有中文信息 处理技术是我国的专长,在国际上享有得天独厚的优势。这是任何国家所不能比拟的。 国务院制定的国家中长期科技发展纲领中明确指出:“中文信息处理技术是高新技术发 展的重点”。“”我国软件产业发展的重点是中文信息处理软件,中文信息处理的发展已 经得到国家的重视。 据统计,在信息领域中8 0 9 6 “o 以上的信息是以语言文字为载体的。这些语言信息的 自动输入和输出,文本的校勘和分类,信息的提取和检索以及语言翻译等语言工程,都 是国民经济和国防信息化建设的重要基础。中文信息处理涵盖了字、词、短语、句子、 , 太原理r 大学硕十研究生学位论文 篇章等多层面的信息加工处理任务。当前汉语信息处理的主战场已从“字处理”转移到 “词处理”。由于中文文本是按句连写的,词间无间隙,因而在中文文本处理中,首先 遇到的问题是词的切分问题。按句连写转换为按词连写,词的正确切分是进行中文文本 处理的必要条件。在八十年代初期,自动分词技术研究就受到重视,陆续有各种分词模 型和软件提出,成绩是显著的。近年来随着国民经济信息化的不断发展以及i n t e r n e t 的普及应用,在中文信息处理的广泛应用中,迫切要求实现汉语词典和语料库等中文资 源的共享和复用,对自动分词的要求也越来越高。在信息产业需求的强大动力驱动下, 自动分词已经引起多方面的关注,成为中文信息处理的一个前沿课题。正如陈力为院士 所说:“汉语书面语的分词技术己经悄悄地形成一门新兴的富有挑战性的学问”。( 1 ” 2 2 汉语自动分词技术的定义及其发展趋势 在书面汉语中,字与字、词与词是连写的,词在句中没有显式的标记。因此,理解 汉语的首要任务就是把连续的汉字串分割成词的序列“”。计算机内部存储的中文信息一 一汉字,如中文书面语一样,也是连续书写的,词与词之间也没有任何区分标志,为了 能够在词这一平面上进行自然语言处理,就必须把汉字字串序列按词切分开,使一个没 有间隔标志的汉字字串序列转化为词串序列,这就是自动分词。 自动分词技术是针对现代汉语字序列文本,按照一定的规范自动分解为词序列文 本的技术。( 见图2 - 1 ) 图2 1 自动分词 f i g u r e2 - 1a u t o m m i cw o r d s e g m e n t 中文分词技术的滞后是当前中文信息自动化处理技术发展的瓶颈。词是能独立活动 的有意义的最小语言单位。分词是中文信息处理从字符处理水平向语义处理水平的关 键,是中文智能计算技术的基础。 目前中文分词技术主要是借用一个词库,按词库收录的词来进行分词单位的确定 6 太原理工大学硕士研究生学位论文 l 1 4 o 自从中文信息处理领域提出自动分词以来,发表的自动分词方法很多。各种分词方 法虽然名称各异,分词速度也不相同,但本质上可将它们归为两类:一类是基于统计的 机械分词方法,即机械分词+ 歧义校正+ 人工干预;一类是知识分词,即知识分词+ 人工 干预。 机械分词方法的思路是先查字典进行匹配,然后再适当利用部分词法规则进行歧义 校正。机械分词法加歧义校正属于机械分词法的一种改进,它主要利用词法规则对歧义 进行校正,以提高切分精度,事实证明这种改进是有效的,而且这种改进最终导致了知 识分词方法的出现。知识分词与机械分词的根本区别在于它不仅仅只通过词典匹配,而 且还要利用词法、句法甚至语义等方面的知识。知识分词不仅利用知识的范围更广,而 且还利用人工智能技术进行推理,并将分词与歧义校正合为同一过程,而不象机械分词 加歧义校正那样先分词再校正。此外,知识分词中的分词程度和知识库的设计更具有相 对独立性,有利知识库的维护 2 3 提出分词技术的意义 2 3 1 分词的必要性 世界各国正在向信息社会迈进,特别是信息传送技术发展很快,用户通过网络获取 大量信息资源已经不是难事。但信息资源从某种意义上说如同未开采冶炼的矿产,仅仅 拥有信息资源而不会利用,或因信息量太大而无法吸收,信息资源就如同废物。要把信 息资源利用起来,需要依靠计算机的信息处理能力。信息载体主要是声音、图像和语言 文字,其中语言文字的数量最大“”。于是,用计算机处理语言文字的任务就越来越紧迫。 我国要进入信息社会,就必须发展中文信息处理的研究和应用。 汉语同英语不一样,英语文本是小字符集上的词串,汉语文本是大字符集上的字串。 因此,汉语处理与英语处理不同,多了大字符集处理和字串到词串处理这两大块任务。 汉字编码和输入方法的研究,是为了解决大字符集的问题。把字串分隔成词串,就是分 词系统需要做的工作。 词是最小的能独立活动的有意义的语言成分。汉语处理应用系统只要涉及语法语义 ( 如检索,翻译,人机交互等) 就需要以词为基本单位。有些应用,如简体汉字到繁体 7 太原理t 人学硕士研究生学位论文 汉字的转换、汉字的印刷体或手写体的识别、汉语文章的自动朗读( 即语音合成) 等等, 似乎只是字处理的问题,其实还是要使用词的信息。以简繁转换为例,简体字同繁体字 的对应关系,虽然大多数是一一对应的,但有一些字,特别是一些常用字,是一个对应 多个。比如“干”的繁体形式有“干”、“乾”、“斡”三种。用于“干支”时,仍为“干”, 用于“干燥”的意思时用“乾”,用于“干部”、“干活”、“主干”等意思时用“斡”。分 词以后在词的层面上做简繁转换,转换的确定性就大大提高了。再如信息检索,如果不 分词,当检索德国货币单位“马克”时,会把“马克思”检索出来,检索“华人”时会 把“中华人民共和国”检索出来。分了词,就会大大提高检索的准确率。 2 3 2 分词的重要性 自动分词是现代汉语句法分析器的一项基础性工作。汉语语言理解有着极其广泛的 应用价值,在人机接口、问答系统、汉外机器翻译等众多的应用领域中,对输入文本进 行句法分析( p a r s i n g ) 是一项必不可少的处理任务。因为计算机从事句法分析所凭借的 语法知识不外乎来自机器词典和句法规则库。机器词典收录了每个词条的词法、句法和 语义知识而句法规则一般来讲是在词类等知移! 基础上构造的。因此,对汉语句子必须 先进行词语切分处理后,才有可能进行句法分析。如果对输入的源文件中每个句子未经 分词处理,仍然是一些字串序列就无法根据句子中出现的每个具体词到机器词典中去 查找相应的语言知识;而且,如果不知道每个具体词的词性等词汇知识也就不可能直接 调用相关的句法规则来判断句子的句法结陶。由于中文中“词”的定义含糊,歧义切分 字段和未登录词辨识困难,造成自动切分困难重重,但我们在自然语言处理中首先要解 决自动切词的瓶颈问题。企图跳过这一步是行不通的。 2 4 分词的意义和应用 要谈中文分词的意义,就要提到智能计算技术。智能计算技术涉及的学科包括物理 学、数学、计算机科学、电子机械、通讯、生理学、进化理论和心理学等等。简单的说, 智能计算就是让机器“能看会想,能听会讲”。“要想实现这样的一个目标,首先就要 让机器理解人类的语言,只有机器理解了人类的语言文字,才使得人与机器的交流成为 可能。再反观我们人类的语言中,词是最小的能够独立活动的有意义的语言成分,所以 对于中文来讲,将词确定下来是理解自然语言的第步,只有实现了这一步,中文才能 8 太原理工大学硕十研究生学位论文 象英文那样过渡到短语划分、概念抽取以及主题分析,以至于自然语言理解,晟终达到 智能计算的最高境界。实现人类的梦想。 从现阶段的实际情况来看,英文由于其语言自身的特性,己经跨越了分词这一步, 不需要分词,也就是说在词的利用上己经先我们一步,并且己经展现了良好的应用前景, 无论是信息检索还是主题分析的研究都要强于中文,究其根本原因就是中文要通过分词 这道难关,只有攻破了这道难关,我们才有希望赶上并超过英文在信息领域的发展,所 以中文分词对我们来说意义重大,可以说直接影响到使用中文的每一个人的方方面面。 中文分词主要应用于以下几个方面“”: l 、汉语语言理解:理解是以词而不是以字为基础的。现在汉字处理技术己达到实用 化,但汉语理解技术尚处于实验阶段,采用的方法也基本是英语语言理解方法。 但汉语和英语是两种差别极大的语言,必须下工夫探索适合汉语特点的语言理解 技术。自动分词是首先要解决的一个问题。 2 、计算机系统的汉语人机接口:诸如系统软件、统计处理系统、数据库系统、人工 智能系统等,种种系统的使用目前尚停留在。格式化命令”阶段,亦即人们只有 熟悉了一个系统的形式命令后,才能使用该系统。一个良好的汉语人机接口是建 立在汉语理解技术基础之上的,从而也与自动分词密切相关。 3 、机器翻译:基于理解的翻译是机器翻译的发展方向。国外在这方面己有一些成功 的例子。国内关于汉外机器翻译的研究工作也正在开展,自动分词的研究是其至 关重要的技术研究。 4 、情报检索:中文文献的内容分析、自动标引、自动编索引、自动编文摘、汉语查 询的自动构造和修改等问题都涉及自动分词。关于情报检索中的自动分词己有许 多人进行研究。 5 、语言文字自动处理:词频统计、词结构分析、编制词索引、句型识别、统计和分 析等问题都与分词有关。 6 、人工智能和知识工程:汉语自动分词是一个与汉语语言理解具有同等难度的问 题,它涉及了知识表示、知识获取、启发式推理、常识性推理等一系列基本理 论问题。实际上,一个具有智能性的自动分词系统本身就是一个知识系统。 7 、智能计算机:智能体系结构、具有知识处理与智能处理能力的智能机和智能人 机接口是智能计算机的三大核心组成部分。汉语智能人机接口的研制首先要考 9 太原理t :大学硕七研究生学托论文 虑自动分词问题。 8 、汉语语言学:自动分词问题的研究对汉语造词法、句法学、语义学、篇章分析 等领域能产生不同程度的影响,对传统的汉语语言学理论体系也会产生冲击。 实际上,关于词与非词的区分方法一直是汉语语言学家们探讨的问题。 9 、认知心理学:关于英语语言理解的认知模型,国外已作了许多深入的研究。在实 际语言理解系统的建造中,也成功地使用了认知方法。由于汉语语言中有分词问 题,其认知模型与英语语言理解的认知模型必然有所不同。不同之处到底在哪里? 从心理学的观点看,分词与理解的关系如何? 这方面的研究将有助于我们探索适 合汉语特点的理解方法和技术。 2 5 汉语自动分词技术的重点和难点 2 5 1 词的理论问题 汉语分词的首要困难“”是词的概念不清楚。书面汉语是字的序列,词之间没有间隔 标记,使得词的界定缺乏自然标准。词是什么:词的抽象定义:什么是词:词的具体界 定。汉语中“词”的定义一直是汉语语言学界争论的焦点,困难在于一方面怎么区分单 字词和语素,另一方面怎么区分词和短语( 词组) 。因而迄今还未能拿出一个公认的、具 有权威性的词库来。从应用的角度来说,不同的应用目标,对分词单位、词条颗粒度等 有不同的需求,甚至还有不同的认识。 汉语的语素和单字词,合成词和短语之间没有清晰的界限。语言学界虽然对于词在 概念上有一个十分清晰的定义,即暂拟汉语教学语法系统中的定义:“词是最小的 独立运用的语言单位”。但从一些词典的编撰中,我们仍然可看出一些上述界限难以区 分的问题。比如:“听见”“看见”在很多词典中都有收录,但是有类似结构的“闻见” 却没有收录。在建立分词系统词库时,仍然对于收词的标准难以把握,例如:“鸡蛋” 是词,那么“鸭蛋、鹤鹑蛋”是否也作为词收入词库的词依据。至今为止,分词系统仍 然没有一个统一的具有权威性的分词词库作为分这不能不说是分词系统所面临的首要 问题。除了分词词库,这值得我们注意,即“分词单位”。从计算机进行分词的过程来 看,还有一个概其输出的词串我们称之为。切分单位”或“分词单位”。信息处理用现 代汉语分词规范中对于“分词单位”也有一个定义:“汉语信息处理使用的、具有确 太原理工大学硕十研究生学位论文 定的语义或语法功能的基本单位。包括本规范的规则限定的词和词组”。由此可见,信 息处理中分词单位的定义比传统意义上的词更宽泛些。这也就避开了理论上对于词的界 定难以把握的困扰分词系统可以面向解决实际问题的需求和真实语料中使用的频繁程 度来规定“分词单位”。 作为中文信息处理中“分词单位”的划分只要是不违背人们使用的习惯,能在语言 中出现,不是凭空臆造的结构就可以了。在分词中,分词单位要充分考虑形式与意义的 统一。形式上要看一个结构体的组成成分能否单用,结构体能否扩张,组成成分的结构 关系以及结构体的音节结构;意义上要看结构体的整体意义是否具有组合性。所以,分 词既要符合语言学的一般原则,也要便于词类和句法分析,不能分得过细,也不能分得 过粗。所以分词单位或者具有确定的语义和语法意义,或者语义比较模糊,但却具有确 定的语法意义。 2 5 2 歧义字段的处理 汉语自动分词问题中歧义字段切分是影响自动分词系统切分精度的重要因素,它是 自动分词系统设计中的一个最困难也是最核心的问题。自动分词的困难不在于基于词 库的字符串匹配算法,而是在匹配过程中词与词之间大量歧义的消解。从歧义字段的构 成形式上来看,歧义字段可分为两类:一类是交集型歧义字段。它是由词与词之间的交 叉造成的,一类是多义组合型歧义字段,它是由词与词之间的串联造成的。 在字段a j b 中,a j 再并且j b w ,则称a j b 为交集型歧义字段,其中a 、j 、b 为 字串,w 为词库。如应用于,有“应用于”“应用于”两种切分结果。当然还有更复杂 的交集形式。 在字段a b 中,a b e w ,h e w ,b e w ,w 为词库,则称a b 为多义组合型歧义字段。如 学生会写文章,有“学生会写文章”“学生会写文章”两种切分结果。当然还有更 复杂的组合形式。 2 5 3 未登录词识别 未登录词识别是影响自动分词精度的另一重要方面,也是自动分词技术的难点。特 别是专有名词的识别。包括汉族人名、中国地名、外国人名汉译名、外国地名汉译名、 机构名、企业名等。专有名词识别一方面能提高自动分词系统的精度另一方面,还能 太原理r 人学硕士研究生学伊论文 为上层应用提供有价值的信息“。 2 5 4 分词与理解的先后 计算机无法想人在阅读汉语文章时那样边理解边分词,而只能是先分词后理解,因 为计算机理解文本的前提是识别出词、获得词的各项信息。这就是逻辑上的两难:分词 要以理解为前提,而理解又是以分词为前提。由于计算机只能在对输入文本尚无理解的 条件下进行分词,则任何分词系统都不可能企求百分之百的切分正确率。 2 5 5 计算机科学方面的困难 a 形式语言的局限性。形式语言可以准确地描述程序设计语言,但用来描述无限的自 然语言就显得无能为力了。没有合理的自然语言描述模型,计算机就无法认识自然语 言,也就不能准确地自动分词。 b 知识表示理论不成熟。由于知识表示理论不很成熟,许多课题有待解决,要让计算 机利用知识来切分歧义字段还很困难。 c 语义的理解和形式化。有的语句不同的上下文环境有不同的切分结果,要正确切分 这类语句,就必须理解语句在特定环境中的意义。但是语句理解和形式化都是没有解 决的问题,所以让计算机正确切分这类语句十分困难。 2 6 自动分词方法 汉语自动分词研究最早可追溯到5 0 年代后期的俄汉翻译机的研制时期,大约在 1 9 6 0 年左右,苏联学者首先提出了“6 一j 一4 3 2 1 ”的分词方法,这种方法中的匹配思 想成为后来许多分词方法的基础恤1 。目前比较被广泛使用的自动分词方法如下: 2 6 1 机械分词法 机械分词法主要有最大匹配法、逆向最大匹配法、逐词遍历法、设立切分标志法、 最佳匹配法、有穷多层次列举法、部件词典法、二次扫描法,高频优先分词法、双向扫 描法等1 。机械分词法之所以称之为“机械”,是因为它的切分过程是依赖于机器词典 进行,该词舆中不涉及太多的词法、语义、句法知识等关于语言自身的信息,主要是个 词库。词库中词条的数目、词条的选择直接影响到最后的分词效果。现以最大匹配法为 太原理工大学硕士研究生学位论文 例来介绍这类分词方法的基本原理,其流程如图2 3 所示: 最大匹配法( 简称删) 又称5 - 4 - 3 - 2 - 1 查词法、最长匹配法、回巡检索法,其基本思 想是:假设自动分词词库中的最长词条所含汉字个数为i ,则取被处理材料当前字符串 序列中的前1 个字作为匹配字段,查找分词词库,若词库中有这样一个字词,则匹配成 功,匹配字段作为一个词被切分出来:如果词库中找不到这样的一个字词,则匹配失败, 匹配字段去掉最后一个汉字,剩下的字符作为新的匹配字段,再进行匹配,如此进行下 去,直到匹配成功为止。最大匹配法是一种广泛应用的分词方法,也是一种最基本的分 词方法。这种切分方法,需要最少的语言资源( 仅需一个词库,不需要任何词法、句法、 语义知识) ,程序实现简单,开发周期短,是一个简单实用的方法。但其缺点是可以产 生歧义现象。 逆向最大匹配法( 简称r m m ) 的分词过程与最大匹配法相同,不过是从句子( 或文章) 末尾开始处理。每次匹配不成功时去掉的是前面的一个汉字。 图2 - 3 最大匹配法 f i g u r e2 - 3m a x m a t c hm e t h o d 太原理工大学硕士研究生学位论文 逐词遍历法把词库中的词按由长到短递减的顺序逐字搜索整个待处理材料,一直到 把全部词切分出来为止。不论分词词库多大,被处理材料多么小,都得把整个分词词库 匹配一遍。 设立切分标志法,切分标志有自然和非自然之分。自然切分标志是指文章中出现的 非文字符号,如标点符号等:非自然标志是利用词缀和不构成词的词( 包括单音词、复音 节词以及象声词等) 。设立切分标志法首先收集众多的切分标志,分词时先找出切分标 志,把句子切分为一些较短的字段,然后用删,r m m 或其他方法进行细n t 。这种方法 并非真正意义上的分词方法,只是自动分词的一种前处理方式而己,它要额外消耗时间 扫描切分标志,增加存贮空间存放那些非自然切分标志。 最佳匹配法( 简称0 m ) 由北京航空航天大学提出,分为正向的最佳匹配和逆向的最佳 匹配法。其出发点是:在词库中按词频的大小顺序排列词条,以求缩短对分词词库的检 索时间,达到最佳效果,从而降低分词的时间复杂度,加快分词速度。实质上,这种方 法也不是一种纯粹意义上的分词方法,它只是一种对分词词典的组织方式。0 m 法的分词 词库每词条前面必须有指明长度的数据项,所以其空间复杂度有所增加,对提高分词精 度没有影响,分词处理的时间复杂度有所降低。 有穷多层次列举法其基本思路是”1 :把待处理材料中标点符号区分的语言片断作处 理对象,先处理不用查词库的具有特殊标志的字符串,如阿拉伯数字、拉丁字母等,然 后用环境词库确定属于巧类可列举的词,即先判断一个词能否组成多音词,如五音词、 四音词、三音词、双音词,最后确定是否为单音词,这样便把一个个语段化分成较小语 段。这实际上是切分标志法的一种变形方法。 部件词典法的一大问题是冗余度高,且难穷尽所有词。上海交大提出“部件词典” 的概念。部件系指构成词的独立单元,故可分为词首、词尾和词干等若干类部件,词部 件有点象词素,但它本身也可是词或词组,以存贮部件来代替存贮原词。这样,电脑中 存贮的不是所有的中文词,而是所要用到的词的词部件以及由这些部件组词的部分信 息。上海交大利用这种部件词典,成功地对全国报刊索引中的计算机类文献标题和中华 人民共和国法规进行处理,可用率达9 8 以上。 二次扫描法其基本思想是。1 :取待处理材料中两个切分标志之间的部分作为样本 串,检查分词词库中是否有一个词,它的前两个汉字和该样本串相同,若有的话,则取 样本串的前三个汉字作为匹配串,重新在分词词库中找以匹配串为子串的词,若有,则 1 4 太原理1 二大学硕士研究生学位论文 重复下去,直到进行到1 个汉字为止,( 设l 为分词词库中最长词所含汉字的个数) ,则 切分出一个l 字词;若没有,则完成一次扫描:匹配串的最后一个汉字去掉,作为新的 匹配串,进行第二次扫描,第二次扫描用r 咖或姗法进行。 高频优先分词法基于词频统计、字与字之间构词结合力和歧义切分等现象的分析而 提出。它不是纯粹意义上的机械分词方法,而是在分词过程中处理歧义字段的一种方式, 例如,a b ,b c 是两个词,如果b c 的频度比a b 大,则a b c 这一歧义字段应切分为a b c 。 该方法的一个明显缺点是频度较低的词,永远被错误切分。如果仅考虑当前正在处理文 本中的词频的话将会得到良好效果,问题是如何得到当前正待处理文本的词频。这种 方法增加分词的空间复杂度。低频词的错误切分难以克服,目前尚未见成功的报道。 双向扫描法重点是放在检错和纠错上,基本做法是将正向扫描( 删) 的结果和逆向 扫描( r 删) 的结果相比较,一致的部分认为是正确的,不一致的部分( 称为疑点) 则采用 人工干预、记频算法或上下文相关信息选取一种切分。这种方法对于正、逆向扫描结果 一致而被认为正确但实际上切分不正确的字段没有强有力的处理手段。时间复杂度比单 向扫描至少增加一倍。其分词词库必须同时支持正逆两种顺序的检索,词典结构无疑是 比较复杂的,或者要设立两种数据结构的词典。此方法可作为一种检查歧义字段的方法。 2 6 2 语义分词法 语义分词法引入了语义分析,对自然语言自身的语言信息进行更多的处理,如基于 期望的分词法、邻接约束法、扩充转移网络法、语境相关法、全自动词典切词法、基于 规则的分词法、联想一回溯法、多遍扫描联想法等呻1 语义分词法一方面提高了分词的 精度,另一方面也加大了实现的难度,但相对于“机械分词法”而言,切分深度更进了 一步。 基于期望的分词法是基于汉语语法及语用规律以及人们语言习惯而提出,它认为一 个词的出现对于它后面紧相随的词有一种期望。当然是期望大的词优先,分词时根据期 望,到期望值较大的词所在的词库中找出所对应的词,从而切分出相对应的词。这种方 法增加了分词的时空复杂度,但在一定程度上提高了分词精度。目前该法仍处于理论探 讨阶段 邻接约束法是利用自然语言中的邻接约束排除不合适切分以提高分词精度。由于汉 语句法语义或习惯用法的限制,或人们为了避免造成阅读上的困难,相邻词语之间有一 太原理 :大学硕十:研究生学位论文 种约束关系,例如“那里”不能切分为“那里”。汉语中某些单词在句法结构中不拥有 或只能条件拥有某些固定位置( 如句子或片段的丌头或结尾等) ,不同类型的单词之间具 有特定的约束( 如副词、助动词一般不后接名词等) ,某些单音动词只在特定文体或格式 中出现( 如“知”一般不单独出现) ,等等,这些语言现象可以用来解决部分歧义切分问 题。 扩充转移网络法是一种普遍应用于数据库自然语言查询中,进行语法分析的方法, 它主要由递归网络加一个测试集

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论