(计算机应用技术专业论文)词典与统计相结合的中文分词的研究.pdf_第1页
(计算机应用技术专业论文)词典与统计相结合的中文分词的研究.pdf_第2页
(计算机应用技术专业论文)词典与统计相结合的中文分词的研究.pdf_第3页
(计算机应用技术专业论文)词典与统计相结合的中文分词的研究.pdf_第4页
(计算机应用技术专业论文)词典与统计相结合的中文分词的研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着社会信息化的发展,人们很容易获得海量信息。但是要处理海量信息, 靠人工是不可能的,必须依靠计算机的帮助。和西方语言不同,中文中的词与 词之间没有明显的切分标志。所以,要使计算机能够处理中文文本,就必须先 进行中文分词。现在大多数中文分词研究都依赖计算机完成切分工作,但其结 果一般还不能令人满意。由于汉语的复杂性和新词语的不断出现,现有的中文 自动分词系统还没有达到令人满意的效果。 本文分析了当前中文分词已经实际使用的算法,各种分词词典组织形式, 并研究了中文分词目前存在的问题。并主要介绍了一种基于机械匹配与基于统 计相结合的中文分词算法,解决了一部分条件下的人名,地名,机构名,数量 词等类型的未登录词以及交集型歧义引起的切分错误问题。 本文采用了统计和词典相结合的复合分词方法,在多个方面进行了改进。 在统计方面,通过对第一次分词结果中碎片的统计,识别出在文本中出现过超 过一次的未登录词,并将其加入临时词典;对词典的组织结构进行了改进,把 单个词典分为基本词典和扩展词典两个部分。改进了基本词典在内存中的组织 结构,根据汉语中双字词的数量最多的特点和哈希结构查找速度快的特点,采 用了双字哈希索引结构将基本词典中的词按照前两个字为关键字进行存储,并 在词条中加入词频信息用于歧义消解,扩展词典则包括数量词词典,姓氏词典, 临时词典,停用字词典等,它们将分别用于数量词和命名实体识别等;通过对 数量词的预先正确切分减少了由于这些词所引起的歧义数量;使用改进的正向 最大匹配分词法对文本进行第二次分词,并使用统计的方法消除部分歧义;最 后使用规则的方法,在机械分词结果中识别出在文本中只出现一次的未登录词。 由于命名实体中人名识别的上下文限定条件最多,所以识别效果最好,机构名 组成结构最复杂,识别效果也最差,所以本文是依次进行人名,地名和机构名 的识别。 通过实验发现本系统具有较好的未登录词识别能力和歧义消除能力,基本 上可以满足中文信息处理实际应用的要求。 关键词:中文分词未登录词词频统计命名实体 a b s t r a c t w i t ht h ed e v e l o p m e n to ft h ei n f o r m a t i o n i z e ,i ti se a s yt oo b t a i nl a r g ea m o u n to f i n f o r m a t i o n h o w e v e r , t od e a lw i t hm a s s i v ei n f o r m a t i o nm a n u a l l y i sn o t p o s s i b l e ,n e e dt or e l yo nt h eh e l po fc o m p u t e r a n dd i f f e r e n tf r o mw e s t e r nl a n g u a g e s , c h i n e s e ,b e t w e e nw o r d si nn oo b v i o u ss i g n ss e g m e n t a t i o n s o ,t om a k et h ec o m p u t e r c a p a b l eo fh a n d l i n gc h i n e s et e x t ,t e x tm u s td oc h i n e s ew o r ds e g m e n t a t i o nf i r s t a s t h ec o m p l e x i t yo fc h i n e s es y n t a c t i cn e t w o r ka n dt h et h ec o n t i n u a le m e r g e n c eo fn e w w o r d s ,c h i n e s ew o r ds e g m e n t a t i o ns y s t e mh a sn o ta c h i e v e ds a t i s f a c t o r yr e s u l t s t h i s p a p e ra n a l y z e s t h ea c t u a lu s eo fc h i n e s ew o r ds e g m e n t a t i o n a l g o r i t h m m a n yk i n d so fd i c t i o n a r ys t r u c t u r e s t u d i e dt h ec u r r e n tp r o b l e m so fc h i n e s e w o r ds e g m e n t a t i o n i nt h i sp a p e r , w eu s e dt h ec o m b i n a t i o nm e t h o db a s e do ns t a t i s t i c a la n dd i c t i o n a r y a c h i e v ei m p r o v e m e n t si nv a r i o u sa s p e c t s f i r s t ,w ed i v i d et h ew h o l et e x ti n t os h o r t e r s e n t e n e e sa c c o r d i n gt ot h ep u n e t u a t i o n si n t h i st e x t i nt h es t a t i s t i c s ,t h r o u g ht h e s t a t i s t i c so fr e s u l t so ft h ef r a g m e n t a t i o nf r o mc h i n e s ew o r ds e g m e n t a t i o n i d e n t i f i e d t h eu n k n o w nw o r d si nt h et e x ta p p e a r e dm o r et h a no n c e a n da d d e dt ot h et e m p o r a r y d i c t i o n a r y i m p r o v e dt h es t r u c t u r eo ft h ed i c t i o n a r y p u td i c t i o n a r yi n t oas i n g l eb a s i c d i c t i o n a r y a n de x t e n d e dd i c t i o n a r y t h i sp a p e rd e s c r i b e s ac h i n e s ew o r d s e g m e n t a t i o na l g o r i t h mm e t h o db a s e do ns t a t i s t i c a l a n dd i c t i o n a r yw ei n e r e a s et h e n u m b e ro fd i c t i o n a r i e s ,w ea d ds o m es p e e i a ld i c t i o n a r i e sw h i c hc a nb eu s e dt o e l i m i n a t et h ea m b i g u o u s n e s s e sa n dr e e o g n i z en e ww o r d sd u r i n gt h es e g m e n t a t i o n p r o c e s sb e s i d e st h eb a s i cd i c t i o n a r y a tt h es a m et i m ew er e c o n s t r u t e dt h ed a t a s t r u c t u r eo fb a s i c d i c t i o n a r y i nt h e m e m o r y o fc o m p u t e r b yu s i n g d a t a s t r u c t u r e ”h a s h t a b l e , w ec h o o s et h ef i r s tt w os i n g l ec h a r a e t e r so fe v e r yw o r di nt h e b a s i cd i c t i o n a r ya st h ek e y w o r d so ft h em a i na n ds u bh a s h t a b l e s ,t h er e m a n e n tw o r d s a r es t o r e di na l la r r a ya c e o r d i n gt ol e n g t h w i t ht h e s ed a t as t r u c t u r e s ,w h e n e v e ro u r p r o g r a mm e e t saw o r d ,t h ep r o g r a mw i l lb ea b l et ol o e a t et h ew o r ds t r a i g h t l ya n d q u i c k l yi nd i e t i o n a r y a n da d d i n gw o r df r e q u e n c yi n f o r m a t i o ni n t ot h ed i c t i o n a r yf o r a m b i g u i t yr e s o l u t i o n e x t e n d e dd i c t i o n a r y i n c l u d eq u a n t i f i e r sd i c t i o n a r y , n a m e d i c t i o n a r y , t e m p o r a r yd i c t i o n a r y , w o r dd i c t i o n a r yd i s a b l ea n ds oo n w i t ht h ec o r r e c t i l s e g m e n t a t i o no ft h eq u a n t i f i e r sr e d u c et h en u m b e ro fa m b i g u i t y u s e di m p r o v e d m e c h a n i c a lm e t h o dt od os e c o n dw o r ds e g m e n t a t i o n f i n a l l yu s er u l e st oi d e n t i f i c a t i o n n e ww o r d sa p p e a ro n l yo n c e t h i sm e t h o dh a sg o o da b i l i t yt oi d e n t i f i c a t i o nn e ww o r d sa n da m b i g u i t y e l i m i n a t i o n b a s i c a l l ys a t i s f y t h ep r a c t i c a l a p p l i c a t i o no f c h i n e s ei n f o r m a t i o n p r o c e s s i n gr e q u i r e m e n t s k e y w o r d s :c h i n e s e w o r d s e g m e n t a t i o n , u n k o w nw o r d s ,w o r d f r e q u e n c y s t a t i s t i c ,n a m e de n t i t y 1 1 1 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 武汉理工大学或其它教育机构的学位或者证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的 说明并表示了谢意。 签名:堑:毖蠢日期:垫竺:童z 笸 论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即: 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的 全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制 手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有 关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息 服务。 ( 保密的论文在解密后应遵守此规定) 研究生( 签名) :纽导师( 签名) :驱日期:垫! :兰:乡 武汉理工大学硕士学位论文 1 1 中文分词的必要性 第一章绪论 随着整个社会信息化的发展,人们很容易获得海量的信息,但这些信息资 源从某种意义上说如同未开采冶炼的矿产,如果只是占有信息资源而不能利用, 或因信息资源太多而无法处理利用,它们就没有任何价值。但完全依靠人工来 整理如此繁多的信息,并快速、准确的找到我们所需要的信息,那么工作量是 巨大的,也是不现实的,所以就必须借助计算机进行信息处理。据统计,在信 息领域中8 0 以上的信息是以语言文字为载体,所以解决用计算机处理语言文 字的问题就越来越紧迫。我国要进入信息社会,就必须加强中文信息处理的研 究和应用。 中文信息处理包括字、词、短语、句子、篇章等多层次的信息加工处理工 作。因为在中文信息处理中,凡是涉及句法、语义等研究项目( 中文文本的自动 检索、分类及摘要,中文文本的自动校对,机器翻译,手写汉字识别,以句子 为单位的汉字键盘输入,简体繁体转换等) 都要以词为基本单位。所以当前汉语 信息处理的主要方向也已经转移到了“词处理”。因此词的切分,即分词对于信 息的检索具有重要的意义l ”j 。 虽然英文中也存在短语的划分问题,但是在词的切分方面,中文处理要比 西文复杂的多。由于中文文本并不像英文那样,每个单词是由空格隔开的,比 如一个英语句子t h i si sab o o k 四个单词就是自然隔开的,而翻译成中文就是“这 是一本书”各个词则是连写的,词与词之间就没有间隔。汉语只有在句与旬之 间才通过标点或段落来划分界限,人当然可以通过自己的知识来判断哪些是词, 哪些不是词,但计算机并不能自动正确识别哪些是词,所以在中文文本信息处 理中,首先要解决的问题就是词的切分问题。自动分词已经成为中文信息处理 的一个前沿课题。 分词系统的总目标是建立一个具有开放性,通用性和实用性的中文自动分 词系统。分词作为信息处理的基础环节,分词准确率应达到9 9 9 以上才能基本 满足上层使用的要求【4 ,切分速度更是要着重考虑的;具有很好的通用性,能支 武汉理_ t 大学硕士学位论文 持各种应用目标,包括各种输入法,简繁转换,翻译,检索和自动摘要等;支 持包括社会科学、自然科学等不同领域的应用,以及新闻,办公等;应能适应 中国大陆、台湾、香港和澳门等地不同地区的各种语言风格;分词系统中各种 信息处理模块都要具有较高的独立性,可以方便地自行升级维护,从而提高系 统的准确率和处理速度。容易程度:系统不应该只能在一个环境下运行,而应 该稍作修改甚至不用修改便可在另一种环境下运行,更有利于推广。 1 2 几个已经实现的分词系统 早期的中文自动分词系统主要采用基于机械匹配的方法,此类系统过于机 械、大多缺乏歧义解决能力,切分精度也不高,分词结果不能满足实际应用的 要求。 c d w s 分词系统是我国第一个实际使用的自动分词系统,由北京航空学院 于1 9 8 3 年设计实现,它使用最大匹配法进行分词,以及词尾字构词纠错技术。 a b w s 是山西大学开发的自动分词系统,采用“两次扫描联想回溯”方法, 使用了一些词法、句法知识。切分正确率为9 8 6 ,( 不包括非常用词和未登录 词) 。 c a s s 是北京航空学院于1 9 8 8 年开发的分词系统,使用正向最大匹配,并 运用知识库来处理歧义字段。由北京师范大学于1 9 9 1 实现的书面汉语自动分词 专家系统则是首次把专家系统完整地引入到中文自动分词中。 清华大学开发了s e g 系统和s e g t a g 系统,前者提供了带回溯的正向、反 向、双向最大匹配法和全切一一评价切分算法并首次提出全切分的概念,即找 出输入字串的所有可能的切分方法,并选出最佳字串序列分词结果。s e g t a g 系统系统使用有向图来集成各种样的信息并把各类的信息进行综合,以最大限 度提高切分精度。 复旦大学开发的分词系统通过利用中文姓名的用字规律、频率,以及姓名 的上下文等信息使得对中文姓氏自动识别率达到7 0 ,同时对文本中的地名和 一些领域的专有名词也具有一定的识别能力。 哈尔滨工业大学统计分词系统将串频统计和词型匹配结合起来。能够利用 上下文识别大部分生词,解决部分切分歧义,但统计分词方法对常用词识别精 度差的缺点并未解决。 2 武汉理工大学硕十学位论文 杭州大学改进的m m 分词系统使用正向扫描+ 增字最大匹配+ 词尾歧义检 查+ “归右原则 。词典则使用一级首字索引结构,词条中包括了“非连续词”。 系统精度高于通常的m m 和r m m 方法。 m i c r o s o f t r e s e a r c h 汉语句法分析器中的中文自动分词系统。这是微软研究院 自然语言研究所开发的一个通用型的多国语言处理平台n l p w i n 。中文部分的研 究以北大计算语言所的现代汉语语法信息词典为基础资源。n l p w i n 的语法 分析部分使用的是一种双向的c h a r t p a r s i n g ,使用语法规则并以概率模型作导向, 把语法和分析器独立开。 北大计算语言所开发的分词系统。将分词和词类标注结合起来,语言模型 实现了通用性与多样性的有效结合,通过搜索算法上的改进速度也得到了提高。 i c t c l a s 分词系统。i c t c l a s 是中科院开发的目前广泛使用的分词系统。 能该系统建立了各种资源知识库,如地名资源知识库( 地名库、地名用字库、地 名用词库) ,识别规则库( 筛选规则、确认规则、否定规则) 。通过层叠隐马尔科 夫模型5 】语料库进行训练,并利用上下文信息、各种规则将汉语分词、词性标注、 切分时歧义排除和未登录词识别集成到一个完整的框架中,实践证明该系统取 得了较好的分词和标注效果。 1 3 本文的组织结构 本文主要分为六章: 第一章是绪论,介绍了中文分词技术的研究背景及研究意义,中文分词的 特点及其主要应用领域,以及已经实现的部分分词系统。 第二章详细介绍了中文分词技术现在遇到的几个难题,主要是分词歧义问 题和未登录词识别问题。现在主要的分词方法,主要是机械分词和统计分词。 第三章阐述了本文的主要工作,先对文本进行切分,用统计的方法从分词 碎片中识别未登录词,然后使用改进的最大匹配法进行分词,并消除部分歧义。 第四章介绍了对分词结果的后处理,即使用规则的方法在分词结果中识别 部分第二类未登录词。 第五章为实验过程及实验结果的分析。 第六章为总结和展望,指出本方法的创新和不足及将来的工作方向。 3 武汉理工大学硕士学位论文 第二章中文分词技术的理论基础 2 1 中文分词要解决的主要问题 2 1 1 分词规范的问题 汉语分词的首要困难是词的概念不清楚。汉语是连续的字的序列,词之间 没有间隔标记,使得词的界定缺乏自然标准。而且大部分人对“词 并没有一 个明确的概念。“词的定义即使在汉语语言学界也一直是一个争论的焦点,争 论的焦点在于如何区分单字词和语素以及如何区分词和短语。因而迄今还未能 拿出一个公认的、具有权威性的词库来【剐。 ( 1 ) 核心词典问题:分词需要有一个核心( 通用、和领域无关的) 词典,凡在 该词典中的词,分词时就应该切分出来。对于哪些词应当收进核心词典,已有 人提出各种条件,但这些条件本身不易操作,目前没有合理的可操作的标准。 ( 2 ) - i 的变形问题:中文中的动词和形容词有时可以产生变形结构,如“跳 舞 、“开心 、可能变形成“跳跳舞”、“开开心”等。有时一些的离合词“游泳”、 “睡觉 等可以合理地变形为“游了一次泳”、“睡了一个觉”。对这些变形结构 的切分并没有明确的可操作的规范。 ( 3 ) 词缀的问题:语素“者”在现代汉语中单用是没有意义的,因此“作者”、 “先行者”就不能切开。但是依据这个标准,“为抗洪做出巨大牺牲者 、“中国 民主革命先行者 也就不能切开,但这样的结构过于复杂,并且与词的定义不 相符。 虽然信息处理用现代汉语分词规范已经提出了分词单位和系统的分词 规则,但是真实文本的复杂性和多样性使得理论和实践之间存在重大差异,这 个标准仍然没能够在词层面解决问题。从应用的角度来说,不同的应用目标, 对分词单位、词条颗粒度等有不同的需求,甚至还有不同的认识。 2 1 2 分词歧义的处理问题 切分歧义是指一个汉语句子中的某些字段,如果只根据词典进行机械匹配, 则可能存在多种切分形式【7 ,8 1 。因此分词要解决的一个重要问题就是如何从多种 切分结果中,选出一个正确的结果,即歧义字段处理。 4 武汉理工大学硕七学位论文 分词歧义主要有三类: ( 1 ) 由自然语言的二义性所引起的歧义,即第一类歧义。 如:“美国会制裁伊朗可切分为“美国会制裁伊朗 又可以切分为 “美国会制裁伊朗。这两种切分结果在语法和语义上都是正确的,即使是 人工也难以决定应该如何切分,只有结合上下文才能选择正确的切分结果。 ( 2 ) 由机器自动分词产生的歧义,即第二类歧义。 如:“他还不明白天为什么下雨用机器切分,可以切分为“他还不明白 天为什么下雨。”也可以切分为“他还不明白天为什么下雨。这里不需 要知道上下文就可以判断第一种切分是正确的,这里用人工切分就不可能产生 歧义。歧义是由于机器分词引起的。 ( 3 ) 由于分词词典的大小而引起的歧义,称为第三种歧义。 如:“赵钱孙是一个工人。 用机器切分被分为“赵钱孙是一个工人。 本句中“赵钱孙是一个人名,在分词时应该切为个词,所以这个分词结 果是错误的。机械分词是根据分词词典进行的,词典中没有的词,就不可能被 正确切分出来,分词词典不可能包含所有的词( 如人名,地名,机构名等) ,而且 词典中所包括的词更多时,也可能产生新的歧义。如“建设社会主义的新乡村 , 新乡是个城市名,如果词典中有这个词,则“新乡村”就会是一个歧义字段。 统计表明第一类歧义只占歧义总数的5 【加l 左右,且解决起来比较困难。剩 下来的就都是第二类歧义字段和第三类歧义字段。故中文分词对歧义字段的研 究主要是第二类、第三类歧义字段。它们又可以分为交集型歧义和组合型歧义 【9 1 o 交集型歧义( o v e r l a p p i n g a m b i g u i t y ) ,即对于汉字串a b c ,既可以切分成a b c 形式,又可以切分成a b c 的形式。其中a b 和b c 都是词典中的词。例如:“美 国会制裁伊朗”中的“美国会可以切分成“美国会”,也可以切分成“美国 会”;“我们很不满意这里的服务态度 中的“不满意”可以切分成“不满意”, 又可以切分成“不满意”。 组合型歧义( c o m b i n a t i o n a m b i g u i t y ) ,即对于汉字串a b ,既可以切分成a b 形式,也可以切分成a ,b 形式,其中a ,b 和a b 都是词典中的词。例如“图 灵具有月 凡的才能。“只有他才能办- 至, j i 这件事。 两句话中“才能”的切 法就不相同。 交集型歧义字段占全部歧义字段的8 5 以上1 1 1 j 。由此可见如果能够有效地 5 武汉理工大学硕士学位论文 解决交集型歧义,就可以使分词的准确率得到很大的提高。而选择交叉型歧义 作为歧义消除的侧重点还有一个重要原因是,组合型歧义的消除难度大,需要 上下文的语法、语义信息,而这些信息的获得首先需要正确地分词,形成了一 种互相信赖关系。在分词阶段,句子尚未正确切分,就不能提供足够的语法、 语义信息。 由于歧义字段在中文文本中是大量存在的,所以处理歧义的能力将直接影 响中文分词系统的切分准确率。 一般系统处理歧义时会利用词频等信息,比如“在世界”中,“在 作为单 字词的频率明显高于“界”作为单字词的频率,即“在”单独使用比“界 作 为单字词使用的可能性大,所以应切为“在世界”。 有时则还需要参照上下文的信息。如“学生会 既可以是一个名词,也可 能是“学生会 ,其中“会为“可以”的意思。在“学生会主席”中只能是前 者,在“学生会去”中只能是后者,在“学生会参加这次活动 中歧义字段如 何切分就无法判断,需要参考上下文信息。 2 1 3 未登录词的识别问题 任何一个词典都不可能包含所有的词:首先是因为语言在不断的发展和变 化,新词也会不断地出现。其次是因为词的衍生现象非常普遍,也就不需要把 所有的衍生词都收入词典中。未登录词( o o v ) 【1 2 】是指没有n a , 分词词典而实 际文本中存在的词汇。在使用机械匹配法分词时,由于词典中没有收录这些词, 会带来很大的问题。统计发现,由于未登录词造成的切分错误数量远远超过由 于切分歧义造成的切分错误的数型1 3 j 。 未登录词基本可以分为两类: 第类是随着科技和社会生活的发展而新出现的通用词汇和专业术语等, 这一类未登录词随着计算机及信息科技等的发展大量出现,如新出现的通用词 “网游、专业术语“蓝牙等;这种未登录词是可预期的,并且可以在发现之 后人工将其加入到词典中; 第二类是专有名词即命名实体,如人名,地名,机构名等,这类未登录词 则不能预期,并且无论词典多大,也不可能完全包括,对这类未登录词可以 使用规则进行识别。 未登录词的主要有三种识别方法:统计方法、规则方法以及统计和规则相 6 武汉理工大学硕十学位论文 结合的方法。 对于第一类未登录词,由于它们在单个文本中出现频率一般较高,就可以 使用统计的方法进行识别,先计算某个候选字串在文本中出现的频率,当频率 值大于某一预先设定的阈值时,此字段可判断为未登录词。并可以在系统中通 过相应的模块,将识别出来的未登录词直接添加到词典中,在使用过程中不断 扩充词典;在使用和扩充一段时间以后,就基本可以将此类未登录词全部收入, 以方便之后的使用。统计的方法一般需要较大规模的语料库,统计运算的速度 也较慢。 第二类未登录词则不相同,由于人名、地名、机构名数量太多,不可能像 第一类未登录词那样全部收录到词典中,( 当然,著名历史人物,国家名,省市 名,著名机构名称等可以例外) 。并且它们在单个文本中平均出现的次数一般少 于第一类未登录词,也不易用统计的方法识别。所以,人名、地名、机构名的 识别通常使用规则的方法,主要利用两类信息:特征用字和限制性成分。但是 规则的制定较为复杂,单个研究者很难独立完成。 规则与统计相结合的方法,一方面通过概率计算来减少规则方法的复杂性 和盲目性,另一方面通过规则的使用,可以降低统计方法对语料库规模的要求。 目前的研究重点基本上都是规则与统计相结合的方法,不同之处仅在于侧重于 规则还是侧重于统计。 表2 - 1 各类未登录词的比例 未臀录词类犁犁汉字词内所占比例例未登录词内所占比例例 中国人名 1 6 3 2 6 3 6 中国地名 1 3 8 2 2 1 4 外国人名 0 2 2 3 8 8 外国地名 0 9 1 1 5 3 7 其它泽名 0 0 8 1 4 1 数量词短语 1 0 9 1 7 6 3 其它 0 8 9 1 3 2 9 由于第二类未登录词即人名,地名,机构名等命名实体在所有未登录词中 占据大部分,而且他们的出现一般会有指示性的上下文限定条件,所以较容易 使用统计的方法进行识别。而第一类未登录词,一般上下文限定条件不强,比 第二类未登录词更难识别。 7 武汉理工大学硕士学位论文 而现有的研究工作则主要集中于三类常见命名实体的识别识:中文人名的 识别,外国译名的识别,中国地名及机构名的识别。在效果上,外国译名的识 别率最高,中国人名次和中国地名再次之,机构名识别率最低。这也反映了这 三类命名实体的识别难度。 2 1 4 分词和理解的先后问题 人在阅读一篇中文文本时,基本是先理解后分词,或边理解边分词。有时还 会需要回顾之前读过的内容以判断当前句子应该如何切分。但是因为计算机理 解文本的前提是识别出词,获得词的各项信息,所以计算机目前却无法像人那 样先理解后分词,而只能是先分词后理解。这也是个两难问题,分词和理解 是互为前提的。由于计算机只能在对输入文本并未理解的条件下进行分词,只 能根据表层的知识考虑分词算法,所以任何分词系统都不可能达到百分之百的 切分准确率。 2 2 目前主要的分词方法 2 2 1 基于统计的分词方法 在形式,词是固定的字的组合,文本中,相邻的字同时出现的次数越多, 越有可能是一个词1 1 5 】,因此计算上下文中相邻的字联合出现频率,可以判断它 们成词的概率。这种方法只需统计语料中的字组频率,而不需要词典,因而又 叫做无词典分词法或统计分词法。 统计分词方法的优点是:不受待处理文本领域的限制,不需要预设的词典: 缺点是:需要大量的训练语料,以建立模型的参数;计算量非常大;分词的准 确率会和训练文本的选择有关。 ( 1 ) 互信息 互信息算法的主要思想是对于汉字x 和汉字y ,用公式计算出他们的互信息 值p c x ,y ) 。用p ( x ,y ) 的大小判断x 和y 之间的结合程度。互信息计算公式如下。 p ( x ,y ) ,1 0 9 2 熙 ( 2 1 ) p t x ) p t y ) 其中,p ( x ,y ) 为字符串x 和y 共现的频率,p ( x ) 和p ( y ) 分别为字符串x 和y 出现的频率。互信息值越大,两个字结合的程度越高;互信息值越小,结合的 8 武汉理工大学硕士学位论文 程度越低。 当p ( x ,y ) 0 时,表示x 与y 之间具有较高的相关关系,并且互信息值p ( x , y ) 越大,相关性就越强,当其值大于一个预定的阈值时,就可以认为其是一个词。 当p ( x ,y ) - - 0 时,表示x 与y 之间的关系不明确。 当p ( x ,y ) 0 时,字y 有与字z 连接的趋势,值越大,连接趋势越强。 f 。( y ) 0 时,字y 有与字x 连接的趋势,值越大,连接趋势越强。 t 。( y ) = 0 时,字y 与x 或z 的连接趋势不明。 但这种方法也有明显的局限性,经常会提取出一些共现频率高,其实并不 是词的常见的字的组合,例如“这一 ,“有的,“我的 等,而且有时不能 有效识别常见词,系统的资源开销一般比较大。所以实际使用的统计分词系统 都要使用一部基本的分词词典进行机械分词,同时使用统计方法识别一些未登 录词,即将统计分词方法和机械分词方法结合起来,既兼具机械分词切分速度 快,分词效率高和统计分词具有的新词识别和消除歧义的优点。 9 武汉理工大学硕士学位论文 近年来又有人提出了基于字标注的分词方法【1 6 1 ,也就是把分词的过程视为 字在字串中的标注问题,因此能够平衡的对待词典词和未登录词。这里一般要 使用( h m m ) 【1 8 1 铆,最大熵1 2 0 2 ,条件随机场( c r f ) 2 1 , 2 2 1 ,支持向量机( s v m ) 瞄】等统计语言模型,这种方法对未登录词的识别效果较好,但是需要对语料库 进行大量的训练得到特征模板,计算量巨大,所以耗时较长。 图2 - 1 基于统计模型的分词方法 2 2 2 基于词典的分词方法 基于词典的分词方法又称为机械分词法,它的基本方法是:首先建立一个 词典,假设词典里包含待分文本中所有可能出现的词,对于给定的待切分的字 串s ,按照某种规则截取s 的子串,若该子串与词典中的某词匹配成功,则认为 该子串是词,将其从文本中切分出来,并继续截取剩余的部分,直到剩余字串 为空:若失败,则该子串不是词,再按照前面的规则重新截取s 的子串匹配。 根据截取子串的方向,机械分词法分为正向匹配法和逆向匹配法。根据每 次比较时是优先匹配长词还是短词,机械分词法又可以分为最大匹配法和最小 匹配法。由于多数汉字都可构成单字词,所以最小匹配法分词的结果一般因切 分太多而不合要求。所以常用的为最大匹配法。将最大匹配法与正向匹配法和 逆向匹配法进行组合,就是最常用的正向最大匹配法( m a x i m u mm a t c h i n g m e t h o d ) m m 和逆向最大匹配法( r e v e r e sm a x i m u mm a t c h i n gm e t h o d ) r m m 。 正向最大匹配法:设词典中的最大词长m ,在待切分字串中从左边开始截 取长度为m 的子串s 在词典中进行匹配。若匹配成功,则将此子串切分出来, 1 0 武汉理工大学硕七学位论文 从文本第m + 1 个字开始继续切分;若匹配失败,则子串s 长度减一,继续与词 典进行匹配;直至子串长度为一。 图2 2 正向最大匹配分词方法 逆向最大匹配法原理与正向最大匹配法相似,只是扫描方向不同,是由右 开始向左扫描。 这两种方法只能作为初分方法,一般不会单独使用【2 4 l ,实验表明逆向最大 匹配法的切分错误率大约为1 2 4 5 略低于正向最大匹配法的1 1 6 9 。1 2 5 1 但这种精 度还远不能满足中文信息处理的需要。 将m m 和r m m 结合起来就是双向匹配法,m m 和r m m 切分相同的时候 绝大多数结果是正确的,切分不同的时候9 0 以上有一种结果是正确的,只有 极少的时候两种方法的结果都是错误的。但是在两种方法结果不同时如何选择 是一个问题:并且m m 和r m m 对词典的结构有不同的要求,所以,将它们结 合起来时,要重新设计词典的结构以使两种方法都能快速切分。而且这种方法 处理歧义速度较慢。 武汉理工大学硕士学位论文 最大匹配法最初匹配子串长度的确定也是一个问题,由于汉语中词长为2 3 的词占大多数,因此若最初确定的词长较长,会造成开始的大多数匹配都是无 效的,如果确定的词长较短,又会造成长词被错误的切开。例如词长最大值设 为6 ,则“中华人民共和国的首都是北京。”会被切分为“中华人民共和国的 首都是北京。”中华人民共和国由于长度为7 就被错误的切开。若最大词长为7 , 则“我们的祖国是中国。 在切分时就会在匹配时从“我们的祖国是中开始一 直减到“我们才会匹配成功,前面4 次匹配都失败,会浪费大量时间。 对机械分词的其他改进方法还有设立切分标志法和结合词性标注法: 设置切分标志法,次方法优先在待分析字符串中识别出一些具有明显特征, 一般不和其他字组合成词,而是作为单字词出现的字,把这些词作为断点,将 原字串切分为较短的串再来进行机械分词,可以提高切分的准确率。 可以把分词和词性标注结合起来,利用词典中丰富的词性信息对切分提供 帮助,并在标注过程中对分词结果进行检验,也能提高分词的准确率。 为了加快匹配速度,人们在词典的分类及结构组织等方面进行了大量的研 究。有的系统中,词典除了基本词典之外又设计出扩展词典,例如数量词词典, 停用字词典,临时词典等。为了提高查找速度,有时又被分为单字词典、双字 词典、三字词典、四字词典和多字词典等。 机械分词法算法简单,容易实现,并且切分速度较快。但由于此方法只用 一个静态的词典来处理所有的中文信息,不能识别词典中没有出现过的词即未 登录词,也不能处理分词歧义问题。所以在自动分词系统中,通常将机械分词 法作为初分手段,再利用其它的方法来继续处理以提高分词的准确率。 2 2 3 机械分词词典的构造 分词词典是中文分词系统的一个基本组成部分。分词时所需要的各种信息 都要从分词词典中获取,分词词典的查询速度将直接影响到分词的速度。所以 要研究基于词典的分词算法首先就要确定分词词典结构。 早期的分词词典结构就是简单的顺序排列。但是汉语词典一般有超过十万 词条,如果每次匹配都要查找整个词典,那么查找速度肯定很慢。人们发现顺 序结构并不能得到良好的分词效果。近年来,通过研究者们的共同努力,相继 提出了多种词典机制,基于整词二分的词典机制,基于t r i e 索引树的词典机制, 基于逐字二分法的词典机制,基于h a s h 结构的词典机制。 1 2 武汉理1 = 大学硕士学位论文 ( 1 ) 整词二分的词典机制 整词二分法【2 8 2 9 j 是曾经广泛使用的一种词典机制,它包括词典正文,词索引 表,首字散列表。首字散列表确定了数据内容和数据存放地址之间的一一映射 关系;词索引表是指向词典正文中每个词的指针表,它需要实现对词的随机访 问;词典正文实际上是以词为单位的有序表。通过首字散列表的h a s h 定位和词 索引表很容易确定指定的词在词典正文中的可能位置范围,然后在词典正文中 使用整词二分进行定位。因为此方法采用全词匹配的查询方法,所以查找速度 很慢。 ( 2 ) t r i e 索引树的词典机制 t r i e 索引树法【2 6 。词典结构主要是两部分:根结点,其余结点。根结点 是一个首字散列表,和整词二分中的首字散列表类似,但是它只含一个指向所 有次字的入口地址的首项入口指针,其余结点由则由t r i e 索引树结点组成。 匹配的过程是从索引树的根结点依次匹配待查词中的每个字,也就是对树的某 一分枝的遍历。因此,采用该算法的分词速度较快,但树的构造和维护比较复 杂,而且由于都是单词树枝,浪费会大量存储空间。 ( 3 ) 逐字二分的词典机制 逐字二分法采用的仍然是整词二分的词典结构,它吸收了t r i e 索引树的查 询优势,但是采用的是“逐字匹配 ,而不是整词二分的“全词匹配”,这就提 高了匹配的效率。但是对于整词二分的数据结构并没有改变。 ( 3 ) h a s h 词典机制 近年来人们在总结了以前词典的优缺点之后,提出了h a s h 词典机制【m 3 1 3 2 】,通过一一映射的h a s h 函数,实现对词首字甚至次字,三字等的h a s h 查找, 经实验证明,这种词典机制取得很好的效果。 1 3 武汉理t 大学硕七学位论文 1 分词词典索弓i 一我 l 我们 我行我素 一稳 稳固 稳如泰山 一闻卜i 闻风 闻风瓶动 图2 - 3 级h a s h 的词典结构 上图是基于一级哈希索引的词典结构图,在基于一级哈希索引的词典中, 词典中的每个词的首字为h a s h 索引,在词典中查找某个词时先找到该词的第一 个字即索引,然后在此索引所指向的序列中查找。 如待匹配字符串为“稳如泰山 ,则在词典索引中查找“稳如泰山”的首 字 “稳”所对应的索引“稳,然后在索引“稳”所指向的数据项中查找“如泰山 存在于该数据项中,那么就确认“稳如泰山”为词。 在使用哈希索引的词典中索引个数的总数小于汉语的字数,因为常用汉字 只有4 0 0 0 个左右,所以使用哈希索引的词典可以大大减少查找的次数。 图2 - 4 二级h a s h 的词典结构 1 4 - 口日日 武汉理工大学硕士学位论文 例如:s t r i n g = “中国人在世界舞台上发挥越来越大的作用 在基于h a a s h 索 引的分词词典机制下查询过程如下: 1 首先在首字h a s h 索引中通过h a s h 定位得到以“中”字开头的索引项; 2 在“中 字开头的索引项有“国、“央”等,可以迅速找到“国 这一项; 3 在“国”索引项后有“人 、“共产党 、“队等索引项,可以快速找到“人”, 那么“中国人”就是词典中的词。 4 由于汉语中单字词和双字词语最多,在文本中出现的频率最高,而长度超 过二字的词出现的频率较低。只要能在词典中实现对二字以内的词快速查找, 那么系统的效率会明显的提高。因此本文词典也将采用双字h a s h 存储结构,以 实现词典的快速查找。 2 2 4 基于理解的分词方法 基于理解分词的方法包括专家系统分词法和神经网络分词法。 1 专家系统分词方法 专家系统分词方法【3 3 l 试图让机器具有人类的理解能力,它将中文分词过程 作为知识推理过程,使用计算机模拟人对句子结构的理解,利用相关的词以及 句子中的句法和语义信息并根据大量语料库中找出的汉字组词的结合特点进行 分析,以找到最符合原句语义的分词结果。 该方法需要使用大量的语言知识和信息,并要考虑知识的表示,知识库的 逻辑结构和维护。由于汉语语言知识的复杂性,将各种语言信息组织成机器可 直接读取的形式是很难的,因此此方法在实际应用中计算量巨大,算法的复杂 度也很高。此方法依靠预先设定的规则,不能从经验中进行学习。目前专家系 统分词方法尚处在实验阶段。 2 神经网络分词方法 神经网络分词方法【3 4 3 5 l 也是模拟人脑的运行,是一种以非线性并行处理为主 的非逻辑的信息处理方式。它将分词相关的知识以分散隐藏的方法存入神经网 络内部,通过自学习和训练修改内部权值,以达到正确的分词结果。关键在于 知识库的组织和网络推理机制的建立。神经网络具有联想,容错,记忆,自组 织,自适应,自学习等优点。缺点是网络连接模型表达复杂,训练时间长且不 能对自身的推理方法做出解释,对没有出现在训练样本中的未登录词不能正确 武汉理丁大学硕士学位论文 切分。 2 2 5 几种分词方法的比较 上面的的三类中文分词方法代表了目前中文分词的发展方向。 基于词典的机械匹配的分词方法出现最早,该方法算法简单,容易于实现, 已经在现实上得到了广泛的应用,但该方法无法有效

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论