




已阅读5页,还剩47页未读, 继续免费阅读
(微电子学与固体电子学专业论文)语音合成系统中自动分词技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨理工大学工学硕士学位论文 语音合成系统中自动分词技术的研究 摘要 语音合成技术是信息处理领域的一个重要分支,是人工智能的一个重要研究 方向。语音合成的核心技术主要体现在文本分析和合成语音时的韵律控制。其中 文本分析是语音合成的基础,主要包括:特殊符号转换、词的切分等。自动分词 的准确率严重影响到后续模块输出语音流的自然度,是文本分析系统的核心内 容。 本文主要目标是设计并实现一个中文自动分词系统。在分析了自动分词面临 的主要困难的基础上,旨在降低分词难度和提高分词精度。本文采用了基于改进 词典和机械分词相结合的分词算法,运用基于词典的方法处理文本并结合正反向 最大匹配分词方法消除歧义。本文算法在两个方面进行了改进。首先是在分词词 典方面,将以往单一的词典分为基本词典和特征词词典两个部分。改进了基本分 词词典在内存中的存储结构,采用了双字哈希索引结构将词典中的词按前两个字 为索引关键字进行存储,提高了匹配查找的速度。在匹配过程中结合特征词词典 大大提高了机械分词的准确率,提高了对姓名、地名和数量词的正确切分率,减 少这些词所引起的歧义数量,节省了歧义处理时间,提高了分词速度。 其次是在机械分词方面的改进,实现了正向与反向最大匹配分词结合的双向 分词匹配,在进行分词时,可以根据需要分别选择正向或反向最大匹配。系统同 时实现了屏幕分词与文件分词的两项功能。对比过去单一的分词方式,此系统提 供了两种分词模式,对比分词结果,有利于把握分词的准确性。根据个人喜好及 用途还可以选择屏幕分词与文件分词,极大方便了使用者。 测试结果表明分词算法具有较高的分词速度与准确率,在歧义的处理上也是 比较准确的。基本上可以满足语音合成系统中文本分析实际应用的要求。分词系 统在歧义处理等方面仍然有一些不足之处,还不能解决所有在中文自动分词中遇 到的问题,仍然有不少未登录词和歧义目前还不能解决。 关键词语音合成;中文自动分词;最大匹配;分词词典 哈尔滨理工大学工学硕士学位论文 r e s e a r c ho nt h et e c h n o l o g yo fa u t o m a t i c s e g m e n t a t i o nf o rt e x t - t o - s p e e c hs y s t e m a b s t r a c t t h et t st e c h n o l o g yi sa l li m p o r t a n tb r a n c hi ni n f o r m a t i o np r o c e s s i n ga n df i n d si t s g r e a tu s ei nt h ea r t i f i c i a li n t e l l i g e n c e t h ec o r eo ft t st e c h n o l o g ym a i n l yf o c u s e s0 1 1 t h et e x ta n a l y s i sa n dr h y t h mc o n t r o lo fv o i c e t h ef o r m e ri st h eb a s i c , m a i n l yi n c l u d i n g s p e c i a ls y m b o lc o n v e r s i o n a n dw o r ds e g m e n t a t i o n t h ea c c u r a c yo fa u t o m a t i c s e g m e n t a t i o nh a sg r e a ti n f l u e n c eo nt h en a t u r a ld e g r e eo fs u b s e q u e n tm o d u l eo u t p u t v o i c ef l o w , w h i c hd o r m i n a t e si nt h et e x ta n a l y s i ss y s t e m t h em a i no b j e c t i v eo ft h ep a p e ri st od e s i g na n dr e a l i z eac h i n e s ew o r d s e g m e n t a t i o ns y s t e m a f t e ra n a l y z i n gt h em a j o rd i f f i c u l t i e sa p p e a r i n gi nt h ea u t o m a t i c s e g m e n t i o n , t h ep u r p o s ei st or e d u c et h ed i f f i c u l t ya n di m p r o v et h ea c c u r a c y t h e s e g m e n t i o na l g o r i t h mi n t e g r a t e du p g r a d i n gd i c t i o n a r yw i t hm e c h a n i c a ls e g m e n t a t i o n w a sa d o p t e d ,a n du s i n gf o r t h - b a c km a t c h i n gs e g m e n t a t i o nt oe l i m i n a t et h ea m b i g u i t y i m p r o v e m e n th a sb e e nm a d ei nt h ef o l l o w i n gt w op a r t s :t h ef i r s to n e i ss e g m e n t a t i o n d i c t i o n a r y , w h i c hd i v i d e st h es i n g u l a ro n e i n t ot h eb a s i co n ea n dt h ec h a r a c t e r i s t i cw o r d o n e i nt h ep r o c e s so fm a t c h i n g , t h ei n t e g r a lc h a r a c t e r i s t i cd i c t i o n a r yi m p r o v e s m e c h a n i c a ls e g m e n - t a t i o ng r e a t l ya n dc o r r e c ts e g m e n t a t i o nr a t i o so fn a m e s ,p l a c ea n d q u a n t i f i e r , a n da tt h es a m et i m e , i tr e d u c e st h ea m b i g u i t yc a u s e db yt h e s ew o r d s ,s a v e s t h et i m ei np r o c e s s i n ga m b i g u i t ya n da c c e l e r a t e st h es e g m e n t a t i o n t h es e c o n di st h ei m p r o v e m e n ti nm e c h a n i c a ls e g m e n t a t i o n ,w h i c hr e a l i z e st w o - w a ym a t c h i n go ft h ef o r t ha n db a c ks e g m e n t a t i o n s ,a n dc a ns e l e c tt h ef o r t ho rb a c k m a t c h i n g i nt h es e g r n e n t a t i n g s i m u l t a n e o u s l y , t h es y s t e mr e a l i z e st h es c r e e l l s e g m e n t a t i o na n df i l es e g e m e n t a t i o n c o m p a r i n gw i 廿1t h ef o r m e rs i n g u l a ro n e , t h e s y s t e mp r o v i d e s t w o s e g m e n t a t i o np a t t e r n s ,a n dt h r o u g hc o m p a r i s o n o ft h e s e g m e n t a t i o nr e s u l t s ,t h ea c c u r a c yo fs e g m e n t a t i o ng a i n sm u c ha d v a n t a g e a c c o r d i n gt o p e r s o n a ll i k e sa n du t i u t y , t h es c r e e ns e g m e n t a t i o na n df i l es e g m e n t a t i o nc a nb ec h o o s e d , w h i c hi sa tt h eb e n e f i to f u s e r s 哈尔滨理工大学工学硕士学位论文 t h et e s t i n gr e s u l ts h o w st h a tt h es p e e da n da c c t a a c yo f s e g m e n t a t i o na l g o r i t h mi sr a t h e r h i g h , a n dt h ea l g o r i t h mi sf a i r l ya c c t m a t ei np r o c e s s i n gt h ea m b i g u i t y , w h i c hm e e t st h e p r a c t i c a lr e q u i r e m e n t so fc l l i n e s ea n a l y s i si nn s h o w e v e r , t h e r ea r es t i l ls o m e s h o r t c o m i n g si nt h es y s t e ms u c ha si np r o c e s s i n ga m b i g u i t y , i ns o l v i n gt h ep r o b l e m s e n c o u n t e r i n gi na u t o m a t i cs e g m e n t a t i o n , a n di nu n k n o w nw o r d sa n dt h ea m b i g u i t y k e y w o r d st e x t - t o s p e :e c h , c h i n e s ew o r da u t o m a t i cs e g m e n t a t i o n , m a x i m u m m a t c h i n g , s e g m e n t a t i o nd i c t i o n a r y 哈尔滨理工大学硕士学位论文原创性声明 本人郑重声明:此处所提交的硕士学位论文语音合成系统中自动分词技术的 研究,是本人在导师指导下,在哈尔滨理工大学攻读硕士学位期间独立进行研究 工作所取得的成果。据本人所知,论文中除已注明部分外不包含他人已发表或撰写 过的研究成果。对本文研究工作做出贡献的个人和集体,均已在文中以明确方式注 明。本声明的法律结果将完全由本人承担。 作者签名:挎确许日期:h 1 年三月叫日 哈尔滨理工大学硕士学位论文使用授权书 语音合成系统中自动分词技术的研究系本人在哈尔滨理工大学攻读硕士学 位期间在导师指导下完成的硕士学位论文。本论文的研究成果归哈尔滨理工大学所 有,本论文的研究内容不得以其它单位的名义发表。本人完全了解哈尔滨理工大学 关于保存、使用学位论文的规定,同意学校保留并向有关部门提交论文和电子版 本,允许论文被查阅和借阅。本人授权哈尔滨理工大学可以采用影印、缩印或其他 复制手段保存论文,可以公布论文的全部或部分内容。 本学位论文属于 保密,口在年解密后适用授权书。 不保密口。 ( 请在以上相应方框内打) 作者签名:;i 蛹呐簟日期:土7 年1 月) 1 日 导师签名:廖艨呀日期:年3 月日 哈尔滨理工大学工学硕士学位论文 1 1 引言 第l 章绪论 语言是人类在漫长的进化过程中逐渐形成的一种相互交流和沟通信息的方 式【l 】。在进化过程中,人类在语言的产生、语言的理解、代表语言信息的声音 接收上,形成了自己独特的功能器官:肺、气管、喉、嘴、唇和耳,从更深的 意义上说大脑也应包含在里面,实际上人类的语言功能系统是人这个宏系统的 一个子系统。对语言研究涉及众多学科,包括语音学、语言学、认知科学、发 声学、人类心理学、思维方法学等【2 】。 语音是语言的物理表现形式,它包含了语言的语义信息。语音信号处理从 学科研究的方面来说主要有四个分支:语音合成、语音编码、语音识别和说话 人识别【3 1 。随着社会经济技术的飞速发展,信息化成为现代社会的基本要求, 人们要求更方便、更快捷、更多数量的信息输入和输出。语音、文字和图像作 为信息的主要载体,逐步从分立的研究方向整合为一个统一的信息媒体。一个 经典的例子就是手机的发展。最初的手机仅仅用于传输声音信号,而现在的手 机可以方便的传输短信息文字、彩色图片及数据等。 语音合成技术是信息处理领域的一个重要分支,实现计算机文本文件语音 合成,就是让计算机开口说话,这也是人工智能的一个重要研究方向。语音合 成是一门跨学科的技术,涉及到自然语言理解、语音学、信号处理、心理学、 声学、多媒体技术等多个领域,是当今世界强国竞相研究的热门技术之一【4 1 。 1 2 语音合成技术简介 目前,语音合成常用的方法大致可以分为三种类型f 5 】:波形合成法、参数 合成法和规则合成法,这三种方法各有优缺点。汉语语音合成目前最常用的方 法是波形合成法。 1 2 1 波形合成法 波形合成法一般有两种形式。一种是波形编码合成1 6 1 ,它类似于语音编码 中的波形编解码方法,该方法直接把要合成的语音的发音波形进行存储或进行 哈尔滨理工大学工学硕士学位论文 波形编码压缩后存储,合成重放时再译码组合输出。这种语音合成器只是语音 存储和重放的器件。显然,这种方法合成的语音,词汇量不可能很大,因为所 需要的存储容量太大了。另一种是波形编辑合成川,它把波形编辑技术用于语 音合成,通过选取语音库所采取的自然语言的合成单元波形,对这些波形进行 编辑拼接后输出。因此,该方法必须选择较大的语音单位作为合成基元,例 如,选择词、词组、短语、甚至语句作为合成基元。该方法容易获得高质量的 语音输出,但只能合成有限词汇的语音段。目前许多专用的语音合成器都采用 这种方式,如自动报时,公交车报站等。 1 2 2 参数合成法 参数合成法是一种比较复杂的方法。一般有发音器官参数合成和声道模型 参数合成。其中,发音器官参数合成法是对人的发音过程直接进行模拟。它定 义了唇、声带、舌头的相关参数,由发音参数估计声道截面积函数,进而计算 声波。由于发音生理过程的复杂性和理论计算与物理模拟的差别,合成语音的 质量还不理想。而声道模型参数语音合成是基于声道截面积函数或声道谐振特 性合成语音的。其中比较著名的有k l a t t 的共振峰合成系统【8 ,9 】,后来又产生了基 于l p c ( l i n e a rp r e d i c t i v ec o d i n g ) 、l m a ( l o gm a g n i t u d ea p p r o x i m a t e ) 等声学参数 的合成系统【1 0 1 1 1 。参数合成方法的优点是存储容量小,并且适应的韵律特征范 围较宽,产生的音质适中;缺点是参数合成技术的算法复杂度太高,参数多, 信息容易丢失,合成出的语音的自然度和可懂度大打折扣。近些年发展了混合 编码技术,主要是为了改善激励信号的质量。 1 2 3 规则合成法 这是一种高级的合成法。它通过语音学规则产生语音。系统中存储的是最 小的语音单位的声学参数以及合成过程中用于韵律控制的各种控制规则,如: 声调变调规则、儿化音规则、轻音处理规则等。给出输入文本后,该合成方法 利用规则将它们转换成连续的语音声波。该合成方法最具代表性的是基音同步 迭加技术( p s o l a :p i t e hs y n c h r o n o u so v e r l a p a d d ) t 1 2 】,该方法既能保持所发音的 主要音段特征,又能在拼接时灵活调整其韵律特征。它以基音周期为单位进行 波形的拼接和修改,算法直接作用于语音波形的数据,实现语音的拼接,韵律 的修改。p s o l a 算法的实现目前有3 种方式,分别为时域基音同步迭加( t d 哈尔滨理工大学工学硕士学位论文 p s o l a :t i m ed o m a i n - p s o l a ) t 1 3 】、线性预测基音同步迭加( l p c p s o l a ) v 4 1 和频 域基音同步迭j j l l ( f d p s o l a :f r e q u e n c yd o m m n - p s o l a ) 1 5 1 。其中t d p s o l a 算 法计算效率较高,已被广泛应用,是一种经典算法。 1 3 语音合成技术的发展现状 国内外对语音合成技术的研究已有几十年的历史。近1 0 多年来,“微 软”、“i b m ”、“m o t o r o l a 等国际巨头纷纷看好语音市场,投入巨大的人 力和财力进行研究,陆续出现了英语、日语、西班牙语和法语等语种的t t s 商 品,尤其是英语t t s 系统的研究开发时间较长,其成果已应用在多语种语音翻 译系统中。例如,i b m 公司开发的智能词典2 0 0 0 ,采用了m m 公司先进的t t s 技术对英文单词、短语、句子乃至整篇文章进行准确发音;美国a t & t 开发的 真人,丌s 系统,它模拟的英文发音几乎让用户无法分辨出真假:微软公司开发 的s a p i s d k 语音应用开发工具包,对英语和汉语的语音合成提供了强有力的 支持。 而近些年,国内在汉语语音合成方面也取得了令人瞩目的成就。汉语语音 合成的重大突破,也是在制定汉语韵律标注符号系统【16 ,1 7 1 及引入单元挑选的技 术路线之后,普遍采用了以韵律词为基本单位的韵律层级结构作为汉语主要的 韵律特征。同时,在汉语韵律声学体现分析【l 引、基于韵律标注数据库的韵律统 计建模 1 9 , 2 0 1 等方面取得了实质性进展。研发出了一些基于汉语语音的t t s 系统, 例如,炎黄新星网络科技有限公司在国内首创以时域合成方法实现的汉语t t s 系统;金山公司出品的金山词霸中的朗读系统;万科数据电子出版社出版的汉 语电子大百科;捷通华声公司研究出版的t t s 掌上计算机;华建机器翻译有限 公司出品的华建多语译通v 3 1 0 等。但实际上这些产品的语音输出质量和自然语 音仍有一定的差距,还有待于进一步提高。 虽然语音合成系统已经进入应用阶段,但依然存在诸多问题。由美国自然 科学基金支持的英语语音合成系统性能评澳l j b l i z z a r dc h a l l e n g e 已经_ 连续举行了 两届1 2 。参加单位基于共同的合成语音样本数据库开发各自的系统,提交合成 语音样本用于评测。这些合成语音样本设置了押韵测试( m o d i f i e dr h y m e t e s t ,m r t ) 、语义不可预测句测试( s e m a n t i c a l l yu n p r e d i c t a b l es e n t e n c e s ,s u s ) ,采 用词错误率( w o r de r r o rr a t e ,w e r ) 反映合成样本的可懂度;设置了5 分制的主观 评价得分( m e a no p i n i o ns c o r e ,m o s ) 用以反映合成样本的自然度。在2 0 0 5 年的测 试中,由专家测评组测试的最佳系统结果为:w e r 为1 4 - - - , 1 7 ,m o s 为3 11 哈尔滨理工大学工学硕士学位论文 分。2 0 0 6 年的测试中,专家组给出的最高m o s 为3 1 6 分。从测试结果看,无论 是可懂度还是自然度,较自然人发音都还有明显的差距。 在国家“八六三”计划有关项目的支持下,针对汉语语音合成系统的研 究,已进行了数次评测【2 2 】。在各次评测中,同样设置了可懂度和自然度的测试 内容。评测结果反映,在可懂度和自然度方面,汉语的语音合成质量同样还有 相当大的提升空间。 1 4 本文研究背景及意义 语音合成系统又称文一语转换( t t s :t e x t - t o - s p e e c h ) 系统【2 3 1 。其主要功能是 把文本文件通过一定的软硬件转换后由计算机或其他语音系统输出语音,并尽 量使合成的语音有较高的可理解度和自然度。 一个成功的语音合成系统应当包括文本分析、合成语音以及韵律控制模 块,最终输出音质清晰,自然流畅的语音。其原理如图1 1 所示。 图1 - 1 语音合成系统框架 f i g 1 1t h ef r a m e w o r ko ft t ss y s t e m 语音合成的核心技术主要体现在文本分析和合成语音时的韵律控制。其中 文本分析在t t s 系统开发中占了几乎一半的工作量,但从目前大量有关合成的 论文来看,一些合成团队并没有十分关注文本分析。实际上,为了使系统达到 高质量的合成效果,最大的障碍就是文本分析【2 4 1 。文本分析主要是对文本中的 句子进行浅层的分析理解,并将其结果转换成控制参数存放,再送给其后语音 参数处理模块使用。处理的内容有:特殊符号转换、词的切分等。词切分的准 哈尔滨理工大学工学硕士学位论文 确率和消歧率的高低严重影响到后续模块输出语音流的自然度,是文本分析系 统的核心内容。 自动分词是语音合成系统的一项基础性工作。在语音合成处理中首先要解 决自动分词的瓶颈问题【2 5 1 。中文自动分词的研究,主要是从词层面进行的研 究,这一问题在7 0 年代末就受到了广泛的关注。目前,许多分词方法已得到 了实现。在这一长期的研究和实践过程中,分词单位的确定、歧义字段处理和 未登录词识别成为困扰我们的三大难题。尽管有这些难题的长期困扰,汉语自 动分词仍得到很多现实应用。如在中文文本的自动检索、过滤、分类及摘要, 文本的自动校对【2 6 1 ,机器翻译【2 7 1 ,手写汉字识另1 1 2 8 1 和汉语语音处理的后处理 2 9 1 ,汉语语音合成,以句子为单位的汉字键盘输入,汉字简繁转换等领域中文 自动分词都扮演着重要的角色,尤其是在汉语语音合成中,中文自动分词是语 音合成的最基础的工作。 1 5 中文自动分词的发展现状 因为中文文本是按句连写的,词与词之间没有界限标志。那么,在不改变 文本书写样式的前提下,解决中文文本分词的任务只能交给计算机处理,即由 计算机自动分词,也就是说,由机器在中文文本的词与词之间自动加上空格。 这是目前中文信息处理学界解决中文文本分词采用的主要方法,这方面,北京 大学计算语言研究所、北京工业大学计算机学院以及北京邮电大学等都取得了 突破性的进展【3 0 】。 使用计算机自动分词,这项研究不仅成本极高而且最为关键的问题是它达 不到1 0 0 的准确率,对这样的句子“我们是学生 ,计算机可以很容易地切分 出“我们”、“是”、“学生”这三个词,从而达到对句子的正确理解。可是对下 列这些句子,利用计算机自动分词就不是那么简单的事情了。 a 、这样的人才能出众。 b 、今天学生会讨论这个问题。 c 、该研究所得到的奖金很多。 d 、任何庆魁怎么讲,他都不相信。 在句子a 中,因为没有词界标志,“人”和“人才 之间产生了词与词之 间的交叉,是:这样的人才能出众。还是:这样的人才能出众。对于计算机 来说,要做出正确地选择是不容易的。句子b c d 也是同样的问题:今天学生 会讨论这个问题。今天学生会讨论这个问题。该研究所得到的奖金很多。该 哈尔滨理工大学工学硕士学位论文 研究所得到的奖金很多。任何庆魁怎么讲,他也不信。任何庆魁怎么讲,他 也不信。对这种现象我们称之为歧义字段的切分,在上面这些句子中,“人 才”、“学生会”、“研究所”、“任何”是歧义字段。从以上的分析我们可以看 出,影响计算机自动分词效果一个最大的问题就是歧义字段的切分问题。目前 为了解决歧义字段的切分,采用“最大匹配法”、“双向最大匹配法 、“联想一 回溯法”等,但这些方法都不能达到最佳切分效果。根据1 9 9 8 年初【3 1 1 ,由国 家科委基础研究高技术司、国家高技术8 6 3 计划智能计算机系统主题专家组、 全国信标委非键盘输入分技术委员会组织的机器翻译系统、自动分词与标注、 汉字识别系统、语音识别系统的测评结果,对2 2 9 个测试点的交集型歧义切分 字段定点测试,北京工业大学计算机学院提交的系统,准确率为6 8 5 6 ;对 2 0 个测试点的多义组合型歧义切分字段定点测试,北京工业大学计算机学院提 交的系统,准确率为4 0 o o 。 1 6 本文主要研究内容 本文着重讨论汉语语音合成中的基础性环节一自动分词。本论文主要完成 了以下几个方面的研究工作: ( 1 ) 建立合适的词典资源库。主要包括词典等知识库和语料库资源的搜 集、加工,并对搜集到的分词词典进行扩充等; ( 2 ) 编译分词算法,实现各功能模块。包括正向最大匹配与逆向最大匹配 模块,屏幕分词与文件分词模块; ( 3 ) 分词系统界面设计和系统结构设计。考虑可维护性和可升级性,进行 系统结构设计,划分功能模块; ( 4 ) 系统的性能评价及结果分析。 啥尔滨理工大学工学硕士学位论文 第2 章中文自动分词技术 语音合成的核心技术主要体现在文本分析和合成语音时的韵律控制。其中 文本分析在订s 系统开发中占了几乎一半的工作量,处理的内容有:特殊符号 转换、词的切分等。自动分词的准确率严重影响到后续模块输出语音流的自然 度,是文本分析系统的核心内容。词层面的研究是句层面研究的基础。词层面 的问题最重要的就是中文自动分词问题。 2 1 中文自动分词的定义及特点 在书面汉语中,字与字、词与词是连写的,词在旬中没有显示的标记。因 此,理解汉语的首要任务就是把连续的汉字串分割成词的序列吲。计算机内部 存储的中文信息一汉字,如中文书面语一样,也是连续书写的,词与词之间也 没有任何区分标志,为了能够在词这一平面上进行自然语言处理,就必须把汉 字字串序列按词切分开,使一个没有间隔标志的汉字字串序列转化为词串序 列,这就是中文自动分词。 中文句子的基本单位是字而不是词,但理解一个句子的单位却是词。字组 成了词,由词组成了句子才使得一个句子有意义。但分词中的词与语言学中说 的词有一定的区别。分词中所说的词,是指一个分词单位。分词单位包含了语 言学中的词。信息处理用现代汉语分词规范中,对词的定义是最小的能独 立运用的语言单位l 。其实,中文自动分词归根到底就是把字序列通过一定的 算法加工成词序列。如图2 1 是对中文自动分词系统的简单描述。 图2 - 1 中文自动分词系统的作用 f i g 2 - 1 t h er o l eo fc h i n e 跎w o r ds e g m e n t a t i o n 对分词单位的定义是:汉语信息处理使用的、具有确定的语义或语法功能 哈尔滨理工大学工学硕士学位论文 的基本单位。它包括本规范的规则限定的词和词组。然而,并不是所有的研究 人员都按照信息处理用现代汉语分词规范来进行中文自动分词。在词的问 题上,没有一个统一的标准。 中文词的最大特点是中文构成词的能力非常强大,中文词的集合是一个开 放集。一个汉字可以和很多汉字组成词,比如“瓶 :有奶瓶、花瓶、啤酒 瓶、液化气瓶、玻璃瓶、塑料瓶等等;比如“子 :有瓶子、桌子、孔子,孙 子等等。 词由单个或多个字构成,一般用得最多的是二字词,其次是单字词,另外 还有一些多字词( 如成语、单字词) ,另外还有一些多字词( 如成语、专有名 词等) 。词具有以下主要特点: 1 数量多汉语中常用的词有几万条,现代汉语词典中收录的词就 达6 万个之多。而且,随着社会的发展,不断地有新词产生。 2 使用灵活、变化多样、容易产生歧义例如同样的两个连续汉字,在有 的句子中构成一个词,而在另外的句子环境中,却可能不构成词。这给计算机 的词法分析工作带来了极大的困难。 3 书写习惯在英文系统中,词与词之间在书写上用空格隔开,计算机处 理时可以非常容易地从文档中识别出一个一个的词。而在汉语系统中,书写以 句子为单位,旬间有标点隔开,在句内,字和词则是连续排列的,它们之间没 有任何分隔。这样,如果要对中文文档进行基于词的处理,必须先要进行词的 切分处理,以正确地识别出每一个词。 4 其它特点诸如汉字同音字、同音异形字等等。 2 2 中文自动分词研究的重点与难点 在文字信息处理的层次上,由于汉字是大字符集,与英语等欧洲语言采用 的几十个字母相比,发展进程中遭遇过很多不同的障碍,不过现在大体上已经 克服了,汉字信息处理技术已经实用化、产品化。在语言信息处理的层次上, 特别是到了内容处理或语义理解的阶段,人类语言共性的影响远远超出了它们 各自的特性。以词语切分而言,并不能说它是汉语的特别任务,其他语言( 包 括英语) 也有相似的课题。有实践经验的人又普遍感到汉语信息处理确实存在 一些特别的困难。原因主要在于书面汉语的以下两个重要特点【3 4 】: 不同的语言单位( 以汉字表示的语素、词、短语、句子乃至更大的单位) 之间界限不清晰; 哈尔滨理工大学工学硕士学位论文 中文的语言要素,特别是词,在运用时缺乏指示其功能或语义的形态变 化。 2 2 1 分词技术的重点 由于中文文本的字与字之间的连续性,即汉语文本中词与词之间没有明确 的分隔标记,计算机无法识别出中文文本中哪些汉字串组合成词,导致处理中 文信息无法直接理解中文的意义。汉语的中文信息处理就是要“用计算机对汉 语的音、形、义进行处理” 3 5 1 。而“词是最小的能够独立活动的有意义的语言 成分”。显而易见,自动识别词边界,将汉字符串切分为正确的词串的汉语分 词问题无疑是实现中文信息处理的各项任务的首要问题。中文自动分词的技术 重点大概可以分为以下几个方面: 1 分词算法分词算法是分词技术的重点之一。分词算法的好坏,直接决 定了分词系统的好坏。主要体现在分词算法的准确度和时间复杂度,影响了分 词技术的发展。目前已有了很多分词算法,并且对以往的分词算法作了很大的 改进,使得分词算法在准确度和速度得到了很大的提高。提高分词算法的准确 度与速度是分词技术发展的重点之一。 2 歧义切分歧义切分有时包含在分词算法之中,一些分词算法就包含了 歧义切分。在分词技术中,歧义切分和未登录词识别显得更为重要,因为分词 技术的准确度和速度在很大程度上依赖于歧义切分和未登录词识别的好坏。分 词系统中必须引入歧义切分,而且要求提高分词准确度的同时,考虑到对分词 速度的影响。例如,对句子“只有才能出众的人才能胜任这份工作”切分,里 边的歧义字段有“才能和“人才”,要对它们进行准确的切分,不是一件简 单的事情。对歧义切分,不可能要求准确度达到1 0 0 ,但也要达到很大的准 确度,以满足实际应用的需要。 3 未登陆词的识别未登录词和歧义切分是分词技术的两大难题。在中文 文章里,未登录词占有很大的比例。分词系统要对未登录词进行识别处理,而 且要求准确度和速度很高。目前对未登录词的识别技术已经得到很大的发展, 各种方法策略已经应用到分词算法当中,本文中也制定了一些方法来提高新登 陆词的识别。 4 词性标注之所以进行词性标注,是为了便于中文信息处理中的句法分 析、语义分析和自然语言理解等【3 6 1 。因而把词性标注作为中文自动分词工作的 一部分,并且是非常重要的一部分。 哈尔滨理工大学工学硕士学位论文 2 2 2 分词技术的难点 中文句子是由连续的词和词语组成,中间没有空格,为了使机器理解它, 需要对中文句子进行分词处理。中文自动分词已经研究了二十多年,但是目前 仍然是制约汉语信息处理的瓶颈。宏观地看,主要存在语言学和计算机科学等 两方面的困难。语言学的困难有: ( 1 ) 词的定义不统一。虽然国家标准信息处理用现代汉语分词规范 给出了词和分词单位的非形式定义,但是语言界对词还没有给出一个为大家广 泛接受的、严格且统一的非形式定义。词的形式定义或者抽象定义问题也没有 完全解决。 ( 2 ) 汉语的分词还没有形成一个公认的分词标准,同一文本可能被不同的 人划分为几种不同的分词结果。 ( 3 ) 词的具体判定问题还没有完全解决。尽管信息处理用现代汉语分词 规范提出了分词单位和一套比较系统的分词规则,但是由于真实文本的复杂 性和多样性,实践与理论之间的重大差异,仍然没有能够在词层面解决问题。 问题的实质在于分词规范和分词词表的构造应该和汉语真实语料库结合起来考 虑。同时,除了定性信息外,还必须引入定量信息3 7 1 。 计算机方面的困难有: ( 1 ) 没有合理的自然语言形式模型; ( 2 ) 如何有效地利用和表示分词所需的语法知识和语义知识; ( 3 ) 如何对语义进行理解和形式化。 具体到中文自动分词这个课题上,中文自动分词技术存在的主要困难也就 是中文自动分词技术的重点:分词算法、歧义切分、未登录词识别、词性标注 【3 8 】。 中文自动分词这个课题研究了很长时间,主要存在的问题一直都难以完全 解决。中国及国外一些研究中文的机构对这些问题的研究,每取得一点进步都 是很费时费力的。而最为困难的,则是被称为中文自动分词技术两大难题的歧 义切分和未登录词的识别。比如对于歧义切分,很多消歧方法就只考虑处理交 集型歧义字段而对组合型歧义字段则不予考虑。而目前所有的消歧方法对真歧 义现象都置之不理。即使如此,对交集型歧义字段的处理的效果也不是很理 想。本文作者认为原因有几点:一是现有的消歧方法处理精度一般只能达到一 个理想的上限就无法再提高;二是理想的消歧方法与实际处理结果有一定的差 哈尔滨理工大学工学硕士学位论文 距;三是消歧策略是由人来定制的,人无法对所有的歧义字段结构都了解得一 清二楚,很多歧义字段是人无法预料得到的。这三个原因只是表面的原因,而 真正的原因是汉语强大的构词能力,现有的计算机水平不足以像人一样理解中 文。所以,对于能基本满足实际需要的分词技术,就可以认为是很成功的技 术。 2 3 中文自动分词算法分类 中文自动分词技术属于自然语言处理技术范畴,对于一句话,人可以通过 自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解? 其处理 过程就是分词算法。 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的 分词方法和基于统计的分词方法【3 9 】。 2 3 1 基于字符串匹配的分词算法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与 一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串, 则匹配成功( 识别出一个词) 。按照扫描方向的不同,串匹配分词方法可以分 为正向匹配和逆向匹配 4 0 l ;按照不同长度优先匹配的情况,可以分为最大( 最 长) 匹配和最小( 最短) 匹配;按照是否与词性标注过程相结合,又可以分为 单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如 下: ( 1 ) 正向最大匹配法( 由左到右的方向) ; ( 2 ) 逆向最大匹配法( 由右到左的方向) ; ( 3 ) 最少切分( 使每一句中切出的词数最小) 。 还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向 最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小 匹配和逆向最小匹配一般很少使用。 一般说来,逆向匹配的切分精度略高于f 向匹配,遇到的歧义现象也较 少。统计结果表明,单纯使用正向最大匹配的错误率为1 1 6 9 ,单纯使用逆向 最大匹配的错误率为1 2 5 4 t 4 。( 这是因为汉语的语言重心靠后的特点。) 但这 种精度还远远不能满足实际的需要。由于分词是一个智能决策过程,机械分词 哈尔滨理工大学工学硕士学位论文 方法无法解决分词阶段的两大基本问题:歧义切分问题和未登录词识别问题。 实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种 其它的语言信息来进一步提高切分的准确率。一种方法是改进扫描方式,称为 特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征 的词,以这些词作为断点,将原字符串分为较小的串再来进行机械分词,从而 减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词 类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检 验、调整从而极大地提高切分的准确率。对于机械分词方法,可以建立一个一 般的模型,形式地表示为a s m ( d ,a ,m ) ,即a u t o m a t i cs e g m e n t a t i o nm o d e l 。其 中, d :匹配方向,+ 1 表示方向,1 表示逆向; a :每次匹配失败后增a n 减少字串长度( 字符数) ,+ 1 为增字,一1 为减 字; m :最大最小匹配标志,+ 1 为最大匹配,1 为最小匹配。 例如,a s m ( + ,+ ) 就是正向减字最大匹配法( 即m m 方法) ,a s m ( ,+ ) 就 是逆向减字最大匹配法( 即r m m 方法) ,等等。对于现代汉语来说,只有 m - + l 是实用的方法。用这种模型可以对各种方法的复杂度进行比较,假设在 词典的匹配过程都使用顺序查找和相同的计首字索引查找方法,则在不记首字 索引查找次数和词典读入内存时间的情况下,对于典型的词频分布,减字匹配 a s m ( d ,一,m ) 的复杂度约为1 2 3 次,增字匹配a s m ( d ,+ ,m ) 的复杂度约为1 0 6 。 另外,还可以证明,早期曾流行一时的“切分标志字串”预处理方法是一个毫 无必要的技术,它增加了一遍扫描“切分标志词典”的时空复杂性,却并没有 提高分词精度,因为所谓的切分标志其实都已经隐含在词典之中,是对词典功 能的重复。实际“切分标志”也没有标记歧义字段的任何信息。因此,在近来 的分词系统中,已经基本上废弃了这种“切分标志”预处理方法。 2 3 2 基于理解的分词算法 这种方法也称作基于知识的分词方法,是通过让计算机模拟人对句子的理 解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析, 利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系 统、句法语义子系统和总控部分。在总控部分的协调下,分词子系统可以获得 有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句 哈尔滨理工大学工学硕士学位论文 子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言 知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因 此目前基于理解的分词系统还处在试验阶段。 知识分词与机械分词方法的根本区别在于它不仅仅只是通过词典匹配,而 且还要利用词法、句法甚至语义等方面的知识。知识分词不仅利用知识的范围 更广,而且还利用人工智能技术进行推理,并且将分词与“歧义校正”合为同 一过程,而不是像机械分词加歧义校正法那样先分词再校正。此外,知识分词 中的分词程序和知识库设计更具相对独立性,有利于知识库的维护。 2 3 3 基于统计的分词算法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现 的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够 较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行 统计,计算它们的互现信息。互现信息是一个容易操作的量化标准,体现了汉 字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组 可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分 词典,因而又叫做无词典分词法或统计取词方法 4 2 1 。但这种方法也有一定的局 限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、 “之一 、“有的”、“我的”、“许多的 等,并且对常用词的识别精度差,时空 开销大。实际应用的统计分词系统都要使用一部基本的分词词典( 常用词词 典) 进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串 匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典 分词结合上下文识别生词、自动消除歧义的优点。 基于统计的分词方法所应用的主要的统计量或统计模型有:互信息、n 元 文法模型、神经网络模型、隐马尔克夫模型和最大嫡模型等。这些统计模型主 要是利用词与词之间的联合出现概率作为分词的信息。 基于统计的分词方法优点: ( 1 ) 不受待处理文本的领域限制; ( 2 ) 不需要一个机器可读词典。 基于统计的分词方法缺点: ( 1 ) 需要大量的训练文本,用以建立模型的参数; ( 2 ) 信息计算量非常大; 哈尔滨理工大学工学硕士学位论文 ( 3 ) 分词精度与训练文本的选择有关。 到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分 词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。例 如,中科院、海量科技的分词算法都是就采用了“复方分词法”,所谓复方, 相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对 于中文词的识别,需要多种算法来处理不同的问题。 2 4 几种典型中文自
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年数控切割工考试题及答案
- 古建筑方案设计投标
- 兽医专业的面试题及答案
- 2025年K2教育STEM课程实施现状与未来发展趋势:效果评估与启示报告
- DB65T 4454-2021 新疆褐牛生产性能测定技术规范
- 课时7.3 万有引力理论的成就-2024-2025学年高中物理同步练习分类专题教学设计(人教版2019必修第二册)
- 2025年制造业数据治理策略与智慧工厂建设报告
- 2025年新能源行业碳足迹评估与碳减排产业趋势预测报告
- 2025年高升专数学试题及答案
- 城乡交流遴选考试题及答案英语
- 钢铁冶金学(炼钢学)课件
- 历史虚无主义课件
- 微生物实验室风险评估报告
- 毕业论文范文3000字(精选十六篇)
- 2022年阜阳市工会系统招聘考试题库及答案解析
- 南京力学小学苏教版六年级上册数学《分数乘分数》公开课课件
- 陶艺制作过程介绍教学课件(共48张)
- 发动机构造第7章 发动机总体结构
- 电子材料来料检验标准
- 眼外伤病人护理
- 非标设备制作、安装方案
评论
0/150
提交评论