(管理科学与工程专业论文)基于贝叶斯网络的文语转换系统文本分析研究.pdf_第1页
(管理科学与工程专业论文)基于贝叶斯网络的文语转换系统文本分析研究.pdf_第2页
(管理科学与工程专业论文)基于贝叶斯网络的文语转换系统文本分析研究.pdf_第3页
(管理科学与工程专业论文)基于贝叶斯网络的文语转换系统文本分析研究.pdf_第4页
(管理科学与工程专业论文)基于贝叶斯网络的文语转换系统文本分析研究.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东师范大学硕士学位论文 摘要 贝叶斯网络是研究不确定性问题的重要方法之一。它是基于概率和统计 理论,具有坚实的数学基础。由于具有自然的表达方式、强大的推理能力和 方便的决策机制等优点,贝叶斯网络在许多领域得到了广泛的应用。而文语 转换( t t s ) 是将文字信息按语音处理规则转换成声音信号输出的技术,它可 以使计算机流利地读出文字信息,使人们通过听就可以明白信息的内容。由 于汉语文字博大精深,其文本分析具有较大的不确定性,故传统的基于规则 的文本分析方法不能很好的适应文语转换系统,特别是开放字集分析系统的 需要。本文在贝叶斯网络基础理论框架的基础上,将其应用于文语转换系统 中的文本分析中。本文主要讨论了贝叶斯网络的基础知识、文本分析的主要 研究问题和基于贝叶斯网络的文本分析算法及实验结果分析等三个主要部 分。 首先对贝叶斯网络的基础知识,包括贝叶斯网络的定义、符号表示进行 了讨论;并在此基础上讨论了朴素贝叶斯分类器、树扩张朴素贝叶斯分类器、 b a n 分类器、贝叶斯多网分类器、通用贝叶斯网分类器等几种典型的贝叶斯 网络分类器,进而讨论了各自的特点;为了降低贝叶斯网络的计算复杂性, 讨论了上下文独立关系、因果独立关系,并讨论了独立关系的作用。 针对文本分析中研究的难点,主要讨论了句子边界的确定方法,在以符 号作为文本分析的主要依据的基础上,给出了有歧义符号的判定算法,并给 出了具体算法及其应用示例;针对特殊符号给出了特殊符号分析的方法,针 对汉语中的英文和数字也进行了分类,并给出了相应的分析算法;讨论了消 岐分词的两种主要方法基于规则的方法和基于统计的方法,并进行了比 较;给出了多音字的分类方法,按照多音字词性与字音的对应关系将多音字 分为a 类和b 类,并针对不同类型的多音字给出了相应的分析方法,进而 讨论了分析的效果。 在文本分析中,分词主要有两种技术手段:一个是基于规则的方法,另 山东师范大学硕十学位论文 l i 一个是基于统计的方法。基于规则的方法是处理确定性问题的重要手段,它 具有充分吸取专家经验和更为直观、更易于获得的优点。而基于统计的方法 则更鲁棒,性能更高。作为一种基于概率和统计理论的数据分析和辅助决策 工具,贝叶斯网络适合于博大的中文文本分析工作。本文将文本分析与贝叶 斯网络相结合,并选取测试数据进行测试。测试结果表明本文的算法在分词 准确率、召回率、f 指标等方面都优于其他算法;而对于多音字的辨析方面 在不同的测试集上也表现出较好的性能。 关键词:贝叶斯网络;分类器;文语转换;文本分析;多音字辨析 分类号:t p 3 1 1 山东师范大学硕士学位论文 a b s t r a c t b a y e s i a nn e t w o r k s i so n eo ft h ei m p o r t a n tm e t h o d st h a t i n v e s t i g a t et h e u n d e c i d a b l ep r o b l e m i ti sb a s e do nt h et h e o r yo fp r o b a m l i t ya n ds t a t i s t i c sa n d p r o v i d e dw i t ht h es o l i dm a t h e m a t i c a lf o u n d a t i o n d u et ot h en a t t a a le x p r e s s i o n s t r o n gr e a s o n i n ga b i l i t y ,f a c i l i t a t ec u s t o m i z a t i o na n dm a n yo t h e ra d v a n t a g e s ,b a y e s i a n n e t w o r k sh a sb e e nw i d e l yu s e di nm a n ya r e a s t e x t t o s p e e c h ( t t s ) i st h e t e c h n o l o g yt h a tl e t t e ri n f o r m a t i o ni sc o n v e r t e di n t os o u n ds i g n a la n do u ta c c o r d i n gt o t h er u l e so fd e a l i n gw i t hs o u n d w h i c hw i l le n a b l et h ec o m p u t e rt or e a df l u e n t l yl e t t e r i n f o r m a t i o n s ot h a tp e o p l ec a nu n d e r s t a n dt h ec o n t e n to ft h ei n f o r m a t i o nb yl i s t e n i n g n l et e x ta n a l y s i sh a s g r e a t e ru n c e r t a i n t y ,b e c a u s e c h i n e s el a n g u a g ei sp r o f o u n d , s ot h et r a d i t i o n a lr u l e b a s e dt e x ta n a l y s i sm e t h o dc a nn o tb eg o o dt ot t ss y s t e m i n p a r t i c u l a rt h eo p e nl e t t e rs e ts y s t e m i nt h i sp a d e r 。w eu s et h et h e o r e t i c a lf r a m e w o r ko f b a y e s i a nn e t w o r kt o t h et e x ta n a l y s i si nt t s t l l i sp a p e rd i s c u s s e st h eb a s e d k n o w l e d g eo fb a y e s i a nn e t w o r k t h em a i np r o b l e mi nt h et e x ta n a l y s i sa n d t e x t a n a l y s i sa l g o r i t h mb a s e db a y e s i a nn e t w o r k ,e x p e r i m e n t a lr e s u l t sa n a l y s i s f i r s to fa l l - w ed i s c u s sb a s e dk n o w l e d g eo fb a y e s i a nn e t w o r ki n c l u d i n gt h e d e f i n i t i o no ft h a t s y m b o le x p r e s s i o n a n do nt h eb a s i so fw h i c hw ed i s c u s ss e v e r a l t y p i c a lb a y e s i a nn e t w o r kc l a s s i f i e r , f o ri n s t a n c e n a i v eb a y e s i a nc l a s s i f i c a t i o n 、t 诧e a u g m e n t e dn a i v eb a y e s i a nc l a s s i f i c a t i o n 、b a nc l a s s i f i c a t i o n 、b a y e s i a nm u l t i n e t c l a s s i f i c a t i o n 、g e n e r a lb a y e s i a nn e t w o r kc l a s s i f i c a t i o na n ds oo n f u r t h e rt h e i r c h a r a c t e r i s t i c s ;i no r d e rt or e d u c et h ec o m p u t a t i o n a lc o m p l e x i t yo fb a y e s i a nn e t w o r k , w ei n v e s t i g a t ec o n t e x ti n d e p e n d e n tr e l a t i o n s h i p c a u s a li n d e p e n d e n tr e l a t i o n s h i p a n dd i s c u s st h er o l eo ft h ei n d e p e n d e n tr e l a t i o n s h i p b e i n gd i r e c t e da tt h ed i f f i c u l t yi nt e x ta n a l y s i s w ef o c u so nt h em e t h o do f d e t e r m i n a t i o nt h es e n t e n c eb o r d e r o nt h eb a s i so ft h a ts y m b o la st h em a i nb a s i sf o r t h et e x ta n a l y s i s 。w eg i v ead e c i d a b l ea l g o r i t h mo fm i s u n d e r s t a n d i n gs y m b o l ,a n dt h e e x a m p l e so fi t sa p p l i c a t i o n ;t a r g e t i n gs p e c i a ls y m b o lt h e r ei s m e t h o dt oa n a l y s e s t h e m a n dt h ee n g l i s ha n df i g u r e si nc h i n e s ea r ec l a s s i f i e da n dc o r r e s p o n d i n g a n a l y z i n ga l g o r i t h mi sg i v e n ;w ed i s c u s st h et w om a i nm e t h o d st h a tr u l e s b a s e d a p p r o a c ha n ds t a t i s t i c b a s e da p p r o a c h m o r e o v e rc o m p a r et h e m ;c l a s s i f i c a t i o nm e t h o d o fm u l t i - t o n ew o r d si ss h o w e da n da c c o r d i n gt ot h ec o r r e s p o n d i n gr e l a t i o n s h i p b e t w e e np a r to fs p e e c ha n dp h o n o l o g i z a t i o no fm u l t i t o n ew o r d s ,w h i c hb ed i v i d e d i n t oc l a s saa n dc l a s sb a n dc o r r e s p o n d i n ga n a l y z i n gm e t h o d si sg i v e ni nv i e wo f t h ed i f f e r e n tt y p e so fm u l t i t o n ew o r d s ,f u r t h e rw ed i s c u s st h ea n a l y s i sr e s u l t s i nt h i sp a p e r ,t h ea n a l y z i n gw o r dh a st w om a i nm e t h o d s :o n ei st h er u l e b a s e dm e t h o d ,a n d t h eo t h e rm e t h o di sb a s e do np r o b a b i l i t y t h er u l e s b a s e da p p r o a c hi sa ni m p o r t a n tm e a n sd e a l i n g w i t hd e c i d a b l ep r o b l e m i th a ss o m e a d v a n t a g e sf o ri n s t a n c es u f f i c i e n t l yl e a r n i n gf r o m e x p e r i e n c eo fe x p e l s m o r ei n t u i t i o n sa n do b t a i n i n ge a s i e r t h em e t h o db a s e do nt h ep r o b a b i l i t y i sp r o v i d e dw i t hm o r er o b u s ta n dh i g h e rp e r f o r m a n c e a sd a t aa n a l y s i sa n dd e c i s i o ns u p p o r tt o o l s b a s e do nt h et h e o r yo fp r o b a b i l i t ya n ds t a t i s t i c s b a y e s i a nn e t w o r ki ss u i t a b l ef o rt e x ta n a l y s i si n c h i n e s ew h i c hi sp r o f o u n d i nt h i sp a p e r ,t e x tc o m b i n et h et e x ta n a l y s i sa n db a y e s i a nn e t w o r k i n t e g r a t i o n a n ds e l e c tt h et e s td a t af o rt e s t i n g t h et e s tr e s u l t ss h o wt h a tt h ea l g o r i t h mi n t r o d u c e d i i i 山东师范大学硕上学位论文 i nt h i sp a p e ri sb e r e rt h a nt h eo t h e r si na c c u r a c yr a t eo fd i s p a r t i n gw o r d ,r m e a s u r e ,f - m e a s u r e , a n dt h ea n a l y s i so ft h ep o l y p h o n i cw o r da l s os h o wg o o dp e r f o r m a n c ei nd i f f e r e n tt h et e s ts e t k e y w o r d s :b a y e s i a nn e t w o r k s ;c l a s s i f i e r ;t e x t t o - s p e e c h ;t e x ta n a l y s i s ;a n a l y s i so f t h ep o l y p h o n i c , c l a s s i f i c a t i o n :t p 311 i v 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研 究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得 一 ( 注:如没有其 他需要特别声明的,本栏可空) 或其他教育机构的学位或证书使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 意。 一签砍 貔 导师签 学位论文版权使用授权书 本学位论文作者完全了解堂撞有关保留、使用学位论文的规定,有权保留 并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人 授权堂撞可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用 影印、缩印或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在解密后适用 本授权书) 学位论文作者签名:导师签字 签字日期:2 0 0 孑年f 月矽日 签字日期:2 山东师范大学硕士学位论文 1 1 贝叶斯网络概述 第一章绪论 1 1 1 贝叶斯网络的起源与发展 贝叶斯理论是由十八世纪数学家和神学家t o m a sb a y e s 在1 7 6 3 年第一次 提出的【1 , 1 0 ,论文“关于几率性问题求解的评论的文章在其死后由其朋友 代其发表。 在1 9 世纪,由于在理论和应用中出现了许多问题,贝叶斯方法没有得 到普遍接受【7 j 。直到2 0 世纪5 0 年代开始,越来越多的统计学者推崇和研究 贝叶斯的观点和思想,在统计学中形成一个影响较大的贝叶斯学派。1 9 5 5 年,美国统计学家r o b b i n s 提出经验贝叶斯方法,受到统计学界的关注和重 视,特别是在社会科学和经济活动中,贝叶斯方法得到成功的应用【8 】。6 0 年 代初,人们把贝叶斯方法广泛地应用于解决具有不确定性的决策和评估问 题,进一步开拓了应用统计决策的研究。基于主观贝叶斯方法,d u b a 等人 1 9 7 6 年研制出用于地质勘探方面的p r o s p e c t o r 专家系统【9 】。美国将贝叶 斯方法应用在导弹发射的可靠性评估中,极大地节省了研制和实验费用。目 前,贝叶斯方法在水利水电、土地资源评价、国防军事、金融保险等各个领 域得到广泛应用【l o 】。 “贝叶斯网络”这一术语是在1 9 8 8 年由p e a r l 在论文中提出的,奠定了 贝叶斯网络的理论基础,早期的应用主要在专家系统中用于不确定性知识表 示和推理【2 ,3 ,15 1 。二十世纪9 0 年代后期h e c h e r m a n 把贝叶斯网络用于数据挖 掘,由于贝叶斯网络具有独特的不确定表达形式、丰富的概率表达能力、综 合先验知识的增量学习特性成为数据挖掘众多方法中研究的热点之一。 山东师范大学硕士学位论文 1 1 2 贝叶斯网络的类型 1 离散型贝叶斯网络 如果构成贝叶斯网络的结点变量是离散的且取有限个值,那么,这种贝 叶斯网络就称为离散型贝叶斯网络。目前主要研究的就是这种贝叶斯网络 4 1 。 2 连续型贝叶斯网络 如果构成贝叶斯网络的结点变量是连续的变量,那么,这种贝叶斯网络 就称为连续型贝叶斯网络【i 1 , 1 2 , 1 3 】。 3 混合型贝叶斯网络 如果构成贝叶斯网络的结点变量既有连续变量又有离散变量,那么,这 种贝叶斯网络就称为混合型贝叶斯网络【1 4 , 1 5 , 1 6 】。 1 1 3 贝叶斯网络的主要特点 2 贝叶斯网络自十几年前提出以来,随着理论研究的不断深入和应用水平 的不断提高,已经得到学术界更加广泛的认可和重视。对于复杂问题的决策、 不确定性知识的推理以及智能诊断和可靠性评估等领域,贝叶斯网络更加体 现出其明显的优势和魅力。任何一种方法技术都具有其自身的特点,贝叶斯 网络与决策树、人工神经网络、遗传算法等其他方法相比,主要有以下几个 特剧1 7 ,1 8 】: 1 坚实的理论基础 2 强大的知识表达和推理能力 3 灵活的学习机制 4 开放的决策体系 山东师范大学硕士学位论文 1 1 4 贝叶斯网络的应用 贝叶斯网络在很多方面得到重视和应用,如微软公司的w i n d o w s 2 0 0 0 和o f f i c e 产品都融入了贝叶斯网络来提供信息捡索和智能帮助;美国通用公 司开发出基于贝叶斯网络的故障诊断系统;美国航空航天局和r o c k w e l l 公司 共同研制的太空船推进器的故障诊断系统等等。在医学诊断与治疗、金融投 资与市场分析、智能决策与管理、故障诊断、电力系统和水资源开发等领域 均取得显著的应用效果。开发的软件工具有,微软贝叶斯网络( m s b n x ) 、 e r g o 、h u g i n 、j a v a b a y e s 等。 智能推理和诊断方面,微软公司在o f f i c e 的产品中,将贝叶斯网络用于 问题回答向导和打印机故障自动检测。l e w i s r w ,r a n s i n g r s 将贝叶斯网络 应用在制造业中压铸过程的检测和诊断,m i t t e l s t a d t d 等将其应用在集成电路 的检侧中,n i k o v s k i d 讨论了贝叶斯网络在医学诊断中的应用,w o l b r e c h t e 等尝试多级制造过程中运用贝叶斯网络进行检测和诊断,并用仿真数据验证 了该方法的有效性。 1 2 文语转换的研究现状 语音是人际交流最习惯、最自然的方式。将文字输入转成语音输出称为 文语转换( t e x t t o s p e e c h ,t t s ) 或语音合成技术。它涉及声学、语言学、数 字信号处理、多媒体技术等多个领域,是中文信息处理领域的一项前沿技术。 语音合成技术涉及声学、语言学、数字信号处理技术、多媒体技术等多 个领域,是当今世界强国竞相研究的热门技术之一。2 0 世纪6 0 年代,英文 t t s 系统首先问世,如今,l & h 、l u c e n t 、i b m 、m i c r o s o f t 等著名计算机公 司现在已经研究出多种语言的t t s 系统,m i c r o s o f t 公司及b e l l 实验室的合 成系统都可以在随意设定声调的条件下,朗读英文文件。其英语合成系统语 境逼真,声音清晰流畅。从8 0 年代开始,国内一些科研单位对汉语t t s 的 应用进行了大量的研究,首先开展这项工作的是中科院声学所,之后,社科 院语言所、清华大学、中国科技大学、北方交通大学等单位陆续开展了对汉 山东师范大学硕士学位论文 语t t s 的研究。同时,台湾交通大学、台湾大学和国际上的b e l l 实验室也 研制汉语t t s 系统。近年来,在国家“8 6 3 ”智能计算机主题的支持下,汉 语t t s 技术有了长足的进步。清华大学、中国科大、中科院声学所等单位都 在这一领域取得了一定的进展,有些研究成果己经转化为产品得到了实际的 应用。如清华大学的s o n i c 系统,中国科技大学的k d 8 6 3 汉语文语转换系 统,杭州三汇公司的中文1 v r s 系统,捷通公司的嵌入式t t s 汉语语音系统, 讯飞公司的k d z o o 汉语文语转换系统等【5 儿6 。其中有些系统合成的语音已 比较接近人的自然语音,但还是可以听出“机器的味道”。语音合成质量的 优劣,主要取决于语言的清晰度和自然度,某些情况下,还要表现出情感的 变化,语音合成技术广阔的发展前景必将对此提出更高的要求。 1 3 文本分析系统的组成 4 t t s 在组成结构上可分为文本分析、韵律处理和声学处理三大模块。文 本分析模块在文语转换系统中起着重要的作用,主要模拟人对自然语言的理 解过程,使计算机对输入的文本能完全理解并给出后两部分所需的各种发音 提示韵律处理为合成语音规划出音段特征,如音高、音长和音强等,使合成 语音能正确表达语意,听起来更加自然声学处理根据前两部分处理结果的要 求输出语音,即合成语音。前两个部分的处理结果直接影响着合成模块的语 音输出是否具有较高的自然度,而不是“浑身都是机器的味道。 文本分析是文语转换系统的前端,它的主要内容是对输入的文本进行分 析理解,给后端语音合成器提供必要的信息,比如读音、停顿等信息。就目 前语音合成的现状来看,文本分析是制约着合成语音自然度提高的一个重要 因素。文本分析器可以按照模块化的方法构建,每个模块中的问题可以相对 独立地研究,尝试用不同的算法去解决每个子问题,并可以方便地把新的方 法或者模块添加到系统中来。模块化框图如下图1 1 所示: 圈圈圈一圈圈 山东师范大学硕士学位论文 图1 - 1 :文本分析模块图 1 4 本文研究的意义及主要工作 贝叶斯网络是研究不确定性问题的重要方法之一。它基于概率和统计理 论,具有坚实的数学基础。文本分析建立在词法规则和词典库基础之上。词 法规则表示构词方法,在当今技术飞速发展的今天,新的词汇时刻涌现,再 加上人们构词的方法不断增加,所以己建立的词法规则和词典库难以包含所 有的单词,可能会遇到系统不能处理的情况,这种现象将导致在后期合成中 不能处理文本,这是文本分析面临的困难。由于具有自然的表达方式、强大 的推理能力和方便的决策机制等许多优点,故其比较适合解决文本分析中的 分词的不确定性问题。本文其他章节安排如下: 第二章贝叶斯网络介绍本部分给出了贝叶斯网络的定义及典型的贝 叶斯分类器介绍。 第三章文语转换系统中常用的文本分析方法介绍文本分析的主要研 究内容及主要技术。 第四章基于贝叶斯网络的t t s 分词方法将贝叶斯网络与t t s 分词系统相 结合,并讨论了新系统的性能。 第五章结论对本文作一个简单总结并提出下一步的工作展望。 山东师范大学硕士学位论文 第二章贝叶斯网络介绍 2 1 贝叶斯网络的定义 6 贝叶斯网络是一个带有概率注释的有向无环图。这个图模型能表达大的 变量集合的联合概率分布( 物理的或贝叶斯的) ,可以分析大量变量之问的相 互关系,利用贝叶斯定理揭示的学习和统计推断功能,实现预测、分类、聚 类、因果分析等数据挖掘任务。 成: 关于一组变量x = x - ,x z ,x s ,x 一,) 的贝叶斯网络由以下两部分组 一个表示x 中的变量的条件独立断言的网络结构s 与每一个变量相联系的局部概率分布集合p 两者定义了x 的联合概率分布。s 是一个有向无环图,s 中的结点一对 一地对应于x 中的变量。以置表示变量结点,匕表示s 中置的父结点。s 的结点之间缺省弧线则表示条件独立。变量x 的联合概率分布表示为: e ( x ) = 兀:。p ( x ,f 兄) 以p 表示上式中的局部概率分布,即乘积中的项尸( x ,1 只f ) ( f _ 1 ,2 ,川, 则二元组( s ,尸) 表示了联合概率分布p ( x ) 。 在一次推理中,那些值己确定的变量构成的集合称为证据e ( e v i d e n c e ) , 需要求解的变量集合称为假设h ( h y p o t h e s i s ) 。一个推理问题就是求解给定 证据条件下假设变量的后验概率尸( 日lc ) ,称为假设变量的信度。如对图2 - 1 所示的简单贝叶斯网。这里,x - 2 f x 22 f 是证据,x a 和x s 是假设。 山东师范犬学硕士学位论文 p ( x i = f )p ( x i = t )p ( x 2 = - f )p ( x 2 = - t ) 0 2 20 7 8 0 0 4 0 9 6 qp xxp ( x 3 = fl x l ,x 2 )p ( ) 。= tl x l ,x 2 ) 、 ff0 8 20 1 8 ,、 ( x 3二 fto 3 40 6 6 tf0 4 5o 5 5 、 tt0 。0 8o 9 2 b x 3p ( x 4 - fx 3 )p ( x 4 = tx 3 ) x 3p ( x 5 = f i x 3 )p ( x 5 = t i x 3 ) f0 1 50 8 5 fo 4 60 5 4 t0 3 60 6 4 t0 1 10 8 9 图2 i :简单贝叶斯网络 已经证明,在普通贝叶斯网上的推理问题是一个n p 难问题【1 9 】。但在实 际应用中,根据贝叶斯网的结构特点,仍然可以设计出有效的推理算法。贝 叶斯网的推理算法可以分为两类:一类称为精确推理,即精确地计算假设变量 的后验概率。另一类称为近似推理,既在不影响推理正确性的前提下,通过 适当降低推理精确度来达到提高计算效率的目的。精确推理一般用于结构较 简单的贝叶斯推理。对于节点数量大、结构复杂的贝叶斯网,精确推理的复 杂性会很高,因此常采用近似推理。 2 2 典型的贝叶斯分类器 本节简单介绍下面五种典型的贝叶斯分类模型。假定 x = x ,x z ,x ”,c 表示数据集( c 代表类节点) 。 7 山东师范大学硕士学位论文 8 2 2 1 朴素贝叶斯分类器 d u d a 和h a r t 于1 9 7 3 提出了基于贝叶斯公式的朴素贝叶斯分类器 n b c ( n a i v eb a y e s i a nc l a s s i f i c a t i o n ) 。n b c 是一个简单有效而且在实际使用中 比较成功的分类器。n b c 模型假设所有的属性都条件独立于类变量,即每个 属性变量都以类变量作为唯一的父节点。 图2 2 :朴素贝叶斯分类器模型 使用朴素贝叶斯分类器进行分类的做法是:通过概率计算,从待分类的 实例的属性值口1 口z ,口一求出最可能的分类目标值。即计算各类c c 对 于这组属性的条件概率p ( c 旧,口:,) ,其中= 1 ,并输出条件概 率最大的类标签作为目标值。应用贝叶斯定理和条件独立假设: c 脚= 学叫胡腓沪嘶加h 小,) 其中口是正规化常数,尸( 口,ic j )p ( 巳) 可以通过对已有的训练数据集 统计近似获得,以后验概率作为分类指标,即输出具有最大后验概率的类标 签,c a r g 哆m a x p ( c , ) - i = - 酬巳) ,c 脚表示朴素贝叶斯分类器 输出的目标值,口常可以省略。计算出每一个p ( c i 口t ,口z ,口一) 后,可将 实例归入尸( c ja ,口z ,口n ) 最大的类c 。 山东师范大学硕士学位论文 朴素贝叶斯分类器算法比较简单,不需要进行结构学习,只需要学习参 数,再进行分类准确率评估。建立网络结构非常简单,实验结果和实践证明, 它的分类效果比较好。但在实际的应用领域中,各个属性相互独立的假设很 难成立,是进一步提高其精度的主要障碍之一。 2 2 2 树扩张朴素贝叶斯分类器 朴素贝叶斯分类器结构基于所有属性结点条件独立的假设,理论上在满 足其限定条件下是最优的,但这些假设在实际问题中并不成立,引起分类误 差的增大。保留其朴素贝叶斯分类器结构特点,减弱限定条件,扩大最优范 围是改进的一种思路。f r i e d m a n 在朴素贝叶斯分类器结构的基础上提出了 t a n 2 0 2 2 】( t r e ea u g m e n t e dn a i v eb a y e s i a nc l a s s i f i c a t i o n ) 结构,属性变量以 类变量作为父结点,属性结点间构成一棵树形结构,即类结点没有父结点, 属性结点的最大父结点数是2 。基于t a n 结构的分类器是t a n c 。t a n c 模 型的实质上是由n b c 通过扩展若干条“适合 的弧构成的,见图2 3 : 图2 3 :t a n 分类器 建立t a n 结构的方法是:在n b c 结构的基础上,在属性之间增添扩 展弧,以消除朴素贝叶斯关于条件独立的假设。多余的扩展弧除了增加了需 要学习的概率参数,还揭示了错误的领域结构;而如果扩展弧缺乏,一方面 由缺乏所造成的误差无法由概率参数的无限准确来弥补,另一方面无法准确 揭示领域结构和属性之间应有的因果关系。因此如何增添一组最好的扩展弧 是关键的问题,这相当于学习以类变量c 为根结点的最优的贝叶斯网络i t a n c 的建构过程也分成结构学习和参数学习两个阶段。 9 山东师范大学硕士学位论文 2 2 3b a n 分类器 b a n 分类- i 器r 2 1 2 3 1 是t a n 分类器的一种扩展,b a n 允许属性形成任意 的图形,而不仅仅只是树形。 图2 4 :b a n 扩张朴素贝叶斯分类器模型 b a n 分类器的学习算法: ( 1 ) 取训练集和 c ) ,( 按节点排序) 作输入; ( 2 ) 调用经修改的c b l 算法( 用各交互信息测试,( x ,x ,) 代替条件交互 测试,( x j , x ic ) ,并用各条件交互测试,( x ,x jz ) 代替,( x ,x ,iz + c ”,这 里z x 一 c ) ) ; ( 3 ) 为每个x i ( 1 f o 。 由定义可以看出,当c 为空时,上下文独立变成特殊的条件独立。 2 3 3 因果影响独立关系 1 6 b a y e s i a n 网中的有向弧是一种因果关系,表示父亲节点对儿子节点的直 接影响,但是没有对儿子如何依赖父亲集作出约束,在最坏的情况下,需要 给出的条件概率数目是父亲节点数目的指数幂。一些情况下,父亲节点( 原 因) 之间相互合作,对儿子节点( 结果) 有一个共同的影响。但是,很多情 况下,各个父亲独自对儿子起作用,父亲节点之间没有合作,我们说父亲节 点对儿子节点的影响是因果独立的。 因果影响独立我们说节点x 的各个父亲万即,万x n 对于x 是因果影响 独立的,如果对应于万置,。,万x n 存在和x 有相同取值范围的随机变量 s ”,s 册,并且下面两个条件成立: 兀还 对于每个i ,s ,仅仅在概率意义上依赖于万而及占j ( j n ,即: ,( 乞, 以,以h ,以。,以。,& 。,t 。,q ,- ,q 。) ) ( 2 ) 存在一个定义域是x 的取值范围,且具有交换律和结合律的二 算符母,使得x2 毛母占z 宰毛宰气成立。宰称作是又的基本结合运算符。 我们把b 称作是乳,对x 贡献。粗略地讲,有共同作用结果的多个原因 山东师范大学硕士学位论文 是因果影响独立的,如果每个原因的各自贡献是独立的,所有原因对结果的 影响是各自贡献的简单组合。因果影响独立大大降低每个节点所需的条件概 率数目,从指数级降到线性级,当父亲节点很多时,降幅是十分十分巨大的。 这里的因果影响独立涵盖了一般的因果影响独立模式,如噪音一或模式,噪 音一与模式,噪音一最大模式,噪音一加模式等。下面给出三个不同模式因 果影响独立的例子。 2 3 4 独立关系的作用 独立关系在知识表示、推理、学习方面起到的简化作用使得b a y e s i a n 网 的计算复杂性大大降低,可用性和实用性大大增强。 图2 - 8 图中变量都是二值变量,五,墨,以对于蜀的因果影响是相互独立的, 即e ( x 7i 蜀墨托) = p ( 五ix 4 ) p ( x 7x s ) p ( x 7i 也) ;五在墨= f a l s e 时和 上下文独立,即尸( 五i 玛= f a l s e ,五) = 尸( 墨i 托= f a l s e ) 。 独立关系在节省存储空间方面的作用是显而易见的。如图2 8 ,八个变 量的联合概率分布以p ( x ,五) 的形式存储,不加任何简化,需要2 5 5 个概率值。利用独立关系粒化联合概率分布,首先运用条件独立和因果影响 1 7 山东师范大学硕士学位论文 1 8 独立得到下式: p ( x ,x 8 ) = 尸( ix ,x ,) 尸( x ,ix 4 ,x 5 ,瓦) 尸( 虬ix 。) b a y e s i a n 网推理是概率推理,是信念更新的过程。当新证据出现时,一 些变量的后验概率发生变化,有时人们说节点的信念发生变化,因为人们一 般认为这里的信念指后验概率。简而言之,b a y e s i a n 网推理是给在给定模型 中计算目标变量的后验概率,这个概率不能从网络中直接读出,必须通过计 算。 b a y e s i a n 网是联合概率分布的表现形式,可以计算概率空间上的任何概 率。但直接利用联合概率分布计算的复杂性是变量数目的指数幂。c o o p e r 已 经证明对应于一般问题的b a y e s i a n 网,后验概率的计算是n p 难度的 【c 0 0 9 0 。幸运的是,当所有变量都是离散变量时,领域结构可以大大简化计 算。一些学者利用独立关系,研究出一些关于离散变量的b a y e s i a n 网概率 推理算法。在每种具体的算法中,独立关系的表现形式不同,应用独立关系 降低的推理的复杂度的方法不同。 本文以逐个变量求和的推理算法为例,说明独立关系如何降低推理复杂 度。因为联合概率分布的表示形式是若干个因式,即先验概率和条件概率的 集合,所以需要定义如何从概率集合s 中对一个变量v 的概率求和。具体 方法是:( 1 ) 从s 中删除所有包含v 的局部概率,( 2 ) 在包含v 的所有 概率中对v 的概率求和,( 3 ) 求和结果加入到概率集s 中。 山东师范人学硕士学位论文 第三章文语转换系统中常用的文本分析方法 3 1 文本分析研究的主要内容 文本分析的主要功能是使计算机能够识别文字,并根据文本的上下文关 系在一定程度上对文本进行理解,从而确定要发什么音、怎么发音,并将发 音的方式告诉计算机,另外还要让计算机知道文本中哪些是词,哪些是短语、 句子,发音时到哪儿应该停顿,停顿多久等等。文本分析研究主要围绕以下 几个问题进行。 3 1 1 句法分析 在句法分析中,词语边界的确定,词性的确定等是其面临的主要困难。 因为汉语不象英语那样以空格为界将各个单词隔开,它的分词相对而言更加 困难,再加上汉字的组词灵活,所以汉语分词一直是自然语言处理中的难题。 3 1 2 歧义消除 汉语中歧义现象非常多【2 5 1 ,我们将在下面章节中加以讨论。兼类词是歧 义发生的主要原因。无论英语还是汉语这种现象都特别多,在仅仅靠分词算 法不能解决的时候,对字词、短语的歧义问题,一般根据句子的上下文信息 进理。句子级的歧义问题一般要在更大的上下文环境内( 如段落、篇章等) 寻 求解决的信息。歧义问题是句法分析中必然遇到的问题,但是目前尚无非常 有效的解决办法 3 1 3 语言学知识的获取 要想比较好的解决这些问题,文语转换系统必须在语言学处理上有所突 破,必须获取尽可能多的语言学知识。但是,语言学知识的获取是一个复杂 困难的过程,一般有两种途径:一种是语言学家凭着自己对语言现象的认识和 1 9 山东师范大学硕士学位论文 理解,总结出语言学规则,由于这些规则的制定是建立在对语言学精深理解 和准确把握基础上的,所以实现起来比较困难,而且规则的正确性也没有定 性的判别标准。第二种途径是对大量的语料进行统计分析,得出一些分布数 据。这两种途径的困难和不足已有众多的论述【2 6 】,【2 7 1 ,在此就不叙述了。 3 1 4 句子边界的确定 2 0 作为文语转换系统的文本分析的第一步,就是要对将要进行语音合成的 文本划分句子边界。它的主要任务是确定句子的边界,后续工作将以句子为 单位对文本进行处理,边界划分可以给文本分词和句法分析等工作带来方 便。无论对汉语还是英语,句子边界的确定方法基本上是相同的,都是基于 标点符号的。汉语和英语相比要稍微复杂一些,一方面是因为汉语标点符号 比英文多,另一方面是因为在要合成的汉语句子中有一些英语和汉语标点符 号混用的情况,汉语的标点是用全角表示的,而英语的标点符号是用半角表 示的。 在汉语中,全角的标点符号可以认为是一个句子边界的标志,所以我们 首先考虑全角的标点符号,在分析处理文本时碰到全角标点,就认为到了句 子的边界位置。在中英文标点符号混排的情况下,不考虑将英文标点误写成 全角标点的情况,即使有这种情况也将此标点符号认为是句子的边界。 反之,在中英文混排的情况下将全角的标点符号误输成半角英文标点的 情况比较复杂,下面将会对此进行讨论。因此句子边界确定的问题主要集中 在判断英文标点是否是句子的边界。关于如何在这种情况下判断英文标点是 否是句子边晃,比较粗略的处理算法是从左向右进行扫描,在遇到标点符号 时就认为到了句子的边界。这种判断方法可以导致许多的错误,因为符号“,”、 “ 、“: 均能够构成歧义( 它们不仅可以表示标点符号,还可以有其它含义) , 所以在处理时要考虑较多的因素。下面是标点符号“,”、“ 和“:”为非句 子边界而导致歧义的例子: a ) 这次考试我们班平均成绩为7 5 8 分。 山东师范大学硕士学位论文 b ) 我们约定晚上7 :0 0 在体育馆见面。 c ) 这个月的营业额已经突破了5 0 ,0 0 0 大关。 从上面的例子可以看出,这三个半角标点符号在表示句子边界的同时, 又可以表示其它的含义。在文语转换的文本分析中就要对这些情况进行分别 处理和判断。本文对有歧义的标点的处理采用基于规则的技术,也就是我们 尽可能的考虑可能产生歧义的情况,将这种情况罗列出来,在碰到这些标点 时判断它们是否属于这些情况的一部分,而后再进行相应的处理。例如我们 对“: 的处理为: i f ( p r e ( “:) 是数字) i f ( s u e ( “: ) 是数字) “:”不是句子边界: e l s e “: 是句子边界 e l s e “: 是句子边界 这里介绍几个上面用到的符号的定义: 定义1 :词是有一定意义的字符所组成的串,通常一记作w 。 定义2 :前导词是指如果存在一个字符串k ,其中k 和都是词,则 k 称为词

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论