




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东大学硕士学位论文 摘要 文语转换( t t s ) 是将文字信息按语音处理规则转换成声音信号输 出的技术。它可以使计算机流利地读出文字信息,使人们通过听就可以 明白信息的内容。本文着重研究了汉语t t s 技术中的文本自动分词,韵 律标记以及韵律结构预测三个方面。 t t s 系统通常由文本分析、韵律控制和语音合成三部分组成。文本 分析模块在文语转换系统中起着重要的作用,主要模拟人对自然语言 的理解过程,使计算机对输入的文本能完全理解并给出后两部分所需 的各种发音提示。其中,分词、注音和词性标注是文本分析最为初始 的重要组成部分,也是语言模型需要解决的问题。中文自动分词由于 歧义切分,未登录词识别等难点的存在,成为文语转换系统亟需解决 的主要问题。n 元语法是基于统计的分词算法,相对于其他分词算法, 其在歧义切分方面的表现更好,但是它的一些不足也成为它继续发展 的瓶颈。本文提出一种在传统的n 元语法上结合最大匹配预处理,加入 词性消歧并平滑的改进策略,实验证明提高了分词的准确率和召回率。 韵律处理为合成语音规划出超音段特征,如音高、音长和音强等, 使合成语音能正确表达语意,听起来更加自然。文本分词的结果是语法 词,但是语法词并不能等同于韵律词,还需要一个韵律处理的过程。 语调、节奏和重音这些韵律特征是通过超音段特征的变化表现出来的, 因此,这些超音段特征的修改成为韵律控制的基础。本文在x m l 的基 础上提出了一种汉语韵律标记语言,使韵律分析的结果自动标注上这 些韵律标记,经过后续处理并最终合成出高自然度的语音。 了解和掌握韵律单元的各种边界特征,正确地界定韵律层级边界, 把韵律单元从话语中正确切分出来,进而认识话语的韵律结构,是话语 表述和话语理解的基础。本文的最后实验分析了韵律层级边界的声学 特征,通过引入c a r t 树模型并加入关键结构助词的叶子评估问题达到 了提高韵律短语预测精度的效果,从而实现文本处理和韵律处理的融 合。 关键字:文本分析;n 元语法;韵律标记;韵律结构预测:韵律层级 山东大学硕士学位论文 a b s t r a c t t e x t t o s p e e c h ( t r s ) t e c h n o l o g ya i m st ot r a n s f o r mt h et e x ti n f o r m a t i o ni n t o s p e e c hs i g n a lw i t ht h er u l e so fs p e e c hp r o c e s s i n ga n dm a k et h ec o m p u t e rr e a dt h et e x t i n f o r m a t i o nt ol e tu su n d e r s t a n dt h em e a n i n g sf r o ml i s t e n i n g i nt h i st h e s i s ,a u t ow o r d s e g m e n t a t i o n ,p r o s o d i cl a b e l i n ga n dp r o s o d i cc o n s t r u c t i o np r e d i c t i o na r ep r e s e n t e d i ng e n e r a l ,t t ss y s t e mc o n s i s t so ft e x ta n a l y s i s ,p r o s o d yc o n t r o la n ds p e e c h s y n t h e s i s t e x ta n a l y s i sm o d u l e i s i m p o r t a n ti n 耵ss y s t e m i ts i m u l a t e st h e c o m p r e h e n d e dp r o c e s st on a t u r a ll a n g u a g eo fp e o p l e ,m a k et h ec o m p u t e ru n d e r s t a n d t h ei n p u tt e x tc o n t e n t sa n dg i v et h ep r o n u n c i a t i o nh i n t st ot h el a t t e rm o d u l e s i ni t , s e g m e n t a t i o n ,p h o n e t i cn o t a t i o na n dp a r t - o f - s p e e c ht a g g i n ga r ep r i m a r yi m p o r t a n t c o m p o n e n t so ft e x ta n a l y s i s ,a n dt h e ya r ea l s oi s s u e sw h i c hn e e dt ob er e s o l v e d w i t h t h ea m b i g u o u sw o r d sa n du n k n o w nw o r d s ,c h i n e s ea u t ow o r ds e g m e n t a t i o nb e c o m e s t h em a i n p r o b l e mo ft e x t - t o - s p e e c hs y s t e m n g r a m i saw o r ds e g m e n t a t i o n a l g o r i t h mb a s e do ns t a t i s t i c s c o m p a r e dw i t ht h eo t h e ra l g o r i t h m ,i th a sab e t t e r p e r f o r m a n c ei na m b i g u o u sw o r d ss e g m e n t a t i o n ,b u ti t i sn o te n o u g h t h et h e s i s p r e s e n t sa ni m p r o v e d - ,m i x e ds t r a t e g yw h i c hb a s e do nn - g r a mc o m b i n e dw i t ht h e m a x i m u mm a t c h i n gp r e t r e a t m e n t ,t h en e wa l g o r i t h ma l s og e t su n i t e dw i t ht h ep o s d i s a m b i g u a t i o na n ds m o o t h i n gp a r t t h ee x p e r i m e n ts h o w st h a tt h ec o r r e c tr a t i oa n d r e c a l lr a t i oa r ei m p r o v e d p r o s o d i cp r o c e s s i n gg e n e r a l i z e st h es u p e r - s e g m e n t a lf e a t u r e si n c l u d i n gp i t c h , d u r a t i o na n de n e r g y , i tm a k e st h eo u t p u tc a ne x p r e s se x a c t l ya n dn a t u r a l l y t h er e s u l t o ft e x ta n a l y s i si ss y n t a xw o r d sw h i c hi sn o te q u a lt op r o s o d i cw o r d s s op r o s o d i c p r o c e s s i n gi sn e e d e d p r o s o d i cf e a t u r e ss u c ha st o n e ,r h y t h ma n ds t r e s sc a nb es h o w e d b yt h ev a r i a t i o no fs u p e r - s e g m e n t a lf e a t u r e s t h e r e f o r e ,t h ec h a n g e so ft h e s ef e a t u r e s b e c o m et h eb a s eo fp r o s o d i cc o n t r o l l i n g o nt h eb a s i so fx m lac h i n e s ep r o s o d i c l a b e l i n gl a n g u a g ei sp r e s e n t e dt ot a gt h eo u t p u to fp r o s o d i ca n a l y s i sa u t o m a t i c a l l ya n d m a k et h eo u t p u to f i t ss y s t e mn a t u r a l l y i no r d e rt oe x p r e s so u r s e l v e sa n du n d e r s t a n do t h e r s w em u s tk n o ww e l la l l i h 山东大学硕士学位论文 k i n d so f b o u n d a r yf e a t u r e s o fp r o s o d i c u n i t s ,d i v i d et h ep r o s o d i ch i e r a r c h i c a l b o u n d a r y a n dc h o o s et h e p r o s o d i c u n i t s c o r r e c t l y , a s t ok n o wt h e p r o s o d i c c o n s t r u c t i o n a tl a s tw ed i s c u s st h ea c o u s t i c sb e h a v i o ro ft h eb o u n d a r i e sb y e x p e r i m e n t s c o m b i n e dw i t ht h ek e ya u x i l i a r yw o r d ,t h ec a r t - t r e em o d e li m p r o v e s t h ep r e c i s i o no ft h ep r e d i c t i o na n dm a k e st h et e x ta n a l y s i sm o d u l el i n k sw i t ht h e p r o s o d i cp r o c e s s i n gm o d u l e k e y w o r d s :t e x ta n a l y s i s ,n g r a m ,p r o s o d i cl a b e l i n g ,p r o s o d i cc o n s t r u c t i o n p r e d i c t i o n ,p r o s o d i ch i e r a r c h y 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本 论文不包含任何其他个人或集体已经发表或撰写过的科研成果。 对本文的研究作出重要贡献的个人和集体,均已在文中以明确方 式标明。本声明的法律责任由本人承担。 论文作者签名:盈亟叠) 日期: 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同 意学校保留或向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅;本人授权山东大学可以将本学位论 文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:盥】导师签名:1 垃日 期:塑2 王,d 山东大学硕士学位论文 1 1 引言 第一章绪论 语音是人际交流最习惯、最自然的方式。将文字输入转成语音输 出称为文语转换( t e x t t o - s p e e c h ,t t s ) 或语音合成技术。它涉及声学、 语言学、数字信号处理、多媒体技术等多个领域,是中文信息处理领域 的一项前沿技术。 语音合成与传统的声音回放设备( 系统) 有着本质的区别。传统 的声音回放设备( 系统) ,如磁带录音机,是通过预先录制声音然后回 放来实现“让机器说话”的n ”。这种方式无论是在内容、存储、传输 或者方便性、及时性等方面都存在很大的限制。而通过语音合成则可 以在任何时候将任意文本转换成具有高自然度的语音,从而真正实现 让机器“像人一样开口说话”。 文语转换系统实际上可以看作是一个人工智能系统。它不仅要应 用语音数字信号处理技术,而且必须有大量的语言学知识的支持。为 了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词 汇规则、语音学规则外,还必须对文字的内容有很好的理解,这也涉 及到自然语言理解的问题”1 。 随着语音合成技术的进步,应用领域不断扩展,对t t s 技术本身 也提出了更高的要求。在一些特殊领域需要不同的发音风格,某些地 方还需要本地方言,带有某种情感的语音合成等。就t t s 目前的合 成效果来说,对于一般的提示用语、新闻类等比较规范的文字合成的 效果比较理想,而对其他那些蕴含着升降缓急,抑扬顿挫情感韵律信 息的文本,其合成效果则很一般。也就是说,目前的t t s 系统虽然在 可懂度上基本满足我们的要求,但在自然度方面却离人们的要求相差 甚远,合成输出的语音带有明显的机器味道。真正能够代替人来阅读 的t t s 系统还没有出现,从而也制约着t t s 系统在更大的范围内的使 用。这就需要进一步的提高t t s 的性能,以适应越来越广泛的市场需 求。 山东大学硕士学位论文 1 2 文语转换技术的发展 下图卜1 显示了一个完整的文语转换系统示意图。 图卜1 文语转换系统示意图 t t s 在组成结构上可分为文本分析、韵律处理和声学处理三大模 块。文本分析模块在文语转换系统中起着重要的作用,主要模拟人对自 然语言的理解过程,使计算机对输入的文本能完全理解并给出后两部 分所需的各种发音提示;韵律处理为合成语音规划出音段特征,如音 高、音长和音强等,使合成语音能萨确表达语意,听起来更加自然;声 学处理根据前两部分处理结果的要求输出语音,即合成语音。前两个部 分的处理结果直接影响着合成模块的语音输出是否具有较高的自然 度,而不是“浑身都是机器的味道”。 1 2 1 语音合成方法 当前主要的语音合成方法有线性预测( l p c ) 合成、共振峰合成和 基于时域波形修改( p s o l a ) 技术的合成。 1 9 6 0 年瑞典语言学家和言语工程学家g f a n t 在a c o u s t i ct h e o r y 0 fs p e e c hp r o d u c t i o n 中系统地阐述了语音产生的理论,推动了语 音合成技术的进步。2 0 世纪7 0 年代以后,线形预测分析开始用于语音 编码和识别。同时可以根据线形预测参数用多种方法来综合语音”1 。 在共振峰合成方法中,值得提及的是h 0 1 m e s 的并联共振峰合成器 ( 1 9 7 3 ) 和k 1 a t t 的串并联共振峰合成器( 1 9 8 0 ) ,只要精心调整参 数,这两个合成器都能合成出非常自然的语音。后来许多t t s 系统都 是基于共振峰原理“。但是准确提取共振峰参数是比较困难的,以至 山东大学硕士学位论文 于整体合成语音的音质难以达到文语转换系统的实用要求。 2 0 世纪8 0 年代末e m o u l i n e s 和f c h a r p e n t i e r 提出基于时域波 形修改的语音合成算法p s o l a ( p i t c hs y n c h r o n o u so v e r l a pa d d ) ”1 。 运用p s o l a 方法的合成器结构简单易于实时实现,而且自然度比以前 基于l p c 方法或共振峰合成器合成系统的自然度要高,它推动了文语 转换技术的发展,目前是语音合成的主流方法。 最近几年,一种新的基于数据库的语音合成方法正引起人们的注 意。在这个方法中,合成语句的语音单元是从一个预先录下的庞大的 语音数据库中挑选出来的,不难想象只要语音数据库足够大,包括了 各种可能语境下的语音单元,理论上讲有可能拼接出任何语句。由于 合成的语音基元都是来自自然的原始发音,合成语句的清晰度和自然 度都将会非常高”1 。 国内的汉语语音合成研究起步较晚些,但从八十年代初就基本上 与国际上研究同步发展。大致也经历了共振峰合成、l p c 合成以及应用 p s o l a 技术的过程。2 0 世纪8 0 年代初,我国学者与国外学者开展了广 泛的合作。如李予殷研制的双音素共振峰合成“;张家录研制的串联 共振峰合成1 ;特别值得提到的是杨顺安采用串联共振峰合成算法, ! 合成汉语的所有音节,在国内外产生了很大影响”。在国家8 6 3 计划, 中国科学院等有关项目的支持下,9 0 年代初,国内的t t s 系统逐渐转 向波形拼接算法。这些系统,其合成汉语普通话的可懂度、清晰度达 到了较高的水平。然而同国外其它语种的文语转换系统一样,这些系 统合成的句子及篇章语音机器昧较浓,其自然度还不能达到用户可广 泛接受的程度,从而制约了这项技术的大规模进入市场。 2 2 文本分析方法 文本分析( t e x ta n a l y s i s ) 是文语转换系统( t t s ) 的前端,它的主 要内容是对输入的文本进行分析理解,给后端语音合成器提供必要的 信息,比如读音、停顿等信息。就目前语音合成的现状来看,文本分 析是制约着合成语音自然度提高的一个重要因素。 文本分析器可以按照模块化的方法构建,每个模块中的问题可以 3 山东大学硕士学位论文 相对独立地研究,尝试用不同的算法去解决每个子问题,并可以方便 地把新的方法或者模块添加到系统中来。模块化框图如下图卜2 所示。 图1 - 2文本分析的模块化 虽然不同文本分析系统的内部结构和模块接口千差力- 别,但它们 基本上都遵循类似的方法。各个模块之间协调工作,顺序进行,最终 输出韵律模型需要的语境参数。 1 2 2 1 汉语切分消歧算法 词是最小的能独立活动的有意义的语言成分。然而,汉语文本中 词与词之间却没有明确的分隔标记,而是连续的汉字串。所以,自动 识别词边界,将汉字串切分为正确的词串就成为文本分析的首要问题。 现有的分词算法可分为三大类:基于规则的分词方法、基于理解 的分词方法和基于统计的分词方法。 基于规则的分词方法又叫做机械分词方法。它是按照一定的策略 将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配, 若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同,可 以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分 为最大( 最长) 匹配和最小( 最短) 匹配。常用的机械分词方法有: 正向最大匹配法( 由左到右的方向) ;逆向最大匹配法( 由右到左 的方向) ;最少切分( 使每一句中切出的词数最小) 。还可以将这些方 4 山东大学硕士学位论文 法相互组合使用。单纯使用这些方法远远不能满足实际的需要。因此, 实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过 利用各种其它的语言信息来进一步提高切分的准确率。 基于理解的分词方法通过让计算机模拟人对句子的理解,达到识别 词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用 句法信息和语义信息来处理歧义现象“朝“。它通常包括三个部分:分 词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词 子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行 判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量 的语言知识和信息“”。由于汉语语言知识的笼统、复杂性,难以将各 种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词 系统还处在试验阶段。 基于统计的分词方法利用了字与字相邻共现的频率或概率信息, 能够较好的反映成词的可信度。互现信息体现了汉字之间结合关系的 紧密程度。当紧密程度高于某一个阂值时,便可认为此字组可能构成 了一个词。可以对语料中相邻共现的各个字的组合的频度进行统计, 计算它们的互现信息“。这种方法只需对语料中的字组频度进行统计, 不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种 方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的 常用字组,并且对常用词的识别精度差,时空开销大。实际应用的统 计分词系统都要使用一部基本的分词词典( 常用词词典) 进行串匹配 分词,同时使用统计方法识别一些新的词,即将词频统计和串匹配结 合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词 典分词结合上下文识别生词、自动消除歧义的优点“”。 1 2 2 2 分词难点 有了成熟的分词算法,并不代表能容易的解决中文分词的所有问 题。汉语是一种十分复杂的语言,让计算机理解中文语言更是困难。 在中文分词过程中,有两大难题一直没有完全突破。 5 山东大学硕士学位论文 第一,歧义识别。歧义是指同样的一句话,可能有两种或者更多 的切分方法。例如:“表面的”,因为“表面”和“面的”都是词,那 么这个短语就可以分成“表面的”和“表面的”。这种称为交叉歧 义。像这种交叉歧义十分常见。交叉歧义相对组合歧义来说是还算比 较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子 “研究生会采取行动”中,“研究生会”可以切分为“研究生会”, 也可以不切分,这就是典型的组合歧义。如果交叉歧义和组合歧义计 算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思 是给出一句话,人也不一定能判断正确。例如:“乒乓球拍卖完了”, 如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算 一个词。 第二,未登录词识别。未登录词也就是那些在辞典中没有收录过, 但又确实能称为词的那些词“。词表中不能囊括所有的词。一方面是 因为语占在不断的发展和变化,新词会不断的出现。另一方面是因为 词的衍生现象非常普遍,没有必要把所有的衍生词都收入辞典中”。 特别是人名、地名等专有名词,在文本中有非常高的使用频度和比例。 这就要求分词系统具有一定的未登录词识别能力,从而提高分词的正 确性。 1 2 3 汉语韵律研究 在许多西方国家的人听起来,汉语抑扬顿挫,轻重相随,缓急相 问,节奏分明,犹如歌唱一般。语流中这种由音高、音长和强度等方 面的变化所表现出来的特征,就叫“韵律特征”( p r o s o d icf e a t u r e ) , 也叫超音段特征。韵律特征与合成语句的自然度和连贯性关系极大, 常常还影响着可懂度”0 1 。汉语中我们把它归纳到重音、时长、语调和 停顿等方面。韵律特征在语言交流中起着非常重要的作用,对汉语这 种声调语占,不同的韵律特征表达着截然不同的信息。 6 山东大学硕士学位论文 1 2 3 1 韵律特征 重音的研究是韵律研究中的一个重要部分。汉语与英语不同,不 存在词典重音,只有韵律重音。对于韵律重音,还分为词重音与语句 重音。词重音在汉语中具有语义区分的作用,而语句重音是情感表达 的需要。对语势重音的研究证明,音长的作用并不明显,音高的作用 却很重要”。对强调重音的研究指出,基频升高是强调重音的重要声 学表现,强调重音的时长普遍加长,音节强调重读时对其强度没有明 显的影响“。语句重音主要是通过音高和音长这两个特征参数的变化 体现出来”。由此看来,重音的预测无疑意义重大。 时长也是语音信号中显著的韵律参数之一。时长参数可以体现说 话速度,反映语气的轻重缓急,表明强调重心,界定语音层面上不同 的层次关系等。“。在汉语连续语流中,同一个单音节在不同场合下其一 : 长度往往会相差很远。要保证生成的韵律具有高的自然度,必须有完 备的时长规则。当音节处于不同的位置时,其时长信息受位置和前后 岿t 环境边界的影响发生变化。 汉语作为一种有调语言,其声调参数是所有韵律参数中最具有表 现力的。各种语气的形成,说话人情绪的流露,几乎主要都是通过声 调的改变来实现( 时长、能量和停延往往作为辅助手段) 。不同声调的 感知,是通过音节间的相对音高或音节内部的升降变化来描述的。而 且连续语句中声调的调型受相邻其他字或词的影响,常常会发生变化, 甚至失去原有的调型。 1 2 3 2 韵律三步实现策略 t t s 系统中的韵律实现策略通常可以归纳为三个步骤: 1 ) 从文字到高层面的韵律符号描述( 如韵律的层次结构和边界位 置,语音的重音位置及等级,语调和语气等) 的转换。 2 ) 从韵律的符号描述到韵律的声学参数( 如音高、音长、音强、 停顿等) 的转换,这是通常所说的韵律模型的功能。 3 ) 在合成语音中实现韵律的声学参数。 7 山东大学硕士学位论文 1 2 4 韵律标注体系 为了实现高自然度的文语转换,对韵律特征的处理至关重要。语 音的韵律特征既是随时间变化的非线性函数,又有一定的规律性( 如 基音频率范围、重读模式和发音者特征等) ,因此可以用一些符号来定 性描述韵律特征,用于有关合成控制信息的指示。 当前的t t $ 系统中的韵律表示方法各不相同,有的是定义了一套标 记系统,有的是在各种标记语言的基础上,定义了自己的韵律标记语 言。t o b i 是较早提出的一套韵律标记系统,广泛应用于英语语音的韵 律分析和标注”。它将韵律标注分为多个层次,每一层都有不同的符 号来描述不同的韵律信息和韵律的变化情况。爱丁堡大学语音研究中 心提出的一种基于s g m l 的标记语言s s m l ,s u n 公司开发的一种基于x m l 的标记语言j s m l ,并以此作为j a v a 语音合成器的输入。在s s m l 和j s m l 的 基础上,贝尔实验室提出s a b l e 语言,它综合前两者所定义的标记,并 改进了属性值。每个标记的属性既可以是绝对或相对的数值,也可以 是几种类别之一。它还新增了一个说话者标记。用于设定说话人的属 性,如性别,年龄等。 1 2 5 韵律结构分析 韵律结构的分析同韵律停顿的研究密不可分。大体上,可以把韵 律结构划分为韵律词,韵律短语,语调短语三部分。韵律停顿,就是 实际语流中的停顿。这些停顿将连续的语流切分成一些小的连续单元, 它的预测对于语音合成有着重要的作用。h i r s c h b e r g ( w a n g1 9 9 2 ) 的实 验表明在预测短语边界时采用语法结构有关的特征可以提高预测的准 确率“。t a y l o f ( 1 9 9 8 ) 的工作主要是研究一个为语音合成所使用的短 语预测分析模型,通过词性标注等语法信息预测韵律短语。微软中国 研究院研究了汉语韵律词的预测,他们认为在t t s 系统中韵律词和词 典词是不同的”。 8 山东大学硕士学位论文 1 3 研究目标及所做的工作 本文涉及的内容主要集中在文本分析模块以及文本分析到韵律模 型的中间过渡阶段。本文主要目标旨在提高合成语音的自然度,为此, 分别在文本的自动分词,汉语韵律标记语言的制定以及汉语韵律层级 结构的研究三方面做出了努力。 1 4 论文的内容安排 在本文的第二章介绍了对传统的n 元语法进行预处理并结合词性 消歧的改进算法;第三章主要对汉语韵律标注提出一些有意义的探索, 拟定了标记语言;第四章对汉语韵律层级边界的声学特性如音高,时 长,无声段等进行了定性实验分析,并在韵律结构预测方面做了一定 的研究。 9 山东大学硕士学位论文 第二章基于n - g r a m 的改进混合分词策略 随着计算机多媒体技术的发展,文语转换系统已初步显示出其巨 大的应用前景。其中应用在搜索引擎中的重要技术分词成为研究热点。 传统的分词方法包括基于规则的分词方法和基于统计的分词方 法。n 元语法是基于统计的分词算法,相对于其他分词算法,其在歧义 切分方面的表现较好,但是它的一些不足也成为它继续发展的瓶颈“。 本文提出一种在传统的n 元语法上结合最大匹配预处理,加入词性消 歧并平滑的改进算法,并给出整体算法流程。 2 1 算法框架 本文处理分词的方法是首先对输入文本进行基于词典的正向最大 匹配分词( f m m ) 和逆向最大匹配分词( b m m ) ,然后对比分词结果。如果 结果一致,则认为句子无歧义,直接输出;如果不一致,则有歧义字 段,进行基于词性的n - g r a m 排歧,并对未登录词进行平滑,最后输出 结果,如图2 1 所示。 1 0 因2 一 算法流程图 下面分别对其中的每一环节进行介绍。 是 山东大学硕士学位论文 2 2 算法实现 2 2 1 f m m 与b m m 结合 正向最大匹配( f m m ) 法的基本思想是这样的:假设自动分词词典 ( 或词库) 中的最长词条是i 个字,则取被处理材料当前字符串序列中 的前i 个字作为匹配字段,查找词典,若词典中存在这样的一个i 字 词,则匹配成功,匹配字段被作为一个词切分出来,如果在词典中找 不到这样一个i 字词,则匹配失败,匹配字段去掉最后一个字,剩下 的字段重新进行匹配,如此进行下去,直到匹配成功。 逆向最大匹配( b m m ) 法的基本原理和f m m 法相同,不同的是分词 切分方向。它从被处理材料的末端开始匹配,每次取最末端的i 个字 作为匹配字段,匹配失败则去掉最前面的一个字。因汉语有单字成词 的特点,一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧 义现象也较少。但这种精度还远远不能满足实际需要。 在本文中,采用正向最大匹配和逆向最大匹配结合的方法。如裂 切分结果不同而发现歧义字段,使用下面介绍的方法进行消歧处理。 2 2 2 n 元语法 2 2 2 1 语法模型 假设一个句子s 可表示为一个序列w = w 。w 2 w 3 j ,语言模型就是求句子 s 的概率: p ( s ) = p ( m ) 。p ( w 21w 1 ) 。p ( 屿1w l ) 。p ( i m ”一- ) 2 兀p ( mi m m 一一) 其中,嵋可以是字、词、短语或词类等等,称为统计基元。嵋的概率由 嵋,m 一。决定,由特定的一组w l ,嵋一,构成的序列称为m 的历史。随着历史 基元数量的增加,不同的“历史”( 路径) 按指数级增长。对于第i ( i 1 ) 个统计 基元,历史基元的个数为i - 1 ,如果共有l 个不同的基元( 如词汇表) ,理论上每 个单词都有可能出现在l 至u i - 1 的每一个位置上,那么,i 基元就有0 - 1 种不同的历 史情况。我们必须考虑在所有的0 - 1 种不同历史情况下产生第i 个基元的概率。那 山东大学硕士学位论文 么,模型中有个自由参数p ( w 卅im 一。) 。由此可见,自由参数的数目是 非常惊人的。 解决这个问题的办法是设法减少历史基元的个数,将嵋,w f 一。映 射到等价类s ( w 1 ,w i 一。) ,使等价类的数目远远小于原来不同历史基元 的数目。则有: 以嵋iw i ,m 一。) = 尸( w js ( w l ,w i 一,) ) 将两个历史情况映射到同一个等价类,当且仅当这两个历史情况 中的最近i 1 一1 个基元相同,如此划分等价类。这种情况下的语言模型称 为n 元语法。即第n 个词的出现只与它前面n 一1 个词有关,而与其他 词无关。当n = 1 时,称为1 元语法( u n i g r a m ) ;n = 2 时,称为2 元语法 ( b i g r a m ) ,依次类推。其实n 元语法就是n 一1 阶马尔可夫链“。 2 2 2 2 分词与词性标注一体化的t ri - g r a m 采用上述n 元语法模型,根据最大似然估计( m l e ) , 数p ( w ii i - i ,) 可由 最大似然估计求得: p ( ,rlw ;三“) = ,( m1w ;三+ - ) 5 1;c:(而wlo) 其中, 。c ( 。) 是历史串皑+ ,在给定语料中出现的次数,即 c ( w l - i + ,) ,f ( w ii 嵋i - i 。) 是在给定m i - 1 。的条件下m 出现的相对频度。 这样,对于有歧义的句子,我们考虑a r g m a x p ( w ) e ( s l w ) 来确定句子的最大 可能概率,消除歧义。假设在统计意义上每个词性的概率分布只与上 一个词的词性有关( 即词性的二元语法) ,而每个单词的概率分布只与 其词性相关”。这样就可以通过对已分词并做了词性标注的训练语料 进行统计。 设句子s 中单词w 的词性标注为t ,即句子s 4 h 应的词性标注符号序列可表 达为t = t ,t ,。那么,分词与词性标注的任务就是要在s 所对应的各种切 分和标注形式中,寻找t 和w 的联合概率p ( w ,t ) 为最优的词切分和标注 组合。本文采用三元语法,p ( w ,t ) 可由h m m 近似的表示为: 1 2 山东大学硕士学位论文 p ( w ,t ) = p ( w p t ) p ( t ) 兀p ( mi t , ) p 纯h f i - ” ( 2 1 ) 其中p ( mh ) 为生成模型,p 纯l t i _ , t 。) 为基于词性的语言模型。 如果把单词序列作为h m m 的中间状态,词性符号作为输出,那么p 亿的另 一种形式为: p ( w ,t ) = p ( t l w ) p c w ) 一兀尸( f ii 嵋) p ( m1 w , 一t 嵋一:) ( 2 2 ) 其中p ( t ;i w i ) 为生成模型,p ( l m 一。m 一:) 为基于词的语言模型。 将上述两式综合,得到 p ( 嵋f ) 。口p ( w ii t i ) p m ) + 卢珥p ( f f1 w , ) p ( w , 1 w , 一w i :) 显然,这种综合模型的指导思想是希望通过调整参数a 和的值来确定 两个予模型在整个分词与词性标注过程中所发挥作用的比重,从而获得分词与词 性标注的整体最优。 从公式( 2 2 ) 得到的结果分析可知p i m ) 对分词没有帮助,且在分词确定 后对词性标注又会增添偏差。因此,我们在实现这一模型时,仅取公式( 2 2 ) 中 的语言模型部分,而舍弃词性标注部分,并令a = ,仅保留加权系数,于是 p a ( m f ) = p ( m i t a p ( t ji t i l l t i - 2 ) + p p ( m1 w , 一l m 一2 ) 在确定p 系数值时,根据词典中词汇m 的个数和词性的种类数目,取二者 之比,即,= 词典中词m 的个数词性t i 的种类数。 2 2 3 回退( b a c k - o f f ) 平滑算法 再大的语料库不可能涵盖所有的语言现象。汉语博大精深,新词 不断出现,而且随着n 的增大,n - g r a m 模型计算的精确度将不断增大。 但由于训练文本数量的限制,参量估计的可靠性却在不断减低。那么 如何解决这种因为零概率导致的数据稀疏( s p a r s ed a t a ) 问题口“? 本 文采用了b a c k - o f f 平滑方法。 回退n 元语法模型在回退模型中根据n 一1 元语法模型来建立n 元 语法模型。它与“删除插值法”这种同是“层级关系”解决方案的不 山东大学硕士学位论文 同之处在于,在回退模型中如果有非零的三元语法计数,则只依靠这 些三元语法计数,根本不插入二元语法和一元语法计数。仅当阶数较 高的n 元语法中存在零计数时才采用回退模型,把阶数较高的n 元语 法降为阶数较低的n 元语法,通过前面短一些的历史对当前n - g r a m 进 行估计,估计式如下: 盹k 一,2 陋:三腻 2 3 实验结果 f ,c ( w i l m ) k 0 t h e - w s e 化常数3 。 实验评测在开放集中进行,并采用s i g h a n 2 0 0 3 国际汉语切分竞赛采用的评 价指标,各项指标定义如下: 准确率( p ) = 切分结果中i f 确分词数切分结果中所有分词数1 0 0 。 召回率( r ) = 切分结果中j 下确分词数标准答案中所有分词数1 0 0 。 f 一指标( f m e a s u r e ) = 2 p r ( p + r ) 。 本文对人民同报小规模文本进行训练,并挑选其他资料进行开放测试。本 文算法与传统算法比较得到表2 一l 。 1 4 表2 1 本文算法与传统算法的比较 山东大学硕士学位论文 在分词速度上,与其他分词算法比较得到表2 2 。 分词算法分词速度( 字分钟) 最大匹配 三元语法 本文算法 6 5 万 4 2 万 3 4 万 在歧义判别方面,本文选取了具有歧义的三个语句进行对比试验, 旬例如下: 1 我使劲扭了扭门把手,发现根本不动。 2 他家的确切地址。 3 美国会采取措施。 传统的分词结果如下: 瓤r 使劲v d 扭v 了,u 扭加门n 把向莩n ,i v 发现加棍奉n 神d 动,v 。t w l 他家r 的u 确切a 地址n 。_ 涟国船会7 采取7 描旄“9 v 基于本算法的分词结果如下: 我,r 使劲,v 扭,v 了,u 扭,v 门n 把手,n ,一发现,n 根本,n 不,d 动一- i ,w 他家m 的 确切a 地址n l “美,n 国会,n 采取v 措施n 对比可知,本算法对传统的分词方法有了较大的提高,对“把手” 一词把握较好。 对实验语句3 的分词上,虽然此句含有需要上下文语境才能很好 切分的歧义字段,但是本算法的分词效果具有更高的可能概率,验证 了算法的可行性。 由以上结果可看到,本文算法在准确率和召回率上比传统算法有 所提高,获得了比较好的效果,但是由于复杂度的提升,会导致分词 速度的相对下降,这是值得改进的地方。 山东大学硕士学位论文 第三章韵律标记语言 在语音交流中,语气和语调的不同,停顿的差别,将产生完全不 一样的效果。比如同样一句话:“我赞成他也赞成你怎么样”,我们可 以这样说:“我赞成他,也赞成你,怎么样? ”。也可以这样说“我赞 成! 他也赞成! 你怎么样? ”。一句同样的文本,对韵律层次的认知, 对重音,语调,时长的控制,都将影响到最后的声学输出。 当前的t t s 系统普遍存在着输出语音的机器味太浓、不够自然的 现象,在很大程度上阻碍了它的推广和应用。其根本原因即在于合成 语音中缺乏必要的韵律信息。据此,文本分析阶段应该考虑韵律结构 的划分,并标注相应的韵律标记,韵律模型负责将之转换成相应的合 成器参数,并送入语音合成模块输出语音。因此,针对汉语系统,当 前的首要任务就是要研究韵律的主要特点、韵律的结构和主要内容, 在此基础上,制订出一套相应的韵律标记方法。 3 1 s s m l 语言 语音合成标记语言( s p e e c hs y n t h e s ism a r k u pl a n g u a g e ,s s m l ) 的基本任务就是在不同的应用平台上为合成文本提供一个标准的控制 语音输出的方法,例如发音、音量、音调、语速等参数”。s s m l 以可 扩展的标记语言( x m l ) 为基础,在2 0 0 4 年9 月其1 0 版本正式成为w 3 c 的推荐标准,此标准可用于自动语音服务系统,手持设备等其他新兴 技术系统中以实现对语音合成的全面精细的控制。“1 。 s sh 4 l 语言的基础元素指定了文本的格式。例如针对h t m l ,s s m l 语言提供了一种段落元素而且走得更远。因为它还提供了句子元素。 通过像指定段落一样指定句子的地址,包括起始地址和终止地址,t t s 引擎就能更精确的生成语音。 除了基本的格式,$ s m l 还提供了功能来指定如何发某个预定的词 语或者词语集合。这个功能由“s a y a s ”元素来实现。它能让你指定 一个模板,这个模板描述如何发音某个单词或者单词集合。通过 1 6 山东大学硕士学位论文 “s a y a s ”,我们可以为缩写的单词指定如何发音,也可以为拼写与发 音不同的单词指定发音。我们还可以列出数字和日期之间的区别。 “s a y - a s ”元素包含了对e m a i l 地址、货币和电话号码等的支持。 s s m l 语言的几个高级属性可以帮助我们让t t s 系统生成更人性化 的声音。我们可以使用“v o i c e ”元素指定男声、女声或者中性的声音, 而且还可以指定声音所属的年龄。 s s m l 语言使用“e m p h a s is ”元素环绕那些需要强调或者比较次要 的文本。使用“b r e a k ”元素告诉系统语音在某处应该暂停。 s s m l 语言最高级地特性之一体现在它地“p r o s o d y ”元素上。通过 它我们可以以某种指定方式生成某个确定的文本集合的语音。我们可 以指定声音的语调、范围、语速( 单词每分钟) 。我们甚至可以通过使 用“c o n t o u r ”元素指定更细节的东西。“c o n t o u r ”元素把语调和语速 集成在了一起。通过指定一个文本集合的“c o n t o u r ”元素值,我们可 以更精确的定义如何生成语音。 3 2 现有标记语言的不足 微软的s p e e c hs d k 中集成了一个t t s a p p 的工具,它在工作的时 蕊 候,会调用微软自己的t t s 引
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高州市2024-2025学年第二学期六年级语文期末学业测评考试题目及答案
- 甘肃省酒泉市肃州区2022-2023学年高三下学期高考第三次模拟考试化学考点及答案
- 2025年麻醉综合试题及答案
- 2025年助理医师考试题及答案
- 2025年防跌倒坠床考核试题有答案
- 2024年玉溪市人民医院招聘真题
- 考试辅导协议7篇
- 2025年熔化焊接与热切割作业模拟考试题库试卷(含答案)
- 2025年驾照清分考试试题及答案
- 2025年电信局考试题库及答案
- 音标有趣教学课件
- 重症科健康宣教专题
- 软件升级与迭代更新协议说明
- (高清版)DB34∕T 5225-2025 风景名胜区拟建项目对景观及生态影响评价技术规范
- (2025)学宪法讲宪法知识竞赛试题库及参考答案
- 乡村医生法律法规知识
- 净菜加工培训
- 2025年福建省中考英语试卷真题(含标准答案)
- 骨科VTE管理制度
- 医院运送现场管理制度
- GB/T 45653-2025新能源汽车售后服务规范
评论
0/150
提交评论