




已阅读5页,还剩99页未读, 继续免费阅读
(计算机软件与理论专业论文)psola与倒谱参数结合的算法实现汉语文语转换.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 汉语文语转换( c h i n e s et e x tt os p e e c h ) 技术是将计算机中存储的汉语文本 转换成对应的语音,是计算机和人类交互的一种手段。本文以汉语文语转换技 术为中心,在v c n e t 环境下设计并实现了一个由c + + 语言开发的汉语文语转 换系统。 汉语文语转换技术包括两个主要部分,一是对文字信息的处理,二是对语音 信号的处理。文字信息的处理中主要包括文本的规范化,中文分词处理,中文 韵律的生成。语音信号的处理重点是中文语音的合成。论文重点提出了一种在 文本处理过程中描述韵律的方法,以及语音合成部分采取波形编辑合成和参数 合成相结合的方法。该语音合成方法将事物的表象和本质有机地结合起来,更 有效地发挥各算法的优点,提高了合成中汉语字与字、词与词之间合成语音的 自然度。论文在此基础上构建了一个计算机存储容量小,但合成语音的自然度 较高的汉语文语转换系统。 在本文中主要对系统的三个主要部分进行介绍:文本处理:主要介绍汉语 文本的规范化、中文分词处理和汉字注音。汉语文本韵律的生成:主要介绍 汉语中字词句韵律的生成方法。语音合成:主要介绍汉语音库的选择和建立、 语音信号的基本知识、语音的产生的过程、语音波形编辑合成算法t d - p s o l a 算 法、使用同态处理构建声道倒谱参数的合成算法。然后对合成的语音进行实验 和对实验结果进行分析。 最后对遇到的一些问题进行总结和分析,对需要改进和添加的功能进行补 充,以便以后的研究者对系统不足的地方进一步地完善。 关键词:汉语文语转换、分词、语音合成、t d p s o l a 、倒谱、同态 a b s t r a c t a b s t r a c t c h i n e s et e x t - t o - s p e e c ht e c h n o l o g yi st oc o v e r tt h ec h i n e s et e x ts t o r e di n c o m p u t e rt ot h ec o r r e s p o n d i n gv o i c e ,w h i c hi saw a yo fh u m a n m a c h i n ei n t e r a c t i o n t h ep a p e rd i s c u s s e sh o wt od e s i g na n di m p l e m e n tac h i n e s et e x t - t o s p e e c hs y s t e m 、衍n lc + + l a n g u a g ei nv c n e td e v e l o pe n v i r o n m e n tb a s e do nc h i n e s et e x t - t o - s p e e c h t e c h n o l o g y at y p i c a lc h i n e s et e x t - t o - s p e e c ht e c h n o l o g yi sm a i n l yi n c l u d i n gt w op a r t s :t e x t i n f o r m a t i o np r o c e s s i n ga n ds p e e c hs i g n a lp r o c e s s i n g t h e r ea r et e x tn o r m a l i z e , c h i n e s ew o r ds e g m e n t a t i o n ,c h i n e s ep r o s o d yb u i l d i n gi nt e x ti n f o r m a t i o np r o c e s s i n g 。 s p e e c hs i g n a lp r o c e s s i n gm a i n l yf o c u so nc h i n e s ev o i c es y n t h e s i s t h ep a p e r a d d r e s s e sam e t h o dt od e s c r i b et h ec h i n e s ep r o s o d yi nt e x tp r o c e s s i n g ,a sw e l la s p r o p o s e sa n i n n o v a t i o nw a yo ns p e e c hs y n t h e s i sw h i c hc o m b i n e st h ew a v e f o r m s y n t h e s i st o g e t h e rw i t l lt h ep a r a m e t e r ss y n t h e s i sd u r i n gt h es p e e c hp r o c e s s i n g t h i s m e t h o di m p r o v e sn o to n l yt h en a t u r a l n e s sb e t w e e nt h es y n t h e s i z e ds y l l a b l e sb u ta l s o t h en a t u r a l n e s sb e t w e e nt h es y n t h e s i z e dw o r d s b a s e0 1 1t h e s et e c h n i q u e s ,t h ep a p e r h a sm a d eac h i n e s et t ss y s t e m 、析t has m a l ls t o r a g e m o r en a t u r a ls y n t h e s i z e d s p e e c h t h ep a p e ri n t r o d u c e st h et t ss y s t e mi nt h r e ep a r t s f i r s t l yt h et e x tp r o c e s s i n g : m a i n l yi n t r o d u c e sc h i n e s et e x tn o r m a l i z e ,c h i n e s ew o r ds e g m e n t a t i o na n dc h i n e s e v i n y i nt a g g i n g s e c o n d l yt h ec h i n e s et e x tp r o s o d yb u i l d i n g :m a i n l yi n 廿o d u c e sh o w t od e s c r i b et h ep r o s o d yo fc h i n e s es y l l a b l e s ,w o r d sa n ds e n t e n c e s a n df i n a l l yt h e s p e e c hs y n t h e s i s :i n t r o d u c e sh o w t od e c i d ea n dm a k et h ev o i c ed a t a b a s e ,t h eb a s i so f s p e e c hs i g n a l ,h o wt h es p e e c hp r o d u c e s ,a n dt h es p e e c hw a v e f o r me d i t i n gs y n t h e s i s a l g o r i t h mt d p s o l a , t h ec e p s t r u mp a r a m e t e r ss y n t h e s i sa l g o r i t h mb a s e do n h o m o m o r p h i s ma n a l y s i s a tl a s tt h e r ea r ee x p e r i m e n t so nt h es y n t h e s i z e ds p e e c ha n d a n a l y s i so nt h ee x p e r i m e n t sr e s u l t s f i n a l l y , t h ep r o b l e m st h a te n c o u n t e r e dd u r i n gi m p l e m e n t i n ga r es u m m a r i z e da n d s o m ef u n c t i o n st h a tn e e d e dt oi m p r o v eo ra d da l es u p p l e m e n t e d s ot h er e s e a r c h e r s c a ni m p r o v et h es h o r t c o m i n g so ft h i ss y s t e me a s i l yi nt h ef u t u r e a b s t r a c t k e y w o r d s :c h i n e s et e x t - t o s p e e c h , w o r ds e g m e n t a t i o n ,s p e e c hs y n t h e s i s , t d p s o l a ,c e p s t r m n , h o m o m o r p h i s m 目录 图目录 图2 1 文本缓冲区示意图。1 1 图2 2 空格符及制表符的过滤过程示意图1 1 图2 3 文本规范前后示意图1 2 图2 4 最大匹配分词法逻辑示意图1 4 图2 5 待分词词串可能分词路径示意图1 5 图2 6 中文姓名识别过程示意图1 8 图2 7 数据库表示意图1 9 图2 8 分词结果示意图2 0 图3 1 汉字注音过程示意图 图3 2 汉语声调的五度标记法。2 7 图3 3 调型变化示意图。 图3 4 汉语单音节韵律确定过程示意图2 9 图3 5 词语“机动性一的基频变化示意图3 6 图3 6 词语“闷热力的基频曲线变化示意图。 图3 7 基频重置示意图。3 8 图3 8 句子旬调曲线示意图3 9 图3 9 余弦函数表示陈述旬句调曲线示意图4 0 图3 1 0 疑问旬句调曲线示意图。4 0 图4 1 图4 2 拼音s h a 的语音波形图 元音a 部分波形图。 4 6 图4 3 基音概念图4 7 图4 4 基音同步叠加过程示意图4 8 图4 5 卷积的过程 图4 6 波形a 加窗示意图 图4 7t d p s o l a 合成过程示意图5 5 v i i 目录 图4 8 语音产生的数字模型5 7 图4 9 同态解卷特征系统d 图4 1 0 同态解卷积反特征系统d - 1 图4 1 l 同态解卷系统的z 变换域模型5 9 图4 1 2 同态解卷系统的典型范式5 9 图4 1 3 提取声道倒谱过程图 图5 1t t s 系统类的关系图 图5 2 汉语t t s 系统逻辑图 6 1 ; 6 6 图5 3t t s 按钮事件响应处理流程图6 8 图5 4d a o 体系结构图。7 2 图5 5 音频处理软件c o o l e d i t 界面图8 0 图5 6 音频软件p r a a t 查看基频曲线时界面图8 1 图5 7 汉语文语转换系统界面图。8 1 图5 8t t s 系统点击打开文本按钮示意图8 2 图5 9 点击t t s 按钮后选择数据库示意图8 3 图5 1 0t t s 系统词性标记训练完毕示意图8 3 图5 1 1t t s 系统分词处理完毕界面示意图8 4 图5 1 2t t s 系统参数处理完毕界面示意图8 4 图5 1 3t t s 系统倒谱参数处理完毕界面示意图8 5 图5 1 4t t s 系统句型参数处理完毕界面示意图8 5 图5 1 5t t s 系统语音合成完毕界面示意图8 6 图5 1 6t t s 系统播放声音过程界面示意图 图5 1 7 “现代语音技术一单字语音直接相连语音图8 7 图5 1 8 “现代语音技术一变调后单字语音直接相连语音图8 8 图5 1 9 “现代语音技术一加入倒谱参数合成语音图 8 8 图5 2 0 “现代语音技术一词语基频重置合成语音图8 9 图5 2 1 搿现代语音技术一加上句调韵律合成语音图8 9 v i l l 目录 表目录 表2 1 常见电话号码写法8 表2 2 常见日期写法 8 表2 3 常见时间写法8 表2 4 常用字符编码表。1 0 表2 5 中文姓名概率值1 7 表3 1 汉语拼音方案声母表2 2 表3 2 汉语拼音方案韵母表2 3 表3 3 五种基本调值的相对值。2 7 表3 4 汉语单音节韵律参数表3 0 表3 5 二字词变调调型表3 2 表3 6 汉语文本停顿级别表3 6 表3 7 汉语文本韵律参数示例表4 1 表4 1w a v 文件头格式说明表 表4 2 音库录制所需字部分字表4 5 表5 1 分词中使用的几个全局变量6 7 表5 2c m y d i c t i o n a r y 词库类成员变量表7 3 表5 3 词库类处理数据库表的成员函数表 表5 4 词库类其它成员函数表 表5 5w a v e 文件头结构体变量成员表 表5 6 声韵母文件头部分变量表 表5 7 倒谱文件头结构体成员变量表 表5 8 倒谱类成员变量表 i x 7 4 7 l l 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 ,学位论文作者签名:卷舶弓 山伊彦年厂月沈日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 解密时间:年月日 各密级的最长保密年限及书写格式规定如下: 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 学位论文作者签名朱种矿 工夕p 孑年,月诌e l 第一章引言 第一章引言 第一节选题背景和研究意义 在计算机技术和信息技术发展的过程中,语音交互已经日益成为人机交互的 重要手段。自第一台计算机e n i a c 诞生以来,计算机技术一直呈现突飞猛进的 发展趋势。从科学研究到日常生活,计算机渗透到了人类生活的方方面面。在 现代社会中,人们更习惯借助计算机来处理和完成各种事务。于是,如何让计 算机智能化地与人类通信,更自然地同人类交互便成为当今计算机科学的一个 重要研究课题。在人类自身的交互过程中,语音是最习惯、最自然的方式,因 此语音是人机交互的一种比较理想的选择。 传统计算机与人类交互是通过键盘、鼠标与显示器,人们通过键盘和鼠标进 行输入,通过显示器来接收计算机的输出。但听觉也是人类获得信息的重要渠 道,人们日常的信息交流大部分是通过语音来完成的。声音是人们最熟悉的信 息传递方式,为计算机增加声音交互,使得人机交互像人与人交流那样自然, 是人类一个美好的愿望。自第一台计算机诞生后,科学工作者们就不断地往这 个方向上努力。计算机接收人们的声音而产生相应的命令是语音识别的范围, 而让计算机将执行命令的结果以声音的形式传递给人们则是语音合成的任务。 本论文选题的范围是在语音合成领域。 t t s 是英文t e x t - t o s p e e c h 的缩写,它的中文翻译是“文语转换【l 】,它的 意思是将存储在计算机中的文本信息转换成相应的语音通过扬声器播放出来。 经世界上无数科学工作者的研究,已经实现了各种国家语言的文语转换系统。 目前我国的很多公司和科研机构也在致力于汉语文语转换技术的研究,并以多 种方法实现了不同性能的汉语文语转换系统。汉语文语转换技术中最重要的部 分是语音合成,评判一个汉语文语转换系统优劣的标准是测评合成语音的自然 度与可懂度。因此当今研究汉语t t s 技术的主要任务是如何提高系统合成汉语 语音的自然度和可懂度,创造更加和谐的人机交互环境。 t t s 技术在许多领域都有着重要的应用1 2 j ,例如: ( 1 ) 人机对话,实现人和计算机的语音对话是新一代计算机的重要特点, 尤其是计算机深入家庭,就要求提供一种简单的,便捷的操作方式,使用语音 第一章引言 作为信息的载体是最理想的方式。另外掌上机和车载计算机系统用传统的操作 方式有许多的不便,人机对话也是最理想的人机交互方式; ( 2 ) 电话咨询,把文字转换成语音后的一大好处是可以通过目前十分普及 的电话网传送。现有的电话咨询是要事先录音的,t t s 不需要录音,可以随时 动态地改变传送信息; ( 3 ) 自动播音,在机场、码头、车站等随时需要有信息发布的场所,t t s 可以方便的将信息动态的播放给公众; ( 4 ) 助讲助读,在残疾人服务方面,对于发音器官有损伤的人,可以通过 t t s 使用语音表达思想,可以打电话。盲人因看不到文字,失去大量获取信息 的渠道。t t s 可以给他们弥补这种损失,有了t t s 系统,盲人也能读报,看书 和上网; ( 5 ) 语音教学,汉语t t s 系统可以采用真人的标准汉语普通话发音,可以 进一步开发成普通话的教学软件,解决边远地区推广普通话师资力量不足,和 为外国人学汉语提供方便; ( 6 ) 电话翻译,可以将不同国家的语言对译后进行发音,方便了人类之间 的交流。 因此对汉语文语转换技术的研究有着重要的现实意义。 第二节国内外研究历史、现状和未来发展趋势 t t s 技术的发展主要是语音合成技术的发展,语音合成是通过机械的或电子 的方法产生人造语音的技术。 人类语音合成的研究可以追溯到1 7 7 9 年圣彼得堡( s t p e t e r s b u r g ) 的俄国 教授c h r i s t i a nk r a t z e n s t e i n 的工作t 3 。他为了解释五个元音( a 、e l 、i 、o 、u ) 的生理学差异,亲自制作了与笛子类似的发音器,其构造与人类的声道相似。 这是一个相当完善的机械式语音合成器。 而第一个被视为典型的电子语音合成器的是1 9 3 9 年由h o m e rd u d l e y z 在纽 约世界集会( n e wy o r kw o r l df a i r ) 介绍的v o d e r ( v o i c eo p e r a i n g d e m o n s t r a t i o n ) 3 1 1 4 。v o d e r 是由贝尔实验室研究的v o c o d e r ( v o i c ec o d e r ) 发 展而来的。 随着人们对语音合成的进一步研究,第一个发声合成器( a r t i c u l a t o r y 2 第一章引言 s y n t h e s i z e r ) 在1 9 5 8 年由麻省理工学院的g e o r g er o s e n 发明而成【4 】。 在同一时代,共振峰合成器也发明出来,是由w a l t e rl a w r e n c e 在1 9 5 3 年制 作成的并行共振峰合成器p a t ( p a r a m e t r i ca r t i f i c i a lt a l k e r ) 。 而第一个英文的文语转换系统则是日本人n o r i k ou m e d a 和其同伴1 9 6 8 在电 工实验室( e l e c t r o t e h n i c a ll a b ) 研发而成i 引。 今天的语音合成都是利用计算机来实现的,因此当今的语音合成器都可称为 电子语音合成器【2 】。1 9 7 9 年,a l l e 、h u n n i c u t t 和k l a t t 在麻省理工学院研制成了 m i t a l k 的文语转换系统【4 】。这是文语转换系统第一次用于商业化,是2 0 世纪一 个伟大的杰作。从此,商业化使得语音合成的发展进入了更快的发展。1 9 8 0 年, 德州仪器公司将l p c ( l i n e a rp r e d i c t i o nc o d i n g ) 技术引入了基于低代价线性预 测合成芯片( t m s 5 1 0 0 ) 的说拼合成系统( s p e a k n s p e l ls y n t h e s i z e r ) 。 从八十年代中后期,语音合成技术进入了拼接合成阶段,p s o l a ( 基音同步叠 加技术) 和h n m ( h a r m o n i cp l u sn o i s em o d e l ) 给语音合成领域开辟了新的研究 天地。 九十年代初,基于p s o l a 技术的法语、德语、英语、日语等语种的文语转 换系统都已经研制成功。这些系统的自然度比以前基于l p c 方法或共振峰合成 器的文语合成系统的自然度要高。国外研究语音合成最具有代表的公司是i b m 公司。1 9 9 7 年,i b m 研制成了v i a v o i c e ,该系统同样具备语音合成功能。 我国从1 9 7 9 年清华大学对人机交互系统进行研究后,语音合成的研究不断 取得进步。中国科技大学人机语音通信实验室,在十几年语音技术研究和积累 的基础上,使用对数振幅近似( l m a ) 模型,独创了以“人声道模拟技术 为 基础的k d 8 6 3 系统,一举突破了语音合成清晰度和自然度的制约瓶颈,将语音 合成技术推进到应用的水平。 2 0 0 2 炎黄新星网络科技有限公司与清华大学合作建立的华意语音研究中心, 研制出了第二代汉语语音合成产品炎黄之声s i n o s o n i c 。但是,我们距离国 际水平还是有很大差距。 电子语音合成从技术层面上主要分为基于现象的波形拼接合成技术、和基于 语音本质的参数合成技术。 波形拼接合成是预先将有限的语音波形存储在计算机中,采取一定的拼接算 法,如经典的基音同步叠加( p s o l a ) 算法,对波形进行修改而合成出所需声 音。p s o l a 算法中包括基于时域的t d p s o l a 和基于频域的f d p s o l a 等。 3 第一章引言 参数合成是将人类发声的声道表示成参数的形式,根据待合成的语音选择其 相应的参数而动态地生成所需语音。如l p c 线性预测,共振峰和对数振幅近似 ( l m a ) 合成方法是基于语音的源声道滤波模型的,通过产生语音的源声 门周期激励波形,经过模拟声道参数的滤波器合成出语音。 近几年,科大讯飞公司不断将语音合成技术完善,推出了一系列的适合各种 不同平台的功能各异的文语转换系统,如i n t e r p h o n i c ,v i v i v o i c e i 5 1 ,有适合嵌入 式系统的,适合一般个人计算机操作系统平台的,普通话的,广东话的,中英 文混读的。该语音合成技术是参数合成的代表。 目前微软亚洲研究院语音组研制的“木兰文语转换系统【6 1 也达到了非常好 的效果,测听自然度都较高。该系统是一个基于波形拼接技术的文语转换系统 的代表。 纵观当今语音合成技术的发展趋势,相信随着人类对语音产生本质更深入的 理解和研究,计算机技术更深远的发展,汉语文语转换技术一定会走向使人机 交互更加自然,方便和成熟的方向。 第三节本文的主要工作和创新点 一个t t s 系统主要由三个部分构成:文本分析、韵律生成和语音合成。因 此本文的研究工作主要在这三个方面:文本分析主要研究汉语文本的规范化、 中文分词处理和汉字的注音;韵律生成主要研究中文字、词和句子韵律模型的 描述和生成;语音合成主要研究语音音库的选择和处理、语音合成算法的研究 和实现。 基于研究对象为汉语文语转换系统,本文省略了对英文以及其它一些特殊符 号的处理,而将汉字和阿拉伯数字作为文本处理的重点。中文分词不是本文研 究的重点,因而采用了一种常规的最大匹配算法基础上的最大概率分词法。分 词中对部分的分词碎片进行处理,通过中国常用姓氏表决定出文本中可能的人 名或其它特殊名称。韵律生成过程中,通过大量语音材料测试,将韵律以定量 化的形式描述出来,另赋以一定的规则,得到了简单可行的韵律模型。语音合 成中采用了基于声韵母的小音库,使计算机存储量较之以字、词、句子为语音 基元的音库小了许多,而且修改起来更加灵活。在经典的语音合成算法上加以 改进,克服原有算法在韵律改变幅度较大时效果不理想、以及单字连成词、词 4 第一章引言 与词形成短语句子时发音生硬的不足,经过测试得到本系统合成语音在自然度 上有所提高。作为上述研究的成果,最终在v c n e t 环境下实现了一个小存储 量,高自然度的汉语文语转换系统。 本文的创新之处有:在合成汉语中的字时,采用了传统的p s o l a 算法和声 道参数调节相结合的办法,发挥两者各自的优点,改善了发音的字之间过渡平 滑程度,使合成语音自然度提高。时域上的p s o l a 算法有着计算快速的优点, 声道参数调节的方法从语音生成的本质上去解决两音之间声道过渡的影响,虽 然计算量稍大,但其调节范围广、变化更加灵活。在合成汉语词的语音时,将 词中字和字之间的音联韵律用基于规则的量化形式表示出来,使得合成语音类 似人说普通话时会产生变调的情况,改善了单字直接拼按时发音生硬且不符合 规律的情况。对合成汉语语句时,给出了一种简单可行的描述句调韵律特征的 模型。 第四节本文的整体结构 本文循着设计和实现一个完整的汉语文语转换系统的各个模块的先后顺序 对主要的研究工作进行详细的介绍,具体的章节安排如下: 第二章:主要介绍对汉语文本的规范化和中文分词处理。 第三章:主要介绍汉字注音的方法和中文字、词、句子韵律模型的生成。 第四章:详细说明汉语音库的制作和建立、语音合成的相关知识、本文改进 的语音合成的算法。 第五章:整个汉语文语转换系统的结构及程序中的主要技术和系统功能介 绍。 第六章:总结与展望。 5 第二章t t s 系统的文本分析 第二章t t s 系统的文本分析 文本分析是文语转换系统的前端,它的主要内容是对输入的文本进行分析理 解,为后端的韵律生成器和语音合成器提供必要的信息。对于一段传送给汉语 文语转换系统的文本,格式可能是杂乱无章的,或者其中包含一些不可发音的 符号等。所以需要先对文本进行规范化,并使其只保留可转换成语音的部分。 中文文本同英文等其它文本的最大不同之处在于中文没有明显词语分界标志, 而英文则可以通过空格识别出单词,所以中文分词就成为了汉语文本分析的一 个重要部分。分词的目的是为后端韵律生成提供信息。最后文本分析还要为语 音合成器后端提供中文文本中可发音字的读音,为韵律生成器标识出停顿等信 息。 不同的合成后端决定了文本分析器设计的复杂度。对于简单的系统来说,可 能文本分析只需要提供读音信息就够了;而对于自然度要求越高的合成器来说, 文本分析给出的语言学或语音学信息就会越丰富。下面就对本论文研究的汉语 文语转换系统中的文本分析进行介绍。 第一节汉语文本的规范化 2 1 1 文本规范化的概念 文本规范化主要是通过对文本上下文的分析,把其中的数字、简写符号或者 特殊语义块识别出来,并给出它们对应的中文规范写法并将文本中出现的一些 不规范或无法发音的字符过滤掉。 以英文文本举例,文本中除了包括正常的单词外,还常常出现各种简写词或 者是缩略词。简略词有两种类型:一种是a b b r e v i a t i o n ,例如m a r c h 可以简写为 m a r 另一种是a c r o n y m ,是一种只取首字的缩写方法,比如a c m 。简略词的 识别并非查词表那么简单。实际上由于书写者的随意性,简略词中的“有时 也可能被省略掉。再有如英文的百分数应将其规范化为英文拼写方式。举例来 说: 原始文本:t h e1 0 s t u d e n t s 规范后文本:t h et e np e r c e n ts t u d e n t s 6 第二章t t s 系统的文本分析 本论文重点在于研究汉语文本,所以暂时不考虑英语文本的情况,凡是文本 中出现英文的地方均忽略,留待以后的研究中加入中英文混读模块时再解决。 规范后的文本将其去掉而不合成对应的语音。另外文本中还可能出现如下的一 些非中文符号。 技术手册中可能含有标题和数字的数学公式、图表等;e m a i l 文本中有常见 的表情或其他简写符号;w e b 网页上常有网站的域名或i p 地址。显然,这些非 正常的文本块在文本分析时应该有相应的处理,否则合成出来的语音会意义不 完整,或者读法错误。通常这个处理过程需要由经验知识指导,并结合上下文 环境才能完成。这些特殊文本的识别往往不只使用正则表达式这么简单,不但 需要用到自动机模型,而且需要人工智能等技术的帮助。在识别出这些特殊文 本后,它们的读音又有一定的特殊性,作为一个简单的汉语文语转换系统的研 究,就暂时将它们过滤掉,不对它们进行处理。 2 1 2 文本中数字符号的规范 数字是一类特殊的符号,在英文文本和中文文本中都会频繁出现,数字的规 范化应该是文本规范化中的一个重要内容,因此这是本论文研究的一个重点。 数字在文本中有不同的写法,不同的意义,同时也有不同的读法。例如“昨 天是1 2 号中的“1 2 应该规范为“十二刀;而“i b mt 4 1 中的4 l 应该规范 为“四幺 。不同的规范化结构是由数字的意义和人们的说话习惯决定的。要确 定如何规范化数字块,必须处理歧义的判别问题。下面就对常见的数字块类型 的确定进行讨论。可以基于规则或统计的办法确定数字的规范化形式,但无论 用何种方法,都不可能做到完全正确。 ( 1 ) 电话号码 电话号码通常包括前缀,区号和普通号码,中间还可能包括一些分隔符号 表2 1 列出了一些常见的电话号码的例子。其中前两个电话号码是有区号或 前缀的号码,最后一个是普通的8 位号码。一般来说,国内区号部分长为3 到4 个数字,而普通号码部分为6 到8 个数字。如果一个文本块与这种形式匹配, 则很可能它是个电话号码。进一步,可以考察该文本块相邻的上下文,看看有 没有一些指示关键词,诸如“电话或“号码”等。一旦出现这些关键字,几 乎可以肯定是电话号码了。 7 第二章t t s 系统的文本分析 表2 1 常见电话号码写法 ( 区号) + ( 电话号码) 0 2 2 2 3 4 9 9 61l + 8 6 2 2 2 3 4 9 9 6l l 2 3 4 9 9 6 1 1 确认类型后,下一步是将数字转换为相应的文本。比如表2 1 中最后一个电 话号码2 3 4 9 9 6 1 1 就可以规范化为“二三四九九六幺幺 。 ( 2 ) 日期 日期有很多写法,t t s 的文本规范化尽可能地处理常见的格式。表2 2 是常 见的日期书写格式。 表2 2 常见日期写法 ( 年) t - 月+ 日 2 0 0 8 一0 3 1 5 2 0 0 8 0 3 15 0 8 0 3 1 5 2 0 0 8 年3 月1 5 日 3 月1 5 日 如果文本匹配了“2 0 0 8 年3 月1 5 日”这种日期形式,还需要对匹配得到的 年月日进行合法性检查,即月份的数值在1 到1 2 月之间,天数的数值在1 到3 1 之间等。 ( 3 ) 时间 时间可能包括小时、分、秒或者时间间隔等几种形式。如表2 3 所示。 表2 3 常见时间写法 时+ 分- i - ( 秒) 1 6 :3 5 1 6 :3 5 p m l6 :3 5 :2 0 1 6 :0 0 1 6 :3 0 但有时候以这种形式出现字符串时还不能完全确定该文本块就是时间。比如 8 第二章t t s 系统的文本分析 “1 6 :3 5 出现在“场上比分1 6 :3 5 中的时候就不是表示时间,而是比分了。对 于这种歧义的消除,还需要考虑上下文的环境。 以上对于文本中数字的分析我们可以看出在不同情况下的数字以及连接数 字间字符的读法会有所差异,最明显的是数字“1 静在有的情况下会读“一一的 音,有的情况下会读“幺的音。连字符“: 有可能读“点,也有可能读“比。 对于上述的情况可能需要根据上下文环境和人工智能技术进行判断。再有例如 电话号码的读法中还涉及到一个数字串连读的问题【_ 7 1 ,比如一个8 位的电话号 码,2 3 4 9 9 6 1 1 我们可能习惯将前4 位与后4 位分开,每4 位之间连读;一个1 1 位的手机号码如:1 3 9 8 7 6 5 4 3 2 1 我们可能习惯连读为1 3 9 8 7 6 5 4 3 2 1 或者 1 3 9 8 7 6 5 4 3 2 1 这都因为各人的习惯不同。论文中不对上述情况做处理,而是将 数字“1 统一发音为“一,将电话号码以及每个数字相互连接的数字串作为 一个整体的发音群处理。 2 1 3 文本中字符的编码 在具体处理文本中的中文前先简单介绍一下字符在计算机中的编码。 论文中处理的文本主要包括以下几种字符:数字,包括西文和中文阿拉伯数 字;符号,主要包括西文和中文标点符号;中文字符。 计算机本身是不能识别这些字符的,计算机只认识由0 和1 组成的数。因而 对于不同的字符都有各自不同的一组二进制数表示,称为字符的编码。 对于计算机键盘上可键入英文字符、阿拉伯数字、标点等符号,以及不可见 字符如空格、制表、回车键都有对应的字符编码,称作字符的a s c i i ( 美国标准 信息交换码) 编码1 8 j ,它是一个7 位的编码,因此最多可以表示1 2 8 种不同的字 符。如果使用扩展的a s c i i 编码,它用8 位表示一个字符,最多也只能表示2 5 6 种字符。a s c i i 码中的符号分为两类:一类是控制字符,范围是0 3 1 ,主要用 来控制输入、输出设备;另一类是显示字符,范围为3 2 - 1 2 6 ,是能从键盘输入、 可以显示和打印的字符。 这作为键盘上的符号以及其它一些符号是足够了,但常用汉字就有6 千多 个,这肯定是远不够的,因此汉字是用两个字节( b y t e ) 即一个字( w o r d ) 表 示的,每个汉字就用一个1 6 位的编码。但是汉字的编码又分为很多种,如g b 码、g b k 码、b i g 5 码和u n i c o d e 码等【9 】。论文中处理的文本使用g b 码。 g b 码是国标码的简称,它是我国公布的国家标准信息交换用汉字编码字 9 第二章t t s 系统的文本分析 符集一基本集,其中包含了6 7 6 3 个汉字,分为两级,一级为3 7 5 5 个常用汉字, 按照拼音排序:二级为3 0 0 8 个汉字,按照部首排序【9 】【1 0 1 。 一个汉字的国标码由两个部分组成,分别叫做该汉字的区号和位号。g b 码 规定共有9 4 个区,每个区有9 4 个位。前1 5 个区用来编排西文字母、数字、日 文假名、图形符号等,1 6 区 - - - 8 7 区是汉字,8 8 区 - 9 4 区是用户自定义区。因 此g b 码又叫区位码。 而汉字g b 码要和a s c i i 码一起使用时会出现冲突问题,解决的办法就是在 高位置1 。已知一个字的区位码,将区码和位码分别加a 0 就得到汉字机内编码, 一般称为内码,例如汉字“爱 的区号是1 6 ,位号是1 4 ,则它的内码就是b o a e , 写作十进制为1 7 6 1 7 4 。在计算机系统中使用的字符编码都要经过二进制转换, 转换为系统内码。表2 4 中列出几个常用字符的编码。 表2 4 常用字符编码表 字符编码 英文空格 中文空格 制表键t a b “o “9 “a ” “a , 英文冒号“:” 中文冒号“:” 中文“啊” 2 0 h a l h a 1 h 0 9 h 3 0 h 3 9 h 4 1 h 6 l h 3 a h a 3 h b a h b o h a 1 h 2 1 4 文本规范化的实现 计算机中可以多种形式的文件保存文本,但均可以将文本以流的形式导入到 汉语文语转换系统。如果将整个的文本完全读入到系统进行处理,当文本较小 时是可行的,但如果文本非常大,这样整个进行处理不但占用内存空间较大, 而且处理时间也会增加。为了提高处理效率论文采用一种文本缓冲区的思想, 每次读入文本文件的一行进行处理,一个文本文件一行的最大字符数为2 0 4 8 , 1 0 第二章t t s 系统的文本分析 即2 0 4 8 个字节( b y t e ) 。然后循环将文本的一行读入缓冲区进行处理。该过程示 意图如图2 1 所示。 图2 1 文本缓冲区示意图 文本规范化第一步先去掉中文或西文的空格以及制表符。其思想是按字节顺 次读入文本缓冲区内的内容,如果字节码小于1 6 1 ,则为西文字符,这时判断该 字节是否为西文空格编码3 2 或制表符编码9 ,若是则跳过不处理;如果字节码 大于1 6 1 ,而小于1 7 6 则为中文符号区域,再读入相邻的下一字节,如该两个字 节为1 6 1 1 6 1 ,则为中文空格,跳过它们;若不为中文空格,则为中文其它字符, 将这两个字节拷贝到输出缓冲区;若不是以上情况,则为西文其它字符,将该 字节拷贝到输出缓冲区。具体过程如图2 2 所示。 图2 2 空格符及制表符的过滤过程示意图 1 l 第二苹竹s 系统的文本分析 经过上面处理后的文本在文字与文字之口j 则不存在不连续的情况了,文本中 包含有数字,不发音字符,标点符号,中文字符。文本规范化后得到的中间文 本是作为输入提供给下一步的分词模块的。分词虽然是对整个文本进行,但具 体到局部时,分词只是对由标点符号所隔开的每一个独立的小句进行分词。所 匕l 在这里对标点进行处理后就可按标点的位置为单独一行将该行文本作为输出 的中间文本。 先对标点符号处理。这里标点符号的作用是一个停顿作用】 ”】,在本文中大 致将标点符号的停顿分为四个级别。句号、叹号、问号为一级:逗号、分号为 一级:减号、杠号、冒号为一级:其它标点符号t = i j 一级。设定它们的标签表示 为s 1 ) ,s 2 ,s 和 【“j 。再有段落间停顿作为另一个层级,设定它的标签表 示为c s o ) 。这样划分是困为在韵律处理上的要求,所以将
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年体育休闲广场项目智能化系统设计评估报告
- 药品营销培训管理制度
- 药品阴凉冷藏管理制度
- 药店医保刷卡管理制度
- 药店流动顾客管理制度
- 菊花技术文件管理制度
- 设备业务薪酬管理制度
- 设备加油规范管理制度
- 设备岗位合同管理制度
- 设备机房标准管理制度
- 2025至2030中国物理气相沉积(PVD)设备行业行情监测与发展动向追踪报告
- 电力咨询费合同协议
- 2025-2030海洋环境监测行业市场深度调研及发展前景与投资研究报告
- 2025年中学生离队入团活动实施方案
- 2025绿色建筑检验机构能力验证要求
- 玻璃基板制备技术考核试卷
- 南极磷虾油与红曲、辅酶Q10联用降低血脂效果研究
- 2025年上海市安全员C3证(专职安全员-综合类)考试题库
- 钱大妈加盟合同协议
- 基本公共卫生服务2025版培训
- 《建筑工程识图》课件-梁平法施工图识读一
评论
0/150
提交评论