(信号与信息处理专业论文)嵌入式语音合成系统实现中关键技术研究.pdf_第1页
(信号与信息处理专业论文)嵌入式语音合成系统实现中关键技术研究.pdf_第2页
(信号与信息处理专业论文)嵌入式语音合成系统实现中关键技术研究.pdf_第3页
(信号与信息处理专业论文)嵌入式语音合成系统实现中关键技术研究.pdf_第4页
(信号与信息处理专业论文)嵌入式语音合成系统实现中关键技术研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(信号与信息处理专业论文)嵌入式语音合成系统实现中关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国科学技术大学硕士学位论文摘要 摘要 嵌入式语音合成系统是语音合成技术府用的一个重要分支。面对嵌入式领域的两大特 点,即资源有限性和平台多样性,如何针对这两个特点,实现一个高质量的嵌入式语音合成 系统是语音合成技术进军嵌入式领域的关键问题。本文结合语音合成技术工程化过程中的实 际情况,主要研究了两方面内容:资源有限性解决方案和跨平台解决方案。 基于大语料序的语音合成技术具有台成语音清晰度和自然度高的特点,在p c 领域的实 际应用中取得了很大的成功。同样沿用这种基于大语料库的台成技术,通过裁减音库,并针 对具体情况使用合适的语音编码算法对裁减后的音库进行压缩,有效地解决了嵌入式系统中 存储资源有限的问题。同时,对所使用的解码算法采取先定点化处理,然后运用各种优化策 略,从算法级、c 代码级一直到针对目标处理器的汇编级优化,有效地解决了嵌入式系统中 处理器资源有限的问题。 使语音合成系统的实现代码具有可移植性是解决嵌入式系统中多平台性的关键。规范代 码的编写,使语音合成系统的核心部分做到平台无关。设计统一的接口实现对微处理器外嗣 设备的操作,如从串口获取文本数据、从f l a s h 读取音库数据以及播音等,在具体移植时只 要根据各平台的特点按照接口的规范实现这些接口便能完成整个嵌入式语音合成系统的移 植,有效的解决了嵌入式系统中多平台性的问题。 文章上述提出的各种有关嵌入式语音合成系统实现中关键技术研究,均在具体的嵌入式 语音合成系统的实现中应用,并取得了良好的效果。 关键词:嵌入式t t s 系统,语音编解码,定点化,优化,可移植性 中国科学技术大学硕士学位论文摘要 a b s t r a c t e m b e d d e dt t ss 3 s t e mi sa ni m p o r t a n tb r a n c h o ft h ea p p l i c a t i o no fs p e e c hs y n t h e s i s t e c h n i q u e f a c i n gt w of e a t u r e so fe m b e d d e df i e l d t h el i m i t a t i o no fh a r d w a r er e s o u r c ea n dt h e d i v e r s i t yo fp l a t f o r m ,h o wt oi m p l e m e n tah i g hq u a l i t ye m b e d d e dt t ss y s t e mi sam o s ti m p o r t a n t a n dd i f f i c u l tp r o b l e mf o rs p e e c hs y n t h e s i st e c h n i q u et ob ea p p l i e dj ne m b e d d e df i e l d t o i m p l e m e n ta ne m b e d d e dt t ss y s t e m s o m ek e yp r o b l e m sa r es t u d i e d t h ep a d e rf o c u s e so nt h e f o l l o w i n gs e v e r a la s p e c t s : c o r p u s - b a s e dt t ss y s t e m sc a ns y n t h e s i sh i g hq u a l i t ys p e e c h ,w h i c hm a k eg r e a ts u c c e s si n p cf i e l d u s i n gt h es a m ec o r p u s b a s e ds y n t h e s i st e c h n i q u ei ne m b e d d e dt t ss y s t e m t h r o u g h r e d u c i n gc o r p u s ,a n ds e l e c t i n gap r o p e ra l g o r i t h mo fs p e e c hc o d i n ga c c o r d i n gt oa p p l i c a t i o n c o n d i t i o nt oc o l n p r e s sr e d u c e dc o r p u s t h ep r o b l e mo f l i m i t a t i o no f m e m o r yr e s o u r c ei ne m b e d d e d f i e l di ss o l v e de f f e c t i v e l y m e a n t i m e s p e e c h - d e c o d i n ga l g o r i t h mt h a tu s e di ne m b e d d e dt t s s y s t e mi sf i x - p o i n tp r o c e s s e df i r s t ,a n dt h e no p t i m i z e db ym a n yo p t i m i z a t i o nm e t h o d si n c l u d i n g a l g o r i t h ml e v e l ,cc o d el e v e la n da s s e m b l yl e v e la f t e ra b o v et w os t e p s t h ep r o b l e mo fl i m i t a t i o n o f p r o c e s s o rr e c o u r s ei ne m b e d d e ds y s t e mi sa l s os o l v e d t h ek e ya p p r o a c ht os o l v et h ep r o b l e mo fd i v e r s i t yo fp l a t f o r mi st om a k et h ec o d eo ft h e t t ss y s t e mp o r t a b l e t om a k et h ec o r eo ft t ss y s t e mp l a t f o r mi n d e p e n d e n t ,t h ec o d es h o u l db e w r i t t e ni ns t r i c ts t y l e m e a n w h i l e ,t h ea p p l i c a t i o ni n t e r f a c e sa r ed e s i g n e dt oo p e r a t ep e r i p h e r a l d e v i c et h a tm a yu s ed i f i e r e n tw a yt oi m p l e m e n to bd i f f e r e n tp l a t f o r l t i s e g t og e td a t af r o mf l a s h o rg e td a t af r o ms e r i e sp o r t w h e n1 v r ss y s t e mi sp o r t e df r o mo n ep l a t f o f i nt oa n o t h e r t h eo n l y t h i n gn e e d st od oi st oi m p l e m e n ts u c hi n t e r f a c e s t h ep r o b l e mo fd i v e r s i t yo fp l a t f o r mi ss o l v e d e f f e c t i v e l yb ys u c hm e t h o d t h ek e yt e c h n i q u e ss t u d i e di nt h ep a p e ra b o u ti m p l e m e n t a t i o no f e m b e d d e dt t ss y s t e m ,a r e a l la p p l i e di np r a c t i c e ,a n dg e tg o o dr e s u l t s k e y w o r d s :e m b e d d e dt t ss y s t e m ;s p e e c hc o m p r e s s ;f i x - p o i n tp r o c e s s i n g ;o p t i m i z a t i o n ; p o r t a b l e i i 中国科学技术大学硕士学位论文第一章绪论 1 1 语音合成技术的应用 第一章绪论 从十八世纪七十年代末开始,人们就进行了语音台成技术的研究,一直到二十世纪八十 年代末期,基于波形拼接的p s o l a 算法【1 】的提出,语音合成技术才开始进入了实用阶段。 特别是九十年代中期提出了基于语料库的语音合成技术,使合成的语音具备清晰度高和自然 度高的特点,某些定制合成系统的语音质量更是达到了播音员水平。正是因为有了语音合成 效果的保证,以及计算机硬件技术的支持,使语音合成技术得以在当前社会的各个应用领域 大显神通。比如电信领域中的各类1 6 8 信息台,由于使用了语音合成技术,使它能提供的信 息从以前有限量的人工录制信息到达目前的可以无限量提供。又如政府领域,语音合成技术 为政府的电子政务建设带来了便利,可以让老百姓通过电话查询政府的各类最新政策。还有 金融领域的电话银行、证券服务等等,由于语音合成技术的使用,为这些领域注入了新的活 力。带来了更多的增值服务,同样也为人们的生活带来了更大的便利。 面对p c 上的语音台成系统所取得的重大成果,嵌入式领域也对语音合成技术有很大的 需求量。在车载电子中,需要用语音来播报g p s 导航信息,以及手机上的短消息可以让 司机安全驾驶:在旅游景点,给游客配备一台随身的语音导游,可以为游客带来很大的方便 和自由;玩具中应用语音合成能为儿童带来更多的乐趣;一本电子书籍如果能够把内容用语 音播放出来,更是可以让读者从看书变成“听书”,放松、学习两不误。止是由于嵌入式领 域对语音合成技术的巨大需求,近来不少企业开始了对嵌入式语音合成系统的工程化工作, 并已经有很多产品问世。 1 2 嵌入式语音合成系统的实现方式 语音合成技术的提供者和语音合成技术的应用者一般是分开的。在嵌入式领域中,需要 使用语音合成技术的场合比单一的p c 上的应用要灵活和丰富的多,语音合成功能并不是应 用者系统中的单一功能,他们常常还要对语音合成技术提供商提供的技术进行二次开发,以 适应他们的系统。阂此提供商一般会提供多种形式的语音合成技术解决方案,以满足应_ = 者 的不同需要。总的来说,可以分成下面两种形式:软件和硬件。而硬件又可以分为语音合成 芯片和语音台成模块。下面分别对各种类型进行介绍。 1 2 1 语音合成软核 语音合成软核这种提供方式就如同是p c 上的应用软件,对应用者而言,他已经存在一 个功能相对强大、稳定且成熟的硬件平台,并且一般不会为了增加一个功能而额外的增加硬 件单元。在这种情况下。可以充分利用其原来的硬件资源,仅仅片j 软件来实现语音合成功能, 而不增加任何额外的硬件。像一些手持设备如手机、p d a 或者电子词典等,它们的硬件平 台基本上已经定型,不允许额外增加硬件而增大体积和成本,这时仅仅以软件形式提供语音 合成功能来实现一些增值功能( 如手机上的短消息播报、p d a 上的有声电子书或者电子词 典上词条解释的朗读等) 对应用商而言,其开发是高效和低成本的。对于有嵌入式操作系统 中国科学技术大学硕士学位论文 第一章绪论 ( 如w i n d o w s c e ,嵌入式l i n u x 等) 管理的设备可以直接提供具有语音合成功能的应用软 件。对于其它的则可以以l i b 的方式来提供语音合成软核,方便开发商进行二次开发。 1 2 2 语音合成模块 以一款微处理器为核心,实现一个具有语音合成功能的脱机独立系统,我们称这样的系 统为语音合成模块【1 8 】。语音合成模块提供一个接口规范和一套通信协议( 一般是串口通 信) ,在应用者的系统中只要按要求提供这样的一个接口,就可以方便的在它的系统中增加 一个语音合成模块,使其系统具有语音合成的功能,而无需在其系统中增加额外的硬件器件。 需要应用语音合成模块的场合一般是应用者原有的硬件平台不具有用软件来实现语音 合成功能的能力。在这种情况下只要让应用者增加少量的电路实现一个接1 :3 ,从而使其系统 增加一个语音合成功能无疑是高教和低成本的。如车载g p s 语音导航系统、公交车语音报 站系统中均可以采用这样的语音台成模块。 语音合成模块同样可以提供和p c 机的通信接口,如串口或者u s b 接口,方便通过p c 对语音合成模块的内核进行升级和维护。 l _ 2 3 语音合成芯片 芯片级的语音合成系统是把整个语音合成功能用一块集成电路来实现。相对于语音合成 模块,它具有更小的体积。根据语音合成芯片提供的外围电气特性应用者可以方便的把该 芯片和自己的系统集成起来。一般语音合成芯片适合丁应_ j 在专用的语音合成系统中,除了 语音合成芯片再加上一个微控制器和简单的外围电路就可以搭建这样的一个系统,比如语音 导游就可以应用这种语音合成芯片。 专用语音合成芯片的实现方法可以有如f n 种:一种是可以先根据语音合成软核用 v h d l 语言在f p g a 上实现语音合成功能,然后再做成a s i c 芯片【2 i 】。一种是依托某种 处理器内核,先在该处理器上实现语音合成功能,然后由处理器生产厂家把语音合成内核代 码和处理器内核固化在一起,做成一种专用的语音合成芯片【2 2 】。由于语音合成内核相对 比较复杂,且更新较快。因此如果用第一种方法的话,开发周期将变得很长,芯片的更新相 对于内核的更新会有一个较大的延迟。面第二种实现方法只要把内核移植到目标处理器上, 再由厂家固化即可,因此其更新速度能很- 陕的跟上内核的更新速度。所以一般语音合成芯片 的实现方法将采用第二种方法。 语音合成芯片相对于语音合成模块,它具有更小的体积,并且能和应用者的系统密切结 合。但是它有自己的缺点,就是不能通过软件来对其升级和维护,只能通过更换新一款的语 音合成芯片来实现,并且一般该芯片出现问题将影响整个系统的运行,不象语音合成模块由 于和应用者系统不是结合的那么紧密,可以通过更换米使系统继续正常运行。 中国科学技术大学硕士学位论史第一章绪论 1 3 嵌入式语音合成系统的实现特点 嵌入式语音合成系统相对于p c 上的语音合成系统,其实现方式更加丰富、灵活,但由 于嵌入式系统本身具有的一些特点,也有其实现上面临的问题。下面对两者作一个简单的比 较。 实现平台不同 p c 的硬件平台和软件平台相对较少。国内的p c 的硬件平台基本上是l m e lx 8 6 兼容的 处理器而软件平台基本上是w i n d o w s 和l i n u x 两种。只要在上述平台上实现语音合成软 件后,即可以把它应用于大多数的p c 机上。并且p c 硬件平台上各种资源丰富不必担心 硬件资源不够。 嵌入式系统中具有两个基本特点:一是使用的平台多种多样。微处理器从r 1 s c 结构的 定点通用处理器到通用数字信号处理器,从1 6 位的处理器到3 2 位的处理器等等不一。嵌入 式操作系统更是不象p c 上一般单一,在信息家电上有以前的“维纳斯”和“女娲”之争, 手机领域有w i n c e 和s y m b i a n 、j 2 m e 和b r e w 之争,还有v x w o r k s 、p a l m o s 等成功的商 业操作系统以及u c l i n u x 、u c o s 1 1 等源码公开的操作系统的介入,使整个嵌入式操作系统 领域好不热闹。二是能使用的硬件资源有限。由于嵌入式系统一般都是为了尽量提高系统的 性价比而“量身定做”的,因此其所能使用的资源是很有限的。同样,从本章第二小节中提 到的嵌入式语音合成系统的各种实现方式中可以看出,对于软核提供这种方式,由于手机或 者p d a 等设备使用的处理器不尽相同,并且这些平台所能提供的处理器能力和存储器资源 已经限定;对于语音合成芯片和语音合成模块这两种方式,为了提高产品的性价比,就必须 尽量的选用低成本的硬件资源,同样会面临处理器的多样性和硬件资源有限性的问题。 要达到的目标不同 p c 上由于没有硬件资源上的限制,因此它的目标是实现一个具有最好语音合成质量的 语音合成系统。 嵌入式系统由于其资源有限性的特点,以及根据语音合成应用场合的不同,它的基本目 标是实现一个能合成可接受语音质量的语音合成系统。因为在这样的系统中有一个基本前提 就是必须在所给资源的情况下能实现一个语音合成系统,在这个基础上再尽可能的提高语音 合成的质量。 由于嵌入式系统本身的特点,其资源有限性和多平台性给嵌入式语音合成系统的实现带 来了一定困难,本文将在第四章和第五章对这两个问题的解决方案作详细讨论。 1 4 本文的组织结构 本文共由六章组成: 第一章介绍了嵌入式语音合成系统的应用背景、实现方式和实现特点。 中国科学技术大学硕士学位论文第一章绪论 第二章介绍了语音合成技术的发展历史,语音合成方法的分类以及语音合成系统的基本 构成。 第三章介绍了嵌入式语音合成系统的实现平台,提出嵌入式语音合成系统实现时需要解 决的两个关键问题,即资源有限性和平台多样性。 第四章提出了解决资源有限性问题的方案。包括人语料库裁减方案、语音编解码方案等。 第五章提出了解决多平台性问题的方寰,即可移植方案。包括代码的编写规范、访问外 围设备的接口规范。 第六章对本文进行了总结。 中国科学技术大学硕士学位论文第二章语音合成系统 第二章语音合成系统 2 1 语音合成技术概述 2 1 1 语音合成技术的发展历史 回顾语音台成的历史,我们可以发现,最早的模仿人类讲话的机器不是现在普遍采用的 电子设备而是机械式语音台成器。1 7 7 9 年俄国科学家k r a t z e n s t e i n 发明了一套声学共振器,其 形状人小和人类的口腔相似。它用一片模仿人类声带的振动簧片,切断气流,使共振器发出 声音。这样的一套机器能比较准确模仿五个元音a 、e 、i 、o 、u 。 1 9 3 9 年d u d l e y 第一次使用信号处理的原理设计出一个发声器【3 】,这个机器口q v o d e r , 它有两个声源。一个是宽带的噪声源,一个是周期性激励信号源。这两种声音源通过“共振 控制”箱( 声道) 的时候,音色发生改变。控制箱有1 0 个相邻带通滤波器,包括正常语音的频 率范围。带通滤波器的输出通过1 0 个子键的单独操纵进行增益调整。还有三个附件操纵选择 滤波器作瞬时激励,模仿产生三组塞音:t - d 、p - b 和k g 。操作人员用一条转柄来选择噪音 和周期性激励信号,用一个脚踏板控制周期性激励信号的音高。经训练的操作人员,能够用 合成器相当熟练地奏出容易懂的语音。 继v o d e r 之后也出现了类似的电子装置。但值得注意的是以f 两方面的成就,园为这些 成就促进了语音的研究。一方面是有关语音产生的基本知识的获得:另一方面是高效率的传 输语音的新方法的发现。l e v o d e r 稍早的二十世纪三十年代中期,以声码器为标志的语音分 析合成系统在贝尔实验室研制成功。在声码器中,首先用分析设备从原始语音中提取缓慢 变化的声学参数。然后用这些声学参数去控制合成器,由合成器合成出幅频响应接近原始波 形的话音。声码器利用了语音信号频谱时变特性,使传输语音信号所需的带宽大大缩减,同 时也开创了基于复制原始频谱时变模式的语音合成。 现代语音合成技术的发展是和计算机技术、数字信号处理技术的发展是分不开的。用计 算机来研究语音合成,大大地缩短了研究周期,降低了研究成本。随着计算机的普及应用, 语音合成的研究在许多语音通信实验室开展起米。这一时期值得提及的是h o l m e s 的并联共振 峰合成器和k l a t t 的串并联共振峰台成器。只要精心调整参数这两个合成器都能合成非 常自然的语音。但是由于准确提取共振峰参数比较困难,虽然利用共振峰合成器可以得到许 多十分逼真的合成语音,然而在合成某些个别语音时仍达不到预期的音质,从而影响整体语 音合成效果。 自八十年代末期至今,语音合成技术又有了很大的进展,特别是基音同步叠加( p s o l a ) 方法的提山,使基于时域波形拼接方法台成的语音的白然度人大提高。鉴丁语音韵律规则总 结的复杂性,特别是前端文本的预处理( 确定词的界限、呼吸群的划分以及轻渎和重音等) 涉及到自然语言理解问题,难以在短期内完善解决,为了进一步提高合成语音的自然度和音 质,很多学者已经在开始使用统计模型和神经网络方法,并已经取得了一定进展。 5 中国科学技术大学硕士学位论文第二章语音台成系统 2 1 2 语音合成技术的分类 语音合成技术主要分为参数合成方法和波形拼接方法。在实际的语音合成系统中,参数 合成技术和波形拼接技术常常是互相渗透并逐步结合的。 参数合成技术 种 参数合成技术主要是计算参数的轨迹,形成规则,完成语音的参数合成。可分为下面几 夺 声道模型参数语音合成。这种方法是基于声道截面积函数或者声道谐振特性合成 语音,如共振峰、l p c 等参数合成器。这类合成器的比特率低,音质适中,易于实 现韵律修改。 夺发音器官参数语音合成。这种方法对人的发音过程进行直接模拟。它由声源参数、 发音参数和辐射参数三类共七个左右的控制参数控制合成器的语音输出。由发音 参数可以估计声道截面积函数,按照声波在截面圆管中的传播原理,可以由设定 的声门波计算出它通过声道从嘴唇辐射出来的声波。这种直接基于对人发音机理 探讨合成语音的方法非常理想,理论上能够合成逼真的声音,但由于人们发音生 理过程非常复杂,这三类参数的获取比较困难,发音器官的动态特性很难建模, 而且这种技术所要求的计算量非常大,所有这些因素都给实际的麻用这种方法带 来了很大的困难,这使得它目前还仅仅限于实验宝研究阶段,离产品化还有些时 日。 波形拼接技术。 波形拼接技术的基本思想是先存储语音的基元。合成时根据文本分析的结果通过挑选基 元,再进行拼接和韵律修饰得到合成语音。这种方法存储的语音基元是取自于自然语音中的 词或句子,它包含了所处环境中的韵律特征,冈此合成的语音清晰自然,其质量普遍高于规 则合成,但韵律参数修改范围受限。该技术还可以细分为如下几种: 夺基于语音编码的拼接合成技术。这种技术通常先将语音单元切分成适合的合成单 元,再对每一个切分出来的合成单元进行信号处理,提取出合适的语音参数,将 这些切分单元的语音参数建立一个语音库。在合成阶段先选出合成单元,然后从 语音库中提取出相应的语音参数,接着按照韵律的要求,将这些语音参数进行时 长、基频的变换。晟后使用重叠相加的方法重建语音。目前基于这种技术的方法 很多,常见的有共振峰合成,l p c 参数合成法,s i n u s o i d a l 方法等等。 夺基于波形拼接的合成技术。这种技术通常是先将语音单元切分成适合的音成单元, 然后将这些切分好的合成单元建立一个语音库。在合成阶段先选出合成单元,然 后从语音库中提取出相应合成单元。对这些单元按照韵律的要求,进行时k ,基 频的变换。最后使用重叠相加的方法重建语音。这种方法不需要从原始的语音中 提取语音参数,而是直接用原始的语音信号进行存储。所以对存储单元的要求比 前一种方法高。而且在韵律的调节方面不如前一种方法好。不过,冈为这种方法 所采用的合成单元是原始的语音文件,所以合成出来的语音清晰度要优于前一种 6 中国科学技术大学硕士学位论文第一二章语音台成系统 方法。基于这一技术的台成方法有t dp s o l a ,f d p s o l a ,l p p s o l a 等基于语料库 的合成方法 2 2 语音合成系统的基本构成 基于大语料库的语音合成方法是九十年代中期提出来的,是目前最为流行的合成方法, 并且在汉语语音合成系统研究中广为采用 4 1 【5 】。这种合成方法的中心思想是通过庞大 的语音库的支持,根据文本分析所获知的文本中各个词、短语的具体韵律环境,使用合适的 挑选规则,直接从语音库中挑选出符合韵律的语音样本,再通过波形拼接算法得到完整的合 成语句。可以想象只要语音数据库足够大,能够包括所有可能语境下的语音单元,理论上能 拼接出任何语句。由于这些合成基元都是选自自然的原始发音,因此能获得较高自然度和清 晰度的合成语音。 基于大语料库的语音合成系统通常可以分为前端和后端两部分。前端主要实现对文本数 据的文本分析,并通过韵律预测获得待合成语音的韵律参数。后端再根据前端的分析结果 运用合适的挑选规则从大音库中挑选出语音样本,拼接后进行播音。整个系统的基本框架如 下图所示: 前端后端 厂 l 词典库l i一 语音合成系统基本构成 厂 剧 2 2 1 语音合成系统的前端 语音合成系统的前端主要包括文本分析和韵律生成两部分。 文本分析 文本分析的主要功能是使计算机能从输入的文本数据中认识文字,进而知道要发什么 音、怎么发音,并将发音的方式告诉计算机。另外还要让计算机知道,在输入的文本数据中, 哪些是词,哪些是短语或句子,发音时应该到哪里停顿及停顿多长时间等。其工作过程可以 分为三个主要步骤: 中国科学技术大学硕士学位论文 第二章语音合成系统 1 将输入的文本规范化。在这个过程中,要查找拼写错误,并将文本中出现的一 些不规范或无法发音的字符过滤掉。 2 分析文本中词或短语的边界,确定文字的读音,同时分析文本中出现的数字、 姓氏、特殊字符、专有词语以及各种多音字的读音方式。 3 根据文本的结构、组成和不同位置上出现的标点符号,确定发音时语气的变换 以及不同音的轻重方式。 最后文本分析模块将输入的文本数据转换成计算机能够处理的内部参数,便于后续模块 进一步处理并生成相应的信息。 韵律生成 每个人说话都有其韵律特征,比如在汉语中,音节有不同的声调、语气和停顿方式,发 音长短也各不相同,这些都属于韵律特征。韵律参数则包括了能影响这些特征的声学参数t 如基频、时长、音强等。文本分析的结果只是告诉了计算机发什么音,以及以什么方式发音, 这种发音方式还只是抽象的。而要发音的声调是二声还是三声,是重读还是轻读,到哪里停 顿等等,这些最终系统用来进行声信号合成的具体韵律参数还要依靠韵律生成模块。 韵律参数的生成可以使用基于统计的韵律预测方法。首先设计或收集一个包含大量语音 和文本信息的数据,然后建立一个训练模型,运用数据挖掘技术利用数据库中提取出的韵律 参数对模型进行训练,通过训练而得到最终的韵律预测模型。运用该韵律预测模型,根据文 本分析中获知的一些韵律描述,便可以预测出待合成语音的目标韵律。 2 2 2 语音合成系统的后端 语音合成系统的后端主要包括语音样本挑选和波形拼接两部分。 样本挑选 在样本挑选阶段主要是根据韵律生成模块得到的待合成语音的目标韵律,通过某种挑选 规则,从庞大的预先录制的语音数据库中挑选出最合适的语音样本。 波形拼接 在波形拼接阶段,系统把挑选出来的样本再通过波形拼接算法( 如p s o l a ) 的处理,修改 语音样本的韵律特征,最终获得完整的合成语句。 2 3 本章小结 本章对语音合成技术的发展过程进行了介绍,并对目前最为流行的基于大语料库的语音 合成系统的基本构成进行了剖析。鉴于这种基于大语料库的语音合成方法所能达到的高清 晰、高自然度的语音合成效果,以及其在实际应用中取得的成功,我”j 决定在嵌入式领域中 实现的语音合成系统同样采片j 这种合成方法。 中国科学技术大学硕士学位论文第三章嵌入式语音合成系统的实现平台 第三章嵌入式系统语音合成系统的实现平台 什么是嵌入式系统? 嵌入式系统是以应用为中心,以计算机技术为基础,软硬件可以裁 减,系统对功能、可靠性、成本、体积、功耗等要求菲常严格的专用计算机系统【7 】。嵌 入式系统广泛的应用于国民经济和国防各个领域,发展非常迅速。调查数据表明,嵌入式系 统的市场增长为每年1 8 ,大约是信息技术产业市场平均增长率的两倍。目前世界上火约 有2 亿台通用计算机,而嵌入式微处理器大约有6 0 亿个。以致于有些学者断言,嵌入式技 术将成为后p c 时代的主宰【9 】。 一个完整的嵌入式系统的构成具有和通用计算机相似的组成:处理器,存储器,输入单 元和输出单元。相对于通用计算机,在嵌入式系统中的各个部件有其自己的特点: 夺 处理器平台多种多样,但处理器能力相对较弱。 夺 存储器资源有限。 夺 输入输出单元比较单一。以应用语音合成技术的嵌入式系统为例,它只要一个播音 单元作为其输出;一个通信单元作为其数据输入。 同样,实现一个完整的嵌入式语音合成系统需要上述中的各个基本单元,它的基本构成 如f 图所示: 微处理器 嵌入式语音合成系统的基本构成 软件平台 硬件平台 中国科学技术大学硕士学位论文第三章嵌入式语音合成系统的实现平台 下面对嵌入式语音合成系统实现中会遇到的各种软硬件平台进行介绍。 3 1 嵌入式微处理器 微处理器是嵌入式系统的中的核心部分。对嵌入式语音合成系统而言,不同的硬件平台 主要就是指系统中所使用的微处理器不同。常用的适合于实现嵌入式语音合成系统的微处理 器根据其内核的实现结构不同主要可以分为两类,一类是冯诺依曼结构的微处理器,主要 是一些1 6 位或3 2 位的r i s c 结构的定点处理器,以a r m 内核为代表。一类是哈佛结构的 定点数字信号处理器( d s p ) ,以a d i 和t i 公司的d s p 为代表。哈佛结构是不同于传统的 冯诺依曼结构的并行体系,其主要特点是将程序和数据存储在不同的存储空问中,即程序 存储器和数据存储器是两个相互独立的存储器,每个存储器独立编址,独立访问。与两个存 储器相对应的是系统中设置了程序总线和数据总线两条总线,从而使数据的吞吐率提高了一 倍。而冯诺依曼结构则是将指令、数据、地址存储在同一存储器中,统一编址,依靠指令 计数器提供的地址来区分是指令、数据还是地址。取指令和取数据都访问统一存储器,数据 吞吐率相对较低。 3 1 1r i s c 微处理器 r 1 s c ( 精简指令集) 处理器相对丁c i s c ( 复杂指令集) 处理器,它的指令系统简单, 定长编码,对数据寻址方式采用l o a d s t o r e 方式。采用r i s c 的处理器能够简化硬件,提高 主频。这类结构的微处理器在嵌入式领域中得以广泛麻用。 a r m 核微处理器 a r m 公司自1 9 9 0 年正式成立以来在3 2 忙r i s c 微处理器开发领域不断取得突破,其 结构己经从v 3 发展至j j v 6 。由干a r m 公司自成立以来,一直以i p ( i n t e l l i g e n c ep a t e n t ) 提供 者的身份向各大半导体制造商出售知识产权,而自己从不介入芯片的生产销售,加上其设计 的芯片内核具有功耗低,成本低等显著优点,因此获得众多的半导体厂家和整机厂商的人力 支持,在3 2 位嵌入式应用领域获得了巨大的成功,目前已经占有7 0 以上的3 2 位嵌入式产品 市场。在低功耗,低成本的嵌入式应用领域确立了市场领导地位,如好些手机生产厂家采用 了基t a r m 核的微处理器作为其主控芯片。目前非常流行的a r m 内核有a r m 7 t d m l 、 a r m 7 2 0 t ,s u o n g a r m ,a r m 9 t d m i ,a r m 9 2 2 t ,a r m 9 4 0 t ,a r m 9 4 6 t ,a r m 9 6 6 t , a r m l 0 t d m i 等,如三星的$ 3 c 4 5 1 0 b 就是采用a r m 7 t d m i 内核的。自v 5 以后,a r m 公司 提供p i c c o l od s p 的内核给芯片设计者,用于设计a r m + d s p 的s o c ( s y s t e mo nc h i p ) 结构的芯片。 在a r m 内核中有四个功能模块可供生产厂商根据不同用户的不同要求来配置生产。这 四个模块分别用t 、d 、m 和i 来表示。 t :表示t h u m b 。该内核可从1 6 位t h u m b 指令集扩充到3 2 位a r m 指令集。 d :表示d e b u g 。该内核中放置了用于调试的结构,通常它为个边界扫描链j t a g 可使c p u 进入调试模式,从而可方便地进行断点设置、单步调试。 1 0 中国科学技术大学硕士学位论文第三章嵌入式语音合成系统的实现平台 m :表示m u l t i p l i e r ,是8 位乘法器。 i :表示e m b e d d e d i c e l o g i c ,用于实现断点观测及变量观测的逻辑电路部分其中的 t a p 控制器可接入到边界扫描链。 基于a r m 内核的芯片的软件开发一般使用a r m 公司提供的s t d 或者a d s 集成开发 环境,或者也可使用g n u 提供的交叉编译工具a r m - g c c ,以及联结和调试t 具a l t f l l d 和 a r l n - g d b 。 m i p s 核微处理器 m i p s 是m i c r o p r o c e s s o rw i t h o u ti n t e r l o c k e dp i p e l i n es t a g e s 的缩写,和a r m 一样也是一 种处理器内核标准,它由m i p s 技术公司开发的。m i p s 技术公司是一家设计制造高性能、 高档次及嵌入式3 2 位和6 4 位处理器的厂商,在r i s c 处理器方面占有重要地位。m i p s 公 司设计r i s c 处理器始于上世纪8 0 年代初,从1 9 8 6 年推出r 2 0 0 0 处理器之后,陆续推出 r 3 0 0 0 、r 4 0 0 0 、r s 0 0 0 等。之后m i p s 公司的战略发生变化,把重点放在嵌入式系统。1 9 9 9 年,m i p s 公司发布了m i p s 3 2 和m i p s 6 4 架构标准,集成了原来所有的m i p s 指令集,并 且增加了许多更强大的功能。此后m i p s 公司又陆续开发了高性能、低功耗的3 2 位和6 4 位 处理器内核。m i p s 的定位很广,在高端和低端均有它的产品,而且被广泛应用在便携式计 算系统、数字消费产品、t 业控制等领域。m i p s 内核得到了众多的芯片生产厂家的支持, 台湾亚全公司的a r 2 0 0 0 微处理器即是基于m i p s 内核的。这款处理器的软件开发工具是亚 全提供的基丁| g n u 工具集的集成环境。 s 1 c 3 3 系列微处理器 s i c 3 3 系列微处理器是以e p s o n 公司自主开发的c m o s3 2 位r i s c c p u 为核心,加上不 同的外围电路制成多种型号的m c u ,例如s 1 c 3 3 2 0 9 自带p w m 接口和串行接口,它只要在外 围加上一个简单低通电路就可以实现播音单元。s 1 c 3 3 采用r i s c 结构,三级流水线,在c p u 结构中使用了哈佛结构和| l :i 部d s p 。内部r a m 为独立总线,女n s l c 3 3 2 0 9 内部有8 k 的r a m , 可以起到高速缓存的作用。把复杂的运算置于内部r a m 中执行,能有效的提高效率。s 1 c 3 3 内部有一个1 6 x 1 6 + 6 4 位的硬件乘加器,用专用m a c ( 乘加) 指令进行操作,使用户可方便的实 现卷积等d s p 运算。s 1 c 3 3 的最高主频可以达到6 0 m h z ,并且该系列还有低功耗、低电压的 特点,所有的上述特征表明了该系列处理器适合于作为嵌入式语音合成系统的硬件平台。并 且国内也有好多的手机生产厂家也采用了该系列的微处理器作为其产品的主控芯片,如波导 手机。该系列微处理器的软件开发上具是由e p s o n 公司提供的基于g n u z 具集的集成环境。 凌阳1 6 位微处理器 凌阳1 6 位微处理器的c p u 使用n n s p 内核,它构成了s p c e 系列微处理器。s p c e 被赋予 了数字信号处理( d i g i t a ls i g n a lp r o c e s s i n g ) 功能指令系统可提供较高运算速度的1 6 位 乘法运算指令和1 6 位内积运算指令。这些指令运用在复杂的数字信号处理( d s p ) 方面,既便 利又比专用的d s p 芯片廉价,故s p c e 在数字信号处理领域显得很有特点。特别要说明的是s p c e 还会提供凌阳公司白行开发的具有音频编码及各种语音压缩解码的算法,它把各种算法相 应的程序模块存放在语音算法模块s c a m - - l i b 中,下表印为s a c m - - l i b 库中模块及其算法类 型。使用的时候只要调用相应的模块就可以方便的使用语音编解码算法,这给嵌入式语音台 成系统的实现带来了很人方便。现在已经有人研究了在该系列芯片上实现语音系统【l o 】。 中国科学技术大学硕士学位论文第三章嵌入式语音合成系统的实现平台 模块名称码率 采样率 s a c m - a 2 0 0 0 1 6 k b s 、2 0 k b p s 、2 4 k b p s 1 6 k h z s a c m _ 4 8 0 4 8 k b p s 、7 2 k b p s 1 6 k h z s a c m 2 4 0 2 4 k b p s 2 4k h z 3 1 2 数字信号处理器 数字信号处理器( d s p ) 一般均采用哈佛结构,并行的内部指令执行流水线,并且有专门 的适合于数字信号处理的硬件电路( 如硬什乘法器) 的支持,因此比较适合应用于一些有实时 性要求的语音处理领域。目前在世界上较为著名的d s p 芯片生产厂家有美国的t i 公司、a d 公司、m o t o r o l a 公司以及日本的n e c 公司等。下面对两种典型的1 6 位定点数字信号处理器 a d 公司的a d s p - 2 1 8 x 系列和t i 公司的t m s 3 2 0 c 5 4 x 系列作一下简单介绍。 a d s p 2 1 8 x 系列d s p a d s p 2 1 8 x 系列定点数字信号处理器是a d 公司的产品,它采用修改的哈佛结构,即 数据存储器用来存放数据,而程序存储器既可以用来存指令又可以存放数据。芯片内部有三 个独立计算单元( a l u ,m a c 以及移位) 、8 条总线。外围接口上有串口支持,3 种引导方式。 其使用的主频随芯片类型的不同而不同,如a d s p 2 1 8 1 主频为3 3 m h z 而a d s p 2 1 8 5 m 的主 频为7 5 m h z 。该系列d s p 的软件开发工具可以使用a d 公司提供的集成开发环境v i s u a l d s p + + 。硬件调试需要用到a d 公司的e z i c e 对a d s p 2 1 8 x 进行j t a g 调试。 t m s 3 2 0 c 5 4 x 系列d s p t m s 3 2 0 c 5 4 x 系列d s p 是t 1 公4t m s 3 2 0 家旅的定点d s p 。c 5 4 x 适用于很多方面0 蔺 足了实时嵌入鹰用的需要,如电信、无线庶h 、语音处理等等。c 5 4 x 的c p u 通过使j 改进 的哈佛结构,实现了最小化的核心电源消耗千| 1 高度的并行运算能力。同时,多秭寻址模式和 完善的指令集提高r 整个系统的性能。 c 5 4 x 主要育如r 特点: 耷 增强的哈佛结构,一条样序总线和i 条数据总线: 夺 高度并行的先进c p u 设计,性能更好的面向腑的硬件逻辑 夺 为快速算法和高级语青优化设计的专_ h j 指令集: 夺杯准化的模块结构,适卜陕速开发: 呤 先进的i c 处理技术,捉简了性能,降低了l b 源消耗。 t m s 3 2 0 c 5 4 x 的集成开发环境般采用t it m s 3 2 0 v c 5 4 1 0e v a l u a t i o nm o d u l es y s t e m k i t 的整套硬制:,以及t i 公l d 的集成开发环境c o d ec o m p o s e rs t u d i oi d ef o rc 5 0 0 0 软件。 中国科学技术大学硕士学位论文第三章嵌入式语音台成系统的实现平台 3 2 嵌入式操作系统 嵌入式操作系统并不是新生的事物。从2 0 世纪8 0 年代起,国际上就有一些i t 组织、 公司开始进行商用嵌入式操作系统和专用操作系统的研发,这其中涌现出一些著名的嵌入式 系统。经过多年的发展,目前世界上已经有一大批十分成熟的嵌入式操作系统。 目前嵌入式应用领域的一个发展倾向是采用实时多任务操作系统( r e a lt i m eo p e r a t i o n s y s t e m - - r t o s ) 。r t o s 的应用是和应用复杂化直接相关的。过去一个单片机应用程序所控 制的外设和履行的任务不多,采取一个主循环和几个顺序调用的子程序模块即可满足要求。 而目前单片机芯片本身的性能大幅度提高,可以适应应用复杂化这一要求,问题在于软件上, 随着应用的复杂化,一个嵌入式控制器系统可能要同时控制、监视很多外设,要求有实时响 应,有很多处理任务,各个任务之间有多种信息传递,如果仍采用原来的程序设计方法存在 两个问题。一是中断可能得不到及时响应,处理时间过长,这对于一些控制场合是不允许的。 二是系统任务多,要考虑的各种情况也变多,各种资源如调度不当就会发生死锁,降低软件 可靠性,程序编写任务量成指数级增加。因

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论