第6章语音合成_第1页
第6章语音合成_第2页
第6章语音合成_第3页
第6章语音合成_第4页
第6章语音合成_第5页
已阅读5页,还剩92页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1第第6章章 语音合成语音合成 2Speech signal processing1 1语音合成技术概述语音合成技术概述2 2共振峰合成技术共振峰合成技术3 3LPCLPC参数合成技术参数合成技术4 4PSOLAPSOLA合成合成5 5按规则合成按规则合成6 6语音合成的未来发展方向语音合成的未来发展方向31. 概 述n什么是语音合成?n语音合成就是让计算机象人那样讲话。n人们用语言进行交流时,用声音来表达自己的意向、情感。例如:如某人问你:你愿意和我一起去看电影吗?你的回答可能是:“是的,我很高兴和你一起去看电影。”(肯定,高兴)“抱歉,我不能和你一起去看电影,因为我要去开会。”(无可奈何)

2、“不去,还是你自己去看吧。”(否定)n这三句话表达了不同的意向和情感。计算机也应该像人那样来回答。4n语音合成的研究目标是: 可懂 清晰 自然 具有表现力n研究意义n语音合成技术可以大大改善人机交互环境n计算机反馈信息的方式是屏幕显示。这种单调的信息输出方式给用户带来许多不便,特别是长时间地注视显示屏使人疲劳,降低人获取信息和理解信息的能力。n网络环境的输出设备多种多样:这种枯燥单一的交互方式影响了计算机的应用。n计算机语音输出能提供声文并茂的信息表示方式,可以改变人机交互“默默无闻”的状况,为计算机的普及应用创造更好的条件。n将“能看到”、“看不到”的信息变成“可听”的信息n将“非即时获得的

3、信息”变成“即时可听”的信息5n语音合成是一门跨学科的前沿技术,涉及到下列相关研究领域:n它将上述领域的研究成果结合在一起,使计算机具备说话的能力。自然语言理解语言学语音学信号处理心理学声学 66.1 概述概述 “会说话的机器会说话的机器”“语音合成语音合成”。语音合成:由。语音合成:由人工制作出语音,就是由机器产生出声音,它是人机人工制作出语音,就是由机器产生出声音,它是人机语声通信的一个重要组成部分。语音合成系统是一个语声通信的一个重要组成部分。语音合成系统是一个单向系统,由计算机到人。单向系统,由计算机到人。 用语音合成来传递语言具有下面的用语音合成来传递语言具有下面的优点优点:不用不用

4、特别注意和专门训练,任何人都可以理解。特别注意和专门训练,任何人都可以理解。可以直可以直接使用电话网和电话机。接使用电话网和电话机。无须消耗纸张等资源。无须消耗纸张等资源。 7 语声应答系统实际上是在一个方向上语声应答系统实际上是在一个方向上(由机器到由机器到人人)用语声进行通信,它用口语的形式输出信息。语用语声进行通信,它用口语的形式输出信息。语声应答系统可作为计算机的一个外设,它将计算机声应答系统可作为计算机的一个外设,它将计算机存储的信息转换成语声形式输出。这在许多由计算存储的信息转换成语声形式输出。这在许多由计算机进行查询和检索的场合中是十分有意义的。机进行查询和检索的场合中是十分有意

5、义的。 语音合成的语音合成的目的目的:产生与人通信有关的语音。:产生与人通信有关的语音。8语音合成技术概述语音合成技术概述9 语音合成的三个层次:Intention-To-SpeechConcept-To-SpeechText-To-Speech按照人类语言功能的不同层次,语音合成也可分为三个层次,即:按照人类语言功能的不同层次,语音合成也可分为三个层次,即: 1 1、从文字到语音的合成(、从文字到语音的合成(T Text-ext-t to-o-S Speechpeech);); 2 2、从概念到语音的合成(、从概念到语音的合成(C Concept-oncept-t to-o-S Speech

6、peech);); 3 3、从意向到语音的合成(、从意向到语音的合成(I Intention-ntention-t to-o-S Speechpeech)。)。10这三个层次反映了人类大脑中形成说话内容的不同过程,这三个层次反映了人类大脑中形成说话内容的不同过程,涉及人类大脑的高级神经活动。不难想像,即使是按规则涉及人类大脑的高级神经活动。不难想像,即使是按规则排列的文字到语音合成(文语合成)也已经是相当困难的排列的文字到语音合成(文语合成)也已经是相当困难的任务。为了合成出高质量的语言,除了依赖于各种规则,任务。为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则

7、外,还必须对文包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好月的理解,这将涉及自然语言理解字的内容有很好月的理解,这将涉及自然语言理解(NLU)问题。从这一点讲,文语转换系统实际上也可)问题。从这一点讲,文语转换系统实际上也可看作是一个人工智能系统。看作是一个人工智能系统。 1112语音合成系统的组成语音合成系统的组成- - TTS文本分析:首先根据发音字典,将输入的文字串分解为带有属性标记的词及其读音符号。韵律生成:根据语义规则和语音规则,为每个词、每个音节确定重音等级和语句结构及语调、以及各种停顿等。语音生成:文字串就变换为代码串,规则合成系统就可以据此合成抑扬顿挫和不同

8、语气的语句。以文字串为输入的规则合成系统,其输入的文字串是通常的文本字串。13 生 文 本 语 音 携 带 韵 律 信 息 表 示 的 文 本 携 带 文 本 标 注 和 拼 音 信 息 的 文 本 & 文 本 分 析 语 音 生 成 文 本 规 范 化 分 词 & 词 性 标 注 语 法 分 析 & 语 义 分 析 字 音 转 换 韵 律 标 注 停 顿 ( 韵 律 结 构 边 界 ) 重 音 语 调 韵 律 生 成 基 频 时 长 能 量 查找拼写错误,并将文本中查找拼写错误,并将文本中出现的一些不规范或无法发出现的一些不规范或无法发音的字符过滤掉。音的字符过滤掉。

9、分析文本中词或短语的边界,标注词性、确定文字的读音,同时分析文本中出现的数字、姓氏、特殊字符、专有词语以及各种多音字的读音方式。分析文本中每个句子的语法分析文本中每个句子的语法结构和语义结构,确定语义结构和语义结构,确定语义中心,句子的重音模式,语中心,句子的重音模式,语调,从而为韵律处理提供必调,从而为韵律处理提供必要信息。要信息。对音系层的韵律事对音系层的韵律事件预测:声调、语件预测:声调、语调、轻重、节律等调、轻重、节律等对声学层的韵对声学层的韵律参数预测律参数预测语音合成系统的流程语音合成系统的流程- -TTS14 语音合成和语音识别技术是实现人机语音通信,建立一个有听和讲能力的口语系

10、统所必需的两项关键技术。使电脑具有类似于人一样的说话能力,是当今时代信息产业的重要竞争市场。和语音识别相比,语音合成的技术相对说来要成熟一些,并已开始向产业化方向成功迈进,大规模应用指日可待。语音合成,又称文语转换(Text to Speech)技术,它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。我们所说的“让机器像人一样开口说话”与传统的声音回放设备(系统)有着本质的区别。传统的声音回放设备(系统),如磁带录音机,是通过预先录制声音然后回放来实现“让机器说话”的。

11、这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过计算机语音合成则可以在任何时候将任意文本转换成具有高自然度的语音,从而真正实现让机器“像人一样开口说话”。文语转换系统实际上可以看作是一个人工智能系统。为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解,这也涉及到自然语言理解的问题。文语转换过程是先将文字序列转换成音韵序列,再由系统根据音韵序列生成语音波形。其中第一步涉及语言学处理,例如分词、字音转换等,以及一整套有效的韵律控制规则;第二步需要先进的语音合成技术,能按要求实时合成出高质量的语音流。因此

12、一般说来,文语转换系统都需要一套复杂的文字序列到音素序列的转换程序,也就是说,文语转换系统不仅要应用数字信号处理技术,而且必须有大量的语言学知识的支持。15TTS技术构成及处理流程:16n语音合成有着广阔的应用前景 它可应用于: 盲人计算机,电话信息查询,文本校对,专家系统的有声输出、火车站、飞机场的航班信息报告等领域。有限词汇语音合成的应用n语音手表(闹钟)、玩具、教具n仪器/电器(打印机、微波炉)有声信息发布n车站列车、机场航班信息发布n114的电话号码报出办公系统中的有声信息17Microsoft Mary,Sam,Mike利用Microsoft TTS Engine18语音合成有着广阔

13、的应用前景n多媒体数据库n电子字典、电子文档、电子图书的有声输出n盲人计算机nPDA等掌上计算机语音合成与电话结合的应用n电话银行、邮局、税务、考试/录取信息发布/查询n股市行情查询/交易n168信息台全面更新19n典型应用Network based20n典型应用电子有声文库21nVoice CommunicationnUniform ServersInternet电脑 固定电话传真PDA传呼机电话交换系统语音传真系统短消息系统传呼系统ISPVoIP语音网关E_mail网关短消息网关传呼接口网关传真网关WAP网关交换层数据库服务器WEB服务器E-Mail服务器设备接口层移动电话VoIP(Voi

14、ce over Internet Protocol)简而言之就是将模拟声音讯号(Voice)数字化,以数据封包(Data Packet)的型式在 IP 数据网络 (IP Network)上做实时传递。 WAP(Wireless Application Protocol)为无线应用协议,是一项全球性的网络通信协议 .22nVoice CommunicationnVoice Gateway文本数据包语音数据包转发文本数据包主语音网关Email Gateway I V R负载平衡控制从语音网关A从语音网关BInteractive Voice Response systems IVR即无线语音业务增值

15、服务,和目前大家熟知的固定电话声讯服务类似。手机用户拨打指定号码,获得所需信息或者参与互动式的服务。 23nVoice CommunicationnVoice Mail242. 语音合成的历史n1939年 Voder 第一个电子合成器n1987年 Klatt 共振峰合成 语音合成技术的研究已有两百多年的历史,但真正具有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的。主要是让计算机能够产生高清晰度、高自然度的连续语音。在语音合成技术的发展过程中,早期的研究主要是采用参数合成方法,后来随着计算机技术的发展又出现了波形拼接的合成方法。25n机械式语音合成器Pneuma

16、tic speech synthesiser developed by von Kempelen in 1791. .au/units/slp807/history_synthesis/26/psl/smus/smus.htmlDoes it likes a Piano or an Organ?27n第一个电子合成器:Voder283. 计算机言语输出技术n语音输出的实现方法n录音/重放n若采用录音/重放的方法,首先要把模拟语音信号转换成数字序列,编码后,暂存于存储设备中(录音),需要时,再经解码,重建声音信号(

17、重放)。录音/重放可获得高音质声音,并能保留特定人的音色。但所需的存储容量随发音时间线性增长。n语音合成(亦称“文语转换,Text-to-Speech,TTS”)n文一语转换(TTS)是基于声音合成技术的一种声音产生技术。它可用于语音合成和音乐合成。文一语转换是语音合成技术的延伸,它能把计算机内的文本转换成连续自然的语声流。若采用这种方法输出语音,应预先建立语音参数数据库、发音规则库等。需要输出语音时,系统按需求先合成语音单元,再按语音学规则或语言学规则,连接成自然的语流。29n语音合成方法发音器官参数语音合成这种方法对人的发音过程进行直接模拟。它定义了唇、舌、声带的相关参数。由这些发音参数估

18、计声道截面积函数,进而计算声波。这是对人发音过程的直接模拟,有可能产生逼真的语音。但由于人发音生理过程的复杂性,理论计算与物理模拟之间的差异,合成语音的质量暂时还不理想。304. Concept-to-SpeechnWhat is it?n输入:建立在格结构和短语模型基础上的概念描述n输出:合成语音n关键技术:n自然语言生成n韵律修饰n语音合成n实例:n日本大阪大学的SOCS(Speech Output from Case Structure Representation)315. 文语转换应用系统介绍 nAlive Text to Speech开发商:AliveMedia, Inc. USA

19、http:/ C&E Ver2.1语音合成系统 开发商:安徽中科大讯飞信息科技有限公司 http:/ Inc. TTS样本文件: Alive TTS.txt33n科大讯飞语音合成系统http:/ 语音合成,又称文语转换(Text to Speech)技术,它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。以上TTS语音采用科大讯飞语音合成系统 InterPhonic C&E Ver2.1合成。http:/ Speech Centerhttp:/www.t

20、ext-to-speech- Configurable Clipboard Options - You decide how IISC behaves when your computers clipboard changes.l Alarm & Reminders - Just as a alarm clock, IISC can announce time to you every special interval depend on your settings. And IISC also maintains a reminders list to remind you of y

21、our important business.l Configurable GLOBAL Hotkeys - IISC allows you to define your favorite GLOBAL hotkeys to control IISC even in other program. This feature is very useful for weak-eyed users.l Optional MP3 Quality - The Output Sample Frequencies and Output Bitrates options allow you to make a

22、choice between the quality and the size. l Powerful Command Lines - As a advanced user, you can use the command lines of IISC to do you want to do!l Multiple Output Modes - Output synthesized speech either to your speakers or to audio files. Choose between WAV and MP3 audio file formats.l Support Mu

23、ltiple Languages/Engines - Including English, Spanish, British English, Dutch, French, German, Italian, Portuguese, etc.36n其他Text-to-Speech系统nCommPowerhttp:/ 语音合成原理 语音合成可以分为下面三种类型: 1. 波形合成法:它把人发音的语音波形直接存储或者进行波形编码后存储,根据需要编辑组合输出。这种系统中语音合成器只是语音存储和重放的器件。缺点:词汇量不可能做到很大,因为所需的存储容量太大了。应用:自动报时、报号、报站及报警等。 39n这

24、种方式以语句、短语、词或音节为合成单元,这些单元分别被录音后直接进行数字编码,经过适当的数据压缩,组成一个合成语音库。n重放时,根据待输出的信息,在语音库中取出相应单元的波形数据,串接或编辑在一起,经过解码还原出语音,这种合成方法也叫录音编辑合成。n合成单元越大, 合成的自然度越好,系统结构简单,价格低廉,合成语音的数码率较大,存储量也大,因而合成的词汇有限。n在自动报时、报号、报站或报警等装置中,多采用这种技术,现有多种合成芯片可供选用。402. 参数合成法:也称为分析合成法,是一种比较复杂的方法。为了节约存储容量,必须先对语音信号进行分析,提取出语音的参数,以压缩存储量。缺点:存在逼近误差

25、,合成语音质量(清晰度等)也就比波形合成法要差;这种方法采用声码器技术,以高效的编码来减少存储空间,但这是以牺牲音质为代价的,使合成语音的音质欠佳。这种语音合成又称为“终端模拟合成”,因为它只是在谱特性的基础上来模拟声道的输出语音,而不考虑内部发音器官是如何运动的。41n这种合成方法多以音节、半音节或音素为合成单元。n首先按照语音理论,对所有合成单元的语音进行分析,一帧一帧提取有关语音参数,这些参数经编码后组成一个合成语音库。n输出时,根据待合成的语音的信息,从语音库中提取出相应的合成参数, 经编辑和连接顺序送入语音合成器中,在合成器中合成参数的控制下,一帧一帧的重新还原语音波形。n主要的合成

26、参数有:控制音强的幅度、控制音高的基频和控制音色的共振峰参数。n这种方式的速码率比波形编辑方式小的多,但是系统结构也复杂些,合成音质也差些。42n但应该指出,在目前的技术水平下,要想合成任意一语种的无限词汇量的语音,仅采用上述的“分析-存储-合成”法是不可能的。n甚至对于以音节为基础,且字汇量较少的汉语,若以音节字为合成基元,也有1300个音节字,即使使用参数存储也将是很困难的。n因此国际上都在努力开发另一类无限(全)词(字)汇量的语音合成方法,这第二类法就是所谓“按语言学规则的从文本至语言”的语言合成法(Test- to Speech Synthesis by Rule)。433. 规则合成

27、法:通过语音学规则产生语音,合成的词汇表不事先确定,系统中存储的是最小的语音单位(如音素或音节)的声学参数,以及由音素组成音节、由音节组成词、由词组成句子以及控制音调、轻重等韵律的各种规则。给出待合成的字母或文字后,合成系统利用规则自动地将它们转换成连续的语音声波。特点:可以合成无限词汇的语句,存储量比参数合成法更小,但音质也更难得到保证。 44合成方式比较45 使用大的语音单位作存储基元,则能合成出高质使用大的语音单位作存储基元,则能合成出高质量的语句,但需要很大的存储量。需要在语音质量的语句,但需要很大的存储量。需要在语音质量和存储量之间折衷考虑,通常存储量是首先要量和存储量之间折衷考虑,

28、通常存储量是首先要考虑的因素。考虑的因素。 对于合成无限词汇的情况,只能采用较小的语音对于合成无限词汇的情况,只能采用较小的语音单位,如以音素为基元。单位,如以音素为基元。 音节是语音中最自然的结构单位。在汉语中,一音节是语音中最自然的结构单位。在汉语中,一个音节就是汶语中一个字的音,由音节构成词,个音节就是汶语中一个字的音,由音节构成词,最后由词构成句子。所以由音节作为基元构成的最后由词构成句子。所以由音节作为基元构成的语句也是无限多的。语句也是无限多的。语音合成中存储基元的选择问题:语音合成中存储基元的选择问题:46语音合成的基本术语合成单元(Synthesis Unit)n合成单元也称为

29、合成单位,是语音合成系统所处理的最小的语音学基本单位,待合成词语的合成语音库就是所有合成单元的集合。n按由小到大的顺序排列,语音学中的音素、双音素、半音节、音节、词、短语和句子都可以用作合成单元,合成单元越大,合成语音音质越好,但合成语音的数量及其数码率也越大。n在波形编码合成方式中,合成单元较大,多为词、短语或句子。n在参数式分析合成和规则合成方式中,英语或日语的合成多采用音素,辅音加元音和元音加辅音等合成单元,汉语的合成单元多采用音节和声、韵母作合成单元。47语音合成的基本术语合成参数(Synthesis Parameters)n在参数合成和规则合成方式中,控制语音合成器以输出所需语音的一

30、组参数。n合成参数分为两类:n音色参数n韵律参数n音色参数又称为音段参数,常用的有:共振峰频率,线性预测系数,LSF系数和生理发音参数。n韵律参数又称为超音段参数,主要有控制音强的幅度参数,控制音高的基频参数,控制音长的时间参数等。48语音合成的基本术语合成参数(Synthesis Parameters)n在参数合成方式中,每个合成单元的每帧合成参数直接取自该合成单元实际录音的分析数据。n在规则合成方式中,每个合成单元的合成参数是对大量语音材料进行声学分析后,经反复调试归纳得出的,合成参数的选取和调试对合成音质关系极大。49语音合成的基本术语合成语音库(Database for Synthes

31、is )n在语音合成系统中,所有合成单元的编码数据或合成参数数据的集合称为合成语音库。n对于波形编码合成方式,语音库中存储的是合成单元的波形编码;n对于参数合成方式,语音库中存储的是各合成单元逐帧的合成系数;n在规则合成方式中,语音库中存储的是各合成单元的声学参数和一系列合成规则。50语音合成的基本术语语音合成器(Speech Synthesizer )n在参数合成和规则合成系统中,将语音合成参数转变为语音波形的软件和硬件系统就是语音合成器。n语音合成器是按照语音产生的声学模型构成的,它模拟了语音产生的三个过程:声源激励、声道(即口腔、鼻腔和咽腔的总和)共鸣和口鼻辐射,其中模拟声道共鸣特性的数

32、字滤波器尤为关键。n依据控制语音音色的合成参数和数字滤波器的构造的不同,语音合成器可分为共振峰合成器、线性预测合成器、线谱对合成器和发音参数合成器等类别。51语音合成的基本术语合成音质(Quality of Synthetic Speech )n合成音质是指语音合成系统所输出的语音的质量,一般从清晰度(或可懂度)、自然度和连贯性等方面来进行主观评价。n清晰度是正确听辨有意义词语的百分率;n自然度用来评价合成语音音质是否接近人说话的声音,合成词语的语调是否自然;n连贯性用来评价合成语音是否流畅。52 6.3 共振峰合成共振峰合成原理共振峰合成原理原理:音色各异的语音具有不同的共振峰模式,以每个共

33、振峰频率及其带宽作为参数,可以构成共振峰滤波器。再用若干个这种滤波器的组合来模拟声道的传输特性(频率响应),对激励源发出的信号进行调制,再经过辐射模型就可以得到合成语音。53什么是“共振峰” 语音合成的理论基础是语音生成的数学模型。该模型语音生成过程是在激励信号的激励下,声波经谐振腔(声道),由嘴或鼻辐射声波。因此,声道参数、声道谐振特性一直是研究的重点。在图1所示的某一语音的频率响应图中,标有Fp1, Fp2, Fp3, 处为频率响应的极点,此时,声道的传输频率响应有极大值。习惯上,把声道传输频率响应上的极点称之为共振峰,而语音的共振峰频率(极点频率)的分布特性决定着该语音的音色。5455模

34、型级联型、并联型、混合型。优点对音高、音长、音强等目标值可以通过设置激励和谐振器参数等来实现,调整起来较容易。缺点由于对声道的模拟不精确影响了合成的自然度;控制参数过多,导致实现困难。 T T t1 t2 T T1 (a) 三角波 (b) 多项式波 (c) 滤波器冲激响应 0 激励源 分为浊音和清音。56混合型共振峰模型共振峰合成技术共振峰合成技术57共振峰合成实例58 6.4 LPC6.4 LPC参数合成技术参数合成技术 原理 一个语音的采样能够用过去若干个语音采样的线性组合来逼近。59 形式 利用预测系数ai直接构成的递归型合成滤波器;利用反射系数ki构成格型合成滤波器。 + + + +

35、z-1 + + z-1 e(1)(n) e(p-1)(n) u(n) =e(p)(n) b(2)(n) 输入 k2 -k2 kp + + + + z-1 e(0)(n) b(1)(n) k1 -k1 语音输出 x(n) 60Speech signal processingLPCLPC参数合成技术参数合成技术 LPC合成模型中的所有控制参数都必须随时间不断地修正。 (1) 对于清音语音段,可以简单地针对每一帧数据改变一次参数。 (2) 对于浊音语音段,根据控制参数改变时刻的选取不同,有基音同步合成和帧同步合成两种方式。 (3) 分析帧的长度固定,一般选择大于两个基音周期,因此为了得到每个基音周期

36、起始处的控制参数,就必须进行内插。 优点 简单、易于实现。缺点 合成语音样本需要很高的计算精度61v 如何将一段声音变慢或者变快? 6.5 6.5 PSOLA基础基础-时间尺度的调整(时间尺度的调整(TSM)62Speech signal processingv 变慢一倍后的语谱图被拉长PSOLAPSOLA基础基础- -时间尺度的调整(时间尺度的调整(TSMTSM)63Speech signal processingq 问题Problem:如何保证局部的时间结构,而使整体的时间长度发生变化?q解决方法 Solution将小段反复重复PSOLAPSOLA基础基础- -时间尺度的调整(时间尺度的调

37、整(TSMTSM)64Speech signal processingPSOLAPSOLA基础基础- -时间尺度的调整(时间尺度的调整(TSMTSM)65Speech signal processingq 允许在叠加过程中有一定的误差PSOLAPSOLA基础基础- -时间尺度的调整(时间尺度的调整(TSMTSM)66Speech signal processingq 通过交叉相关方法确定 PSOLAPSOLA基础基础- -时间尺度的调整(时间尺度的调整(TSMTSM)67PSOLAPSOLA合成技术合成技术原理对原始波形进行分析,产生非参数的中间表示。(2) 对这些短时信号做必要的修正,形成一

38、系列短时合成信号。首先根据原始语音波形的基音曲线和超音段特征与目标基音曲线和超音段特征修正的要求,建立合成波形与原始波形之间基音周期的映射关系;再由此映射关系确定合成所需的短时合成信号系列。(3) 将合成短时信号系列与目标基音周期同步排列并重叠相加得到合成波形。68为原始语音段加基音标注是算法执行的基础。 浊音有基音周期,能够进行有效地标注。 对于清音,为了保持算法的一致性,一般标注为一个适当的常数。 需要按基音周期分别修改音长、基频及合成信号的幅值。 PSOLAPSOLA合成技术合成技术69PSOLAPSOLA合成技术合成技术 分析轴 合成轴 (b) 合成时映射关系 对于音长的修改,就是找到

39、分析信号的基音同步标注点与最后合成信号的基音同步标注点之间的对应关系,一般它们呈现一种线性关系,下图给出了音长缩短时的基音标注情况。 70PSOLAPSOLA合成技术合成技术进行基频和音长的调整 (a) 提高基频 71PSOLAPSOLA合成技术合成技术 (b) 降低基频 72PSOLAPSOLA合成技术合成技术 (c) 增加时长 73PSOLAPSOLA合成技术合成技术 (d) 减小时长 74PSOLAPSOLA合成技术合成技术PSOLAPSOLA算法算法(TD-PSOLA)(TD-PSOLA): TD-PSOLA(TD-PSOLA(时域基音同步叠加法时域基音同步叠加法) )基本上实现了,但

40、基本上实现了,但TD-PSOLATD-PSOLA算法较适合于时长的改变算法较适合于时长的改变, ,当涉及音高的改变当涉及音高的改变, ,特特别是音高改变幅度较大时别是音高改变幅度较大时, ,容易造成叠加单元的混叠或析漏。容易造成叠加单元的混叠或析漏。 FD-PSOLA (FD-PSOLA (频域基音同步叠加法频域基音同步叠加法) )不仅可以改变时间标不仅可以改变时间标尺,还可以对信号在频域上做适当调整。尺,还可以对信号在频域上做适当调整。75 FD-PSOLA算法主要分四个部分:1.基音同步叠加分析:对原始语音信号作准确的基音标记,将原始语音信号与一系列基音同步的窗函数相乘,得到一系列有重叠的

41、分析短时信号,一般地,窗函数采用标准的汉宁窗,窗长一般为两个基音周期,相临的分析短时信号之间有50%的重叠部分。2.时间标尺的改变:对于给定的音高调整参数时间调整参数,确定分析短时信号和合成短时信号之间的关系,也就是确定原始基音标记序列和合成基音标记序列。在这过程,我们采用的是基于“调素”论的时长标尺改变方式, 我们不加以深入讨论。3.分析短时信号的改变:对分析短时信号作一些分析和修改,产生合成短时信号,在这一过程中,TD-PSOLA算法只对分析短时信号延时处理,而不对信号作频域上的调整。4.基音同步叠加处理:对合成短时信号作叠加处理,产生最终的合成语音信号。7677n 选择更小的合成基元,加

42、入庞大的规则库将其合成为词语或句子的合成方式,更侧重于各种合成规则的研究,因此称其为按规则合成。 n对于各种不同的语种,其规则是完全不同的。这里介绍汉语的按规则合成,并且仅介绍从文本至语音这个层次的按规则合成。n“文-语”转换实际上是一个人工智能系统,它首先接受键盘或文件按一定格式所输入的文本信息,然后按照给定的语言学规则决定出各字的发音(合成)基元序列及基元组合时的韵律特性(如音长、重音、声调、语调等),从而决定了为合成整个文本所需的代码序列,然后再用这些代码来控制机器去语音库中取出相应的语音参数进行合成运算,才得到语音输出。 6.66.6汉语按规则合成汉语按规则合成78一个语音全词汇按规则

43、合成系统这个系统采用了声母和韵母作为合成基元,并且是按照共振峰合成方法来实现汉语无限字汇按规则合成的。系统的输入是以汉语拼音所书写的文本,如作适当修改也可以接受标准汉字,他们由键盘输入或来自磁盘的文件。格式化处理时将拼音文本分解为单个音节和单字调,输入时为了表明音节的调,规定每个因解聘音符的后面紧跟着用1、2、3、4或空缺分别表示阴平、阳平、上声、去声和轻音。经格式化后的文本有利于后面的进一步处理。79n词汇分析部分是完成变调和设定音长的基础,其中词库是词汇分析的知识源。在词汇分析时,按照汉语词汇出现的高低,找出句子中可能出现的汉语词汇,以此作为优先考虑变调和音长设置的依据。词库的大小可根据用

44、途而定。有时可以包括一些常用的专业词汇。n调型、音长的设计分为两步进行。首先考虑双音节字词的变调和音长问题,也就是对已查出的二字词按照二字连续变调和音长规则进行设计。第二步是对非双音节字词进行处理。此时必须对句子理解之后才能对非词库的词进行变调和音长的设计。考虑到汉语句子中一切音调变化都是以单字调和二字连续变调为基础的。三字以上的词的连续变调在汉语结构上一般都可以认为是以单字和双字的组合。即使在意义上不完全是这样,也往往又说成双音节的习惯。80n语音分析部分是依据转接和音渡等拼音规则进行非韵律的分析,加上前一步骤的设计,就可以得到整个文本的“言语码”。n这个系统由于将声母和韵母作为合成基元,所

45、以这里的语音分析就比较简单,只要把拼音音节分成声母和韵母,就可以按照规则确定言语码了。如果输入的是标准汉字,可以用查表的方法来确定声母和韵母。n参数平滑部分是将上面各部分的分析结果进行参数化,即将声母、韵母、调型、重读、轻读、音长、尖阁等信息转换为:清/浊标志,共振峰频率,带宽和幅度,基音周期,音强等参数,其中音长和间隔等信息隐含在参数序列中。这组参数序列按照帧时变,以控制共振峰语音合成器并使之发出连续的语音信号。n语音合成器采用的共振峰合成方法。81 对汉语,基元一般应选声母和韵母。 韵律规则也叫“超音段特征”,反映了语音在基频、共振峰、能量以及谱分布特性上的差异。 主要包括声调、语调、重音

46、等。 82 (a) 重音规则 指说话或朗读时读的比较重的音节或词语,要时间长一点、音程大一点。一般可以将汉语重音分为词重音和句重音两大类。 (b)转接与音渡 转接与音渡是音素序列转变成语音流时的动态变化规律。 汉语发音中存在两种基本的过渡,即辅音与元音组合和元音与元音组合。前者称之为“转接”;后者称之为“音渡”。 83转接与音渡规则n对汉语所作的听辩试验说明:n转接现象主要出现在第二共振峰上。第一与第三共振峰的转接规律比较简单,一般第一共振峰的辅元转接总是向下,第三共振峰的转接可以忽略不计;n辅元转接对辅音听辩的影响,以塞音最大、塞擦音次之,擦音最小。鼻音和边音因为具有元音性质,可不予考虑。8

47、4转接与音渡规则n下面考虑元音的音渡问题。在汉语中有13个复元音韵母,它们是由两个以上音素组成的。习惯上常把复韵母分为头音(韵头),主元音(韵腹)和尾音(韵尾)三部分,但是它们并不是若干个相对独立的和相对稳定的元音。复合韵母实际上是一大串飞速滑动过去的音素组合,这种滑动的过程称为音渡或者动程。在复合元音的发音过程中,发音器官都处于不断的连续变化之中。n在复合元音的滑动变化过程中出现几个极点(二合元音有两个极点、三合元音有三个极点)。通常所说的头音、主元音和尾音就是指这些渐变的极点,这些极点称之为元音滑动的目标值。知道了复合元音极点位置之后,就可以用内插的方法得到复合元音的近似共振峰轨迹。一般来说,前响二合元音的共振峰动态轨迹近似线性变化,后响二合元音的共振峰轨迹近似曲线,而且起始弯曲厉害,后部比较平坦。三合元音的共振峰变化比较复杂,可近似看成两个二合元音。85转接与音渡规则86 (c)声调与变调在连续的语流中,由于相邻音节之间的相互影响,各音节的基音频率时变曲线与孤立发音时的音节相比会发生较大的变异。 87声调和音调规则88(d)音长问题 音长也是语音的重要特征之一,对语音的可懂度、自然度都有一定的影响。汉语中音长主要体现在韵母的调型段长度上。调长和调型是密切相关的。通常认为,上声音节最长,阴平、阳平次

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论