兰州方言的转换_第1页
兰州方言的转换_第2页
兰州方言的转换_第3页
兰州方言的转换_第4页
兰州方言的转换_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

毕毕 业业 论论 文文 题 目: 兰州方言的转换 学 院: 物理与电子工程学院 专 业: 电子信息工程 2 班 毕业年届: 2009 届 学生姓名: 张 琳 学 号: 200572020240 指导教师: 杨鸿武 兰州方言的转换 - 1 - 兰州方言的转换兰州方言的转换 学生姓名:张 琳 指导老师:杨鸿武 学号:200572020244 专业:电子信息工程 班级:2005 级 2 班 毕业年届:2009 届 摘要:本文着重研究并实现兰州方言单字的转换。语音转换技术是指改变 源说话人的语音特征使之具有目标说话人特征的一项技术。要实现转换的目标, 首先要获得源说话人和目标说话人的语音特征。这部分工作就是前期的语音分 析。语音分析过程包括,以一定得原则设计和建立文本语料库,用 Cool Edit Pro2.0 软件录制语音语料,用 VisualSpeech 软件切分语音语料,最后是对切分 好的语音语料进行声学特征的分析。然后,在语音分析的基础上,建立模型实 现转换。我们运用普通话的归一化字调模型,分别对普通话和兰州话的四种声 调的基频进行参数化建模,然后,对参数化模型实现曲线拟合,得到一个四次 曲线来表示四种调型的基频曲线。最后用兰州话的基频曲线取代普通话的基频 曲线,最终重新合成出的兰州方言。 关键字: 语音特征 基频 归一化字调模型 方言转换 straight 兰州方言的转换 - 2 - ABSTRACT The thesis introduced a novel method for Lanzhou dialect conversion. Speech technology is a means to change the source of the speakers voice characteristics to the characteristics of the speaker has the goal of a technical. To achieve the goal of conversion, the first words to get the source and target. This work is part of the pre- speech analysis. Including voice analysis, Certain principles of the design and establishment of a text corpus, using the software Cool Edit Pro2.0 corpus voice recording, and voice Visual Speech corpus segmentation software, the final segmentation is a good acoustic characteristics of voice corpus analysis. Then, in the speech analysis based on the model to achieve the conversion. We use the normalized Mandarin word transfer model, Putonghua and Lanzhou, respectively, then the four tones of the fundamental frequency for parametric modeling, Then, the realization of the parameterized model curve fitting, a four times to indicate the four transfer curves of the fundamental frequency curve type. Finally, Lanzhou dialect, then to replace the fundamental frequency curve frequency curve of mandarin, and ultimately re-synthesis of the Lanzhou dialect t. Keywords: Speech features, Fundamental frequency , Normalized word transfer model Dialect conversion , straight 兰州方言的转换 - 3 - 目录目录 摘要.- 1 - ABSTRACT- 2 - 第 1 章 引言.- 4 - 1.1 研究背景- 4 - 1.2 研究意义- 4 - 1.3 研究现状- 5 - 第 2 章 汉语语音同兰州方言的特点.- 6 - 2.1 汉语语音的特点.- 6 - 2.2 兰州方言的特点.- 6 - 2.3 兰州方言与普通话在声调方面的联系.- 8 - 第 3 章 兰州方言与普通话声学特征对比分析.- 9 - 3.1 文本语料库的设计与建立- 9 - 3.2 语音语料的录制与切分- 9 - 3.3 兰州方言与普通话声学特征对比- 11 - 第 4 章 兰州方言的转换的模型及算法.- 13 - 4.1 有关语音转换的相关知识- 13 - 4.2 普通话的归一化字调模型- 15 - 4.3 五度字调模型- 16 - 4.4 算法的设计 STRAIGHT 算法 .- 18 - 第 5 章 兰州方言的转换.- 20 - 5.1 字调模型的建立及算法的设计- 20 - 5.2 转换的实现- 21 - 第 6 章 总结.- 23 - 致谢.- 24 - 参考文献.- 25 - 兰州方言的转换 - 4 - 第第 1 章章 引言引言 1.1 研究背景 当前汉语普通话的语音合成系统已渐成熟,可以合成出清晰、自然的语音, 并获得了广泛的实际应用。但是其他方言的语音合成系统还比较少。中国人口 众多,地域广袤,汉语方言丰富复杂。研究方言语音的生成方法具有一定的实 际意义。就全国来看,使用的语言即方言就有七种(官话、闽方言、湘方言、赣 方言、客家话、粤方言、吴方言)。其中,官话方言是全国使用人数最多的一种 方言。根据古入声的今调类将官话方言分成七个区:江淮官话、西南官话、中 原官话、胶东官话、北方官话、北京官话、兰银官话。从此,正式提出了兰银 官话这个概念。兰银官话的特性是古清音入声和古次浊入声今读阴平,古全浊 入声今读阳平。 兰州方言属西北方言的“兰银官话片”,包括兰州市行政区及白银西部地 区,大约有300多万人说兰州话。兰州方言据内部差异分为7个片区,有城区片 (城关区、七里河区、安宁区、西固区及皋兰东南部分)、永登东片、永登西 片、红古片、榆中西片、榆中北片和榆中东片。七个片的差异主要表现在声调、 声母方面,至于语法和词汇则差别不大。而对兰银官话的研究都是从语音、词 汇、语法三方面来深入研究的。其中语音是着重研究的对象。这些研究都只是 反应了兰银官话语言学方面的特性。从语音学的角度来分析兰银官话的知识和 特点,这是实现兰州方言转换的关键。所以我们这次所做研究,就是在对兰州 方言的韵律特性分析的基础上利用语音转换技术来实现兰州方言单字的转换。 1.2 研究意义 语音转换技术在语音处理领域是一个比较新的研究方向,也是今年来语音 兰州方言的转换 - 5 - 领域的研究热点。语音转换技术不但可以用于人机通信系统,而且也是语音 学研究的一种重要手段。 (1) 语言是文化的载体,方言是地方文化的载体。研究兰州方言的转换有助 于提高对兰州方言特点的认识,使得这种文化继续更好的传承与应用。 (2) 实现兰州方言单字的转换能够为以后双字及句子的转换提供一定得理论 依据。 (3)音色变换系统广泛地应用于个性化人机交互、远程通信等方面,提高了 特色语音生成的性能,使得人机之间的交互更加自然和有效。 在语音信息服务系统中,输出不同方言的语音可以使语音信息服务更加多 样化和人性化。 在导游系统中加入方言服务,配以相应普通话信息,可以凸现当地特色文 化。 在娱乐方面,可以再手机、玩具等中加入方言,不仅可以增加趣味性, 还能增强虚拟场景的真实感。 在影视作品中运用方言 可以刻画人物或增加艺术效果, 利用方言生成 系统可以降低人工配音的成本。 1.3 研究现状 对于方言的生成和实现,国内研究的较少。王兵,苏恩泽利用普通话的无 调音节库合成了天津话、郑州话、济南话,武汉话四种方言。他们通过公式产 生方言统一的声调模式,合成方言。 此外,甘振业老师在论文兰州方言语音生成方法研究中提出了几种兰 州方言的生成方法。采用 PitchTarget 估计模型为声调模型的基础上,提出了采 用线性修改模型(LMM)生成兰州方言的方法和采用高斯混合模型(GMM) 生成兰州方言的方法;提出了在生成方言语音的基础上采用语音修改方法实现 音色可变兰州方言的方法。这些方法的提出为今后兰州方言的转换提供了有力 的指导。 兰州方言的转换 - 6 - 第第 2 章章 汉语语音同兰州方言的特点汉语语音同兰州方言的特点 2.1 汉语语音的特点 语音流是由音素结合而成的最小单位,发声的最小单位是 “音节” (Syllable)。在汉语中,最小的发声单元是一个“字” ,一个字即为一个“音节” 。 汉语最大的特点之一就是发音比较简单。一个音节由元音(Vowel)和辅音 (Consonant)构成。元音在汉语中也称为韵母,它是构成一个音节的主干,无论 从长度还是从能量看,元音在音节中都占主要部分。辅音,在汉语中也称为声 母,它只出现在音节的前端或后端或前后两端,它们的时长和能量与元音相比 都很小。所有的元音都是浊音,辅音则包括清音、磨擦音和爆破音。 汉语是一种声调语言,相同声母和韵母构成的音节随声调的不同而具有完 全不同的意义,对应着不同的汉字;另外,汉语中存在着多音字现象,同一个字 在不同的语气或不同的词义下具有不同的声调,因而声调对于汉语语音的理解 极为重要,承担着重要的构字辨意作用,而在其它很多语种中声调则没有这样 重要的作用。升调的变化就是浊音基音周期(或基音频率)的变化,各个韵母段 中基声调的变化就是浊音基音周期(或基音频率)的变化,各个韵母段中基音周 期变化的轨迹称为声调曲线。声调曲线从一个韵母的起始端开始,到韵母的终 止端结束。不同声调的声调曲线的开始段称为弯头段,呈共同上升走向;末尾一 段呈共同下降走向,称为降尾段;而中间一段则具有不同的特点,这一段称为调 型段。一般来说,弯头段和降尾段对声调的听辨不起作用,起作用的是调型段。 而一段语音,它的起始和结尾处的波形幅度较小,要准确地测出这些地方的基 音周期并不容易,因此,可将这两处的波形忽略,只测调型段这一部分波形的 基音周期。 2.2 兰州方言的特点 2.2.1 兰州方言音系的特点兰州方言音系的特点 兰州方言音系特点主要体现在声母、韵母和声调方面。 兰州方言的转换 - 7 - (1)在声母方面: 南(n)兰(l)不分,女(n,)吕(l)相混 齿唇音突出,珠、初、书、乌读为 pfv、pfv、fv、v,追、吹、飞、危读 为 pfei、pfei、fei、vei。3、 zC、zei、z 三个有音无字音节中出现舌尖 浊擦音 z (2)从韵目方面来看: 前后鼻韵目相混,读成鼻化韵目,i、u、y。 复韵目向单韵目发展的趋势比较显著,出现 Z(衰)C(熬)Y(安)D(恩昂)等 单韵目。 鼻化韵目相当丰富,出现 Y(安) iY(烟) uY(关) yY(冤) (恩) i(因) u(东) y(云)等鼻化韵目。 无卷舌韵和 Er 话韵,有 和 话韵。 (3)从声调方面来看: 有四个声调,平声分阴阳,入声消失,古入声全浊声母字归阳平,次浊 声母字和清声母字归去声。 调值与北京差别显著,阴平中降、阳平高降,上声中平,去声中升。 有特殊的轻声和变调规律。 2.2.2 兰州方言声韵的特点兰州方言声韵的特点 兰州方言作为汉语的一个分支,决定其语音的三个基本要素还是声母、韵 母和声调。其特点为以下所述: (1) 声母 兰州方言有二十六个声母,零声母在内。零声母只有开齐撮三呼,其 他方言零声母合口呼的字兰州读v声母。 (2)韵母 兰州方言有六十一个韵母, 可以分为 化和非 化两大类。非 化 兰州方言的转换 - 8 - 韵母三十一个, 化韵母二十九个。 (3)声调 兰州方言有四个声调,轻声在外: 阴平53刚边初商飞天丁知 阳平51穷平唐娘人白合舌 上声44古好五女老手碗有 去声13唱世近柱黑月共桌 2.3 兰州方言与普通话在声调方面的联系 声调是构成音节的重要成份,北方方言之间的听觉差别主要表现在声调的差 别上面。兰州话与普通话的差别,主要表现在声调上面。因此,要实现普通话到 兰州话的语音转换,主要是修改语音的声调特征即可。 兰州话四声分立,与普通话四声相对应。但每一调类的调值,没有一类是相同 的。阴平兰州话作半降调 53 , 普通话作高平调 55 ; 阳平兰州话作全降调 51 , 普通话作中升调 35 ; 上声兰州话作中平调 44 , 普通话作降升调 214 ; 去声兰州 话作低升调 13 , 普通话作高降调 51 。兰州话 古入声字派入阳平、去声两个调 类,如“杂、乏、贼、折、 着、白、急”“色、说、铁、节、截、直、等归阳 平, 魄、福、答、力、木”等归去声;普通话古入声字分归阴阳上去四个调类。 兰州方言和普通话的声调对应关系列表如下: 阴平阳平上声去声 普通话553521451 兰州方言的转换 - 9 - . 第第 3 章章 兰州方言与普通话声学特征对兰州方言与普通话声学特征对 比分析比分析 3.1 文本语料库的设计与建立 语料库的设计的目标是得到具有最小冗余度、最大覆盖率和结构合理的语 料集。文本语料库的设计必须兼顾音段和韵律两个层次的需求。先满足音段需 求,再考虑声调组合、音段音联现象、各种清浊搭配等;语句的设计重点考虑 语句的、语调变化和轻重读等。 鉴于汉语是有调语言,每个音节可能有四种声调:阴平、阳平、上声、去 声。首先,覆盖所有的有调音节是语料库设计的最基本的要求。其次,覆盖汉 语中常见的协同发音现象。所以文本语料库应包括: 1. 汉语单音节 570 个,按照不同声母、韵母组合,涵盖了四个声调,通过 实验语音学研究单字的基频特征,进而分析兰州方言与普通话在声母、韵母、 声调方面的差异。 2. 二音节组 2000 个,汉语包含阴平、阳平、上声、去声,按照四个声调 以及轻声的不同组合,设计了共 20 组 2000 个二音节组字,主要目的是研究方 言连续变调的情况。 3. 句子 500 句,自己设计一部分长度在 525 个字的句子,句子的类型有 陈述句,疑问句,感叹句,并且都是含有一些特殊词组的句子,目的是研究在 连续语流中字的发音特征以及词组之间的相互影响。 兰州话31534424 兰州方言的转换 - 10 - 3.2 语音语料的录制与切分 3.2.1 语音语料的录制语音语料的录制 设计好语料库后,每个单字以普通话和兰州话分别录制语音。录制语音采 用单声道,16 位采样精度,采样率为 44100,语音存储格式为 PCM 格式的 WAV 文件。录音人是两男两女,他们都出生兰州,兰州方言地道,并且普通 话标准,并且年龄都在 2025 岁之间,是在校的大学生。 3.2.2 切分标注切分标注 制好语音材料后,需要对语料库中的所有音节进行切分标注。论文采用 VisualSpeech 软件对语音进行标注,将标注文件存储为 tag 格式的标注文件。 在汉语中,汉字是以音节为单位的,即一个音节为一个单位,分析的过程 是以音节为基础来分析的,所以将句子、词标注成单个音节是一个必要的过程, 即将每个字的起始点和结束点标注出来,划分为音节单位,以供后面使用。 对语音语料进行的第一步工作是切分,将庞大的语音文件切割成一个一个 的小片段,切分的标准是以句子为单位,一个句子为一个文件,对于单字和二 字词,是按照声调为准,同样的声调为一个小的文件。如图 3.2.2 为 VisualSpeech 软件对语音的切分。 兰州方言的转换 - 11 - 图 3.2.2 3.3 兰州方言与普通话声学特征对比 3.3.1 单音节的特点单音节的特点 普通话单音节有四种基本调型:平调、升调、降调和降调。每一调型都有 自己相对稳定的音高变化模式,而在连续的语流中,尽管各音节的声调会与单 念时有所不同,但总或多或少地保留着原有基本模式。单字调是语流中一切声 调变化的基础之一。因此,考察单音节的音高动态特性乃是普通话语音合成研 究中的一项基础课题。 通过测试和分析,对单音节的音高动态特性可以总括出下述三条基本规律: (1)尽管由于性别年龄等的不同,每个人的嗓音有高有低,但对一个特定 人或一群人来说,可以找到一个音高的基准值,语流的音高是在次基准值上下 变动的。我们可以采用某种方法估算此基准值。 (2)尽管单音节的绝对音高可以因人而异,但声调的音高的变化范围是相 对稳定的,有一定的调域存在。说话慢时“咬文嚼字” ,音高起伏变化大,调域 就大,反之则小。 (3)对某一声调的单音节而言,发言人不同和时长不同时,基频的依时变 兰州方言的转换 - 12 - 化虽有差异,但大体趋势是相同的,即单字调形大体相同。 3.3.3 兰州方言和普通话单字声学特征特征对比兰州方言和普通话单字声学特征特征对比 第一方面,时长的关系。 时长反映的是该字发音所占时间的长短,这与声调有一定关系,如果声调 是直线的,发音直接发出,不需要经过变化,时间也就相应的短,如果声调是 曲线,那么发音是经历了中间的变化肯定所用时间长。 一声:普通话是 53,兰州话是 31,普通话是降调,兰州话是升调,升调缓 慢,所用时间长,而降的时候用时就会短。 二声:普通话是 35,兰州话是 53,与一声相似,升调用时间长于降调。 三声:普通话是 214,兰州话是 44,普通话发音经历了中间的拐弯变化, 所用时间势必长于兰州话。 四声:普通话是 51,兰州话是 24,也符合升调用时长于降调。 第二方面,音域范围和基频斜率。 音域范围和基频斜率是相对应的。音域范围显示的是最大基频和最小基频的 差值,斜率反映了基频走向。 一声:普通话是 55,兰州话是 31。普通话是一条水平的直线,斜率接近 0,兰州话是一条降的曲线,斜率是负值。由于普通话是水平的直线,因此最大 基频值和最小基频值的差值会比较小,音域范围也就响应的小,而兰州话是一 条下降的曲线,最大值与最小值的差值会比较大,音域范围就比较大。 二声:普通话的二声是 35,是一条升的斜线,斜率为正,兰州话的是是 53,是一条下降的斜线,斜率为负 三声:普通话是 214,兰州话是 44; 四声:普通话是 51,是一条下降的斜线,斜率为负,并且从 5 降到 1,斜 率教大,音域范围相应也大,兰州话的是 24,是一条向上升的斜线,斜率为正, 音域范围小于普通话。 兰州方言的转换 - 13 - 第第 4 章章 兰兰州州方方言言的的转转换换的的模模型型及及算算 法法 4.1 有关语音转换的相关知识 4.1.1 语音转换的概念语音转换的概念 语音转换(VC,voice conversion 或 VT,voice transformation)是指改变 一种语音(源语音,source speech )的个性特征,使之具有另外一种语音(目 标语音,target speech)的个性特征。语音包含很多信息,其中最主要的是语义 信息,另外一个很重要的信息为语音的个性化信息。语音转换就是要保留原有 语义信息不变,而改变语音的个性化信息,使一个人的语音经语音转换后听起 来像是另外一个人说的语音。 4.1.2 表征语音个性化的语音特征表征语音个性化的语音特征 表征语音个性化的语音特征可以分为以下三类: 音段特征:描述的是语音的音色特征。特征参数主要包括共振峰的位 置、共振峰的带宽、频谱倾斜(spectral tilt)、基音频率、能量等。音段特征主 要与发音器官的生理学和物理学特征有关,也与说话人的情绪状态有关。 超音段特征:描述的是语音的韵律特征。特征参数主要包括音素的时 长、基音频率的变化(音调)、能量等。 语言特征(linguistic cues):包括习惯用语、方言、口音等。 超音段特征和语言特征都是语音的很重要的个性特征,但对于说话人来说, 超音段特征主要受社会和心理状况的影响3, 容易随意的改变,例如,放慢说 话速度、降低音量、说的更加柔软一些等;语言特征则与人的生活环境、成长 过程和个人习惯有很大关系,随意性很大,不易对其建模。而音段特征与语音 发音器官的生理学和物理学特征紧密相连,也与说话人的情绪状态有关,可以 认为是不可改变的。现在报道的语音转换系统,主要是对音段特征进行控制和 转换;对于超音段特征如基音频率轮廓、能量轮廓、和说话人速率等特征一般 兰州方言的转换 - 14 - 都是进行平均值转换以与目标语音的平均特征值相匹配, 之所以没有对超音段 特征进行详细的建模、控制和转换,主要是由于在现在语音技术水平下,很难 对高层的语音特征进行提取和操作。 4.1.3 韵律转换的相关概念韵律转换的相关概念 韵律特征是表征语音个性化的重要特征,韵律转换也是语音转换的重要内 容,韵律的转换内容主要包括基音频率的转换、时长的转换和能量的转换等 韵律是感知上的概念。在声学上,它是通过基频、时长和能量参数实现的。 一般认为基频是最重要的韵律参数,时长次之,能量对韵律的贡献最小。在分 析时,常常将可测量的声学参数作为研究对象,并将与基频、时长和能量相关 的特征统称为韵律特征。 影响韵律特征的因素有说话人特点、基本语义和情感状态等。在说话人特 点方面,因为各个说话人由于性别、年龄等生理因素,以及地域、阶层等社会 因素,具有不同的基频变化范围和韵律特点。在表达基本语义方面,汉语作为 声调语言,每个音节都通过声调来帮助辨别字义,而各种声调类型主要通过基 频曲线的高低和形状实现。在语句中总是由于词法、语法等方面的原因使得一 些音节发得比其他音节重,而这些重音在声学上表现为基频升高、时长加长和 能量增强。在韵律结构的边界处常常出现时长增加和基频曲线重置等现象。疑 问句相对于陈述句,在基频曲线的整体变化上也有不同的特点。此外,说话人 的情绪状态也影响了基频、时长和能量参数的变化情况。 基音频率的转换也即改变基音频率,不仅是语音转换的重要内容,也是语 音转换中得到高质量合成语音难度很大的一项关键技术。在文语转换中要改 变合成单元的基音频率,以使其具有不同的音调特性且要与包含这个单元的语 音段的基音频率变化轮廓相匹配,但在这个工作中,研究者们发现当基音周期 改变较大时,往往会导致合成语音听起来很机械或有回声和杂音,从而导致语 音质量的下降。语音转换要转换源语音的基音频率为目标语音基音频率,基音 频率改变常常会较大,所以,有效的基音周期改变算法是得到高质量转换语音 的保证。 对于时长的转换一般都是对基音周期的语音进行删除或复制来实现,同时 兰州方言的转换 - 15 - 伴随着幅度即能量的调整。在对韵律进行转换时,常常是同时进行基音周期、 时长和能量转换的。 4.2 普通话的归一化字调模型 4.2.1 归一化概念(归一化概念(Normalization Method) 所谓归一化,一般的是指把数变为(0,1)之间的小数 。其作用主要是为 了能够方便的提取及应用数据,把数据映射到 01 范围之内处理,使得运算及 推理更加便捷快速。在普通话的归一化字调模型中,主要是指将时间坐标 t 进 行归一化,以方便对数据的处理。 例如,某一上声音节总时长为 500 毫秒,音高最低点的时刻为 250 毫秒,则 此时刻 t=250/500=0.5。 4.2.2 普通话的归一化字调模型普通话的归一化字调模型 汉语是一种声调语言。合成汉语语音时,必须有一个较好的声调模型来控 制基频参数。根据单音节声调的基本规律,我们提出如图 4.2.2 和下式所示的普 通话的归一化字调模型: F0i(t)= Log-1fc+fdf0i(t) (i=1,2,3,4);(式 4-1) 在式中: Log-1是以 10 为底的对数的逆运算,即 10 的的幂; t 是归一化的时间坐标,从零变到 1; fc是中值基频,体现声调调的基本音高,用十进制对数值表示; fd是调域,体现声调变化的幅度 采用十进制对数值表述; f0i(t)是调形函数,i=1,2,3,4,对应于阴平、阳平、上声、去声四种函数形 式。 设某一声调的上限频率值是 FH,最低频率值是 FL,则有; fc=(lgFH/+lgFL)/2;(式 4-2) 兰州方言的转换 - 16 - fd=lgFH-lgFL;(式 4-3) F0 中值频率 fc 调域 fd Log- 1 调形 foi(t) 图 4.2.2 下表为四种调型的调型函数实测数据: t0.00.10.20.30.40.50.60.70.80.91.0 阴平 0.45300.470 00.472 00.469 00.466 00.465 00.468 00.473 00.476 00.470 0.447 阳平 0.0110.0210.0300.0480.0830.1360.2050.2840.3600.4200.444 上声 -0.155 -0.186 -0.281 -0.388 -0.469 -0.500 -0.472 -0.391 -0.274 -0.156 -0.084 去声 0.4630.5310.5320.4880.4130.3170.2040.0719 -0.856 -0.281 -0.534 根据表中数据及式 5-1、式 5-2、式 5-3,通过多项式曲线拟合算法可以得 到用四次多项式表示的调型函数。表达式如下: f01(t)=0.453+0.295t-1.456t2+2.574t3-1.468t4 f02(t)=0.011+0.160t-0.931t2+3.751t3-2.56t4 f03(t)=-0.155+0.246t_7.845t2+16.36t3-8.7274 f04(t)=0.463+1.025t-5.584t2+6.437t3-3.387t4 由此就得到了普通话四种声调的调型函数。而兰州方言的声调函数则需要 通过下面的五度字调模型来求得。 兰州方言的转换 - 17 - 4.3 五度字调模型 4.3.1 五度标记法介绍五度标记法介绍 声调是音节的高低升降形式,它主要是由音高决定的。声调的音高是相对 的,不是绝对;声调的升降变化是滑动的,不是从一个音阶到另一个音阶那样 跳跃式地移动。 描写声调的高低通常用五度标记法:立一竖标,中分 5 度,最低为 1,最 高为 5。 普通话有四个声调: 1、阴平 念高平,用五度标记法来表示,就是从 5 到 5,写作 55。 2、阳平 念高升(或说中升) ,起音比阴平稍低,然后升到高。用五度标记 法 表就是从 3 升到 5,写作 35。 3、上(shng)声 念降升,起音半低,先降后升,用五度标记法表示,是从 2 降到 1 再升到 4,写作 214。 4、去声 念高降(或称全降) ,起音高,接着往下滑,用五度标记法表示, 是从 5 降到 1,写作 51。 4.3.2 五度字调模型原理五度字调模型原理 合成语音的声调特性对合成汉语的自然度和可懂度有极大地关系。汉语的 五度字调模型是根据赵元任先生创拟的五度制标调法,在普通话的归一化字调 模型的基础上提出的。五度字调模型以中值音高、调域和字调的五度值为输入 参数(如图 5.3.2) ,生成的汉语各方言的声调比较自然,可懂度高。这次兰州 方言单字转换就是用汉语的五度字调模型来实现的。下式就是汉语的五度字调 模型: Fo(t)=log-1fc(t)+fdf(t) 兰州方言的转换 - 18 - 五度值 F0(t) 中值 fc(t) 调域 fd Log-1 调形 f (t) 图 4.3 .2 五度字调模型 其中, t是归一化的时间坐标; fc(t)称为中值音高(常以对数值表示) ,它体现着嗓音的高低; 它随时间按一定模式变化,以体现出字音声调固有的“弯头”和“降 尾” ; fd表示调域的大小(以常用对数值表示) ; f(t)是某一特定声调的调形(contour)函数; Log-1代表常用对数的逆运算,即 10 的幂; F0(t)就是待生成的基频变化曲线。 所以给定了中值音高fc(t)、调域fd和声调的五度值,五度字调模型就可以 生成某种声调的基频随时间变化的数列。 4.4 算法的设计 STRAIGHT 算法 STRAIGHT 系统是需要加载到 MATLAB 中 TOOLBOX 里面的工具。经实 验证明,它是一种灵活可靠的语音分析、修改和合成的工具,在语音感知、语 音变形、自然语音合成等研究和应用领域都有广泛的适用性。STRAIGHT 的核 心是源激励模型,激励源是基频和 AP,系统是频谱(N3SGRAM) 。 STRAIGHT 修改语音需要知道三个参数:基频、非周期指数和频谱。 由于 STRAIGHT 算法比较复杂,所以在此仅简单介绍在本次设计中用的四 兰州方言的转换 - 19 - 个函数。 1. f0raw = exstraightSource(wave_p,fs) 作用:提取确定源参数,计算基本频率f0raw。 其中:f0raw:基本频率( Hz )。 wave_p:输入信号为普通话的语音信息。 fs:采样频率。 2. ap = exstraightAPind(wave_p,fs,f0raw) 作用:提取语音的非周期索引。 ap:非周期指数。 3. n3sgram = exstraightSpec(wave_p,f0raw,fs); 作用:提取频谱。 n3sgram表示时频,这是对应于F0的频谱图 4. sy = exstraightsynth(f0raw,n3sgram,ap,fs) ./ 32768; 作用:重新合成语音信息;./ 32768是用来除噪音的。 兰州方言的转换 - 20 - 第第 5 章章 兰州方言的转换兰州方言的转换 有了以上归一化字调的模型,我们就可以实现兰州方言的转换了。转换的 过程分为两个过程:第一个过程是建立字调模型及设计算法;第二个过程是实 现转换。 5.1 字调模型的建立及算法的设计 兰州方言转换所用的模型是归一化字调模型,算法是 straight 算法。模型的 建立需要以下过程: 首先,通过归一化字调模型,分别对普通话和兰州话的四种声调的基频进 行参数化建模。然后对参数化模型进行曲线拟合,从而得到一个四次曲线来表 示四种调型的基频曲线。 我们已经知道了普通话四种声调的调型函数,即完成了基频参数化建模。 下面就根据五度字调模型来完成兰州话的四种声调基频参数化建模。方法如下: 第一步,要确定确定中值频率 fc和调域 fd.的值。 从文本语料中,每个声调选取十个字,计算每个声调的最大频率和最小频 率的平均值。如下表所示: 最小频率(平均值) 最大频率(平均值) 一声195(Hz)238.5(Hz) 二声175(Hz)210(Hz) 三声157.4(Hz)220(Hz) 四声127(Hz)260(Hz) 兰州方言的转换 - 21 - 从中可得到,上限频率值 fH=260Hz,下限频率值 fL=157.4Hz,则: fd=lgfH-lgfL=0.32Hz fc= (lgfH+lgfL)/2=2.26Hz 第二步,要确定兰州方言四种声调的调形函数。 利用五度字调模型最重要的就是得到兰州方言各声调的调型函数 f(t)。由图 4.3 的五度字调模型图可知,只要输入给方框 f(t)的是声调的五度值,就能得到 调形函数。对于平、升和降调而言,调型函数 f(t)是某种直线。如果用 fb、fe代 表五度调值的两数字,则可写出此种直线方程,如下式: f(t)=abt 式中 a0.25(f b-3) ;b=0.25(f e-fb)。 有给定声调的五度调值还有以上函数公式就可求得各声调的声调函数,如 下所示: 兰州方言一声(阴平)的五度调值(31)fb=3,fe=1: 则 a=0,b=-0.5,所以调型函数 f(t)=-0.5t; 兰州方言二声(阳平)的五度调值(53)fb=5,fe=3: 则 a=0.5,b=-0.5,所以调型函数 f(t)=0.5-0.5t。 兰州方言三声(尙声)的五度调值(44)fb=4,fe=4: 则 a=0.25,b=-0,所以调型函数 f(t)=-0.25。 兰州方言四声(去声)的五度调值(24)fb=2,fe=4: 则 a=0,b=-0.5 所以调型函数 f(t)=-0.5t。 第三步,得到了调型函数,运用图 4.3.2 的模型,通过多项式曲线拟合算法 得到用四次多项式表示的兰州方言的调型函数。表达式如下: f01(t)=-0.4677+0.0.7231t-0.3681t2+0.0819t3-0.8550t4 f02(t)=-0.5940+0.9885t-0.6399t2+0.1299t3-0.9179t4 f03(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论