(通信与信息系统专业论文)基于说话人转换的语音识别方法.pdf_第1页
(通信与信息系统专业论文)基于说话人转换的语音识别方法.pdf_第2页
(通信与信息系统专业论文)基于说话人转换的语音识别方法.pdf_第3页
(通信与信息系统专业论文)基于说话人转换的语音识别方法.pdf_第4页
(通信与信息系统专业论文)基于说话人转换的语音识别方法.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

(通信与信息系统专业论文)基于说话人转换的语音识别方法.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘尝 摘要 说话人转换足语音信号处理领域巾一个前沿的研究分支 说话人转换就是对 一个说话人 源说话人 的语音信号进行修改 在保留语音信号所表达的语义信 息的前提下 使得修改后的语音信号听起来像另外一个说话人 目的说话人 所 说的 说话人转换对语音分析 语音编码 文语转换 说话人识别和语音识别等 领域都有重大的促进意义 语音处理中7 泛使用的正弦 噪声模型具有易于参数修改 合成音质高的特 点 该模型通过参数修改的方法 能够较为方便地对语音信号备秘特征的进行修 改 本文从l i 弦模型参数所体现的说话人特征着手 基于统计的方法 研究了基 于正弦十噪声模型的说话人转换的方法 并将研究结果应用到语音识别巾的说话 人适应领域 引入了基于说话人转换的语音识别方法 说话人转换的关键之处是从语音信号巾提取可分析合成的说话人特征 本 文利用正弦 噪声的语音分析模型 进行说话人特征的基础性研究 结合统计分 析的方法 着重分析了止弦模型叶i 频率参数概率分布 f p d 和幅度参数加权的 频率概字分布 c l w f p d 在观察总结的基础上得出了个实验结论 在有足够 观察数据进行分析的情况下 频率概率分布和说话人宵关 和语音内容和使用 的语言种类相关性不大 通过应用混合高斯模型进行概率分布的拟合 本文提 出了统计本征声音 s e v 和加权统计本征声音 w s e v 的说话人特征表示方 法 s e v 年i w s e v 描述了说话人发音器官特征 说话特点和发音喜好等固有的特 征 在说话人统计特征的研究基础上 本文提出了基于统计本征声音s e v i 加权 统计本征声音w s e v 的说话人转换方法 该方法使用s e v 特征进行说话入频率转 换 使用w s e v 进行说话人频谱幅度转换 并且训练过程无需使用源说话人和目 的说话人的相同语音样本 这种方法在跨语种说话人转换上有进一步应用的空 间 基于s e v 和w s e v 的转换方法结合起来间接的修改了语言信号的基音频率和谱 包络等声学特征 在合成结果自然度上 本文算法优 l p c 声码器的说话人转换 方法 在语音识别领域 与说话人无关 s i 的识别方法需要大量的训练数据 大 量数据的采集和识别率的不稳定制约了其应用 传统的与说话人相关 s d 的 识别方法则通过说话人适应方法 在减少训l 练数据的同时提高识别正确率和鲁棒 性 但是s d 识别方法在识别模型参数较多时 效率偏低 适应过程缓慢 为了克服这些缺点 本文将说话人转换应用于语音识别巾 引入了基于说话 人转换的语音识别方法 该方法在进行识别前先对输入的语音进行说话人转换 华南埋t 大学 0 i i 十学位论文 将其映射到训练集语音库巾 在不修改识别模型参数的基础 二提高识别正确率 相应于s e v w s e v 的说话人转换方法 本文提出了一种具体的基j 二说话人转 换的语音识别方法 该方法基于与说话人相关的语音识别系统 在识别前端通过 特征旺配和说话人转换的方法 将识别说话人映射到训练库中 达到说话人适 应的目的 在转换效果较好的前提下 识别过程相当于对 训练库语音 进行 识别 从而避免了传统说话人适应算法对模型参数的复杂性修改 在这种方法 t 1 i 本文使用了反馈迭代识别的方法 将识别结果反馈到说话人转换模块巾 重 新进行指导性的说话人转换 进一步提高转换精确度进而提高识别正确率 在 本文实验条件f 该方法在4 秒钟适应数据的条件下识别正确率t l m l l r 方法提高 了2 5 关键词 说话人转换 说话人特征 语音识别 统计本征声音 i i a b s t r a c t a b s t r a c t v o i c ec o n v e r s i o ni sa nn e w l yb r a n c ho fs p e e c hs i g n a lp r o c e s s i n g i ta i m st om o d i f ya s o u r c es p e a k e r ss p e e c hs i g n a lt os o u n da si fi ti su t t e r e db ya n o t h e rs p e a k e rw h i l ek e e p i n gt h e l a n g u a g ei n f o r m a t i o nu n c h a n g e d v o i c ec o n v e r s i o nt e c h n i q u eh a sg r e a ti m p l u si nt h er e s e a r c h o fs p e e c ha n a l y s i s s p e e c hc o d i n g t e x t t o s p e e c hs y n t h e s i s s p e a k e ri d e n t i f i c a t i o na n ds p e e c h c o d i n g e t c i ti sw e l lk n o w nt h a tt h es i n u s o i d a l n o i s e s n a c o u s t i cp r e s e n t a t i o nm o d e lh a sr e m a r k a b l ea d v a n t a g e si np a r a m e t e rm o d i f i c a t i o na n do w n sh i g hq u a l i t ys y n t h e s i sr e s u l t s c h a r a c t e r i s t i c so ft h ea n a l y s i ss p e e c hc a nb ee a s i l yt r a n s f e r e db yr e s c a m i n gt h ep a r a m e t e rs e t s t h e r e b y t h i sd i s s e r t a t i o nu s et h es nm o d e la sat o o lf o rt h er e s e a r c ho fv o i c ec o n v e r s i o n v i as t a t i s t i c m e t h o d w ee x t r a c ts p e a k e ri d e n t i f i c a t i o n sf r o mt h ep a r a m e t e rs e t so fs nr e p r e s e n t a t i o n a n d p r o p o s ean e wv o i c ec o n v e r s i o nm e t h o di nc o n s e q u e n c e t oa p p l yt h en e wc o n v e r s i o nm e t h o d w ec o m b i n e di tw i t ht h es t u d yo fs p e e c hr e c o g n i t i o n a so n ek e r n e li n n o v a t i o no ft h i sp a p e r w eb r i n gi na nn e wc o n c e p t n a m e da sv o i c e c o n v e r s i o n b a s e ds p e e c hr e c o g n i t i o n t ot h e s t a t e o f t h e a r ts p e e c hs y s t e m s t h ek e yp o i n to ft h er e s e a r c ho fv o i c ec o n v e r s i o ni st oe x t r a c ts y n t h e s i s a b l es p e a k e ri d e n t i f i c a t i o n sf r o ms p e e c hs i g n a l s w i t hag r e a ta m o u n to ff o u n d e r m e n t a le x p e r i m e n t sw i t h i nt h e f r a m e w o r ko fs nm o d e l i n g w ee x t r a c tm e a n i n g f u ls p e a k e rc h a r a c t e r i s t i c sc a l l e df r e q u e n c y p a r a m e t e rp r o b a b i l i t yd i s t r i b u t i o n f p d a n da m p l i t u e d w e i g h t e df r e q u e n c yp a r a m e t e rp r o b a b i l i t yd i s t r i b u t i o n a w f p d b yg m mr e p r e s e n t a t i o n w ed i s c r i b et h e s ed i s t r i b u t i o n sa st w o v e c t o rs e t s s t a t i s t i c a le i g e n v o i c e s e v a n dw e i g h t e ds t a t i s t i c a le i g e n v o i c e w s e v p i e r e db yt h es e va n dw s e vv e c t o rs e t s w ep r e s e n tan e wv o i c ec o n v e r s i o nm e t h o d i nt h ea p p r o a c h f r e q u e n c ys c a l ea n ds p e c t r m na m p l i t t u es c a l ea r ec o n v e n e du s i n gs e va n d w s e vm a p p i n g r e s p e c t i v e l y d u et ot h et r a i n i n ge x p e d i e n c e t h em e t h o di sa p p l i c a b l ei n c r o s s l a n g u a g ev o i c ec o n v e r s i o n e x p e r i m e n tr e s u l l ss h o wt h a tt h es e v w s e v b a s e da p p r o a c h o u t p e r f o r m st r a d i t i o n a ll p cm e t h o dw h e ns y n t h e s i sq u a l i t yi sc o n c e r n e d i nt h ef i e l do fs p e e c hr e c o g i n i t o n t h ed i s a d v a n t a g eo fs p e a k e r i n d e p e n d e n tr e c o g n i z e ri s t h a ti tt a k e st i m et oc o l l e c tal a r g eq u a n t i t yo ft r a i n i n gd a t a w h i c hm a yb ei m p r a c t i c a lf o rs o m e a p p l i c a t i o n s t h o u g ht h es p e a k e r d e p e n d e n tr e c o g n i z e ra d o p t ss p e a k e ra d a p t i o nt e c h n i q u et o g e tr i do ft h ed i s a d v a n t a g e i ts u f f e r sf r o mi n e f f i c i e n c yw h e nt h ea m o u n to fa d a p t i o np a r a m e t e r s i sl a r g e t oo v e r c o m et h e s es h o r t c o m i n g s w ei n t r o d u c ev o i c ec o n v e r s i o nt ot h er e s e a r c ho fs p e e c h r e c o g n i t i o na saw a yo fs p e a k e ra d a p t i o n i no u rv o i c e c o n v e r s i o nb a s e ds p e e c hr e c o g i n i t o n i i t 华南理工大学颂十学位论文 s y s t e m s p e e c hs i g n a l sa r ep r e p r o c e s s e db yt h ev o i c ec o n v e r s i o nm o d e lb e f o r er e c o g n i z e d t h e p r e p r o c e s sp r o c e d u r em a p ss p e e c hs i g n a l st ot h et r a i n i n gs e tv i am e a n s o fs e v w s e vm a p p i n g w h e r e u p o ns p e e c hs i g n a l sa r ea d a p t e da si fc o m ef r o mt h et r a i n i n gs e t f u r t h e r m o r e w ea d d r e s st h ei d e ao fi t e r a t i v er e c o g n i t i o n t h ef e e d b a c ko fr e c o g n i t i o nr e s u l t sc a l ls u r p e r v i s e s p e a k e ra d a p t i o no n w a r d s w i t h o u ta n yp a r a m e t e rm o d i f i c a t i o no ft h eh m m s e r r o rr a t ei sr e d u c e d w i t h i no u re x p e r i m e n tc o n d i c t i o n s t h en e wa p p r o a c ho u t p e r f o r m sm l l r a d a p t i o nb y i m p r o v i n g2 5 o ft h ec o r r e c tr a t ew h e n4 so fa d a p t i o nd a t ai sa v a i l a b l e k e yw o r d s v o i c ec o n v e r s i o n s p e a k e rc h a r a c t e r i s t i c s s p e e c hr e c o g n i t i o n s t a t i s t i c a le i g e n v o i c e i v 华南理工大学 学位论文原创性声明 本人郑重声明 所呈变的论文是本人在导师的指导下独立进行研 究所取得的研究成果 除了义中特别加以标注引用的内容外 本论文 不包含任何其他个人或集体已经发表或撰写的成果作品 对本文的研 究做出重要贡献的个人和集体 均已在文巾以明确方式标明 本人完 全意识到本声明的法律后果由本人承担 作者签名 书 参彝日期 年 月 平日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留 使用学位论文的规定 同意学校保留并向国家有关部门或机构送交论文的复印件和电予版 允许论文被查阅和借阅 本人授权华南理工大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索 可以采用影印 缩印或扫 描等复制手段保存和汇编本学位论文 保密口 在一年解密后适合木授权书 本学位论文属于 不保密囱 请在以上相应方框内打 4 作者签名 导师签名 童蹿 弘岛 日期 炒了年b 月f 严日 日期 埘年 月 p 日 第一尊绪沦 1 1 说话人转换的研究背景 1 1 1 研究描述 第一章绪论 随着语音识别和语音合成技术的曰益成熟 自然语音处理成为了语音处理领 域的一个焦点问题 硬件芯片的不断更新换代 使实时的复杂语音处理成为可 能 自然的人机交 巧界面成为浯音技术研究的重点 为了提高人机交 界面的自然度 说话人转换 v o i c e c o n v e r s i o n v c 技术 逐渐发展起来 从表层上来说 说话人转换就是对个说话人 源说话人 的语 音信号进行修改 这种修改要求改变语音信号罩包含的说话人特征 使得修改后 的语音信号听起来像另外一个说话人 目标说话人 所说的 同时语音信号所表 达的语义内容必须完盘了保留 说话人转换非常重要的一个研究重点就是说话人特征的分析和合成 从深层 上来说 说话人转换技术是对人类发音利听觉系统的仿牛性研究 为什么一段语 音挺起来像个人说的 而另外 段语音挺起来却像另外 个人说的 为什么人 耳总能灵敏的根据少量话音辨认出说话人 在技术层面上如何才能仿造和合成话 音里包含的这些说话人特征昵 这些都是说话人转换研究者思考的问题 本文认 为 说话人转换技术的最终突破口在于仿牛学 如果上向的j u j 题得到突破 那么说话人转换的应用前景将非常广阔 语音信 号可以分被为两部分 语义内容和说话人特征 由于语义内容可以由文本来描 述 于是语音信号可以进一步压缩 机器可以发m 任意指定特征的自然语音信 号 而智能语音识别和理解也将摆脱说话人差异造成的严重影响 值得庆幸的是 随着语音学研究者的不断努力 说话人转换技术得到了较大 的发展 1 1 2 研究历史 说话人转换的研究起源于二十世纪六 七十年代 到现在已经有i 十多年历 史 最终目标的说话人转换仍然超越了当前语音科学技术所能处理的范畴 说话 人转换技术尚未找到理想的解决方法 但是对说话人转换的各种研究 不断在向 前发展 1 9 8 2 年 s s e n e 碳出了一种对语音频谱包络和激励进行提取和操作的方法 l i 1 9 8 4 年 h k u w a b a r a 研究了影响语音个人特征和语音质量的声学参数 并采 用分析合成的方法来进行说话人转换 2 1 k u w a b a r a 通过线性预测的方法将语音信 华南耻 t 大学砸 j 学化论文 号分解为卢门源信号和声道传输函数 通过改变共振峰位置和宽度来进行说话人 特征修改 八十年代末期 d g c h i l d e r s 通过线性频潜搬移和分析合成方法 进行 了男女音之间的转换 1 9 8 6 年 t f q u a t i e r i 年l l r j m c a u l a y 提出了使用信号正弦表示来进行语音转换 的方法 r j m c a u l a y 在1 9 9 0 年提出了使用信号正弦表示进行语音检测和基音 频率提取的方法 该方法通过频率缩放因了达到刘 基音频率整体修改的作用 从 而修改音调 这些前期的研究 主要着眼于如何提取语音特征参数 并进行独立修改 从 而合成新的不同于原来特征的语音 这些研究奠定了说话人转换的语音模型和研 究方向 九十年代初期 a b e 等人提出了第一个比较成熟的说话人转换系统 6 1 该系 统采用l p c 声码器 矢量量化和码本映射的方法 建立不同说话人谱包络 能量 和基音频率之间的关系 通过码本映射进行说话人转换 a b d 还提出了基于码本 映射的跨语种说话人转换方法 1 9 9 1 年 s a v i c 使用神经网络取代码本映剁 提出了一种新的说话人转换方法 1 7 1 该方法在语音质量上有较大提高 但是由于仍然使用了l p c 声码器 合成语 音质量还足有限的 1 9 9 2 年 v a l b r e t 等人提出了皋音同步叠加 p i t c hs y n c h r o n o u so v e r l a pa n d a d d p s o l a 的算法来取 代l p c 声码器 8 1 同时使用多元线性回归 l i n e a r m u l t i v a r i a b l e r e g r e s s i o n l m r 和动态频率归整 d y n a m i cf r e q u e n c y w a r p i n g 的方法来 实现谱包络的转换 1 9 9 7 年 e b r y a n g e o r g e 等人提出了用合成分析和叠加的正弦模型进行语音修 改的方法 9 1 这些非l p c 合成方法的提出 提高了转换语音的合成质量 推动了 说话人转换方法的进一步发展 九十年代后期 统计方法被引入语音处理巾 说话人转换的研究也进入 了一个新的阶段 1 9 9 8 年 s t y l i a n o u 首次提出用高斯混合模型 g a u s s i a nm i x t u r e m o d e l g m m 来进行谱包络转换 1 0 1 并提m 了用谐波加噪声模型来进行基音频 率的转换 g m m 等统计模型的应用增强了转换算法的鲁棒性 1 2 说话人转换的意义 说话人转换可以广泛应用于语音处理的各个领域 在文本到语音转换 t e x t t os p e e c h 1 t r s 巾应用说话人转技术可以利用原有的合成音素库合成混合语种 的高质量的自然语音 在语音识别巾应用说话人转换技术可以较少或消除说话人 差异给识别算法带来的严重影响 下面介绍目前i 兑话人转换的主要应用 2 第一学绪论 跨语种t t s 目前己有的大部分1 t r s 系统都是基于单语种的文语转换系统 每种语种 的t t s 采用的合成音素库一般采集自该语种的流利话音者 这就使得不同语种 的t t s 系统合成的语音包含的说话人特征各一i 相同 但是随着多国语言的推广 语种混合表达的情况越来越多 例如在中文中 这样的表达越来越多 今晚我 家开牛日p a r t y 另外一方面 随着手持设备的日益普及 手持设备上的1 t r s 系统有着广泛的 商业应用前景 例如手机短信的文语转换 t t s 系统应用碰到的棘手的问题就是 上面提及的语种混合表达问题 若使用两种语种的t t s 来合成 那么合成语音夹 杂多种说话人特征 而重新采集一个双语者音素库来重建文语转换系统又造成了 资源的巨大浪费 解决这个矛盾的有效方法就是使用说话人转换技术 通过说话人转换技术将 一种语种的1 t r s 合成语音转换成另外一利t 语音合成音 可以得到流利的双浯文语 转换 同时利1 l j 了原有合成音素库 种跨语种t t s 系统如图1 1 图1 1跨语种t t s 系统的应用 f i g 11 a na p p l i c a t i o no fv o i c ec o n v e l s i o r li nc r o s s l a n g u a g et t ss y s t e m 手机话音短信 随着说话人转换研究的深入 研究者提出里语音字体 s p e e c h f o n t 的概 念 该概念来源于计算机文本处州中的 字体 对说话人个体建立一个捕述其 3 华南理t 大学硕i 学化论义 特征的集合 该集合通过文语转换系统和说话人转换技术 就 j 以合成出具有该 说话人特征的各利 语音 称这种特征集合为语音字体 语音字体在手机短信上的应用 本文称之为话音短信 s p e e c hs h o am e s s a g e s s m 一种手机话音短信可能的实现如图1 2 示 手机1 图1 2于机话音短信的应用 f i g 1 2 a n a p p l i c a t i o no fv o i c ec o n v e r s i o ni ns s m 语音识别中的说话人适应 在语音识别模型 特别是h m m 模型巾 说话人的差异对识别结果造成了严 重影响 虽然与说话人无关的识别系统对说话人筹异具有较大鲁棒性 但是与 说话人无关的语音识别系统通常需要5 0 0 个说话人以上的训练数据来进行模型训f 练 以达到覆盖各种说话人特征的目的 大规模的数据采集和繁多冗长的参数训 练是这种方法的最大缺点 在广泛应用的与说话人相关的识别系统巾 采用了说话人适应的方法来修改 识别模型参数 以减少说话人差异带来的影响 然而参数修改的说话人适应方 法 在模型参数较多的情况下效率较低 说话人转换技术是克服以上两种系统同有缺点的良好工具 使用说话人转换 进行说话人适应避免了对模型参数的修改 本文在对说话人转换算法研究的基础 4 筇一学绪论 上 对基于说话人转换的语音识别方法进行r 研究 1 3 语音识别的研究背景 语音i 只刖始于二十世纪初 存二十世纪 十年代 r a d i or e x 公司制造了世界 上第一种语音识别机器一一种商业玩具 在随后接近 个世纪的语音识别研究 巾 h m m 模型成为了最丰要的上具 1 9 13 年俄罔科学家a m a r k o v 在对字符序列的研究中提出 m a r k o v 链 j 剑二十 u 纪六十年代 b a u m 等人提出了有效计算m a r k o v 链参数的方法 f i2 1 3 1 b a u m 年1 3 l i p o r a c e 等人提出了用凹对数连续函数米表示m a r k o v 链状念的输 出概率1 1 4 1 提出了隐马尔柯夫模型的概念 随后j u a n g 提山用混合概率函数来描 述状态输出的方法 1 5 1 直到八十年代 由j 二h m m 算法的成熟 在d a r p a 美国国防前沿研究项目 机构 对语音处理技术研究的推动下 h m m 成为对语音进行模型化描述的丰流 工具 同时期 k 内尔梅隆大学的夸开复1 1 6 1 h s i a o w u e n h o n 1 7 l i i m e i y u h h w a n g 1 8 h 哿h m m 广泛的应用于语音识别中 在对h m m 模型小断深入的研究中 研究者发现说话人筹异和环境噪声严 重影响了h m m 识别模型在实际牛活环境巾的应用 为了克服说话人差异造成 的影响 语音研究者提出了各种说话人适应方法 1 9 9 4 年 c h l e e 等人提出了 根据最大后验概率 m a p 来确立具有高斯混合特性的删察序列对应的马尔柯 夫链的方法1 1 9 1 9 9 5 年 c j l e g g e t t e r 和r c w o o d l a n d 提出了用最大似然线性回归 m l l r 米进行连续概率隐码尔柯丈模型说话人适应的方法1 2 0 1 在人脸识别的 肩发卜 r k u h n 等人在2 0 0 0 年提m 了说话人本征声音 e v 的概念 2t i 并将其应 用于说话人适应r r l 1 4 本文的主要工作及章节安排 本文 要研究了说话人特征的表示和转换 h m m 模型基本算法 说话人适 应基本算法等 在这些的基础上 本文提出了 种基于统计方法的说话人特 征一统计本征声音 应用正弦 噪声模型进行相应特征的说话人转换 并将说话 人转换算法应用于语音识别巾 本文主要工作包括 1 基于正弦 噪声模型 进行说话人特征的基础性研究 在对正弦模型频率 参数概率分布和幅度加权频率概率分布研究的基础上提出了说话人特征 的g m m 表示方法一统计本征声音 s e v 和加权统计本征声音 w s e v 2 提出了 种基于统计特征s e v w s e v 的说话人转换方法 该方法使用s e v 特 5 华南胖t 大学颁十 产似沦史 征进行说话人频率转换 使 h w s e v 进行说话人频谱幅度转换 并对转换结 果进行了丰观测试 3 将说话人转换应用j 二语音识别r p 提出了拭j 二说话人转换的说话人适应方 法 这种方法克服了传统说话人适应方法对模型参数修改低效率的缺点 4 应用基于s e v w s e v 的说话人转换方法进行语音识别 提出一种相应的识别 方法 该方法基0 二与说话人相关的h m m 识别器 使用s e v w s e v 说话人转换 方法将识别语音映射到训练集语音库上 由此将识别说话人转换为训练集 已有说话人 在保证识别稳定性的前提下 提高识别正确率 其巾 本文的创新之处存于应用正弦 噪声模型和统计特征进行说话人转 换 并提出了基j 该方法的语音识别方法 本文章节安排如下 第二章介绍说话人特征表示和转换的基本方法 第三章 介绍用于语音识别的隐马尔柯夫模型 h m m 的基本算法 在第二章的研究基 础h 第四章提出了基于正弦 噪声模型的说话人统计特征提取和相应的说话人 转换算法 在前四章的基础l 第五章将说话人转换算法应用到语音识别巾 给 出了v c s d h m m 语音识别方法的训练 识别流程和相关算法揣述 并给 b 了相关 实验结果 6 第二章说话人特征和特征转换研究 第二章说话人特征和特征转换研究 2 1 说话人特征 说话人转换 个重要的研究部分就是对说话人特征的研究 然而 人们对语 音信号巾说话人身份的辨认是一个非常复杂的心州神经过程 在对自然语音的研究 2 2 2 3 巾 使1 l j 了心砰听觉空 u q p s y c h o l o g i c a la u d i t o r y s p a c e p a s 对境话人特征进行描述 结果表明 在心理听觉空间中影响人们辨 别语青信号巾说话人的各种声学凶素里 语音的基因频率 f o 有5 5 的影响权 重 频谱倾斜度 s p e c t r u mt i l t 影响度为1 6 而最低二三个声管共振峰的特性则 为1 0 文章 2 4 分析了t i m i t 语音数据库 结果表明 影响人类对不同说话人的听 觉判断巾 下面因素占了丰导地位 男性说话人的基冈频率 声管长度等声管特 征 女性说话人的基因频率 声门倾斜度和语音里静音的持续长度 卜面提及的丰要说话人卢学特征如图2 1 所示 擎k h 臼群蚰薛 l f l 1 j l n m 瞄q 嘲 酆簟警f t 咚 h 删 j i 泛 二k 毒二 喘蕊沁囊 翌 删 时 氍l 措t b 醴n n h f n 图2 1说话人声学特征 f i g 2 i a c o u s t i cc h a r a c t e r i s t i c so fh u m a ns p e e c h 对上面各种声学特征的综合研究表明1 2 3 1 人们使用不同的声学感觉特征来 辨认不同的说话人 往往对不同特点的声音的辨认 人们依靠的声学特征各0 i 相 同 各有侧重 这就表明了一个良好的说话人转换算法 必须对各种说话人特征 进行转换 谎话人转换的根本任务就在j 寻找一利 或多种参数来表达说话人特征 而这 些参数必须是可逆的 即 u 合成的 进一步来说 在自然合成度的要求下 这些 参数还必须具有合成的良好连续性 即这些参数被修改后的合成语音必须是自然 的 非听觉人造的 在语音信号的模型表示中 以上所提及的说话人声学特征往往体现在多个模 型参数中 下丽介绍常用于晓话人转换的一些语音模型的说话人特征表示 7 华南埋r 大学硕十学f 一论义 2 2 说话人特征的提取 在语音信号分析小 倒谱 c e p s t r u m 包含了丰富的声门激励信号和卢道系统 响应的特征 语音信号的谱包络实际上是声道响应特征的一个重要体现 囚此频 谱包络上的其振峰结构也是说话人特征的良好体现 本小节介绍语音信号的倒谱 包括基本的倒谱定义 l p c f 0 谱 以及m e l 频率 尺度上的m e l 频率倒谱 m f c c 1 2 6 同时介绍共振峰的提取和追踪算法 2 2 1 倒谱 语音信号z h 的实倒谱定义 r e a lc e p s t r u m 复倒谱定义为 其中复对数计算如r c m 去 n i m 幽 驯 去 酬 矽 妣 i nx e j i ni x e j f j 矽 c u 口 c a r g x e j 同时可见 实倒谱为复倒谱的偶部 即 i n j 型坐2 哑 2 i 2 2 2 3 在实倒谱中包含有声道系统响应和声门激励信号的特征 其中 声道卢管响 应分量衰减得比较快 而声门激励分量衰减得比较慢 浊音信号倒谱的高时部分 含有冲击 冲击出现的位置和声门激励信号 体现为语音r r i 的基音频率 基本相 同 而c m 的低时部分体现了声道特征 相当于声道系统响应 2 2 2l p c 倒谱 l p c 分析方法在语音处理巾被广泛应用 假设l p c 滤波器为 h f 1 8 2 4 吣 槲 第一学说话人特征和特征转换研究 其r f i p 为预测阶数 对上面公式两边取对数 得剑 宜 z l n g l nf l 两边对 求导得到 p 一 1 1 n l 1 一 n 旷2 两边乘蚰 一喜哪一 得到 岫 腑m 用f 一 代入 并月 等式两边 的各次幂系数相等 得剑 n 一1 他新叫一 蕊阶m 0 n 墨p 1 综上 我们可以从l p c 系数得到语音信号的倒谱 n 2 5 0 0 h l gn 0 讯吣 o p 从上面公式可见 若l p c 系数是有限的 那么倒谱系数无限 根据实际应用 和取样频率 倒潜系数个数通常取1 2 2 0 2 6 1 2 2 3m e l f l 0 谱系数 m f c c 在上面的l p c 0 谱系数巾 线谱在频率轴上足等间隔分布的 但是心理学的 研究表明 无论对于纯音还是语音 人 f j 对于声音音调的感觉不是线性的 而是 9 m h 妻一 0 出 孙 蕊 一 壹i i 一 一 p n 吣 自 七p 一 华南理t 大学顺 学化论义 种特殊的非线性响应 人的听觉系统对于不同频率信号的灵敏度是不同的 对 频率单位的划分在物理上是用h z 为单位的 而根据人的听觉特性划分的频率单位 则是以m e l 或b a r k 为单位 临界带宽与m e l 频率刻度 人耳对声音的频碍爰一空问变换发生在内耳到头盖骨底部的隔膜 内耳不同的 区域分别拥有一组神经感受器 对应 二不同的频带 实际卜i 内耳可以看成是高 度重叠的滤波器组 其带通是非均匀带宽的 带宽随着所在带通巾心频率增加而 增加 临界带宽 是定量表示内耳滤波器通带的函数 实验结果表明 当r r i 心频率在1 0 0 0 h z 以下时 临界带宽一般保持恒定 约为1 0 0 h z 当巾心频率超过1 0 0 0 h z 时 随着r l 心频率增长 临界带宽旱现线 性增长 为了模拟这种人耳听觉特性 m e l 频率刻度定义为在i k h z 以下与h z 频 率刻度线性对应 i k h z 以上与h z 频率刻度对数对应 并且通常以频率1 0 0 0 h z 对 应j 0 0 0 m e l 一般地 从l t z 单位到m e l 单位的转换近似如f b f 1 1 2 5l n 1 f r 0 0 m e l 频率倒谱系数 m f c c 假设输入信号z m 的d f t 为 定义 个带有m 个带通滤波器的滤波器组 f 皿 吲 o m 1 m 十1 o 2 7 1 0 七 n 2 8 舷黝删刊m 一 m 1 m 1 h z k 仆n 1 该滤波器组计算每个带通滤波器中心频率周围的平均频谱 每个带通滤波器 为三角形滤波器 并且其带宽逐步增加 如图2 2 所示 设 f 和 为上述带通滤波器组的最高和最低频率 单位为h z e 为赫兹频率 域的语音信号抽样频率 m 为滤波器个数 n 为f f t 长度 f i l 述带通滤波器的分 1 0 州 是 一e n0 j j 第 学说话人特征和特征转换研 t 1 凇 个 j t 0 a l 玎23a 3 lt 4 5 6 艇7 图2 2m e l 滤波器组 f i g 2 2 m e lb a n dp a s sf i l t e r 界点在m e l 刻度下均匀分布 其频率刻度为 n 差 b 1 口 f m 望饼 2 i 其一f b 为m e l 频率变换 b 1 为其反变换 3 1 b 7 0 0 e x p b 1 1 2 5 一1 j 以计算滤波器组输出的对数能量 1 0 9 e n e r g y 2 1 1 s r r t n 蓑l x m f 2 f kc m n c z z 于是 m e l 频率倒谱为此输出能量的离散余弦变换 t i n 2 13 其巾m 依据不吲应 l 可以取2 4 4 0 特别地 在语音识别巾 般使用前1 3 4 倒谱系 数i 硎 同时我们注意到 上式的倒谱表示并不是同态变换 若要是同态变换 i 了 2 1 2 t l t 对数和求和次序应该调换 使用非同态变换的m f c c 好处在于其滤波器 能量对于噪声和频谱转换错误更具鲁棒性 d a v i s 和m e r m e l s t e i n 研究证实了m f c c 表示在语音识别上具有更优异的特征表 示作用 28 1 2 2 4 共振峰 共振峰频率是声管的共振频率 对于砟i i 司说话人的语音信号 共振峰一般呈 1 1 m n 一 om2 m丌s s 一 华南瑾t 大学硕士学化论文 现出不同的频率 国内外学者普遍认为共振峰在语音特征巾是 个非常重要的冈 素 仉是冈为其较难计算的特点 基于共振峰的特征仍未能被很好的描述 经典的逐帧求共振峰的方法是求p 阶l p c 多项式的根 通过各种计算实系数 多项式复根的方法 得至i j l p c 多项式的复根 z i e x p 一7 r b j 2 7 r f t 2 1 4 其中 和阢便为第i 个根所代表的共振峰的频率和带宽 一般来说 丢弃实根 丢 弃带宽大f 一定i j 限 通常为2 0 0 h z 的复根 另外比较常用的计算共振峰的方法是在平滑了的频谱i j 寻找峰值点 这种方 法的k 处是对峰j i 进行计算比求多项式根的效率高 但是这种方法并没有求出共 振峰的带宽 由于使用了f q 限判断 共振峰的提取经常会出现不连续的现象 比如当声管 的频谱包络快速变化时 通过上面方法所获得的共振峰带宽通常会较大而超出规 定的门限而被排除 在峰点计算方法巾 比较强的谐波也经常被认为是共振峰 为了防 r 帧与帧之间共振峰提取的不连续现象 通常使用肩发式的共振峰对齐方 法 2 2 4 1 基于统计方法的共振峰跟踪 幕1 统计方法的共振峰跟踪 通过概率模型来跟踪共振峰变化 从而改进 对候选共振峰进行门限判断造成的不连续性 这里所说的候选共振峰可以是通 过l p c 多项式根求得的值 也可以是通过平滑谱峰值点求得的值 假设我们要追踪前礼个共振峰 同时我们有p 2 个候选共振峰 我们考虑r n 一元 组的最大化 其中r 为 鬈2 首先确立个共振峰先验分布的模型 比如英文元音 e i 的第一个共振 峰一应该在8 0 0 h z 附近 第三个共振峰乃低 t 4 k h z 等等 根据该先验分布模型 使用v i t e r b i 搜索算法 见3 2 2 d 节 可以求得前n 个共振峰最有可能的路径 假设x 为一具有丁个特征向量z 的序列 y z i z 2 z 丁 其中 为礼 1 维向量 z 为n 维向量 且 茁 j 霉i z z 一z 一l 加入 z 的日的是使得路径追踪结果符合自然语音的频谱倾斜度 1 2 f 2 1 5 第 学说讯人特征和特征转换研究 通过语音识别等方法 我们知道当前提取共振峰的语音内容 在基 于h m m 的语音识别方法巾 见第二章 语音信号被分割成不同的音素或者 状态吼 同时每个状态i 的输山 分布可以用一均值为m 协方差为 的高斯密度 函数来表示 我们可以将状态数定义为丁个 另外 我们考虑a x 的均值和方差 为6 和r 设a 为这些状态均值和方筹的集合 入一 p 1 1 p 2 e 2 船 丁 d l r 1 6 2 f 2 6 丁 f 了1 2 1 6 凶此 对于x 的对数熵如下 l n p x 旧a 一 圭轨l 一一虿1 t 驯k f l b 2 p m 7 i 1 茁 一p 驰 z 一l 一6 q 7 r i l 茁 一z 一1 6 对茁 求偏导数并令其为零啊求上式的最大值 假设r t 和 t 为对角矩阵 那么 可以得到如下线性解 b x c 2 1 7 其 b 为i 对角矩阵 这种假设及解法是有效的1 2 9 1 特别的 在t 3 时 b j c 为 0 蕊j 眨 f 致一垒丝 生一垒丝 垒 r 1 1 r 毛 苏 r 毳 通过上述方法得到的共振峰轨迹并不平滑 若小依靠语音信号的先验知识而 进行平滑 呵能模糊了自然语音里面变化比较快的过渡段 或者保留了木来变化 比较慢的锯齿状共振峰轨迹 一个比较好的方法是当平滑误差和相应的音素状态 变化有较大相关性时 对共振峰轨迹做较大幅度的相应调整 否则做小幅度甲 滑 平滑误差可以通过高斯分布来表示 1 3 刃 z 丁 亨 1 2 l 一2 土吃 章 可 土壤 土屹 曩o 上瑶一 j l f b 华南理丁大学侦十学化论文 2 3 基本的特征转换方法 人的发声机制一般使用如图2 3 线性系统模型来表示 图2 3语音信号产 上模型 f i g 2 3 t h em o d e lo fs p e e c hp r o d u c t i o n 通过卜节对说话人特征的分析 我们知道语音的基音频率 频谱包络倾斜度 和前三个最低频率共振峰的位置和带宽 比较主要地体现了说话人的特征 和l 面线性系统的发声模型相对应 语音的基音频率体现了声门激励源的周期 共振 峰体现了声道模型的同有共振频率 而语音信号频谱峰值倾斜度则是声门激励信 号通过声道模型调制后的特征体现 所以经典的说话人转换方法是通过参照目的 说话人的基音频率 谱包络倾斜度和共振峰频率等特征 修改信号模型巾的对应 参数 从而修改语音叶i 声门激励信号特征和声道特征 达到人声转换的目的 说话人转换的研究选刚的语音表示模型一般包括下面几点特征 通过语音模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论