(计算机应用技术专业论文)汉语耳语音——正常音转换的机理研究.pdf_第1页
(计算机应用技术专业论文)汉语耳语音——正常音转换的机理研究.pdf_第2页
(计算机应用技术专业论文)汉语耳语音——正常音转换的机理研究.pdf_第3页
(计算机应用技术专业论文)汉语耳语音——正常音转换的机理研究.pdf_第4页
(计算机应用技术专业论文)汉语耳语音——正常音转换的机理研究.pdf_第5页
已阅读5页,还剩126页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

汉语耳语音一正常音转换的机理研究 中文摘要 汉语耳语音正常音转换的机理研究 中文摘要 耳语音转换为正常语音在通信系统、安全保密系统、金融系统、医学等领域有着 广泛的应用前景。汉语耳语音的转换目前仍处于研究的初级阶段,由于汉语耳语音与 正常语音的巨大差异,在实现汉语耳语音向正常语音的正确转换和获得较高的语音质 量方面还有许多亟待解决的问题。 本文对耳语音向正常语音的转换机理进行了比较深入地研究,并确立了按照语音 分析一综合的思路研究汉语耳语音转换的原理与方法。为便于耳语音转换系统今后实 际应用于通信等领域,采用修正的混合激励线性预测声码器为汉语耳语音转换系统的 合成模块。以合成语音所需参数为目标,重点研究了耳语音与正常音的激励特征与声 道谱特性的差异,指出实现汉语耳语音转换在特征与模型方面目前面临和需要解决的 几个关键问题。针对这些问题,本文做了以下几方面的工作: 1 、对汉语耳语音的声学特征进行研究分析,提出基于多尺度特征的汉语耳语音 端点检测及声韵分割方法。韵母是汉语音语义的主要载体,并且耳语音与正常音 的差异主要在韵母部分,它是汉语耳语音转换的主要研究对象,因此在汉语耳语 音预处理部分,声韵母的准确分割非常重要。本文根据汉语耳语音非线性及混沌 特性,分别采用分形维特征和子波能量比特征实现耳语音的端点检测和声韵分割。 改善了汉语耳语音的声韵分割的准确率,该方法具有在低信噪比下具有较高的鲁 棒性和与说话人及文本无关的优点,可用于汉语耳语音的转换与识别的预处理。 2 、对汉语耳语音的听觉感知特征进行研究分析,提出了基于听觉计算模型的汉语耳 语音基频轨迹重构方法。根据听神经发放信息是听觉中枢的唯一信息来源,它是 对于语音信号的声强、频谱、共振峰等多种声学特征的综合反应这一理论依据, 以听神经平均发放率为线索感知汉语耳语音声调及音高,提出了汉语耳语音音调 的定量描述方法。在感知耳语音音高及声调的基础上重构基频轨迹,为汉语耳语 音的转换提供重要的激励信息。以声调识别率结果验证了该方法与主观听觉感知 中文摘要 汉语耳语音一正常语音转换机理研究 吻合。 3 、对耳语音与正常语音的声道特征异同进行了深入研究,提出一种基于概率加权高 斯混合模型的汉语耳语音声道特征转换方法,并提出汉语耳语音的声道特征转换 误差的客观评价方法。该方法建立了耳语音声道模型与对应的正常语音声道模型 之间的映射关系。与相关文献中对声道参数采用全局线性偏移的方式相比,这种 “柔性”的转换方式更加细致地实现声道模型之间的转换,更加符合语音及说话 人个性特征的多变性,为汉语耳语音的转换提供重要的支撑。 4 、在对汉语耳语音声学特征提取及转换的基础上,以修正混合激励线性预测声码器 为合成模型实现了汉语耳语音转换。本文以混合激励线性预测声码器为原型,根 据汉语耳语音的特点对合成模型的参数进行调整与设置,建立一个适合耳语音转 换的合成模型,对激励与声道处理部分所提供参数的准确性进行了检验。对转换 结果在语义、语音自然度等方面的评价结果表明基于该汉语耳语音转换系统的转 换语音达到了通信质量。 关键词:耳语音转换;基频轨迹重构;听神经发放率;声道参数转换;概率加权高斯 混合模型 i l 作者:陈雪勤 指导教师:赵鹤鸣 汉语耳语音一正常音转换的机理研究 a b s t r a c t r e s e a r c ho nt h ec o n v e r s i o nm e c h a n i s mf r o mc h i n e s e w h i s p e r e ds p e e c ht on o r m a ls p e e c h a bs t r a c t c o n v e r s i o nf r o mw h i s p e r e ds p e e c ht on o r m a ls p e e c hc o u l db ew i d e l y a p p l i e do n c o m m u n i c a t i o n ss y s t e m ,s e c u r i t ys y s t e m ,i d e n t i f i c a t i o na u t h e n t i c a t i o ns y s t e m ,m e d i c i n e s y s t e ma n de t c b e c a u s eo ft h ep r o m i n e n td i f f e r e n c eb e t w e e nw h i p s e r e da n dn o r m a ls p e e c h , m a n yi s s u e si nt h et h e o r e t i c a lr e s e a r c ha n dp r a c t i c a la p p l i c a t i o n sn e e dt ob es o l v e d n o w t h er e s e a r c hi ss t i l li ni t se a r l ys t a g e t h ec o n v e r s i o nm e c h a n i s mf r o mc h i n e s ew h i s p e r e ds p e e c ht o n o r m a ls p e e c hi s a n a l y z e da n dd i s c u s s e dd e e p l y , a n dt h ea r c h i t e c t u r eo fc o n v e r s i o ns y s t e mi ss e l e c t e db a s e d o ns p e e c ha n a l y s i s s y n t h e s i st h e o r y t h em i x e de x c i t a t i o nl i n e a rp r e d i c t i o n ( m e l p ) m o d e l i s p r o p o s e da st h es p e e c hs y n t h e s i sm o d e lo ft h ec o n v e r s i o ns y s t e mf o rt 1 1 ef u t u r e a p p l i c a t i o no fw h i s p e r e dc o n v e r s i o nm o d e lo nc o m m u n i c a t i o n sa n do t h e rs y s t e m s t h e a c o u s t i ca n da u d i t o r yc h a r a c t e r i s t i c sd i f f e r e c eb e t w e e nn o r m a la n d w h i s p e r e ds p e e c hh a v e b e e na n a l y z e dd e t a i l e df o re x t r a c t i n ga n dm a p p i n gc h a r a c t e r i s t i c sp a r a m e t e r sn e e d e do f t h e s y n t h e s i sm o d e l ,e s p e c i a l l yf o r t h ee x c i t a t i o na n dv o c a lt r a c tc h a r a c t e r i s t i c s t h e c o n t r i b u t i o no ft h i sd i s s e r t a t i o nt ot h ec o n v e r s i o ns y s t e mf r o mc h i n e s ew h i s p e r e ds p e e c h t on o r m a ls p e e c ha r ea sf o l l o w : 1 t h ea c o u s t i cc h a r a c t e r i s t i c so fc h i n e s ew h i s p e r e ds p e e c ha r e a n l y s i z e df i r s t l y , a n d m u l t i s c a l et h e o r yh a v eb e e nu s e df o rt h ee n d p o i n td e t e c t i o na n di n i t i a l f i n a lb o u n d a r y s e g m e n t a t i o n f o rc h i n e s es p e e c h ,f i n a lp a r ti sm o r ei m p o r t a n tt h a ni n i t i a lp a r ta n d t h e i rc o n v e r s i o nm e t h o di sd i f f e r e n t t h ea c u r a c ys e g m e n ti s v e r yi m p o r t a n t i nt h i s t h e s i s ,t h ef r a c t a ld i m e n s i o na n dw a v e l e te n e r g yr a t i oa r ep r o p o s e dt oo b t a i nt h e i n i t i a l f i n a lb o u n d a r ya n da c h i e v em o r ea c c u r a t er e s u l tt h a no t h e rm e t h o d ss u c ha s e n t r o p y t h i sm e t h o di sr o b u s t n e s s st ot h en o i s es p e e c ha n dh a st h ea d v a n t a g eo f i n d e p e n d e n to nt e x ta n ds p e a k e r s i tc o u l db em ep r e p r o c e s so fw h i s p e r e dc o n v e r s i o n a n dr e c o g n i t i o n s y s t e m 2 af u n d a m e n t a lf r e q u n e c y ( f o ) t r a c kr e c o n s t r u c t i o nm e t h o di s p r o p o s e d t h ef 0t r a c k r e c o n t r u c t i o ni st h em o s ti m p o r t a n ta n dc h a l l e n g i n gw o r ko ft h i sc o n v e r s i o ns y s t e m , l a b s t r a c t 一 鎏至三至童二垩堂童茎垫塑垫堡塑窒 _ _ - - _ _ - _ _ _ _ _ - - - - 一一一 一。 a n di t sr e a l i z a t i o nr e l i e so nt h ec o r r e c tp e r c e p t i o ni n f o r m a t i o no ft o n ea n dp i t c h t h e a u d i t o r yn e r v ef i r i n g r a t ei st h eo n l ys o u r c ef o ra u d i t o r yc e n t r a ln e r v o u ss y s t e m ,w h i c h i st h e ,r e f l e c t i o no fs e v e r a la c o u s t i c si n f o r m a t i o n , s ot h et o n ea n dp i t c hp e r c e p t i o n m e t h o db a e do na u d i t o r yn e r v ef i r i n gr a t ei sm o r ee f f i c i e n tt h a na o u s t i cc h a r a c t e r s t i c s t h e nt h ef 0t r a c ki sc o n s t r u c t e d ,w h i c hi so n eo ft h em o s ti m p o r t a n ti s s u e so fs p e e c h c o n v e r s i o n 3 t h ev o c a lp a r a m e t e r sd i f f e r e n c eb e t w e e nw h i s p e r e da n dn o r m a ls p e e c hi sa n a l y z e da n d t h el i n e a rs p e c t r u mf r e q u e n c ym a p p i n gr e l a t i o n s h i pb e t w e e nw h i s p e r e da n dn o r m a l s p e e c hi sc o n s t r u c t e db a s e do np r o p o b i l i t yw e i g h t e dg u a s s i a n m i x t u r em o d e l t h i s m a p p i n gs t y l ei s m o r ea c c u r a t et h a ng l o b a ll i n e a rm a p p i n gs t y l e ,a n dm o r ef i tt h e v a r i e t vo fs p e e c ha n ds p e a k e r s t h e nt h e c o n v e r s i o ne r r o ri sc o m p u t e da n d e x p e r i m e n t a lr e s u l t si sg i v e n t os h o wt h ee f f i c i e n c yo ft h i sm e t h o d 4 b a s e do nt h ea f o r e m e n t i o n e da n a l y s i sr e s u l t s ,am o d i f i e dm e l pm o d e lh a sb e e n p r o p o s e dt os e tu pac h i n e s ew h i s p e r e ds p e e c hc o n v e r s i o ns y s t e m s e v e r a lp a r a m e t e r s n e e d e db ys y n t h e s i sm o d e lh a v eb e e ns e ta c c o r d d i n gt ot h ec h a r a t e r so fm e l p m o d e l a n dc h i n e s ew h i s p e r e ds p e e c h t h ep e r f o r m a n c eo fc h i n e s ew h i s p e r e ds p e e c h c o n v e r s i o ns y s t e mh a sb e e np r o v e db yt h ee v a l u a t i o no fr e c o n s t r u c t i o ns p e e c hq u a n l i t y i ns e m a n t i c ,n a t u r a l n e s so fs p e e c ha n d e t c k e y w o r d s :c o n v e r s i o nf r o mw h i s p e r e ds p e e c ht on o r m a ls p e e c h ;f u n d a m e n t a lf r e q u n e c y t r a c kr e c o n s t r u c t i o n ;a u d i t o r y n e r v ef i r i n g r a t e ;v o c a lt r a c tp a r a m e t e r s t r a n s f o r m ;p r o p o b i l i t yw e i g h t e dg u a s s i a nm i x t u r em o d e l w r i t t e nb y :c h e nx u e q i n s u p e r v i s e db y :z h a oh e m i n g 苏州大学学位论文独创性声明及使用授权的声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名:幽盟e t 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名:日期: 铷签名:趁堑日 汉语耳语音一正常音转换的机理研究 第一章绪论 第一章绪论 1 1 耳语音研究的背景及意义 耳语音是一种特殊的发音模式i l 】,可在多种场合下出现。人们在某种特定场合下 为了避免影响他人而使用耳语进行手机通话,国家安全部门安全保密工作及侦察与反 侦察的需要,金融部门保障客户的私密信息及身份认证的需要,嗓音病人或发音功能 不正常者进行的语音交流等。在不同的应用领域研究重点有所不同,语音学者关注耳 语音是否可感知、安全保密部门着重需要通过耳语音分析来辨别说话人身份、通信领 域则更加关注耳语音的语义信息不丢失,医学专家通过耳语音对噪音病人进行诊断 等。国外有些用于低比特率语音编码和语音识别的数据库中已经包括了对耳语音的要 求,这说明耳语音虽是一种特定的发音模式,但其应用有着相当的广泛性。 耳语音一正常语音转换( 以下及全文简称:耳语音转换) 的研究可进一步促进 语音信号处理研究工作的进展【2 5 】。耳语音由于其发音机理的特殊型,具有不同于正 常语音的特点,例如耳语音完全由噪声激励,无基音频率,音量很小。正常语音有清 浊之分,且浊音是由准周期脉冲激励,含有明显的基音频率,而基音频率对语音感知、 语音识别和说话人识别有重要作用。研究从耳语音到正常语音的转换有益于对语音产 生和听觉感知的进一步深入探讨,这方面的研究对于像汉语这样的声调语言来说则更 具意义,汉语的声调识别或韵律合成控制均与基音频率有关。 耳语音转换的研究在通信和信息处理领域有重要的应用价值睁引。耳语音的声带 无振动导致语义模糊,且信噪比极低,造成接收端的接听质量下降。若在现有的语音 通讯设备中添加预处理功能,将耳语音自动转换成正常语音,并且保持语义、说话人 的特征及自然度不变,即可解决上述的问题。这样不仅解决了安静的公共场所的语音 通话问题,降低人为噪音污染,同时也使通话人的信息得以保密,在国家安全保密领 域及金融保密行业有着重要的应用前景。另一方面现有语音识别、说话人识别、语音 增强系统都是基于正常语音的,如直接将这些模型应用于耳语音处理,模型匹配性明 显降低。要直接利用现有的语音识别、语音增强和语音通信系统来处理耳语音,则先 将耳语音转换为正常语音是一个合适的选择,换言之,可将其作为语音信号的预处理 第一章绪论汉语耳语音一正常音转换的机理研究 部分直接用于各种语音系统中。 耳语音的转换研究在医学研究领域具有同样的重要性【9 1 1 。我国因喉部疾病而导 致无法正常发音的患者,每年都有一定数量的增长,这些患者的发音功能的受损处主 要在声门及声带,而声道一般都较为完好。故而如果能够通过耳语音与正常语音在声 学本质上的对比研究,进一步揭示人类的发音机理,对现有的人工电子喉进行改进, 同时应用耳语音转换技术,把患者的气声转换成正常语音后发送出去,可用于帮助嗓 音病人或发音功能不正常者进行正常的语音交流。这无疑是对现有医疗技术的重要推 动,也使得耳语音的研究更具社会价值。 目前进行的耳语音到正常语音转换机理的研究,可促使相关学者更加深入地研究 人的发音机理。虽然耳语音与正常语音差异极大,但是人耳却仍然可以较为准确地辨 听出耳语音,感知声调、说话人性别及其语义,这其中的机理深深地吸引着该领域的 研究者。 2 汉语耳语音一正常音转换的机理研究 第一章绪论 1 2 耳语音特征及转换研究的发展 从已有的研究报道来看,耳语音的研究起始于二十世纪五十年代。耳语音研究的 发展经历了三个阶段。 第一阶段:起步阶段。着眼于人耳对耳语音语义1 1 , 1 2 , 1 3 】、声调【1 4 1 6 、耳语音说话 人特征【1 7 1 的感知能力的测试。研究方式以主观辨听和使用早期的语音分析仪为主,辨 听实验表明,耳语发音条件下,人耳依然可以较准确地感知耳语的语义及说话人性别 特征,而对耳语音声调辨昕实验显示有调语言的耳语音声调可以被感知,但正识率较 低,这一阶段进展缓慢。 第二阶段:着眼于耳语音的声学特征如音量、音长、共振峰等特征的研究,并结 合主观辨听和声学研究手段探索声学特征与耳语音的语义、声调、音高之间的关系。 h i g a s h i k a w a 等人在1 9 9 6 年通过主客观实验揭示了日语耳语音共振峰与音高的 关系3 1 。他要求测试者将耳语音a 按三种音高模式发音,一类普通耳语音,一类高 音耳语音( 比普通耳语音高5 度音阶) ,还有一类低音耳语音( 比普通耳语音低5 度 音阶) 。并由实验得出了如下的结论:男声三种耳语音的主要区别在于第一共振峰, 高音耳语的第一共振峰比普通耳语高,低音耳语的第一共振峰比普通耳语低;而女声 三种耳语音的主要区别在于第三共振峰。该结论揭示耳语音的共振峰是表征耳语音音 高的一种载体。 j o v i c i c 18 】在1 9 9 8 年指出了塞尔维亚语耳语音与正常语音共振峰的变化关系。以 五男5 女发音的塞尔维亚语元音 a 】、 e 】、嘲、【o 】、【u 】为研究对象,实验表明耳语音 的f 1 平均比正常音的f 1 高2 6 4 h z ,第二共振峰频率f 2 高15 3 h z ,第三共振峰频率正 常音与耳语音相近。这一结论与其他对英语n 9 1 、瑞典语h 1 、日语幅1 为研究对象得出的 结论一致,且具体指明了共振峰的偏移量。并且他们的研究都表明耳语音的共振峰带 宽比正常音要宽。 g a o 在2 0 0 2 年首次报道了以汉语耳语音为研究对象的声调感知的研究成果【2 0 l 。 g a o 从喉部运动的角度解释耳语声调是如何产生机理,提出汉语耳语音的声调感知线 索主要是音长与幅度包络。报告了汉语耳语四声声调感知率由高到低分别为三声、四 声、声、二声,并且汉语耳语音连续语音的声调感知率要高于孤立字的结论。 第一章绪论汉语耳语音一正常音转换的机理研究 c o l e m a n 课题组【2 l 】在进行耳语音喉部运动与语调关系的研究,期望从生理声学的 角度揭示耳语语调的特征,目前尚未公布研究结果。 第三阶段:对声学特征的研究揭示了耳语音的生理、声学特性,为深入研究提供 了理论基础。耳语音的研究逐步向语音智能系统的研究发展。 i t o 在2 0 0 2 年报告了对日语耳语音识别的研究结果3 。提出耳语音与正常音倒谱 距离在清浊音部分分别是2 d b 和4 d b ,采用h 删模型进行语音识别,结合采用 m l l r ( m a x i m u m1 i k e l i h o o d1 i n e a rr e g r e s s i o n ) 技术,可达到6 3 的识别率。 具有历史意义是,m o r r i s 在2 0 0 2 年报告了英语耳语音重建与识别的研究结果【引。 他的报告中英语耳语元音的识别率达到7 7 9 。并首次提出了一种英语耳语音的重建 方法,拉开了耳语音转换研究的序幕,对耳语音向正常音的转换研究起到了重要的推 动作用。 在此基础上,汉语耳语音转换的研究也在探索中得到起步与发展【2 2 2 5 1 。杨莉莉 等人建立的汉语耳语音数据库对汉语耳语音的分析提供了一个数据平台闭。文献【2 3 】 对汉语耳语音与正常语音的声学特征进行了分析与比较,首次建立了汉语耳语音转换 系统。该转换系统在基频轨迹重构的准确性、声道特征参数转换的可靠性等方面还存 在较大的改进及完善空间。 t u r k m e n 和a h m a d i 在2 0 0 8 年分别报告了以m e l p 、c e l p 合成器为基础的耳语音 转换系纠2 7 ,2 胡。从谱包络及基频产生两个主要问题着手提出一些新思路,尝试在耳语 音转换系统取得进展,较为遗憾的是没有对所提方法在语音转换系统中的效果进行评 价。 4 汉语耳语音一正常音转换的机理研究 第一章绪论 1 3 汉语耳语音转换研究的方法与难点 耳语音转换在多个领域有着广泛的应用前景,并且耳语音转换可作为目前现有智 能语音处理软件的前端,为耳语音的实际应用提供极大的便利。 1 3 1 耳语音转换研究的方法 耳语音转换效果的主要衡量指标,按照标准从低到高的顺序有三个:一是语义保 持不变;二是具有良好的语音清晰度与自然度;三是说话人个性特征的得到保留。按 照该评价标准,用人工智能方法将耳语音转换为相应的正常语音的方法有两类,一是 识别法【8 , 2 9 1 ,二是分析综合法【7 1 。 识别法是在正确识别耳语音的基础上,直接给出相应的正常语音。该方法的优点 是在正确识别的前提下可保证语音的清晰度与自然度。但是,耳语音识别的研究进展 表明,耳语音的识别率较低,这使得最基本的一个指标即语义的不变性得不到保证。 而耳语音识别率的提高还有赖于对耳语音声学、听觉特征的进一步深入分析,这将是 一个长期的过程。另外,该方法得到的正常语音来自于事先建立的正常语音库,在单 一说话人语音库的条件下,说话人的个性特征无法得到保证。并且,从实现的角度, 也不可能建立无限说话人的语音库,要保留说话人个性特征,比较可行的方法是增加 说话入转换模块,这势必增加系统的时间与空间的开销,同时增加的模块会带来语音 质量的损失。 分析综合方法,通过提取耳语音的声学特征参数,向正常音的特征参数转换,并 重新合成为新的语音。该方法的优点是在选择了合适的语音合成模型,并且能够提供 可靠的声学特征参数的条件下,不仅可以做到保持语义不变和好的自然度,同时可以 保留说话人个性特征。该方法一方面依赖于一个合适的语音合成模型,另一方面需要 能够向合成模型提供可靠的声学特征参数,两者均可以影响合成语音的质量,因此它 的缺点也很明显,一是受语音合成模型的影响,语音的自然度可能有所损失;二是由 于语音的多变性,准确地将耳语音的声学特征参数向正常音的声学特征参数转换非常 困难,会对语音的语义及说话人个性特征带来损失。 第一章绪论 汉语耳语音一正常音转换的机理研究 比较上述两种研究方法,分析综合法的制约点耳语音声学特征分析及提取方 法以及声学特征参数转换模型随着越来越深入的研究将逐步得到改善。随着瓶颈 问题的解决,耳语音转换的质量可期望向理想的评价指标逼近。且对耳语音特征参数 的分析提取的研究又有利于耳语音研究在其他方面( 如识别) 的发展,该方法更具实 际使用价值和发展空间。 本文将从分析综合的思想出发,围绕汉语耳语音转换系统的建立讨论汉语耳语音 转换研究的困难点及解决方法。 1 3 2 汉语耳语音转换的难点 基于分析综合思想的耳语音转换依赖于一个语音合成模型。在选定合成模块后, 转换系统的框架结构如图1 1 所示。 图1 1汉语耳语音转换系统框架结构图 转换语音的质量不仅依赖于耳语音合成器,更重要的是必须向合成器提供准确的 声学参数。其中激励信息的基频特征参数,和声道信息的声道谱特征参数是最为关键 的参数,他们是决定语音转换质量的关键因素。 向合成器提供的参数是由耳语音特征参数转换或重估得到。汉语耳语音与正常语 音之间的巨大差异决定了准确获得这两方面的特征参数非常困难。图1 2 显示了汉语 元音的耳语音与正常音在时域波形、宽带语谱、细节波形、谱包络四个方面的对比, 可见如下差异。 6 堡至三堕童二至苎童茎垫竺! ! 墨型墨 一里二兰堕生 o5 萎 o 5 01 0 0 0 2 0 0 03 0 0 04 0 0 0 ( 曲正常语音a 时域波形 5 0 0 0 6 0 0 0 采样点 加1 布面1 高矿j 高r i 莉1 茄i 1 丽矿爿0 0 ( 研耳语音a 时域波形 采样点 o2 0 1 篓0 _ 0 1 。o2 卜高 1 0 01 5 0 2 0 02 5 0 ( c ) 正常语音a - - 帧细节波形 采样点 00 1r 一 篓0 _ 00 0 5 4 0 1 ( 卜一 而矿而r 菊矿面0 ( d ) 耳语音a 一帧细节波形 采样点 第章绪论 m 镕耳i 奇一* 音转接机理研究 4 0 0 0 一r 2 0 0 0 0 4 0 0 0 簪2 0 0 0 联 02 0304050607 ( e ) 正常语音a 语谱图时间( 5 ) 饕雾g 二季委瑟囊季薹溪季雾霎 0 1020304050 6070 8 ( f ) 耳语音a 语谱图 时间( s ) 卜; 05 0 01 0 0 01 5 0 02 0 0 02 5 0 03 0 0 03 5 0 04 0 0 0 ( g ) 正常语音a 帧谱包络频率( h z ) 1 0 0 0 1 5 0 02 0 0 02 5 0 03 0 0 0 ( h ) 耳语音a 一帧谱包络 图l2 汉语元音耳语音与正常音对比 3 5 0 04 0 0 0 频率( h z ) 在时域方面,耳语音最大的特征是韵母没有基音周期,且音量低。这为耳语音的 转换带来两个很大的难题: 第一没有基音周期,使得韵母与声母的主要差异消失,如何实现汉语耳语音的声韵 母分割? 第二合成正常语音必须提供基频( f o ) 轨迹,没有基音周期,f 0 如何实现? 1 0 1 1 o 奇p ) 趟馨 一p j 世墨 汉语耳语音一正常音转换的机理研究 第一章绪论 在频域方面,耳语音的谱包络与正常语音相比有明显差异,尤其在低频部分。不 仅共振峰值的位置发生偏移,且共振峰的带宽及幅度均有较大变化。这为耳语音的转 换带来第三个难题: 第三如何建立耳语音与正常语音声道参数的映射关系,使耳语音参数的转换误差尽 量小? 已有的耳语音转换方法,对上述的几个关键问题进行了探索,一些适合耳语音的 特征提取及转换方法得到发展,但对照耳语音转换的评价指标,还有很多的工作要做。 m o m s 博士【7 】讨论了英语耳语音的重建方法。由于英语为非声调语言,m o m s 对基频 的处理相对粗糙,仅根据耳语音能量添加基音频率。在对声道特征参数转换时,建立 共振峰参数( f ,b ) 线性预测系数( l p c ) 线谱对频率( l s p ) 之间的雅可比矩阵,一 进一步得到( f ,b ) l s p 矩阵之间的偏微分关系,然后由共振峰频率、带宽的修正 规则间接计算线谱频率l s p 参数的修正值。该方法尽管在耗费了大量的精力通过共 振峰频率带宽的变化间接调整l s p 参数,但采用的共振峰参数修正规则是单一的线 性偏移过于简单化,使得转换的l s p 参数准确率受到局限。 t u r e e n 和a h m a d i 瞳l 矧在耳语音转换系统中共同采用对共振峰所对应的线谱对 频率进行加权线性偏移的方法实现耳语音共振峰向正常音共振峰的转换。由每一对 l s p 频率及其差值共同决定转换的l s p 频率值,其主要目的在于调整耳语音共振峰的 带宽,其中的加权因子的选择没有给出理论依据。该系统在耳语音谱包络的偏移方面 没有涉及。在基频信息的重构方面,t u r e e n 仅采用共振峰信息重建耳语音基频轨迹, 单纯依靠这一信息重构的基频准确度值得商榷;a h m a d i 以正常音的激励信息为模板, 通过比对耳语音与正常语音为c e l p 合成器提供的其它参数,得到对应的耳语音的基 频轨迹。该方法需要提供足够多的模板,在参数经矢量量化后如何避免基频轨迹过于 柱状化尚值得探讨。 汉语是有调语言,汉语耳语音的转换,一方面要求声道特征参数转换的准确,另 一方面,基频轨迹的重构必须能够准确的反映语音的声调信息,否则将会改变语义。 文献【2 3 】在汉语耳语音转换方面做了尝试。首次建立了汉语耳语音转换系统。文献 在转换系统三个关键部分分别提出了实现方法:在采用相对熵特征实现耳语音声韵母 分割,并达到平均8 9 1 的分割正确率;以响度加权的3 2 个m e l 频段的对数幅度包 9 第一章绪论汉语耳语音一正常音转换的机理研究 络加音长的特征量感知耳语音声调,得到6 4 9 的正确率;采用对共振峰参数的定值 线性偏移( 1 3 1 1 倍) 调整方法实现l s p 参数的转换。该汉语耳语音转换系统得到 可辨听的转换声音,但未给出主观评价值。该系统中的关键部分还有较大的值得改进 的空间:选择和发掘更加合适的耳语音声学特征以提高耳语音声韵母分割和声调检测 的正确率,这对合成语音的质量至关重要;该系统未考虑耳语音的音高信息,这是保 留说话人个性特征的一个重要因素;声道参数的线性规则转换过于简单,不符合语音 信号多变特性,对语义和说话人个性特征均有较大的损失。 总体来讲,基于分析与综合原理的汉语耳语音正常语音的转换研究仍处于研 究的初级阶段。为可靠实现汉语耳语音向正常语音的正确转换,并能获得较高的语音 质量,有几个关键点也是转换问题的难点亟待解决,主要体现在以下几个方面: 1 、在低信噪比和全部气声发音的情况下,无声段与语音段区别不明显,声母段 与韵母段特征相似,这使得汉语耳语音流中各个语音音节的检测以及各音节中声韵母 之间的准确分割非常困难。 2 、耳语音没有基音频率,而这是汉语声调信息的最重要载体,也是合成正常语 音必须提供的激励参数。在没有基音频率的条件下,如何从耳语音中发掘其他表征汉 语耳语音音调的特征,并重构基频轨迹非常困难。 3 、由于耳语音与正常语音发音方式的不同,耳语音谱包络及其声道参数与正常 音相比存在明显的差异。受语音信号的多变性及说话人个性特征的影响,声道参数的 差异也呈现多变性,如何准确将耳语音声道参数向自然音转换,以向语音综合部分提 供可靠的声道参数非常困难。 1 0 汉语耳语音一正常音转换的机理研究第一章绪论 1 4 本文的主要工作与章节安排 本文以对汉语耳语音为研究对象,对汉语耳语音转换的几个关键难点进行了深入 研究,并提出了有效的解决方法,以期在汉语耳语音转换质量方面取得进展。 本文在主要工作与贡献体现在如下几个方面: 1 、对汉语耳语音的声学特征进行研究分析,提出基于多尺度特征的汉语耳语音的端 点检测及声韵分割方法。根据汉语耳语音非线性混沌特性,从多尺度视角分析耳 语音信号。以分形理论为基础,对汉语耳语音及各类噪声的分形特征进行分析统 计。将上述特征应用在耳语音的有声段检测中,该方法在低信噪比下具有较高的 鲁棒性,适合耳语音的特点。进一步以小波分析理论为基础,对汉语耳语音小波 分解后,提取其细节信息与近似信息,以小波能量比为特征实现汉语耳语音声韵 分离,该方法具有较好的抗噪性且与说话人以及文本无关。在耳语音预处理阶段 取得了成效。 2 、对汉语耳语音的听觉感知特征进行研究分析,提出了基于听神经发放率特征的汉 语耳语音韵母段基频轨迹重构方法。听神经发放信息是听觉中枢的唯一信息来 源,它是对于语音激励中声强、频谱、共振峰等多种声学特征的综合反应。以听 神经平均发放率为线索,感知汉语耳语音韵母段的声调和音高,提出了耳语音调 感知的定量描述方法。并在感知耳语音音高及声调的基础上,进一步提出了多项 式曲线混合模型( p m m - - p o l y n o m i a l c u r v em i x t u r em o d e l ) 实现基频轨迹的重 构,为语音合成提供更为丰富的韵律特征打下基础。 3 、对耳语音与正常语音的声道特征异同进行了深入研究,提出基于概率加权g m m 模型的汉语耳语音声道特征转换方法,并提出了汉语耳语音的声道特征转换误差 的客观评价方法。选择具有良好插值性能的线谱频率( l s f l i n e a rs p e c t r u m f r e q u e n c y ) 作为表征声道频谱特性的有效参数,以正常语音声道参数为转换目标, 经g m m 模型软分类,将耳语音声道参数以局部线性的方式向正常音转换。与相 关文献中对声道参数采用全局线性偏移的方式相比,更加符合语音和说话人特征 的多变性。 4 、在对汉语耳语音声学特征提取及转换的基础上,建立以混合激励线性声码器为原 第一章绪论 汉语耳语音一正常音转换的机理研究 型的修正合成模型将汉语耳语音转换为正常语音。根据汉语耳语音的特点,对合 成模型的各项参数进行调整与设置,建立一个适合耳语音转换的合成模型,该模 型有利于汉语耳语音转换研究的成果在通信系统中的应用。文中讨论分析了转换 系统中的主要特征对转换语音音质的影响,并对汉语耳语音转换结果进行了主观 评价。 论文的主要内容的组织如下: 第一章在介绍耳语音及汉语耳语音研究历史和现状的基础上,对耳语音的研究方法 与关键问题进行了分析,并指明了本文的主要工作。 第二章对耳语音产生的生理过程及声学特点进行了介绍。分析了耳语音的时频域特 征,以及人耳对耳语音的感知特点,为后续的耳语音特征分析做了基础铺 垫。 第三章从多尺度分析特征的角度出发,分别采用分形维特征和小波能量实现汉语耳 语音的端点检测与声韵分割。将上述特征应用在耳语音的有声段检测中, 在低信噪比条件下获得了良好的效果。为后续对韵母段的特征提取及转换 打下基础。 第四章对耳语音听觉感知特征进行分析,以听神经平均发放率为感知线索,提出了 汉语耳语音韵母段声调与音高的识别方法,并在此基础上重构基频轨迹。为 汉语耳语音的转换提供了重要的特征参数。 第五章比较并归纳耳语音与正常语音的声道参数差异的基础上,提出了基于g m m 模型的概率加权声道参数转换方法,并对转换误差进行客观评价。为汉语耳 语音的转换提供了另一个重要的参数。 第六章建立了一个适合于耳语音的基于m e l p 的语音合成器,在前几章的研究成 果的基础上,实现了汉语耳语音转换,并对转换语音进行主客观评价。 第七章结论与展望。总结全文,提出存在的问题及今后的研究思路。 1 2 汉语耳语音一正常音转换的机理研究 第二章汉语耳语音声学及听觉特点 2 1 引言 第二章汉语耳语音声学及听觉特点 人类对于语音的研究随着现代文明的发展经历了很大的变化。尤其是随着现代医 学和信号处理科学的发展,语音的研究得到了拓宽与发展。从研究手段来讲,现代语 音学发展至今生成了三大分支:生理语音学、声学语音学、感知语音学【3 0 1 。 生理语音学,也称发音语音学。早期的语音学研究在多数情况下只是为了语言教 学的需要以及出于语言研究的兴趣。后来由于医疗器械的完善,人们能观测发音器官 的动作和功能,从而发展了生理语音学。主要研究语音产生机理,借助仪器观察发音 器官,以确定发音部位和发音方法。近年来由于新型仪器设备有很大发展,目前已相 当成熟。 声学语音学,由于声学仪器的发展,从前许多只能耳听的语言现象现在不但可以 目测,而且可以用人工来合成,于是有了声学语音学。主要研究语音传递阶段的声学 特性,它与传统语音学和现代语音分析手段相结合,用声学和非平稳信号分析理论来 解释各种语音现象,是近几十年中发展非常迅速的一门新学科。 感知语音学,也称听觉语音学或心理语音学,并向神经语音学发展。由于心理测 验方法的改善,思维和听觉神经生理的研究日趋进步,言语控制、听觉反馈中的语音 规律分析得越来越深入,产生了感知语音学。它研究语音感知阶段的生理和心理特性, 即研究耳朵是怎样听音的,大脑是怎样理解这些语音的,语言信息在大脑中存储的部 位和形式。感知语音学与心理学关系密切,是近几十年才发展起来的新兴学科,目前 还处于探索阶段。 汉语耳语音转换的研究,可借助于上述三种研究手段分别从语音的发音生理特 征、声学特征、听觉感知特征进行分析,采用数字信号处理的方法着手研究。对其发 音原理,以及相对于正常语音的发音区别、声学特征及人耳的感知特性的研究成果, 可有助于人们更深入理解耳语音的特点。 第二章汉语耳语音声学及听觉特点 汉语耳语音一正常音转换的机理研究 2 2 声道生理特性及耳语发音机理 人的发音器官由下至上包括:肺、气管、喉腔( 含声带) 、咽腔、口腔、鼻腔。 人在讲话时,腹肌收缩使胸腔的横膈膜向上压迫肺部,挤出肺部的空气,形成气流, 这是语音产生的原动力。气管将肺部产生的气流送至喉部,在喉部由声带将来自肺部 的气流调制为准周期脉冲或类随机噪声,这是语音产生基本声源( 也称声带声源) 。 声源还可能由声道的收缩

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论