(模式识别与智能系统专业论文)面向言语工程的语音转换算法研究.pdf_第1页
(模式识别与智能系统专业论文)面向言语工程的语音转换算法研究.pdf_第2页
(模式识别与智能系统专业论文)面向言语工程的语音转换算法研究.pdf_第3页
(模式识别与智能系统专业论文)面向言语工程的语音转换算法研究.pdf_第4页
(模式识别与智能系统专业论文)面向言语工程的语音转换算法研究.pdf_第5页
已阅读5页,还剩104页未读 继续免费阅读

(模式识别与智能系统专业论文)面向言语工程的语音转换算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 语音语料数据库是语音交互技术和中文信息处理的基础。语音识别系统提高 识别率,语音合成系统产生流畅的自然语音,充足可靠和高质量的语音语料库是 其性能的重要保证。论文主要研究了语音转换中两个方面的问题。一是如何提高 声音转换系统( 个性化语音合成系统) 的转换语音的质量与目标说话人身份信息; 二是如何将纯净语音转换为具有电话语音特征的新语音。对于前一个问题,论文 主要从频谱平滑、基频曲线映射和遗传神经网络频谱映射等声音转换关键技术的 三个方面进行了研究;对于后一个问题,主要从模拟电话信道条件方面研究了纯 净语音到电话语音的转换方法。论文主要取得了以下几个方面的成果: ( 1 ) 一种基于s i n u s o i d a l 参数的语音频谱平滑算法 论文针对传统l p c 频谱平滑算法中将l p c ( l i n e a rp r e d i c t i v ec o d i n g ,线性 预测编码) 参数和残差分别进行插值而导致平滑后语音质量改善不多的问题,提 出了一种将描述语音频谱大尺度信息的l p ( l i n e a rp r e d i c t i v e ,线性预测) 模型参 数与擅长表现频谱的细节的s i n u s o i d a l 模型参数结合起来进行语音平滑的新算 法。该算法先对待平滑语音段的l p c 参数进行插值,然后以这些插值得到的l p c 频谱包络为目标,使用s i n u s o i d a l + 全极点模型对待平滑语音段进行修改,使修 改后的语音,不仅频谱包络拟合目标频谱的形状,而且同时保持原语音中的细节 性信息,从而避免l p 平滑中语音音质下降的问题。实验结果显示,该算法对于 拼接单元频谱差异较大的情况表现出很好的效果,拼接点处频谱平滑,语音音质 较高。 ( 2 ) 一种基于汉语音节基频曲线为单位的声调码本映射模型 论文提出了一种基于汉语音节基频曲线为单位的声调码本映射模型。该模型 以汉语音节的基频曲线所表示的声调模式作为基频信息的转换单位,通过语音切 分和对准分别提取各语音单元的基频曲线,用聚类方法分别建立两个说话人的声 调码本。根据源目标说话人语音的时间对准关系,计算各声调模式的对应统计 值,由此训练一个汉语声调映射码本。声音转换的评估结果表明声调码本映射模 型可以较好地消除孤立基频值映射关系的算法上固有的离散性,反映出目标语音 的局部基频动态特性,因此能比较准确地发现不同说话人语音的身份信息对应关 系。在短时声学频谱特征转换的基础上,声调码本映射法在汉语声音转换技术中 增加了转换语音中目标说话人的身份信息,改善了声音转换系统的性能。 ( 3 ) 一种基于模拟电话信道条件的电话语音转换模型 论文通过分析纯净语音在电话信道中形成电话语音的成园后,发现电话语音 北京工业大学工学博士学位论文 的形成是电话信道中各种因素共同作用的结果,从而提出了一种由纯净语音向电 话质量语音转换的电话语音转换模型。转换模型采用滤波器技术来模拟电话线路 连接中各种模拟传输设备频率响应特性,并对电话信道环境中各种噪音行为和其 他电话语音现象进行了仿真。频谱失真分析和m l l r ( m a x i m a ll i k e l i h o o dl i n e a r r e g x e s s i o n ,最大似然线性回归) 自适应识别实验表明,通过模型参数的合理设 置和调整,该模型能有效地实现纯净语音向电话质量语音的模拟转换,由纯净语 音转换生成的模拟语音减小了训练语音和测试语音声学性质的不匹配,从而改善 电话语音识别性能。该模型为解决由于汉语电话语音资源不足的问题提供了一种 可行方案。 本课题在国家自然科学基金、北京市自然科学基金和中国科学院知识创新工 程领域前沿项目的支持下,以建设通用汉语语音库为目标,围绕汉语语音数据库 的复用问题,对面向言语工程应用的语音转换技术进行了基础性研究。论文所取 得的研究成果将为这项语音技术的研究与发展产生积极的推动作用。 关键词:中文信息处理,声音转换,电话语音转换,频谱平滑,声调码本映射 i l a b s t i t a c t a b s t r a c t s p e e c hc o r p u su n d e r l i e ss p e e c hi n t e r f a c et e c h n o l o g ya n dc h i n e s ei n f o r m a t i o n p r o c e s s i n g a na d e q u a t e ,r e l i a b l ea n dh i 曲一q u a l i t ys p e e c hc o r p u sw i l lb r i n gt h e i m p r o v e m e n ti nt h er e c o g n i t i o np e r f o r m a n c ef o rs p e e c hr e c o g n i t i o ns y s t e m s ,a n dl e n d i t s e l ft om a k i n gs p e e c hs y n t h e s i ss y s t e m sp r o d u c ef l u e n ta n dn a t u r a ls p e e c h t w o p r o b l e m sa r ea d d r e s s e di n t h i st h e s i s o n ei sh o w t oi m p r o v et h eq u a l i t ya n dt i m b r eo f t h ec o n v e n e ds p e e c hi nv o i c ec o n v e r s i o na n ds p e e c hs y n t h e s i s t h eo t h e ri sh o wt o c o n v e r tt h ec l e a ns p e e c hi n t ot h et e l e p h o n eo n e t od e a lw i t ht h ef o r m e rp r o b l e m ,w e f o c u so nt h et w of a c t o r s :( 1 ) as p e c t r a ls m o o t h i n ga l g o r i t h mf o ri m p r o v i n gt h e n a t u r a l n e s so fs y n t h e t i cs p e e c h ,a n d ( 2 ) am a n d a r i nt o n ec o d e b o o km a p p i n ga l g o r i t h m f o ri m p r o v i n gt h et a r g e ts p e a k e r si d e n t i t yi n f o r m a t i o ni nt h ec o n v e r t e ds p e e c h m o r e o v e r , w ef o c u so nt h et e l e p h o n es p e e c hc o n v e r s i o nt e c h n o l o g y w es u m m a r i z e t h e s ei nt h ef o l l o w i n gp a r a g r a p h s t h ec o n v e n t i o n a ls p e c t r a ls m o o t h i n ga l g o r i t h mi n t e r p o l a t e st h el pp a r a m e t e r s a n dr e s i d u a l s r e s p e c t i v e l y s i n c e t h er e s i d u a l s s p e c t r aa r en o tr e a l l yf i a t ,t h e i n t e r a c t i o ni n f l u e n c e sw i l lo c c u rb e t w e e nt h em o d i f i e dr e s i d u a l s s p e c t r aa n dt h el p c e n v e l o p es p e c t r a ,w h i c hw i l lc a u s ea ne v i d e n td e g r a d a t i o ni nt h es m o o t h e ds p e e c h q u a l i t y i no r d e rt og e tab e t t e rs m o o t h i n ge f f e c t ,t h i st h e s i sp r o p o s e san e ws p e c t r a l s m o o t h i n ga l g o r i t h m t h el p cs p e c t r ao fs o u r c es p e e c hf r a m e sa r ef i r s ti n t e r p o l a t e d t og e n e r a t et h es m o o t h e dt a r g e ts p e c t r a t h e nt h es i n u s o i d a l + a l l - p o l em o d i f i c a t i o ni s p e r f o r m e do nt h es o u r c es p e e c ht og e tt h es p e c t r ao ft h em o d i f i e ds p e e c hw h i c hw i l l c o i n c i d e 、i t l lt h et a r g e ts p e c t r a t h em o d i f i e ds p e e c hn o to n l yh a sas m o o t hs p e c t r a l e n v e l o p es h a p e ,b u ta l s or e s e r v e st h ed e t a i l e di n f o r m a t i o no ft h eo r i g i n a ls p e e c h t h e p r o p o s e da l g o r i t h m c a l lr e d u c et h ed e g r a d a t i o no fs p e e c h q u a l i t y i nt h el p c s m o o t h i n gm e t h o d s ,w h i c h a r ec o m m o n l yu s e di n s p e e c hs y n t h e s i ss y s t e m s e x p e r i m e n t a lr e s u l t ss h o wt h a t t h i ss p e c t r a ls m o o t h i n gm e t h o dy i e l d sg o o dr e s u l t s e s p e c i a l l yf o rt h ec o n d i t i o n t h a tt h es o u r c ef r a m e sh a v el a r g es p e c t r a ld i s t a n c e t h ee x i s t i n gv o i c ec o n v e r s i o ns y s t e m sf o c u s e do ns p e c t r a lc o n v e r s i o no ft h e s h o r t - t e r ma c o u s t i cf e a t u r e ss u c ha sl p c ,l s f , m f c ca n de t c ;t h e yg a v ef e we v e nn o c o n c e m sw i t ht h es u p e r - s e g m e n t a lc h a r a c t e r i s t i c ss u c ha st h ev a r i a t i o n so fp i t c ha n d d u r a t i o n ,w h i c hh o w e v e rp l a ya ni m p o r t a n tr o l ei nd e t e r m i n i n gs p e a k e ri d e n t i t i e s i n o r d e rt oa d d r e s st h i sp r o b l e m ,w ep r e s e n tam a n d a r i nt o n ec o d e b o o km a p p i n gm o d e l f o rp i t c hc o n v e r s i o n ,w h i c hi se x p e c t e dt of m dab e r e ra s s o c i a t i o ni nf u n d a m e n t a l f r e q u e n c i e sb e t w e e nt w os p e a k e r s s p e e c h a c c o r d i n gt ot h ep h o n e t i cc h a r a c t e r i s t i c s o fc h i n e s em a n d a r i n ,t h ep i t c hc o n t o u ro ft h ew h o l em a n d a r i ns y l l a b l ei su s e da sa u n i tt y p ef o rp i t c hc o n v e r s i o n t h eo r i g i n a ls y l l a b l ep i t c hc o n t o u r sa r ef i r s te x t r a c t e d f r o mt h ea s s o c i a t e ds o u r c ea n dt a r g e tu t t e r a n c e s a f t e rt h ep r e p r o e e s s i n gi sp e r f o r m e d i i i :,。,一,一,兰量三些查兰:窑塑些兰堡! :i 三。,一,! ,一 o nt h eo r i g i n a ld a t a , ac l u s t e r i n gm e t h o di su s e dt ob u i l dt h em a n d a r i nt o n ec o d e b o o k s f o rt h et w os p e a k e r sr e s p e c t i v e l y , b yw h i c hat o n em a p p i n gc o d e b o o ki st r a i n e d a c c o r d i n gt ot h et i m e a l i g n i n gr e s u l t so ft h et w os p e a k e r s u t t e r a n c e s e x p e r i m e n t a l r e s u l t ss h o wt h a t ,a c c o m p a n i e dw i t ht h e s p e c t r a lc o n v e r s i o n ,t h et o n ec o d e b o o k m a p p i n gm o d e lc a ng i v eab e t t e rp e r f o r m a n c ei nt h ev o i c ec o n v e r s i o no fc h i n e s e m a n d a r i ns p e e c h b ys t u d y i n gh o w t h ec l e a ns p e e c hi sc o n v e r t e di n t ot h et e l e p h o n es p e e c hw h e ni t g o e st h r o u g ht e l e p h o n ec h a n n e l s ,w ef i n dt h a tt h ef o r m a t i o no ft e l e p h o n es p e e c hi s d u et ot h eo v e r a l l i n f l u e n c e so f v a r i o u sf a c m r si nt e l e p h o n ec o n n e c t i o n s w et h e r e f o r e p u tf o r w a r dat e l e p h o n es p e e c hc o n v e r s i o nm o d e lw h i c hc o n v e r t st h ec l e a ns p e e c h i n t ot h et e l e p h o n eo n e v a r i o u sf i l t e r si nt h i sm o d e la r em o d e l e dt of i tt h ef r e q u e n c y r e s p o n s e so ft h ea s s o c i a t e da n a l o gd e v i c e si nt e l e p h o n ec o n n e c t i o n s ,a n dn u m e r o u s k i n d so fn o i s eb e h a v i o r sa r es i m u l a t e da sw e l la st h eo t h e rt e l e 廿h o n es p e e c h p h e n o m e n a b o t hs p e c t r a la n a l y s e sa n dm l l ra d a p t i v er e c o g n i t i o ne x p e r i m e n t s s h o wt 1 1 a t ,b ya d j u s t i n gt h em o d e l sp a r a m e t e r s ,t h i sm o d e lp e r f o r m st h ec o n v e r s i o n f r o mt h ec l e a ns p e e c ht ot h et e l e p h o n eo n ee f f e c t i v e l y ,w h i c hh e l p st or e d u c et h e a c o u s t i c a lm i s m a t c hb e t w e e nt h et r a i n i n ga n dt e s td a t aa n dt h u si m p r o v e st h e p e r f o r m a n c eo ft e l e p h o n es p e e c hr e c o g n i t i o n t h ep r o p o s e dm o d e lw i l lp r o v i d ea f e a s i b l ea n dp r a c t i c a la p p r o a c ht os o l v et h eb o t t l e n e c kp r o b l e ml a c k i n gi nm a n d a r i n t e l e p h o n es p e e c hr e s o u r c e s n l i sr e s e a r c hi ss u p p o r t e db yn a t i o n a ln a t u r a ls c i e n c ef o u n d a t i o n b e i j i n g n a t u r a ls c i e n c ef o u n d a t i o na n df o r e l a n di t e mo ft h ek n o w l e d g ei n n o v a t i o nf i e l di n c h i n e s ea c a d e m yo fs c i e n c e s t h eg o a lo ft h i st h e s i si st ob u i l dar e u s a b l em a n d a r i n s p e e c hc o r p u sf o rg e n e r a lp u r p o s e ,a n dag r o u n dr e s e a r c hi n t h i sw o r ki st h e r e f o r e p e r f o r m e do ns e v e r a l t e c h n i q u e s o fs p e e c hc o n v e r s i o nf o r s p e e c he n g i n e e r i n g a p p l i c a t i o n s n ea c h i e v e m e n t si nt h i st h e s i sa r ee x p e c t e dt o1 a yaf o u n d a t i o nf o r m a n d a r i ns p e e c hc o n v e r s i o nt e c h n o l o g ya n dp l a ya na c t i v ea n dc o n s t r u c t i v er o l ei ni t s f u r t h e rs t u d i e sa n dd e v e l o p m e n t s k e yw o r d s :c h i n e s ei n f o r m a t i o np r o c e s s i n g ,v o i c ec o n v e r s i o n ,t e l e p h o n e s p e e c hc o n v e r s i o n ,s p e c t r ms m o o t h i n g ,t o n ec o d e b o o km a p p i n g i v 插图目录 插图目录 1 1 本文讨论的两个问题4 2 1 语音信号产生的源滤波器模型9 2 2 语音产生的修正模型1 0 2 3m f c c 分析流程图1 2 2 - 4 不同特征参数的d t w 路径1 2 2 - 5 声音转换原理1 5 2 - 6 基于v q 码本映射系统的转换过程1 6 2 7 音素码本训练流程1 7 2 8 基于h m m 的语音合成系统框图1 9 2 - 9 子空间映射法示意图2 0 3 - 1 逐段线性频率弯折函数3 l 3 - 2 基于s i n u s o i d a l 参数的频谱平滑算法3 2 3 - 3l p c 频谱的匹配对准及其插值频谱3 3 3 4 以l p c 频谱匹配点对映射关系确定的频率弯折函数3 5 3 5 语料库a n b m 测度分布直方图3 7 3 - 6 平滑后的a n b m 测度比平滑前小的样本分布直方图3 7 3 7 “y o u 2y i 2 ”在s i n u s o i d a l 平滑前后的语谱图3 8 4 - 1 单字词“展”的基频标记结果4 2 4 2 源、目标说话人四字词“妇女委员”的语音学对准4 2 4 3 模式距离分析示意图4 4 4 4 声音转换系统的合成转换阶段4 7 4 - 5 基频序列”公”的示例( 取自”公共语言”) 4 9 4 6 说话人身份主观评估5 0 4 7 “井底”的l p c 频谱图5 1 5 - 1r b f 神经网络的拓扑结构5 3 5 - 2 基于r b f 神经网络的声音转换5 6 5 3 转换语音与源一目标语音的l p c 频谱包络5 9 6 1 公共电话交互网络原理图6 3 6 2 送受话器电话连接中影响语音质量的参数6 4 6 - 3 不同长度电话线在无负载情况下的幅度频响特性6 4 6 4 电话语音转换模型6 6 北京工业大学工学博士学位论文 6 - 5 送受话器中发送滤波器的幅度频响特性6 7 6 - 6 发送滤波器的幅度和群时延频响特性6 8 6 7p s t n 中的编码级联7 0 6 - 8 纯净语音与转换语音的波形7 l 6 - 9 图6 8 所示纯净语音与转换语音的语谱图7 1 6 1 0 目标语音帧分别与源及各转换帧的频谱比较7 3 6 1 1 全部目标语音帧与各语音的似然失真值7 4 6 1 2 自适应数据量不同时的自适应性能7 9 a 1s p k t o o l 界面效果9 2 a 2 语音切分9 3 a 一3 基频曲线9 4 a 一4 基频峰值标注9 4 a 5 语谱图9 5 a 6 语音频谱表示9 6 x 表格目录 3 1 十对语音段组合的主观测听结果3 8 4 1 平均基频差与训练数据量的关系4 9 5 1 六个单元音音子对应的国际音标及其出现的例子5 5 5 - 2 转换语音频谱距离的客观测试结果5 7 5 3 两种聚类算法的似然失真频谱距离( i t a k u r a 距离) 5 7 5 - 4 两种聚类算法的倒谱距离( c 距离) 5 8 5 5 转换语音的a b x 性能测试( 正确响应率) 5 8 6 1 目标语音与初始语音及各转换语音的似然失真值7 3 6 2 几种转换语音测试集7 5 6 3 不同测试集上的识别性能7 6 6 4 纯净语音和转换语音模型的识别性能7 8 6 5 纯净语音和转换语音模型的自适应性能7 9 a n b m a n n d t w d f w e m f f t f i r g a g m m h m m l m r l p l p c l s f m f c c m g m m n r u m l l r m o s p c m r b f n n s n r t d p s o l a t t s p s l n v c v t l n v q w i 听神经基测度 人工神经网络 动态时间弯折 动态频率弯折 期望最大化 快速傅立叶变换 有限脉冲响应 遗传算法 高斯混合模型 隐马尔科夫模型 线性多变量回归 线性预测 线性预测编码 线谱频 梅尔倒谱系数 混合高斯映射 调制噪音参考单元 最大似然线性回归 平均观点打分 脉冲编码调制 径向基神经网络 信噪比 时域基频同步迭加 文语合成 公共电话交换网 声音转换 声道长度归一化 向量量化 波形插值 缩略语 a u d i t o r yn e r v e b a s e dm e a s u r e a r t i f i c i a ln e u r a ln e t w o r k d y n a m i ct i m ew a r p i n g d y n a m i cf r e q u e n c yw a r p i n g e x p e c t a t i o nm a x i m i z a t i o n f a s tf o u r i e rt r a n s f o r m f i n i t ei m p u l s er e s p o n s e g e n e t i ca l g o r i t h m g a u s s i a nm i x t u r em o d e l h i d d e nm a r k o vm o d e l l i n e a rm u l t i - v a r i a b l er e g r e s s i o n l i n e a rp r e d i c t i o n ,l i n e a rp r e d i c t i v e l i n e a rp r e d i c t i v ec o d i n g l i n es p e c t r a lf r e q u e n c y m e lf r e q u e n c yc e p s t r a lc o e f f i c i e n t m i x t u r eg a u s s i a nm a p p i n g m o d u l a t e dn o i s er e f e r e n c eu n i t m a x i m a ll i k e l i h o o dl i n e a rr e g r e s s i o n m e a n o p i n i o ns c o r e p u l s ec o d em o d u l a t i o n r a d i a lb a s i sf u n c t i o nn c u r a ln e t w o r k s i g n a l t o - n o i s er a t i o t i m e d o m a i np i t c hs y n c h r o n o u so v e r l a p a d d t e x t t o s p e e c hs y n t h e s i s p u b l i cs w i t c h e dt e l e p h o n en e t w o r k v o i c ec o n v e r s i o n v o c a lt r a c tl e n g t hn o r m a l i z a t i o n v e c t o rq u a n f i z a t i 0 1 1 w a v e f o r mi n t e r p o l a t i o n 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 己在论文中做了明确的说明并表示了谢意。 签名:现萎、日期: 关于论文使用授权的说明 舻f 够,矿 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:么地导师签名:氆! 堕璺日期 护j j9 , 第l 章绪论 第1 章绪论 1 1 研究背景与问题提出 在信息科学和计算机科学迅速发展的时代,言语工程技术受到了前所未有的 重视。它与通讯、计算机、人工智能等技术学科以及语言学、语音学、心理学和 生理学等基础学科都有密切的联系,因而受到广泛关注,成为当今科学技术发展 的一个热点。许多国家都建立了国家资助项目以促进言语工程技术的发展,国际 上一些软件和计算机公司纷纷看好语音技术的前景,也设立了自己的语音技术研 发中心。言语作为人类进化的莺要标志,是人类千万年沿用下来的最常用的交流 手段,自然也是人机交互的最理想方式,让计算机和人一样能听会说成为人们青 睐和追求的目标。 语音处理技术的研究始于上世纪五十年代,发展到今天已有五十年的历史 了。其间人们尝试了从认知科学、基于规则的方法、发音机理等多种手段进行探 讨,但取得进展都不理想。直到八十年代以后采用了数字信号处理+ 统计理论以 后才有了重大突破。运用统计方法进行语音、语言处理,除了算法研究的不断完 善外,要使语音识别系统提高识别性能,语音合成系统产生流畅的自然语音,一 个重要的因素就是其所依赖的语音语料库的质量。毫无疑问语音语料库的建设受 到语音学界、统计语言学界的高度重视。在人们对人的听觉感知、对人的语言理 解的认知机理尚未能有效地认识清楚之前,统计学方法的语音识别、语音合成、 说话人识别等技术的研究和应用开发成为最有效的方法和最明智的选择。语音语 料痒是语音交互技术和中文信息处理的基础,而海量语音数据库的建设对于统计 方法语音处理的研究、产品开发起着举足轻重的作用【l 】。 在语音数据库的建设历程中,最有影响力大规模系统建设语音数据库的时间 当数1 9 9 2 年语音数据联盟( t h el i n g u i s t i cd a t ac o n s o r t i u m ,l d c ) 1 2 1 的成立,当 时受到美国国防先进研究计划署( d e f e n s ea d v a n c e dr e s e a t c hp r o j e c t sa g e n t , d a r p a ) 的资助,该机构定性为大学、公司和政府实验室联盟形式的非盈利组 织,机构组织设在宾夕法尼亚大学( u n i v e r s i t yo fp e n n s y l v a n i a ) 。通过收集、创 建、归档和发布包括数据、工具、标准和格式等语言资源支持教育、科研、技术 发展等与语言相关的事业。到了1 9 9 8 年,l d c 已经发布了1 6 4 个数据库,其中 1 0 6 个语音数据库,4 8 个文本语料和字典。自1 9 9 2 年以来,全球范围内已有近 1 0 0 0 个组织使用了l d c 的数据,超过3 0 0 家的公司、大学和政府实验室加入了 联盟。l d c 如今已经具备了2 0 种语言的大规模文本数据库,包括阿拉伯语、英 北京工业大学工学博士学位论文 语、法语、德语、德语、俄语、汉语、日语、朝鲜语和越南语等。l d c 文本类 型包括电话对话、双语对照文本、广播新闻、词典、新闻在线和其他文本。l d c 也建立了一些具有规模的多语种的语音、语料库以及支持关于语音库标准的和理 论研究工作。如1 9 9 8 年至1 9 9 9 年,建立了至今最有雄心的广播语音数据库 t d t - 2 、t d t - 3 ,用于支持d a r p a 的主题检索和跟踪 t o pd e t e c t i o na n dt r a c k i n g , t d t ) 研究项目。该项目又被扩展到一些新的研究科目和新的语言上,并由l d c 提供数据来支持美国标准和技术协会( n a t i o n a li n s t i t u t eo fs t a n d a r da n d t e c h n o l o g y , n i s t ) 对语音技术的评价。 另一个国际上比较有影响的语音数据库是1 9 8 0 年代完成的语音数据库 t i m i t 3 。5 1 。其他地,还有一些研究机构为不同的研究目的而建立的语音数据库, 比如日本a t r 为处理口语所建的语音库【6 】;b e l l 实验室用于文语转换的语音库【7 j ; a t & t 建立了口语对话的语音库出j 。 汉语语音识别和语音合成的研究自八十年代以来受到广泛重视,中国科学院 与清华大学等科研院所与高校都展开了汉语语音识别和语音合成的研究和实用 产品开发工作。这些研究受到了国家自然科学基金和国家8 6 3 高科技计划的资助 1 9 - 1 1 。在汉语语音库的建设方面,中国科学院自动化所、清华大学的电子系与计 算机系、香港科技大学计算机系都建立了语音识别库;中国科学院声学所、中国 社会科学院语言所等建立了汉语语音合成库;此外i n t e l 中国公司也建立了汉语 语音识别库;中科大讯飞公司和微软亚洲研究院都建立了大规模的汉语语音合成 库【1 2 ”j 。对于汉语语料库的建设,特别提到的是由国家8 6 3 计划资助的汉语连续 语音识别数据库的设计和建立。该库是目前国家支持的最大的朗读方式的汉语连 续语音识别数据库。 对比国际语音数据建设方面,汉语语音语料数据库的建设在许多方面还存在 很大不足,主要表现在以下几方面: 语音数据库的复用问题:语音数据库的规模无论多大,总是有限的,难 以满足各方面的需要,因此考虑语音数据库的复用问题是一条有效的途 径。例如,可以通过电话通道模拟算法,将现有的语音库转化成电话的 语音对话库,而不必经过电话环境再录音建库;通过声音转换( 说话人 模拟) 技术,将一个单人语音库转化成多人语音库。 汉语语音库的规模和类型:8 6 3 支持的语音库的语料库主要选自报章的 书面语,并且是朗读方式的语句,用于语音识别的语料只有1 5 6 0 句, 数据量远远不够;在类型方面缺少电话语音库、广播语音库、方言普通 话语音库、不同年龄段语音库、电话语音库及自由交谈方式的语音库等。 语音库的设计标准和标注标准:现有语音库还没有一个统一的库结构标 第1 章绪论 i m m l , ii l l i ! | ! ! ! e 自自自! 自! g e ! j ,目目| ! 准和标注标准,这样使用起来会带来不便,效率不高。因此为汉语语音 数据库制定一套合理实用的标准规范还需要大量的研究工作。 根据上述现有语音数据库建设的实际情况,论文以建设通用汉语语音库为目 标,围绕汉语语音库的复用问题,对面向言语工程中各种应用的语音转换算法进 行了专项研究。 一般地。语音信号主要载有语音内容( w h a tw a ss a i d ) 、说话人个性特征( w h o s a i di t ) 和语音背景等信息( w h e r ei tw a ss a i d ) 。而与此对应,语音转换技术包括 这三种信息的转换:语音翻译是机器翻译的高级形式,主要处理语音内容信息, 涉及语音识别、自然语言理解与不同语言的相互转换以及语音合成等技术;声音 转换技术与说话人特征信息相关,主要处理说话人语音的身份特征信息的转换; 语音背景信息转换技术改变说话人的言语背景信息,前两种信息则保持不变。论 文主要对语音的说话人特征和背景信息这两种转换技术进行了深入探讨,以期为 各种言语工程技术应用和汉语语音库的复用问题提供一定的研究基础。 当前,文语合成( t e x t t o s p e e c h ,t t s ) 系统已处于实用阶段,但是现有系 统只能用一两种不同说话人的声音进行发音,相当缺乏表现力,已经不能满足各 种应用要求。因此一种个性化的语音合成技术,即声音转换技术应运而生,声音 转换系统也由此降低了设备存储要求。声音转换技术是当前语音技术研究的重要 组成部分,它还将在语音识别、声纹识别、语音编码以及安全保密和教育娱乐等 方面得到广泛应用。基于小规模语料库的嵌入式语音系统是当前语音技术研究的 一个重要发展方向,而嵌入式声音转换系统将进一步降低设备存储要求。因此, 在声音转换技术申,语音频谱平滑技术对于系统提高转换语音的质量,产生流畅 自然的个性化语音。具有重要的技术意义。 电话语音技术广泛应用于旅游部门的语音信息服务中心和交通运输系统的 语音导航等。然而,由于电话信道带宽的限制、话筒、信道传输函数、噪声干扰 等参与媒介的复杂多变性,加之说话人的随意性等特点,导致电话语音识别系统 的实用性能大幅度下降。主要原因在于没有足够多的电话语音数据对识别系统的 声学模型进行训练。为了对电话信道下的语音进行声学特性分析,研究新的电话 语音识别健壮性方法,建立非特定人连续语音识别系统,建设一个大规模、高质 量的电话语音库将是使语音识别系统进入实用化阶段的基础性问题。 1 2 论文研究范围 论文主要研究了图1 - 1 所示的语音转换的两种问题:第一个问题是由一种说 话人身份特征信息的语音转换为多种不同的说话人身份特征信息的语音,它属于 声音转换技术的范畴,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论