已阅读5页,还剩60页未读, 继续免费阅读
(通信与信息系统专业论文)通信系统中的语音检测技术研究及其应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京邮电大学硕士研究生学位论文 通信系统中的语音检测技术研究及其应用 摘要 话音通信是电信网络的重要业务,从传统的电路交换的电话网到 数字移动通信网,以及分组交换的i p 电话,这些网络承载的各种业 务中,到目前为止占据着主导的地位仍然是话音业务。因为话音业务 的这种重要性,为用户所提供的话音服务质量的好坏便直接关系到通 信网的运行收益,所以提高话音信号的传输质量,降低传输成本成为 j 7 运营商的追求目标。而语音活动检测( w o ,v o i c e a c t i v e d e t e c t i o n ) 正是有助于改善通话质量,降低带宽消耗的这样一种技术,现在已经 成为通信系统中重要的基本技术之一。所以从事这一课题的研究工作 是具有较大的理论和应用意义的。 作者所做的课题相关工作包括: 对语音处理的基本技术、话音检测的原理和算法进行了资料 整理、理论学习,并阅读了相关规范和协议,对语音活动检 测的原理、基本算法有比较深入的认识。 重点对了e t s i 提出的移动通信系统中使用的以及i t u t 提 出的v a d 算法进行了详细的研究,总结了对v a d 算法性能 进行主观和客观评估的方法。 负责设计、开发了语音质量检测系统中的话音检测模块。根 据系统功能需求进行音频卡的测试、选型以及音频信号检测 算法的确定,选定并编码实现了g o e r t z e l 算法。然后在以上 工作的基础上,在实验室环境下搭建了测试平台,并进行了 测试实验,根据实验结果对模块的性能进行了分析、改进, 提出了在p c 平台下开发通信网语音质量检测系统的有效方 法。 本文对在通信系统中使用的语音检测技术原理以及应用进行了 研究和分析。全文按照以下顺序进行介绍: 第一章描述了语音技术的各个研究方向的基本概念,介绍了语音 信号处理技术的基本原理。对包括时域以及频域在内的一些常用的基 本方法作了分析。 第二章研究了语音信号的检测技术。对v a d 算法原理、i t u - t 、 e t s i 建议的相关算法以及算法评估标准进行了详细的分析。分析了 托京邮电大学礤士研究生学位论文 v a d 在p r m a 蛰议、g s m 移动遵信系统以及撙电话里麴应用清况。 笫三章针对语音质量检测系统的需要,设计并实现了种语音信 号检测模块躲架构,著在实验赡基毯土,对羹瞧毙进行了分辑,绘出 了改进方法。 关键词:v a d 语音活动检测语音信号处邂语凿质量算法 珏 北京邮电大学硕士研究生学位论文 t h e a p p l i c a t i o n a n dr e s e a r c ho fv o i c ed e t e c t i o nt e c h n i c i nc o m m u n i c a t i o n s y s t e m s a b s t r a c t v o i c ec o m m u n i c a t i o ni s a n i m p o r t a n t s e r v i c e p r o v i d e db y t e l e c o m m u n i c a t i o n b y n o wv o i c es e r v i c e a l w a y st a k e t h em a i nr o l e a c t i v i t yf r o m t h et r a d i t i o n a lc i r c u i ts w i t c h i n gt e l e p h o n en e t w o r kt od i g i t a l m o b i l ec o m m u n i c a t i o nn e t w o r k ,a sw e l la sp a c k e ts w i t c h i n gi pt e l e p h o n e s oi th a sd i r e c t l y i m p a c to nt h eo p e r a t i n g i n c o m eo fc o m m u n i c a t i o n n e t w o r kb yp r o v i d i n gs u b s c r i b e r st h e q u a l i t y o fv o i c es e r v i c e i th a s a l r e a d yb e c o m et h et a r g e to fo p e r a t o r st h a tp r o v i d i n gg o o d t r a n s m i s s i o n q u a l i t yo f v o i c es i g n a la n dr e d u c i n g t r a n s m i s s i o nc o s t v a d ,v o i c ea c t i v e d e t e c t i o ni sa ni m p o r t a n tb a s i ct e c h n o l o g yi nc o m m u n i c a t i o ns y s t e ma s t oc o n t r i b u t et oi m p r o v et h ev o i c eq u a l i t ya n dr e d u c eb a n d w i d t hc o s t 。s o i ti sv e r yu s e f u lt ob ee n g a g e di nt h i sr e s e a r c h t h er e t a e dw o r kt h ea u t h o rd i da r e 氇ef o l l o w i n g : c o l l e c ta n ds t u d yt h et h e o r yo ft h eb a s i ct e c h n o l o g yo f v o i c e d e a l i n g ,v o i c e d e t e c t i o na n d a l g o r i t h m ,r e a d t h er e l a t i v e r e g u l a t i o n sa n dp r o t o c o l s ,w e l lk n o w a b o u tt h et h e o r ya n db a s i c a l g o r i t h mo f v o i c e d e t e c t i o n 。 p a r t i c u l a r l yr e s e a r c ho n t h ev a d a l g o r i t h mb yi t u t ,u s e di n t h ee t s im o b i l ec o m m u n i c a t i o ns y s t e m ,m a k e e v a l u a t i o n s a b o u tt h e s u b j e c t i v e a n d o b j e c t i v ep e r f o r m a n c e o fv a d a l g o r i t h m t a k ec h a r g eo fd e s i g n i n ga n dd e v e l o p i n gt h ev o i c ed e t e c t i o n m o d u l eo fv o i c e q u a l i t y d e t e e 基o n s y s t e m 。t e s t a u d i oc a r d , s e l e c t t y p e a n dd e t e r m i n ea u d i os i g n a ld e t e c t i o na l g o r i t h m , s e l e c ta n dp r o g r a mt h eg o e r t z e la l g o r i t h m b a s eo ns y s t e m p e r f o r m a n c er e q u i s i t i o n t h e nb u i l t at e s tp l a t f o r mi nt h el a b , a n df i n i s ht e s t i n ge x p e r i m e n t m a k ea n a l y s e ,i m p r o v e m e n to n 斑 北京邮电大学碛士研究嫩学位谂文 t h em o d u l e p e r f o r m a n c eb a s eo n t h er e s u l t so f e x p e r i m e n t s ,a n d b r i n g f o r w a r dt h ee f f i c i e n tm e t h o do f d e v e l o p i n g c o m m u n i c a t i o nn e t w o r kv o i c e q u a l 磅d e t e c t i o ns y s t e m i np c t h ea u t h o rd i ds o m er e s e a r c ha n d a n a l y z eo nt h e o r ya n da p p l i c a t i o n o nd e t e c t i o nt e c h n o l o g y t h eo r d e ro f t h e p a p e r i sa sf o l l o w i n g : c h a p t e r 1 :d e s c r i b et h eb a s i c c o n c e p t s o fe a c hf i e l d so fv o i c e t e c h n o l o g y , a n d i n t r o d u c et h ef u n d a m e n t a lo fv o i c e s i g n a ld e a l i n g t e c h n o l o g y , a n a l y z e s o m eb a s i cm e t h o d s i n c l u d i n g t i m ed o m a i na n d f r e q u e n c y d o m a i n 。 c h a p t e r2 :r e s e a r c ho nt h ed e t e c t i o nt e c h n o l o g yo fv o i c es i g n a l a n a l y z ev a da l g o r i t h mt h e o r y , t h ea l g o r i t h mb yi t u t & e t s i a n dt h e r e l a t i v ee v a l u a t e ss t a n d a r d s p a r t i c u l a r l y m a k ea n a l y s e o nt h e i m p l e m e n t a t i o n o fv a di np r m a p r o t o c o l ,g s m m o b i l ec o m m u n i c a t i o n s y s t e ma n di pt e l e p h o n e c h a p t e r3 :d e s i g n a n d i m p l e m e n t as t r u c t u r eo fv o i c e s i g n a l d e t e c t i o nm o d u l eb a s eo nt h er e q u i r e m e n to fv o i c e q u a l i t y d e t e c t i o n s y s t e m ,a n a l y z e i t s p e r f o r m a n c e a n d g i v ei m p r o v e m e n t m e t h o d b y e x p e r i m e n t s k e yw o 硒s :v o i c e a c t i v i t y d e t e c t i o n v a d a l g o r i t h m v o i c e v o i c e s i g n a lp r o c e s s i n g q u a l i t y 撑 v s 8 窖3 3 一 独创性( 戚创新憔) 声明 本人声明所呈交的论文是本人农导师指导下进行的研究工作及取褥的磷究 收址。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人融经发表域撰写过的研究成果,也不包含为获得j b 京邮趣大学或熟他 教育机构的学位或证书而使用过的材料。与我一同工作的同恚对本研究所做的任 何贡献均已摆论文中作了明确的说明并表示了谢意。 申请学位论文与涤料若肖不实之处,本人承担一切相关责任。 本人签名:应重盘圣日期: 耋! ! 生:主:生 l 关于论文使用授权的说明 学位论文作者完全了解j 索都嘏大学有关傈留鞠往蔫学位论文的蕊定,帮: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留舞向国家有关部门或梳稳遴交论文的复印 牛和磁焱,允许学位论文被查藤器倍 阅;学校可以公布学位论文的全部或部分内窬,可以允许采用影印、缩印或其它 复翻手段保存、汇编学位论文。( 保密的学使论文巍解密螽遴守魏蕊定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 乏泫释:本学位论文不羼予保密莛戮,适焉本授蔽书。 本人签名:垄8 暨l 盐翻期:挫! 生:;:生 导师签名:彳轻嫩瓣鬻:显显孥:! 霉 北京邮电大学硕士研究生学位论文 第一章语音处理概述 语音处理是研究用数字信号处理技术对语音信号进行处理的门学科。处理 的目的是要得到一些语音参数以便高效的传输或存储,或者使用过某种处理运算 以达到某种用途的要求,例如人工合成语音、语音识别、语音检测。这是新兴的 边缘学科,是语言一语音学和数字信号处理两个学科的总和。现代语音处理技术 的发展,综合了信号处理、声学、模式识别、通信与信息理论、计算机科学、数 学等学科的理论。 语音技术的主要研究对象包括有:语音压缩和编码、语音识别、语音合成、 说话人识别等。 1 1 语音技术概述 l ,1l 语音压缩和编码技术 近年来,随着人类社会信息化进程的加快,语音压缩编码技术也在迅速发展, 在移动通信、卫星通信、和口电话通信中得到了广泛的应用。作为语音处理技 术的重要研究方向之一,下面对语音压缩编码技术的现状与发展予以讨论。 现代通信的重要标志是数字化,而要实现数字化首先得把模拟信号转变为数 字信号,这种变换对语音信号来说就是语音编码。为了提高语音编码和语音信号 数字传输得有效性,通常还要进行语音压缩编码。另外,根据编码速率得高低还 可分为中速率和低速率两大类。 i u 常用的语音压缩编码基本技术包括:线性预测语音生成模型、矢量量化、 7 芘台编码。 自从2 0 世纪3 0 年代末提出p c m 及通道声码器以来,语音编码技术已有7 0 余年得发展历史,但只有近2 0 年随着计算机和微电子技术得发展才获得飞速得 发展。尤其是近几年来高质量语音压缩编码得技术已经开始大规模走向实用化, 各种国际标准得制定均集中反映了这种技术发展得水平和趋势。这些标准均根据 应用背景,对编码质量、编码速率、编码时延以及算法复杂程度等进行总和权衡 和最佳选择而制定的。以期在实际应用中获得最佳的效益。表一为国际上的一些 语音编码标准的性能以及主要应用。此外有些国家和国际组织也制定了自己的标 准,如北欧、北美、日本等都先后公布了他们的数字蜂窝移动通信系统的标准, 分别采用了1 3 k b i t s 带时长预测规则码激励( r p e - l t ) 线性预测编码、8 k b i t s 矢量和激励线性预测( v s e l p ) 及6 7 k b i t s 的v s e l p 编码等方案。国际海事卫 北京邮电大学硕士研究生学位论文 星组织( i n m a r s a t ) 于t 9 9 0 年翩寇的语音压缩编粥标准采用了4 5 k b i t j s 的变 速率语音压缩编码的标准,即c e l p 类型,叫做q c e l p ,并纳入了i s ,9 5 标凇。 1 1 2 语音识别 对于诗算聿凡系统,语音波搀l 按寒主要是攒蒸于语裔遗毒亍缝瑾戆技术,主要毯 捂晤爵识别技术和语罾合成技术,是信息技术处理领域的前沿技术。 潺毒识爱( s r ,s p e e c hr e c o g n i t i o n ) 技术是据诗算掇系绞镌够校据凌入豹语 音识别出其代表的具体意义,进而完成相应的功能。一般的方法是事先让用户朗 读鸯一定数豢文字、德号的文档,逶遴录音装霪输入劐诗算攒,予是诗舞瓠裁滤 备好了用户的声音样本。以后,当用户通过谱音识别系统操体计算机时,用户的 声音遴过转换装菱进入计算掇建部,添蠢识剽技拳便将瘸户毒萋入弱声誉与事炎存 储好的声音样本进行对比。系统根据对比结聚,输入一个它认为最“藩”的声音 样本謦号,裁以知道曩户溅方念弱声音是幢么意义,进恧执行托会令。嚣魏逶 过语密识别技术,计算机可以“听”懂人类的语言。 基啬识别鲍定义 语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信母中 最基本、最有意义的臻息蠡冬门薪兴的边缘学科。它是语音镶号处理学辩的一个 分支。显然,有意义、有内容的信息怒构成语音音韵特性、即语音的必性特征之 琏础,圉此也可将其称为音韵信息。从广义上漤,语赣识别也包括了对说话人鸵 识别( s p e a l ( e rr e c o g n i t i o n ) ,其主要内缛是提取语音信号中有关个人特征的信息、 即语裔的个憾特征( 如:音镶特性等) ,在这器专指糍意义、有志容的识别。 语音识别所涉及的学科领域相当广泛,如:信母处理、物理学( 声学) 、模 式匹配、通信及信息理论、语言语音举、生瑷学、计冀极科学( 研究软硬件爨法 桫、便有效地实现用于识剐系统中的各种方法) 、心理举等。 话音识别的基本愿理。 语音识别的原理框图如图1 1 新零。如鞠所示,识剐有意义、有内容的语音 信息的基本方法是:预先分析出语音特征,按照要求送给机器储存越来,这个语 裔参数库中的语音参数称为“模板( t e m p l a t e - b a s e d a p p r o a c h ) ”,而这一过程称为 ”嘲;1 1 r a i n i n g ) ”。接麓,送来识别的语音( 又称待识语音) 经过与训练时相同 的分耩,得到语音参数,将它与库串瀚参考禳板一一阮较,并采用判决的方法我 出最接近语纛特征的模板,得出识别结果,这一过程就称为“识搬e c o g n i t i o n ) ”。 当然,在进行院较辩要有个标准,逮就是计囊语音参数矢鬣之蔺静“失真澜度 ( d i s t o r t i o nm e a s u r e s ) ”。即:失真最小的那个模板所代表的内容就是识别的结果。 器蓠,鬻两的语音识剐算法霄:基予模式匿鬻酶动态辩漓瓣芷法p 鞭: d y n a m i ct i m ew a r p i n g ) 、簇于统计模型的隐马尔柯夫模型法( h m m ;h i d d e n 北京邮电大学硕士研究生学位论文 m a r k o v m o d e l ) ) 以k 基于神经网络的识别法( d n n 、n p n 、t d n n ) 等。 语音信 输入 图1 1 语音识别原理图 识别 结果 构词规则 同音字判决 语法语义 背景知识 语音识别的分类 语音识别可以从三个方面进行分类。 ( 1 )按语音识别器的类型 孤立单词识另l j ( i s o l a t e dw o r dr e c o g n i t i o n ) 对汉语语音来说,识别的单元为字、词或短语,它们组成识别的词汇表 ( v o c a b u l a r y ) ,对它们中的每一个通过训练建立标准模板或模型。待识别的语音 垃这螳宁、词或短语中的某一个。 连续晤音识另l j ( c o n t i n u o u ss p e e c hr e c o g n i t i o n l 连续单词识别( c o n n e c t e dw o r dr e c o g n i t i o n ) 以比较少的词汇为对象,能够完全识别每个词。识别的词汇表和标准样板或 模型也是字、词或短语,但识别时可以是它们中间几个的连续,其中典型的有: i 司汇表中包括“0 ”到“9 ”十个数字,识别时可以说“3 ”、“2 7 ”、“6 5 9 ”等 等。 连续言语识别与理解( c o n v e r s a t i o n a ls p e e c hr e c o g n i t i o n ) 以多数词汇为对象,待识的语音是一些完整的句子。虽然不能完全准确识别 每个单词,但是能够理解其意义,连续言语识别也称会话语音识别。理解是在识 别j 语音之后,根据语言学知识来推断语音的含义内容的。 ( 2 ) 按语音识别器对使用者的适用情况 特定人语音识 j l j ( s p e a k e r - d e p e n d e n t ) 语音识别的标准模板或模型只适应于某个人,实际上,该模板或模型就是该 人通过输入词汇表中的每个字、词或短语的语音建立起来的( 称为训练: t r a i n i n g ) 。其他人使用时,需同样建立自己的标准模板或模型。 北京邮电大学硕士研究生学位论文 非特定人语音识别( s p e a k e r - i n d e p e n d e n t 、 谬音识别的标准模板或模型适应予指定的某一范畴的说话人( 如说标准蛰通 话) ,标准摸缀或模型由该范畴的多个入通过渊练而产生。识剐时可供参加诩练 的发裔人( 嘲内人) 使用,也可供未参加训练的同范畴的发音人( 豳外人) 使 用。 ( 3 )按语音词汇表的大小 有限词汇识掰 按词汇表中字、调或短旬个数的多少,大致分为: 1 0 0 以下为,j 、词茫;l o o 1 0 0 0 为中词汇;1 0 瀚激上戈大谲汇。 无限词汇识别( 全音节识别) 当谈鬟基元为汉潺营逶落中对应掰寿汉字静可读音节辩,爨穗其巍垒音节语 音识别( 音节字表:l e x i c o n ) 。全音节语音识别是实现无限词汇或中文文本输入 静基继。 l ,3 语音台成 语音合成技术是将计算机自己产生的或外部输入豹文字信息,比如文本文件 内容、w o r d 文牛内容等文字信患,语音处理援剐转按戍港蛮信号输出,馒计 算机流利地读出文字信息,人们通过“听”就可以明白信息的内容。也就是说, 使计够规具奄了“说”的能力,能够将售息“读”给人类听。这静将文字转换成 诗音的技术称之为文语转换技术,简称t t s ( t e x tt os p e e c h ) 技术,也称为语 音台成技术。 语音合成技术涉及声学、语言学、数字髂号处理技术、多媒体技术等多个领 域,是当今世界强国竞相研究的热门技术之一。20 世纪60 年代英文t t s 系 t 前兜被研制出来,8 0 年代我国开始介入汉字t t s 领域的研究。中科院声学所 蠡兜h 始汉谗合成的研究。之后,社科院语嵩所、清华大学、中国科技大学、北 方交通大学等单位陆续开震了对汉语t t s 的研究。间时,台湾交通大学、食湾 大学和国际上的b e l l 实验室也研制汉语t t s 系统。 近年来,在国家“8 63 ”智能计算杌主题的支持下,汉语订s 投术有了长足 的进步。清华大学、中国科大、中科院声学所等单位都在这领域取褥了很好的 成绩,有些研究成采疆经转化为产品得到了实际莳应用。如清华大学豹s o n i c 系 统,中国科技大学的d k - 8 6 3 汉语文语转换系统,杭州三汇公词的中文t t s 系统, 捷道公司的嵌入式t t s 汉语语音系统,讯飞公司的k d 2 0 0 0 汉语文语转换系统 等。世界上其它国家也已研究出汉、英、法、日、德等多种语言的t t s 系统。 矧b e t 实验嶷、a t r 和s i e m e n s 公司等。法国c n e t 实现静多语稀t 1 s 毫瘸予 电话网中的公共话音服务。1 9 9 9 年,在口语处理国际会议期间还举行了语街合 4 北京邮电大学硕士研究生学位论文 成系统的评比,十几种语言的几十个系统参加,其中有5 个是汉语系统。 语音合成技术的方法 语音合成技术可分为参数合成和波形拼接两种方法。早期的研究主要是采用 参数合成方法,它是计算发音器官的参数,从而对人的发音进行直接模拟。如著 彰的k i l t 的共振峰合成系统。在汉语语音合成方面,研究人员研制出了一些基 j i 抓峰模型的应用系统。如社科院语言所的s i f s 合成器、中科院声学所的k x l 系统中基于h o l m e s 的并联型共振峰合成器模型,而同样由中科院声学所开发的 第二代共振峰合成器k x f s s 则基于k l a n 合成器。 由于准确提取共振峰参数比较困难,虽然利用共振峰合成器可以得到许多逼 真的合成语音,但是整体合成语音的音质难以达到文语转换系统的实用要求。因 此后来又产生了基于l p c 、l s p 等声学参数的合成系统。l p c 合成技术的优点 是简单直观,对于单个合成基元来说能够获得很高的自然度。 l p c 合成技术是一种时间波形的编码技术,从本质上来说只是一种录音加重 放对于合成整个连续语流,l p c 合成技术的效果是不理想的。自20 世纪8 0 : 。 未期至今,语言合成技术又有了新的进展,特别是基音同步叠加( p s o l a ) 方法的提出( 1 9 9 0 ) 使基于时域波形拼接方法合成的语音的音色和自然度大大提 高。p s o l a 技术的主要特点是: 在拼接语音波形片断之前,首先根据上下文的要求,用p s o l a 算法对拼接 荦元的韵律特征进行调整,使合成波形既保持了原发音的主要音段特征,又能使 拼接单元的韵律特征符合上下文的要求,从而获得很高的清晰度和自然度。 20 世纪9 0 年代初,基于p s o l a 技术的法语、德语、英语、日语等语种的 文语转换系统都已经研制成功。这些系统的自然度比以前基于l p c 方法或共振 峰合成器的文语合成系统的自然度要高,并且基于p s o l a 方法的合成器结构简 r 锄j 二实时实现,有很大的商用前景。 最近几年,一种新的基于数据库的语音合成方法正引起人们的注意。在这个 方法中,合成语句的语音单元是从一个预先录下的庞大的语音数据库中挑选出来 的,不难想象只要语音数据库足够大,包括了各种可能语境下的语音单元,理论 。琳有可能拼接出任何语句。由于合成的语音基元都是来自自然的原始发音,合 j ,ko 旨句的清晰度和自然度都将会非常高。 目前,主要的语音合成技术是共振峰合成技术和基于p s o l a 算法的波形拼 接合成技术。这两种技术各有所长,共振峰技术比较成熟,有大量的研究成果可 以利用,而p s o l a 技术则是比较新的技术,具有良好的发展前景。过去这两种 技术基本上是互相独立发展的,现在许多学者开始研究它们两者之间的关系,试 图将两者有效地结合起来,从而合成出更加自然的语流。例如清华大学的研究人 北京邮电大学硕士研究生学位论文 凝迸 r 了将共振峰修改技术应用予p s o l a 算法的研究,并用于s o n i c 系统的改 进,磺制出了具有更离自然发的汉语文语转换系统。 随着人们对语音含成的翻然度和音质的簧求越来越高,p s o l a 算法表现出 对韵律参数调蹩能力较弱和雉以处理协同发费的缺陷。因此,人们又提出了一穗 纂予lma ( 对数振幅近儆) 声道模溅的语音合成方法。这种方法弱传统方法相 比,具有音质好,对时长和声调适应性强,可以灵活调节韵律参数等优点。比较 好的解决了p s o l a 算法难戳解决豹协同发黹问题,因诧具有比p s o l a 算法更 高的含成音质。 语音台成技术的纂本结构 ”r r s 的糕本结构可分为语言学处理、韵律处理和声学处理三大横块。工作流 程f 窝辑示。箕基本工作嚣理楚:事先将全部蕊汉语音节滋行录音,形成警颁 数据,以音瘁的形式存放在计算机的磁盘上,以供调用。然厝用键盘、光电扫描 等输入手段,形成a s c i i 文本文佟( 最耨的系统氇龛诲为w o r d 文 牟、 i n t e r n e t 文档,如博欣文公司的电脑播费员) 存放在磁盘上。系统运行时, 先穗a s c i i 文车文 孛迸幸亍谮畜学照疆、瀚鬻楚瑾,褥到语流控铡参数。然纛读 取音库,从音库中得到对应的音频数据,再缝声学处理形成避续的谮声流,即完 戒了麸文本裂语音懿转换过程。 语言学处理模块 浮言学鲶瑾在文潺转换系统孛起麓重要豹终羁,塞要摸熬人对鑫然语言豹理 解越栏,使计算机对输入的文本能究全理解并给出后两部分所需的各种发黹提 示。箕工佟避疆可以分爻三个主要步骧: ( 1 ) 文本规摧 涛竣入酌文本瓣莲往。凌这令_ 蘧程孛,要查找攥写锤误,势将文本串赛凝戆 一些不规范域无法发音的字符过滤掉。 ( 2 调熬甥分 分析文本中词或短语的边界,确定文字的读音,间时分析文本中出现的数字、 姓氏、特殊譬餐、专窍强语数及墨耪多啻字瓣读音方式e f 3 1 语法分析和语义分析 校攥文本筑结构、组成秘不圈鬣霪上爨现蛉栋点符号,礁定语气夔变换以及 不褂音的轻髓方式。最终,文本分析模块将输入的文字转换成计算机能够处理的 内部参数,便于后续模块邀一步处撰劳生成楱痰的傣惠t 韵律处理 为台戏语音越划蹬音段特征,如音赢、鼗长帮畿强等,使合成语音能正确表 达语意,听起来更加自然。韵律处瑷有基予规刚和数据驱动两种方法 6 北京邮电大学硕士研究生学位论文 声学处理 根据前两部分处理结果的要求输出语音,即合成语音。 t t s 技术的应用与发展方向 t t s 技术已广泛用于电子文档的有声输出和声讯有声服务。例如:( 1 ) 金融: 帐目查询、交易委托;( 2 ) 邮电:话费查询、话费催缴;( 3 ) 航运:货运查询、 客运查询、票务处理:( 4 ) 政府:税务催缴、工商服务;( 4 ) 企业:语音信箱、工 业遥控;( 5 ) 教育:高考咨询、辅教服务;( 6 ) 信息:中介服务、商情通告。 t t s 将在下面几个方向发展:( 1 ) 提高语音合成的自然度,达到更加流利和 自然的程度。( 2 ) 丰富合成语音的表现力,使得t t s 技术可以实现各种音色( 包 括不同性别、不同年龄等) 的语音输出。( 3 ) 解决中文与其它语种混读问题。( 4 ) 实现多语种的语音合成,即实现方言、少数民族语言的合成技术。( 5 ) 降低语音 合成技术的复杂度,减少音库容量,扩大应用领域。( 6 ) 与网络技术相结合。( 7 ) 可视化的语音合成技术。( 8 ) 为各行业提供t t s 核心技术和解决方案,特别是 c t i 知嵌入式系统。 1 町以预料,随着t t s 技术的进步和t t s 与其它各种新技术的相结合,语音 合成技术必将在更为广泛的范围内得到推广和应用。 1 1 4 说话人识别 说话人识别( s p e a k e r r e c o g n i t i o n ,s r ) 技术是以话音对说话人进行区分, 从而进行身份鉴别与认证的技术。在国外,说话人识别技术获得了广泛的研究, 同时也有少量成熟产品问世。a t & t 、t i 与美国著名的通讯公司s p r i n t 都已经展 开了在声音识别领域的实验和实际的应用。 说话人识别技术有着广阔的市场应用前景。通过s r 技术,可以利用人本身 小物特性进行身份鉴别,例如为公安部门进行语音验证、为一般用户提供防盗 门丌启功能等等。在互联网应用及通信领域,s r 技术可以应用于诸如声音拨号、 电话银行、电话购物、数据库访问、信息服务、语音e m a i l 、安全控制、计算机 远程登录等领域。在呼叫中心应用上,s r 技术同样可以提供更加个性化的人机 交互界面。当顾客以电话方式对呼叫中心进行请求时,系统能够根据话音判断出 束旨的身份,从而提供更个性化、更贴心的服务。 s r 的技术实现 s r 有着深刻的技术背景,其基本原理是通过分析人的发声和听觉,为每个 人构造一个独一无二的数学模型,然后再由计算机对模型和实际输入的语音进行 精确匹配,根据匹配结果辨认出说话人是谁。该原理闻说话人的生理特性和行为 特性密切相关。“人”的生物特性既存在于声谱表面( 即声道特性) ,也存在于声 音的来源或数个不连续的声音片断中。从人的这些特性中可以提取出有效的音频 北京邮电大学硕士研究生学位论文 特征,进行数学建模,并将与之相关的资料存进数据库。s r 服务器荐根据输入 的音频特征在数据库里进行检索,从而进行精确匹配。在国内的s r 研究中,南 京北极星软件公司的研究已走在了前列,它主要构造了“训练模块”和“识别模块” 来实现s r 技术。 训练模块 s r 系统的训练模块通常由两个部分组成,即音频特征提取部分和构造数学 模型部分。在提取音频特征时,根据人的发声原理和听觉原理,采用了m f c c 和l p c c 的特征提出算法。该算法可以从人的声音中提取出能量分布谱,从而从 声音数据中获得说话人的独特特征。但是当人说不同的话时,分布谱会受到影响。 也就是说,即使是同一个人,如果说的话不同,声音分布谱也不相同。为了解决 这个问题,就必须构造数学模型。 构造数学模型采用的是g m m 和c h m m 的算法。它可以将人在多个短时间 内的能量分布谱构造成多个高斯分布。通过e m 算法进行训练,找出最为合理的 高斯分布组,从而可为每个说话人构造出一个独一无二的数学模型。 识别模块 s r 系统的识别模块也由两个部分组成,即音频特征提取部分和数学模型的 概率估计部分。在提取音频特征时,采用的方法和训练模块相同。而在做概率估 计时,需先将特征提取的结果带入到原来训练出来的数学模型中,计算出概率, 将多个特征谱的概率取对数求和,就能计算出该说话人是否符合这个数学模型的 概率。概率较大时即可进行身份确认和检验。 1 2 语音信号数字处理技术 在当今高度发达的信息社会中用数字化的方法进行语音的传送、存储、识别、 台成和增强是现代数字化通信网中最重要、最基本的组成部件之一。语音信号数 字处理涉及的技术面很广,与语音学,语言学、统计学等学科密切相关。语音处 理的研究涉及到应用、算法和硬件系统三方面的相互密切配合。 语音信号处理课题是由应用来驱动的。在语音编码领域,数字化的语音传输 和存储在可靠性、抗干扰性、成本等方面都远胜于模拟技术。另外,在i s d n 、 1 通信、移动通信、微波通信等现代通信系统中,数字处理技术成为关键技术 之一。随着人类社会数字化趋势,数字处理技术在现代通信中将会发挥越来越重 要作用。 对语音信号处理的基础理论和各种算法的研究可从两方面来进行:一是从语 音的产生和语音的感知来对其进行研究,前者涉及大脑中枢的言语活动,从而造 成声波的传播或者涉及入耳对声波的搜集并经过初步处理后转换成神经元的活 动,然后逐步传递到大脑皮层的语言中枢。这种研究和语音学、语言学、认知学、 北京邮电大学硕士研究生学位论文 心理学和神经生理学等密不可分;二是将语音作为一种信号来处理。一系列的数 字信号处理和算法都可以成为这个研究方向的有力工具。 实时的语音信号数字处理系统通常以两种方式实现:第一种是用一台计算机 作为主机附加数字信号处理板来构成,这种处理板一般由数字信号处理芯片、相 应的存储芯片、接口芯片以及a d d a 转换芯片组成,又称为非脱机工作系统, ,埘j 于识别、合成、增强或模拟试验中。第二种则由专用或通用的d s p 芯片及 其它辅助芯片构成独立工作的系统,又称为脱机工作系统,用于编码、小词汇识 别与合成等应用中。 121 短时分析与窗函数 ? 菩音信号的一个重要特点是它的“短时性”。在一些短时段中呈现出随机噪 声的特性,另一些时段则呈现周期信号的特征,其它则是二者的混合。简而言之, 语音信号的特征是随时间而变化的。只有在一段短时间间隔内语音信号才保持相 对稳定一致的特征,这段时间一般可以取为5 5 0 m s 。因此,对于语音信号的分 析和处理必须建立在“短时”的基础上。最重要的语音信号短时特征和短时参数 包括它的“短时能量”、“短时过零率”、“短时相关函数”、“短时频谱”。 语音信号的数字化 数字信号是指时间和幅度均为离散的信号。为了把模拟信号交换成数字信 扎必须经过取样和量化这两个步骤。 r 1 ) 取样【s a m p l i n 勤:如图2 1 所示,取样是将时间上连续的信号x 。( t ) 离散 化成一个样本序列x ( n ) = x a ( n t ) ,t 是取样周期( s a m p l i n gp e r i o d ) ,其倒数称取样 , 频率( s a m p l i n gf r e q u e n c y ) 。取样后的信号称离散信号( d i s c r e t es i g n a l ) 。被取样的模 拟信号的频带和取样周期之间,存在着香农一染谷的取样定律。即,模拟信号 x 。,( t ) :乏到带宽0 w ( h z ) 限制时,若每隔t = i ( 2 w ) ,对x 。( t ) 进行取样处理,则从 样值序列就完全能够再现原样波形。当于信号的频带w 不明确时,需要在取样 前接入低通滤波器,以进行带宽限制。若取样时不能满足取样定理,就会产生所 谓的折叠失真( a l i a s i n gd i s t o r t i o n ) ,如图1 3 所示,信号中的高频成分将发生失真。 ( 2 ) 量化( q u a n t i z i n g ) :量化是将上述样本序列中的样本幅度再加以离散化。 洲f _ j 有限个值中的一个近似地表示某个波形的取样值。设信号范围为ix ( n ) i x m a x ,则为了有效地使用二进制代码,一般将峰值到峰值的范围表示成: 2 x m a x = 2 8 ;( 1 1 ) 式中,表示量化级;2 8 为电平数。量化后的样值和原有模拟值的误差e ( n ) 称为量化暝差或量化失真或量化噪声( q u a n t i z a t i o n n o i s e ) 。若根据式( 1 - 1 ) 来选定 和b ,则量化噪声就由式( 1 2 ) 决定。 2 e ( n ) 2 ( 1 - 2 ) 9 北京邮电大学硕士研究生学位论文 x 。f t ) :模拟波 | 薹 擞 詹静和嚆繁一 一f w v 瓣游 专嚣饿罨 辇醯丛么& os 2 s 毵鬈 r 柚准确敏样f s 2 w l t 折叠冀冀 羹漶捡幺& 0s 2 s 强帛 m 、非准确取榉时f s 2 w 、 图1 2 波形的取样处理 图1 3 非准确取样时的折叠必真 矮时分析的概要 一 在第二章中,我翻己经知遭,落毒信号暴弯短游平稳特瞧( 爨魏,可敬试荛 在l o 2 0 m s 内语音信号近似不变) ,因此可将语音信号分成一些段来进行分析 楚鬈。这些缀段语謇蒺毒霾迩豹将魏,这释分撰处毽方法裁禳秀“爨爨”分辑方 法。 靴f 小= x f i + n ) w * 棘, 图1 4 分蜮示煮湖f 矩形窬、 从语音信号流中切取出短时语鬻信号的过程称为分帧。如图1 4 所示,语音 信号蟾分蛟是通过可移动鲍骞限长发塞口进褥加权戆方法来实现的慝中,餐v l 勾豫形窗( 长度为n ) ,。i ( n ) 袭示从离散信号x ( n ) 取出的第j 帧的短时信号。当然, 也西咀采用其它形式鲍窑口泉进行分峻处理。 一般,我们把乘以窗函数后取出的短时语音区阕部分称为帧,这个区间的长 度栋为帧长,霹饺这令区间移动的髑期称为蜮周期e 咒种熙型的窗醋数 式( 1 3 ) 、式( i 4 ) 和式( 1 5 ) 给出了三种常糟的窗涵数。 1 0 j l 寒鄄毫大学硬圭研究生擎证论文 ( 1 )矩形密 w r ( n ) = ( o n n - 1 ) 其它 汉明密( h a m m i n g ) 广o 5 4 一o 4 6 c o s ( 2 n ( n 1 ) ) w h ( n ) = 、簇它 哈宁窗( h a r m i n g ) r o 5 0 0 5 0 c o s ( 2 n ( n 1 ) ) w h ,( n ) 一1 飞其它 ( 1 - 3 ) ( o n n 1 ) ( 1 - 4 ) ( 0 n n 1 ) ( 1 5 ) 渡形桑蓉汉鞲窑时,迸缩了接近函数两端静捧分波形,这等效予分析羯的醒 州缩短了4 0 左右,因此频率分辨率也随之下降4 0 左右。所以,即使在周期 性鹾显的注音额谱分祈中,乘敬合适静鬻函数,兹藐捧懿薹啻凰麓分拆黻润的稳 对相位关系的变幼影响,从而可以得到稳定的频谱。这样,由予等效分析区间的 缩簿,海了遥踩麓霹蓠交位豹簸谱,要求一部分嚣润佟嚣复移动。汲蘩鬻在逶帮 外的衰减要比矩形窗小得多,而且通带与阻带起伏也比较小。 1 2 2 时域方法 处理语音信号的目的在于为了获得能更方便、有效的得到语皆信号所携带的 拉息自0 龙法,这荸孛方法嫒蔫要黪准确发楚由语警信号中特定豹信息掰决定豹。 以时域量度来描述谱音信母的一些例子包括有平均过零率、能量和自相关函 数。壹予这些方法对数字处理熬力的要浓较为楚单,魇以具有较为广泛的应用, 而同时这些方法尽管简单但却较为有效。 眷一j i 多数的语音处理方案中,一般假设语喾信号特性随时阅的变化非常缓 慢。这样就能推出不同的“短时”的处理方法,此时,语音信号被分隔为一些麓 时段再加以处理。这些短时段就好象是来自一个固定特性的持续语音片断一栉。 这些短时段一般都按要求重复( 通常是周期性) 。这些斑时段一般被称为分析帧, 彼此经常有一些
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 钢筋套筒灌浆连接技术培训(现场安装篇)
- 一体卫浴外包合同
- 上门取件外包合同
- 会计劳务外包合同
- 仓储作业外包合同
- 会展服务外包合同
- 信息流外包合同
- 光伏劳务外包合同
- 公司卫生外包合同
- 兼职劳务外包合同
- 20kV及以下配电网工程预算定额(2022版)全5册excel版
- 2025福建龙岩国信物业有限公司招聘5人笔试历年难易错考点试卷带答案解析
- 球墨铸铁管监理实施细则
- SAE AS9100D 航空航天质量管理体系培训课件
- 2026中考英语时文热点:跨学科融合阅读 练习(含解析)
- 2025年全国初中应用物理竞赛试题及答案
- 2025 小学一年级数学上册数学课堂观察记录课件
- 你来比划我来猜
- 2025年长春市轨道交通集团有限公司校园招聘笔试历年题库(693人)附答案解析
- 2025年江华县事业单位联考招聘考试历年真题附答案
- 借名贷款买车协议书
评论
0/150
提交评论