(计算机应用技术专业论文)会议语音的混响消除及其大词汇量连续语音识别的研究.pdf_第1页
(计算机应用技术专业论文)会议语音的混响消除及其大词汇量连续语音识别的研究.pdf_第2页
(计算机应用技术专业论文)会议语音的混响消除及其大词汇量连续语音识别的研究.pdf_第3页
(计算机应用技术专业论文)会议语音的混响消除及其大词汇量连续语音识别的研究.pdf_第4页
(计算机应用技术专业论文)会议语音的混响消除及其大词汇量连续语音识别的研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机应用技术专业论文)会议语音的混响消除及其大词汇量连续语音识别的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 语音识别技术的应用前景是无限的。应用语音的自动理解和翻译,可以消除 人类相互交往的语言障碍。随着i n t e r n e t 网的爆炸性扩张,电子商务的迅速发展, 语音识别技术将为网上会议、商业管理、医药卫生、教育培训等各领域带来极大 的便利。 随着近代计算机技术的飞速发展,大词汇量连续语音识别系统已经取得了较 高的识别准确率,语料库的选择也由干净、单一的实验室环境下语料转为混杂着 噪音、混响复杂环境下的语料。真实环境下的语音识别成为研究的热点。 论文围绕美国加州伯克利大学i c s i 研究所提供的会议语料库,分析了影响识 别率的三个原因:噪音、混响、说话人重叠。通过研究,旨在应用各种算法提高 i c s i 会议语料库的基线识别率。论文首先对语音识别系统的结构、语音模型、语 言模型进行描述,然后分析了混响信号和混响模型,陈述了消除混响的基本方法, 接着描述了i c s i 语料库的构造和特点,最后分别提出了三种算法来消除噪音、混 响和说话人重叠并且进行了实验。对i c s i 数字语料库进行识别时通过减谱法和长 时减谱增强语音后,识别率由6 4 上升到9 1 。在对i c s i 会议语料库进行识别时, 根据上述的两种方法加上说话人检测消除说话人重叠技术,识别率提高了3 0 。 本文结合了信号处理和语音识别两项技术,其创新性在于:通过混响模型定 义,提出后混响方差估计与减谱法结合的算法以达到消除混响和噪音的双重目 的;并且根据互相关系数,检测重叠说话人的主导说话人,从而对语料库进行修 改,以达到消除重叠说话人语音对语音模型训练的影响。 关键词:语音识别;混响消除;说话人检测 a b s t r a c t a b s t r a c t s p e e c hr e c o g n i t i o nt e c h n o l o g yh a sm a n yp r o m i s i n ga p p l i c a t i o n s t h ea p p l i c a t i o n o fa u t o m a t i cs p e e c hu n d e r s t a n d i n ga n dt r a n s l a t i o nw o u l de l i m i n a t el a n g u a g eb a r r i e r o fi n t e r a c t i o n w i t ht h ee x p l o s i v ee x t e n s i o na n dt h er a p i dd e v e l o p m e n to f e - b u s i n e s s , s p e e c hr e c o g n i t i o nt e c h n o l o g yw i l lp r o v i d em o r ec o n v e n i e n c ei nm a n yf i e l d s , i n c l u d i n gn e t w o r km e e t i n g , b u s i n e s sm a n a g e m e n t ,h o s p i t a l ,e d u c t i o n ,c t c w i t ht h er a p i dd e v e l o p m e n to fc o m p u t e rt e c h n o l o g y , l a r g ev o c a b u l a r ys p e e c h r e c o g n i t i o ns y s t e mh a sb e e ni m p l e m e n t e dw i t hh i 曲a c c u r a c y t h ec o r p u ss e l e c t i o n h a sb e e nc h a n g e df r o mac l e a ne n v i r o n m e n tt oan o i s yo rr e v e r b e r a n te n v i r o n m e n t t h er e s e a r c ho ns p e e c hr e c o g n i t i o nu n d e rt h er e a le n v i r o n m e n th a sb e c o m eah o t t o p i c t h i sp a p e ra n a l y z e dt h ei m p a c to ft h er e c o g n i t i o na c c u r a c yo ft h r e ef a c t o r s :n o i s e , r e v e r b e r a t i o na n ds p e a k e ro v e r l a p ,b a s e do ni c s ic o u r p u s f i r s to fa l l ,t h ep a p e r d e s c r i b e dt h es t r u c t u r eo fs p e e c hr e c o g n i t i o ns y s t e m s ,a c o u s t i c sm o d e l sa n dl a n g u a g e m o d e l s t h e na n a l y z e s dt h er e v e r b e r a n ts i g n a la n dr e v e r b e r a n tm o d e l s , p r e s e n t sa b a s i cm e t h o dt oe l i m i n a t er e v e r b e r a t i o n t h e nd e s c r i b e st h es t r u c t u r ea n d c h a r a c t e r i s t i c so fi c s ic o r p u s f i n a l l y , p a p e rp r o p o s e dt h r e ea l g o r i t h m st oe l i m i n a t e n o i s e , r e v e r b e r a t i o na n ds p e a k e ro v e r l a pa n dc a r r i e so u tt h ee x p e r i m e n t w h e n p a s s i n gb ys p e c t r u ms u b t r a c t i o na n dl o n gt e r ms p e c t r u ms u b t r a c t i o n ,t h ea c c u r a c yo f t i d i g i tc o r p u sr e c o g n i t i o nh a si m p r o v e df r o m6 4 t o9 1 w h e n p a s s i n gb y d o m i n a n ts p e a k e rd e t e c t i o n ,t h e a c c u r a c y o fi c s i c o r p u sr e c o g n i t i o nr a t eh a s i m p r o v e d3 0 t h i sa r t i c l ec o m b i n e ss i g n a lp r o c e s s i n ga n ds p e e c hr e c o g n i t i o nt e c h n o l o g y t h e i n n o v a t i v ep o i n t si nc o m b i n i n gt h el a t er e v e r b e r a n tv a r i a n c ee s t i m a t i o na n d s p e c t r u m a l g o r i t h mt oa c h i e v ed e n o i s e da n dd e r e v e r b e r a t i o n m o d i f yt h ei c s ic o r p u sb y d o m i n a n ts p e a k e rd e t e c t i o nt oa v o i do v e r l a ps p e a k e ra f f e c to nm o d e l t r a i n i n g k e yw o r d s :s p e e c hr e c o g n i t i o n ;d e r e v e r b e r a t i o n ;d o m i n a n ts p e a k e rd e t e c t i o n 厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研究成果。 本人在论文写作中参考的其他个人或集体的研究成果,均在文中以明 确方式标明。本人依法享有和承担由此论文产生的权刹和责任口 声明人( 签名) : 年月日 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大 学有权保留并向国家主管部门或其指定机构送交论文的纸质版和电 子版,有权将学位论文用于非赢利目的的少量复制并允许论文进入学 校图书馆被查阅,有权将学位论文的内容编入有关数据库进行检索, 有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适 用本规定。 本学位论文属于 1 、保密() ,在年解密后适用本授权书。 2 、不保密( 4 ) ( 请在以上相应括号内打“”) 作者签名:绌 日期:年月日 导师签名:友叻孚 日期:年月日 第一章绪论 1 1引言 第一章绪论 让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。随 着计算机越来越恕匣携化方向发展,以及计算环境的日趋复杂,人们越来越迫切 要求摆脱键盘的束缚而代之以语音输入这种便于使用的、自然的、人性化的输入 方式。尤其是汉语,它的输入一直是计算机应用普及的障碍,因此,利用汉语语 音进行入机交互是一个极其重要的研究课题。它正在直接与办公、交通、金融、 公安、商业、旅游等行业的语音咨询与管理,工业生产部门的语声控制,电话、 电信系统的自动拨号、辅助控制与查询,以及医疗卫生和福利事业的生活支援系 统等各种实际应用领域相接轨,并且有望成为下一代操作系统秘应用程序的用户 界面 1 】。 _ 1 2 语音识茄l j 发震现状 语音识别的研究工作大约开始子上个世纪5 0 年代。1 9 5 2 年贝尔( b e l 羔) 实 验室的d a v i s 等人首次研制成功能识别2 0 个英语数字的实验装置。1 9 5 6 年o l s o n 和b e l a y 等人应用8 个带通滤波器组提取频谱参数作为语音的特征,研制成功 台简单的语音打字机。2 0 世纪6 0 年代中期形成的系列数字信号处理方法和技 术,如数字滤波器、快速傅里叶交换( f f t ) 等成力语音信号数字处莲的理论和 技术基础。 到了1 9 7 0 年声纹( v o i c ep r i n t ) 识别,即说话人识剐的研究开展起来,并 很快达到了实用化的阶段。到了1 9 7 1 年,以美因a r p a ( a m e r i c a nr e s e a r c h p r o j e c t sa g e n c y ) 为圭导的“语音理解系统 的磷究计划也开始起来。2 0 世 纪7 0 年代初由板仓( i t a k u r a ) 提出的动态时间规整( d t w ) 技术,使语音识别 研究在匹配算法方面开辟了新思路:2 0 世纪7 0 年代中期线性预测技术( l 愆) 被用于语音信号处理,此后隐马尔可夫模型法( h 删) 也获褥初步成功,该技术 l 会议语音混响消除及其大词汇量连续语音识别技术的研究 后来在语音信号处理的多个方面获得巨大成功;2 0 世纪7 0 年代末,l i n d a 、b u z o 、 g r a y 和m a r k e l 等人首次提出了矢量量化( v q ) 码书的方法,并首先将矢量量化 技术用于语音编码获得成功。从此矢量量化技术不仅在语音识别、语音编码和说 话人识别等方面发挥了重要作用,而且很快推广到其他领域 2 2 0 世纪8 0 年代,随着h m m 模型和人工神经元网络( a n n ) 等技术在语音识别中 的成功应用,人们终于在实验室突破了大词汇量、连续语音和非特定人这三大语 音识别障碍。在声学识别层面,以多个说话人发音的大规模语音数据为基础,通 过对连续语音中上下文发音交体的h m m 建模,语音音素识别率有了长足的进步; 在语言学层次,以大规模语料库为基础,通过统计两个邻词或三个邻词之间的相 关性,可以有效地区分同音词和由于识别带来的近音词的模糊性。另外再结合高 效、快捷的搜索算法,就可以实现实时的连续语音识别系统。著名的有剑桥大学 开发的h t k ( h m mt o o lk i t ) 3 ,还有李开复等在卡内基梅隆大学开发的s p i i i n x 系列 4 。 进入2 0 世纪9 0 年代以来,语音识别在实用化方面取得了许多实质性的研究进 展,逐渐由实验室走向实用化。一方面,对声学语言学统计模型的研究逐渐深入, 鲁棒的语音识别、基于语音段的建模方法及隐马尔可夫的模型与人工神经网络的 结合成为研究的热点。另一方面,为了语音识别实用化的需要,说话人自适应、 听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题备受关注。进 入2 1 世纪,语音识别技术将使计算机丢掉键盘和鼠标成为可能。这无疑将改变我 们许多人的工作和生活方式。我国语音识别研究工作一直紧跟国际水平,国家也 很重视,并把大词汇量语音识别的研究列入“8 6 3 计划,由中科院声学所、自 动化所及北京大学等单位研究开发。鉴于中国未来庞大的市场,国外也非常重视 汉语语音识别的研究。美国、新加坡等地聚集了一批来自大陆、台湾、香港等地 的学者,汉语大词汇量语音识别都达到了相当高的水平。 1 3 语音识别分类 1 3 1 从识别的词汇量分 每一个语音识别系统都必须有一个词汇表。系统只能识别表中所包含的词 2 第一章绪论 条通常,词条越多,则相似的词也越多,这样其误识率也相应增加。此外,随 着词数增加,搜索运算使计算开销迅速增加因此词的数量越多,则系统实现越 困难词汇表的大致划分标准是,词数少于1 0 0 时,称为小词汇表;1 0 0 到5 0 0 间称为中词汇表;超过5 0 0 时称为大词汇表 1 3 2 从识别的对象来分 如果识别系统只针对一个用户的,则为基于特定人识别系统( s d ,s p e a k e r d e p e n d e n t ) 。系统针对若干人的,比如电话语音则称为非特定人识别( s i , s p e a k e ri n d e p e n d e n t ) 系统。目前,非特定人的语音识别系统是我们研究的重 点。 1 3 3 从识别基本单元来分 语音识别按系统的识别对象可分为孤立词、连接词和连续语音三种方式。孤 立词识别( i w r ,i s o l a t e dw o r dr e c o g n it i o n ) 7 是指对说话人每次只说一个 字、一个词或一条命令这样的孤立词进行识别,其中的词或命令在词汇表中都作 一个独立的词条;连接词识别( c w r ,c o n n e c t e dw o r dr e c o g n i t i o n ) 一般特指 对十个数字( 0 - 9 ) 连接而成的多位数字的识别,有时还可加上少量的操作指令, 这时词汇表只由这十个数字及少数指令构成:连续语音识别( c s r ,c o n t i n u o u s s p e e c hr e c o g n i t i o n ) 6 是对说话人以日常生活自然讲述的方式而进行的识别。 这三种方式,其识别困难是依次递增的。 选择识别单元是语音识别研究的第一步。语音识别单元有单词( 句) 、音 节和音素三种,具体选择哪一种,山具体的研究任务决定。单词单元广泛应用于中 小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任 务繁重,模型匹配算法复杂,难以满足实时性要求。 1 4 语音识别面临的困难 尽管语音识别的研究工作迄今有5 0 年,语音识别产品层出不穷,但离语音 识别的最终目的还有一定的距离,各方面的困难依然存在,主要表现在: 语音识别系统的适应性差。全世界有近百种官方语言,每种语言有多达几十 3 会议语音混响消除及其大词汇量连续语音识别技术的研究 种方言,同种语言不同方言的上发音和词的用法相差悬殊,这样,随着语言环境 的改变,系统性能会变得很差 在强噪声干扰下语音识别系统的性能差。由于语音数据大部分都是在接近理 想的条件下采集的,然而,语音处理由实验室走向实际应用时,环境噪音的存在 所带来的问题变得越来越重要。虽然语言学、生理学、心理学方面的研究成果已 有不少,但如何把这些知识量化、建模并用于语音识别还需研究,而语言模型、 语法及词法模型在中、大词汇量连续语音识别中是非常有用的。 语音识别的研究之所以非常缓慢,是因为到目前为止还没有真正找到能够很 好表示语音信号参数和描述语音特征的模型,因此对这两方面的研究显得尤其重 要。 1 5 本文的安排 第一章简述了语音识别的发展过程和发展现状。 第二章描述了语音识别的系统构成、概述语音模型和语言模型的概念。 第三章简述了混响产生的原因、混响模型和消除混响的基本方法 第四章描述了i c s i 语料库的结构。 第五章应用了o m - l s a 减谱法和长时减谱法对i c s i 的数字语料库进行语音 增强并且进行语音识别。 第六章对i c s l 会议语料库进行处理,用互相关系数检测主说话人语音信息, 并建立了i c s i 语料库组成的语音识别系统,对i c s i 进行了大词汇量连 续语音识别的实验。 第七章总结和展望 4 第二章语音识别基本理论 2 1引言 第二章语音识别基本理论 语音识别技术关系到多学科的研究领域,不同领域中的研究成果都对语音识 别的发展做出了贡献。让机器识别语音的困难在某种程度上就像一个外语不好的 人听外国人讲话一样,它与说话人、说话速度、说话内容、环境条件有关。语音 信号本身的特点造成了语音识别的困难。这些特点包括多变性、动态性、瞬时性 和连续性等。本节将介绍语音识别的一些基本理论。 2 2 语音识别系统构结构和特征提取 2 2 1 语音识别系统构成 2 】 语音系统基本构造如图卜1 所示,系统可以分为前端处理和后端处理,前端 处理包括语音的录入、处理、特征值的提取,后端是个跨数据库的搜索过程,分 为训练和识别,训练是对所建的模型进行评估、匹配、优化,获得模型参数,识 别是模式匹配的过程,获取前端数值后,在声学模型、一个语言模型和一个字典 间进行搜索。声学模型表示一种语言的发音,可以通过训练来识别特定用户的语 音模型和发音环境的特征。语言模型是对语料库单词规则化的概率模型。字典列 出了大量的单词及发音规则。总体上说,语音识别是一个模式识别匹配的过程。 在这个过程中,计算机首先要根据人的语音特点建立语音模型,对输入的语音信 号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。然后,在 识别过程中,计算机根据语音识别的整体模型,将计算机中已经存有的语音模板 与输入语音信号的特征进行比较,并根据一定的搜索和匹配策略找出一系列最优 的与输入语音匹配的模板。最后通过查表和判决算法给出识别结果。显然,识别 结果与语音特征的选择、语音模型和语言模型的好坏、模板是否准确等都有直接 的关系。 s 会议语音混响消除及其大词汇量连续语音识别技术的研究 2 2 2 语音特征提取 图1 1 语音识别系统 声学特征的选择与提取是语音识别的第一个重要环节。这个环节既是一个信 息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划 分识别边界。由于语音信号的时变特性和非平稳特性,特征参数的提取不能在识 别单元上直接进行,而必须把识别单元分割为许多更短一些的语音段( 1 0 毫秒到 4 0 毫秒之间) ,这些短段被认为是平稳的,称之为帧。然后再对帧上进行信号分析, 这就是语音的短时分析。为了克服唇辐射带来的高频跌落和帧的截断效应,通常 还要在分析前对帧信号进行预加重和加汉明窗( h a 删i n gw i n d o w ) 处理。对语音 进行连续分析时,帧与帧之间的偏移通常取帧长的1 2 或1 3 。这些过程有时被 称为语音信号的预处理。 特征提取就是要从语音波形中提取出重要的反映语音特征的相关信息,而去 掉那些相对无关的信息,如背景噪声、信道失真等,并把这些信息转换为一组离散 的参数矢量。目前常用的特征参数有下面两种。 线性预测倒谱技术( l p c c ) 线性预测分析技术是目前广泛被使用的特征参数提取技术,特别是在早期的 许多成功的系统中很多都是用l p c 倒谱系数作为系统的特征矢量。 这里的l p c 倒谱实质上是复倒谱,复倒谱是指信号通过z 变换以后取对数, 再求z 反变换而得到。线性预测分析的声道模型系统函数以z ) 反映了声道的频 率响应和原始信号的谱包络,因此用l g h ( z ) 作z 逆变换即可求出其复倒谱系数 6 第二章语音识别基本理论 ( l p c c ) 。l p c c 的优点在于计算量小,易于实现,缺点在于抗噪性能差,一般我 们采用的是m e l 频率倒谱系数( m f c c ) 。 m e l 频率倒谱系数( m f c c ) 目前大部分的语音识别的特征提取都采用m e l 频率倒谱系数,这是因为m e l 刻 度在对声学测量时是最合理的频率刻度。m f c c 参数具有良好的识别性能和抗噪能 力,但其计算量和精度都要求很高。m e l 亥u 度与频率的转换关系为: = 3 3 2 2 2 3l g ( 1 + o 0 0 1 ) f n : 具体的m f c c 参数的计算过程如下: ( 1 ) 对语音信号进行预加重,确定每一帧语音采样序列的长度。预加重 公式h ( z ) = 1 一忽,口称为预加重系数,一般取0 9 a 1 。假设在n 时刻语 音采样值为工( 以) ,经过预加重处理后的结果为: y ( n ) = x ( ”) 一a x ( n 一1 ) ( 2 一1 ) ( 2 ) 对每一帧语音信号经过离散f f t 变换得到其频谱j ( 七) : n - i x ( 七) = x ( n ) e - j 2 础 o n ,k n - i ( 2 2 ) ( 3 ) 将频谱通过一组m e l 尺度的三角形滤波器组加于m e l 坐标得到滤波器 组以( 妫,然后在m e l 坐标- 上r l 井日匕k 里 - t 口: 足 o ( m 。) = t a t z ix ( 后) 1 2 乒乙( k ) 】 k = 1 ,2 ,k ( 2 3 ) ( 4 ) 进行离散余弦( d c t ) 变换,得至o m f c c 参数c ( 而。 咖,= 萋胁( 等半) 川_ ,m 4 , 7 会议语音混晌消除及其火词汇量连续语音识别技术的研究 2 3h m m 模型基本概念 2 3 1h m m 模型 删模型是语音信号时变特征的有参表示法。它幽相互关联的两个随机过程 共同描述信号的统计特性,其中一个是隐蔽的( 不可观测的) 具有有限状态的马 尔可夫链,另一个是与马尔可夫链的每一状态相关联的观察矢量的随机过程( 可 观测的) 。隐马尔可夫链的特征要靠可观测到的信号特征揭示。这样,语音等时 变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变 化由隐马尔可夫链的转移概率描述。 h m m 模型描述如图2 ,其中t 为观测时间长度: ( m a r k o v 链) ( 万,a ) q t q 2 q r | 随机过程b| 观察序列德 蕊蒯r 一 阉1 - 2h m m 组成示意 参数描述如下 1 n :模型中的状态数。记n 个状态域,岛,靠。 2 。弑:为每个状态所对应的可能的观察值数臣t 记礁个观察值为彰,以, 记t 时刻观察值为q ,其中0 f 毫( k ,匕,) 。 3 硝:初始状态概率矢量,硝= ( 1 c 19 ,) ,其中, 乃= p ( q i = 谚) , ( j ? 彻( 2 5 ) 4 状态转移分布a = 嘞】,其中 嘞= p ( q t + l = j l q , = f ) ( j 墨j 髯,矗肋 ( 2 6 ) 5 观察符号概率分布曰= 哆( 七) 】其中 8 第二章语音识别基本理论 乃( 七) = 以q = 咋l q ,= _ ) ( 1 s k m ,1 j n ) ( 2 7 ) 这样可以记一个删模型定义为 名= ( a ,b ,万) ( 2 - 8 ) h m m 模型在某状态j 下对应的观察值可以由一组概率,k = l ,2 ,m 来描述, 它是m 个离散可数的观察值中的一个,因而称为离散删。当观察值为一个连续 的随机变量x ,其在状态j 下对应的观察值由一个观察概率密度函数q ( x ) 表示, 这就成了连续的h m m 。连续的h i v l m 用b a u m w e l c h 算法估计模型参数,虽然在估 计万、a 参数时适用,但在估计描述屯( x ) 的参数时必须对0 ( x ) 加以一定的限制 才能成立。目前运用最广泛的是高斯型乞( x ) 9 ,它可以用下面公式表示: rf 岛( x ) = ( x ) = 尸( x ,鲰,且) , 1s 5 ( 2 9 ) k = l七= i 其中,p ( x ,鲰,且) 为多维高斯概率函数,鲰为均值矢量,皿为方差矩阵, k 为q ( x ) 的混合概率个数,为组合系数,且 k 4 = 1 ( 2 - 1 0 ) 半连续h i m ( s e m i c o n t i n u o u sh m m ) 是结合离散h i m 和连续h i m 的思想提出 来的,最早由h u a n g 等人提出并进行了系统的研究 1 1 。离散h i m 使用v q 产生 m 个码字组成的码本,这m 个码字实际上就是将训练矢量空间划分为m 个部分, 这种划分是丢失语音特征信息的原因。因此,用m 个高斯型概率函数取代m 个码 字,这样,训练矢量空间的划分就不会损失信息。而且,v q 的训练和h i m 的训 练可以在一个优化过程中完成。此时,状态只对应的观察值概率函数为: , 岛( x ) = 厂( x l _ 蝴( _ ,) ( 2 - 1 1 ) 其中,f ( xlv ) 就是第个码字 e j 对应的高斯概率函数;2 5 i ( ) 就是 9 会议语音混响消除及其大词汇量连续语音识别技术的研究 p ( v ji q , = q ) 。由于码字较多,一般简化为: 2 5 i ( x ) = 厂( i 巧均( ) 叶t 吁( j ( 2 - 1 2 ) 其中刁 ) 表示那些使( xik ) 白( ) 足够大的码字的集合,这样叩o ) 就比m 小 的多了。 一般来讲,在训练数据足够的情况下,连续h m m 优于离散h m m 和半连续h m m 。 h m m 模型的训练和识别都已研究出有效的算法,并不断被完善,以增强h m m 模型的 鲁棒性。 2 。3 2h m m 中的3 个基本问题及其解决方案 欲使所建立的i i m m 模型能够解决实际问题,以下3 个问题必须加以解决: 1 ) 已知观察序列0 和模型力= ( 彳,b ,万) ,如何计算由此产生的观察序列概率 p ( oi 五) ? 这个问题实际上是一个模型评估问题,因为p ( 0 1 名) 反映了观察序列与模型 吻合的程度。在语音识别中,我们可以通过计算、比较p ( o l a ) ,从多个模型参 数中选择出与观察序列匹配得最好的模型。为了解决这个问题,前人已经研究了 向前向后算法。 2 )已知观察序列d 和模型a ,如何确认一个合理的状态序列,使之能最佳 地产生0 ,即如何选择最佳的状态序列q = q 1 ) 9 2 ,q r ) ? 这个问题关键是怎样找到一个最佳的准则来决定状态的转移。一种可能的最 佳准则是: g ,牝a r g 略m a x p ( q i2 1 ) 10 ,名】 ( 2 1 3 ) 这里存在一个问题:有时候会出现不允许的转移,即2 0 ,那么对这些j 和 所得到的状态序列就是不可能状态序列,也就是说,式( 2 1 3 ) 得到的解只是 1 0 第二章语音识别基本理论 在每个时刻决定一个最可能的状态,而没从整体考虑相邻的状态和观察序列长度 问题。针对这个问题,最好的解决方案是v i t e r b i 算法。 语音模型训练的好坏直接关系到语音识别系统识别率的高低,为了得到一个 好的模板,往往需要有大量的原始语音数据来训练语音模型。因此,在开始进行 语音识别研究之前,首先要建立起一个庞大的语音数据库和语料库。一个好的语 音数据库包括足够数量、具有不同性别、年龄、口音说话人的声音,并且必须要 有代表性,能均衡地反映实际使用情况。有了语音数据库及语音特征,就可以建 立语音模型,并用语音数据库中的语音来训练这个语音模型。训练过程是指选择 系统的某种最佳状态不断地调整参数( 彳,b ,万) ,使得p ( o 1 名) 最大。这是一个复 杂的过程,因为没有解析法可以用来求最大似然模型,所以只能用迭代法 ( b a u m - w e l c h ) 算法或者使用最佳梯度法。要求计算机有强大的计算能力,并有 很强的理论指导,才能保证得到良好的训练结果。 2 4 语言模型 要研究语音识别,首先要明白人对语音识别的过程。人们经过研究发现,获 取一段语音的意思时,不是简单地通过对声音信号中单个音进行识别后拼接起来 完成,对某段语音识别正确与否与该语音所处的语境的上下文紧密相关。有时候 由于某种原因或者因环境噪音的因素没有听清楚说话人的一个字或者几个音,但 大部分情况下听者都能根据各方面的非语音知识,包括当前谈话的内容的主题、 上下文信息、语境等来弥补漏掉的音节,从而获得正确的信息。由此可以得出结 论:人在进行语音识别时,不仅通过耳朵提取到的声学信息,还可以很大层度上 利用通过其他手段获得非声学信息。这些信息包括词法、句法等信息。语音识别 中语言模型的任务就是充分刻画了非声学信息。 如果将输入的语音序列标记为月,最后得到的识别结果标记为s + ,则语音识 别任务是努力保证所有候选句子中,正确句子s 产生的a 可能性最大,即 s = a f gm a x ,p ( si 彳) = 兰三墨! ! 兰兰 产 ( 2 - 1 4 ) 其中p ( als ) 是声学部分的评分,p ( s ) 是语言模型的评分。由此可见语 会议语音混响消除及其大词汇量连续语音识另咔技术的研究 言模型是大词汇量语音识别不可缺少的模块,其性能影响整个语音识别系统的性 能。 2 5 小结 本章介绍了语音识别的发展历史,语音识别系统构架、语音特征分析、语音 模型和语言模型的基本概念等,为了提高语音识别的鲁棒性,必须对前端语音进 行降噪等处理或者通过修改训练算法让语音模型具有更强的鲁棒性。 1 2 第三章混响和混响模型的定义 3 1引言 第三章混响和混响模型的定义 实际应用环境中的语音不可避免的受到周围各种各样噪音的影响,这些噪音 使得语音的质量下降,严重情况下完全淹没在噪音中,混响也属于噪音的一种形 式,本章将描述混响产生的原因,混响模型和消除混响的一些基本方法。 3 2 混晌的产生和影响 引起混响的主要原因之一就在于室内各反射面( 墙壁、天花板、地板) 等硬 质界面对于可闻声波波段存在反射,并且这种反射传播路径的吸收和衰减都比较 小,反射信号和声源信号相比幅度仍然很大,波形相似,相位不同。前期的声音 产生的各个反射波面及其多次反射波面和后续声源在各空间点叠加,因此造成对 后续声音的“污染 。在相对闭合空间内,声音信号的传播由于反射等原因,到 达接收点的声音除了直达信号外还存在着许多其他路径传来的回响信号,这个过 程与现象称为混响( r e v e r b e r a t i o n ) ,即交混回响之意,这一系列的非直达信号 构成了混响信号( 图3 - 1 ) 1 4 。 图3 - 1 混响的产生 图3 - 2 ,t i 公司开发的e v m 板( t m s 3 2 0 c 6 7 0 1 芯片) 在一个房间进行房间冲 1 3 会议语音混响消除及其大词汇量连续语音识别技术的研究 激响应( r i r ,r o o mi m p u l s er e s p o n s e ) 测试,此处截取其中的一幅。 膏f 袋耳詹匠i 图3 - 2 真实房间的冲激响应 由图可见,脉冲响应信号的前段能量较大,体现为许多脉冲信号( 这里一个 脉冲代表一个反射信号) 较为稀疏:随着时间的延迟,响应幅度按照指数规律衰 减,脉冲却越来越不可分。途中延迟最小、幅度最大的一根线表示“直达声一 ( d i r e c ts o u n d ) ,其传播路径较短,所以能量损失少,幅度很强:图上所指的 几根幅度明显较大的线条是声音信号在距离接受者较近的物体上反射而来的,叫 做“前期反射信号( e a r l yr e v e r b e r a t i o n ) ,是由一次或几次反射的声波所组 成,此时声波能量由于声波被物体表面吸收有所减少;之后一段密集的线条是由 于声音信号经过周围物体的多次反射后叠加造成的结果,叫“后期反射 ( l a t e r e v e r b e r a t i o n ) ,是由于声波经过了多次反射叠加在一起形成的,声波呈指数能 量递减 1 5 。 混响的多少给人的心理感觉不同。室内适当的混响能使语音或者音乐明朗响 亮,节奏清楚,层次明显,声音丰富、温暖而亲切,音色优美动听,有烘托作用, 可以明显改善声音的质量,改变音乐的音色和风格。混响时间太短时,在屋子里 讲话好像在旷野里讲话一样,听起来显得低弱无力,声音干涩、沉闷、枯燥、生 硬,听不清楚。尤其是欣赏音乐时声音枯燥乏味,干涩,不丰满,失去声音的色 泽。但混响时间长时语音感觉浑浊,音节之间产生掩蔽效应( m a s k i n g ) 1 6 , 这就是一般说的屋子里“发嗡 。混响对语音识别系统影响是巨大的。 1 4 第三章混响和混响模型的定义 3 3 混晌时间和混晌能量比 混响时间( r e v e r b e r a t i o nt i m e ) ,也称持续时间。1 9 0 0 年,声学家赛斌 ( w c s a b i n e ) 提出基于统计的声学原理,通过研究后提出混响时间翮,并定 义为:当声源停止后,残余的声能在室内往复反射,经吸收衰减,其声学密度下 降为原来值的百万分之一所需要的时间。“混响能量比( g ) 一指的是直达功率谱 和后期反射功率谱的比值 1 7 : :掣 c 口s g = 1 0 x l o g l o s x d x l n ( 1 一口) ( 3 - 1 ) ( 3 - 2 ) 1 6 x 万x ( 1 一a ) x r 2 其中s 指的是墙壁表面积,v 为房间音量,c 为声音传播速度, 口指的是墙壁 衰减因子,d 是直达声影响因子,r 为麦克风和声源的距离。 3 4 房间混晌模型 混响信号的数学公式可以表示为: y ( 以) 驾x ( n ) 奎h ( 刀) 其中石彻) 表示原始语音信号,h 阳) 表示房间冲击响应滤波器( r i r ,r o o m i m p u l s er e s p o n s e ) ,术表示线性卷积,由上式可知,混响也可以看成噪音的一种, 只是它不是加性噪音,而是卷积噪音。所以去混响的核心问题可以是求力( 而的 逆过程,其实质也就是解卷积的过程 1 8 然而力( 而系数取决于混响时间及直达波与延时波的能量比,由式( 3 1 ) 、 ( 3 - 2 ) 可以看出,为了求出某个房间内的力( 曲系数,需要知道房间的大小、麦 克风和说话者的距离、房间的温度、墙壁对声音的吸收率等等。因此,在只有混 响语音信号的情况下,对房间进行冲击响应滤波器的盲估计( b l i n de s t i m a t i o n ) 是很困难的 1 9 。 e a p h a b e t s 2 0 等人提出用高斯随机序列和一个指数衰减系数构成混响 模型, 1 5 会议语音混响消除及其大词汇量连续语音识别技术的研究 h ( 刀) - - = w ( n ) e - r ”( 刀) ( 3 4 ) 其中y 彻j 表示高斯白噪音,u 彻) 为阶跃函数,f 表示通过混响时间t 6 0 计算 得出的阻尼常量: f = 3 i n ( 1o ) 瓦o ( 3 5 ) 3 5 混晌消除或抑制方法综述 室内声音的传播涉及生理声学、心理声学、语言声学、听觉声学、噪音等多 方面综合因素,混响信号与声源信号相关度较大,采用传统的频率滤波方法无法 消除混响 2 1 。 语 叠 源 信聋 ln 圈 i :秉信 语 音 处 理 f i f 号处理 图3 3 语音通信各个阶段示意图 3 5 1从信源方面考虑语音去混响 重 掏 浯 普 信宿 信源有即时发音和延时发音两种声源,即时发音指的是即时说话和现场直播 等情况;延时发音指电话会议等采集了声源后重放等情况。 对于即时发音,声源采用其它语音信号采集方式,如用贴片接触式装置采集 人体喉结等声道发声时的震动,或用振动、位移、图像等检测装置采集人体发声 时体征变化,得到语音信号,从而避免声波混响问题。 对于延时发音声源,可以采用反响抵消装置减弱声音混响。事先已经知道纯 语音声源,在重放时可以延时播放纯声源的反响衰减信号,以抵消或减弱声音的 混响。如电话会议。直接利用远端传来的信号在抵消装置上调节延迟混响时间和 衰减率并反相输出抵消混响。但这需要有对r i r 的先验知识。对于即时发音声源 1 6 墨案 ;-i-_-il 第三章混响和混响模型的定义 就必需加装自适应装置才能起到反抵消混响作用 2 2 3 5 2 从信道方面考虑语音去混响 声波的频率比较低,波长较大相对室内房间尺寸差别不大,容易产生反射现 象。如果提高载波的频率,如:采用射频、红外等载波或者有线传输等方式,一 方面可以减少反射,另一个方面波长比较小,相对室内房间的尺寸差别较大,在 室内容易被吸收衰减,因而可以回避语音信道的声波混响问题。此外,人类发声 时是否在更高频率上也有完整的语音信息? 是否存在可以采集更高频率的m i c 采集设备? 这设计到基础学科的问题。 从信道方面减弱混响其实是缩短混响时间。它是一种最常用也最早用的方 法,它广泛的应用于建筑学和同常生活中。进行建筑学设计,采用吸声材料或带 孔隙的窄缝墙面,设计房间形状为圆柱、球形、或者锥形等非矩形形状,吸收室 内声能从而用缩短混响时间的办法提高语音清晰度。 3 5 3 从信号采集方面提高语音去混响 可以从三个方面减弱语音的混响。一是减少声源和接收者的距离,这样接收 到的声音中直达声的比重就占的很大;二是采用麦克风列阵( m i c r o p h o n ea r r a y , 一下简称m i c 列阵) 。多通道m i c 可以获得一些参考信号,采用波束形成方法 ( b e a m f o r m i n g ) 的空间阵列技术,可调整最大指向到声源。设备简单,针对污 染的鲁棒性较强! 但是在采信早期需要大致知道信号的方向。三是采用自适应 m i c 装置,可以自动识别声源方向并将采集到的声源幅度最大值作为直达声音信 号,此后反向抵消混响作用,这需要对r i r 有先验知识 2 3 。 3 5 4 从信号处理方面考虑语音去混响 从信号处理方面考虑,单麦克风是现在研究得最多方面,也是本文研究的重 点。如果信号已经为混响,就不可能再有避免语音混响的方法,只能减弱混响 2 4 ,相关处理的如下图所示: 1 7 会议语音混响消除及其大词汇量连续语音识别技术的研究 图3 - 4 单麦克风去混响情况 3 6 小结 图3 5 麦克风阵列去混响示意图 本文介绍了混响产生的机理、混响时间和数学模型,从语音通信过程中“信 源 、“信道、“采信 和信号处理四个阶段分别着眼于“回避混响 和“减弱混 响”去考虑混响消除。提出了几种去混响的方法,在下面的章节内将详细的介绍。 1 8 第口章i c s i 语料库描述 4 1 引言 第四章i o s i 语料库描述 近年来,语音识别技术取得了一定的进展,但大部分语料库采集的方式为头 戴式麦克风,并且在较为安静的环境下,以朗读文本的方式进行录音。这样的语 料库音质干净,语速适中,朗读流利,利用这样的语料库进行训练和识别,往往 能得到很高的识别率。但许多研究机构认为,语音识别系统需耍具更高的实用性 和鲁棒性,例如对噪音环境下的语音识别 2 5 。本章通过介绍荧国加州伯克利大 学i c s i ( i n t e r n a t i o n a lc o m p u t e rs c i e n c ei n s t i t u t e ) 制作的会议语音语料 库 2 6 ,给出影响会议语料库进行训练和识别的一些因素。 4 2i c s i 会议语料库环境描述 憩 豁 l 蠲鹭叠釜函b _ _ _ 一】皇 图3 1i c s i 会议房日j i c s i 搜集了伯克利大学各个研究小组的同常会议记录,语料库包含了7 5 个 会议,有5 3 人参与,语料库发布在l d c 上面 2 7 。每个会议参会人员一般有3 到1 0 人,平均为6 人。 图4 - 1 描述了一个会议的情况,会议参与者使用的是头戴式麦克风,4 个高 保真p z m 麦克风阵列和2 个p d a 构成,表4l 为麦克风的编号。 会议语音混响消除及其大词汇量连续语音识别技术的研究 表4 - 1 麦克风编号 标记麦克风

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论