




已阅读5页,还剩69页未读, 继续免费阅读
(信号与信息处理专业论文)语音识别中个人特征参数提取研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
语音识别中个人特征参数提取研究 摘要 随着计算机的不断发展,语音识别拥有可观的应用背景,不仅是指机器通过学习实 现从语音信号到文字符号的理解过程,同时作为- 1 7 交叉学科也具有深远的理论研究价 值。 语音识别实质上就是语音训练与模式识别的过程,但是要保证识别效果的相对完 好,与语音信号特征参数的有效提取是分不开的。特征参数的提取主要是为了提取语音 信号中能代表语音特征的信息,减少语音识别时所要处理的数据量,尽量能够完全、准 确地表达语音信号。本文以语音识别整体框架结构、语音识别技术为导向,对语音信号 特征参数提取算法进行研究,对语音识别具有重要的理论与实际意义。 首先,介绍了语音识别的基础知识,研究了语音信号的预处理、个人特征参数提取 算法、语音识别模型匹配和训练技术动态时间规整算法原理和隐马尔科夫模型,重 点分析了本文用到的动态时间规整算法,给出语音信号特征参数提取的整体方案。 其次,在办公室环境下对语音信号进行采集,直接剔除那些明显被偶然因素干扰和 因说话人本身造成的不规则样本,并且显示所采集的语音信号。 然后,对所采集的语音信号进行预处理,包括语音信号预加重、分帧和加窗,端点 检测等。在此基础上,对语音信号进行特征参数提取,着重实现线性预测倒谱系数和美 尔频标倒谱系数的提取,并分析其在办公室环境下提取的特征参数对个别个体语音识别 的影响。 最后,针对美尔频标倒谱系数,利用动态时间规整算法对所经过预处理之后的个别 个体特定声音进行识别并实验仿真,然后分析实验结果。对动态时间规整算法的不足之 处,提出改进方案。 关键词:语音识别,语音信号,特征提取,端点检测,动态时间规整 r e s e a r c ho ft h ec h a r a c t e r i s t i c sp a r a m e t e r se x t r a c t i o n i nt h ep e r s o n a lo fs p e e c hr e c o g n i t i o n a b s t r a c t w i t ht h ed e v e l o p m e n to ft h et e c h n o l o g yo fc o m p u t e ri n c r e a s i n g l y , s p e e c hr e c o g n i t i o ni s v e r yp r o m i s i n gi na p p l i c a t i o n a sa ni n t e r d i s c i p l i n a r yf i e l d ,i ti sa l s ot h e o r e t i c a l l yv e r y v a l u e d i n f a c t ,s p e e c hr e c o g n i t i o ni s t h ep r o c e s so fp a t t e r nr e c o g n i t i o n h o w e v e r , t oe n s u r e r e l a t i v ei n t a c to fs p e e c hr e c o g n i t i o n ,i th a sc l o s ec o n t a c tw i t ht h ee f f e c t i v ee x t r a c t i o no ft h e v o i c es i g n a lc h a r a c t e r i s t i cp a r a m e t e r s e x t r a c t i o no ft h ec h a r a c t e r i s t i c sp a r a m e t e r si sm a i n l y t oa t t a i nt h ei n f o r m a t i o nt h a ta r ea b l et o r e p r e s e n tv o i c ec h a r a c t e r i s t i c s ,a n dr e d u c et h e a m o u n to fd a t at od e a lw i t hd u r i n gt h es p e e c hr e c o g n i t i o n ,s oa st oe x p r e s st h ev o i c es i g n a la s p o s s i b l ea sa c c u r a t e l y t h i sp a p e ra n a l y z e st h eo v e r a l ls t r u c t u r ea n dt e c h n o l o g yo fs p e e c h r e c o g n i t i o ns y s t e m ,r e s e a r c h e ss p e e c hs i g n a lf e a t u r ee x t r a c t i o n i ti si m p o r t a n tt h e o r e t i c a la n d p r a c t i c a ls i g n i f i c a n c ef o rs p e e c hr e c o g n i t i o n f i r s t ,i n t r o d u c et h eb a s i ck n o w l e d g eo fa n ds p e e c hr e c o g n i t i o n s t u d yt h ep r e p r o c e s s i n g o ft h ev o i c es i g n a l ,f e a t u r ep a r a m e t e re x t r a c t i o na l g o r i t h m s ,s p e e c hr e c o g n i t i o nt e c h n o l o g y a n dt r a i n i n gm o d e lm a t c h i n g ,i n c l u d i n gd y n a m i ct i m ew a r p i n ga n dh i d d e nm a r k o vm o d e l s f o c u so nt h ea n a l y s i so ft h ed y n a m i ct i m ew a r p i n ga l g o r i t h mu s e di nt h i sa r t i c l e g i v et h e o v e r a l ls c h e m eo fs p e e c hs i g n a lf e a t u r ep a r a m e t e r st oe x t r a c t s e c o n d l y , g a t h e rt h e v o i c es i g n a li nt h eo f f i c ee n v i r o n m e n t ,e x c l u d i n gd i r e c t l yt h o s e o b v i o u si n t e r f e r e n c ew a sa c c i d e n t a la n dc a u s e db yi t so w ns p e a ko fi r r e g u l a rs a m p l e s a n d t h e nd i s p l a yc o l l e c t e dv o i c ei n f o r m a t i o n f u r t h e r m o r e ,p r e - p r o c e s s i n go fs p e e c hs i g n a l s o nt h i sb a s i s ,e a r l yo u tv o i c es i g n a l f e a t u r ep a r a m e t e re x t r a c t i o n ,f o c u s i n go ni m p l e m e n t i n g , l i n e a r p r e d i c t i o nc e p s t r u m c o e f f i c i e n ta n dm e lf r e q u e n c yc e p s t r u mc o e f f i c i e n t e v e n t u a l l y , a n a l y z ei t se f f e c t st o i n d i v i d u a ls p e e c hr e c o g n i t i o ni nt h eo f f i c ee n v i r o n m e n t f i n a l l y , o nt h eb a s i so fm e lf r e q u e n c yc e p s t r u mc o e f f i c i e n t ,r e a l i z e st h ei n d i v i d u a ls p e e c h r e c o g n i t i o nu s i n gd y n a m i ct i m ew a r p i n ga l g o r i t h m a n dt h e n a n a l y s i st h er e s u l t so f e x p e r i m e n t a l ,p u tf o r w a r di m p r o v e da l g o r i t h mo fd y n a m i ct i m ew a r p i n ga l g o r i t h m k e y w o r d :s p e e c hr e c o g n i t i o n ,s i g n a lp r o c e s s i n g , f e a t u r ee x t r a c t i o n ,e n d p o i n td e t e c t i o n , d y n a m i ct i m ew a r p i n g 原创性声明 本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含 其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人 承担。 论文作者签名: 迷盎! 虫 f ii t t l : 2 垒2 笸:垒 关于学位论文使用权的说明 本人完全了解中北大学有关保管、使用学位论文的规定,其中包括: 学校有权保管、并向有关部门送交学位论文的原件与复印件;学校可 以采用影印、缩印或其它复制手段复制并保存学位论文;学校可允许学 位论文被查阅或借阅;学校可以学术交流为目的,复制赠送和交换学位 论文;学校可以公布学位论文的全部或部分内容( 保密学位论文在解密 后遵守此规定) 。 签 名: 主蛭盎! 嚣 日期: 麴2 :丝 导师签名:互车芝丝 日期:丝艺:兰:丝 中北大学学位论文 第一章绪论 随着社会的不断发展,各种各样的机器参与了人类的生产活动和社会活动,人们发 现,人和机器之间最好的通信方式是语言通信,而语音是语言的声学表现形式。于是, 语音作为人类信息交流的最自然、最有效、最灵活而又最为广泛使用的途径,越来越引 起研究者的关注。 作为语音信号处理研究的重要领域,语音识别技术的最终目的是象人与人之间谈话 交流信息一样,实现人机自由对话,也就是赋予机器以听觉,使机器能听懂人的语音, 辨明话音的内容或说话人,将人的语音正确地转化为书面语言或有意义的符号,或者进 一步使机器能够按照人的意志进行操作,把人类从繁重或危险的劳动中解脱出来。展望 未来,人类将会通过语音识别技术研究,突破由于语种、方言、腔调不同而造成的人与 机器之间口语交流和沟通的壁垒,并使语音交互系统成为社会民众人机对话的普通工具 【l 】 0 作为高科技应用领域的研究热点,语音信号处理技术从理论的研究到产品的开发已 经取得了长足的进步。它正在直接与办公、交通、金融、公安、商业、旅游等行业语音 咨询与管理,工业生产部门的语声控制,电话、电信系统的自动拨号、辅助控制与查询 以及医疗卫生和福利事业的生活支援系统等各种实际应用领域相接轨,并且有望成为下 一代操作系统和应用程序的用户界面。可见,语音识别技术的研究将是一项极其具有市 场价值和挑战的工作。 在现代社会中,人们逐渐习惯借助计算机来完成各项事务。在这种形势下,如何让 计算机智能化的与人通信,使人机交互更加自然方便成为现代计算机科学的一个重要的 研究课题。在高度发达的信息社会中,用数字化的方法进行语音的传送、识别、增强也 是整个数字化通讯网络中最重要,最基本的组成部分之一。其主要用到的技术是语音识 别和统计模型的相关理论,通过提取被测者语音信号的特征参数,计算机对其经过一系 列数字信号处理,从而在统计模型中对它进行分析测评。因此,提取特征参数的类型就 显得尤为重要了。而语音信号处理是利用计算机对语音信号进行分析和处理的- - r 学 中北大学学位论文 科,它是信息科学中一个十分活跃的研究领域。在信息化时代,用现代手段研究语音处 理技术,使人们更加有效地产生、运输、存储j 获取和应用语音信息,这对于促进社会 发展具有十分重要的意义。 1 1 课题研究背景 通过语音传递信息是人类最重要、最有效、最常见和最方便的交换信息的形式。让 机器能听会说,是人类己久的理想。语言是人类特有的功能,声音是人类常用的工具, 是相互传递信息的最主要的手段。因此,语音信号是人们构成思想疏通和感情交流最主 要的途径。 特征提取就是从语音信号中提取出语音的特征序列。提取的语音特征应该能完全、 准确地表达语音信号,特征提取主要是为了提取语音信号中能代表语音特征的信息,减 少语音识别时所要处理的数据量。语音信号的特征分析是语音信号处理的前提和基础, 只有分析出可以代表语音信号本质特征的参数,才能对这些参数进行高效的语音通信, 语音合成,和语音识别等处理,并且语音合成的好坏,语音识别率的高低,也都取决于 语音特征提取的准确性和鲁棒性。因此,语音信号特征提取在语音信号处理应用中具有 举足轻重的地位。目前,语音识别技术中最流行的特征参数是基于声道模型的 l p c c ( l i n e a rp r e d i c t i o nc e p s t r u mc o e f f i c i e n t ) 和听觉机理的m f c c ( m e lf r e q u e n c y c c p s t m mc o e f f i c i e n t ) 参数,而m f c c 在低频段具有较高的谱分辨率,对噪声的鲁棒性优 于l p c c ,更适合语音识别。但与人听觉系统非凡的感知能力比较,不管是l p c c 还是 m f c c 参数,在不利的噪声环境下,其鲁棒性都会急剧下降。如何在特征提取过程中抽 取保持语音信号最重要的特征参数,成为一个急需解决的问题。本论文从提高参数的稳 定性出发,研究了线性预测倒谱系数,并且分析了线性预测倒谱系数阶数为1 2 时在办 公室环境下对噪声的敏感度。对于美尔频标倒谱系数从2 4 维出发,研究了取2 4 个滤波 器的美尔频标倒谱系数,从得到的静态特征通过一阶差分方程转化到动态特征状态下, 实现了语音信号帧之间的相关性。在此基础上,针对美尔频标倒谱系数利用动态时间规 整( d t w ) 算法对个体个别数字进行语音识别实现。 2 中北大学学位论文 1 2 国内外语音识别发展现状与趋势 语音识别中的说话人辨认的研究始于2 0 世纪3 0 年代。早期的工作主要集中在人耳 听辨实验和探讨听音识别的可能性方面。随着研究手段和工具的改进,研究工作逐渐脱 离了单纯的人耳听辨。b e l l 实验室的l gk e s t a 目视观察语谱图进行识别,提出“声纹” 的概念。之后,电子技术和计算机的发展,使得通过机器自动识别人的声纹识别成为可 能。b e l l 实验室的s p r u z a n s k y 提出了基于模板匹配和概率统计方差分析的声纹识别方 法,引起信号处理领域许多学者的注意,形成了声纹识别研究的一个高潮,期间的工作 主要集中在各种识别参数的提取,选择和实验上,并将倒谱和线性分析等方法应用于声 纹识别【2 1 。 2 0 世界7 0 年代末至今;说话人辨认的研究重点转向对各种声学参数的线性或非线 性处理以及新的模式匹配方法上,如动态时间规整、主要成分分析、隐马尔可夫模型、 神经网络和多特征组合等技术。 语音识别的研究始于2 0 世纪5 0 年代,6 0 年代末和7 0 年代初语音识别最重要的发 展是语音信号线性预测编码( l p c ) 和动态时间规整( d t w ) 技术 3 】【4 1 ,有效地解决了 语音的特征提取和实际不等长匹配问题,对特定人的语音识别十分有效。研究特点以孤 立字语音识别为主,通常把孤立字作为一个整体来建立模板【5 】。 2 0 世纪8 0 年代,语音识别研究的重点之一是连接词语音识别,开发了各种连接词 语音识别和关键词识别算法,如多级动态规划语音识别算法 6 1 。另一个重要发展是语音 识别算法从模板匹配技术转向基于统计模板技术。人们不再刻意追求西化语音特征,而 是更多的从整体平均的角度来建立最佳的语音识别系统,统计语言模型也开始取代基于 规则语言的模型【5 】。 进入2 0 世纪9 0 年代后,在细化模型的设计、参数提取和优化,以及系统的自适应 技术上取得了一些关键性进展。但是语音识别的成果走出实验室,所面临的问题比语音 识别本身还要多,还要复杂,还要难。首先遇到的是各种噪声的干扰,其次是各种信道 条件下的频谱畸变,还有各种不同用户的不同需求,应用场合的不同,等等。由此引发 出语音信号表意性稳健参数的研究与提取;语音信号个人特征参数稳健参数的研究与提 取;口音自适应;背景环境自适应;多参数、多模式、多模型的融合、推理、判断等。 3 中北大学学位论文 另外,语音识别逐渐由实验室走向实用化。一方面对声学语音学统计模型的研究逐渐深 入,鲁棒语音识别【6 】【7 1 、基于语音段的建模方法及h m m 和a n n 的结合成为研究热点【8 】。 另一方面,为了语音识别实用化的需要,讲者自适应、听觉模型、快速搜索识别算法以 及进一步的语言模型的研究等课题【9 】倍受关注。 当今,随着多媒体时代的来临,许多发达国家如美国、日本、韩国以及i b m 、a p p l e 、 a t & t 、n t t 等著名公司都为语音识别系统的使用化开发研究投以巨资。许多发达国家 如美国、日本、韩国以及i b m 、a p p l e 、a t & t 、n t r 等著名公司都为语音识别系统的 使用化开发研究投以巨资。i b m 公司与1 9 9 7 年开发出汉语v i av o i c e ,次年又开发出可 以识别上海话、广东话、和四川话的地方口音的语音识别系统v i a v o i c e 9 8 。它带有一个 3 2 ,0 0 0 词的基本词汇表,可以扩展到6 5 ,0 0 0 词,还包括办公常用词条,具有“纠错 机制”,其平均识别率可以达到9 5 。该系统对新闻语音识别具有较高的精度,是目前 具有代表性的大词汇量连续语音识别系统【1 1 】。语音识别技术也进一步成熟,并开始向市 场提供产品。由于中国的国际地位不断提高,以及在经济和市场方面所处的重要地位, 汉语语音识别也越来越受到重视。i b m ,m i c r o s o f t ,l & h 等公司相继投入到汉语语音识 别的开发中,其投资也逐年增加。i b m 开发的v i a v o i c e 和m i c r o s o f t 开发的中文识别引 擎代表了当前汉语语音识别的最高水平【1 2 】。日本也先后在语音识别领域大展头角,如 p h i l i p s 公司开发的s p e e c h m i d i a 和s p e e c h p e a r l 两套软件,涵盖了自然语音识别与理解 的对话系统。 国内清华大学电子工程系等研究单位在语音识别技术的研究方面( 以听写机的研制 方面为代表) 也取得了令人瞩目的成果【1 3 l ,但总体上是与国外水平是全方位的。我国语 音识别研究工作近年来发展很快,同时也从实验室逐步走向实用。我国8 6 3 计划智能计 算机主题专家组为语音识别技术的主题专门立项,并开展了广泛的学术交流和全国性的 语音识别系统评测1 4 1 。每两年滚动一次,从1 9 9 1 年开始,专家组每一至二年举行一次 全国性的语音识别系统测试。在孤立词大词汇量语音识别方面,最具代表性的要数9 2 年清华大学电子工程系与中国电子器件合作研制成功的t h e d 9 1 9 特定人语音识别与理 解实时系统,此系统荣获“中国新产品新技术博览会”金奖。在连续语音识别方面,9 1 年 1 2 月四川大学计算机中心在微机上实现了一个主题受限的特定入连续英语汉语语 音翻译系统。 4 中北大学学位论文 近年来,在语音识别领域非常活跃的课题为鲁棒性语音识别、说话人自适应技术、 大词汇量关键词识别算法、语音识别的可信度评测算法、基于人类的语言模型和自适应 语言模型以及深层次的自然语言的理解,研究的方向也越来越侧重于口语对话系统。目 前说话人自适应技术的研究已经取得相当大的进步,出现了一些比较成熟的技术,如声 道归一化技术、最大似然线性回归算法( m l l r ,m a x i m u ml i k e l i h o o dl i n e a rr e g r e s s i o n ) 、 贝叶斯( b a y e s ) 自适应估计算法。目前,针对特定应用的中小词汇量、特定人的语音识别 技术发展已经较为成熟,已经能够满足通常应用的要求,并逐步投入了实用【l5 1 。而非特 定人、大词汇量、连续语音识别仍是目前阶段语音识别研究的重点和难点。 在语音识别中,不能将语音信号的原始波形直接用于识别,必须经过一定的变化提 取出反映语音本质的特征参数来进行识别。近年来国内外学者提出了诸如感觉加权线性 预测特征p l p ( p e r c e p t u a ll i n e a rp r e d i c t i v e ) t 1 6 】,也有学者采用上升过零率和峰值幅度 ( z e i o c r o s s i n g sw i t hs p e a ka m p l i t u d e s ,z c p a ) 1 7 方法来提取语音的特征参数,使其具有较 好的鲁棒性,这些在一定程度上提高了语音的识别率。但与人听觉系统非凡的感知能力 比较,不管是哪种特征参数,哪种特征提取方法,在不利的噪声环境下,其鲁棒性急剧 下降。如何在特征提取过程中抽取保持语音信号最重要的特征参数,成为一个急需解决 的问题。 1 3 课题研究的目的和意义 语音特征参数的选择与提取是语音识别中的一个基本的、重要的问题,准确地提取 语音特征参数并以合适的方式在语音识别系统中表达出来,是达到良好识别结果的基 础。语音识别的一个根本问题是合理的选用特征,语音参数的选择是整个语音识别系统 的基础,对正确识别率有着直接的影响。从信息论角度讲,这是信息压缩的过程。特征 参数提取的目的是对语音信号进行分析处理,去掉与语音识别无关的冗余信息,减少后 续识别阶段需处理的数据量,生成表征语音信号中携带的说话人信息的特征参数,从而 获得影响语音识别的重要信息。 在实际应用中,语音信号的压缩率介于1 0 1 0 0 之间。语音信号包含了大量各种不 同的信息,不同的特征向量表征着不同的物理和声学意义。提取哪些信息,用哪种方式提 取,需要综合考虑各方面的因素,如成本,性能,响应时间,计算量等。所以选择什么 5 中北大学学位论文 特征参数对说话人识别系统的成败意义重大。如果选择了好的特征参数,将有助于提高 系统的识别率。为了更好的提高语音识别率,着重分析研究特征参数提取的算法,并且 在办公室环境下验证个别个体特定声音的参数提取与识别。 1 4 课题研究内容及论文安排 1 4 1 课题研究内容 通过对语音识别的发展状况和相关技术的分析,本课题主要进行以下几方面的研 究: ( 1 ) 语音识别的基础理论,包括语音识别模型、模型的层次结构;语音信号的预 处理及特征参数提取分析。 ( 2 ) 语音信号特征参数提取的整体方案设计。 ( 3 ) 语音识别模式匹配训练技术。 ( 4 ) 语音信号进行特征参数提取算法的实现,包括线性预测系数、线性预测倒谱 系数和美尔频标倒谱系数。 ( 5 ) 在语音信号特征参数提取的基础上,用语音识别模型匹配d t w 算法实现个别 个体的特定声音,验证特征参数提取与模型匹配算法的正确性与准确性。最后对模型匹 配算法的不足之处提出改进方案。 1 4 2 论文内容安排 第一章绪论 介绍本课题的研究背景,概述语音识别的国内外发展情况以及发展趋势;分析语音 特征参数提取的目的和意义;对本论文研究内容及结构安排做出说明。 第二章语音信号处理和语音识别概述 讲述语音信号的发展状况,语音喜好的产生过程以及一些基本特征;对语音识别的 相关基础知识做简要概述,以得到对语音识别有整体了解。从语音识别整体层次模块出 发,重点研究了语音信号预处理,特征参数提取线性分析与倒谱分析,详细说明线性预 测倒谱系数和美尔频标倒谱系数的基本原理,为后面进行实验测试打下基础。 6 中北大学学位论文 第三章语音识别模型匹配及训练技术 探讨语音识别模型匹配及训练技术,研究了动态时间归整算法、隐马尔科夫模型, 以及人工神经元网络,着重介绍了动态时间归整算法、隐马尔可夫模型的基本原理。简 要说明了语音训练常用的技术:偶然训练、鲁棒性训练和聚类训练。 第四章特征参数提取与实现 在本章节,开始实现特征参数的提取。首先在办公室环境下,采集语音信号,然后 对其进行预处理,包括预加重、分帧、端点检测,端点检测主要的用到的方法是:短时 能量幅度和平均过零率,并且比较了两者对语音信号的辨别。语音信号预处理结束之后, 对其进行特征参数提取,主要用线性预测倒谱系数和美尔频标倒谱系数在办公室环境噪 声干扰相对较小的情况下进行提取,研究其提取效果的优劣,分析实验结果。 第五章语音识别模型匹配技术实现 在第四章特征参数成功提取,并分析的基础上,针对美尔频率倒谱系数,利用动态 时间规整算法对个别个体的特定声音进行识别,然后分析实验结果。并在实验过程中发 现的一些不足之处,提出改进方案。 第六章结论与展望。 7 中北大学学位论文 第二章语音信号处理和语音识别概述 2 1 语音信号处理简介 通过语言相互传递信息是人类最重要的基本功能之一。语言是从千百万人的言语中 概况总结出来的规律性的符号系统,是人们进行思维、交际的形式。语音是语言的声学 表现,是声音和意义的集合体,是相互传递信息的最重要的手段,是人类最重要、最有 效、最常用和最方便的交换信息的形式。语音中除包含实际发音内容的语言信息外,还 包括发音是谁及喜怒哀乐等各种信息。在人类构成通信系统中,语音通信方式早已成为 主要的信息传递途径之一,具有最方便和最快捷的特点。 语音信号处理是研究用数字信号处理技术对语音信号进行处理的- l - j 学科,它是一 门新兴的学科,同时又是综合性的多学科领域和涉及面很广的交叉学科。涉及到信号与 信息处理、计算机应用等学科,以及语音学、语言学、声学、认知科学、生理学、心理 学等许多学科。 语音信号处理是许多信息领域应用的核心技术之一,是目前发展最为迅速的信息科 学研究领域中的一个。语音信号处理是目前极为活跃和热门的研究领域,其研究涉及一 系列前沿科研课题,且处于迅速发展之中;其研究成果具有重要的学术及应用价值【 8 1 。 从技术角度讲,语音信号处理是信息高速公路、多媒体技术、办公自动化、现代通 信及智能系统等新兴领域应用的核心技术之一。在高度发达的信息社会用数字化的方法 进行语音的传递、存储、识别、合成、增强等是整个数字化通信网中最重要、最基本的 组成部分之一。同时,语言不仅是人类相互间进行沟通的最自然和最方便的形式,也是 人与机器之间进行通信的重要工具,它是一种理想的人机通信方式,因而可为计算机、 自动化系统等建立良好的人机交互环境,进一步推动计算机和其它智能机器的应用,提 高社会的信息化和自动化程度。语音处理技术的应用及其广泛,包括工业、军事、交通、 医学、民用等各个领域。目前,语音处理技术处于蓬勃发展时期,已有大量产品投放市 场,并且不断有新产品被开发研制,具有极其广阔的市场需求和应用前景。 8 中北大学学位论文 2 1 1 语音信号处理的发展状况 1 8 7 4 年电话的砝码可以认为是现代语音通信的开端。电话的理论基础是尽可能不失 真地传送语音波形,这种“波形原则”几乎统治了整整一百年。1 9 3 9 年产生了一种概念全 新的语音通信技术,这就是通道声码器技术。这种声码器技术打破语音信号的内部结构, 使之解体,提取其参数加以传输,在接收端重新合成语音。这一技术包含了其后出现的 语音参数模型的基本思想,在语音信号处理领域具有划时代的意义。4 0 年代后期,研伟0 成功了将语音信号的时变谱用图形表示出来的仪器语谱仪,为语音信号分析提供了 一个有力的工具。在语音信号分析研究的基础上,电话通信技术得到了很大发展,同时 也开展了人机自然语音通信的研究。这样,便在5 0 年代初出现了第一台口授打字机和 第一台英语单词语音识别器。进入6 0 年代,语音信号处理的研究工作取得了新的进展, 其主要标志是1 9 6 0 年瑞典科学家f a n t 的著名论文语音产生的声学理论的发表,它 为简历语音信号数字模型奠定了基础。特别重要的是6 0 年代中期数字信号处理的技术 和方法取得了突破性进展,其主要标志是快速傅里叶变换算法的成功应用。这样,出现 了第一台以数字计算机为基础的孤立词语音识别器,继而又研制出第一台有限连续语音 识别器。7 0 年代初,f l a n a g a n 出版的重要著作语音分析、合成和感知,奠定了数字 语音处理的系统的理论基础。与此同时,倒谱分析技术和线性预测技术在语音处理中的 成功应用,微电子学和集成电路技术取得的进展,价格低廉的微处理器芯片及专用信号 处理芯片的不断问世,再次给数字语音处理技术的发展和推广应用以巨大的推动力。发 展到今天,虽然语音信号处理领域中还有许多关键问题尚未很好解决,但已经在很多研 究中取得了巨大进展。可以相信,经过长期不断的艰苦努力,必将取得更大的成果。 语音信号处理有着广泛的应用领域,其中最重要的包括语音编码、语音合成、语音 识别、说话人识别及语音增强( 1 叼。 目前,计算机已经得到了广泛的应用,但计算机使用起来还不够方便,因为人与计 算机之间的通信通常采用键盘和显示器,这种方式在很多场合效率低下,操作也不方便。 因而人们期待着计算机具有智能的接口。其目的是使人们能够更加方便、更加自然的与 计算机打交道,即使计算机象人一样能够接收、识别并理解声、文、图信息,能够看懂 文字、听懂语言、朗读文章、甚至能够进行不同语言之间的翻译。智能接口技术的研究 9 中北大学学位论文 既有巨大的应用价值,又有基础的理论意义,多年来一直是最活跃的研究领域,成果也 最为显著。 语音识别和语音合成为人机交流开辟了一条新的途径。语音合成的目的是使计算机 说话,语音识别是使计算机判断出所说的话的内容。在计算机智能接口技术及多媒体技 术的研究中,语音识别技术具有很大的应用潜力,同时为了实现人机语音通信,必须具 备语音识别和语音理解的功能。 计算机和集成电路技术的发展,推动了语音信号处理的实用化。目前有很多专用语 音处理芯片,这些芯片与微处理机或微型计算机相结合可以组成各种复杂的语音处理系 统。 2 1 2 语音的产生过程 声音是一种波,能被人耳听到,它的振动频率在2 0 2 0 k h z 之间。而语音是声音的 一种,它是由人的发音器官发出的、具有一定语法和意义的声音。语音的振动频率最高 可达1 5 k h z 左右【2 0 1 。 人类生成语音过程的第一阶段是决定想传给对方的内容是什么,然后将内容转换为 语言的形式。选择表现其内容的适当语句,将其按文法规则排列,便能够成语言的形式。 人类的语音是由人体发音器官在大脑控制下的生理运动产生的。人的发音器官包括 肺、气管、喉( 包括声带) 、咽、鼻和口等。空气从肺部排出形成气流。空气通过声带, 如果声带是绷紧的,则声带将产生张弛振动,即声带周期性地开启和闭合。声带开启时, 空气流从声门喷射出来,形成一个脉冲;声带闭合时相应于脉冲序列的间歇期。因此, 这种情况下在声门处产生一个准周期性脉冲序列的空气流,该空气流经过声道后最终从 嘴唇辐射出声波,这便是“浊音”语音。如果声道是完全舒展开来,则肺部发出的空气流 将不受影响的通过声门。空气流通过声门后,会遇到两种不同的情况:一种情况是如果 声道的某个部位发出了收缩而形成一个狭窄的通道,当空气流到达此处时被迫以高速冲 过收缩区,并在附近产生出空气的湍流,这种湍流通过声道后便形成“摩擦音”和“清音”: 另一种情况是,如果声道的某个部位闭合在一起,当空气流到达时便在此处建立空气压 力,一旦闭合点突然开启便会让气压快速释放,经过声道后便形成了“爆破音”。 由此可见,语音是空气流激励声道最后从嘴唇或鼻孔或同时从嘴唇和鼻孔辐射出来 10 中北大学学位论文 而产生的。对于浊音、清音和爆破音来说,激励源是不同的,浊音语音位于声门处的准 周期脉冲序列,清音的激励源是位于声道的某个收缩区的空气湍流( 类似与噪声) ,而 爆破音的激励源是位于声道某个闭合点处建立起来的气压及其突然释放【2 1 1 。 2 1 3 语音信号的特征 语音具有被称为声学特征的物理性质。语音既然是人的发音器官发出来的一种声 波,他就和其它各种声音一样,也具有声音的物理属性。它具有以下一些特性: 音质:它是一种声音区别于其他声音的基本特征。 音调:就是声音的高低。音调取决于声波的频率:频率快则音调高,频率慢则音调 低。 声音的强弱:音强即音量,又称响度。它是由声波振动幅度决定的。 声音的长短:也称音长,它取决于发音持续时间的长短。 语音除了具有上述的声音的物理属性外,它还具有另一个重要性质,这就是语音总 是和一定的意义相联系着,一定的语音要表达一定的思想和意义。语音所代表的意义是 历史发展形成的,是约定俗成的。语音不仅表达了一定的意义和思想内容,而且还能表 达出一定的语气、情感,甚至许多“言外之意”。因此,语音中所包含的信息是十分丰富 和多种多样的。 2 1 4 语音信号产生模型 讨论语音识别系统实现之前,将语音信号产生模型作为独立模块拿出。作为语音信 号处理的基础之一,在后面章节的讨论中,线性预测、预加重都依赖于语音信号产生模 型。 语音信号可以看作是激励信号激励一个线性系统而产生的输出。一个完整的语音信 号模型可以用三个子模型激励模型、声道模型、辐射模型级联而成,其转移函数为: 鼠z ) = g ( z ) 矿0 ) r ( z ) ( 式2 。1 ) 激励信号是一个周期性的脉冲串:p ( ,z ) = 8 ( n + r n p ) ,那么浊音信号就是两者 的卷积结果,即 中北大学学位论文 工( ,z ) = p ( n ) :i c h v ( n ) ( 式2 2 ) 而清音信号是由一白噪声序列激励一个线性系统而产生输出,这个线性系统仅有声 道模型和辐射模型级联而成。系统的传递函数为: h w ( z ) = v ( z ) r ( z ) ( 式2 - 3 ) 激励信号u ( n ) 假定为白噪声序列,于是有: x ( n ) = u ( n ) 枣h w ( ,z ) ( 式2 4 ) 语音信号 图2 1 语音信号产生模型 语音信号是一种典型的非平稳信号,特性是随时间变化的。但是在5 m s 一5 0 m s 这样 的短时内,其频谱和某些物理特性量可以看作是不变的,这就是语音信号处理短时平稳 统计特性的基础。我们将语音信号分割为一些短段( 分析帧) ,这些短段就好像来自一 个具有固定特性的持续语音片段,对该短段进行处理就相当于对固定特性的持续语音进 行处理。通常帧有一些叠接,使得帧与帧之间平滑过度,保持语音信号的连续性【2 2 1 。对 每一帧的处理结果或是一个数或是一个数组,经过处理以后产生一个新的依赖与时间的 序列,而用于描述语音信号。 2 2 语音识别基本概念 2 2 1 语音识别概念的提出 科幻小说中的机器( 计算机) 自动语音识别成为近五十多年来许多学者研究和探索 的目标,如何让计算机能听懂人说的话,这个曾被认为比登月还难的问题,如今并不是 遥不可及。伴随计算机技术的发展,语音识别已成为信息产业领域的标志性技术,在人 1 2 中北大学学位论文 机交互应用中逐渐进入我们日常的生活,并迅速发展成为“改变未来人类生活方式”的关 键技术之一【2 3 1 。 语言是人类特有的功能,声音是人类常用的工具,是相互产生信息最重要也是最基 本的手段。如何才能让计算机听懂人说的话,实现计算机与人之间的自然、人性化相互 沟通和通信,摆脱传统的键盘控制等交流方式昵? 在探讨这个问题前,首先需要明确两 个基本概念:a 、什么是语音识别b 、怎么样才能在人类和计算机之问架起一座知识的桥 梁,让人与计算机毫无障碍的进行语音交流? 计算机分析语音信号的目的是为了方便有效的提取并保存语音信号所携带信息,这 种方法所需要的准确度是由语音中特定信息决定。根据所分析的参数类型,语音信号分 析可以分为时域和变换域( 频域、倒谱域) 处理技术。从语音信号的时域和频域波形图 中,我们期望计算机可以“识别”什么样的信息:a 、表达的文字b 、措辞与韵律c 、情感 情绪信息d 、说话人的身份语言种类。 语音信号所表达的信息丰富,通常我们定义语音识别是指计算机将人类的语音信号 “翻译”成表达相应语言的文字序列。这里的“翻译”是指在一个有限的集合里面确定待识 别目标,例如做一道选择题,事先已经预知所有可能性选择,其提出的是一种以模式匹 配的思想,目前成为语音识别应用的主流方式【2 4 】。 语音的措辞、韵律、情感及情绪等信息主要涉及到自然语言理解的内容,不在本论 文所要讨论的范围内。说话人识别是语音识别的一种特殊形式,在算法理论和结构模型 上两者保持一致,不同点在于前者不注重包含在语音信号中的文字符号信息,而是着眼 于包含在语音信号的个人特征,以达到识别说话人的目的,语言种类识别情况相似,这 里也不再赘述。 语音识别离我们如此之近,集合任何人都可以从自己的体验对一个语音识别系统的 性能做出直观的评价,即使是初次接触它也不难提出朴素的语音识别方案。直观的想法, 可以比较两个语音时域波形的相似度来实现语音识别,通过对此方法的思考,随之可以 提出以下问题: a 、同一语音的时域波形不同发音之间千变万化,且一段语音数据量大,不适合作 为识别的基元,如何选取语音信号识别的特征,是频域变换结果还是其它; b 、语音特征参数怎样实现对不同语音的分类,或者说语音信号中含有丰富的信息, 】3 中北大学学位论文 但如何去除对语音识别无关紧要的冗余信息,从中提取出对语音识别有用的信息昵; c 、采用什么样的模型( 算法) 来匹配选取的语音特征: d 、怎样测度量语音信号的相似性,选取什么样的准则; e 、怎样评判语音识别的结果的有效性和正确率; 对上述问题的探讨,构成了语音识别任务的基本要素。一个成功的语音识别系统, 需要考虑语音特征参数的有效和适应性、算法的复杂程度、各层知识的构建、系统可移 植和扩展性等各方面问题,在论文的后续章节中,将对以上问题作进一步阐述。 2 2 2 语音识别的分类 所谓的语音识别有广义和狭义之分。广义上的语音识别泛指利用语音信号识别出其 中所包含的“任何感兴趣”内容的一种技术,这可分为: 语音内容识别:它是指识别出说话人所说的内容,并不是考虑说话人是谁,它是从 不同的语音信号中寻找共同因素,强调发音的共性。 说话入识别:它是指识别出说话人是谁,是从语音信号中提取出说话人的特征,而 不考虑语音中所说话的语义内容,强调说话人的个性。 狭义的语音识别,即利用计算机识别出语音信号所表达的内容。从不同的角度和要 求出发,语音识别有不同的分类方法: 按词汇表的大小分为:小词汇表( 词汇量小于l o o ) ;中词汇表( 词汇量在1 0 0 和 1 0 0 0 之间) ;大词汇表( 词汇量大于1 0 0 0 ) ;无限词汇识别( 全音节识别) ;一般而言, 随着词汇量的增多,各词汇之间的混淆性增加,系统实现将变得更加困难,系统识别率 也降低。 按照发音方式分为:孤立词识别( i s o l a t e dw o r dr e c o g n i t i o n ) ;连续词识别 ( c o n n e c t e dw o r dr e c o g n i t i o n ) ;连续语音识别( c o n t i n u o u ss p e e c hr e c o g n i t i o n ) ;连续语 音识别是说话人以日常自然方式讲述并进行识别,而孤立词的识别是语音识别的基础。 按照说话人的限定范围分为:特定人语音识别( s p e a k e r - d e p e n d e n t ) ;非特定人语 音识别( s p e a k e r - i n d e p e n d e n t ) ;特定人语音识别系统往往用于特定的场合,非特定人语 音识别系统可以针对不同的人工作,通用性好,应用需求较广。 1 4 中北大学学位论文 2 2 3 语音识别的难点 语音识别技术已经有五十多年,虽然各种产品层出不穷,但与语音识别的最终目标 还有一定的距离。多数的语音产品没有像预期一样给人机的交互方式带来本质的影响。 为什么人与人之间的语音交流是如此容易,而对计算机来说语音识别如此困难? 人对变化的语音信号有着难以置信的抽象性、适应性、分辨和学习能力;同时,依 赖已有的丰富知识背景对语音信号进行判断处理,而这些是计算机目前所不具备的能 力。正因为如此,相对于人而言,计算机语音识别的性能距离理想仍然很远。一些优秀 的语音识别系统的性能还不如幼儿的识别能力【2 5 1 。 结合汉语语音识别的特点,语音识别的难点表现在以下几个方面: ( 1 ) 协同发音现象:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- XX年会主题活动策划方案
- 水利新质生产力的概念及内涵
- 2025年全科护理学院校全科护理常规操作规范试卷答案及解析
- 2025年康复医学功能评定操作技能答案及解析
- 2025年检验医学检验技术规范操作考核测试卷答案及解析
- 2025年精神科心理疗法应用与病例讨论答案及解析
- 2025年血液科学科再生障碍性贫血诊断标准模拟测试答案及解析
- 2025年免疫学自身免疫病诊疗策略模拟测试卷答案及解析
- 民族团结班级课件
- 新质生产力的马克思主义原理
- 大学生寒暑假社会实践活动登记表
- 就业权益与维护课件
- 保险反思心得体会(10篇)
- 膝痹中医护理方案效果总结分析报告
- 07第七讲 发展全过程人民民主
- 哈工大版理论力学课件
- 2023年视光考试题及答案
- 人教鄂教版科学五年级上册全册分层练习附答案
- SAP-按销售订单采购生产系统实现之配置和操作
- 常见鸟类图鉴
- 五年级英语阅读理解试题及答案15篇(word文档)
评论
0/150
提交评论