




已阅读5页,还剩61页未读, 继续免费阅读
(控制理论与控制工程专业论文)多种预处理方法在语音检测中应用效果的比较研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 吼音信号处必技术是一个广阔的研究领域,有着广阔的应用前景。语占检测 投术过语音信号处理的一个方面,其检测效果的好坏对语音识别的t j 4 * j j 率有着重 螋i l :j 影u m 目日u ,语音检测工作中的噪声都取比较单一的噪声或是符合某种假设, 本丈z l 刑语音和非掰音进行判别时,除r l f f , j 浯音外,把汽车声、打击声、动 ! 助i ll 胪、水声等都包括在非语青样水中,避免了噪声的单一性。 线性预测分析和m e l 倒谱分析是列语音信号特征提取比较有效的两种方法, m 谓音信号处理中有着重要的应用。水文提出了一种新的特征提取的方法,并通 过则盒旺明了其可行,陡。下面是本文完成的几个方面的工作: l 洋细介绍了线一陡预测分析( i , p c ) 和m e l 倒谱分析的原理及其具体实现 过挂。 2 介绍了高维空间几倒学的些基本定义,并在此思想上,提出了自相关 此角法对语占信号进行特征提取。 3 基j 二高维空删几何的思想,把每个样本点和其特征值看作高维空间中的 个点,用线性预测分析、m e l 倒谱分析和自相关夹角法对样本点提取特征,然 肪h j 点在空川的投影来判别浯音和非语音,根据判别结果来比较三种特征提取方 y 上的优劣。 芙键词:语音检洲,l p c 分析,m e l 倒谱分析,高维空间几何,自相关夹角 l p c c ,m f c c ,点向空问投影。 a b s t l a c t r h cd o m a i no fs p e e c hs i g n a l p r o c e s s i n gi se x p a n s i v es p e e c hs i g n a lp r o c e s s i n g sab r o a d p r o s p e c ti nt h ea p p l i c a t i o ni nr e a l i t y s p e e c hd e t e c t i o ni sa na s p e c to f s f l e e c hs i g n a lp r o c e s s i n ga n di si m p o r t a n tt os p e e c hr e c o g n i t i o n t h en o i s ei ss i n g l eo r h 1a c c o r d a n c ew i t hs o l v eh y p o t h e s i si nc u r r e n ts p e e c hd e t e c t i o n t oa v o i d s i n g l e n e s s 、t h en o i s e ,t h es o r to f n o n s p e e c hi sm a n yi nt h i sd i s s e r t a t i o nf o re x a m p l et h es o u n d “w a t e be a r , a n i m a l sa n dl a u g ha n ds o0 1 1 , i n e a rp r e d i c t i o nc o d ea n dm e l s c a l ec e p s t r u mc o e f f i c i e n t sa r ee f f e c t i v em e t h o d i ns p e e c ht e a t m ee x t r a c t i o na n di m p o r t a n ti ns p e e c h s i g n a lp r o c e s s i n g an e w f e a t u r e e x t r a c t i o nm e t h o di sp r e s e n t e di nt h i sd i s s e r t a t i o na n di sp r o v e d p r a c t i c a b i l i t y h em a i n j o b si nt h i sd i s s e r t a t i o ni n c l u d et b l l o w s : 1 1 1 h c t h e o r y o fi , p cm i dm e l s c a l e d c e p s t r u ma n a l y s i s i si n t r o d u c e di nt h i s d i s s e r t a t i o na n dh o wt oe x t r a c tl p c ca n dm f c c i se l a b o r a t e d 2s o m e t h e o r yo fh i g h d i m e n s i o ns p a c ei si n t r o d u c e da n dan e wf e a t u r ee x t r a c t i o n m e t h o da u t o c o r r e l a t i o n - a n g l e i s p r e s e n t e d b a s e do n h i g h d i m e n s i o ns p a c e g e o m e t r y 3b a s e do nh i g h d i m e n s i o ns p a c eg e o m e t r y e v e r ys p e e c hs a m p l ei sl o o k e da sa p o i n t i n s p a c e t h e nt h e s p e e c hs a a n p l ep o i n t i se x t r a c t e df e a t u r e b yl p c , m e l s c a l e dc e p s t r u ma n a l y s i so ra u t oc o n e l a t i o n a n g l e t h e i rf e a t u r ei sl o o k e da s ap o i n tt o o 7 r h ef e a t u r ep o i n tp r o j e c t so nc o o r d i n a t e st h e nd i s c r i m i n a t e ds p e e c h b e t w e e nn o n s p e e c hb yt h ep r o j e c t i o nr e s u l t t h em e r i t sa n dw e a k n e s so fa u t o e o r l e l a t i o n a n g l ea r ec o m p a r e d w i t hl p ca n dm e l s c a l e dc e p s t r u ma n a l y s i s k e y w o r d s :s p e e c hd e t e c t i o n ,l p ca n a l y s i s ,m e l s c a l e dc e p s t r u ma n a l y s i s h i g h d i m e n s i o ns p a c eg e o m e t r y ,a u t oc o r r e l a t i o n a n g l e ,l p c c ,m f c c ,p r o j e c t i o n 多干t 坝处理方法矗:语- 1 榆删中成朋般果的比较删究 第一章绪论 1 。1 引言 通过语音传递信息是入类鼗重要、鼹有效、壤常嗣祠最方溪的交换信怠方式。 l 托j 楚人炎特有的功能,声音是人类常用的t 具,是相甄传递信息的最主要的手 阮,1 捌此,语音信号韪人们构成思想疏通和感情交流的最主要的途径。 _ _ 算枫能听懂人类的语鸯,是人类自计算机诞生以謇梦寐以求的想法。隧 l 。计算机越来趟向便携式方向发展,随着计算环境的| = | 趋复杂化,人们越来越邋 嘲要求援眭莞键赣蜒束缚露代之瞄语占辕入这样矮子馒雳数、基然懿、人睫讫蛉簸 八方式。 港裔信譬处疆这门学科之掰以g 够涕样艮矮的、漾潍鳃蔽| 广大辩学 二作者 太小断的对其进行研究和探讨除了他的实用性之外,弱一个莺要的原幽是它始 终与当时信恿科学中馥活跃的静洽学科保持密讶的联系,并置一藤发鬣。语音处 噬技术是以语裔语言学和数字信号处理为基础而形成的一门涉及很广的综合性 学科,与,j :理学、计算机科学、通信b 信息科学、模式识别班及人工智熊等科学 郑寿羲e 豢密切的联系。 l 。2 语音信号处理方法熬几个方匿 l 。2 。l 语音编褐季瑟语音速缨 自从2 0 睦纪3 0 年代本拦出p c m 及通道声码器理沦以来,语音编码技术段 盯7 0 余芏 ? 的发展历史,但只有近2 0 年随着讨算机和微电子技术的发展才获得了 琶这瓣发震,茏其是近忍年寒麓矮量器音压缩缡码的技术已开媲太援模蕊走瞧实 川化。语音编硝和压缩,其目的是节约传输的带宽和存储器,使被编码和压缩后 瀚信息更有效瀚通过潮络转输,还可戮通过卫豢在各个大陆之闽送行交漉。另黔, 数字编码还可以使我们的电话保密不让他人窃听。以上这些传输方面的应用都鼹 搜1 勺,而且侄传输过程中不会有,f i 么延误,圆此对话比较容易。 浙江 :_ _ 业 举硕卜学位论盘 多种项处理方法趾语占检删中麻用效果的比较研究 漪音编码技术在存储方面的应用是,先把信息存起来等以后再用,例如语音 衍箱、录音通知等。另外的应用还包括数字式电话应笞机,如果你把电话号码拨 诎丁,它会a 动告诉你“对小起,这个由、话号码错r ”等等。 爵音压缩技术主要实现必个方向的要求:一是语音编码的比特率;二是语音 划随的多少;兰是压缩的复杂一i 牛和难度;阳足语音编码的质量性能。 小同的信息有不同的带宽,自然语吉带宽从1 0 h z 钊7 0 0 0 h z 1 0 0 0 0 h z ,电 i , t l 的带宽是2 0 0 i t z 到3 4 0 0 h z 之制,i 州此电话听起来不是那么清楚,凶为它的带 托本乍。i j i , t 幅无线电波的带宽是5 0 h z 剑7 0 0 0 h z ,调频无线广播是2 0 h z 到 l5 0 0 0 h z ,激光唱片的带宽是1 0 h z 到2 0 0 0 0 h z 之间。 阁l1 和倒l 一2 是各种比特率 、的语音可懂度和语音质量。 幽11 各种比特率f 的语音的可懂度 幽【一2f t _ f , b 比特率m 口语音质量 浙江t 业人学坝t :学位论文 一兰型! 翌竺些立鲨堡堕童堡型生旦塾墨塑些墼型塞 1 1 , 2 2 语音合成 语音合成的目的是建立机器对用户讲晒的强大能力。语音合成的模,丝是用户 通过键盘( 电传打字机、译码器或语音输入) 发出指令,使信息数掘库能够圳f 滕 然后机器就把用户需要的信息通过通信接1 输出。影响信息输出有系列蚓素。 举例来说,如果数据库信息量比较小,我们可以把有关信息录f 来,这样质量t t 较商,但是灵活性比较小;如果数据库的信息量比较大,那么就无法固定录肖, 就不能利用线性方式把信息录下来。还有讲话的词汇范同的问题,词汇晕大小, 也会影响到我们所选择的系统。最后还有一个因素,就是我们所选择的碗件。 1 2 3 语音识别 语音识别是语音信号处理中非常重要的方面,语音识别又分为许多分支,下 面比较详细的介绍一n 1 语音识别研究及现状 语音识别的研究工作起始于上个世纪5 0 年代,标志是a t & tb e l l 实验室吱 现了一个可以识别十个英文数字的语音识别系统。 6 0 年代,随着计算机技术的发展,也推动了语音识别技术的发展,这一叫期 的重要成果是提出了动态规划( d p ) 方法柬解决语音识别中不等k 的对诈问题。 7 0 年代,语音识别技术得到了广泛研究和迅猛发展。线性预测编码( i , p c ) 技术的引入,使语音信号的特征提取有j ,一次飞跃:动态时间归整( d t w ) 技 术基本成熟,提出了矢量量化( v q ) 和隐马尔可夫模型( h m m ) 理论,实现了 基于线性预测倒谱和动态时洲归整技术的特定人孤立词语音识别系统。 8 0 年代,语音识别技术迸步走向深入其显著特征是h m m 和人工神经别 络( a n n ) 在语音识别中的应用。 进入9 0 年代随着多媒体时代的柬临,迫切要求语音- t u , 3 t j 从实验室走向丈际 应用。许多发达国家如美国,同本韩国和许多著名公司都对浯音识别 一作投以 巨资。i b m 公司于1 9 9 7 丌发出v i a v o i c e 语音识别系统。 进入二1 一世纪,互联网和移动通讯技术的成熟给语音识别技术的发展和应 用带来新的契机。i b m 、l u c e n t 、m o t o r o l a 和a 1 、& t 四家公司于2 0 0 0 年用0 语 浙江t 业人学坝卜学位论丈 多种撮处埋山泄、m 诏尚检测中心用效果的比较研究4 爵浏览i n t e _ 【1 n e t 的标记语吉、,o i c e x m l ,现已被w 3 c 组织接受为国际工业标准, 1 4 1 二这个标准确立之后,许多广家士目继推出语音门户网站。这样人们就。j 以通过电 活求:吲,利片语音米代替键盘输入。 2 诳占识别的分类 语素u 别系统按照不同的角度、不同的应用范围、不同的性能要求会有不同 晌系统设汁和实现,出会有不同的分类。一般语音识别系统按不同角度会有f 面 儿种分类方法: ( 1 ) 从所要识别的对象米分,可以分为孤立词识别、连接词识别、连续语音 泌* ,理解、会话浯爵识别等。孤丑词识别要求说话人每次只说一个字( 间) 、 个阔绢或一条命令让识别系统识别。连接词识别般特指十个数字( 0 9 ) 连 接f f | 1 成的多位数字识别或由少数指令构成的连接词条的识别。连接词识别系统在 l 卧j 、数据库惫询以及控制操作系统中用途很广。连续语音识别就是人们的自然 沿音的以5 _ ;l j 。 ( 2 ) 按照识别词汇量可以分为大词汇、中词汇和小词汇识别系统。i 2 0 个 洲n 一的语音识别系统被认为是小词汇量识别系统;中等词汇量是指词汇在2 0 1 0 0 0 个;多于1 0 0 0 个词汇的识别系统称为大词汇识别系统。 ( 3 ) 从讲话人的范围米划分,可分为特定人和非特定人语音识别系统。特定 讲话人语音的识别比较简单,能得到较高的识别率,但使用前必须由特定人的用 户输入大量的发音数据,对其训练;非特定人识别系统的通用性好、应用面广, f j | _ l 难度较大,识别率相对较低。 3 语音识别系统基本模型 语音u 别系统的典型实现方案如图1 3 所示。 幽l 3 语音识别系统典犁实现方案 输入的语音信号首先经过预处理环节。语音信号经过预处理后,接下来最重 浙江t 业夫学坝j 学位论史 多种颇处螋方泄、往语曲随测中照用敛果的比较研究 u 期0 环就是特征提取,对特征参数的要求是: - i ) 特征参数能有效n j f e 表语音特征,县有良好的区分性。 、) 各阶参数之间有良好的独立性。 1 3 ) 特征参数要计算方便。 4 ,语音识另u 的难点 虽然迄今为i e ,语音识别技术已经取得了很大的成就,但目前的语音识别技 ,k 水、f 还远远不能达t i h t b 算机与人类之1 h j 能够自然交流这个最终目标,刊见语音 叭z i j 技术研究是一项非常艰巨的任务,其中存在的主要问题和困难如下: 1 语音信号的卢学特征随其f ) i j j ; j - 7 之相连的语音不司而产生很大的变异, h 连续语流中各语音单位之阳j 不存在明显的边界。 2 语音特征的变化很大。不光是对不同的人,即使是同一个人隔一段时日j 训i 卜+ 句话语音特征的变化电很大。 3 个词语,句话的发音与卜f 文所要表达的内容,说话的环境条件及 【灿) 。八的文化背景都有很大的关系,而这些语境信息几乎是计算机语音识别无法 1 : i “向。 4传声设备的差异 r lh 巢声的干扰也对语音特征的提取有很大的影响。 i 2 4 语音检测 语音检测的1 7 1 的是区分出语音和非语音或把语音段和非语音段区分开。语音 榆测列丁诏爵t l n 特别是噪卢环境r 的语音识别有着重要的影响。一方面,语音 刈的性能:i 哿依赖于这个分割。如果语音被判为噪声,会使识别删除错误增加, i f i 日还【i j 能丢失重要的信息;而噪声被判为语音将会增加识别插入错误,极大的 降低系统的整体性能。另一方面,许多噪声中的语音识别算法需要检测噪声段来 i i i 汁嵘声模型参数,然后对噪声晤音段识别,他们都需要语音检测部分。因此, 稳健、精确、可靠的语音检测算法是语音识别系统必需的。 t j 日u ,好多的语爵检测一f 作往往和语音增强工作联系在一起,是关于在噪声 i 。 景下将语音和噪声分开。其方法有帧平均能量方法、帧平均过零率检测法、 | r l 拥关法、基频检测法等语音检测方法,这些方法在高信噪比下,应用效果很好, 懈几种方法结合起来,效果会更好。但在信噪比低的情况下,即使用很复杂的决 浙江【业大学 i j i i 卜学位论文 多种预处理力法枉语阿榆测中成用效果的比较研究 策觇则也很雉达到可靠的检测。还有摹 。基曾周期信息,排序幅度谱参数,时间 蛳眸i 参数的语音检测的方法,但是,由于语音和噪声的特征参数的概率分柿之间 址仃重叠的,而上j ,这种重叠住噪声环境下会被加剧,所以这些方法的应用也有 i 芭的局限性。 “:一一段连续的声音信号。k 既有语音段,又有静音段和突然的噪声。在这段 连续声音l 中,将语音部分取出,而非语爵部分玄除掉陋1 ,也是语音检测的一个研 。) i i 昝。 j 二述的一些语音检测的l 作都确一定的局限性,好多方法都是假设噪声符合 艇自i , f t l 2 殴或要求背景噪声保持稳定,而且需要一定的训练算法以预先得到背景噪 , j 及语音的统计信息。另外,有的工作只是针对比较单一的噪声环境,如在行驶 小舻t 4 二内部陋i ,枪炮声0 7 1 等等,而在实际工作中,这些条件很难得到满足。 1 3 本文工作 本文的主要: 作是通过完成语音私l 非语音的判别,来比较线性预测倒谱 ( l p c c ) 方法、m e l 倒谱( m f c c ) 方法和本文提出的自相关夹角方法对语音 避行特征提取的效果。在非语音方面,除了人说话外,其余的如汽车声音、水声、 k t l :j 鼓掌、笑声等等都作为非语音避免了噪声的单一性,并且,语音样本是非特 定人、非固定内容。 在处理中,将每个样本看作是高维空唰的一个点,用l p c c 方法、m e l 倒谱 j j 浊耵i 自相关夹角方法对样本点特征提取。基于高维空间几何的思想,用大量语 i 一r 样本的特征,瓤构成一个坐标系,然后用被测点的特征点在空间的投影结果来区 分语音和非语音,通过结果来比较三种特征提取方法的优劣。 1 4 本文内容安排 本文芡分为六章: 第一章介绍了语音编码、语音合成、语音识别和语音检测,介绍了语音 u 别的难点以及语音检测的重要性及i = i 前语音检测工作的局限性。 第一章介绍了语音的产生声学机理、数字信号的数学模型和语音信号的 j 4 :本特征。 浙江1 2 业夫学顺= 卜学位论文 多种倾处理力法相:语断榆测中心用效果的比较研究 第三章介绍了语音信号时域的基本处理方法,讲述了加窗、帧移、短时 能量适、短时平均过零率和短时自相关函数等概念和语音端点检测技术;然后介绍 1 姐时傅立叶变换和倒蔷变换。 第到章首先对特征提取进行了概述,然后介绍了l 。p c 方法和m e 倒谱方 法行提出了自相关兴角方法。 笫虹章介绍了基于高维空删儿何的思想,用点在空间投影的方法来区分 讯菏平u 非语爵,以此来比较三种特征提取方法的优劣。 笫六章是本文的总结与展望,提出以后要做的工作。 浙江t 业大学倾l :学位论空 多种坝处删方法n 一语音检测中应用效果的比较研究 第二章语音、语言及语音信号 2 1 语音和语言 人们在讲话时发出的话语i l l l 语旨,它是种声菏,具有声学特性的物理特征。 然而它又是r 种特殊的声音,是人们进行信息交流的声音,是组成语言的声音。 此,语音l s p e e c h ) 恳声裔( a c o u s t i c ) 和语言( l a n g u a g e ) 的组合体。把一 进串的哥组成语言的声音称为语音。所以划语音的研究包括两个方面,一个是语 爵中各个膏的排列由一些规则所控制,对这些规则及其含义的研究称为语言学; j - 个是对语音中各个菏的物理特征和分类的研究称为语音学。在研究语音和语 j 之曲首先要了解一f 人的院话过程。人的说话过程可以分为血个阶段: ( 1 ) 想说话阶段:客删事实首先在人脑中反映,接着大脑选择合适的词语及 按语法规则组合,以表达他们想况的内容。 ( 2 ) 浣出阶段:由想说阶段大脑中枢的决策,以脉冲形式向发音器官发出 指令,使舌、唇、颚、声带、肺等部分的肌肉协调地动作,发出声音来。 t : ) 传送阶段:语音是连串的声波,以空气为媒介传送到听者的耳朵里。 1 4 ) 接收阶段:从外耳i 改集的声波信息,经过中耳的放大作用,传到内耳。 经过内耳基底膜的振动,激发柯替氏器官内的神经元使之产生脉冲,将信息以脉 冲形式传送给大脑。 ( 5 ) 理解阶段:听觉中舷收到脉冲信息之后,通过一种至今尚未了解的方 一辨别说话的人和况话的内容。 从五个阶段看,龇话过程包括相当复杂的因素,其中有心理的、生理的、 物理的以及个人的和社会的因素。个3 n 素指浇话人的口音及习惯特色,听者的 l 奸乃和理解能力;社会因索是指讲话者和听话者对用于进行交际的手段有共同的 ) ! i i i ¥f l , j 社会基础。 2 2 语音产生的声学机理 八类的发声过程是由于肺部的收缩,压迫气流由支气管经过声门和声道引起 浙江t 业人学坝l :学位论殳 占频振荡而产牛的,其中声道起始于声门处而终止十嘴唇,包括咽喉,口腔;鼻 道则是从小舌”始到鼻孔为止。语爵按其激励形式的不同大致可以分成三类。 i 浊音:气流通过声门时,声带的张力刚好使声带发生较低频率的张驰振 荡,形成准蒯期性的空气脉冲,这监卒气脉冲激励声道便产生浊音( v o i c e d s p e e c h ) 或称有声语音。 2 清音:如果声带不振动,而在某处收缩,迫使气流以高速通过这一收缩 j i5 分i t i 产生湍流就产生清音( u n v o i c e ds p e e c h ) 或摩擦音。 3 煺破音:如果声道某处完全闭合建立起气压,然后突然释放而产生的声 抒就是爆破音( p l o s i v es p e e c h ) 。 当声音由i _ 二述三种激励方式产生出来以后,便顺着声道进行传播。声道可以 看成魁一根具有非均匀截面的卢管,在发音时具有共鸣器的作用。当声音进入声 通后,其频谱必定会受到声道的共振特性的影响。声道具有一组共振频率,称为 共振峰频率或简称共振峰。声道的频谱特性便主要的反映出这些共振峰的不同位 甜以及箨个峰的频带宽度。其振峰及其带宽取决于声道的形状和尺寸。 2 3 语音信号数字模型 利用数字技术来模拟语音信号的产生称为浯音信号的数字模型。发音器官能 发旧一系列声波,那么数字模型就能产生与此声波相对应的信号序列。这种模型 是种线性系统,它的一组参数选定之后就可以使得系统的输出具有所希望的语 旨性质,系统的这些参数和语音产生过程有关。 在发音时,激励和声道形状都随时问而变化,但语音信号随时间的变化是非 常缓慢的,通常认为激励与声道的面积函数在1 0 2 0 m s 的时间范围内是近似不 变的。因此可以设想语音的数字模型是一个缓变的线性系统,这个线性系统的参 数在1 0 2 0 m s 的时间范围内是近似不变的。语音信号的数字模型如图2 1 所 可i : 它包括三部分:激励源、声道模型和辐射模型。激励源分为浊音和清音两个 部分,山浊音j 青音7 r 关所处的位置来决定发出的是浊音还是清音。在浊音情况 f ,激励信号由一个周期脉冲发生器产生。产生的序列是一个周期为r 的冲击序 列,周期t 取决于基音频率f 0 和信号的采样频率n ,t = 其中和r 都 0 浙江t 业大学硕。l j 学位论文 堑塑! 些:! 垫! ! :堕童丝型! 生旦墼墨堕! ! 墼型塞 ! ! a n i 笃2 1 语音产生的数字模型 以胁计量。为了使浊音的激励信号具有声门脉冲的实际波形,还需要使上述的 冲击序列通过一个系统函数为g ( z ) 的线性系统,然后经过幅度控制a ,后的输出 信号即是我们所要求的浊音激励。g ( 。) 的反变换占( 胛) 可以用r o s e n b e r g 函数近 以袭示: g ( n ) 毒1 - c o s7 m n , 嘶锄 c o s i 掣i ,n 1 n - n l+n2(2-1) r 中n 为斜三角波上升部分的时削,约占基音周期的5 0 ,n :为其下降部分的 时问,约占基音周期的3 5 ,这个比例关系是和声带开启的面积与时间的关系相 划应的。单个斜三角波波形及频谱g ( e 。) 的图形如图2 1 和图2 2 所示,由 图| 见,它是个低通滤波器。它的z 变换为: ( 2 2 ) 这6 h c 足个常数,显然上式是。个二极点模型。 毁漓音时,无论是发阻塞音或摩擦音,声道都被阻碍形成湍流,所以可以模拟成 川噪声。因此,发清音时的激励信号可以使用均值为零,方差为l ,并在时间或 浙江丁业大学颂:学位论文 一一篓型塑些型垄鲨! ! 堕j 堡型! 生旦塾鲞塑竖竺型塑 ! ! j 一舢旧值上为白色分布的序列。所以激励源是一个白i 噪声发生器,产生的信号乘 以i 。幅值调始便是所要求的清音信号。 12 0 8 n 4 0 o4 八 4 08 0l 如1 6 02 0 0 t ( 接8 k h z 抽样) r o s e n b e r g 的近似卢门脉冲 卜 一 1 。 0l ,34 f fhz 相应的对数幅艘谱 幽2 2 卢j j 脉冲的波形平i _ j 频谱 声道模型矿( z 1 给出了离散时域的传输函数,把实际声道作为一个变截面声 倚加以研究,用流体力学方法可以导m 在一般情况下它是个全极点模型。即 z ) 可以表示为: 浙江t 业走学颁士学位论文 鲫 彻 m o 邶 珈 棚 多种预处理方法往语阿榆测中成爿j 教果的比较研究1 2 f ( z ) 。善一 ( 2 3 ) 1 一d 。:“ 女z l 式中g 足幅值因子,是系数,女是正整数,p 是极点个数,即把截画积 进续叟化的声管近似成尸段短声管的串连,每段短声管的截面积是不变的。p 值 越k ,模型的传输函数与实际声道传输函数就越相近,对大多数的实际应用而者, ,墩8 1 2 就i - - , 1 以满足要求了。 辐射模型r ( z ) 与u 觜型有关, 一般可以表示成; r ( z 1 = 1 一舷l 其中k “1 ( 2 - - 4 ) 在这个模型中,除了g ( z ) h r ( z ) 保持不变外,基音频率r 、a ,、a 。、浊 高轻画一开关的位置以及声道模型中的吼部是随时f 嘲变化的,由于发生器官的惯 性使这些参数变化速度受到限制。这个二元激励的模型是有局限性的: 铺一型建立的分析过程中是以持续音为前提的,持续音的参数变化很慢,一般 m1 0 2 0 m s f 刚隔内是不变的,所以声道模型函数y ( z ) 实际上确定了一个参数随 叫删缓慢变化的模型结构,即所谓的“短时”平稳概念,“准稳”的原理对诸如 求音这样的暂音此模型欠佳。 笫二模型的传递函数不包括有限传输零点,而像鼻音、擦音一些音的声道传输 函数中是具有有限零点的。一种解决办法是在y ( 。) 中引入有限零点,但这样将 会使模型复杂化;另一种解决办法是适当提高j d 的值,使得全极点模型能更好 f 内逼近具有零点的传输函数。 第。此模型将语音信号所受的激励简单的分为周期脉冲激励和噪声激励t 与实 际悄况不符。如浊擦音不是简单的浊音和清音的叠加,而是很复杂的过程,此 爷蜒型不能给出模拟。 虽然此模型具有一定的局限性,但对大多数的研究和应用而言( 如语音识别 1 = | t 晤音编码) 这个模型都可以满足需要。 根据该模型,离散时域信号s ( n ) 的z 变换s ( z ) 可以用一个公式来表示: s ( z ) = a ( :) 1 4 ( z ) 浙江t 业大学坝。学位论文 ( 2 5 ) 多种预处理方法神二语岢榆删中应用澉果的比较删究 在浊音时,e ( :) 是一个刷期脉冲序列的z 变换,a 。爿h ,:( j ( 二) v ( z ) r c z ) :在清音情况下,f ( :) 足一个随机噪_ 出的:变换,a2 a “ ,l t z ) = 州:) r ( :) 。 ! i 2 4 汉语语音基本特征 2 4 1 基本概念 汝语的啬甘由声母、韵母和声调绢成。 个音节起头的辅音是声母,声母后 i j _ lj 足韵母;全音节的音高变化是声词t 也称为字渊) 。 在汉语普通话中具有四种声调,分别是阴平、阳平、上声、去声,也可以称 灯声、声、i 声和四声。相同的卢母和韵母组成的汉字因为声调的不同具有 州词的字和意义。声调血线,从个韵母的起始端开始,到韵母的终止端结束, 斟2 - 3 给出了单独蜕个音节的四种声调的曲线: 幽2 - - 3 汉语普通话四种卢凋曲线( 男性说活者) 这是我因传统的分类方法,丽国际巴流行的科学分类法是清音和浊音这两 种声音的发音的生理过程前面已经介绍,这里不再叙述。 颧江工业k 学硪k 学位论义 多种颅处挫力法nr 语彳椅测中腑用效果的比较1 1 j l 究 1 4 当,o 流从喉腔、咽腔进入门腔从唇腔出去时,这些声腔完全开放,气流顺利 迎过,这利,丌放型的音称为元音。如果这条路的某一部分封闭起来,气流被阻不 i j l t 坜通,就产生封闭型的因素辅音。还有些音素,虽然声道基本畅通,但某 处j jz 道比较狭窄,引起轻微的摩擦爵,称为半元音。奉文只是大概介绍了一下元 肯,辅旨的发爵机理,如果感兴趣的读者想做深入的研究可以参看本文后的参考 义献1 2 , 3 ,4 l 。 2 4 2 语音信号时域和频域特性 时域波形和频域波形是语音信号的两种基本表示方法。出于本文研究的是汉 晰语凯所以,根据汉语语音的波形柬介绍。图2 4 是一。女生所说的“浙江工 业大学”的刚域波形。 幽2 - - 4 “浙江i 业人学”时域波形 图2 5 是其中的部分波形的详绌的图形: h 、口f 、r 一”_ 7 c “n “。8 m p w ”“m l w “。w 一 ( a ) 静息波 蹦捌粼僦黔a f b ) “浙”字波形 ( c 1 “学”字结尾 幽2 3语音信号时域波形 浙江t 业人学坝l 学位论文 多种顺处删方法在语肾榆测中应用效果的比较_ ! 扑究 从咔- 町以螽出如下声学信息: i 到( a ) 是将要发声时的一段波形,称为静息波。很显然,它的时域波形是一 躲线。 幽( b ) 是“浙”字的波形,在j 1 始和结尾部分,它的振幅都很小。可以看 l | ;,这个波形具有明显的准周期性。 圈( c ) 是整段语音的结尾部分,剐“学”字的结尾。 语音信号的频域波形( 频谱蚓) 可以通过下面的方法得到,将语音信号通过 拿滤波器组或将语音信号分段进行离敝傅立叶变换,耿变换结果的模,以频率 为横轴,模为纵轴绘制出的图形即为频谱图。 2 4 3 噪声信号 噪声町以有以下三种分类 平稳噪声:平稳噪声是指噪声的统计特性不随时间变化。在同常生活中遇到 的噪声火多是不平稳的,但是为r 研究的方便,通常假设噪声是平稳噪声。 缓变噪声:在实际情况下,我们遇到的常是缓变噪声。这种噪声的统计特性 赶随时间变化的,但是变化不是非常迅速。 非平稳噪声:非平稳噪声也是我们同常生活中常遇到的噪声类型。比如,汽 1 玎过,关门的声音等。 根据实验语音学的知识,汉语中汉字都是单音节字,而汉语音节是由声母、 鲫母和卢调构成。其中声母都是由单辅旨组成,而没有复合辅音,除了( 1 、m 、 。r ) 为浊辅音外,其余都是清辅音,韵母是由浊音组成的,而声调则是由韵母 j 频的变化来反映。 从语音波形米看,汉语语音中的清辅音和噪声信号的区别很小,而浊辅音和 m 啬具有准周期性。从频域上看,浊音的频谱具有明显的谐波结构,谐波的周期 l 造糕音周期,所以通过浊音特征和噪声特征的不同可以把语音与噪声区别开 水。语音采样间的相关度要高于噪声采样问的相关度。 2 5 小结 本章首先讲述了语音产生的声学机理,然后比较详细的介绍了语音信号的数 浙江:仁业大学瑚j j 学位论文 多种倾处世乃法札语秆幢测中心用效果的比较研究1 6 字模j 这个模型虽然存在1 些不足,但对一般的语音识别、编码等已经可以满 比蟹求。再后,本章介绍了汉语语音的特征,并对语音信号的时域波形进行r 分 析。最后介绍了噪声信号和语音信号的_ ;,卜同。 浙江1 :业火学坝士学位论义 多种坝处理方法往语舟惋删中j 虹用效果的比较训究 第三章语音信号基本处理方法 皆音信号是一种典型的非j 卜稳信号。但是,由于语音的形成过程是与发音器 ! f 晌运动密 ;j _ j 相关的,这种物理运动比起声子振动速度来讲要缓慢得多因此语 削高号常常可以假定为短叫平稳的,刚在1 0 2 0 m s 这段h 寸问内,其频谱特性和 艇尴物理特征参量_ j 以近似的看作是不变的。这样,我们就可以采用平稳过程的 分析处理方法来处理了。本文以后的处理方法都是基于这种短时平稳假发的。 3 1 1 分帧加窗处理 3 1 时域处理方法 在分帧处理方法中,般是用一个【圣度有限的窗序列( n ) 截取一段语音信 弓米进行分析,并止这个窗口滑动以便分析任一时刻附近的信号,其一般形式为 o 。= 耶( ) 】( n 一) ( 3 一1 ) t 其中7 1 】表示某种运算,f ( ) 为输入的语音信号序列,q 。为经过处理后得 剑的序列。上式也可以看作是窗函数( n ) 与序列玎j ( 月) 作离散卷积,即瓯是冲 激响应为c o ( n ) 的线性非移变系统的输出。如图3 1 所示 坠生一1 百!- 陈i l 一t 卜- 一低通滤波器卜_ 削3 1 短时处理力法的方框表示 用得最多的三种窗函数分别是矩形窗、海明( h a m m i n g ) 窗和汉宁( h a r m i n g ) i 鸯,其定义分别为: ( 1 ) 矩形窗 c o ( n ) :11 ,? s 一1 ( 3 - - 2 ) 2 j o其他 ( 2 )海明窗 浙江工业人学顺i ? 学位论立 多种损处理由法杓谢爵榆删中应用效果的比较研究 叭小姐4 6 文2 册八卜d 巍虬。1 ( 3 - - 3 ) ( ,j j汉宁窗 似妒h 喊2 批站巍一1 ( 3 - - 4 ) i l 为窗长,这些宙函数都有低通特性。 尢沦什么形状的窗口,窗l :j 序列的 圭度l 将起决定作用,越大,滤波器的 迎带变窄,波形的振幅变化细节被平滑掉了,反之,太小,则滤波器的通带变 。爆,信号得不到足够的平均。 w t “一m , 【m ) n + i t 幽3 2 对语音信号分帧 ,二一一,h 【m ) 卜且三二= si :_ l 一 ; 中 :i m 。 。 a1n 为i | i ! j ! k ,m 为相邻两i l 呃鹜叠的样本效 第k l | ! ! ;i 【- - - - - - - - - - - - - - - - - - - - _ 一 i竺坐i【- - - - - - - - - - - - - _ 一 i兰竺坚i k山一 j l 唢移l 帧k b 1i i 瘟k 雨帅m 移的示例 幽3 3i 帧长利帧移 所诮窗口长度的长短,都是相对于语音信号的基音周期而言的,通常认为在 浙江1 二业大学颤j 二学位论文 多种顺处理方法拒语啬_ 榆洲中心= | j 效果的比较硎究 个谢爵帧内,应含有1 7 个基音蒯期为好,可是人的语音的基音周期值是时 。m 而且离散性很大,从小女孩的2 m s 到老年男子的1 4 m s ,所以恰当的选择 址比较难的,通常折衷的选择为1 0 0 ,- 2 5 0 个样点。如采样频率是1 0 k h z , i 】! 【j | 当于每帧的长度为1 0 - - 2 5 m s 。 窗住移动时,或者说分帧时,为了特征参数的平滑,相邻两i 帧之问要有一定 的瞳叠,童叠采样点的个数根据实验情况设定,如可以重叠或左右的帧长。 罔3 2 是利用矩形窗对一段语音信号分帧的示意图,图3 3 是帧长和帧移 | 卜、意图。 3 1 2 短时能量和短时,f 均i 晤度 语音信号s ( n 1 的短时能量定义为: 2 e 广k ( k ) 0 4 n a ) 】 e 。= s ( a ) 2 h ( n 一) ( 3 5 ) ( 3 6 ) 此式的含义可以用图3 1 中低通滤波作用来解释。 涪音信号的短时能量的方框图表示如图3 - - 4 所示: 墅弋一fl _ 寸硒汁。 幽3 - 4 语音信号的短时平均能鼍 短时平均能量e ,的主要有以f 几种用途: t 1 ) 可以区分清音和浊音,因为浊音时e 。值要比清音时大的多。 1 2 ) 可以用来确定声母和韵母,无声与有声,连字等的分界。 短时平均能量剥f 高电平信号,其平方处理方式显得过于灵敏,在处理字长 训杖的情况下,容易产生溢出。这时,州阻采用另一种度量语音信号幅度变化的 j 咎1 连短时平均幅度( s h o r t t i m e a v e r a g em a g n i t u d e ) 。 浙江t 业人学颤士学位论文 多种预处理方法狂语晶榆测中应用效果的比较研究 语音信号的短时! f 均幅度定义为: m 户i s ( k ) 1 c o ( n 一” 一 用方框图表示如图3 5 所示为: s ( n 1 r 一1 叫ii 一砌p l 划3 5 语音信号的短时平均幅度 肛,和m 。都反映信号的强度。 3 1 3 短时平均过零率 ( 3 7 ) 信号的幅度从正值到负值要经过零值,从负值到正值也要经过零值,称其为 过零。如果统计信号一秒钟有几次过零,就称为过零率,这一秒钟就是一个单位 i i , j 问( 还可以有其他的单位时问) 。如果信号按段分割,就称为短时。把各段信 号的过零率作统计平均,就是短时平均过零率( s h o r tt i m ea v e r a g ec r o s sz e r o s ( ,、) 厂一一1厂一 厂_ 广 z - 叫一t 三:h 。竺r l 一h 竺兰兰p 图3 6 短时平均过零率的方框图表示 语音信号序列s ( ”) 的短时平均过零率定义为 z 。:i s g n s ( k ) l s g n s ( k 一1 ) l 甜( n t ) ( 3 - - 8 ) ,中s g n 】是符号函数。 s g n l t 船) 】= ! 。 叫( h 1 一股如f 定义: ) : j ( n ) 2o ( 3 9 ) s “心 0 o h n 一1 ( 3 1 0 ) 其他 浙江工业大学i | j 士学位论文 多种预处理方法f l 语幽嗡删中心用效果的比较研究2 l 短时平均过零率z ;的方框表示如图3 6 所示。 信号的过零率是其频率量的一种简单的度量,过零率有两类重要的应用: ( l ) 剧r 粗略的描述信号的频潜特性,这就是用多带滤波器将信号分为若干 个通道,列箨通道进行短时平均过零率和短时能量的计算,即可粗略的估计频谱 旧h :。 ( 2 ) 用于判别清音和浊音、有话与无话。实验表明,浊音的语音能量集中在 赶约3 k h z 以下,而对于清音语音,其能量则集中在较高的频率上。由于高的频 、对应有高的过零率,低的频率对应有低的过零率,于是若测得的过零率高,则 t 应为清音,反之为浊音。一般的经验数据是,对于清音语音,其过零率为每 l0 m sl z 。4 9 ,而对于浊音语聋,其过零率为每1 0 m s 内z 。1 4 。清音和浊音 缚1 0 m s 的过零率分布图如图3 7 所示,其中横坐标表示每1 0 m s 过零率的个数, 纵坐标表示概率分布。 壹音 缎j l 到3 7 过零率概率分布 降13 8 设定蚓值的过零率 浙江工业大学硕士学位论文 多种顶处巡方法矗一语音检删中应用效果的比较研究 出上述定义计算过零率易受噪声的干扰,特别是5 0 h z 交流的干扰。解决的 办法是加一1 、高通或带通滤波器或者设置一个阂值r ,当相邻两个采样点的值跨 越闽值7 1 或一7 1 时才算过零。示意图如图3 8 所示。1 二是计算过零率的公式便 i f j 以变为: z 窆 s g n m ) + 丁卜s g n 一1 ) + 7 1 】+ 1 s g n b ( 以) 一丁卜s g n b ( 胛一1 ) 一7 _ 】) c o ( 疗 ( 3 1 1 ) 这样计算的过零率对噪声的抗干扰能力就高了。 图3 9 是一男生蜕的“大江南饭j i ”的语音样本和对应的设定闽值的过零 牢l 刳。其中,语音的采样频率是8 0 0 0 t l z ,每帧的i 愤长是1 0 0 ,帧移是5 0 ;过零 卒的1 浏值r 没置为1 0 0 。 幽3 9 设定闽值的短时过零率
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 纪委案件制度管理办法
- 充电桩安全技巧培训记录课件
- 傲慢与偏见情节介绍
- 储能电站施工培训课件
- 节能环保钢技术-洞察及研究
- 储粮化学药剂安全培训
- 宠物宠物宠物宠物宠物市场细分需求预测:2025年宠物消费市场产品创新动态报告
- 新能源行业2025年技术创新与市场需求增长策略分析报告
- 幼儿园蒙特梭利教育法教师聘用及教学支持合同
- 造价咨询合同补充协议范本(工程造价咨询制度)
- 2025-2026学年统编版(2024)初中道德与法治八年级上册(全册)教学设计(附目录 P133)
- 劳务外包协议书
- 2025年初级社工考试《综合能力》真题及答案
- 2025至2030中国草莓果酱行业发展研究与产业战略规划分析评估报告
- 2025纪念中国人民抗日战争胜利80周年心得体会五
- 2025义务教育劳动教育标准课程考试题库(含答案)
- 驾照科目四模拟考试题及答案大全
- 电商用户社区与运营创新创业项目商业计划书
- 土地增值税清算培训课件
- 2025年营养指导员师岗位技能及理论知识考试题库(含答案)
- 2025年青海省格尔木市辅警招聘考试试题题库及答案详解(易错题)
评论
0/150
提交评论