(计算机系统结构专业论文)汉语连续语音端点检测技术的研究.pdf_第1页
(计算机系统结构专业论文)汉语连续语音端点检测技术的研究.pdf_第2页
(计算机系统结构专业论文)汉语连续语音端点检测技术的研究.pdf_第3页
(计算机系统结构专业论文)汉语连续语音端点检测技术的研究.pdf_第4页
(计算机系统结构专业论文)汉语连续语音端点检测技术的研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 n j 汉语连续语音识男0 过程中,经常对语音端点的判断发生错误,导致r 识帅戊 j n 率的下降。针对这个问题,笔者进行了研究,在本文中提出了一种综合利用子种 以别特征进行连续语音端点检测的方法,并且把语音分段的过程分成两个阶段:初 步分段过程和最终分段过程。初步分段过程使用了能量和过零率这两个主璎特征进 行端点检测,重点是合理选择两个重耍参数门限和统计帧长度的取值:以:填终 分段过程中,笔者首先通过比较几种特征的识别效果,选择卡尔曼滤波参数作为1 耳 次分段的识别特征,还提出了一种新的识别特征周期性缓变特征,使用这i 目t 、 特缸分别在子语音段内进行端点检测。根据对大量实验语音的统计结果,由于f 止用 i 新的识别特征,并且选择了合适的重要参数值,笔者的方法提高了汉语连续诏i ; 端,- 氧检测的识别正确率。 r 关键字:语音识别分嵌端点检测卡尔曼滤波参数周期性缓变特征 。 广 a b s t r a c t ) t i t + i n g t h e p r o c e d u r e o fs p e e c h r e c o g n i t i o n t ot h ec h i n e s ec o n t i n u o u s s p e e c h s e g m e n t s ,t h e r ea l w a y sb r i n g st h ed e c r e a s i n go f t h er e c o g n i t i o nc o r r e c t n e s sr a t ed u et ot h e w r o n g e s t i m a t i o nf o rt h es t a r ta n dt h ee n do fa p i e c eo fs p e e c hs e g m e n ti no r d e rt os o l e t h ep l o b l e m ,t h ea u t h o rs t u d i e sh a r da n di nt h i sp a p e rp u t sf o r w a r dan e wm e t h o d ,w h i c h m a k e su s eo fs e v e r a lc h a r a c t e r st or e c o g n i z et h es t a r ta n dt h ee n do fac o n t i n u o u ss p e e c h s e g m e n tt h e t o t a lv o i c e s e g m e n td i v i s i o n ( v s d ) p r o c e s sc o n s i s t so f t w o s t e p s :t i l ei n i t i a l v s d p t + o c e s sa n dt h ef i n a lv s dp r o c e s st h ei n i t i a lv s dp r o c e s su s e st w om a i nc h a t + a c t e t s t h ea v e r a g ei n s t a n t a n e o u se n e r g ya n dt h ea v e r a g ei n s t a n t a n e o u sz e r oc r o s s i n gf a t ef z ( 1 r ) t om a k et i l ef i r s tr e c o g n i t i o nf o rt h es t a r ta n dt h ee n d ,t h ee m p h a s i so fw h i c hi st os e l e c l t i l e a p p r o p r i a t ev a l u eo f t h et h r e s h o l da n dt h el e n g t ho ff l a m ei nt h ef i n a lv s d p lo c e s s t i l ea t t t h o r c o m p a r e s s e v e r a lc h a r a c t e r sa n dc o n f i r m st h en e wr e c o g n i t i o nc h i na c t e n k a h n a nf i h e r - w a v e p a r a m e t e r a tt h e s a m et i m et h ea u t h o ra l s o p u t st b r w a r d ai l e x r e c o g n i t i o nc h a r a c t e r , p e r i o d i cg r a d u a lc h a n g e ( p g c ) a n du s e s t h e s ec h a r a c t e rst o i e c o g n i z et h es t a r ta n dt h ee n di nt h em i n i s e g m e n ta c c o r d i n g t oc a l c u l a t el o t so f s p e e c h s e g l n e l l t s ,b e c a u s et h ea u t h o ra p p l i e st h en e wr e c o g n i t i o nc h a r a c t e r st o t h er e c o g n i t i o n p l o c e d m 。ea n ds e l e c t st h ea p p r o p r i a t ep a r a m e t e rv a l u e s ,t h ea u t h o r sn e wm e t h o di m p t o v e s t i l er e c o g n i t i o nc o r r e c t n e s sr a t ef o rt h es t a r ta n dt h ee n do fap i e c eo fc h i n e s ec o n t i n u o u s s p e e c hs e g m e n t k e y w m 4 d s :s p e e c hr e c o g n i t i o n d e t a t i o no ft h es t a r ta n de n d p e r i o d i cg r a d u a lc h a n g e ( p g c ) v o i c e - s e g m e n td i v i s i o n ( v s d ) k a l m a nf i l t e r - w a v ep a r a u l e t e r 第一章绪论 第一章绪论 在绪论中,将介绍与汉语连续语音端点检测技术有关的背景知识,并儿指出 目前该技术的发展状况,最后将对本人工作和及论文的章节安排进行简硬介绍。 1 1 汉语语音端点检测技术的背景知识介绍 语音识别( s p e e c h r e c o g n i t i o n ) 主要是指用机器在各种情况下,有效地了解、 识别语音和其他声音,从而根据其信息执行人的各种意图,是近几十年发展起来 的有理论和实用价值的新兴学科。语音识别是一门交叉学科,它与声学、语音学、 语言学、人工智能、数字信号处理理论、信息理论、模式识别理论、最优化理论、 计算机科学等众多学科紧密相连,经过四十多年的发展,已经在许多方面显示出 巨大的应用价值。 我国的语音信号处理( 包括语音分析、识别和合成) 学科的科学研宄,拒7 0 年代后兴起。从7 0 年代到8 0 年代中期,通过大量吸收国外发表的资利引进理论 技术移植到汉语,进行识别实验研究和改进算法。从吸收的资料得到的实验数据 及建立的系统都有一定的理论意义。8 0 年代中到9 0 年代,在基础理论研究和实现 技术上有较大的进展,逐渐走出一条适合汉语的路子,缩小了与国际水平的差距。 主耍体现在以下几个方面:1 ) 开展了汉语连接词、连续语音、中大字表、非特定 话者语音识别及话者识别的研究。2 ) 与汉语语音学密切结合,注意利用汉语特点, 开展了汉语普通话音节识别、四声识别、声母韵母及声韵过渡区的自动分段和识 别,汉语超音段特征的利用及后处理器等研究。3 ) 对国外流行的理论和技术步步 深入进行发展改进,探索新的识别理论和技术。4 ) 对t m s 高速专用芯片系列进 行开发利用,发展应用科学开发应用产品,如对全音节识别卡、汉字声控打字机 等产品进行了开发尝试。通过经过2 0 多年的努力,有了很大的发展,其中语音识 别占了较大的比重,目前我国对大词汇量连续语音识别系统的研究已经接近国外 最高水平了。 语音识别技术的市场前景无量,它的应用领域非常广泛,有声控电话交换、 浯音拨号系统、信息网络查询、家庭服务、宾馆服务、旅行社服务系统、订票系 统声控智能玩具、医疗服务、银行服务、股票查询服务、听写机、计算机控制、 : 业控制、语音通信系统等等,几乎涉及日常生活的每一个领域,它在一些应用 领域中正迅速地成为一个关键的、而且具有竞争力的技术,并且必将改变人们的 口常生活。然而尽管各行业对语音识别的实用化、商品化抱极大期望,这一步却 汉语连续语音端点检测技术的研究 难以实现。,原因在于,虽然目前的很多语音识别系统在一定条件下都能达到起到 很好的识别效果,但总体上仍然存在识别率不高、识别速度慢和要求识别条件高 的种什缺憾。 语音识别系统存在的基本问题之一是识别时一段语音在时间细节方面一般不 会与训练时完全一致。不仅两次同样的语音可能时间长短不同,而且语音之问的 间隙也可能不一致。这说明时间依赖特征可能使匹配无法完成,因为未知单词和 参考单词在时间上没有对正。在这种情况下,正确模板可能表面上与错误模式一 样n f - n 未知的模式相差很大,无论以整个单词为模板进行比较或分段进行匹配, 都存在这样的问题。事实上,即使是两段完全相同的训练语音在时间细节方面也 不一致,当训练语音不是在一天录制的时候尤其如此,另外在训l 练阶段将一段语 音的特征参数取平均,在识别时与平均值比较,这也无济于事,除非对语音在时 间上进行某种校准。 这种校准的精度在很多情况下都取决于端点检测的精度。对一个单词的起点 和终点判断失误,实际上是非常麻烦的问题。当单词的首尾是能量很低的清音时, 端点检测容易发生错误。在单词的结尾,很多人喜欢使声音逐渐降低拖上一个尾 巴,或者带上一点呼吸音,而单词端点呼吸音很容易被误认为是一个音位而导致 对单词鉴别错误。 研究表明,即使在安静环境下,语音识别系统一半以上的识别错误都来自语 音端点检测器。作为语音识别系统的第一步,端点检测的关键性不容忽视。 汉语语音与其他语言相比,有自己的一些特点。汉语中每个字都是单音节, 每一个音节又都是由声母( 包括零声母) 和由若干因素组成的韵母拼音而成。汉 语的辅音大部分是清辅音,与基本构成韵母的元音和半元音相比,其语音特征有 些不同,这些讲在后面加以详细介绍。从这点来说,汉语语音端点检测,关键是 寻找语音的准确起始点。 语音端点检测又称分段,也可以称作起止点识别,在下文中对这几个概念将 不做区别,均代表同一涵义。它是指用数字处理技术来找出语音信号中的各种段 落( 如:音素、音节、词素、词等) 的始点和终点的位置。在汉语中,主要目的 是找出字的两个端点,进而能够把完整的连续语音划分清楚。语音的起止点指语 音中每个汉字的起点和终点。 连续语音端点检测的目的是划分清楚单字语音的起止点,提高语音识别的效 率。另有一种研究方向是识别语音中的清音和浊音部分,这与笔者的工作有紧密 联系,又有所不同:共同之处在于同样都是识别语音中的一些成分,把清音和浊 音识别出来就能识别出单字语音的端点;不同之处在于笔者没有专门识别连续语 音中的清音和浊音,只是根据两者之间的不同特征来识别单字语音的起止点。 第一章绪论 1 2 本人工作的介绍 一研究方向介绍 目前在国内,汉语语音识别是比较热门的研究领域,但相对于语斋识别的研 究大方向而言,专门研究连续语音端点检测技术的课题比较少,发表的沦丈以及 相关文章有限。从这些论文的情况可以看出,主要存在4 种端点检测研宄方向: 1 基于实验词表的不同,端点检测的研究对象集分为固定词表和非固定词表: 2 基于说话人的不同,端点检测的语音产生源分为固定说话人和不确定说话 人: 3 基于背景干扰的不同,端点检测的语音识别环境分为带噪声条件f 包括强 噪声) 和无噪声条件( 包括可以忽略的低噪声) ; 4 基于选择识别特征的不同,端点检测的语音分段方法分为综合使用多种特 征的分段方法和只使用单一特征的分段方法。 笔者在毕业设计过程中,由国家自然科学基金项目时间机理听觉模型建模 方法与应用的研究资助,选定的研究课题是汉语连续语音端点检测方刊:。具体 的研究内容是这样的:在低噪音条件下,实验语音属于不确定说话入录制的非固 定语音词表,综合使用多种识别特征进行汉语连续语音端点检测。研究内容覆盖 上述4 个端点检测研究方向。 二研究工作综述 针对这个课题,笔者充分借鉴了以往的汉语连续语音端点检测理论,实验了 多种对分段有效的识别特征,尝试了多种分段方法,重点分析了一些关键环节, 总的来说主要做了以下几项工作: 1 使用合理的语音分析方法。根据汉语语音的采样特性,笔者使用了短时( 瞬 时) 分析方法对所有识别特征进行数学统计,这也是普遍采取的语音分析方法。 2 选择合适的识别特征。根据汉语语音的波形特性,首先确定能量和过零率 作为主要识别特征,同时使用一些技巧性方法来提高这两个主耍识别特征的作用; 在主理识别特征作用不大的情况下,笔者对三种辅助识别特征l 阶l p c 系数、 l 阶自相关函数值和卡尔曼滤波参数进行了识别效果的比较,选定卡尔曼滤波参数 作为子语音段内多个单字语音端点检测的主要识别特征;在上述特征都不起作用 的情况下,笔者提出了一种新的特征周期性缓变特征,根据这个特征推导出 平均单字语音长度,然后结合瞬时能量变化率对分段困难的含有多个单字语音的 子语音段进行最后的端点检测。 在上述三类分段特征中,能量和过零率是普遍采用的识别特征,而卡尔曼滤 波参数和周期性缓变特征对笔者整个端点检测方法十分重要,是提高识别成功率 汉语连续语音端点检测技术的研究 的关键因素。, 3 采取灵活的分段策略。笔者把端点检测过程分为两个阶段:初步分段过榭 和最终分段过程。 初步分段过程使用对端点检测最有效的能量和过零率特征,把一段完整实验 语音划分成几个小的段落( 笔者称之为子语音段) ,每个段落内含有一个或者一个 以上单字语音( 通过统计发现,子语音段内包含的单字语音数量最大为5 ) ,而且 几乎所有的商效语音部分都会包括在这些子语音段内。初步分段过程包括4 个步 骡:( 1 ) 确定合适的统计帧长度;( 2 ) 选择合理的门限值;( 3 ) 起点识别过程;( 4 ) 终点识别过程。 最终分段过程在初步分段过程的基础上,使用新的特征对子语音段内的单字 语音进行再次端点检测。主要的辅助分段特征包括卡尔曼滤波参数和周期性缓变 特征。最终分段过程包括2 个步骤:( 1 ) 使用卡尔曼滤波参数的端点检测过程;( 2 ) 使用周期性缓变特征的端点检测过程。 经过这两个过程,就可以把段实验语音的每个单字语音的端点划分出来。 4 采用有效的分段技巧。 佑训彬分段过程中重点讨论了3 方面问题:( 1 ) 门限大小的合理选取:( 2 ) 统计帧 眨的合理选取;( 3 ) 起点回溯方法和终点两侧搜索方法的有效性。 在最终分段过程中关注了2 方面问题:( 1 ) 多个单字语音之间衔接处的语音 特性:( 2 ) 用能量峰值合并法求子语音段内单字语音数目。 在本文中,为了比较和参考作用,也介绍了以往的分段方法,并且在笔者的 分段方法中充分借鉴其合理性。整个研究工作以及论文阐述的重点主要集中在笔 者的创新之处,主要有3 点:l ,对于选取合适的门限和统计帧长度做出了详尽的 讨论;2 ,选择卡尔曼滤波参数作为子语音段内主要识别特征的合理之处;5 ,提 出了新特征周期性缓变特征,利用它来对一些分段困难的子语音段做最终端 点检测,并且讲述了该特征的原理和使用方法。 以下是笔者汉语连续语音端点检测方法的处理过程简图: 第一章绪论 原始语音信号 ( 波形文件) 提取波形文件中 的各项语音特征 未分段语音 初步分段过程 使用瞬时平均能量和短时平均过 零率检测连续语音端点 子语音段落 使用卡尔曼滤波参数在子语音段 落内检测连续语音端点 使用周期性缓变特征在子语音段 落内检测连续语音端点 单字语音 最终分段过程 图1 1 汉语连续语音端点检测过程简图 三章节安排简介 本篇论文的主体部分共分为五章。 第二章阐述汉语连续语音端点检测的理论基础,主要是介绍汉语语音的相关 概念和基本特性。第三章介绍初步分段过程的特征提取部分,内容包括波形文件 的格式、能量和过零率特征的基本理论,然后介绍了两种有参考价值的以往分段 方法。第四章详细介绍了初步分段过程的两个阶段起点识别过程和终点识别 过程。对一些关键要素与环节( 比如统计帧长度、几类门限值和回溯过程) 进行 丁洋尽讨论;第五章介绍了最终分段过程,首先阐述用来判断子语音段内单字语 音数目的能量峰值合并法;然后通过有效性比较,从1 2 阶l p c 特征的i 阶参数、 l 阶自相关函数值和卡尔曼滤波参数这3 个特征中选择了卡尔曼滤波参数作为再次 分段的识别特征;接着介绍使用卡尔曼滤波参数进行子语音段内端点检测的过程; 汉语连续语音端点检测技术的研究 最后提出了新的识别特征周期性缓变特征,介绍了平均单字语音长度的计算 方法,然后阐述使用周期性缓变特征进行子语音段内端点检测的过程。第六章哕 列j 笔菁使用上述方法对汉语连续语音进行端点检测的统计数据和基本结论,包 括笆首方法与其他分段方法识别正确率的比较、初步分段过程和最终分段过程识 别j j ;:确率的比较、识别效率的比较。 第二章连续语音端点检测的语音理论基础 第二章连续语音端点检测的语音理论基础 汉语语音端点检测的相关概念和背景知识很多,本文涉及到的主要包括这么 几个方面:汉语语音的基本特性,语音的时域处理方法( 主要包括几种识别特征) , 语音的线形预测系数( l p c ) 特征,语音的卡尔曼( k a l m a n ) 滤波参数特征,波 形文件的格式。本章主要介绍汉语语音的基本特性,其他识别特征的基本理论将 分布到后面几个章节详细介绍。 2 1 汉语语音的基本概念 一汉语语音的特点 汉语是世界上最大的语种,使用人口达到十几亿。汉语标准语音指的是北京语 音。汉语语音的特点如下: l ,音系简单。这是指音素、音节少( 大约有6 4 个音素,但只有4 0 0 个左右 音节,如考虑每个音节有五个音调,也只不过1 2 0 0 多个有调音节) 。例如:1 ) 尾 音只有i 、u 、0 、n 、n g 五种;2 ) 声母都多为清音,浊声辅音只有m 、i 1 、l 、r 四 个:3 ) 没有复合辅音;4 ) 音素的发音方法和发音部都是一般的,没边擦音等。 2 ,有鲜明的轻重音和儿化韵,所以字词分隔清楚,语言表达准确而丰富。清 音和重音配合使语义明显,儿化韵能起适当的语法修辞作用。 在汉语语音的度量中,一般由音素( p h o n e m e ) 和音节( s y l l a b l e ) 构成语音的基 本单位。音索是构成语音的最小单位,一个音素或者几个音素的结合就是一个音 节。汉语中一个方块汉字就代表一个音节,因此音节是语音的自然单位,同时也 是发声的最小的单位,更是听觉上能够自然辨别出来的最小语音单位。音节可以 结合成更大的单位“词”。词进一步可结合成“节奏群”、“句子”等等。 音素的对应词是,可以认为它是语音最基本组成单位,在汉语中由音素构成声母 和韵母。事实上,同一音素与不同音素结合时,发音是有差异的。例如,【s h 】这个 音素在发“诗”( s h i 】) 这个音与发“书”( 【s h u ) 这个音时,发音方式不完全一致, 前者是非圆唇音,而后者是圆唇音。 元音构成一个音节的主干,无论从长度看还是能量看,元音在音节中部占主 埂部分。所有元音都是浊音。辅音则出现在音节的前端或后端或前后两端,但一 般则出现在音节的前端。在汉语普通话中,每个音节都是由“辅音一元音”构成的 ( 其中包括只有元音而没有辅音的纯元音音节,例如“啊”,这种情况成为“零 元音”) ,这种结构称为“c v 结构”。在其它语系中还可以出现“v - ( 结构” 汉语连续语音端点检测技术的研究 或“c v - ( 、结构”。 所有辅音的共同特点是发音时声道处于某种受阻挡的状态。辅音的另一个蕈 耍特点址于这是一种动态特性很强的音,这就是说,发辅音时发声器官的状态变化 较大、与之相应,辅音的短时频谱也随着时间而有很大的变化。元音与辅音相应, 发裔时声道不受明显的阻挡,它的短时频谱结构相对稳定。正是辅音和元音在频 谱结构上的不同,决定了它们在时域波形图上的不同。即辅音的时域波形图波形 变化非周期性强,而元音的时域波形图波形变化周期性强。 以上材料引自参考文献【4 。 二三种概念的区别 在对语音的研究中,必须要分清楚其中的三种不同概念之间的区别,即清音 和浊音,【_ = | 音和鼻音以及元音和辅音之别。 清音就是在发音时声带不振动,仅以类似于宽带噪声源的输出的气流高速冲 过某处收缩的声道而产生湍流得到的音;浊音是当气流通过声门时使声带发生振 动产生准周期脉冲,这一空气脉冲激励声道而得到的音。 l i 音是指在发音时气流不经过鼻腔的音;鼻音在发音时,则气流经过鼻腔。 元啬是发音时气流不受阻碍,发音器官均衡得紧张,气流较弱的音:辅音9 川 反之,在发聋时气流爱经过不同的阻碍,且发音器官中阻碍部分较紧张气流牧 强的音。 尽管以上的三种概念之间都有联系,但对于笔者所研究的端点检测而言,清 音和浊音的区别对于各类研究特征是更合适的,因此,在下文中,都将用清音和 浊音作为连续语音段落的有机构成部分,同时也使用元音和辅音的概念来表达一 定状况下的语音特征。 2 2 汉语语音的波形特征 一句话或者一个词,在时间上就是一段语音信号,通过示波器之类的装置或 者通过用工具软件描图的方法,都可以观察到信号的波形,从中可以获得一些反 映语音声学特性的信息。还可以看出几种类型的波形,这些波形在特征表现方面 的区别可以用来做为语音端点检测的依据,图21 就是笔者通过v b 编制的程序绘 制出的语音“图形”的波形图: 第二章连续语音端点检测的语音理论基础 图2 1 语音“图形“的各类特征波形图 通过图21 可以观察出三种体现出不同特性的波形: ( 1 ) 静音波。这是音节之间的间隙,在波形上基本是一条细线。在图2l 中 可以看到,辅音t 之前的部分和浊音“i n g ”之后的部分都是静音波。 ( 2 ) 准周期波。这是浊音的波形,具有比较明显的周期特性,各个浊音的波 形是不同的。在图2 1 中,单浊音u 和复浊音“i n g ”都呈现出准周期性,同时 也有区别。 ( 3 ) 噪声波。这是清擦音的波形,它与准周期波有很多特征都不同,在下文 中将详细介绍。在图2 1 中,同样是清音,舌尖音“t ”和舌面音“x ”的波形世有 很大差别。 2 3 小结 本章介绍了汉语语音的一些概念和特点,进而通过观察一段语音的波形图 引出了语音基本组成部分的不同特征,为后面的特征提取提供了语音基础, 汉语连续语音端点检测技术的研究 第三章连续语音端点检测的初步分段过程前述 在本章中,首先将介绍开发环境;然后从语音端点检测的第一步一一提取语 音数据着手,介绍波形文件的格式;接着阐述瞬时平均能量和短时平均过零率的 基本理论:最后介绍两种有参考价值的分段方法。 3 1 开发环境及软件介绍 笔者的工作平台是一台微型计算机。 提取多种声音信号特征,计算量比较大, 由于研究工作涉及语音信号处理,需耍 那么对于计算运行速度的要求比较高, 所以选用c e l e r o n 6 3 3 m h z 的c p u 和1 2 8 m 的内存,同时配有声卡和麦克风用 来采集实验语音。 在很参情况下都选用专门的d s p 设备来处理语音信号,而笔者使用通用的计 算机硬件来处理语音信号,这样可以提高笔者开发的汉语连续语音端点检测系统 的通用性:当然由于微机的操作系统和软件系统的效率不如很多专用d s p 处理器 高,处理速度相对比较慢。同时使用w i n d o w s9 5 操作系统和v b60 编程软件 作为基本工具,使用了声音处理软件c o o l 9 6 作为辅助工具。笔者的汉语连续语 音端点检测方法已经在v b6 0 编程环境下得到实现。 笔者使用的实验语音,都是不固定说话入通过麦克风随机输入的话音,保存 在波形文件中( mw a v ) 。这些实验语音满足三个条件:1 ,语音在安静环境中录制, 背景噪音可以忽略,因此笔者的分段方法中没有去噪声过程;2 ,说话人发音的声 调中正平和,不怪不偏,属于正常嗓调;3 ,说话人发音的速度适中,既不十分快 也不十分慢,发声速度大约是每秒2 到4 个单字。通常普通人的发音都满足上述 条件,因此这些实验语音能代表一般情况下普通人发音的共性,使笔者的连续语 音端点检测方法具备普遍适用性。 3 2 波形文件的数据格式 连续语音端点检测过程的第一步就是读取保存在波形文件中的语音数据,为 下一步的提取特征值做准备。这就需要了解波形文件( + w a v ) 的格式。波形文件 分为3 部分:文件头部分,数据区部分和文件尾部分。 从波形文件读取数据分为3 个步骤: 1 判断文件格式。文件头部分的某些位置存在固定字符,比如“r i f f ”、 “w a v e ”、“t m t ”。从这些位置读取出字符,检查是否与波形文件格式中的固定字 第三章连续语音端点检测的初步分段过程前述 符一致。如果一致,就可以继续读取语音数据;如果不致,说明文件格式错误, 无法继续读取语音数据。 2 确定语音特性。文件头还存储了反映波形文件特性的一些有用数据,包括 文件头参数、声道属性、采样频率、采样点位数、每秒采样字节数、每次取数块 数等,读取出这些关键数据后才能计算下一步的语音数据。 3 读取语音数据。根据得到的文件头信息可以计算语音数据的存储位置,从 起始位置开始读取一直到终止位置结束,把这些语音数据存入一个( 或两个,如 果是双声道的声音格式) 数组w a v e l 【】中。具体的语音数据位置计算方法见下面的 格式介绍。 实验语音全部都是波形文件格式,具体信息如下: 文件头( 单位为b y t e ) : 1 ,2 ,3 ,4= 字符r i f f ( r e s o u r c e i n t e r c h a n g e f i l ef o r m a t ) 5 ,6 ,7 ,8= 波形文件的长度 8 ,9 ,1 0 ,l l= 字符w a :v e 1 3 ,1 4 ,1 5 ,1 6= 字符f m t 1 7 ,1 8 ,1 9 ,2 0= 文件头长度参数 2 l ,2 2 = 格式标记如果值为l 就是w a v e 文件的目前格式 2 3 ,2 4 = 1 是单声道 = 2 是双声道 2 5 ,2 6 ,2 7 ,2 8 = 采样频率,标准时;1 1 0 2 5 :2 2 0 5 0 :4 4 1 0 0 2 9 ,3 0 ,3 i ,3 2 = 每秒采样字节数= ( 声道数木采样频率 采样字长) 8 3 3 ,3 4= 每次取数块数= ( 声道数目 采样字长) 8 3 5 ,3 6= 采样点位数8 b i t ;1 6 b i t ;3 2 b i t 文件头长度参数+ 2 卜一文件头长度参数+ 2 4_ 验证数据区 文件头长度参数+ 2 5 一文件头长度参数+ 2 8= 数据长度 数据区; 文件头长度参数+ 2 9 一文件头长度参数+ 2 9 + 数据长度= 声音数据区 声音数据区数据存储格式: 8 b i t 采样,单声道时:采样值1 ,采样值2 ,采样值3 , 8 b i t 采样,双声道时:左声道采样值1 ,右声道采样值1 。左声道采样值2 , 右声道采样值2 , 1 6 b i t 采样,单声道时:低位采样值1 ,高位采样值i ,低位采样值2 ,高位 采样值2 1 6 b i t 采样,双声道时:左声道低位采样值1 ,左声道高位采样值i ,右声 道低位采样值1 ,右声道高位采样值l , 汉语连续语音端点检测技术的研究 文件尾: 文= 件头长度参数+ 3 0 + 数据长度一文件头长度参数+ 7 7 + 数据长度= 文件尾 3 3 瞬时平均能量和短时平均过零率的基本理论 数字语音信号处理的方法分为时域方法、频域方法、同态方法、线形预测编 码方法以及其他各种方法等。时域方法直接涉及到语音信号的波形。利用时域方 法来分析的语音信号特征参数包括语音的短时( 瞬时) 平均能量,短时平均过零 率,短时自相关函数等,利用这些特征参数可以分析或处理语音。 取出波形文件中的语音数据后,就可以利用这些数据来计算时域特征参数。 本节介绍短时分析方法、瞬时平均能量和短时平均过零率的计算理论,而短时自 相关函数的计算理论将在第五章中介绍。本节的基本理论引自参考文献 3 、 5 。 一短时分析方法和瞬时平均能量( 振幅) 语音信号是一种随时间而变化的信号,无论是浊音激励还是清音激励,信号 的振幅部随时间而变化。此变化又是缓慢的,而使我们可以认为在一小段时间里, 该语音信号近似不变。于是,可以把语音信号分成一些短段( 或称为分析帧) 来 进行处理。这些短段( 或帧) 具有固定的特性,短段间经常有一定的重叠,组台 成一段语音。这种方法成为“短时”( 又称为瞬时) 处理方法。这种瞬时处理方法 可以表示为 q 。2 t r ( 】w ( 一k )( 式31 ) 式中t 表示对语音进行变换,此变换在这时是线形的。把变换过后的序列 乘以窗函数,这个窗序列位于与抽样标志n 相一致的时间上,窗函数的宽度是有 限的,然后对乘积的所有非零值求和所得到的q ,就是在n 这个时刻的t x ( k ) 的部 分加权平均值。 瞬时能量则可以按照( 式3 1 ) 式定义为 e 。x 2 ( ) w ( h 一) ( 式32 ) 此处相当于( 式3 1 ) 式中的t x ( k ) = x 2 ) ,因为 r 1 w ( n ) = l0 ( 0 ”n 1 ) f 其 ( 式33 ) 所以,w ( n _ k ) 的非零值范围为o n 。k n i ,也就是n n + i k n ,故( 式 32 ) 式的k 的上下限可以自n n + i 至n ,即 第三章连续语音端点检测的初步分段过程前述 。= x :( 女) ( 式3 4 ) 式即表示1 1 这个时刻的语音信号的瞬时能量。 如果令h ( n ) = 、v ( n ) 可以把( 式32 ) 式表示成图3 1 的形式 矩p ( 式34 ) 图3 1 瞬时能量的方框表示 由图31 可以看出,语音信号的瞬时能量就是信号x 。( n ) 经过冲激响应为h ( n ) 的数字滤波器滤波后的结果。 综上所述,语音的瞬时能量表示取决于h ( n ) 的抉择,通常使用两种窗,一 种即矩形窗 r l ,( 0 n n 1 ) w 一”2 t o( 其他) 式35 ) 另一种是哈明窗( h a m m i n g ) 窗 舻,= 9 4 乩4 6 。鞋2 册删。1 ( 0 月n 一1 ) ( 其他) ( 式36 ) 笔者采用的是矩形窗来分析声音数据,窗函数宽度n ( 也就是窗口距离) 的 选择对于信号的采集和识别的效果十分重要,将在后面的初步分段过程中对这一 重要参数做出讨论说明。 二短时平均过零率 对于时域离散信号,如果相邻采样具有不同的符号,就成为过零。窄带信号 的过零率反映了该信号的频率。例如,一正弦信号其频率为f 。,取样平率为f , 则正弦波的每一周内就有f ,f 。个取样,而每周内有两次过零,因此可以计算该 信号的长时平均过零率为 z = 斋= 笔孚 ( 过零率取样)( 式37 ) 对于宽带信号,为了反映其过零率随时间的变化情况,不能采用长时平均过 零率,必须采用短时平均过零率,其定义如下: z 。= i s g n x ( k ) 一s g n x ( k 一1 ) 和- k ) ( 式38 ) t = ” 汉语连续语音端点检测技术的研究 式中 以及 ( o n 1 ) ( 其他) ( z 0 ) 0 ) ( x ( n ) 一o ,即k n ,以及n - k n l ,故k n n + l 因此式( 式38 ) 可以改写为 z 。= i s g n x ( k ) 一s g n x ( k 1 ) | k = b - n + l 实验结果表明,浊音语音的能量集中在大约3 k h z 以下,而对于清音语音,其 能量则大多数出现在较高的频率上。由于高的频率对应有高的过零率,低的频率 对应有低的过零率。于是,若测得的过零率高,则对应般为清音,反之则一般 为浊音。一般的经验数据是,对于清音语音,其过零率为每l o m s 内z 。4 9 ,而 对于浊音语音,其过零率为每l o m s 内z 。1 4 。 同样,过零率窗口距离也非常关键,也将在后面的初步分段过程中对这一重 要参数做出讨沦说明。 3 4 两种有参考价值的分段方法 本节介绍两种分段方法,即滑动连续帧简单逻辑法( 简称为滑动连续帧法) 和用复杂能量特征处理的起止点判别法( 简称为复杂能量特征法) 。笔者的分段方 法充分借鉴了它们的长处,并且用v b 程序实现这两种方法。在第六章结论部分用 这些方法作为参考来比较不同方法之间端点检测的效果。本节的基本内容引自参 考文献 4 一滑动连续帧法 这是一种基本用于识别汉语孤立音的识别法,对单独的汉语字音识别效果颇 为理想。 处理流程如下图3 2 : l 一 上w。 畋 。留 卜 = 曲 h 阻 w 蹭 第三章连续语音端点检测的初步分段过程前述旦 结束 削3 2 滑动连续帧简单逻辑法处理图不 图32 中,n 为帧序号,s ( n ) 是语音信号而x ( n ) 经过分帧处理后得到的帧,z c r ( n ) 和e ( n ) 分别是短时平均过零率和瞬时平均能量。 该方法中,在任何时刻均存储由目前起前1 0 帧的z c r ( n ) 及e ( n ) 的测得数据, 将此2 0 个数据作为综合判别。最简单的判别逻辑是,若e ( n ) 数据中l o 个超过某 阀值t e 则判此1 0 帧的起点时刻语音起点。又若z c r 数据中有k ,( 如= 3 ) 个超过 某阀值t z ,而同时有尼:个e 数据超过t e ,则也以此1 0 帧的起点时刻作为语音起 点。k ,尼:值可根据累计的经验予以适当调整。其中对于闽值t e 和t z 的取值是 这样计算的: 首先计算过零率初步门限值i z c t 和能量初步门限i t l ( 低能量门限) 及i t u ( 高能量门限) 。 i z c t = m i n i f ,z ( 1 + 2 d 孩- ( 式31 2 ) 其中亿( ? 、a z l :为根据所取的1 0 个连续帧而算出的均值及标准差的估值。i f 为固定值,一般取2 5 。 可以计算每帧的平均幅值,称其最大者为i m x ,最小者为i m n 。 ,= 00 3 ( i m x i m n ) + i m n := 4 i m n 那么 i t l = m i n ( i t i :)( 式3l3 ) i t u = 5 i t l( 式31 4 ) 阈值t e 就可以取这里的i t l 值,而t z 可以取i z c t 。 滑动连续帧法基本用来处理单独语音,因此不能用在连续语音处理上,而且 它的判断逻辑过于简单,使用的判断特征只局限于最基本的能量和过零率。笔者 主要借鉴了该方法使用统计窗口计算满足门限值条件的处理技巧。 二复杂能量特征法 该方法所用到的主要特征属于能量型特征。 步骤如下: ( 一) 自适应电平均衡 汉语连续语音端点检测技术的研究 其目的在使受扰信号以背景噪声为基准进行对数能量的归一( 即均衡) 。均酗 后的对数能量称为r i ( o ) ,她由下式计算: r d o ) - 1 9 【r ( o ) 】- q( 1 = l ,2 ,l ) 其,千,l 为整个训练数据的帧数。0 为平均背景电平, 小能量 e 一= m 。,i n 。 1 9 凡( o ) ( 式3l5 ) 其计算方法为,先求最 然后将l g 兄( 0 ) 直方图上关系曲线在e 。+ l o d b 处削顶,再将削顶曲线按三点 平均运算予以平滑,则此平滑曲线的峰值即定为o 。对于静音情况,尺i ( o ) 会在0 d b 上下摆动,而在有语音时段则其值较大,故可用以判别“峦状”信号的存在。 该步骤主要是滤除背景噪声对于语音信号的干扰,而笔者采用的实验语音基 本无噪声干扰,因此无须能量归一。 ( 二) 能量峦检测 根据尺,( o ) 在各情况下的大小可拟定四个阈值反,后z ,如,尼a ( 参见图33 ) , 用以判别能量峦是否存在。语音与干扰都可能出现能量峦,所以应该判别测得的 各能量峦是否属于语音。 aa ; a ,a 帧号 图3 3 能量峦检测示意图 随时间递增,可以逐帧检测j r ,( o ) 直到等于j i 。值时记录下相应的帧号i 称为a 。 若尺,( o ) 继续增至尼z 值( t h 应于4 z 帧) 之前曾降低过低于觑,而a 到a :间的帧数 不超过某闽值,可以将彳- 定为语音起点。若帧数超过该闽值则起点改定为爿:。对 第三章连续语音端点检测的初步分段过程前述 1 7 于终点的判别方法与此类似,其中的k ,、k a 相应于上述起点识别中的k ,、k :,而a 、 a ,则相应于爿、彳:。 这里应该注意的是,为了增加可靠性,方法中尚补充了二项测试: ( 1 ) 既定的语音段中的峰值能量的检测。若其值小于阈值k 。,则此相应的能 量改判为不属于语音。 ( 2 ) 既定语音段的时间若太短( 女n x :,则可能为语音段的起止点对的顺序为:( a ,a 。) , ( a ,a ) ,( a ,a ) ,( a ,a ) 。 汉语连续语音端点检测技术的研究 ( 匹| ) 起止点的最后决定 目的在于从已经排好序列的各“起止点对”中最后决定其中的一对。 方法是将第一顺序的起止点对暂定为起、止点进行后继的识别工作。若所得 的最终结果满意( 指语音与其所判定的模板之间的距离足够小) ,则上述的暂定可 以改为决定。否则以第- - j i l 序的起止点对为暂定起止点,重复进行识别,直到结 果满意为止( 若都不满意,则可以把上述距离中的最小者相对应的起止点对为起 止点) 。 经过从自适应电平均衡、能量峦检测、能量峦起止点排序和起止点的最后决 定这四个步骤,用复杂能量特征处理的起止点判别法基本可以判断出完整孤立语 音中的能量特征比较明显的例子,而且其中有两点特别被笔者借鉴:( 1 ) 能量峦 最大最小间距的经验取值。因为如果能量峦之间距离过远,就不属于单独语音, 而是很有可能为连续语音中的相临近语音,尽管该方法没有给出如何判定该距离 合理取值的求出步骤,但这一思想被笔者采用,并在后面的具体识别中摸索了判 别距离的经验。( 2 ) 假设排序序列的选择。由于可以根据能量峦之间距离来对起 止点的具体语音段归属做预测,很明显,按照同属于一个语音段落可能性大小的 次序来做计算,是能够为算法节省时间代价,同时这一次序排列又是一个完全集, 把所有起止点对的可能性都包括其中,笔者也是把该思想引申到平均过零率的相 应处理上,取得了很好效果。 复杂能量特征法对于浊音的判断具有一定的功效,但在判断清音( 尤其是清 擦音) 时,这一方法存在两个很明显的不足之处:( 1 ) 很多清音的能量特征不显 著,靠能量特征无法准确识别,还需要综合过零率特征来辅助识别;( 2 ) 尽管识 别逻辑相对简单,但如果对较大词汇量的连续语音做判别,那么该算法由于要假 设出起止点对的预测序列,然后一一做出判断和分辨,导致运算时间过长,影响 了识别效率。 笔者借鉴了复杂能量特征法的两个合理之处:1 ,能量峦的计算。由此引申为 笔者判断子语音段落内单字语音数目的能量峰值合并法;2 ,假定端点的判断。在 初步分段过程和使用周期性缓变特征的分段过程中,笔者同样假定出端点,然后 通过分析比较来确定真正端点。 3 5 小结 本章先介绍了开发环境,然后阐述语音文件的数据格式,接着介绍了短时分 析方法以及瞬时平均能量和短时平均过零率的基本理论,最后介绍了滑动连续帧 法和复杂能量特征法。 第四章连续语音端点检测的初步分段过程 第四章连续语音端点检测的初步分段过程 在本章中,首先综述初步分段过程的基本思想,然后阐述了初步分段过程的4 个步骤:选择合理的统计帧长度;确定合适的门限值大小;起点识日u 过程和终点 识别过程。最后对关键的一些环节做了详尽讨论。 4 1 初步分段过程总述 从波形文件中读取出语音数据,经过计算得到了一段实验语音的瞬时平均能 量和短时平均过零率的对应数据值后,就可以开始进行初步分段。清音、浊音和 静音( 即没有语音) 的过零率特征与能量特征有着比较大的区别,举例如下图4l : 图4l 语音“风险损失”的过零率和瞬时能量示意图 + 图41 中,从上到下分别是语音“风险损失”的波形图、短时平均过零率示意 图和瞬时平均能量示意图。其中,短时平均过零率示意图和瞬时平均能量示意图 所采用的统计帧长( 即统计过零率数值的窗口长度) 大约是30 毫秒。端点a l 之 前和端点a 5 之后的部分都是静音;而端点a 1 和端点a 2 之间是语音“风”,端点 a 2 和端点a 3 之间是语音“险”,端点a 3 和端点a 4 之间是语音“损”,端点a 4 和端点a 5 之间是语音“失”。从图4l 可以观察到两个很明

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论