(计算机应用技术专业论文)自适应的语音端点检测技术研究.pdf_第1页
(计算机应用技术专业论文)自适应的语音端点检测技术研究.pdf_第2页
(计算机应用技术专业论文)自适应的语音端点检测技术研究.pdf_第3页
(计算机应用技术专业论文)自适应的语音端点检测技术研究.pdf_第4页
(计算机应用技术专业论文)自适应的语音端点检测技术研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机应用技术专业论文)自适应的语音端点检测技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学硕士研究生论文 自适应的语音端点检测技术研究 摘要 本论文首先简要介绍了当前主要的语音端点检测方法的优点及 局限性,并总结了语音端点检测技术中常用的音频特征参数,如短时 能量、短时过零率和短时信息熵等。然后,提出了一个结合时域和频 域的语音特征、能够对背景噪声做出反馈、并且可以在复杂的背景噪 音环境下对语音和非语音做出有效的区分的语音参数,称为短时能频 值。在短时能频值的基础上,我们提出了一种自适应的语音端点检测 算法;可以对长时间连续的语音信号进行端点检测,并且根据检测过 程中发现的背景噪音对已检测出的结果进行修正。最后,应用自适应 的语音端点检测算法实现了自动字幕生成系统,进一步验证了本论文 提出的算法的有效性。 关键字:语音端点检测,音频特征参数,短时能频值,背景噪声 北京邮电大学硕士研究生论文 t h er e s e a r c ho fa na d a p t i s p e e c h e n d p o i n td e t e c t i o nt e c n o l o g y a b s t r a c t i nt h i sp a p e r , w ef i r s t l yi n t r o d u c es e v e r a ls p e e c he n d p o i n td e t e c t i o n m e t h o d sw h i c ha r ew i l d l yu s e dc u r r e n t l ya n dd i s c u s e st h e i ra d v a n t a g e s a n dl i m i t a t i o n s t h e nw es u m m a r i z es o m ei m p o r t a n tm e a s u r e sw h i c ha r e w i d e l yu s e di ns p e e c he n d p o i n td e t e c t i o nt e c h n o l o g i e ss u c ha ss h o r tt i m e e n e r g y ,s h o r tt i m ez e r o - c r o s s i n g - r a t e ,a n ds h o r tt i m ee n t r o p y m o r e o v e r , w ep r o p o s ean e wa u d i of e a t u r e ,e z e f , w h i c hc o m b i n e st h ea d v a n t a g e so f t i m e - d o m a i na n df r e q u e n c y - d o m a i nc r i t e r i aa n di sm o r er o b u s ti nn o i s y e n v i r o n m e n t b a s e do nt h i sn e wf e a t u r e ,w ep r o p o s ea na d a p t i v ee n d p o i n t d e t e c t i o nm e t h o dw h i c hm a k e st h ee z e f a d a p tt h eu n a n t i c i p a t e dc h a n g e s o ft h eb a c k g r o u n db ya n a l y z i n gt h eb a c k g r o u n dn o i s et i m e l y t h i s e n d p o i n td e t e c t i o nm e t h o dc a nb e u s e di nt h ec a s e so fl o n gu t t e r a n c ea n d f r e q u e n t l yc h a n g e de n v i r o n m e n t f i n a l l y , w ed e s i g na n di m p l e m e n ta c a p t i o na u t o g e n e r a t i o ns y s t e ma n dt h ep e r f o r m a n c eo ft h ea d a p t i v e e n d p o i n td e t e c t i o na l g o r i t h md e s c r i b e di nt h i sp a p e ri sp r o v e dw e l li nt h e a p p l i c a t i o n k e y w o r d s :s p e e c he n d p o i n td e t e c t i o n ,a u d i of e a t u r e ,e z e f , b a c k g r o u n dn o i s y 北京邮电大学硕士研究生论文 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所 知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰 写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢 意。 申请学位论文与资料若有不实之处, 本人签名:! 刍亟 本人承担一切相关责任。 日期:型罗:呈! 兰 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校 攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部 门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论 文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名:羔曼亟 导师签名: e l 期:2 0 0 i _ 3 篁 北京邮电大学硕士研究生论文 1 1 研究背景 第一章引言 随着多媒体技术的发展,语音技术逐渐在越来越多的场合中被推广使用,语 音信号处理更成为目前信息科学研究领域中发展最为迅速的研究方向之一,其研 究成果具有重要的学术及应用价值。从技术角度讲,语音信号处理是信息高速公 路、多媒体技术、办公自动化、现代通信及智能系统等新兴领域应用的核心技术 之一。用数字化的方法进行语音的传送、储存、识别、合成、增强等是整个数字 化通信网中最重要、最基本的组成部分之_ 。语音技术已经开始逐步形成一个具 有竞争性的新兴高新技术产业 1 。 语音识别技术是语音技术中最重要的领域之一,也是近年来信息技术领域最 重要的科技发展技术之一。自然语言作为一种理想的人机通信方式可为计算机。 自动化系统等建立良好的人机交互环境,提高整个社会的信息化和自动化程度。 目前,语音识别正逐步成为信息技术中人机接口的关键技术,它与语音合成技术 的结合使人们能够甩掉键盘,通过语音命令进行操作。 语音端点检测技术是语音识别系统预处理阶段中遇到的第一个关键技术。语 音信号处理中的端点检测技术是指从包含语音的一段信号中确定出语音的起始 点及结束点。作为一个完整的语音识别系统,其最终实现以及使用的效果不仅仅 取决于语音识别的算法,其它许多相关因素都直接影响着系统应用的成功与否。 语音识别的对象是语音信号,但是一般的信号都存在一定的背景声;而语音识别 的模型都是基于语音信号训练的,这样语音信号和语音模型进行模式匹配才有意 义。因此从信号中检测出语音信号是语音识别的必要的预处理过程 2 ,3 ,4 。在一 些语音识别或低速语音编解码器应用中,有效的端点检测技术不仅能减少系统的 处理时间、提高系统处理的实时性,而且能排除无声段的噪声干扰,从而使后续 的识别性能得以较大提高。端点检测的准确性甚至在某种程度上直接决定了整个 语音识别系统的成败 2 ,3 ,4 。 自动字幕生成技术是语音技术研究的一个新的领域。当前的字幕制作方法 是:首先准备好字幕文稿,它是指在制作电视节目之前,事先写好的一个文本文 件,记录着节目的标题,主持人要说的话,以及被采访人所讲的话等内容。在制 作电视节目时,编辑人员把音、视频素材添加到非线性编辑软件的故事板上,然 后按照节目的主旨,对他们进行编辑。编辑操作一般包括对素材位置的修改,添 加一些特技,添加字幕等等。添加字幕时,一般是先在字幕文稿中选择多段文字 北京邮电大学硕士研究生论文 ( 每一段就是一句话) ,然后以这些文字生成一个新的字幕文件。将这个文件拖上 非线性编辑软件的轨道,此时字幕中的每一句话就会按顺序播出,但是往往会出 现“声画不同步”现象,即字幕出现的时刻和音频文件中播出的声音对不上。这 时就需要编辑人员一边听声音,一边一句句地修改字幕的入点和出点的值。 运用自动字幕生成技术,可大大节省制作字幕所花费的人力和时间。自动字 幕生成系统会先根据字幕文稿内容,自动找出每一句字幕所对应的入点和出点的 时间。节目制作人员只需要将文件拖上非线性编辑软件的轨道即可。作为自动字 幕生成系统的核心技术,语音端点检测技术需要能够在复杂背景环境下的音频信 号流中分辨出语音信号和非语音信号,并确定语音信号的开始及结束。 综上所述,语音端点检测是连续语音识别、音频文件语义提取和自动字幕生 成技术等重要应用的基础,目前,国内外已经积极开展了对这方面的研究。 1 2 语音端点检测技术的研究现状 1 2 1 目前主要的语音端点检测方法 从复杂背景噪声中找出语音的起始点和结束点,一直是语音信号处理中的基 本问题 5 。由于语音端点检测的重要性,人们已经提出了很多种语音端点检测 方法。这些方法大致可以分为基于模型的方法和基于门限的方法两类。 基于模型的方法可以使用多维的特征如m e l 倒谱等,但是这种方法非常依赖 于建立模型并进行数据训练,计算量非常大;因为采用的特征维数较多,对环境 进行自适应就需要大量的数据,因此实现起来有相当的难度。 基于门限的语音端点检测方法则是根据语音的特点,选择合适的特征参数, 然后将该特征参数与预先设定的门限值进行比较,或者是先对特征参数进行一系 列的后期处理然后再与门限进行比较。在传统的基于门限方法中,基本上都使用 了短时能量 6 ,7 、短时过零率和短时信息熵 3 等语音参数,分别判断它们是否 超过一个阀值,然后再通过“与”或者“或”运算来做出是否为语音起点或终点 的判断。 现有的基于门限的端点检测方法中,一般会首先选取音频最初的l o - - - 2 0 m s 作为背景噪声进行分析,并通过分析来设定两个门限值:一个用于确定语音起点, 另一个用于确定语音的终点。当发现所观察的参数值大于起点门限,则将该点标 识为语音的起点。语音起点确定后,当所观察的参数值小于终点门限时,将该点 标识语音终点。这种方法具有一定的限制:首先,这种方法要求在整个语音端点 检测的过程中,背景噪声不发生大的变化;其次,这种检测算法的门限值很难确 定,不同的说话人所对应的特征门限不同。 2 北京邮电大学硕: :研究生论文 对于基于门限的语音端点检测方法,影响检测结果的因素主要有两个:1 ) 特 征参数的提取;2 ) 门限值的确定以及调整。 现有的基于门限的端点检测参数主要有: , 1 ) 能量:以声音的强度作为判断参数。这种方法在高信噪比的情况下会有 很好的效果。但是,在信噪比低的情况下,如在汽车引擎声、关门声等噪声的干 扰下,这种方法的准确率很低。 2 ) 频率:采用频率域的特征作为判断依据。这种方法可以准确地区分语音 和汽车引擎、关门声等噪声,但对于语音和乐音的区别效果较差。 1 2 2 传统语音端点检测方法存在的不足 传统的基于门限的语音端点检测方法主要存在以下几点不足: 首先,无论采用哪种音频参数,传统的语音端点检测方法在特定的噪声环境 下都存在很大的不足。比如,基于能量的方法在低s n r 的环境中表现不好;基 于信息熵的算法在音乐背景下则会失效。 另外,传统的语音端点检测方法主要应用在语音识别、语音拨号、指令控制 以及嵌入式系统中。在这些应用环境中,语音只会持续很短一段时间,一般是几 秒钟。而且背景噪声在端点检测过程中基本上不发生大的变化,因此这些方法一 般取音频的前5 帧来分析噪音。但是如果语音持续较长的一段时间,并且背景噪 声在检测过程中频繁变化,那么上述方法并不能很好的工作。 最后,传统的语音端点检测方法着重于从背景噪声中精确地提取出单个的字 ( 词) 的语音端点。与之相比,自动唱词生成系统对精度的要求相对较低,而侧重 于在连续的语音中,进行连续的语音端点检测,并且最终检测出语句的端点。 因此,有必要引入一种音频参数,能够在多种噪声条件下保证语音端点检测 的准确性。并提出一种新的语音端点检测算法,能够应对突然变化的背景噪声, 并能够在复杂的背景噪声环境下,对连续语音进行端点检测,并最终检测出语句 的端点。 1 3 论文内容和意义 本论文试图针对不断变化的噪声背景下长时间的连续语音提出一种新的端 点检测算法,即自适应的语音端点检测算法。首先,我们将提出一个基于短时能 量、短时过零率和短时信息熵的新型语音参数,它结合了时域和频域的音频特征, 并能够实时地对背景噪声做出反馈,可以在复杂的背景噪音环境下,对语音和非 语音做出有效的区分。另外,采用反馈机制来提取背景噪声,能够应对背景噪声 3 北京邮电大学硕七研究生论文 的突发性改变,从而使算法具有背景环境自适应的能力。最后,我们将采取一种 有效地方法来对长时间连续的语音信号进行端点检测。 本论文提出的自适应的语音端点检测技术可以对长时间连续的语音信号进 行端点检测,并且根据检测过程中发现的背景噪音对已检测出的结果进行修正, 以保证最后得出的结果更加准确。 本论文提出的自适应的语音端点识别技术将被应用于自动字幕生成系统中。 该系统依托于北京邮电大学多媒体与智能通信北京市重点实验室与北京新奥特 有限公司合作开发的媒资管理项目,是媒资管理系统的重要组成部分。应用该系 统,可在很大程度上降低在电视节目制作过程中,为了添加唱词字幕所花费的人 力物力,提高电视节目的制作效率并减少节目制作人员的工作量。 自动字幕生成系统接受用户输入一个采用p c m 音频压缩格式、采样频率 4 8 k 、采样位数1 6 位、声道数目2 ( 立体声) 、文件格式为w a v 的音频文件, 以及相应的字幕文稿;输出为一个s n 格式的字幕文件,内容是字幕文稿中的每 一句话及其所对应的开始时间点和结束时间点。整个系统如图1 1 所示。 图1 1 自动字幕生成系统示意图 4 北京邮电大学硕士研究生论文 1 4 论文的总体结构 论文余下的部分共分为五章,第二章着重介绍语音端点检测的基础知识,主 要包括语音编码技术、w a v 文件解析以及常用的语音参数;第三章是本文的重点, 将提出一个新的语音参数:短时能频值,并在此基础上提出自适应的语音端点检 测算法;第四章讲述了自适应的语音端点检测算法以及自动字幕生成系统的设计 与实现;第五章分析了自适应的语音端点检测算法的性能以及自动字幕生成系统 的工作效果;第六章对本文进行了总结。 北京邮电大学硕士研究生论文 第二章语音端点检测基础知识 2 - 1 语音编码概述 2 1 1 语音编码方式 原始的语音信号是模拟信号,不能直接在数字通信系统中传输,必须先进行 模数转换,再进行数模转换。这种模数转换和数模转换就称为语音编码,其 作用是将语音模拟信号转换为数字信号。到了接收端,再将收到的语音数字信号 还原为语音模拟信号 8 。 语音编码速率要适合在常用话音信道内传输,一般要求编码速率在 2 k b s , - , 1 6 k b s 范围内的情况较多。 语音编码按照传统的分类方法通常分为3 类:波形编码、参数编码和混合编 码。 波形编码是将时间域或频率域( 变换域) 信号直接变为数字信号,力求使重建 语音波形保持原始语音信号的波形形状。波形编码具有语音质量好、抗噪声性能 强等优点。其缺点是所需用编码速率高,一般在1 6 k b s 6 4 k b s 之间。脉冲编 码调制( p c m ) 、增量调制( d m ) 、自适应增量调制( a d m ) 和自适应差分脉冲编码 调制( a d p c m ) 等都属于波形编码。波形编码当其编码速率进一步降低时,其语 音质量等性能指标下降很快。 参数编码又称为声源编码或声码器,有时还称为分析一综合编码。它是将信 源信号在频域或其它变换域提取特征参数,然后对这些特征参数进行编码和传 输;在译码端再将收到的数字信号译成特征参数,根据这些特征参数重建语音信 号。l p c 1 0 和l p c 1 0 e 声码器就属于参数编码。参数编码的优点是可实现低速 率语音编码,其编码速率可低至2 4 k b s 以下。其缺点是语音质量差,自然度较 低,即使是熟人一般也听不出讲话人是谁。 混合编码是将波形编码和参数编码结合起来,克服了波形编码和参数编码的 缺点,吸收了它们的长处,在4 k b s - 1 6 k b s 速率上能够得到高质量的合成语音。 混合编码技术在现代通信系统中得到广泛应用。多脉冲激励线性预测编码 ( m p e l p ) 等属于混合编码。 出于对所寻找的语音端点精确性的考虑,在本语音端点检测系统中,只支持 脉冲编码调制( p c m ) 方式。 6 北京邮电大学硕士研究生论文 2 1 2p o i 编码方式的基本工作原理 p c m ( 脉冲编码调制) 是p u l s ec o d em o d u l a t i o n 的缩写 8 。所谓脉冲调制就 是把一个时间连续、取值连续的模拟信号变换成时间离散、取值离散的数字信号。 脉冲编码调制就是先对模拟信号抽样,再对抽样值的幅度进行量化、编码的过程。 所谓抽样,就是对模拟信号进行周期性扫描,把时间上连续的信号变成时间上离 散的信号。该模拟信号经过抽样后还应当包含原信号中所有信息,也就是说能无 失真地恢复原模拟信号。它的抽样速率的下限是由抽样定理确定的。所谓量化, 就是把经过抽样得到的瞬时值的幅度离散化,即用一组规定的电平,把瞬时抽样 值用最接近的电平值来表示。一个模拟信号经过抽样量化后,得到已量化的脉冲 幅度调制信号,它仅为有限的数值。所谓编码,就是用一组二进制码组来表示每一 个有固定电平的量化值。然而,实际上量化是在编码过程中同时完成的,故编码过 程也称为模数变换,可记作a d 。 p c m 编码时,话音信号先经过防混叠低通滤波器,进行脉冲抽样,变成重复频 率的抽样信号( 即离散的脉冲调幅p a m 信号) ,然后将幅度连续的p a m 信号用 “四舍五入”办法量化为有限个数的幅度取值的信号,再经编码后转换成二进制 码。在实际中广泛使用的是两种对数形式的压缩特性:a 律以及a 律适用于欧洲 和我国,b 律适用于北美和日本。 p c m 编码的最大的优点就是音质好,最大的缺点就是数据量大。 图2 1 为一幅音频p c m 编码格式的采样值波形图。 2 1 3 语音信号的采样 图2 1 音频取样值波形图 要用数字方法处理模拟形式的语音信号,必须将它们转换成数字形式。模拟 到数字的转换过程能够分开为采样和量化。采样把连续的时间离散化,而量化把 7 北京邮电大学硕士研究生论文 采样幅度的连续取值离散化 9 。采样波形能够表示为: s 0 ) = 舶( 聆丁) ,一0 0 n o o( 2 1 ) 式中,是模拟波形,刀是整数,而z 是采样周期或者说是两个相邻样品之间的 时间差,它是由输入信号的带宽或它的最大频率确定。 根据采样理论,如果信号s a ( t ) 具有有限带宽,则它的傅立叶变换s a ( j w ) 为: s a ( j w ) = is a ( t ) e j w d t ( 2 2 ) 如果当信号的频率w 2 万矿时,s a ( j w ) = 0 ,则模拟信号能够从它的采样形式重 构,如果t = 1 ( 2 w 1 ,则形就称为奈奎斯特频率。 有限带宽模拟信号的傅立叶变换波形,被复制到采样频率的每一个整数倍的 上。这是因为采样信号的傅立叶变换是在采样频率的整数倍上计算的,它们形成 了如下关系 s ( p j w t ) 一i 2s a ( j w + j 2 n x t ) ( 2 3 ) 由此可见,如果采样频率小于奈奎斯特频率的两倍,则在采样频率的倍数处,两 个相邻的频谱将会重叠。例如,如果1 t = 足 2 w 则中心在2 万丁的信号波形会 重叠到基带的波形上,这种由高频波形重叠到低频波形上而引起的失真称为折 叠。要避免折叠失真,则输入信号的频带必须限制为采样频率的一半,或者采样 频率至少要增加到模拟信号中最高频率的两倍。 在给定条件l t = 2 w 的情况下,采样序列的傅立叶变换正比于基带中模拟信 号的傅立叶变换,关系如下 s ( p 肌) = 1 s a ( j w ) ,1w l ;i 2 2 4w a y 文件中的音频数据 d a t ac h u n k 是真正保存w a v 数据的地方,以“d a t a ”作为该c h u n k 的标示。 然后是数据的大小,紧接着就是w a v 数据。根据f o r m a tc h u n k 中的声道数以及 采样b i t 数,w a v 文件中的音频数据格式可以分成四种形式,如表2 4 所示。 1 ) 1 6 b i t 量化 如果是单声道,则每个采样占用1 6 b i t 数据,其中低位字节在前,高位字节 在后。如果是双声道则每个采样占用3 2 b i t 数据,其中前1 6 b i t 为左声道,后1 6 b i t 为右声道,左右声道都是低位字节在前,高位字节在后。 2 ) 8 b i t 量化 如果是单声道,则每个采样占用8 b i t 数据。如果是双声道则每个采样占用 1 2 北京邮电大学硕士研究生论文 1 6 b i t 数据,其中前8 b i t 为左声道,后8 b i t 为右声道。 表2 4w a v 文件音频数据格式 单声道 取样1取样2 取样3取样4 8 b i t 量化 声道0 声道0声道0声道0 双声道取样l取样2 8 b i t 量化 声道0 ( 左)声道1 ( 右)声道o ( 左)声道1 ( 右) 单声道 取样1取样2 1 6 b i t 量化 声道0声道0声道0 l声道0 ( 低位字节)( 高位字节)( 低位字节) l ( 高位字节) 双声道 取样1 1 6 b i t 量化 声道o ( 左)声道o ( 右)声道1 ( 左) l 声道1 ( 右) ( 低位字节),( 高位字节) ( 低位字节) l ( 高位字节) d a t ac h u n k 结构体定义如下: ? 一一一一一一一。一一。一: ls t r u c td a t a b l o c k: ; l , c h a rs z d a t a i d 4 ;t d ,a ,t tt a t i l d w o r d d w d a t a s i z e ;i l ) ;i 其中d w d a t a s i z e 表示了音频数据的大小,单位是字节。 2 3 语音分析的一般方法 计算机语音分析是计算机语音处理的一个重要内容,也是计算机语音合成及 语音识别的基础 1 0 。计算机合成的语音音质的好坏,计算机语音识别率的高低, 都取决于计算机语音分析工作质量的高低。例如利用带通滤波器组法来进行计算 机语音识别,其先决条件是要弄清楚语音的共振峰的幅值、个数、频率变化范围 及其分布情况。因此,可以先对语音做频谱分析,得到提高语音识别率的有用数 据,并据此来设计计算机语音识别系统的硬件和软件。 国外的经验说明,语音分析的工作必须先于其它的语音处理工作。例如,2 0 世纪4 0 年代,贝尔电话实验室的研究人员就对语音分析做了大量、细微且卓有 成效的工作,这些工作的成果推动了计算机语音处理的发展。 语音分析有时域分析、频谱分析和语谱分析3 种方法。这3 种方法分别由对 应的图来表示:时域分析对应时域波形图,频谱分析对应频域波形图,语谱分析 则对应语谱图。 1 3 北京邮电大学硕士研究生论文 2 3 1 时域分析法 时域分析是最早被使用的一种方法,也是应用范围最广泛的一种方法。各种 电信号可以记录成时域波形,人体的生物电( 如脑电、心电等) 也可以记录成时域 波形。语音的时域分析采用时域波形图,一般来说,横坐标是时间,纵坐标是幅 值。音频时域波形图如图2 2 所示。 膊烛语音信每 图2 2 音频时域波形图 时域分析法的特点是: 1 ) 用时域波形表示的语音信号比较直观,清晰易懂; 2 ) 时域波形语音信号的数字处理实现起来比较简单; 3 ) 用时域语音信号进行一些数字处理,可以得到语音信号的一些重要特征参 数,为分析语音信号提供了有用的基础; 4 ) 分析语音信号的时域波形图,所采用的方法较为简单。 2 3 2 频域分析方法 频域分析是常用的第二种语音分析方法。语音信号的频域分析包含有语音信 号的频谱、功率谱、倒频谱、频谱包络、短时间频谱等。常用的频域分析方法有 带通滤波器组法、傅立叶变换法、线性预测法等几种。与上文时域图相对应的一 幅频谱图如图2 3 所示。 频域分析方法的特点是: 1 ) 语音信号的频谱波形不太容易受外界环境的影响,而时域波形易随外界环 境变化; 2 ) 语音信号的频谱具有非常明显的声学概念,利用频谱分析获得的语音特征 1 4 北京邮电大学硕士研究生论文 具有实际的物理意义; 3 ) 频域分析容易获得某些重要的音频特征参数,如信息熵、带宽、共振峰等; 4 ) 频域分析要用到f f t 变换等,有时会需要专门的硬件工具。 原始语音信号f f t 频谱 2 3 3 语谱分析法 图2 3 音频频域波形图 利用语谱图是第三种语音分析方法 1 0 。2 0 世纪4 0 年代已经研制成功了语 谱仪,将它用于语音分析做出的图叫语谱图。语谱图的横坐标是时间,纵坐标是 频率,黑度是第三个坐标,表示音强。语谱图提供有关不同时间不同频率的相对 音强的有价值信息,可以在二个维度( 时间及频率) 上表示出音强的关系。 语谱分析法的特点是: 1 ) 它是时间、频率、音强的三位显示图,同时也是时域波形与频谱图的结合。 这一点是优于前两种分析方法的; 2 ) 从语谱图中可以得到一些频域分析参数( 如共振峰、基音周期等) 随语音发 生过程( 时间) 的变化情况,这是前两种分析方法所没有的; 3 ) 从语谱图上还可以得到能量随语音发生过程( 时间) 的变化情况,由此可以 区别浊音及清音、辅音( 或声母) 等的不同种类。 4 ) 由于语谱图具有不同的黑白程度,形成不同的花纹,这种花纹被称作声纹。 与不同的人有不同的指纹类似,不同讲话者的语谱图有不同的声纹,据此 可以用于识别讲话者的身份。 在本论文中,我们只用到了时域分析方法和频域分析方法,分别提取了时域 和频域中的某些重要音频特征参数。对于语谱分析方法,目前在语音端点检测的 方法中应用还比较少,有待进一步的研究。 北京邮电大学硕士研究生论文 2 4 滤波 滤波一词起源于通信理论,它是从含有干扰的接收信号中提取有用信号的一 种技术。其功能是允许某一部分频率的信号顺利地通过,而另外一部分频率的信 号则受到较大的抑制,滤波的功能一般通过滤波器来实现。在滤波器中,把信号 能够通过的频率范围,称为通频带或通带;反之,信号受到很大衰减或完全被抑 制的频率范围称为阻带;通带和阻带之间的分界频率称为截止频率;理想滤波器 在通带内的电压增益为常数,在阻带内的电压增益为零;实际滤波器的通带和阻 带之间存在一定频率范围的过渡带。 滤波器按所处理的信号可以分为模拟滤波器和数字滤波器两种。按所通过信 号的频段可分为低通、高通、带通和带阻滤波器4 种。1 ) 低通滤波器:它允许信 号中的低频或直流分量通过,抑制高频分量、干扰和噪声;2 ) 高通滤波器:它 允许信号中的高频分量通过,抑制低频或直流分量;3 ) 带通滤波器:它允许一 定频段的信号通过,抑制低于或高于该频段的信号、干扰和噪声;4 ) 带阻滤波 器:它抑制一定频段内的信号,允许该频段以外的信号通过。 滤波器按所采用的元器件可分为无源和有源滤波器2 种。无源滤波器的优点 是可靠性高;缺点是通带内的信号有能量损耗,负载效应比较明显。有源滤波器 的优点是通带内的信号不仅没有能量损耗,而且还可以放大,负载效应不明显, 多级相联时相互影响很小;缺点是通带范围受带宽限制。 在音频分析中应用的滤波器一般为有源滤波器。有源连续滤波器有以下几种 类型 1 1 : 1 ) 巴特沃斯( b u t e r w o r t h ) 型滤波器:该型滤波器在通带内没有复杂的纹波, 相位响应的线性特性也比较好。但是接近通带的止带的衰减不够快。 2 ) 切比雪夫( c h e b y s h e v ) 型滤波器:该型滤波器的设计是为了在接近通带的 边缘产生最佳的衰减,即具有最快的滚降。但是它的相位响应不是线性的, 也就是说,不同的频率分量会有不同的时间延迟,而且会在通带内产生纹 波。 3 ) 椭圆函数( e l l i p t i c ) 型滤波器:该型滤波器可以产生比切比雪型或巴特沃斯 型滤波器更陡峭的滚降。不过却在通带内引入了复杂的纹波,并造成高度 的非线性相位响应。 音频分析中所需要的带通滤波器,要在通带的边缘有比较好的衰减,并且滤 波器阶数在满足要求的前提下应尽可能小。切比雪夫型滤波器具有比较快的衰 减,相位响应也基本满足要求,且相对其它滤波方式而言,完成相同的指标所需 阶数较小。因此经过权衡取舍,作者选择了切比雪夫型滤波器来设计带通滤波器。 1 6 北京邮电大学硕士研究生论文 对音频进行滤波处理可以阻止语音频带( 3 0 0 h z 3 4 0 0 h z ) 以外的噪声,并可大 大降低背景音乐对语音端点检测造成的影响,因此在提取音频特征参数之前要先 进行滤波。 2 5 音频信号的分帧处理 声音信号是一种典型的非平稳信号,但是由于语音的形成过程与人的发音器 官的运动密切相关,这种物理运动比起声音的振动速度来要缓慢的多。因此可以 认为语音信号是一种随时间变化比较缓慢的信号,可以认为在很短时间里,如 1 0 m s 至2 0 m s 之内,语音信号近似不变,可以用平稳过程的分析处理方法来处理。 于是,可以把语音信号分成一些短时间段进行处理,这些短时间段具有相对的固 定性,即语音帧 6 。 在求音频特征参数的过程中,将离散的语音信号划分成语音帧的处理方法可 以表示为 q 庐研x ( 后) 】w ( n - k ) ( 2 8 ) 式中砸】表示对语音信号进行线性或非线性的变换;w ( n - k ) 表示窗i :1 函数,其 宽度是有限的;对2 8 式中的所有非零值进行求和运算所得到的9 就是所求的 音频特征参数。 窗口函数似行) 有很多种定义,主要有矩形窗 w 咖,= l ,:掰 海明窗 咧加 o 5 4 m 4 7 c o 。s , 2 - 1 1 、) l ( 蒿肛1 ( 2 10 ) 砌m ( 刀) = n 八川,甘机 ( 2 ) 以及海宁窗 = 仉5 m 5 c0缸肛1)】,。(舳n :s :( 2 1 2 ) 1 月= l 其中,n 表示第i 帧中所包含的音频采样数量,本论文中取4 8 0 ;岛表示第n 个采样的取样值。图2 4 显示了一段新闻的短时能量波形。 4 2 6 04 2 8 。4 瑚4 3 2 04 3 4 04 3 5 04 3 b o 4 4 0 0 4 4 2 0 4 4 4 0 图2 4 短时能量波形图 在语音端点检测中,经过试验对比可以发现,音频信号中某一帧所对应的声 音越大,其短时能量的值越大。一般来说,在纯语音的环境中,语音的能量要比 背景噪声的能量大,背景噪声对应的短时能量较小,接近于0 。由此可以判断语 音的起始点和终止点。但是当信噪比比较小时,比如背景噪声比较嘈杂时或者有 突发的噪声时,或者有开关门声、咳嗽声以及机器轰鸣声时,即使没有语音,背 景噪声的短时能量仍然比较大。此时,仅凭能量一个语音特征参数就无法有效的 北京邮电大学硕士研究生论文 区分语音和背景噪声。 2 6 2 过零率 过零率是另一个常用的音频特征参数 6 ,1 3 。当离散语音信号的时域波形 通过时间横轴时,相邻时刻的采样值如果具有不同的符号,称为“过零 。单位 时间的过零次数称为“过零率,即单位时间内音频采样值符号变换的次数。同 上,在本论文中我们将单位时间限定为一帧,每一帧的过零率就是“短时过零率”。 第i 帧的短时过零率定义如下: z n = 寺l s g n ( s 捍) - s g n ( s 川) l ( 2 1 3 ) l n = l 其中,岛表示第n 个音频采样的值;s g n ( ) 为符号函数,定义为 s g n ( s n ) = 篙( 2 1 4 ) 过零分析是语音的时域分析中最简单的一种分析。它可以区别语音的发音是 清音还是浊音。由于清音语音的多数能量出现在较高的频率上,因此清音的过零 率较高;而浊音语音具有高频跌落的频谱,因此浊音的过零率低。利用短时过零 率还可以从背景噪声中找出语音信号。在孤立词的语音识别中,必须要在一串连 续的语音信号中进行适当分割,用以确定每个单词语音的信号,也即找出每个单 词的开始和终止位置。用平均过零率来确定单词的起始点时,判断依据是语音开 始点以前的过零率低,而开始点以后的过零率有明显的数值。在有背景噪声的情 况下,一般背景噪声的平均过零率较低,而单词起始段的平均过零率急剧增大, 由此可判定此单词的起始点。 但是,在连续语音的端点检测中,如果单独应用过零率,结果会非常不可靠; 因此过零率经常被用来辅助能量、信息熵等特征参数,以得到更为精确的结果。 即便如此,过零率在语音端点检测中所发挥的作用有时仍然很难被观察到。 2 6 3 信息熵 语音的感知过程与人类听觉系统具有频谱分析功能是紧密相关的。因此,对 语音信号进行频谱分析,是认识语音信号和处理语音信号的重要方法。语音信号 是一种典型的非平稳信号,但是其非平稳性是由发音器官的物理运动过程而产生 的,由此我们可以假定其频域也是短时平稳的。 信息熵是频域的重要音频参数,它反应了语音信号所传达的信息量的大小。 1 9 北京邮电大学硕士研究生论文 信息熵在语音编解码中经常被使用,j l s h e n 首次将它应用在语音端点检测技术 中 1 4 。我们同样对每一帧都计算其信息熵,称为短时信息熵,计算方法如下: 步骤1 利用短时傅里叶变换( f f t ) 对每一帧的信号进行由时域向频域的转换: x ( c o ) - p 相 ( 2 1 5 ) 由于此处的傅立叶变换都是对某帧进行的,因此相当于对傅立叶变换加上 了一个窗口函数w ( n 一后) 。k 的取值取决于要对哪一帧进行短时傅立叶变换,具 体可以参考上文第2 3 节。 步骤2 计算每一频率的出现概率: b = 盟 ( 2 1 6 ) s ( 五) 二一一、- ,鼻, k = l 其中s ( ,) 表述了频率厂的频谱能量,p ,表示了相应频率的出现概率,m 表 示了傅里叶变换计算得出的频率的总数,即窗口宽度,此处仍然取4 8 0 。 我们规定如下的约束条件: s ( z ) = 0i fz 2 5 0 h zo r 彳3 7 5 0 h z ( 2 1 7 ) a = 0 i fa 0 9 ( 2 1 8 ) 公式( 2 1 7 ) 用来保证语音信号的频率范围。因为人的发音频率基本集中在 2 5 0 h z 到3 7 5 0 h z 之间,所以我们把频率限定在这个范围之内。公式( 2 1 8 ) 用来 滤除在某些频率上持续发生的噪声。 步骤3 计算语音信息熵: j 】l , 骂= p _ ,l o g p , ( 2 1 9 ) _ ,= l 其中m 表示了傅里叶变换计算得出的频率的总数,即窗口宽度,此处仍然取 4 8 0 。h 即为第i 帧的短时信息熵。 试验证明,语音信号的信息熵和非语音信号的信息熵之间存在很大的差别, 由此可以用来寻找语音端点的位置。在很多情况下,尤其是当背景噪声主要是机 械噪声时,使用信息熵作为特征参数比单纯使用能量更加可靠。 但是,在连续不断的背景噪声或者音乐背景下,使用信息熵来进行语音端点 检测会非常不可靠。因为同语音一样,连续的背景噪声或者背景音乐也含有很多 信息。相对而言,在这种情况下使用能量作为特征参数反而会取得较好的效果, 因为语音与背景噪声的叠加总会大过单纯的背景噪声。 北京邮电大学硕士研究生论文 第三章自适应的语音端点检测算法的研究与设计 本论文提出了自适应的语音端点检测算法,本算法特点如下: 1 ) 选取了一个新的音频特征参数,能够对语音和非语音进行有效地区分; 2 ) 采用反馈机制来提取背景噪声,能够应对背景噪声的突发性改变,从而使 算法具有背景环境自适应的能力; 3 ) 采取了一种有效的方法来对长时间连续的语音信号进行端点检测。 由于本算法主要被应用于自动字幕生成系统中,因此本算法最终需要寻找出 语句的端点。本章将对上述音频特征参数和算法进行详细论述。 3 1 语音信号的平滑处理 3 1 1 平滑处理的意义 人的语音在字( 词) 之间具有一定的相关性,字( 词) 之间不会产生非常突兀的 变化。因此,我们可以对前文所述三个语音参数进行平滑处理。一方面,由于噪 声的影响,音频信号中可能出现突兀的毛刺现象,主要表现为在一系列平缓的音 频波形中突然出现剧烈震动的单个波( 正常情况为一系列的震动波) 。使用平滑处 理可以有效地去除一些由噪声引起的毛刺现象。另一方面,也对语音参数的有效 性做出一定的优化。语音信号是连续的,语音前后之间具有一定的相关性,将语 音信号分割成一系列间断帧的处理方式破坏了这种相关性,而平滑处理则可以在 一定程度上弥补由于分帧处理带来的影响。 平滑处理可在时域上进行,也可以在频域上进行。本论文对音频信号主要采 取时域平滑的处理方式。 3 1 2 平滑处理的方法 因为本论文中需要用到3 个音频特征参数:能量、过零率和信息熵都是直接 使用音频信号的取样值求得的,因此在进行平滑处理时也要对3 个特征参数分别 进行平滑。 对于某一帧r 进行平滑处理,设它的某个音频特征参数是石。采用5 帧平 滑的方式,找到它左右相邻的4 帧r 一2 、r i 、r + t 、r + 2 ,并找出它们相应 的音频特征参数石一2 、石一l 、兄+ l 、兄+ 2 。则平滑后得到的音频特征参数 2 l 北京邮电大学硕士研究生论文 石一s m o o t h e d 为: 尼一,删耐= 生堡堕丝娑兰些 ( 3 1 ) o 整个平滑处理的过程如图3 1 所示。在进行语音端点检测之前,我们需要对音频 信号中的每一帧都按照上述方法进行平滑处理。 图3 1 平滑处理过程图 对于音频信号中的开始两帧以及最后两帧,无法进行5 帧平滑。在音频文件 中,一般在开始的两帧和最后的两帧中很少有语音出现,因此对这些边界帧进行 异常处理并不会对语音端点检测的准确度产生大的影响。从而可以相应的采取4 帧或3 帧进行平滑处理。 对第一帧,我们可以同时使用第1 、2 、3 帧来进行3 帧平滑;而对于第二帧, 我们可以使用第1 、2 、3 和4 帧来进行4 帧平滑。类似的,对于最后两帧,我们 可以使用相同的方法进行3 帧或4 帧平滑处理。 图3 2 显示了一段新闻的短时能频值波形片断,可以看出在平滑处理后,毛 刺现象明显减少,但是波形的大体轮廓保持不变。其中a 图为未平滑的波形,b 图为平滑后的波形。 3 2 短时能频值 在第二章所述的三个基本语音参数的基础上,本论文提出了一个结合时域和 频域的语音特征,并能够实时对背景噪声做出反馈的新音频特征参数,称作短时 能频值,记做e z e f 北京邮电大学硕士研究生论文 8 ;二08 4 0 a ) 平滑前波形 :鐾z 鍪2 鳃2 翟i 艘船,2 霜。, b ) 平滑后波形 图3 2 平滑处理效果对比图 3 2 1 短时能频值的定义 第i 帧的短时能频值e z e f i 的定义如下: e z e f i = ( e l 一乜) ( z f z 6 ) ( 忍一h b )( 3 2 ) 其中,e z e f l 表示第i 帧的短时能频值;b 、z :f 和肠分别表示第i 帧的短时 能量、短时过零率和短时信息熵;而昂、z 6 和胁则分别表示了当前背景噪声的 短时能量,短时过零率和短时信息熵。典型的短时能频值波形如图3 3 所示,截 取自一段新闻的短时能频值波形。 短时能频值同时结合了时域和频域的语音特征。短时能量和短时过零率属于 时域的音频特征参数,短时信息熵则属于频域的音频特征参数。将时域和频域的 j剑一 北京邮电大学硕士研究生论文 音频特征参数结合在一起,能够发挥他们各自的长处,同时又可以在一定程度上 规避他们各自的缺点,从而能够有效的应对各种不同类型的背景噪声。 x1d 。 图3 3 短时能频值波形图 加入历、历和胁三个参数主要是让短时能频值能够在一定程度上对背景噪 声的变化做出反馈。语音端点检测所针对的一般是一段比较长的语音段,在此期 间背景噪声随时有可能发生各种变化。当算法检测到背景噪声的变化时,就会相 应地更新历、压和胁三个参数的值,然后重新计算那些受此噪声影响的帧的短 时能频值,从而使短时能频值能够对背景噪声的变化做出反应。 3 2 2 短时能频值的提取过程 在语音端点检测过程中,我们需要求得每一帧的短时能频值。求第i 帧的短 时能频值,就要用到第i 帧的短时能量、短时过零率和短时信息熵。其计算过程 如图3 4 所示。 步骤1 首先对音频信号序列进行分帧处理,得到一个音频帧序列。本论文将 l o m s 规定为一帧。例如,如果音频文件的采样率是4 8 k s ,那么每帧就应该包含 4 8 0 个采样。 步骤2 从步骤l 中得到的帧序列里的第一帧开始直到最后,计算每一帧的三 个音频特征参数,然后

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论