




已阅读5页,还剩90页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
语音信号端点检测算法的研究毕业论文目 录摘要IAbstractII第1章 绪论11.1语音端点检测研究背景11.2语音端点检测研究意义21.3语音端点检测研究动态41.4本文组织结构5第2章 语音信号处理基础72.1 语音信号的数学模型72.2语音端点检测预处理82.2.1预滤波82.2.2预加重82.2.3分帧82.2.4加窗92.3语音信号的时域分析102.3.1短时能量和短时幅度102.3.2短时过零率102.4语音信号的频域分析112.4.1滤波器组法112.4.2傅里叶变换法112.5语音端点检测主要步骤132.6影响语音端点检测的原因及噪声分类132.6.1影响语音端点检测的原因132.6.2噪声分类142.7本章小结16第3章 语音端点检测的相关算法173.1基于短时能量的端点检测173.2基于时频方差和的检测方法213.3基于多特征的端点检测方法253.3.1基于短时过零率和短时能量的端点检测方法253.3.2基于谱减法的端点检测方法283.4 本章小结32第4章 基于距离熵的语音端点检测算法334.1熵的基本介绍334.2基于谱熵的端点检测方法334.3基于距离熵的语音端点检测方法344.3.1距离熵344.3.2算法构架364.4实验结果394.5本章小结42结论43参考文献44致谢48附录1 开题报告附录2 文献综述附录3 中期报告附录4 英文文献附录5 英文翻译第1章 绪论第1章 绪论1.1语音端点检测研究背景语言是人类特有的功能,声音是人类常用的工具,通过声音传递信息是人类最重要、最有效、最准确、最方便的信息交换的方式。随着现代科学的蓬勃发展,人类社会越来越显示出信息社会的特点,犹如衣、食、住、行对于人类是必要的一样,通信和信息交换也成为了人类社会存在的必要条件,不但在人与人之间,而且在人与机器之间每时每刻都需要进行大量的信息交换,让计算机听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法,计算机越来越向便携化方向发展,计算环境的日趋复杂化,人们越来越迫切要求摆脱键盘的束缚。在电子计算机和人工智能机器的广泛应用中,人们发现,人和机器之间最好的通讯方式是直接进行语言通讯,实现人机自由对话,赋予机器以听觉,辨别话音的内容或者辨别说话人的身份,使机器能够按照人的意志进行各种操作,把人类从繁重或危险的劳动中解脱出来。用现代手段研究语音处理技术,使人们能更加有效地产生。语音技术的应用己经成为一个具有竞争性的高新技术产业,它正在直接与办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理,工业生产部门的语声控制,电话、电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活支援系统等各种实际应用领域相接轨,并且有望成为下一代操作系统和应用程序的用户界面1。语音处理内容涉及到计算机科学,模式识别,信号处理,生理学,语音学,心理学等学科,还涉及到信号和信息处理系统,通信和电子系统等具体应用领域,多媒体技术的发展,使语音技术逐渐在越来越多的场合中推广使用,语音信号处理技术发展迅速,其研究成果具有重要的学术及应用价值,涉及一系列前沿课题,语音信号处理与信息科学中最活跃的前沿科学密切联系,并且共同发展。例如,神经网络理论、模糊集理论、小波理论是当前热门的研究领域,这些领域的研究常常把语音处理任务作为一个应用实例,而语音处理研究者也从这些领域的研究进展中找到突破口,使语音处理技术研究取得进展。从技术角度讲,语音信号处理是信息高速公路、多媒体技术、办公自动化现代通信及智能系统等新兴领域应用的核心技术之一。经过几十年的努力,语音信号处理在语音识别、语音增强、语音编码、说话人识别、说话人情感识别、语音合成等方面取得了巨大的进步,然而,一旦这些技术应用在实际环境中,由于环境噪声、信道、说话人自身因素等方面的影响, 性能急剧下降,因为在实际环境中没有完全纯净的语音信号,一般都会伴有噪声或其它干扰2。例如,办公室环境下,电脑风扇转动的声音,键盘敲打的声音等都是噪声,而语音信号处理系统的处理对象是有效语音信号,即排除了纯噪声段的语音信号段,语音端点检测的任务就是判断待处理信号是语音还是非语音,从输入信号中找到语音部分的起止点,端点检测是语音识别,语音增强以及语音编码等中的一个重要环节3。 1.2语音端点检测研究意义语音端点检测最早的应用是在贝尔实验室开发的电话传输和转换系统中,用于通信信道的时间分配,通过语音端点检测实现在空闲的信道插入其它的话音信息,之后,各种各样的语音端点检测算法在自动语音识别,说话人确认,回声消除,语音编码和其他方面的应用中被提出来4。语音端点检测作为语音信号处理系统的前端操作,在语音信号处理领域中有着重要的意义。从背景噪声中检测出语音信号是语音识别系统中必要的预处理过程,如图1-1,有效的端点检测技术不仅能减少系统的处理时间,提高系统的处理实时性,而且能排除无声段的噪声干扰,从而使后续的识别性能得以较大提高,实验统计数字表明,端点的偏离对语音识别最终准确性影响明显:30ms内的偏移对应精确度下降2%,当超过90ms时,影响达到30%5。图1-1 语音识别系统图在语音增强中,语音端点检测主要应用于基于单声道的语音增强技术中,此时,噪声源是不可接近的,背景噪声的特性只能从带噪语音中获得,使用有音无音检测技术分离出无音段,这时无音段主要的表现为噪声特性,然后再通过某种统计方法,即可获得对背景噪声特性的近似估计6。对于语音编解码技术,降低比特率是其不断发展的目标和动力,因为比特率的降低不仅可以提高已经很拥挤的信道的利用率,而且能使同样的存储芯片存储更多的信息,减少手持设备的平均能量消耗,延长电池寿命。在人们通常的对话过程中,听起来连续的语音信号其实是由一系列的无音片断和有音片断组合起来的。在背景噪声存在的情况下,无音片断中主要以噪声为主,所携带的有用信息相对于有音片断要小得多,所以,如果能将无音片断检测出来,则可以使用相对较少的比特数来表示,而不会改变解码端的语音质量,从而降低语音编码的平均编码比特率。在现代通信技术中,凡是涉及到语音通信的,都需要应用到语音端点检测这一技术,并且这一技术的重要性不仅体现在日常语音通信中,更体现在科研和国防建设上。在科研领域,如3G手机等通讯产品的研发上,这一技术是不容回避的问题,要求在不影响接收语音信号质量的前提下,尽可能地降低静音段的数据传输率,此时精确的端点检测就非常必要。另外,有关国家安全保密工作,常需对某些通信线路进行监控,在对众多的线路进行监控时,为了节约人力物力并且不遗漏可疑信息,语音端点检测起到了至关重要的作用。由此可见,语音端点检测技术已经成为语音信号处理领域的重要课题之一,具有重要的理论研究价值和广阔的应用前景7。由上面的分析可知,在有噪声的背景下,语音端点的检测非常重要,准确的端点检测可以提高识别的准确率,并且提高系统的处理速度,用于语音增强中,可以进行准确的噪声模型估计,在语音编码中,可以降低编码的平均比特率并降低功耗。目前,语音端点检测在高信噪比环境下已经取得了较为满意的检测结果,能得出较高的准确率,但在低信噪比环境下检测的结果不够理想,并且实际环境中的检测性能急剧下降,实验室的研究结果与复杂的实用环境下的语音端点检测仍存在一定的差距,如何准确地检测出带噪语音的端点至今仍是一个难题8。1.3语音端点检测研究动态对语音端点检测的研究最早可以追溯到上个世纪的50年代。当时是在一个实时语音翻译系统中,为了解决语音段和无语音段的检测问题而提出来的"在语音识别和说话人识别中,背景噪声使得端点检测变得复杂,同时,长距离电话传输信道中还存在人顺嘴,呼吸等类似的噪声。最近几年,无线电话!免提式电话、IP电话越来越流行,这些通信设备大多工作于信噪比较低的环境中。传统的语音端点检测算法都是针对实验室安静环境,直到近年来,噪声环境下的语音端点检测才开始研究9。语音端点的检测方法主要分为基于模型和基于特征两大类。基于模型的检测方法要分别对语音和噪声进行建模,根据检测到的某些特征分别计算出在噪声模型和语音模型两种条件下的概率,然后根据这两个模型下概率的大小做出有声和无声判决,这种方法的操作过程类似于语音识别中进行模式匹配。例如,假设待检测的语音帧为有用语音或者为噪声的概率均为50%,如果在噪声模型下计算出的概率为80%,而在语音模型下计算出的概率为20%,由于噪声模型下计算出的概率大于语音模型下计算得出的概率,则可得出,所检测的语音帧为噪声,反之,如果在噪声模型下计算出的概率为20%,而在语音模型下计算出的概率为80%,则可得出该帧为有用语音帧。使用隐马尔可夫模型进行语音端点检测就是基于模型的检测方法。基于模型的语音端点检测方法过程比较复杂,而且实际环境多变,噪声多种多样,建立的语音和噪声模型可能跟实际环境不匹配,对环境的适应能力较差,检测准确率低。由于基于模型的检测方法的复杂性和不稳定性,研究者们一般倾向于使用第二类方法,基于特征的端点检测方法主要是通过寻找能够区分语音和噪声的特征参数来进行判断。例如,Rabiner等人在1977年提出了一种基于LPC欧氏距离测度的端点检测方法。该算法是Rabiner等人10在解决信号输出的语音很难用一般的算法来区分无语音、静默音和语音而提出来的"其主要思路是:先对这三种语音各自进行训练,得到各自的频域特性,然后利用LPC的测度和能量的非线性组合来对这三种语音进行检测。LuLie等人11提出一种基于时域特征参数端点检测方法一一用短时能量变化率来进行端点检测。这种算法采用的不是短时能量而是短时能量的变化率,在信噪比较高的情况下,在噪声和语音的区分点区域,由于信号帧的变化较剧烈,该方法选取的参数是一个小于1的正数,而在噪声区间或者语音区间由于信号不同,帧间的能量较平稳,变化不大,参数为0值。此方法的优点是具有一定的鲁棒性,但仍然存在信噪比低时的失效问题。近年来,通讯技术特别是移动通讯技术的飞速发展,对语音信号端点检测方法研究提供了十分现实的动力。为了提高实时通信中语音端点检测系统的性能,文献12提出了子带统计滤波器的方法,通过子带统计滤波器在频域分别对噪声和语音进行估计,再利用信噪比特征,根据设定的门限值进行语音和非语音的区分。文献13对所有子带的SNR进行融合,形成SAF(sum of activation function)函数,此算法充分利用频域特征,并减少对噪声的频域能量分布的依赖,当噪声是非固定的时候,该方法也能可靠的执行。文献14中使用UMP(uniformly most powerful)根据LRT(likelihood ratio test)得出新的决策规则,再利用高斯分布和UMP对带噪语音检测语音段和非语音段15。随着小波分析在信号处理领域的广泛应用,也有不少基于小波分析的语音端点检测算法被提出,例如,选择小波部分子带跟踪信号的能量变化以实现端点检测16,小波变换模极大值应用于信号突变点的检测等。语音信号处理是发展最为迅速的信息科学技术之一,人机通过语音交互越来越重要,而端点检测作为语音处理的前端操作起着无可替代的作用。越来越多的学者对语音端点检测技术进行研究,相继提出许多新的语音端点检测算法。目前的端点检测算法大多只针对语音的某一个特征进行检测17,大量的文献调研与实际研究发现,现有的各种语音信号端点检测技术都存在各自的不足,在低信噪比下检测结果不是很令人满意,有待进一步深入研究。1.4本文组织结构本课题主要研究噪声环境下有用语音起点和终点的检测,以提高噪声环境下语音端点检测的准确率为主要目的,借助已有的短时过零率和短时能量以及谱熵技术等,并以此为基础,组合出鲁棒性比较强的特征向量,从而提高噪声环境下端点检测的性能,使其能够很好的应用在实际环境中。本文分别对基于熵的检测方法和基于灰色模型的检测方法进行改进,通过研究和实验提出了基于距离熵的端点检测方法和基于支持向量机的多特征端点检测方法。论文组织结构如下所示。第1章为绪论,主要介绍了语音端点检测的研究背景、研究意义和研究动态。第2章介绍了语音信号处理的一些基础知识,包括语音信号的特点及语音产生的数学模型,语音端点检测技术中的一些重要的预处理和语音在时域和频域表现出来的几个主要特征,简单介绍了影响语音端点检测的主要因素。第3章介绍了已有的几种语音端点检测算法。包括短时能量及过零率,频带方差检测法等,并分析了这几种算法的优缺点。第4章介绍基于距离熵的语音端点检测方法,此方法对带噪语音信号进行一系列变换,得到倒谱系数,再根据倒谱系数计算欧式距离,最后利用欧式距离建立熵。最后对本文工作进行总结,并展望了需要进一步研究的内容。 47第2章 语音信号处理基础第2章 语音信号处理基础2.1 语音信号的数学模型与发出声音有关的各个器官叫做发音器官,人的发音器官包括:肺、气管、喉、咽、鼻和口,这些器官共同形成一条形状复杂的管道。声音是从肺部呼出的直气流通过在喉至嘴唇的器官的各种作用而发出的。作用的方式有三种,第一种把从肺部呼出的直气流变成音源,即变成交流的断续流或者乱流;使它带有音色;第三种是从嘴唇或鼻孔向空间辐射的作用。语音生成系统分成三个部分,喉的部分称为声门,在声门(声带)以下,称为声门子系统,它负责产生激励振动,是激励系统。从声门到嘴唇的呼气通道是声道,是声道系统,声道的形状主要由嘴唇!颖和舌头的位置来决定,在说话的时候,声门处气流冲击声带产生振动,然后通过声道响应变成声音,由于发不同音时,声道的形状不同,所以能够听到不同的语音"语音从嘴唇辐射出去,所以嘴唇以外是辐射系统。通常对声道形状和发音系统作某些假设,例如假设声道是时变的具有不均匀截面积的声管。激励的情况不同发不同性质的音,激励大致分为两大类:浊音激励和清音激励。发浊音时声道受到声带振动的激励引起共振,产生间歇的类斜三角形脉冲,发清音时声道被阻碍形成湍流,可以把清音激励模拟成随机噪声17完整的语音信号的数学模型可以用三个子模型:激励模型、声道模型、辐射模型的串联来表示,如图(2-1)所示: (2-1)图2-1 语音识别系统图2.2语音端点检测预处理2.2.1预滤波预滤波可以达到两个目标,第一,可以抑制输入信号各频域分量中频率超过FS/2的所有分量(FS为采样频率),以防止混叠干扰;第二,预滤波可抑制50Hz电源工频的干扰"预滤波器是一个带通滤波器,有上下截止频率FH和FL,对于绝大多数语音编译码FH为3.4KHz,FL为60100Hz,采样率为FS为8KHz。2.2.2预加重由于语音信号的平均功率受声门激励和口鼻辐射的影响,高频端大约在80Hz以上按6dB倍频程跌落,所以当求语音信号频谱时,频率越高相应的成分越小,高频部分的频谱比低频部分难求,因此要对语音信号进行预加重(Pre-emphasis)处理。预加重的中心思想是利用信号特性和噪声特性的差别来有效地对信号进行处理,目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。预加重是通过具有6dB/倍频程的提升高频特性的数字滤波器来实现,它一般是一阶数字滤波器。 (2-2)值接近1,如果要恢复原信号,只要对预加重处理过的信号做去重处理便可以还原。2.2.3分帧语音信号从整体来看其特性及表征其本质特征的参数均是随时间变化的,但是它又具有短时平稳特性,在短时间内(一般为10ms30ms内)可以看作是一个近似不变的平稳过程。目前绝大多数的语音信号处理技术均是在短时的基础上对语音信号进行分帧处理,然后分别对每一帧提取特征参数段。为了使帧与帧之间平滑,保持连续性,一般采用交叠分帧的方法,使前一帧和后一帧具有相交部分,相交部分称为帧移,如图2-2,分帧时要对帧长和帧移的长度进行选择,如果采用较大的帧长,则帧数太少,计算量会小,系统处理的速度快,但容易增加端点检测的误差;如果采用较小的帧长,则帧数较多,计算量增加,系统处理的速度慢。一般每秒的帧数约为33100帧,帧移一般取帧长的1/32/3。图2-2 帧长和帧移示意图2.2.4加窗对语音信号进行分帧后要进行加窗操作,这是为了避免截断效应。因为直接分帧相当于对语音信号加了一个矩形窗,由于时域相乘对应频域卷积,而矩形窗的旁瓣较大,会因为在时域将信号截断而在频域引起频谱泄漏,即由于频域卷积而使能量泄漏到其它频率处,并且分帧的长度越短这种效应越明显。要克服这个问题,则要在分帧后对语音信号进行加窗。加窗前确定窗长N,用一定的窗函数w(n)乘以信号s(n)从而形成加窗语音信号sw(n)。在语音信号处理中最常用的两种窗函数是矩形窗和汉明窗,它们的表达式分别为:(l)矩形窗 (2-3)(2)汉明窗 (2-4)N表示窗长,窗函数的选择对于短时分析参数的特性影响很大。不同的短时分析方法以及求取不同的语音特征参数对窗函数的要求不同,可以根据实际需要选择合适的窗函数和窗长度。一般来说选取窗函数的标准是:在时域因为是语音波形乘以窗函数,所以要减小时域窗两端的坡度,使窗口边缘两端不引起急剧变化而平滑过渡到零,这样可以使截取的语音波形缓慢降为零,减小语音帧的截断效应;在频域要有较宽的带宽以及较小的边带最大值。汉明窗的主瓣宽度比矩形窗大一倍,带外衰减也比矩形窗大一倍多,矩形窗的谱平滑性能较好,但损失了高频成分,使波形细节丢失。当采样周期一定时,频率分辨率随着窗长的增加而减少,即频率分辨率得到提高,但时间分辨率降低,如果窗口过短,频率分辨率降低,时间分辨率提高。对于时域来说,如果N很大,则相当于很窄的低通滤波器,语音通过时,反应波形细节的高频部分被阻碍,短时能量随时间变化很小,不能真实反应语音幅度变化;如果N很小,滤波器的通带变宽,短时能量随时间急剧变化,不能得到平滑的能量函数,因此要合理的选择窗口长度,N一般选择为100300。2.3语音信号的时域分析语音信号分析主要从时域和频域两方面进行,语音信号的时域分析就是分析和提取语音信号的时域参数。时域分析是最早使用,也是应用最广泛的一种分析方法,因为,进行语音分析时,时域波形最先接触而且也最直观,表示语音信号物理意义明确,运算量少,容易实现, 语音信号的时域参数有短时能量,短时幅度,短时过零率,短时自相关函数,短时平均幅度差函数等,下面分别对这些时域参数进行简单介绍。2.3.1短时能量和短时幅度对语音信号进行分帧!加窗处理后,则可得到第帧语音信号为: (2-5)为帧长,则第n帧语音信号的短时能量En为: (2-6)短时能量和短时幅度的主要用途有:(l)可以有效区分浊音段和清音段,因为浊音的En比清音大的多。(2)可以区分声母和韵母的分界,有声和无声的分界,连字的分界。(3)作为一种超音段信息,用于语音识别中。2.3.2短时过零率短时过零率是指一帧语音中语音信号波形穿过零电平的次数。对于连续语音信号,过率零即时域波形通过时间轴的次数,对于离散信号,如果相邻的取样值改变符号则过零率增加1。语音信号第n帧的短时过零率的计算公式为: (2-7)Sgn是符号函数,计算方法见式(2-8)。 (2-8)2.4语音信号的频域分析语音信号从时域变换成频域,常用的频域分析方法有带通滤波器组法,傅里叶变换法。2.4.1滤波器组法滤波器分析语音信号的频谱具有一些优点,使用简单,实时性好,受外界环境的影响小。滤波器组法所用的滤波器组可以用宽带带通滤波器,也可以用窄带带通滤波器,宽带带通滤波器具有平坦特性,可以粗略地求取语音的频谱,其频率分辨率降低,使用窄带带通滤波器,频率分辨率提高。图2-3为带通滤波器组法频谱分析原理图,语音信号输入带通滤波器,滤波器输出为具有一定频带的中心频率为的信号。图2-3 滤波器示意图2.4.2傅里叶变换法傅里叶频谱变换是语音信号频域分析中广泛使用的方法,对分帧加窗后的语音信号,进行傅里叶变换和逆傅里叶变换,可以相应的得到频谱,功率谱,倒谱距离,熵等特征。由于语音信号的特性是随着时间缓慢变化,所以采用短时傅里叶变换,相应的求得特征为短时频域特征,这里的窗函数都使用汉明窗。1. 短时频谱和短时功率谱设信号经过傅里叶变换后在频域记为则与的关系见公式(2-9)。 (2-9)语音的频谱为的幅度,则有 (2-10)语音的短时功率谱的是幅度的平方,所以短时功率谱的计算方法为 (2-11)2.倒谱距离语音信号的倒谱分析是通过同态处理来实现的。同态信号处理也称为同态滤波,就是将非线性问题转化为线性问题的处理方法。由于语音信号可视为声门激励信号和声道冲击响应的卷积,可以对语音信号进行解卷。倒谱能很好表示语音的特征,在强噪声环境下,可通过倒谱系数求得倒谱距离,使用倒谱距离来作为端点检测的特征。信号的倒谱也可以定义为信号的能量谱密度函数的对数的傅里叶级数展开式的系数,见式(2-12)。 (2-12)即为倒谱系数,通过倒谱系数求得倒谱距离为 (2-13)3.熵熵(用H表示)是物质的复杂程度的一种反映。熵H代表x的信息量,当x的分布概率相等时,熵取最大值,也就是说,的概率分布越模糊,越难判断,H值也越大。设X是取有限个值的随机变量,则X取的概率函数表示为 (2-14)则X的熵为 (2-15)2.5语音端点检测主要步骤基于特征的语音端点检测其操作主要包括以下几个部分:预处理,特征提取,确定门限,端点检测。(l)预处理:包括滤波,预加重,分帧,加窗等,这里要考虑滤波器参数的选择,分帧时帧长长度的选择,加窗窗函数的选择。(2)特征提取:在时域或者频域提取能反映语音本质特征的声学参数,如短时能量,短时过零率等。特征提取目的是将输入信号转化为特征参数,然后利特征参数进行语音段与无声段的区分。特征提取是语音端点检测的关键问题,特征参数选择的好坏直接影响到语音端点检测的准确率的高低。(3)确定门限:语音段最开始的几帧一般为无声段,根据无声段的特征值大小确定门限值,一般选择较大和较小两个门限值Tmin和Tmax,且Tmin<Tmax,Tmin很容易被超过,数值较小,对信号变化很敏感,Tmax数值较大,语音信号要一定的强度才能超过。(4)端点检测:确定门限后就可以进行端点检测,根据门限值来区分有语音段和噪声段,得出检测结果。2.6 影响语音端点检测的原因及噪声分类2.6.1 影响语音端点检测的原因实际环境中,影响语音端点检测性能的因素主要有:(1)噪声的影响实际环境中噪声无处不在,甚至在安静的实验室中,敲打键盘声!咳嗽都是噪声,环境中的噪声是复杂多变的,噪声是非平稳的随机过程,其能量无法精确估计。(2)信道影响如果输入信号中有50Hz工频干扰或变换点的工作点偏移时,选用某些短时特征进行噪声和清音的区分就显得不可靠。信号取样时,由于电平的变化,难于设置对各次实验都适用的门限值。取样数据中,有时存在突发性干扰,使短时参数变得很大,持续很短时间后又恢复,应该记入噪声段而非语音段。(3)人的动作的影响发音时,人的顺嘴声或其他某些杂音会使语音波形产生一个很小的尖锋,并可能超过所设计的门限值,此时人呼吸的气流也会产生较高电平。(4)语音本身的结构说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节,一个音节可以由一个音素组成,也可以由多个音素组成。任何语言都有元音和辅音两种音素,元音是当声带振动时发出的声音,而后者是呼出的声流,由于通路的某一部分封闭起来,气流被阻,不能畅通。根据发音时声带是否振动,语音分为清音和浊音,发浊音时声带振动,发清音时声带不振动,清音的波形类似噪声,很难区别清音和噪声。起点处是弱摩擦音时或终点处是鼻音时,语音的特性与噪声极其相似,其中鼻韵还拖得很长。2.6.2 噪声分类噪声是指不期望接收到的信号(相对于期望接收到的信号而言)。噪声有加性噪声和乘性噪声19加性噪声一般指热噪声、散弹噪声等,它们与信号的关系是相加,不管有没有信号,噪声都存在,而乘性噪声一般由信道不理想引起,它与信号的关系是相乘,信号在它在,信号不在它也就不在。一般通信中把加性噪声看成是系统的背景噪声,而乘性噪声看成系统的时变性(如衰落或者多普勒)或者非线性所造成的.加性噪声虽然独立于有用信号,但它却始终存在,干扰有用信号,因而不可避免地对通信造成危害。乘性噪声可以通过解卷积处理转化为加性噪声,所以一般只对加性噪声加以讨论。加性噪声的来源很多,它们表现的形式也多种多样。这些噪声可能源于背景,例如汽车噪声房间反射、街道讲话、背景谈话等,也可能由通信系统产生,如编码、传输等20目前自动语音识别技术在车载电话通信、免提式语音识别等方面的应用逐渐广泛,研究背景噪声下的鲁棒性语音端点检测算法尤为重要。根据噪声能量变化的特点,一般可以粗略地将它分为五类21。(1)稳定噪声:能量分布基本不随时间改变的噪声,例如,热噪声,机器稳定轰鸣等,稳定噪声的能量序列是各态历经的平稳高斯随机序列。(2)缓变噪声:能量分布随时间缓慢变化的噪声,例如逐渐增大的火车声,远处缓慢开来的汽车声等,缓变噪声在短时间内可近似为稳定噪声。(3)脉冲噪声:能量迅速升高并降低的噪声,例如敲击,撞击,开门等,脉冲噪声的能量只在短时间内非零。(4)波动噪声:能量持续升降变化但不短促的噪声,例如不断开过的汽车声,含糊的混杂语音等。(5)阶跃噪声:能量分布呈台阶式陡变的噪声,例如电信信道的突变,机器的开启或关闭等,在阶跃点后可归类为稳定、缓变或波动噪声。这几种噪声相互叠加,共同组成系统的输入噪声,下面简单介绍几种常见的噪声。1.白噪声所有频率具有相同能量的随机噪声称为白噪声,即功率谱密度在整个频域内均匀分布的噪声,是一种功率频谱密度为常数的随机信号或随机过程"从耳朵的频率响应听起来它是非常明亮的“丝”声(每高一个八度,频率就升高一倍,因此高频率区的能量也显著增强)。白噪声在各个频段上的功率是一样的,由于白光是由各种频率(颜色)的单色光混合而成,因而此信号的这种具有平坦功率谱的性质被称作是“白色的”。相对的,其他不具有这一性质的噪声信号被称为有色噪声。理想的白噪声具有无限带宽,因而其能量是无限大,这在现实世界是不可能存在的。实际上,常常将有限带宽的平整讯号视为白噪音,这样在数学分析上更加方便。一般,只要一个噪声过程所具有的频谱宽度远远大于它所作用系统的带宽,并且在该带宽中其频谱密度基本上可以作为常数来考虑,就可以把它作为白噪声来处理。例如,热噪声和散弹噪声在很宽的频率范围内具有均匀的功率谱密度,通常可以认为它们是白噪声。2.高斯噪声高斯噪声是指概率密度函数服从高斯分布的一类噪声。高斯分布,也称正态分布,记为,其中和为分布的参数,分别为高斯分布的期望和方差。特别当=0,=1时,X的分布为标准正态分布。3.高斯白噪声如果一个噪声,它的幅度分布服从高斯分布,而它的功率谱密度又是均匀分布的,则称它为高斯白噪声。其特点是通信信道上的信号分布在很宽的频带范围内。2.7本章小结本章首先介绍了语音信号产生的数学模型,并简单介绍了语音激励产生的过程,接下来详细的介绍了语音端点检测加窗分帧等一些预处理,以及时域和频域的一些基本特征,最后介绍了端点检测的主要步骤和影响检测效果的主要因素,为后面部分的研究提供了便利。第3章 语音端点检测的相关算法第3章 语音端点检测的相关算法3.1基于短时能量的端点检测传统语音端点检测研究者认为,语音和噪声的主要区别在它们的能量上,所以能量是经常使用的音频特征参数,是对语音信号最直观的表示22,23语音信号一般可分为无声段(静音段)、清音段和浊音段。由于语音是不稳定的,所以,我们采用“短时能量”所谓短时能量,就是先对语音信号进行分帧处理,然后对每一帧分别求其能量。短时能量是随机参数,在无声段,清音段和浊音段,它们分别具有不同的概率密度函数,图3-1给出了短时能量在清音、无声和浊音三种情况下的条件概率密度函数。图3-1 短时能量在清音无声和浊音三种情况下条件概率密度函数示意图从图3-1中可以看出,在三种情况中,浊音的短时能量最大,清音的短时能量次之,无声的短时能量最小。由于我们主要以加性噪声作代表进行研究,带噪语音的短时能量为干净语音的能量再加上噪声的能量,因此,语音段的能量大于噪声段的能量,可根据此特性来区别语音和噪声。语音信号第i帧的短时能量可以用下面三种方法得到。 (3-1) (3-2) (3-3)由第二章可知,公式(3-2)计算短时能量时是求信号的平方,这样得到的短时能量对高电频比较敏感,所以,在通常情况下,用公式(3-1)求短时能量,公式(3-1)求得的短时能量又叫短时幅度。短时能量的计算相对于提取语音信号其它特征而言,要简单快捷得多。首先,对语音信号进行预处理,然后计算每帧信号的能量,根据经验设定一个合适的门限,当信号的幅度超过该门限的时候,就认为语音开始,当幅度降低到该门限以下就认为语音结束。基于短时能量的语音端点检测方法只适用于非常纯净的语音信号,在信噪比很高时,噪声很小,背景噪声对应的短时能量较小,接近于零,语音的能量比背景噪声的能量大。只要根据短时能量,就可以很好的区分语音段和噪声段24,但在低信噪比的情况下,这种算法的效果就会显著失效。比如背景噪声比较嘈杂时或者有突发的噪声时,或者有开关门声、咳嗽声以及机器轰鸣声时,即使没有语音,背景噪声的短时能量仍然比较大。因为很难保证有足够高的信噪比,仅凭短时能量特征无法有效的区分语音和背景噪声。基于短时能量的端点检测在不同分贝噪声下的仿真图如图图3-1 纯净语音仿真图图3-2 15分贝火车噪声仿真图图3-3 10分贝火车噪声仿真图图3-4 5分贝火车噪声仿真图图3-5 0分贝火车噪声仿真图3.2基于时频方差和的检测方法基于时频方差和的端点检测方法25,其本质就是分别计算某一帧信号时域和频域能量的方差,然后对时域和频域能量方差进行求和,将时频方差和作为特征参数检测语音起点和终点。由于系统是时变的,所以实际计算的同样是短时时频方差和。1. 时域方差由于语音信号是不稳定的,首先对语音信号进行预加重、分帧、加窗等一些预处理。对于某帧语音信号,定义一个矢量,的表达式见式(3-4)。 (3-4)N为帧长,为消除突发脉冲噪声的影响,对N为帧长,为消除突发脉冲噪声的影响,对Xt(m)进行平滑,得到,平滑方法见式(3-5)。 (3-5)则平滑后的表示为 (3-6)则时域的均值为 (3-7)时域的方差为 (3-8)对方差进行取对数运算,得到。 (3-9)使用公式(3-10)进一步对进行平滑。 (3-10)2. 频域方差语音和噪声的频谱特性差异是很大的"在噪声的频谱中,各频带之间变化很平缓,这与“白噪声”的称谓相符,而语音则是“有色”的,各频带之间变化较激烈。根据这一特征,可以很明显地区分语音和噪声。对时域中的语音信号进行FFT变换,则得到频域信号,频域方差的计算方法与时域方差的计算方法一样,先定义一个矢量 (3-11)对平滑后得到 (3-12)频域的均值为 (3-13)频域的方差为 (3-14)对取对数后得到 (3-15)进一步平滑得到 (3-16)通过分别对时域和频域求得方差后,再把时域方差和频域方差进行相加,则可求得时频方差和特征。时频方差和特征相当于交流能量,它包含了两个信息,各频带间的起伏程度和这一帧信号的短时能量。能量越大起伏越激烈,值就越大,反之,对于噪声,能量越小,起伏越平缓,值越小。因此,可以利用短时频带方差来判断语音的起止点。基于短时能量的端点检测在不同分贝噪声下的仿真图如图。图3-6 纯净语音仿真图图3-7 15分贝火车噪声仿真图图3-8 10分贝火车噪声仿真图图3-9 5分贝火车噪声仿真图图3-10 0分贝火车噪声仿真图3.3基于多特征的端点检测方法有些端点检测算法在安静环境下,可以达到较好的检测效果,但是,一旦处于强噪声环境下,性能下降速度很快,特别是处于多种噪声的情况下。产生这种现像的原因之一是这些算法只利用了语音的某一个特征,并没有充分利用它的相关信息,有些语音特征只能在个别噪声环境下具有较好的鲁棒性。解决这一问题有两种方法,一种是寻找更具普遍性的可以区分语音和噪声的特征,另一种是把多个特征结合起来,利用多个特征参量共同检测出语音的起止点26。使用多种特征进行端点检测,能在不同信噪比下检测效果更好27。3.3.1基于短时过零率和短时能量的端点检测方法在信噪比较低或者在一些特殊情况下,例如当语音段的开始和结束都是弱摩擦音时,例如“四”字的开始段的能量就比较小,以鼻音结尾的语音,其末端的短时能量也比较小,它们都容易与噪声混淆。研究表时,在以某些音为开始或结尾时,如当弱摩擦音(如fh等音素),弱爆破音(如p、t、k等音素)为语音的开头,以鼻音(如ng、n、m为语音的结尾时,在这些情况下,仅靠短时能量来检测语音段的起止点往往会漏掉某些音素。短时能量特征需要和其它特征相结合使用。比较常见的,短时能量与短时过零率结合起来一起进行端点检测28。短时过零率是语音信号时域分析中较简单的一种特征,它指每帧信号内通过零值的次数。对于连续语音信号,过零意味着时域波形通过时间轴,而对于离散信号,如果相邻两点符号改变一次则为过零29。图3-11 短时过零示意图和短时能量一样,短时过零率也是随机参数,对应于无声段!清音段以及浊音段,它们分别具有的短时过零率概率函数如图3-12。图3-12 短时过零在清音无声和浊音三种情况下条件概率密度函数示意图对于短时过零率,由于清音的多数能量出现在较高的频率上,因此清音的过零率较高,而浊音语音具有高频跌落的频谱,所以浊音的过零率低,噪声的过零率大小处于清音和浊音之间。短时过零率可以区别语音是清音还是浊音30;31,它还可以从背景噪声中找出语音信号。基于短时能量和短时过零率的端点检测方法充分利用过零率和能量特点,使用过零率检测清音,用短时能量检测浊音,两者配合,而且采用双门限判定法来-检测语音端点。这种方法在高信噪比时,能十分有效的检测出语音信号的端点,但是随着信噪比的下降,检测的准确率下降,特别是在噪声很大时,完全不能检测出语音端点。基于短时过零率和短时能量的端点检测在不同分贝噪声下的仿真图如图。图3-13 “长度”语音的仿真图图3-14 “图像”语音的仿真图3.3.2基于谱减法的端点检测方法在高噪声环境下由于噪声太大,语音检测的准确率往往很低,为了改善检测结果的准确率,在进行端点检测之前先进行一定的去噪处理文献32提出了一种降噪和端点检测同步的方法,先利用谱减法进行降噪。谱减法是语音增强中最常用的一种方法,由于该算法的计算复杂度低,实时性强,一直受到了语音增强研究者的广泛重视。谱减法假定加性噪声和短时平稳的语音信号相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从而得到较为纯净的语音频谱。语音信号虽然是非平稳随机过程,但在1030ms的分析帧内可以近似看成是平稳的"如果能从带噪语音的短时谱中估计出“纯净”语音的短时谱,则可达到增强的目的。由于人耳对语音信号相位的感受不敏感,所以只需估计出干净语音的幅度,然后借用带噪语音的相位近似代替干净语音的相位,再进行傅里叶反变换就可得到增强的语音33。图3-15语音短时谱估计原理图图3-15中是的傅里叶系数,是傅里叶系数的估计值。一般情况下前十帧信号为无语音段,用最开始的十帧信号的噪声来估计整个语音段的噪声。以加性噪声为代表进行分析,则干净语音、噪声、带噪语音三者之间的加性模型满足。 (3-17)其中带噪语音信号, 为纯净语音,表示噪声.对式(3.17)进行傅立叶变换则相应的得到则有: (3-18) (3-19)、表示对应的带噪语音、干静语音和噪声的功率谱,表示和的复共扼。按照开始的假设,干静语音和噪声是不相关的,所以,和两者的乘积为零,则式(3-19)可以简化为 (3-20)由于平稳噪声的功率谱在发声前和发声期基本没有变化,可以通过发音前的语音帧来估计噪声的功率谱,于是,可以从带噪语音的功率谱中估计出干净语音的功率谱。 (3-21)为避免出现负功率,减谱时,如果小于,则令为零,即 (3-22)通常用最开始十帧信号的平均功率谱来近似代替,通过开方,则可以得到。 (3-23)对进行反傅里叶变换,就可以得到降噪后的语音信号。经去噪处理后的语音再结合其它特征进行端点检测。谱减法进行语音增强是较为传统的方法,它对于整个语音段采用减去相同噪声功率谱,.这样处理的增强效果不是很理想,因为语音的能量一般集中在某些频段,在这些频段内语音幅度较高,所以,使用谱减法进行增强后可能仍然会有较大的残余噪声,如果这些噪声没有消除掉的话就会产生纯音噪声。对于多特征端点检测还有使用短时能频积检测的方法,短时能频积是短时能量与相应的短时过零率的乘积,利用短时能频积进行检测结果比单独用短时能量或过零率的检测效果更好。使用多种特征进行语音端点检测成为这方面研究的一种趋势,文献34提出一种方法,综合采用了语音信号中的4个相互之间独立性强的特征:短时能量、倒谱距离、能量谱方差和能量熵特征,有效地改进传统的基于单一语音特征方法的缺陷。文献35提出了使用六种能量特征:全能量、听觉频率范围的能量、高频噪声、峰值、LPC误差能量和噪声滤波后的能量。文献36采用另一种应用语音的多个特征参量的语音端点检测算法,采用的语音特征参数是:短时能量、短时自相关和短时过零率,它针对汉语语音、非特定人、基于对噪声的学习,对白噪声、脉冲噪声、一般环境噪声都有很好的鲁棒性。基于谱减法端点检测在不同分贝噪声下的仿真图如图。图3-16 “长度”语音的仿真图图3-17 “图像”语音的仿真图3.4 本章小结本章详细介绍了几种语音端点检测算法,包括基于短时能量的端点检测算法、基于时频方差和的端点检测算法、基于多特征相结合的检测算法。短时能量的检测方法操作简单,运算量小,但抗噪性弱,在信噪比稍低的环境时基本失去区分能力,适合于实时性要求高信噪比较高的情况。基于时频方差和的检测算法结合时域和频域的方差两个特征,在频谱分布比较均匀的噪声环境下,如白噪声,性能较好,但在非平稳噪声环境下性能下降。基于多特征的检测方法结合多种特征,有效的增强了算法的鲁棒性,但同时也增强了算法的复杂度。第4章 基于距离熵的语音端点检测算法第4章 基于距离熵的语音端点检测算法4.1熵的基本介绍熵的概念,是由德国物理学家鲁道夫克劳修斯在1850年首次提出的,熵的英语名字为entropy,希腊语源意为“内向”,表示一个系统不受外部干扰时往内部最稳定状态发展的特性。先来看一个例子。设想有一组硬币共10个,每一个硬币有两个面,掷出10个硬币,每个硬币可能正面向上或者是反面向上,两个面是等价的,正面和反面朝上的概率都为1/2,掷硬币时得到最有规律的状态是10个都是正面或10个都是反面,这两种状态都只有一种构型排列。反之,如果是最混乱的情况,有5个正面5个反面,排列构型可以有252种。事件发生的不确定性与它发生的概率存在着密切的关系。对于小概率事件,它的不确定性大,而对于大概率事件,它的不确定性小。对于不确定性比较大的事件,其发生后提供的信息量也比较大,相反的,对于不确定性比较小的事件包含的信息量也就比较小。一个体系完全均匀分布时,这个系统的不确定性就达到最大值。熵用来表示任何一种能量在空间中分布的均匀程度,是一个系统混乱程度的度量。熵是一个重要的物理概念,随着科学交叉与综合化的发展,它又远远超出了物理学范围,在自然科学和社会科学众多领域里得到了广泛应用,并成为一些新学科的理论基础。熵在控制论、概率论、数论、天体物理、生命科学等领域都有重要应用,是十分重要的参量37,在不同的学科中也引申出的更为具体的定义。1948年,香农(C.E.shannon)把关于熵的概念引入信息论中,把熵作为一个随机事件的不确定性的量度。香农指出,一个随机事件准确信息量应该等于,其中为随机变量发生的概率。熵是信息论中用于度量信息量的一个概念,一个系统越是有序,熵就越低,反之,一个系统越是混乱,熵就越高38。4.2基于谱熵的端点检测方法对带噪语音信号,经过分帧,加窗,傅里叶变换等操作后,便可得到其频率分量气的能量谱,每个频率分量的频谱概率密度函数表示。 (4-1)式中N为FFT变换的长度,因为语音的能量主要集中在250Hz到6000Hz之间,为了增强概率密度函数区分语音和非语音的能力,对上式加入一些约束条件。 (4-2)则第m帧的熵H计算方法为 (4-3)使用谱熵进行语音端点检测实质是通过检测谱的平坦
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教版九年级数学上册《21.3 实际问题与一元二次方程》同步测试题及答案
- 2025届西藏拉萨市北京实验中学七年级数学第二学期期末综合测试试题含解析
- 2025届泰安市重点中学七下数学期末达标检测模拟试题含解析
- 客户关系维护与拓展计划
- 财务共享服务中心的建设与运作计划
- 大型演出的安保方案实施计划
- 浙江省杭州西湖区杭州市公益中学2025年八年级数学第二学期期末检测试题含解析
- 软件设计师考试复习资料试题及答案
- 企业战略目标与风险承受能力评估试题及答案
- 开拓新思维的工作计划
- 单位闲置房屋盘活方案范本
- 美妙的高等数学(上)智慧树知到课后章节答案2023年下江西师范大学
- 新员工入职报到通知书
- 2018年版电工-国家职业技能标准
- 浅谈如何做好财务安全工作
- 电动车分期付款的合同范本
- 高中英语-Live form the Louvre教学设计学情分析教材分析课后反思
- 2023北京高考英语答题卡ok
- 医务科运用PDCA循环提高门诊医生准时出诊率PDCA成果汇报
- 动脉采血操作考核标准
- 艾媒咨询 2023-2024年中国水产行业现状及消费趋势洞察报告
评论
0/150
提交评论