版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGEPAGEI摘要语音信号处理中,端点检测是指用数字处理技术来找出语音信号中的各种段落(如音素、音节、词素、词等)的起始点和终止点的位置。它是语音处理技术中的一个重要环节,其目标是要在一段输入信号中将语音信号同其它信号(如背景噪声)分离开来。LawrenceRabiner提出的以短时能量分析和过零率分析作为语音信号时域分析中最基本的方法,应用相当广泛,特别是在语音信号端点检测方面。短时能量分析和过零率分析作为语音信号时域分析中最基本的方法,应用相当广泛,特别是在语音信号端点检测方面。由于在语音信号端点检测方面这两种方法通常是独立使用的,在端点检测的时候很容易漏掉重要的信息。本文介绍了语音信号处理的基础及常用的端点检测算法并采用短时能量分析方法和过零率分析方法结合起来的双门限法,利用VC工具对其进行了分析。实验结果表明,检测的效果好于分别使用其中一种方法的情况。关键词:端点检测;短时能量;过零率;双门限AbstractInSpeechSignalProcessingEndpointDetectionreferstothedigitalprocessingtechniquestoidentifythevoicesignalvariousparagraphs(suchasphoneme,syllablemorpheme、word、etc.)thestartingpointandendpointposition.Itisvoiceprocessingtechnologyinanimportantaspectitsgoalistotheinputsignalinaspeechsignalwillbewiththeothersignals(suchasbackgroundnoise)totheleft.LawrenceRabinerraisedtotheshort-termenergyanalysisandzero-crossingrateanalysisasavoicesignaldomain.Onthemostbasicmethod,appliedquitewidely,especiallyinthespeechsignalendpointdetection.Asthevoicesignalendpointdetectionofthesetwomethodsisusuallytheuseofindependent,EndpointDetectionofthetimeveryeasilyomittedimportantinformation.Inthispaper,thesetwomethodscombinedwithdouble-threshold,usingVCtoolsfortheiranalysis.Experimentalresultsshowthattheeffectofdetectionwereusedinoneofthewaysinwhichthesituation.KeyWords:endpointdetection;short-termenergy;zero-crossingrate;double-threshold目录1绪论 11.1语音端点检测问题的提出 11.2 语音端点检测的现状 11.2.1语音技术的现状 31.2.2端点检测技术的现状 41.3语音识别系统简介 51.3.1语音信号的端点检测在语音识别系统中的地位和作用 61.4端点检测的研究内容和意义 72语音信号数字化处理基础 102.1语音信号的特点与模型 102.2语音信号数字化 102.3语音信号预处理 102.4语音信号分析 113常用的语音端点检测算法 123.1 基于短时能量和过零率的语音端点检测 123.1.1短时平均能量 123.1.2短时平均过零率 133.1.3基于短时能量和过零率的双门限端点检测 143.2 基于倒谱特征的语音端点检测 153.3基于谱熵的语音端点检测 154语音信号端点检测算法的实现及实验结果 174.1VisualC++平台简介 174.2 WAV音频格式简介 194.3端点检测的流程和算法实现 204.4实验结果 21结论 24致谢 25参考文献 26附录A英文文献原文 27附录B中文翻译 32附录C原程序 351绪论1.1语音端点检测问题的提出近年来,在语音信号处理领域,关于语音信号中端点检测及判定的研究越来越重要。作为语音识别的前提工作,有效的端点检测方法不仅可以减少数据的存储量和处理时间,而且可以排除无声段的噪声干扰,使语音识别更为准确。目前的语音信号端点检测算法比较多,有短时能量,短时过零率分析,自相关法等等,其中以短时能量和短时过零率用的最多。大多文献和教材都是把它们分别进行介绍,由于它们各有其优缺点,分别使用作为语音端点检测的手段难免会漏掉很多有用的信息。在语音识别中,通常是先根据一定的端点检测算法,对语音信号中的有声片和无声片段进行分割,而后在针对有声片段,依据语音的某些特征进行识别。但我们知道,无声段或者语音段前后一般包含人为呼吸等产生的杂音,语音开始处也有弱摩擦音或弱爆破音,而在语音的终点处一般还包含鼻音,这些使得语音的端点比较模糊。研究表明,即使在安静的环境中,语音识别系统一半以上的识别错误来自端点检测器。因此,作为语音识别系统的第一步,端点检测的关键性不容忽视,尤其在噪声环境下语音的端点检测,它的准确性很大程度上直接影响着后续的工作能否有效进行。语音端点检测也是语音增强算法和语音编码系统的重要部分。例如,在语音增强算法最常用的谱减法就要求从含噪语音中提取噪声进行估计噪声谱;语音压缩编码算法可以利用“语音插空”以增加信道容量。这些都离不开语音端点检测。综上所述,语音信号的端点检测至今为止仍是有待进一步深入的研究课题。语音端点检测的现状随着社会的不断发展,各种各样的机器参与了人类的生产活动和社会活动,人们发现,人和机器之间最好的通信方式是语言通信,而语音是语言的声学表现形式。于是,语音,作为人类信息交流的最自然、最有效、最灵活而又最为广泛使用的途径,越来越引起研究者的关注。作为语音信号处理研究的重要领域,语音识别技术的最终目的是象人与人之间谈话交流信息一样,实现人一机自由对话,也就是赋予机器以听觉,使机器能听懂人的语言,辨明话音的内容或说话人,将人的语音正确地转化为书面语言或有意义的符号,或者进一步使机器能够按照人的意志进行操作,把人类从繁重或危险的劳动中解脱出来。据预测,语音识别将成为继键盘和鼠标器之后,人机交互界面革命中的又一次飞跃。正如mC的PC分析员RichardZwetchkenbaum所说:“语言是最自然的界面”。语音识别具有很大的实际应用价值,其发展.成熟和实用化将推动许多产业的迅速发展,其中包括计算机、办公室自动化、通信、国防、机器人等等。目前可以预见的语音识别主要应用有:语音输入系统,作为一种最自然的文字输入方法,用口述代替键盘向计算机输入文字,这将给办公室自动化和出版界带来革命性的变化;语音控制系统,为人们在手动控制以外又提供了一种更安全、更方便的控制方法,特别是当系统工作在一些特定的环境〔如黑暗场所或手脚己被占用来进行其它动作的环境)或一些特殊的用户(如残疾人)时;基于对话系统的数据库查询系统,为用户提供了更为自然、友好和便捷的数据库检索或查询,可以广泛运用在银行、交易所、民航等机构;除此之外,语音识别还可以用于口语翻译系统、计算机辅助教学、自动身份确认等很多领域。随着人们对语音识别技术认识的深入,人们对语音识别技术也提出了越来越高的目标。语音信号处理中的端点检测技术是指从包含语音的一段信号中确定出语音的起始点及结束点,有效的端点检测技术不仅能减少系统的处理时间、提高系统的处理实时性,而且能排除无声段的噪声干扰,从而使后续的识别性能得以较大提高。语音的端点检测在语音的编码、语音识别、语音增强、说话人识别中起着非常重要的作用,直接影响着后续工作的正确率。随着语音识别技术的发展和逐步走向应用,语音识别的稳健性问题已经逐步成为语音识别研究的热点。实用性的语音识别系统必须能够应付千差万别的噪声环境,但是现有的语音识别系统性能并不稳健,在噪声环境下其性能极大下降。其中一个最主要的原因就是由于错误的语音端点检测所造成的。因此,稳健、精确和可靠的语音端点检测算法在语音识别系统中是必需的。语音信号端点检测算法研究长期以来,传统的语音端点检测算法都是针对实验室安静环境,直到近年来,人们才开始研究噪声环境下的语音端点检测。在语音端点检测算法中,端点检测的正确性极大地影响了识别系统的识别效果。语音信号的起始点和结束点判断有误,则很有可能影响整个信号的完整性,并在语句的开头或结尾漏掉一些有用的数据。当这种情况发生时,对识别的准确度将有特别大的影响,不完全的信息将会使识别率降低。1.2.1语音技术的现状目前,语音技术正进入一个相对成熟点,很多厂商和研究机构有了语音技术在输入和控制上令人鼓舞的演示,输入的硬件和软件平台环境也日益向理想化迈进,但语音技术比起人类的听觉能力来还相差甚远,其应用也才刚刚开始,语音识别技术在开发和研究上还有大量的工作需要做。从开发上讲,特别是从桌面型应用来看,语音技术需要在以下几个方面继续努力:(1)进一步规范和建设语音输入的硬件通道、软件基本引擎和平台,使语音技术能集成到需要语音功能的大量软件中去。(2)语音产业需要更加开放的环境,使有兴趣和实力的企业都能加入到这方面的研究和开发中,逐步改变只有某些大公司和实验室拥有这一技术的状况。(3)在软件界面上不断创新,在现有技术基础上产生动人心魄的效果,逐步改变人们用鼠标、键盘的习惯。当然这是一个漫长的过程。在研究上,针对现有技术的缺陷,应该围绕三个目标开展诸方面的研究:(1)提高系统的可靠性,使系统在不同说话人、不同说话风格和语速、不同带宽的语音信号及不同信噪比条件下具有同等效果。这方面应该进一步细化目前的研究模块,从语音和语言的产生、编码、传输到解码等各个环节加以深入探索。(2)提高系统的灵活性,包括对能方便地结合应用领域中基于统计、规则和有限语法等各种知识源的框架以及适合不同计算平台(CPU和内存等)算法的可伸缩技术(ScalableTechnology)的研究。(3)围绕使语音识别系统具有自我进化能力(Evolution)开展研究,包括对识别结果的可信度衡量、无监督的声学和语言学层次上自适应等。语音技术无疑是极具市场潜力的热点技术,这一点对中文来说尤其明显。试想,多数中国人使用计算机时都在一定程度上受到电脑键盘输入的困扰,所以,很多人都看好中国是语音技术推广应用的最大市场。同时,我们也希望电脑更加易于使用,能接受更多不受时间限制和具有良好态度的多种信息服务,各大公司投资中文语音识别就是希望在未来占领这一领域里的制高点。面对未来巨大的市场潜力,必须发展我们自己的民族语音产业。对于桌面应用系统来说,虽然已有国外现成的API可以利用,但这样的技术不但离高质量的口述记录还相差甚远,更不用说满足多姿多彩现实世界的应用需求。同时,中国地域的口音问题以及汉语极其灵活的语法需要更高要求的语音和语言处理模型。另外,一方面,桌面语音识别技术的应用仅仅是语音识别应用的冰山一角,更大的商机和应用在于电话网络、Internet和各种电器设备,一旦语音技术可以实用化到内置于设备中,付出的将是非常昂贵的代价。另一方面,语音识别作为非常大众化的应用,同当地的文字文化、使用习惯等密切相关,应用作为语音技术推动的原动力,至少目前还没有统一和固定的解决方案。通过发展完全民族化的语音产业,培养一大批这方面的本地人才,才能推动这一技术的快速发展。虽然目前国内从事语音识别技术研究的单位不是很多,学科基础薄弱,能进行非特定人、大词汇量、连续语音识别的更是寥若晨星,但在国家863计划的支持下,在我国科研人员长期艰苦的努力下,我国在语音技术研究水平和原型系统开发方面完全达到了世界级的水平。中科院自动化研究所模式识别国家重点实验室研制的汉语非特定人、连续语音听写机系统的普通话系统,其错误率可以控制在10%以内,并具有非常好的自适应功能。1.2.2端点检测技术的现状近年来,随着通信业的迅猛发展,在各行业对通信系统语音质量的客观评价以及语音识别方法等技术实用化的强烈需求了,又出现了很多的语音端点检测算法。它们主要是通过采用各种新特征参数,以提高算法的抗噪声性能。如基于1994年由JunquaJ-C提出的TF参数的语音端点检测,还有诸如倒谱系数、短时频带方差、自相关相似距离、信息熵等也逐渐的被应用到端点检测中。有时,还通过将信号的几种特征组合成为一个新的特征参数进行端点检测。对语音端点的判决方式也由原来的单一门限、双门限发展到基于模糊理论的判决方式。但是也存在一些问题:(1)绝大多数算法都是依赖语音信号本身音节的特征来对语音和噪声进行区分。在噪声环境下,某些以清音或摩擦音、爆破音开头的语音信号易被噪声淹没,可能会导致起始音的丢失或造成虚检。(2)在判决端点位置时,多数端点检测算法都是假设语音信号是短时平稳的,以帧为单位进行检测,对判决结果进行平滑处理,因此,其判决结果也是精确到帧,而不是精确到具体时刻。(3)目前大多数端点检测算法所选特征单一,并不能充分代表语音信号的特征,具有一定的局限性,而且固定的门限值往往不能适应各种不同的背景噪声环境,当信噪比降低时,性能明显下降。1.3语音识别系统简介在本次毕业设计的过程中,采用的是非实时的处理方法,在录音时必须对声音进行声音控制。在一个语音识别系统中,程序必须能够判断当前是静音还是对象在说话,如果对象发出了语音信号,那么应该保存这段语音信号,将其头部和尾部的静音部分删除掉。这一功能被称为语音信号的端点检测。语音识别系统是建立在一定的硬件平台和操作系统之上的一套应用软件系统。其硬件平台一般是一台个人机或是一台工作站;操作系统可以选择UNIX或WINDOWS系列。语音识别一般分两个步骤。第一步是系统“学习”或“训练”阶段。这一阶段的任务是建立识别基本单元的声学模型以及进行文法分析的语言模型等。第二步是“识别”或“测试”阶段。根据识别系统的类型选择能够满足要求的一种识别方法,采用语音分析方法分析出这种识别方法所要求的语音特征参数,按照一定的准则与系统模型进行比较,通过判决得出识别结果。语音识别语音识别A/D变换话筒语音信号输入电话端点检测参数分析动作应用(Application)具体算法图1.1语音识别系统的组成框图语音识别系统,除了包括核心的识别程序,还必须包括语音输入手段、参数分析、标准声学模型、词典、文法语言模型等,以及制作这些东西所需的工具。根据识别结果在实际环境下实现一定的应用,还必须考虑环境技术,用户接口输入和输出技术等。因此,语音识别技术加上各种外围技术的组合,才能构成一个完整的实际应用的语音识别系统。从语音识别系统的各个功能划分的角度出发,语音识别系统可分为语音信号的预处理部分、语音识别系统的核心算法部分以及语音识别系统的基本数据库等几部分。图1.1给出了一般语音识别系统的组成框图。识别预处理的过程主要是对通过话筒或电话线路输入的语音信号进行数字化采样、在语音检测部切出语音区间、经过语音分析部变换成特征向量,在语音识别部根据单词字典和文法的约束进行语音特征向量时间序列和语音声学模型的匹配输出识别结果,然后或直接把识别出的单词或由单词列组成的句子输出给应用部分(Application),或把识别结果转接成控制信号,控制应用部分的动作。1.3.1语音信号的端点检测在语音识别系统中的地位和作用端点检测的目的是从包含语音的一段信号中确定出语音的起点以及终点。有效的端点检测不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的识别性能。有学者用一个多话者的数字识别系统做了如下一个实验。首先对所有记录的语音用手工找出准确的端点,得到它们的识别率;然后逐帧(帧长为15ms)加大端点检测的误差,在每次加大误差的同时得到它们的识别率。结果表明在端点检测准确时识别率为93%的系统,当端点检测的误差在+60ms(4帧)时,识别率降低了3%;在+90ms(6帧)时,降低了10%;而当误差在进一步加大时,识别率急剧下降。这说明端点检测的成功与否甚至在某种程度上直接决定了整个语音识别系统的成败[4]。在设计一个成功的端点检测模块时,会遇到下列一些实际困难:⑴信号取样时,由于电平的变化,难于设置对各次试验都适用的阀值。⑵在发音时,人的咂嘴声或其他某些杂音会使语音波形产生一个很小的尖峰,并可能超过所设计的门限值。此外,人呼吸时的气流也会产生电平较高的噪声。⑶取样数据中,有时存在突发性干扰,使短时参数变得很大,持续很短时间后又恢复为寂静特性。应该将其计入寂静段中。⑷弱摩擦音时或终点处是鼻音时,语音的特性与噪声极为接近,其中鼻韵往往还拖得很长。⑸如果输入信号中有50Hz工频干扰或者A/D变换点的工作点偏移时,用短时过零率区分无声和清音就变的不可靠。一种解决方法是算出每一帧的直流分量予以减除,但是这无疑加大了运算量,不利于端点检测算法的实时执行;另一种解决方法是采用一个修正短时参数,它是一帧语音波形穿越某个非零电平的次数,可以恰当地设置参数为一个接近于零的值,使得过零率对于清音仍具有很高的值,而对于无声段值却很低。但事实上,由于无声段以及各种清音的电平分布情况变化很大,在有些情况下,二者的幅度甚至可以相比拟,这给这个参数的选取带来了极大的困难[5]。由上可见,一个优秀的端点检测算法应该能满足:⑴门限值应该可以对背景噪声的变化有一定的适应。⑵将短时冲击噪声和人的咂嘴等瞬间超过门限值的信号纳入无声段而不是有声段。⑶对于爆破音的寂静段,应将其纳入语音的范围而不是无声段。⑷应该尽可能避免在检测中丢失鼻韵和弱摩擦音等与噪声特性相似、短时参数较少的语音。⑸应该避免使用过零率作为判决标准而带来的负面影响。在做本设计时,端点检测方法是将语音信号的短时能量与过零率相结合加以判断的。但这种端点检测算法如果运用不好,将会发生漏检或虚检的情况。语音信号大致可以分为浊音和清音两部分,在语音激活期的开始往往是电平较低的清音,当背景噪声较大时,清音电平与噪声电平相差无几。采用传统的语音端点检测方法很容易造成语音激活的漏检。而语音信号的清音段,对于语音的质量起着非常重要的作用。另一方面,较大的干扰信号,又有可能被当成是语音信号,造成语音激活的虚检。如可能出现弱摩擦音和鼻韵被切除、误将爆破音的寂静段或字与字的间隔认为是语音的结束、误将冲击噪声判决为语音等情况,因而实际运用中,如果处理的不好,则效果欠佳。为了克服传统端点检测算法的缺点,已有很多改进方法被提出来。例如,可以考虑采用基于相关性的语音端点检测算法。这种方法依据的理论是:语音信号具有相关性,而背景噪声则无相关性。因而利用相关性的不同,可以检测出语音,尤其是可以将清音从噪声中检测出来。为此,可以定义一种有效的相关函数,并且通过实验可以找到判别门限设定方法以及防止漏检和虚检的方法。1.4端点检测的研究内容和意义劳动创造了人类,创造了人类文明。而语言是人类创造和记载几千年人类文明史的根本手段,没有语言就没有今天的人类文明。语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段,也是人类进行思维的一种依托。随着现代科学和计算机技术的迅猛发展,人类进入了信息化时代,用现代手段研究语音处理技术使人们能更加有效地产生、传输、存储和获取语言信息,这对于促进社会的发展具有十分重要的意义。例如,人们很想在与机器进行交流时能用自然语言来代替传统的人机交流方式。作为语音信号处理中的重要领域,语音识别技术其最大优势在于能够使得人机用户界面更加自然和容易使用,也就是赋予机器听觉功能,在人机通信中让机器能“听懂”人的语言,辨明话音的内容或说话人,并进一步使机器能够按照人的意志来进行某种操作,从而把人类从繁重或危险的劳动中解脱出来。对于一个完整的语音识别系统来说,许多相关因素都将直接影响整个识别系统的成功与否。语音识别系统处理的对象是有效的语音信号,即排除了噪声段的纯净语音段,然而在实际环境中并没有完全纯净的语音信号,往往都伴有噪声和其他干扰。因此,首先从背景噪声语音信号的端点检测技术其目的就是从包含语音的一段信号中准确地确定语音的起始点和终止点,区分语音和非语音信号,它是语音处理技术中的一个重要方面。有效的端点检测技术不仅能在语音识别系统中减少数据的采集量,节约处理时间,还能排除无声段或噪声段的干扰,提高语音识别系统的性能,而且在语音编码中还能降低噪声和静音段的比特率,提高编码效率语音信号是时变非平稳信号,一般将其视为短时平稳信号进行处理,其特征依赖于时间。在识别时,由于噪声环境的引入,将使语音识别系统无法正确判断有效语音的起始点和终止点,从而造成起点和终点的虚检或漏检情况,甚至把一段噪声作为语音信号来进行识别。研究表明,即使在安静环境下语音识别系统中一半以上的识别错误都是因为语音信号端点检测的不准确所造成的因此,端点检测的准确性在某种程度上直接决定了整个语音识别系统的成败。本论文为给语音识别系统提供语音信号端点检测的功能,对语音信号端点检测进行了探讨和研究。语音信号处理部分包括:语音信号的电压放大、反混叠滤波、自动增益控制、模/数变换、去除声门激励及口唇辐射的影响等。本次毕业设计主要是侧重语音区间的端点检测,端点检测的目的是从包含语音的一段信号中确定出语音的起点以及终点。为了实现可靠的端点检测,在端点检测算法中主要应用了短时能量和过零率两者配合实现,并且在端点检测的过程中采取四个阶段标识语音信号的状态来实现的。对大象声音进行录制和处理,利用VC软件进行端点检测,VC软件是语音识别系统中有效,方便的工具,提供了强大的科学运算、灵活的程序设计流程、高质量的图形可视化与界面设计、便捷地与其他程序和语言接口的功能。结果表明,基于端点检测算法和应用VC工具,可以有效确定语音的起点和终点.端点检测使处理时间减到最小,排除无声段的噪声干扰,从而使识别系统具有良好的识别功能。2语音信号数字化处理基础语音信号数字化处理是研究用数字信号处理技术对语音进行处理的一门学科。目的是通过处理得到一些反映语音信号重要特征的语音参数以便高效地传输或储存语音信号信息。语音的数字处理包括三个方面的内容:语音信号的数字表示方法,语音信号数字处理的各种方法以及数字语音处理理论和技术在各领域中的实际应用。2.1语音信号的特点与模型语音信号是随时间变化的一维信号,由一连串的音组成,各个音的排列有一定的规则。语音具有声学特征的物理性质,声音质量与它的频率范围有关,语音信号的频率一般是在20Hz-350Hz范围内,随着带宽的增加,信号的自然度将逐步得到改善。语音信号本身的冗余度是较大的,少数辅音清晰度下降并不明显影响语句的可懂度,比如通常的模拟电话带宽只有3KHz-4KHz。语音信号的特性是随时间变化的,所以是一种典型的非稳态信号。2.2语音信号数字化语音信号数字化一般包括预滤波和A/模/D(数转换)两个过程:采样,量化。模拟语音信号是连续信号,无法被计算机处理。因此,语音处理首先是将模拟信号转化为数字信号,也就是常说的模数转化(A/D),如图2.1。预处理采样预处理采样量化计算机图2.1转换图2.3语音信号预处理为了消除因为人类发声器官本身和因一些采集语音信号的设备等所引起的混叠、高次谐波失真现象,在对语音信号进行分析和处理之前,必须对其进行预处理。语音信号的预处理应尽可能地保证处理后得到的信号更均匀、平滑,且能提高语音的质量。2.4语音信号分析语音信号处理包括语音识别、语音合成、语音编码、说话人识别等方面,但是其前提和基础是对语音信号进行分析。只有将语音信号分析成表示其本质特性的参数,才有可能利用这些参数进行高效的语音通信,以及建立用于识别的模板或知识库。而且,语音识别率的高低,语音合成的音质好坏,都取决于对语音信号分析的准确性和精度。3常用的语音端点检测算法端点检测最早的应用是在贝尔实验室开发的电话传输和转换系统中,用于通信信道的时间分配,通过语音检测实现在空闲的信道中插入其他人的话音信息。从那以后,各种各样的语音端点检测算法在许多语音指令识别、自动语音识别、说话人认证、远程通信和语音编码等方面被提出来。通常,不同的系统需要不同的算法以满足在精度、复杂度、鲁棒性、敏感性和响应时间等方面的需求。这些方法包括基于能量、过零率、频谱分析、倒谱分析和基音检测等算法。图像处理中的边缘检测,理论统计中的变点检测等也都存在类似的问题。基于短时能量和过零率的语音端点检测语音和噪声的区别可以体现在它们的能量上,对于一列叠加有噪声干扰的语音信号而言,其语音段的能量是噪声段能量叠加语音声波能量之和。因此,语音段能量要大于噪声段的能量。如果环境噪声和系统输入噪声比较小,以致于能够保证系统的输入信噪比很高时(即使最低电平语音的能量也比噪声能量要高),那么只需要计算输入信号的短时平均能量或短时平均幅度就能够把语音段和背景噪声区分开来。3.1.1短时平均能量时刻某语音信号{()}的短时平均能量定义为:(3-1)式中,)为汉明窗。令()=(),则有:(3-2)式中,()为可移动的有限长度的窗函数,用来实现分帧处理,是低通滤波器的单位冲激响应。上式表明,经过窗口加权的短时能量相当于将“语音平方”信号通过一个线性滤波器的输出,这个滤波器的取样响应为()。短时能量函数可用来区分清音段和浊音段。值大的对应于浊音段,而值小的对应于清音段。对于高信噪比的语音信号,无语音信号的噪声能量很小,而有语音信号的能量显著增大到某一数值,由此可以区分语音信号的起始点和结束点。语音信号的短时平均幅度定义为:(3-3)和都反映语音信号的强度,但是其特性有所不同。在实际应用中往往很难保证有很高的信噪比,而且在某些特殊情况下,如当语音段的开始和结束都是弱摩擦音、爆破音或语音段末尾是鼻音时,这些音的短时能量一般很小,往往与背景噪声处于相同的电平。在这些情况下,只依靠短时能量或短时平均幅度来检测语音段的起止点常常会把语音信号起始和末尾的这些音素漏掉。Rabiner提出了在短时能量的基础上结合短时平均过零率的双门限端点检测语音信号端点检测算法研究算法。3.1.2短时平均过零率短时过零率表示一帧语音信号波形穿过横轴(零电平)的次数。对于连续语音信号,过零即意味着时域波形通过时间轴,而对于离散信号,如果相邻的取样值具有不同的代数符号就称为发生了过零。一段长时间内的过零率称作平均过零率。窄带信号的过零率反映了该信号的频率。其中,当信号为单一正弦波时,过零率为信号频率的两倍。对于宽带信号,为了反映过零率随时间的变化不能采用长时平均过零率,而必须采用短时平均过零率,定义如下:(3-4)式中为符号函数,即:=(3-5)一般取=对语音信号产生模型进行分析发现,发浊音时尽管声道有若干个共振峰,但由于声门波引起了谱的高频跌落,所以,浊音语音能量约集中在3KHz以下。但对于清音,多数能量都出现在较高的频率上。所以,高频就意味着高的过零率,语音信号就是清音;低频意味着低的过零率,语音信号就是浊音。当然,这种高低仅是相对而言的,并没有精确的数值关系。另外,利用短时过零率还可以从背景噪声中找出语音信号,判断寂静无声段和有声段的起点和终点的位置。在背景噪声较小时用短时平均能量识别较为有效,而在背景噪声较大时用短时平均过零率识别较为有效。3.1.3基于短时能量和过零率的双门限端点检测语音端点检测方法可采用测试信号的短时能量或短时对数能量、联合过零率等特征参数,并采用双门限判定法来检测语音端点,即利用过零率检测清音,用短时能量检测浊音,两者配合。首先为短时能量和过零率分别确定两个门限,一个是较低的门限数值较小,对信号的变化比较敏感,很容易超过;另一个是比较高的门限,数值较大。低门限被超过未必是语音的开始,有可能是很短的噪声引起的,高门限被超过并且接下来的自定义时间段内的语音超过低门限,意味着信号开始此时整个端点检测可分为四段:静音段、过渡段、语音段、结束。实验时使用一个变量status表示当前状态。静音段,如果能量或过零率超过低门限,就开始标记起始点,进入过渡段。过渡段当两个参数值都回落到低门限以下,就将当前状态恢复到静音状态。而如果过渡段中两个参数中的任一个超过高门限,即被认为进入语音段。处于语音段时,如果两参数降低到门限以下,而且总的计时长度小于最短时间门限,则认为是一段噪音,继续扫描以后的语音数据,否则标记结束端点。基于短时能量和过零率的双门限检测方法存在以下一些问题。例如:在一些特殊情况,如当语音段的开始和末尾都是弱摩擦音时,象“四”字的读音的开始段的短时能量就比较小而以鼻音结尾的语音,其末端的短时能量也比较小,它们都容易与噪声混淆。而清音的短时平均过零率最大,浊音和噪声次之,且浊音和噪声的短时平均过零率相当。该方法是先算出背景噪声能量的统计特性,定出能量高低门限、短时过零率,利用能量门限来确定语音信号的初始起止点,然后根据过零率精确得出起止点。即先根据能量门限算得一初始起点N,,方法为从第11帧开始,逐次比较每帧的平均幅度,N,为平均幅度超过低能量门限的第一帧的帧号。但若后续帧的平均幅度在尚未超过高能量门限之前又降到之下,则原N,不作为初始起点,改记下一个平均幅度超过了低能量门限的帧为NI,依此类推,在找到第一个平均幅度超过高能量的帧时停止比较。当N,确定后,从N,帧向前N,-25帧搜索,依次比较各帧的过零率,若有3帧以上的过零率大于或等于过零率门限,则将起点N,定为满足过零率大于等于过零率门限的最前帧的帧号,否则即以原N为起点。这种起点检测法也称双门限前端检测算法。基于倒谱特征的语音端点检测倒谱能很好地表示语音信号的特征,是语音信号一种较好的时频表示,它属于语音信号的同态处理范畴。倒谱{}是信号Z变换的对数模函数的反Z变换,一般通过信号的傅立叶变换,取模的对数,再求反傅立叶变换得到。一个系统称为卷积同态系统,是说它具有以下性质:(3-6)该系统是指一种分量(所需要的分量)可以基本不变地通过它,而不需要的分量可以被滤除掉。同态系统理论的一个重要方面是任何同态系统都可以表示为三个同态的级联。所谓同态分析,是指把呈卷积关系的两信号变换为呈线性相加的两信号,再用不同通带的滤波器滤掉不必要的成分。为了便于计算,选取在Z域的单位圆上进行计算。根据倒频谱的定义可知,该系统的冲激响应的倒频谱的Z变换为::(3-7)倒谱能很好地表示语音的特征,它通过对发音模型建模后反推得到,因此在大多数语音识别系统中选择倒谱系数作为输入特征矢量。运用倒谱特征来检测语音端点也是目前语音识别系统中比较典型的方法之一。3.3基于谱熵的语音端点检测熵,表示信息的有序程度。在信息论中,熵描述了随机事件结果的不确定性,即一个信息源发出的信号以信息熵来作为信息选择和不确定性的度量。1998年,ShenJL首次提出基于熵的语音端点检测方法,Shen在实验中发现语音的熵和噪声的熵存在较大的差异,谱熵这一特征具有一定的可选性,它体现了语音和噪声在整个信号段中的分布概率。谱熵的计算方法如下:首先通过快速傅立叶变换(FFT)得到每一帧信号的频谱,其中每个频谱向量的系数表明了该帧信号在该频率点的大小分布。然后计算每个频谱分量在每帧总能量中所占的比例,将其作为信号能量集中在某频率点的概率,其概率密度函数定义为:(3-8)式中,是的能量,是相应的概率密度,N是FFT中频率成分的所有点数。由于语音信号的绝大部分能量集中在200Hz~3500Hz之间,所以,为了集中计算谱熵以增加语音和非语音在概率密度函数中的区分性,我们把200Hz~3500Hz之外的频率分量置为0,即:=0,经过标准化和语音增强处理后,相应的每一帧的谱熵定义如下:(3-9)4语音信号端点检测算法的实现及实验结果4.1VisualC++平台简介VisualC++自诞生以来,一直是Windows环境下最主要的应用开发系统之一。VisualC++不仅是C++语言的集成开发环境,而且与WIN32紧密相联,所以,利用VisualC++可以完成各种各样的应用程序的开发,从底层软件直到上层直接面向用户的软件。而且,VisualC++强大的调试功能也为大型复杂软件的开发提供了有效的排错手段。进入90年代以来,随着多媒体技术和图形图像技术的不断发展,可视化(Visual)技术得到广发的重视,越来越多的计算机专业人员和非专业人员都开始研究并应用可视化技术。所谓可视化技术,一般是指软件开发阶段的可视化和对计算机图形技术和方法的应用。使用VisualC++环境来开发Windows应用程序大大缩短了开发时间,而且它的界面更友好,便于程序员操作。VisualC++提供了一个集源程序编辑、代码编译与调试于一体的开发环境,这个环境称为集成开发环境,对于集成开发环境的熟悉程度直接影响程序设计的效率。开发环境是程序员同VisualC++的交互界面,通过它程序员可以访问C++源代码编辑器、资源编辑器,使用内部调试器,并且可以创建工程文件。MicrosoftVisualC++是多个产品的集成。VisualC++从本质上讲是一个windows应用程序。VisualC++有两个版本,对于每一个版本,都有对应的文档。专业版本,它包括一个更高级的优化编译器,更广泛的文档,并能设计基于DOS的应用程序。标准版本,其费用较低,没有那么高级的编译器,文档较少,且不能设计基于DOS的应用程序。VC是许许多多技术的综合,就好像少林72般绝技,一般在应用中学会其中很少一部分就够了。开发环境是程序员通VisualC++得交互界面,通过它程序员可以访问C++源代码编辑器、资源便奇迹,使用内部调试器,并且可以创建工程文件。VisualC++的核心是Microsoft基础类库,即通常所说的MFC。尽管使用VisualC++进行编程并不一定要使用MFC,使用MFC也不一定就要使用VisualC++,BorlandC++的新版本也提供了对MFC的支持,然而事实上,在很多情况下,我们提到VisualC++时指的就是MFC,而提到MFC时指的也就是VisualC++。因此,当你看到关于VisualC++或是MFC的资料时,要知道,在绝大多数情况下,它们都是指同一样东西。MFC相当彻底的封装了Win32软件开发工具包(SoftwareDevelopmentKit,即通常所说的SDK)中的结构、功能,它为编程者提供了一个应用程序框架,这个应用程序框架为编程者完成了很多Windows编程中的例行性工作,如管理窗口、菜单和对话框,执行基本的输入和输出、使用集合类来保存数据对象等等,并且,MFC使得在程序中使用很多过去很专业、很复杂的编程课题,如ActiveX、OLE、本地数据库和开放式数据库互联(OpenDatabaseConnectivity,简写为ODBC)、Windows套接字和Internet应用程序设计等,以及其它的应用程序界面特性,如属性页(也叫标签对话框)、打印和打印预览、浮动的和可定制的工具条变得更加的容易。早在1989年,Microsoft的程序员们开始试图将C++和面向对象的编程概念应用于Windows编程中,以编写出一个可以使Windows编程更加简便的应用程序框架。他们把这个应用程序框架叫做AFX(AFX这个词来源于ApplicationFramework,但奇怪的是这个词组中并没有包含“X”这个字母)。直到今天,AFX小组早已不存在了,AFX这个名称也于1994年初不再使用,但在VisualC++和MFC中,AFX的影子却随处可见,很多全局函数、结构和宏的标识符都被加上了AFX的前缀。最初的AFX版本在经过一年的艰苦之后诞生,却未能被大多数Windows程序员所接受。AFX的确是经过了精心的规划和编码,并且,它也提供了对WindowsAPI的高度抽象,建立了全新的面向对象的AFXAPI,但最要命的是AFXAPI库根本不兼容于现有的WindowsAPI。由此导致的最严重后果是大量的SDK代码无法移植,而程序员将学习两种完全不同的编程方法。AFX不得不重新做所有的一切,他们所创建的新的应用程序框架是一套扩展的C++类,它封装和映射了WindowsAPI,这就是MFC的前身。过去的AFX小组也变成了MFC小组。最终,MFC的第一个公开版本于1992年3月随MicrosoftC/C++7.0(而不是VisualC++1.0)一起推出。那时距Windows3.1发布尚有好几个月。在MFC1.0中还没有文档/视结构,但有类CObject和CArchive。在12个月之后,MFC2.0随Microsoft新的编程工具VisualC++1.0一道出炉。与MFC1.0一样,MFC2.0仍是16位的,因为32位的WindowsNT3.1直到1993年7月才问世。在MFC2.0中,增加了对文档/视结构、OLE1.0、Windows3.1公用对话框的支持和消息映射等。在WindowsNT3.1面世一个月以后,Microsoft推出了32版本的VisualC++和MFC2.1,它实际上是MFC2.0的Win32接口。最后一个16位的VisualC++编译器是1993年12月推出的VisualC++1.5,直到今天,一些为Windows3.1编写16位应用程序的程序员还在使用这个版本。1994年9月,32位的MFC3.0伴随着VisualC++2.0的一道面市,在今天的计算机图书市场上,还有着的大量的关于VisualC++2.0和MFC3.0的图书出售,在VisualC++5.0中包括的MFC版本不是MFC5.0,而是MFC4.21。发展到今天,MFC已发展成一个稳定和涵盖极广的C++类库,为成千上万的Win32程序员所使用。MFC库是可扩展的,它和Windows技术的最新发展到目前为止始终是同步的。并且,MFC类库使用了标准的Windows命名约定和编码格式,所以有经验的WindowsSDK程序员很容易过渡到MFC。MFC结合了WindowsSDK编程概念和面向对象的程序设计技术,从而具有极大灵活性和易用性。WAV音频格式简介WAV为微软公司(Microsoft)开发的一种声音文件格式,它符合RIFF(ResourceInterchangeFileFormat)文件规范,用于保存Windows平台的音频信息资源,被Windows平台及其应用程序所广泛支持,通常使用三个参数来表示声音,量化位数,取样频率和声道数。声道有单声道和立体声之分,取样频率一般有11025Hz(11kHz),22050Hz(22kHz)和44100Hz(44kHz)三种,不过尽管音质出色,但在压缩后的文件体积过大!相对其他音频格式而言是一个缺点,其文件大小的计算方式为:
WAV格式文件所占容量=(取样频率X量化位数X声道)X时间/8(字节=8bit)
WAVE是录音时用的标准的WINDOWS文件格式,文件的扩展名为“WAV”,数据本身的格式为PCM或压缩型。常见的声音文件主要有两种,分别对应于单声道(11.025KHz采样率、8Bit的采样值)和双声道(44.1KHz采样率、16Bit的采样值)。采样率是指:声音信号在“模→数”转换过程中单位时间内采样的次数。采样值是指每一次采样周期内声音模拟信号的积分值。对于单声道声音文件,采样数据为八位的短整数(shortint00H-FFH);而对于双声道立体声声音文件,每次采样数据为一个16位的整数(int),高八位和低八位分别代表左右两个声道。4.3端点检测的流程和算法实现图4.1端点检测流程图在开始进行端点检测之前,首先为短时能量和过零率分别确定两个门限。一个是比较低的门限,其数值比较小,对信号的变化比较敏感,很容易就会被超过。另一个是比较高的门限,数值比较大,信号必须达到一定的强度,该门限才可能被超过。低门限被超过未必就是语音的开始,有可能是时间很短的噪声引起的。高门限被超过则可以基本确信是由于语音信号引起的。整个语音信号的端点检测可以分为四段:静音,过渡段,语音段,结束。程序中使用一个变量status来表示当前所处的状态。在静音段,如果能量或过零率超过了低门限,就应该开始标记起始点,进入过度段。在过度段中,由于参数的数值比较小,不能确信是否处于真正的语音段,因此只要两个参数的数值都回落到低门限以下,就将当前状态恢复到静音状态。而如果在过度段中两个参数中的任一个超过了高门限,就可以确信进入语音段了。一些突发性的噪声也可以引起短时能量或过零率的数值很高,但是往往不能维持足够长的时间,如门窗的开关、物体的碰撞等引起的噪声,这些都可以通过设定最短时间门限来判别。当前状态处于语音段时,如果两个参数的数值降低到低门限以下,而且总的记时长度小于最短时间门限,则认为这是一段噪音,继续扫描以后的语音数据。否则就标记好结束端点,并返回。4.4实验结果图一为vc++6.0仿真界面,语音信号采集框中,可实现语音信号的采集和停止采集,并在计数器中显示采集音频信号的时长;语音信号输出框中,可实现对已采集音频信号的播放、暂停和停止;显示波形按钮可将采集到的音频信号进行端点检测,并绘制端点检测效果图。///////////画端点线段///////////////////CPenRedPen(PS_SOLID,3,RGB(255,0,0));pDC->SelectObject(&RedPen);pDC->MoveTo(x1*160,-50);pDC->LineTo(x1*160,50);CPenBluePen(PS_SOLID,3,RGB(0,255,0));pDC->SelectObject(&BluePen);pDC->MoveTo(x2*160,-50);pDC->LineTo(x2*160,50);////////////////////////////////////////上述程序实现端点线段的绘制,其中为端点检测起始点坐标;为端点检测终止点坐标。未加入此段程序绘制的波形图如图4.3所示,加入后如图4.4图4.2仿真界面图4.3语音波形图图4.4端点检测效果图结论通过本次毕业设计的研究,了解了一个语音识别系统包括语音信号的预处理部分、语音识别系统的核心算法部分以及语音识别系统等几部分内容。而语音信号的预处理部分是整个语音识别系统的前提条件,端点检测是语音信号的预处理部分最基本的一个功能,做好端点检测,能使语音识别系统处理时间减到最小,排除无声段的噪声干扰,从而使识别系统具有良好的识别功能。已经可以应用VC实现对语音信号的采集及端点检测。本次毕业设计实现的端点检测是比较受限制的,仍然会发生漏检或虚检的情况。在语音起始期往往是电平较低的清音,当背景噪声较大时,清音电平与噪声电平相差无几,这时就很难进行判断,为了克服传统端点检测算法的缺点,已有很多改进方法被提出来。例如,可以考虑采用基于相关性的语音端点检测算法。这种方法依据的理论是:语音信号具有相关性,而背景噪声则无相关性。因而利用相关性的不同,可以检测出语音,尤其是可以将清音从噪声中检测出来。为此,可以定义一种有效的相关函数,并且通过实验可以找到判别门限设定方法以及防止漏检和虚检的方法。致谢本论文是在董慧颖老师的精心指导下完成的。在论文的写作过程中,一直得到他们的热情关怀和悉心指导,为本文的完成倾注了大量的心血。她严谨的治学态度、渊博的学识、实事求是的科学作风以及对新知识的敏锐的洞察力都将对我今后的工作和生活产生深刻的影响。在此,我向她表示最衷心的感谢。其次,我要感谢沈阳理工大学研究生李景川对我学习上的指导和帮助。在这两年半的学习中,沈阳理工各位老师的学术气氛极大地激发了我的创新意识和开拓进取精神。使我真正的学会了如何去面对问题;他们严谨求实的治学作风帮助我树立了认真求实的科学态度。这些都深深的感染了我,将使我终身受益。感谢在我的生活中出现的每位朋友,生活有了他们而丰富多彩,我会永远珍藏和他们在一起的快乐时光.感谢我的父母和亲朋。一直以来,他们给予了我生活和精神上支持,使我能够顺利完成学业,对于他们的爱,感激之情无法用语言表达。谨以此文作为我对他们的献礼!参考文献[1]蔡莲红.现代语音技术基础与应用[M].北京:清华大学出版社,2003:P27—P29[2]张雄伟.现代语音处理技术及应用[M].北京:机械工业出版社。2003:P47—P58[3]赵力.语音信号处理.北京:机械信号处理出版社,2003年.[4]胡航.语音信号处理.哈尔滨:哈尔滨工业大学出版社,2000年.[5]陈永彬.语音信号处理.上海:上海交通大学出版社,1991年.[6]徐大为,吴边,赵建伟.一种噪声环境下的实时语音端点检测算法.计算机工程与应用,2003,39(1):P115—P117.[7]杨行峻,迟惠生.语音信号数字处理.北京:电子工业出版社,1995年.[8]陈永彬等.语音信号处理.合肥:中国科学技术大学出版社,1990年.[9]刘庆生,徐霄鹏一种语音端点检测方法的探究.计算机工程,2003,29(3):P120—P123.[10]何振亚等.语音信号的主分量特征.应用科学学报,1997年.[11]Chapman.VisualC++6.0.北京:科学出版社,1997年.[12]RabinerLR.FundamentalsofSpeechRecognition.北京:清华大学出版社,1999.附录A英文文献原文VertexexaminationMike·TauchB.1INTRODUCTIONVoicesignalsintheendpointdetectioninspeechrecognition,voiceandspeechcoding,suchasenhancedvoicesignalprocessingsystemsareplayinganveryimportantapplications,thecorrectvoicesignaldetectioncannotonlyreducetheendpointofvoiceprocessing,butalsoeffectivelyimprovesystemperformance.Generallyspeakingdifferentapplicationsaccordingtotheirneedforaccuratecalculation,thealgorithmcomplexity,stabilityandresponsetimetothedifferentrequirementstochooseasuitablemethod.Commonlyusedmethodsofenergythreshold,pitchdetection,spectralanalysis,analysisandcepstrumforecastforresiduals,andsoon.Traditionalenergythresholdofvoicesignalsinaccordancewiththeshort-termenergy-twothresholdjudgementoftheendpointdetectionmethods,sometimessupplementedbyshort-termzero-rateinformationjudgement,thesemethodsinhigh-SNR%>01haveagoodperformance,andperformanceinlowsignaltonoiseratioattherapiddeterioration,and
lackofabsolutesignalthestabilityoftherateofchange,however,voicesignalprocessingsystemsusuallyworkindifferentnoiseenvironment,inthevoiceprocessingsystemusedintheendpointdetectionshouldbeadaptedtovarioussituationsthatmayarise,Inordertoachievepracticalapplicationofgoodperformance.Theauthorpresentsashort-termenergybasedonthecharacteristicsofsimpleandeffectiveandrobustvoiceactivitydetectionalgorithm,thenewalgorithmintheshort-termuseofenergyasthecharacteristicsoftheentirezonewillbethebasisofshort-termhigh-frequencyenergyasacomplementarycharacteristics,andusethemostYouedgedetectionfilterY^Zandreasonabledoublethreshold;rulingthree-stateconversionmechanism,soastoensurethealgorithminthenoisyenvironmentoftheendpointdetectionaccuracyandabsolutemagnitudeofthesignalchangesinthestabilityoftheresultsshowthatthe$algorithmistheauthorsuperiorperformance.B.2ComplexityofthebasicconceptsVoicesignalprocessingisnotreallypracticalrequirements,manyoftheproblemssuchashighaccuracyrateofpeoplewithoutwordscommissionerofcontinuousspeechrecognition,speechsynthesisofhighandlowbitratevoiceandhigh-qualityencoding,highaccuracyratestabilitythespeakerrecognitionsystemhasnotbeencompletelyresolved,andtheseproblemscanoftenbereducedtoabasicproblem,thatis,peoplehavenotyetfoundasimpleandeffectivedescriptionofthevoicesignal(especiallytheconsonantssignals)themathematicalapproach.Inessence,voicesignalprocessingmethodscanbedividedintotwocategories,oneofwhichisbasedontheuncertaintyoflinearsystems
Theory,andthesecondisbasedonrandomprocesstheory.Mostoftheformermethodsareconsidered,thismethodhasabasicassumptionthattheSub-sufficientwhenthehour,non-linearsystemcanbeusedtoapproximatethelinearsystem,thusproducinghealthsuchasthelinearprojections,withthestateofthevolumesandorthogonaltransformation,andothersub-linearanalysis.Asaresultofthisanalysis,simplemethodofcalculationisalsoeasytohandle,sopeoplehavebeenthefocusofthestudy.Withthein-depthstudy,itwasdiscoveredthatthetraditionalmethodofmanysub-linearinadequateperformanceforspeechrecognition,speakerrecognitionsystems,voicesynthesisandvoicecodingsystemtofurtherenhancetheperformance,thuspeoplegraduallyturntheirattentiontonon-linearsignalanalysisstudy.Voicesignalisnonlinearandnon-stationary,thevoicesignalisgradedbytheinstabilityoftheadaptiveapproachtomature,anditsnonlinearnaturehasbeenthetraditionalvoiceindealingwiththedevelopmenttrendhasnotbeentheattentiontheydeserve.Inrecentyears,non-lineartheoryanumberofmajordevelopments,suchasachaotic,fractaltheory,suchasanalysis.AlthoughtheChaosTheorycanbetracedbacktotheearly19thcenturyFrenchmathematicianofthenonlineardifferentialCheng'sresearch,buttherealsubjectisthepeople'sattentionbeganinthe1960s.FractaltheoryisfromtheU.S.BBMandelbrotFrenchmathematicianwhoin1973proposedadescriptionoftheirregulargeometryofthemathematicalmethod,asprovidedforthepeopleofthenewmethodofnaturalphenomena,chaos,fractaltheoryoverthepast10yearsmoretothemoreattentioninphysics,circuitanalysis,medicalsignalanalysis,polymerchemistryandimageprocessing.ThefieldmadeaseriesofsuccessfulapplicationsOverthelastdecade,non-lineartheoryofchaosandfractalsignalprocessingforpeopletoprovidetheanalyticalnatureisasthenewmethod.Itwasfoundthatalargenumberofnaturalphenomenaischaotic,orsimilartothechaos.YanGridacousticandaerodynamictheoryhasbeenprovedthatthevoicesignalisinachaoticsystem.B.3AlgorithmtoachieveenvironmentalprofileGenerallyspeakingdifferentapplicationsaccordingtotheirneedforaccuratecalculation,thealgorithmcomplexity,stabilityandresponsetimetothedifferentrequirementstochooseasuitablemethod.Commonlyusedmethodsofenergythreshold,pitchdetection,spectralanalysis,analysisandcepstrumforecastforresiduals,andsoon.COLEAasthevoiceofanexclusivedealwithMATLABsoftware,asshowninFigure4.1.IntheIntemetcanbeusedanddownloadedforfree,themainfeaturesincluding:Atthesametimeshowthatthevoicesignaltimeandfrequencydomainwaveform:.RecordedvoicewillbedirectlytoMATLAB;
.Voicewaveformmanualsegmentation;
.Thevoicewaveformediting,includingcut,copyandpastethevoicefragments;
.Filtering
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年大学历史学(考古学)试题及答案
- 2025年中职(建筑工程施工)砌体结构阶段测试题及答案
- 2025年大学畜牧兽医(家禽养殖)试题及答案
- 2025年高职(工程造价)工程索赔综合测试题及答案
- 2025年中职老年护理(老年护理应用)试题及答案
- 2025年中职会计(成本会计基础)试题及答案
- 2025年高职教育学(教育管理学)试题及答案
- 2025年中职心理学(社会心理学应用)试题及答案
- 2025年高职(新能源汽车技术)整车控制系统综合测试题及答案
- 2025年大学本科(会计学)会计信息系统应用阶段测试题及答案
- 2025年宪法知识题库及参考答案综合卷
- 2026年社区工作者考试题库300道(有一套)
- 2026年福建省能源石化集团有限责任公司招聘备考题库及答案详解一套
- 2025年家庭投资理财规划:科学配置与稳健增值指南
- 杜氏肌营养不良运动功能重建方案
- 2026贵州大数据产业集团有限公司第一次招聘155人模拟笔试试题及答案解析
- 呼吸内科主任谈学科建设
- 肿瘤药物给药顺序课件
- 海南计算机与科学专升本试卷真题及答案
- 企业安全一把手授课课件
- 学校中层干部述职报告会
评论
0/150
提交评论