




已阅读5页,还剩34页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要摘要音频分类分割技术作为音频信息分析的一个重要基础,是许多有关音频应用的不可缺少的一个部分。这项技术是利用计算机按音频的某种特性和根据后续需要,自动将音频信息切分为所要求的类别。本文是针对广播节目中的音频信号进行的音频分割分类方法的研究,即按照时间顺序对连续的广播音频数据进行分析,标识出音频流中音频类型的跳变点及当前音频段的类型。在对现有算法的充分研究和实验的基础上,实现了广播音频的分割分类的技术流程。本系统主要包括音频分割和音频分类两个模块。在分割方法上采用了基于检测熵变化趋势的方法进行分割点确认;在分类方法上采用了基于高斯混合模型( g m m ) 分类算法。实验证明,该系统是有效的。音频分类平均准确率能够达到8 9 以上,基本能够满足要求。关键词:音频分割音频分类特征提取高斯混合模型。a b s t r a c ta bs t r a c ta u d i oc l a s s i f i c a t i o ni sab a s ew o r kf o rt h ea u d i oi n f o r m a t i o nr e t r i e v a l ,a n da ni m p o r t a n tp a r to fm a n ya u d i oa p p l i c a t i o n s t h i st e c h n i q u ec l a s s i f i e st h ea u d i od a t ai n t od i f f e r e n tc l a s s e sa c c o r d i n gt ot h ef e a t u r eo fd i f f e r e n tt y p eo fa u d i o i nt h i sp a p e r ,v a r i o u sa u d i os e g m e n t a t i o na n dc l a s s i f i c a t i o nm e t h o do nb r o a d c a s tr a d i oa r ea n a l y z e dc a r e f u l l y b a s eo nt h ea n a l y s i so ns e q u e n t i a la u d i oa c c o r d i n gt ot i m es e q u e n c e ,t h ep o i n ti nw h i c ha u d i oc l a s si sc h a n g e da n dt h ec l a s so fc u r r e n ta u d i os e g m e n ti si d e n t i f i e d o nt h eb a s eo fr e s e a r c h ,w er e a l i z et h es y s t e mf o ra u d i oc l a s s i f i c a t i o n o u rs y s t e mc o m p r i s eo fa u d i os e g m e n t a t i o nm o d u l ea n dc l a s s i f i c a t i o nm o d u l e w eu s ea na p p r o a c hb a s e do nc h e c k i n gt h ec h a n g i n gt r e n do fd i v i d i n ge n t r o p yo fe v e r ys i g n a lp o i n t si ns l i d i n gw i n d o ws e g m e n t a t i o na n dg a u s s i a nm i x t u r em o d e l ( g m m ) c l a s s i f i c a t i o ns c h e m ef o ra u d i oc l a s s i f i c a t i o n e x p e r i m e n t ss h o wt h a to u rs y s t e mi se f f i c i e n tw i t ht h ea v e r a g ec l a s s i f i c a t i o np e r f o r m a n c eo fo v e r8 9 t h ea p p l i c a t i o nr e q u e s ti ss a t i s f i e dg e n e r a l l y k e y w o r d s :a u d i os e g m e n t a t i o na u d i oc l a s s i f i c a t i o nf e a t u r ee x t r a c t i o ng m m西安电子科技大学学位论文独创性( 或创新性) 声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名:显兰兰日期幽2 :至:午西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文在解密后遵守此规定)本人签名:监兰兰日期丝z :至:竺导师签名:三:量望至第一章绪论第一章绪论1 1 研究的目的及意义在计算机技术高速发展的今天,人们对计算机的要求也越来越高。许多“简单”而枯燥的工作,人们就期望能用计算机来代替。但是这些对于人类来说很简单的工作,对于计算机来说并不是件容易的事。对于一些单位,期望能够对广播电台播出的节目进行监控,搜索出有用的情报,如果用人工来2 4 小时监控,那将是一件极其费时而且单调无味的工作;当听众从广播节目中选则自己感兴趣的内容( 如音乐类节目) 或跳过不感兴趣的内容( 如商业广告等) 时,如果不断的手动搜索也是一件麻烦而且费时的工作。如果能够用计算机来监控广播信号的播出,分析出节目的类型,那么将会节省大量的人力物力。本文就是围绕这个应用来做这个课题的。在目前的实际条件下,本文暂时从音频分割和分类的角度去实现这个系统。广播音频分割、分类系统是一个复杂的系统,首先对数据进行采集、量化,得到原始的音频数字信号,然后才能进行后续的处理。本文认为原始音频数据已经获得,并且是经数字化处理过的数字音频信号。音频数据除了含有采样率、量化精度、编码方法等有限的注册信息外,本身仅仅是一连串非语义符号表示的不透明二进制流,缺乏对声音类型结构化组织和高层语义的描述,具有信息关联度大、数据结构复杂、数据量大、处理要求高等特点,给音频信号的深入处理和分析工作带来了诸多困难,使自动语音识另l j ( a u t o m a t i cs p e e c hr e c o g n i t i o n ,a s r ) 币i 基于内容的音频检索( c o n t e n t b a s e da u d i or e t r i e v a l ,c b a r ) 等应用受到了极大限制。如何从连续音频流信号中提取音频类型的结构化信息,将其按语音、音乐和环境音等不同的声学类型切分成类别单一的音频片段,标注出各音频片段的分界点位置和类型信息,即连续音频流的分割、分类,是解决音频信息深度处理、分析和检索等问题的关键技术和基础前提,同时也是辅助视频信号自动切分和分类的强有力的工具,有着广泛的应用前景。利用连续音频流分割、分类技术可以为a s r 提供单一的语音片段,是现有语音识别系统走向实际应用的先决条件之一。现有的连续语音识别系统对输入语音信号的要求近乎苛刻,一般不仅不能包含诸如音乐、环境音等其它种类的声音,而且要有较高的信噪比。a s r 贝j j 要求对现实生活中的音频流如广播新闻,影视、会议、演讲等录音进行自动转录( t r a n s c r i b e ) ,生成包含语义内容、位置和其它信息的“抄本”( t r a n s c r i p t i o n ) 。我们知道,以上列举出的这些音频流通常由语音和其它类型的声音连接而成,如果不对其预先分段并去除非语音部分,必定会对语广播音频的分割分类算法研究音识别系统的性能产生严重的影响。连续音频流分割、分类给出的音频类型结构化信息,是建立音频数据库索引、实现底层结构单元向高层语义结构单元关联的基础。c b a r 技术通常要分析音频流的结构和语义,从不同类型的音频信号中提取高层语义信息,如对语音部分抽取关键词,建立它们的结构化的组织和索引,使“无序 的音频流变得“有序”,以便于用户的检索和浏览。可见,如果不知道音频流的所包含的声音类别及其位置信息,高层语义的提取根本无从谈起。此外,连续流音频流分类技术还可以用在音频内容理解( a u d i oc o n t e n tu n d e r s t a n d i n g ) 、音频监测( a u d i os u r v e i l l a n c e ) 和音频场景分析( a u d i os c e n ea n a l y s i s ) 等领域。总之,音频数据自身的特点和现有技术的制约,使得对音频流的进一步处理受到了限制,而连续音频流分类技术可以很好解决这一问题,为音频流结构化和音频信息深度分析和利用提供了坚实的基础。音频分类与分割是音频结构化的基础,是音频内容分析和深度处理的前提。音频分类与分割技术研究是一个交叉学科的研究领域,它涉及许多相关的技术。与此相关的领域包括:人耳的听觉特征、信号与系统、数字信号处理、语音信号处理、模式识别、机器学习、认知科学、知识处理、人工智能、知识发现、数据挖掘等。目前,该领域的研究重点主要在三个方面:1 ) 音频特征分析与抽取;2 ) 分类器的设计与实现;3 ) 音频分割方法。分类与分段是相辅相成的。由于不能利用整体信息,我们必须从局部分析出发,来找到音频类别发生变化的地方。分类可以在分段之前,这时首先要按固定长度( 如l s ) 的音频片段将连续音频流进行切分,确定每一片段的类别,得到一个类别序列,并在此基础上进行分段;分类也可以在分段之后,这时要首先找到音频信息的特征发生急剧变化的地方,并把它们作为段落的边界,然后在此基础上判断每一段中数据的类别。由于按定长的测试单元切分音频流,分界点位置不够精确。本文采用的是先分段后分类的方法。在连续音频信号流中,当从一类音频信号转换到另外一类音频信号时,这两类音频信号在某些相应音频特征上会发生明显突变,把变化出现的地方作为分割点,将音频流切分开,从而将连续音频信号分割成类别单一的音频段,然后再判别每段数据的类别。1 2 国内外研究现状连续音频流分类技术主要包括两个方面的内容:( 1 ) 将连续音频流分割成类别单一的子段,即音频分段;( 2 ) 对已经切分的音频片段进行分类。自2 0 世纪9 0 年代中期以来,研究者们纷纷从上述两个方面出发,对连续音频流分类作了深入细致第一章绪论的研究。早期的一些连续音频流分类方法通常按固定长度的音频片段将连续音频流进行切分,其研究的重点是如何从音频片段中提取反映各音频类自身特点的特征参数,消除音频内容信息对分类的影响。这些音频流分类系统,多以时域和频域的短时参数在较长时间窗内的均值或一些简单的函数关系,作为系统的特征参数。如:1 9 9 6 年,s a u n d e r s 【1 9 j 提出在2 4 s 时间窗内统计过零率和短时能量落在给定阈值范围内的帧数,以此来分辨广播中的语音和音乐,平均识别率可以达到9 8 ;1 9 9 7年,s c h i e r e r t 2 1 1 测试了低能量帧比、滚降点频率和谱通量等1 3 种时、频域特征,相比于文献 1 9 1 误识率进一步下降至1 4 。语音和音乐片段在信号波形和频谱结构方面有着明显的差异,因此上述分类算法都获得了相当不错的效果。然而当分类窗长减小以及更多复杂的音频类型被考虑进来时,这些简单的特征将无法胜任。2 0 0 2年,微软亚洲研究院l i el u 和h o n g j i a n gz h a n g 等【3 0 j 基于子带周期性和线谱对距离等特征,以分级判决方式对语音、音乐和环境音进行分类,当分类单元为l s 时上述3 类声音的识别率分别为9 7 4 5 ,9 3 0 4 和8 4 4 3 :随后他们把语音进一步分成纯语音和带背景语音,同时加入8 阶倒谱参数均值和方差,也获得了不错的效果:t o n gz h a n g t m 】等考虑了带音乐背景的语音、歌声和带音乐背景的环境音之间的分类,他们提取基频和共振峰轨迹、能量函数以及平均过零率,采用基于阈值的判决方式,平均识别率可以达至1 j 9 0 。长时窗特征参数虽然在一定程度上消除了声音内容对分类结果的影响,但它对短时特征取均值的方式会丢掉频谱分布的细节信息。而高斯混合模型( g a u s s i a nm i x t u r em o d e l ,g m m ) 能够很好刻画多维矢量在特征空间的分布,具有很强的与文本内容无关的建模能力,是连续音频流分类技术中比较常用的分类器模型。j t n :h a i n等( 1 9 9 8 年) 币n a u v a i n 等( 2 0 0 2 年) 建g _ m e l f f - | j 谱参数的g m m 模型,分别在美国国防部高级研究项目中一t , ( d e f e n s ea d v a n c e dr e s e a r c hp r o j e c t sa g e n c y ,d r p p a ) 的广播新闻数据集( b r o a d c a s tn e w s ,b n ) 和美国国家标准和技术署( n a t i o n a li n s t i t u t eo fs t a n d a r dt e c h n o l o g y , n i s t ) 评测数据集上,采用维特比搜索( v i t e r b is e a r c h ) 方式分离语音、环境音和音乐片段,该方法对语音的识别率较高。上述基于长时窗特征参数音频分类算法,由于按定长的测试单元切分音频流,分界点位置不够精确;而基于g m m 模型和维特比搜索的方法虽然能够给精确的分界点位置,但是它需要设定各类模型间的转移惩罚系数,小尺度数据集条件下难以实现,并且对非语音的识别率不高,一般仅适用于从大语料库中提取出语音片段。2 0 0 5 年,台湾省成功大学c h u n gh s i e nw u 等采用最小描述长度( m i n i m u md e s c r i p t i o nl e n g t h ,m d l ) 准则,对音频流进行多层二元分段,然后采用类似 1 4 】的分类器模型对分割后的片段进行分类,相比于测试单元固定时,平均识别率提高到8 8 ;另外,1 9 9 7 年i b m 沃森研究中心s s c h e n 等人采用贝叶斯信息准则4广播音频的分割分类算法研究( b a y e s i a ni n f o r m a t i o nc r i t e r i o n ,b i c ) 对音频流进行分段,采用自底向上( b o t t o m u p )聚类算法将分割后的子段进行类别标注;针对b i c 对短时窗分段效果不佳的缺点,2 0 0 5 年b o w e nz h o u 和j o h n nh l h a n s e n 等【3 2 】提出在短时段采用t 2 统计量和b i c 结合的方法进行分段。国内,除了前面提到的微软亚洲研究院以外,国防科技大学【4 j 、哈尔滨工业大学【l7 j 等近年来也逐步开展了与连续音频流分类相关的研究工作。1 3 连续音频流分类系统组成结构总结连续音频流分类技术的研究现状,我们可以得出连续音频流分类系统的组成结构。通常,连续音频流分类系统主要由特征提取、分界点位置侦测和分类器这三个模块构成( 图1 1 所示) 。本文采用类似于文献【】给出的连续音频流分类系统结构,下面对这类系统结构作一下简单说明。频流置序列结构序列图1 1 连续音频流分类系统结构框图连续音频流经特征提取后得到的特征序列( 通常为短时帧参数) 被送入分界点位置侦测模块,经其处理后得到“候选 分界点位置序列这里称之为“候选分界点是因为此序列中通常含有大量的虚假分界点( 即下文所说的“虚警”点) 。它们很有可能在后续分类或聚类过程被消除。分类( 聚类) 器的作用是对相邻候选分界点之间的音频片段进行类别标识,并且将同一类别的相邻音频片段进行合并,最终给出分界点位置和类别彼此对应的音频流结构序列。1 4 本文主要研究内容1 4 1 实验数据集描述目前,对连续音频流中声音类型的划分尚没有统一的说法,但基本类型都包括语音、音乐和环境音或它们的进一步细分。本文主要针对纯语音( p s p ) 、带背景语音( i s p ) 、乐器音( i n s ) 、歌声( s n g ) 和环境音( e n v ) 这五类音频进行分类和分段。我们收集了按上述5 类音频切分好的约3 小时的音频数据集,其具体描述见下表。第一章绪论表1 1 分类数据集描述类型时长说明包括不同个体、不同性别近5 0 个话者的语音,主要录自新闻播纯语音约3 0 分钟报和人物访谈,人耳听起来感觉不到明显的杂音,其语种多为( p s p )5 7 秒普通话和英语。带背景话者个数、性别分配及语种数量和纯语音相当,其中乐器演奏语音约3 0 分钟背景居多,并且也含有大量的环境背景( 如车辆噪音、掌声和欢( i s p )4 2 秒呼声等) 。人耳可以清楚地感觉到各类背景的存在,但仍然可以听清语义内容。乐器音约3 0 分钟由各种乐器和演奏方式构成,如钢琴独奏、二笛声、音乐会演( i n s )4 2 秒奏、流行音乐等。歌声约3 3 分钟主要为欧美一些经典歌曲及当前国内众多流行歌手作品中的片( s n g )1 2 秒段,及若干合唱片段。环境音约5 5 分钟大型电机的轰鸣声,汽车、摩托车等交通工具,大自然中风雨( e n v )5 2 秒雷电,动物呜叫等多种声音,以及若干静音片段。第四章的分类实验在该数据集上进行,约1 小时的数据作为训练之用,剩下的接近2 小时的数据全部作为测试集。另外我们还录制了3 段和该数据集类似的没有切分的连续音频流( 表1 2 ) ,用于第三章的分段实验以及第五章验证连续音频流分类系统的性能。表1 2 音频流切分数据集描述所含子段个数时氏纯语音带背景语乐器声歌声环境音总数( p s p )音( i s p )( i n s )( s n g ) ( e n v )s e g l约6 分钟2 5 秒1 72 l1 31 41 88 3s e 薛约1 0 分钟3 9 秒1 92 42 82 12 41 1 6s e 够约8 分钟4 4 秒2 31 81 81 92 l9 91 4 1 各章主要内容本文主要研究音频的分割和分类算法。相对于多媒体研究领域内的图像和视频处理技术,音频处理技术还很不成熟,音频分类算法在人工智能、机器学习技术的推动下发展迅速,但依然面临很多挑战,目前还没有适合于实际应用的完善的音频分类与分割系统。通过对已有的分割和分类方法的实验设计了一种适合对广播音频信号进行分割与分类的技术流程。本文后续章节的内容安排如下:第二章音频信号预处理技术与特征提取:介绍了音频信号预处理的流程及文中所用音频特征的概念及提取方法。第三章音频分割技术:介绍了音频分割的关键性技术,音频分割主要是在连续的音频中找到音频类型的切换位置,才能有效及时地对音频类型进行分类识别。在本章中,首先简单介绍了几种分割系统。然后选取两种方法:基于b i c 准则的方6广播音频的分割分类算法研究法和基于检测熵变化趋势的方法进行音频分割,从实验结果看,基于检测熵变化趋势的分割方法优于基于b i c 准则的分割方法,所以本文采用基于检测熵变化趋势的分割方法。第四章音频分类算法:介绍了高斯混合模型分类方法,重点详细介绍了高斯混合模型参数的估计方法。并测试了该方法的分类性能。第五章根据前面两章的方法,实现了一个完整的广播音频分割与分类技术流程。这个系统分为两个部分,一部分是音频的分割,另一部分是音频的分类。在系统工作的时候监测音频流的变化,通过采集的音频信息,按照基于检测熵变化趋势的分割方法对连续音频流音频特征跳变点进行监测,当系统给出分割点后,才调用音频分类模块进行处理。上面的两个步骤有机地结合在一起,就形成了对广播音频进行分割与分类的技术流程。第二章音频信号预处理技术与特征提取7第二章音频信号预处理技术与特征提取本文的音频分类系统包括音频分割和音频分类两大模块。其中音频分割模块负责将连续的音频流分割成包含相同类型音频的音频段;音频分类模块负责将分割完成的音频段识别成所定义的其中一类。无论是音频分割模块,还是音频分类模块,音频数据的采集和前端的特征提取工作都是至关重要的,它们将在很大程度上影响系统的整体性能和可靠性。特征提取指的是寻找原始音频信号表达式,提取能代表原始信号特性的数据。所选取的特征应该能够充分表示音频频域和时域的重要分类特性,对环境的改变具有鲁棒性和一般性,这里的一般性是指特征对各种类型的距离度量方法都能取得较好的结果。本章将简要介绍音频数据流的预处理技术及所选音频特征抽取的相关技术。2 1 音频信号的预处理音频信号常常可假定为短时平稳的,即在1 0 2 0 m s 这样的时间段内,其频谱特性某些物理特征参量可近似地看作是不变的。这样,我们就可以采用平稳过程的分析处理方法来处理了。以后文中所有的处理方法都立足于这种短时平稳的假设。音频信号预处理是负责语音特征参数提取前的准备工作,原始音频往往含有尖锐噪音,会影响处理效果。同时音频处理的单位是帧,所以特征提取前,需要对原始音频数据做预处理,包括预加重、切分和加窗成帧。1 、预加重处理结合人耳听觉机理,人耳能够听见的音频频率范围是6 0 h z 一2 0 k h z ,进行音频信号处理时,对音频信号进行预加重处理,它的目的在于消除低频干扰,尤其是5 0 h z或6 0 h z 的工频干扰。预加重一般在音频信号数字化后用预加重数字滤波器来实现,它一般是一阶的数字滤波器:h ( z ) = 1 一z 一( 2 1 )其中参数通常取0 9 7 或0 9 8 。也可用软件来实现,其计算表示为:y ( n ) = x ( n ) 一j l l 木x ( ,2 - 1 )( 2 - 2 )其中x ( n ) 为原始信号序列,y ( 门) 为预加重后的序列。2 、加窗分帧处理广播音频的分割分类算法研究进行了预加重数字滤波处理后,接下来就要进行加窗分帧处理。音频信号特性在很短时间区间内变化是很缓慢的,所以在这个变换缓慢的时间内所提取的音频特征保持稳定。这样,对音频信号进行处理时,首先就是将离散音频信号分成一定长度单位进行处理,即将离散音频采样点分成一个个音频帧。这种方法就是信号短时处理方法,一般一个短时音频帧持续时间长度约为几个到几十毫秒。分帧虽然可以采用连续分段的方法,但一般采用如图所示的交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移,帧移量常取为帧长的一半。分帧是用可移动的有限长度窗口进行加权的方法来实现的,即用一定的窗函数w ( 刀) 来乘以y ( n ) ,从而形成加窗音频信号蛳 ) = w ( ”) 宰y ( n ) 。时域上信号做相乘计算,相当于频域做卷积计算,因此加窗计算也可以如下表示:匕( p 徊) = 击i 】,( p 户) w ( e 八铲) d p( 2 3 )其中,聊f 吩别表示频谱。由此可见,窗口函数w ( n ) 不仅影响原信号在时域上的波形而且也影响其频域的形状。最常用的两种窗函数分别是矩形窗和汉明( h a m m i n g ) 窗。矩脑w = 怯。巍( 2 - 4 )汉阴( h a g ) 窗w = o 5 4 乩4 6 册x 。巍5 )窗函数w ( n ) 形状和长度的选择,对于短时分析参数的特性影响很大,为此应选择合适的窗口,使其短时参数更好的反映语音信号的特性变化。矩形窗的谱平滑性较好,但损失了高频成分,使波形细节丢失,并且矩形窗会产生泄漏现象;而汉明窗可以有效的克服泄漏( g i b b s ) 现象,应用范围也最广泛。窗口长度女口果很大,则它等效于很窄的低通滤波器,音频信号通过时,反映波形细节的高频部分被阻碍,短时能量随时间变化很小,不能真实的反映语音信号的幅度变化;反之,如果太小,滤波器的通带变宽,短时能量随时间有急剧的变化,不能得到平滑的能量函数,因此,窗口的长度选择应该合适,一般以1 5 3 0 m s 持续时间为宜。经过以上的处理过程,音频信号就已经被分割成一帧一帧的加过窗函数的短时信号,然后再把每一个短时音频帧看成平稳的随机信号,利用数字信号处技术来提取音频特征参数。本文对音频信号进行分帧处理,主要进行了一下考虑:实验过程中,录制音频信号采样率为4 4 1 0 0 h z ,对音频进行分帧处理时考虑音频信号采样率为4 4 1 0 0 h z ,第二章音频信号预处理技术与特征提取9取1 0 2 4 个采样点作为一个“短时帧,1 0 2 4 个采样点约为2 5 毫秒,能够满足音频信号短时稳定的特性。同时考虑到音频信号的连续性,帧迭力h 5 1 2 个采样点,迭加率为5 0 。2 2 特征分析与抽取描述音频信号是冗余度很高的随机信号,在进行音频信号处理的时候,必须经过特征提取才能有效降低信号冗余度。音频有自身的特征,例如音频有音调、音色、旋律等听觉特征和线性预测系数、倒频谱系数等物理特征。音频特征的提取是通过对音频信号的分析来获得表征音频信号的特征参数,音频特征参数是分帧提取的,每帧特征参数一般构成一个矢量,因此音频特征是一个矢量序列。通过分析音频的特征可以检测出不同内容的音频段的边缘来分割音频。m e l 频率倒谱系数( m e l f r e q u e n c yc e p s t r a lc o e f f i c i e n t s ,m f c c ) 模拟人耳的听觉感知过程,从人耳对声音频率的非线性心理感觉角度反映了声音短时幅度谱的特征,具有很好的音素级描述能力。实验表明【3 2 1 ,m f c c 更符合人的听觉特性,更能够更好地反映出不同类别的音频在人的听感中的差别,可以提高音频分类的准确度。另外,在提取m f c c 参数时用至o d c t 变换,而d c t 变换有类似k a r h u n e n l o e v e变换的性质,从而可以在一定程度消除原始序列的相关性,起到压缩数据的作用。总之,m f c c 及其动态参数从听觉感知的角度,反映了各声音信号频谱的静态和时变特征,同时具备高度压缩和良好的解卷特性。m f c c 及其动态参数的诸多优势使得它成为语音识别和话者确认的首选特征,并且近年来也被广泛地引入到音频分类领域【3 2 1 。因此本文以m f c c 及其一阶动态参数,作为音频分类系统的特征参数。m e l 频率倒谱系数( m f c c )m f c c 是在m e l 标度频率域提取出来的倒谱参数。m f c c 是在频谱上采用滤波器组的方法计算的,利用三角滤波器组对傅立叶变换能量系数滤波而得,并且对其频域进行m e l 比例变换,以更符合人类的听觉特性。m f c c 系数的基本思想是:( 1 ) 快速傅立叶变换计算频谱的倒谱系数;( 2 ) 滤波组滤波消除信号激励的扰动和偏差;( 3 ) 非线性频域尺度( m e l s c a l e ) 变换来拟合人耳的听觉系统的频率敏感度。人耳对不同频率的语音具有不同的感知能力,实验发现,在1 0 0 0 h z 以下,感知能力与频率成线性关系,而在1 0 0 0 h z 以上,感知能力则与频率成对数关系。为了模拟人耳对不同频率语音的感知特性,人们提出了m e l 频率的概念,其意义为:1 m e l 为1 0 0 0 h z 的音调感知程度的1 1 0 0 0 。m e l 标度描述了人耳对频率感知的非线性特性,它与频率的关系可用下式近似表示:广播音频的分割分类算法研究聊( 厂) = 1 1 2 5 1 0 9 ( 1 + 去) ( 2 - 6 )其中厂为频率,单位是h z 。m f c c 系数计算步骤如下:( 1 )原始音频信号s ( n ) 经过预加重、分帧、加窗等处理,得到音频帧的时域信号x ( n ) ,然后将时域信号x ( n ) 经过离散傅立叶变换( d f t ) 后得到线性频谱咒 明。设音频信号的d f t 为:一lz 。 尼】_ x ( 门) eq ”川( o ,z ,k )( 2 7 )盯= 0式中x ( n ) 为输入的语音信号,n 表示傅里叶变换的点数( 2 ) 求线性频谱x ( k ) 幅度的平方,即能量谱。通过一组m e l 尺度的三角形滤波器组,在频域对能量谱进行带通滤波。其中m e l 频率滤波器组为在音频的频谱范围内设置的若干个带通滤波器h m ( k ) ,其中心频率为f ( m ) ,m = l ,2 m ,m 为滤波器的个数,每个滤波器具有三角形滤波特性,m 值小时相邻r m ) 之间的间隔也小,随着m 的增加,相邻f ( m ) 的间隔逐渐变大,每个带通滤波器的传递函数为:h m 明=o硝后一f m - 1 )0 r 【聊+ 1 一f m - 1 0 1 ,明一a m 1 )2 ( a 历+ 1 卜k )0 1 7 刀+ 1 一a m 一1 ) 0 q ,竹+ 1 一九i n )ok f i r e - 1 九垅一1 后以硎( o z 聊 f m + l 】( 2 - 8 )它满足条件闷 0 ,h 。 尼 _ 10 尼 中心频率f ( m ) 定义3 1 1 为:m ) = 鲁( 刚m 警半)( 2 - 9 )其中磊秘分别为滤波器的最高频率和最低频率,尽为采样频率,单位为h z ,m是滤波器组的数目,为f f t 变换的点数,式中b _ 1 ( 6 ) = 7 0 0 ( e 5 1 ) 。( 3 ) 计算每个滤波器组输出的对数能量为第二章音频信号预处理技术与特征提取s ( 班) :l n ( n - 1 k ( 东) 1 2 日。( 露) ) o 掰 m ( 2 - 1 0 )( 4 ) 经离散余弦变换( d c t ) 得至u m f c c 系数c 【蚱】:m y - ! s ( m ) c o s o rn ( m + 专) m ) ,0 搬 m ,( 2 - 1 1 )c 【蚱】= + 专) ,搬,其中m 为m f c c 系数的阶数。滤波器组的个数由信号的截止频率( 通常为采样频率r 的一半) 决定,v o i c e b o x给出的经验值为m = 3 1 n f s ,由第二章知我们所收集的音频数据库统一采用2 2 0 5 k h z采样率,故滤波器组的个数取为3 0 。音频信号经过预处理之后,取帧长为1 0 2 4 点( 2 5 m s ) ,帧移为5 1 2 点,提取3 0 阶的m f c c 及其一阶倒谱作为特征参数矢量,共6 0 维。第三章音频分割技术1 3第三章音频分割技术3 1 概述音频是连续的时间序列信号,犹如不可能对几十分钟或几个小时视频一起处理一样,也不可能对持续时间很长的音频处理,所以需要对连续的音频流首先进行分割。将连续音频信号流分割成长短不一的音频单元后,需要对每个音频单元进行识别,将它们归属为不同的音频类别,如语音、音乐和环境背景音等。音频与视频一样,当从一种类型的音频信号转换到另外一种类型的音频信号时,某些听觉特征会发生变换,前后差别较大( 如从语音部分转换到音乐部分,音频的m e l 系数特征会发生明显变化) 。音频分割技术就是根据连续音频信号流在发生转变时,听觉特征之间存在差异的现象,把变化出现的地方作为分割点,将音频流切分开,从而将连续音频信号分割成包含同一种类型的音频片段,在进行后续处理。本文中将音频进行分割目的是为了后续的音频分类,这两个任务是紧密联系在一起的,选取特征的不同会造成分割结果的不同,而分割结果的不同,同样会影响识别的正确率。本文采用的是检测音频信号特征的突变来确定音频跳变点的,用计算机代替人工来对音频流进行自动分割,方便快捷。目前对音频分割技术己经有了很广泛的研究,大体上这些分割系统可以分成四类:( 1 ) 基于识别的分割方法j这种方法利用现在已经成熟的连续语音识别技术对音频数据进行识别。识别后产生的信息被用作分割时的依据。这种方法的优点是可以利用原来音频信息中的语义信息进行分割,但是由于多种复杂声学条件下的识别效果很差,从而影响了分割结果的正确性。( 2 ) 基于模型的分割方法这种分割方法根据不同类型音频的声学特征建立模型,如音乐模型,静音模型。然后用这些模型对音频数据利用极大似然准则进行检测,检测在一定长度的滑动窗的内部进行。如果在窗中间的两侧信号分别属于不同的模型,这一中间点就是信号的声学特征发生变化的点。还有的系统【3 0 】采用v i t e r b i 分割的方法用己经建立的模型对音频信号进行分割,分割是在帧同步的基础上各模型并行进行的,各模型之间的跳转附加一定的惩罚打分。最后回溯,确定各帧的声学特征。基于模型的分割方法虽然对各个模型所代表的声学特征的音频信号具有一定的区分能力,但是对于未知的声学特征没有检测能力。在进行分割时,时常会由1 4广播音频的分割分类算法研究于被分割的音频信号的声学特征的多样性而出错。( 3 ) 基于尺度的分割方法这些尺度包括k l 距离,广义极大似然比距离等距离尺度。在进行分割时,计算每一点的左右两个窗内的信号的距离,并和一定的阈值比较,如果这个距离大于一定的阈值,则这一分割点是音频信号的声学属性发生跳变的点。这种方法的优点是决策不需要先验知识,有较高的准确率,但是这种方法需要预先设定一个门限值值,这个门限值可能随跳变点左右两端信号的特征的不同而差异很大,因此缺乏一定的推广性。( 4 ) 基于假设检验的分割方法基于假设检验的分割方法类似于基于尺度的分割方法,都是以检测音频特征跳变点为主,所不同的是这种方法不是简单的计算音频数据某一点左右两段信号的距离,而是假设某分割点左右两段的信号服从某一概率分布,再根据一定的准则去检验这种假设的正确性比较有代表性的是b a y e s i a ni n f o r m a t i o nc r i t e r i o n ( b i c )跳变点检测和基于矢量量化( v q ) 的跳变点检测。本文将采用一种基于检测熵变换趋势的音频特征跳变点检测方法 0 ,并把这种方法和基于b i c 准则的跳变点检测方法做以对比,用来说明本文采用的算法具有适应较短音频段的声学特征跳变点检测和适应不同属性的声学特征跳变的检测的优点。下面首先简单介绍基于b i c 准则的声学特征跳变点检测。3 2 基于b i c 准则的音频分割方法基于b i c ( b a y e s i a ni n f o r m a t i o nc r i t e r i o n ) 准则的音频信号跳变点检测是是当前国内外最为广泛采用的跳变点检测方法。基于b i c 准则的跳变点检测一种基于极大似然准则的,带有模型复杂度加权惩罚项的跳变点检测方法1 3 6 l 。其基本原理如下:己知观测y _ y l ,y 2 ,y n 是一段音频信号的倒谱序列,这里n 表示音频信号的长度。这里有以下h o 、h l 两个假设。假设h 0 :y 服从n ( “,) 的正态分布。这里正态分布的分布参数可以按照下式来计算:= k = 1 ( 3 _ 1 )= 垃业n( 3 - 2 )-厶纠k = 1对于信号长度内的一个可能的分割蔚,假设h i : y l ,y 2 ,y j :) 服从n o q ,1 ) 的第三章音频分割技术1 5正态分布, y j + 1 ,y j + 2 ,y n ) 服从n ( t l ,e 1 ) 的正态分布,这里分割点j 分割原始信号所得两段信号 y l ,y 2 ,y j :) 和 y j + 1 ,y j + 2 ,y n ) 的信号长度分别为1 和飓。则此时两个高斯模型的模型均值参数和方差参数可以分别按照下面的公式来计算:舻( 3 - 3 )-。= 垃掣( 3 _ 4 )厶1 一厶l( 3 一)k = l2 = ( 3 - 5 )k = j + l7ne2 = 垃掣( 3 _ 6 )k = j + l如果j 是音频信号内的真实跳变点,也就是说这个分割点把信号分割成的两部分信号分别属于不同性质的信号,则它应满足:b i c ( ) = l o gi j 一,l o gi 。j 一:l o gi :j 一九p( 3 7 )其中,九是惩罚因子,取值范围0 2 1 8 ,p 是与模型复杂度相关的惩罚项:p = o 5 ( d + o 5 d ( d + 1 ) ) l o g ( n ) ,d 是特征空间的维数。基于b i c 准则的音频信号跳变点检测,不是采用滑动窗的方法来检测一段连续的音频信号的跳变点,而是采用数据积累的办法,只要没有检测到声学特征跳变点,就在现有待检测数据集的基础上,附加新的数据构成新的待检测数据集,对这些数据应用b i c 准则进行判别。这种检测机制的优点是能够利用以前的音频信号信息,能有效地对当前信号段声学特征的跳变点进行检测。但是这种数据积累的办法会产生误差积累,如果前一个分割点的判断有错误,这种错误会向下传播,影响下一个声学特征跳变点的正确检测。基于b i c 准则声学特征跳变点检测的最大的缺点还是在于它的门限选择,虽然( 3 - 7 ) 式有很好的统计学理论基础,但是在实际应用时,不同的音频信号千差万别,不同的声学特征跳变点所对应的b i c 值差异很大,即使对两类相同的声学特征跳变数据的长度不同b i c 值的差异也很大。因此这种要求声学特征跳变点的b i c 值大于零的检测方法很难检测到各种不同属性的声学特征跳变点,具有一定的局限性。通常情况下,b i c 准则大于0 的要求对于持续时间较长的两段不同特征的音频的跳变和声学特征差异比较大的两段音频的跳变,这种方法可以较好的检测到声学特1 6广播音频的分割分类算法研究征跳变点,但对于较短的音频信号,常常由于发生跳变的两段音频的声学特征差异的大小不同使得b i c 的值差异很大,这样就需要对不同的声学特征跳变使用不同的门限值。不同的声学特征跳变需要不同的门限值是限制基于b i c 准则的跳变检查法对所有的声学特征跳变都进行有效检测的主要原因。3 3 基于检测熵变换趋势的音频信号跳变点检测基于检测熵变换趋势的音频信号跳变点检测方法是依靠检测音频信号内部的信息熵的变换趋势来进行声学特征跳变点检测的。在一个固定长度的信号窗的内部,任何一个信号点都会把这段信号分成两部分,本文把这样的点称作信号窗内的分割点。每一可能的分割点分割出的两段信号的信息熵之和被定义为这个分割点的分割熵。基于检测熵变换趋势的音频信号跳变点检测方法就是根据信号窗内的各个分割点的分割熵随时间的变化趋势来确定信号窗内部的音频特征跳变点。下面详细阐述这种算法:观测y = y l ,y 2 y n 是一段音频信号的倒谱序列,这里n 表示音频信号的长度。y c ( y c gy ) 是一定信号窗长范围内的一个音频信号特征跳变点,这一点左边和右边的两段音频信号分别属于不同的信号种类。这里假设在音频信号窗长范围内的任意可能的分割点人1 呵钏的左边的信号段y j e ) = y l ,y 2 ,y j 和右边的信号段y j ( o = y j + l , y j + 2 ,脚) 分别服从n ( p j ( i ) k 内和 ( ,) ,默,) ) 的高斯正态分布,这两段信号的长度分别为n j ( o 矛nm ( r ) 。其中高斯正态分布模型分布参数可以按照( 3 8 ) 、( 3 9 ) 、( 3 1 0 ) 和( 3 1 1 ) 式分别计算。= w n j k = l ( ,)( 3 - 8 )l f j川,= 壹堕当喾型丛仔9 ,k = l,( ,)一七y k = k = j + 1 j ”,l 7j( 3 - 1 0 )( 3 - 1 1 )砷=dk第三章音频分割技术定义分割点j 左右两段信号的信息熵之和为这个分割点的分割熵,它可以用下面的( 3 1 2 ) 式计算:t = ( f ) l o g l x j ( , ) i + ( ,) l o g l z m ) l( 3 - 1 2 )这里坛,) 和n j ( r ) 分别表示这两段信号的长度。如果这一假设的分割点乃正是真实的声学特征跳变点儿,则分割点乃左右两边的两段信号的信息熵之和三,将取到极小值,表示这样的分割点所确定的分割边界最为可靠,分割出的两段信号最有序。如果所假设的分割点不是真实的声学特征跳变点儿,则分割出的左右两段信号的熵之和一定大于真实的分割点分割出的左右两段信号的熵之和。如果信号窗内根本不含声学特征跳变点,则信号窗内所有的分割点所分割的两段音频信号的信号熵之和的变化没有任何规律。虽然不同的信号窗的长度和不同类型的声学特征跳变点所对应的最小熵的数值各不相同,但是只要信号窗内有声学特征跳变点存在,则各个分割点所分割出的两段信号的熵之和的变化趋势在开始都会是一个由大变小的过程,然后在真实的声学特征跳变点处达到最小,最后在逐渐的由小变大。基于检测熵变化趋势的音频信号跳变点检测算法描述:1 先计算音频的倒谱特征,设定信号窗的长度取一个固定的值,本文的信号窗的长度取为3 0 0 帧。2 从音频的当前位置用信号窗截取的一定长度的音频,把这段音频的倒谱特征记做y = y l ,y 2 ,y n ) 。按照( 2 1 1 ) 计算信号窗内每一个可能的分割点所分割的两段信号的信号熵之和:h = h l + p o 。,h 2 + p o s ,h n 2 p o s ) ,为了防止分割点某一边的信号过少,使得估计的熵值不可信。可能的分割点被选做信号窗中间的n 一2 p o s的信号区域。3 在所有可能的分割点中,找出的分割点两边的信号的熵值之和最小的分割点j ,j 应满足:h t m i n h l + p o s ,h 2 + p o s ,h n - 2 d o s )( 3 13 )如果具有最小分割熵值的分割点,不在窗的中间部分( 可以把信号窗中间的5 0个可能的分割点作为允许发生的声学特征跳变点) ,则认为此时的检测不可信
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 杭州师范大学《软件实践》2024-2025学年第一学期期末试卷
- 湖南信息学院《区间信号及列车运行控制技术》2024-2025学年第一学期期末试卷
- 西南大学《肉制品工艺学》2024-2025学年第一学期期末试卷
- 南开大学《快速构思强化设计》2024-2025学年第一学期期末试卷
- 大庆师范学院《节事活动策划与管理》2024-2025学年第一学期期末试卷
- 太原科技大学《信息安全与技术》2024-2025学年第一学期期末试卷
- CMA内部控制制度制定与执行指导
- 江西水利职业学院《计算机辅助设计ps》2024-2025学年第一学期期末试卷
- 河北传媒学院《体育赛事组织》2024-2025学年第一学期期末试卷
- 二零二五版智能交通信号系统电缆供应合同
- 洁净手术部技术要求
- 交通工程专业英语裴玉龙省公开课金奖全国赛课一等奖微课获奖
- 物资、百货、五金采购 投标方案(技术方案)
- 隐写分析技术及应用研究
- 拼多多实操培训课
- 征地拆迁工作总结汇报
- 有管网气体消防灭火系统设计方案
- (医学课件)肾盂癌
- 2023综合基础知识题库及解析(500题)
- 生活区、办公区安全检查表
- 国际反洗钱师cams考试真题中文版题库汇总(含答案)
评论
0/150
提交评论