(通信与信息系统专业论文)音频信号分类算法研究.pdf_第1页
(通信与信息系统专业论文)音频信号分类算法研究.pdf_第2页
(通信与信息系统专业论文)音频信号分类算法研究.pdf_第3页
(通信与信息系统专业论文)音频信号分类算法研究.pdf_第4页
(通信与信息系统专业论文)音频信号分类算法研究.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(通信与信息系统专业论文)音频信号分类算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 随着多媒体技术和网络技术的发展,人们日常生活中接触到的多媒体信息越来越 多。如何有效的对这些海量的数据尤其是如音频之类的多媒体数据进行分析、存储和分 类是一个亟待解决的问题。音频分类作为当前音频分析研究领域的一个热点,在音频检 索领域有着广泛的应用。音频分类技术研究集中在两个方面,一个是表征音频内容的特 征信息的提取,另一个是分类器的实现。 本文在现有音频特征提取和音频分类技术基础上,研究了音频特征的分析和抽取, 设计了基于g m m 和h m m 的音频分类系统,实现了对静音、纯语音、音乐和带背景的 语音四类音频信号的分类。 本文的主要工作和研究成果包括以下内容: ( 1 ) 音频分类以提取的音频特征为基础,音频特征的选取要能充分体现出音频的重 要的分类特征。音频特征分析和提取是音频分类问题的基础和关键所在。本文在分析音 频信号的时域、频域和声学特征的基础上,提取了音频的帧特征和段特征,包括短时平 均能量、过零率、频谱质心、带宽、子带能量比、m e l 频率倒谱系数和基音等特征。 ( 2 ) 基于内容的音频分类器的难点是如何构造分类器,建立音频的低级声学特征和 高级类别特征之间的映射关系a 本文在分析现有的典型分类算法的基础上,分别提出了 基于高斯混合模型和隐马尔可夫模型的分类器,实现了对静音、纯语音、音乐和带背景 的语音四类音频信号的分类。 ( 3 ) 实验表明,本文提出的特征有效,分类器的性能良好。 关键词;音频分类;特征提取;分类器;混合高斯模型;隐马尔可夫模型 音频信号分类算法研究 t h er e s e a r c ho na u d i os i g n a lc l a s s i f i c a t i o n a b s t r a c t a d v a n c e si nt h em u l t i m e d i aa n di n t e m e tb r i n gm o r ea n dm o r em u l t i m e d i ai n f o r m a t i o n h o wt oa n a l y z e ,s t o r ea n dc l a s s i f yt h eh u g ea m o u n to fd a t ae f f i c i e n t l y ,e s p e c i a l l yf o rt h o s e a u d i od a t ai sa ni m p e r a t i v ep r o b l e m 。a so n eo fr e s e a r c hh o t s p o t si nm u l t i m e d i ad a t ap r o c e s s , a u d i oc l a s s i f i c a t i o nh a sb e e na p p l i e di nt h ef i e l do fa u d i or e t r i e v a l t h e r ea l et w ok e y p r o b l e m so fc o n t e n t - b a s e da u d i oc l a s s i f i c a t i o n ,w h i c ha r eh o w t oe x t r a c tm o r er o b u s tf e a t u r e s f r o ma u d i od a t aa n dh o wt oi m p l e m e n tt h ea u d i oc l a s s i f i e r 1 h st h e s i s ,w h i c hi sb a s e do nt h ee x p o u n d i n gt h ed e v e l o p m e n ts t a m so fc o n t e n t b a s e d a u d i oc l a s s i f i c a t i o nn o w a d a y s ,e m p h a s i z e dt h er e s e a r c ho na u d i oa n a l y s i sa n da b s t r a c t , c l a s s i f i e rd e s i g na n dt e s t t h e nt w oc l a s s i f i e r sw e r ed e s i g n e db a s e do ng m ma n dh m m , w h i c hc a nc l a s s i f yt h es i l e n c e ,s p e e c h ,m u s i ca n ds p e e c hw i t hb a c k g r o u n ds o u n d t h em a i nr e s e a r c hc o n t e n t sa n dr e s u l t so ft h i st h e s i sc a l lb ec o n c l u d e da sf o l l o w s : ( 1 ) a u d i oc l a s s i f i c a t i o ni sa l w a y sb a s e do n 也ea u d i of e a t u r e s a n dt h es e l e c t i o no ft h e a u d i of e a t u r em u s tb er e p r e s e n t e di m p o r t a n tc l a s s i f i c a t i o nf e a t u r e s s oa n a l y s e sa n de x t r a c t i o n o fa u d i of e a t u r e sa l et h eb a s ea n dk e yo ft h ea u d i oc l a s s i f i c a t i o n b a s e do nt h ea n a l y s e so ft h e a u d i of e a t u r e si nt h et i m ed o m a i n ,f r e q u e n c yd o m a i na n da c o u s t i c s ,t h ea u d i of e a t u r e sa r e e x t r a c t e da tf r a m e l e v e la n dc l i p l e v e l ,i n c l u d i n gs h o r tt i m ee n e r g y ,z e r o c r o s s i n gr a t e ,s u b b a n d s p e c t r u me n e r g y ,s p e c t r a lc e n t r o i d ,b a n d w i d t h ,m f c ca n df u n d a m e n t 砸f r e q u e n c y ( 2 ) t h ed i f f i c u l t yo ft h ea u d i oc l a s s i f i e ri sh o wt od e s i g nt h ec l a s s i f i e r b ya n a l y z i n gt h et y p i c a l m e t h o d so fc l a s s i f i c a t i o n ,t h i sd i s s e r t a t i o nd e s i g n e dt w oc l a s s i f i e r sb a s e do ng m ma n dh m 吁以, w h i c hm a k et h ec l a s s i f i c a t i o no ft h es i l e n c e ,s p e e c h ,m u s i ca n ds p e e c hw i t hb a c k g r o u n d s o u n dc o m et r u e ( 3 ) t h et e s tr e s u l t ss h o wt h a tt h ef e a t u r es e l e c t e da r ee f f e c t i v ea n dt h ec l a s s i f i c a t i o na c c u r a c yi sg o o d k e yw o r d s :a u d i oc l a s s i f i c a t i o n ;f e a t u r ee x t r a c t i o n ;c l a s s i f i e r ;g m m ;h m m ; 一i i 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,。本人愿意承担相关法律责任。 学位论文题目: 亟盟堡量坌茎缉墨墼堕 作者签名: 一立咄歪j 孟l 日期:4 年j 三月二堡日 大连理工大学硕士学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文: 学位论文题目: 作者签名: 导师签名: 日期:21 竺2 年卫月二兰生日 日期:2 丝2 年卫月盟日 大连理工大学硕士学位论文 1 绪论 本章对音频技术发展历史和面临的问题进行分析,以此延伸到音频分类,阐明论文 研究目的和研究意义。同时分析目前音频分类的研究现状,明确主要的研究工作,并简 要介绍论文的组织结构。 1 1研究背景和意义 在当今数字化和网络化的时代,随着数字技术的进步,互联网信息高速公路上涌现 出越来越多的图像、视频和音频等多媒体数据资料。但是面对海量的声音信息,如何从 中获取有用的信息,变得日益重要。比如人们想要检索一段包括特定内容的视频( 比如: 国庆大阅兵的镜头) ,或是想检索一段只知道某段调子的乐曲,这时文本检索就无法实 现。于是基于内容的多媒体处理技术和检索技术迅速发展。有些多媒体数据库利用媒体 对象的语义,特征进行检索,如视频中的镜头、场景、镜头的运动,音频中的声音的响 度、音调和音色等。 基于内容的检索是一项具有很强实用性的高科技技术,能广泛地应用到遥感图像处 理和医疗图像、空间探测、天气预报、建筑工程图、资料管理和公安等诸多领域。尤其 是随着互联网的发展,多媒体信息将会成为互联网上的主要信息资源,而这种应用也会 越来越广泛。 除视觉媒体外,声音媒体是最重要的媒体,蕴含着丰富的信息,不断更新着人类对 客观物质世界的认识。各行业越来越广泛的使用声音媒体。对于音频信号来说,基于内 容的音频检索是指通过音频特征分析,对不同的音频数据赋以不同的语义,使具有相同 语义的音频在听觉上保持相似,从而便于查询。而本文研究的基于内容的音频分类是基 于内容的音频检索技术的重要研究内容。 音频分类能为视频的检索和摘要、音频信息的理解提供有用的信息。将音频信号分 为纯语音、音乐、静音和带背景音的语音等有助于更好的理解音频内容,也有助于进一 步的具体操作,比如音频检索和音频编解码。但是由于原始音频数据除了含有采样率、 量化精度和编码方法等有限的注册信息外,本身只是一种非语义符号表示和非结构化的 二进制流,缺乏内容语义的描述和结构化的组织,因而音频分类受到极大的限制。所以 将音频中的结构化信息和内容语义提取出来,使无序的音频数据有序化,是音频分类技 术实用化的关键。基于内容的音频信号的自动分类,尤其是语音信号和音乐信号的分类, 做为提取音频内容语义和结构的重要手段,是当前音频分析和检索领域的一个研究热 点。 音频信号分类算法研究 音频分类做为音频结构化的核心技术,在多媒体信息处理中发挥着越来越重要的作 用。对于一段音频,首先使用音频分类进行分类和分割。如果分类的结果是一段语音, 那么就可以采用语音识别的方法来获取音频内容;如果分类结果是一段音乐,那么就采 用分析音乐的相关操作。这样,针对不同类型的音频数据采取不同的处理过程,既可以 减少处理过程的时间和空间消耗,同时也提高了音频信号处理的精度。 近几年来,音频的自动分类在视频检索和摘要、基于内容的语音检索等相关领域也 逐渐发展了起来。基于内容的语音检索机制有关键词发现和大词汇量连续语音识别等形 式,但是它们的时间和空间开销都比较大,而且检索的效果依赖于具体的语音环境。所 以如果可以先经过音频的自动分类,确定其所处的语音环境,为语音模型的自适应调整 提供有用的线索,有效提高基于内容的音频检索,视频检索,语音文档检索的效率和精 度,就可以大大提高识别精度和检索效率。因此,基于内容的音频自动分类是用户检索 和浏览的首要依据和前提: 另外,音频分类在多媒体信号的有效编码、自动语音识别、基于内容的索引和视听 数据的修复、f m 广播信号的自动选台、音乐流派分类和乐器识别、认知多媒体、辅助 视频分析、视频会议、军事、侦查等应用领域有重大的应用价值和广阔的前景。 1 2 音频分类算法的发展历史及研究现状 音频分类,就是按照一定的标准将音频信号分为不同的类别。最早的音频分类,利 用人工的方法,手动输入音频数据的各种属性,建立音频信息的属性库来支持音频数据 的分类和查询。但是人工方法不仅需要投入大量的人力物力,而且实时性也不高,因此 需要研究出一种从语义角度出发,基于内容的音频自动分类方法来管理音频信息。 上个世纪9 0 年代,国际上开始对基于内容的多媒体分类检索技术进行研究,主要 集中在基于内容的图像检索和基于内容的视频检索两个方面。而对于基于内容的音频分 类技术的研究相对滞后。直到2 0 世纪9 0 年代末,音频信息分类和检索技术领域才形成 研究热潮。 在实现音频分类的整个系统框架中,涉及到音频信号处理、统计学知识、模式识别 等学科的知识。近几年来,国内外的许多专家、学者对音频信息分类技术进行了细致的 研究,使得这个领域得到了长足的发展,逐渐成为了一个完整的体系,很大程度上推动 了音频信息处理技术的发展。目前国内外已经有很多的研究人员提出了不少有效的音频 分类算法,其中一些较为典型的方法如下。 大连理工大学硕士学位论文 2 0 世纪9 0 年代中期,美国m u s c l ef i s h 公司的e r l i n gw o l d 等人首次提出了根据内 容对音频进行分类的方法,并且开发了一个商业化的基于音频感知特性的音频检索引 擎,m u s c l ef i s h i l l 系统。在此方法中,w o l d 等人详细地分析了音频的区别性特征,从每 一首样本音乐中提取出一些时域或频域的统计特征,包括均值、方差和自相关系数等, 这些参数代表了该段音频的响度( l o u d n e s s ) 、带宽( b a n d w i d t h ) 、音调( p i t c h ) 、亮度 ( b r i g h t n e s s ) 和谐度( h a r m o n i e i t y ) 等。根据最邻近准则( n e a r e s tn e i g h b o r ) 和m a h a l a n o b i s 距 离设计音频的分类器,用于语音、音乐和其它音频数据的分类,并对语音和音乐进行深 入分析,例如分析男女声或音乐的节奏。所用数据包括铃音、电话音、语音等1 6 种共 4 0 9 个样本数据。 j o n a t h a nf 0 0 t e 提出一种基于决策树量化的方法【2 3 j 。该方法提取音频数据的1 2 阶 m f c c 系数和能量共1 3 维特征做为音频分类特征,并借鉴语音分析方法,根据极大互 信息准贝t j i ) l l 练决策树,将特征空间分为几个不重叠的区域,计算待分类音频信号特征与 这些区域的欧几里德距离或余弦距离,使用n n ( n e a m s tn e i g h b o r ) 规则做为分类器。 美国南加州大学的t o n gz h a n g 和c j k u o 提出一种启发式音频数据分割与注释方法 4 - 6 】。该方法可以将一段长时间的音频数据分段,每一段属于不同的类别,包括静音、 语音、音乐、歌曲、带音乐背景的语音和带音乐背景的环境音等。 l i s 。z 采用相位补偿滤波器组提取m f c c 系数和基音频率、子带能量等感知参数的 级联做为特征,并使用新的模式分类方法n f l ( n e a r e s tf e a t u r el i n e ) 做为分类器,用于 音频的分割和音乐内容的分析检测等方面 7 1 。 l i n 等在l i s z 的基础之上做了进一步的研究和改进,使用小波变换的方法来提取 子带能量及基音频率等特征瞵j 。这种方法得到的音频信号特征要比其他方法得到的结果 更为精确。在分类的时候,采用了一种由底向上的分类结构,并使用支持向量机( s v m ) 作为分类器,利用s v m 优秀的泛化能力,分类精确率达到9 7 o 。 目前国内对这一领域的研究还处于起步阶段,只涉及了基于内容的音频分类检索技 术的某一个或某几个研究分支,下面介绍代表性的研究组和他们的研究成果。 浙江大学人赵雪雁等提出的基于非监督机制的音频分类检索方法【9 j ,直接从压缩域 提取音频特征,采用基于时空约束的模糊聚类法对提取的特征进行降维,以加快检索的 速度,最后用相关反馈机制提高分类检索的准确率。 南京大学卢坚等提出一种基于隐马尔可夫模型的的音频分类方法【l 们,用于语音、音 乐以及它们的混合声音的分类。在该方法中,他们提取音频信号的多阶m f c c 和差分系 数a m f c c ,可以较好地反映音频信号的动态变化特性。另外,该方法采用隐马尔可夫 音频信号分类算法研究 模型来设计分类器。隐马尔可夫模型可以表示音频特征的时间统计特性,从而揭示不同 类型音频的时间统计特性,其最优分类精度达到9 0 2 8 。 微软中国研究院的j i a n gh a o 、h o n g j i a n gz h a n g 和t o n yl i n 在基于音频辅助的视频 分割方法研究【l l j 中,将音频分为语音、音乐、环境音和静音。他们基于过零率和短时能 量特征区分语音,基于带宽周期、频谱流量和噪音帧率特征区分音乐、环境音和静音, 最后采用k 邻近分类方法并结合视频颜色信息辅助视频分析,对新闻视频分段取得良好 效果。 微软中国研究院的s t a nz l i 和g u o d o n gg u o 在基于支持向量机做音频分类和恢复 的研究【l2 j 中,提取反映人的音频感知特性的m f c c 系数为特征,建立特征向量,设计 实现了基于支持向量机的音频多级分类器,为多级音频分类技术进行了有益的探索。同 时也指出,基于向量机的分类器存在训练时间长的缺点。 综上所述,在音频分类领域内,国外的研究起步较早,研究也较深入。国内研究起 步较晚,理论和实践还不够成熟。从目前研究和应用的现状来看,基于内容的音频分类 技术仍处于起步阶段,没有完全自动化和智能化。针对互联网海量数据的特点,如何快 速地进行音频分类,如何将音频分类更广阔的应用到各个领域,仍然存在很多问题需要 解决 1 3 本文的主要工作 针对目前在基于内容的音频信息处理和分类技术中存在的主要问题,本文的主要工 作是解决这些问题所涉及的一些相关技术。在研究分析前人研究成果的基础上,本文主 要解决以下两个问题: ( 1 ) 音频特征的提取 音频特征的选择和提取是音频信息进行分析的基础,也是影响分类精确度的关键技 术。特征提取主要有两种方法,一种方法是人工选取有效的特征,另一种方式是通过一 些自学习算法在众多的音频特征中自动选取有效的特征。人工选取的方式灵活、有针对 性,更符合人的听觉特性,但不具有通用性。对于自动选取的方法,大部分的音频特征 都己经有了比较规范的特征提取算法,但是具体应用时,需要根据问题进行具体分析。 由于这两种方法各自具有优缺点。因此,如何选择有针对性的音频特征构造特征向量就 成为音频处理和分类中需要解决的一个主要问题。 ( 2 ) 音频分类器的构建 大连理工大学硕士学位论文 音频分类器是指将待分析的音频数据分成不同范畴或类别的一种装置或过程。音频 分类器的作用是,根据提取的音频对象特征给被测对象赋一个类别标识。分类的精确度 取决于两个因素,一是提取的待处理音频对象特征值的稳定性,二是属于不同类别的音 频样本的特征值之间的差异性。如何有效地分析提取出来的音频信息,合理组织这些音 频特征是实现基于内容的音频信息分类的关键问题。因此,构建合理的分类模型是音频 分类研究中需要解决的另一个主要问题。 1 4 论文的组织结构 本文主要内容的组织结构如下: 第二章介绍音频分类的理论基础。主要包括音频内容的层次分析,音频特征的特点 和意义,以及音频特征提取方法的介绍。 第三章介绍本文设计的音频自动分类系统的总体构造,并对系统的工作原理和每个 功能模块进行详细介绍,其中主要介绍了音频帧特征和段特征的提取方法和实现。 第四章对现阶段经典的音频分类器做简单介绍,基于各个分类器的特点,提出了本 文实验中用到的两个分类器:基于高斯混合模型和基于隐马尔可夫模型的分类器。同时 详细介绍了这两个模型的概念、训练、参数初始化和模型中的关键算法。 第五章主要是音频分类系统的实现及其性能的测试。通过实验测试预加重系数、 m f c c 维数、g m m 阶数和h m m 状态数对系统分类精度的影响,最后测试两个分类系 统的分类精度并比较结果。 第六章对本文的工作进行总结,并提出下一步的工作期望。 1 5本章小结 本文主要介绍音频分类研究的研究背景和发展情况,对现有的主要研究成果做简单 介绍,在此基础上提出本文的主要工作。 音频信号分类算法研究 2 音频分类的理论基础 基于内容的音频分类,是从音频数据中提取音频特征,建立音频数据的表示方法和 数据模型,并基于建立的模型对待处理的音频数据流进行类别划分。基于内容的音频分 类涉及到音频数字信号处理、语音识别、认知科学模式分类和识别等多个领域和相关技 术。 通过音频数据的主题或者类别信息,用户能够获得音频信息在内容上的二_ 个全局认 识,所以主题或者类别信息通常是用户检索和浏览的首要依据。在音频分类过程中,需 要计算音频信号的相似度。相似性检索是音频检索的重要特点,所以音频分类是音频相 似性检索的核心问题。另外,音频分类对于提高语音识别的精确度也具有重要的意义。 所以,基于内容的音频分类具有重要意义和应用价值。 2 1音频的概念 音频( a u d i o ) 信号是语音、音乐和音效有规律的声波频率、幅度变化的信息载体。音 频携带信息量大、精细、准确,是多媒体信息中的一种重要媒体。 根据声波的特征,可把音频信息分类为规则音频和不规则声音。其中规则音频可以 分为语音、音乐和音效。规则音频是一种连续变化的模拟信号,可以用一条连续的曲线 来表示,称为声波。声波有三个重要参数:频率、幅度和相位,决定音频信号的特征。 人耳能够听到的音频频率范围是2 0 h z 2 0 k i - i z ,其中语音分布在3 0 0 h z 3 4 0 0 h z 之内, 而音乐和其他自然声响则分布整个范围。 模拟的声音信号经过抽样和量化后就成为数字音频信号,可以用来传递信息、情感 和意向,是人类最常用的消息传递方式。声音三个主要的主观属性如下【1 4 j : 1 ) 音调:声音的高低叫做音调( 也称响度) 。音调主要由声音的频率决定,同时也与 声音强度有关。对定强度的纯音,音调随频率的升降而升降。对一定频率的纯音,低 频纯音的音调随声强增加而下降,高频纯音的音调随强度增加而上升。 2 ) 音强:又称音量,即声音的强弱程度。声音的强弱由发音时发音体的振动幅度( 简 称振幅) 决定,两者成正比关系,振幅越大则音越“强”,反之则越“弱”。 3 ) 音色:声音的特色,指声音的感觉特性。不同发声体由于其材料、结构的不同, 发出声音的音色也就不同,这样就可以根据音色分辨不同的发声体。在同一音高和同一 声音强度的情况下,根据音色不同也能区分出不同乐器或人。 大连理工大学硕士学位论文 获取音频信息的渠道多种多样,其中包含的音频内容也千差万别,但不同内容的音 频信息所包含的音频类别可能相对固定。目前在音频处理领域,主要涉及到的音频信息 的种类包括有线通讯或无线通讯中的音频、新闻广播中的音频、体育视频伴随的音频以 及计算机合成音频。 分析不同的音频数据,可以把千差万别的音频数据分为语音、音乐、噪音和静音。 下面进行具体介绍。 语音,即语言的声音,是语言符号系统的载体。语音是有用信息量最大的音频媒体, 由人的发声器官发出,并且负载着一定的语言意义。语言的声音和语义紧密联系,因此, 语言是一种声音,但与一般的声音有本质的区别。语音信号的频谱能量主要集中在 3 0 0 3 4 0 0h z 的范围内。根据发声方式,可以把语音分成两种。一种是浊音( v o i c e ) ,它 通过声f - ( e p i g l o t t i s ) 的周期性开合,胸腔的气流通过声道共振产生,其中声门开合的频 率是基音频率。另一种是清音( u n v o i c e ) 。发清音时,人的声门完全封闭,声道将口腔内 残存的空气释放出来而发声。准确地从音频流中提取出有用的语音段,是语音识别和说 话人识别研究的关键基础,有重要的实际应用意义。 音乐,通常解释为一系列对于有声和无声信号时间性的组织,并含有不同音阶的节 奏、旋律及和声。音乐也是一类重要的音频信息,与人声生活情趣、审美情趣、言行、 人际关系等有一定的关联。一般来说,音乐音调的覆盖范围远远大于语音的音调,它的 带宽可以跨越三个8 度音阶( o c t a v e ) ,达到1 6 k h z 。同时,音乐中的音符具有明显的谐 波结构( h a r m o n y ) 。考虑到音乐的连续性,这种谐波结构在较长的时间里具有一定的稳 定性。音乐的识别有重要的实际应用。如在新闻广播音频中,为了准确切分新闻视频故 事单元,从中识别出片头音乐非常关键,而音乐的识别很大程度上运用音乐信号本身的 谐波结构。 静音,是指无音频内容信息的声音。 噪音,是与音频信息内容无关的声音。噪音可以由很多不同的原因产生。但是,无 论哪种噪声,一般都没有稳定的谐波结构,而且带宽范围也更大。对于噪音和静音,首 先要识别出来,然后从音频流中去除。静音和噪音在语音和音乐等主要音频类中的出现 具有一定规律,在静音、噪音识别基础上,设计新的音频特征可以有效提高语音与音乐 的分类准确度。 本文研究对象主要是纯语音、带背景音的语音、音乐和静音等几类音频。 音频信号分类算法研究 2 2 音频内容的层次结构 音频媒体内容既有多媒体内容的共有特性,也有不同于其他媒体的特殊内容。音频 数据和其他媒体信息二样,除了含有采样频率、量化精度、编码方法等有限注册信息外, 本身仅仅是一种非语义符号表示和非结构化的二进制流,缺乏内容语义的描述和结构化 的组织。另一方面,从底层的物理内容到高层的语义内容,音频内容的层次结构可分为 四个层次级别【l 孓1 8 j ,最低层的采样数据级、中间层的物理样本级、声学特征级和最高层 的语义级。从低级到高级,内容逐级抽象,内容的表示逐级概括。如图2 1 所示。 感知特征:音调、音高、旋律、节奏 声学特征:能量、过零率 音频结构化表示 图2 1 音频内容分层描述模型图 f i g 。2 。1 m o d e lo fa u d i oc o n t e n td e l a m i n a t i o nm o d e l 最低层是采样数据级,是对声音信号采样后得到的结果,有振幅和频率等信息。实 际上它是二进制串,从数据本身来说毫无意义,所以在分类检索中一般需要借助高层的 内容。 在物理样本级,音频内容呈现的是流媒体形式,用户可以通过时间刻度,检索或调 用音频的样本数据。例如常见的音频录放程序接口。 次高层是声学特征级,从音频数据中提取。一些听觉特征表达了用户对音频的感知, 可以直接用于检索分类。还有些声学特征用于语音的识别或检测,支持更高层内容的表 示。另外还有音频的时空结构。 大连理工大学硕士学位论文 最高层是语义级,是音频内容、音频对象的概念级描述。具体来说,在这个级别上, 音频内容是语音识别和检测的结果,音乐旋律和叙事的说明以及音频对象和概念的描 述。 其中的物理样本级属于非表现属性,而声学特征级和语义级属于表现属性。在基于 内容的音频分析中,最主要关心的是声学特征级和语义级的内容。 2 3 音频分类系统 基于内容的音频分类,就是根据音频信号的内容语义和上下文联系将要处理的音频 对象分为不同类别。从本质上来说,音频分类是一种模式识别过程。当前绝大多数音频 分类系统都采用图2 2 所示框架。 由图2 2 中可以看出,一般的音频分类系统主要包括以下几个模块:预处理模块、 特征提取模块、分类器训练模块和测试模块。下面简单介绍各个模块的功能: 图2 2 音频分类器的结构图 f i g 2 2a u d i os i g n a lc l a s s i f i c a t i o na l g o r i t h ms t r u c t u r e 预处理模块,主要是为后期的音频信号处理做准备。人耳听到的原始音频是连续的 模拟信号,而计算机只能处理数字化的信息,所以要对原始信号进行采样处理。将不周 存储格式( w a v 、m p 3 ) 和不同规格( 采样率、声道数) 的输入数据,转换成统一的存储格 式和规格,即w a v 、1 6 k h z 和单声道音频信号。同时,由于原始音频中含有一些噪音, 会对处理效果产生影响,所以也需要对原始音频进行相应的预处理,包括预加重、切分 和加窗分帧等。 特征提取模块是系统构建的关键。主要负责研究音频信号的特征参数,提取反应音 频信号的特征参数。早期的音频特征主要有短时能量、静音率、过零率、基频、和谐度、 谱中心j 频谱和子带能量,后来又引入线性预测系数( l p c ) 、l p c 倒谱系数( l p c c ) 、 音频信号分类算法研究 线谱对参数( l s p ) 、短时频谱、共振峰频率、反应人耳听觉特性的m e l 倒谱系数( m f c c l 及其动态参数等多种时频域特征。 分类器训练模块主要负责研究上述的若干个分类器模型,选择适合本课题研究内容 的分类器模型,并确定分类器结构中待确定的几个参数值。然后选取若干个音频信号做 为分类器的训练集,提取每段训练集的音频特征来训练模型,从而得到音频分类器。目 前常用的分类器大多数基于数学统计模型,包括基于高斯模型的分类器、基于神经网络 的分类器、基于支持向量机的分类器和基于隐马尔科夫模型的分类器。 分类器测试模块的任务是测试上一步训练出来的分类器。将预知类别的测试信号输 入到分类器中,记录分类结果,最后统计出分类精确度。 2 4 音频特征提取相关知识 特征提取是指寻找原始音频信号的表达式,提取能代表原始信号的数据。音频特征 提取是分类器设计中一个非常关键的技术,分类器分类的准确率很大程度上取决于提取 的音频特征的特性。选取的特征应该能够充分表示音频时域和频域的重要特征,对环境 的改变具有鲁棒性和一般性。 原始音频信号的表示是一种时域的表示方式,表示信号幅度随时间的变化规律。但 是数据冗余庞大,不能直接使用。因此使用数字信号处理技术来提取音频特征,通常分 为时域分析、频域分析和倒谱分析( 或称同态分析) 。其中,时域分析方法主要是针对音 频信号的波形;频域分析方法主要是涉及音频信号的频谱分析,常用的方法包括傅立叶 变换、离散余弦变换和线性预测分析等;而音频的倒谱分析是通过将音频信号进行同态 分析,得到音频的倒谱参数,从而进一步分析,主要方法有线性预测倒谱分析和m e l 频率倒谱分析等。 音频是一个非平稳随机过程,其特性随时间变化。但是音频信号具有短时平稳特性, 即在一段短时间间隔内( 1 0 m s - 4 0 m s ) ,音频信号呈现一定的稳定性。在传统的音频处理 和语音处理研究领域,更多的是考虑音频信号的短时特性。因此,大多数操作在音频帧 ( a u d i of r a m e ) 的基础上进行。音频帧是指音频信号中的一小段音频信号。在音频帧基 础上提取出来的音频特征叫做音频帧特征。另夕 本文中用到了音频段特征,音频段是比 音频帧更长的音频信号。音频段特征在音频帧特征的基础上计算。对构成音频段的所有 音频帧,计算音频帧特征的均值、方差和标准差等统计量,得到音频段特征。 大连理工大学硕士学位论文 常用的音频帧特征大致可以分为三类:时域特征( t i m ed o m a i nf e a t u r e s ) 、频域特征 ( s p e c t r a ld o m a i nf e a t u r e ) 和声学感知特征( p e r c e p t u a lf e a t u r e ) 。下面具体介绍每一类音 频特征。 常见的时域特征包括:过零率( z e r o c r o s s i n gr a t e ) 、短时平均能量( s h o r t t i m e e n e r g y ) 、音量( v o l u m e ) 和自相关系数( a u t o c o r r e l a t i o n ) 等。常见的频域特征包括: d f t 系数、频谱质心( s p e c t r u mc e n t r o i d ) 、带宽( b a n d w i d t h ) 、子带谱能量( s u b b a n d s p e c t r u me n e r g y ) 、l p c 系数( l i n e a rp r e d i c t i o nc o e f f i c i e n t s ) 以及m e l 倒谱系数 m f c c ( m e l f r e q u e n c yc e p s t m mc o e 伍e i e n t s ) 等。声学感知特征是一些声学上定义的概 念,更多考虑了人的听觉感知特点,可以通过时域或频域上的特征计算得到,但计算比 较复杂。常见的声学感知特征包括:音调( p i t c h ) 、节奏( r h y t h m ) 和音色( t i m b r e ) 。 常见的音频段特征包括:低能量比( l o we n e r g yr a t i o ,l e r ) 、高过零率比( h i g hz c r r a t i o ,i - i z c r r ) 、噪音比例( n o i s er a d i o ,n r ) 、频谱变迁( s p e c t r a lf l u x ) 、平滑p i t c h 率s p r ( s m o o t h e dp i t c hr a d i o ) 、带宽均值和频谱质心均值等。 本文用到了上述某些音频帧特征和音频段特征。 2 5 本章小结 本章主要介绍了音频分类的理论基础,包括音频概念、音频内容的层次结构、r 音频 分类系统和音频特征提取的相关知识。 音频信号分类算法研究 3 自动分类系统的总体架构 3 1 系统结构简介 本文针对实际应用中对音频信号分类的需求,采用了一系列的方法对音频信号进行 分析研究,提取音频信号的特征,基于不同的规则训练模型,实现了不同规则下分类器 的设计。用一定的技术手段对音频信号进行自动分段和自动识别,设计了基于内容的音 频分类系统。其结构如图3 1 所示。经过测试获得了较为理想的结果。 图3 1 音频分类系统的总体结构 f i g 3 1s t r u c t u r eo fa u d i oc l a s s i f i c a t i o ns y s t e m 大连理工大学硕士学位论文 由图3 1 可以看出,本文设计的系统主要包括三大层次:帧级分析、段级分析以及 分类器分析。帧级分析是将原始的音频数据流在预处理之后,加窗,切分成音频帧,帧 是音频分析的基本单位,对每一帧提取音频特征;在帧级分析的基础上,进行段级分析。 将整个音频流分成几个片段。每个音频片段由若干个音频帧组成。基于组成每一片段的 音频帧的帧特征,计算其段特征,作为下一步音频分类器分析级的输入;分类器分析级 接收音频信号的段特征,基于不同的统计模型原理,训练数据,保存结果,构建分类器。 最后一步就是对构建的分类器测试其分类精确度。 在整个分类系统中,每个模块之间都是互相联系,相辅相成的。比如预处理模块中 的预加重和分帧等操作是后续所有的音频信号处理操作的基础。特征提取模块在整个系 统中的所起的作用尤为关键。因为系统的识别率很大程度上取决于提取的特征是否能够 很准确的代表原始音频信号。本论文从声音数据中提取了较为全面的声学特征,构成了 3 5 维的一个特征向量集j 基于提取的特征集,采用了g m m 模型和h m m 模型设计分类 器。基于各个模型自身不同的特点,给出了不同的设计方案实现音频信号的分类。最后 是测试模块,主要就是对所设计的系统分类识别率给出一个量化的评估。三大部分中, 每一部分还具体分为几个小的模块。下面将分别对每一模块进行具体介绍。 3 2 音频数据预处理 音频数据预处理模块主要实现以下几个功能: ( 1 ) 将不同存储格式、不同采样率和不同声道数的音频数据,统一转换成采样率为 1 6 k h z 的单声道的w a v 格式的音频数据。 ( 2 ) 对原始音频数据做预加重( r e e m p h a - s i z e d ) 处理。若设原始音频信号表达式为 工伽,预加重后的信号表达式为y 例,则预加重的处理过程如下: y ( 玎) = x ( 以) 一a x ( n 一1 ) ( 3 1 ) 本文通过实验得出当a 取o 9 7 时,分类效果最好。经过预加重,可以提高音频信号 的高频分量,减少尖锐噪音的影响。 ( 3 ) 对预加重之后的信号进行加窗分割,形成音频帧,为音频信号的特征提取做准 备。本文采用的6 4 0 点h a m m i n g 窗,帧移为1 6 0 点。因此经过汉明窗分帧之后形成的 音频帧为4 0 m s 的音频帧。 3 3 基于音频帧特征的提取 音频帧是音频信号分析中最小的单位。音频特征分析和提取是音频分类的基础,所 选取的特征应该能够充分表示音频时频域的重要分类特征,对环境的改变具有鲁棒性和 音频信号分类算法研究 一般性。通过一定的数学方法计算出每帧的特征值,然后在此基础上计算音频信号的 段特征。本文音频特征提取的流程如图3 2 所示。由图可以看出,帧特征是段特征提取 的基础。所以帧特征的提取部分是整个音频分类系统中非常关键的部分。下面详细介绍 本文设计到的音频帧特征的提取。 图3 2 音频特征提取流程图 f i g 3 2e x t r a c to fa u d i os i g n a lf e a t u r e 3 3 1 短时平均能量 短时平均能量( s h o r tt i m ee n e r g y ) 的定义如下: 大连理工大学硕士学位论文 s t e = z 2 ( 刀) ( 3 2 ) 其中x ( n ) 表示音频帧的第刀个采样点,表示一帧内采样点的个数。短时平均能量s t e 可 以用来判断静音帧。如果某一帧的s t e 小于阈值,则认为该帧是静音帧,否则是非静音 帧。对于静音帧,应该在分类器之前去除。而对于非静音帧,应该提取其更多的音频特 征。 同时,短时平均能量s t e 是区分音乐和静音的有效特征。通常,语音中含有比音乐 中更多的静音,因而,语音的平均能量的变化要比音乐中的大很多。 3 3 2 过零率 过零率( z e r o c r o s s i n gr a t e ) 是指在一个音频帧内,离散采样信号值由正到负和由负 到正的变化次数。过零率描述的是信号过零的速度,是信号频率量的一个简单的度量, 其计算公式如下: z c r = 忐z i s g n x ( n + 1 ) j s g n x ( n ) f ( 3 2 ) 2 ( n 1 ) 删 其中x ( n ) 是离散采样信号,表示一帧内采样点的个数。 语音过零率能量分析 音乐过零率能量分析 图3 3 语音音乐信号的过零率图 f i g 3 3z e r o c r o s s i n gr a t eo fs p e e c ha n dm u s i cs i g n a l s 音频信号分类算法研究 语音和音乐信号过零率如图3 3 所示。由图中可以看出,语音信号的过零率幅度变 化比较明显,而音乐的过零率变化比较平稳。因为语音中的清音成分比浊音成分有更高 的过零率。过零率可用来区分语音和音乐两种不同音频信号【2 们。另外,过零率与短时平 均能量结合起来还进行语音信号的端点检测。 3 3 3 子带能量比 子带能量( s u b b a n ds p e c t r u me n e r g y ) 比用来描述音频信号频率分布的频域特征。它 衡量了不同子带的能量占整个频带能量的比例,每个子带的宽度可以是等长的,也可以 按照人耳的感知特性分配每个子带的宽度,使得每个子带包含相同个数的临界带宽。子 带能量比的计算公式如下: f 兰 凡 l d f t ( n i 尼) f b a n d s p e c l = l 一,i = 1 , 2 ,b ( 3 3 ) 9 f r ( n ,七) i k = l 其中,d f t 是信号的傅立叶变换系数。实际计算时,b 的取值为4 。也就是将频域分为 4 个倍频子带区间。分别为s b 。 0 ,c o o 8 ,s b 2 c o o 8 ,c o o 4 ,s b 。 o ) 0 4 ,c o o 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论