(系统理论专业论文)基于内容的音频分类与识别.pdf_第1页
(系统理论专业论文)基于内容的音频分类与识别.pdf_第2页
(系统理论专业论文)基于内容的音频分类与识别.pdf_第3页
(系统理论专业论文)基于内容的音频分类与识别.pdf_第4页
(系统理论专业论文)基于内容的音频分类与识别.pdf_第5页
已阅读5页,还剩82页未读 继续免费阅读

(系统理论专业论文)基于内容的音频分类与识别.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着计算机技术、网络技术和通讯技术的不断发展,音频、图像和视频等多 媒体数据约占互联网信息高速公路上所传送的数据的7 0 ,其中声音媒体是除视 觉媒体外最重要的媒体形式,各行各业对声音媒体的使用越来越广泛。因此,基 于内容的音频处理和分类已成为多媒体处理、信息检索及数据管理研究领域的重 要课题之一。本文在认真分析和总结前人研究成果的基础上,重点解决了音频结 构分析、音频信号预处理、特征分析和提取、音频聚类、基于s v m 的音频分类及 基于b p 网络的音频分类等问题。 本文的工作主要包括以下内容: ( 1 ) 对原始的音频信号进行基本处理,包括对音频信号进行分帧、加窗和 端点检测等预处理工作。 ( 2 ) 分析了语音、音乐和噪声的声学特性,抽取了各类音频的时域及频域 特征的相关特征,其中包括短时过零率、平均短时能量、频谱能量、频谱质心、 美尔倒谱系数等,并对部分帧特征值进行了统计,得出了高过零率比例、低短时 能量比率、静音帧比率、平滑基音帧比率等特征。 ( 3 ) 设计并实现了多种分类算法。本文分析了支持向量机的数学模型,设 计了用于音频分类的支持向量机,并对样本库中的语音、音乐、带音乐的语音及 噪音等音频数据进行了分类实验。本文还研究了另一种常用的模式分类器b p 神 经网络,分析了b p 网络的训练及识别过程,并设计了具有一个隐含层的三层前 馈网络,重点对音频样本库中语音、音乐和噪声做了分类实验。 ( 4 ) 实现了有关汉语普通话声调识别的实验。分析了汉语的声调特征,提 取了能体现声调特性的相应特征,采用支持向量机及b p 神经网络作为分类器, 对连续汉语语音做了声调识别实验,并对结果进行了比较。 实验表明,本文提取的音频特征基本有效,分类效果良好。随着后期研究的 深入,所取得的成果将具有一定的应用价值。 关键词:音频分类,音频特征分析,支持向量机,b p 神经网络 a b s t r a c t w i 也t h ec o n t i n u o u sd e v e l o p m e n to fc o m p u t e r , n e t w o r ka n dc o m m u n i c a t i o nt e c h n i q u e s ,a u d i o , i m a g ea n dv i d e om u l t i m e d i ad a t a si sa b o u t7 0 o ft h ed a t a st r a n s m i t t e do nt h ei n t e r n o t a m o n g t h e m ,a u d i om e d i ai st h em o s ti m p o r t a n tf o r mo fa l lm e d i ae x c e p tv i s u a lm e d i a t h ea u d i om e d i a i sm o r ea n dm o r ew i d l yu s e di na l lk i n d so fd o m a i n s t h e r e f o r e ,c o n t e n t - b a s e da u d i op r o c e s s i n g a n dc l a s s i f i c a t i o nh a v eb e c o m ea l li m p o r t a n ti s s u eo ft h er e s e a r c ho nm u l t i m e d i ap r o c e s s i n g , i n f o r m a t i o nr e t r i e v a la n dd a t am a n a g e m e n t i nt h i sp a p e r , b a s e do i lc a r e f u l l ya n a l y z i n ga n d s u m m a r i z i n gt h er e s u l t so fp r e v i o u ss t u d i e s , w ef o c u s e do ns o l v i n gt h es t r u c t u r ea n a l y s i s , s i g n a l p r e p r o c e s s i n g ,a n df e a t u r ee x t r a c t i o no f t h ea u d i o a l s o ,t h ea u d i oc l u s t e r i n g ,a u d i oc l a s s i f i c a t i o n s b a s e d0 1 1s v ma n do nb pn e u r a ln e t w o r kw o r ed i s c u s s e di nt h i sp a p e r t h er e s e a r c hw o r ko f t h i sp a p e rc a nb ec o n c l u d e da sf o l l o w : ( 1 ) p r o c e s s i n go f t h eo r i g i n a la u d i os i g n a l s , i n c l u d i n gt h ea u d i os i g n a l sf r a m i n g ,w i n d o w i n g a n de n d p o i n td e t e c t i o np r 印r o c e s s i n g ( 2 ) t h ea c o u s t i cf e a t u r e so fv o i c e ,m u s i ca n dn o i s ew e r ea n a l y z e d t h ef e a t u r e so fv a r i o u s t y p e so fa u d i ow e r ee x t r a c t e d , i n c l u d i n gs h o r t - t i m ez e r o - c r o s s i n gr a t e ,a v e r a g es h o r t - t e r me n e r g y , e n e r g ys p e o z l 】m ,s p e c t r u mc e n t r o i d , a n dm e lf r c q u e n o jc e p s t r a lc o e f f i c i e n t s ,e t c b a s e do nt h e s t a t i s t i c so fs e v e r a lf la m ef e a t u r e s ,w eo b t a i n e dh i g ez e r o - c r o s s i n gr a t er a t i o ,l o ws h o r t - t i m e e n e r g yr a t i o ,s i l e n c ef r a m er a t i o ,a n ds m o o t h e dp i t c hr a t i of e a t u r e s ,e t c ( 3 ) s e v e r a lc l a s s i f i c a t i o na l g o r i t h m sw e r ed e s i g n e da n di m p l e m e n t e d b a s e do nt h ea n a l y s i s o ft h em a t h e m a t i c a lm o d e lo fs v m , w ed e s i g n e das v mt oc l a s s i f yv o i c e ,m u s i c ,a u d i os i g n a l s w i t hm u s i ca n dn o i s ed a m s ,w h i c hw e r es t o r e di nt h es a m p l el i b r a r y a n o t h e rc l a s s i f ym o d e l , b p n e u r a ln e t w o r k , w a sa l s os t u d i e di nt h i sp a p e r , w h i c hi sc o m m o n l yu s e d a f t e rt h ea n a l y z et h eb p n e t w o r kt r a i n i n ga n dr e c o g n i t i o np r o c e s s ,at h r e e - l a y e r sf e e d - f o r w a r dn e t w o r kw i t ho n eh i d d e n l a y e rw a sd e s i g n e dt oc l a s s i f yt h ev o i c e , m u s i ca n dn o i s e ( 4 ) r e c o g n i t i o ne x p e r i m e n t so nm a n d a r i nt o n ew o r em a d e t h ef e a t u r e so fc h i n e s e m a n d a r i nt o n ef e a t u r e sw e r ed i s c u s s e da n de x 臼a c t e d u s i n gs v ma n db pn e u r a ln e t w o r ka s c l a s s i f i e r , t h ec h i n e s ec o n t i n u o u ss p e e c ht o n er e c o g n i t i o ne x p e r i m e n t sw e r ed o n e e x p e r i m e n t ss h o wt h a tt h e a u d i of e a m r 伪m 锄淝di n t h i sp a p e ra r ee f f e c t i v e ,a n dt h e c l a s s i f i c a t i o nr e s u l t sa r eg o o d w 池f u r t h e rr e s e a r c hl a t 吼t h ea c h i e v e m e n t sw i l lh a v eac e r t a i n v a l u e k e yw o r d s :a u d i oc l a s s i f i c a t i o n , a u d i of e a t u r ee x t r a c t i o n , s u p p o r tv e c t o rm a c h i n e ( s v m ) , b a c k - p r o p a g a t i o nn e u r a ln e t w o r k l v 南京信息工程大学硕士学位论文基于内容的音频分类与识别 a n n b p d c t h m m h z c r r l s t e r m f c c n f r n n s v m s f r s p r z c r 缩写词汇表 a r t i f i c i a in e u r a ln e t w o r k b a c k - p r o p a g a t i o n d i s c r e t ec o s i n et r a n s f o r m a t i o n h i d d e nm a r k o v m o d e i h i g h tz e r o - c r o s s i n gr a t er a t i o l o ws h o r t - t i m ee n e r g yr a t i o m e lf r e q u e n c yc e p s t r a lc o e f f i c i e n t s n o i c ef r a m er a t i o n e a r e s tn e i g h b o r s u p p o r tv e c t o rm a c h i n e s s u e n c ef r a m er a t i o s m o o t h e dp i l c hr a t i o z e r o - c r o s s i n gr a t e 8 1 人工神经网络 反向传播 离散余弦变换 隐马尔可夫模型 高过零率比率 低短时能量比 美尔频率倒谱系数 噪声率 最近邻 支持向量机 静音帧率 平滑基音帧比率 过零率 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。本论 文除了文中特别加以标注和致谢的内容外,不包含其他人或其他机构已经发表或撰写过的研 究成果,也不包含为获得南京信息工程大学或其他教育机构的学位或证书而使用过的材科。 其他同志对本研究所做的贡献均已在论文中作了声明并表示谢意 学位论文作者签名:搬 签字日期:三里坐咀 关于论文使用授权的说明 南京信息工程大学、国家图书馆、中国学术期刊( 光盘版) 杂志社、中国科学技术信息 研究所的中国学位论文全文数据库有权保留本人所送交学位论文的复印件和电子文档, 可以采用影印、缩印或其他复制手段保存论文,并通过网络向社会提供信息服务。本人电子 文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅, 可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权南京信息工程 大学研究生部办理 臣公开口保密(年月) ( 保密的学位沦为在解密后应遵守此协议) 学位论文作者签名:狴霪、 指导教师签名: 签字日期:垄2 1 2 :生 签字日期:出匕:丝 南京信息工程大学硕士学位论文基于内容的音频分类与识别 1 1 研究背景 第1 章前言 声音是人类获取信息和相互交流的重要途径,声音媒体是除视觉媒体外最重要的媒体形 式。对声音进行数字化处理得到的结果称为音频。作为一种信息载体,音频按内容可以分成 语音类和非语音类,非语音类包括音乐、音效和非规则声音等。语音是人类发出的含语义内 容的声音,含有字词、语法等语素,是一种高度抽象的概念交流媒体;而音乐是人声和乐器 声响等配合所构成的一种声音,具有节奏、旋律或和声等语义要素。我们能够听见的音频频 率范围是2 0 h z 2 0 k h z ,其中语音大约分布在3 0 0 h z 4 k h z 之内,而音乐和其他自然声响是全 范围分布的。 原始的音频数据除了含有采样频率、量化精度和编码方法等有限的信息外,本身缺乏内 容语义的描述和结构化的组织,是一种非结构化、非语义的二进制流,而传统的信息处理主 要是面向结构化数据的结构化数据是指数据个体间相互独立、特征易于计算机表示,并且 包含的数据可以直接从其物理表示中提取的数据。音频数据是一类复杂序列数据,本身无法 进行比较,必须提取特征。图1 1c a ) 和( b ) 分别是男人和女人发“南京信息工程大学”的音 两次完全相同的发音,波形图不完全相同,并且从图中看不出每个音有什么特点。音频数据 的非结构化组织特点给音频信息的深度处理和分析带来了很大的困难,阻碍了音频应用的发 展。因此,如何将无序的音频数据变得有序,是解决问题的关键。 基于内容的音频分类与识别是指直接对音频数据进行分析,提取音频特征和语义,利用 某些已知的音频特征和语义的对应关系构造分类器,从而实现对音频数据进行分类或识别。 基于内容的音频分类与识别是音频信息处理领域最重要的研究方向 1 2 研究目的及意义 随着信息产业的高速发展,人类社会进入数字化时代,数字信息爆炸式增长,人们对数 字信息的处理和分类检索技术产生了迫切需求,数字化信息处理技术成为新的研究热点图 像、视频、音频等多媒体数据是信息处理领域中主要的媒体形式,其中音频信息占有很重要 的地位。基于内容的音频数据自动分类与识别技术是一个十分重要的研究方向,它在基于内 容的音频检索、音频信息的深度处理及视频的辅助分析等方面起着重要作用 1 基于内容的音频检索是当前多媒体信息检索领域的一个研究热点,它在远程教学、 数字图书馆、新闻节目检索等众多领域都具有极大的应用价值。相似性检索是基于内容的音 频检索的重要特点,而音频分类需要衡量音频的相似度,因此,分类问题是基于内容的音频 检索的核心问题 1 南京信息工程大学硕士学位论文基于内窑的音频分娄与识别 羔卜 协 4 卅 l b l 男声波形图 5 6 x 疗 圈1 1。南京信息工程丈学技形田 2 音频分类是音频深度处理的基础和前提对于随机给出的一段音频首先使用音频 分类算法进行分割并分类。若判断是一段语音,那么就可咀采用语音识别的方法来获取音频 内容;若是一段音乐,那么就要采用分析音乐的相关操作。通过分类可以事先确定语音所处 的音频环境,为调整语音模型的自适应算法提供线索;从而提高语音识别的精度 3 在视频分类和检索中人们发现简单的视觉特征,如颜色,纹理、运动向量等并不 能很好地反映视频的内容和结构语义,而更高级的视觉语义特征的提取则相当困难,因此- z h u u u 等人尝试根据音频特征_ l l 练隐马尔可夫模型,对5 种视频场景进行分类,分为新闻节 目、天气预报、篮球比赛、广告和足球比赛“p a t e l 等人在m p e g 压缩数据中,利用音频 信号特征把视频分成对话、非对话和沉默三种。由此可见,基于音频内容的相关处理,对 视频分析处理也可以起到重要作用 综上所述,在目前的多媒体信息处理中,音频占有很重要的地位,但由于媒件源本身豹 特点和现有技术的制约,使得对音频信息的避一步分析利用受到了限制,而基于内容的音频 分类与识别技术可以很好解决这一问题,为音频结构化和音频信息深度分析及利用提供了坚 2 南京信息工程大学硕士学位论文 基于内容的音频分类与识别 实的基础。基于内容的音频分类和识别的研究有其重要的实际意义,而且可以肯定,随着音 频信息处理技术的不断成熟,基于内容的音频信息检索技术将为越来越多的人所关注。 1 - 3 国内外研究现状 音频处理涵盖了音频数字信号处理技术、心理声学、语言学、声乐学以及语音信号处理 技术、计算机技术和多媒体数据库技术等,是一个内容非常丰富的研究领域。针对音频处理 的研究己有很长的历史,并且在很多领域已经取得了一定的成果长期以来,科研人员从事 的主要研究领域是针对语音的识别和处理,其他领域的研究相对较晚,成果也较少,其中基 于内容的音频分类与识别技术的研究则是上个世纪末才开始的。基于内容的音频分类与识别 虽然起步较晚,但其研究的重要意义引起了众多研究机构和学者的广泛重视,目前已成为音 频处理领域中的研究热点。 1 3 1 国内研究现状 目前国内对这一领域的研究还处于起步阶段,只涉及了基于内容的音频分类和识别技术 的某一个或某几个研究分支。 南京大学计算机软件新技术国家重点实验室卢坚等人在文献【3 】中,提出一种基于隐马尔 可夫模型的音频分类方法,用于语音、音乐以及它们的混合声音的分类,最优分类精度达到 9 0 2 8 。该文中通过对多阶的m f c c 及其差分系数m f c c 的计算分析,指出了m f c c 可以 比较好地反映音频信号的动态变化特性。实验表明,隐马尔可夫模型可以表示音频特征的时 间统计特性,从而能够揭示不同类型音频的时间统计特性 浙江大学人工智能研究所赵雪雁等人在文献【4 】中提出了基于非监督机制的音频分类检 索方法,直接从压缩域提取音频特征,用基于时空约束的模糊聚类进行特征降维,加快了检 索速度,同时使用相关反馈机制提高分类检索的准确率。但压缩域特征不能完全反映音频例 子所蕴涵的内容,实验中使用的余弦距离本质是几何相似性的度量方法,如何寻找一种更好 的音频度量方法有待进一步研究 j i a n g 等人将音频分为语音、音乐、环境音和静音,基于过零率和短时能量特征区分语 音,基于带宽周期、频谱流量和噪音帧率特征区分音乐、环境音和静音,最后采用k 邻近分 类方法并结合视频颜色信息辅助视频分析,对新闻视频分段取得了息好效果嘲 u ,s 乙等人以反映人的音频感知特性的m f c c 系数为特征,建立特征向量,设计实现了 基于支持向量机的音频多级分类器,为多级音频分类技术进行了的有益的探索 6 1 。但他们也 指出基于向量机的分类器存在训练时间长的缺点。 3 南京信息工程大学硕士学位论文基于内容的音频分类与识别 c h i h - c h i e hc h e n g 等人在文献【7 】中采用e l l i p s o i d 距离方法对乐器声、男声、女声、环境 音等音频类型进行分类,使用的特征有短时能量、过零率,频率质心和频谱带宽等,分别计 算各声音类型在这些特征上的均值和标准方差,在特征的选取方法上提出采用优化的对称矩 阵衡量特征的可用度,取得了良好的实验结果,区分环境音准确率达到1 0 0 ,但对于男声 和女声的分类不是很理想,准确率分别只有6 3 和7 7 1 3 2 国外研究现状 国外较多研究机构和大型企业对音频分类和识别的研究起步较早,美国卡耐基梅隆大学、 马里兰大学、麻省理工学院、康奈尔大学、南加州大学、英国剑桥大学等都对音频信息分类 和识别做了大量的研究工作,主要集中在语音识别和基于内容音频分类两个方面,取得了许 多研究成果,一些实用系统也已经被研制出来。 语音识别( a u t os p e e c hr e c o g n i t i o n ) 的主要任务是完成语音到文字的转变。语音是人 类社会中最自然流畅、最方便快捷的信息交流方式当把语音信号转化为文字,就得到语音 信号中的文字内容或者更准确的说是文本信息,最终实现人机交互。这一问题作为语音技术 中最重要、最困难的问题得到了充分的研究,取得了令人瞩目的成就。在语音识别商业领域, m i c r o s o f t 、i b m 、p h i l i p s 、m o t o r o l a 、i n t e l 等公司都投入了大量的研发资金和技术,积极推 动了语音识别技术的发展。目前比较成功的语音识别系统有i b m 的v i a v o i c e 和m i c r o s o f t 的 s a p i ,它们都是面向非特定人、大词汇量的连续语音识别系统嘲。音频分类从语音识别领域 借鉴了许多重要的技术和成果,同时也为语音识别提供了有益的帮助。 基于内容的音频分类技术涉及多方面领域的知识;包括数字信号处理、模式识别、统计 学习和语音识别等等。虽然人们的研究思路和方法不尽相同,但是总体上研究的内容可以概 括为音频特征的提取、音频内容描述和分类等方面。 在音频分类技术的早期研究工作中,最基本的一个研究问题就是语音和音乐的区分。语 音和音乐在多方面有着显著的区别,例如音调、频带宽度、能量口m 等文献1 1 1 】利用过零 率和短时能量特征,采用门限比较的方法,试验取得了很好的效果。文献 1 2 1 使用了时域、 频域和倒谱域共1 3 种特征,并使用了一些基本的分类方法( m a p , k n n ) ,取得了一定的效 果。这两种方法的试验结果均给出了9 0 以上的识别效果。这也说明了,语音和音乐具有明 显不同的谱分布和短时变化模式,因此,并不难产生一个好的识别结果。声音信号的进一步 分类需要考虑更多的信号,文献【1 3 】研究了音乐、语音和其它声音三类信号的分类问题,先 根据在一个窄带频域中存在一定峰值的信号的平均时间长度,将音乐信号提取出来;然后, 根据基频的轨迹提取语音信号他们将这种方法用在了新闻故事的解析上。文献【1 4 】也提出 了一种类似的声音分类方法,将声音分为语音、笑声、非语音( 例如音乐) 以及其它无用的 4 南京信息工程大学硕士学位论文基于内容的音频分类与识别 信息,并把语音按照说话人进行分类。该方法采用倒谱系数作为特征,并使用h m m s 的建 模作为分类器。文献【1 s 】贝u 针对声音物理属性以及心理学上的听觉属性和生理属性,从幅度、 频率、基频以及人类声音感知的模拟出发,提取特征分割数据流和识别音乐这些特征也可 用于对包含暴力信息的声音检测【l 司。针对语音、音乐、环境噪声和静音的典型分类系统还有 文献【1 7 】。该系统使用了高过零率比率、低短时能量比率、谱通量、噪音帧率等特征,采用 自顶向下基于规则的区分方法,首先利用前两种特征,区分语音和非语音,然后利用后两种 特征进一步分类为音乐、环境噪音和静音。声音分类系统中,还有许多专业信号的分类问题, 例如军事上所使用的声纳信号分类,以及本文所要讨论的足球比赛中的音频信号分类等它 们虽不具备通用的价值,但在各自的应用领域,都具有它广阔的应有前景和实用价值 真正意义上的基于内容的音频自动分类工作是由美国m u s c l ef i s h 公司e r l i nw o l d 等人完 成的,他们详细分析了音频的区别性特征,包括响度、音调( p i t c h ) 和谐度( h a r m o n i c i t y ) 等,并且根据最近邻准则( n e a r e s tn e i g h b o r ,n n ) 设计音频的分类器【1 羽,所用的数据集包 括笑声、铃声、电话声等1 6 类样本数据。在文献 1 8 提供的m u s c l ef i s h 数据集上,文献【1 9 】、 【2 0 采用不同的特征和分类器实现音频的分类。其中,文献 1 9 】采用最近特征线方法设计分 类器对铃声、笑声和水声等进行分类。文献【2 0 】采用1 2 阶的m f c c 系数和能量作为音频的特 征表示,根据极大互信息准则训练决策树量化特征空间为离散的区域,并且根据最近邻准则 对音频作分类文献【2 1 】采用相位补偿滤波器组提取音频特征,并用于音频的分割、音乐内 容的分析检测等方面。 近年来,音频信息提取和自动分类在视频的检索和摘要、基于内容的音频检索等相关领 域也日益引起了人们的重视。在视频的检索和摘要中,人们发现视觉特征,例如颜色、纹理、 运动向量等并不能很好地反映视频的内容和结构语义。文献【2 2 】、【2 3 在视频的检索和摘要 中结合音频( 语音、音乐) 、文本( 字幕、标题) 等信息,较好的克服了单纯的视觉特征语 义表达能力较弱这一缺点文献【2 4 】、【2 5 分别分析了电视节目中的天气预报、新闻、广告 等音频特征,并训练隐马尔可夫模型( h i d d e nm a r k o v m o d e l ,h m m ) 对视频场景进行分类。 文献【2 6 】、【2 7 设计实现了基于支持向量机和高斯混合模型的k n n 分类器,用于对语音、音 乐、带音乐的语音和环境音的分析检测文献f 2 8 】分析比较了足球比赛中的语音、哨音和欢 呼声三种类型的声音特征,并采用c - 均值类型模糊聚类方法设计分类器。 在以上应用中,不同的音频分类方法有着各自的特点。最近特征线分类法的优点是概念 直观,方法简单,有利于建立多维空间分类方法的几何概念,但当样本很多时,计算量非常 大;神经网络方法在其它分类问题中应用非常广,但是在音频的分类中却应用不多。原因是 神经网络中所需的很多参数都是人工凭经验选定的,会产生过量匹配和陷入局部最小,而且 具有时序功能的神经网络,其拓扑结构比较复杂,训练和分类上是一种双随机过程的有限状 5 南京信息工程大学硕士学位论文基于内容的音频分类与识别 态自动机,它具有刻画信号的时间统计特性,但对类别的区分能力较弱;支持向量机方法具 有完善的数学理论基础,它将输入数据映射到更高维空间,从而可以解决线性不可分的问题, 但采用支持向量机的音频分类精度不及最近特征线的方法高,而且,该方法的样本训练时间 也比较长。 1 4 主要研究内容和关键问题 基于内容的音频分类是一个涵盖十分广泛的研究领域,本文主要研究基于内容的语音和 音乐的分类技术主要包括音频分类的基本原理,音频特征的分析和提取,分类器的选择和 设计 本文主要讨论了支持向量机和b p 网络的两种较为典型的分类器,并分别做了设计和实 现。涉及的主要关键问题有: ( 1 ) 音频信息的基本处理。包括预加重、分帧、加窗、分段等。 ( 2 ) 音频特征分析和抽取 音频特征分析和抽取工作是音频分类的基础,本文选择能较好反映语音和音乐信号差异 性的美尔倒谱系数和其他能反映音频感知特性的特征作为特征数据。 ( 3 ) 分类器的设计与实现 从本质上讲音频分类是一个模式识别过程,可以利用机器学习的方法对音频信号进行自 动分类。s v m 作为统计学习算法中使用比较广泛的分类算法,具有比较完善的数学基础,本 文将首选s v m 作为音频分类的工具。另外本文还设计了一个用来对音频进行分类的b p 神经 网络模型,并利用s 、,m 和b p 网络做了汉语声调识别的实验。 1 5 论文的组织结构 本文以基于内容的音频分类为出发点,以音频信息处理、特征提取、分类器设计为主要 内容,共分六章。 第一章前言。阐明基于内容的音频分类的研究背景和意义,该研究方向的发展过程和 现状,指出目前存在的一些问题,概括本文所作的主要工作 第二章声学与音频基础。从声音的基本性质出发,讨论声音的本质、声波的概念,并 分析人类的听觉感知特性,对音频中存在的语音、音乐和噪声等音频信号进行声学分析。在 此基础上,进一步讨论音频的数字化及预处理工作。 第三章音频特征分析与提取从音频帧和音频片段两方面分别提取音频信号的时域和 频域特征,并在此基础上,计算出能体现人类听觉特性的部分声学感知特征。 6 南京信息工程大学硕士学位论文基于内容的音频分类与识别 第四章音频聚类算法研究与实现。讨论最近邻、k - 近邻、最大最小距离及c - 均值等聚 类算法,对样本库中的给类音频进行了聚类实验 第五章基于s v m 的音频分类方法与识别。重点讨论支持向量机的理论基础和基本内容, 设计并实现了基于s v m 的语音音乐分类器,使用6 个二类s m m 模型对非特定人汉语普通话 的四种声调进行分类识别。 第六章基于神经网络的音频分类方法与识别。首先介绍人工神经网络的理论基础,分 析人工神经网络的特点及功能,以b p 神经网络模型进行语音音乐噪声的分类实验。为了 与s m m 分类算法做比较,本文也采用8 p 网络对汉语普通话的四种声调进行了分类识别 第七章结论与展望,对全文工作进行全面总结,并对未来应做的工作进行分析和展望 7 南京信息工程大学硕士学位论文 基于内容的音频分类与识别 第2 章声学与音频基础 2 1 声学基础知识 声音是由于物体振动而产生的,大多数的物体在整体振动的同时,它的各个部分也同时 在振动,这就叫做复合振动。复合振动产生的声音叫复合音,其中,整体振动产生基音,各 个部分振动产生泛音。泛音频率若是基音频率的整数倍,泛音将对基音起到润饰和加强的作 用;否则,泛音对基因起干扰和削弱作用。 2 1 1 声音的性质 声音有四种性质:音高、音值、音量和音色。这四个性质决定了声音的本质特征,在声 学研究中占有重要地位。 音高是声音的高低,它取决于发声体振动频率的高低。发声体振动频率越高,音高越高; 反之,音高越低一般,女性的声带振动频率较高,而男性声带振动频率较低,这就是一般 女声的音高要高的原因。 音值是指声音的长短,它是由发声体振动的持续时间决定的。振动持续时间越长,音值 就长音乐中的节奏和节拍就是由不同音值的声音组合起来所产生的 音量就是声音的强弱,它由发声体振动幅度决定。发声体振动幅度越大,音量就越强。 音色是声音的色彩,它由发声体产生的泛音的多少和强弱决定,这和发声体的材料性质、 形状结构、发声方式等有关,这就是为什么不同乐器演奏同一首乐曲,而耳朵的感觉不一样 的主要原因。 2 1 2 声波 声音以波的方式在空气中传播,方向自声源向四周传播。声波是一种纵波,振动方向与 传播方向一致。 声波和其他波一样,有两个重要性质:频率和振幅。 声波的频率是指在单位时间内声波的周期数。通常低于3 0 0 h z 的声音称作低频声, 3 0 0 h z l o o o h z 的声音称作中频声,1 0 0 0 h z 以上的声音称作高频声。 声波的振幅决定了声音的强弱,当声源振动的幅度越大时,单位时间内传播出的能量越 大,也就是声音越强。介质中有声波存在的区域叫声场。声场中,垂直于声波传波方向上, 单位时间内通过单位面积的声波能量叫做声强。声强就是声场中某点声波能量大小的度量, g 南京信息工程大学硕士学位论文 基于内容的音频分类与识别 声强的大小与声源的声功率、该点与声源的距离及声场的具体情况有关。声强是声音的客观 强度,而人感受声音强弱的程度叫走响度它是人的主观感觉。 在声学测量中,直接测量声强比较困难,通常用声压来衡量声音的强弱。声波在空气中 传播时,引起空气的振动,从而使某点的空气密度发生变化,也就是该点压强产生了变化, 时丽比无声时压强高,时而比无声时压强低。某一瞬间介质中压强相对于无声波时压强的改 变量称为声压p ( f ) ,单位是p a 。瞬时声压有正负之分,一般在声学计算时使用有效声压, 即瞬时声压的均方根值。 一般把声压风= 2 1 0 - 5p a 作为参考声压,把所要测量的声压p 与参考声l 玉p o 的比值 取常用对数后乘以2 0 得到的数值称为声压级,单位是d b 。声压级是听力学中的重要参数, 吵闹的街道的声压级约为7 0 d b ,安静的房间约为3 5 d b 。 声速是指声波在介质中传播的速度。声速与介质的密度和弹性性质有关,气体中声速每 秒约数百米,并随温度升高而增大,o c 时空气中声速为3 3 1 4 m s ,温度每升高i c ,声速 增加约0 6 m s 。通常,固体介质中声速最大,液体介质中声速较小,气体介质中声速最小。 2 2 声音的感知 2 2 1 听觉特性 人耳是一个十分灵敏的人体器官,正常人所能感觉到的最低声压接近空气分子热运动产 生的声压,但是人耳只有在大脑的配合下才能发挥作用。人的右耳连接至左脑,左耳连接至 右脑,人的左耳和右耳在生理结构上并不存在对声音判断的差异,它们之间的差异来自右脑 和左脑之间的差异一般来说,声音从右耳传至左脑的速度较快,而左耳传至右脑的速度较 慢,即两耳传递声音的速度不同 正常人可以听到的声音频率范围为2 0 h z 一2 0 k h z ,年轻人可听到2 0 k h z 的声音,随着年 龄增长听力有所下降,老年人可以听到的高频声音大概在l o k h z 左右。 声音通常是一种复合音,他包含了很多频率的谐波。对频率不同的纯音,入耳的辨别灵 敏度也不一样。响度是反映一个人主观感觉不同频率成分的声音强弱的物理量,单位为方 1 方等于l k h z 的纯音的声强级,0 方对应人耳的听阈。听阈是指声音小到入耳刚刚能听到的 值,听阈值及响度的大小随着声音频率的变化而变化,例如,在l k h z 的纯音下,响度为1 0 方时相当于l o d b 的声压级;而对于i o o h z 的纯音,为了使它听起来和1 0 方的l k h z 的纯音 一样响,则声压级需要到3 0 d b 。利用与基准声音比较的方法,可以得到整个可听声范围的 9 南京信息工程大学硕士学位论文 基于内容的音频分类与识别 纯音的响度级。图2 1 为d w 鲁宾森和r s 达德森提出的等响曲线,描述了等响度曲线与响 度级之间的关系。该曲线为国际标准化组织所采用,所以又称i s o 等响曲线。 声强声强缓 痛厨 晌魔锾 衲r 锄2 d b , i 0 - 4 1 0 6 1 0 1 0 1 0 1 2 1 0 。“ 1 0 。蝤 2 0 1 0 0 10 0 0 1 00 0 0 颜睾 图2 1 等响度曲线与声强级的关系 音调是指声音的高低。客观上音调用频率来表示,主观上感觉音调的单位采用美( m e l ) 来表示。般对于频率低的声音,人耳听起来感觉音调低,而频率高的声音听起来感觉音调 高。到那时音调和频率并不成正比,他还与声音的强度及波形有关。可以用公式( 2 。1 ) 近似地 表示音调和频率的关系: 互山= 2 5 9 5 l o g ( 1 + 厶7 0 0 ) ( 2 1 ) 2 2 2 音频内容描述与分类 文献【2 9 】构建了一种音频内容层次化描述的模型,如图2 2 所示。音频的内容分为四个 级别:最底层的采样数据级、中间层的物理样本级、声学特征级和最高层的语义级。从下往 上,内容逐渐抽象,内容的表示也逐级概括。 啪 加 加 如 。 南京信息工程大学硕士学位论文基于内容的音频分类与识别 图2 2 音频内容层次化描述模型 最底层的采样数据级对声音采样后得到的结果,有振幅、频率等信息。实际上这些信息 是二进制信息,数据本身没有任何意义物理样本级音频内容主要有采样率、声道和编码格 式等。声学特征级是从音频数据中提取的,属于较高层_ 这些特征表达了我们对音频的感知, 包括音调、音高等。语义层是音频内容的最高级描述,是音频所承载的语义,也是驱使我们 从事音频内容研究的根本意义所在。 在实际应用中,音频信息的分类方式非常多。比较典型分类方法有:五分类把音频分为: 静音、语音、音乐、语音音乐混合和环境音;八分类把音频分为:静音、和谐的环境音、纯 音乐、歌曲、有音乐背景的语音、有音乐背景的环境音、纯语音和非和谐环境音。 2 2 3 语音、音乐、噪音的声学分析 语音就是语言的声音,由人的发音器官发出,负载着一定的语言意义,是语言符号系统 的载体。语言依靠语音实现它的社会功能。语言是音义结合的符号系统,语音和语言的意义 是紧密联系着的,因此,语音虽是一种声音,但又与一般的声音有着本质的区别。 音乐是由乐器按照一定节奏发出的一系列音符组成的,不同的音符具有不同的音调。一 般音乐的音调覆盖范围远大于语音的音调,他的带宽可以达到1 6 k h z 。与此同时,音乐中的 音符具有明显的谐波结构,同时考虑到音乐的连续性,这种谐波结构在较长的时间里具有一 定的稳定性。 1 1 南京信息工程大学硕士学位论文基于内容的音频分类与识别 噪音可以有很多不同的原因而产生,但是,一般都没有稳定的谐波结构。噪音的带宽范 围也更大。 语音信号的频谱能量主要集中在3 0 0 3 4 0 0 h z 的范围内。根据发声的方式,可以把语音 分成浊音和清音。浊音是通过声门的周期性开合,胸腔的气流通过声道共振而产生的,声门 开合的频率就是基音频率。清音是声门完全封闭,声道将口腔内残存的空气释放出来而发声 从音调的角度分析,语音中的浊音也具有和音乐类似的稳定的谐波结构和频率特性。但 是因为语音中浊音和清音交替出现,而清音类似于噪音,一般不具有谐波结构,因此使得语 音信号中谐波结构的出现具有断断续续的特点。从强度的角度分析,浊音在发声时不受声道 的限制,具有比较高的能量;而清音在发声时气流被声道加以不同的限制,能量一般比较小 2 - 3 音频信号数字化 音频信号的形式多种多样,但是用现代信息技术手段进行各种处理的第一步,都是对信 号进行数字化处理以及进行特征分析。 音频信号数字化之前,必须先进行防工频干扰滤波及防混叠滤波。其中工频干扰是指 5 0 h z 的电源干扰,而防混叠滤波是指滤除高于1 2 采样频率的信号成分或噪声,使信号带 宽限制在某个范围内;否则,如果采样率不满足采样定理,则会产生频谱混叠,此时信号中 的高频成分将产生失真。防工频干扰和防混叠滤波器都做在一个集成块中,实现起来很简便。 2 3 1 采样与量化 音频信号是时间和幅度都连续变化的一维模拟信号,要想在计算机中对它进行处理,就 要先进行采样和量化,将它变成时间和幅度都是离散的数字信号采样就是把模拟信号在时 间域上进行等间隔取样,其中两个取样点之间的间隔称为取样周期。取样周期的倒数称为采 样频率。根据采样定理,当采样频率大于信号最高频率的两倍时,在采样过程中就不会丢失 信息,并且可以用采样后的信号重构原始信号。实际的信号常有一些低能量的频谱分量超过 采样频率的一半,如对语音信号,其浊音的频谱超过4 k h z 的分量比其峰值要低4 0 d b 以上; 而对于清音,即使超过8 k h z ,频率分量也没有显著下降,因此语音信号所占的频率范围可 以达到l o k h z 以上,但对语音清晰度有明显影响部分的最高频率为5 7 k h z 左右在音频信 号处理中,如果考虑人耳所能感觉到的声音,其最高频率为2 0 k h z ,因此,采样频率最高可 设置为4 0 k h z 左右。根据各种不同应用的实际需求,采样频率可以从8 k h z 到1 9 2 k h z 实际 上,需要在所要求的数字电路的速度和存储介质、传输介质的容量之间进行折中,因为高的 采样率意味着快的电路速度和大量的数据传送。 1 2 南京信息工程大学硕士学位论文基于内容的音频分类与识别 采样后的信号在时间域上是离散的形式,但在幅度上还保持着连续的特点,所以要进行 量化。量化的目的是将信号波形的幅度值离散化。一个量化器就是将整个信号的幅度值分成 若干个有限的区间,并且把落入同一个区间的样本点都用同一个幅度值来表示,这个幅度值 称为量化值。量化方式有三种:零记忆量化、分组量化和序列量化。零记忆量化是每次量化 一个模拟采样值,并对所有采样点都使用相同的量化器特性分组量化是从可能输出组的离 散集合中选出一组输出值,代表一组输入的模拟采样值。序列量化是在分组或非分组的基础 上,用一些邻近采样点的信息对采样序列进行量化。 一般量化值都用二进制来表示,如果用b 个二进制数表示量化值,即量化字长,那么一 般将幅度值划分为2 a 个等分区间从量化的过程可以看出,信号在经过量化后,一定存在 一个量化误差,其定义为 p ( 行) = 曼( 刀) - x ( n ) 1 2 2 ) 其中,p 0 ) 为量化误差或噪声,宝( 刀) 为量化后

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论