(通信与信息系统专业论文)基于内容的音频检索研究.pdf_第1页
(通信与信息系统专业论文)基于内容的音频检索研究.pdf_第2页
(通信与信息系统专业论文)基于内容的音频检索研究.pdf_第3页
(通信与信息系统专业论文)基于内容的音频检索研究.pdf_第4页
(通信与信息系统专业论文)基于内容的音频检索研究.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(通信与信息系统专业论文)基于内容的音频检索研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文第l 页 捅斐 随着互联网的普及、高容量存储设备的广泛使用以及点对点网络的兴起,数 字音频内容得到了极大的丰富,对数字音频数据的管理也越来越重要。然而,管 理海量的数字音频数据是一项非常繁琐、耗时且极易出错的工作,这直接促使了 音频指纹技术的快速发展。音频指纹是一段基于音频内容的紧凑数字签名,可用 于数字音频内容的版权保护、音频内容识别、内容完整性校验等领域。 本文介绍了音频指纹技术的产生背景、基本概念和总体框架,并围绕音频指 纹的关键技术展开研究,主要的工作有以下几个方面: 1 ) 概述了现有的音频指纹提取算法,并分析研究了两种基于傅立叶变换的 经典音频指纹提取算法,对比了算法的鲁棒性 2 ) 针对p h i l i p s 音频指纹算法在真实环境下噪声鲁棒性较差的问题,结合功 率谱差分可以消除加性噪声的特性,给出了基于功率谱差分音频指纹改进算法; 然后,在常见信号畸变和真实噪声环境下,将改进算法与p h i l i p s 算法进行了仿真 对比,实验结果表明改进后的音频指纹算法鲁棒性优于p h i l i p s 算法。 3 ) 分析了现有音频指纹检索算法后,并针对本文音频指纹数据库数据量大、 数据维数高的特点,采用一种近似最近邻的高维数据索引算法位置敏感哈希 ( l o c a l i t ys e n s i t i v eh a s h i n g ,l s h ) 算法用于音频指纹检索,实验分析了l s h 算法 参数对检索性能的影响,并结合本文的应用进行了算法参数优化,最后与基于树 的高维索引结构进行了性能仿真对比。 4 ) 利用本文研究的音频指纹提取和检索算法,设计并实现了一个音频指纹 实验系统。结合音频指纹具有时间连续性的特点,给出了一套音频指纹检索机制, 取得了良好的效果。 关键词:音频检索;音频指纹;鲁棒性;高维索引; 西南交通大学硕士研究生学位论文第l i 页 a b s tr a c t t h e p o p u l a r i t y o ft h ei n t e m e t ,t h eu b i q u i t yo fh i g h s t o r a g ed e v i c e s ,t h e p r o l i f e r a t i o n o fp e e r 2 p e e rn e t w o r k sa n dw o r l d w i d e l o w - l a t e n c y n e t w o r k sh a s d r a m a t i c a l l yi n c r e a s e dd i g i t a l a u d i o g r o w t ha n da c c e s s b u tm e a n w h i l e ,i t i s t i m e - c o n s u m i n ga n de r r o r - p r o n et om a n a g ec o l l e c t i o n so fa u d i oa s s e t s ,w h i c hd i r e c t a c c e s st ot h e r a p i dd e v e l o p m e n t o f d i g i t a l a u d i of i n g e r p r i n t i n g d i g i t a la u d i o f i n g e r p r i n t i n gi s ar o b u s tc o n t e n t b a s e dc o m p a c ts i g n a t u r et h a ts u m m a r i z e sa na u d i o r e c o r d i n g i t i s t y p i c a l l yu s e df o rm u s i cc o p y r i g h te n f o r c e m e n t ,a u t o m a t i cm u s i c i d e n t i f i c a t i o na n da u d i ov e r i f i c a t i o n t h i st h e s i si n t r o d u c e st h ea u d i of i n g e r p r i n tt e c h n o l o g yb a c k g r o u n d ,b a s i cc o n c e p t s a n dg e n e r a lf r a m e w o r k t h ek e yt e c h n i q u eo fd i g i t a la u d i of i n g e r p r i n t i n ga r e r e s e a r c h e d ,a n dt h em a i nw o r k sa r ea sf o l l o w s : 1 ) t h i st h e s i ss u m m a r i z e sm o s ts t a t eo ft h ea r ta u d i of i n g e r p r i n t i n ga l g o r i t h m sa n d c o n d u c t sa ni n d e p t hs t u a yo ft w oe f f e c t i v ee x t r a c t i o na l g o r i t h m sb a s e do ns t f r 2 ) f o rt h ep h i l i p sa u d i of i n g e r p r i n t i n ga l g o r i t h mh a sl e s sn o i s er o b u s t n e s si nt h e r e a l e n v i r o n m e n t ,a c c o r d i n gt o t h i s p o i n to fv i e w ,w ep r o v et h a tt o c a l c u l a t et h e d i f f e r e n c ei np o w e rs p e c t r u mi se q u a lt or e m o v et h ea d d i t i v ei nt h ep o w e rs p e c t r u m d o m a i n ,a n dt h e nt w op o w e rs p e c t r u mb a s e do nt i m e - f r e q u e n c yf i l t e r i n go ft h ea u d i o f i n g e r p r i n t i n g e x t r a c t i o n a l g o r i t h m a r e p r e s e n t e d t h ei m p r o v e da l g o r i t h m s a r e s i m u l a t e da n da n a l y z e ds u b s e q u e n t l yi nr e a le n v i r o n m e n t o u re x p e r i m e n t a lr e s u l t s s h o wt h a tt h ep r o p o s e da u d i of i n g e r p r i n t i n ga l g o r i t h mi m p r o v e sn o i s er o b u s t n e s s 3 ) a f t e ra n a l y z i n gt h ep r e s e n ta u d i of i n g e r p r i n t i n gr e t r i e v a la l g o r i t h m sa n dt h e c h a r a c t e r i s t i c so ft h ea u d i of i n g e r p r i n td a t a b a s e ,av e c t o ri n d e x i n gm e t h o dc a l l e d l o c a l i t ys e n s i t i v eh a s h i n gi sp r o p o s e da n dt h ep a r a m e t e r sa leo p t i m i z e d t h i sm e t h o d c a ne f f e c t i v e l yp r u n es u p e rl a r g es e a r c h i n g s p a c ea n dr e d u c et i m ec o m p l e x i t yo fs i m i l a r s e a r c hp r o c e s s t h ee x p e r i m e n tr e s u l t ss h o wt h a tt h i sm e t h o di ss t i l le f f e c t i v ew h e nt h e 西南交通大学硕士研究生学位论文第1 li 页 d a t as c a l ei sv e r yl a r g e ,a n di th a ss u p e r i o rs c a l a b i l i t yt h a nt r a d i t i o n a lt r e e - s t r u c t u r e d i n d e x i n gm e t h o d s 4 ) a c c o r d i n gt ot h ea l g o r i t h m sa n dt h e o r i e sr e s e a r c h e di nt h i sp a p e r ,a na u d i o f i n g e r p r i n t i n gr e t r i e v a ls y s t e mi sd e s i g n e da n di m p l e m e n t e d t h er e t r i e v a lm e c h a n i s m c o m b i n e dw i t ht i m e c o n t i n u i t yo ft h ea u d i of i n g e r p r i n t i n gi sp r o p o s e d t h e e x p e r i m e n t a lr e s u l t sv e r i f yt h a tt h es y s t e mi se f f e c t i v ea n de f f i c i e n t k e yw o r d s :a u d i or e t r i e v a l ;a u d i of i n g e r p r i n t i n g ;r o b u s t n e s s ;h i g h d i m e n s i o n a l i n d e x 西南交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保 留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。 本学位论文属于 1 保密口,在年解密后适用本授权书; 2 不保密团,使用本授权书。 学位论文作者签名:渤森 日期:7 石7 指导老师签名:落反街 醐:研。7 西南交通大学学位论文创新性声明 本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得 的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经 发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中作 了明确的说明。本人完全意识到本声明的法律结果由本人承担。 本学位论文的主要创新点如下: ( 1 ) 对两种基于短时傅立叶的经典音频指纹提取算法进行了对比分析,结合 功率谱差分,给出一种改进的p h i l i p s 音频指纹提取算法。 ( 2 ) 针对本文音频指纹数据库的特点,采用一种近似最近邻的算法来对音频 指纹数据库构建索引,并结合音频指纹的时间连续性,给出了一套音频指纹数据 库的检索机制。 学位论文作者签名: 狲 日期:m 7 彳7 西南交通大学硕士研究生学位论文第1 页 1 1 研究背景及意义 第1 章绪论 音频压缩技术的进步以及大容量存储器的出现使得互联网上以音乐为主的 音频信息大量出现,人们对数字音频内容进行准确有效地管理和访问变得十分困 难。近年来,基于内容的音频检索( c o n t e n t b a s e da u d i or e t r i e v a l ,c b h g ) 出现了 许多新的研究和发展方向,旨在解决这个问题。音频指纹( a u d i of i n g e r p r i n t i n g , a f ) 技术是c b a r 的关键技术之一,由于音频指纹技术可以快速高效的识别和检 索出音频内容,该技术成为国内外学者研究的热点问题。 音频指纹是指可以代表一段音乐重要声学特征的紧致数字签名,其主要目的 是建立一种有效机制来比较两段音频数据的感知听觉质量。音频指纹和对应的元 数据一起存储在数据库中,采用音频指纹作为相应元数据的索引【l 】。 应用音频指纹技术进行基于内容的音频检索具有以下三方面优点【2 】:( 1 ) 音频 指纹相对原始音频信号,数据量大为减小,可以大大减少对存储设备的容量需求; ( 2 ) 音频指纹提取自人耳听觉最敏感的部分,对一定程度的失真信号仍能有效检 索;( 3 ) 音频指纹数据库比原始音频数据库小很多,可以更有效的进行音频检索。 因此,研究音频指纹技术,有着非常重要的意义:( 1 ) 它是音频信息搜索引 擎的关键技术,用户可通过该技术快速获取所需的信息资源,还可以根据音频信 息的内容实现更加灵活的信息搜索策略,实现基于内容的音频检索;( 2 ) 音频数 据管理者可以利用音频指纹技术准确、快速地管理大量数字音频数据,更有效地 保证音频资源的合理利用。( 3 ) 利用音频指纹技术,音频数据的所有者可以有效 地对音频数据进行版权保护,从而更利于有价值的音频信息被发布;( 4 ) 利用音 频指纹技术,实现对音视频点播和网上电视节目等媒体中的音频信息进行实时检 索、审查和有效监控,可用于市场调查、网络管理、信息安全等诸多领域。 西南交通大学硕士研究生学位论文第2 页 1 2 国内外研究现状 音频指纹技术的研究工作是从上世纪9 0 年代中后期开始的【3 】o 近年来,它已 成为国内外研究的热点问题之一,引起了众多研究机构和学者的广泛重视,如美 国南加州大学、麻省理工学院、西班牙p o m p e uf e b a r 大学等都对音频指纹技术做 了大量的研究工作,取得大量研究成果。在国内,复旦大学、中科科学院声学研 究所、西安电子科技大学等多家单位也开展了相关的研究工作。 1 2 1 音频指纹系统总体框架 音频指纹系统主要由两部分构成【3 】:一部分用于提取音频指纹,核心算法是 音频指纹提取算法;另一部分用于对音频指纹数据库进行检索,核心算法是音频 指纹检索算法。当音频指纹系统要识别一段未知音频时,首先提取出未知音频的 音频指纹,然后将该指纹与数据库中存储的大量音频指纹进行比对,返回给用户 与查询音频相匹配的元数据信息。 由于应用场景不同,对音频指纹技术的描述和术语也不相同,例如:模式匹 配,多媒体( 音乐) 信息检索或者密码( 鲁棒性哈希) ,但是,音频指纹技术的主要功 能模块大致相同,可归纳为如图1 1 所示的音频指纹检索整体框架图。 指纹提取指纹匹配 图1 1 音频指纹检索整体框架图 西南交通大学硕士研究生学位论文第3 页 1 2 2 音频指纹提取算法研究现状 音频指纹提取算法的主要目的是从音频信号中提取出简洁且具有鲁棒性的 感知特征,它主要包括前端处理和音频指纹建模两个部分。图1 2 描述了音频指 纹提取算法的整个流型4 1 。 音频 帧大小:1 0 5 0 0m s 重叠率:5 0 一9 8 加窗 子带能量 l p c c m f c c 音高 鲁棒哈希 矢量量化 混合高斯模型 隐马尔可夫模型 其它模型 a f d 转换 单声道转换 重采样 预加重 子带滤波 离散傅立叶变换 m c l t 小波变换 归一化 解相关 差分 频指纹 图1 2 晋频指纹提取流程 一、前端处理 前端处理的作用是将音频信号转换成符合音频指纹建模的特征序列。在设计 前端处理模块时,主要有几个目的:数据降维、提取有感知意义的参数、实现鲁 棒性和保留时序信息。一般情况下,前端处理依次可分为预处理、重叠分帧、频 谱估计、特征提取和后处理五个步骤。本文对各个步骤的研究现状进行分析: 1 ) 预处理 将模拟音频信号转换为常用的数字音频格式,例如:单声道p c m ,固定采样 率。然后,根据音频的特点以及应用背景,对音频进行预加重,归一化音频幅度 等标准化操作。 2 1 重叠分帧 由于音频信号是时变信号,在进行处理时,首先对信号重叠分帧,将每帧信 西南交通大学硕士研究生学位论文第4 页 号看作的平稳信号进行分析,这样同时提高了对信号时移的鲁棒性( 比如,当输入 信号并不完全和原有提取指纹的信号对齐时) 。然后使用窗函数来平滑帧边缘。 3 ) 频谱估计 线性变换的思想是将一组测量值映射为一组新的特征值。大多数基于内容的 音频检索方法采用标准的时频变换,以便能有效对时域信号进行压缩、去噪,利 于随后的处理步骤【5 】o 最常见的变换是离散傅立叶变换( d 网。此外,还有一些其 它变换 6 】:离散余弦变换( d c t ) 、h a r t 变换或者w a l s h h a d a m a r d 变换。r i c h l y 等 人【7 】对d f t 和w a l s h h a d a m a r d 变换进行了比较,结果表明d f t 的时移鲁棒性更 加理想。b u r g e s 8 1 使用m c l t ( m o d u l a t e dc o m p l e xt r a n s f o r m ) ,实现了更好的时移 鲁棒性。 4 ) 特征提取 信号进行时频变换后,接下来可以提取出基于内容的音频特征。该处理过程 可以使用大量不同的算法,这些算法的目的都是再次降维的同时,增强特征对信 号畸变的鲁棒性。通常采用的方法是利用人耳听觉系统的特点提取出更具感知意 义的参数。因此,许多系统对频谱子带进行划分来提取一些特征,图1 3 对现有 的利用频谱子带划分进行特征提取的算法进行了分类【4 】: 频谱 m e l b a r k l o g 刻度子带 l o ghd c t 卜一m f c c 图1 3 频谱子带特征提取算法分类 矢量 兰嚣麟 西南交通大学硕士研究生学位论文第5 页 1 9 9 9 年,b l u m 9 1 使用带宽、响度等特征用于音乐信息检索。2 0 0 1 年,k i m u r a 1 0 】 提出用子带能量作为特征。在文献 1 1 中,a l l a m a n c h e 选择的特征是频谱平滑度 ( s p e c t r a lf l a t n e s sm e a s u r e ,s f m ) 。p a p a o d y s s e u s 1 2 于2 0 0 1 年提出用频谱子带的主 要成分( 如子带频谱峰值) 作为特征。在文献 1 3 】中,作者使用m e l 倒谱系数 ( m e l f r e q u e n c yc e p s t r u mc o e f f i c i e n t s ,m f c c ) 作为信号特征。2 0 0 2 年,h a i t s m a 1 4 】 提出使用3 3 个b a r k 刻度的子带能量,然后进行差分,根据差分符号从而得到“哈 希串”。b u r g e s 在文献 1 5 中指出,一般音频特征都是启发性的,所以性能并不理 想。针对这个问题,他们使用了修正k a r h u n e n l o e v e 变换和有向主成份分析 ( o r i e n t e dp r i n c i p a lc o m p o n e n ta n a l y s i s ,o p c a ) 在一种“无监督 的情况下找到了 最优的特征。2 0 0 4 年s u k i t t a n o n 在文献 1 6 1 指出,仅仅使用频谱估计以及相关 特征不足以抵抗信道畸变带来的影响,他们提出用调制频率分析来刻画音频信号 的时变信息。2 0 0 5 年,s e o 。7 】提出了归一化频谱子带质心( n o r m a l i z e ds p e c t r a l s u b b a n dc e n t r o i d s ,n s s c ) i 拘概念作为音频特征。2 0 0 6 年,徐英进等人f 1 8 】优化了一 种选取频谱峰值点作为音频特征的算法。2 0 0 7 年,郭杰等人【1 9 j 利用一种不同子带 能量的差分方式改进了文献 1 4 】中的音频特征提取算法。 5 ) 后处理。 前面步骤所提取出的大部分特征都是绝对的数值。为了更好的刻画随时间变 化的信号,特征关于时间的导数也常被作为特征矢量。在文献 2 0 】中,作者将 m f c c 以及m f c c 的导数和自相关函数联合作为特征矢量。还有些系统d 1 , 2 1 】,只 使用特征的相关导数,而不是特征本身。文献 2 2 指出,对音频信号求导往往会 扩大噪声,但同时也过滤了在线性时不变或者变换缓慢的信道中产生的畸变。 二、指纹建模 用于指纹建模的数据来自于前端处理后的特征矢量,指纹建模的目的是进一 步减少特征的冗余信息,从而更有利于匹配算法的快速检索。 一种简洁的指纹模型是将整首歌( 或部分) 的特征矢量直接构成一个音频指 纹。2 0 0 2 年,e t a n t r u m 2 3 提出将1 6 个频谱子带能量的均值和方差作为一个音频 西南交通大学硕士研究生学位论文第6 页 指纹。在文献 2 4 】中,音频指纹是由过零率、节奏、平均能量和一些其它特征起 来代表一段音频信号。以上这两种情况,指纹的计算量小并且产生的指纹很紧凑, 这些算法主要应用于复杂度低的情况,而不太考虑信号畸变较大的情况。音频指 纹也可以直接是特征序列。在文献 9 1 5 1 1 1 4 1 ,作者采用二进制序列作为音频指 纹。有些系统【9 , 2 5 ,采用高层次音乐属性作为音频指纹,比如韵律或者音高。 b u r g e s ”j 根据对启发性特征进行局部最优化的推理,采用多层o p c a 来减小特 征矢量关于时间的局部冗余信息。这种方法不仅减少了特征矢量的维数,并别提 高了其对时移和音高的鲁棒性。 c a n o t 2 6 1 和b a t t l e 2 7 1 基于对语音处理研究,使用了一种指纹模型来减少全局的 冗余。在语音处理中,原始语音信号可分割成单个的语素( 语言中最小的音义结合 体) ,在将每个语素转换为文字信息来保留重要信息的同时,大量的减少了冗余信 息。同样的,可以将声音分类,用有限的字母来表示每种类型,这样,对一段音 乐而言,产生的音频指纹就是由连续的音乐类型字母表串组成。使用音频信号的 统计模型可以减少局部冗余信息,隐马尔可夫模型( h i d d e nm a r k o vm o d e l s , h m m ) t 2 8 】通过对声音的聚类分析和建模来进行声音的分类j 1 2 3 音频指纹检索算法研究现状 音频指纹提取算法提取出未知音频的音频指纹后,接下来,音频指纹匹配算 法将它与音频指纹数据库中的音频指纹进行匹配,然后返回与查询指纹最为相似 的音频指纹以及对应的元数据。在这个过程中,相似性度量和搜索算法是两个关 键的问题。 一、相似性度量 相似性度量是比较音频指纹相似性的方法,它依赖于音频指纹模型的选择。 现有相似性度量大体可分为两大类: 一类是1 9 9 9 年在文献 2 9 】中提及的检索模式,查询音频指纹和数据库中的音 西南交通大学硕士研究生学位论文第7 页 频指纹形式相同,这种情况下,相似性可以直接计算。对矢量进行比较时,通常 计算矢量的相关矩阵来衡量矢量的相似性。在文献 7 中,作者采用欧式距离来计 算矢量间的相似性。在文献 3 0 中,作者使用交叉熵估计划分最近邻。在文献 1 4 】 和 7 中,作者首先将特征向量进行矢量量化,然后使用曼哈顿距离( 或者汉明距离, 二元矢量量化) 来计算特征向量的相似性。在文献 3 1 】中,作者提出了 e p n ( e x p o n e n t i a lp s e u d on o r m ) 的错误矩阵,通过使用非线性加重来更好的区分相 似的值。 另一类是将查询音频指纹进行建模后再存储在音频指纹数据库中。在文献 1 0 】 中,作者把提取出的音频指纹进行h m m 建模,将建模后的模型参数储存在数据 库。在这些系统中,查询指纹将被识别为累计错误最小的一类音频。 二、搜索方法 如何快速、高效地将未知音频指纹与数据库中大量的指纹进行检索,是音频 指纹系统的一个核心问题。当前的搜索算法主要有以下几个大类: 1 ) 离线预计算:系统预先计算数据库中音频指纹间的距离并构造一种数据 结构去减少查询指纹进入系统后的搜索时间。在文献 1 0 中,作者预先对数据库 中的数据分类,当查询数据进入时,系统可以通过分别计算查询数据与预先分类 数据中个别数据的距离,来决定放弃搜索该类还是顺序查找该类。在文献 3 2 】中, 作者使用矢量空间的空间访问算法来进行索引分类。 2 ) 过滤候选指纹:在文献 3 3 1 ,作者使用一种简单的相似性度量,首先对 候选指纹进行过滤,这样可以快速的过滤大量不可能的候选指纹。这种方法结果 精确,缺点在于,处理过滤后指纹的需要复杂的计算量。 3 ) 构建文件索引:文献 3 4 1 提出了一种非常有效的搜索算法,将可能的指纹 建立一个快速查询表,然后将每首歌里的指纹分别与这个快速查询表进行关联。 假如查询指纹不失真,则这种方法能够有较高的效率,但如果查询指纹受到污染, 则此方法的性能会大幅度下降。文献【2 1 提出把用于表示音频内容的二进制代码, 用码本的形式给出,并建立索引。这些方法,速度快,但是在构建索引时,由于 西南交通大学硕士研究生学位论文第8 页 对特征错误率加以限制,会导致虚警率升高。 4 ) 相似性判断:一种简单的提高搜索速度的方法是保持当前匹配得分最高。 文献 3 5 指出,当知道最高得分不会增加时,就不进行当前的相似性计算。 三、假设检验 假设检验是对匹配的结果是否正确或者是否在数据库中给出相应的概率分 析。查询音频指纹和数据库中的指纹进行匹配时,会根据相似性度量得出一个分 数,用来表示度量其相似程度。为了判别一个匹配结果是否正确,需要给定一个 门限分数,如果匹配的得分超过该门限值,则认为匹配正确,反之亦然。门限值 的选择很困难,因为它取决于诸多因素,如指纹模型,数据库中指纹的相似度和 数据库的大小等。数据库越大,错误匹配的概率也越高,文献 1 7 ,3 4 提出使用虚 警概率来进行分析。 1 3 音频指纹性能评价标准 理想的音频指纹系统应该满足几个要求,保证无论压缩级别、失真或者传输 通道的干扰,系统都能够准确识别未知内容。根据应用的不同,系统应该能够快 速有效的计算未知音频指纹,并能够在海量数据库中找到最佳的匹配。这种计算 成本与指纹大小,指纹提取算和法检索算法直接相关。 对音频指纹性质的要求,很大程度上取决于实际应用背景。美国唱片工业协 会【3 6 1 ( m a a ) 和国际唱片业协会( 甲i ) 评价音频指纹系统性能时,主要考虑音频指 纹提取算法的高效性以及音频指纹的鲁棒性。音频指纹有如下的性质要求【3 7 】: 1 ) 准确性:包括正确识别率,漏警率和虚警率。 2 ) 可靠性:指一首歌曲被正确识别的概率。 3 ) 鲁棒性:在音频信号经过信号处理或者受到噪声污染后,失真信号仍然 能够被准确识别出来。这些失真包括压缩、由于错位引起的时移、变调、加性噪 声等。为了提高指纹鲁棒性,作为指纹建模的特征必须基于听觉感知特性,从而 西南交通大学硕士研究生学位论文第9 页 在一定程度上实现对音频信号处理的鲁棒性。 4 ) 颗粒度:如果要通过一些片段来识别一整段音频,就要求音频指纹能够 处理一定的时移信号,即未知音频片段的指纹与数据库中的指纹并不同步,这增 加了数据库搜索的复杂的( 需要比较所有音频) 。 5 ) 可扩展性:能够用于大数据库或者大量并行的鉴定。这个性能影响系统 的精度和复杂程度。 6 ) 复杂性:包括指纹提取的计算成本,指纹的大小,搜索的复杂性,指纹 比较的复杂性,给数据库增添新纪录的成本,等等。 如果提高音频指纹某些方面的性能,其它方面的性能往往会降低。一般来讲, 音频指纹应该是包含以下几个方面主要特性【4 】: 1 ) 反映音频的感知特性:音频指纹必须保最大限度的保留听觉感知信息。 这种听觉感知信息能够对大量指纹进行区分,但可能会与其它要求发生冲突,如 复杂性和鲁棒性。 2 ) 抵抗信号畸变:算法的鲁棒性要求。 3 ) 紧凑:这代表复杂性,因为大量的音频指纹需要存储和比较。过短的指 纹可能不足以区分音频片段,从而影响到准确性,可靠性和鲁棒性。 4 ) 省时:由于复杂性的原因,音频指纹提取算法应该尽量简洁。 1 4 音频指纹技术的应用 音频指纹技术凭借自己的技术优势,应用场合十分广泛,典型的应用场合有 如下几个方面: 1 ) 增值服务 当用户对广播里的歌曲感兴趣时,可以通过随身带手机拨通电话,进行几秒 的歌曲采集,然后系统将会返回歌曲的各种相关信息;现在,网络上的数字音乐 信息海量增长,对音频信息进行人工标注容易出错,利用音频指纹技术,可以自 西南交通大学硕士研究生学位论文第1 0 页 动用正确的音乐信息标注数字音乐。 2 ) 校验系统完整性 在某些应用中,在播放音频前必须校验其内容完整性,保证其没有被修改或 过度失真。比如:领导的重要讲话、军事指令等,播放前必须验证内容的完整性。 3 ) 版权保护 版权所有者可以监视电台是否已支付版权费,并进行播放统计,广告商也需 要监视是否按协议播放;在公共场合,数字音乐的版权者要控制自己的版权作品 被违法使用;通过音频指纹技术控制音频播放器,避免消费者违法使用没有版权 许可的音频内容。与音频数字水印不同,音频指纹技术不需要在原始音频内容中 嵌入任何信息。 4 ) 其它应用 除了以上典型应用,还可以利用音频指纹技术评价m p 3 压缩后的音频质量等。 1 5 论文的主要研究工作及内容安排 音频指纹提取和音频指纹检索是音频指纹系统中的两个关键问题,它决定了 音频指纹系统的查找准确性和响应时间。围绕这两个问题,本文进行了深入的研 究分析,论文组织结构和全文内容安排如下: 第一章“绪论”:介绍了选题背景、研究意义及音频指纹技术的国内外研究 现状。分析了该技术的性能评价标准和应用场合。 第二章“基于功率谱时频差分的音频指纹算法 :对比了两种性能良好的音 频指纹算法_ p h i l i p s 算法和n s s c 算法,对鲁棒性更好的p h i l i p s 算法进行了深 入研究。分析了p h i l i p s 算法在常见信号畸变下的算法鲁棒性,然后针对其在低信 噪比、线性速度改变等方面鲁棒性较差的问题,给出了基于功率谱差分的改进算 法。最后在实验环境和真实环境下与p h i l i p s 算法进行对比分析。 第三章“基于l s h 音频指纹检索算法”:分析了现有在具体应用场合下的音 西南交通大学硕士研究生学位论文第1 1 页 频指纹检索算法,针对本文音频指纹数据量大、数据维数高的特点,采用一种近 似最近邻的高维索引算法位置敏感哈希( l o c a l i t ys e n s i t i v eh a s h i n g ,l s h ) 算法 用于音频指纹检索,优化了算法参数,与基于树的高维索引结构进行了仿真对比。 第四章“音频检索实验系统”:用m a t l a b 设计实现了一个音频指纹实验系统, 对系统的各分部进行了深入的讨论。针对查询音频指纹具有时间连续性的特点, 给出一套音频指纹数据库的检索机制,取得了较好的效果。 “结论”对全文的工作进行总结,并提出了文中尚未解决、需要改进和进一 步研究与探索的问题。 西南交通大学硕士研究生学位论文第12 页 第2 章基于功率谱时频差分的音频指纹算法 本章首先分析了基于傅立叶变换的音频指纹算法,对其中两l i q 工- i - 台日匕l a 良好的音频 指纹算法进行了仿真对比,然后对鲁棒性相对更好的p h i l i p s 算法展开了深入的研 究,结合功率谱差分,给出了改进算法。 2 1 基于短时傅立叶变换的音频指纹算法 在前一章中,本文综述了现有音频指纹提取算法,使用不同的线性变换来得 到音频信号频谱信息,其中,短时傅立叶变换是广泛使用的一种,本小节将分析 两种经典的基于傅立叶变换的音频指纹算法性能。 文献 1 4 将频谱子带能量进行时频滤波,根据滤波结果的正负作为音频特征, 在实验中,算法对多种信号畸变有良好的性能。这种算法成为称为p h i l i p s 算法。 在文献 3 8 中,作者分析基于短时傅立叶变换的多种特征性能,包括香农熵 ( s h a n n o ne n t r o p y , s e ) 、子带能量( s p e c t r a lb a n de n e r g y , s b e ) 、频谱子带质心 ( s p e c t r a ls u b b a n dc e n t r o i d ,s s c ) 、频谱带宽( s p e c t r a lb a n d w i d t h ,s b ) 、频谱平坦度 ( s p e c t r a l f l a t n e s sm e a s u r e ,s f m ) 和梅尔频率倒谱系数( m e lf r e q u e n c yc e p s t r a l c o e f f i c i e n t s ,m f c c ) ,结果表明,在一定信号畸变下,频谱质心具有最佳最好。在 文献 17 】中,提出了归一化频谱子带质心( n o r m a l i z e ds p e c t r a ls u b b a n dc e n t r o i d s , n s s c ) 的概念,并与m f c c 进行了算法比较,证明算法具有良好的性能。 在本节中,我们对比分析具有良好性能的p h i l i p s 算法和n s s c 算法。 2 1 1p hi iip s 算法 p h i l i p s 音频指纹算法框图如图2 1 ,首先对音频信号按31 3 2 的重叠率进行分 帧,帧长为o 3 7 1 秒,计算每帧的频谱并进行子带划分,然后将子带能量进行二 西南交通大学硕士研究生学位论文第13 页 维( 时间一频率) 滤波,其滤波器的算子f 为 ,书1 二, 最后,根据滤波器的输出值来决定音频指纹的赋值,如果滤波器输出值大于 0 ,音频指纹的该位就赋值“1 ”,否则,赋值“0 。 音频信号二三三三三 - - 三三三三 l 一- 二萎委三二 _ + 指纹 图2 1p h i l i p s 音频指纹特征提取算法流程图 设信号第n 帧第m 子带能量用e ( n ,聊) 表示,那么对时间和频率进行滤波后 的信号e d ( n ,m ) 可以表示为: e d ( n ,m ) = e ( n ,柳) 一e ( n ,m + 1 ) 一( e ( ,z l ,钾) 一e ( n 一1 ,m + 1 ) ) 子指纹f ( n ,m ) 可以由e d ( n ,聊) 符号得到: 聊,m ) = 器肋e d ( ( m n , m ) ) 0 其中v ( n ,m ) 表示第n 个子指纹的第m 位。 算法将3 s 的音频信号提取出的音频子指纹组成一个音频指纹块,将此音频指 纹块作为最小的查询音频指纹长度。 2 1 2n s s c 算法 频谱子带质心的概念在文献 3 9 】中被首次提出: 将频谱 0 ,f j 2 分为膨个子带,其中石为音频信号采样频率。用乙和五朋表示 第m 个频谱子带的频率上、下边界,则第m 个频谱子带的质心计算方法如下【3 9 】: 巴 i 以( f ) p ( f ) d f 巳2 毛一 ( 2 - 1 ) i ( f ) p ( f ) d f 西南交通大学硕士研究生学位论文第1 4 页 其中,( 为窗函数,朋为频谱厂处的能量。 文献 1 7 】对原始算法进行改进,提出了归一化频谱子带质心的概念【1 7 】: n c 臃= 警 p 2 , 经过归一化后,无论频谱子带如何选择,肥。的取值都将分布在【- 0 5o 5 z l 盲- j , 实验结果表明,该特征的性能优于m f c c 1 刀。 2 1 3 实验仿真 我们使用一个包含3 0 0 段1 0 秒长的歌曲片段作为音频数据库,然后随机选取 1 0 0 段3 秒长的音频作为实验样本进行测试。在算法参数设置方面,我们沿用文 献 1 7 q b 0 3 - 化频谱质心的提取参数设置,对p h i l i p s 算法的参数稍作改变,如下 表2 1 : 表2 - 1 算法参数设置 算法 p h i l i p s 算法 n s s c 参数 采样率( i - i z ) 1 1 0 2 51 1 0 2 5 帧长( m s ) 3 7 13 7 1 帧间重叠率 1 5 1 61 2 频带宽度f h z ) 3 0 0 5 3 0 03 0 0 - 5 3 0 0 子带划分方式b a r k 刻度b a r k 刻度 子带划分个数 3 21 6 距离度量 误码率( 汉明距离) 欧式距离 判决门限 0 3 5 o 8 为了比较p h i l i p s 算法和n s s c 算法的鲁棒性,我们使用文献 1 4 中的方法, 对实验样本进行如下畸变:1 ) 时间刻度修改、2 ) 线性速度改变、3 ) m p 3 编解码、 西南交通大学硕士研究生学位论文第15 页 4 ) 信噪比2 0 d b ,然后畸变信号的音频指纹和音频数据库中的音频指纹进行比较, 这里我们对数据库中的每个音频进行顺序扫描,得到结果如图2 2 : 槲 凸r 聪 器 目 卜 2 2p hi i ip s 算法分析 本节将深入研究p h i l i p s 算法的性能评价指标和虚警概率,然后使用误码率的 概念来对衡量算法的鲁棒性。 2 2 1 算法性能分析 一、性能评价指标 文献 3 7 】提出了音频指纹的性质要求,p h i l i p s 算法在可扩展性、复杂性方面 都比较理想,但是算法的噪声鲁棒性较差。而在实际应用中,音频指纹的噪声鲁 棒性十分重要,其直接影响音频指纹的准确性和可靠性。在文献 1 4 】和文献 4 0 】 西南交通大学硕士研究生学位论文第16 页 中,作者使用误码率来衡量p h i l i p s 音频指纹算法的鲁棒性,误码率即是指两段音 频指纹问之间的归一化汉明距离度量。误码率越小,算法的鲁棒性越好。 在进行音频指纹匹配时,p h i l i p s 采用3 秒钟音频所提取出的音频指纹,其中 包含有2 5 6 个子指纹作为最小单位的查询音频指纹,误码率的计算是将这2 5 6 个 音频子指纹出错的位数占总位数的比值。 二、虚警分析 当进行音频指纹匹配后,本文把低于误码率门限值的音频指纹认为是匹配候 选结果。现在,我们使用与文献 1 4 ,4 1 类似的方法来分析这种判断的错误概率。 我们做以下假设:选择判决门限丁后,如果误码率低于丁,则查询指纹在数 据库中( h 0 ,如果误码率高于乃则查询音频指纹不存在数据库中( - o ) 。在这两种 假设下,有四个可能的结果和两种判断如表2 2 所示: 表2 - 2 假设判决情况 判决 假设 检出 排除 信号不存在( h o ) 错误检出正确排除 信号存在) 正确检出错误排除 在选定门限t 后,我们主要考虑虚警概率凰) 和漏警概率h i ( p f r ) ,p f a 是 将查询指纹误认为存在音频指纹数据库中的概率,p f r 是将存在于音频指纹数据 库中的查询指纹错误排除的概率,如图2 3 表示: i 八日 以八 h 。八 z 0 口 图2 3 虚警概率与漏警概率 西南交通大学硕士研究生学位论文第17 页 在实际中,p e r 很难去量化分析,我们主要分析在选定门限值丁情况下的。 计算p f a 值,首先要知道误码率的分布情况,为了计算音频指纹数据库中误 码率分布,我们从7 1 9 首不同风格的歌曲中随机选取2 0 0 0 0 对音频指纹,分别计 算其误码率。在图2 4 中,实线表示2 0 0 0 0 个误码率的分布情况,虚线是理论值 为均值0 5 ,标准差0 0 1 4 9 的正态分布,从图中可以看出,实际误码率分布近似 服从均值0 5 ,标准差0 0 1 4 9 的正态分布。 籁 七 尸厶- ,2 瓜1or。;,一exrp:一互1 l ( o 仃- 2 卜口 。2 3 , = 纠等) 西南交通大学硕士研究生学位论文第18 页 2 2 2 误码率分析 本小节对p h i l i p s 音频指纹算法进行实验仿真,并分析其误码率。实验样本为 4 5 段歌曲片段,其中包括不同风格的男声、女声以及乐曲。在2 1 节中,本文已 经对常见畸变下的算法性能进行了分析,本小节将分析在这些畸变下的误码率情 况,这些畸变包括m p 3 编解码、幅度压缩、时间刻度修改、白噪声、线性速度改 变,结果如图2 5 表示: 哥 留 嗤

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论