音频内容没法检索

上传人：N*** IP属地：广东上传时间：2023-03-22 格式：DOCX 页数：12 大小：22.16KB 积分：12 举报 版权申诉

已阅读5页，还剩7页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

本文格式为Word版，下载可任意编辑——音频内容没法检索综述音频检索内容

[摘要]音频是一种重要的媒体，它包含丰富的听觉特征。根据基于内容的音频检索的研究现状，本文总结出基于内容音频检索系统的概念，给出音频检索的根本布局，综述了音频检索的关键技术，并展望基于内容音频检索领域的进展前景。

[关键词]基于内容的音频检索音频特征提取音频分类音频检索

引言

随着多媒体和Internet的广泛应用和深入普及，多媒体数据的数量正在呈指数增长，音频数据作为多媒体数据的重要组成片面，其信息量也在急速膨胀，如何快速、切实的检索到所需要的信息已经成为现代信息检索领域的一个重点。基于文本检索的常规信息检索技术已经无法得志大量音频数据的检索需要，基于内容的音频信息检索技术应运而生。

基于内容的音频信息检索突破了传统的基于文本表达的局限，直接对音频举行分析，从中抽取内容特征，然后利用这些内容特征建立索引并举行检索，制止了用字符标识音频信息的转化过程。他涉及音频数字信号处理、语音识别、信息检索、数据库系统、模式识别、人工智能、数据挖掘等大量相关技术，在Internet音乐检索、数字音乐图书馆、点歌系统等领域中具有重要的应用。

1基于内容的音频检索的概念

基于内容的音频检索，指通过音频特征分析，对不同音频数据赋以不同语义，使具有一致语义的音频在听觉上保持好像。该技术在大量领域都有极大应用价值。

基于内容的音频检索主要有两个方面的含义：一是检索音频内容本身，如通过“哼”某音乐的曲调查找音乐；二是检索与音频内容相关的信息，如通过语音查找说话人等。

基于内容的音频索引和检索通常采用下面的步骤：

(1)将音频数据分类，通常可分为语音、音乐和噪声等类型。

(2)不同类型的音频数据可以以不同的方式举行处理和索引。如，对语音可运用语音识别技术且可基于识别过的词汇对其举行索引。

(3)查询音频片段要同样地举行分类、处理和索引。

(4)根据查询索引和数据中音频索引之间的好像性，对音频片段举行检索。

2基于内容的音频检索系统根本布局

基于内容的音频数据库检索系统是一种重要的和关键的多媒体信息处理技术。一般可把基于内容的音频数据库检索系统看作是介于信息用户和数据库之间的一种信息服务系统。在音频检索中，需要经过特征提取、音频分割、音频识别分类和索引检索这几个关键步骤[目：

特征提取指的是探索原始音频信号表达形式，提取能代表原始信号的数据。要提取特征和属性，通常要对数据库中的多媒体数据项举行预处理。由于在检索过程中，其实是对这些特征和属性而不是对信息项本省举行探寻和对比，所以特征提取的质量抉择着检索结果。

基于内容的音频检索，一般分为音频特征提取、音频识别分类、检索三个过程。在提取音频特征之前，一般还需要对音频数据举行预处理，预处理主要包括预加重和加窗，加窗使音频数据形成音频帧。特征提取音频的物理、听觉或语义特征，其中根本要素的特征提取是以音频帧为单位或者以若干帧组成的音频片段为单位来举行。音频识别分类是对音频举行归类划分，分类本身可以是一种检索方式，也可以作为检索的一个辅佐手段，归类越精确，一般来说检索就越切实。检索的过程是一个匹配的过程，根据音频特征间的好像度给出检索结果。检索系统一般分为两片面：一片面是数据库的生成，即音频数据及其特征录入到数据库；一片面是数据库查询，即用户通过输入音频或输入特征字符串在数据库中查找所需要的音频。系统根本构成如图2.2所示。

3基于内容的音频检索系统特点

基于内容的音频检索技术突破了基于关键词匹配的传统索引技术的限制，它根据音频本身所固有的特征而不是人工标注的外部属性或者关键词对音频举行检索。它的核心思想是通过确定的计算处理，分析音频的布局和语义，建立它们的布局化的组织和索引，使得“无序”的音频变的“有序”，从而有利于用户的检索和欣赏。

基于内容的音频检索技术的主要特点有：

(1)从媒体内容中提取信息线索。基于内容的检索突破了传统的基于表达式检索的局限，利用音频内容特征建立索引举行检索。

(2)基于内容的音频检索，踌躇内容表达的不精确，必然是一种近似的检索。结果中往往展现误检和遗漏。

(3)数据库的快速检索。在实际的多媒体数据库中，不仅数据量巨大，而且种类和数量繁多，要求基于内容的检索技术实现对多媒体信息的快速检索。

(4)作为一种多媒体技术，具有很强的交互性(用户可以参与检索过程)。

4基于内容的音频检索系统关键技术

4.1音频特征提取

音频特征提取是整个基于内容的音频检索技术的核心技术。音频内容描述是在音频内容获取的根基之上举行的，同时是进一步举行音频特征好像度匹配的必要前提。特征提取是指探索原始音频信号表达形式，提取能代表原始信号的数据。要抽取特征和属性，通常要对数据库中的多媒体数据项举行预处理。在检索过程，需要对这些特征和属性举行不断的探寻和对比。

4.1.1音频时域特征的提取

可提取的音频时域特征有平均能量、过零率和静音比等。

平均能量说领略音频信号的强度，可用于静音检测，对于一个音频例子，如这个音频例子中的某一短时帧的平均能量低于一个事先设定的阈值，那么可判定该短时帧为静音。

过零率指每秒内信号值通过零值的次数，确定程度上说，它说领略平均信号频率。一般语音信号由单词构成，单词又由元音和辅音交替的音节组成，辅音信号的过零率低，而元音信号的过零率高。语音信号开头和终止都大量集中了辅音信号，所以其开头和终止片面的过零率总会有显著升高，利用过零率可判断语音是否开头和终止。另外，大多数音乐信号集中在低频片面，其过零率不表现出突然升高或降落的起伏特性，所以有时也可用过零率来区分语音和音乐两种不同音频信号。

静音比表示静音的声音片段的比例。

4.1.2音频频域特征的提取

傅里叶变换可分解出音频信号的频率成分，可提取的音频频域特征有带宽、频谱中心、谐音、音调等。

(1)带宽说领略声音的频率范围，音乐通常比语音信号具有更高的带宽；

(2)频谱中心也称亮度，是一个声音频谱能量分布的中心点。语音与音乐相比，频谱中心较低；

(3)频率为最低频率的倍数的频谱成分称为谐音。在有谐音的声音中，频谱成分大片面是最低频率的整数倍数，音乐通常比其他声音具有更多的谐音；

(4)音调是听觉辨识声音上下的特性，完全由频率抉择，可通过频谱估计。

只有阶段性的声音，如那些由音乐设备和语音产生的声音，才会产生一种音调的感觉。可根据音调的级别对声音排序。音调是一个主观特征。

4.2音频分类与归纳

分类(classification)用于预料音频对象的所属类别。而聚类(clustering)是一个将数据集划分为若干组或类的过程，通常可以定义为音频的归类问题.分类用于判别用户提交的例如音频或音频文本属于哪个类别，也可用于将一段新的音频归入已有的分类中(音频识别)。

根据音频的特征值可将音频分类。常见的分类方法是：首先计算输入音频片段的频谱中心，假设其频谱中心值比预先设定的阈值高，那么认为它是音乐：否那么它是语音，但由于有的音乐也具有低的频谱中心值，因此它也可能是音乐。其次，计算静音比，假设它的静音比低，那么认为它是音乐：否那么，认为它是语音或独奏音乐。结果计算平均过零率ZCR，假设它有着分外高的ZCR可变性，那么它是语音，否那么它是独奏音乐。

在这种分类方法中，特征判定的依次是分外重要的，通常由计算的繁杂性和特征的区别抉择。一般首先判定区别性大、繁杂性低的特征，这样可裁减一个特殊音频片段将要体验的步骤数，同时也可降低所需的整个计算量。

将音频分类为语音和音乐后，就可以使用不同的技术对它们举行单独处理。

4.3音频检索

4.3.1语音识别和检索

语音索引和检索的根本方法是运用语音识别技术把语音信号转化为文本，然后应用IR技术举行索引和检索。除实际的发声词汇(spokenwords)外，包含在语音中的其他信息，如发音者的身份和心绪等，都有助语音索引和检索。

语音检索是采用语音识别、语音处理技术完成音频信息检索。主要包括大词汇语音识别技术检索：子词单元检索：关键词识别检索：对说话人的鉴别举行分割检索。

(1)大词汇语音识别技术检索

这种方法是利用自动语音识别(ASR)技术把语音转换为文本，从而可以采用文本检索方法举行检索。

(2)字词单元检索

当语音识别系统处理各方面无限制主题的大范围语音资料时，识别性能会变差，尤其当一些专业词汇不在系统词库中时。一种变通的方法是利用子词索引单元，当执行查询时，用户的查询首先被分解为子词单元，然后将这些单元的特征与库中储蓄好的特征举行匹配。

(3)关键词识别检索

在无约束的语音中自动检测词或短语通常称为关键词的察觉。利用该技术，识别或标记出长段录音或音轨中反映用户感兴趣的事情，这些标记就可以用于检索。如通过抓获体育比赛阐明词中“进球”的词语可以标记进球的内容。

(4)对说话人的鉴别举行分割

这种技术是简朴地分辩出说话人话音的区别，而不是识别出说的是什么，它在适合的环境中可以做到分外切实。利用这种技术，可以根据说话人的变化分割录音，并建立录音索引。如用这种技术检测视频或多媒体资源的声音轨迹中的说话人的变化，建立索引和确定某种类型的布局。

4.3.2音乐索引和检索

音乐的类型有两种：布局化的(或综合的)音乐和基于样本的音乐。一般说来，音乐索引和检索的有效技术的研发仍处于初期阶段。

(1)布局化音乐的索引和检索

布局化音乐和声音效果是由一系列指令或算法来表示的。最常见的布局化音乐是MIDI，它把音乐表示成大量的音符和操纵指令。由于布局化音频的简明布局和音符描述的理由，没有必要从音频信号中抽取特征，因此布局化音频更便于检索。

对于布局化音乐和声音效果，由于两个音符序列之间的好像性定义的困难性，基于好像性的检索很繁杂。目前一种可行的方法是基于音符序列的音调变化来检索音乐。其根本思想是：查询声音和数据库声音文件中的每个音符(第一个音符除外)都被转换成相对前一个音符的音调变化。音调变化有三种状态：该音符比前一音符高(U)、该音符比前一音符低(D)和该音符与前一音符一致或好像(S)。按这种规矩，任意一段旋律可转化为一个包含字母U、D、s的符号序列，检索任务也就变成了一个字符串匹配过程。该方法是针对基于样本的声音检索提出的，也同样适用于布局化声音检索，根据音符音阶可较轻易地获得音调变化。

(2)基于样本的音乐的索引和检索

对于基于样本的音乐的索引和检索有两种通用的方法：一是基于抽取的声音特征集合，二是基于音乐音符的音调。

基于特征集的音乐检索；在这种音乐检索方法中，对每种声音(包括查询)抽取听觉特征集，将其表示成一个矢量。通过计算查询音乐和每个存储音乐片段相应的特征矢量之间的近似度来计算它们的好像性。该方法可应用于一般的声音中，包括音乐、语音和声音效果。MuscleFishLLC完成的一项研究工作就是使用该方法的一个较好的实例。在这项研究中，共使用了5个音频特征：强度、音调、亮度、带宽和谐音。这些特征随着时间的变化而变化，因此可对每个帧举行计算，然后用统计学中的均值、方差和自动相关3个参数来表示每个特征。查询矢量和每个存储的音乐片段的特征矢量之间的欧几里德距离或Manhattan距离可用作它们之间的距离。

基于音调的音乐检索；该方法与基于音调的布局化音乐检索好像。二者之间的主要识别在于基于音调的音乐检索务必抽取或估计每个音符的音调。将一段旋律转化为一系列相对音调转移序列的过程称为称为音调跟踪。音调跟踪是自动化音乐转录的简化形式，它把音乐声音转化成符号表示。该方法的根本思想为：由于音乐的每个音符都是由它的音调表示的，因此一个音乐片段或片面可表示成一个序列或音调串。检索是以查询音乐和每个存储音乐片段相应的音调串之间的好像性为根基，音调跟踪和串好像测量是检索过程的关键。

5展望

基于内容的音乐检索主要是基于音频特征矢量匹配和近似音调匹配。计算机对信息的表达归根结底是一种状态表达，要将听觉感知的信息借助计算机举行存储与检索，这当中举行的转换难以制止实际信息的失真。对于音频检索来说，由于感官上与表达上的不一致性大大增加了检索的处理难度。因此，基于内容的音频检索只能是一种好像性检索，而无法实现传统的精确匹配检索。虽然研究人员已在基于内容的音乐检索技术方面做了大量的研究，但是为了得志大容量数据库和检索的要求还有大量工作要做。

上基于内容的音频检索问题，需要研究快速的大规模音频库的欣赏、检索和提交：长音频的欣赏，即布局化表示音频流，并设计出新形式的内容欣赏界面：长音频的检索，研究通用的基于片段级的内容检索，在时间轨迹上匹配一组特征，这需要研究模糊的匹配方法：持续研究有效的听觉解析特征，以支持通用和专用的音频检索问题：用户的音频查

人人文库> 全部分类> 教育资料 > 中学教育

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

音频内容没法检索

文档简介

温馨提示

最新文档

评论

音频内容没法检索

文档简介

温馨提示

最新文档

评论

相关文档