基于内容的音频信息检索课件_第1页
基于内容的音频信息检索课件_第2页
基于内容的音频信息检索课件_第3页
基于内容的音频信息检索课件_第4页
基于内容的音频信息检索课件_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京大学多媒体研究所 Multimedia Computing Institute of NJU 基于内容的音频信息检索 武港山 Tel : 83594243 Office: 蒙民伟楼608B Email : 南京大学多媒体研究所 Multimedia Computing Institute of NJU *Wu Gangshan: Modern Information Retrieval2 Contents n概述 n查询方式 n语音检索 n音频检索 n音乐检索 南京大学多媒体研究所 Multimedia Computing Institute of NJU *Wu Gangshan: Modern Information Retrieval3 1 音频检索概述 n音频是多媒体中的一种重要媒体。 n我们能够听见的音频频率范围是60Hz20kHz。 n其中语音大约分布在300Hz4kHz之内, n而音乐和其他自然声响是全范围分布的。 n声音经过模拟设备记录或再生,成为模拟音频, 再经数字化成为数字音频。 n数字化时的采样率必须高于信号带宽的2倍,才能 正确恢复信号。 n样本可用8 位或16位比特表示。 南京大学多媒体研究所 Multimedia Computing Institute of NJU *Wu Gangshan: Modern Information Retrieval4 1 音频检索概述 n音频是声音信号的表示形式,作为一种信息载体 ,音频可以分为三种类型: n波形声音 对模拟声音数字化而得到的数字音频信号。它可以代表 语音、音乐、自然界和合成的声响。 n语音 具有字词、语法等语素,是一种高度抽象的概念交流媒 体。语音经过识别可以转换为文本。文本是语音的一种 脚本形式。 n音乐 具有节奏、旋律或和声等要素,是人声或/和乐器音响 等配合所构成的一种声音。音乐可以用乐谱来表示。 南京大学多媒体研究所 Multimedia Computing Institute of NJU *Wu Gangshan: Modern Information Retrieval5 音频信息的特征 n不同类型的声音具有不同的内在内容。 n人们感受到的内容不同。 n但从整体看,音频内容分为三个级别: n最低层的物理样本级、 n中间层的声学特征级和 n最高层的语义级, n如下图所示。从低级到高级,其内容逐级 抽象,内容的表示逐级概括。 南京大学多媒体研究所 Multimedia Computing Institute of NJU *Wu Gangshan: Modern Information Retrieval6 音频信息的特征 音乐叙事、音频对象描述、 语音识别文本、事件 感知特征:音调、音高;旋律、节奏 声学特征:能量、过零率、LPC系数 音频结构化表示 采样率、时间刻度 样本、格式、编码 语义特征级 物理特征级 样本数据级 模糊匹配 (基于内容的检索) 严格匹配 南京大学多媒体研究所 Multimedia Computing Institute of NJU *Wu Gangshan: Modern Information Retrieval7 级别 特征 显式表示 可否用于检索 物理级 声学级 语义级 音频信息的特征 取样频率、量化精度、 编码方法、声道数目、 时间刻度信息(时:分 :秒:帧). 音量、音高、音域、音 色、. 如一段语音的中心思想、 包含的关键词、类型等, 一段音乐的旋律、情绪、 主题等. 是 否 否 少部分 部分 全部 南京大学多媒体研究所 Multimedia Computing Institute of NJU *Wu Gangshan: Modern Information Retrieval8 1 音频检索概述 n基于人工输入的属性和描述来进行音频检索是容 易首先想到的方法。该方法的主要缺点反映在: n当数据量越来越多时,人工的注释强度加大; n人对音频的感知,如音乐的旋律、音调、音质等,难以 用文字注释表达清楚。 n这些正是基于内容的音频检索需要研究和解决的 问题。 n但同时应该注意到音频检索可以利用的一个优势 ,那就是语音是一种特殊类型的音频,它与文本 可以互相转换,因此,可以利用文本检索技术进 行概念检索。 南京大学多媒体研究所 Multimedia Computing Institute of NJU *Wu Gangshan: Modern Information Retrieval9 基于内容的音频检索 nWhat? 从声学特征和语义特征进行音频信息的 检索称为基于内容的音频检索。 n困难: 1 数字音频是一种不透明的位流,它不显式地包含可识 别或可比较的语义实体; 2 人工输入音频数据的属性和内容描述,工作量极大, 注释的准确性依赖于人的水平、经验和工作态度; 3 人对音频信息(特别是音乐)的感知,如音乐的旋律 、音调、音质等,难以用文字表达清楚。 南京大学多媒体研究所 Multimedia Computing Institute of NJU *Wu Gangshan: Modern Information Retrieval10 2、查询方式:需求 n检索包含特定内容的一段讲话(计算机, 互连网,多媒体技术.) n检索指定说话人的一段讲话 n检索指定类型的一段音频(音乐、歌曲、 报告、谈话.) n检索指定旋律的一段音乐 n检索指定乐器演奏的一段音乐 南京大学多媒体研究所 Multimedia Computing Institute of NJU *Wu Gangshan: Modern Information Retrieval11 2、查询方式:用户表达 示例方式(by example)也称为拟声方式( onomatopoeia)。 用户使用一个声音例子表达 其检索要求,查找出与该声音相似的所有声音 。例如: 用户可以发出嗡嗡声来查找蜜蜂或电气嘈杂声 检索与飞机的轰鸣声相似的所有声音。 直喻(simile)方式。 通过选择一些声学/感知 特性来描述检索要求,如音色、音调等。 南京大学多媒体研究所 Multimedia Computing Institute of NJU *Wu Gangshan: Modern Information Retrieval12 2、查询方式:用户表达 主观特征方式。 用描述语言来描述声音,如寻 找“欢快”的声音。这需要预先训练系统理解这些 描述语言的含义。 浏览方式。对数据库中所有的声音逐个审听, 寻找所需要的声音。这需要在分类的基础上进 行,最好预先为每一段声音做好摘要。 南京大学多媒体研究所 Multimedia Computing Institute of NJU *Wu Gangshan: Modern Information Retrieval13 基于内容的检索过程 用户的查询说明 示例 一般性描述 相似性匹配 返回一组 候选结果 结 束 修改查询说明 从候选结果中选择 一个示例 满意? N Y 南京大学多媒体研究所 Multimedia Computing Institute of NJU *Wu Gangshan: Modern Information Retrieval14 基于内容检索的特点 n是一种相似检索,得到的是与用户指定要求相 似的一组结果。 n检索时可以指定返回结果的数目,或要求检索 结果能满足一定的相似度。 n可以强调或忽略某些特征,对指定特征施加 “less”或“more”等模糊运算。 南京大学多媒体研究所 Multimedia Computing Institute of NJU 3 语音检索 南京大学多媒体研究所 Multimedia Computing Institute of NJU *Wu Gangshan: Modern Information Retrieval16 语音检索的对象及应用 n检索对象:语音文档(broadcast radio, TV programs, video tapes, lectures, voice memo, voice mail, voice phonebook, etc.) n查询方式: text and/or speech n技术:语音识别技术, n应用:在电台节目、电话录音、会议录音、教 学录音的数据管理与应用中极为有用。 南京大学多媒体研究所 Multimedia Computing Institute of NJU *Wu Gangshan: Modern Information Retrieval17 (1) 利用语音识别技术进行检索 n利用自动语音识别技术预先把语音转换为文本 (脚本): n误识率较高,含噪音数据, 无格式信息: 标题, 段落, 标点符号. 需添加语音和文本的对齐信息: timealign 含有语音的声学特征信息和感知信息 n对脚本进行处理,抽取摘要、关键词等信息, n采用常规的文本检索方法进行检索。 n问题:OOV(Out of Vocabulary)问题, 1%是OOV词汇, 南京大学多媒体研究所 Multimedia Computing Institute of NJU *Wu Gangshan: Modern Information Retrieval18 (2) 基于说话人辨认进行检索 n辨别出说话人语音的特点,来检索出指定 人的录音资料,如某位教授的讲课录音等 。 n实现:根据说话人语音的变化分割录音, 预先建立录音的结构和索引; n这种技术是简单地辨别出说话人话音的差 别,而不是识别出说的是什么。 南京大学多媒体研究所 Multimedia Computing Institute of NJU *Wu Gangshan: Modern Information Retrieval19 (2) 基于说话人辨认进行检索 n它在合适的环境中可以做到非常准确。 n利用这种技术,可以根据说话人的变化分割录 音,并建立录音索引。 n用这种技术检测视频或多媒体资源的声音轨迹 中的说话人的变化,建立索引和确定某种类型 的结构(如对话)。 n例如,分割和分析会议录音,分割的区段对应于不同 的说话人,可以方便地直接浏览长篇的会议资料。 南京大学多媒体研究所 Multimedia Computing Institute of NJU *Wu Gangshan: Modern Information Retrieval20 (3) 基于关键词发现技术进行检索 n“关键词发现”(Spotting)技术:在语音文档中, 自动地检测出指定的词或短语的技术, (例如通过“进球”这个关键词可以找到体育比赛实况录 音中进球前后的解说) n实现: n预先识别出指定集合中的关键词, 建立索引。 n问题: n关键词集合固定, 数量有限; n语音数据以特征向量序列表示,索引很不方便. 南京大学多媒体研究所 Multimedia Computing Institute of NJU *Wu Gangshan: Modern Information Retrieval21 Subword Lattice Based Word Spotting u子词(Subword)单位可以是音素、音节或半音节 等.它是语音分析过程中的产物,与语种无关. u Subword Lattice是一种有向无环图. u查询时使用的关键词,实时生成其子词序列, 子词序列 和Subword Lattice的进行相似度匹配(后向搜索). t-1 t 0.85 0.21 0.73 0.35 南京大学多媒体研究所 Multimedia Computing Institute of NJU *Wu Gangshan: Modern Information Retrieval22 语音识别技术的应用领域 uGrowing interest in this area: nVideo mail retrieval (Cam, UK) nBBC news retrieval. nDigital library projects( CMU的Informedia, Michagen 的MSU, Sheffield和Cam的THIRL Project, Maryland 的VoiceGraph, AT pitch is said to range from low or deep to high or acute sounds. nIntensity nwhich is related to the amplitude, and thus to the energy, of the vibration; textual labels for intensity range from soft to loud; the intensity is also defined loudness. nTimbre nwhich is defined as the sound characteristics that allow listeners to perceive as different two sounds with same pitch and same intensity. *Wu Gangshan: Modern Information Retrieval48 南京大学多媒体研究所 Multimedia Computing Institute of NJU Dimensions of the Music Language nTimbre(音色、音质) nOrchestration (编曲) nAcoustics nsound quality, ambience, and style nRhythm (节奏) nMelody(旋律) nHarmony(和弦) nStructure(结构) *Wu Gangshan: Modern Information Retrieval49 南京大学多媒体研究所 Multimedia Computing Institute of NJU Formats of Musical Documents nTwo Forms: nsymbolic scores naudio performances nThree Formats nSymbolic formats nAudio formats nThe musical instrument digital interface *Wu Gangshan: Modern Information Retrieval50 南京大学多媒体研究所 Multimedia Computing Institute of NJU Music Search nMelodic retrieval based on index terms nMelodic retrieval based on sequence matching nMelodic retrieval based on geometric methods *Wu Gangshan: Modern Information Retrieval51 南京大学多媒体研究所 Multimedia Computing Institute of NJU *Wu Gangshan: Modern Information Retrieval52 音乐检索 n音乐检索利用的是诸如节奏、音符、乐器特征 。 n节奏是可度量的节拍,是音乐中一种周期特性 和表示。 n音乐的乐谱典型地以事件形式描述,如以起始 时间、持续时间和一组声学参数(基音、音高、 颤音等)来描述一个音乐事件。 n注意到许多特征是随时间变化的,所以,我们 应该用统计方法来度量音乐的特性。 南京大学多媒体研究所 Multimedia Computing Institute of NJU *Wu Gangshan: Modern Information Retrieval53 音乐检索 n除了用示例进行音乐查询之外,用户甚至可以 唱或哼出要查找的曲调。 n基音抽取算法把这些录音转换成音符形式的表 示,然后用于对音乐数据库的查询。 n但是,抽取乐谱这样的属性,哪怕是极其简单 的一段也是非常困难的。 n研究人员现在改用MIDI音乐数据格式解决这个 问题。 n用户可以给出一个旋律查询,然后搜索 MIDI文 件,就可以找出相似的旋律。 南京大学多媒体研究所 Multimedia Computing Institute of NJU *Wu Gangshan: Modern Information Retrieval54 小 结 n基于内容的音频数据检索(特别是语音检索)具有重 要的应用前景, n基于内容的音频数据检索相当困难 n语音识别还要10年技术才成熟 n一般的音频检索,需要研究有效的、区分度高的 听觉解析特征 n声音与其它媒体常常相互伴随、互相印证,如何把 音频检索与文本检索、视频检索技术等互相结合, 使用集成的检索方法来提高检索能力和检索效率。 南京大学多媒体研究所 Multimedia Computing Institute of NJU *Wu Gangshan: Modern Information Retrieval55 (3) 音乐检索 n检索对象: 演奏的音乐作品 n查询方式: n用音乐特性进行检索(音乐的节奏、旋律、音 符、演奏乐器等) n用示例进行检索(用户哼出或用乐器演奏出要 查找作品的一段曲调,系统把输入的曲调转 换成相应的音乐特性(如对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论