版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、人民邮电出版社 国防科学技术大学 版权所有 第九章多媒体信息分 析与处理 人民邮电出版社 国防科学技术大学 版权所有 9.1 基于内容检索的 系统结构和方法 9.1.1 基于内容检索的概念基于内容检索的概念 所谓基于内容检索,就是从媒体数据 中提取出特定的信息线索,然后根据 这些线索从大量存储在数据库中的媒 体中进行查找,检索出具有相似特征 的媒体数据出来。 9.1.2基于内容检索系统的体系结构基于内容检索系统的体系结构 插入子系统 该子系统负责将媒体输入到系统之中,同时根 据需要为用户提供一种工具,以全自动或半自 动(即需用户部分干预)的方式对媒体进行分割 或节段化,标识出需要的对象或内容关
2、键点, 以便有针对性的对目标进行特征提取。 特征提取子系统 对用户或系统标明的媒体对象进行特征提取处 理。在提取特征时,往往需要知识处理模块的 辅助,由知识库提供有关的领域知识。 9.1.2基于内容检索系统的体系结构基于内容检索系统的体系结构 数据库 媒体数据和插入时得到的特征数据分别存入媒 体数据库和特征数据库 媒体库包含各种媒体数据,如图像、视频、音 频、文本等。 特征库包含这种媒体用户输入的特征和预处理 自动提取的特征。 查询子系统 主要以示例查询的方式向用户提供检索接口。 9.4.2基于内容检索系统的体系结构基于内容检索系统的体系结构 用户 查询模块 查询格式化 媒体处理模块 知识辅助
3、模块媒体处理模块 新的媒体对象 示例媒体 媒体1数据库 媒体n数据库 媒体特征 媒体特征 多媒体数据库中基于内容检索的结构示意 插入的媒体对 象 查询的媒体对 象 媒体处理例程 存储的特征值查询特征 计算相似性 查询的方法示意 9.1.3基于内容检索的过程和指标基于内容检索的过程和指标 检索过程 初始检索说明:用户开始检索时,要形成一个检索的 格式,最初可以用QBE或特定的查询语言来形成。 相似性匹配:将特征与特征库中的特征按照一定的匹 配算法进行匹配。 特征调整:用户对系统返回的一组满足初始特征的检 索结果进行浏览,挑选出满意的结果,检索过程完成; 或者从候选结果中选择一个最接近的示例,进行
4、特征 调整,然后形成一个新的查询。 重新检索:逐步缩小查询范围,重新开始。该过程直 到用户放弃或得到满意的查询结果时为止。 9.1.3基于内容检索的过程和指标基于内容检索的过程和指标 分割 分割,是指把媒体对象划分为几个有意义的子对象的 过程。 视频和音频分割主要是根据提取出来的多媒体特征, 把连续的多媒体数据流在特征发生突变的地方分割成 不同的物理单元,进而由这些不同的物理单元组成高 级语义的场景、故事单元和故事片断。 多媒体场景本质上是由文本、图像、图形、音频和视 频等多模态交互融合形成的,虽然每一模态都表示了 或多或少的场景语义,但是只有多模态媒体融合在一 起才能表达一个多媒体场景。 9
5、.1.3基于内容检索的过程和指标基于内容检索的过程和指标 识别分类 分割得到的只是多媒体数据的最小物理单元,而 用户对多媒体信息进行检索是基于一定语义的,所以 还必须通过多媒体识别分类把分割出来的多媒体物理 单元标注成预定义的语义类。 对分割出来的多媒体单元数据分类标注可以基于 不同级别的语义层次:一是高级语义,这种语义是不 同时间和空间的几个多媒体事件高度抽象概念化的结 果;二是中级语义,这种语义是对单个事件的描述, 不涉及几个事件的交叉;最后是低级语义,它是利用 视觉和听觉信息对多媒体进行初步分类的结果。 9.1.3基于内容检索的过程和指标基于内容检索的过程和指标 特征匹配 特征匹配是基于
6、内容检索中最关键的部分。 因为媒体的内容语义无法十分精确,所以要采 用相似性的匹配方法。 9.1.3基于内容检索的过程和指标基于内容检索的过程和指标 主要指标 由于基于内容检索系统采用相似性匹配, 检索到的对象往往存在一定的误差,这个误差 常用查全率(Recall)和查准率(Precision)来表 示。查全率是指数据库中所有的相关对象是否 都查到了,查准率是指查到的对象是否都是正 确的,均用百分比来表示。 人民邮电出版社 国防科学技术大学 版权所有 9.2 图像内容分析 及检索方法 9.2.1图像特征的提取与表达图像特征的提取与表达 对图像进行内容分析需要考虑三个层次:原 始数据层、特征层和
7、语义层。其中,原始数据层 采用像素矩阵对图像进行表示;特征层考虑像素 模式的特性;语义层则关心的是图像的含义。 1图像物理特征的提取与表达 图像颜色特征的提取与表达 图像纹理特征的提取与表达 图像形状特征的提取与表达 图像空间关系特征的提取 9.2.1图像特征的提取与表达图像特征的提取与表达 2图像语义特征的提取 人们判断图像的相似性并非仅仅建立在图像 视觉特征的相似性上。用户在检索图像时,存在 一个大致的概念,这个概念建立在图像所描述的 对象上,而不是颜色、纹理等特征,直观的进行 分类并判断图像满足自己的需要程度,这就需要 对图像含义的理解。这些含义就是图像的语义特 征。图像的语义信息可以根
8、据层次的不同分成场 景语义、对象语义、情感语义。 感兴趣区域特征的提取 局部不变特征的提取 9.2.1图像特征的提取与表达图像特征的提取与表达 3图像高维特征缩减和索引 图像高维特征缩减 图像高维特征索引 9.2.2图像相似性检索与匹配方法图像相似性检索与匹配方法 1利用颜色直方图进行检索 指明颜色组成 指明一幅图像 指明图像中的一个子图 2颜色直方图的相似性匹配 9.2.3图像检索中的相关反馈机制图像检索中的相关反馈机制 在基于内容的图像检索中,查询得到的结果应 该是一组和用户提交的查询请求相似的图像集合, 然而由于基于内容的图像检索还无法达到非常精 确的匹配,结果中必然含有非用户想要查询的
9、图 像。因而,用户在结果中再次选择与其检索目标 最接近的图像作为示例图像进行二次查询,系统 将根据用户的反馈信息对图像库进行相应的修改, 并重新返回一组结果,这样的过程就是图像检索 中的用户相关反馈问题。 相关反馈可以让用户的个性化反映到结果中, 并提高系统的适应性。 人民邮电出版社 国防科学技术大学 版权所有 9.3 视频结构化与 视频摘要 9.3.1 视频媒体基本特性视频媒体基本特性 1视频序列 视频序列主要由镜头(Shot)组成,每一个 镜头包含一个事件或一组连续的动作。每个镜头 中的内容发生在一个场景(Scene)中,一个场景 可以分散在多个镜头之中。一个故事将由一组镜 头组成,这中间
10、将会有多个场景不断地进行变化。 对视频序列的分割最基本的单位就是镜头,往下 就是镜头中对象的运动或图像,可以另外处理; 往上是场景,将由多个镜头组成。 9.3.1 视频媒体基本特性视频媒体基本特性 2镜头的切换 镜头的切换点是视频序列中两个不同镜头之 间的分隔和衔接,是在导演切换台上或特技发生 器上做出来的。切换的方法主要有两类。 直接切换 一个镜头与另一个镜头之间没有过渡,由一 个镜头的瞬间直接转换为另一个镜头。 渐变切换 镜头与镜头之间的变换是缓慢过渡的,没有明 显的镜头跳跃。 9.3.1 视频媒体基本特性视频媒体基本特性 3镜头的运动 在拍摄时根据剧情的需要,可以采用多种镜 头的运动方式
11、对镜头进行处理。镜头的运动方式 主要包括: 推拉镜头(Zooming) 摇镜头(Panning) 跟踪(Tracking) 还有一些镜头运动的方式,如水平、垂直的移动, 仰视、侧视拍摄,近摄、远摄等,都取决于所要 表现的内容。 9.3.1 视频媒体基本特性视频媒体基本特性 4视频的层次化结构 视频数据从表面上看是非结构化的数据流, 其最高层是整个视频流,最低层是一帧帧的图像。 而从它的拍摄和情节的组织上来讲,视频是有结 构的,一般的视频节目都具有分层结构。 视频结构化工作就是要实现结构切分和内容 提取,主要步骤包括镜头边界探测(Shot Bound Detection)、关键帧(Key Fra
12、me)提取和故事 (场景)单元边界探测(Story Bound Detection), 在此基础上可以对视频的内容进行浓缩和摘要。 9.3.2 镜头边界探测镜头边界探测 1直方图比较法 直方图比较法是一种简单的镜头分割方 法。由于在连续的视频序列中,如果没有 特殊的处理,相邻的两幅图像的差别是很 小的。如果发生了镜头转换,在帧与帧的 差值上就会发生大的改变。对于突变镜头 切换来说,帧与帧之间的直方图差值是很 明显的,也就很容易确定出视频序列中的 镜头起点和终点。 9.3.2 镜头边界探测镜头边界探测 2双重比较法 对于采用渐变类的镜头切换来说,直方图的 差值虽然有,但不很明显。 所谓双重比较法
13、,是指采用两个阈值。首先 用第一个较低的阈值来确定出潜在渐变切换序列 的起始帧。一旦确定了这个帧,就将它与后续的 帧进行比较,用得到的差值来取代帧间的差值。 这个差值必须是单调的,应该不断地加大,直至 这个单调的过程中止。这时,将这个差值与第二 个较大的阈值进行比较,如果超过了这个阈值, 就可以认为这个不断比较差值单调增的视频序列 对应的就是一个渐变切换点。 9.3.2 镜头边界探测镜头边界探测 3基于背景的镜头探测方法 同一镜头通常都含有相同的背景区域。摄像 机在做摇动、推拉和旋转等运动时,其对象有可 能移动、变化、快速运动或者消失,但是背景区 域的变化相对而言却很小。基于这一特点,可以 认
14、为具有相同背景区域的图像帧可能属于同一镜 头,一旦背景区域发生了显著变化,则认为出现 了镜头边界。同时,为避免出现背景相似而镜头 内容完全不同的情况,即漏检某些镜头,在分析 背景区域的基础上,对主要对象区域进行分析, 以辅助镜头边界的准确探测。 9.3.3关键帧提取关键帧提取 1首尾帧法和中间帧法 首尾帧法将切分得到镜头中的第一幅图像和 最后一幅图像作为镜头关键帧。中间帧法,选择 在时间上居中的一幅图像作为关键帧,这种方法 简单实用,适合多种类型的镜头。 首尾帧法和中间帧法虽简单,但它不考虑当 前镜头视觉内容的复杂性,并且限制了镜头关键 帧的个数,使长短和内容不同的视频镜头都有相 同个数的关键
15、帧,这样做并不合理。 9.3.3关键帧提取关键帧提取 2基于颜色特征法 在基于视频图像颜色特征提取关键帧的方法中, 镜头当前帧与最后一个判断为关键帧的图像比较, 如有较多特征发生改变,则当前帧为新的一个关 键帧。 9.3.3关键帧提取关键帧提取 3基于运动分析法 将相机运动造成的图像变化分成两类:一类是 由相机焦距变化造成的;一类是由相机角度变化 造成的。对前一种,选择首、尾两帧为关键帧; 对后一种,如当前帧与上一关键帧重叠小于30%, 则选其为关键帧。 9.3.3关键帧提取关键帧提取 4基于聚类的方法 基于聚类的关键帧提取方法不仅计算效率高, 还能有效地获取视频镜头变化显著的视觉内容。 对于
16、低活动性镜头,大多数情况下它会提取少量 的关键帧或仅仅一个关键帧。但对于高活动性镜 头,它会根据镜头的视觉复杂性自动提取多个关 键帧。 9.3.4故事单元边界探测故事单元边界探测 故事又称“故事单元”(Story Unit),一 般由多个连续的镜头组成,描述一段具体的语 义内容,针对的是同一环境下的同一批对象, 描述的是发生在同一环境下的一段情节。 播音员镜头(简称口播帧)是指在新闻 视频中重复且间隔出现的含有一个(或多个) 播音员的镜头,是新闻视频所特有的结构标志, 它的出现通常被视为一个新的新闻故事单元的 开始。 对播音员镜头探测比较有代表性的方法包 括模板匹配法、多特征融合法以及聚类法。
17、 9.3.5 视频语义对象提取视频语义对象提取 视频中的语义对象是指用户所关注的 一些重要语义内容,例如重要的人物、出 现的重要文字信息等。 视频中人脸对象的探测与识别 视频中字幕信息的提取 运动对象探测与跟踪 9.3.6 视频摘要视频摘要 视频摘要,就是以自动或半自动的方式,通 过对视频的结构和内容进行分析,从原视频中提 取出有意义的部分,并将它们以某种方式合并成 紧凑的、能充分表现视频语义内容的视频概要。 其目标就是把原始视频流的内容用一句简单的 “话”表达出来。 视频摘要有多种表现形式,它可以是一段文 字、一幅图像或多幅图像的组合,也可以是一段 视频或者由多种媒体组合而成的多媒体文档。
18、9.3.6 视频摘要视频摘要 (1)文字描述 这种方式是最紧凑的视频摘要形式, 非常便于用户理解和建立索引,但很难由 计算机自动生成能准确概括视频内容的文 字描述。 (2)视频代表帧 这是一种使用较多的视频表现形式, 镜头、场景和故事单元都可以用一幅或几 幅从视频中抽取的图像来作为这段镜头、 场景和故事单元的摘要。 9.3.6 视频摘要视频摘要 (3)情节串连图 这种摘要十分类似于电影海报,它是 由一组从视频中抽取的图像按照时间顺序 组合而成,将这些代表帧合成在一起,形 成名为“漫画书”(Comic Book)的视频摘要。 (4)视频剪辑 视频剪辑或称缩略视频,是由视频中 的一些片段拼接而成,
19、或者是由视频中的 图像序列和声音片段合成得到。用户可以 通过播放这些相对短小的视频片段了解整 个视频的内容。 9.3.6 视频摘要视频摘要 (5)多媒体视频摘要 多媒体视频摘要是由多种媒体形式组成 的视频内容表现方式。它将文字、图像、 声音和视频等媒体综合集成在一起来表现 视频的主要内容。 人民邮电出版社 国防科学技术大学 版权所有 9.4 基于内容的音 频处理与检索 9.4.1音频媒体基于内容检索的概念音频媒体基于内容检索的概念 基于内容的音频检索,是指通过音频特 征分析,对不同音频数据赋以不同的语义, 使具有相同语义的音频在听觉上保持相似。 在音频检索中,也需要经过特征提取、 音频分割、音
20、频分类识别和音频检索这几 个关键步骤 9.4.2音频结构化音频结构化 音频结构化包括两个方面的内容:音频 语义内容分析和音频结构分析。 音频语义内容是通过对音频数据的分析 获得音频中的一些特定语义内容。原始音 频是非结构化的数据流,无法直接从中提 取有意义的语义内容,这就需要对原始音 频按一定语义内容进行时域上的分割,即 音频结构分析。 9.4.2音频结构化音频结构化 分类是音频结构分析的一种主要方法,类别信 息包含了音频数据的重要语义内容,它能够让用 户对音频内容有一个全局概念上的认识。根据音 频的作用和特点一般可将音频分为如下图所示的 类别层次。 9.4.2音频结构化音频结构化 另一种结构
21、化模型类似视频的结构化,如下图 所示。 9.4.3音频特征提取音频特征提取 1特征抽取的相关技术 音频是一种缓慢时变的信号,可以应用数字信 号处理技术和信号系统理论来抽取音频的物理特 征。对音频特征的抽取要用到多种方法,其中短 时时域处理技术短时频域处理技术和同态处理 技术是最基本、最典型的技术。 短时处理技术将音频信号分成一些相继的短段 进行处理。 9.4.3音频特征提取音频特征提取 短时处理技术分为短时时域处理技术和短时频 域处理技术。 短时时域处理主要是计算音频的短时能量短 时平均幅度短时平均过零率和短时自相关函数。 这些计算都是以音频信号的时域抽样为基础的。 短时频域处理主要是对各个短
22、段音频信号进行频 谱分析 。 9.4.3音频特征提取音频特征提取 2特征分析与抽取 根据短时处理技术理论,音频帧是处理音频的 最小单位,通常的音频处理中帧的长度一般取为 2030ms。特征抽取的基础是数字信号处理技术 和信号系统理论,特征抽取包括3个步骤:原始音 频预处理,特征抽取和特征集的构造。 9.4.3音频特征提取音频特征提取 (1)原始音频预处理 原始音频往往含有尖锐噪音,会影响处理效果。 同时音频处理的单位是帧,所以特征提取前,需要 对原始音频数据做预处理,包括预加重、切分和加 窗成帧。 (2)特征抽取 首先计算帧层次上的特征,然后在此基础上抽 取子带能量比均值、带宽均值、频率中心均
23、值、基 音频率标准方差、和谐度、平滑基音比、High ZCR比率、Low Frequency Energy比率和频谱流量 等clip层次上的特征来构造特征集。 9.4.3音频特征提取音频特征提取 (3)特征集构造 在特征抽取的基础上构造音频分类的特征集 合。由于不同音频特征的值有很大的差别,所以 要对特征集合进行归一化处理。 9.4.4音频分类音频分类 (1)基于规则的静音与噪音分类器 静音和噪音是识别相对简单的声音类别,特 征与其他音频类别区别明显,所以采用基于规则 的方法识别这两类音频类别。 静音的识别规则 静音是指人耳听不到的声音,它与音强有关; 由人的听觉特性可知,静音还与音长有关。这
24、些 特性表现在能量谱上,就是在一定的时间内音频 流的能量较低。 9.4.4音频分类音频分类 噪音的识别规则 噪音是指不包含任何语义内容的音频clip,主 要考虑宽带噪声。宽带噪声是比较普遍的一类噪 声,其来源很多,包括热噪声、气流(如风、呼 吸等)噪声及各种随机噪声源。其在频域上与语 音中的辅音频谱相似,宽带噪声的ZCR很高,这 是因为其高频分量的能量较大,在时域上表现为 信号比较杂乱、无规律。 9.4.4音频分类音频分类 (2)多类分类器的构造 通常需要将非静音噪音clip分为纯语音、含背 景音的语音、音乐和环境音4类。根据SVM决策 树方法来构建多类分类器,则需要构建3个SVM。 基于SV
25、M决策树方法的多级分类器结构图如下图 所示。 9.4.5音频分割音频分割 音频分割是音频镜头切分的技术基础,它直 接关系到音频镜头切分的精度,进一步会影响到 音频语音内容提取的准确性。音频分割完成两个 方面的工作:一是根据音频连续特性对分类结果 进行平滑,修正违背音频连续性的误分类;二是 合并类别相同的音频clip,对音频流按类别在时间 轴上进行分割,生成音频镜头。 滑窗法 基于规则的分割方法 基于熵和动态规划算法的分割方法 9.4.6基于内容的音频检索基于内容的音频检索 基于语义描述的音频查询方式 基于示例的音频检索方式 音频示例相关反馈方式 人民邮电出版社 国防科学技术大学 版权所有 9.5 多媒体融合分 析与检索 多媒体信息分析可以借助各种媒体之间的关 系融合进行。例如,在对新闻视频进行分析时, 可能需要对音频、视频和文本信息进行综合分析, 才能得到更好的结果,如下图表示的过程。 9.5.1多媒体特征融合多媒体特征融合 下图所示的超级隐马尔科夫链 (superHMM),就
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年大学大一(经济学原理)经济学综合测试试题及答案
- 2025年前台防疫题库
- 2025年前台防疫接待礼仪常见题
- 护理人员的职业道德与价值观
- 护理实践中的护理与医疗效果
- 抗精神病药物的应用与护理
- 学校卫生监测服务规范考核试题及答案
- 校园文化建设实施方案
- 卫星遥感应用企业管理规范岗前培训试题及答案
- 专题四 常用工具的使用(课件)-职教高考电子与信息《图形图像处理》专题复习讲练测
- 《以油养肤功效型护肤产品开发指南》
- 禁毒安全主题班会课件
- 2025年江苏专转本机械工程类理论实操考试真题答案解析
- 餐饮具清洗消毒规程培训考试题及答案
- 2025年度四川省考评员专业技能鉴定考试题及答案
- 2025年幼师高考语文试卷及答案
- 2025年注册安全工程师历年考试真题及答案
- 2026年高考试题汇编物理专题13原子结构原子核和波粒二象性
- 2025-2030租赁住房税收优惠政策对青年公寓影响解读
- 国家事业单位招聘2025中国农业科学院作物科学研究所第一批招聘16人笔试历年参考题库附带答案详解
- 机电设备安装工程环保管理方案
评论
0/150
提交评论