信息管理和信息系统第4章ppt课件_第1页
信息管理和信息系统第4章ppt课件_第2页
信息管理和信息系统第4章ppt课件_第3页
信息管理和信息系统第4章ppt课件_第4页
信息管理和信息系统第4章ppt课件_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章 多媒体信息存储与检索 信息存储与检索 本章目录 第一节 引言 第二节 多媒体技术概述 第三节 多媒体数据模型 第四节 多媒体数据压缩技术 第五节 基于内容的多媒体检索技术 2 信息存储与检索 第一节 引言 v随着信息时代的到来,信息多元化程度加深,人们 不再满足于单一的文本交流。多媒体技术的出现, 使得信息的表达方式更生动、更容易被人们所理解 ,因此迅速成为信息存在的主要方式。 3 信息存储与检索 第一节 引言 v传统的信息检索系统只处理文本和非结构化的数据 ,信息是以离散的形式 (如字符、数字等) 存储在 关系数据库中,并以结构化查询语言(SQL) 或超链 接来进行查询检索;而多媒体数据则是连续的、形 式多样的、海量的信息,并且多媒体数据 (如图像 、视频) 在不同的人眼中可能有不同的理解,要把 所有不同的解释都用关键字(文本或数字) 来表示显 然是不可能的。另外,关键字不能有效地表示视频 数据的时序特征,也不支持语义关系,因此需要开 发出一种新的检索技术来检索多媒体数据。为了适 应这一需求, 人们提出了基于内容的多媒体信息检 索思想。 4 信息存储与检索 第一节 引言 v为了适应这 一需求,人们提出了基于内容的多媒体信 息检索思想。基于内容的检索是指根据媒体和媒体对 象的内容及上下文联系在大规模多媒体数据库中进行 检索。他的研究目标是提供在没有人类参与的情况下 能自动识别 或理解图像重要特征的算法。目前,基于 内容的多媒体信息检索的主要工作集中在识别 和描述 图像的颜色、纹理、形状和空间关系上,对于视频 数 据,还有视频 分割、关键帧 提取、场景变换 探测以及 故事情节重构等问题 。由此可见,这是一门涉及面很 广的交叉学科,需要以图像处理、模式识别 、计算机 视觉 、图像理解等领域的知识为 基础,还需从认知科 学、人工智能、数据库管理系统、人机交互、信息检 索等领域引入新的媒体数据表示和数据模型,从而设 计出可靠、有效的检索算法、系统结 构以及友好的人 机界面。 5 信息存储与检索 第二节 多媒体技术概述 4.2.1 多媒体的概念1 4.2.2 多媒体技术的关键特征2 4.2.3 多媒体技术的主要研究内容3 6 信息存储与检索 4.2.1 多媒体的概念 (一)媒体的含义 v“媒体”一词的含义很多,但在计算机领域中主要有 两层含义:一是指信息的物理载体,如磁盘、磁带 、光盘等;另一是指信息的表现或传播形式,如声 音、文字、图像、动画等。根据国际电信联盟( ITU:International Telecommunication Union)电信标准部推出的ITU-TI.374建议的定 义,可以将媒体划分为如下五类: (1)感觉媒体(2)表示媒体(3)表现媒体 (4)存储媒体(5)传输媒体 7 信息存储与检索 4.2.1 多媒体的概念 (一)媒体的含义 v(1)感觉媒体:指直接作用于人的感觉器官,使人产生 直接感觉的媒体。如引起听觉反应的声音,引起视觉反 应的图像等。 v(2)表示媒体:指传输感觉媒体的中介媒体,即用于数 据交换的编码。如图像编码(JPEG、MPEG等)、文 本编码(ASCII码、GB2312等)和声音编码等。 v(3)表现媒体):指进行信息输入和输出的媒体。如键 盘、鼠标、扫描仪、话筒、摄像机等为输入媒体;显示 器、打印机、喇叭等为输出媒体。 v(4)存储媒体:指用于存储表示媒体的物理介质。如硬 盘、软盘、磁盘、光盘、ROM及RAM等。 v(5)传输媒体:指传输表示媒体的物理介质。如电缆、 光缆等。 8 信息存储与检索 4.2.1 多媒体的概念 (二)多媒体的含义 v在人们的日常谈论中,多媒体的“媒体”常常泛指“ 感觉媒体”,但多媒体技术所处理的“媒体”主要是 指“表示媒体”,而“多”则表示信息表示媒体的多样 化。 v现在的多媒体技术往往与计算机联系在一起,是指 利用计算机技术把各种信息媒体综合一体化,使它 们建立起逻辑联系,并进行加工处理的技术。所谓 加工处理主要是指对这些媒体的录入、对信息进行 压缩和解压缩、存储、显示、传输等。因此,多媒 体不是“混媒体”。尽管包含的媒体元素很多,但并 非机械地将他们拼凑在一起。 9 信息存储与检索 4.2.2 多媒体技术的关键特征 v多媒体技术主要体现出综合处理多种媒体信息的特 点,包括信息载体的: (1)多样性 (2)集成性 (3)交互性 (4)实时性 (5)互补性 这5个特性缺一不可。其中,多样性、实时性和互 补性是基础,集成性是手段、方式或形式,交互性 是核心或灵魂。 10 信息存储与检索 4.2.2 多媒体技术的关键特征 v1. 信息载体多样性 指文字、文本、 图形、图像、视频、语音等多种 媒体信息于一体。 2. 交互性 多媒体的第二个关键特性是交互性。 所谓交互就 是通过各种媒体信息, 使参与的各方(不论是发送 方还是接收方)都可以进行编辑、 控制和传递。 交互性将向用户提供更加有效的控制和使用信息的 手段和方法, 同时也为应用开辟了更加广阔的领域 。交互可做到自由地控制和干预信息的处理, 增加 对信息的注意力和理解, 延长信息的保留时间。 11 信息存储与检索 4.2.2 多媒体技术的关键特征 v3. 互补性 每一种媒体都有其自身规律, 各种媒体之间必须有机地 配合才能协调 一致。 多种媒体之间的协调 以及时间 、空间的协调 是多媒体的关键技术之一。 4. 实时 性 所谓实时 就是在人的感官系统允许的情况下, 进行多 媒体交互, 就好像面对面(Face To Face)一样, 图像 和声音都是连续 的。实时 多媒体分布系统是把计算机 的交互性、通信的分布性和电视 的真实性有机地结合 在一起。 5. 集成性 多媒体技术是多种媒体的有机集成。它集文字、文本 、 图形、图像、视频 、语音等多种媒体信息于一体。 12 信息存储与检索 4.2.3 多媒体技术的主要研究内容 v多媒体技术的研究内容包括:多媒体数据处理技术 ,如多媒体数据模型、多媒体数据压缩、多媒体数 据存储与检索技术等;多媒体数据传输技术,如多 媒体网络技术、多媒体视频点播技术等;多媒体专 用设备技术,如多媒体专用芯片技术、多媒体专用 输入/输出技术等。本章内容将只对多媒体数据处 理技术作出阐述。 13 信息存储与检索 第三节 多媒体数据模型 4.3.1 多媒体数据模型概述1 4.3.2 图像的数据模型2 4.3.3 音频的数据模型3 4.3.4 视频的数据模型4 14 信息存储与检索 4.3.1 多媒体数据模型概述 (一)多媒体数据模型的概念 v数据模型是数据库系统中的术语,用来表示实体以 及实体间的联系。数据库的数据模型由三部分组成 :数据库的数据结构、数据库操作集合和完整性规 则集合。其中,最重要的部分是反映能够数据库逻 辑结构的数据结构,因为数据模型的作用就是能清 晰地表示数据库的逻辑结构,以便使用户更有效地 存取数据。最著名的数据模型有层次模型、网状模 型和关系模型。 15 信息存储与检索 4.3.1 多媒体数据模型概述 (一)多媒体数据模型的概念 v多媒体数据模型的基本任务是:能够表示各种不同媒体 数据的构造及其属性特征;同时能够指出不同媒体数据 之间的相互关系,包括相互之间的信息语义关系,以及 媒体特性之间的关系,主要是时空特性关系。 v在多媒体信息检索系统的框架下,如何进行多媒体数据 模型的构建工作呢?注意两方面的问题:第一,数据模 型应该根据用户能够指定的、存储于系统的数据来定义 。数据模型应该能够把常规数据类型和多媒体类型进行 整合,而且应该提供对这种数据进行分析、检索和查询 的方法。第二,系统应该为多媒体数据的内部表示提供 一个模型,这个模型的定义对于有效的查询处理来说是 至关重要的。 16 信息存储与检索 4.3.1 多媒体数据模型概述 (二)多媒体数据模型的体系结构 一个完整的多媒体数据模型应该是对多媒体信息系 统的信息和数据的内容、不同媒体对象或由它们合 成的复合对象的表现、内容与表现之间的映射/对 应关系进行组织结构上的抽象概括和规范描述的一 个整体。 内容 多媒体应用 多媒体信息元 多媒体数据元 表现 上层脚本同步 中层合成同步 底层系统同步 联系 握手 图4 - 1 多媒体数据模型的体系结构 资料来源:张维明,2002.多媒体信息系统.北京:电子工业出版社 17 信息存储与检索 4.3.1 多媒体数据模型概述 (三)多媒体数据模型的种类 多媒体数据模型的分类没有定则。基于不同结构不 同层次,可以将其分为超媒体模型、时基媒体模型 、基于媒体内容模型、文献模型和信息元模型等。 基于模型的性质,又可以将其分为表现模型和同步 模型。基于不同的建模方法,则可将其分为NF2数 据模型、面向对象数据模型和对象-关系模型等。 18 信息存储与检索 4.3.2 图像的数据模型 图像可模型化为图像和图像对象,图像可以包含许 多图像对象,并对图像对象的解释是领域相关的。 图像数据模型可以分为三个层次:语义表现层、逻 辑表现层和物理表现层。 1、物理表现层 物理表现层提供原始图像数据,即图像的物理表示 及物理特性。物理特性和领域无关,可直接从物理 表现中抽取或预先抽取存于计算机中。图像的物理 层特征主要包括颜色、纹理、轮廓等视觉信息。 19 信息存储与检索 4.3.2 图像的数据模型 2、逻辑表现层 逻辑表现层包括图像逻辑属性和图像对象的逻辑属性。 用于描述一个集成实体图像性质的属性称为图像逻辑属 性,如一副图像中包含的对象数,对象间的空间关系等 。用于描述图像中的对象集合性质的属性称为图像对象 逻辑属性,如每个对象的最小边界矩形,对象的空间位 置等。 3、语义表现层 图像的语义表现层是用于描述图像所表明的高层领域的 概念,通常图像的主题、作者的创作意图,个人的印象 等,具有很大的不确定性。语义特征主要通过用户从图 像本身进行认知,需要人工捕捉,主观感受因素较强, 常常会因人而异。对于图像语义特征的提取和描述,可 以加工成知识库,提供智能检索服务。 20 信息存储与检索 4.3.2 图像的数据模型 语义1语义2语义3语义n 语义表现层 图像逻辑表示图像对象逻辑表示 逻辑表现层 物理表现层 图4-2 图像数据模型的层次化表现 资料来源:张维明,2002.多媒体信息系统.北京:电子工业出版社 21 信息存储与检索 4.3.3 音频的数据模型 v音频信息也可以采用文本处理的方法,选择主题词 、关键词对音频内容加以人工标引,揭示音频的主 题内容及特征,例如对于一首歌曲,歌词就是它的 内容描述。但这些仍属于传统文本处理的范畴,它 与基于音频内容的特征处理完全不同。所谓基于音 频内容的特征处理方法,就是针对音频信息的物理 样本、基本属性等进行分析处理,通过数学与统计 学方法来获得音频信息物理、听觉、语义等不同层 次(或级别)上的特征,并揭示特征之间的相互关 系。 v下面就介绍几个通过短时处理技术得到的比较常用 而且重要的特征:(一)音调(二)响度(三)过 零率(四)亮度(五)带宽 22 信息存储与检索 4.3.4 视频的数据模型 v视频就是一组连续的静态图像按照时间的顺序连续 更换形成的动画、影像等。简单地说,视频数据是 连续的图像序列。在对视频进行分类和检索之前, 必须了解视频的数据结构。视频数据可用故事单元 、场景、镜头、帧来描述。对于视频文件来说,我 们也可以利用与处理图像和音频相同的方法,进行 视频外部特征信息的文本著录,以实现简单的初级 检索。然而,与图像、音频一样,只有对基于视频 内容本身进行处理才能获得更有效的检索。 23 信息存储与检索 4.3.4 视频的数据模型 视频 故事单元1故事单元2故事单元n 场景1场景2场景m 镜头1 帧 镜头2 帧 镜头3 帧 图4-3 视频的分层结构描述 资料来源:张维明,2002.多媒体信息系统.北京:电子工业出版社 24 信息存储与检索 第四节 多媒体数据压缩技术 4.4.1 数据压缩技术概述 1 4.4.2 图像压缩的标准 2 4.4.3 音频压缩的标准 3 4.4.4 视频压缩的标准 4 25 信息存储与检索 4.4.1 数据压缩技术概述 (一)多媒体数据压缩的必要性和可能性 数据压缩就是以一定的质量损失为容限,按照某种方法 从给定的信息源中推出简化的数据表述,它通过减少信 号空间的量,使信号能安排到给定的信息集或样本集中 。 一般说来,多媒体数据中存在的数据冗余类型主要有以 下几种: (1)空间冗余 (2)时间冗余 (3)结构冗余 (4)视觉冗余 (5)听觉冗余 (6)知识冗余 26 信息存储与检索 4.4.1 数据压缩技术概述 (一)多媒体数据压缩的必要性和可能性 一、空间冗余是静态图 像中存在的最主要的一种数据 冗余。同一景物表面上采样点的颜色之间往往存在着 空间连贯 性,但是基于离散像素采样来表示物体颜色 的方式通常没有利用这种连贯 性。例如:图像中有一 片连续 的区域,其像素为相同的颜色,空间冗余产生 。 二、时间 冗余是序列图像中经常包含的冗余。一组连 续的画面之间往往存在着时间 和空间的相关性,但是 基于离散时间 采样来表示运动图 像的方式通常没有利 用这种连贯 性。例如:房间里的两个人在聊天,在这 个聊天的过程中,背景(房间和家具)一直是相同的 ,同时也没有移动,而且是同样的两个人在聊天,只 有动作和位置的变化。 27 信息存储与检索 4.4.1 数据压缩技术概述 (一)多媒体数据压缩的必要性和可能性 三、结构冗余是在某些场景中,存在着明显的图像分 布模式,这种分布模式称作结构。图像中重复出现或 相近的纹理结构,结构可以通过特定的过程来生成。 例如:方格状的地板,蜂窝,砖墙 ,草席等图结 构上 存在冗余。已知分布模式,可以通过某一过程生成图 像。 四、视觉 冗余是人类的视觉 系统对图 像场的敏感性是 非均匀和非线性的。对亮度变化敏感,而对色度的变 化相对不敏感;在高亮度区,人眼对亮度变化敏感度 下降;对物体边缘 敏感,内部区域相对不敏感;对整 体结构敏感,而对内部细节 相对不敏感。可以根据这 些视觉 特性对图 像信息进行取舍。 28 信息存储与检索 4.4.1 数据压缩技术概述 (二)多媒体数据压缩的基本要求 对多媒体数据进行压缩处理需要两个过程。一是编 码过程,即将原始数据经过编码进行压缩,以便于 存储和传输;另一是解码过程,对编码后的数据进 行解码,还原为可以使用的数据。对数据进行压缩 处理一般具有以下基本要求: (1)可还原 (2)压缩比高 (3)重现质量好 (4)计算成本低 (5)实时性好 29 第四章 30 信息编码编码 vHuffman编码 Huffman编码时 采取从后向前推,即以概率最小的向概 率大的方向进行编码处 理,最后建立一颗Huffman编码 树。 各个符号作为二叉树的叶结点,每个节点有一个权,它 是符号出现的概率。 第四章 31 信息编码编码 建立Huffman编码树 的步骤描述如下: 将信息集合中的各信息元素按概率依次从大到小排列 。 使概率最小的二组信息元素分别对应 于码和码 。 将这两个信息元素的概率相加,作为另一组信息元素 出现的概率。再一次重新依次按概率大小排序。 重复以上步骤,直到剩下最后一个元素,并将其作为 树根。 第四章 32 4.1、信息编码编码 vHuffman编码举 例 下面几个图可以看到Huffman编码的构造过程是一个反 复比较的过程,它总是选择两个使用频率较小的结点 进行合并,生成出一个树,这个树经过编码 后就会得 到Huffman编码。 第四章 33 信息编码编码 v在上图中各点中的数字代表各点的使用次数,您 可以把这几个方块想成A,B,C,D,它们在某 一文章中的使用频率为7次,5次,1次等等。 第四章 34 信息编码编码 v选择使用率小的两个点1,3构成新点4。 第四章 35 信息编码编码 v在状态1图中选择5,4(也是两个最小的,注意 不是1,3,因为1,3现在已经归在4里面了)进 行合并。 第四章 36 信息编码编码 v在状态2表中的最小两个点已经变为 7,6了,这 时合并它们两个生成新点13。 第四章 37 信息编码编码 v只剩两个点了,不管多少它们也是最小的了,合 并了算了。 第四章 38 信息编码编码 v请注意这个编码,每个点下面有两个分枝,分别 编码为 0,1。至此编码结 束,所得到编码即从 最上面的点延线下行,至所要编码的点,将沿路 经过的0和1记录下来就是了。 711 610 500 3011 1010 第四章 39 信息编码编码 vHuffman编码所以能获得高效编码,原因就在于 高概率的信息元素总是取短码。由此也可以得出结 论,即信源中各信息元素的概率分布越是不均匀, Huffman编码的有效性越能发挥出来。而一旦信 息元素发生的概率趋于平衡, Huffman编码有效 性也将随之势去。 第四章 40 信息压缩压缩 技术术 v文本信息压缩技术 空格压缩技术 其压缩 思路是压缩 文本信息中连续 出现的空格。 具体的处理过程是扫描待压缩 的原始信息,统计 出其中 连续 出现的空格,并用一个特殊的字符和数字表示这一串 连续 空格,其压缩 格式为:压缩 指示字符用来标明在该 处发 生了空格压缩 ,而连续 空格计数则表示所压缩 的空 格数量,这样 ,可以用两个字符表示原始信息中的连续 空 格。 第四章 41 信息压缩压缩 技术术 位图压缩 技术 位图压缩 方法是在文件中建立位图来标志某个字符 的存在与否。凡在位图中标明为有效字符的位置,在 压缩的文件中对应位置有相应的字符出现。在压缩 后输出文件中,这个无效字符不出现,释放时再把 这些无效字符按实际位置加到文件中。 用位图方法压缩数据,首先要确定数据流中出现概率 最大的一个字符。继而要对源数据流中字符建立位图 字符,利用它标志出事先所确定的、以最大概率出现 的字符位置,并将其压缩掉。 第四章 42 信息压缩压缩 技术术 游程编码技术 在游程编码 中需要标出被压缩 的字符,也即要占用3B; 第一个字节是压缩 指示字符;第二个字节纪录连续 出现 的字符;第三个字节纪录 重复字符出现的次数。 第四章 43 信息压缩压缩 技术术 前端/后端压缩编码 技术 前端压缩 技术,即当下一个字段中有若干字符与上个字段 中有重复时,则在下一个字段开头用一个数字表示重复字 符数。 主要用于有序信息中存在大量重复字符串的情形。 第四章 44 信息压缩压缩 技术术 半字压缩编码 技术 半字压缩 是由位映像派生出来的一种压缩 方法。它对数字 字符串的压缩 非常有效。 ASCII码的数字字符编码 的前4位完全相同,也就是说, 在存储数值型数据时,每个字节中有4位并不表示具体数 值。利用这个特性,就可以把占2B的数字字符压缩 到1B 中去,即压缩 掉1B中的4位,这就是半字压缩 。 半字压缩 也需要压缩 指示字符作为标 志,并有计数加以 控制。 第四章 45 信息压缩压缩 技术术 v多媒体信息压缩技术 v图像信息压缩技术概述 游程长度压缩:将一扫描行中的颜色值相同的相邻像素 用一个计数值和那些像素的颜色值来代替。 霍夫曼编码压缩 ,其基本原理是频繁使用的数据用较短 的代码代替,很少使用的数据用较长的代码代替,每个 数据的代码长度各不相同。 第四章 46 信息压缩压缩 技术术 v数据流压缩技术 COS(capacity optimized storage)压缩技术的基本思 想是:将数据流像积木一样,分解为一个个组件,再分 解的同时产生组件组装的指令。重复的组件只保留一份 ,这样很多重复的数据块便被剔除,因此可以节省大量 的存储空间。 信息存储与检索 4.4.1 数据压缩技术概述 (三)多媒体数据压缩方法的分类 (1)按照压缩方法是否产生失真分类 根据解码后数据与原始数据是否完全一致进行分类 ,压缩方法可被分为有失真编码和无失真编码两 (2)按照压缩方法的原理分类 根据编码原理进行分类,大致有预测编码、变换编 码、统计编码、分析-合成编码、混合编码和其他 一些编码方法。其中统计编码是无失真的编码,其 他编码方法基本上都是有失真的编码。 47 信息存储与检索 4.4.2 图像压缩的标准 (一)JPEG2000压缩标准简介 国际标准化组织(ISO)和国际电工协会(IEC) 联合成立了一个联合图像专家组(Joint Photographic Experts Group,简称JPEG), 经过5年艰苦而细致的工作,与1991年3月提出了 ISO CDIO918号建议草案多灰度静止图像的 数字压缩编码,该草案经批准成为ISO10918标准 ,即通常所说的JPEG标准。JPEG标准是一个适用 于彩色和单色多灰度的静止数字图像的压缩技术标 准。 48 信息存储与检索 4.4.2 图像压缩的标准 (二)JPEG2000的基本结构 源图像数据 正变换量化熵编码 压缩图像数据 (a)编码器 源图像数据 逆变换量化熵解码 压缩图像数据 (b)解码器 存储或传输 图4-4 JPEG2000 的基本结构 资料来源:林福宗,2002多媒体技术基础北京:清华大学出版社 49 信息存储与检索 4.4.2 图像压缩的标准 (三)JPEG2000的特点 (1)压缩比高 (2)支持无损压缩 (3)支持渐进式传输 (4)可自定义“感兴趣区域” (5)可以描述多种色彩模式 (6)图像处理简单 50 信息存储与检索 4.4.3 音频压缩的标准 (一)音频压缩编码的基本方法 (二)电话质量的语音压缩标准 (三)调幅广播质量的音频压缩标准 (四)高保真立体声音频压缩标准 51 信息存储与检索 4.4.4 视频压缩的标准 v视频压缩的一个重要标准是MPEG,即运动图像专 家组(Moving Picture Expert Group)。该专 家组成立于1988年,在国际标准化组织(ISO) 和是国际电工委员会(IEC)的管辖之下。该组织 现已公布的MPEG标准如下: 52 信息存储与检索 4.4.4 视频压缩的标准 vMPEG-1(ISO/IEC1117),1993年8月公布, 其全称为“适于约1.5Mb/s以下数字存储媒体的运 动图像及伴音的编码”所谓数字存储媒体(DSM) 是指常见的数字存储设备,如CD-ROM、DAT、 硬盘、可写光盘等。该标准也适于远程通信,如综 合业务数字网、局域网等。MPEG-1标准包括 MPEG系统(ISO/IEC11172-1)、MPEG视频( ISO/IEC11172-2)、MPEG音频( ISO/IEC11172-3)和测试验证( ISO/IEC11172-4)四大部分内容。 53 信息存储与检索 4.4.4 视频压缩的标准 vMPEG-2(ISO/IEC13818),1994年11月公布 ,其全称为“运动图像及其伴音通用编码”。适用于 多媒体计算机、多媒体数据库、多媒体通信、常规 电视数字化、高清晰度电视(HDTV)及交互式电 视(ITV)等领域。MPEG-2标准包括MPEG系统 、MPEG视频、MPEG音频和一致性四大部分内容 ,它克服并解决了MPEG-1标准不能满足的日益增 长的多媒体技术、数字电视技术、多媒体分辨率和 传输率等方面的技术要求的缺陷。 54 信息存储与检索 4.4.4 视频压缩的标准 v MPEG-4(ISO/IEC14496),1999年1月公布版本1( V1.0),同年12月公布版本2(V2.0)。该标准的初衷主 要是面向电视会议、可视电话等超低码率的压缩编码需求, 在制定过程中,MPEG组织深深感受到人们对媒体信息,特 别是对视频信息的需求由播放型转向基于内容的访问、检索 和操作。MPEG-4与MPEG-1、MPEG-2等有很大差异,它 为多媒体数据压缩编码提供了更为广阔的平台,它定义的是 一种格式、一种框架,而非具体算法,它希望建立一种更自 由的通信与开发环境。于是MPEG-4的新目标为:支持多种 多媒体的应用,特别是多媒体信息基于内容的访问和检索, 可根据不同的应用需求,现场配置解码器。编码系统也是开 放的,可随时加入新的有效的算法模块。该标准适用于多媒 体Internet、视频会议和视频电话、交互式视频游戏、多 媒体邮件、基于网络的数据服务、光盘等交互式存储媒体、 远程紧急事件系统、远程视频监控及无线多媒体通信等。 55 信息存储与检索 4.4.4 视频压缩的标准 vMPEG-7,于2000年11月公布,其全称为“多媒体 内容描述接口”。它将为各种类型的多媒体信息规 定一种标准化的描述,这种描述与多媒体信息的内 容一起,支持对用户感兴趣的图形、图像、3D模 型、视频、音频等信息以及它们的组合的快速有效 查询,满足实时、非实时以及推-拉应用的需求。 MPEG-7只规定信息内容描述格式,而不规定如何 从原始的多媒体资料中抽取内容描述的方法。 MPEG-7的应用领域有数字图书馆、多媒体目录服 务、图像分析、音乐词典、教育、多媒体编辑、多 媒体业务引导等。 56 信息存储与检索 第五节 基于内容的多媒体检索技术 4.5.1 基于内容的多媒体信息检索原理1 4.5.2 基于内容的图像检索 2 4.5.3 基于内容的音频检索 3 4.5.4 基于内容的视频检索 4 57 信息存储与检索 4.5.1 基于内容的多媒体信息检索原理 (一)基于文本的多媒体信息检索的局限性 目前,常用的多媒体信息检索方法是基于文本的多 媒体信息检索方法(Text-Based Retrieval,简 称TBR)。该方法是针对多媒体的物理及内容特征 ,抽取出关键词进行著录或标引,建立类似于文本 文献信息检索系统的索引数据库。这样,多媒体信 息检索实际上就转化成为对多媒体信息进行描述的 关键词检索。常用的抽取关键词的字段有文件名或 目录名、多媒体标题、多媒体周围文本信息或解说 文字等。 58 信息存储与检索 4.5.1 基于内容的多媒体信息检索原理 基于文本的多媒体信息检索方法的主要优点是技术 简单,标引和检索方便。它的实质就是文本检索, 只是检索结果和输出形式不同而已,因此它的应用 与实施方式简单,实现成本也比较低。 59 信息存储与检索 4.5.1 基于内容的多媒体信息检索原理 然而,这种检索方式的应用是有局限性的。首先, 它不能真正反映信息的内容。这种检索采用文本来 表达多媒体的内容,检索对象的不一致决定了在这 种信息传递过程中必定会有大量信息的丢失,这样 就不可能完全反映信息的内容;其次,多媒体信息 是一种抽象程度很大、随意性很强的信息,缺乏一 般意义上的规范性,同样的信息不同的人会有不同 的理解,这样便会使得在用文字描述多媒体信息时 ,不可能做出一个非常准确而完整的描述。 60 信息存储与检索 4.5.1 基于内容的多媒体信息检索原理 (二)基于内容的多媒体信息检索的特点及应用 所谓基于内容检索(Content-Based Retrieval ,简称CBR),就是从媒体数据中提取出特定的信 息线索,然后根据这些线索从大量存储在数据库中 的媒体中进行查找,检索出具有相似特征的媒体数 据出来。 从技术上将,基于内容的多媒体信息检索具有如下 特点: (1)直接从媒体内容中提取特征线索。 61 信息存储与检索 4.5.1 基于内容的多媒体信息检索原理 (2)基于内容的检索是一种近似匹配,与传统信息 检索的精确匹配方法有明显不同。 (3)特征提取和索引建立可由计算机自动实现,避 免了人工描述的主观性,也大大减少了工作量。 (4)整个过程是一个逐步筛选和不断求精的过程。 62 信息存储与检索 4.5.1 基于内容的多媒体信息检索原理 (三)基于内容的多媒体信息检索系统的体系结构 基于内容检索技术一般用于多媒体数据库系统之 中,也可以单独建立应用系统,例如指纹系统、 头像系统或其他的应用系统。从基于内容检索的 角度出发,系统由组织媒体输入的插入子系统、 对媒体做特征提取的媒体处理子系统、储存插入 时获得的特征和相应媒体数据的数据库以及支持 对该媒体的查询子系统等组成,同时需要相应的 知识辅助支持特定领域的内容处理。多媒体数据 库中基于内容检索系统的结构示意如图: 63 信息存储与检索 4.5.1 基于内容的多媒体信息检索原理 (三)基于内容的多媒体信息检索系统的体系结构 媒体数据1 媒体特征 媒体数据2 媒体特征 媒体数据n 媒体特征 多媒体数据库 用户 检索接口 多媒体数据 特征提取 插入模块 知识辅助 模块 查询模块 图4-7基于内容的多媒体信息检索系统的体系结构 资料来源:张维明,2002.多媒体信息系统.北京:电子工业出版社 64 信息存储与检索 4.5.1 基于内容的多媒体信息检索原理 (三)基于内容的多媒体信息检索系统的体系结构 v 1插入子系统 该子系统负责 将媒体输入到系统之中,同时根据需要 为用户提供一种工具,以全自动或半自动(即需用户部 分干预)的方式对媒体进行分割或分割,标识 出需要的 对象或内容关键点,以便有针对 性地对目标进 行特征 提取。 v2特征提取子系统 对用户或系统标 明的媒体对象进行特征提取处理。特 征提取可以由人完成,例如给出一些描述特征的关键 字:也可以通过对应 的媒体处理例程完成,提取 些 所关心的媒体特征。提取的特征可以是全局性的,如整 幅图像或视频镜头 的颜色分布,也可以针对 某个内部 的对象,如图像中的子区域、视频 中的运动对 象等。 在提取特征时,往往需要知识处 理模块的辅助,由知 识库 提供有关的领域知识。 65 信息存储与检索 4.5.1 基于内容的多媒体信息检索原理 (三)基于内容的多媒体信息检索系统的体系结构 v 3数据库 媒体数据和插入时得到的特征数据分别存入媒体数据库和特征 数据库。媒体库包含各种媒体数据,如图像、视频 、音频、文 本等。特征库包含这种媒体用户输 入的特征和预处 理自动提取 的特征。数据库通过组织 与媒体类型相匹配的索引来达到快速 搜索的目的,从而可以应用到大规模多媒体数据检索过程中。 v 4查询 子系统 主要以示例查询 的方式向用户提供检索接口。检索允许针对 全 局对象(如整幅图像、视频镜头 等),也允许针对 其中的子对象 以及任意组合形式来进行。检索返回的结果按相似程度进行排 列,如有必要可以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论