版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第7章多媒体信息检索第7章多媒体信息检索进入21世纪,以多媒体技术和网络技术为核心的信息技术飞速发展,并以惊人的速度进入社会的各个领域,推动着各行各业发生深刻变革。在步入信息化时代的今天,“数字化”、“网络化”与“多媒体”相结合的现代技术,给古老的“多媒体”概念注入了新的含义和活力,并在改变着人们的生活和学习。多媒体信息能够充分表达信息的内涵,加快人们接收信息的速度,加深人们对信息内容的理解和记忆。在多媒体信息检索中,涉及到一系列的概念及有关的知识背景,这些基础知识是深入理解和真正掌握多媒体信息检索技术所必需的。7.1多媒体信息概述
7.1.1多媒体的基本概念媒体媒体(media),也称媒介或传播媒体,它是信息的载体。载体(Medium)一词来自拉丁文,是指信息传播过程中,携带和传递信息的任何物质。信息的表达、存储和传递必须通过一些中间物质,常见的报刊、杂志、广播、电视、电影、计算机、网络、磁盘、光盘、录音、录像、图片、幻灯片、投影片和印刷材料等都属于媒体。确切地说,媒体是信息得以存储和传播的介质。媒体的作用在于存储信息、表达信息和传送信息,以帮助人们进行沟通和交流。按照ITU-T(国际电信联盟)(原CCITT)建议,媒体可分为下列五大类:(1)感觉媒体(PerceptionMedium):指的是用户接触信息的感觉形式,如视觉、听觉、触觉等。表示媒体则指的是信息的表现形式,如图像、声音、视频、运动模式等。(2)表示媒体(RepresentationMedium):指的是信息的表现形式,如图像、声音、视频、运动模式等。(3)显示媒体(PresentationMedium):是指表现和获取信息的物理设备,如显示器、打印机、扬声器、键盘、摄像机、运动平台等。(4)存储媒体(StorageMedium):是指存储数据的物理设备,如磁盘、光盘等。(5)传输媒体(TransmissionMedium):是指传输数据的物理设备,如光缆、电缆、电磁波、交换设备等。7.1多媒体信息概述
2.多媒体多媒体源自英语“MultiMedia”,意指多种媒体的结合应用。在计算机和网络领域,常见的信息表达形式为文本、音频、视频、图形、图像、动画和影视等。而信息内容的表达首先必须建立在人们可接收的基础上,同时信息的交流必须基于存储设备、显示设备和传输设备的支持。所以,多媒体就是指以数字化为基础,能够对多种媒体信息进行采集、编码、存储、传输、处理和表现,综合处理多种媒体信息并使之建立起有机的逻辑联系,集成为一个系统并能具有良好交互性的技术。3.流媒体“流媒体”(StreamingMedia)的概念是相对于“多媒体文件”而言。在硬盘、光盘等存储介质出现之前,文件在磁带等存储介质上的存储是按顺序存储的,当然读数据也只能按顺序读。在硬盘、光盘等存储介质出现以后,读取硬盘、光盘等存储介质上存储的文件时,便存在很大的随机性,因此有了定义流媒体的必要。从另一个角度来讲,在电视领域,模拟视频信号在网上的传输是完全按顺序进行的,所以,数字领域的“流”概念实际上是从电视领域转过来的。考察流媒体与非流媒体,主要从数据的存储方式、网上传输及终端读取方式等三个方面来判断,它们是完全不一样的。主要区别表现在:流媒体的文件头信息、视频、音频是严格按照时间先后顺序进行存储、网上传输及读取的。而非流媒体的文件头信息、视频、音频是按照时间先后顺序交错进行存储、网上传输及读取的。而流媒体技术的核心主要是如何控制并非严格按时间先后顺序存储的多媒体数据按照“流”的方式在数字网络里进行传输。7.1多媒体信息概述
用户在网上可以直接点播歌曲或影视节目,从而做到不需要将完整的音频、视频文件下载到木地计算机上,就可以利用多媒体播放软件收听和收看多媒体节目。从广义上讲,流媒体指的是流媒体系统,也就是使音频和视频数据形成稳定、连续的传输流和回放流的一系列技术、方法和协议的总称。而狭义的流是指相对于传统的下载--播放方式而言的一种媒体格式,它能从Internet上获取音频和视频等连续的多媒体数据流。所以,目前在网络上传播多媒体信息主要利用下载和流式传输两种方式。传统的下载传输方式,在播放之前,需要先下载多媒体文件至本地,不仅需要较长时间,并且对本地计算机的存储容量也有一定的要求,这将限制存储容量较低的设备对网络多媒体的使用。流式传输是通过服务器向用户实时提供多媒体信息的方式,不必等到整个文件全部下载完毕,在启动软件工具后经过少量延时即可播放,客户端可以边接收数据边播放。流式传输大大地缩短了播放延时,同时也降低了对本地缓存容量的需求,为实现现场直播形式的实时数据传输提供了有效可行的手段。7.1.2多媒体的主要特征
应用多媒体计算机技术可将声音、视频、图像、动画等各种信息媒体集于一体。多媒体应用系统应该能够生动、形象、全面地表达信息,即在适当的部分配有美妙的音乐、动听的解说、逼真的动画或视频剪辑,同时可以提供人机的交互方式。纵观许多比较成功的多媒体应用系统,从多媒体集成的效果来看,具有丰富的信息表达方式的多媒体系统所表示的内容含义比较直观,更富有感染力,能够更加确切地体现信息所包含的真正含义并给人以深刻的印象。特别重要的是,便捷且实用的交互功能体现了多媒体系统开发的真正意义,因而能为信息的处理做出卓越的贡献。总结多媒体计算机技术的功效,多媒体具有三大关键特征:信息载体的集成性、交互性、实时性和多样性。7.1.2多媒体的主要特征集成性多媒体系统充分体现了集成性的巨大作用。事实上,多媒体中的许多技术在早期都可以单独使用,但作用十分有限。这是因为它们是单一的、零散的,如单一的图像处理技术、声音处理技术、交互技术、电视技术、通信技术等。但当它们在多媒体的旗帜下集合时,一方面意味着技术已经发展到了相当成熟的程度;另一方面,也意味着各种技术独自发展不再能满足应用的需要。信息空间的不完整,如仅有静态图像而无动态视频,仅有语音而无图像等,将限制信息空间的信息组织,限制信息的有效使用。同样信息交互手段的单调性,通信能力不足、多种设备和应用的人为分离,也会制约多媒体应用的发展。因此,多媒体系统的产生与发展,既体现了多媒体应用的强烈需求,也顺应了全球网络的一体化、互通互连的要求。多媒体的集成性包含两个方面:一方面是多媒体信息表达的集成,另一方面是多媒体设备的集成。(1)多媒体信息表达的集成意味着信息的表达可同时使用图、文、声和像等多种形式。与传统的多媒体信息集成体(如模拟电影)相比,内容的表现更加深刻,画面更加清晰,形象更加逼真。(2)多媒体设备的集成是指显示和表现媒体设备的集成,计算机能和各种输入、输出外设(如打印机、扫描仪、数码相机、音响等设备)联合工作。多媒体中的集成性,无论是信息、数据,还是系统、网络、软硬件设施,通过多媒体的集成性构造出支持广泛信息应用的信息系统,“1+1>2”的系统性将在多媒体信息系统中得到充分的体现7.1.2多媒体的主要特征交互性多媒体信息的交互性是指能为用户提供参与的方式,从而有效地控制和使用信息,提高信息的适用性和针对性。长久以来,人们在很多情况下已经习惯于被动地接收信息,如看电视、听广播。多媒体系统将向用户提供交互式使用、加工和控制信息的手段,为多媒体的应用开辟了更加广阔的领域,也为用户提供更加自然的信息存取手段。交互可以增加对信息的注意力和理解力,延长信息保留的时间。但在单向的信息空间中,信息接收的效果和作用就很差,只能“使用”所给的信息,很难做到自由地控制和干预信息的获取和处理过程。多媒体信息在人——机交互中有巨大潜力,主要来自于它能提高人对信息表现形式的选择和控制能力,用户可以按照自己的意愿去选择信息内容和安排活动的进程,以达到有效获取信息及解决问题的目的。同时也能提高信息表现形式与人的逻辑和创造能力结合的程度。多媒体信息比单一信息对人具有更大的吸引力,它有利于人对信息的主动探索而不是被动地接收。7.1.2多媒体的主要特征可以想象,交互性一旦被引入到用户的活动之中,将会给用户带来多大的作用。从数据库中检索出某人的照片、声音及文字材料,这是多媒体的初级交互作用;通过交互特性使用户介人到信息过程中(不仅仅是提取信息),达到了中级交互应用水平;当我们完全地进入到一个与信息环境一体化的虚拟信息空间自由邀游时,这才是交互式应用的高级阶段,这就是虚拟现实。人——机交互不仅仅是一个人——机界面的问题,它与人类的智能活动有着密切的关系。实时性实时性是指多媒体信息系统所具有的高同步和即时处理特性。这也是实现虚拟现实的关键性特性。实时多媒体的集成必须能高度地同步媒体,才能体现真实感。比如,在展示讲课过程时,演讲者的声音和动作必须同步。任何媒体间的不同步都会影响多媒体应用系统的实用效果。在网络应用需求迅速发展的情况下,不仅在多媒体计算机上体现了高度的实时性,例如我们可以通过计算机照相和摄影、播放各种多媒体节目等,而且在因特网的信息传递方面也体现了高度的实时性,这涉及网络、通信设备和通信介质等多方面的技术,这些技术提供了网络即时处理的可能。许多网络应用,如网络会议、IP电话、视频点播和网络OK等都能使我们感觉到一种即时效果。7.1.2多媒体的主要特征多样性信息载体的多样性是相对于计算机而言的,是指信息媒体的多样化,有人称之为信息多维化。把计算机所能处理的信息空间范围扩展和放大,而不再局限于数值、文本或是被特别对待的图形或图像,这是计算机变得更加人性化所必须具备的条件。人类对于信息的接收和产生主要在五个感觉空间内,即视觉、听觉、触觉、嗅觉和味觉,其中前三者占了95%以上的信息量。但是,计算机以及与之相类似的一系列设备,都远远没有达到人类处理信息能力的水平。在传统的信息处理过程中不得不忍受着种种不便:信息只能按照单一的形态才能被加工处理,只能按照单一的形态才能被理解。计算机在许多方面需要把人类的信息进行变形之后才可以使用。可以说,在信息交互方面计算机还处于初级水平。7.1.2多媒体的主要特征多媒体技术将使计算机及其他设备能够处理的信息多样化或多维化,使之在信息交互的过程中,具有更加广阔或更加自由的空间。多媒体的信息多维化不仅仅表现在输入过程,还表现在输出过程。对于应用而言,前者称为获取(capture),后者称为表现(Presentation)。如果两者完全一样,这只能称之为记录和重放,从效果上来说并不是很好。如果对其进行变换、组合和加工,亦即我们所说的创作或综合,就可以大大丰富信息的表现力和增强效果。这些创作与综合也不仅仅局限在对信息数据方面,也包括对设备、系统、网络等多种要素的重组和综合,目的都是能够更好地组织信息、处理信息和表现信息,从而使用户更全面、更准确地接受信息。7.1.3多媒体技术
信息社会的多媒体需求是多媒体技术产生和发展的最根本的原因,而计算机技术、网络通信技术和数字信息处理技术的实质性进展是多媒体技术产生和发展的基础。多媒体不是多种媒体的简单汇合,而是指多种媒体的有机集合体。多媒体的产生必定是经过数据获取、整理、编辑、存储、展示和传递等多种处理过程,这些处理过程也必定有一系列的方法和技术的支持。当多媒体引人到网络通信领域时,就产生了多媒体网络技术。在这些多媒体技术中,主要包括存储与访问技术、表现与表达技术、实时处理技术、传输和控制技术、接口技术和人机交互技术等。人机交互技术最终要向着更接近于人的自然方式发展,使多媒体系统具有听觉、视觉和触觉等功能,从而以更自然的方式与人类交互。7.1.3多媒体技术
1.多媒体计算机技术多媒体计算机技术(MultimediaComputerTechnology),是指计算机综合处理多种媒体信息,在文本、图形、图像、音频和视频等多种信息之间建立逻辑关系,并将多媒体设备集成为一个具有交互性能的应用系统的技术。早期的计算机只能进行二进制运算,为了方便记忆和使用才发展了字母、数符和简单的符号,即我们称之为ASCII码的那些符号。在计算机上使用ASCII码,实际上标志着图形技术的开始,因为这些字母、数符和简单符号的显示就是由点组成的图形。根据这种原理,研究人员迅速地开发出扩展的ASCII码和中文编码等,使得计算机的功能逐步从单纯的科学计算扩大到数据处理。我们可以认为,编码是多媒体发展的基础,它不仅在计算机上成功地创造了数字、符号和文字,而且逐步创建了计算机音频、动画和视频。这就是计算机多媒体化的演变过程,也就是多媒体数字化的过程。多媒体的数字化是一种综合的电子信息技术,它推动了现实世界应用系统的数字化进程,首先影响着传媒系统和娱乐界,逐渐使广播、影视、录像和游戏等多媒体应用朝着数字化方向发展。多媒体计算机技术是从20世纪80年代中后期开始受到普遍关注的,由于多媒体技术的应用,加快了社会信息化发展的速度,同时应用市场对多媒体数字化技术提出了更高的要求,促进着多媒体技术的发展。随后出现的多媒体存储技术、多媒体输出技术、多媒体网络和通信技术使得我们今天拥有了强大的处理多媒体信息的能力。多媒体计算机技术的应用,改善了人类信息的交流方式,缩短了人类传递信息的路径,给人们的学习、工作、生活和娱乐带来深刻的变革。7.1.3多媒体技术
2.多媒体网络技术多媒体网络技术(MultimediaNetworksTechnology)是综合性的技术,它的目标是实现多个多媒体计算机系统的联合应用。而多媒体的网络应用对网络技术提出了相当高的要求,网络不仅要保证多媒体信息的安全传递,而且要保证多媒体及时到达。较为突出的问题是通信的带宽、地址分配、路由控制、实时同步以及分布处理等。随着信息高速公路(NII计划,NationalInternetInfrastrcture)的建立,通信的带宽逐渐扩大,宽带使得多媒体信息的传送速率得以提高。同时,由于多媒体通信中以下四项关键技术的改进,多媒体网络应用逐渐走入人们的工作和生活中。(1)网络多媒体数据处理技术,特别是高效的信息压缩与解压缩技术。(2)网络技术,提供更可靠的通信链路,保证实时多媒体的交互。(3)分布处理技术,支持计算机的协同工作。(4)支持更多媒体处理的终端技术。总之,多媒体网络技术主要涉及多媒体网络管理、多媒体通信、通信介质、异种网络间连接和传输控制、窄带和宽带传输控制、多媒体文件传送、多媒体实时传播、多媒体质量的控制、网络存储等技术。7.1.3多媒体技术7.1.4常见的多媒体元素多媒体元素是指多媒体应用中可显示给用户的媒体形式。目前,常见的多媒体元素主要有文本、图形、图象、动画、声音、视频等。1.文本文本,它是字处理程序的基础,并且仍作为基本信息用于多媒体程序中。通过对文本显示方式的组织,多媒体应用系统可以使显示的信息更易于理解。文本数据可以在文本编辑软件里制作,如Word所编辑的文本文件大都可被输入到多媒体应用设计之中,也可以直接在制作图形的软件或多媒体编辑软件中一起制作。文本文件中,如果只有文本信息,没有其他任何有关格式的信息,则称为非格式化文本文件或纯文本文件;而带有各种文本排版信息等格式信息的文本文件,称格式化文本文件。作为多媒体程序员,你可以选择要显示文本的字体、颜色、大小等,通过用多种形式显式文本,人们更易理解多媒体应用程序试图表达的信息。7.1.4常见的多媒体元素
图形一般指用计算机绘制的画面,如直线、圆、圆弧、矩形、任意曲线或图表等。图形的格式是一组描述点、线、面等几何图形的大小、形状及其位置、维数的指令集合。在图形文件中只记录生成图的算法和图上的某些特征点,因此也称矢量图。通过读取这些指令并将其转换为屏幕上所显示的形状和颜色而生成图形的软件通常称为绘图程序。在计算机还原输出时,相邻的特征点之间用特定的诸多段小直线连接就形成曲线,若曲线是一条封闭的图形,也可靠着色算法来填充颜色。图形的最大优点在于可以分别控制处理图中的各个部分,如在屏幕上移动、旋转、放大、缩小、扭曲而不失真,不同的物体还可在屏幕上重叠并保持各自的特性,必要时仍可分开。因此,图形主要用于表示线框型的图画、工程制图、美术字等。绝大多数CAD和3D造型软件使用矢量图形来作为基本图形存储格式。7.1.4常见的多媒体元素对图形来说,数据的记录格式是很关键的内容,记录格式的好坏,直接影响到图形数据的操作方便与否。图形技术的关键是图形的制作和再现,图形只保存算法和特征点,所以相对于图像的大数据量来说,它占用的存储空间也就较小,但在屏幕每次显示时,它都需要经过重新计算。另外,在打印输出和放大时,图形的质量较高。3.静态图像图像是指由输入设备捕捉的实际场景画面,或以数字化形式存储的任意画面。静止的图像是一个矩阵,由一些排成行列的点组成,这些点称之为像素点(pixel),这种图像称为位图(bitmap)。位图中的位用来定义图中每个像素点的颜色和亮度。对于黑白线条图常用1位值表示,对灰度图常用4位(16种灰度等级)或8位(256种灰度等级)表示该点的亮度,而彩色图像则有多种描述方法。位图图像适合于表现层次和色彩比较丰富、包含大量细节的图像。图像需由硬件(显示卡)合成显示。7.1.4常见的多媒体元素图像文件在计算机中存储格式有多种,如BMP、PCX、TIF、TGA、GlF、JPG等,一般数据量都较大。它除了可以表达真实的照片,也可以表现复杂绘画的某些细节,并具有灵活和富于创造力等特点。图像的关键技术是图像扫描、编辑、压缩、快速解压和色彩一致性再现等。图像处理时一般需要考虑三个因素:分辨率(有屏幕分辨率、图像分辨率和像素分辨率三种)、图像灰度、图像文件大小。对图像文件可进行改变图像尺寸、对图像进行编辑修改、调节调色板等处理。必要时可用软件技术减少图像灰度,以求用较少的颜色描绘图像,并力求达到较好的效果。随着计算机技术的飞速发展,图形和图像之间的界限已越来越小,比如,文字或线条表示的图形在扫描到计算机中时,从图像的角度来看,均是一种最简单的二维数组表示的点阵图。在经过计算机自动识别出文字或自动跟踪出线条时,点阵图就可转换为矢量图。目前汉字手写体的自动识别、图文混排的印刷体自动识别、印鉴以及面部照片的自动识别等,也都是图像处理技术借用了图形生成技术的内容。而地理信息和自然现象的真实感图形表示、计算机动画和三维数据可视化等领域,在三维图形构造时又都采用了图像信息的描述方法。因此,了解并采用恰当的图形、图像形式,注重两者之间的联系,是人们目前在图形、图像使用时应考虑的重点。7.1.4常见的多媒体元素4.动画动画是运动的图画,实质是一幅幅静态的图像的连续播放。动画的连续播放既指时间上的连续,也指图像内容上的连续,即播放的相邻两幅图像之间内容相差不大。人眼看到的任何物体,即使它马上消失,也仍然会在人的视觉中停留约1/24秒,这就是人眼所产生的视觉暂留现象。如果一幅画还没有完全在视觉中消失就立即看下一幅画,两幅画就自然联系起来,从而给人一种流畅的视觉变化效果,人脑中产生的便是处于动态的物体。因此,在电影标准中规定,每秒播放24帧画面,其原因也是显而易见的。在动画的制作过程中,重要的不仅是设计好每幅图,同时要考虑物体运动的各种因素,包括物体运动的轨迹、方向,以及所需的时间。为了显示物体连续变化的效果,要求上一幅画面和下一幅画面之间的形态变化不能太大。7.1.4常见的多媒体元素计算机动画实现的方式可分为造型动画和帧动画两种。前者是对每一个运动的物体分别进行设计,赋予每个对象一些特征,如大小、形状、颜色等,然后用这些对象构成完整的帧画面。造型动画每帧由图形、声音、文字、调色板等造型元素组成,控制动画中每一帧中图元表演和行为的是由制作表组成的脚本。帧动画则是由一幅幅位图组成的连续的画面,就像电影胶片或视频画面一样,要分别设计每个屏幕显示的画面。数字动画的制作在时间和质量上都是令人称道的。通过计算机的各种多媒体软件可方便快捷地完成角色的创建,然后利用动画编辑软件实现动画脚本的制作。7.1.4常见的多媒体元素5.声音把声音融入多媒体程序中,用户可以得到使用其它通信方式无法得到的信息。某些类型的信息不用声音很难有效表达,例如用文字准确描述心脏的跳动声以及大海的声音几乎是不可能的。声音也可以加深用户对用其它媒体表示的信息的理解,例如可以把看到的动画片讲述出来,它可以帮助人们理解应用程序从而更好地理解多媒体。学习研究专家已经发现用多种感官表达的信息对信息的后期记忆很有帮助。最重要的是,多媒体信息可以引起用户的更大兴趣。声音有几种不同的格式。今天,也许最普遍的声音类型是声音红皮书,这是为CD消费者提供的标准,它作为一种国际标准并正式公布为IEC908。之所以被称作声音红皮书是由于描述这种格式的书的封面是红色的。声音红皮书也被用于多媒体程序,它是获得高质量声音的基础。7.1.4常见的多媒体元素另一种声音格式是Windows声波文件,它只能用于Windows环境下的PC机。声波文件既包含用于回放声音的实际数字数据和文件头,文件头提供有关分辨率及回放速度的附加信息。声波文件可以存储通过麦克风录入的所有声音。最后一种声音格式称为乐器数字接口,缩写为MIDI。MIDI格式实际上是由乐器制造商制订的,MIDI实际并非数字化的声音,而是描述要演奏的音符的信息集合。MIDI不能储存除音符之外的任何东西,MIDI音乐可以由定序器生成。对声音的处理主要是编辑声音和声音不同存储格式之间的转换,计算机音频技术主要包括声音的采集、数字化、压缩——解压缩以及声音的播放。7.1.4常见的多媒体元素6.视频视频是图像数据的一种,是有若干联系的图像数据连续播放便形成了视频。视频容易让人联想到电视,但电视视频是模拟信号,而计算机视频是数字信号,虽然目前正在对两种视频进行相融地开发,但两者之间仍有差距,画面并未完全兼容。计算机视频是数字的,计算机视频可来自录像带、摄像机等视频信号源的影像,但由于这些视频信号的输出大多是标准的彩色全电视信号,要将其输入计算机不仅要有视频捕捉,实现由模拟向数字信号的转换,还要有压缩、快速解压缩及播放的相应的硬软件处理设备。模拟视像设备中的视频信号是模拟信号,如果要将模拟视像设备中的模拟视频信号转变为数字视频信号,就需要通过视频卡的处理。模拟摄像机是最常见的模拟视像设备,我们要从模拟摄像机中获取数字视频,一般先将视频源影像的颜色和亮度信息转变为电信号,再记录到存储介质。然后由视频捕捉设备进行采样、量化和编码,也就是将模拟视频信号通过A/D转换器转变为数字的“0”或“1”。计算机的作用是控制视频采集卡的实时工作,并将采集到的数字视频以一定的格式存储在介质上。视频信息数字化的目的是为了将模拟视频信号经模数转换和彩色空间变换转换成数字计算机可以显示和处理的数字信号。7.1.4常见的多媒体元素6.视频视频是图像数据的一种,是有若干联系的图像数据连续播放便形成了视频。视频容易让人联想到电视,但电视视频是模拟信号,而计算机视频是数字信号,虽然目前正在对两种视频进行相融地开发,但两者之间仍有差距,画面并未完全兼容。计算机视频是数字的,计算机视频可来自录像带、摄像机等视频信号源的影像,但由于这些视频信号的输出大多是标准的彩色全电视信号,要将其输入计算机不仅要有视频捕捉,实现由模拟向数字信号的转换,还要有压缩、快速解压缩及播放的相应的硬软件处理设备。模拟视像设备中的视频信号是模拟信号,如果要将模拟视像设备中的模拟视频信号转变为数字视频信号,就需要通过视频卡的处理。模拟摄像机是最常见的模拟视像设备,我们要从模拟摄像机中获取数字视频,一般先将视频源影像的颜色和亮度信息转变为电信号,再记录到存储介质。然后由视频捕捉设备进行采样、量化和编码,也就是将模拟视频信号通过A/D转换器转变为数字的“0”或“1”。计算机的作用是控制视频采集卡的实时工作,并将采集到的数字视频以一定的格式存储在介质上。视频信息数字化的目的是为了将模拟视频信号经模数转换和彩色空间变换转换成数字计算机可以显示和处理的数字信号。7.1.5多媒体技术应用
多媒体技术的应用,极大地冲击着传统信息处理的理念,多媒体计算机应用系统逐步迸进入政治、军事、企业、教育、艺术、家庭、商业、旅游、娱乐等领域,全方位地改变着人类的生活和工作方式。它的应用领域还在扩大,大有涵盖所有领域之势。随着多媒体技术的发展,必定会有更多新的应用领域,具有更加广阔的前景。下面简单介绍一些多媒体技术的主要应用领域。1.教育与培训世界各国的教育学家们正努力研究用先进的多媒体技术改进教学与培训。以多媒体计算机为核心的现代教育技术使教学手段丰富多彩,使计算机辅助教学(CAI)如虎添翼。实践已证明,多媒体教学系统的优点主要有:(1)学习效果好;(2)说服力强;(3)教学信息的集成使教学内容丰富,信息量大;(4)感官整体交互,学习效率高;(5)各种媒体与计算机结合可以使人类的感官与想象力相互配合,产生前所未有的思维空间与创造资源。计算机多媒体教学已在较大范围内替代了基于传统的教学方式,从以教师为中心的教学模式,逐步向以学生为中心、学生自主学习的新型教学模式转移。7.1.5多媒体技术应用2.桌面出版与办公自动化桌面出版物主要包括印刷品、表格、布告、广告、宣传品、海报、市场图表、蓝图及商品图等。多媒体技术为办公室增加了控制信息的能力和充分表达思想的机会,许多应用程序都是为提高工作人员的工作效率而设计的,从而产生了许多新型的办公自动化系统。由于采用了先进的数字影像和多媒体计算机技术,把文件扫描仪、图文传真机、文件资料微缩系统、通信网络等现代化办公设备综合管理起来,将构成全新的办公自动化系统,成为新的发展方向。3.多媒体电子出版物国家新闻出版署对电子出版物定义为“电子出版物,是指以数字代码方式将图、文、声、像等信息存储在磁、光、电介质上,通过计算机或类似设备阅读使用,并可复制发行的大众传播媒体”。电子出版物的内容可分为电子图书、辞书手册、文档资料、报刊杂志、教育培训、娱乐游戏、宣传广告、信息咨询、简报等,许多作品是多种类型的混合。电子出版物的特点:集成性和交互性,即使用媒体种类多,表现力性,信息的检索和使用方式更加灵活方便,特别是信息的交互性不仅能向读者提供信息,而且能接受读者的反馈。电子出版物的出版形式有电子网络出版和单行电子书刊两大类。7.1.5多媒体技术应用电子网络出版是以数据库和通信网络为基础的新出版形式,在计算机管理和控制下,向读者提供网络联机服务、传真出版、电子报刊、电子邮件、教学及影视等多种服务。而单行电子书刊载体有软磁盘(FD)、只读光盘(CD-ROM)、交互式光盘(CD-I)、图文光盘(CD-G)、照片光盘(Photo-D)、集成电路卡(IC)和新闻出版者认定的其它载体。4.工程设计计算机辅助设计广泛应用于工程辅助设计、辅助制图、电路设计以及印线布线等工作中。以平面图形、图像设计和处理为主的Photoshop、CorelDraw、FreeHand等软件,已是广告和出版界最为青睐和主要的工具,利用它们可轻松制作出精美的广告、喷绘和刻字等作品。三维图形制图软件AutoCAD由于其功效卓越已成为工程辅助设计中的最为重要的工具。同时现在的电子像册、电子画册也比比皆是。7.1.5多媒体技术应用
5.艺术和娱乐有声信息已经广泛地用于各种应用系统中,通过声音录制可获得各种声音或语音,用于宣传、演讲或语音训练等应用系统中,或作为配音插人电子讲稿、电子广告、动画和影视中。多媒体计算机技术也为音乐创作提供了便捷的方法,使用MlDI音乐标准接口和合成音乐编辑软件(如Walkcake、乐音软件等),可以直接通过计算机进行创作、编辑、调试和播放。以mid、rmi为扩展名的MIDI文件不能保存歌词、特殊音乐符号等信息。而以tri为扩展名的合成音乐格式文件可以词曲共存,还可以记录特殊音乐符号。利用专门的MIDI合成音乐的芯片,可以得到几百种乐器的声音,并组合出大型乐队的演奏效果,声音非常优美。许多数字影视和娱乐工具已进人了我们的生活,如WindowsMediaPlayer、RealOnePlayer等具有音/视频节目的搜索、管理和播放功能。大部分存放光盘上的音/视频节目也已随手可得,使我们能自主选择和播放音/视频节目。另一方面,电子游戏软件,无论是在色彩、图像、动画、音频的创作表现,还是在游戏内容的精彩程度上都是空前的。7.1.5多媒体技术应用6.多媒体通信多媒体技术的发展和网络宽带的普及,缩短了人与人之间的距离,多媒体通信涉及多媒体文件传递、网络音视频会议、多媒体实时对话、多媒体信息检索等多个方面,多媒体网络应用已经融入到人们的日常工作和生活中。(1)多媒体文件传递是指使用包含多媒体信息的文件的通信方式。不要求具有实时和交互功能。如万维网、电子邮件、新闻组、文件的上传和下载等。(2)网络音/视频会议是指结合了文本、听觉、视觉多种媒体形式,提供实时交互的功能,可用于双方或多方参与的多媒体通信方式。如远程会议、远程培训、远程医疗、远程贸易、远程监控和协同工作等。在网络视频会议中,声音、图像、文本等多种信息可以从一个地方传送到另一个地方,使分布在各地的与会者有身临其境的感觉。与会者既能了解各个分会场的会议情况,看到各会场、发言者、实物和资料,听到同步传递过来的声音,也能通过多媒体通信方式发表演说、出示资料、传真文件或者使用网络的共享电子白板。7.1.5多媒体技术应用(3)多媒体实时对话是指利用TCP/IP协议,在实时连接基础上进行语音通信的IP电话,早期的IP电话是指利用因特网(IP网)实现PC机与PC机之间的通话。随着IP网和公共电话网的结合,IP电话已经发展成能实现PC机到普通电话、普通电话到普通电话之间的通话。(4)多媒体信息检索是多媒体通信中最普遍的应用,通过如搜狐(http:/)、雅虎()等搜索引擎来实现因特网中的数据、文档、新闻、图像、影视、音乐等各种信息的检索。(5)广播电视、计算机网络和通信网络的结合产生了交互式电视,从而扩展了多媒体信息检索的途径。交互式电视(ITV)是利用有线电视网进行传播的。交互式电视具有频道利用率高、清晰度高、能提供交互功能等许多优点。可实现如电视列表、电影点播、新闻点播、卡拉OK服务、游戏、远程购物)、家庭银行服务、因特网访问等多媒体信息的检索。多媒体通信的应用在很大程度上改变了人们的工作和生活方式,人们不仅能提高工作效率、降低费用开支,并能尽情享受虚拟现实的无限乐趣。更重要的是,多媒体通信的应用进一步促进了社会的飞速发展。通信技术与计算机技术的结合产生了计算机网络技术,随着网络的发展完善,多媒体计算机技术也在通信工程中发挥着重要的作用。7.2基于内容的多媒体信息检索系统7.2.1基于内容检索的概念基于内容(Contentbased)的多媒体信息检索研究伴随着信息时代的到来而展开。现在,多媒体数据已经广泛用于Internet和企事业信息系统中,用户不仅要存取常规的字符数字数据,而且越来越多的商业活动、事务交易和信息表现将包含多媒体数据。如何有效地按照多媒体数据的特性去存取多媒体数据呢?首先想到的方法就是利用常规关系数据库管理系统来管理多媒体数据。对于图像来说,实际上在20世纪70年代人们就开展了对图像数据库的研究,方法是利用人工输入图像的各种属性,建立图像的元数据库来支持查询。但是,随着20世纪90年代多媒体技术的发展,可获取的图像和其他多媒体数据越来越多,数据库容量不断增大,而这种用人工输入属性和注释的方法就暴露出了它的缺点:一是人工注释需要大量的人力,尤其是对于大型的多媒体信息库,如Web网络资源、数字图书馆等。在这样的信息环境中,每天都有大量的新资料出现,需要及时把这些资料归档。没有计算机的自动或辅助处理,资料的更新周期就不能满足用户的需要;二是人工注释难以解决蕴藏在多媒体数据中丰富的内容以及内容感知描述的主观性。人们常说,一幅图胜过千言万语,而音视频等媒体包含了更丰富的内容,这些内容的许多部分很难用文字来描述清楚;三是对于实时广播流媒体的处理,手工处理是完全不可行的,必须用计算机进行实时的内容分析。由此,基于内容的多媒体信息检索研究应运而生。7.2.1基于内容检索的概念目前大多数多媒体的应用还很少使用到不同媒体间的语义信息,相当多的人把多媒体只看做为一种界面工具,而并没有在各种媒体的内容上建立起联系,并且依据这些联系组织、处理和使用这些信息。从另外一个方面来看,多媒体的语义复杂性也是带来其语义瓶颈的重要原因。因此,必须要有相应的方法和工具,对多媒体的数据按不同的形式和来源获取、增加与任务相关的语义,以方便对多媒体信息内容的检索。这对于多媒体信息系统来说应该是基本的要求。如何使系统直接从各种媒体中获取信息线索,并将这些线索用于数据库中的检索操作,帮助用户从数据库中检索出合适的多媒体信息对象,这就是基于内容检索(ContentBasedRetrieval,CBR)的主要研究内容,这也是多媒体数据库用户接口的基本内容7.2.1基于内容检索的概念所谓基于内容检索,就是从媒体数据中提取出特定的信息线索,然后根据这些线索从大量存储在数据库中的媒体中进行查找,检索出具有相似特征的媒体数据。对多媒体数据来说,每一种媒体数据都具有难以用符号化方法描述的信息线索。如图像中对某对象的形状、颜色,视频中的对象运动、镜头的切换,声音的音调、含义等。虽然人能够理解这些媒体的含义,但要利用这些语义线索对多媒体数据库进行检索,就不得不事先输入并与媒体数据一起存储对应的字符信息,对这些媒体的语义进行描述;检索时,由人把这些语义再转换为相应的字符,根据字符的匹配查找相应的媒体信息。很显然,这个转换过程妨碍了有效地交互,被称为“转换障碍”,很难满足用户的各种各样的需求。对设计者来说,给多媒体数据赋予能够表示全部语义特征的关键词也非常困难,这与个人的经验、知识和对媒体信息的理解程度密切相关,而且也并非所有对象的所有特征都能用字符描述出来。基于内容检索就是从媒体中直接地提取媒体的语义线索,根据这些语义线索进行检索。这就把检索过程与语义的提取直接地联系到了一起,使得检索过程更加有效、适应性更强。7.2.1基于内容检索的概念7.2.2基于内容检索的体系结构基于内容检索系统结构如图7-2-1所示,由特征分析子系统、特征提取子系统、数据库子系统、查询接口子系统、检索引擎子系统和索引过滤子系统等组成,同时需要相应的知识辅助支持特定领域的内容处理。7.2.2基于内容检索的体系结构
7.2.2基于内容检索的体系结构
特征分析子系统该子系统负责将需要入库的媒体进行分割,标识出需要的对象或内容关键点,以便有针对性地对目标进行特征提取。特征标识可通过用户输人或系统定义。特征提取子系统对用户提供或系统标明的媒体对象进行特征提取处理。提取特征时需要知识处理模块的辅助,与标准化的知识定义直接有关。特征提取可以由人完成,如给出一些描述特征的关键字;也可以通过对应的媒体处理过程完成,提取一些所关心的媒体特征。提取的特征可以是全局性的,如整幅图像或视频镜头的颜色分布;也可以针对某个内部的对象,如图像中的子区域、视频中的运动对象等。在提取特征时,往往需要知识处理模块的辅助,由知识库提供有关的领域知识。7.2.2基于内容检索的体系结构
数据库子系统数据库包含多媒体数据库和特征数据库,分别存放多媒体数据及对应的特征数据。媒体库包含各种媒体数据,如图像、视频、音频、文木等;特征库包含这种媒体用户输人的特征和预处理自动提取的特征。它们彼此之间存在着一定的对应关系,特征库中包含由用户输入的和预处理自动提取的特征数据,通过检索引擎组织与媒体类型相匹配的索引来达到快速搜索的目的。查询接口子系统查询接口即人机交互界面。由于多媒体内容不具有直观性,查询基于示例方式,因此必须提供可视化手段,可采用交互操纵、模板选择和样本输入三种方式提交查询依据。检索允许针对全局对象,如整幅图像、视频镜头等,也允许针对其中的子对象以及任意组合形式来进行。检索返回的结果按相似程度进行排列,如有必要可以进一步的查询。检索主要是相似性检索,模仿人类的认识过程,可以从特征库中寻找匹配的特征,也可以临时计算对象的特征。7.2.2基于内容检索的体系结构
检索引擎子系统在检索时,要将特征提取值和特征库中的值进行比较,得到一个相似度。不同的媒体具有不同的相似度算法,这些算法也称为相似性测度函数。检索引擎使用相似性测度函数集进行比较,确定与特征库的值最接近的多媒体数据。索引过滤子系统在大规模多媒体数据检索过程中,为了提高检索效率,常在检索引擎进行匹配之前采用索引过滤方法,取出高维特征用于匹配。7.2.3基于内容的检索过程和检索技术
因为图像的低层特征和高层语义之间存在着很大的差距,所以仅仅基于图像低层特征很难给出令人满意的结果,这时就要用到相关反馈。在基于内容的检索过程中,相关反馈是一个相当重要的过程。相关反馈技术一方面可以找出更有效的多媒体表示方法,另一方面通过人机交互来捕捉和建立低层特征和高层语义之间的关联。相关反馈技术的基本思想是建立一个由用户参与的交互过程,在交互过程逐步求得精确的查询结果。在检索过程中,系统根据用户的查询要求返回检索结果,用户可以对检索结果进行评价和标记,并将这些信息反馈给系统,系统再根据这些反馈信息进行学习,并返回新的查询结果,从而使得检索结果更加满足用户的要求。7.2.3基于内容的检索过程和检索技术
1.基于内容的检索过程基于内容的检索是一个逐步求精的过程,其检索存在一个特征调整、重新匹配的循环过程。其过程如图7-2-2所示。7.2.3基于内容的检索过程和检索技术
(1)提供查询依据:用户提交检索要求,但要基于一个特定的检索格式,可以通过特定的查询语言来建立,以便作为检索引擎的匹配依据。(2)相似性匹配:将用户提交的特征值与特征库中的特征值按照各媒体的相似性测度函数进行匹配,从中找到一组最佳相似结果提交给用户。(3)结果审核:用户可以从满足初始特征的一组检索结果中,挑选所需要的结果,结束检索过程。(4)特征调整:若不满意可通过再次检索,对候选结果进行特征调整,再形成一个新的查询依据。重新检索逐步缩小查询范围,直到用户满意。7.2.3基于内容的检索过程和检索技术
2.基于内容的检索技术目前,已经建立了多种基于多媒体内容的检索方法,但是要满足检索率、查准率、查全率、响应时间等要求还需要进一步研究,下面几个基于内容的检索技术值得人们去探究。(1)综合的多特征检索技术可以从不同的角度表示多媒体的同一种特征。例如,可以描述颜色特征的有直方图特征、颜色距、颜色集、主颜色等多种特征表示法,实际上综合利用了多种媒体的特征。多种特征表示法容易达到较高的检索率,问题是如何有机地组织多种特征。(2)高层概念和低层特征的关联高层内容是用词语表达具体含义的,如果能够与底层的数据特征相关联,就能够使计算机自动抽取媒体的语义,但建立这种关联比较困难。信息检索、分类和排序的意义上的多媒体检索可以采用语义模板、用户交互、机器学习、神经网络等方法。(3)高维索引技术建立索引可以提高检索海量数据的效率。目前的k-d树、R树以及改进的索引树结构一般都是先减少维数再建立适当的多维索引结构。但仍需要研究和探索有效的高维索引方法,以支持多特征、异构特征、权重、主键特征方面的查询要求。目前,已开发的检索技术主要针对图像和视频检索,但是多媒体信息还包含大量的音频、图形、动画等媒体,基于这些内容的检索技术也是一个重要和现实的问题。7.3多媒体信息检索
多媒体技术、网络技术、信息数字化处理等高新技术的飞速发展,使得因特网上的多媒体数据量激增,网络信息资源不再是单纯的文本信息,而图形图像、音频、视频等多媒体信息逐渐在因特网中占有越来越大的比重,或独立出现、或嵌入网页文档中,新的图像和影像等每天都在增加和更新。为此,因特网也涌现出一些专门针对多媒体信息的检索系统。同时,由于多媒体信息的非文字性使得应用传统的基于关键词的检索技术检索多媒体信息的效果不佳,人们要求对多媒体数据进行语义分析、表达和特征分析,一种新型的多媒体数据库查询与检索技术——CBR(contentbasedretrieval,基于内容检索)开始被应用于因特网的多媒体信息检索平台。下面将分别介绍对图像、音频、视频等多媒体文档的检索。7.3多媒体信息检索
7.3.1图像文件信息的检索1.图像文件信息检索概述从20世纪70年代开始,有关图像检索的研究就已开始,当时主要是基于文本的图像检索技术(Text-basedImageRetrieval,简称TBIR),利用文本方式描述图像的特征,如绘画作品的作者、年代、流派、尺寸等。到90年代以后,出现了对图像的内容语义,如图像的颜色、纹理、布局等进行分析和检索的图像检索技术,即基于内容的图像检索(content-basedImageretrieval,简称CBIR)技术。CBIR属于基于内容检索(content-basedretrieval,简称CBR)的一种,CBR中还包括对动态视频、音频等其他形式多媒体信息的检索技术。基于文本的图像检索技术(text-basedimageretrieval)的历史可以追溯到20世纪70年代末期。它沿用了传统文本检索技术,回避对图像可视化元素的分析,而是从图像名称、图像尺寸、压缩类型、作者、年代等方面标引图像。这种技术目前在因特网图像信息检索系统中占主导地位,因为网络环境下的图像资源区别于一般独立图像的特点,在于它们与Web网页有着千丝万缕的关系,一般都是嵌在Web文档中随之发布的,处于一定的上下文环境中。因此,借助网络图像的文本上下文环境,可以在一定程度上为图像分析、标引提供依据。可以用来帮助图像分析、标引的Web文档内容包括:7.3.1图像文件信息的检索(1)图像的文件名及其网址。大多数作者直接通过文件名来表示图像的内容,如:winter.jpg、cat·jpg、rose.gif、boy.gif等,就直接把图像的内容体现在文件名之中。同时,图像的网址信息也提供了一些相关的语义信息,如http:///images/logo_sm.gif就提供了图像所属的类别信息及其语义信息。(2)图像的替代文字(alternatetext)。替代文字在html语言中被规定为一个可选项目,用来在不支持图像的浏览器中替代图像的位置,这通常就是图像的语义信息,而且也是最为准确的一个特征。不过,并不是所有的作者都愿意提供这个信息,如果网页作者没有给出该信息,默认的替代文字就是图像文件名。(3)图像周围的文字(surroundingtext)。在网页中图像周围的文字是最可能表达图像所有包含的内容的,虽然有些文字可能与图像并不相关,不过这些文字在一定程度上还是表达了图像的语义信息,因此被选择成为语义特征之一。7.3.1图像文件信息的检索(4)图像所在页面的标题。有些图像用来加强作者的意图,因此,有些图像的内容同页面的标题内容直接相关。页面的标题也就成为语义特征之一。(5)图像的超链接(hyperlink)。有时图像本身也是超链接的一部分,这种超链接信息在一定程度上与图像的内容相关。因此,一些语义特征可以通过对超链接的分析计算得到。(6)图像所在网页彼此间的链接(link-structure)。借由对网页与网页间的链接分析(linkanalysis),网页内所包含的图像彼此间语义上的相似性可以在一定程度上计算得到。这些信息可以用来加强图像检索的效果。所有这些特征,都将通过页面分析器从网页中自动抽取出来,并被赋予不同的重要性,并按照传统的文本信息检索技术,建立图像的语义特征向量。向量的每个分量都对应一个关键词,它的值取决于该关键词在与图像有关的网页中的分布。如果一个关键词在一个网页中出现很多次,对应的分量就会大一些;另一方面,如果这个关键词出现在很多网页中,对应的分量就会小一些。这种方法在文本检索中被广泛采用,也适用于图像检索。7.3.1图像文件信息的检索基于文本的图像检索技术实现较简单,更符合人们检索习惯,同时可以充分结合己有的成熟文本检索技术和网络搜索引擎技术,减少许多对图像内容本身的复杂考虑,因此,也得到了较广泛的应用。然而,完全基于文本的图像检索技术存在着严重的问题。首先,大多数图像名称、尺寸、作者等信息并不一定能通过Web文档的上下文关系获得,这就必须依赖于人工对图像做出标注。这项工作不但费时费力,而且手工的标注往往是不准确或不完整的,还不可避免地带有主观偏差。也就是说,不同的人对同一幅图像有不同的理解方法,这种主观理解的差异将导致图像检索中的匹配错误。此外,图像中所包含的丰富的视觉特征(颜色或纹理等)往往无法用文本进行客观地描述。90年代初期,随着大规模数字图像库的出现,上述的问题变得越来越尖锐。为克服这些问题,基于内容的图像检索技术(content-basedimageretrieval)应运而生。区别于原有系统中对图像进行人工标注的做法,基于内容的检索技术自动提取每幅图像的视觉内容特征作为其索引。对于图像的内容特征,主要采用的是图像的颜色、纹理、空间关系、对象特征等进行检索。其中,颜色特征和图像的大小、方向无关,而且对图像的背景颜色不敏感,因此颜色特征被广泛应用于图像检索。颜色特征中包括颜色直方图、颜色相关图、颜色矩等。纹理特征代表了物体的视觉模式,它包含了物体表面的组织结构以及与周围环境之间的关系。常用的方法有相关矩阵法,粗糙度、对比度等纹理表示方法,以及小波变换等。形状特征则包括两种,一种是基于边界的形状特征,另外一种则是基于区域的形状特征。最成功的表示方法有傅利叶变换和不变矩等。这些低层的特征将通过各种方法抽取出来,并形成一组特征向量,建立相关索引并存储到数据库中。7.3.1图像文件信息的检索近年来,基于内容的图像检索领域的研究有了长足的进展,一大批研究性的或商用的图像检索系统被建立起来。基于内容的图像检索系统具有与传统基于文本的检索系统完全不同的构架。首先,由于图像依赖其视觉特征而非文本描述进行索引,检索将根据图像视觉特征的相似度进行。用户通过选择具有代表性的一幅或多幅例子图像来构造查询,然后由系统查找与例子图像在视觉内容上比较相似的图像,按相似度大小排列返回给用户。这就是所谓的通过例子图像的查询。另外,基于内容的检索系统一般通过可视化界面和用户进行频繁的交互,以便于用户能够方便地构造查询、评估检索结果和改进检索结果。7.3.1图像文件信息的检索7.3.1图像文件信息的检索图7-3-1表示了基于内容的图像检索系统的体系结构。系统的核心是图像特征数据库。图像特征既可以从图像本身提取得到,又可以通过用户交互获得,并用于计算图像之间的相似度。用户和系统之间的关系是双向的:用户可以向系统提出查询要求,系统根据查询要求返回查询结果,用户还通过对查询结果的相关反馈来改进查询结果。图中还标出了基于内容的图像检索中的一些关键环节:7.3.1图像文件信息的检索(1)选择、提取和索引能够充分表达图像的视觉特征。(2)处理基于相似度的图像检索。(3)处理用户对检索结果的相关反馈,改善检索结果。因特网图像文件信息检索的趋势应该是基于文本与基于内容的技术相结合,用户提交的检索提问,可以是关键字的查询,如图像的名称、大小等,也可以是一张用户感兴趣的图像,系统将根据提交的查询,在图像数据库中找到一些最相似的图像返回给用户。提交的查询将首先转换成为一个由内容特征和外部特征(即由上下文分析得到的语义特征)结合的向量,然后分别与数据库中图像的向量计算相似度。相似度的计算分两步完成:一是计算内容特征的相似度,二是计算语义特征的相似度,然后采用线性组合的方法得到最后的相似度,相似度高的图像成为检索的结果。7.3.1图像文件信息的检索2.基于特征的图像文件信息检索(1)基于颜色特征的图像文件信息检索颜色直方图是最常用的颜色特征表示方法。直方图的横轴表示颜色等级,纵轴表示在某一颜色等级上具有该颜色的像素在整幅图像中所占的比例。单纯基于颜色直方图的图像检索方法是难以判断两幅图像是否具有相似内容的,必须引人空域信息。直方图的值反映图像的统计特征,包括平均值、标准偏差、中间值和像素个数,颜色集中的地方峰值较高。颜色内容包含全局颜色分布和局部颜色信息。具有相似的总体颜色内容的图像检索基于一个图像索引表,索引表可以按照全局颜色分布,通过计算每种颜色的像素个数并构造颜色灰度直方图来建立。局部颜色信息是指局部相似的颜色区域,如R、G、B三个色域,包括分类色与一些初级的几何特征,如图7-3-2所示,便于抽取空间局部颜色信息并提供颜色区域的有效索引。7.3.1图像文件信息的检索图7-3-2局部颜色信息直方图7.3.1图像文件信息的检索在利用颜色直方图的查询中,可以使用域关系演算语言,如QueryByExample(QBE)。如要给出查询的示例,一般可采用以下三种方式之一来指明查询的示例:①指明颜色组成:通常应在连续变化的色轮上来指定,而不适合用文字进行描述。该法使用起来并不方便,检索的查准率和查全率也不高。②指明一幅示例图像:将示例图像的颜色直方图和数据库中的颜色直方图值进行相似性匹配,从而得到查询结果。③指明图像中一个子图:利用图像分割出来的各个小块来确定图像中感兴趣的对象轮廓,通过建立更复杂的颜色关系来查询图像。7.3.1图像文件信息的检索(2)基于形状特征的图像文件信息检索形状特征也称为轮廓特征,是指整个图像或图像中子对象的边缘特征。一般而言,形状的表示可分为基于边界的和基于区域两类,一般可用矩形、圆形、面积、周长等来描述,而许多形状特征可能被包含在一个封闭的图像中。为了提高检索的精确度,基于形状特征的数据库中常常包含三种数据库,即图像库、形状库、特征库,并提供形状特征的索引。检索是根据用户提供的形状特征从图像库中匹配出形状相似的图像。基于形状特征的检索主要有两种方式:①针对轮廓线进行的形状特征检索,这是最常用的方式。用户可以选择形状或勾画一幅轮廓草图,通过形状分析获得到目标的轮廓线。所谓形状分析主要是通过分割图像进行边缘提取,边缘也是图像分割的重要依据。较好的边缘提取过程必须与滤波器配合使用。②直接对图形寻找适当的向量特征进行检索。7.3.1图像文件信息的检索(3)基于纹理特征的图像文件信息检索纹理特征是所有表面具有的内在特征,它包含关于表面的结构布局、密度及变化关系。图像或物体的纹理特征反映了图像或物体本身的属性,常用粗糙性、方向性和对比度等来描述。纹理研究包括纹理分析和纹理合成两个方面,而纹理分析是基于纹理检索的重要基础。纹理分析的方法可以分为统计方法和结构方法两种。统计方法适用于分析木纹、草坪等细致而不规则的物体,并根据关于像素间灰度的统计性质对纹理规定出特征及参数间的关系。结构方法适用于具有纹理排列规则的图案,根据纹理基元及其排列规前来描述纹理、特征、以及特征与参数间的关系。纹理的检索一般都采用示例查询方法,同时结合纹理颜色作为检索特征,缩小查找纹理的范围。用户给出一个要检索的图像的例子,然后系统按照这个例子查找与它相似的图像,并将相似结果返回给用户,用户在这些相似的图像中确定或在此选择接近用户查询的图像,最终达到检索的目的。3.基于内容的图像文件信息检索实例(1)VisualSEEK的WebSEEKURL::8008/(如图7-3-3)7.3.1图像文件信息的检索图7-3-3基于内容的图像、视频检索系统Webseek的检索主界面7.3.1图像文件信息的检索①简介:VisualSEEK系统由哥伦比亚大学研制。VisualSEEK提供一系列查询万维网视图信息的搜索工具,WebSEEK是其中功能强大的特色工具。VisualSEEK的检索机制与其他CBIR系统相似。高效率的WEB图像信息检索是它的特点。它采用了先进的特征抽取技术,从素材中提取色彩的特征信息,并提供相应的检索人口。用户界面强大、操作简单、查询途径丰富;结果输出画面生动,支持用户直接下载信息。WebSEEK虽然是出现较早的基于内容的图像搜索引擎,然而,近几年WebSEEK的发展几乎处于停滞状态,其数据库规模和技术特色已经显得落后。②收录范围:WebSEEk本身就是一个独立的万维网可视化信息编目工具。至今,已经对百万幅左右的图像和影像片段进行了编目。③检索特点:WebSEEK是基于内容的图像、影像目录和搜索引擎,典型的万维网图像搜索引擎。提供主题分类、文本和图像检索。WebSEEk提供三种方式检索,目录浏览、关键词检索和特征检索方式。a.目录测览:WebSEEk是万维网对视频信息进行编目的突破。其主题目录按照字顺(a~z)分为下列20余大类:Animals,Architecture,Art,Astronomy,Cats,Celebrities,Dogs,Food,Horror,Humour,Movies,Music,Nature,Sports,Transportation,Travel。(如图7-3-4,7-3-5)7.3.1图像文件信息的检索图7-3-4Animals检索界面7.3.1图像文件信息的检索图7-3-5Animals检索结果略图7.3.1图像文件信息的检索b.视觉特征(visualfeatures)检索方式:可以检索视频(videos),彩图(colorphotos),灰度图(grayimages),图形(graphics),或者选择所有途径(All)进行组合检索。对图像的颜色特征进行分析和检索,并允许用户定制检索样本图像的颜色特征。可以根据检索结果略图做基于图像颜色的进一步检索。每幅略图下标有col、web、his,单击col可检索与该图色彩相似的其他图像和影像,单击web可以用该图所用颜色检索整个WebSEEK目录下的所有图像,单击his可通过调整图像色彩的柱形图来进行新的检索。(如图7-3-4所示)c.关键词检索:与普通搜索引擎的关键词检索功能原理相同,是对系统分类目录的文字说明进行匹配。该系统只能输入单个关键词进行检索,不提供对关键词的各种逻辑组合。7.3.1图像文件信息的检索此外,还可以递交URLUR临)。WebSEEK是面向Web的文本/图像检索工具,其姊妹系统VisuanLSEEK是一种视觉特性搜索工具,两者都是由哥伦比亚大学开发的。主要研究图像区域的空间关系查询和从压缩域中抽取视觉特性。VisuanLSEEK支持基于视觉特征和它们之间空间关系的查询。用户可以把顶部为红橙黄色区域、底部为蓝绿色区域的图像作为查询“日出”的草图。④评价:WebSEEK的分类测览和特征检索方式,使其成为一个优秀的视频检索工具。(2)QBIC(QueryByImageContent)URL:http://www.qbic.aI/(见图7-3-6)7.3.1图像文件信息的检索图7-3-6QBIC图像和动态影像检索系统界面7.3.1图像文件信息的检索①简介:QBIC(QueryByImageContent,按图像内容查询)由IBM公司于20世纪90年代开发,是一个图像和动态影像检索系统。②QBIC系统组成:该系统由Datapopulation和Databasequery两部分构成。Datapopulation负责对系统存储的图像进行多种特征抽取和维护特征索引库。Databasequery负责对用户查询输人的图像进行同样的特征抽取,并将特征信息输入匹配引擎,检索出具有相似特征的图像。两部分中间使用一个过滤索引生成器相连,所有的查询、反馈过程都必须经过过滤索引生成器,才能进入匹配引擎,提高系统的总体速度。目前俄罗斯彼得堡一个州立教会博物馆和IBM合作,在其网站上实现该技术。网址为:。(见图7-3-7)7.3.1图像文件信息的检索图7-3-77.3.1图像文件信息的检索③检索方式:QBIC提供的检索方式有:a.利用系统的标准范图检索;b.用户输入自绘简图或扫描输入图像检索,同时可选择色彩或结构查询方式;c.可输入动态影像片段和前景中运动的对象检索。在用户输入图像、简图或影像片段时,QBIC即分析和抽取所输入对象的色彩、纹理、运动变化等特征,根据用户选择的查询方式分别处理。查询方式不同则得到的结果有异,因为不同的特征分析抽取的结果不同。QBIC也提供各种标准范图,代表不同的色彩、纹理、轮廓结构。用户可选择与要检索对象最相似的范图作为检索条件去查询。这些标准范图的特征信息存储在特征索引库中。④评价:QBIC支持基于示例图像,用户构造的略图,选择的颜色、纹理等的查询。在它的新系统中,基于文本的关键词查询与基于内容的相似行查询结合在一起。4.基于文本的图像文件信息检索实例(1)百度图像搜索(Baidu)URL:(见图7-3-8)7.3.1图像文件信息的检索图7-3-8百度图像检索分类目录界面7.3.1图像文件信息的检索①简介:百度是目前最好的中文搜索引擎之一。它号称从3亿中文网页中提取图片,建立了世界最大的中文图像数据库;它的检索界面友好,检索手段丰富;检索结果的相关性较高。②检索方式:提供分类浏览检索和关键词检索两种检索方法。a.分类目录检索:按照图片的主题内容和用户的搜索偏好,将图像分成18个大类,用户可以浏览检索。分类目录所提供的图片内容大多数与娱乐和生活消费相关,如果查找学术性或者专题性图片不适宜采用分类目录检索。b.关键词检索:关键词检索是对图片的文字说明或者图片所处网页上下文进行检索,同时百度还能对图片的大小和图像格式进行限制检索;百度提供对新闻图片的关键词检索,这是百度图片搜索的特色之一。③结果显示:看到搜索结果页后,单击要查看的图片的缩略图,就会看到原始大图片。如果点击图片下方的“查看源网页”,可以查看原始图片所在的网页。(2)Google图像搜索引擎URL:(见图7-3-9)7.3.1图像文件信息的检索图7-3-9Google图像搜索的高级图像检索界面7.3.1图像文件信息的检索①简介:Google图像搜索引擎自称为“互联网上最好用的图片搜索工具”,它在基于文本的图像搜索领域的领先地位毋庸置疑。Google图像数据库容量大,到目前为止,Google共收录了超过几十亿张图像,但是,Internet上仍然还有很多图像尚未添加到Google的索引中。Google有中文的图像搜索功能,支持使用中文关键词进行搜索;对于用户来说,使用起来非常方便;在搜索速度方面,Google的表现很优秀,如果使用宽带,每次搜索需要的时间可在1秒以内;虽然是国外搜索引擎,但对中文的支持很好,相对而言,搜索结果的准确度也很高。可以说Google无愧于“最佳图像搜索引擎”的称号。但是同时也存在一些缺点,一是由于使用自动化程序处理数据库,即使采用最先进的程序,搜索结果中也难免会夹杂许多无用的信息。二是由于图像来自于其他网站,如果搜索引擎数据库的更新速度不快,用户搜索到的图像链接不可避免有一些“死链”。②检索方式:Google图像搜索使用的方法与前面章节介绍过的文本检索大致相同。它提供两种查询模式:高级搜索和一般搜索。一般搜索支持布尔型AND、OR和NOT操作,只需在图像搜索框内键入检索式,然后按“搜索”按钮或点击键盘上的回车键即可。对于高级检索提供了更多的查询人口,在高级搜索方式下,可以布尔逻辑检索,另外还可以指定搜索目标的大小、文件类型、色调等限制条件,也可以通过指定以网络域名区分搜索范围,有针对性地搜索某些区域。7.3.1图像文件信息的检索如搜索具有特定文件类型扩展名的图像:在高级搜索框中,可以通过在查询中使用“filetype:”来指定文件类型扩展名。例如,如果要查看格式为.jpg的花朵(flower)的图像,则在搜索框中输入[flowerfiletype:jpg]。③结果显示:一次搜索结果以缩略图的方式给出。点击搜索结果的缩略图,能够以框架方式浏览图片所在网页。每个结果项提供文件名、扩展名、像素、图像大小、URL等详细信息,单击顶部框架中的图像即可链接到实际的.jpg或.gif文件。(3)Yahoo画廊URL:(见图7-3-10)7.3.1图像文件信息的检索图7-3-10Yahoo画廊检索界面7.3.1图像文件信息的检索①简介:Yahoo画廊中收录了16亿幅互联网图片供用户查找和利用。数据库经Yahoo网站的工作人员人工处理,把收集到的图像整理好并分类存放,供用户搜索并浏览。用户在通过Yahoo图像搜索引擎进行搜索时,检索的只是Yahoo网站的工作人员收集整理的图像分类目录。Yahoo画廊中所有的图片都是经过人工处理的,返回结果的准确度很高,而且图像的质量也相对较高,让用户如同置身于一个画廊。但缺点是需要耗费较多的人力和物力,而且由于收集的范围、数量问题,资源不如Google丰富,有时会导致用户无法找到所需要的图像。如果对图片的质量要求比较严格而对数量没有太高的要求,使用Yahoo画廊进行检索是一个不错的选择。Yahoo图像搜索有中文网站图像搜索(见图7-3-11)和外文网站图像搜索(见图7-3-12)7.3.1图像文件信息的检索图7-3-11Yahoo中文网站图像搜索7.3.1图像文件信息的检索图7-3-12Yahoo英文网站图像搜索7.3.1图像文件信息的检索②检索方式:采用分类方式组织图像文档,共分24个大类,大类下面又逐层细划。搜索时可选择是在全部分类中搜索,还是指定具体的分类。检索时用户可用目录的方式逐层浏览找到自己需要的图片,也支持基于图片文本内容的关键词搜索。同时还提供了一些热门搜索分类供用户选择。Yahoo画廊图像检索支持布尔型AND操作;同时输入两个关键词并不加空格或逗号,搜索引擎默认为AND连接。③结果显示:一次搜索给出缩略图,点击之后可以看到大图片,同时给出了与该幅图片有关的其他链接等。(见图7-3-13)7.3.1图像文件信息的检索图7-3-13Yahoo图像检索缩略图7.3.1图像文件信息的检索(4)DittoURL:http://(见图7-3-14)图7-3-14Ditto数据库检索界面7.3.1图像文件信息的检索①简介:Ditto是一个不错的图像搜索引擎,其图像搜索技术被其他搜索引擎广泛的采用。Ditto的数据库规模较小,更新不太及时,但检索相关性较好,可以过滤掉成人内容。②检索方法:提供分类浏览检索和关键词检索两种检索方法,同时还提供了一些热门搜索分类供用户选择。关键词检索只支持AND逻辑,输入两个关键词中间加空格,系统默认为AND逻辑。③结果显示:一次搜索结果给出缩略图,点击之后跳转至提供该图像的网站;同时提供与该检索相关的其他关键词,帮助检索者扩检;与检索相关的产品和商业服务。(5)PicsearchURL:(见图7-3-15)7.3.1图像文件信息的检索图7-3-15Picsearch检索界面图7-3-15Picsearch检索界面7.3.1图像文件信息的检索①简介:Picsearch是由一家瑞典公司开发的,检索性能较好,检索界面非常友好,易用性强;数据库不大,但更新及时;并且能够自动过滤掉成人内容。②检索方法:提供简单检索和高级检索,支持布尔逻辑、词组检索和截词检索,高级检索中还可以限定图像的颜色和大。③结果显示:与Google很类似,一次搜索结果以缩略图的方式给出。点击搜索结果的缩略图,能够以框架方式浏览图片所在网页。每个图像提供包括像素、图像大小、颜色等详细信息。(6)ALLTheWeb多媒体搜索URL:(见图7-3-16)7.3.1图像文件信息的检索图7-3-16AllTheWeb搜索引擎的检索界面7.3.1图像文件信息的检索
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 家装顾问培训课件
- 2026年电力线路巡检合同协议
- 2026年品牌加盟授权合同
- 电商代运营合作合同协议2026
- 家用电器安全使用培训课件
- 家政育婴师培训课件
- 客运站安全培训需求记录课件
- 央企BIM培训课件
- 热力环流教学设计
- 技术美学产品介绍
- 山东省潍坊市2023-2024学年高一上学期1月期末考试英语试题 含解析
- 农村个人土地承包合同模板
- 2025届北京市海淀区一零一中学数学七年级第一学期期末综合测试模拟试题含解析
- 初中道德与法治课中提升学生政治认同素养的策略研究
- 糖尿病的急救和护理
- 中医养生的吃野山参粉养生法
- 小学道德与法治-认识居民身份证教学课件设计
- 采购灭火器施工方案
- 小学生古诗词大赛备考题库(300题)
- GB/T 25085.3-2020道路车辆汽车电缆第3部分:交流30 V或直流60 V单芯铜导体电缆的尺寸和要求
- GB/T 242-2007金属管扩口试验方法
评论
0/150
提交评论