（计算机应用技术专业论文）基于内容的视频数据库构造方法的研究.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：61 大小：2.07MB 积分：0 举报 版权申诉

已阅读5页，还剩56页未读，继续免费阅读

（计算机应用技术专业论文）基于内容的视频数据库构造方法的研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

长奋工业大学母! l 。学位论文摘要随着多媒体技术和w c b 技术的发展，包括图像、音频、视频等信息的多媒体数据大量涌现，而如何有效地按照多媒体数据的特性去存取这些数据便成为多媒体技术研究中的热点问题，如在i n t e m e t 的w w w 应用、c a d 、计算机支持的合作工作( c s c w ， c o m p u t e rs u p p o r t e dc o o p e r a t i o nw o r k ) 等应用中，多媒体数据的存储、查询、提取等工作所占的比重越来越大，对大量的多媒体数据进行全方位管理的需求愈来愈迫切。而基于内容的视频数据库( c b v d b ，c o n t e n t b a s e d v i d e o d a t a b a s e ) 正是这一发展趋势的一个方向，因此，本文对基于内容的视频数据库的构造方法进行了研究，主要涉及两部分内容：基于内容的视频检索( c b v r ，c o n t e n t b a s e d v i d e o r e t r i e v a l ) 和基于内容的视频数据库c b v d b 的构造。对于基于内容的视频检索，专门从事多媒体音、视频压缩技术标准制定的国际组织m p e g ( m o v i n gp i c t u r ee x p e r tg r o u p 运动图像专家组) 提供的m p e g7 标准平台，使这一研究领域有了规范的标准，并取得突破性成绩。对于基于内容的视频数据库，本文将其分作两类，一类是关系数据库模型在构造视频数据库上的实际应用，另一类是面向对象数据库的思想和前景。对于前者，提出了传统意义上的数据模型在视频数据库上的应用，并对其有所改进；而对于后者，作者则认为其是数据库技术下一个时代的开始，因为随着视频数据库的广泛应用，海量数据的存储和检索都会在目前关系型数据库上遇到前所未有的困难，所以新的数据库模式必将在未来几年内取代关系数据库模型的主导地位。两种不同视频数据库构造方法的出发点是一致的，即充分利用c b t 技术实现c b v d b 的存储和检索。关键词：基于内容的视频检索，视频数据库，视频数据库管理系统，关系数据库模型，面向对象数据库模型。 k 备t 业人学硕卜学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fm u l t i m e d i at e c h n i q u ea n dw e bt e c h n i q u e ，ag r e a tn u m b e ro f m u l t i m e d i ai n f o r m a t i o nh a v ec o m i n gf o r t h ，i n c l u d i n gi m a g e ，a u d i o ，v i d e oa n ds oo n f o rt h i s r e o n ，h o wt oi n s e r ta n ds e l e c tm u l t i m e d i ad a t ai no r d e rt ot h e i rc h a r a c t e ri sb e c o m i n gah o t p r o b l e m i ti sm o r ea n dm o r eu r g e n tt h a tw em a n a g et h e s em u l t i m e d i ad a t aa l l o r i e n t e d ，s u c h a st h e s em u l t i m e d i ad a t a si n s e r t ，s e l e c t ，u p d a t ei nt h ea p p l i c a t i o no fw w wi ni n t e r a c t ， c a da n dc o m p u t e rs u p p o r t e dc o o p e r a t i o nw o r k c o n t e n tb a s e d v i d e od a t a b a s e ( c b v d b ) i saw a yo f t h i sd e v e l o p i n gd i r e c t i o n s o t h e c o n s t r u c t e dm e t h o do f v i d e od a t a b a s eb a s e do nt h ec o n t e n ti sr e s e a r c h e di nt h i sp a p e r b o t h t h ec o n t e n tb a s e dv i d e or e t r i e v a la n dc o n t e n tb a s e dv i d e od a t a b a s e sc o n s t r u c t i o na r eo u r r e s e a r c ho b j e c t s f o rt h ef o r m e r ，m p e g ( m o v i n gp i c t u r ee x p e r tg r o u p ) i sa ni n t e r n a t i o n a l g r o u pe x p e r ti nt h ed e f i n i t i o no f m u l t i m e d i aa u d i oa n dv i d e oc o m p r e s s i o nt e c h n o l o g y a n d m p e gw h i c hp r o v i d e dt h em p e g 7s t a n d a r dp l a t f o r mm a d et h en o r m a t i v es t a n d a r d so f t h i s f i e l do f s t u d ya n da c h i e v e dab r e a k t h r o u g h + f o rt h ec o n t e n tb a s e dv i d e od a t a b a s e ，t h i sp a p e rw i l lb ed i v i d e di n t ot w oc a t e g o r i e s o n ei st h er e l a t i o n a ld a t a b a s em o d e li nt h ep r a c t i c a la p p l i c a t i o no fv i d e od a t a b a s e c o n s t r u c t i o n t h eo t h e ri st h ei d e ao fo b j e c t - o r i e n t e dd a t a b a s ea n dp r o s p e c t s t h ef o r m e ri s t h ev i d e od a t am o d e ld a m b a s ea p p l i c a t i o n si nt h et r a d i t i o n a ls e n s e ，a n di t si m p r o v e m e n t i n r e g a r dt ot h el a t t e r , t h ea u t h o rb e l i e v e si ti st h eb e g i n n i n go fa ne r aw h e nt h en e x td a t a b a s e t e c h n o l o g y v i d e od a t a b a s ea l o n gw i t l lt h e e x t e n s i v ea p p l i c a t i o n ，m a s s i v es t o r a g ea n d r e t r i e v a lo fd a t ai nt h ec u r r e n tr e l a t i o n a ld a t a b a s ew i l lb ee n c o u n t e r e du n p r e c e d e n t e d d i f f i c u l t i e s t h e r e f o r e an e wd a t a b a s em o d e li 1 1t h en e x tf e wy e a r sw i l lr e p l a c et h er e l a t i o n a l d a t a b a s em o d e lo fd o m i n a n tp o s i t i o n i ti st h es a m ev i d e od a t a b a s ec o n s t r u c t i o no ft w o d i f f e r e n ts t a r t i n gp o i n t s 1 1 1 ec b v rt e c h n o l o g y sf u l la d v a n t a g ei sp r o v i n gc b v d b s s t o r a g ea n dr e t r i e v a l k e yw o r d s ：c o n t e n t b a s e dv i d e or e t r i e v a l d a t a b a s e m a n a g e m e n ts y s t e m ( v d b m s ) ， o b j e c t o r i e n t e dd a t a b a s em o d u l e ( o o d b m ) i i ( c b v r ) ，v i d e od a t a b a s e ( v d b ) ，v i d e o r e l a t i o nd a t a b a s e m o d u l e ( r d b m ) ， k 奋t 业大学碗】学位论文原创性声明本人郑重声明：所呈交的学位论文，是本人在导师的指导下，独立进行研究工作所取得的成果。除文中已经注明引用的内容外，本论文不含任何其他个人或集体己经发表或撰写过的作品或成果。对本文的研究做出重要贡献的个人和集体，均己在文中以明确方式标明。本声明的法律结果由本人承担。论文作者签名：圪翅日期：幽7 年么月? 日 k 备t 业大学碱f j 学位论文 1 1 引言 1 1 1 发展历史简述第一章概论自从1 9 4 8 年提出视频数字化概念后，经历近4 0 多年的探索，在1 9 8 2 年国际无线电咨询委员会( c c 取) 第1 5 次全会上，为了便于国际间的节目交换，为消除数字设备之间的制式差别和为6 2 5 行电视系统与5 2 5 行电视系统之间兼容，确定以分量编码为基础，即以亮度分量y 、和两个色差分量r - y 、b y 为基础进行编码，作为电视演播室数字编码的国际标准c c i r 6 0 1 号建议。在1 9 8 3 年9 月召开的国际无线电咨询委员会( c c 瓜) 中期会议上，又作了三点补充： ( 1 ) 明确规定编码信号是经过1 r 预校正的y 、( r y ) 、( b y ) 信号； ( 2 ) 相应于量化级0 和2 5 5 的码字专用于同步，1 到2 5 4 的量化级用于视频信号； ( 3 ) 进一步明确了模拟与数字行的对应关系，并规定从数字有效行末尾至基准时间样点的间隔，对5 2 5 行、6 0 场秒制式来说为1 6 个样点，对6 2 5 行、5 0 场秒制式则为1 2 个样点。不论6 2 5 行5 0 场或5 2 5 行6 0 场，其数字有效行的亮度样点数都是7 2 0 ，色差信号的样点数均是3 6 0 ，这是为了便于制式转换。若亮度样点数被2 除，就得到色差信号的数据。 1 9 8 4 年国际电报电话咨询委员会的第1 5 研究组成立了一个专家组，专门研究电视电话的数字编码问题，当时的目标是推荐一个图像编码标准，其传输速率为m 3 8 4 k b s ( 千位秒) ，m = l ，2 ，3 ，4 ，5 。后来因为3 8 4 k b s 速率作为起始点偏高，广泛性受限制，另外跨度也太大，灵活性受影响，所以改为p 6 4 k b s ，p = l ，2 ，3 ，“3 0 。最后又把p 扩展到3 2 ，因为3 2 6 4 k b s ：2 0 8 4 k b s ，等于2 m b s ，实际上已超过了窄带 i s d n 的最高速率1 9 2 0 k b s ，最高速率也称通道容量。 1 9 9 0 年1 2 月完成和批准了c c i t t 推荐书h 2 6 1 。所以数字电视电话会议普遍采用该标准。 1 9 9 8 年，随着数字音频和数字视频技术的广泛应用，i s o 的活动图像专家组 ( m p e g ) 在1 9 9 1 年1 1 月提出了i s 0 m c l l l 7 2 标准的建议草案，通称m p e g 1 标准。该标准于1 9 9 2 年1 1 月通过，1 9 9 3 年8 月公布。在m p e g 1 标准中的一帧图像的概念不同于电视中帧的概念。此外，m p e g 1 标准还提供了随机存储的功能。m p e g - 1 标准采用了一系列技术以获得高压缩比，第一，对色差信号进行亚采样，减少数据量；第二，采用运动补偿技术减少帧间冗余度；第三，做二维d c t 变换去除空间相关性；第四，对d c t 分量进行量化，舍去不重要的信息，将量化后d c t 分量按照频率重新排序；第五，将d c t 分量进行变字长编码；第六，对每数掘块的直流分量( d c ) 进行 k 存工业大学硕l 学位论文预测差分编码。 1 9 9 9 年公布的m p e g - 4 标准，支持7 个新的功能。并可戈0 分为3 类，即：基于内容的交互性、高压缩率和灵活多样的存取模式。 1 1 2 基于内容的交互性 1 基于内容的操作与比特流编辑支持无须编码就可进行基于内容的操作与比特流编辑。例如：使用者可在图像或比特流中选择一具体的对象( o b j e c t ) ( 例如图像中的某个人，某个建筑等等) ，随后改变它的某些特性。自然与合成数据混合编码，提供将自然视频图像同合成数据( 文本、图形) 有效结合的方式，同时支持交互性操作。 2 增强的时间域随机存取，m p e g - 4 将提供有效的随机存取方式，在有限的时间间隔内，可按帧或任意形状的对象，对语音、视频序列进行随机存取。例如以一序列中的某个音、视频对象为目标进行快进搜索。 1 1 3 高压缩率 1 提高编码效率，在与现有或正在形成的标准的可比拟速率上，m p e g - 4 标准将提供更好的主观视觉质量的图像。这一功能可望在迅速发展中的移动通信网中获得应用，但值得注意的是：提高编码效率不是m p e g - 4 的唯一的主要目标。 2 对多个并发数据流的编码，m p e g - 4 提供了对景物的有效多视角编码，加上多伴音声道编码及有效的视听同步。在立体视频应用方面，m p e g - 4 将利用对同一景物的多视点观察所造成的信息冗余，m p e g - 4 的这一功能在足够的观察视点条件下将有效地描述三维自然景物。 1 1 4 灵活多样的存取 1 错误易发环境中的抗错性( r o b u s t n e s s ) ，灵活多样是指允许采用各种有线和各种存储媒体。m p e g - 4 将提高抗错误能力( e r r o rr o b u s t n e s sc a p a b i l i t y ) ，尤其是在易发生严重错误的环境下的低比特应用中( 移动通信链路) 。m p e g 4 是第一个在其音、视频表示规范中考虑信邋特性的标准。目的不是取代已有通信网提供的错误控制技术，而是提供一种对抗残留错误的峰韧性。例如：选择性| ；向纠错( s e l e c t i v ef o r w a r de i t o r c o r r e c t i o n ) ，错误遏制( e r r o rc o n t a i n m e n t ) ，或错误掩盖( e r r o r c o n c e a l m e m ) 。 2 基于内容的尺度可变性( c o n t e n t - b a s e ds c a l a b i l i t y ) ，内容尺度可变性意味着给图像中的各个对象分配优先级。其中，比较重要的对象用较高的空问、时间分辨率表示。基于内容的尺度可变性是m p e g - 4 的核心，因为旦图像中所含对象的目录及相应的优先级确定后，其它的基于内容的功能就比较容易实现了。对其低比特率应用来说，尺度可变性是一个关键的因素，因为它提供了自适应可用资源的能力。例如，这个 2 k 春t 业大学珂! | 学位论文功能允许使用者规定：对具有最高优先级的对象以可接受的质量显示，第二优先级的对象则以较低的质量显示，而其余内容( 对象) 则不予显示，可见，这种方式可最有效地利用有限的资源。 1 1 5 多媒体内容描述接口为解决对图像、声音信息的管理和搜索问题，i s o 的活动图像专家组在莳面工作的基础上，提出了以多媒体内容描述接口为核心的m p e g 一7 标准，它将扩展现有内容识别专用解决方案的有限的能力，特别是它还包括了更多的数据类型。即m p e g 7 将规定一个用于描述各种不同类型多媒体信息的描述符的标准集合。m p e g 7 还将对定义其他描述符及其结构( 描述方案) ，和他们之间的关系的方法进行标准化。这种描述 ( 也就是描述符和描述方案的组合) 将与内容本身关联起来，以便对用户感兴趣的素材进行快速高效的搜索。m p e g 。7 将标准化一种用来定义描述方案的语言，即描述定义语言( d d l ) 。带有与之相关的m p e g 7 数据的a v 素材，就可以被加上索引，并可进行检索。这些素材可能包括，静止图像、图形、3 d 模型、音频、语言、视频以及关于这些成份如何组成一个多媒体表述的信息。在这些通用数据类型中的特殊情况可能已包括面部表情和个人特征。因为描述性特征必须在应用环境中才有意义，所以他们会因用户范围的不同和应用领域的不同而有所区别。这就意味着，同样的素材，因为要和应用范围相匹配，可能会使用不同类型的特征来描述。我们来看一些例子，对于可视素材，较低的抽象级别可能会用一些如：形状、尺寸、纹理、颜色、运动( 抛射) 、位置等属性束描述；对音频内容而言，可能会采用调式、情绪、节奏、节奏变化、在声场中的位置等属性，而最高的抽象等级可能会给出关于语义的信息。当然，所有这些描述都会以高效方式进行编码，即能提高搜索的效率。同时，中间也可能存在过渡的抽象等级。抽象等级与提取特征的方式有关，许多低等级的特征可以用全自动的方式提取出来，而高等级的特征就需要更多的人工交互。 1 2 视频数据库技术动态 1 2 1 基于内容的视频检索( c b v r ) 随着多媒体技术和网络技术的飞速发展，视频在多个领域得到广泛地应用。对这些海量的而且包含大量非结构化信息的数据进行组织、表达、管理、查询和检索成为迫切的需求。因此基于内容的视频检索( c o n t e n t - b a s e dv i d e or e t r i e v a l ，c b t ) 成为近年来研究的热点。基于内容的视频检索系统如图1 2 1 所示。 3 长春t 业人学彤h 。学位论文图1 2 1基于内容的视频检索系统框图首先要进行视频结构分析，将视频序列分割为镜头，并在镜头内选择关键帧，这是实现一个高效的c b v r 系统的基础和关键。然后提取镜头的运动特征和关键帧中的视觉特征，作为一种检索机制存入视频数据库。最后根据用户提交的查询按照一定特征进行视频检索，将检索结果按相似性程度交给用户，当用户对查询结果不满意时可以优化查询结果，自动根据用户的意见灵活地优化检索结果。 ( 一) 基于内容的视频检索技术的特点基于内容的视频检索( c b v r ) 技术突破了传统的基于文本检索技术的局限性，融合了模式识别、计算机视觉、图像理解等技术，具有以下几个显著的特点： 1 传统的基于文本的图像检索主要是通过给图像赋予一组特征描述数据，用来描述图像数据的内容，将对图像本身检索转化为对特征数据的检索，根据字符匹配查找相应的图像。显然这个转换过程妨碍了有效的交互，难以满足用户各种各样的需求。对于标注者来说，要准确的对图像进行描述比较困难。而基于内容的图像检索技术则直接对图像的内容进行分析，并从中提取语义级的线索和特征，把检索过程与语义提取联系在一起，使得检索过程更加有效，适应性更强。 2 在基于文本的字符检索中，因为一字一码，故通常采用吻合( m a t c h ) 比对方式，以精确匹配为主。而在基于内容的检索中，由于相同内容的图像有不同的表现方式，例如同一场景下的图片有远景和近景之分，而且图像信息的内容一般比较丰富，互相关联性比较强，与特征数据之间一般难有简单的对应关系，因此通常采用相似 ( s i m i l a r ) 匹配方式，以获得类似的结果，与常规的数据库检索的精确匹配有所不同。 3 采用直观的可视化提问方式。基于内容的图像检索通常采用示例查询法，当用户不清楚检索提问要求，或不熟悉图像信息结构类型时，可以通过浏览选择例子或自己绘制图形作为查询条件，并可以通过浏览结果检验查询结果的好坏，从而做出必要的修正。 4 交互性强。由用户参与的检索过程，可以对检索方式不断改进，并反复提问。 4 k 备丁业大学硕十学位论文 5 可以满足多层次的检索要求。c b v r 系统通常包括了图像库、特征库和知识库，可以满足多方面的检索要求。 ( 二) 视频数据的结构描述视频( 包括描述它的元数据) 可从以下3 个方面进行索引： ( 1 ) 文献数据包括有关整个视频的信息( 例如标题、摘要、主题、类型等) 以及制作视频的个人信息( 例如制片人、导演、演员表等) 。传统的视频检索主要依靠这些元数据。这些数据往往需要手工输入。 ( 2 ) 结构数据视频数据从结构上自顶向下可分为电影、场景、镜头和帧( 如图 1 - 2 2 所示) 。帧图1 2 2 视频数据的结构帧是视频数据的最小单元，是一幅静止的画面。镜头是视频数据的基本单位，它是摄像头的一次连续的动作，只能拍摄相邻地点连续发生的事情。场景由内容相近的镜头组成，从不同的角度描述同一个事件。而电影则由许多场景组成j 叙述一个完整的故事。结构层中每一个视频层次的数据都可以用一定的属性加以描述。如：电影的属性：主要包括场景的个数和持续时间。场景的属性：如标题、持续时间、镜头数日、开始镜头、结束镜头等。镜头的属性：如持续时间、开始帧号、结束帧号、代表帧集合、特征空间等。帧的属性：帧有大量的属性。如直方图、轮廓图、d c 及a c 分量图等。 ( 3 ) 内容数据表示视频的语义内容，它包括音频数据、镜头内的一组代表帧或运动物体、由字幕得到的文木关键字以及从视频数据中提取的特征向量等。由于一个镜头只能拍摄相邻地点连续发生的事情，它的描述能力有限，所以大多数的视频都是由许多镜头通过编辑连接而成的。有的视频切换频繁，镜头的持续时间短，如电视新闻节日、故事片等。这些视频通过镜头的切换来反映不同地点或不同时间发生的事情。也有的视频切换较少，每个镜头的持续较长，例如体育节日的转播。而用于银行保安、交通监管的监控视频几乎没有镜头的切换，对于这些视频人们关心的主要是镜头内物体的运动。镜头的切换分为突变和渐变( a b r u p tc h a n g ea n dg r a d u a lc h a n g e ) 两类，突变是一个镜头直接转换为下一个镜头，中间没有时间上的延迟；渐变则是加入了一些空间或时 k 备丁业人学坝 + 学位论立间上的编辑效果，由前一个镜头慢慢地转换为下一个镜头。渐变的方式有很多种，而且不断有新的方式出现。常用的有淡入淡出( f a d ei n o u t ) ，慢转换( d i s s o l v e ) 和扫转换( w i p e ) 等几类。淡入是把画面逐渐加强，淡出是把画面慢慢减弱直至消失；慢转换是在上一个镜头画面逐渐减弱的同时，下一个镜头的画面逐渐加强；扫转换则是从画面的某一部分开始，上一个镜头逐渐地被下一个镜头代替。整个视频结构构造过程分以下三个步骤：从视频流中提取镜头、从镜头中选择关键帧和从视频流中构造场景或组。在下面的章节中，我们将共同探讨c b v r 的具体方法。 1 2 2 视频数据对数据库的影响视频数据形式多样、类型各异，它们对数据库的影响主要有以下几方面： ( 1 ) 数据量大且存储媒体之间的差异也很大。视频应用要求对分布在不同存储媒体上的大量数据进行数据库管理。一段数秒钟的视频可能需要几兆字节的存储空间，从而影响到数据库的组织和存储方法。另一方面，我们不能指望把所有的视频信息都保存在一台机器上，必须通过网络加以分发，这对数据库的数据存取同样构成挑战。 ( 2 ) 实时性要求。除了需要大量的存储容量，对能处理连续数据的视频数据库管理系统要求具有实时性能。 ( 3 ) 不同媒体之间的特性差异很大。媒体种类的增多增加了数据处理的复杂程度。系统中不仅有声音、文字、图形、图像、视频等不同种类的媒体，而且同种媒体也会有不同的存储格式。例如图像有1 6 色、2 5 6 色、1 6 位色和真彩色之分；有彩色和黑自图像之分；有b m p 、g i f 和j p g 格式之分等等。不同的格式、不同的类型需要不同的数据处理方法。这要求视频数据库管理系统能不断地扩充新的媒体类型及其相应的处理方法，这无疑增加了数据库在处理和管理这些媒体数据的复杂性。 ( 4 ) 视频改变了数据库的接口形式，而且也改变了数据库的操作形式，特别是数据库的查询机制和查询方法。由于视频数据的复合、分散和时序等特性，使得数据库的查询不可能只通过字符进行，而应通过基于媒体内容的语义查询。 ( 5 ) 处理长事务的能力。事务是数据库管理系统完成一项完整工作的逻辑单位，数据库管理系统保证一个事务要么被完整地完成，要么被彻底地取消。传统的数据库中事务一般都是较短小，在视频数据管理系统中也应尽可能采用短事务。但有些场合，特别是视频应用场合，短事务不能满足需要，如从视频库中取出并播放一部数字化电影，数据库应保证播放过程不中断，这就不得不处理长事务。 ( 6 ) 视频数据库管理还要考虑版本控制问题。在具体的应用中，常常会涉及到记录和处理某个处理对象的不同版本。版本包括两个概念。一是历史版本，同一处理对象在不同的时间有不同的内容；二是选择版本，同一处理对象有不同的表述。因此需 6 k 备工业大学砀! 卜学位论文要解决多版本的标识、存储、更新和查询等。视频数据库系统应提供很强的版本管理能力。由此可见，视频对数据库的影响涉及到数据库的用户接口、数据模型、体系结构、数据操纵以及应用等多个方面。 1 2 3 视频数据库主流技术美国n s f 、a r p a 和n a s a 资助的数字图书馆项目其主要研究目标：搜集、存储和组织数字信息的新技术，通过网络实现信息的搜索、检索和处理。例如，参加单位之一c m u 大学所承担的i n f o r m e d i a 项目允许用户访问、挖掘、检索海量的数字视频库，在其系统中集成语言、图像和自然语言理解技术。 i n f o r m e d i a 同等看待语音和视频信息的作用，采取多种智能处理技术，利用c n n 广播电视节目中的脚本信息( c l o s e d - c a p t i o n ) 构造文本索引，采用s p h i n xi i i 语音识别器将伴音转换为文本；使用视频分析模块提取人脸特征、叠加在屏幕上的文本、视频镜头边界等，然后将这些信息全部绑定形成最终索引结构，支持快速相似检索。 c a m b r i d g e 大学项目通过视频邮件检索( v i d e om a i lr e t r i e v a l v m r ) 和多媒体文档检索( m u l t i m e d i ad o c u m e n tr e t r i e v a l m d r ) 探讨一系列话音文档( s p o k e n d o c u m e n t s 一即将连续话音用语音识别器进行识别后所形成的文本文档，与完全人工翻译相比，话音文档存在识别错误) 检索技术。v r m 使用交互式开放词汇搜索技术，并结合说话人无关的声学模型，针对5 个小时话音消息，表现出非常好的消息检索能力，其性能达到完全人工翻译的7 5 左右。m d r 则研究针对大规模新闻广播语料的有效检索技术，它采用内含h m m 算法的大词汇语音识别系统。 i b m 的q b i c 和c u e v i d e o 项目q b i c 是第一个商用图像检索系统，其系统框架和关键技术对后来的图像检索研究具有深远影响。q b i c 支持以下检索功能：基于样本图像的查询、根据用户描绘的草图查询、根据用户从样本中选择的颜色或纹理进行查询等。c u e v i d e o 系统则由视频检索和浏览系统、多媒体信息自动索引系统组成，其目标是解决大规模视频数据库的生成、索引和使用等具有挑战性的问题。c u e v i d e o 主要是解决两个瓶颈问题：为海量视频数据库建立索引的代价很大；用户难以做到方便检索和浏览视频的内容。为了快速实现全自动的索引和建立超级链接，它组合视频和音频分析、语音识别、文本信息检索和人工智能等技术。 c o m p a q 的s p e e c h b o t 项目s p e e c h b o t 是一种用于音频和视频索引的通用工具，它可以处理海量语音识别和用户查询数据，从w c b 或内部网中获取音视频数据，使用大词汇连续语音识别系统处理音频数据。另外，如果音频数据所对应的脚本已经存在，那么就不必用语音识别模块，只需用音和词对齐模块即可，为每个词作时戳标记。索引系统将为每个词建立索引，并且将词和音频数据中的语音对应。长存丁业人学砸j 学位论文 1 3m p e g 技术标准 1 9 9 3 年公布了活动图像的编码压缩标准m p e g 一1 ；1 9 9 4 年发表了m p e g 2 标准， m p e g 2 标准向下兼容m p e g 1 ，向上兼容h d t v 的图像；1 9 9 9 年公布了m p e g - 4 标准；目前基于内容的多媒体内容描述接口标准m p e g 一7 正在得到学术界得广泛重视。视频领域数字化标准不断完善的过程，记载了视频数字化处理和检索技术的发展历史。随着w e b 技术的普及和信息技术的发展，以音频和视频为主的多媒体信息迅速成为信息交流与服务的主流，使视频数据库系统对社会各领域产生了越来越大的影响。信息量的飞速增长使得人们对视频信息检索工具和视频数据库系统的依赖日益加强。数字视频作为多媒体信息的一种，由于其具有文字信息所无法比拟的丰富内涵和强大的描述能力而为我们的生活带来了极大的便利。现在，越来越多的军用或民用设备能够为我们产生各种各样的视频来支持我们的工作和生活需要。然而，如果我们不能对这些视频信息进行有效的组织，就无法达到高效的浏览、研究与检索。本章首先对m p e g 7 进行了阐述，再对基于内容的视频数据库的构造中，涉及的基于内容的视频检索( c b v r ) 和视频数据库的概念和技术特点，做以简单的叙述。 1 3 1m p e g - 7 的术语为了更好地了解m p e g 7 ，下面介绍m p e g 7 中定义的一些概念。数据( d a t a ) 用m p e g 7 描述的视听资料，不考虑它们的存储、编码、显示、传输、媒介或技术。m p e g 7 数据的定义非常广泛，包含图形、静止图像、视频、影片、音乐、语音、声音、文本和其他相关的a v 媒体。特征( f e a m r e ) 数据的特性。特征本身不能比较，而要用有意义的特征表示 ( 描述符) 和它的实例( 描述值) 。如图像的颜色、语音的声调、音频的旋律等。描述符( d e s c r i p t o r ，d ) 特征的表示。它定义特征表示的句法和语义，可以赋予描述值。一个特征可能有多个描述符，如颜色特征可能的描述符有颜色直方图、频率分量的平均值、运动的场描述、标题文本等。描述符值( d e s c r i p t o r v a l u e ) 描述符的实例。描述符值与描述方案结合，形成描述。描述方案( d s ，d e s c r i p t i o ns c h e m e ) 说明其成员之间关系的结构和语义。成员可以是描述符和描述方案。描述方案和描述符的区别在于描述符仅包含基本的数据类型，不引用其他描述符或描述方案。例如，对于影片，时间结构化为场景和镜头，在场景级包括一些文本描述符，在镜头级包含颜色、运动和一些音频描述符。描述( d e s c r i p t i o n ) 一个描述由一个描述方案( 结构) 和一组描述值组成。编码的描述( c o d e d d e s c r i p t i o n ) 对已完成编码的描述，满足诸如压缩效率、差错恢复和随机存取的相关要求。 k 奋丁业犬学形! i 一学位论文描述定义语言( d d l ，d e s c r i p t i o nd e f i n i t i o nl a n g u a g e ) 一种允许产生新的描述方案和描述符，并允许扩展和修改现有的描述机制的语言。图1 - 3 1 示意给出了m p e g 7 的部件。m p e g 7 标准不包括描述特性的自动抽取，也不规定搜索引擎。m p e g 7 把自动抽取和搜索引擎的机理及开发留给应用开发。图1 3 1m p e g 7 的部件为了更好地理解这些术语，请参看图1 3 也。图中解释了m p e g 一7 在实际系统中的位置。圆角框表示处理工具，矩形框表示静态元素，中部阴影部分包含m p e g 7 标准的规范元素( d d l 提供建立描述方案的机制，然后将描述方案作为基础，产生一个描述) 。注意，描述用文本表示就足够了，不必要二进制表示。图1 - 3 2m p e g 7 应用的一种抽象表示 ( 引自i s o i e cj t c l s c 2 9 w g l1n 4 0 3 1 ，2 0 0 1 7 ) 9 长春t 业j ：学坝i 学位论上 1 3 2m p e g - 7 范围和信息流 m p e g 7 是针对存储形式( 在线、脱机) 或流形式( 如i n t e m e t 上的广播、推送模型) 的应用而制定的，并且可以在实时和非实时环境中操作。此处的一个“实时环境” 意味着描述是在其内容采集资料时生成的。的边界图1 3 3m p e g 7 的范围图1 - 3 - 3 是m p e g 7 处理链的一种高度抽象示意图，用于解释m p e g 一7 的范围。它包括特征抽取( 分析) 、描述本身和搜索引擎( 应用) 。图1 3 - 4 则简要地说明了 m p e g 7 的信息流。为了全面开发m p e g 7 描述的潜力，自动的特征( 或是描述符) 抽取将是极其有用的。但是很清楚，自动抽取并不总是可能的，抽象层次越高，自动抽取的难度就越大，这时可以采用交互抽取工具。但不管它们多么有用，无论是自动的或半自动的，都不包括在标准范围之内。主要原因是不需要对它们标准化以建立互操作性，而是留有竞争的余地。另一个原因是在技术领域允许采纳更好的改进方案。搜索引擎也不包含在m p e g 7 范围之内，竞争将产生最好的结果。图1 3 - 4m p e g 7 信息流 m p e g 一7 像其他m p e g 家族成员一样，是满足特定需求的视听信息的标准表示。 m p e g 7 建立在其他标准表示的基础之上，例如p c m 、m p e g - 1 、m p e g 2 和m p e g - 4 。 1 0 k 眷t 业人学形! l 一学位论史因此，m p e g 7 会引用部分现有标准，如在m p e g - 4 中的形状描述符也可以用于 m p e g 7 。类似地，也可以利用在m p e g 1 和m p e g 一2 中的运动矢量。但m p e g 7 描述符将不依赖于被描述内容的编码和存储方式。可以把m p e g 一7 的描述附加到模拟电影上去，或与印在纸上的图片相关。即使m p e g 7 描述不依赖于资料的编码表示，但是在某种程度上，该标准建立在m p e g - 4 之上。m p e g - 4 提供对视听资料以对象方式编码的方法，这些对象具有一定的时间( 同步) 和空间( 空间位置和三维感受) 关系。利用m p e g 4 编码，将有可能把描述附加到场景中的元素( 对象) 上。 m p e g 7 可以独立于其他m p e g 标准使用，在m p e g - 4 中定义的表示方式也非常适合m p e g 7 标准的建立。 m p e g 7 强调的是提供新的视听内容描述方案。因此，文本不是m p e g 7 的描述目标，但视听内容可以包含或引用文本。m p e g 7 支持现有的其他标准组织开发的一些文本处理标准。 1 3 3m p e g - 7 系统 m p e g 7 系统部分现在定义了终端体系结构和标准化的接口。 ( 一) 终端体系结构 m p e g 7 标准中规定的信息表示提供了表示编码的多媒体内容描述信息的方法。使用多媒体内容的m p e g 7 编码表示的实体称为m p e g 7 终端。一个m p e g 7 终端可以对应于一个独立的应用，或一个应用系统的一部分。图1 3 5 绘出了m p e g 7 终端的体系结构。 k 奋- = 业九学碗学位论文图i ，3 5m p e g 一7 终端体系结构 m p e g 一7 终端体系结构分成四层：传输存储介质层( t r a n s m i s s i o n s t o r a g em e d i u m l a y e r ) ，递交层( d e l i v e r yl a y e r ) ，压缩层( c o m p r e s s i o nl a y e r ) ，应用层( a p p l i c a t i o n l a y e r ) 。 ( 1 ) 传输存储介质层传输存储介质层指递交基础设施的较低的一些层次( 网络层和其下的层次，以及存储) 。这些层向递交层递交复用的流。可以用各种递交系统运输m p e g 7 数据。例如，可包括m p e g - 2 运输流，口流，或者m p e g - 4 ( m p 4 ) 文件或流。递交层包含的机制允许同步、组帧和多路复用m p e g 7 内容。m p e g - 7 内容可以独立递交，或与它们描述的内容一起递交。在特定系统上的m p e g 7 内容递交问题不属于标准规定的范围。不是所有的m p e g 7 流都需要向下流( 服务器到客户) 。m p e g 7 体系结构允许从终端运载数据回到传送器或服务器，例如作为查询或请求。 ( 2 ) 递交层递交层向压缩层提供m p e g 7 元素流。m p e g 7 元素流包含称为访问单元( a c c e s s u n i t ) 的连贯的单个可访问数据部分。一个访问单元是个最小的数据实体，定时信息可以加于其上。m p e g 7 元素流包含不同性质的信息：方案信息：这一信息定义该m p e g 7 描述的结构。描述信息：这一信息或者是该多媒体内容的完全描述，或者是该描述的分段。一个完整应用的递交层也可有能力在要求时提供多媒体内容数据。这样的递交机制不属于标准的范围。可使用现存的递交工具来实现此目的。依赖于应用的使用，m p e g 7 数据可以用纹理格式、二进制格式或这两种格式的混合格式表示。m p e g 7 在二进制格式和纹理格式之间定义了一个惟一的映射。可能实现二进制表示和纹理表示之间的双向无损映射。尽管如此，并不会都使用它，一些应用可能不想传输所有包含在纹理表示中的信息，并可能喜欢使用带宽更有效的二进制有损传输。 ( 3 ) 压缩层压缩层对访问单元( 无论是纹理格式编码或是二进制格式编码) 流进行句法分析，并且，内容描述被重构。m p e g 7 不强制要求将纹理表示的重构作为解码过程的一个中间步骤。m p e g 7 二进制流可以或者被b i m 分析器分析，变换成纹理格式，然后以纹理格式传输供以后重构处理：或者二进制流被b i m 分析器分析，然后以专有的格式传输供以后处理。 m p e g 一7 访问单元可作为封装大纲或描述信息的命令被进一步构造。命令提供该 m p e g 7 内容的动态方面。它们允许一个描述以单个大块递交，或分割成小的片段。它们允许对m p e g 7 内容的基本操作如更新一个描述符、删除描述的一部分或添加新 d d l 结构。压缩层的重构级通过执行这些命令更新描述信息和关联的大纲信息。】2 长奋1 二业j i 学碗1 | 学位论文 ( 二) 标准化的接口 m p e g 一7 定义了两种标准化的接口( 图1 3 6 ) 。下面对有关模块作简要解释。 c c 茸u n i t t e x t d f o r m t m i u 疵 b i w a r yf o e

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于内容的视频数据库构造方法的研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于内容的视频数据库构造方法的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档