(计算机应用技术专业论文)iptv中基于流媒体内容检索的原型研究.pdf_第1页
(计算机应用技术专业论文)iptv中基于流媒体内容检索的原型研究.pdf_第2页
(计算机应用技术专业论文)iptv中基于流媒体内容检索的原型研究.pdf_第3页
(计算机应用技术专业论文)iptv中基于流媒体内容检索的原型研究.pdf_第4页
(计算机应用技术专业论文)iptv中基于流媒体内容检索的原型研究.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

(计算机应用技术专业论文)iptv中基于流媒体内容检索的原型研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着多媒体技术的发展,视频信息的飞速增长,能够快速高效地访问海量的 视频信息,已成为信息时代人们迫切需要解决的问题。因而,视频检索系统应运 而生,但由于多媒体格式种类繁多,使得视频检索系统的通用性大大降低。为此, 活动图像专家组( m o v i n gp i c t u r ee x p o r t sg r o u p ) 推出了标准m p e g 7 ,为各类多媒 体信息提供一种标准化的描述,以实现对多媒体信息快速有效的检索。 目前,交互式网络电视i p t v 是一种利用流媒体技术通过宽带网络传输数字电 视信号给用户,并提供多种交互式服务的新兴应用系统。在p t v 系统中,当人们 点播电视时,不仅仅想知道电视节目的名字,而且希望能知道节目的大致情节, 或者对演员或风格有所选择,这时就需要用到基于内容的视频检索。所谓基于内 容检索,就是从媒体数据中提取出特定的信息线索,然后根据这些线索从数据库 存储的大量媒体中进行查找,检索出具有相似特征的媒体数据出来。 基于以上需求,本文分别对m p e g - 7 标准和基于内容的视频检索及其在i p t v 中的应用进行探索研究,在现有的m p e g 7 标准和传统视频检索模型的基础上, 提出了一个基于m p e g 7 的视频检索系统模型,并将其应用到i p t v 系统中。 本文首先结合m p e g - 7 标准与传统检索模型,建立了基于m p e g 7 标准的视 频检索模型,并运用综合特征技术,在模型中建立分层视频结构描述。然后在视 频检索的第一步镜头检测中,结合多种时域分割算法以及树形分类策略的优点, 构造了基于m p e g ,7 的分级时域分割结构,高效地检测出视频镜头的切变和突变。 最后,对已有的i p l v 系统进行改进,增加基于内容的视频检索系统,实现检索系 统部分功能。 本文构造的此种模型建立于国际标准m p e g 7 上,具有通用性,同时可以处 理多种媒体格式,且在检索性能上达到较高水平的准确率和查全率。 关键词:m p e g 一7 ,i p t v ,内容检索 a b s t r a c t a b s t r a c t w i t ht h ed e v e l o p m e n to fm u l t i m e d i at e c h n o l o g y , b u i l d i n gar e t r i e v a ls y s t e mw h i c h c a l lr e t r i e v eg r e a tc a p a c i t yv i d e oi n f o r m a t i o nf a s ta n de f f i c i e n t l yb e c o m e sa l li m m e d i a t e i s s u et or e s o l v ei ni n f o r m a t i o na g e s h o w e v e r ,b e c a u s eo ft h ev a r i o g sv a r i e t i e si n m u l t i m e d i af o r m a t , t h ev i d e or e t r i e v a ls y s t e ms t a n d a r d i z e df u n c t i o nd e p r e s s e s s ot h e m p e gh a sp r e s e n t e dan e ws t a n d a r dm p e g 一7f o rv a r i o u sm u l f i m e d i ai n f o r m a t i o n d e s c r i p t i o n st or e a l i z et h em u l t i m e d i ai n f o r m a t i o nr e t r i e v a lr a p i d l ya n de f f e c t i v e l y p r e s e n t l y ,an e wt e c h n o l o g y , t h ei n t e r n e tp r o t o c o lt e l e v i s i o n ( i p t v ) m a k e s u s eo f t h es t r e a m i n gm e d i at e c h n o l o g y , t r a n s m i t sd i g i t a lt vs i g n a lt ou s e r sb yw i d eb a n da n d s u p p l i e sm a n ya l t e r n a t i n gs e r v i c e s , h a sm o r ea t t e n t i o n s i ni ti n d u s t r y i nt h ei p t v s y s t e m ,w h e np e o p l ed e m a n dp r o g r a mo nt v , t h e yn e e dt ok n o wn o to n l yt h ep r o g r a m n a m e ,b u ta l s ok n o wt h ea p p r o x i m a t es c e n a r i oo fp r o g r a m ,o rc h o o s et h ea c t o ro rs t y l e b yt h ef a v o ro ft h e m s e l v e s s oi t n e e d sc o n t e n t b a s e dv i d e or e t r i e v a l ,w h i c he x t r a c t s g i v e ni n f o r m a t i o nc l u ef r o mm e d i ad a t a ,t h e ns e a r c h e sf r o mt h em u l t i m e d i ad a t a b a s e a n da tl a s tr e t r i e v a ls i m i l a rf e a t u r em e d i ad a t a b a s e do na b o v er e q u i r e m e n t s ,t h i st h e s i sm a k e sm s e a r c ho nt h e mc o r r e s p o n d i n g l y , a n dt h e np r e s e n t sav i d e or e t r i e v a ls y s t e mm o d e lb a s e do nm p e g 一7w h i c ha p p l i e si n i p t vs y s t e m i ts e t su pa nm p e g - 7 一b a s e dv i d e od e s c r i p t i o nh i b e r a r c h y t h e ni nt h es y a e ms h o t d e t e c t i o n ,i ti n t e g r a t e sm a n yt e m p o r a ls e g m e n t a t i o na l g o r i t h m st od e t e c tt h es h o t a t l a s t ,i ti m p r o v e st h ei p t vs y s t e m ,a n da d d st h ec o n t e n t b a s e dv i d e o r e t r i e v a ls y s t e m t h em o d e lc o n s t r u c t e db yt h i st h e s i sb a s e do nm p e g 一7 ,h a ss t a n d a r d i z e d c a p a b i l i t y ,a tt h es a m et i m ec a l l d e a lw i t hd i f f e r e n tm e d i af o r m a t s a n di t ss e a r c h c a p a b i l i t yh a sr a t h e r1 1 3 曲l e v e li np r e c i s i o na n d r e c a l l k e y w o r d :m p e g - 7 ,i p t v ,c o n t e n t b a s e dr e t r i e v a l i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:世驻日期2 叫年f 月日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:塑坠驽 导师签名: 日期:庭一j 年f 月占日 第一章绪论 1 1 课题背景及意义 1 1 1 数字信息的飞速增长 第一章绪论 过去访问音视频是一件简单的事,原因资源有限,访问机制简单。但在数字 档案室、环球网、广播数据流、个人和专业数据库,可以得到的数字视听信息却 在迅猛增长,数量巨大。 在不久的将来,使用者将面对数量巨大的多媒体目录,尽管使用者多次访问 这些资源,但由于数目巨大,如何有效的识别和处理这些几乎数量无限信息将变 得更加困难。这对专业的和最终的用户都是样的。识别和处理目录的问题不仅 局限于数据库存取,如数字图书馆,而且延伸到广播通道的选择、多媒体编辑和 多媒体查询服务等领域。这些信息的价值依赖于如何容易的寻找、检索、访问、 过滤和处理。 随着近几年科技的发展,增加了许多创作、过滤、查询和处理数字多媒体信 息的新方法,视频检索系统应运而生。通过视频检索系统,人们可以快速有效的 查询到自己感兴趣的音视频资源。 1 1 2 传统视频检索的局限 传统的视频信息检索方案常常使用文字标识符,例如具体到对图像的查询是 借助对图像的编号,即标签来进行的。为实现检索,先给图像加上一个对其描述 的文字或数字标签,然后在索引时对标签进行检索。这样来对图像的查询变成 了基于标签的查询。这种方法虽然简单,但有几个根本的问题影响对视频信息的 有效使用。 首先,由于图像或视频内容丰富很难用文字标签完全表达,所以这种方法在 查询图像或视频中常会出现错误。其次,文字描述是一种特定的抽象,如果描述 的标准改变,则标签也得重新制作才能适合新查询的要求。换句话说,特定的标 签只适合特定的查询要求。 所以,传统方法不能完整地概括图像的视觉内容,因而在很多情况下不能满 电子科技大学硕士学位论文 足实用的要求。 要解决传统视频检索的局限性,需要全面地、一般性地和客观性地来提取视 频内容。由此,对视频信息的检索需要根据图像或视频所表达的内容来进行。基 于内容的检索方法应是获取和利用视觉信息的有效手段。 基于内容对视频信息的检索是一个挑战性的研究,目前还方兴未艾。基于内 容对视频信息的检索涉及许多领域,必须要考虑许多问题,包括从获取和表达原 始数据的方法,获取和表达原始数据中的信息,到通过对这些数据和信息的处理、 分析和理解以提供对内容的访问以及发送、显示和操作这些内容等。这里的每一 个步骤都受到数据种类、应用领域和用户( 信息代理) 的影响。 由于上述问题的存在,基于内容的视频信息检索的研究和应用还面临许多挑 战。例如,如何建立语义层次的描述使用户自然地与检索系统交互等。这都是 基于内容的视频信息检索所必须解决的问题。 1 1 3 基于内容视频检索原型研究的意义 基于内容的视频检索是一种新的检索技术,是对多媒体对象的内容及上f 文 语义环境进行检索,如对图像中的颜色、纹理,或视频中的场景、片断进行分析 和特征提取,并基于这些特征进行相似性匹配。 基于视频的内容检索是视频信息中的研究热点,其研究与国际标准m p e g 7 的 制订有密切的联系。 m p e g7 标准的各部分提供了对多种范围应用的支持( 例如,多媒体数字图书 馆、广播媒体选择、多媒体编辑、家庭娱乐服务、口t v 等) 。肝e g - 7 使查询多媒 体内容像今天查询文件一样容易。其可被用于内容的获取,可阻被公众访问,也 可使用户通过多媒体目录确定自己的购买目标。用于内容检索的信息可以被代理 商用来选择和过滤广播的材料或者个人的广告。而且,通过半自动的多媒体表示 和编辑,m p e g 一7 描述允许快速有效的使用潜在的信息。 所有主要使用多媒体的应用都可从视频检索中获益。下列使用多媒体的领域 都会用到视频检索:房地产和室内设计( 如查询楼盘户型等) ;数字图书馆( 如医 学图像目录、电影、录像等) ;电子商务( 个人广告,在线目录等) ;教育( 如多 媒体参考资料,内容查询等) ;家庭娱乐( 家庭数字电视,r p t v 视频查询等) ;研 究工作( 如人类面部特征的识别、鉴定) ;监测( 如交通管理、水陆运输、环境中 究工作( 如人类面部特征的识别、鉴定) ;监测( 如交通管理、水陆运输、环境中 的检测) 。 2 第一章绪论 目前已实现的原型系统主要有m m 研究中心研发的基于内容检索的q b i c 系 统以及美国哥伦比亚大学开发的v i s l l a js e e k 系统。另外还有许多类似的系统,但 是这些系统都没有遵照共同的标准,多是自成体系,不能有效的实现资源的共享 互用,针对这一目标,本文基于m p e g - 7 标准提出一个具体实现基于内容盼视频检 索模型,构造个统一的、标准的多媒体检索平台。 1 2 基于内容的视觉信息检索国内外发展现状 基于内容的视觉信息检索自i 0 多年前正式“冠名”以来,得到国内外信息领 域科技人员的广泛重视和研究。视频检索的研究己经有很长的历史。经过不断的 发展完善,现在的视频检索已经发展到很高的水平,能满足多层次的检索要求。 根据所检索媒体对象的不同,基于内容的视觉信息检索又可分为基于内容的 图像检索和基于内容的视频检索。 图像检索分为静态图像检索与动态视频检索两大类别。动态视频图像是由摄 像机拍摄的动态场景的画面,可用帧、镜头、场景来表示。视频除了具有一般静态 图像的特征外,还具有动态性,例如镜头运动的变化,运动目标的大小变化,视频目 标的运动轨迹等。视频中的代表帧就是一幅静态的图像,是组成视频的最小单位。 几乎所有静态图像检索中所使用的技术都可以用于动态图像的检索。所以静态图 像检索技术是动态图像检索技术的基础。 因此,了解基于内容的图像检索和视频检索发展现状极为重要。 i 2 1 基于内容的图像检索发展现状 2 0 世纪9 0 年代初,随着大规模数字图像库的出现,基于内容的图像检索 ( c o n t e n t b a s e di m a g er e t r i e v a l ,c b i r ) 应运而生。c b i r 技术能够自动提取 图像的色彩、纹理、形状、区域等视觉内容特征,以图像视觉特征或与图像相似 的革图、范例作为用户查询和系统检索的依据。c b i r 在需要自动化的场合取得了 大量应用,成为2 0 世纪9 0 年代图像检索技术研究的主流。 基于内容的图像检索方法“3 ,其主要愚想是根据图像所包含的颜色、纹理、形 状以及对象( 图像中子图像) 的空间关系等信息,建立图像的特征矢量作为其索 引。 常见的检索内容包括: 1 颜色:图像颜色的分布、相互关系、组成等。 电子科技大学硕士学位论文 2 纹理:图像的纹理结构、方向、组合及对称关系等。 3 形状:图像的轮廓组成、形状、大小等。 4 对象:图像中子对象的关系、数量、属性、旋转等。 目前有的图像检索系统有: 1 q b i c ( q u e r yb yi m a g ec o n t e n t ) 是i b m 研究中心开发的第一个商用基于内 容的图像及视频检索系统,针对大型图像数据库同时也支持w e b 检索。它提供了 对静止图像及视频信息基于内容的检索手段,其系统结构及所用技术对后来的视 频检索有深远的影响。q b i c 可以支持基于例子图像,用户自建的草图,所选颜色, 纹理模式等韵查询。i e 使用的颜色特征有平均( r ,g ,b ) ,( y ,i ,q ) ,( l ,a r b ) ,和m t m ( m a t h e m a t i c a lt r a n s f o r mt om u n s e l l ) 坐标,及k 元颜色直方图。纹 理特征用的是个t a m u r a 纹理描述的改进版本,也就是粗糙度,对比度和方向性 的结合。q b i c 是少数几个考虑到高维特征索引的系统之一。它的索引子系统中, 先采用k l t 降维,然后用r 树组织多维索引结构。在它的新系统中,结合了基于 文本的关键词检索和基于内容的相似性检索。 2 由m i t 的媒体实验室开发研制的p h o t o b o o k 系统,图像在存储时按人脸、 形状或纹理特性自动分类,图像根据类别通过显著语义特征压缩编码,给出了四 种应用领域的示范:纹理识别、形状识别、人脸识别和大脑形状识别。 3 v i s u a ls e e k 为视觉特征检索引擎,w e bs e e k 是面向w w w 的文本图像检 索引擎,二者都是由哥伦比亚大学开发的。其主要的特点是图像区域的空间关系 检索和从压缩域提取视觉特征。这两个系统采用的视觉特征是颜色集( c o l o rs e t ) 和基于小波变换的纹理特征。为了加快检索速度,他们还开发了二叉树索引算法。 v i s u a ls e e k 支持基于视觉特征及其空间关系的搜索。例如,用户可以通过这样 个草图来检索“日出”:项部区域为橙红,底部区域为蓝色或绿色。w e bs e e k 是面 向w e b 的检索工具,包括三个主要模块:图像视频收集模块、对象分类索引模 块、检索浏览和查找模块。它支持基于关键词和视觉内容的。 此外,目前不少搜索引擎也开始提供网络图像的检索服务。3 。如g o o g l e ,d i t t o , 百度等。c b i r 虽然在研究和应用上取得了一定成果,但由于目前只利用了图像本 身固有的物理信息,因此只在特定的应用领域,如指纹识别、商标检索等方面获 得成功。 l ,2 2 基于内容的视频检索发展现状 基于内容的视频信息检索是当前多媒体数据库发展的一个重要研究领域,它 通过对非结构化的视频数据进行结构化分析和处理,采用视频分割技术,将连续 4 第一章绪论 的视频流划分为具有特定语义的视频片段镜头,作为检索的基本单元,在此 基础上进行代表帧( r e p r e s e n t a t i v ef r a m e ) 的提取和动态特征的提取,形成描述 镜头的特征索引;依据镜头组织和特征索引,采用视频聚类等方法研究镜头之间 的关系,把内容相近的镜头组含起来,逐步缩小检索范围,直至查询到所需的视 频数据。其中,视频分割、代表帧和动态特征提取是基于内容的视频检索的关键 技术。目前相关的研究有: i m p e g 一7 是一种多媒体内容描述的标准,它定义了描述符、描述语言和描述 方案,对多媒体信息进行标准化的描述,实现快速有效的检索。 2 j j a c o b 基于内容的视频检索系统,可进行视频自动分段并从中抽取代表帧, 并可按彩色及纹理特征以代表帧描述基于内容的检索。 3 卡内基梅隆大学的i n f o r m e d i a 数字视频图书馆系统,结合语音识别、视 频分析和文本检索技术,支持2 0 0 0 小时的视频广播的检索,实现基于内容的查询 和检索。 视频检索系统的研究多年来也有很大的发展,有代表性的视频检索系统主要 有:面向对象的视频信息数据库、视频索引和检索原型系统、代数视频系统。 l 。面向对象的视频信息数据库 面向对象的视频信息数据库o v i d ( o b j e c t - o r i e n t e dv i d e oi n f o r m a d o nd a t a b a s e ) 是一个基于面向对象技术的视频数据库原型系统,它的核心概念是视频对象。 主要包括三部分: ( 1 ) 可视化的用户接口v i d e oc h a r t ; ( 2 ) 视频对象查询语言v i d e os o l ; ( 3 ) 定义视频对象的工具集。 缺点是需要人工确定属性值,人工参与较多。 2 视频索引和检索原型系统 主要结构如图卜1 ,其特点是以视频音频数据的数据库管理系统为核心。 电子科技大学硕士学位论文 图1 - 1 视频索引和检索原型系统 3 代数视频系统 用视频代数来描述视频数据结构的目的,是希望通过对基本视频数据流和它 的内容赋以逻辑表示,来提供一种有效的组织和管理视频数据的手段。视频代数 模型由视频表达式的分层结构组成,视频表达式具有高层语义描述。它同时包含 了视频的内容属性和语义结构。 代数视频系统( a v s - a l g e b r a i cv i d e os y s t e m ) 是一个基于视频代数模型的视频 数据库系统。 以3 个数据库为主体: ( 1 ) 非结构视频库( 存放采集来的原始视频素材) ( 2 ) 代数视频文件库( 存放半结构化的视频文件,每个文件存放在以文字表 达的一个视频结点上) ( 3 ) 索引库( 存放各视频结点的索引信息) 上述三种代表性系统,都是当前多媒体领域研究的热点。本文则是对其一的 视频索引和检索原型系统进行了研究探索。 1 2 3 从母e g 4 到m p e g 7 i s o i e c 的活动图像专家组( m p e g ) 在推出影响极大的 d p e g 一1 和m p e g 一2 标准之 后,立即开始了针对多媒体信息应用的压缩标准的研究,这就是已具雏形的m p e g 一4 和正在酝酿中的m p e g 一7 。 第一章绪论 m p e g 一4 将支持基于内容的检索作为其目标之一,但它的支持是有限的,主要 的支持体现在它的对象( o b j e e 0 概念的引入。该标准虽未最后定案( 从其时间表看, 目前正处于形成委员会内部草案的阶段) ,但从其公布的对提交的各种编码工具的 评测来看,推荐的视频编码工具将包括以下几大类:形状编码,纹理编码,运动 估计和空域分割。可见,基于内容的编码主要是围绕对象进行的,包括对象的分 割,对象的形状信息编码,纹理信息编码和运动信息编码,而从目前的分割技术 来看,这些对象不过是一些粗糙的区域或层面,仍是较低层的内容描述,并且没 有更高层的语义描述单元。 从基于内容检索的角度看,m p e g - 7 比m p e g 一4 更进了一步,它的主要目标就是 支持多媒体信息基于内容的检索。作为船e g 家族中新的一员,m p e g 一7 被称作是“多 媒体内容描述接口”,它主要对各种类型的多媒体信息确定一个标准的描述,这些 描述将和媒体内容一起,支持用户对媒体资料的快速和有效的查询。m p e g 一7 遵循 m p e g 系列标准的一贯做法,将不对如何获得这些描述进行方法上的规定,同时, 它也不对基于这种描述的检索引擎进行规定。 因此可知,m p e g 4 中对基于内容检索的支持有限,只形成了一些低层次的内 容描述。m p e g - - 7 值得重点研究,一方面,由于其不规定内容描述获取的方法,这 为研究基于内容的编码方法留下很大余地,包括对表征视频内容的数据结构的研 究也是很有意义的1 。 现在国内外对m p e g - 7 的研究主要还是集中于标准的进一步的完善。由于 m p e g - 7 标准提出的时间还不长,国际上的众多科研机构仍然对其进行完善研究, 充实m p e g 一7 标准的体系结构,力求满足更多的实际需求。国内的科研机构除了研 究完善标准外,清华大学部分组织在做d d l 语法分析器的研究( 即用于m p e g 一7 描述的x m l 模式的解析研究) 。但使用m p e g - 7 标准的实用研究还未见有所报道。 1 3 本人所做的工作 本文选择家庭娱乐中i p t v ( 交互式网络电视,即利用流媒体技术通过宽带网络 传输数字电视信号给用户) 的平台为背景,利用流媒体对基于内容的视频检索进行 研究,建立一个基于内容检索的流媒体检索模型。在本系统的研究、设计和实验 中,本人所做的工作为: 1 对m p e g - 7 国际标准以及基于内容的图像检索和视频检索技术进行深入研 究和剖析。 电子科技大学硕士学位论文 2 运用综合特征检索技术以及分层组织结构,结合m p e g - 7 标准建立一个基 于m p e g - - 7 标准的内容检索模型。 3 在视频镜头检测中建立基于m p e g 一7 的分级时域分割结构。 4 在i p t v 系统中,进行整个系统前期设计和预演,包括流服务控制和d i e m 编程实现。自行设计视频检索系统进行实验,具体实现对采集的图像进行 m p e g - 7 特征描述,并进行查询匹配。最后对实验结果进行性能测度分析。 1 4 论文结构 本文共七章,正文部分结构如图1 2 。 第一章绪论是全文的综述。在此章中介绍了基于内容视频检索原型研究的现 状及传统视频检索的局限,从而提出了本课题研究的背景和意义,并介绍了本人 在课题研究中所承担的责任和工作。 第二章基于内容的视频检索技术是对现阶段的基于内容的视频检索技术的介 绍,主要对基于内容的视频检索的基本工作框架,研究内容,特点及局限,以及 对本文起参考作用的基本技术的介绍。 第三章m p e 6 - 7 标准介绍是对当前的国际标准m p e g 一7 的目标,体系结构,描 述工具,描述定义语言以及系统工具进行介绍。 第四章基于m p e g - 7 标准的视频检索模型是本文系统的实施模型,首先介绍传 统视频检索模型,然后详细说明本文构建的模型以及与传统的区别,最后对系统 中的关键技术给予了详细的叙述。 第一章绪论 图卜2 论文结构 第五章视频镜头检测技术详细介绍了本文构造的基于m p e c , - 7 的分级时域分割 结构。 第六章i p t v 系统中的实验介绍了检索系统在1 p t v 中的应用设计及实验。其 中详细介绍了系统框架及功能,给出实验结果与分析,并针对下一步的研究工作 对系统进行评价和扩展分析。 电子科技大学硕士学位论文 第二章基于内容的视频检索技术 视频是一类重要的视觉信息源,它不仅包含静止图像所包含的内容,还包含 场景中目标运动的信息和客观世界随时间变化的信息。基于内容的视频信息访问 覆盖各种应用领域,并包括许多技术,比如收集数据,对数据结构化和进行处理, 在视频数据库中找寻信息,并发送和显示给用户等。 由于视频数据与其它数据在形式、结构、内涵等方面都不同,所以视频数据 库也有许多特点。与图像相比,视频的结构更为复杂、数据量也更大,因此对基 于内容的检索要求也更高。 基于内容的视频检索技术除了可借助一些对图像检索的技术外,还有不少与 对图像检索不同的地方。 尽管图像和视频各有特点,但对它们基于内容的检索都有比较一致的基本工 作框架,因为都要完成对视觉信息的处理、分析和理解。在这个基本工作框架下, 为完成检索任务还需要有一些功能模块。在每个功能模块里,需要采用一系列技 术来完成相应的任务。这些技术里,既包括基本的、对检索图像和视频都需要的 通用技术,也包括针对图像和视频的不同特点需要采用的以及考虑特殊应用所要 用到的特定技术。 本章首先介绍基于内容的视频检索基本工作框架和功能模块,然后介绍视频 检索研究内容,其次介绍视频检索技术。最后介绍基于内容检索的特点和局限。 2 1 视频检索基本工作框架 2 1 1 基于内容检索的系统结构 基于内容检索的系统结构一般可以分为两个部分:客户端和服务器端。服务器 端部分又可进一步划分为四块:多媒体数据库,对象分割与特征提取,内容描述以 及搜索引擎。如图2 - 1 所示。 第二章基于内容的视频检索技术 图2 1 基于内容检索的系统结构 假设客户端搜索请求为“辆蓝色的大型载货量汽车”。则搜索引擎搜索“蓝 色车”和“大型载货量”。内容描述即m p e g 一7 描述为:1 车,属性为蓝色:2 载 货量,属性为大型。 下面对其中的各个部分作简要的说明。 1 客户端 主要功能是提出检索要求并通过搜索引擎得到检索结果。为了能检索到所需 的多媒体信息,检索要求的表达非常重要。为此,要求在终端上为用户提供功能 强大的检索表达机制和丰富、灵活的检索方式,以提高检索的有效性。这一部分 涉及到人机交互、检索语言等研究领域。 2 多媒体数据库 核心是多媒体信息的组织与管理。 3 对象分割与特征提取 对象分割与特征提取是基于内容检索的关键技术之一,它涉及到信息的理解 问题。只有对多媒体数据库中的媒体信息进行正确的分割和完备的特征提取后, 才有可能对信息的内容进行描述。对于流媒体文件的对象分割与特征提取则包括 将视频流分割成静态图;提取图片中的物体;物体分配和识别( 依赖于物质的存 在,描述物体) ;音频处理等。 4 内容描述 主要功能是在对象分割和特征提取的基础上对内容进行描述。对内容的描述 要求尽可能的完备,并且要有层次。这主要是因为同样的特征在不同的应用场合, 对不同的人而言可能有不同的含义,如果内容描述不完备,就会减少多媒体信息 电子科技大学硕士学位论文 被检索到的途径。 从中可以看出,m p e g 一7 是建立在对象分割与特征提取之上的,着重研究存储 ( 在线存储或离线存储) 或数据流( 广播数据流或互联网数据流类型) 的应用。 它只对信息特征进行描述,得到信息的内容描述,它本身并不关心这些特征是如 何得到的。m p e g 一7 标准将涉及许多不同环境下的许多不同应用,这意味着它需要 提供一个灵活且可扩展的视听内容描述框架。因此,m p e g 一7 将不定义一个单一的 内容描述系统,而是为多媒体描述的不同步骤定义一系列的方法和工具,它将标 准化一个描述符集、一个描述方案集、一种描述定义语言以及对描述进行编码的 一种或多种方法。描述符( d e s c r i p t o r ) 是特征的一种表示,它定义了特征表示 的句法和语义。描述方案( d e s c r i p t o rs c h e m e ) 规定了描述符与描述符、描述符 与描述方案、或描述方案与描述方案之间相互关系的结构和语义。描述定义语言 ( d d l ) 是一种能生成新的描述方案( 也可能生成新的描述符) 的语言,它也能对 已有的描述方案进行扩充和修改。但目前还不清楚如何用d d l 生成新的描述符。 用m p e g 一7 标准定义的多媒体“素材”将是可索引和搜索的。这些“素材”包括静 止图像、图形、3 d 模型、音频、视频以及在多媒体演示中如何将上述各种“素材” 组合在一起的有关信息( 即“脚本”或称为“组合信息”) 。除此之外,人的面部 表情、性格特征也是m p e g 一7 的数据类型之一。由于m p e g 一7 的目标是标准化“多 媒体内容描述接口”,所以其重点放在视听内容上,这就是说m p e g 一7 的目标并不 是为文本媒体生成描述方案或描述符,但m p e g 一7 将利用已有的各种媒体描述语言, 如s g m l ( s t a n d a r d iz e dg e n e r a lm a r k u pl a n g u a g e ) 以及它的各种派生语言( 如 x m l e x t e n s i b l em a r k u pl a n g u a g e 等) ,因此将它们作为视听内容描述与文本内容 描述之间的接口是合理而且必要的。 由于同一内容的多媒体信息对不同的用户和不同的应用环境可能有不同的含 义,这就意味着同样的素材应根据不同的应用领域要求用不同的特征来描述。 m p e g 一7 要求描述尽可能地充分,并具有不同的级别,这样,用户从不同的角度都 能搜索到同一内容。 5 搜索引擎 主要功能是接受用户的搜索请求,计算出用户请求与多媒体信息内容的相似 程度,并根据相似度将检索结果从数据库中取出对应的多媒体信息送给用户。搜 索引擎的核心问题是如何提高搜索的速度而又不至于遗漏满足相似度要求的信 息。 虽然将基于内容检索的系统结构分为相对独立的五个主要部分,而事实上它 第二章基于内容的视频检索技术 们之问是相互联系的。比如,用户的搜索请求就和搜索引擎的设计有密切的关系, 它们之间需要很好的协调,才能既充分表达用户的搜索请求,又能快速进行信息 搜索。基于内容的检索系统通常由媒体库、特征库和知识库组成。媒体库包含多 媒体数据,如图像、视频、音频、文本等;特征库包含用户输入的客观特征和预 处理自动提取的内容特征;知识库包含领域知识和通用知识,其中的知识表达可 以更换,以适应不同领域的应用要求。利用这些库可满足多层次的检索要求。 2 - 1 2 基本工作框架和功能模块 视频检索的基本工作框架如图2 2 。 图2 - 2 基于内容的视频检索系统基本框图 下面对图2 2 中各个模块的主要功能给予概括解释。 1 查询模块 其主要功能是对用户提供多样的查询手段,以支持用户根据不同应用进行各 种类型的查询工作。换句话说,用户进行查询,先提出要求条件,这些要求条件 主要基于对图像内容的描述。例如用户可提出感兴趣目标的几何形状或所需要图 像的背景颜色等作为要求条件。 2 描述模块 其主要功能是将用户的查询要求转化为对图像内容的比较抽象的内部表达和 描述,即通过对图像的分析,从而以一定的、计算机可以方便表达的数据结构对 图像内容的描述。这个模块在图像数据库建库时也需要对每幅图像进行描述。 3 匹配模块 电子科技大学硕士学位论文 其主要功能是在图像库中搜索所需的图像内容。因为对被查询图像建立的表 达描述也已对图像数据库中的图像建立了,所以将对查询图的描述与图像数据库 中被查询图的描述进行内容匹配和比较就可以确定它们在内容上的一致性和相似 性。这个匹配的结果将给提取模块。 4 ,提取模块 其主要功能是根据匹配的结果在图像数据库中对感兴趣的图像定位,并在内 容匹配的基础上将对图像数据库中所有满足给定要求条件的图像自动地提取出来 以让用户使用。如果事先对图像数据库建立了索引,这样在提取时就可提高效率。 5 验证模块 其主要功能是帮助验证如上提取的图像是否满足用户要求。根据目前技术水 平和设备条件,在自动查询和提取的基础上用户还需要最后的验证结果的手段。 如果验证效果不满意,新一轮的查询可通过修改查询条件而重新开始。 实际中对每个模块都有许多具体技术可以采用。由于图像和视频各有特点, 所以对图像和视频检索所采用的技术也有所不同。 2 1 3 基本内容的视频处理过程 首先经过视频分析,将视频数据分割成各个镜头,以独立的镜头作为视频序 列的基本结构单元和检索单元,并对每个镜头进行运动分析( 主要针对摄像机运动 和物体运动) 。镜头分割主要是根据视频帧的物理特性来检测镜头间的边界,比如 采用颜色直方图作为特征,研究它随着时间的变化特性,用以确定镜头的边界。 镜头分割技术把一段视频分割为多个镜头,计算机可以基于镜头进行浏览。因此, 基于镜头的分类和检索对于视频库的管理和查询非常重要。 在镜头分割的基础上,基于运动分析,可以提取并跟踪镜头中的对象,同时 在每个镜头的内部抽取有效代表该镜头内容的关键帧,以便进一步进行特征提取, 这时对于关键帧的检索可以用静态图像检索的技术,主要是在提取视频的颜色、 纹理、形状等低层特征之后,依据这些特征和一定的检索算法来检索。由于关键 帧中往往只有低层次的图像特征,并没有语义分析的能力,因此还必须利用视频 中的文字或音频信息来获得高层的对象和语义信息。此外,视频特有的运动特性 也可以通过目标识别、运动跟踪等技术获取这样就可根据所提取的镜头、关键帧 和对象的视觉特征等进行索引,然后利用相似性测度进行视频检索和查询。 第二章基于内容的视频检索技术 2 2 基于内容的视频检索研究内容 2 2 1 镜头边界检测和关键帧选取 基于内容的视频检索的研究目前主要集中于镜头边界检测和关键帧选取,对 镜头内容的分析刚刚起步,镜头内容分析将是基于内容的视频检索的核心技术之 一口 1 镜头边界检测 镜头边界检测是将视频自动地分割为镜头,以作为基本的索引单元。它是实 现基于内容的视频检索的第一步。在一个镜头中摄像机可以有各种运动及变焦等 操作,但视频的内容不会有大的变化。当镜头切换时,视频数据将发生一系列的 变化。表现在颜色差异突然增大、对象形状的改变和运动的不连续性等各个方面。 镜头边界检测的目的就是寻找这些变化的规律。 镜头边界检测算法主要有直方图法、模板匹配法、基于边缘的方法和基于模 型的方法等四种。 直方图法使用像素亮度和色彩的统计值,不考虑像素的位置信息,抗噪声能 力较强,但有时会漏掉场景切换。模板匹配法严格地区分像素的位置,对噪声、 镜头和物体的运动非常敏感,容易导致错误的场景切换检测。基于边缘方法的基 本思想是在镜头发生切换时新边缘应远离旧边缘的位置,旧边缘消失的位置也应 远离新边缘的位置。 上述3 种方法都是通过计算帧间差进行镜头边界检测的。对于切变检测可取 得较好的效果,但对渐变检测则存在一定的困难。这些方法在很大程度上忽略了 渐变切换中帧间结构上的相关性。而基于模型的方法则是利用对镜头编辑的先验 知识,对各种镜头切换建立一定的数据模型进行镜头切换的检测。因此对镜头渐 变的检测能取得较好的效果。 本文将对镜头边界检测进行研究提出新的分层结构,综合对切变和对渐变的 检测,详细介绍见第五章。 2 镜头内容的表示 镜头内容的表示方法主要有关键帧法和图像拼接法两类。 ( 1 ) 关键帧表示法 关键帧( k e yf r a m e ) 是用于描述一个镜头的关键图像帧,反映一个镜头的主 要内容。关键帧抽取算法主要有三类:基于镜头的方法;基于内容分析方法;基 电子科技大学硕士学位论文 f 运动分析方法。 基于镜头的方法为每个镜头选取一个关键帧。如将每个镜头的第一帧选作关 键帧,该方法运算量小适用于内容活动性小或保持不变的镜头,但对于摄像机不 断运动的镜头抽取的关键帧无法有效地表达其主要内容。基于内容分析方法可克 服基于镜头方法存在的问题,该方法通过分析视频内容随时间变化的情况来选取 所需关键帧的数目,并按一定的规则为镜头抽取关键帧。基于运动分析方法则通 过对每帧光流的计算,寻找摄像机运动的局部最小点,将对应的帧选作关键帧。 当摄像机拍摄的时候,经常需要作各种方式的移动,以适应拍摄情节的需要。摄 像机在移动时会造成图像全局性的变化,这些变化反映在图像平面的运动向量分 布,也就是光流场( o r t i c a lf l o w ) 上。通过分析光流可以为镜头抽取关键帧。 除此之外,也可以通过分析视频图像序列的时空图表示关键帧。 ( 2 ) 图像拼接法 图像拼接法是镜头背景内容表示的方法,它通过图像拼接技术融合多幅图像 的背景信息生成全景图,结合运动目标提取技术,将每个镜头片段用一幅全景图 和一些重要的运动目标来表示。不但数据量小、包含信息多,同时还可以获取对 理解视频内容有重要作用的摄像机运动参数和目标运动轨迹等信息,具有较好的 应用前景。 ( 3 ) 视频高层语义表示 高层语义对视频浏览和检索有着重要的作用,视频的高层语义表示是基于内 容的视频检索的重要研究方向。场景转换图( s c e n et r a n s i t i o ng r a p h ,s t g ) 是高 层语义表示的一种重要方法。s t g 采用有向图的节点表示场景,用边表示时间上 的转换。通过对s t g 的化简可以去掉不重要的镜头。采用s t g 组织方式结合聚类 方法可将s t g 分割成故事单元,并可根据分割后的子图的不同特点分析出该场景是 对话场景还是动作场景,然后选取视频的重要片段获得视频摘要( v i d e os u r m n a r y ) 。 2 2 2 视频数据的结构模型 基于内容的视频检索的研究主要包括以下几个方面: 1 建立视频数据的结构模型 分析视频数据时首先要分析和建立视频数据的结构,而且这种分析是建立在 视频数据内容的基础上,而不是视频本身的数据结构。 ( 1 ) 视频数据的分割和分类 第二章基于内容的视频检索技术 视频数据按照由粗到细的顺序可划分为4 个层次结构:视频( v i d e o ) 、场景 ( s c e n e ) 、镜头( s h o t ) 和图像帧( f r a m e ) 。通常一段视频数据可以划分为几个场景 ( 也称作故事单元) ,每个场景又包含一个到多个镜头,镜头是视频的自然结构单 元。一个镜头是一系列连续记录的图像帧,用于表示一个时间段或相同地点连续 的动作,镜头由摄像机一次摄像的开始和结束所决定。一个视频场景结构是指一 连串语义相关的镜头,一般发生在相同的时间和地点,出现相同的人物或事件。 视频场景结构可用场景层次图( s c e n eh i e r a r c h yg r a p h ,s h g ) 和场景转换图( s c e n e t r a n s i t i o ng r a p h ,s t g ) 等描述。 从内容来看,视频数据最基本的单元是镜头( s h o t ) ,一个镜头代表一个事 件或一段连续的动作,它是摄像机在按下一次“记录”按钮到“停止”之间,所 记录下的内容。从一个镜头转换到另一个镜头时称为镜头切换( c a m e r ab r e a k 或 c u t ) 。镜头的切换有两种方式,一种是突变的( a b r u p t ) ,另一种是渐变的 ( g r a d u a l ) 。通常通过检测镜头切换的方法来从时间上把视频数据分割成最基本 的分析单元

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论