基于交互式注释及其应用的多层视频对象数据库.doc_第1页
基于交互式注释及其应用的多层视频对象数据库.doc_第2页
基于交互式注释及其应用的多层视频对象数据库.doc_第3页
基于交互式注释及其应用的多层视频对象数据库.doc_第4页
基于交互式注释及其应用的多层视频对象数据库.doc_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于交互式注释及其应用的多层视频对象数据库摘要:随着应用程序中视频内容的广泛使用,对于表现系统,能够轻易有效地处理视频文件是最关键性的。在这篇论文中,笔者提出一种能够充实视频内容的方式,还有应用于未来交互式TV服务的应用程序(ADTV)。1.介绍:由于有大量的视频内容都能通过卫星电视、有线电视、互联网获得,以多媒体的方式获得视频变的更加流行,特别是无线视频编辑系统和PC上的录影机(如VCR)。当使用这些应用的时候,我们知道,未经加工的视频数据是非常宏大的,他们不过是没有上下文信息或者是索引。结果,人们在取其所需的时候经历了不少困难。在以后的TV节目中,每个框架上的附加信息都会被赋予EPG(电子节目菜单)。利用这些信息建立数据库是正常的,然而这些信息对于一个视频数据库来说通常是不够的。未来广播节目的大环境里,未被编辑加工的实时视频会比以往有更广泛的分布。呈现从这些实时视频中获取的附加信息,这仍将是个难题。本文描述了我们致力于视频框架中对象(下文称“对象”)的研究。对象是独立于视频流的一系列区域,这是因为他们的时空特征很相似。直到今天,在自动对象程序分段方法上取得一定成果还是一项极具挑战性的任务,故该方法还不是很成熟。然而其中一些对象是可以分割的,进而以恰当的精确度跟踪。新建立的MPEG-4标准提出了一种新的基于对象的框架,从而使多媒体表现更加高效。对于一些更有效的表现,构建一些基于对象的视频数据库是很必要的。但这么做并不容易,因为对象的自动索引通常都不是完整的。因此,我们提出了建立一个非全自动化的视频数据库,它应该是交互式的,例如人们可以给它注释。本文来探讨实际视频资源对象中的自动构建方法。进而我们描述怎样构建上文提出的交互式系统的原型,用它来展示在该系统上,用户如何交互式地参与广播节目、如何获取图像及其他信息。2.视频对象数据库一般来讲,视频资源来源包括一系列的实际的视频剪辑,也就是连续镜头,和理论上的视频的片段,也就是镜头。视频数据是根据连续镜头分析的,在分解和对视频数据分类这个方面上已经做了很多努力。 连续镜头是由一连串的框架组成的。这些框架包括一系列地区,也就是视频对象。图1显示了一些物理特点和说明的不同分级, 不同等级的不同数据根应用程序的类型而运用。例如,一些程序的制作系统运用在对象级的数据,一些编辑系统必须要运用片段级的例如切分点的数据。 , 在我们的项目中,我们的重点研究那些在视频框架中具有时空连续性结构的视频对象。在最新发布的MPEG-4 标准中提出了一高效图象, 这个图像可以可以实现“视频对象”,即语义对象的分割,并且还可以进行以电子信息为基础的对象搜索常规资源。此外,MPEG-7标准规定了视频对象的描绘接口程序。2.1视频对象设计 在本篇,我们将谈论的视频对象有如下三个数据特征以及各自的参数: Static: 颜色,密度,轮廓,优势 Dynamic: 位置,动力,变换,联系 Semantic: 描绘 然而,要想得到高度精确的数据是非常困难的,尤其是从普通的目标对象上,而不是特殊对象中。因此,我们认为,即使这种方法计算出的数据有错误,视频对象数据库也会把它们当作对象数据酌留,并且尽可能的做出恰当的改正。 我们提出在视频对象模型基础上建立视频对象数据库。该模型以Bounding Box、Motion Vector of centroid和Annotation描述。(如图2) 所有对象都有如下注释:V(oid)=(Bounding Box(t),Motion Vector(t), (1)Bounding Box=(x,y,width,height)其中:oid:系统标记的对象IDt:从启示到对象出现所用的时间另外,Bounding Box and Motion Vector有时通过图像处理方法来计算,注释基本由用户来描述,只有极少情况是由系统自动提供的。每个视频对象被如下描述:VO(oid)=(Vi(oid),Annotation i,j(oid)其中:i: 对象出现是发出的IDj: 每个对象所拥有的不同注释的ID2.2 提问/取回功能利用这种方法,我们利用动作和注释构建了一个视频对象数据库。该数据库使选择提问功能成为了可能。例如,用一个简单的功能去选择已显示对象的信息;这是交互式TV的一个最基本的功能。如果用户显示的位置Pi被定义为(xi,yi,zi),该系统就能利用Pi提供出相应的Bounding Box和oid,(虽然在一些情况下会损失相应的对象信息)。 以之前的经验,系统会提供一个最近的Bounding Volume或者作为框架回应的一些信息。 以最新的案例来看,用户可以在诸多作为回应的对象中选择所需。系统还实现了一些相似取回功能。如果用户显示Bounding Box区域,系统会从中提取图像特征,注释。下一步,对象可以通过注释从数据库被取回,也可利用图像进行相似取回。3.交互式视频系统在不久的将来,数字电视会提供关于不同节目和框架上视频的附加信息。另一方面,散步于互联网的视频数据流会有关于其他一些SMIL使用内容的信息和链接。如果提供视频的附加体,我们会构建一个比当前更先进的视频数据库,通过它,观众可以选择或取回信息。如果视频信息不是诸多信息提供商提供的,那么必要信息的短缺会成为观众选择/取回问题上的瓶颈。 那么,一个重要的原理就是:不仅信息提供商,还有广大用户都能分散他们的信息。3.1 高级数据库电视 (Advanced Database TV ADTV)我们提出了一个交互式视频系统,叫做ADTV。该系统具有提供如实时提问、排序、为观众提供内容信息描述等性能。在之前的一篇论文中,我们以在汽车中拍摄到的建筑物作为视频资源。视频索引是基于数字地图和时空结构指定的。本文中,我们讲述了该系统的发展。相关服务功能有:从用户和提供商方面选择视频对象的注释;向用户发送结果;发布基本注释和索引(用于客户端交互)。每个客户端都能显示从服务器接收的信息并能对操作对象提问。这类视频对象信息储存在数据库系统里。3.2 数据库使用协议用户可以分享广播节目视频资源,但必须是在当前的广播系统中,视频数据不能共享。图3显示了ADTV的架构。 信息服务器为对象在所有框 架中提供索引,这些框架有例如颜色、区域位置、动作和注释方面的特性。 我们根据这些索引建立了视频对象数据库。在每个客户端的提问过程中,用户想要显示关于他要求的信息的对象。一些命令被发送到信息服务器,服务器按照描述进行加工,然后将结果发回到提问的客户端。服务器分配信息或者数据库的一部分信息给客户端,以此作为对其他一些需求的相应。最后,所有的客户端均可以将结果呈现给用户。目前我们介于客户端和服务器之间,我们仍使用原始的协议。我想用基于XML的描述例如协议中的SMIL,因为这对于客户端来说,显示和加工是轻而易举的。 这样,需要一个提问的语法分析和描述生成的服务器来从语法上分析需求,转换成数据库能接受的提问,然后为客户端期待的结果产生一个描述。3.3 实际视频对象的数据库上文所述,我们计划应用特征抽取、跟踪、描述的概念于视频对象数据库。我们讨论了一个关于实际视频资源对象数据库构建方法。众所周知几乎所有的实际视频对象都有3D结构。换言之,如果准备了特殊的适合目标对象的模型,那么在时空连续情况下的跟踪是非常有效的。在此过程中,运动跟踪是自动进行的。另一方面,从所给信息中,空间和自动地呈现邻近的视频对象是很困难的。然而如果有显而易见的序列模型,他们能利用模型空间和自动地实现。我们已经研究出一个原型系统,它像拍摄移动的汽车一样处理视频序列。我想时空呈现的方法同样适用于日常运动的视频。图4展现了根据拍摄操作不同划分的3种情况,看似光学抖动的动作补偿矢量在以上每种情况下都很明显。可以利用特征矢量高速且准确地从视频资源中提取视频对象。 3.4 原型系统的实现综上所述,我们已经实现了一个有基本功能的原型系统,“为视频对象标注释”,“基于相似取回的视频标注”。(在户外,我们想把汽车当作一个典型的视频对象,框架里的汽车和建筑被看作是嘈杂的) 这样,目标就变成了一些WRC视频序列。一些视频在某种意义上是通过同类的相机录制的,因此被拍摄的不同汽车他们拥有类似的框架。图5的上半部分展示了一个汽车的视频框架,称为“LANCIA DETLA”。例如,如果视频对象数据库里有“一个汽车”名字叫“注释和容量界限”,我们可以从框架上获取所显示的汽车上的信息,在另一个框架上应用相似取回,也是相同的步骤。4总结文提出了一个应用于交互视频系统的视频对象数据库,高级数据库电视(ADTV)。我们把视频对象定义为(Bounding Volume带有注释的ing Box 和Motion Vector)。进一步的,一些关于提问/取回的基本功能在视频对象数据库中被广泛定义。然而ADTV扔存在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论