




已阅读5页,还剩70页未读, 继续免费阅读
(计算机软件与理论专业论文)基于内容的视频检索技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着电视台视频节目的积累,网上数字视频的增加,以及数字图书馆、 视频点播、远程教学等大量多媒体的应用,传统的基于关键字描述的视频 检索因为描述能力有限、主观性强、手工标注等原因,已经不能满足视频 检索的需求。因此,快速准确方便的基于内容的视频检索技术是当前研究 的热点。本文围绕这一领域做了以下几个方面的研究。 首先,本文研究了镜头转换的各种类型及其表现,分析了现有检测算 法的优劣,结合电视台对视频检索实时性的要求,提出了使用平均差分强 度算法检测淡出淡入和使用平均差分强度算法并结合亮度中值差算法检测 慢转换;对颜色直方图方法进行了改进,并用改进方法对突变进行了检测。 其次,本文从高层语义出发,对场景检测提出了一种与时间相关的镜 头相似度度量方法,然后在此度量方法的基础上建立了滑动窗口模型对视 频进行场景检测。 然后,本文将一种聚类方法( n f l :n e a r f e a t u r el i n e ) 用于视频的检索和 分类中,并且根据视频的特点,提出了改进的n f l 算法,并将视频特征提 取( 关键帧提取) 方法和n f l 统一考虑使得该方法更适合视频检索。 最后,结合电视台的实际情况,深入研究了视频的数据模型,设计并 实现了视频检索试验原型系统,为视频分析算法的测试提供了一个较为理 想的实验平台。 关键词视频检索:视频分析;镜头检测:镜头检索:场景检测 鎏生盔芏三兰堡主兰生笙兰 a b s t r a c t w i t ht h ea c c u m u l a t i o no fv i d e od a t ai nt h et e l e v i s i o ns l a t i o na n do nt h e i n t e r n e t ,a n dt h eh u g ea m o u n to fm u l t i m e d i aa p p l i c a t i o ni nt h ev i d e oo n d e m a n da n do nt h e d i g i t a ll i b r a r y , a n di n t h ed i s t a n c e e d u c m i o n ,e t c ,t h e t r a d i t i o n a lr e t r i e v a lm e t h o d sb a s e do nk e y w o r da n d d e s c r i p t i o n t e x tn o t c o m p e t e n tf o ri t s ot h ec o n v e n i e n ta n dq u i c kc o n t e n tb a s e dv i d e or e t r i e v a l t e c h n i q u e sa r e s t u d i e dh o t l yi n r e c e n t l yy e a r s i nt h i sp a p e rh a sd o n et h e f o l l o w i n gg r o u n d w o r k a r o u n dt h i sf i e l d : f i r s t l y ,i nt h i sp a p e r , a l lt y p e so fs h o td e t e c t i o na r es t u d i e d ,a n dp o i n t e d o u tt h em e r i ta n ds h o r t c o m i n go f d e t e c t i o n a l g o r i t h m s a c c o r d i n g t ot h er e q u e s t o fr e a lt i m ei nt e l e v i s i o ns t m i o n ,an e w m e t h o d ( a v e r a g ed i f f e r e n c ei n t e n s i t y ) i s p r o p o s e da n du s e di n s h o td e t e c t i o n a n a l y z e dt h em e r i ta n ds h o r t i n go f c o l o rh i s t o g r a m ,i tg i v e saw a yo fc u tc h a n g ed e t e c t i o nb a s e do nc o l o r - s p a c e h i s t o g r a m s e c o n d l y , as i m i l a rs h o tm e a s u r e m e n tb a s e do n t i m ei sp r o p o s e df o rs c e n e d e t e c t i o n a n dt h e nas l i d ew i n d o wm o d e li sd e v e l o p e df o rs c e n ed e t e c t i o n b a s e do nt h a tm e t h o d t h i r d l y , an e wc l u s t e r i n gm e t h o d ( n e a r e s tf e a t u r el i n e ) i su s e di nv i d e o r e t r i e v a l a n di m p r o v e dt h i sm e t h o db a s e do nv i d e oc h a r a c t e r t h ei m p r o v e d m e t h o dt h a tt a k e si n t oa c c o u n tt h ee x t r a c t i n gk e yf r a m ei sm o r ef i tf o rs h o t r e t r i e v a l a tl a s t ,a c c o r d i n gt ot h er e q u e s to ft e l e v i s i o ns t a t i o n , d e e p l ys t u d i e dt h e m o d e lo fv i d e od a t a a n dt h e nav i d e or e t r i e v a lt e s t i n gs y s t e mi sd e v i s e da n d i m p l e m e n t e d ,w h i c h i sa p e r f e c tt e s t i n ge n v i r o n m e n t f o rv i d e oa n a l y s i s k e y w o r d s v i d e or e t r i e v a l ;v i d e oa n a l y s i s ;s h o td e t e c t i o n ;s h o tr e t r i e v a l ; s c e n ed e r e c t i o n i i 第1 章绪论 1 1 视频检索的意义 第1 章绪论 随着电视台视频节目的积累,网上数字视频的增加,以及数字图书馆、 视频点播、远程教学等大量多媒体的应用,如何在海量视频( 例如p a l 制 的视频数据,如果不压缩,其数据率为2 0m b s ( 7 2 0 5 7 6 2 2 5 ) ,由此可 以计算出在某个压缩比情况下,一定素材量所需要的硬盘空间总和,如某 个系统的总的素材量为8 小时,在压缩比为4 :1 时,则总的硬盘空间需要 2 0 3 6 0 0 x 8 4 = 1 4 4 0 0 0m b ,即约1 4 4g b 。而一个电视台的素材、节目和资 源浩如烟海,并且在不断的增加) 中快速检索出所需要的资料显得至关重 要。传统的基于关键词描述的视频检索因为描述能力有限、主观性强、手 工标注等原因,已经不能满足海量视频检索的需求f 尤其不能满足电视台节 目的后期制作) 。因此快速的基于内容的视频检索技术就显的尤其重要。 在视频的研究过程中,先后产生了m p e g 1 ( $ 1 j 定于1 9 9 2 年,主要用 于v c d 等) 、m p e g 2 ( 制定于1 9 9 4 ,主要用于d v d 、h d t v 等) 、m p e g 4 ( 于 1 9 9 8 年t 1 月公布,主要用于网络电视) 等几个视频压缩标准,使得视频的 压缩和传输更加成熟有效。以及m p e g 7 ( 2 0 0 0 年1 0 月公布的第四版) 标准, 它并不是一种视频压缩标准,而是种多媒体内容的描述接口。只要加上 了这种标准化内容描述信息的多媒体数据,人们就可以方便快捷的对这些 大量的多媒体数据进行索引和检索。它要解决的问题就是日渐庞大的图像、 视频、声音等多媒体数据的管理和快速检索。 传统的视频检索方法主要借用了基于文本数据库的检索方法,即给视 频数据编号、加标签。具体来说,就是用手工的方法或者借助计算机等工 具给视频添加一些文字描述或数字标签。在需要检索时,通过查询标签或 者关键字来寻找所需要的视频信息。例如目前大多数商用多媒体数据数据 库,如视频点播v o d 系统。这种检索方法虽然简单,但显然有很多缺点。 首先由于视频所包含的内容十分丰富,很难用简单的几个文字来全面描述: 1 燕山火学工学硕士学位论文 其次,关键词一般采用人工方式编写,因而带有很大主观性。这样用传统 的视频检索方法检索的视频往往是整部电影或一个完藤的视频片断,而对 于更小视频单位的视频检索,如一个场景或镜头的检索,只能依靠传统的 快进、快退等手段才能确定信息所在的确切位置,因此常常把一些不必要 的视频传给用户,造成传输带宽的额外- 丌销。所以基于文字的检索方法不 是有效的视频检索方法。 为了能够从大量的视频数据中快速准确的找到所需要地视频片断,必 须找到新的方法来全面、客观的分析视频内容,所以有必要研究基于内容 的视频检索 卜”。目前基于内容的多媒体国际标准m p e g 4 、m p e g 一7 也已 制定完毕或正在完善,为研究基于内容的视频检索提供了基础。 1 2 视频内容分析 可以从语法的角度即视频的结构对视频大致的分析。视频的结构从顶 层向下如图l 一1 。 图1 - 1 视频层次结构 f i g 1 - 1t h e h i e r a c h i c a ls t r u c t u r eo f v i d e o 从图i - 1 可以看出,帧是视频最小的组成单元,镜头是视频的基本组 成单元,镜头就是摄像机一次连续拍摄的多帧组成,相似的镜头组成场景, 连续的场景组成故事单元,所有故事单元一起构成了整个视频。 从上图可以看出,镜头是视频的基本索引单元。以镜头为基本单元的 视频检索包括三个步骤:第一步,镜头分割,即不同镜头边界的检测;第 2 第1 章绪论 二步,代表帧的选取,即为每一个镜头选取能代表这个镜头主要内容的代 表帧,这些代表帧用于视频的检索;第三步,内容相近的多个镜头进行聚 类组成更高层次的场景或故事单元,这样将提高检索的速度和精度。 当然了,也可以从语义的角度即视频的含义对视频进行内容分析。视 频中出现的文字携带了很有用的有关视频内容的信息,例如商业广告中的 画面本身含有产品名称;视频中的声音也同样携带了很有用的有关视频的 内容:视频的风格类型也有利于视频内容的分析,例如可以按视频的风格 类型进行分类,这也是实现视频数据库归类管理和检索提取的有效方法, 另外一旦确定好视频的风格类型后,就能针对视频的内容进行相应的处理, 更好地实现基于内容的视频检索和管理。 1 3 基于内容的视频检索的研究现状 目前视频检索,更多的是在研究阶段。研究项目包括c a r n e g i e m e l l o n 大学的i n f o r m e d i a 数字视频图书馆项目、i b ma l m a d e n 研究中心研究开发 的q b i c 、美国堪萨斯大学的数字视频图书馆系统( d v l s ) 、微软研究中心 等。 c a r n e g i em e l l o n 大学的i n f o r m e d i a 数字图书馆项目由n s f ,d a r p a , n a s a 等资助,i n f o r m e d i a 项目致力于研究新的方法进行自动的视频和音 频的检索、浏览、检索和内容提取,并集成在一个系统中,用于教育、信 息和娱乐等行业。i n f o r m e d i a 项目发展智能、自动的视频内容分析机制以 普及数字视频图书馆的应用,在语音识别、图像认知、自然语言处理等领 域的研究为基于内容和知识的自动检索和内容提取提供了支持。i n f o r m e d i a 项目己经研究开发的项目包括i n f o r m e d i a 一1 ( n s f 资助的数字图书馆项目, 结合了语音识别、图书认知、自然语言处理等技术,实现视频的分割和索 引1 ,m u l t i l i n g u a li n f o r m e d i a ( 多语言i n f o r m e d i a 项目开发了自动的系统和工 具,用于实现多语言和多媒体信息的捕捉、检索、提取等) 。 i b m a l m a d e n 研究中心研究开发的q b i c ( q u e r yb yi m a g ec o n t e n t ) ,是 基于内容检索系统的典型代表。q b i c 系统允许使用例子图像、用户构建 的草图和图画、选择的颜色和纹理模式、镜头和目标运动和其他图形信息 3 燕山大学t 学硕士学位论文 等,对大型图像和视频数据库进行查询。 美国哥伦比亚大学开发的基于内容检索原型系统v i s u a l s e e k 图像查 询系统和w e b s e e k 图像及视频搜索引擎是。该系统的主要特点是用到了 图像区域的空间关系查询和直接从压缩数据中提取视觉特征。所用到的视 觉特征有颜色集、纹理特征的小波变换。为了加快检索过程,还开发了基 于二叉数的索引算法。 美国堪萨斯大学的数字视频图书馆系统( d v l s ) 的目标是存储、索引及 检索声视频信息并通过因特网及国家信息基础设施实现视频共享的技术, 己建立了一个称为v i s i o n 的原型系统及一个视频数据库,数据库中包含 了有1 0 0 0 多小时的由多个广播通讯公司提供的视频信息。 微软亚洲研究院的多媒体计算组研究如何以最有效、最直接的形式去 查询和得到最需要的信息,研究项目包括图像检索和数字影集。视频内容 分析和表征。图像检索和数字影集项目主要集中在图像上,研究新一代图 像检索技术,使用户能够快速、准确的从各种信息的互联网上检索到自己 所需的图像内容,能更有效率的管理大量的个人数字照片。目前,此项目 的研究重点集中于特征分析和提取、相似性、相关反馈和学习、自动关键 词标注等的图像检索技术。此项目研究的另一个重点是研究自动的从图像 中提取人名、地点、时间、事件等特征的新算法及利用这些特征来赋予用 户自动查询、检索和标注数字照片的能力。视频内容分析和表征项目重点 是探索更先进的数字视频技术,使用户最终能够方便的管理、检索、传输 和欣赏视频信息。其中,视频内容分析主要致力于将视频序列结构化,使 之便于检索和随机访问,视频内容表征技术致力于提取视频中的视听信息, 包括视频内容的分类、运动对象的分割、事件的检测、以及其它内容的理 解,并用一种便于进一步进行内容分析的形式来表示。 目前,视频检索在低级的语法分析上已经取得了很大的发展,低级的 语法分析包括镜头分割、代表帧选取、视频聚类等。镜头分割是分析视频 结构最基础也是最重要的一步,在过去几年已经出现了许多镜头检测方法, 常用的镜头检测方法是计算连续帧间的某个特征值的帧差,提出了许多用 于边界镜头检测的各种特征量。 4 第1 苹绪论 在视频检索方面在国内也属于一个研究的热点,像北邮、微软亚洲研 究院( 院长张宏江博士,视频检索领域的开山鼻祖) 等科研院所都投入很大 的财力和人力进行研究。从研究成果来看,可能是基于商业的目的,著名 的系统还没有出现( 因为整个视频检索研究领域还出于初级阶段) ,但是很 多企业的产品中已经包含有简单的基于内容视频检索的系统。 从以上国内外的研究现状和一些产品来看有一些问题还有待解决: ( 1 ) 算法有待改进。由于视频的数据量大,处理时间长,算法处理的速 度很重要。因此提高视频检索算法和特征提取算法就成了研究得方向之一。 ( 2 ) 阈值的选取。阈值选取不当会造成误检和漏检。有的视频变化缓慢, 应选取较小的阈值;反之则应选取较大的阈值。应不断试验,尽量达到均 衡,并综合利用人的知识进行人机交互式学习选取合适的阈值。以上所介 绍的各种方法多受阈值选取优劣的限制,如利用k 均值法的检测,可以减 少阈值选取的限制。 ( 3 ) 检索效果的评价尚没有标准。视频检索效果评价主要使用的是查全 率和查准率两个指标。用户在评价算法的时候,可以预先选定含有特定目标 的视频作为一组相关的视频,然后根据返回的结果计算查全率和查准率。 查全率和查准率越高,说明该检索算法的效果越好。 f 4 ) 视频的检索反馈。基于内容的视频检索系统中,最常用的检索方式 是例子视频查询,即用户提交一部视频,系统返回相似的一系列视频,但 怎样定义的两部视频是相似的,仍然是困难的问题,限制了检索系统的应 用范围。而且由于视频内容的复杂性,不同用户在检索过程中,即使对同 一部视频,其注重的角度也有可能不同,因此接受用户的反馈意见,当用 户对查询结果不满意时可以优化查询结果,突出用户的需要,仍需要进一 步深入研究。 ( 5 ) 视频多特征的综合检索方法。基于内容视频检索还要解决多种检索 手段相结合的问题,以提高检索的效率。对于单一特征检索手段,由于其 约束信息不足,在返回目标视频的同时往往会返回大量其他也满足此检索 要求的视频。采用多个检索手段相结合的方法无疑可提供更多的约束而使 得返回视频中目标视频的比率得到提高,但检索手段间的融合是所要解决 燕山大学工学硕士学位论文 的问题。m p e g 7 标准,其目标就是实现集高层语义特征和低层视觉特征 的基于内容的多特征综合检索,今后研究的热点之一将是高层的基于语义 内容的视频检索。 此外,应以认知科学的研究成果分析视频内容的特征。视频信息在人 脑中的长期记忆为心像,人对心像的记忆、检索等操作过程实际上是形象 思维过程,因此形象思维科学中关于心像的表征和计算模型将对基于内容 的视频检索提供一定的指导。今后研究的热点之一将是视频序列图像中人 的行为识别和分析。 1 4 课题的由来 广播电视主导舆论取向,是我国政府的重要职能部门。当前,随着各 个电视台数字化改造成功,需要发展互动电视和网络电视,但是,在数字 电视领域,欧美发达国家作为标准的制定者,垄断着核心技术,这些国家 已经把数字电视的研究与国家利益紧密的联系在一起。我国需要的先进软 件和设备根本无法向国外公司购买。 因此,为打破国外的技术垄断,保障我国广播电视事业的顺利发展, 我国进行广播电视技术的自主研发是迫切和必需的,基于此原因,碧玺国 际集团北京研发部对数字视音频信号采集、传输、播出、存储、管理、监 控、检索等环节的关键技术进行了研发。本论文作者承担了基于内容的视 频检索技术的研发课题,对视频检索的底层算法进行了深入研究,利用碧 玺集团强大的科研能力和先进完善的研发测试设备完成了对本课题的理论 研究及实验。 1 5 本文研究的主要内容 本论文第1 章介绍了视频检索的意义、国内外研究现状,并进行了视 频内容分析;第2 章详细介绍了各种类型镜头的数学模型和检测方法;第 3 章至第6 章按视频检索的各个阶段,依次介绍了作者课题研究的主要内 容,这些内容包括: ( 1 ) 在镜头检测阶段,本论文在讨论了当前镜头转换检测算法的基础 6 第1 蕈绪论 上,结合广播电视镜头检测实时性的需要,提出了平均差分强度检测算法, 并把该算法用于对淡出淡入和慢转换的检测中:对颜色直方图算法进行了 改进,并把改进的算法用对镜头突变的检测;最后给出了算法的实验数据。 ( 2 ) 在镜头检索阶段,把一种聚类方法( n f l ) 用于视频的检索和分类中, 分析了该算法的优缺点,提出了改进的n f l 算法,并把改进的算法与关键 帧提取相结合进行了实验。 ( 3 ) 在场景检测阶段,本文在综合考虑镜头视频特征和时间关系,提出 了一种时间相关的镜头相似度度量方法,然后在此度量方法上利用滑动窗 口模型对视频进行场景检测,并给出了实验数据。 ( 4 ) 最后结合电视台的实际情况,设计并实现了视频检索实验原型系 统,为以上算法的测试提供了实验平台。 7 燕山大学工学硕士学位论文 第2 章各种镜头转换检测方法的研究 2 1镜头转换边界检测的意义 从视频的制作过程可以了解视频的结构。在制作视频时,首先进行单 个镜头的拍摄,每个镜头是由摄像机一次连续拍摄下了的多个画面帧组成, 反映了一段连续发生的事件。然后,内容相近的多个镜头通过各种镜头编 辑方式( 即镜头转换方式) 衔接在一起,组成场景以及视频故事单元。从视 频的制作过程可以看出,镜头是组成视频的基本单元,也是对视频内容进 行深入分析的基础。所以从基于语法的角度对视频镜头内容分析时,首先 检测镜头的转换边界,即各个不同镜头的连接处,这样就可以将视频分割 为一个个的镜头:然后对每个镜头进行代表帧的提取并对内容相近的多个 镜头进行聚类,组成更高层次的场景以及视频故事单元。 在基于视频内容的视频检索中,为了测览或检索视频数据库,需要对 每个场景的开始点和结束点进行识别和索引。m p e g 7 的目的与作用就是 要为视频内容定义套标准的描述,利用这些视频内容的标准描述,可以 让我们能够快速有效的获取和了解所感兴趣的视频内容。这些有关视频内 容的标准描述也包括每个场景的开始点和结束点。但m p e g 一7 并未定义用 何种算法从视频中取得这些描述。 视频的镜头自动分割或场景自动分离不仅对视频内容的分析和基于视 频内容的视频检索很重要,对于改进视频的压缩技术也有作用。在视频的 场景转换处,如果发生的是突变,则由于突变的前一帧与后一帧内容相差 太大,难以用前一帧来有效的预测后一帧,基于预测的压缩编码算法都需 要将此帧作为一个帧内编码帧,因此有必要在压缩编码前获知场景的突变 转换位置。而如果在视频的场景转换处发生的是渐变,在用基于预测的压 缩编码算法编码后,如果码率较低,在解压缩还原后,图像会有严重的方 块效应出现,这是由于渐变导致预测时的运动估计不准确,造成很大的预 测误差。如果能够预先检测处渐变的区域范围,并采用非运动补偿和菲帧 8 第2 苹各种镜头转换检测方法的研究 间预测编码的其它方法进行压缩,就可以大大消除方块效应,这也是当前 视频压缩算法可以改进的一个方向。 在镜头转换边界的检测中,首先要从视频中选取合适的特征值,这些 特征值要能准确反映视频内容的变化程度,然后设定一个判断标准,通常 是设定一个闽值,当特征值超过阈值时,认为视频内容发生了足够大的变 化,也就是镜头发生了转换。 另外,镜头边界检测算法也可以按照视频流分为非压缩域陋卅或压缩域 方法【8 。而实际上,所有的镜头边界检测算法都可以同样的应用于非压缩 域和压缩域。它们只是在如何获取特征值( 如直方图、边缘信息、统计信息) 的方式上也许不同,但这些特征值和判断准则在实质上是一样的。例如压 缩域的方法经常基于d c 图来求特征值,实际上d c 图是原图的亚采样图。 在镜头边界的检测研究中,本文不对非压缩域和压缩域进行区分处理,主 要讨论如何检测边界。 镜头转换的方式是由多种,针对不同的镜头转换类型,相应的选取不 同的特征值,将有助于镜头边界的检测,同时可以识别不同镜头之间的转 换类型,即镜头的衔接方式。视频中的镜头转换类型的检测对了解视频内 容也有帮助,不同的镜头转换类型给人不同的视频效果,可以帮助了解视 频的风格。镜头转换类型包括直接转换( 称为突变a b r u p tc h a n g e ,包括切换 c u t ) 和特效处理f 称为渐变g r a d u a lc h a n g e ,包括淡入f a d ei n 、淡出f a d eo u t 、 慢转换d i s s o l v e 、扫换w i p e 等) ,如图2 - 1 所示。 厂1 厂 囱圆圆圆 图2 - 1 镜头转换类型 f i g 2 - 1t h et y p e so f s h o tc h a n g e 突变:两个不同的镜头直接连接,中间没有任何转换帧。一个突变的 燕山大学工学硕士学位论文 例子( 此视频序列为康师傅方便面广告的一个片断) 如图2 - 2 所示。 图2 - 2 一个突变的例子 f i g 2 - 2a ne x a m p l eo f a b r u s t 渐变:前一个镜头通过某种方式渐渐过渡到后一个镜头。渐变包括淡 入、淡出、慢转换。 淡入;镜头从无到有,直到完全显现。 淡出:镜头从有到无,直到完全消失。 慢转换:前一个镜头渐渐消失的同时,后个镜头渐渐显现。一个慢 转换的例子( 此视频序列为康师傅方便面广告的一个片断) 如图2 3 所示。 图2 - 3 一个馒转换的例子 f i g 2 - 3a ne x a m p l eo fd i s s o l v e 扫换:前一个镜头出现在画面上所占比例渐渐减少宜至完全消失,同 时,后一个镜头在画面上所占比例渐渐增大直至完全显现。一个扫描的例 子( 此视频为北京台汉城印象的一个片断) 如2 - 4 图所示。 图2 4 一个扫描的例子 f i g 2 - 4a ne x a m p l eo f w i p e 2 2 镜头检测性能评价指标 对于镜头性能的评价,目前仍然是一个尚未得到解决的问题。 首先,对某种算法性能优劣的评价是基于某一种标准化的数据素材处 理后得到的性能指标。比如图像处理领域,就以“美国小姐”作为标准图 像来进行处理。但对于视频而言,目前尚未建立一种大家都接受的标准素 材。所以每一种算法的试验结果都有一定的片面性,但试验中所处理的视 1 0 第2 章各种镜头转换检测方法的研究 频,必须包含一定数量的各种镜头变换类型,才能定性的说明问题。在试 验中尽量使得视频素材能够包含相当数量的镜头突变和各种渐变类型。 其次,对于算法的优劣可以根据某一种形式化的公式来计算得到,但 基于内容的视频检索技术是最近兴起的课题,对于镜头检测效果目前尚没 有建立统一的评价标准。当前最常用的主要有两种: 一种是多媒体信息检索中的指标,查全率( r e c a l l ) 和查准率【9 】 ( p r e c i s i o n l ,计算公式如下: recall:correct_detection_number犯1 1 ,b t a l b o u n d a r i e s p rpc妞fon:correct_detection_numberf 2 2 1 0 t a l d e t e c t i o n b o u n d a r i e s 另一种是漏检率和误检率,表示漏检个数和误检个数在总的镜头个数 中的比率,公式如下: m i s sd e t e c t i o nn u m b e r, 7 7 m m2 葛面1 石荔磊;了一陋3 ) 订 :丝丝:丝丝! 塑! :塑! 堕 ( 2 4 ) 。 a l s e t o t a ld e t e c t i o nb o u n d a r i e s 、 7 这两种评价的指标之间是相互制约的,是一对矛盾因素。对于镜头检 测的各种算法虽然不能实现1 0 0 理想的检测,但可以根据不同的用途和 目的选择合适的算法,使得两个指标之间有一个很好的均衡。对于基于内 容的视频检索而言,镜头检测的目标应尽量在保证查全率的基础上提高准 确率,或者说在保证漏检率低的情况下降低误检率。 2 3 突变的检测 突变是最常见的镜头转换方式。突变定义为前一个镜头 ( z ,y ,f ) 和后 一个镜头a ( x ,y ,f ) 的直接衔接,前后两个镜头之间没有任何转换帧。一个 突变的视频序列定义,( z ,y ,r ) 的定义如式( 2 5 ) 。其中t 。是突变后的第一帧 的时刻,u ( t ) 是阶梯函数( 当t 0 时为1 ,其它时刻为o ) 。 突变使视频流在时间上产生了不连续性。突变的各种检测方法主要在 燕山大学工学硕士学位论文 于选择能反映这种不连续性的特征值有所不同,以及检测不连续点判断准 则有所不同,但都认为突变是特征序列中的峰值点,即视频内容变化程度 最大之处。以下从直方图特征值、边缘特征值、运动特征值三个方面来说 明典型的突变检测方法。 f ( x ,y ,t ) = ( 1 一u ( t 一乙,) ) 石( 艽,y ,f ) + u ( t r 。,) 矗( x ,y ,r ) ( 2 5 ) 2 - 3 1 直方图特征值 根据检测突变的各种方法的计算简单性和检测准确性结合来看,用相 邻两帧之间的亮度或色度直方图m 1 5 1 差值来检测突变。具体方法如下:将 每帧的所有象素点的r g b 值或者h s v 值进行量化,计算每帧所有象素点 在的直方图分布,相邻两帧问的直方图差值反映了相邻帧间的内容差异。 毯 爸 罂 n a 训* h 1 划讪u “划州_ m 编u 卅h m h + m 。以。州m 。 图2 - 5 视频帧序列的的帧间直方图差 f i g 2 - 5t h e f r a m ed i f f e r e n c eo f c o l o rh i s t o g r a mi nas e q u e n c e 上图2 5 为一段包含慢转换和突变的视频帧序列( 此视频帧序列为康师 傅方便面广告的一个片断) 的帧间直方图差,其中横坐标为帧号,纵坐标为 直方图帧差,为了比较方便,把帧差量化到0 1 之间,其中0 表示前后两 帧完全相似,1 表示为前后两帧完全不相似,如完全白色和完全黑色其帧 差就是1 。 在图2 5 中,突变表现为明显孤立的峰值,慢转换等渐变中的直方图 差也比较大,而且持续时间较长,从中可以看出利用直方图差值可以检测 1 2 第2 苹各种镜头转换检测方法的研究 突变,并且效果明显,但是检测慢转换效果就差一些。直方图特征值的差 值对运动不敏感,能够防止运动的干扰,但由于这种特征值没有记录象素 点位置的信息,对象素点位置完全不同的两帧,可能有类似的直方图分布, 这时用直方图特征值就造成突变的漏检测。为此在第3 章对直方图特征值 做了改进,加进了图像的空间信息,这样改进后的颜色空间直方图帧差避 免了镜头转换边界的误检测和漏检测。 2 3 2 边缘轮廓特征值 边缘检测法1 6 q 7 1 - - 般先从图像中计算物体的边缘,分析边缘的变化量 来判断镜头转换。常用的边缘计算方法有微分算法等。微分算法常用的算 子有r o b e r t 算子、p r e w i t t 算子、k i r s c h 算子、s m o o t h e d 算子、s o z b e l 算 子1 8 1 9 1 等。 边缘检测中s o z b e l 算子由于计算简单而最常用,而高斯拉普拉斯把高 斯平滑滤波器和拉普拉斯锐化滤波器结合起来,先平滑掉噪声,再进行边 沿检测,所以效果会更好。现在功能较强大的边缘检测方法是c a n n y 法 2 0 l , c a n n y 法与其它的边缘检测方法不同得是它使用了两个不同的阈值来分别 检测强和弱的边缘,并且只输入那些与强边缘有联系的弱边缘,因此,这 种算法被噪声欺骗的可能性比其它的小,而检测到真的弱边缘的可能性大。 另外由于阈值的不同选择,边缘检测也会出现不同的效果,所以阈值的选 择对于边缘检测也是至关重要的,采用自动阈值比采用固定阈值效果要好。 突变的镜头转换处反映了时间上的不连续性,导致了空间结构的不连 续,即突变前一帧中的物体边缘在突变后一帧中找不到。同样突变后一帧 中的物体边缘在前一帧也找不到。z a b i h 等人提出的边缘改变率 f e d g e c h a n g e r a d i o ) 是利用这种特性进行突变检测的代表方法。 定义第n 帧的边缘改变率为e c r 。如下。 e c r 。= m a x ( e 7 e ,占= 只一1 )( 2 - 6 ) 式中只是第n 帧中边缘点的数目,e ? 是第 帧的边缘进入点的数目,e = 是第”一1 帧的边缘退出点的数目,这个概念在淡出淡入时可以很形象的理 解,因为淡入时,物体从无到有的出现,后一帧不断有边缘进人点,而没 1 3 燕山大学工学硕士学位论文 读入第1 1 - 1 帧并进行边 读入第n 帧并进行边缘 缘检测 检测 上 得到边缘二值图e ( 葛y ,n - 1 ) ( 边缘点为得到边缘二值图e ( k y ,n ) ( 边缘点为 黑,值为1 ,其它为白,值为o ) ,统黑,值为1 ,其它为白,值为0 ) , 计边缘点数目p 。1统计边缘点数目p 。 jj 弋 , 弋夕 边缘膨胀,然后反 边缘膨胀,然后反 色( 黑白互换) ,得色( 黑白互换) ,得 反色边缘膨胀二值反色边缘膨胀二值 圈r 慨y ,n - 1 )雹r ( x y ,n ) l 、 fl i 7i 、,f e ( x y i l - 1 ) 与r ( x y ,n ) 进行与运算,得到第e ( x , y ,n ) 与r ( x , y ,n - 1 ) 进行与运算,得到 n 一1 帧的边缘退出点的二值匿,统计边缘第n l 帧的边缘退出点的二值凰,统 退出点的数目e “0 。计边缘退出点的数目e n 、7 、7 , 计算第n 帧的边缘改变率e c 峙肿通e p 。e o 气i ,p ,1 ) 图2 - 6e c r 的计算流程图 f i g 2 - 6t h e c a ) c u l a t i o nf l o wc h a r to f t h e e d g ec h a n g er a t i o n ( e c r ) 有边缘点退出点,直到物体地边缘点全部进入,物体也就完全显示了,在 1 4 第2 章各种镜头转换检测方法的研究 淡出时,物体从有到无消失,前一帧不断有边缘点退出,而没有边缘点进 入,直到物体的边缘点全部退出,物体也就消失了。e c r 的大小范围从0 到1 ,对应边缘改变程度的从小到大。在突变点处,e c r 。很大,是一个峰 值。 为了使这种方法不受到运动的影响,计算边缘改变率e c r 时,在相 邻两帧中,如果一帧中的某边缘点在另一帧中的对应点附近( 例如6 个象素 之内) 存在边缘点,则这个边缘点不认为是进入或退出的边缘点,这可以通 过边缘膨胀实现。而且在计算边缘改变率e c r 。之前,需要进行全局运动 补偿,以减少摄像机运动的影响。边缘改变率e c r 的计算过程如流程图 2 6 。 对于检测突变来说,基于边缘改变率e c r 。的算法效果并不优于基于 直方图的算法,反而计算量巨大,但基于边缘改变率e c r 。的方法不仅可 以用于突变检测,同时还可以检测处淡入淡出和慢转换、扫描等镜头转换 方式。淡入淡出和慢转换具有与其它镜头转换方式不同的边缘特性,适合 用基于边缘特征的方法来检测。 2 3 3 运动特征值 突变也表现在运动的不连续性上。在所有的突变检测方法中,最直观 简单的方法是基于象素的帧间差的运动方法阱1 ,它利用突变前后两帧的运 动不连续性,直接计算相邻两帧的对应象素值的帧间差,在突变点处,帧 差通常很大,形成一个明显孤立的峰值。例如最简单直观的基于象素的 亮度绝对帧差a i f d ( a b s o l u t e i n t e n s i t y f r a m e d i f f e r e n c e ) 的计算公式如式 ( 2 7 ) : jr a i f d ( t ) = ( a b s ( f ( x ,y ,f ) 一f ( x ,_ y ,r 一1 ) ) ( 2 7 ) z y 式中x 和y 分别是视频帧的宽和高,f ( x ,y ,f ) 是视频序列中位于t 时刻的 当前帧在( x ,y ) 处的象素点的亮度值,f ( x ,y ,t 一1 ) 是视频序列中位于f 的前 一帧在( 芏,y ) 处的象素点的亮度值。 但这种直观简单的方法会受到物体运动和全局的相机运动的影响,全 燕山大学工学硕士学位论文 局的相近运动可通过全局运动估计进行补偿,但物体运动仍具有很大的影 响。 更复杂的方法使用关流或运动矢量或块匹配后的残差。这些基于运动 特征值的方法的检测效果并不优于直方图方法,因为这种方法将个简单 的视觉不连续的检测问题转换成复杂的运动估计问题。 2 4 扫换的检测 镜头之间的转换方式除了最直接的突变外,还有许多渐变方式,包括 淡入、淡出、慢转换、扫换等各种特效转换。这些渐变的转换方式,为了 平滑不同镜头间的转换,在不同镜头的转换之间加入了特效处理,使镜头 转换的视觉效果不是很突然,并产生各种不同的视觉效果,但这也造成了 镜头转换边界更加难于检测。下面针对各种渐变转换类型给出具有代表性 的检测方法,首先讨论扫换的镜头转换边界检测。 2 4 1 扫换的- | 生质 扫换 2 2 2 3 1 广泛的应用在视频制作中,使镜头问的转换更加多样化。在 扫换中,前一个场景的内容在镜头中所占比例越来越少,直至完全消失, 后一个场景的内容在镜头中所占的比例越来越多,直到完全出现,表现为 前一个场景被后一个场景通过移动的边晃渐渐替换。这个移动的边界可以 是任何的几何形状。视觉的视频中,扫换前后两个镜头的边界的几何形状 是一个或者几个线条。例如水平扫换中,前后两个镜头的边界是一条垂直 的直线。根据边界的几何形状的类型来划分,在视频制作中扫换有大约二 十到三十种不同的移动边界。由于移动边界的几何形状的多样性和扫换规 律( 即各种几何形状的边界的移动规律) 的复杂性,扫换是难于检测的场 景渐变方式。 假设段长度为l 帧的视频( 甩) ,其中的视频帧大小为x y 。这段 视频包含一个从第s 帧到第e 帧的扫换渐变,则扫换可用式( 2 _ 8 ) 表示。其 中。表示两个矩阵对应元素相乘。e ( 曲是x y 大小的矩阵( 或矢量) 代表 扫换前一个镜头中的第n 帧的象素值。e ( ”) 是x y 大小的矩阵( 或矢量) 1 6 苎! 兰墨登丝兰堑垫竺型互鎏塑堕壅 代表扫换后一个镜头种的第n 帧的象素值;p ( n ) 是z 】,大小的矩阵( 或矢 量) ,其中的元素为1 或0 ,随着时间1 2 的变化,其变化规律代表了扫换渐 变的规律。p ( n ) 种为1 的元素值所占的部分表示扫换种前个镜头在视频 中占的面积,e ( n ) 中为0 的元素值所占据的部分表示扫换中后一个镜头在 视频中占的面积。w ( n ) 是x r 大小的矩阵,代表由前后两个镜头通过扫 换渐变二构成的第n 帧的象素值。 j e ( 玎) , w ( n ) = p ( 月) 圆e ( n ) + e ( n ) o e ( 胛) , i e ( n ) , o s 阼 s s 玎 e 但一8 ) 五s 上 2 4 2 均值与方差 根据式( 2 8 ) 表示的扫换渐变的数学模型,令x y 大小的矩阵p f 月1 中 0 的个数为c ( 力,则1 的元素个数为船7 一c ( 彩。同样p ( 雅) 中1 的个数为 c ( n ) ,而0 的元素个数为x y c ( n ) 。在扫换渐变时,因为后一个镜头随着 时间渐渐出现,在视频中占据的面积越来越大,所以c ( ”) 是随着时间n 的 单调增加的函数,它的增加规律由扫换类型决定。例如在线形扫换中 。( 。) :册,旦,在光圈扫换中,f ( 。) :盯( 旦) 。 a l a t t a r 2 4 1 利用视频的统计信息来检测扫换渐变。 从式( 2 - 8 ) 可以得到包含扫换的视频w ( n ) 的均值计算公式( 2 9 ) : f0ns 。卜澎。赢叫爪川卜。;磊钏似川”篙母 【m 2 ( n ) , 式中棚。( n ) 是扫换前一个镜头中的第n 帧的象素均值,m :( 竹) 是扫换后一个 镜头中的第n 帧的象素均值,m 。( h ) 是包含扫换的视频的第1 1 帧的象素均 值,x ,y p ( x ,y ,雅) = 1 ) 表示矩阵p ( n ) 中值为1 的元素所对应扫换视频中 的象素,其象素值对应为扫换前一个镜头的象素值 登些盔兰三兰堡主兰生笙苎 4 ( x ,y ,”) ,x ,_ y p ( x ,y ,n ) = 1 表示矩阵p ( n ) 中值为0 的元素所对应扫换视 频中的象素,其象素值对应为扫换后一个镜头的象素值l ( x ,y ,h ) 。 由于矩阵p ( n ) 中0 的元素个数为c ( n ) ,则l 的个数为x y c ( n ) ,代入 ( 2 9 ) 得: j 玛( ”) 0 h s 。卜1 毒| 肌“功m “功托研伽“哪x 暑篓 q 。 i i n 2 ( n ) , 一一一 m :( 行) 是在扫换渐变得第n 帧中前一镜头出现部分的均值,朋;( ) 是在扫换 渐变得第1 1 帧中后一镜头出现部分的均值。 假设在扫换渐变附近的前一个镜头的均值和后一个镜头的均值都近似 不变,分别为m ,和m :,且假定m :( n ) “m ,和m :( h ) “m :,则式( 2 - 1 0 ) 可以表 示为: ( 聆) = 啊0ns - - 寺( ( x y - c ( n ) ) 帅哟羔差 陆 m 2 所以扫换渐变时的均值m ,( n ) 的变化,反映了c ( 胛) 的变化,也就反映 了扫换的类型。在理想状态下,线形扫换的c ( 月) = x y 旦,光圈扫换中, 。( 。) :x r ( 兰) :,因此线形扫换和光圈扫换下的均值埘,( n ) 的变化分别
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 形体礼仪课程课件
- 幼儿感官探索课件
- 二零二五年度跨境电商进出口合同清单
- 二零二五年度防火门产品安全标准制定合同
- 二零二五年度工衣采购与职业培训合作合同
- 二零二五年度建筑材料运输合同标准范本
- 二零二五版智慧城市照明系统升级补充合同范本大全
- 高三试卷:重庆南开中学高2025届高三第三次质量检测数学
- 高三试卷:辽宁省点石联考(辽宁县级协作体)2024-2025学年度上学期2025届高三年级期中考试数学试卷
- 高三试卷:江西省赣州市十八县(市、区)二十四校2025届11月期中联考数学试卷高三11月联考数学
- he及roma用于卵巢癌全程管理省肿瘤雷旦生
- 小儿呼吸机相关知识详解课件
- SY∕T 5280-2018 原油破乳剂通用技术条件
- 维护手册v00-地铁3号线贯通道系统
- 苏教版五年级数学下册【全册课件完整版】
- 心力衰竭心脏再同步(CRT)治疗课件
- 人防地下室墙体后开洞整改施工方案(防办)
- 现金流量表的编制培训课程(共93张)课件
- 慢性肾衰竭(慢性肾脏病)诊疗指南(内容清晰)
- “县管校聘”教师岗位竞聘量化考评表
- 第十九章颅内和椎管内肿瘤
评论
0/150
提交评论