(计算机应用技术专业论文)视频信息检索的关键技术研究.pdf_第1页
(计算机应用技术专业论文)视频信息检索的关键技术研究.pdf_第2页
(计算机应用技术专业论文)视频信息检索的关键技术研究.pdf_第3页
(计算机应用技术专业论文)视频信息检索的关键技术研究.pdf_第4页
(计算机应用技术专业论文)视频信息检索的关键技术研究.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(计算机应用技术专业论文)视频信息检索的关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 本文以新闻视频为基础研究了视频信息检索中的三个重要技术:视频的自动 切分、注释及索引。在视频时序结构模型的基础上,提出一种新闻故事语义分割 的新方法。首先,采用模糊c 均值算法进行镜头边界检测,将新闻视频序列分割 为独立的镜头;然后,利用图论聚类分析算法将视频镜头划分为主持人镜头和新 闻脚本镜头;最后,将新闻视频组织成新闻故事。对于视频信息的注释,提出一 种基于模糊聚类神经网络分类器的字幕检测及识别方法。在视频故事分割及自动 注释的基础上,完成了一个实际的新闻视频检索系统。实验结果表明,本文所提 出的自动切分及注释方法具有较高的准确性。 关键词:视频分割宇幕检测及识别视频检索 a b s t r a c t f o rn e w sv i d e op r o g r a m s ,t h i sp a p e rp r e s e n t st h r e ei m p o r t a n tt e c h n o l o g i e so fv i d e o i n d e x i n g ,i e ,t h ea u t o m a t i cs e g m e n t a t i o na n da n n o t a t i o no f n e w sv i d e oa n di n d e x i n g b a s e do na t e m p o r a ls t r u c t u r a lm o d e l o fn e w sv i d e o an e ws 0 1 u t i o nt oa u t o m a t i cn e w s s t o r ys e g m e n t a t i o ni sp r o p o s e d f i r s t ,af u z z y c m e a r l sa l g o r i t h mi su s e dt od e t e c tv i d e o s h o tb o u n d a r i e st op a r t i t i o nan e w sv i d e oi n t ov i d e os h o t s t h e nag r a p h t h e o r e t i c a l c l u s t e ra n a l y s i sa l g o r i t h mi si m p l e m e n t e dt oc l a s s i f yt h ev i d e os h o t si n t oa n c h o r p e r s o n s h o t sa n dn e w sf o o t a g es h o t s f i n a l l y , t h en e w sv i d e oi ss e g m e n t e di n t oi n d i v i d u a ln e w s s t o r i e s f o ra u t o m a t i ca n n o t a t i o no fn e w sv i d e o ,am e t h o df o rv i d e oc a p t i o nd e t e c t i o n a n dr e c o g n i t i o ni sp r e s e n t e db a s e do naf u z z y - c l u s t e r i n gn e u r a ln e t w o r kc l a s s i f i e r o n t h eb a s i so ft h es e g m e n t a t i o na n da n n o t a t i o no fn e w sv i d e o ,an e w sv i d e oi n d e x i n g s y s t e mi sd e v e l o p e d t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h em e t h o da c h i e v e sah i g h p r e c i s i o n k e y w o r d s : v i d e os e g m e n t a t i o n c a p t i o nd e t e c t i o na n dr e c o g n i t i o n v i d e oi n d e x i n g 创新性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包括其他人已经发表或撰写过的研究成果:也不包括为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中做了明确的说明并表示了谢意。 本人签名 葺 。 日期口2 劲 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:学校 有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或 部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文在解 密后遵守此规定) 本人签名 葺f 1 日期 。z 导师签名毒卅去事参j 日期旧,一 i 第一章绪论 第一章绪论 1 1 研究背景及意义 随着计算机网络和多媒体技术的发展,通过网络我们可以获得大量的数字图 像和视频信息,带宽的问题和如何访问相关的数据越来越受到关注。传统的视频 存储采用的是顺序流的存储方式,用视频录像机界面方法来检索和浏览海量的图 像和视频信息是费时和极为不方便的。为了更广泛地利用这些数据库,需要研究 有效的视频检索与获取方法。 在传统的数据库系统中,信息的检索一般以数值和字符型为主。而在多媒体 数据库中集成图像、视频、音频等非格式化信息,它们具有数据量大、信息不定 长、结构复杂等特点。每一种媒体数据都有一些难以用字符和数字符号描述的内 容线索,如图像中某一对象的形状、颜色和纹理,视频中的运动,声音的音调等。 当用户要利用这些线索对数据进行检索时,首先要将其人工转化为文本或关键词 形式。这种转换带有一定的主观性。且极其费时。多媒体数据在不同的人眼中可 能有不同的理解,我们要把所有不同的解释都用关键字( 文本或数字) 来表示显然 是不可能的。另外,关键字不能有效地表示视频数据的时序特征,也不支持语义 关系,因而仅仅基于关键词的检索已不能满足用户的检索要求。数据库及其它信 息系统不仅要能对图像、视频和声音等媒体进行存储以及基于关键字的检索,而 且要对多媒体数据内容进行自动语义分析、表达和检索。基于内容的检索正是这 样一种应运而生的多媒体数据库检索方法。 视频数据巨大的数据量和丰富的表现内容不是几个关键词所能包含的。视频 检索就是在大量的视频数据中找到所需要的视频片断。基于内容的视频检索是指, 用户可以指出其所想要的镜头的一些特点,如该镜头的颜色主色调、运动特点等, 根据这些要求由计算机查找出相应的视频镜头,并反馈给用户做进一步的选择。 其用途非常广泛,如各类体育节目的检索、新闻节目的检索、卫星云图变化情况 的检索等。 基于内容的访问技术也是网络多媒体应用的基本要求,这些应用包括数字图 书馆,视频点播,新闻点播和交互式视频等。近年来,基于内容的视频检索吸引 了越来越多的注意,这项工作的最终目标是建立一个自动的电视节目检索系统, 并且允许通过基于内容的查询来选择相关的新闻片断。早期的视频点播系统或新 闻点播系统采用人工方法将视频分割为片断用于检索”】,这种方法采用的基于关键 词的技术不能充分地表示视频中的语义信息。最近的基于内容的视频自动切分研 究结果中,大部分使用句法方法,其中也有一部分采用语义方法。 视频内容的理解需要许多技术的结合,包括语音识别、自然语言理解、搜索 视频信息检索的关键技术研究 策略、图像压缩和图像理解等。过去许多研究者已经提出了基于颜色、纹理、 形状、运动和空间信息的视频检索技术,这类信息属于检索中的低级信息,为了 获得更有效的视频检索系统,一些研究者建议将语音理解和图像分析结合起来 ”r _ i ,还有建议从视频中提取文本信息用于检索和注释”】,即o c r 技术( 光学文字 识别) 。文本一般是以字幕和标题形式出现在视频中,是视频检索中的一个重要线 索,因为文本总是直接和视频帧有关,并且客观地描述了视频帧。例如,新闻视 频上的附加字幕注释人名和地名或描述物体,有时这些信息不出现在伴音里或不 能通过其它视频理解方法获得,通过o c r 技术识别视频图像中的文字,可以提高 对视频内容的理解,能为视频数据增加额外的文字索引信息。 电视新闻节目是非常好的视频例子,新闯视频具有前向的时间句法特征,每 个新闻片断从主持人镜头开始,紧接着相关的新闻脚本,所以新闻视频成为研究 视频检索的非常合适的测试数据【5 6 】。除外,运动视频( 篮球,足球等) 对某些研 究也是非常好的测试数据 2 , 7 1 。 1 2 研究现状 基于文本内容的新闻视频检索的主要问题是提取和识别视频中的字幕,随着 文本的提取,再结合其它的基于可视化内容的方法,就可以通过关键词检索相关 的视频镜头和视频帧。 图1 1 视频检索系统概貌 图1 1 所示为视频检索系统的概貌,为了建立查询所需的索引文件,要分别完 成视频分割、内容分析和索引这几个模块。视频分割用于将原始新闻视频分为一 个个新闻片断或故事情节该方法的细节将在第二章给出。视频分割后紧接着要 分析视频内容,基于同期可视化内容的方法首先选择镜头的代表帧,并且提取如 颜色、纹理、空间、形状或时间等特征作为这些镜头的特征,然后检测字幕帧、 提取字幕、分割字符、最后识别字符。随着文本和可视化信息的提取,最后一步 第章绪论 是稔索相关的蓣和视频镜头。镶如,该系统可鞋圄貉诸如“跳到下条新闻”、“和 克林顿有关的新闻”等等查询。 图1 1 绘赉静楚基于内签的筏籁检素系统静一般结构,簿一模块靛算法不离鞠 成了不同的系统,下面将对完成每模块的不同方法进行分析和对比。 1 2 1 视频分割 税频检索的首鬃任务怒将视频文件按时序进行分割,这种分割必须基于视频 的内容进行。最著名的方法是镜头变化检测,根据检测结粱将视频序列分为独立 的镜头,每个视频镜头代表有意义的事件残一个运续的行为。在讨论褫频分割之 前,我们先给出几个定义: 褫频分澍:是指确定褫频序弼辩闯闻隘( 检测镜头变化) 酶楚瑾过程。 镜头变化:是指两个摄像机镜头间的边界,它照后期编辑操作产生的。 镜头交纯检测:是指确定摄像辊镜头的边乔。校据视频产生j 熏程及变化的撩 续时间可将镜头变化分为两类:突变( 不谶续变化) 和渐变( 连续的变化,包括 淡入、浚& 、溶解赦攘除等变纯) 。 突变:是两个镜头间的突然过渡,它悬在两个连续帧中完成的。 海交:楚占据凡犊静疆令镜头润秘平缓过渡。 视频分割的共同标准题找到视频镜头,每个镜头代表由摄像机操作产生的图 像黪舞,这耱分裁标准是不猿羲橇频蠛约,称为“旬法努割标准”。另岁 ,每个应 用领域存在该领域的特定的分割,例如,新闻视频中有主撩人镜头和新闻脚本镜 头,考虑掺定蠛静这耪分吝l 信惠,分害l 标漆器为“语义势割标准”,需要对褫频数 据有较高级的理解。 对手耨麓援频分害l ,最婷涛訇法帮语义技本续台起寒,鑫秀赣鬻程蘩串很少 出现渐变,即使出现,大部分包括掘新闻片断中,并不影响新闻片断分割。因此, 瑟阉褫菝分塞l 相对楚萃旦鬃有载表饿。 突变检测 突变榆测己研究了许多年,并且在许多视频检索系统中已有一些算法,镜头 突变检测方法主要窍以下几秘: 一、 基于帧差的方法州 l 。篷接灰浚差方法 该方法首先计算相邻两帧图象阅逐点灰发差 d ,( 工,y ) = l t ( 工,y ) - l 。( x ,y ) i ( 1 1 ) 视频信息检索的关键技术研究 其中,( x ,y ) 和,。( x ,y ) 分别表示视频序列中相邻两帧图象中( x ,y ) 点的灰度值。 定义两帧问的空间差测度为: 弘志;善( i - - 2 ) 1吖 m n 为图像的尺寸。 2 改进方法一 该方法只考虑方法l 中帧间逐点灰度差大于某一阈值a 的象素,即 = 化h 。巍。小口 c 吲 3 改进方法二 以上两种方法都对摄像机及物体运动敏感,因此z h a n g e ”1 提出先用3 3 平滑 模板滤波,然后再计算帧间差。 在上述方法中,如果d ,大于某一设定的阈值( 该阐值依赖于指定视频域) , 则表示此处存在镜头突变。基于帧差方法的最大缺点是需要人工调整闽值,并且 对摄像机及物体运动较为敏感。 二、 基于直方图差的方法【9 1 视频分割中另一个常用的算法是直方图比较,已被众多研究者研究并且应用 于许多系统中。它有两种基本的算法:全局直方图比较和局部直方图比较。这些 方法可以成功地检测突变和允许误差范围内的淡入、淡出变化,而检测不到连续 的镜头变化,如擦除和溶解。 直方图比较的一些测度定义如下: g l 1 直方图帧间差法:h d , = z ( f ) 一目一( f ) i ( 1 4 ) 2 z 2 比较 3 z2 检验: ( 1 5 ) ( 1 6 ) 其中,且是第f 帧的直方图,g 是图像中总颜色数。显然,式( 1 - 4 ) 计算 的是帧间绝对差,后两式计算的是相对差。式( 1 - 4 ) 的计算复杂度低于式( 1 5 ) 但式( 1 5 ) 在日,( f ) = 0v i 条件下不能使用。因此,前述的公式可以应用于 不同的情况。 第一章绪论 对于彩色信息一个简单且有效的方法是基于彩色代码的直方图比较,以此 代替灰度级比较。为了减少计算复杂度,可以选择每个彩色分量的二至三个变化 大的位组成彩色代码1 6 , 0 l 。 对于用帧差比较和直方图比较的方法来进行视频分割,虽然假设差测度不依 赖于域,而选择场景变化的闽值是依赖于指定域的。对一类视频数据合适的阈值 对另一类可能并不接受。因此,基于帧差和直方图差方法的主要缺点是选择检测 镜头突变的阈值。为了克服该缺点g u n s e l 等人【5 1 提出了一种无监督k 均值聚类 算法来检测场景变化,将视频分割问题处理为“有场景变化”和“无场景变化” 两类聚类问题。同时n a p h a d e 等人1 通过增加特征数目,使用归一化的直方图差 测度和空间差测度将镜头分割转化为两特征、两均值的聚类问题,获得了较高的 准确度( 9 8 5 1 。 三、基于运动矢量分析的方法 视频分割中有两种基于运动比较的方法,它们源于单镜头内的连续运动。一 种方法是基于运动矢量的速率分析,另一种方法是基于块匹配1 1 0 j 2 1 。这些方法可 以检测出镜头中是否有大量的摄像机和物体的运动。因为,有摄像机运动的镜头 可能被错误地分类为渐变变化,检测出放大、摇镜等摄像机运动可以增加镜头边 界检测的准确性。运动矢量信息可以从m p e g 编码视频序列获得,这种方法的缺 点是当m p e g 系数不能直接使用时其计算量增大。 四、基于神经网络的方法 由a r d i z z o n e ”1 等人提出的神经网络方法给出了一个智能镜头变化检测方案, 但由于缺乏合适的特征,并且因为训练过程需要更多的计算,因此在性能上没 有过多优势。 五、基于压缩差的方法 近二十年来,为有效地传输和存储视频,人们研究和采用了许多压缩算法和 标准,包括基于简单块变换技术的m p e g l 、m p e g 2 及h 2 6 x 标准。大部分的视 频( 特别是i n t e r n e t 上存储的) 都是压缩格式,因此,有更多的研究集中在压缩域 的视频镜头分割上。压缩域的视频分析技术能降低计算复杂度并且能达到实时性, 利用m p e g 压缩视频的离散余弦变换系数检测镜头变化,其中一种方法只利用每 帧的直流分量作彩色直方图比较或在连续低分辨率帧上作象素级帧差比较,另一 种方法是利用附加在m p e g 数据上矢量信息的归一化内积作镜头变化检测。比起 前述的各种方法,压缩域镜头检测方法的优点是降低了计算复杂度,提高了实时 性。缺点是检测渐变镜头还是困难,这种情况对于前述的其它方法都是存在的。 6视频信息检索的关键技术研究 前述的大部分方法都是可以实现的,然而只能对突变镜头变化给出合理的结 果,对于连续的镜头变化,特别是溶解和擦除变化,还停留在有限的不成功阶段。 按b o r e c z k y 和r o w e 的比较研究m 】,在所有前述的算法中,直方图差的方法具有 最好的一致性和准确性。运动分析和直方图比较的方法都能够从镜头切换中分类 出渐变,但很难决定它们是否镜头边界。 渐变检测 镜头渐变过渡是指视频序列中场景内容的平缓变化,而不是急剧变化,因此 帧问差的变化也是平缓的。渐变检测主要指检测溶解、淡入、淡出及擦除等变化, 由于镜头渐变的检测要比镜头突变的检测要困难的多,因此,这方面的研究仍处 于初始阶段, 现有的镜头渐变检测方法主要有以下几种: 一、双闽值比较法【”1 z h a n g 最早提出镜头渐变的双阈值比较检测法。该方法设置两个阅值瓦和i 。 当帧间差大于瓦时,存在镜头突变;当帧差小于瓦而大于t 时存在镜头渐变。 当连续帧的帧间差开始超过r 时,这一帧称为镜头渐变的起始帧,然后同时计算 两种帧间差:一是上面通称的连续帧的帧间差,即相邻两帧的帧间差d + ,;另一 种是相隔帧的帧间羞d t 。,即相隔z 帧的帧间差。当镜头渐变的起始帧检测出后, 便开始计算d 。,即r 逐渐增加时,也同时逐渐增加f 。显然,相隔帧的帧问差随 着相隔帧数r 的增加而增加,因而相隔帧的帧间差是一个累积帧间差。当相隔帧的 帧间差4 。,累积超过瓦,而连续帧的帧间差吐。低于i 时,这一帧便为镜头渐变 的终止帧。注意,上述两种帧差是同时计算的,在相隔帧间差开始累计后,同时 观察连续帧的帧差西。,如果吐川小于i , 则废除该起始帧,接着重新寻找起 始帧。 二、边缘跟踪法 z a b i h 等人提出边缘跟踪法检测各种镜头变化,包括切换、溶解、淡入、 淡出及擦除,溶解和淡入、淡出通过观测进入和退出的边缘百分比的相关值来指 定,按b o r e c z k y 和r o w e 的比较研究【l “,边缘跟踪算法具有较好的综合性能,然 而在任何设置的门限下只有1 6 的渐变能正确地指定为渐变,该算法的另一个难 点是需要进行运动估计。 1 2 2 视频分类和注释 新闻视频被分割为独立的镜头后,分割的下一步任务是将这些镜头分类为主 持人镜头、新闻脚本或广告,基于具体应用模型的语义特征,把这一步称为故事 分鲁l 。 第一章绪论 z h a t l 2 提出模型匹配的方法1 6 l ,将新闻节目的故事分割分为三个步骤:第一步, 结合镜头的时间结构和代表帧的空间结构定义一个主持人镜头模型;第二步,用 相似性测度将所给镜头与模型进行匹配以确定所给镜头是否主持人镜头;第三步, 用整个节目的时序结构模型实现镜头分类。一般,对于不同的节目,主持人模板 是不同的,即使是同一新闻节目也总有几个不同的模板,所以,这种方法是复杂 和费时的。 第二类分类方法是直方图交集的方法i l “,这种方法对视角的变化、图像分辨 率的变化相当稳定,但对光线的变化却很敏感。因为摄影室的光线条件从一个主 持人到另一个主持人不会有很大变化,可以假定对不同的新闻节目相对不变,这 对我们的应用是不影响的。 设,( y ,u ,v ) 和r ( y ,u ,y ) 分别表示输入视频帧和主持人模板帧中第k 个区域 的彩色直方图,输入帧和模板帧之间的匹配值定义为内容的相似性测度: 舢,耻三宇薹:! 型生型:! ! :竺竖竺:型 ( 卜7 ) 。r 智 。m i n ( t ;k ( y ,u ,y ) ) 其中,r 为区域数目,n 为颜色的总数,:。,m i n 孵( y ,u ,y ) ) 为归一化因子,它等 于直方图丁( y ,u ,v ) 中象素的总数,m i n ( 1 j ( y ,u ,y ) ,u ( r , u ,y ) ) 为两个直方图中第 k 个区域的第j 个分量中共同象素数目。s ( ,t ) 的值在 0 ,1 】之间,l 表示完全匹配。 这样计算候选帧中相应区域的直方图得到匹配值,匹配值若超过预设定的门限则 匹配成功。在g u n s e l 的实验中直方图交集的成功率为9 4 t ”。 为了确定新闻视频中的广告镜头,h a u p t m a n n 等人【1 训提出利用黑帧的出现和 场景变化率的方法。一般在广告之前、之后及广告之间经常出现片刻的黑帧,这 可以通过寻找低亮度值的m p e g 帧序列检测到。当然,也可能因为其它的原因出 现黑帧,如淡出到黑或夜晚室外的视频镜头,这样,黑帧并不是可靠地与广告有 关。然而广告镜头变化的非常快,广告节目比新闻节目有更多的场景变化,假设 当彩色直方图快速变化的断点处可以检测出这些场景变化。 1 2 3 通过附加字幕的识别检索新闻视频 通过观察发现,新闻字幕中的字符和它的背景具有相似的象素值,在这种情 况下,采用文献 1 8 1 中所提出的方法( f - j 限法) 来提取字符是困难的。与传统的 o c r 相比,新闻视频字符的识别更具难度。一方面视频字符的分辨率较低,另一 方面,由于复杂背景的存在,叠加在新闻视频上的字符通常和背景有相似的色度和 亮度,使得提取特别困难。然而在许多新闻视频里,这种情况很少在有字符帧中 连续出现,因此,可以用多帧积累来抑制背景干扰。 视频信息检索的关键技术研究 目标检测技术如匹配滤波可用于从背景中检测字符,由于每一个字符都有唯 一的形状,简单的模板匹配方法不适合提取所有的字符模式 因为新闻视频节目包含巨量的帧,在每一帧中检测每一个字符在计算上是不 允许的。为了提高处理速度,首先在一组帧中粗略地检测出文本区。一个典型的 文本区可以特征化为具有锋利边缘的水平矩形结构,因为字符总是形成比背景高 对比度区域,文献【1 9 】利用文本图像的特点来检测文本区。j e o n g m l 提出基于神经 网络的文本定位方法用于新闻视频检索。该方法通过分析新闻视频帧的文本特征 指定文本象素。首先将象素和它领域的灰度值输入一个两层前向神经网络分类器, 然后用输出节点的激活值确定所给中心象素的类别,从而获得一个分类的二值图 像,图像中文本象素是黑的,每一象素属于文本类和非文本类之一。作为分类结 果,一个输入帧被分割为有文本和无文本两类。在后处理中,对分类图像进行平 滑,然后对投影轮廓取门限,进而对文本矩形区域定位。通过实验该方法可以定 位大部分字幕。 a r i k i 等人1 提出一种检测字符帧和提取字符的方法,该方法首先用直方图距 离和边缘一致性提取包含字符的帧,然后利用局部行密度提取字幕区,最后进行 字符提取。在字符提取中采用浮动三级门限方法,首先将图像强度门限化为三级, 然后考虑字符和背景的拓扑关系对字符区二值化。 用垂直行密度l d 和水平行密度l d ( y ) 定义局部行密度如下: l l d ( x ,y ) = w ( f ,j l x ,) ,) - ( 加( f ) + 上d ( 朋 f j l d ( i ) = ( f ( f ,_ ,) o f ( f ,+ 1 ) ) l d ( j ) = ( f ( f ,) o f ( j + l ,朋 1 w ( j l 训) 2 瓦可而( 1 - - 8 ) x j ) 。+ y 一。 f ( i ,) 定义了象素的值为1 或0 ,当满足边缘一致性测试的象素值为1 ,否则 为o ;符号。表示异或运算,w ( i ,j z ,y ) 是权函数,在有限窗口内由中心向外递减。 浮动三级门限将原始图像分割为三部分:字符部分、背景部分和基于偏差图 像的其它部分。偏差由原始图像和它的移动平均图像产生,定义为: j i 石i 两= j ( x + f ,y + _ ,) ,, x l ( x ,一) = ( x ,y ) 一7 i j i 两 j , b ( x ,y ) = 1 i f a l ( x ,y ) k a ;d ( x ,y ) = - 1 f 6 ( x ,y ) 一k o - ( 1 - - 9 ) 其中,b ( x ,y ) 是与字符部分一致的图像,d ( x ,y ) 是与背景部分一致的图像,盯 是世( t y ) 的标准偏差,参数k 由实验确定。在实验中,给原始图像在水平和垂直 第一章绪论 方向加模板窗,得到两个移动平均图像l ( x ,y ) ,同时产生b ( x ,y ) 和d ( x ,y ) 两个图 像,通过由两个不同方向产生的这两种图像的与操作,最后获得的字符是二值图 像,通过计算水平外围分布,可将字符分别提取出来。 实验结果表明,帧提取准确率达7 7 6 ,对字符区域的提取,字符包含率达 9 3 5 ,提取的准确率为8 7 1 ,包含在提取的字符区中的字符的提取率是8 0 2 。 s a t o 等人h 1 首先用一个3 x 3 水平差分滤波器处理整个图像,再用合适的二值 化门限提取垂直边缘特征然后用平滑滤波器消除不相干的碎片将分开的字符 部分连接起来,通过检测聚合部分和计算它周围的矩形指定出独立的区域。选择 满足下面几个限制的聚合部分:( 1 ) 聚合部分的尺寸大于7 0 个象素,( 2 ) 聚合部 分的充满率大于4 5 ,( 3 ) 水平垂直方向的比率大于0 7 5 。 为获得高分辨率的图像,一般来说,需要通过内插的方法增加每个字符的分 辨率。s a t o 等人通过x 和y 两个方向上的4 点内插放大文本区,原图l ( x ,y 1 变为 四倍分辨率的图像l ( x ,y ) :即有l ( 4 x ,4 y ) = l ( x ,力。内插象素由下式线性函数定义: m 川= 瓮筹( 1 - - 1 0 ) 其中,( 工,y ) = ( h ,虬) l b j 4 ,b 1 4 , y oe b j 4 ,r 1 4 b ,j ( t y ) = i i ( x , ,) 旷 对于复杂背景的问题,s m i t h 提出了采用多帧累积的图像增强方法9 】。虽然复 杂背景有移动,但由于视频字幕的位置相对稳定,并且假设字幕具有高强度值, 因此,可用基于时间的最小象素值搜索的技术来使背景的变化最小化。经过子象 素内插后的帧,厶( t y ) ,三j + 。( x ,y ) ,l i + n ( z ,y ) 增强为o ( y ) ,即: 三。( x , y ) = m i n ( l f ( x ,y ) ,l ( x ,) ,三。+ 。( z ,y ) ) ( 1 1 1 ) 其中,( x ,y ) 是象素的位置,i 和i + n 分别是开始和结束帧号,可通过文本区 域的检测来指定这些帧号。采用该技术,可从包含字幕的帧的每个位置的最小象 素值产生增强图像。通过利用非字幕区的视频移动,可在获得具有最小复杂背景 的文本区的同时保持一定的字符分辨率。 为了进一步降低复杂背景的影响,s a t o 等人【| 1 使用了基于相关性的特殊滤波 器,一个字符由四个不同方向的行元素组成:0 0 ( 垂直) ,9 0 0 ( 水平) ,一4 5 0 ( 斜 角) ,4 5 0 ( 对角) ,他们用1 5 3 ,3 7 ,9 7 和9 7 滤波器分别检测0 0 ,9 0 0 ,一4 5 0 , 4 5 0 的行元素,将与这四个方向一致的四个滤波器的输出累加,对字符提取滤波器 的输出用固定的门限值产生一个二值化的图像,进而进行字符位置的检测和字符 的识别。一般,用二值图的水平和垂直投影轮廓进行字符分割,通过检测水平投 影轮廓的开始和结束位置决定字符行的分割,垂直投影轮廓的峰值指出了两个字 视频信息检索的关键技术研究 符的边界。有时投影轮廓的假谷值也可能将一个字符分割为几个,因此还需要进 一步研究字符分割的新方法。 对于字符识别来说,o c r 技术已经研究了许多年,我们可以利用标准的o c r 软件包,这样,可以将研究重点放在对字符的提取上。由于低分辨率和复杂的背 景,对字符不可能期望很高的识别率。若没有预处理和后处理,传统的o c r 只能 达到4 6 5 的识别率,这低于商业o c r 对文档平均识别率的一半,s a t o 的实验表 明,经过预处理的r o m a n 和g o t h i c 字符的正确识别率分别为7 6 2 和8 9 8 ,对字 符总的识别率为8 3 5 ,对单词总识别率为5 4 8 。 综上所述,一个实际的视频o c r 系统包括:1 ) 文本检测2 ) 图像增强3 ) 字符提取4 ) 字符识别5 ) 后期处理 1 - 3 存在问题 虽然已经提出了许多视频分割方法,但缺乏一种能同时检测突变和渐变并且 具有较低计算复杂度的方法,此外,对于高级视频理解和语义检索来说迫切需要 一种有效的主持人镜头检测方法。 在视频o c r 中,有许多初步研究都是针对英文字符的,较少有针对汉字字符 的,本文将针对下面的几个问题进行研究:研究有效的字幕帧检测方法;提取附 加的文本;对提取的字符图像进行预处理和后处理以获得高识别率;基于提取的 文本信息完成一个新闻视频检索系统。 1 4 本文主要工作及内容安排 本文以新闻视频为对象研究视频信息检索中的三个重要技术:视频的自动切 分、注释和索引。具体内容如下: 视频自动切分:首先,从视频数据中提取帧差异测度特征( 空间差及直方图 差) ,采用模糊c 均值聚类算法进行镜头边界检测,将新闻视频分割为一个个独立 的镜头。然后,提取每个镜头的关键帧,利用图论聚类分析算法将视频镜头划分 为主持人镜头和新闻脚本镜头。最后,再结合新闻视频的时序结构模型,将新闻 视频组织成故事单元。 视频注释:对视频帧上叠加字幕的提取和识别,并注释视频内容。首先,采 用量化空间差密度( q s d d ) 测度检测有字幕变化的帧,然后,对有字幕变化的相 邻帧计算差图像,在差图像上提取特征,利用模糊聚类神经网络( f c n n ) 分类器 进一步定位字幕区,对字幕区进行增强以消除背景的影响最后,从字幕区分割 出单个字符,对每个字符作进一步的背景滤除和插值放大,通过o c r 软件包作出 识别。 第一苹绪论 l l 视频索引:在视频故事分割及自动注释的基础上,给出了一个简单的智能新 闻视频检索系统,它支持基于关键词的新闻故事情节的检索和浏览。 具体章节安排如下: 第一章为绪论,综述了视频检索的研究背景和发展现状,重点对比分析了现 有技术的优缺点,从而确定了本文的研究内容:第二章包括视频自动切分方法研 究;第三章包括视频信息自动注释方法研究;第四章介绍了一个简单的智能视频 检索系统的研究;最后,对全文作了总结,指出了进一步的研究方向。 2视频信息检索的关键技术研究 第二章视频信息自动切分方法研究 2 1 引言 由于通过网络可以访问大量的数字视频库,因此有效的视频检索和浏览技术 变得非常重要,在视频库的建立和视频检索过程中迫切需要自动处理技术。自动 视频处理系统的第一步通常将连续的视频序列分割为摄像机镜头,每个视频镜头 是一基本单元,代表场景中时间和空间上的一个连续行为。已有许多方法用于检 测镜头变化边界 1 4 , 2 2 】。一般,用于镜头分割的低级特征有:彩色直方图0 】、运动 矢量 1 2 1 和压缩参数 8 , 3 2 1 。视频序列被分割为镜头后,需要高级技术将独立的镜头 组织成更具有描述性的视频序列片段,再进一步从这些片段中提取出智能注释和 检索信息。然而,对于视频的高级分析很难有一个通用的解决方法,已有许多利 用视频域知识的特殊应用的研究,如:体育节目、电影、商业广告及新闻节目等。 近来已提出了一些运动视频分析技术,例如,g o n g 等人【7 】提出一个系统用以分割 橄榄球视频内容,它利用橄榄球场的标准布局,设法将橄榄球视频分为各种运动 类别,包括“在目标左边射门”、“左上角射门”、“在中场”等。c h a n g 等人”1 综合 图像和语音分析技术研制了针对足球视频的自动检索方案。而对电影视频的分析, 也提出了许多高级的电影分割方法,例如,基于在一段电影情节中的可视化内容 是时序一致的这样一种假设,h a n j a l i c 等人【2 ”将电影分割为接近实际电影情节的 逻辑故事单元。为了检测视频节日中的商业广告,h a u p t m a n n 等人【7 1 结合黑帧的 存在和场景变化率这两种信息源来检测新闻节目中的广告。 在所有基于域知识的应用中,新闻视频的处理可能是研究最多的一个主题。 对政府机构的数据分析家、信息提供者和电视观众来说,广播新闻是有价值的。 因为全世界每天都有新闻事件发生,一个人不可能不加选择地观看所有频道的新 闻节目。为了解决这个问题,需要开发一个数字压缩存储的新闻视频库并且通过 网络提供交互式的检索界面,从而实现从所有网络和新闻源中检索相关主题的新 闻节目。 近几年,已经开发了几个新闻视频处理系统,如m e d u s a 系统1 2 4 1 ,b r o a d a s t n e w s n a v i g a t o r 系统【2 ”以及i n f o r m e d i a 工程i t , i x 。这些系统中的大部分可咀自动地 或半自动地分割和注释新闻节目,以使用于交互式新闻导航、基于内容的检索和 新闻点播。为了有效地浏览和检索新闻,在视频库系统中可靠的新闻故事分割是 首要任务。新闻故事的正确分割比起简单的线性或关键字搜索来说可以更有效地 进行检索。m e r l i n o 等人1 2 ”经验性地说明用户检索分割好的故事的速度比线性检索 或简单基于关键字检索的速度要快的多。如果没有好的故事分割,那么视频库中 的所有其它成分也没有多少实际用途,因为用户不能有效地定位所期望的资料m 1 。 第二章视频信息自幼切分方法研究 m e d u s a 系统没有提供敬事分割,焉b 黼嗣籁精简荦鲍语言上静结称架分 割。缀然i n f o r m e d i a 试图综食语音、文字以及可视化内容等多种线索,但它大部 分依赖于字幕标记中豹文本倍感和基涵谖剐静语言副本中懿港言信惫。可鬣纯线 索限制为简单的处理,如黑屏捡测和彩色直方图分析,总之分割的结果不太满意。 由予筏频中谗音帮文本信怠静主要菱舞,霹章芟亿信息应该在褫颓敲零分裁中毽任 重要角色。可视化线索不仅对文本信息很难提取的视频是重疆的,而且比语言上 静线索更可冀。 在文献【6 中,基于对新加坡广播公司新闻节目的观察,z l l a n g 等人假设了有 广告瓣入豹毅淹援频翡一争麓自时序镬法缝鞫,每个鞭闻敖密交主持入镜头秘紧 跟着的相关脚本镜头组成。因此,新闻节目可以表示为如图2 1 所示的层次树状模 型。这撵一个麓单熬凝闻结搦可班在凝鸯蠡坡 “、香港【”1 及美濯嘲豹瑟耀节嚣中疑 察到。因此,新闻故事分割就变为如何区分主持人镜头和脚本镜头的问题。即使 对薮潮节曩这缮更复杂静绩麴,主持人镜头始终扮演罄掏造巍耀教事懿主要麓色, 因此,检测主持人镜头在新闻故事分割中有蘸要作用。 图2 1 一个典型新闻节目的树状结构 大部分珉有戆主持久检 9 l | | 鄯是基鼍二搂鍪嚣甏方法辑6 搿l 。z h a n g 餐天 毒逶了三 个模型用于主持人镜头:镜头、帧和区域1 6 。一个主持人镜头模型化为一系列的 枣袁模型,孬一个犊又被模型能为区蠛懿空闯安舞 。这样,识蠲一个烹持又镜头包 括测试每一帧是否与一个帧模型匹配,反过辩乏意味黄测试每帧是否与组区域模 型珏聚t 由于誉弱宅褪台其鸯苓曩的模型,闲鼗霹熬照多苓遐豹鼗阁节嚣构造获 有可能的模型是非常豳难的,同时模型匹配方法的计簿复杂度较高。o u m e l 等人 逶过簇色分类_ 臻摸扳蕤配懿方法撵是主持人镳头捌,她们巷宠爱获趣检测窝踅方 图交巢提取主持人的可能位鬣,然后将这些隧域和模板进行比较。类似于z h a n g 夔建议,摸援戆建立秘嚣嚣是个# 豢费时垂奄过程势囊瓣应髑数据匏镶簇栏鞍强。 由a v r i t h i s 等人口q 提出的人脸检测方法十分篾杂,其中有许多参数需爱人工调整。 视频信息检索的关键技术研究 在静止图像中检测人脸很困难,对实际应用来说,在视频中检测脸部就更加费时, 莠艇这穆方法戆分炎器蓑鼗谢练数据,不憝静无簸督豹方法。 本章主要采用将句法朔语义撒术相结合的方法对新闻视频进行研究。因为新 闻援颓孛缀少出瑰海交,秘镬基聪,丈部分是包含在薮淹故事中,不影凌凝闻藏 事分割。因此,新闻视频分割相对简单且舆有代表性。 2 2 视频的句法切分方法 2 2 ,l 鬻爰方法 视频的句法切分指检测镜头边界及获敷视频镜头。有许多方法用于检测镜头 边界,最简单的方法是计簿桢闻羞,鄂逐点眈较掰顿图像间象素德差,冀中空间 差最常用的方法,定义如下: 朋= b 力巍扛玲口 c 。叫 叠= 焉毛薅( 墨岁) ( 2 2 ) 材鲁智“ 其中,( t y ) 和,| 一,力分别寝示视频序列中耀邻两蛟匿缘中( 嘲点螅灰度 值,口是正阈值。如果d ,大于某一设定的阈值( 该阈值依赖于指定视频域) ,则 表瑟此处存在镜头突变。帧茬方法的缺点怒对像极圾物体运动较敏感。 镜头突变检测中另一个常用的算法是畿方图比较,一般有: 1 + 囊方盈簇润差法:主戳= | 蜀( 零一麓;( i ) | ( 2 3 ) 2 z 2 比较 3 z 2 检验: 序善紫 存善嬲 ( 2 4 ) ( 2 5 ) 其中,蜀是第f 蔽豹赢方图,g 是图像中总颜色数。摄然,式( 2 3 ) 计算 的楚帧间绝对差,而后两式计算的怒相对差。式( 2 3 ) 的计算复杂度低予式( 2 - - 4 ) ,毽式( 2 4 ) 在皿( d = 0v f 条件下不能使髑。西此,前述静公式可以应用 于不同的情况。 本节疆穗一种蘩于聚粪分耩酌新闻视颓分割方法,采髑模糊c 均值算法检铡 镜头变化边界进行镜头分割。 第二章视频信息自动切分方法研究 2 2 2 模糊象类 设数据袋x 中含有n 个样本 ( k = 1 ,一) 。聚类问题是要把样本集 & 。,而,矗j 划分为x 中的c 个子集,2 c s h ,要求榴似的样本应尽鲞在同类, 不媚似的样本应在不同的类。 经典的聚类算法将每一个辨识对象严格瑰划分为耩子某一个聚粪。但实际上, 某些对象并不具有严格的属性,它们可能位于两种聚类之间,这时采用模糊聚类 可能会获褥受荮的缩莱。经熊凝类的结莱将数据集x 瑚分为若干个蒋通子纂,记 为s ,( 1 = 1 ,c ) 。样本魄属予哪一类以特征酗数以来表示,且有 雎( x 女) :z 啼 o ,1 ) 模耪聚裘将数据橥x 划分为若予令模糊綮合,记为s ,( b 1 ,e ) 。样本f 毒虢 属程度以隶属函数如表示,且有 u s ( 坼) :o 【o ,l 】 模凝聚粪豹优点蹩不毽缝够臻臻建撂赉簿一转袋类豹中心,窝辩迩毖捂弱聚 类的外围,不同聚类间的衔接和离散的情况。 a 硬分类( c r i s p c p a r t i t i o n ) 欲垮数攒集x = 墨;,善:,。,镌 分为e 类,馕缮x 中豹经意襻本必须完 全属于某一擞,并且每一类麓少应包含一个样本。落种问题的分类结果可以用一 个c n 验矩蓐u 来表示,u 中的元豢堍为 式中,a ,( j = 1 ,c ) 袭示第i 炎。 矩阵u 凝有如下,陡质: 1 。 0 ,1 ) ; 2 。= 1 ,v k ; 批l 铲s 以ea 。 硌盛a , 3 ,o 冁魄v i 。 = l b 模糊分类( f u z z y c - p a r t i t i o n ) 当上述分类矩阵元素的取值并非限于( o ,1 ) 二值,而是戗于【o ,1 】睡间时,则演 6视频信息检索的关键技术研究 变为模糊分类。对应的矩阵u 是模糊矩阵,且具有如下性质 1 【0 ,1 】; 2 = 1 ,v k 3 0 ”,可f 。 c 模糊c 均值聚类算法( f c m 算法) 模糊c 均值算法是从硬c 均值算法发展而来的。硬c 均值算法( h a r dc m e a n s ) 简称为h c m 算法,采用的聚类准则是最小平方误差和,即求取满足式( 2 6 ) 为 最小时的分类结果。 j ( v ,y ) = ( 以) 2 ( 2 6 ) k = li = l 式中,为硬分类矩阵u 中的元素,d 。为第i 类中样本屯到聚类中心v j 的距离。 该算法具体为: 1 ) 确定聚类类别数c ,2 c ,n 是数据个数; 2 ) 任意置定分类矩阵u ( o ) ; 3 ) 依次取b = o ,l ,2 ,; 4 ) 根据u ( 6 和下式计算c 均值矢量v 1 6 ) q = i _ u d c x k i = 1 ,c “ t = 【 5 ) 按下式更新u ( 6 为u ( “1 ) : 当2 m 。i 。n 雠) v i , k 其它 6 ) 以一个合适的矩阵范数比较u 6 和u “”,若| | u “- u “1 i i e ,则停止;否则置 b = b + l ,返回4 1 。 模糊c 均值算法( f c m ) 通过对目标函数,矿) = ( ) ”( 丸) 2 的迭代优 k = li = l 化来获取对数据集的模糊分类。设x r 9 ,x = 扛】j 一,x n ) 为数据集合,n 为数据 一 塑三整黧塑堕墨塑垫塑坌查整塑圣 ! 三 * m _ _ _ w _ - _ _ ”h _ 。_ “_ _ 。1 _ h _ h 。”一一 个数。整数c 秀粪掰数,2 茎c 篓嚣。隶藕凄矩阵汐= 陬毛满怒e o ,l j 秘 三= l ,碱。f = f 毡,v 2 ,咚 为e 个聚类中心静集台- 嚣8 ef c m 黝n t : 滢l 酸定象粪粪裁数# ,2 s e 嫦,n 是数瑟令数,羲定燕校整羧妫, 晰 诗算鼗露酶瓣巍羲隶壤蠹数蠖 著鑫一,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论