已阅读5页,还剩119页未读, 继续免费阅读
(通信与信息系统专业论文)视频流分层传输与流中文本识别.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 f 随着网络技术与资源的发展,基于呵络的各种视频应用越来越普遍对于网络 视频传输技术提出了更高的要求因此提高基于各种网络类型的实时视频业务传输 质量,成为当前研究的热点领域之一。另一方面,随着以视频为媒体的各种信息量 迅速增长,如何准确有效的实现基于内容的视频信息索引成为一个迫切需要解决的 课题,而刹用视频流中的文字信息来描述视频内容的技术是目前一种很有潜力的解 决方案夕 本文的研究工作包括两个方面:首先提出了一种视频与图像中数据丢失的重建 算法,以此为基础对基于网络的实时视频传输方案进行了研究提出了信源端分层 编码方案、数据流组织方案以及接收端后向处理方案。其次我们在视频流中文本 信息的检测与识别方面开展了研究工作并提出了相应的理论模型与实现方法,结 合到实际应用系统中时,取得了良好的效果 ,在基于网络的实时视频传输方面我们进行了如下的研究并取得了一定的成 果卜在接收端,我们以变换编码技术为对象,对于图像子块受损的信息重建问题进 行了深入分析,建立了利用图像子块边界信号重建丢失信息的模型同时我们对变 换基信号子块边界分量空间进行了分析,并且提出了基信号子块边界分量空问标准 正交基的构造方法,以及以此为基础的一种利用利用图像子块边界信号重建子块变 换系数的抉速算法我们还介绍了这种技术在消除变换编码方块效应中的成功应用 以接收麓丢失信息重建技术为基础,本文对a t m 网与分组交换曝的传特性进行 了分析针对a t m 甩中v b r 业务与分组交换网分别设计了相应的信潭墙分层壤码 方案以及视频蠢组织方案同时在接收蜡对于分组与信元的丢失目履提出了相应 的丢失信息l 疆【方案 视频流中文本信息的检测与识别包括3 方面的工作:视频漉中文本区域的检测 与定位;文本区域中字符目标的检测与提取;字符目标的识别本文在这三方面的 研究工作上都作出了一定的贡献。首先我们通过对一般视频图像中文本信息信号 特征的分析建立了视频流中文字区域的检测模型,并提出了一种利用图像的多尺 度模糊处理与小波理论中的多分辨率分析,结合区域整体特征与纹理特征的文本区 域检测技术;在字符目标的检测方法研究中,我们建立了一般性目标集合中满足一 定规律特征目标子集的检测模型,提出了一种利用文本区域中字符目标空间分布规 律的检涓方法并且在实现中我们提出了距离生成矩阵的概念 ;【及利用距离生成矩 阵的快速实现技术;字符目标的识别包括提取字符识别特征与识别两个步骤提取 字符识别特征时,我们提出了字符的粗骨架概念以及相应的基于非细化处理的字符 骨架特征提取技术。在这种技术中,通过对字符按部件的分解、局部骨架提取、整 体骨架连接实现了对字符几何形状在一定尺度上按骨架的描述根据骨架特征利 用的图论的理论与方法,我们提出了一种提取包括笔划特征与笔划结构特征的字符 识别特征的提取技术。在识别处理中,我们利用字符的笔划特征并引入模糊识别理 论,提出了一种具有良好抗干扰性的快速字符识别技术芦。 关键词:粗骨架、字符识别、信息重建、分层编码、多分辨率分析 a b s t r a c t t h ev i d e o a p p l i c a t i o nb a s e d o nn e t w o r k sb e c a m em o p o p u l a r a c c o r d i n g t oi m p r o v e m e n to ft h et e c h n o l o g ya n dr e s o u i e eo f n e t w o r k ,a n dr e q u i r e m e n t f o rn e w t e c h n o l o g yo f v i d e o i r a n s m i s s i o nv i a n e t w o r k 迄i m m i n e n t i m p r o v i n g t h eq u a l i t yo ft r a n s m i s s i o ni nn e t w o r kb e c a m ea i la c t i v ef i e l do fr e s e a r c h c u r r e n t l y 0 nt h e0 t h o rh a n d ,h o w t oi n d e xt h ec o n t e n to fv i d e oi n f o r m a t i o n e x a c t l y a n de f f i c i e n t l yi s8 v e r ya t t r a c t i v e g i o no fr e s e a r c hw i t ht h e i n f o r m a t i o nb a s e d0 1 1v i d e oi n c r e a s i n gq u i c k l y , a n di ti sav e r yp o t c n f i a l m e q h o dt h a ti n d e x i n gc o n t e n tw i t hu t i l i z i n gt h et e x ti n f o r m a t i o ni nv i d e o s 嘶s t h e a r et w or e s e a r c hw o r k si si n v o l v e di nt h i st h e s i s f i r s t , a na l g o r i t h m o fd a t ar e c o n s t r u c t i o ni nv i d e o sm a di m a g e si s p r o p o s e d b a o nt h i s r c e o n s t r u c t i o nt e c h n e l o g y , w e d e v e l o p e d t h ep r e c e p to f l a y e r c o d i n 嘲i ns e n d e r , t h es t r u c t u r eo fd a t as t r e a ma n dt h ep r e c e p to f p o s tp r o c e s s i n gi nr e c e i v e rw i t h a n a l y z i n gt h es c h e m eo fr e a lt i m et r a n s m i s s i o no fv i d e oi nn e t w o r k t h e s u c e c a s f u la p p l i c a t i o no fb a s e d0 1 3t h i st e c h n o l o g yi nb l o c ke f f e c tr e d u c t i o no f t r a n s f o r mo 州l i n gi sa l s oi n t r o d u c e di nt h i s 拼币s e c o n d l y , 。w er e s e a l r , h e dt h e d l 衄:t i o na n d r e c o g n i t i o nt e c h n o l o g yo f t e x ti n f o r m a t i o ni nv i d e os t r e a m , a n d e o n e g p o n d i n gr e a l i z a t i o nm e t h e di sp r o p o s e d n 璩t h n o l o g ys h o w e dg r e a t e f f e c tw h i l e 皿m di nr e a la p p l i c a t i o r l w 弛t h er e s e a r c ho nr e a lt i m e 血锄啮珂_ i 5 咖o f v “i o o w et a k es o 蛳 翻霄总薅sf o l l o w s , a tt h er e c e i v e t , w ea n a l y z e dt h ep r o b l e m w i t h i o n o f i n f o r m a t i o n l o s t i n i m a g e s u b - b l o c k b a s e d o n c a m f o r m a 血喧o f 如峨a n dat e c h n o l o g yo f l o s ti n f o r m a t i o nr g o o i l a t n 删o nw i t h a 缸n 翻瑚堍f a s ta l g o r i t h mo f s u b - b l o c ki n f o r m a t i o n 瑶a 塔订u c t i 0 咀b a s e d o n t h e b o u n d a r y i n f o r m a t i o no f i m a g es u b - b l o c ki sp r o p o s e d a tt h es m l l e t i m e , w ea p p l i e dt h i sm e t h o di n t or e d u c t i o no f b l o c ke f f e c t si nn 郴f 0 1 1 1 1 e , , c u n gs u c c e s s f u l l v b a s e d o i lt h i st e c h n o l o g yo f r e c o n s t r u c t i o n , w ea n a l 强e d t h et r a m s m i tc h a r a c t e a i s t i co f t m a n d p a c k e ts w i t c h i n gn c t w o r k t h e np r o j e c t o f l a y 日c o d i n g i ns e n d e ra n df o r m a to f v i d e os t r e a ni sp r o p o s e d r e s p e c t i v e l y a tt h e r e c e i v e r , t h em e t h o d o f l o s ti n f o r m a t i o nr e c o n s t r u c t i o nw a s p r o p o s e d f o rt h e p r o b l e mo f p a c k e t o rc e l ll o s ti nt r a n s m i s s i o n 一 t h er e s e a r c hw o r ko nd e t e c t i o na n d r e c o g n i t i o n o f t e x ti nv i d , o $ t r c a r l i n c l u d e s3t e c h n o l o g i e s :1 ,t h ed e t e c t i o na n dl o c a t i o no f t h e t e x t 托# o n i n n l v i d e os t r e a m :2 ,t h es e g m e n ta n dd e t e c t i o no f t h e t a r g e tc h a r a c t e r i nt h et e x t r e g i o n ;3 ,r e c o g n i t i o no f t h e t e x ti n f o r m a t i o r li nt h i sp a p e r w ed os o m e c o n t r i b u t i o no rb o t h3r e g i o n s 。砌t h e s t u d yo f t h es i g m l f c a t t 艋e so f t e x t i n f o r m a t i o ni ng e n e r a lv i d c oa n d i m a g e ,w ed e v e l o p e d ar e c o g n i t i o nm o d e l w i t ht h ed e t e c t i o no f t h et e x tr e g i o n , w e p r o d u c e d ad e t e c t i o nm o d e la n di t s a c h i e v i n gm e t h o dw i t h 也e 窑l o b a la n d l o c a lt e x t u r ec h a r a c t e r i s t i co f t e x t r e g i o nb a s e d o i lt h et e c h n o l o g yo f m u l t i - r e s o l u t i o na n a l y s i si nt h e o r yo f w a v e l e tw i t hb l u ri m a g ei nn l u l t i - s c a l e w i t ht h ec h a r a c t e ro b j e c td e t e c t i o n , w c d e v e l o p e d ad e t e c t i o nm o d e l o f g e n e r a lo b j e c tb a s e d 0 1 1s o m o r e g u l a r i t y a n dad e t e c t i o n t e c h n i q u eo f c h a r a c t e r o b j e c ti nt h ei m a g e i sp r o p o s e dw i t ht h e r e g u l a r i t yo f s p a t i a l d i s t r i b u t i o n af a s ta l g o r i t h mi si n t r o d u c e df o rd e t e c t i o n o f c h a r a c t e r o b j e c tw h i c hu 矗l i z i n gt h ed i s t a n e 冶霉既峙f 砒em a t r i x i n c h a r a c t e r r e c o g n i t i o n , w op r o p o s e dac o n c e p to f r o u g hs k e l e t o n ,a n dd e v e l o p e da t e c h n i q u e o f s l 【c l e t o ne x t r a c t i n gb a s e do n n o n - t h i n n i n gp r o c e s s o f c h a r a c t e r s v i at h r e es t e p s :c h a r a c t e rd i s c o m p o s o db a s e dc o m p o n e n t 。l o c a ls k e l e t o n e x t r a c t i o na n d g l o b a ls k e l e t o nc o n n e c t i o n t h 饥u f i l i z o dt h e s es k e l 眈o nt o f o r m a d o s c r i p t i o n w i t h t h e f c a t l l r e o f s t r o k e s a n d s t r o k es t r u c t u r e b a s e d 0 1 1 t h e t h e n r ya n d m e t h o d o f g r a p ht h e o r y , a n df u z z y r e c o g n i t i o nt e c l m i q u ei s i n m l d u c e dt oa c h i e v ec h a r a c t e r r e c o g n i t i o nw i t he x c e l l e n tr o b u s t k e yw o r d :r o u g h s k e l e t o nc h a r a c t e r r e c o g n i t i o n i n f o r m a t i o n 玎x d n 酬t q c 妇l a y e rc o d i n g m u l t i - r e s o l u t i o na n a l y s i s 辫 枣j j 3 :t i v 。0 0 f o :;。土:! 疗: 篡嚣 d 、 , , 祝颅流分层传榆与流中文本识别 第一章绪论 基于各种网络传输手段的实时视频业务在实际应用与研究方面都是十分活跃的领 域,而两络传输过群中出现的数据丢失问题对丁实时视频业务的质量有很大的影响。 为了解捷这一问题而提出的误差隐藏( e r r o r c o n c e a l m e n t ) 技术涉及到信源编码、数据流 组织以及接收端后向处理等多方面的技术。同时随着信息数量的迅速增氏,近年来视 频流的内容描述模型与实现技术成为研究的热, 点2 _ - - c s w 9 4 ,而通过对视频流中文字 信息的检测与识别来描述视频流内容,是一个很有前景的课题。 本文主要研究:图像与视频流数据丢失的重建技术,保证q o s 、具有信道适应能力 的图像与视频流分层传输技术和视频流中文本信息的检测与识别。对r 图像数据丢失问 题,本文提出了利用边界信息重建丢失图像信息的理论模型与实现技术。在视频流分层 传输方面,我们以图像丢失数据重建技术为基础针对实时视频传输,提出了信源端视 频流的分层编码方案、数据流组织方案与相麻的接收端后向处理方案。在视频流中文本 信息的识别方面,研究了视频流中文本 覆域检测、字符目标提取以及字符识别等方面的 技术,并提出了相应的模型与实现方法。咀f 介绍国内外的研究进展与本文的研究工作。 1 1 基于网络的实时视频传输 1 1 1 基于分组交换网络的实时视频传输 网络带宽资源与计算机处理能力的迅速增长,使得基于网络的实时视频业务越来越 引起人们的注意。在分组交换网中,通常数据分组( p a c k e t ) 是阻分组交换、最大能力 递交的服务方式实现传输的,因此基于分组网的视频传输常会引入无法接受的传输时延; 在a t m 的可变比特率( v b r :v a r i a b l eb i tr a t e ) 业务中,同样无法实现实时视频业务所 需要的服务质量( q o s :q u a l i t y o f s e 珧- e ) 。 另一方面传统的视频圈像压缩编码方案对于网络传输错误不具有鲁棒性,在这些编 码方案中,基r 无误差传输信道假设,为了追求压缩效率尽可能的去除信息中的冗余 ( r e d u n d a n c y ) ,而没有考虑在有误差的网络传输环境中,如何保持视频业务的稳定性 ( r e s i l i e n c e ) 。在大多数视频编码方案中引入了时域差分编码技术,使得编码视频流中数 据之间具有缀强的依赖性。当视频流中的帧刨像受损时,会导致后续的一系列帧受损。 住a t m 的v b r 业务与分组交换网实现高质量视频服务是一个十分活跃的研究领 域,目前研究。i 作2 一链设计一种简单的、稳健的误著隐藏( e r r o r c o n c e a l m ,- t t ) 与编码 策略。其研究方向可劈为两类:与信源编码无关( s o u r c e c o d e r - n d e p e n d e n t ) 曲技术毗及 依赖:r 信源编码( s o u r c e c o d e r - d q n t e n t ) 的技术1 w s l + 0 0 ,如图1 1 。 与信源编码无关的技术一股假设不具有关于信源编码策略的先验知识根据实现误 差隐藏的阶段又可分为三种:基于发送端的技术:基于接收端的技术:基于发送端与接 收端的技术。依赖于信源编码的技术中,根据不同的信源编码策略采取不同的方法来实 现误差隐藏,按照信源编码与信道编码在误差隐藏处理中的作用,这类技术可以分为三 种:基于信源编码的技术:在信源编码中增加冗余信息;基于信源与信道编码的技术: 根据信源编码策略来设计信道编码方案,在信道编码中加入冗余控制信息;联合信源信 道编码方案:根据信道模型设计信源编码。 1 1 2 i 与伯谭编码无关的方案 与信源编码无关的误差隐藏技术可以分为三类 a 基于发送端的误差隐藏技术 基于发送端处理的误差隐藏技术中,在信源端采用智能分组( i n t e l l i g e n t p a c k e t i z a t i o n ) 方案来防止两类由于分组丢失引起的误差扩散。 首先由于在备类编码标准广泛引入了游长编码v l c ( v a r i a b l e l e n g t h c o d i n g ) 技术 分组丢失常常会造成码流中的同步信号丢失,从而导致后续的正确接收的分组数据无效。 一种方案采取将视频码流按同步点分组田h 9 嘲,如果一个同步单元( 如m p f 丑3 与1 1 2 6 3 中的g o b ) 无法装入个单独的分组,则按较低层次的语法单元( 如宏块) 进行分组。 2 :。! 堕堂竺竺墨堕主查查堡型 : 其次由于大多数视频编码方案中采用了时域差分技术( 如运动估计算法) 以实现更 高的压缩效率,当出现分组丢失时,为了防止由于采用时域技术所带来的误差扩散可 咀采用基于树的分组分配方案 c 口7 卜 b 基于接收端的误差隐藏技术 基于接收端处理的方案是受到人类视觉系统h v s 对图像中不同频率成分的感觉强 度的启发,这类方法的处理过程通常是在空域、时域或频域进行,也可以是组台的方法。 空域恢复 空域恢复技术利用视颖信号的平滑性假设其中类方法是通过最小化丢失的图像 块与周围块在块边界上的像素之间的差分能量和来恢复丢失的图像块,这类方法 w z l 9 3 、 z w z 9 8 1 常导致重建图像中的边缘模糊。另一类方法中,通过使沿着图 像中边缘方向咀及局部的几何结构的方向的方差晟小化来恢复图像,这类方法要求 能够准确的检测图像中的结构特征 k s 9 3 、【s h 9 7 、【z l 9 9 ,一旦检测错误将在重 建图像中引入显著的噪声。 2 ) 时域恢复 时域恢复技术利用视频信号在时域的相关性当视频流某帧图像的一个子块损坏 时,用该子块在前帧图像中按照运动补偿规则所对应豹子块作为对损坏图像子块 的估计这种方法- g s 9 3 1 、理科9 4 】的难度在于需要帧间子块运动信息的先验知识, 而且这种方法不适用于某些情况。 3 ) 频域恢复 频凌蟊刳如r 【a f 9 5 】、阻m 9 5 降懈子块中的每个频域系数进行插值恢复,插值过 程利用相邻的4 个子块中列应的频域系数,由于相邻块对应频域系数之间的相关性 较小,因此这种方法的恢复效果不理想。 还有其他些方法利用上面三类技术的组合以重建丢失的视频数据,最大平滑恢复 技术将视频信号的平滑性假设进行扩展,利用了视频信号在空域以及时域上相邻成分之 间的平滑性假设【z w u 3 】。凸集投影p o c s ( p r o j a o no n t o i ws e t s ) 技术s u i 【凶5 、 m m 9 8 】用凸集来表示视频信号在空域以及频域上的平滑性约束条件,并迭带求解。这 种方法中通常运用遗传算法( g m e t ca g o n t h m ) ,需要进行反复迭带处理,直到定义的 代价函数达到预设的停止门限。除了计算复杂度的因素以外,仅根据接收端的后向处理 结果而不考虑发送端的编码方案,将难以得到高质量的重建图像。 c 基于发送端与接收端的误差隐藏技术 在这类方法的误差隐藏处理中同时利用了发送端以及接收端 3 堵沧 1 ) 前向误差校正f e c ( f m w a t a e r r o r - c o r r e c t i o n ) f e c 技术 u a 9 0 】、 t , q 3 r 9 8 曾在视频通信中提出由于这种方法既增加,传输带 宽,同时还引入了较大的解码延遮,园此很难以应用于实际的分组交换网络业务。 2 ) 重传技术 在采用丢失分组重传的方案中,解码器等待丢失的分组数据重新传输到达后才继 续视频的播放进程。这类方案会带来较大的传输时延,不适用于实时的视颓流应用。 在一些较为复杂的视频解码方案中,在解码时不等待重传的分组,而采用固定的算 法恢复丢失的分组 c , h a n 9 6 。而当重传的分组还未到达时,如果又发生了分组丢失, 应用这种方法处理时,就会产生困难。 在这类方案,g s r 9 5 j 、f r p 9 2 j 中,图像中的像素在传输时被重新捧列使得当分 组丢失时,可以邻近的像素恢复丢失的像素。当邻近像素之间具有很高的相关性时, 这种方法可以得到很好的效果,而在处理邻近像素之间能量变化较大时,这种方法 并不适用。因此在 w s 9 9 q ,种近似的线性变换处理过程被用于提高图像的重建 质量。 1 1 2 2 与信源编码相关的方案 a 在信潦编码中增加冗余信息的方案 对于传统的信源编码方案,由于在压缩过程中,视频信息中的冗余已经i 铺蚨限度 的消除以得斟最大的压缩效率,在接收端对于在传输中丢失的信息进行重建是项粮圈 难的工作因此在信潦编码时有意识的加入定的冗余信息就成为一条增加视频传输稳 健性的有效造径 1 ) 稳健的熵编码r e c ( r o b u s t e n t r o p y c o d i n g ) 方案。 稳健的熵编码方案是为了降低由于分组丢失所引起的误差扩敬影响在这类方案 中一种途径是通过在视频码流中周期性地插入同步码破8 4 、 u t 9 2 1 、 t s 9 1 。 另一种技术已经披选为i v l p e g - 4 的误差控制方案i s i k 0 9 7 ,其中采用了可逆的v l c 技术,这种方法通过刚氐编码效率提高了传辅的稳健性 2 ) 约束预测域r p d ( r e s 研c n 窑舯甜i 曲d o n l a i l l ) 方案 这种方案用于处理由于时域差分编码所引起对分组丢失的敏感性。这类技术例子如 h 2 6 3 标准中的相关技术方案独立的段解码技术( i n d e p e n d e n t s e g m e n t d e v a & n g ) 与动态参考图选择( 咖缸删概埘:”e s 缸吲) 技术这些方法只能改善由 于预测编码所引起的误差扩散现象 4 祝颇漉分层传输与流中文奉识s 3 ) 分层编码【( 1 a y e l 日曲啦) 方案 - 。 _ 分层编码在过去几年中在朋m c r 9 6 j 、无+ g 网络阵,蚓噼四相关领域的研究 中十分活跃。i c 中,将视频数据划分为基层i 幻口j 与若干增强层( 唧k 憾m 自叫 l a y e r ) ,基层包含了视频信号中视觉上的重要数据。接吱端视频信号再生时;基层 数据能提供可接受的视觉质量:而增强层中则包含了细节上的补充信息用以产生 高质量的视频服务对于提供优先级支持的网络环境,基层数据披赋予较高的优先 级,当网络出现拥塞等恶劣情况时,基层数据可以保证较高的传输可靠性分层编 码在a t m 网络中的应用十分普遍,但是不适用于 n l e ; n e t ,这是由于首先而d 不提供优先级支持,其次当分组丢失率较高时,如果基层数据丢失,则很难于重建 丢失的视频信息。 4 ) 多描述编码m d c ( m 嘲础埘r 日,如nc o d i n g ) 方案。 在m d c 中,视频码流披划分为若干子流,在接收端基于每一子流都可以重建可接 受质量的视频信号,而利用多个子视频流则可以重建较高质量的视频服务。在m d c 中假设不同子视须流的分组丢失率是彼此独立的,因此多个描述同时丢失的可能 性很小。m d c 有多种实现方案:在标量量化方案中 b v 9 7 1 、i s 烈悄+ 0 0 1 、f 、匈s 9 6 1 最佳索引分配( 印咖耐m 妞a s s i g n m e n t ) 在实时应用中很难实现因此往往采用次 最佳方案,例如a 2 索引分配m j 删就引入了较大的额外比特率开销另外种聪 明配对相关变换p c r ( p a i r - w i s ec o r r e l a t i n ga a n s f o r m ) ;蠛o w v a 9 7 、刑d r 9 7 1 中,在每对变换系数之间引入相关性,然后两个变换系数分配到不同的视频子流中 去,这种方案在编码效率方面表现出色但是对于基于单独每个子视颜描述漉的重 妻参 二+ h 根据信鼍壤码类蠹采设计慵道编码的方案 ? ;。i ,i 颟方案酗蜘躐皎硇鲫冽、眦嗍( 蝴嘶鼬) 耕虢 援业务对分组丢失的l 蕾齄牲逸睁方案局f e c 的不同之处在于其混釜保护赍飘构喳耀 是同信深鳊码密切相关的,”懒在i 6 3 编码器中i 帧将受到更多的保护在实际应 用中必须谨慎的选用这种方案,因为视频业务需要消耗大量的带宽资源。 c 根据信道模型来设计信源编码的方案( j s c c ) 在j s o c ( j o i n t 跗ec h a n n d c o d n g ) 中,根据给定的信道误差模型来设计联合 量化器与信道编码器使传输误差最小化口) d 6 9 5 】、 w g o 。对于噪声信道环境,这种方 法通过在信源与信道编码之间传辅带宽资源的最佳分配来保证视频业务的稳健性。但是 这种方法同样不适用于胁m 耐环境,由于实际的血幻删耳毙目前还无法用个确定的 信道模型来较好的描述 5 绪论 1 2 视频流中文本信息的检测与识别 实现对视频图像基于内容的管理关键点是有效地建立关于视频图像内容的索引 ( m e x ) 。目前实际采取的解决方案分为两种:种是采取人工的方式对图像的内容 进行观察并给出图像的分类以及对内容文字描述信息作为索引,这种方法虽然简单但 建立索引需要较长的时间与较多的人力,而且索引信息由主观印象决定缺乏客观的评 价标准另外一种方案是建立图像内容描述的模型根据图像内容分类与描述,运用计 算机技术对图像内容进行分析与处理建立基于图像内容的索引信息这种方案处于发 展阶段涉及到图像处理、模式识别以及人工智能的许多领域。 于是各种视频图像内容分析方法被提出,这些方法可以根据出发点的不同分为两大 类:第- - 燃g j s 9 5 、【w k s s 9 6 】对图像中的亮度、色调与纹理信息进行分析从而对 数据进行解析、索引与摘要。另一方面视频图像中的各种文本信息从某种角度反映了 图像内容的重要信息固枷】,因此视频图像中文字信息的检铡与识别,对于我们建立内 容索引具有重要意义,本文中的工作之一正是研究如何实现视频流中各种文字信息的检 测与识别。 通常情况下,视频图像中文字信息的实时检测与识别技术包括以下几个方面的研究 工作:视额流中文字区域的检测( d e t e c t o n ) 与定位( h 耐妇出h ) :文本区域中字符目 标的检测与提取;字符的识别 标慝呶杼号反映了酏内莉铺i 的蓟聃唪母蛭将这些 来首先面临的个问题就是确定相应的文本接湛在盈像区域 中的位置如何准确、可靠的检测与定位图像中的文本区域是十根困难的课嚣,首先 在幅图像中,不同位置的文本之间字符尺寸的变化范匿可能很大;其次i 不伺龃文 本之间的字体t 包可能不同;而且在视频内容的不同图像帧中同文本的位置可能是不 断变l 匕的以及文本的捧歹坊向等各种情况。要实现个理想的,辘够捡麓所有闺像背景 下- 以任何稻式存在的文本区域的定位力怯,在目前还具有根大的黻当肃确许多文 献对这一闩息进行了研究【o 蝴】、p ”8 】、 i i h 嘲、嗍、f 0 s 垂4 1 、佃响鹩1 、 f s r c o s 、阿刊聊】、 z 1 0 9 s 。其中为了简化模型,对图像中文本区域的特点作了如下 假设: 1 字符的尺寸变化范围是有限的; 2 个文本行中应该包含足够的字符数目,并且这些字符是沿水平方向捧列的; 3 文本区域中字符同背景之间具有良好的对啦。 在介绍这些方法之前,我们对o c r 中的页面分割( p a g e 蝴) 技术作一下 6 视颇流分层传输与流中文本识剥 回顾在l k t r 系统中,文献先通过光学成像的方式( 扫描) 生成数字化a j 文献嘲像, 并将文献图像中禽童文本的区域分割出来,然后进行识别【g 呐3 】、d 甲鹎 。o c k 中 的页面分割技术鼠般无法酉接应用于一般性的荻度图像的处理- 但是研,员在页面分 害4 方法的基础上提出了评多一般韵非文献图像中文本区域的检测寡法。 一般视频或图像中文本区域的定位方法可以分为两类:基于部件( c o m p o n e n t b a s e d ) 的方法与基于纹理的( t e x u r e b a s e d ) 方法。在基于部件的方法中,通过分析图像场景中 边缘或者届丁字符具有相同色彩与灰度的部件的几何排列情况来检测图像中的文本区域 的位置。在 z b 9 5 中通过分析具有相同色彩的连通部件的水平排列特征并根据同定的尺 寸约束条件来提取支本区域。l i e n h a r t 与蜘在 l s 9 6 中除了认为字符是具有相同色彩 的连通件,并且具有一定的尺寸上的约束i i 外,还假设字符部件在连续的前后视频图像 帧中具有相应的匹配部件。在 s d b 9 s 中,s h i m 假设视频流中文本信息是静态的,基于 这一假设果用链码来完成对文本区域的分割,并且利用空域信息进一步改善效果。而j a i r i 与y i m 8 】将图像在不同的颜色通道上将图像分割为若干子图像,并利用子图像中,字 符部件的分布特征实现对文本区域的检测。 而在基于纹理的文本区域提取技术中,则认为由于文本中字符的水平排列情况,图 像中的文本区域在水平方向的灰度变化呈现出近似周期性的特征,而且字符在组成文本 行时,在字符之间的空间是近似于相同的 j b 9 2 、 y z 9 6 ,因此可以利用图像中的纹理分 布特征来实现文本区域的检测。j a i n 。与z h o n g 在将扫描灰度文献图像分割为文本、图片 以及半色调( h a l f t o n e ) 图像区域的处理中,利用了这些区域的不同纹理特征。在 z r , :j g s l 中,z h c a g 利用图像中文本行的纹理特性来提取具有复杂背景的灰度图像中的文本区域。 其原理是,首先对每一个像素而言,定望其文本能量为以其为中心的个l 月的窗中的 水平方向的空间频率,而一个具有高的文本能量的矩形区域就会披认为属于文本区域。 z l x m g 在【z l 邶】中针对压缩后视频与图像数据,提出了一种基于纹理的,直接在d c t 域进行处理的快速文本区域定位方法,在2 】n 培的方法中,加入了形态滤波的后向处理 以改善效果基于纹理的文本区域检测技术目前广泛应用于静止图像中文本内容的处理 中并且取得了可观的效果。 i 2 2 文本区域中文字目标的检测与提取 文本区域中字符目标串的提取方法可以分为两类:基于字符提取的方法【a 8 5 与 基于串提取的方法 o d 9 4 、【w w c s 2 、【f k 8 8 】、 删。基于串提取的方法,通常可 采用游长平滑( r u n - l e n g t hs m o o t h 垤) 算滴o d 9 4 、i w w c 8 2 或连通部件分析( c o n n e c t e d c o m p o n e n t a n a l y s i s ) f 9 8 8 “h a t 9 6 。 在 f k s 8 1 、【h a t 9 6 f 9 ,首先图像被二值化,然后将前景像素分为一个个连通体 每个连通体称为一个目标,如果假设睡l 像中的字符组庳文本时,字符是沿一条直线排列 的,就可以采取共线目标或部件聚类( c o l l i n e a r 删n t g r o :p i n g ) 提取出目标彝啥中 的字符目标。在田鼬8 】中采用了h 9 1 1 变换来检测沿直线分布的目标集合然后利用文 本串中的些特性如字符间距、字问间距来实现将文本串分割为字与字符。而在 h a t 9 田 7 中则采取了另种共线检测方法。给定区域中的对目标矗= 化,所) ,o = k ,盯) 定义q 。, a r c t a n l 其中r ,咒) ,k ,趵) 代表目标的中心坐标。而冗k ,) 表示在区域中a f ,出现的频率,则对于区域来说,其中所含文本串的排列方向就对 应于出现频率最高的q ,。 1 2 3 宇符识别 字符识别技术从字符输入方法上可班分为在线字符识别与离线字符识别。在线识别 系统是指目标字符是通过书写板等输入设备,直接以字符的笔划集合的方式作为识别系 统的输入源;而离线识y a l j 系统中字符是通过光电扫描或光学成像的方式以字符的静止 图像的形式作为识别系统的输入源。由于信源质量的原因在线识别的性能好于离线识 别,本文研究的字符识别问题属于离线识别的范围。 目前字符识别方法可分为5 类: 1 ) 基于句法( s y n t a c t i c ) 的方法 这类方法提取字符的基础特征并采用文法分析的方法进行识别 a 聊 ,但是由于字 符的基础特征在实际中可能变化较大此时其性能会严重下降 2 ) 基于统计( s t a t i s t i c a l ) 方法 利用统计聚类方法【o g 脚】、叶唧o 】、【p | w 融镯新亍识别,其中难点在于导出每个 字符集合的统计特性。 3 ) 基于神经同( n e u r a ln e t w o r k ) 的方法 这类方法将神经网络技术应用字符分类中体瑚】、田日b 9 2 】、p z 0 9 3 、f r i9 4 】、 【c w k 9 4 】,其性能严重依赖于训练样本库。 4 ) 基于模糊( f u z z y ) 识别的方法 5 ) 基于结构( s t r u c t u r a l ) 的方法 基于结构的识别方法,通过提取直觉意义上的字符结构特征来识别字符【c h 9 1 】目 前还无法用数学模型来描述这种方法其中的关键是选取适当的特征,使得字符集 合在特征空间上的投影具有很好的寸识另吐度由于以上的几种方法各有其优缺点, 因此在设计实际的字符识别方案时运用多种方法的组合逋常会得到很好的效果 8 嚣 视颧流分层传输与流中袁奉识玑 1 3 论文内容 本文的内容可以分为二个方面:1 图像与视频流数据丢矢的重建技术:2 基于接 收端重建、保证q o s 且具有信道速率适应能力的实时视频分层传输方案;删流中文 字信恩捡测与识别。 1 3 1 图像与视频流数据丢失的重建技术 在这部分研究中,我们建立了图像中受损区域基于边界的信息重建模型,针对方块 变换编码中,图像子块数据丢失问题通过变换域中基信号边界分量的分析,提出了一 种基于变换域的、图像丢失信息重建的快速方法,并对其性能进行了分析。 1 3 2 基于网络的实时视频分层传输方案 通过对相关研究的分析,发现目前的方案中难于兼顾压缩效率传辕稳健性。我们在 图像丢失信息重建技术的基础上,提出了一种利用子块交织、多视频子流与接收端后向 处理的实时视频分层传输及相应的误差隐藏( e r r o r c o n c e a l m e a t ) 方案,这种方案,不影 响压缩效率t 而且在信道质量较差时,可以保证满意的视频质量同时符合实时性应用 的要求。 1 3 2 视频流中文本信息的检晨屿识别 在文本区域检测方面,通过分析文本区域在多尺度模糊与小波分解下的特性提出 了文本区域检测方法;在字符目标检测中,本文建立了对于满足一定规律的目标集合的 检测模型并提出了利用空间分布规律的字符目标捡澳i 技术:然后在字符识别中,提出 了基于字符笔划与笔划结i 哿特征的识别模型与实现方法。并且提出了字符租骨架的提取 技术以及基于粗骨架的笔划与笔划结构特征的提取技术。 1 4 论文组织结构 本文由七章组成,第一章为绪论,第七章为总结 在第二章中我们研究了视频图像中部分区域中信息丢失时的恢复问题,并重点对 方块变换编码中由于子块数据丢失而引起图像内容受损问题进行了分析,通过研究图像 子块的变换基信号在子块边界上的信号分量空间提出了一种抉速的、支持实时丢失信 息重建的方法井介绍了其在消除变换编码方块效应中的应用。 第三章的内容主要是以第二章中的图像受损区域恢复技犬为基础,研究基于网络的 实时视频分层传输方案。在迂一章中我们提出了基于子块交织的视频分层编码方案; 分别针对a t m 的墩业务与分组交换网提出了多视频子流的数据组织方案;在接收端 9 绪论 对丢失的视频子流数据提出了基于扩展子块技术的重建方法。 第四章提出了基于多尺度模糊与小波分解的视频流文字区域检测方法与利用空间 分布规律的字符目标检铡与提取技术。 第五章中我们对字符图像的视觉结构以及人类对字符的识别机伟啦 f 行了分析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年中国水蒸气吸收测试仪行业市场规模及投资前景预测分析报告
- 2025湖北省新能源有限公司招聘笔试考试参考试题及答案解析
- 2025广东云浮市郁南县招聘机关事业单位紧缺人才15人考试笔试备考试题及答案解析
- 小微工贸企业安全管理指引-湖北省应急厅2025年10月10日发布
- 2026年山西省财政税务专科学校单招职业技能测试必刷测试卷附答案
- 2026年岳阳现代服务职业学院单招职业倾向性测试必刷测试卷必考题
- 2026年烟台南山学院单招职业技能考试必刷测试卷及答案1套
- 2026年山东服装职业学院单招职业技能考试题库附答案
- 2026年商丘学院单招职业倾向性考试题库新版
- 2026年黑龙江生态工程职业学院单招职业技能测试必刷测试卷及答案1套
- 中国监控摄像机行业发展趋势及发展前景研究报告2025-2028版
- 校园餐资金管理制度
- 手术麻醉管理授权培训
- T/JSWP 01-2021政策类决策社会稳定风险评估规范
- 2025年保密知识竞赛考试题库及答案附答案(完整版)参考答案详解
- 小学二年级家长课堂课件
- 2025年上海房屋租赁合同的范本
- 绿化工程安全专项方案
- 讲解员培训方案
- GB/T 10485-2025道路车辆外部照明和光信号装置环境耐久性
- 《房屋市政工程类有限空间作业安全》专项培训
评论
0/150
提交评论