(通信与信息系统专业论文)视频流关键帧提取与标识串识别研究.pdf_第1页
(通信与信息系统专业论文)视频流关键帧提取与标识串识别研究.pdf_第2页
(通信与信息系统专业论文)视频流关键帧提取与标识串识别研究.pdf_第3页
(通信与信息系统专业论文)视频流关键帧提取与标识串识别研究.pdf_第4页
(通信与信息系统专业论文)视频流关键帧提取与标识串识别研究.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(通信与信息系统专业论文)视频流关键帧提取与标识串识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

电子科技大学硕士学位论文;捅警 摘要 l 计算机视觉技术正受到越来越广泛的重视,在智能交通系统i t s ( i n t e l l i g e n t t r a n s p o r t a t i o ns y s t e m s ) 中有着重要的应用。而视频流中关键帧的检测,流中的 文本提取与分割,标识字符串的识别则是i t s 中三个关键的技术难点。体文对这 三方面的内容都进行了研究。其中,对前两个方面的内容,给出了针对特定应用 的方案设计。字符识别是本文讨论的重点。 对于关键帧检测,本文提出一种将邻帧差分与背景差分相结合的方法,将视 频流分为四种不断循环的状态,通过对当前状态和前后状态的判断,从而准确的 检测出关键帧。文本字符分割借鉴了o c r 系统中的分割方法,对字符倾斜与粘 连两种主要影响分割质量的情况提出了解决方案。 字符识别是一个典型的模式识别课题。字符形状模板匹配识别方法具有简单 易实现的特点,但同时也存在抗干扰差,识别率不高的缺陷。本文应用神经网络 技术,研究了上述识别方法的改进。先研究了标准字符空间中利用归一化字符形 状相关系数的聚类识别特性,实际字符图像的畸变仿真,讨论了畸变对形状相关 识别的影响。然后,在此基础上,应用神经网络理论中的感知机模型,对于不同 的位字符空间,生成了相应的线性识别机器,p c 仿真给出了良好的结果。 关键字:关键谚文本宴,字藉;二 字符识别,相关识别 、7 v 电子科技大学硕士学位论文:摘要 a b s t r a c t m o r ea n dm o r ea t t e n t i o ni sb e i n gg i v e nt ot h ec o m p u t e rv i s u a lt e c h n o l o g yw h i c h i sm a i n l yu s e di ni t s ( i n t e l l i g e n t t r a n s p o r t a t i o ns y s t e m s ) t h i st e c h n o l o g yh a st h r e e i m p o r t a n tt e c h n i q u e st ob er e s o l v e d :t h ed e t e c t i o no f t h ek e yf l a m ei nv i d e os t r e a m , c h a r a c t e rs e g m e n t a t i o na n de x t r a c t i o n ,r e c o g n i t i o no fc h a r a c t e rs y m b 0 1 t h i st e x t h a sd o n es o m er e s e a r c ho nt h e s et h r e ef i e l d sa n ds u p p l i e dt h e d e s i g n so f t h ef r o n tt w o f i e l d sr e l a t e dt ot h e i r s p e c i a la p p l i c a t i o n c h a r a c t e rr e c o g n i t i o ni st h ee m p h a s i s d i s c u s s i o no f “st e x t t h em e t h o dp u tf o r w a r di nt h i st e x ti st h ec o m b i n a t i o no f c o n t i g u o u sf r a m e s d i f f e r e n c ea n d b a c k g r o u n dd i f f e r e n c e v i d e os t r e a mi sd i v i d e di n t of o u rp e r i o d i cs t a t e s w ec o u l dd e t e c tt h ek e yf r a m e p r e c i s e l yb yj u d g i n gt h ec u r r e n t , t h ef o r m e ra n dl a t e r t h e s t a t e s u s i n g t h e s e g m e n t a t i o n i no c r s y s t e m f o r r e f e r e n c e ,c h a r a c t e r s e g m e n t a t i o ni nt h i sr e s e a r c hf i n d st h es o l u t i o nt ot h ep r o b l e m so f c h a r a c t e rd e c l i n i n g a n dc h a r a c t e r t o u c h i n g w h i c ha f f e c tt h es e g m e n t a t i o n q u a l i t y c h a r a c t e r r e c o g n i t i o nb e l o n g st oc l a s s i cp a t t e r nm v o g o i f i o n t r a d i t i o n a lt e m p l a t e m a t c h i n gr e c o g n i t i o n c o u l db er e a l i z e d e a s i l y b u ti t s r 呦g n i t i o n r a t i oa n d a n t i - j a m m i n gc a p a b i l i t ya r :e l o w t h i sr e s e a r c hc o u l dl l l a k eu pt h a t g a pt o s o m e e x t e n tb yu s i n gn n t e c h n i q u e f i r s t l ye x t r a c tt h ec h a r a c t e rf e a t u r eb yt h eu s eo f s t a t i s t i cp a t t e r nr e c o g n i t i o nt h e o r ya n dt h e nc r e a t el a r g es u m so fa b e r r a n tc h a r a c t e r s a m p l e sb yp cs i m u l a t i n g ,r e s e a r c ht h es t a t i s t i cq u a l t yo fe h m a c t e rf e a t u r ei n s t a n d a r d s p a c e a n da b e r r a n t s p a c e o nt h eb a s i so ft h a t , c r e a t ed i f f e r e n tl i n e a r r e c o g n i t i o nm a c h i n e s f o rc h a r a c t e r si nd i f f e r e n t s p a c e si m i t a 垃n gt h ep e r c e p t i v e m a c h i n em o d e li nn n t h e o r y t h el i n e a rm a c h i n e sw ed e s i g n e dh a v eg o tb e t t e r e f f e c ti n p r a c t i c a la p p l i c a t i o n k e y w o r d : k e yf r a m e , t e x te x t r a c t i o n ,c h a r a c t e rs e g m e n t a t i o n c h a r a c t e r r e c o g n i t i o n ,c o r r e l e c t i o nr e c o g n i t i o n 】j j 电子科技大学硕士学位论文:独创性声明 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教 育机构的学位或证书而使用过的材料。与我同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。 签名:! 篁垒塞日期:加2 年牛月以日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名: 日期: 杏冠袁 导师签名: 加涛午e j 佑e l 编 第一章引言 1 1 研究任务与结果 第一章引言 人类正在进入信息时代,计算机已经越来越广泛地进入几乎所有领域。一方 面是更多未经计算机专业训练的人也需要应用计算机,而另一方面是计算机的功 能越来越强,使用方法越来越复杂。为使更多的人能使用复杂的计算机,必须改 变过去的那种让人来适应计算机,来死记硬背计算机的使用规则的情况。而是反 过来让计算机来适应人的习惯和要求,以人所习惯的方式与人进行信息交换,也 就是让计算机具有视觉、听觉和说话等能力。这时计算机必须具有逻辑推理和决 策的能力。具有上述能力的计算机就是智能计算机。要实现智能计算机的一个关 键且复杂的技术难点就是计算机视觉。 计算机视觉就是用各种成象系统代替视觉器官作为输入敏感手段,由计算机 来代替大脑完成处理和解释。计算机视觉的最终研究目标就是使计算机能象人那 样通过视觉观察和理解世界,具有自主适应环境的能力。例如,计算机视觉的一 个重要应用领域就是自主车辆的视觉导航,目前的尽标是努力实现具有道路跟踪 能力,避免碰撞的辅助驾驶系统。近年来,基于计算机视觉的交通路口车辆检测 与流量统计技术,广泛用于停车场管理,违章车辆查处不停车收费,不停车称 重的车辆牌照识别技术受到了较多的关注。上面这些技术的综合,就构成了一个 高度自动化,高度信息化的智能交通系统i t s ( i n t e l l i g e n tt n m s p o r t a t i o ns y s t e m s ) , 这是目前人们正在努力的方向。本文的研究任务正是在这一背景下产生的。 计算机视觉技术是在传统的圈象处理,图象理解的基础上发展起来的【1 】, 同时由于近年来人工智能,智能机器人的学科领域的蓬勃发展,人们对人类大脑 的结构,人的视觉系统及逻辑判断过程等问题认识得越来越深入,并提出了许多 模型在计算机上来模拟人的思维过程,因此,模式识别,神经瞬络等颁域的技术 也逐渐渗透到计算机视觉中来 2 1 。一个基本的车辆牌照识别系统的实现,首先 要利用图象处理技术进行预处理和特征抽取,再利用模式识别技术根据从图象抽 取的统计特性或结构信息,把图象分成予定的类别,最后圈象理解程序不仅描述 图象本身,而且描述和解释图象所代表的景物,以便对圈象代表的内容作出决定。 下面简要介绍一下本文在这方面所作的工作和取得的相应成果 、 本论文研究内容主要分三个方面:应用于视频流分层的关键帧检测技术的研 究,流中标识字符串的提取与分割研究,标识字符串基于相关识别的线性机器( 感 知机) 聚类识别系统设计。 第l 页 电子科技大学硕士学位论文 前两个内容带有预研的性质,期间研读了一定数量的国内外相关文献,了解 最新技术动态,在此基础上,结合本应用提出了关键帧检测和字符串分割模块的 方案设计。第三个方面多元字符的相关识别是讨论的重点。首先分析了在三个不 同字符空间( 数字字符空间,字母空间和数字字母混合空间) 中标准字符的相关 识别特性,测试了相关系数,给出归一化相关曲线,根据曲线分析确定各空间中 的相关聚类门限矢量。然后分析了字符畸变对相关识别的影响,并p c 仿真实现 字符畸变样本芡8 1 2 0 个,建立了对应各字符空间的畸变字符样本库。基于样本 序只体分析畸变字符相芙特性,同样得出归一化相芙系数曲线和相关聚类门限欠 量。最后在上述研究的基础上,设计实现了字符相关聚类识别系统,并在实际试 验中应用通过。这中间仿真试验,系统设计代码共4 0 0 0 余行( m a t l a b 语言) 。 1 2 相关关键技术动态 1 2 1智能交通系统中计算机视觉技术的应用 智能交通系统( i n t e l l i g e n tt r a n s p o r t a t i o ns y s t e m s ) ,简称i t s ,是为解决日益 严重的城市交通问题而提出的。8 0 年代中期以后,人们将先进的信息技术、数 据传输技术、控制技术以及计算机处理技术等有效地综合运用于整个运输管理体 系,使人、车、路及环境密切配合,从而建立起一种在大范围内、全方位发挥作 用的实时、准确、高效的综合管理系统,这便是智能交通系统。 计算机视觉已成为智能交通系统中的一项关键技术,受到越来越多的重视。 计算机视觉技术可以用来实现道路交通流监控、车型分类和识别、车牌的自动识 别、高速公路的自动收费、智能化交通导航、电子地图的自动生成等。归纳起来 主要有以下几类应用:车辆导航、交通监控、辅助驾驶和智能收费。 车辆导航( 自动驾驶) 是计算机视觉在智能交通中的典型应用,车辆导航 主要涉及道路提取和车辆检测两种技术。采用这两种技术,导航系统可以识别道 路边界,在规定的车道上行驶,测量出前面行驶车辆的距离,保持安全的车距。 车辆导航通常将视觉处理和控制技术结合起来,形成基于视觉反馈的闭环道路 跟随系统。 在摄像机运动的情况下,识别公路上其他车辆的方法主要有检测对称点、模 型匹配、光流估算等。m i t 的j b e r g e n d a h l1 3 1 在导航系统中,采用了立体视觉 技术检测车辆。该系统有3 个摄像机,首先从3 幅图像中提取垂直边缘,通过特 征匹配建立起左右图像中边缘的对应关系,中间的摄像机用来降低匹配过程中 的模糊性,为提高深度计算的精度,采用亚像素的方法求取视差,进一步由求得 第2 页 第一章引言 的视差建立起边缘深度映射和视差直方图,再根据视差直方图的峰值定位出距 离最近的车辆。 交通监控:基于视觉的交通监控系统包括3 个步骤: 分割和跟踪( 包括车辆和行人) : 分析计算车流量、平均速度、队列长度等交通参数; 根据道路的交通情况,规划行驶路线,缓解拥塞,减少出行时间。 第一个步骤中的相关技术将在下- - + 节中详细介绍。在分割出运动目标后, 通常要能够跟踪目标。d k o l l e r 4 1 采用三维车辆模型跟踪车辆,采用模型方 法跟踪车辆,鲁棒性好,缺点是要求车辆有详细几何模型,但一般很难得到 所有车辆的详细模型。区域跟踪是通过匹配的方法跟踪包含运动车辆的一个 连通的区域。在交通非常拥挤的情况下,车辆可能重叠在一起,很难分割出 包含单个车辆的连通区域,此时这种方法很难实现可靠的跟踪。另一种方法 采用活动轮廓模型( a c t i c v ec o n t o u rm o d e l s ,又称为s n a k e s ) 。通过匹配动态更 新的边缘轮廓的方法实现跟踪,这种方法降低了区域跟踪所需的大量计算, 但仍然不能克服车辆重叠的难题。伯克利的d b e y m e r 和j m a l i k1 5 1 等人 采用跟踪车辆特征点的方法跟踪车辆,这种方法的优点在于即使车辆重叠在 一起,也可以通过部分特征跟踪车辆。 辅助驾驶:辅助驾驶指的是在市内公路上,通过视觉系统识别道路标记、交通标 志、公路上其他的车辆和行人;识别周围景物,帮助驾驶员及时对外界环境作出反 应,避免事故发生。辅助驾驶所采用的视觉处理方法与车辆导航基本相同,不同 之处在于辅助驾驶有人的参与,这种带有人机交互性质的视觉系统,在现阶段更 容易加以推广。 智能收费:智能收费系统是智能交通系统的一部分,同时又是车辆识别的一个重 要应用,国内外都采用了识别车牌照来实现的方法。我国在车牌照识别方面做了 许多研究工作 6 1 。车辆自动识别收费系统的实现主要有以下技术难点: 高速行驶车辆图像的检测与获取; 图像中牌照位置的准确定位; 智能化字符的分割和识别。 可以看出,本文研究的三个方面正对应着这三个技术难点,也是目前这种系 统实用化研究的主要方向。下面分别对这三方面的发展状况和技术动态傲一简要 介绍。 第3 页 电子科技大学硕士学位论文 1 2 2 基于计算机视觉的视频流关键帧检测与获取 车辆检测为自动交通监控系统的基本技术之一,它可以帮助收集有关交通车 流的实时数据,用于交通信号的自动控制或提供给交通管理部门或司机,以疏导 车辆,避免可能发生的交通堵塞。车辆检测方法可分为两类。一类为基于压电回 路的永久埋入式系统。这类系统虽然可靠,但费用较高,由于需将传感器永久性 埋人地下,其设立和维护都需挖掘路面,费时费力而且影响交通。另一类为近年 来兴起的悬挂式系统,如基于闭路电视,微波,雷达,红外线或超声波传感器的 监视系统。 由于单部摄像机和处理器可用于监视多条车道,基于视觉的闭路电视监视系 统相对于其他悬挂式系统来说费用较低,而且管理人员可以观看实时道路画面, 从而宜于对系统进行干预,因而广泛用于交叉路口及公路干线的监控。 所谓车辆检测就是能有效地分割出监控画面中的运动目标。这首先要求在一 系列连续帧中能提取出具有感兴趣运动目标的清晰的帧图象来,我们称之为关键 帧。在监控场合下,常用的两种运动分割的方法是光流法和帧差法。光流分割所 依据的是图像中每一个不同的运动可以用一组映射参数正确地表达。这样,可以 通过把具有同样映射参数的光流矢量分配为一类的方法完成分割。显然,分割结 果的精确性依赖于估算的光流场的精确性。准确地计算光流场一直是一个难以解 决的问题,在运动目标的边界以及纹理较弱的区域,光流的计算结果通常误差较 大。解决这一问题的一种方法是同时进行估算和分割。例如一种同时分割和估算 的map 方法,在map 形式下,光流和分割场的依赖性可通过g i b b s 分布表 示,运动估算和分割的过程可以转化为一个优化求解的问题。g i b b s 分布与马尔 可夫随机场是等价的,g i b b s 分布和马尔可夫随机场理论能够很好地描述分割和 光流数据之间的非线性关系,为解决光流分割这一类病态问题,提供了有力的数 学工具。 另一种常用的方法是帧差法,它通过计算帧间图像像素间的偏差。通过阐值 设置,去掉图象中相同的背景( 即路面等静止景物) ,来找出其中运动的物体( 即 车辆) 1 8 1 。这种方法在环境和光线变化峙其性能相对较为稳健,其缺点是无法 检测静止的车辆,而且对车速变化敏感,车速过慢或过快都可能影响检测的准确 性。 另一种是基于背景差的方法,要求计算当前帧和背景图像之差。图1 1 给 浅了基于背景差的车辆检测算法框图。令兀( x ,y ,) 和兀( 工,y ,) 分别为估计出的 当前背景图象和当前帧图象,其中l x m ,l y n 。对输入图象的每个象素, i 算它与相应背景图象象素的差值。 第4 页 第一章引言 f o ( x ,y ,t ,) = i lc x ,y ,t i ) 一厶( x ,y ,刊 ( 1 1 ) 然后将该差值图象二值化为 ,c x ,y ,t ,= :厶。其, y 他, t i r ( 1 - - 2 ) 这里t 是一阈值,可定义为差值图象厂d ( z ,y ,t ,) 的均值与标准方差之和。 t ( x ,y ,) = 1 表明象素f ( x ,y ) 属于物体( 即车辆) ,否则为背景象素。 图1 1 基于背景差的车辆检测算法框图 在基于背景差的方法中,车辆检测的效果取决于当前背景的质量。由于天气, 光线和阴影等因素的变化,背景图象必须不断更新。新的背景图象可由下式进行 估计: 厶( 五y t i ) = 帆( 训, ) + ( 1 - k ) l ( x ,y ,) _ j 2 斋 卜3 ) 其中n 为常数,k 决定了背景刷新的频率。很明显,可以通过选择性刷新来 来进一步提高估计背景的质量。选择性刷新背景的方法表示如下: f s ( x , y , t m ) = p 弘麓掣毛弘柚嚣戊划c 叫 式中,当l ( x ,y ,t i ) = 0 畴,表明该象素为背景象素,因而对其进行刷新;否 则该象素对应于运动物体,应保持背景不变。 在我们的方案设计中,考虑到这两种方法各有优缺点,所以采用了两种方法 相结合的设计。即运动目标的检测首先用邻帧差分的方法( 考虑到运算速度和帧 间变化的差异,可以适当的隔帧差分而不影响效果) 检测出运动目标,再将其与 背景帧差分。以排除干扰目标( 如走动的人等) 。同时与背景差分可以检测出静 止车辆( 如停车交费畴) ,这样就可以把车辆通过的过程分为四个按一定时序不 第5 负 皇王型堇丕堂堕主堂堡堕塞 - _ _ j _ - _ 一一 断循环的状态,通过对当前状态和前后状态的检查,就可以准确判断出关键帧出 现的时刻,并对各种异常情况有一定的抗干扰性。 1 2 3 视频流中标识文本串的分割与提取 所谓标识文本,就是一帧图象或一段视频中代表了重要内容的文本信息,比 如视频场景中的人物姓名、产品名称,监控场景中的交通指示标牌、汽车牌照, 一段新闻中出现的标题,内容简介,还有体育比赛录像中运动员身上的号码等, 遮衅文本标识都提供了有关内容的重要信息,因而标识文本的检测与提取不仅在 车辆导航、交通监控、辅助驾驶和智能收费等智能交通系统中有着重要的应用, 同时在数字图书馆的应用,数字视频基于内容的检索与查询,视频数据库管理系 统的建立等方面都有着重要的意义。标识文本分割提取的好坏也直接影响着后继 的识别过程。 通常情况下,视频图像中文字信息的实时检测与识别技术包括以下几个方面 的研究工作:视频流中文字区域的检测( d e t e c t i o n ) 与定位( 1 0 c a l i z a t i o n ) ;文本区域 中字符目标的检测与提取;字符的识别。关于字符识别的问题将在下一小节讨论。 视频或图像的场景中可能出现各种文本或文字,通常分为两大类:场景文本 ( s c e n et e x t ) 与人工文本( a r t i f i c i a l t e x t ) 。人工文本是指在成像后以人工方式叠 加到图像信号上的,典型例子如电影或电视节目的片尾部分,其中含有大量与节 目有关的信息。丽场景文本( 自然文本) 是指同图像场景的其他内容同时成像的 文本,如图像中出现的各种招牌、广告牌、文字标志。在一些情况下场景文本携 带了重要的图像内容信息,如车辆视频流中的车牌信息反映了车辆身份信息。 视频或图像中文本区域的检测方法可以分为两类:基于部件( c o m p o n e n t b a s e d ) 的方法与基于纹理的( t e x t u r eb a s e d ) 方法。 9 1 中描述了一种方块分割 算法,将图像分割成若干子区域称为块,然后将块分类为文本块或图形块,通过 块的聚类算法分割出图像中的文本区域。 近来的一些研究通过分析文本区域的纹理特点来检测文本区域,取得了较好 的效果。在【1 2 1 中,利用了多分辨率图像技术结合纹理分析,其工作原理如下: 在适当的低分辨率上,文本行表现为较长的直线型部件的特点,而在较高的分辨 率上,表现为或多或少规律性的跳变信号。 在分割出文本区域之后,还需要准确定位出其中每个字符的位置,即字符基 元的分割。因为随后的识别过程一般都是设计成对字符基元的识别。因此这步 分割的好坏将直接影响整个文本区域的识别效果,尤其是对采用模板匹配方法来 识别的系统更是如此。 由于汽车牌照中每个字符的构成,排列都要遵循一定的规则,位置固定,且 第6 页 第一章引言 由于汽车牌照是刚性物体,在成像畴字符间相对位置不发生变化或成比例的变 化,这与光学字符识别系统( o p t i c a lc h a r a c t e r r e c o g n i t i o n ,简称o c r ) 中印刷体 文字的分割( m a c h i n ep r i n t e dc h a r a c t e rs e g m e n t a t i o n ) 有共通之处。比如,图象中 出现的文字都是标准字体,不像手写体有很大任意性,都是字符间相对问隔固定, 都有可能出现整行文本的倾斜等。因此汽车车牌字符基元的分割可以借鉴o c r 中字符分割的方法,后者在这方面已经做过较深入的研究,有了许多有效的算法。 下面就对这方面的技术发展与动态做简要介绍。 字符分割长期以来一直是o c r 处理的关键领域。所谓字符分割就是一种将 字符序列图象分解为独立字图象符号的技术。这种技术是o c r 系统中的一个决 策过程。在所谓的“经典”o c r 解决方案中,分割是三个主要处理步骤中的第 一步,如图1 2 所示。 图l 一2 经典o c r 实现框图 字符分割技术可以归为三大类,即直接分割方法,基于识别的分割方法和整 体分割策略。 在第一种方法中,衡量分割好坏的标准是分割结果的一般属性与标准字符属 性的一致程度。这些属性包括高度,宽度,相邻间距,相对基线的位置等。衡量 第二种方法的优劣是看识别置信度,有时可能包括对整个结果的句法或语义校 正。而整体分割方法是将一个单词当作一个整体来分割,这在本质上与传统方法 有很大差别。 直接分割方法 这是最主要的分割方法,也是研究最多,应用最广的一类方法。包括: 1 ) 空白检测与固定间距法 在机器印刷体中,垂直空白常可用来分割连续的字符。同时许多印刷应 用都限制了字体,这样每个字符都占据固定的宽度。对一个给定的文本 行处理得到的分割点应该大致满足字符固定间距的要求,这使分割有了 一个整体的基准。这种技术的一个实际商业应用是1 9 6 5 年安装在美国社 第7 页 上雾 格一 一字一 一特一 分一 旦! ! 竺仝= 竺兰2 竺l 一 会安全局的i b m 自动读写机【1 3 】。 2 ) 投影分析法 文本行的垂直投影( 也称为“垂直直方图”) 是将每一列的黑像素个 数累加得到。它能用来帮助判断连续字符之间的空白,也能指示垂直笔 画的位置等,因此是许多字符分割算法的基础。比如,在【3 l 】中提到, 有研究在分割k a n j i 手写地址时,投影值小于给定门限所在的列被选出 作为可能分割列。另外,也有算法首先计算出垂直投影,然后求出该曲 线的二次导数与其高度的比值,再用这个比值来挑选分割列。一种改进 的方法是所谓波峰到波谷函数。 3 ) 连通域法 在图象质量很好时投影法很有用,但对与字体变化的文档或手写体 该法就不那么有效了。这时连通域法往往有很好的效果。【1 5 】就是一种 基于边界框分析的连通域法的实际应用。【1 6 】通过实验对投影法和连通 域法的分割效果作了一个比较。在对相同的2 7 2 ,8 7 0 手写数字字母进行 分割并使用相同的分类器识别的情况下,连通域法获得了9 7 5 的正确 率,而投影法是9 5 3 ,其错误率几乎是前者的两倍。【1 7 】在计算连通 域距离的基础上加入标点检测算法,提高了分割的性能。 基于识别的分割方法 在这类方法中,字母分割只是字母识别的副产品,图象被系统她分为很多与 内容无关的相互重叠的部分。这类方法的主要意义在于它们绕过了分割问 题:不需要构建复杂的分割算法,而且识别错误主要是由于分类失败。 整体分割策略 在这类方法中,分割是以单词为单位进行的。单词识别是由e a r n e s t 在6 0 年代早期提出的【1 9 】。这类方法的一个主要缺陷在于它们的应用往往局限 于特定的词素:因为既然这类方法不直接处理字母而是单词,识别自然也被 限制于特定的单词词素上。 1 2 4 字符识别 字符识别技术从字符输入方法上可以分为在线字符识别与离线字符识别。在 线识别系统是指目标字符是通过书写板等输入设备,直接以字符的笔划集合的方 式作为识别系统的输入源:而离线识别系统中,字符是通过光电扫描或光学成像 的方式以字符的静止图像的形式作为识别系统的输入源。由于信源质量的原因, 第8 员 第一章引苦 在线识别的性能好于离线识别,本文研究的字符识别问题属于离线识别的范围。 目前字符识别方法可分为5 类: 基于句法( s y n t a c t i c ) 的方法 这类方法提取字符的基础特征并采用文法分析的方法进行识别 2 2 1 ,但是 由于字符的基础特征在实际中可能变化较大,此时其性能会严重下降。 基于统计( s t a f f s t i e a l ) 方法 利用统计聚类方法 2 2 1 进行识别,其中难点在于导出每个字符集合的统计 特性。 基于神经网( n e u r a ln e t w o r k ) 的方法 这类方法将神经网络技术应用字符分类中 2 0 1 【2 6 】,其性能严重依赖于训 练样本库。 基于模糊( f u z z y ) 识别的方法 基于结构( s t r u c t u r a l ) 的方法 基于结构的识别方法,通过提取直觉意义上的字符结构特征来识别字符,目 前还无法用数学模型来描述这种方法。其中的关键是选取适当的特征,使得字符 集合在特征空间上的投影具有很好的可识别度。由于以上的几种方法各有其优缺 点,因此在设计实际的字符识别方案时,运用多种方法的组合通常会得到很好的 效果。 本论文最终讨论的字符识别系统设计方案中,综合运用了前三种识别方法, 即首先对大量字符样本识别特征进行统计分析,得到各字符基元空间的统计特 性,在此基础上利用神经网络理论中的感知机模型,设计出对应不同字符基元空 间的线性识别机器,最后按照给出的车牌模式文法描述对识别结果的句法关系进 行验证。 1 3 论文内容安排 本论文由六章组成。 第一章,绪论。简要介绍论文研究任务与内容,相关关键技术动态和论文章 节安排。 第二章,车流视频关键帧提取与流中标识字符串提取与分割。对于关键帧的 检测,本文提出一种将邻帧差分与背景差分相结合的方法,将视频流分为四种不 断循环的状态,通过对当前状态和前后状态的判断,从而准确的检测出关键帧。 文本字符分割在o c r 字符分割方法基础上,对字符倾斜与粘连两种主要影响分 第9 页 皇王型垫奎堂堡主堂篁堡茎 一 割质量的情况提出了解决方案。 第三章,有限元字符串图象基于形状相关的识别特性。首先介绍了文本图像 序列识别的方法,接着分析了车牌图像的位结构模型,然后对每个字符基元图像 在标准空间中的相关识别特性进行了研究。 第四章,畸变字符图象形状相关识别特性。首先给出字符的畸变模型,据此 提取字符图像特征,并p c 仿真生成大量畸变的字符样本,对畸变空间中的相关 识另u 特性进行了研究,通过比较,讨论了字符畸变对相关识别特性的影响。 第五章,标识字符串相关聚类识别系统设计。在前两章的基础上,仿照神经 网络理论中的感知机模型,对于不同空间中的字符基元,生成了不同的线性识别 机器。 第六章,总结与展望。 第10 页 第二章视频流关键帧提取与流中标识字符串分割 第二章视频流关键帧提取与流中标识字符串分割 众所周知,原始图象数据会占用大量的存储空间,对于需要大量存储 和传输图象信息的应用领域需要有效的方法来存储及传递这些图象文件。 例如,一张约6 0 0 m 的c d 盘满额使用时,如果图象数据不压缩,只能存 储大约6 0 0 页文档,或2 1 幅3 5 m m 电影胶片的彩色扫描图片,或是3 0 s 左右p a l 制视频图象。尤其对于现在迅猛发展的多媒体应用系统( 如视频 会议,视频点拨,远程教育等) ,由于需要通过网络传输视频图象,原始 数据的高效压缩显得尤为重要。 一般的,图象压缩有以下几个途径: i 设法改变信源的概率分布使其尽可能的非均匀分布,再用撮佳 不等长编码方法使平均码长逼近信源的熵; i i 设法去除信源本身及信源闯的相关性,使之成为或差不多成 为不相关信源; i i i 利用人眼的各种视觉效应对原始图象进行视觉滤波,在保证 主观感觉失真相同的情况下,以更大的实际量化失真来提高 图象的压缩率; 这三种方法都是基于传统的信息论理论直接对图象信源数据进行处 理。另外还有两种有别于传统的图象压缩方法: i v 应用图象的高维特征对图象进行模型描述,在特征空间对图 象进行压缩,由于特征空间远远小于图象实际空间,从而达 到高效压缩的目的; v 基于图象压缩的具体应用要求,在保持应用特征不失真的情况 下,求取该应用中最佳率失真函数,从而达到图象高效压缩 的目的。 对于视频图象数据,利用前三种压缩方法,已有多种成熟的图象及视 频压缩方法及标准。但是,除了存储传输外,人们往往还需要对视频数据 进行多种处理,例如识别,重构以及基于内容的检索等。目前的视频数据 压缩方法并未很好的考虑对数据的处理。后两种压缩方法的思想就是将视 频数据分成若干“有意义”的单元如镜头,情节( 或场景) 等,提取各单 元特征并对不同的单元按其不同的应用价值分类压缩。这样不仅获得了高 效的压缩率,而且能实现对视频数据的非线性编辑,如基于内容的检索及 查询等,使计算机在内容层次上认知视频,大大拓展了视频流的应用范围。 第1 1 页 一 皇王型垫丕堂堡主堂垡堡苎 一一 这种视频压缩技术的实现有两个关键的地方:一是首先需要对数字视 频流有一个合理的分层或分段模型描述,即各个“有意义”单元的分类, 定义以及在这个模型中各“有意义”单元的检测或识别分析;二是对重要 单元的简化表征和标识特征的提取与表示。 本章针对这两个关键问题给出了相应的解答。首先给出一种视频分层 组织模型,然后重点说明该模型中关键帧的检测提取方案设计。之后对帧 中标识字符串的提取与分割技术做一简单介绍。 2 1车流视频关键帧提取方案 2 2 1视频分层组织方案和技术 数字视频是多媒体信息系统中重要的数据类型。传统的视频表示方法 仅是一个时间序列媒体流,所以对计算机来说,很难在内容层次上 认知视频。为了有效地访问和利用视频信息,合适的视频数据组织非常重 要。这里将视频划分成四个层次即视频节目、情节、镜头和图像帧的组织 方法。这样一种分层结构提供了紧凑和有意义的视频目录,方便了视频非 线性浏览和基于内容的检索。 用于组织的分层结构( 方案) 将视频分成四层,即视频节目层、情节 层、镜头层和帧图像层,如图2 一l 。也可以帧序列的形式来表示,如图2 2 。 图2 一l视频组织方案整体框图 根据这个方案可对视频进行三类操作:组织、浏览和检索。 1 ) 视频组织将视频元素组元按照某种( 事先确定的) 结构联系起 第1 2 页 第二章视频流关键帧提取与流中标识字符串分割 来,以提供对快速浏览和检索的支持。各层含义分别是: 帧图像层:视频组织从最低一层帧图像层开始。这层对应原始视频数 据即时间序列图像帧。 镜头层:借助镜头检测,可将图像帧组合聚合成镜头。镜头是视频 的一种基本单元,它包括按时序连接的一组帧图像,各个镜头在相同的场 景拍摄,包含空间中某个位置的一个连续动作。 图2 2数字视频的帧序列示意图 情节层:借助一些高层知识,可将一些镜头( 不一定相连或相邻) 结 合成情节。情节是视频的一种语义单元,它一般描述一段故事或行动。换 句话说,情节中的镜头内容上是相关的,但可以在时序上是不连续的或空 间上是分离的。 视频节目层:每个视频节目( 如电影) 由一系列情节构成。由以上讨 论可知,视频组织是对视频流不断抽象的过程。 2 ) 视频浏览是指用户在视频数据中“航行”( n a v i g a t e ) ,并发现感兴趣 的视频片段,序列。为了对视频数据库进行浏览,最好有个全面的概述 ( 目录) ,而对视频节目,一个合适的概要也能起到这样的作用。这样一个概 要不仅要提供节目的主要内容,而且要提供进入节目不同部分的多个入 口。一旦将一个视频节目组织成上面所讨论的结构,快速浏览就变得很直 接、方便。浏览可从节目层开始由上向下进行。浏览者首先可进入情节层, 发现感兴趣的情节。因为每个情节包含若干个镜头,所以进入情节后再浏 览有关的镜头是很容易的。镜头由一序列图像帧组成,找到感兴趣的镜头 后,浏览各图像帧是很直接的。 第1 3 页 电子科技大学硕士学位论文 3 ) 视频检索是一种直接寻找感兴趣的视频序列的方法或过程。与由下 向上二的组织和由上向下的浏览不同,基于内容的视频检索既可在镜头层进 行、也可在情节层进行。在镜头层,每个镜头可用其关键帧表示。在情节 层,每个情节可用其代表帧表示。这样,在镜头层的检索可借助镜头的关 键帧进行,在情节层的检索可借助情节的代表帧进行。在这两种情况下, 因为检索对象对应单帧图像,所以可使用各种基于内容对静止图像检索的 具体技术来进行。另外对镜头关键帧和情节代表帧进行文字注解后现有 的文字检索技术也可结台进来。 为了得到这样一种组织,不仅要检测出镜头和情节这些视频单元的边 界,还要提取镜头关键帧和选择情节有代表性的镜头和代表帧。关于镜头 和情节边界的检测和代表帧的提取不是本文要讨论的内容,相关技术【2 3 】 中有介绍。这里只提出一种镜头关键帧的检测与提取的方案设计。 2 1 2 车流视频序列关键帧检测与提取方案 将各镜头检测出来后,对每个镜头可提取关键帧,并用关键帧简洁地 表达镜头。这是因为每个镜头都是在同一个场景下拍摄的,同一个镜头中 的各帧图像有相当的重复信息。镜头的关键帧就是反映该镜头巾主要信息 内容的帧图像,一般个镜头要用所提取出的一个或若干个帧图像来表 示。另外,用关键帧表示镜头,使得对视频镜头可用基于图像的技术进行 检索。 一模型的物理描述 1 功能:从一段包含目标车辆的视频图象序列中检测与提取出最有利 于车牌分割与识别的若干包含目标车辆的图象帧; 2 关键帧定义:( 根据人眼的主观判断) 观测场景中目标车辆在采样时 间内相对与镜头位移计划为零( 即静止或几乎静止) ,且车牌清晰可 见( 未被遮挡) ; 3 最佳检测区域( 车牌必然出现的最小区域) :根据经验,该区域可取 为整个观测场景的下半部分或下三分之一区域: 4 异常处理,分为 系统异常,包括开机,掉电,重启等 异常处理:能回到初始状态 背景异常:包括背景渐变,背景突变( 天气突变,车道变化等) 异常处理:对渐变要求能自适应,消除累积误差 第1 4 贞 第二章视频流关键帧提取与流中标识字符串分割 对突变先行适应,如不行则回到初始态 前景异常:人从镜头前走过,拦道杆起落等均会造成误判 异常处理:人工干预 目标运动异常:不交费的军车,公安车辆等会造成误判 异常处理:人工干预 二数学模型 函数定义及性质 a ) 图象全息函数描述f ( x ,y ,2 ;c o + ) ,代表在厶时刻对应图象帧的灰度 值,其中,空域变量( x ,y ) r 。,时域变量t r ,波长 r 。,随 机试验结果变元,s ,s 为随机实验样本空间,其函数值域 f r ,。 b ) 帧差分函数( 帧间隔为n 的“相邻帧”差分) v f ( x ,y ,”,s ) = 扩( x ,y ,t k + 。,s ) 一f ( x ,y ,s ) | n = l ,2 ,3 , c )运动变化点指示函数 ,( x ,_ y ,疗,s ) = :可v f ( ( x x ,, j ,y ,, h n ,, 。s ) ) ,t h d ) 差分帧能量函数 e ( n ) :l ( x ,y j ) ( j ,y ) 函数性质:帧差分函数 无车背景或有车静止时 ( a )无车背景畴的帧差分函数 第1 5 贞 皇量翌彗奎堂堡主兰焦丝奎 目标运动时 ( b )目标运动畴的帧差分函数 图2 3 帧差分函数性质曲线 差分帧能量函数e ( n ) t 曲线 假设初始时刻为无车背景,且目标以正常方式运动,即进入,减 图2 4差分帧能量函数性质曲线 如:目标运动门限 ( 0 ,1 ) :视场中没有目标运动 ( t 。,:) :目标出现,并逐渐减速 ( f 2 ,f ,) :目标暂停 ( ,厶) :目标离开观测场景 曼系统状态描述 将个车流视频镜头分为四种状态,分别对应上述四个时段,即 第1 6 页 第二章视频流关键帧提取与流中标识字符串分割 两车间隙:( 0 ,1 ) ,有车进入( t ,:) ,车暂停( ,2 ,f 3 ) ,离开( ,) ,) 。 通常一个镜头由这四个时段顺序组成,而一段车流视频则是这四个状 态的不断循环过程,如图2 5 所示。 图2 5 状态循环图 可以看出,这种应用下的关键帧一定处在暂停态c 中。要得到关键帧, 关键就在于对四种状态的正确判断( 状态a 与c 较接近,b 与d 较接近) 和异常处理,即系统因异常离开主循环时,要能在最短的时间内回到主循 环。 状态的判断: 两车间隙a :e ( n ) 毛且e ( m ) e b 有车进入b :e ( 玎) 玩l 车暂停c :e ( n ) 以且e ( m ) 匕 离 开d :层( 玎) 2 其中,玩为无车背景判断门限,瓦。,既:为汽车运动判断门限,为 有车背景判断门限,瓦与均由当前时刻帧与背景帧差分而来,民 民,a 各门限实际数值从试验中获得。 从上面的状态判断条件可以看到,对状态a 和c 的辨别主要靠当前帧 与背景帧的差分能量函数的不同,因此需要有一个确定稳定,干净的背景, 同时还要求背景具有自学习能力,每隔一定时间( 如2 小时) ,背景需要 自学习一次,以满足系统对环境的自适应要求。背景学习的方法有两种, 一种是人工干预法,即在开机或无车情

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论