已阅读5页,还剩49页未读, 继续免费阅读
(计算机应用技术专业论文)视频帧中的文本检测与提取技术.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
内蒙古师范太学颀士学位论文 中文摘要 随着计算机和通信技术、宽带网络技术、音视频压缩技术以及计算机 硬件技术的发展,图像和视频中的文本信息对索引、检索及高层语义的自 动理解等具有重要价值。本文主要研究如何从视频帧中检测、提取与识别 人工添加的文本信息。论文的主要工作如下: 首先,根据文本的特征以及目前存在视频图像的文本定位和提取算 法,实现了一种基于边缘检测的文本定位方法口实现主要流程包括:对选 取的视频帧图像进行灰度化处理、边缘检测、边缘图像二值化及数学形态 学操作,最后定位文本区域。实验表明该方法实现简单,并且可以定位出 大部分的文本区域,但当图像或视频帧中背景本身包含了丰富的边缘信息 时,则定位文本区域就不够准确。 其次,对定位好的文本区域进行提取与识别,本文应用基于阈值分割 方法来提取文本。在处理简单或者单一背景色的文字图像时,使用经典的 阈值分割算法中的最大类间方差法( o - r s u ) ,该方法计算简单、稳定有效。 在复杂背景下提取文字时,本文使用了局部自适应的阈值化方法。经过实 验测试,得到了很好的分割效果。 最后,对提取出的文本进行去噪声等处理,最大限度地去除文本的背 景,为o c r 识别系统提供完整清晰的二值输入文本图像。经“尚书七号 文字识别软件对文本图像进行识别磊,结果证明文字的正确识别率能达到 8 0 左右。 关键词:边缘检测,数学形态学,二值化,阂值,文字识别 a b s t r a c t w i t ht h ec o m p u t e ra n dc o m m u n i c a t i o n st e c h n o l o g y 、b r o a d b a n d 珏e 咖墩 t e c h n o l o g y 、a u d i oa n dv i d e oc o m p r e s s i o n t e c h n o l o g y a sw e l la st h e d e v e l o p m e n to fc o m p u t e rh a r d w a r et e c h n o l o g y , i m a g ea n dv i d e oi n f o r m a t i o n o ft h et e x tf o r i n d e x i n g 、r e t r i e v a la n dt h ea u t o m a t i ch i g h 1 e v e ls e m a n t i c u n d e r s t a n d i n gi sv e r yi m p o r t a n t t h i sp a p e rm o s t l ys t u d i e sh o wt ot e s t 、e x 弧髓 a n dr e c o g n i z et h ea r t i f i c i a la d d i t i v e st e x ti n f o r m a t i o nf r o mv i d e of h m e s 1 m e m a i nj o bo ft h e s i si sa sf o l l o w s : f i r s t l y , a c c o r d i n gt ot h ec h a r a c t e r i s t i c so ft e x ta n dt h ec u n e n tt e x t l o c a l i z a t i o na n de x t r a c t i o na l g o r i t h mi nv i d e of r a m ew h i c ham e t h o db a s e n e d g ed e t e c t i o nt e x tp o s i t i o n i n gi sr e a l i z e d t h em a i n s t e p si n c l u d et h a t g r a y - s c a l ep r o c e s s ,e d g ed e t e c t i o n ,e d g ei m a g eb i n a r i z a t i o na n dm a t h e m a t i c a l m o r p h o l o g yo p e r a t i o ni nv i d e of r a m e ;f i n a l l yw ep o s i t i o nt h ea r e ao ft e x t e x p e r i m e n ts h o w st h a tt h em e t h o di se a s ya n dc a n p o s i t i o nm o s to ft h ea f e 疆o f t e x t ,b u tv i d e of r a m ec o n t a i n sa ne n r i c hi n f o r m a t i o no ft h e e d g ei nt h e b a c k g r o u n d ,a n dp o s i t i o n i n gt h et e x ta r e ai sn o ta c c u r a t ee n o u g h s e c o n d l y , w ee x t r a c ta n dr e c o g n i z et h eg o o dt e x ta r e at h a tt h e t h r e s h o l d b a s e ds e g m e n t a t i o nm e t h o di su s e dt oe x t r a c tt h et e x t 姗、阮d c a l w i t ht h et e x ti nas i m p l eo rs i n g l eb a c k g r o u n dv i d e o f r a m e ,w em a k eu s eo ft h e o t s um e t h o d ( o t s u ) w h i c hi sc l a s s i c a lt h r e s h o l ds e g m e n t a t i o na l g o r i t h ma n d t h em e t h o di ss i m p l e 、r o b u s ta n de f f e c t i v e w h e ne x t r a c tt e x ti nac o m p l e x b a c k g r o u n dv i d e of r a m e ,w em a k eu s eo fl o c a la d a p t i v et h r e s h o l dm e t h o d e x p e r i m e n t a ls h o w sav e r yg o o ds e g m e n t a t i o nr e s u l t s f i n a l l y ,w ew i p eo f fn o i s et ot h ee x t r a c t e dt e x ta n dm a x i m i z er e m o v et h e b a c k g r o u n do ft e x t ,w ep r o v i d eac o m p l e t ed e f i n i t i o no fb i n a r i z a t i o n i n p u t l m a g ef o rt h eo c rr e c o g n i t i o n s y s t e m w eu s et h e “h o l dt h e7 ,t e x t 内蒙古师范人学硕士学位论文 r e c o g n i t i o ns o f t w a r e t ot e s tt e x t i m a g e ,t h er e s u l t s h o w st h a tc o r r e c t r e c o g n i t i o nr a t eo fc h a r a c t e r sc a na c h i e v ea b o u t8 0 k e yw o r d s :e d g ed e t e c t i o n ,m a t h e m a t i c a l m o r p h o l o g y ,b i n a r i z a t i o n , t h r e s h o l d ,c h a r a c t e rr e c o g n i t i o n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果,尽我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 本人为获得内蒙古师范大学或其它教育机构的学位或证书而使用过 的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示感谢。 关于论文使用授权的说明 本学位论文作者完全了解内蒙古师范大学有关保留、使用学位论 文的规定:内蒙古师范大学有权保留并向国家有关部门或机构送交论 文的复印件和磁盘,允许论文被查阅和借阅,可以将学位论文的全部 或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等 复制手段保存、汇编学位论文,并且本人电子文档的内容和纸质论文 的内容相一致。 保密的学位论文在解密后也遵守此规定。 张常鎏;黪 导懒:私 日期: of # ,月牛日 第一章绪论 第一章绪论 1 1 研究的背景及意义 随着信息数字化技术和多媒体技术的广泛应用,各行各业的大量信息都在以多媒 体信息的方式被数字化,视频的数据具有海量性,面对海量的视频数据,人们需要从 中方便快捷地获取所需要的信息。然而,现今对多媒体信息的检索还处于起步的阶段, 远不能满足人们的需要。视频是最为广泛和基本的多媒体信息,因而对视频的检索已 成为当今计算机领域的研究热点。 图像中所含的文本信息在一定程度上反映了该图像的部分重要内容,通常形成对 图像内容的简练描述或说明。例如,商业广告中的文本能够提供诸如产品名称、公司 名称等重要信息;在体育比赛的画面中,可以通过抽取运动员的号码、姓名和球队名 称对比赛画面进行注释和索引;新闻图片中的文本能够说明发生的事件、时间、地点 等;在复杂文档的自动处理中,如股票证书的自动登记处理,可以通过提取文档中特 定的文本信息进行股票登记;医学图像中标注的病情、日期、病人姓名、病例号可以 方便医学图像快速查阅:视频字幕中的人物对话能提供重要的主题信息;对车辆牌照 的提取、识别,其结果可广泛应用于智能交通领域;这些对于帮助人们理解图像的内 容、检索相关图像都有着重要的作用。如果这种视频图像格式的文本能够被自动检测 和提取的话,就可以借助于比较成熟的文本检索技术用这些文本来标注和检索图片, 从而为基于内容的图像和视频检索提供一种途径。 视频图像中的文字识别可以借助于现有的o c r 技术,但是与文档不同的是,这 种嵌入在视频中的文本出现的位置未知,并嵌入在其它背景当中,因此,在进行识别 之前,需要进行一个文本检测并提取的过程。这样,文本检测与提取就成为检索视频 和图像内容中关键的一步,对于视频和图像内容的分析、理解和基于内容的检索具有 十分重要的意义。 1 2 研究现状 1 2 1 国外的研究情况 国外对视频文本检测和提取的研究开始的比较早,主要有以下算法: r a i n e rl i e n h a r t 1 】利用文字颜色的单一性、文本区域的大小约束性、同一文本会在 连续几个视频帧出现等特点,对文本进行检测和定位。首先对视频帧使用分裂一合并 算法,将视频帧分解成颜色一致的连通元。然后通过匹配算法,对连通元进行多帧跟 内蒙古帅范大学硕士学位论义 踪,去除那些没有连续多帧出现的连通元。最后通过对比度分析,形状分析等去除非 文本的连通元。该算法要对每一个视频帧进行分裂合并算法,而且视频中生成的连通 , 元绝大部分都不会是文本,因此算法复杂度太高,系统效率低。 b o o n l o c ky “2 j 提出利用场景变化来检测视频文本的出现和消失。算法对相邻两 个视频帧取差值,在差值图像中寻找高亮区域。这种算法只能提取高亮的视频字幕, 而不能提取非高亮的字幕,而且也会受到较亮的物体的干扰。 a n i lk j a i n 3 l 提出了一种通用的文本定位算法,可雳于报纸广告、网页、图像和视 频。由于是基于连通元的方法,因此要求文本是单色的。而且这种算法在字体很小的 时候会出现问题,因为这时候图像的颜色直方图是稀疏的,如栗背景比较复杂,那么 文本区域就不存在种占优势比例的颜色,这样就无法确定文本的颜色。因此算法很 难实现真正意义上的通用。 s h i m 4 】假设文本在视频序列中是静止的,利用文本区域灰度的同一性进行文本定 位。首先将视频季贲中灰度相近的像素进行合并。大的区域被视为背景,将被去除。剩 下的区域进行一些形状分析,去除非文本区域。它的缺点是要对每一个视频帧进行连 通元生成算法,生成的连通元绝大部分都不会是文本,算法复杂度太高,系统效率低。 而且视频中实际上还是有可能出现运动的文本的,如滚动新闻消息,这种算法对运动 的文本则失效了。 t o s h i os a t o 5 j 提出用边缘滤波提取垂直边缘,然后通过平滑滤波将相邻的边缘连 接成候选文本区域,然后逶过形状分析去除非文本区域。该算法震的都是灰度滤波, 因此不能很好地提取灰度值和背景接近的文本。 b y u n g i q 提出用字符的拓扑结构特征来提取字符文本区域,然后对视频字幕区域进 行复原。该算法是基于单个视频帧图像的字幕提取,效果并不明显。 s h i n i c h is a t o h 7 】等利用视频字幕区域空闻变化丰富的特性进行字幕区域检测,并 且通过多帧像素最小化来去除复杂的背景。但是这种算法在背景运动不明显的情况下, 并不能有效去除背景,而且容易受到噪声的于扰。 l ih u ip i n g i 叫将视频文本定位看作是一个二类模式分类问题,首先将视频帧分割成 图像子块,然后对每个子块通过神经耀络来判定是否为文本块。因为算法中神经网络 输入的是从灰度图像中提取的特征,因此该算法不能很好地提取灰度值和背景接近本。 k w a n g i nk i m l 9 j 将视频帧分成7 * 7 的子块,然后用支持向量机来判断每个子块是 否为文本块,然后合并相邻的文本子块,从而定位出文本区域。由于支持向量机输入 的是从欢度图像中提取的特征,因此不能很好地提取灰度值和背景接近的文本。 2 第一章绪论 m a r c ob e r t i n i l l 0 1 用角点特征来进行的视频字幕检测。这种算法实质上类似于基于 灰凄边缘的算法。 r a i n e rl i e n h a r t l l l 】提出用个前馈神经网络来检测视频字幕的纹理。该算法也不能 很好地提取灰度值和背景接近的文本。 h y e r a nb y u n 1 2 】提出一种数学形态学分析的算法来检测视频中的文本区域。首先对 视频帧进行灰度拉伸,然后用数学形态学腐蚀等操作去除噪声,再用膨胀等操作将相 邻的像素连接起来,生成候选连通区域,最后通过形状分析去除非文本连通区域。该 算法不能去除一些宽度类似于文字笔画的物体。 e d w a r dk w o n g 1 3 】利用最大梯度差分来检测文本区域,本质上也属于基于灰度边 缘的方法。 c h e nd a t o n g 1 4 】首先焉边缘检测算子检测视频中的边缘,然后用数学形态学膨胀操 作将相邻的边缘连接成候选文本区域,然后用支持向量机来检验候选文本区域,去除 虚假文本区域。 1 + 2 。2 国内的研究情况 目前,国内关于视频文本提取的主要参考文献如下: 杨友庆等f 1 5 l 提出一种篱单的基于图像二值化的视频文本分割算法,首先对视频帧 进行局部二值化,然后去除大块的亮块,从而得到文本区域。这种算法的缺点是只能 提取高亮的视频字幕,瑟不能提取非嵩亮的字幕。该算法没有考虑彩色图像的情况。 胡宏斌等i 1 6 j 提出用视频帧问的差值来检测文本的出现和消失。原理是文本出现和 消失的时候,相邻两帧文本所在位置的像素值变化比较大。但是这个算法没有利用多 帧信息增强被检测到的文本区域。这种算法也只能提取高亮的视频字幕,而不能提取 非离亮的字幕,而且也会受到较亮的物体的干扰。 王辰等l 】通过灰度边缘检测来定位文本区域。首先提取视频帧的灰度边缘,然后 合并相邻的边缘,生成候选文本区域,最后用些启发式规则( 候选区域的大小、边缘 点密度等) 来去除虚假的文本区域。该算法不能提取灰度值和背景接近的文本。 庄越挺等【1 8 】的算法是把图像分成n * n 的予块,提取子块的灰度特征,再用预先 训练好的支持向量机( s v m ,s u p p o r tv e c t o rm a c h i n e ) 来进行分类,检测出文本块和菲文 本块,最后通过后期处理进行去除噪声和合成,得到字幕提取结果。算法使用了金字 塔模型,髭检测各种大小的文本。该算法不能提取灰度擅和背景接近的文本。 黄晓东等【1 9 j 综合应用小波变换和颜色聚类技术来提取视频帧中的字幕区域。首先,通 过小波交换计算视频隰像中酶局部栽量特征,能羹高的区域作为候选字幕区域。然焉 3 内蒙自师范太学硕十学位论丘 利用字幕颜色一致的特性,进行8 乓域颜色聚类算法从背景中分离出字幕。最后利 用字幕属性特征消除噪声。但是该算法容易受到颜色一致的物体的干扰。 王勇等唧墟出一种基于边缘点密度的视频字幕自适应检测算法。采用基于边缘检 测的方法,结合文字图像区域本身的特点,在对原图像进行边缘检测和形态学膨胀后, 对其在水平和垂直方向的边缘密度投影采用一种自适应的检测算法,从而检测得到字 幕图像区域。该算法的优点是可以检测出各种字体大小的文本行。但是算注不能提取 灰度值和背景接近的文本。 郭丽等提出一种基于颜色边缘点和游程平滑的视频文本提取算法。首先用彩色 边缘检测算子检测出图像中的边缘,然后用多次水平和垂直的游程平滑操作使得文字 边缘形成连通区域并去掉部分孤立的噪声,再通过对连通域的分析定位出文本区域 的边界,最后对文本区进行确认。但是该算法只利用了视频帧的静态图像信息,没有 考虑到视频帧的运动信息,没有利用文本在视频的多帧中出现的特点来提高系统效率。 13 文本的分类 视频中的文本根据其来源可以分为两类:一娄称为场景文本,另一类称为人工文 本拉2 i 。场景文本是指在场景内出现并由记录设备记录下来的文本,包括汽车照片中的 牌照字符,视频画面中的广告牌、商店的招牌和运动员球衣上的号码等,如图卜1 所 示。场景文本对诸如机器人视觉、视频监控等方面应用非常有价值。但是由于光照不 均匀、拍摄角度、曝光不足,文本载体被污染等原因使得这些文本字符在大小、角 度、形态、光照上变化很大,所以这些文本很难被提取和识别。人工文本是指人为地 加入视频中以便对视觉或听觉内容进行补充的文本,具有较为规范的特征,例如电视 新闻标题、电影字幕对白等,如图1 2 所示。由于人工文本是人工加入到图像或视频 中的,所以这些文字的内容的指向性就非常明显,而且这些文字的外观一般比较规范, 一般都是印刷体,大小有一定限度,便于人眼辨认,与背景的对比度较高一般不会发 生形变,甚至不被其它物体遮挡。 图卜1 场景文字幽卜2 幽形文字 通过上面的分析可以看出,场景文本相对于图形文本难以检测和识别,而且对场 第一章绪论 景内容的理解意义不大,因此本文主要检测和提取人工文本。 1 4 文本的特征 视频中的文本包含非常丰富的特征,而且这些复杂细致的特征对于文本的定位与 提取有着关键作用。总结起来,主要具有以下几个主要特征: ( 1 ) 排列特征:通常情况下,文字大多为正向的水平或垂鱼排列,而且分布比较集中, 霹一个文本区域,一般包含多个字符,例如电视新闻标题和字幕对自。 ( 2 ) 颜色和亮度特征:在彩色图像或图像序列中,文本分稚在复杂的背景之上,通常文 本与背景具有不同酶颜色和亮度。幅图像中可能含有各种不同颜色或亮度的文本, 但大多数同一文本中的各个字符具有相似的颜色或亮度。 3 尺寸特 菱:视频中文本的字符具有各种不同的尺寸,不过,视频中文本麴喜动提数 一般只要求提取人的眼睛能够识别的字符,因此文本字符通常有一个最小尺寸。对于 静态图像中的字符,当字符的高度小予8 个像素时,或当字笱的宽度小于 6 个像素 时,人的眼睛已经难以识别视频中的文本,因此,字符的高和宽通常大于1 6 个像素。 4 字符闽距特征:对于字幕或薪闯标题等匿形文本,字享孥之间一般都具有一定的闽距, 也就是说字符没有粘连现象,相邻字符间的间距和字符的宽度成一定的比例关系。 s 边缘特征:由于图形文本和背景通常具有较明显的对比度,焉且文本通常由许多笔 画构成,因此文字区域的边缘信息一般比较丰富,通过检测边缘方法可以提高文本提 取的性能。 ( 6 ) 纹理特征:由多个字符构成的文本具有相同的纹理,文本区域内亮度方差比较大。 ( 7 运动特征:在视频中,字幕或薪闻标题等图形文本在视频序列中的位置可能会发生 变化,但是它们的变化方式非常简单,或是水平运动或是垂直运动。在运动过程中, 文本一般都保持原有的尺寸、字体、排列方向等特性。 1 。5 论文面临的困难及研究内容 通过以上对匿像和视频中文字提取技术以及函内外相关工作的分析可以看出,露 前本文所研究的图像和视频中文字提取所面临的困难主要包括以下几个方面: 图像分辨率低,鹜像质量差,对于视频帧来说,表现的更为鳃显。虽然随着图像和 视频的压缩编码技术以及高清晰度数字电视的发展,图像和视频的质量将得到比较大 懿改善,但是图像质量昀增强,尤其是文字图像的增强,仍需要遴一步的磷究。 ( 2 ) 图像中文字背景复杂多变。在图像和视频帧中,复杂背景纹理模式各异,甚至有 些还类似子文字。这不仅是导致文字检测出现较高的误检率,还会使得这部分文字缀 5 内蒙吉师范大学硕七学位论文 难被检测到,产生漏检。复杂背景的存在,使得被检测到的文字块中常常含有大鲞的 与文字颜色相当接近的背景对象,现有的文字分割算法还不能有效地去除它们,使得 它们残留在二值文字图像中起被提交给o c r ,造成o c r 识别率的严重下降。 ( 3 ) 文字的尺寸、字体、颜色、运动方式多变。寻找一种能在各种图像分辨率下,较为 复杂背景中,提取并分割磁文字的鲁棒性方法是一个重要的研究课题。 ( 4 ) 目前的文字检测和分割方法的处理速度还相当有限,基本上还没有达到实用的程 度。如何在保证文字提取正确率的前提下加快处理速度,提高系统的实用性也是个 重要的研究目标。 本文豹工作主要集中在文字检测算法的研究和文字提取方法的研究两个方面: ( 1 ) 基于边缘的文字检测方法的研究 应用边缘信息来进行视频文字检测,主要是根据人工文字的灰度一般与背景有较 大区别,而无论是哪种文字,必然有较多笔划。因此,在视频帧的文字区域,必然可 以检测到密集的边缘信息,通过这些边缘信患,我们就可以实现对背景图像中的文字 进行检测和定位。 2 基于阙僮分割的视频文字提取方法研究 在图片和视频文字检测的基础上,采用阈值分割方法来分割视频中的文字区域。 再利用文字的特点和空间信患,对检测到的文字块进行准确翻离效的分割,最大限度 地去除图片中的背景,为后端的o c r 系统提供完整的= 值图像输入。 1 6 论文的组织安排 本文的研究主要集中在视频单帧图像的字幕探测与提取上,即处理的对象为静态 的图像,以提高文本检测的精确度为主要目的。应用边缘检测和形态学的方法来进行 文本的检测和定位。经过大量实验证明该方法可行,并达到满意的定位和提取效果。 论文内容共分为五章,各章节内容安排如下: 第一章绪论。着重地介绍了论文的研究背景,图像和视频中文本的类型和特征, 并给出了论文的研究内容和组织安排。 第二章图像处理技术的介绍。我们对文本进行检测及提取的时候,用到了很多图 像处理技术,本章主要对应用到的图像处理技术进行详细介绍。 第三章基于边缘信息的文本区域定位方法。先简要地介绍并分析了最近应用比较 广泛的几种文本定彼技术。通常情况下,视频中文本检测与定缀的步骤为:文本区域 的检测,然后是候选文本区域的生成,接下来滤除非文字区域,如把一些噪声干扰、 裁与文字相近的物体边缘检测造成的虚假文字块去掉,尽量减少虚假文本区域的数嚣。 6 第一章绪论 第四章文本区域的提取与识别。酋先对文本区域的图像进行增强,再采用予像索 插值法扩大字幕分辨率,然后对文本区域进行提取,分割逝文本字符,最悉进行字籀 二值化,得到较为干净清晰的二值化文本图像,为文本识别做好准备。文本的识别, 采用冒前较为成熟的印刷体字符识别技术,对二值化后的文本图像进行文本识别,得 到正确的文本字符序列。 第五章总结和展望。总结了本文所做的研究工作,指出了视频中的字幕检测与提 取的不足和今后的研究方向。 7 内蒙吉师范人学硕一l 学位论文 第二章图像处理技术 图像处理就是对图像信息进行加工,以满足人的视擞或心理或应用的需求的行为。 现在处理图像主要应用数字图像处理技术,数字图像处理就是利用计算机或其它数字 硬件,对图像信息转换而得的电信号进行某些数学运算,以提高图像的实用性。随着 计算机技术的飞速发展,计算机的运算速度大大提高,这将大大促进数字图像处理技 术的发展。 我们对文本进行检测、定位及提取的时候,用到了很多图像处理技术,所涉及的 图像处理技术大致有图像颜色处理【z 3 】、图像边缘检测、灰度图像形态学、二值化等, 以下将对它们做具体介绍。 2 。 彩色图像的灰度化处理 颜色可分为黑白色和彩色。黑白颜色指颜色中不包含任何的彩色成分,仅由黑色 鄹自色组成。在r g b 颜色模型中,如果r = g = b ,则颜色霉,g ,8 ) 表示一种黑皇颜色; 其中r = g = b 的值叫做灰度值,所以黑白颜色又叫做灰度颜色。彩色和灰度之间可以 互相转化,由彩色转化为灰度翡过程瑟q 做灰度化处理。 灰度化就是使彩色的r ,g ,b 分量值相等的过程。由于r ,g ,b 的取值范围0 - 2 5 5 , 所以灰度的级别只有2 5 6 级,即灰度匿像仅能表现2 5 6 季孛颜色灰度。 灰度处理的方法主要有如下3 种: 1 最大值法:使r ,g ,b 的值等于3 值中最大的一个,即r = g = b = m a x 0 乏,g ,b ) ,最大 值法会形成亮度很高的狄度图像。 2 平均傻法:求出r ,g ,b 值的平均值,鄹r 嚣g = b = ( r + g + b ) 3 j 平均值法会形成较柔 和的灰度图像。 3 ) 加权平均值法:根据重要性或其它指标给r ,g ,b 赋予不同的权值,并使r ,g ,b 的 值加权平均,霹pr = g = b = ( w r r + w g g + w b b ) 3 ,其中w r , w g ,w b 分别为r ,g ,b 的 权值。w r ,w g ,w b 取不同的值,加权平均值法就将形成不同的灰度图像。由于人眼 对绿色的敏感度最高,对红色的敏感度次之,对蓝色的敏感度最低,因此使 w g w r w b 将得到较合理的图像。实验推导证明:w r = 0 3 0 ,w b = 0 1 l ,w g = o 5 9 时, 虽p 当r = g = b = ,;0 3 0 r + 0 5 9 g + o 。l i b 时,能得到最合理的灰度图像。 2 2 图像边缘检测 图像边缘是图像的最基本特征。所谓边缘是指其周围像素灰度有阶跃变化或屋顶 8 第二章图像处理投术 变化的那些像素的集合。边缘广泛存在于物体与背景间、物体与物体之间。因此,它 是图像分割所依赖的熏要特征。灰度图像边缘检测算子【2 4 】有:r o b e , s 算予、p r e w i t t 算子、k i r s c h 算子、l a p l a c i a n 算子、s o b e l 算子、i x ) g f t a p l a c i a no f g a u s s i a n ) 算子等。 下两介绍其中几种常用的边缘检测算子。 2 2 1r o b e r t s 边缘检测算子 r o b e , s 边缘算子采用的是对角方向相邻的两个像素之差。从豳像处理的实际效果 来看,边缘定位准,对噪声敏感。r o b e , s 边缘检测算子是一种利用局部差分算子寻找 边缘的算子,它壶下式给出。 g ( x ,y ) = f ,( 工,y ) - 1 ( x + l y + 1 ) 1 2 + f f ( 工+ l y ) 一f ( x ,y + 1 ) 】2 ( 2 一1 ) 其孛,x , y ) 是具有整数像素坐标的输入图像,g 茗,y ) 表示处理后z ,y 点豹灰度 值,平方根运算使该处理类似于在人类视觉系统中发生的过程。 2 2 2s o b e l 算子 图2 - 1 所示的两个卷积核形成了s o b e l 边缘算子,图像中的每个点都用这两个核 做耧积,一个核对通常的垂直边缘响应最大,而另一个对水平边缘响应最大。两个卷 积的最大值作为该点的输出位。 1o1 - 2 o 2 一lo l 图2 - 1s o b e l 边缘检测算子 2 2 3 拉普拉斯( l a p l a c i a n ) 算子 拉普拉斯算子是对二维函数进行运算的二阶导数算予。由于拉普拉斯算子是一个 二阶导数,它将在边缘处产生个陡峭的零交叉,因此它对于噪声有极高的敏感性, 而且对于双边缘带不易检测出边缘的方向。基于这些原因,l a p l a c i a n 算子比一阶导数 少用。如果对图像先傲平滑操作可以有效降低噪声的影响,那么下面的l o g 算子正 是基于这个思想。 2 2 4p r e w i t t 算子 一二。,一 其定义鸯:g 誓y ) 一艘葺罗蟛k 岁,图像中的每个点都与这两个核做卷积, 9 内蒙吉师范大学硕,l j 学位论文 话个卷积的最大值作为该点的输出值,从而得到该图像的边缘图。p r e w i t t 算子对灰度 渐变和噪声较多的图像处理的较好,即该算子对噪声具有抑制作用。 其中对应两个卷积核为: 吃2 【兰三王 ,或e l ;一司 c 2 _ 2 , 2 。2 。5l 。g 算予 在利用l a p l c i a n 算子进行边缘检测时,噪声点对边缘检测有一定的影响。此时, 可以把g a u s s 平滑滤波器和l a p l a c i a n 算子结合起来,先平滑噪声,再边缘检测。其数 学定义为: gx , y = 刍e x p 卜等| 协3 ) h ( x , y ) 捌px , y 】搴f ( x , y ) ( 2 - 4 ) 其孛:,扛,y ) 为图像,g ( x ,y ) 必嵩斯函数,h ( x ,y ) 为处理后的边缘圈。 2 3 数学形态学操作 数学形态学是建立在严格数学理论上的- - 1 7 新兴学科,是一种新型的数字图像处 理方法和理论。基本思想是利用一个结构元素去探测一幅图像,看看图像中哪些地方 可以很好地放入结构元素,并将这些位置作标记,以便得到图像结构的信息。 数学形态学的基本运算有4 个:腐蚀( e r o s i o n ) 、膨胀( d i l a t i o n ) 、开( o p e n ) 和闭 ( c l o s e ) 2 弱。基于这些基本运算还可以推导和组合成各种数学形态学实角算法。下面分 别介绍这四种数学形态学基本运算。 2 3 1 灰度腐蚀 焉结构元素参0 ,y ) x e i 输入图像f ( x ,岁) 进行灰度腐蚀,其定义必: ( ,e 6 ) ( s ,f ) am i n 厂( 5 + 工,r + y ) 一6 ( z ,y ) i ( s + 工,f + y ) e d ,( x ,y ) e d b ) ( 2 - 5 ) 照2 2 a 洳) e 捌所示为灰度腐蚀过程的示意图: 铡2 2 a 图像fb 结构元素bc ) _ = l 结构元素b 对f 腐蚀d 腐蚀的结累 1 0 2 3 2 灰度膨胀 第二章图像处理技术 用结构元素6 善,y ) 对输入图像f ( x ,岁) 送行灰度膨胀,其定义为: ( 6 ) ( 5 ,f ) * m a 荨 厂( s z ,f 一) ,) + 6 ,y ) l ( s - x , f y ) d ,( z ,y ) d b ) 莲2 - 3 蹰示为灰度膨胀过程示意鬻: 图2 - 3 ( a ) 灰度膨胀过程 2 3 。3 开运算 先腐蚀后膨胀称为开, x oo 拳静ooo ooo ooo 奇夺o oodoo 口o o oo6o6o6oo o 口oo oooo ooo 口oo6 oo lo 圈2 - 3 伯) 灰度膨胀续梁 即o p e n ( x ) = d 篮) ) oo 备o6 量o ooo 尊口oo o 9 o 口 o o o o o o ooooooooo 妒自1 0 0 ( 2 - 6 ) 下面看一下开运算操作的过程。 争寺oo 仝 l 参l 图2 4 开运算过牲嘲2 - 5 闭运算 c o 翻秘女 在图2 - 4 上面的嚣幅圈中,左边是被处理的图像x ,右边是结构元素器,下面的 两幅图中左边是腐蚀厝的结果;右边是在此基础上膨胀的结果。可以看到:原图经过 开运算后,一些孤立鹃点被去簿。一般来说,开运算能够去除孤立的点,毛刺和小桥郄 连通两块区域的小点) ,有对图像进行平滑的作用,这就是开运算的作用。 2 3 。4 闭运算 先膨胀羼腐蚀称为闭,即c l o s e ( x ) = p ( 并) ) 。下面看一下闭运算操作过程。 在图2 - 5 上面的两幅图中,左边是被处理的图像x ,右边是结构元素艿,下面的 两幅图中左边是膨胀后的结果,右边是在此基础上腐蚀的结果。可以看到:原图经过 闭运算后,断裂的地方被弥合了。一般来说,闭运算能够填平小孔,弥合小裂缝,这 就是闭运算的作用。n 丌和闭也是对偶运算,用公式表示为: ( 删( 彳) ) cs 现q 跖( ( x e ) ) ,或者( c l o s e ( x ) ) c o p e n ( ( x c ) ,。邵岩开运算的补 。状忿 o ,一;+ 震露瀛1 0 饿 譬 仁 饿y 瀚i ivy;n 一, l z o, , 1 参口oo o 夺静 拳夸口o o 夺o o o o 厶o 口静 6 o o o o o o o 夸o o 譬 。夺o峥oo 夺o o 口夺o o o o o o o 9 o o o 寺o o 9 o 矗o o o o o o 6 o oo 参o o o 夺o o 6 o o o o o o o o o o o o 口 尊o o o 争 夸o 口 夺o o拳夺夸夺o o o o o o o o 夺 o o o o e o 口o o o尊o 内蒙古师范人学顾:【j 学位论文 集等于x 的补集的闭运算,或者x 闭运算的补集等于石的补集的开运算。 通过上述膨胀、腐蚀、开启和闭合运算及其各种组合,可以实现对图像的噪声滤 除、边界提取、区域填充和区域骨架提取等许多操作。 2 4 图像增强技术 图像增强的目的是采用某种技术手段,改善图像的视觉效果,或将图像转换成更 适合于人眼观察和机器分析识别的形式,以便从图像中获取更有用的信息。图像增强 与感兴趣物体特性、观察者的习惯和处理目的相关,因此,图像增强算法应用是有针 对性的,并不存在通用的增强算法。 图像的增强主要包括图像的平滑( 去除噪声) 和锐化【2 6 1 。图像的平滑目的是抑制噪 声,提高图像质量,改善图像的视觉效果,但平滑的过程通常也会使图像的边缘和细 节信息变得模糊;而图像的锐化目的恰恰在于突出图像中的边缘,是使图像的边缘变 得清晰的过程,以利于提取图像中的边缘特征,用于识别和处理。 2 4 1 图像的平滑 图像的噪声可以使图像出现颜色失真,清晰度下降,从而影响图像质量。任何图 像在生成、传输、解码过程中都可能产生噪声,需要采用一定的方法予以消除。 对噪声的处理,可以分线性滤波和非线性滤波两大类:线性滤波方法一般通过取 模板与邻域内像素做离散卷积求得均值代替处理像素来实现,常用的方法有:领域均 值滤波、低通滤波和局部统计滤波;非线性滤波方法中应用最多的是中值滤波,中值 滤波可以有效地滤除脉冲噪声,具有相对好的边缘保持特性,并易于实现,因此被公 认为是一种有效的方法,下面简单介绍其中部分方法。 ( 1 ) 邻域均值滤波法 假设图像厂( 工,y ) 是由许多灰度恒定或变化较缓域组成,区域内像素间存在高度空 间相关性,而噪声则相对统计独立地叠加在图像上。当我们对噪声像素滤波时,一般 使用大小为m 宰的滤波窗口在邻域内求得一个灰度均值来代替该像素,以达到削弱 噪声的效果,提高该与周围像素的相关性。 ( 2 ) 局部统计滤波法 此方法是基于图像的局部统计特征( 均值g 和方差d 等) 进行滤波。主要有w a t t i s 滤波和l e e 滤波。 a 、w a l l i s 滤波算法:g ( 工,y ) = g ( 上,y ) + 丝厂( 工,y ) - g ( x ,y ) 1 ( 2 7 ) b 、l e e 滤波算法:g ( 石,y ) = g ( x ,y ) + 七厂( 工,y ) 一g ( x ,y ) 1 ( 2 8 ) 1 2 第二章豳像处理投术 其中:k 是局部校准差对原标准差的比值。当k l 时,图像得到锐化;o k 1 时, 图像褥到平滑:k = o 时,帮为篱单平均滤波。 ( 3 ) 中值滤波法 此法是瓣邻域内像素排序,用中闻灰度值代替输出像素灰度。常用的滤波窗墨有 大小为3 x 3 或5 x 5 的线形、十字形、菱形、方形和圆形等形状的窗口。不同的窗口得 到的处理效果不同,方形和隧形窗日适用于外轮廓线较长物体的图像;十字形窗口适 用于有尖顶角状对象的图像。中值滤波处理中,同时也会改变未受噪声污染的像素的 灰度值,使图像变得模糊。随着滤波窗口的长度增加和噪声污染的加重,中值滤波效 果明显交坏。针对中值滤波方法的缺陷,目前已经提出了一些改进方法。 2 4 。2 图像的锐化 ( 1 ) 梯度锐化法 图像锐化方法中最常用的方法是梯度法。对于图像,( 墨y ) ,在像素点( 石,y ) 处的 梯度是一个矢量,记为:g r a d ( 厂) = ( a s o = ,a f l a y ) 。 鎏像在像素茗,y ) 的梯度表示它在水平方向鞠竖直方向豹灰度变化信息。梯度的 幅度和方向分别为:g r a d ( x , y ) = g r 耐( i ) l l = 2 + ,e :a r c t a , , ( s , l s , ) ,梯度的幅度表 示梯度的方趣上的最大增加值,梯度的方向是灰度变化最大的方向。对于离散的数字 图像而言,梯度的大小常被用作边缘检测算子,也称图像在像素点( x ,y ) 的梯度。 有时为了简化计算,也将梯度弘蠢( 茗,罗) 近似定义为:g r a d ( x , y ) = 阢k 夕i 防y i 。 ( 2 ) 拉普拉斯锐化法 拉普挝斯锐化算子是基予线性二阶微分的舅子,拉普拉斯算子为: g ( x ,y ) 一,( 工,夕) 一v 2 ,( 五y ) ;5 矗y 一( + 玲一啮,+ 互+ t ) ( 2 9 ) 拉普拉斯算子的特点是:对于灰度均匀的区域或斜坡中间,二阶差分为0 ,算子 不起作用;算子可在斜坡底或低灰度侧形成“下冲”,而在斜坡顶或高灰度侧形成“上 冲”,因此算子具有突出边缘的特点。 2 5 图像分割技术 图像分割是指将一幅图像分割减不溺敬区域,并使这些区域楣匠不相交,显每个 区域在某些图像特征如边缘、纹理、颜色、亮度等方面具有一致或相似性。常用的图 像分割方法有:直方图闽值分割法,区域生长法等。 内蒙亩师范人学硕士学位论文 2 5 1 直方图阈值分割法 这类分割方法基于假设:图像中物体和背景之问的灰度分布集中在不周的灰度级 段上。通过阂值将目标和背景分成不同的区域,是二值化常用的方法。常用直方图阈 值法有直接阈值法、判别分析法、自动熵阈值法。 ( 1 ) 直接阂值法 典型的直接闽值法是p r e w j t t 等人提出的直方图双峰法。该方法的基本思想是: 当图像的灰度级直方图具有双峰特性时,选取两峰之间的谷对应的灰度级作为阈值 丫h ,将直方图分为两段,用两个不同的灰度( 黑或白) 代替,从而形成二值图像。这一 方法较适合图像中物体和背景间存在较大灰度差,且直方图有明显峰谷的情况。 ( 2 ) 判别分析法 假设图像f ( 工,y ) 的像素数为n 灰度均值为m ,根据阈值t 将图像分为两组,像素 数分别为m 和:,平均灰度分别为m ,和m :,方差分别为d ,和d :,计算得到它们 的组内方差d 。和组闯方差d 占;鳃内方差隽:d 。一1 蠢,+ :d :,组闻方差为: d 骞= n 1 ( m ,一垅) 2 + 2 ( 肌:一柳) 2 = 】:( 肌,一班:) 2 ,判别分析法的目的在于选取阈值t , 使得这个分组的组闻方差最大,同时组内方差最小。 2 5 。2 区域跟踪分割法 区域跟踪是寻找具有相似性的像素群,它的方法是从某一像素出发按照属性一致 性这个一致性可以是灰度级、彩色、梯度等原则逐步地增鸯爨像素,即区域增长,对 幽这些像素组成的区域,使用某种均匀测度函数测试其均匀性。若为真,则继续扩大 区域,直到均匀侧度函数为假。常用的方法有区域生长法和区域分裂合并法。 ( 1 ) 区域生长法 区域生长法是从满足检测准则的点开始,从各个方向开始“生长”形成区域。先 假设f 为一个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 方管供货合同协议书
- 园林设计师顶岗试题带答案
- 足球知识竞赛试题及答案(英超部分)
- 教师交通安全协议书
- 2026-2031年中国生物降解塑料市场深度调查与未来发展趋势报告
- 防水清包工易合同范本
- 基于标签分布的头部姿态估计算法:原理、优化与多元应用
- 查自己签过的合同协议
- 2026-2031全球及中国电致变色材料行业发展现状调研及投资前景分析报告
- 2026-2031祛斑产品现状及发展趋势(3)模板
- Web安全实践-课件 第1-4章 SQL注入漏洞- 文件包含漏洞
- 2025年职业健康培训考试题及答案
- 网络安全员考试实操题库及答案解析
- 雨课堂在线学堂《军事理论》作业单元考核答案
- JJG 1036-2022电子天平
- (新版)旅游接待业理论考试题库(含各题型)
- 鱼骨流程图模板
- 中国传统文化讲义:五行学说-共63页PPT课件
- 110kV二线圈变压器交接验收(大修后)试验作业指导书
- 平面钢闸门质量检测表
- 闪购模式介绍PPT
评论
0/150
提交评论