




已阅读5页,还剩63页未读, 继续免费阅读
(计算机应用技术专业论文)基于小波的视频中人工文本检测方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨工程大学硕士学位论文 摘要 随着数字多媒体图书馆数量的飞速增长,对有效的检索、浏览和检测多 媒体信息的需求也随之增加。其中,图像中的文本能够提供重要的语义信息, 且相对语音信号易于提取,因而有效的检测和提取文本信息对图像和视频内 容的分析、理解和基于内容的检索具有十分重要的意义。 小波变换是一种信号的时间频率分析方法,时域和频域都具有表征 信号局部特征的能力,能够有效的从图像提取局部的特征信息,准确地捕捉 文字区域的纹理特征。 本文将小波变换应用到文本检测当中,以小波域的纹理特征的提取以及 基于小波的文本检测方法的实现作为研究的主要内容。文中首先介绍了本课 题所需要的基本理论内容一小波变换的基本概念和多分辨分折理论;然后 通过分析图像分解后小波系数的特点,提出了一种新的特征量,在此特征量 的基础上,结合聚类算法以及后处理进一步完善实现了文本的检测,并通过 实验与其它的特征值进行对比;最后,针对前种方法的特点及实验结果,提 出一种新的基于小波纹理总能量的文本检测方法,并通过实验与上面的方法 进雩亍比较。 关键词:小波变换;k - 均值聚类;纹理能量;阈值 哈尔滨工程大学硕士学位论文 a b s t r a o t w i t ht h en u m b e fo fd i g i t a lm u l t i m e d i al i b r a r i e s i n c r e a s i n gr a p i d l y , t h e r e q u i r e m e n t s f o re f f e c t i v er e t r i e v a l o b r o w s i n g a n d t e s t i n g m u l t i m e d i a i n f o r m a t i o nh a v ei n c r e a s e & a m o n gt h o s er e q u i r e m e n t s ,t h et e x ti ni m a g e s p r o v i d e si m p o r t a n t s e m a n t i ci n f o r m a t i o n , a n di sa l s or e l a t i v e l ye a s yt ob e e x u a c t e dt h a nv o i c es i g n a l t h u s ,t h ee f f e c t i v ed e t e e t i o na n de x t r a c t i o no ft e x t i n f o r m a t i o ni so fg r e a t s i g n i f i c a n c ef o rv i d e oa n di m a g ec o n t e n ta n a l y s i s , u n d e r s t a n d i n ga n dc o n t e n t b a s e dr e t r i e v a l n l ew a v e l e tt r a n s f o r mi sas i g n a aa n a l y s i sm e t h o do ft h et i m e f r e q u e n c y t h ea b i l i t yo f l o c a lf e a t u r e so f s i g n a l si nb o t ht i m ed o m a i na n df r e q u e n c yd o m a i n c a nm a k ew a v e l e te x t r a c tt h ec h a r a c t e r i s t i c so fl o c a li n f o r m a t i o nf r o mi m a g e e f f e c t i v e l y s ot h et e x t u r eo f t e x tr e g i o nc a nb ea c c u r a t e l yc a p t u r e d a sw a v e l e tw a n s f o r mi sa p p l i e dt ot h et e x td e t e c t i o n , t h ee x t r a c t i o no f t e x t u r e f e a t u r ei nt h ew a v e l e td o m a i na n dt h et e x td e t e c t i o nm e t h o d sb a s e do nw a v e l e ta r e t h em a i nc o n t e n ti nt h i st h e s i s 。f i r s t , t h eb a s i ct h e o r yi si n t r o d u c e dr e l a t e dt ot h e s u b j e c t :t h eb a s i cc o n c e p t so fw a v e l e tt r a n s f o r ma n dm u l t i r e s o l u t i o na n a l y s i s t h e n , a f t e r 。t h ec h a r a c t e r i s t i c so fe a c hs u b - b a n dw a v e l e tc o e f 五c i e n t sb e i n g a m l r z e d , t h ei m p r o v e df e a t u r eo fa v e r a g et e x t u r ee n e r g yi sp r o p o s e d o nt h e b a s i so ft h en e wf e a t u r e ,t e x td e t e c t i o na n dl o c a l i z a t i o na r ei m p l e m e n t e db y c l u s t e r i n ga l g o r i t h mb a s e do nt h en e wf e a t u r ev e c t o r sa n dp o s t - p r e c e s s i n g a n d t h ei l e wf e a t u r ei sc o m p a r e db ye x p e r i m e n tw i t ho t h e rf e a t u r e f i n a l l y ,i nv i e wo f t h ef e a t u r e sa h e a da n de x p e r i m e n t a lr e s u l t s , an e wt e x td e t e c t i o nm e t h o di s p r o p o s e db a s e do nt h et e x t u r et o t a le n e r g yo fw a v e l e t a tl a s t , c o m p a r i s o ni s m a d eb ye x p e r i m e n t 谢t t lt h ea b o v em e t h o d k e y w o r d s :w a v e l e tt r a n s f o r m , k - m e a n sc l u s t e r i n g , t e x t u r ee n e r g y , t h r e s h o l d 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除文中已 注明引用的内容外,本论文不包含任何其他个人或集体已 经公开发表的作品成果。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律结果由本人承担。 作者c 签字,:幼 日期:叶年) 月多e t 第1 章绪论 1 1 课题的背景及研究意义 视频中常常包含一些文本,文本检测就是找到这些文本区域的位置,产 生一个包裹文本的框,为后期的文字提取与识别奠定基础。 随着信息数字化技术和多媒体技术的广泛应用,越来越多的信息以多媒 体的方式数字化。视频实际上是集图像序列、声音、文字等为一体的、被人 们广泛使用的一种综合性多媒体信息,对视频信息处理和检索已成为当今计 算机领域的研究热点。 视频中的数据具有海量性且缺乏索引信息,传统的“线性”浏览方式已 经不能满足人们对视频访问和检索需求。为了让用户能够快速从海量视频库 中找到所感兴趣的视频片断,在视频检索上作了许多的研究努力,其中,文 本信息以及视频和音频信息都经常用来检索,由于音频、视频的内容是非结 构化的,如何抽取其内容是个很大的困难。 嵌入在视频帧中的文本信息在一定程度上反映了该视频图像的部分重要 内容。通常形成对视频图像内容的简练描述或说明,能够提供重要的语义信 息。例如,商业广告中的文本能够提供广告名称、公司名称等重要信息;视 频字幕中的人物对话能够提供简明而直接的主体信息;新闻视频中叠加的文 本通常能够提供有关新闻事件的概要,以及时间地点等n ,;对车辆牌照的提 取、识别,其结果可广泛应用于智能交通领域m 。如果这种视频图像格式的 文本能够被自动检测和提取的话,就可以借助于比较成熟的文本检索技术用 这些文本来标注和检索图片,从而为基于内容的图像和视频检索提供一种途 径。 视频图像中的文字识别可以借助于现有的o c r 技术,但是与文档不同 的是,这种嵌入在视频中的文本出现的位置未知,并嵌入在其它背景当中, 因此。在进行识别之前,需要进行一个文本检测并提取的过程。这样,文本 哈尔滨工程大学硕士学位论文 检测就成为以文字来检索视频和图像内容中关键的一步,对于视频和图像内 容的分析、理解和基于内容的检索具有十分重要的意义。 1 2 文本的类型及特征 根据文本是否在影片后期制作中加入视频,视频中的文本可分为两大类: 场景文本和人工文本。 场景文本是存在于场景中,是与场景一块被相机或摄像机所摄取的文本, 如视频画面中偶然出现的某商店招牌或是街头广告上出现的文字。场景文本 在图像或视频中是随机出现,出现的位置、角度、明暗和正反都不确定。其 中,这类文本的字符尺寸、字体、方向、颜色、背景纹理等均是先验未知的, 所以这类文本很难被提取和识别。 人工文本是和图像分开产生的,是后期在图片或是影片制作编辑阶段组 合到视频中的字符串,主要由字幕或标题组成。节目的编辑用这些文本提供 有关的故事的信息。这类文本有影视中片头字幕、影视中的人物对白、电视 新闻节目中发生的事件、人物、时间、地点等的标题、电视广告文本等。 可见与视频中的场景文本相比,人工文本的内容意义性强,比较容易检 测和提取,对视频的检索有重要意义。因此,本文处理的文本主要是人工文 本。 视频中的文本具有如下的特点: 1 字符的尺寸 同一文本区域内,文字的字体和字号通常保持一致,且视频中文本的字 符的尺寸有一定的范围,满足人眼的视力要求。尺寸不会太小,一般的高度 和宽度至少8 个像素,因为文本太小的话,人眼不容易看到。大多数字符的 高宽比在一定的范围内。 2 排列分布 文本大多正向、水平或垂直排列,分布比较集中,即一个文本区域一般 包含多个字符。 3 对比度 视频的制作入一般会选择与背景具有较大反差的颜色作为人工字符的颜 2 哈尔滨工程大学硕士学位论文 色。 4 边缘 由于人工文本通常具有较明显的对比度,而且文本通常由不少的笔画构 成,因此文字区域的边缘信息一般都比较丰富。 5 纹理 由多个字符构成的文本具有一种特殊的纹理,文本区域内的亮度方差比 较大。 6 颜色和亮度 同一文本中的各个字符具有相似的颜色或亮度。 7 字符间隙 对于字幕或电视标题等人工文本,字符一般的都具有一定的间隙,也就 是说字符间没有粘连现象,相邻字符的间隙与字符的宽度成一定的比例关系。 对于同一文字条内,字符内距离保持不变。 1 3 文本检测的方法概述 目前所提出的文字检测方法根据所使用的特征,大体可以分为基于连通 分量( c o r m c c t c dc o m p o n e n t - b a s e d ) ,基于纹理( t e x t u r c - b a s e d ) 和基于边缘 ( e d g e b a s e d ) 三种一。很多算法实际上综合利用了以上的某两种或全部三 种特征。对于视频字纂,还可以利用视频的结构特性和帧问冗余信息。,对检 测过程进行加速。除此之外,还有少数算法利用压缩域特征( 如d c t 系数“,、 运动向量等) 直接从j p e g 、m p e g 等压缩数据中检测文字,但由于对文字 区域定位的准确性通常较差,一般只适合于检测文字的有无,不适于文字提 取与识别。 1 。基于连通分量的方法 基于连通区域的方法通常假设文字具有一致的前景色,而且与背景色具 有较大的颜色差异以保证较高的对比度。该类方法依据这一假设使用各种算 法例如灰度阈值m 、颜色量化“m 、区域标注n “、区域分裂与合并等提取出所有 的连通分量;然后根据文字分量固有的几何特性和相互间的位置关系( 例如 字符的间距、行距n m 等) ,构造启发式规则,对连通分量进行几何分析以排除 哈尔滨工程大学硕士学位论文 明显的非文字分量,然后自底向上地将连通分量逐级地合并成较大的分量, 最后形成区域,在合并的过程中,将不满足规则的分量作为背景分量除去; 最后对所得到的候选文字区域进行优化,包括利用水平和垂直投影n ”、文字 块的填充率、与背景的对比度等指标进一步去除残余背景区域。 g a o 和t a n g 。,提出用边的水平和垂直投影来定位文本串。自底向上的方 法恰恰相反,它主要是基于一些启发示规则或是几何约束从一些种子区域来 寻找相似区域,然后再应用区域增长来合并属于同一簇的像素。 c a i 等w 提出了一个基于字符特征如边强度,边密度和水平分布来进行文 本检测的方法。首先,在y u v ( y 表示亮度,u 、v 表示色差) 颜色空间应 用边检测算法,用一低阈值滤去非文本边,然后应用一个局部阈值技术来保 留低对比度的文本以及简化背景。最后,分析投影轮廓来定位文本区域。 a g n i h o t r i 等o ”用r g b ( r e d ,g r e e n ,b l u e ) 颜色空间中的r e d 部分,通 过一带特定掩码的卷积过程来增强图像进行边检测,最后,在边图像上执行 连通分量分析( 八像素相邻) ,把相邻的边像素聚合成单个的连通分量结构。 基于区域的方法具有较快的处理速度和较高的定位精度,但是当文本嵌 入复杂背景或接触其它图形对象时,会遇到困难。 2 基于纹理分析的文本检测方法 基于纹理的方法把文本区域看成特殊的纹理类型,因为组成文本的字符 水平对齐,与背景形成亮度反差,而表现出周期性的水平亮度变化。 根据文字区域与背景区域存在纹理上的区别,先提取能够区分文字区域 与背景区域的纹理特征,然后进行纹理分类。他们首先用各种各样的方法, 比如说,c j a b o r 滤波器w ,空间变量n n ,或是小波变换“”来计算文本块的纹 理特征。然后,采用合适的分类器,比如说神经网络u ,或是支持向量机n ” 来分类文本块和非文本块。有些方法假设文本的笔画相对比背景有一定的对 比度,因此,检测有紧凑的边的区域为文本区域。 j i e 等m 利用边缘图来作为文本行的纹理特征,从边缘加强图中,利用水 平和垂直投影来提取文本行。 基于纹理的方法可以识别出各种类别的文字,效果不错,具有鲁棒性, 有较好的通用性。但是这种方法实现起来计算复杂、耗时。另一方面,对于 如何选用有效的纹理特征也是该类算法的一个难点。 4 哈尔滨工程大学硕士学位论文 3 基于边缘的方法 基于边缘的方法主要是基于观测到文本区域有大量的边缘。文本字符笔 画与背景的颜色或亮度之间具有的较高对比度,使它们之间产生较为明显的 边缘,而文本一般由多个字符组成,因此,在文本区域有高密度的边缘。这 种方法首先通过边缘检测w ( 例如c a n n y 算子、g a u s s 差分算子) 得到原图 像的梯度图像,对边缘进行适当过滤以后使用形态学操作将密集的强边缘合 并成区域,再使用启发式规则( 例如连通分量分析w 、文字条基线检测m ,等) 对文字块进一步筛选,定位出文字行。 文献 2 5 中选用c a n n y 算子得到图像的边缘图,然后利用形态学的“开” 和“闭”运算连接所有的边缘,由投影来分割文本行,最后根据规定的文本 块所满足的条件对文本进行排除。 基于边缘的方法可以比较快速地检测到文本,但是当背景纹理复杂的时 候,常常产生过高的误检率。可以与其它的方法综合使用,作为算法的第一 步来初步检测,缩小检测区域,从而加快检测速度。 1 4 本文研究的主要内容与论文安排 本文主要定位到视频单帧中的人工文本检测,即处理的对象为静态的视 频图像,以提高文本检测的精确度为主要目的基于上面的要求,本文的研 究内容主要分为以下几个方面: ( 1 ) 寻找能够有效地区分出文本区域与非文本区域的特征量。从分析视 频图像经过小波变换后得到的各子带的小波系数出发,选出所需的小波子带, 根据噪声对图像影响,结合对传统能量的分析,提出了新的抗噪纹理平均能 量的特征量。 ( 2 ) 基于提出的特征量,完成对文本的检测。通过选择k _ 均值算法进 行分类,初步检测定位候选文本,并结合“先排除,后填充”的处理方法, 实现文本的精确定位。通过实验验证:提出的特征向量相对其它的特征向量 提高了检测精确度。 ( 3 ) 根据上面实验出现的问题,补充提出一种新的基于总能量的文本检 测方法。根据小波的边缘系数的特点,分析能量分布的情况,以行和列为处 哈尔滨工程大学硕士学位论文 理对象,实现行的最终精确定位,从而提高了精确度。 论文共分5 章,在第1 章绪论中,首先介绍了课题研究的目的和意义,然 后针对视频中的文本类型及其特点,对现有的研究成果进行了全面的归纳和 介绍;第2 章介绍小波变换的基本理论:第3 章介绍了传统的特征值的求法, 在此基础上提出一种新的特征值的求法;第4 章结合小波变换的理论,根据第 3 章提出来的特征值,实现基于小波平均纹理能量的文本检测,并通过实验与 其它的特征值进行比较,验证特征值的有效性;第5 章提出一种新的基于纹理 总能量的文本检测方法,并通过实验与第4 章的方法进行对比;最后,对全文 作了总结。 6 哈尔滨工程大学硕士学位论文 第2 章小波变换的理论基础 2 1 小波变换理论 小波变换是一种信号的时间一一频率分析方法,它具有多分辨分析 ( m u l t i r e s o l u t i o na n a l y s i s ) 的特点与傅立叶( f o u r i e r ) 交换、窗口傅立 叶变换( g a b o r 变换) 糨比,j 、波变换是空阕( 时间) 和频率的局部变换, 在时域和频域都具有表征信号局部特征的能力,可以根据高频和低频使时间 频率窗变窄变宽,因此能有效地从信号中提取信息。它通过伸缩和平移 等运算功能对函数或信号进行多尺度细化分析,很适合于探测和展示正常信 号中夹带的瞬态反常现象,解决了傅立叶变换不能反映出信号在时间域上局 部化问题,因丙被誉为“数学显微镜”。 2 1 1 小波变换的基本概念 定义2 1 设函数( f ) e l 2 ( r ) ,工2 ( r ) 为能量有限空间,若其傅立叶变 换满足条件 止生鱼巫2 如 ,乃j = ( 。 ,由巧c 巧+ l ,则纺。( 0 可由巧+ 。的一 组基 纺+ l ,。) ,。:来表示: 纺 = ( 乃,纺+ 抽) 吩+ 协 ( 2 1 3 ) 由式( 2 1 0 ) 和式( 2 1 2 ) 可得 = = 去纺山砣。 = 去枷:t vz、,二“ 即得递推公式 l i 哈尔滨工程大学硕士学位论文 勺 = 去巳+ 。,+ :。 ,二h e z 由c ,则吮t 可由,的一组基 ,h 。来表示: = ( ,纺山确山 ( 2 1 4 ) ( 2 1 5 ) 由式( 2 - 1 1 ) 和式( 2 - 1 4 ) 可得 乳= 仃, = 去晶纵删) = 去岛c + 。,。 v 二” 即得递推公式 乳= 胃1 岛勺“,m ( 2 - 1 6 ) 其中, ,咖,为尺度系数和小波系数,就是m a l l a t 的快速分解算法: 寸 c ,+ 1 j 哼以 卜 巳一啦,- - ( 嘭+ 1 t 羁 ) 由此可以推广开,只要确定了空间的初始序歹l j ,就可以算出任意空间的 多维尺度系数和小波系数。 式( 2 - 1 4 ) 和式( 2 1 6 ) 即为快速离散小波分解公式。 2 2 3 二维正交多分辨分析 二维多分辨分析( 2 dm r a ) m 是一维多分辨分析的推广,是由一维多 分辨分析的有关张量积形成的。设 巧) e z 是p ( r ) 上的多分辨分析,则二维 多分辨分析为: 巧2 = 巧。巧( 2 - 1 7 ) 即 巧2 衅形成了l 2 ( r 2 ) 上的多分辨分析,由此可得到一组闭子空间序 列: o ) c c e l 2c 2c k 2 寸r ( r 2 ) 由上节一维多分辨分析得到,尺度函数p ( x ) 虼,和尺度基 妒m ( x ) ) = 2 j , 2 妒( 2 x - k ) ,j ,k z ,x r ,同样对于二维情况,可以得到尺度函 数f a ( x , 力皇妒( 力妒o ,) ,妒力虼2 和尺度基函数: 哈尔滨工程大学硕士学位论文 纺 也( 五力皇纺 ( 功纺 ( y ) = 2 m 矿( 2 。x 一毛) 妒( 2 y 一屯) 其中,毛,乞e z ,( 而力e 皿2 。 定义2 是巧2 在巧+ ,2 空间的正交补,则有巧+ 2 = 巧2 0 2 , 形2 就是 r ( r 2 ) 上的小波空间。 小波基的推导; 巧+ ,2 = ,固巧+ 根据式( 2 9 ) = ( 巧o ) o ( 巧o ) = 形。巧) o 孵o ) o ( o 巧) o ( 乃。乃) 因此可以得到 盱= ( 巧o ) o ( o 巧) o ( o ) ( 2 1 8 ) 式( 2 一1 8 ) 说明构成小波空间2 的小波基有3 个:。 矿1 ( 局力= 伊矿( j ,) 2 ( x ,y ) = y ( z ) 妒( 力 ( 2 1 9 ) 矿3 ( x ,) ,) = ( x ) 烈力 这里伊为上的尺度函数,缈为上的小波函数。 根据式( 2 1 9 ) ,可以得到 ( 1 ) 巧o 空间的小波基 1 肚 似y ) = 纺 ) 吩也( y ) ,南,岛e z ( 2 ) 形。巧空间的小波基缈2 肭岛( x ,y ) = g a ( 力纺南( y ) ,毛,k 2 z ( 3 ) 形o 空间的小波基缈, 2 ,力= 的 ) 的南( 力,南,岛e z 综合起来,缈0 ( 矗力:p = 1 ,2 , 3 , 毛,乞z ,( x , y ) e r 2 就是所要找的 r ( r 2 ) 空间的二维小波基。 2 2 4 二维正交m a l l a t 塔式算法 w 。似力r ( r 2 ) ,设o ,j ,) 在某个2 空间中,对其进行小波分解,则 有 ,j ,) = ( 厂 ,y ) ,纺 o ) 吧 ( y ) ) 纺 o ,) ,) = j v | 捌 f v | 删 七知拶4 j rj l 删 这里,。颤。蕉3f ( x ,j ,) 在逼近空间t 圆巧一- 的投影,允鲫h f ( x ,j ,) 哈尔滨工程大学硕士学位论文 在小波空间巧to 彤一t 的投影,屯为( 而y ) 在小波空间一。o 巧一,的投 影,屯o w ,- t 为,力在小波空间形一圆一- 的投影 屯2 荟互仃n 仍一以啊尥磁一t o ) 纺一 ( 力 = a 勺一 抛纷。 矗。2 z 。:也z 。: s o b i n z ,将j i bj 中的值,全部映射到1 6 加之间的整数,其中,包括1 和6 加: ( 3 ) 选择当前窗口b 6 。r ,对于1 七 b i n ,后z ,统计窗1 :3 内k 的出现 的频率丑; ( 4 ) 根据式( 3 2 ) 计算该窗i :1 的平均能量。 k = 乏圮 ( 3 - 2 ) 同样按照上面的步骤, - - 3 d g 求出的i v ,i d 中,该窗口位置所对应的平均 能量乞和气一。这样就得到了同一窗口位置在不同系数矩阵内的三个平 均能量。 这样,同一个窗口位置上的三个特征值,即构成了标志原视频图像中对 应该位置的像素块的三维特征向量。 为了方便下面聚类操作,需要对特征向量中的每个分量进行规格化。 设( 埘,功为块沏,盯) 所对应的特征向量,则 ( 所,玎) = ( 易似,拧) ,昂( 坍,疗) ,( m ,功) ( 3 - 3 ) 易( m ,力、气,( 州,疗) 和乓一伽,1 ) 分别为对应的水平、垂直和对角平均能量, 按照公式( 3 - 4 ) 进行规格化: 帆加c 气铲,气字,墨串 c s 4 , 其中 m h = m a x ( ( ( m ,珂) ) m ,= m a x ( 叫( 毛,( m ,玎) ) m e = m a x ( 州( ( 聊,砌 这样,就得到了最终标志该像素块的特征向量。 哈尔滨工程大学硕士学位论文 3 3 本章小结 本章在简单介绍纹理分析的各种方法的基础上,着重分析了基于小波的 纹理特征分析,从金字塔式的小波分解,到实例图解分析了小波系数的特征, 以及此基础上的小波子波段的选择,最后提出了一种新的平均纹理能量的求 法,主要平滑了噪声对视频图像的影响。 哈尔滨工程大学硕士学位论文 第4 章基于小波聚类分析的文本检测 在人工智能领域中,计算机视觉这一分支关注开发分析图像内容的算法, 其中统计模式识别是图像处理方法的一种。统计模式识别认为图像中的每个 物体属于若干事先定义的类型、范畴或模式类之一。其中,图像中的文本隶 属于一类模式,所以按照模式识别的过程来介绍基于小波的聚类分析图像中 的文本检测是最合适不过的。 在给定一幅含有多个物体的数字图像的条件下,模式识别过程由三个主 要阶段组成:图像分割阶段、特征抽取阶段和分类w 。因此,选择按照这三 个阶段的顺序来介绍本章的文本检测方法。 本章主要设计来验证第3 章提出的新的特征向量的有效性。 4 1 图像处理中需要考虑的小波分析的问题 4 1 1 小波基的选取 任何实正交的小波对应的滤波器组 h ( r o ) ,g ( o j ) 均能实现图像的分解与 合成,但是,并不是任何分解均能满足要求,同一幅图像用不同的小波基进 行分解所得到的数据压缩效果是不同的。由于小波变换是将原始图像与小波 基函数以及尺度函数进行内积运算,1 9 8 9 年d a u b e c h i e s 基于离散滤波器迭代 的方法构造了紧支集的规范正交小波集,因而内积运算转换为信号和离散滤 波器的卷积运算,小波变换中的小波基的选取转换为正交镜像滤波器的选取 酬a 对小波基的选取,应使小波具有以下性质: ( 1 ) 消失矩:即f ( r ) 西= o ,o h ) 大小窗口来分割小波系数矩阵。 具体的提取特征向量的过程如下: 在三个小波系数矩阵,同时进行,设矩阵大小r c ,当前窗口w i n 内的 哈尔滨工程大学硕士学位论文 元素的行和列坐标( f ,j ) 在原矩阵的位置为( r s i z e ,c s i z e ) ,矩阵中一行所能容纳 的窗口数为,秽,当前窗口数为m ,n 为当前行数。 s t e p l 窗口横向无重叠得滑动,根据式( 3 1 ) ,求出对应的该窗口的特 征值。 s t e p 2 如果( r s i z e = r ) 并且( r s i z e = c ) ,那么聊= w n + l ,转s t e p 3 : 否则结束退出。 s t e p 3 如果( w r 取模n p r = = 0 ) 那么盯= n + l 转s t e p 4 ,否则转s t e p l s t e p 4 纵向无重叠滑动,换行进行s t e p l 。 这样,就同时得到同一位置像素块的特征向量,根据前面第3 章,对特 征向量进行标准规格化。 4 3 2k - m e a n s 聚类 在所有基于最小化目标函数的聚类算法中,属于硬聚类方法的k - 均值 聚类算法是应用和研究最为广泛的算法之一。其基本思想是:取定聚类数目 c 和选取c 个初始聚类中心,按最小距离原则将各样本划分到c 类中的某一 类,之后不断地计算类中心和调整各样本的类别,最终使得各样本到其所属 类别中心的距离平方和最小。 文本检测中有两类清晰明显的类别:文本和非文本。为了避免选择阈值 的主观性,结合k 一均值聚类思想前提一聚类的数目应提前知道,选择了 k 均值对窗口对应的像素块进行聚类。 首先看一下k 均值聚类算法的描述: 假设x = 五,屯,) 是p 维特征空间r ,中的一个有限数据集合,r l 是 数据集合中的元素个数,令c 为样本的分类数,2 c s n ,r “是所有实的c x n 矩阵的集合,令矿= “,吃,v c ) c r ,是特征空间r 9 的矢量集合,表 示c 个聚类中心向量。“。是第k 个样本属于第1 个中心的隶属度, u = 【】r “表示e x n 的隶属度矩阵。定义目标函数为: ( u ,矿;z ) = 黾一hi e ( 4 - 1 ) 1 = 1l c i 其中,以是经典的类内误差平方和目标函数,i i | 是尺9 上的4 范数。 令丸爿i 一_ i t :,1 f c ,l k n 为样本黾与聚类中心q 润的相似性 哈尔滨工程大学硕士学位论文 度量。k 均值聚类算法通过迭代: : b 丸2 叩 鲥七行 ( 铊) 铲 o ;口船彳觇1 剑幻怯挺行 ( ) 磁 = 丝- ,l a i s c ( 4 - 3 ) 且满足约束条件: = 1 ,l o ,嗡一 ( 4 - 7 ) e b e :球) = o 图4 1 2 为从数据中选择的文本为不同大小的、不同语言、西文的视频图 像,两种特征量的实验对比结果如图4 1 3 和4 1 4 所示。 图4 1 2 视频图像的灰度图 图4 1 3 本文特征向量预定位的结果 啥尔滨工程大学硕士学位论文 图4 1 4 o l l a v a t a 2 0 0 4 特征向量预定位的结果 本文选用查全率和准确率两个标准参量来衡量检铡结果,如下式: 查全率= 精确率= 正确检测到的文本块数 总的文本块数 正确检测到的文本块数 所有检测到的文本块数 l o o 1 0 0 选取c c t v 1 的新闻联播和b b c 最新电视英语视频中共4 4 3 帧,作为实 验数据,其所有视频图像的分辨率都调整为3 2 0 * 2 4 0 ,与文献 1 9 进行实验 对比,其文本检测结果如表4 1 所示。 表4 1文本定位检测算法的检测结果 从实验数据上可以看出,本文提出的平均能量的特征值在精确率上要高 于文献 1 9 中的小波系数的标准偏差特征值而且相对文献 1 9 ,本文的算 法的主要特点及改进的地方: ( 1 ) 降低了k ,均值的时间复杂度。在p 维欧式空间中。该算法每次迭 代时,n 个样本归到k 类中某一类的时间复杂度为o ( n k p ) ,当聚类数目 比较多的时候,算法迭代的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中医养生与健康管理师考试题库详解
- 2025年兵器行业职场新人成长指南面试预测题解析与职业规划建议
- 内蒙古鄂尔多斯市东胜区九年级化学上册 第二章 空气、物质的构成 2.1 空气的成分(2)说课稿 (新版)粤教版
- 2025年中职文化课面试备考策略及模拟题答案
- 辽宁省阜新市2025年-2026年小学六年级数学综合练习(上,下学期)试卷及答案
- 专题03 非谓语动词交际用语-2025年高考真题和模拟题《英语》分类汇编
- 2025区域销售代理合作协议
- 1.4 地球的圈层结构 教学设计 2023-2024学年人教版(2019)高一地理必修第一册
- 智慧树知道网课《Java程序设计(山东联盟-曲阜师范大学)》课后章节测试答案
- 2025年制造业企业招聘面试题预测及解析
- 粉尘定期清扫制度
- 踢毽子社团活动方案
- DBJ33-T 1152-2025 《建筑工程建筑面积计算和竣工综合测量技术规程》
- 项目部施工质量管理体系及管理制度
- 仁爱版七年级英语上册教学工作计划(含进度表)
- 2025年国防知识竞赛题库及答案(共100题)
- TJPMA 022-2024 疾病预防控制业务档案管理规范
- 餐饮服务与数字化运营 习题及答案 项目七
- 2024沪教版初中英语新教材六年级上册单词表(默写表)
- 教学课件-饭店管理概论第二版
- 开学第一课开学立规矩课件21
评论
0/150
提交评论