




已阅读5页,还剩58页未读, 继续免费阅读
(信息与通信工程专业论文)电子阅读笔中图像预处理及帧间配准的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国防科学技术大学研究生院学位论文 摘要 图像的预处理及帧间配准是基于移动扫描光学字符识别( o c r ) 的电子阅读 笔的核心技术。本文构建了完整的针对移动扫描图像的前端处理算法模块,对其 中各环节的算法进行了研究和实现。 论文的具体工作如下: l 、解析了a v i 视频文件和b m p 位图文件的格式,实现了a v i 视频文件中各 单帧图像的提取、r g b 图像向灰度图像的转换、配准后的拼接图像保存为b m p 格式等模块,为进一步的研究工作提供了良好的实验手段。 2 、在文本图像的二值化过程中,实现了o t s u 全局阈值法和b e m s e n 局部阈值 法;结合二者优点,实现了全局和局部阈值相结合的分步二值化方法,取得了较 好的实验效果。 3 、实现了基于h o u g h 变换的文字行倾斜校正算法,分析了h o u g h 变换算法 的复杂性及其对倾斜角度检测失误的缺陷。采用了投影值倾斜角检测法,把整数 b r e s e n h a m 算法引入到投影值的计算过程中,降低了计算的复杂度;进一步,分析 比较了投影值法中的最大投影值法与最大空白段法,选择了更准确、有效的倾斜 角度检测准则。 4 、采用水平投影法实现了文本行的切分,采用双三次插值法实现不同大小的 文本行图像的规格化。 5 、在文字图像的帧间配准及拼接环节,实现了s i f t 算法、基于文字轮廓的 配准算法以及投影配准算法;并提出了改进的投影配准法,提高了该方法应对图 像拉伸变形的鲁棒性。 论文实现了基于移动扫描o c r 的电子阅读笔的前端处理算法模块,仿真实验 表明,前端处理算法模块的效果良好,为电子阅读笔后端的字符识别等工作打下 了坚实的基础。 关键词:电子阅读笔移动扫描文字识别图像预处理二值化倾斜校正行 切分图像配准 第i 页 国防科学技术大学研究生院学位论文 a bs t r a c t i m a g ep r e p r o c e s s i n ga n df r a m e - t o f r a m er e g i s t r a t i o n i st h ec o r et e c h n i q u eo f e l e c t r o n i cr e a d i n gp e nb a s e do ns h i f t - s c a n n i n go c r ,t h i sp a p e rb u i l d su pac o m p l e t e f r o n t - e n dp r o c e s s i n ga l g o r i t h ms y s t e mf o ri m a g e sa c q u i r e db ys h i f t - s c a n n i n g ,t h e n s t u d i e sa n di m p l e m e n t st h ea l g o r i t h m so fe v e r ys t a g ei nt h i ss y s t e m t h ea c t u a lw o r ko ft h i sp a p e ri sa sf o l l o w s : l 。a n a l y s e st h ef o r m a to ft h ea v iv i d e o f i l e sa n db m pf i l e s ;r e a l i z et h ee x t r a c t i o no f s i n g l e f r a m e si m a g ef r o ma na v if i l e ,t h ec o n v e r s i o no fr g bi m a g e st og r a yi m a g e s a n dt h es a v i n go fm o s a i ci m a g e sa f t e rr e g i s t r a t i o ni nb m pf o r m a t ;p r o v i d eg o o d e x p e r i m e n t a lm e d i at ot h ef u r t h e rr e s e a r c h 2 i ni m a g eb i n a r i z a t i o n ,i m p l e m e n t so t s ug l o b a l - t h r e s h o l da l g o r i t h ma n db e r s e n l o c a l t h r e s h o l da l g o r i t h m ,a n dt h e nr e a l i z e st h es t e p - b i n a r i z a t i o nm e t h o db a s e do nt h e s e t w oa l g o r i t h m sm e n t i o n e da b o v e ,w h i c hh a sg o o de x p e r i m e n t a le f f e c t s 3 r e a l i z et h el e t t e rs k e wd e t e c t i o na l g o r i t h mb a s e do nh o u g h t r a n s f o r m ,a n a l y z e st h e c o m p l e x i t y a n dd e f e c t so ns k e wd e t e c t i o no fh o u g h - t r a n s f o r m ;a d o p t st h e p r o j e c t i o n - v a l u e c h e c k i n ga l g o r i t h m i n s l o pd e g r e e sc h e c k i n g , i n t r o d u c e s t h e b r e s e n h a ma l g o r i t h mt oc a l c u l a t et h ep r o j e c t i o nv a l u e st ol o w e rt h ec o m p l e x i t yo f c a l c u l a t i o n 。 f u r t h e r m o r e ,t h r o u g h t h e c o m p a r i s o n o n p e r f o r m a n c e o f m a x - p r o j e c t i o n - v a l u em e t h o da n dm a x - b l a n k - l e n g t hm e t h o do ft h i sa l g o r i t h m ,s e l e c t s t h em a x - p r o j e c t i o n - v a l u em e t h o di n f i n a le x p e r i m e n t , w h i c hw a sp r o v e dt ob em o r e e f f e c t i v e 4 c a r r i e so u tt e x t - r o we x t r a c t i n gu s i n gh o r i z o n t a l - p r o j e c t i o na l g o r i t h m , a n dn o r m a l i z e s t h ei m a g es i z eu s i n gb i c u b i c i n t e r p o l a t i o nm e t h o d 5 i ni m a g ef r a m e t o - f r a m er e g i s t r a t i o na n dm o s a i c , c r e a t e st h es i f ta l g o r i t h m , r e g i s t r a t i o na l g o r i t h mb a s e do nl e t t e rf i g u r ea n do np r o j e c t i o n 1 1 1 ep a p e ri m p r o v e st h e p r o j e c t i o nr e g i s t r a t i o na n dt h ee x p e r i m e n t sr e s u l ts h o wt h a tt h ei m p r o v e dm e t h o di s r o b u s tt oi m a g ed i s t o r t i o n s i naw o r d ,t h i sp a p e rc r e a t e sac o m p l e t ef r o n t - e n dp r o c e s s i n ga l g o r i t h ms y s t e mf o r e l e c t r o n i cr e a d i n gp e nb a s e do ns h i f t - s c a n n i n go c r ,a n dt h ef i n a le x p e r i m e n ts h o w s t h a tt h i sa l g o r i t h ms y s t e mw o r k sw e l l ,a n db u i l du pt h ef o u n d a t i o nf o rt h ec h a r a c t e r r e c o g n i z ei nb a c k - e n do f e l e c t r o n i cr e a d i n gp e n s k e yw o r d s :e l e c t r o n i cr e a d i n g p e n ,s h i f t - s c a n n i n g ,i m a g ep r e p r o c e s s i n g , b i n a r i z a t i o n 。s k e wa d j u s t m e n t ,t e x t - r o we x t r a c t ,i m a g er e g i s t r a t i o n 第i i 页 国防科学技术大学研究生院学位论文 表 目录 表1 1 目前国内的几款便携式电子阅读电笔简介6 表3 1 两种方法对倾斜角检测的精度对比3 3 第1 i i 页 国防科学技术大学研究生院学位论文 图 图 图 图 图2 1 图2 2 图2 3 图2 4 图3 1 图3 2 图3 - 3 图3 4 图3 5 图3 6 图3 7 图3 8 图3 9 图3 1 0 图3 1 1 图3 1 2 图3 1 3 图3 1 4 图3 1 5 图3 1 6 图3 1 7 图3 1 8 图3 1 9 图3 2 0 图3 2 1 图3 2 2 图3 2 3 图3 2 4 图目录 电子阅读笔实物图:1 o c r 系统框图2 连续的两帧图像之间有大部分的重叠内容4 电子阅读笔的设计框图5 融f f 文件结构1 2 列表( l i s t ) 结构1 2 块( c h u n k ) 结构1 3 b m p 文件头结构1 7 文字图像的预处理流程1 8 o t s u 算法的二值化效果2 0 o t s u 算法对光照不均匀的图像二值化后出现伪影现象2 0 b e m s e n 法中采取不同邻域窗口进行二值化的效果2 1 全局和局部相结合的二值化方法的流程图2 2 利用全局阈值t 把像素点分成两类2 3 全局和局部相结合的二值化方法实现效果2 4 h o u g h 变换示意图2 6 h o u g h 变换算法对直线图像进行倾斜校正后的效果2 7 h o u g h 变换算法对文字图像进行倾斜校正后的效果2 7 h o u g h 变换出现的异常情况2 8 从不同角度对文本图像进行投影测试2 8 直线点与光栅点的相对位置2 9 直线点与光栅点之间的动态误差:- 3 0 利用b m s e n h a m 算法得到图像不同倾斜角上的投影曲线3 1 最大空白段法与最大投影值法的效果比较3 2 存在噪声的二值化文字图像局部放大图。3 3 邻域相关法的去噪效果3 4 均值滤波法的去噪效果3 4 膨胀腐蚀后的去噪效果3 4 文本图像的水平投影3 5 行切分的结果3 6 文本内容特殊导致行切分的失误3 6 采用阈值判断后切分出的行3 6 第l v 页 国防科学技术大学研究生院学位论文 图3 2 5 图4 1 图4 2 图4 3 图4 4 图4 5 图4 6 图4 7 图4 8 图4 9 图4 1 0 图4 1 1 图4 。1 2 图4 1 3 图5 1 图5 2 图5 - 3 通过双三次插值实现图像放大3 7 图像的熵与互信息3 9 尺度轨迹4 l d o g 尺度空间局部极值检测一4 2 由梯度方向直方图确定主梯度方向4 3 两幅图像中的s i f t 关键点j 4 3 由关键点邻域梯度信息生成特征向量4 4 字符图像中s i f t 特征点匹配示意图4 4 图4 7 中两帧字符图像进行拼接后的结果4 5 文字的上下轮廓特征4 6 上下轮廓法配准后的图像拼接效果4 6 投影配准示意图4 8 字符的拉伸变形导致投影配准失败4 8 改进的投影法配准效果示意图4 9 移动扫描所获得的图像帧序列中的几个代表帧5 l 针对图5 1 中各帧图像进行预处理后切分出的文字行5 1 针对图5 1 中图像帧序列序处理拼接后得到的文字行5 1 第v 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及敢得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已| 在论文中作了明确的说明并表示谢意。 学位论文题目:垫至阅逮箜主图逸嚣缝堡熟嵫阅壅途尥盈壅皇塞理 学位论文作者徽:。鱼土笙一。日期:。衫年,月二罗日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存,汇编学位论文 ( 保密学位论文在解密后适用本授权书。) 学位论文题目:垫量阚逮笺圭图倦亟矬堡殛邀阅墼遣曲堑巍量塞理 学位论文作者签名: 盔:l 一茎枉一 日期: d 砷年,1 月研日 作者指导教痔签名:整釜童 基期:和7 年,;月零,曩 国防科学技术大学研究生院学位论文 第二章绪论 当今世界正处在一个信息爆炸的时代,“信息化”的浪潮冲击着社会的各个 方面。甚至可以说大部分现代人的工作、学习以及生活的过程,就是对各种不同 的信息进行收集、整理、保存和传递的过程。不可否认,文字作为人类文明的结 晶,仍然是信息的主要载体。然而,与以往不同的是,习惯了用计算机来处理事 务的人们更希望把“纸质文档”变成“电子文档”来进行处理,因为后者处理处 理更加方便、快捷。于是,文字录入成了一项非常重要的工作,甚至出现了“打 字员”这种以纯粹的文字输入为工作的职业。o c r 技术的出现和成熟,把人们从 枯燥的“键盘劳动”中解放出来。但人们的追求远远不止于此,更多的时候,他 们希望能够“随时随地”完成文字资料的电子化工作,而不必受扫描仪、计算机 等这些大体积设备的妨碍。 于是,便携式电子阅读笔应运而生。与普通的文字识别系统相比,便携式电 子阅读笔以一种脱离了计算机的独立形式,在一个大小与普通钢笔相比拟的器件 上实现整个o c r 系统,能够方便地实现对纸质文档的电子化,如图1 1 。 图1 1电子阅读笔实物图 1 1o c r 简介 o c r 是o p t i c a lc h a r a c t e rr e c o g n i t i o n ( 光学字符识别) 的简称。1 9 2 9 年,德 国科学家t a u s h e c k 提出了o c r 的概念,并申请了专利。几年后,美国科学家h a n d e l 也提出了对文字进行识别的方案。但真正的o c r 系统,直到电子计算机诞生后才 成为现实。现在,通常意义下o c r 的含义已经演变成利用光学技术对包含各种形 式的文字或符号的纸质文档( 或其它物理材料的文档) 进行扫描,从而获得它们 的数字化图像,再利用识别算法把图像中的文字或符号转化成计算机内码( 即我 们所能编辑地电子文档或其它有用信息) 的过程。其一般原理可用图1 2 所示的系 第1 页 国防科学技术大学研究生院学位论文 统框图表示。 练部分 , 图1 2o c r 系统框图 写在介质上的文字经过扫描转化成具有一定灰度值的数字采样信号( 即数字图 像) 送给计算机进行识别,在进行识别前必须对图像进行一定的预处理,包括二值 化、倾斜校正、平滑、行列切分、规格化等,以保证不同质量、不同大小、不同 字体的文本图像都能被计算机识别,以提高识别算法的适应能力。这个预处理环 节非常重要,它是文字能够被正确识别的基础。 预处理之后就进入了o c r 的核心阶段:识别算法抽取待识别文字的某种特征, 并与存储在计算机中的模板特征库进行匹配判别,找出库中与该特征最接近的模 板特征,并把这个模板特征所对应的标准文字作为识别的结果。其中,获取文字 的模板特征的过程又称为训练样本的过程。为保证模板的准确性,必须对多个标 准字样的特征取平均。同时,在识别过程中还可以根据被正确识别文字的特征, 对该文字的模板特征动态地进行修正,这个过程又称为样本的学习过程。 单以识别率而言,特征抽取可以说是整个o c r 系统的核心,抽取文字的哪些 特征、怎么抽取这些特征,都直接影响到整个系统的好坏。因而选取一个稳定而 具有代表性的文字特征集,是设计o c r 系统的关键点之一。目前已有的文字识别 算法中,采用的文字特征基本上可以分为两类:一类是文字的统计特征,如文字 图像区域内的黑白像素点数比,当某个文字的图像可以分成好几个区域时,不同 区域的黑白像素点比值的联合,就成了该文字的一个一维空间特征向量。另一类 是文字的结构特征,例如把文字图像细化( 即采用一定的算法使二值化的文字图 像变成单像素宽度) 后,取它的笔划端点、交叉点的数量及位置,或笔划段特征 第2 页 国防科学技术大学研究生院学位论文 等,构成与该文字相对应的特征向量。 一般的o c r 系统在识别阶段后都会有一个后处理过程。后处理的作用是通过 上下文的语义关系来改正误识字,或对拒识字选择一个合理的结果。例如通过一 个常用词组字典和一个易混字对应表,就可以使系统纠正许多汉字或英文单词的 错误识别,从而提高整个系统的识别率。 1 2 基于移动扫描o c r 的电子阅读笔 不管你有没有意识到,一场所谓“移动革命”的浪潮已随着信息化的进程降 临到我们的身边:计算机从台式机演变出笔记本电脑、电话从座机演变出手机、 光驱从内置演变出外置、存储设备中也有了移动硬盘和u 盘可以毫不夸张地 说,所有信息化的产品都有向“移动化”发展的趋势。这种趋势一方面是信息化 产品自身发展的规律,另一方面源自人们追求时间和空间解放的内在心理需求。 也正是因为人们在工作、学习、生活中随时随地进行资料录入和收集的需求,国 内外的研究工作者们才展开了对移动o c r 技术的探索和研究。而电子阅读笔就是 移动o c r 技术的典型应用之一。 1 2 1o c r 的发展概况 o c r 技术从提出到现在经过了几十年的发展。1 9 5 7 年,世界上出现了第一款 o c r 软件叫r a ( e l e c t r i cr e a d i n ga u t o m a t i o n ) 。其后,随着对o c r 技术的研究 工作不展深入,各种o c r 成果相继问世。从技术和应用层面讲,可以把商品化的 o c r 系统分成三代。1 9 6 0 年到1 9 6 5 年出现的o c r 产品属于第一代,这一代产品 的特点是被识别的字符的字体很少,一般只包括数字、英文字母和一些经过特殊 设计的符号。二十世纪6 0 年代中期到7 0 年代初期的o c r 产品属于第二代,这一 代的o c r 系统能识别规则的印刷体字符,也能识别部分手写字符,但只限于数字 和少数字母和符号。这些早期成果在今天看来似乎很简单,但是在当时的意义却 非常重大:它的应用第一次成功地实现了信函自动分拣系统。这个时期另一件有 重大意义的事是建立了一些供字符识别研究的标准化字符数据库,使随后的研究 人员可以很容易地评估自己的进展。第三代o c r 产品起始于二十世纪7 0 年代中 期。从这时开始,主要解决的技术问题是对于质量较差的文档及大字符集的识别, 以及达到相当高的识别精度。 如今,对o c r 技术的研究和应用已经进入了一个崭新的阶段。这个阶段的一 个重要标志是识别对象的综合性,包括对多文种、多字体混合编排的印刷体文档 的识别,对容忍连笔的手写体文档的识别,对手写统计报表的识别等。o c r 技术 研究应用新阶段另一个突出标志是o c r 可产品的移动化、多功能化,一方面要求 第3 页 国防科学技术人学研究生院学位论文 产品的体积越来越小,以适合随身携带;另一方面要求实现产品能够集识别、翻 译、存储和显示等多功能于一体,其中电子资料笔、便携式电子阅读笔的出现就 很好的证明了这一点。因此,我们把这一阶段的o c r 技术形象地称为“移动o c r 。 1 2 2 基于移动扫描o c r 的电子阅读笔软件系统设计 传统的o c r 系统一般采用与扫描仪、计算机联机的方式实现,它通过静态扫 描获得整幅文档的图像,并借助计算机强大的存储和处理能力对图像进行预处理 和文本分离等操作,最后由识别程序完成对文字或字符的识别。而电子阅读笔内 部集成的小体积扫描传感器,决定了其扫描方式只能是移动扫描。所谓移动扫描, 是指因为不能同时获得整幅文档的有效图像,电子扫描笔只能由使用者通过手持 的方式对文档从上到下、从左至右逐行逐字进行扫描,得到的不是整幅图像,而 是局部图像的帧序列。 由于手的抖动等影响,移动扫描得到的图像会产生倾斜、尺度变化等变形, 单帧图像中能存在多行文字,等等。所以,在实现基于移动扫描的o c r 技术时, 必须有针对性地考虑文本图像的预处理环节。这里,根据实际情况,这个预处理 环节可以细分为二值化、倾斜校正、平滑去噪、文本行分离、规一化处理等五个 步骤。 另外,由于扫描过程中手的移动速度小于传感器的扫描速度( 如果移动过快, 传感器得不到清晰的图像) ,扫描的图像帧之间必定会出现内容的重叠( 如图1 3 ) , 如果不进行有效的处理,势必会造成输出结果的混乱。解决这一问题,有二种方 案可供选择:第一种方案是对扫描得到的每帧文字图像都进行识别,再根据识 别结果去判断文字是否重复并进行相应的舍取,即去重叠的过程建立在识别后的 “字”的基础上;第二种方法是在图像的预处理过程中先以行为单位把该行的多 帧图像进行帧间配准,切除重叠部分,把不重叠部分拼接成完整的一行文字图像 再进行识别,即去重叠的过程建立在识别前的“图 的基础上。 之间有人部分的重叠内容 第4 页 国防科学技术大学研究生院学位论文 在整个文字识别系统中,最终的识别环节最复杂,耗时也最多,在设计系统 时为达到较好的实时性,应尽量避免这个环节上的重复运行。设想一般情况下, 文档中每行约含4 0 个文字( 以中文为例) ,移动扫描大约需要2 秒钟;扫描传感 器的扫描帧率为2 0 f p s ,每帧包含5 个文字。若采用第一种方案,先对每帧图像中 的文字进行识别,则总共需要识别2 0 2 x 5 = 2 0 0 个文字,而实际的文字只有4 0 个,可见大部分时间都耗费在重复的识别工作上,显然不会满足实时性的要求。 因此,在设计基于移动扫描的文字识别系统时,应该用第二种方案来消除图像帧 间的重叠,即先实现图像帧配准和拼接,然后再进行识别。 综上所述,从软件功能上看,基于移动扫描o c r 的电子阅读笔可以采取如图 1 4 所示的系统框架。 3 c 柏g lll - l 黼h 黼 怔引后端处理h 结果显示 illlll i 倾平 文规 l 斜滑 本 l值 行化 i 化 校去 分处 i正噪 离理 i 图1 4 电子阅读笔的设计框图 1 2 3 面向电子阅读笔的o c r 技术实现的难点 电子阅读笔为了保持其在移动性上的优势,必定要减小器件的体积。相应地, 硬件上的处理能力也会降低。这样就使得电子阅读笔中o c r 技术的实现比普通的 情况下要难得多,需要我们在设计时进行全面的考虑: 扫描图像质量低于扫描仪所得的图像。因为是手持设备,扫描过程受手抖 动的影响很严重,字符图像变形明显,因此预处理算法显得尤为重要。 处理器的运算能力有限,不能和p c 机处理能力相提并论,因此算法的计算 复杂度不能很高,否则识别时间将会很长。不能实现实时功能,甚至还会出现死 机现象。 内存容量有限,程序空间和数据空间都较小,因此o c r 软件的大小受到限 制,处理数据的缓存也受到限制,这些都要求预处理和识别程序简单高效,并且 在处理过程需要的临时存储空间很小。 功耗问题。电子阅读笔是便携式设备,通过电池供电,没有外接电源,因 此要能够保证较长的工作运行时间。算法越复杂,计算量越大,电量消耗也越多。 总体说来,适合电子阅读笔的o c r 软件应该是运行简单,计算量小,占用内 第5 页 国防科学技术大学研究生院学位论文 存小,并且能够保证一定识别率的高效算法。 1 2 ,4 国内外现状 目前,静态o c r 技术已经非常成熟,相应地实用化产品种类繁多、举不胜举, 而基于移动扫描o c r 的电子阅读笔( 也称扫描笔、资料笔等) 的出现还是近两年 的事情。在掌握该方面的核心技术上,以色列的w i z c o m 【4 8 】公司无疑是走在世界前 列的。而国内在文字方面的几家公司( 如汉王、晨拓等) 通过自主研发以及技术 合作的方式,目前也有了几款成型产品。对于这些产品的主要性能指标,作者通 过互联网做了简要调查,结果如表1 1 所示。 表1 1目前国内的几款便携式电子阅读电笔简介 产品 名称主要性能 重量 汉王【4 9 l 可实现中英文即时翻译:内置大容量专业词库、附 带3 3 种外文辞典;识别速度8 个汉字秒或1 0 个字 9 0 9 资料笔v 1 6 母秒。 晨拓【5 0 l 扫描中文或英文单词时,实现英、汉双语翻译显示; 内置大容量专业词库、多种外文辞典;英语真人发 9 0 9 摘录笔 音;最多可存储3 0 0 万汉字。 优立达1 5 1 】 可扫描识别英文、中文简体和繁体;扫描速度 8( 2 - 3 ) 实际上式( 2 3 ) 是对式( 2 2 ) 的近似处理,但这种近似处理人眼难以察觉,也不 会对文字识别造成影响。、 2 4b m p 位图文件格式 w i n d o w s 下有两类位图格式1 2 l 电d i ( g r a p h i c sd e v i c ei n t e r f a c e ,图形设备 接口) 位图和d i b ( d v i c e i n d e p e n d e n tb i t m a p s ,设备无关位图) 。g d i 位图采用 了一种与w i n d o w sg d i 模块有关的数据结构,具有设备相关性。即便程序得到位 图数据的一个拷贝,其位( b i t ) 安排仍是依赖于显示硬件的。因此,在同一台计 算机中的g d i 位图可以自由地在不同程序中传输,但由于其设备依赖性,使得其 在同类型的计算机之间的传输变得毫无意义。而相对设备独立的d i b 具有许多超 越g d i 位图的优势:d i b 本身携带有自己的颜色信息,使颜色调配管理变得非常 简单,任何运行w i n d o w s 操作系统的计算机均可显示和储存d i b 。因此,把数字 图像表示成d i b 的形式将有利于我们对图像的处理、显示等操作。 b m p 文件是d i b 中比较典型的一种,其文件格式可分为两大部分:文件头部 分和像素点阵部分。文件头包含了d i b 的结构数据,并可进一步分为三段,具体 如图2 1 所示。 文件头的第一部分是位图文件头结构b i t m a p f i l e h e a d e r ,其长度固定为 1 4 字节,主要规定了文件头大小、位图阵列相对于文件头的偏移距离等信息。第 二部分是位图信息头结构b i t m a p i n f o h e a d e r ,主要记录了图像的尺寸和颜色 格式等信息。最后一段用于存放图像的调色板( 又称颜色分配表,c o l o rt a b l e ) , 因此对于不需要调色板支持的1 6 位、2 4 位和3 2 位位深度的文件头中将没有该段, 在前两段后直接为像素阵列数据。 文件头结构之后便是图像的像素点阵序列,根据位深度不同有着不同的意义。 对于位深度在1 6 位以下的图像为颜色的索引值;对于1 6 位、2 4 位和3 2 位的则存 放着图像的实际的r 、g 、b 各分量值。即使是真彩色位图,由于位深度的不同其 阵列结构也有区别。1 6 位位深度的图像采用“5 - 6 。5 ”的组织方式,即以两个字节 存放一个r g b 单元:r r r r r g g g ( 高字节) g g g b b b b b ( 低字节) 。2 4 位位深 度图像则恰好可以用三个字节存放个完整的r g b 单元,因此在对像素进行操作 时,可以很方便地按字节进行处理而不必进行位运算。3 2 位位深度的位图构成原 理也比较简单,它是将表示颜色的r g b 单元拓展成一个双字来实现的,其r g b 第1 6 页 国防科学技术大学研究生院学位论文 位安扫 为:r r r r r r r r r r g g g g g g g g g g g g b b b b b b b b b b ,即“l o 1 2 1 0 ”的 组织方式。 b i t m a p f i l e h e a d e r ( b m pf i l e so n l y ) d i bb i ti m a g e b i s i z e ( o ft h i ss t r u c t u r e ) b i w i d t h ( i np i x e l s ) b i h e i g h t ( i np i x e l s ) b i p l a n e s = l b i b i t c o u n t ( i ,4 ,16 ,2 4 ,o r3 2 ) b i c o m p r e s s i o n ( 0o rn o n e ) b i s i z e l m a g e ( o n l yi f c o m p r e s s i o ni su s e d ) b i c i r u s e d ( n o n z e r of o rs h o r t c o l o rt a b l e s ) 2e n t r i e sf o rm o n od i b s 1 6o rf e w e re n t r i sf o r4 - b p pd i b s 2 5 6o ff e w e re n t r i sf o r8 - b p pd i b s e a c he n t r yi s3 2b i t s i p i x e io r d e r db yc o l u m nw i t h i nr o w l r o w sp a d d e dt o4 - b y t eb o u n d a r i e s 图2 4b m p 文件头结构 2 5 本章小结 这章主要概述了数字图像处理技术的基础,分析了b m p 文件、a v i 文件格 式,实现了r g b 图像到灰度图像的转换。数字图像处理技术涉及的内容很广,这 里只做了初步的概述和总结,希望能够在此基础上为进一步的研究工作提供良好 的实验手段。 第1 7 页 国防科学技术大学研究生院学位论文 第三章文字图像的预处理 电子阅读笔移动扫描得到的图像,由于噪声的影响,质量要比静态扫描图像 差,而在扫描过程中手的抖动又会造成文字图像的倾斜、模糊等变形。另外,一 帧扫描图像中可能包含多行文字,每行文字产生的形变可能不同,不利于后续处 理。总之,上述这些因素都会给识别端造成额外的麻烦,导致识别速度和识别率 的下降。为了消除干扰,必须对扫描图像进行针对性的处理。图像的预处理是文 字识别流程中十分重要的环节,其处理的复杂度与整个识别系统的适应能力相关, 而其处理结果也将极大地影响识别的精度。基于上述原因,本文从分析图像预处 理算法入手,特别针对移动扫描的文本图像的预处理算法进行了深入研究,并在 前人的工作基础上进行了总结与改进。 根据第一章中的分析,文字图像的预处理流程可以用图3 1 表示,本章将针对 其中每个环节的算法原理及实现进行详细说明。 文本 一- - 值4 l h 倾斜校正h 平滑去噪i 图像 图3 1 文字图像的预处理流程 3 2 图像的二值化 图像的二值化处理就是把扫描图像分成对象和背景两个区域,求其阈值,去 掉不必要的噪声和干扰。因此可以说,二值化的过程,就是阈值选取的过程。 阈值是把背景和前景区分开的标尺,其选取的原则是,要在尽可能保存文字 信息的同时又尽可能地削除噪声的干扰。根据阈值选取和作用的范围可以将二值 化算法分为全局阈值法和局部阈值法两类【8 】【9 】【1 0 j 【1 3 1 。全局阈值法由文字图像的直方 图或灰度的空间分布确定整幅图像的阈值,并根据此阂值实现灰度图像到二值化 图像的转化。常用的全局阈值法包括直方图法和最大类间方差法,直方图法是指 直接从原图像的灰度分布直方图上确定阈值,包括p - t i l e 法、最频值法和直方图凹 面分析法等;最大类间方差法主要指o t u s 法】。局部局值法主要是通过定义考察 点的邻域,由邻域计算模板来实现考察点灰度与邻域点的比较。常用的局部阈值 法有b e m s e n 法【1 2 】、y a n o w i t z 和b r u c k s t e i n 法【1 4 】、s a u v o l a 和p i e t i k a i n e n 法【1 5 】等。 对于目标和背景比较清楚的图像,全局阈值法可以取得较好结果,但是如果图像 的光照不均匀,或是目标灰度变化率很大,就应该考虑局部阂值法。实际的o c r 系统中对文字图像的二值化常采用o t s u 法、b e m s e n 法等方法。 第1 8 页 国防科学技术大学研究生院学位论文 3 2 1o t s u 算法 o t s u 法【l l 】【1 3 】f 1 4 】又称大津方法,由n o t s u 于1 9 7 9 年提出,是一种基于整幅图 像的灰度统计特征的二值化方法。其原理是把图像灰度直方图用某一灰度值分割 成两类,分别计算这两类的像素点数和灰度平均值,然后求出它们的类间方差。 当被分割成的两类类间方差最大时,此灰度值就作为图像二值化处理的阈值,所 以它又被称为最大类间方差法。o t s u 算法无需其它先验知识,仅需要一维灰度直 方图分布就能较好地把前景图像从背景中分离出来,是文字图像常用的二值化方 法之一。 下面简要描述o t s u 算法的实现灰度图像二值化的过程。 设一幅图像的像素点数为,它有工个灰度级( 1 ,2 ,三一1 ) ,灰度级为i 的像 素点数为吩,且有= 。利用对图像直方图进行归化,可以得到灰度级 为i 的像素点的概率: 只= 告。 ( 3 - i ) 假设阈值,将图像分成两类c o 和c l ( 物体和背景) ,即c o 和c 1 分别对应具有 灰度级 o ,1 ,f ) 和 t + l ,t + 2 ,l - 1 ) 的像素,c 0 和c l 发生的概率分别为 :ta 、w i :l - ib ;1 一w o ,c 。和c 1 类的均值分别为甜。;丝:塑、 2 i = 0a 、w i 2 i = 1 + 1 b 2 1 一w o ,c 。和c 1 类的均值分别为甜。鼍 02 等0 、 r yr r 铲擎:百u t - u ( t ) 砸,:驴t 驴渺l - i 有: w o + w 1 鼍2 蜥, ( 3 2 ) ,l j zj i - w o + = 1 、7 两类的类间方差为: o b 2 = w o ( u o 一蜥) 2 + w l ( “l - u r ) 2 。 ( 3 - 3 ) 最佳阈值t 是指让类间方差一取大值时所对应的f ( 1 f 三) , f = m a x ( 以,1 f 工) 。 ( 3 - 4 ) o t s u 算法对文字图像的二值化效果如图3 2 ,从图中可以看出,对光照较均匀 的图像,采用o t s u 算法能够很好地实现前景文字与背景分离,而且背景中存在的 微弱噪声也被有效地屏蔽掉了。 第1 9 页 国防科学技术人学研究生院学伉论文 秀弘、。 谨 a 灰度图像b 二值图像 图3 2o t s u 算法的二值化效果 3 2 2b e r n s e n 局部阈值方法 采用全局阈值法实现文字图像的二值化,对光照条件较好、目标和背景分离 明显、灰度直方图呈现明显的双峰模式的文本图像,效果较好。但是对于较模糊 的文字、租体文字、笔画间距较小以及不均匀光照的情况,二值化的结果往往产 生笔画粘连、断裂以及伪影等现象( 如图3 3 ) ,致使是它的应用受到一定的限制。 而针对这种情况的文字图像,应该考虑采用局部阈值法对文本图像进行二值化。 a 原始图像 b 二值图像 图3 3o t s u 算法对光照不均匀的图像二值化后出现伪影现象 局部阈值法一般将图像划分为若干子图像,再根据每个子图像的局部特性确 定该区域的二值化阈值。非均匀光照条件等情况虽然影响了整幅图像的灰度分布, 但是图像的局部性质却会保持一致,使得局部阂值法较全局阈值法有更强的适应 性。 b e r n s e n 算法【1 2 1 是文字图像的二值化中常用的二种局部阈值算法。它以当前像 素点某邻域窗口内最大、最小值的均值作为区分该像素点是前景还是背景的依据, 第2 0 页 国防科学技术大学珂f 究生院学位论文 具体的实现过程如下: 如果像素点位置用( x ,y ) 表示,邻域窗e l 大小取为( 2 w + 1 ) x ( 2 w + 1 ) ,用f ( x ,y ) 表示( x ,y ) 处的灰度值,用b ( x ,y ) 表示f ( x ,y ) 的二值化结果,则b e m s e n 法实现二 值化的过程可以简单地描述为以下两步: l 、计算各点阈值:对于像素点( x ,y ) ,计算图像中以( x ,力为中心的 ( 2 w + 1 ) x ( 2 w + 1 ) 区域内最大灰度值和最小灰度值的均值,作为该像素点的二值化 阈值瓦( x ,y ) ,如式( 3 - 5 ) 。对于处在图像边缘的象素点可以采取边界拓宽的方法补 齐。 死( x ,少) = 0 5 木【m 墅f ( x + i ,y + ) + m ,i n ,厂( x + 少+ ,) 】: ( 3 5 ) 一w s j s ww s i s w 一1 s 王ww s 王w 2 、逐点二值化:计算出所有像素点的对应阈值后就可以根据式( 3 6 ) 对图像中 的各点进行二值化,得到相应的二值图像。 = o 嬲耋搿。 p 6 ) a 3 3 窗口b 7 x 7 窗口 c 1 9 x19窗口d31 x 3 1 窗口 图3 4b e m s e n 法中采取不同邻域窗口进行二值化的效果 第2 1 页 国防科学技术人学研究生院学位论文 因为b e m s e n 法的局部阈值由邻域窗口内的像素点的狄度值决定,所以窗口大 小
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湖北省汉川市金益高级中学2025-2026学年高二上学期9月月考考试物理试卷
- 低温热水地面辐射-洞察及研究
- 天津市第二十一中学2024-2025学年上学期八年级历史期中考试试题(无答案)
- 缺陷形貌自动测量-洞察及研究
- 20xx开学主持词4篇
- 部门安全培训教育时间课件
- 达芬奇鸡蛋课件
- 辨证施膳课件
- 基于工业物联网的凸轮式收卷机多设备集群联动控制与数据孤岛问题
- 基于区块链的制图数据版权确权与跨境共享的智能合约设计
- 煤矿作业规程编制课件
- DB11∕T 1135-2024 供热系统有限空间作业安全技术规程
- 泰戈尔简介课件
- 2025四川乐山市市中区国有企业招聘员工47人笔试参考题库附答案解析
- 新版部编人教版三年级上册语文全册1-8单元教材分析
- 2024年全国网络安全知识竞赛试题库及答案
- (2025年标准)产假提前上班协议书
- 《全球哮喘管理和预防策略(GINA 2025)》解读
- 计划生育技术服务诊疗常规与操作规程
- 2025年Q2起重机司机模拟考试题库(附答案)
- 道路绿化监理规划方案(3篇)
评论
0/150
提交评论