(信号与信息处理专业论文)印刷体文本图像的文种识别研究.pdf_第1页
(信号与信息处理专业论文)印刷体文本图像的文种识别研究.pdf_第2页
(信号与信息处理专业论文)印刷体文本图像的文种识别研究.pdf_第3页
(信号与信息处理专业论文)印刷体文本图像的文种识别研究.pdf_第4页
(信号与信息处理专业论文)印刷体文本图像的文种识别研究.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(信号与信息处理专业论文)印刷体文本图像的文种识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息工程大学硕士学位论文 摘要 随着网络通信技术和多媒体技术的快速发展,文本图像被广泛应用于各个方面。如何 从与日俱增的海量分布式信息系统中有效提取文本图像,并转换为便于检索、传输、保存 和携带的电子文档,实现办公自动化,文本图像自动分析已成为一个亟待解决的课题。 作为文本图像自动分析的重要分支,文本图像的文种自动识别技术已成为一个受到广 泛关注的研究课题。本文主要研究印刷体文本图像文种识别技术,所做的工作包括: l 、提出一种动态阈值文本行投影算法。与灰度投影算法相比,该算法减小了字体笔 划粗细对识别结果的影响,对中文和字母文字( 英文,俄文) 两大类文字的识别率有一定提 高。 2 、通过基于g a b o r 函数的多通道滤波纹理分析方法提取文本图像的全局特征,本文 使用支持向量机( s v m ) 建立分类器,实现了文本图像的文种识别。该算法对文本图像含噪、 倾斜、文字笔划残缺等质量退化现象,具有较强鲁棒性。 3 、在实现基于小波变换文种识别的基础上,以小波对数能量为特征构成了一种改进 的基于小波能量的文种识别方法。实验结果表明,对中、日、韩、英、俄:阿拉伯六种文 字进行识别,总体识别效果比较理想。 4 、提出一种基于分形模型的文种识别方法。该方法将文本图像看作多重分形集,建 立多重分形模型计算文本图像的广义维数谱,以此来进行文种识别。在文字大小、文本行 间距相差较大的情况下,基于分形模型的识别算法效果较好。 关键词:文本图像;文种识别;投影;g a b o r 变换;小波变换;分形维数 第v i 页 信息工程大学硕士学位论文 a b s t r a c t w 曲t h ef 奴d c v e l o 砷【l go f 肿m o 出c 哪m i l n i c a t i t e c h n o l o g ya l l d 删椭【m e d i at c c l l i l o l o 舒, d o c 岫ti m a g e sl l a v cb e 髓、 f i d e l y 印p l i e dt om 柚y 丘d d s h o wt oe ) 【们c td o c u m e mi n l a g e s e 脏c t i v e l y 丘d mm a 豁i v cd i g 仃i b u t e di n 】f o 衄撕鲫s y s t e l 璐,柚d t f a n s f 0 肋t oe l 彤的n i c d o c 哪e n t s ,a u t o m a t i ca i l a l y s i so f d o c w 埘啪ti l l l a g e sh 船b t 煳m e sap r e s s i n gi s s u e a sam a i ns u l - d i s c i p l i n eo fa m o m a t i ca m l y s i so fd o c u m e mi n l a g e s ,a l l t o m a t i cs c r i p t i d e m i 丘碰o no fd o c u m e n ti m a g e sh 觞b e c o m eah a tr e s 朗r c l lt o p i c h lm i sp a p c r ,p r i n t e ds c r i p t i d e n t i 6 c a d o f d o c 删h n a g 铭i ss t l l d i e da 1 1 dp r o p o s e d t h e 坷o rw o r ki m p l 锄e n t e di l lt h i sp a p e ri sp r c s e n t e d 船f 0 1 l o w s : 1 ad ”l a 芏i l i ct h r e s h o l dt e x tl i n ep r o j e c t i o na l g o r i t b l ni sp m p o s e d c o m p a r e dt 0 缸tl i n e p 啊e c t i o na 1 9 0 r i m m ,“r e d l l c e st l l ei n f & t i o no ff ms 虹d k e s 埘d 也,趾dt h er e c o 鲥t i o n 船l eo f c h i l l e 辩s 翻p ta n da l p h a b c t 刚p t ( i n v o l v ce n g l i s h 勰dr 瑚s i 粕) i sr a i s e d , 2 e x 蜘a c tt e x t i l 陀f e a t u sf 如md o c l l i i l e n ti m a g e sl l s i i 培m l l l t i - c h a m 增lg a b o rf i l t e r s ht h i s p f i p e r ,、v ei m p l e m e n ts c f i p t i d e i h i f i c a 士i o nu s i l l gs v mt os t m c t i l d 嬲s i f i e r f o rd o c 砌e n t i m g e so f i ,6 k 柚dp f i n td e f b c t s ,i t 】1 a sa ag 咖n gr o b u s l 3 o nt h ef 0 蛐捌o no fi m p l e i n 锄ts c r i p ti d e m i f i c a t i o nb yu s i n gw a v e l e t 缸a 璐f o n n ,w e s 仃u c t i l r e 锄i i 玎乒o v c ds 喇p ti d e n t i f i c a t i o na l g o m i l mw h i c hl l s e sw a v e l e tl o g a r i t l l 向c 锄e f g y f c a t i l r e 1 1 l ee x p c r i m e n t a lr e s u l t ss h o w 恤tm er e c o 鲥t i o nr a t eo fc l l i i l e ,j 印锄e ,k o 舷鸭 e n 舀i 啦r l l s s i a l l 趾da m b i 飘a r es a l i s 舭t o r y 4 a r p ti d 曲t i 取:a 虹o na l g 砸n 姐b 嬲c d 蚀丘丑c 诅lm o d e li sp r o p o s e d 1 1 l i sa l g 鲥t 1 1 m c o i l s i d e r sd o c 啪e n ti n l a g e s 嬲m l l l t i - 劬c t a ls e t s ,锄ds m t i l sam u m 一血删m o d e lt 0c a l c l | l a t c t h em u h i 丘a c t a ld i m e m i o i l s ,t 1 1 e ni i n p l 锄饥协辩f i p ti d e n t i f i c 砒i o nl l s i i l gt l l em i l l t i 一曲c t a l d i m e n s i o 璐ni se 行刎v ew h e nt l l ed o c 砌e mi i i l a g e sh a v ed i f f 打e n ts c f i p ts i z e 柚dd i m :f e n tt e ) 【t l i l l es p a c i n g 1 哂rw o r d s :d o c 啪c n ti m a g e s ;s 碰p ti d 酬f i c a t i o n ;p r o j c c t i o n ;g a b o r 仃a n s f o m ;w a v e l e t 仃a n s f 0 珊:丘a c t a ld i m e n s i o n s 第v i i 页 信息工程大学硕士学位论文 表目录 表1 字符形状类型6 表2 三种文字的识别率( ) l l 表3 四幅图像的锄1 3 表4 中、英、俄文识别率( ) 表5 三组质量退化图像的 匏鲫输出及误差2 0 表6 算法的识别率( k 2 3 表7 高频子图像能量比例值。 表8 高频子图像对数能量比例值。3 3 表9 测试样本和训练样本格式相同情况下识别率( 呦3 6 表1 0 测试样本和训练样本格式不同情况下识别率惭) 3 6 表1 1 分形维数均值及标准差4 3 表1 2 测试样本和训练样本格式相同情况下识别率畅) 4 5 表1 3 测试样本和训练样本格式不同情况下识别率嘲4 5 第1 i i 页 信息工程大学硕士学位论文 图目录 图l 文本图像示例2 图2 连续色调图像示例3 图3 典型文本图像灰度统计直方图3 图4 典型连续色调图像灰度统计直方图3 图5 文本行区域划分 图6 文本行归一化灰度投影图 4 5 图7 上凹面分布图5 图8 穿越次数示意图6 图9g a b o r 滤波器的频率响应7 图1 0 三种文字文本行归一化灰度投影图1 0 图ll 英文文本行灰度投影l o 图1 2 中英文四幅图像及其水平投影1 2 图1 3 中英文四幅图像及其黑游程统计图1 4 图1 4 二维复值g a b o r 函数俯视图1 7 图1 5 图像含噪声1 9 图1 6 图像倾斜2 0 图1 7 图像文字笔划残缺2 0 图1 8 支持向量机模型 图1 9 识别流程图 2 1 :! :i 图2 0a 组样本( 中文、英文) 2 3 图2 1b 组样本( 中文、英文) 2 3 图2 2 0 r 变换和小波变换的时一频窗2 6 图2 3 小波变换时频窗。2 6 图2 4m a i l 砒塔式分解示意图2 8 图2 5m a l l 砒二维算法分解示意图2 9 图2 6 图像的三级m a l l a t 小波分解2 9 图2 7 各文种的小波分解图3 l 图2 8 第一层小波能量比例3 2 图2 9 第一层小波对数能量比例 图3 0 小波能量算法流程 3 4 。3 5 图3 1 实验图像样本3 5 图3 2 有规分形和无规分形示例3 7 图3 3 把线段、正方形、立方体的边长2 等分3 9 第1 v 页 信息工程大学硕士学位论文 图3 4 图像灰度的三维空间。 图3 5 计盒数点聚图。 图3 6 不同文字的d ( g ) q 的曲线 4 :! 4 3 图3 7 基于分形模型的识别算法流程4 4 图3 8 实验图像样本 第v 页 原创性声明 本人声明所提交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表和撰写 过的研究成果,也不包含为获得信息工程大学或其他教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 意。 学位论文题目:盟剧住塞查图像的塞整迟剖受究 学位论文作者签名: 作者指导教师签名: 日期:年月日 日期;p :7 年月罗口日 学位论文版权使用授权书 本人完全了解信息工程大学有关保留、使用学位论文的规定。本人授权信息工程大学 可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允许论文被查阅和借 阅;可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文题目:业剧佳塞查图像的塞弛迟捌班荭 学位论文作者签名: 作者指导教师签名: 月日 月夕口日 信息工程大学硕士学位论文 第一章绪论 随着信息处理技术、多媒体技术与网络技术的发展,全球信息化的步伐越来越快,数 字化革命逐步向政治、经济、军事、文化等诸多领域全面渗透,深刻地影响着社会的各个 层面,人类社会进入了一个崭新的信息时代。人们的生产生活方式、思想意识形态都因信 息化、网络化的不断推进而发生着巨大的变化,整个人类社会进入了一个崭新的知识经济 时代。互联网技术由于在信息传输时效性、互动性、立体化、大容量等方面具有突出优势, 能够提供多方位、多功能、个性化、廉价便捷的多媒体服务,其进步和发展为人类社会开 辟了一个全新的信息交流环境。个人计算机及各类多媒体信息的物理设备的应用进一步普 及,以往必须通过传统通信手段传递的特定信息内容,现在可以通过计算机采集和处理后 利用网络传输完成。正因如此,网络中传输的多媒体信息的数据量也随之急剧增长,促使 其成为一个海量的分布式信息系统。 如何从海量的图像数据中获取有价值的信息,日益成为重要的研究课题。传统的获取 信息的手段已不能满足需求,网络环境下获取信息的方式取而代之。一方面,世界范围内 互联网络基础设施的高速发展和应用领域的急剧膨胀给传统通信方式和通信手段带来了 前所未有的冲击,传统通信可由网络传输代替;另一方面,网络中传输的信息数据庞大、 形式多样、内容繁杂,这些新的传输方式在使获取信息内容更加丰富的同时,也导致传统 通信获取信息来源急剧收缩。显然,信息处理技术和国际互联网络技术的发展给获取有价 值信息带来了新的机遇和挑战。 作为传递信息的重要媒体和手段,图像数据具备形象、直观、信息量大等特点。而由 文件、档案等文字资料通过图文扫描仪、数码相机等图像数据采集设备生成的,以静止图 像编码方法存储的数字图像即是文本图像,是组成网络中传输的图像数据的重要类型。近 年来发展迅速的通信技术为信息获取提供了浩如烟海的图像数据资源,其中文本图像占据 了一定比例,载荷重要的资源,构成信息来源的重要组成部分。 然而,由于现有技术获取的海量文本图像资源与其信息处理能力极不平衡,从而导致 网络数据中获得的文本图像多被丢弃,这类具有明显价值的信息资源也随之丧失价值。可 见,海量文本图像的实时自动分析已成为制约网络信息获取发展的瓶颈。文本图像自动分 析的目的是将行政公文、商业信函、科技文献、私人文件等文本图像通过信息处理的手段 转换为电子文档,用于保存、检索或从中提取信息,其处理过程包括图像降噪、倾斜检测 和纠正、版面分析、文种识别、字符切分、字符识别、语义分析、内容检索等。其中,印 刷体文本图像中文字种类的自动识别作为文本图像自动分析的重要组成部分,已成为一个 受到广泛关注的研究课题。 第l 页 信息工程大学硕士学位论文 1 1 文本图像分析综述 1 1 1 文本图像特征 由文字资料通过图文扫描仪、数码相机等图像数据采集设备生成的文本图像与文本数 据文件不同,它不是能由机器立即阅读及处理的文字符号编码文件,而是以数字点阵表示 的象素为基本单元进行处理、存储的图像文件。文本图像的特点是文字的书写形式与文字 所表达的内容同样重要,即若仅将其中的文字提取出来变为普通文本格式进行传输则会失 去或部分失去该文本图像所要表达的内容。在网络中传输的文本图像可以采用连续色调灰 度图像的编码方法( 如j p e g ) ,其中某些图像甚至以真彩色进行编码。 另外,作为网络中传输的重要图像类型,文本图像不同于一般的自然图像。虽然在数 据格式和数据流形式上,文本图像与一般的连续色调图像完全相同,但它由一些具有某些 特定性质的块组成,包括文字块、线图、连续色调图像以及半色调图像,保存了图像较多 的细节以及结构信息,具有较高的空间分辨率的特征【l 】,与普通连续色调图像具有明显的 颜色特征差异。 相对于一般连续色调图像,文本图像的视觉影像单调,灰度对比强烈,即图像的灰度 取值主要集中在较低和较高的两个狭窄的数据取值范围;而一般的连续色调图像则影像复 杂,灰度变化平缓、灰度取值范围很宽且分布比较均匀。上述特性可以由灰度统计直方图 清楚地反映出来。文本图像的统计直方图表现为在灰度取值范围的两端出现明显的尖峰, 有效的灰度层次较少;而连续色调图像的灰度直方图呈多峰分布,峰的位置随机地出现在 灰度取值范围的任意位置,灰度层次丰富。图l 为典型文本图像,其灰度统计直方图分别 如图3 所示;图2 为典型连续色调图像,其灰度统计直方图分别如图4 所示。 1 1 文本+ 图像 图1 文本图像示例 第2 页 i 誊:0 乞羔:茹 一t c 一 1 ic ,q n “# * 目* ,+ 。 、。) t t 一w 日m , 7 1 j - 十” 一一2 t _ “t - m * 、1,t 4 一:1 。f t - e _ 一 “。_ 一 一,r - j ,p l w 。 一n 一j f ,ax 。 + pr 。r - 7 _ 1 “ “,i j 自r 一 ,一一 1 , ”r 7 一 一4 o 一 一一w 一 一1 _ ,。一 ,- $ l 一 ,+ ,1 _ 0 _ r 7 f _ * h ,_ 阻 ,¥ _ j 一 i ,5 v l 。 ,二麓”二 i * o ” n “。”,州“栅* s 即4 “j 1 2 文本+ 表格 信息工程大学硕士学位论文 2 1 人物 图2 连续色调图像示例 1 幅1 耵 o辅 1 n 1 如2 02 5 5 3 l ( 1 1 ) 的直方图 2 2 风景 j 2 5 5 3 - 2 ( 1 2 ) 的直方图 图3 典型文本图像灰度统计直方图 4 一l ( 2 - 1 ) 的直方图 4 | 2 ( 2 2 ) 的直方囤 图4 典型连续色调图像灰度统计直方图 1 1 2 文本图像分析 如何从浩如烟海、与日俱增的海量分布式图像系统中有效提取文本图像,并转换为便 于检索、传输、保存和携带的电子文档,实现办公自动化,已成为一个亟待解决的课题一一 文本图像分析。文本图像分析的目的是将文本图像高速、有效、方便、自动地转化为电子 文档,并应用于人类社会的各个方面。随着文本图像的广泛应用,文本图像的分析和理解 也成为学术界以及工程应用上的研究重点,许多专家和学者在相关领域做了大量的工作。 第3 页 信息工程大学硕士学位论文 文本图像分析涉及机器视觉、图像处理、人工智能、模式识别、自然语言理解等多学 科,是一门介于基础理论研究和应用科学研究之问的综合性学科。文本图像分析包括文本 图像检索、倾斜检测和纠正、版面分析、文种识别、字符识别、语义分析、内容检索等技 术。其中,文种识别作为文本图像分析的重要环节,已成为一个受到广泛关注的研究课题。 1 2 文本图像文种识别技术 文种识别,即文字种类识别,其英文术语为“s c r i p ti d 朗t i f i c a t i o n ”,它不同于语言种 类识别( l a n g g ei d e 嘶f i c 撕o n ) ,这是因为使用同一种文字的民族或地区有可能讲不同种类 的语言。比如中国有很多个民族都有自己的语言,但是使用的文字都是汉字,因此世界上 文字的种类要少于语言的种类。文种识别的作用是把不同文字的信息载体分开,通过分类 来提高对信息载体的利用效率。本文主要研究以文本图像为载体的印刷体文种识别。 对印刷体文本图像文种识别技术的正式研究起始于1 9 9 0 年,a l s p 娩在文献【2 】中第 一次提出了文种识别的概念,并通过对英文和日文的不同视觉特点的研究,将两种文字的 文本图像进行了分类。在此后的十多年中,印刷体文本图像文字种类识别在学术界受到了 比较普遍的重视,对分类和识别理论的研究日渐深入,提出了一系列的方法。目前,针对 文字种类识别进行的研究主要分为统计特征识别和纹理特征识别两个大类。 1 2 1 基千统计特征的文种识别 基于统计特征的文种识别以不同文字具有不同的文本结构特点为分类依据,在研究文 本图像数据分布特点的基础上,分析不同文种文本图像特性差异及其统计规律,提取反映 不同文种文本图像的有效识别特征,实现文本图像的种识别。基于统计特征识别的方法有 基于文本行灰度投影法【3 棚,基于字符上凹面投影法用,基于穿越次数的方法【8 】,基于特殊 字符匹配法1 9 1 以及基于词型频率统计法【1 0 1 等。 文本行灰度投影法 参考英文字符区域划分法,将文本行用顶线、x 高度线、基准线和底线四条水平线划 分为三个区域:上行区域、x 区域和下行区域,如图5 所示。 图5 文本行区域划分 中英文字符在文本行中的部分具有明显的差异。英文字符分四类:占据上行区和x 区 的a 型字符,如大写字母a ,小写字母b ;占据x 区的x 型字符,如小写字母a 和x ;占 据x 区和下行区的y 型字符,如小写字母p 和y ;占据三个区域的j 型字符,如小写字母f 和j 。英文中x 型字符出现频率最高,因此英文字符主要分布在x 区域。而中文字符通常 存在于三个区域,在文本行内的分布更加随机。图6 为中文和英文文本图像的水平投影。 第4 页 信息工程大学硕士学位论文 嗣巷臼t b :羽焉孰中 雅於聪,正; j 姆声报。 i 器艇荐它选掸姨一个 :类敢甏喧撬战。超盘t 湃 起了繇靖终于破型 ;扑菘野萼蓠袋并得 格曲蹄笋举均搬步旮地 两十澎子陆五定然辱 i 伊砷j l e 咖啦峰w l l 亨 i 幽n d s 珏e do t l 打蝴i | 巴 z 畎珏k 量l h a t h h ? t - _ _ e : 碾”2 虹”h d o tl h j _ _ c m 比eh e 件a l 缸雠w h :_ e 嗍忖n 譬细址m 矗n i _ _ 匕 b e a 啊f o i ta n d 恬r 妊d1 l _ _ e = ;辨mh “m 如wy | 一 6 一l 中文6 - 2 英文 图6 文本行归一化灰度投影图 通过对中文和英文的水平投影进行研究,可发现它们的一些不同特点: 1 、英文投影的顶部和尾部出现明显峰值。 2 、中文和英文的投影中白像素部分和黑像素部分的面积比值不同。 第一个特点是由英文字母的上伸和下伸部分、小的上悬点( 比如“i ”“j ”上的点) 而形 成的,因此在投影的两端出现了比较明显的峰值。 第二个特点是英文长的黑游程基本上只出现在x 线和基准线,所以在这两个位置明显 的极大值,在东方文种的投影中基本上不包含这两个峰值,而且中文比英文更加密集,含 有更多的笔划,特别是在水平方向上,因此,中文的水平投影的黑像素比英文多,而且中 文投影分布较均匀,这些都使得中文自像素区域和黑像素区域的面积比值比英文小。 因此,白像素区域和黑像素区域的面积比值是区分中英文较有效的特征。这一特征在 亚洲方块类文字与拉丁类文字中均有体现。 基于字符上凹面投影法 基于上凹面投影的方法与基于文本行灰度投影的方法具有相似的原理。如图7 所示, 上凹面在不同文字字符中的分布具有一定差异。中文字符中的上凹面分布较为随机,因此 其竖直投影无明显峰值,且投影曲线下面积大;英文字符中的上凹面分布较为有规律,主 要分布在基准线和x 线上,其竖直投影曲线下面积小,在x 高度线和基准线附近非常集中, 呈现双峰分布特性,且基准线处的峰值远大于x 高度线处的峰值。 r 考理l 曲o r a to ry 图7 上凹面分布圈 基于穿越次数的方法 相对于拉丁类文字,亚洲方块类文字的结构复杂,笔划多。利用拉丁类和方块类文字 的这一视觉特点,可以统计穿越字符的次数,对文本图像进行文种识别。 对于单个的文字或字母,对其进行竖直投影,投影线与该文字或字母相交的次数就是 该文字或字母的某列的穿越次数。亚洲方块类字符与拉丁类文字一列的穿越次数示意如图 第5 页 毒匡一 信息工程大学硕士学位论文 8 所示。统计结果分析表明,中文文字的穿越次数普遍大于3 ,而英文字母的穿越次数则 基本上小于或等于3 。 奎童 ll 图s 穿越次数示意图 基于特殊字符匹配法 字符匹配法以各种文字中具有视觉唯一性的字符为识别文字的模板,将其与文本图像 进行匹配,从而得到最佳匹配的文字种类。如法语字母和英语基本相同,但它有闭口音符, 如6 、e 、e ,经常使用6 ;常用定冠词l e 、l a ,连接词e t 和介词d e 。若文本图像中出现l “l a ) 、 c t 、d e 和字母6 ,即可判定为法语。德语的特殊字母b 在两个元音之间写s s ,如m 邪、 w 豁s r ,其它情况下写为b ,如m 8 t 、n a b ,连词咖d 与英语a n d 相似,最简单的判别方法 是查找连接词u n d 或字母b 。俄语字母丑是俄语中频繁出现的特有字符,以此为特征,只 要文本图像中出现字母,即可判定为俄语。西班牙语的疑问号和感叹号很特殊,疑问号 由疑问号开始号和疑问终结号? 两部份组成,感叹号由感叹开始号i 和感叹终结号! 组成, 连接词y 和字母丘独异于其他文字,以此为特征即可判定为西班牙语。类似的情况还有日 语中的。等等。 基于词型频率统计法 基于词型频率统计法多用于基于拉丁字符的文字识别。根据字符在文本行中的位置, 可以将拉丁字符分为a 型ix 型、i 型、g 型、j 型和u 型六类,如表l 所示。 表1 字符形状类型 字符形状类型字符 a a 之b d m k i t b o _ 9 祷& ( 位 i xa c e m n o r s u v w x z _i 宣矗a 每6 莳6 0 d gg p q y e _ j j u置硒n a 0 0 由这些字符组成的单词相应被划分为各种词型。如英文中t i e 的词型为a a x ,o f 的词 型为x a ,德文中d e r 的词型为a 麟,d i e 的词型为a i ) 【,法文中l a 和l e 的词型为a x ,e n 的词型为醢等。在英文中,a a x 型单词出现的频率高达7 ,而在其它文字中出现频率相 对较低;在德文中,a 政型单词出现的频率虽然低于a x x 型单词,但a i x 型单词在其它文 字中出现频率非常低,因此可以作为德文的特征区别于其它文字;在法文中,a x 型单词出 现的频率高达1 l ,远高于它在其它文字中出现的频率( 在英文中出现频率4 ,在德文中 第6 页 信息工程大学硕士学位论文 出现频率2 ) 。 基于统计特征的方法意义直观,计算简单,具有较高的准确率,多数达到9 0 以上, 其中基于特殊字符匹配的方法准确率可达1 0 0 但是,这类算法大多需要以准确的字符 分割为前提。而在字符分割中,拉丁文字的粘连字符分离与亚洲字符的分离部件合并都需 要以文字种类已知为前提。特殊字符匹配方法需要搜索文本图像,运算量大,对于图像尺 度、旋转、噪声变化的鲁棒性差。因此,实际应用特别是海量数据处理中,这类方法的可 行性较差。 1 2 2 基于纹理特征的文种识别 基于纹理特征的文种识别以文本图像的纹理特征作为识别标准。作为图像的基本属性 特征,纹理在图像理解中有重要作用。与其他图像特征相比,纹理反映图像灰度模式的空 间分布,包含了图像的表面信息及其与周围环境的关系,能够更好地兼顾图像的宏观结构 和微观结构。由于纹理普遍具有准周期性的统计特征,近年来g a b o r 滤波器、小波( w a v e l e o 等基于多通道多分辨率分析的算法受到广泛重视,利用这些方法可以有效地对纹理图像进 行特征提取处理。由于不同文字图像表现出不同的纹理特征,因此可利用图像的纹理特征 进行文字种类的识别。g a b o r 多通道模型能够有效地解决文本图像局部纹理结构和整体纹 理特征之间的矛盾,反映纹理识别的局部和整体性特征【1 1 埘。小波变换具有空域和时域局 部化特性,即在高频处取窄的时( 空) 问窗,在低频处取宽的时( 空) 间窗,提供一种多分辨表 示的途径,更为有效地提取文本图像的纹理特征【1 3 。 g a b o r 滤波器法 g a b o r 函数是由g a b o r 首先定义,然后由d a u 蛐a n 将其扩展成二维结构,能很好的兼 顾信号在时域和频域中的分辨能力。g a b o r 多通道模型能够有效地解决文本图像局部纹理 结构和整体纹理特征之间的矛盾,反映纹理识别的局部和整体性特征,并使空间一频率域 联合分辨率最大,能够有效地提取文本图像的纹理特征,用于文字种类识别效果良好。 图9 g 曲o r 滤波器的频率响应 小波变换法 小波变换具有空域和时域局部化特性,即在高频处取窄的时( 空) 间窗,在低频处取宽 的时( 空) 间窗,因此在众多学科领域得到广泛应用。通过小波变换也可以实现文种识别。 因为每种文字都有不同的视觉形象,所以来自种文字的不同文档图像可以被看作一种纹 理。而小波能够提供一种多分辨表示的途径,使纹理特征更容易提取。因此在文字种类识 别的应用中效果良好。 第7 页 信息工程大学硕士学位论文 1 3 选题的意义及本文主要工作 1 3 1 选题的意义 在信息获取过程中,得到的海量文本图像中以多种文字的视觉形式存储,而传统的信 息处理工作需要大量外语专业阅报人员,通过人工阅览方式,利用掌握的语言学知识将文 本报文分发至不同的业务方向,研究其内容并确定其信息价值。该方式效率低、成本高、 处理能力有限。显然随着网络设施的进步,应用领域的膨胀,传统方式更加严重制约着信 息处理能力的提高,成为信息处理工作发展的瓶颈。在网络信息获取和高速文本图像处理 中,海量文本图像的文种识别与分发必须由计算机处理完成。 印刷体文本图像文字种类识别技术能够根据各文种字符集独特的视觉表现形式,依据 图像分析理论,运用图像处理技术、借鉴模式识别的原理和方法,深入分析文字图像的数 据分布关系和结构形态特征,建立多层次的分类模型,识别其文字种类,并以此为依据自 动分发至掌握相应语种的专业人员进行信息价值评定,或自动分发至相应的光学字符识别 系统( o c r 系统) 转换为电子文档用于其它处理。 本课题的研究能够提高文本图像信息处理的自动化和智能化程度,为开发实用的文本 图像文种识别与分类处理系统奠定良好的技术基础,在网络图像的处理和文本图像信息获 取领域有明显的推广应用前景。通过文本图像的文种识别与分类,可以快速、有效地获取 有价值的文本信息,有效发挥海量文本图像资源的信息效益。 1 3 2 本文的章节安排 本文主要讨论了印刷体文本图像的文种识别技术,章节安排如下: 第一章:简要介绍了文本图像文种识别的概念,以及文种识别的般方法。 第二章:在研究一般的灰度投影算法的基础上,提出了一种动态阈值文本行投影算法。 通过对判别阈值进行加权,减小了字体笔划粗细对识别结果的影响。实验表明,对中文和 字母文字( 英文,俄文) 两大类文字的识别率有一定提高。 第三章:利用多通道g a b o r 滤波纹理分析方法提取文本图像的全局特征,引入支持向 量机( s v m ) 建立分类器,实现了文本图像的文种识别。实验表明,对于文本图像的噪声、 倾斜、文字笔划残缺等质量退化现象,具有较强鲁棒性。 第四章:在研究基于小波变换文种识别方法的基础上,以小波对数能量为特征构成了 一种基于小波对数能量的改进的文种识别方法。实验结果表明,对中、日、韩、英、俄、 阿拉伯六种文字进行识别,总体识别效果比较理想。 第五章;提出一种基于分形模型的文种识别方法。通过实验,将文本图像看作分形集, 并建立多重分形模型计算文本图像的广义维数谱,以此为特征来进行文种识别。实验表明, 该方法在文字大小、文本行间距相差较大的情况下,有较好适应性。 第8 页 信息工程大学硕士学位论文 第二章动态阈值文本行投影法 罐虻瞩,玎错y 氍蕾童! ,c ;符蝴誊皇i 童样从一十曼f 。是鲒显情撬战,访童f l _ 孽, 。抟起了孤培。终p 硅习:_ , ;扑前磅均髓谩,卉葬 ;| ,l 魏国嫱笋拳为尊步前她曹芦巴- 两个隧子鼬丘突然译由f 第9 页 信息工程大学硕士学位论文 l 铲w h j l ei l e 哪n g 叫| l e 阐a 珏d s 珏e d 挑t 丑1 。e d i _ _ e l 吖肚k el h a t h h ? i r l i 、恤g 组w h o o | ,m i _ e = ,l k el 塘r e a l i z “劬i l _ i 聃l 。封gf o r 址ma n t e = b 电a 响l a d 制氇l 糟dl - - _ _ e = 疆e n f 抽e 趣轩w _ _ 鼍 _ l o 2 英文 置。暑h 罐t ,啦o c _ _ _ 巴= c c 曲c 冀。葫,x o h 删- _ _ e = y 可蛐j t b a - 口t c r - r - _ - - _ e ! = 曩a ,o 黯胡雒_ _ c 一 嚣x o 聊o b a 嘲b _ _ _ e = 船垂o p h a q 删。丑 犁o 明a - - i l : h 嚣。脚o b a 删e 捌_ l ! = - 】0 - 3 俄文 图l o 三种文字文本行归一化灰度投影圈 由文本行归一化灰度投影可以看出,不同文字的字符在文本行中分布具有一定的差 异。中文归一化灰度投影分布较为随机,无明显峰值,且投影曲线下面积大,这是因为中 文比字母文字更加密集,拥有更多笔划,特别是在水平方向上;英文归一化灰度投影曲线 下面积小,主要分布在x 高度线和基准线之间的x 区,在x 高度线和基准线附近非常集中, 呈现双峰分布特性,且x 高度线处的峰值大于基准线处的峰值;俄文归一化灰度投影与英 文分布较为相似,主要分布在x 高度线和基准线之间的x 区;但由于英文中a 型字符出现 频率远多于俄文中a 型字符出现频率,英文在顶线与第一峰值之间的区域灰度投影值大于 俄文在相应区域的投影值。 归一化投影 匪萎蓁蓁雾 = 框三蠢雠 。值线1 重茎量三至重量茎茎蚕最大值线 图1 1 英文文本行灰度投影 文本行归一化投影的0 值线与最大值线可确定一个矩形。图1 1 为英文文本行的例子。 归一化投影曲线与0 值线之闻的面积a 设为绷。,归一化投影曲线与最大值线之间的面 积b 设为毗,两部分面积比设为,可由公式3 、4 、5 计算得出。 = 篓m = 善去 删哟= p ( 力= 羔 r 1 0y - o 第1 0 页 笪星三篓奎堂堡主堂垡笙茎 嗍2 萎( 1 廿) - 荟p 去 ( 4 ) p u“ ”, 2 届蝴一7 矾 ( 5 ) 为面积洲以与钟的比值,反为常数系数,耳是面积比的阈值。由于中文 口旭吼的值大于英文与俄文,当大于阈值时,文本行被识别为中文;当小于闽值时, 文本行被识别为英文或俄文。英文与俄文的埘叩吼值相似,不能通过月来识别。 英文在顶线与第一峰值之间的区域灰度投影值大于俄文在相应区域的投影值,则设归 一化投影曲线下顶线与第一峰值之前的面积a 1 为口心口 ,= 茗1 坳,= 苫去 ,= 尸( y ) = 三妥 p o1 n ,l l m 默1 为第一峰值的位置。面积删- 与舯哟的比值设为锄。 锄2 愿。饿乃t7 挑唆 ( 7 ) 疋是面积比也圹的阈值。当心大于阈值时,文本行被识别为英文,当心i 小于闽值 t , , 时,文本行被识别为俄文。 选取中、英、俄三种文字的文本图像各1 0 0 幅,共3 0 0 幅作为测试对象( 灰度级o 一2 5 5 , 尺寸1 2 8 1 2 8 ) ,以验证算法的效果。因一幅文本图像中存在多个文本行,在识别前需分 割文本行,对预处理后的各行分别提取特征,求其均值,用于文种识别。 实验分为两步,第一步以归一化投影面积比r 。,为特征,将中文与英文和俄文区分开, 7 b 识别出中文文本图像。第二步以归一化投影面积比r 小为特征,将英文与俄文区分开,识 7 别出英文文本图像和俄文文本图像。中文文本图像识别的正确率为9 2 ,英文为8 9 , 俄文为8 5 ,平均正确率为8 8 7 。表2 给出了识别正确的和错误的图像的个数。 表2 三种文字的识别结果( 幅) 、原始文种 识别结薰 中文英文俄文 中文 9 235 英文 2 s 9l o 俄文 6 88 5 第h 页 信息工程大学硕士学位论文 2 1 动态阈值投影法 进行文种识别时,不可避免会出现所要识别的文本图像的文字笔划粗细不一,在使用 文本行灰度投影法进行识别时,会产生一定的误差,如图1 2 所示,对于文字完全相同的 两幄英文文本图像,因为字体笔划粗细不一样,导致计算出的投影区域和非投影区域的面 积比值相差较大,其中图像笔划较粗的图1 2 4 容易识别为中文。 针对文本图 计特征识别 用图像中印 字符密度特 针对文本图 统计特征识 利用图像中 字符密度特 i nv e r t i c a i t h i sd j r e c t i m a g e s ,t r n o r m a z a i nv e r t i c a i t h i sd i r e d i m a g e s ,廿 n o r m a z a 1 2 1 正常粗细中文 1 2 2 粗体中文 1 2 3 正常粗细英文 1 2 - 4 粗体英文 图1 2 中英文四幅图像及其水平投影 第1 2 页 堡垦三堡查兰堡主堂垡丝苎 根据灰度文本行投影法对四幅图像进行计算,可得到投影区域和非投影区域的面积比 ,如表3 所示 表3 四幅图像的 l 文本图像 a ( 正常中文) b ( 粗体中文) c ( 正常英文) d ( 褪体英文) 1 1 6 9 3l 3 7 2 31 1 0 5 41 2 8 7 6 由表3 可以看出,英文粗体字的r 。,明显要大于正常英文字的孟。,甚至大于正常中 。7 b7 b 文字的r 。,在用阅值进行文种识别时就容易将粗体英文的图像误判为中文,针对这种情 7 b 况,可以考虑乘以一个随图像不同而变化的权值来调整判决阈值。 假设尺寸为m 像素的文本行图像中点( x ,力的灰度值为厂 ,y ) 。对其进行二值化, 得到m 个黑白像素,图像的灰度值变为0 和l 两个值,其中0 代表黑色像素,1 代表 白色像素。建立一个坐标系,横坐标表示黑游程的长度,取值从1 到n ,纵坐标表示每个 黑游程累加量,取值为o 到m 2 。按水平方向逐线扫描文本图像,当遇到一串o 即黑 游程时,计算其长度三,并将坐标系中横轴相应的值工上累加l ,得到一个水平黑游程长 度的统计图。图1 3 给出了上述四幅中英文文本图像的黑游程长度统计图。 针对文本图 计特征识别 用图像中印 字符密度特 针对文本图 统计特征识 利用图像中 字符密度特 1 3 1 正常粗细中文 1 3 - 2 粗体中文 第1 3 页 信息工程大学硕士学位论文 i nv e r t i c a i t h i sd i r e c t i m a g e s ,t f - n o r m a i i z a i nv e r t i c a i t h i sd i r e 吐 j m a g e s t r n o r m a 盈 1 3 3 正常粗细英文 1 3 4 租体英文 图1 3 中英文四幅图像及其黑游程统计图 由上面的统计图可以看出:大部分的黑游程长度都相对较短,说明大部分的黑像素都 集中在短游程范围内。而文字是由笔划所构成,笔划的粗细一般较均匀,所以峰值就是文 本图像中文字的笔划粗

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论