(检测技术与自动化装置专业论文)视频图像字符分割与识别的研究.pdf_第1页
(检测技术与自动化装置专业论文)视频图像字符分割与识别的研究.pdf_第2页
(检测技术与自动化装置专业论文)视频图像字符分割与识别的研究.pdf_第3页
(检测技术与自动化装置专业论文)视频图像字符分割与识别的研究.pdf_第4页
(检测技术与自动化装置专业论文)视频图像字符分割与识别的研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(检测技术与自动化装置专业论文)视频图像字符分割与识别的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

视频图像字符分割与识别的研究 摘要 人类用眼睛和大脑识别各种文字和图像,而且能排除各种干扰和变形影响。 因此,研究机器模仿人类的认识汉字的过程不论对汉字识别,乃至对人工智能模 式识别都具有重要的理论意义和实用价值。 本文针对汉字本身的结构特征和笔划特征,综合运用了小波分析和数学形态 学,从仿人认字的过程出发,对视频图像进行了字符分割,刽对机器识别汉字结 构的特点,提出了仿人汉字识别思路和方法,力图使计算机具有模仿人类的视觉 感知过程。 论文的研究工作如下: 1 ) 图像分割预处理。提出了利用小波变换的字符图像定位方法,结合数学形 态学定位分割出字符区域。字符图像通常具有一定的方向信息二维小波变换能 够提取图像各方向上的边缘细节,字符图像具有一定的连通性,数学形态学能够 定位分割出字符区域。 2 ) 汉字编码方法。提出一种仿人汉字识别系统十码编码方法。研究了人类识 字的汉字编码方案,借鉴五笔码、四角号码、太极码等众多字元选取与取码规则 的基础上,结合仿人汉字识别系统中机器识别汉字结构的特点,提出一种十码汉 字编码机器识别方法。 3 ) 识别算法。给出了十码汉字编码法的识别码提取算法。在对汉字笔划分解 的基础上,根据运用的字符特征给出了识别码的提取算法。 本文研究表明:视频图像字符分割算法能够有效地提取出图像中的字符部分, 尤其是能够很好的将图像中的游离字符定位出来,对于有一定倾斜角度的字符图 像也可以被定位分割。编码识别方法能够按照字符特征提取的汉字识别码对汉字 十码编码,能很好的区分识别汉字字符。 总结了本文中仿人汉字识别编码方法的优点与不足,提出了研究中的几点思 考与展望。 关键词:小波变换数学形态学字符分割汉字识别 t h e s t u d y o f s e g m e n t a t i o n a n d r e c o g n i t i o nf o r v i d e o i m a g e c h a r a c t e r a b s t r a c t t h em a n k i n dr e c o g n i z e sv a r i o u sk i n d so fc h a r a c t e r sa n di m a g e sw i t he y e s a n db r a i n ,a n dc a n g e tr i do f v a r i o u sk i n d so fi n t e r f e r e n c ea n d d i s t o r t i o n s o ,i th a s i m p o r t a n tt h e o r ym e a n i n ga n dp r a c t i c a l v a l u ef o r r e c o g n i t i o n a n d i n t e l l i g e n t p a t t e r n - r e c o g n i t i o n t os t u d yt h ec o u r s eo fm a c h i n e sh u m a n o i d r e c o g n i t i o n b a s e do nt h es t r u c t u r ea n ds t r o k ec h a r a c t e r i s t i co fc h i n e s ec h a r a c t e r , t h i s t h e s i su s e dw a v e l e tt r a n s f o r m a t i o na n dm a t h e m a t i c a l m o r p h o l o g yt os e g m e n t v i d e oi m a g ec h a r a c t e r h u m a n o i dr e c o g n i t i o nt r yh a r dt om a k et h e c o m p u t e r i m i t a t et h eh u m a nv i s i o nb a s e do nt h ec h a r a c t e r i s t i co ft h em a c h i n e r e c o g n i t i o n t h e p r i m a r yc o n t e n t so f t h i st h e s i sa r e ; i ) i m a g es e g m e n t a t i o np r e t r e a t m e n t i t u s e sw a v e l e tt r a n s f o r m a t i o na n d m o r p h o l o g y t o s e g m e n tv i d e oi m a g ec h a r a c t e r t h e c h a r a c t e r u s u a l l yh a s c e r t a i nd i r e c t i o ni n f o r m a t i o n t w o d i m e n s i o nw a v e l e tc a nd r a wt h e e d g e d e t a i li ne v e r y d i r e c t i o n m o r p h o l o g yc a ns e g m e n t t h ec h a r a c t e ra r e a 2 ) c o d es c h e m e f o rc h i n e s e c h a r a c t e r t e n c o d es c h e m ef o rh u m a n o i d r e c o g n i t i o ni sp r e s e n t e d a f t e rs t u d y i n g h u m a n sc o d es c h e m e ,w u b ic o d ea n d s i j i a o c o d ea n dt a i j i c o d e ,b a s e do nt h ec h a r a c t e r i s t i co ft h em a c h i n e r e c o g n i t i o n ,t h i s t h e s i s p r e s e n t s t h et e n c o d es c h e m ef o rh u m a n o i d r e c o g n i t i o n 3 ) r e c o g n i t i o na l g o r i t h m o nt h eb a s i so fr e s o l v i n gt oc h i n e s ec h a r a c t e rs t r o k e , t h i st h e s i s p r e s e n t st h e a b s t r a c t i o na l g o r i t h mw h i c hr e c o g n i t i o nc o d eu s e d a c c o r d i n g t ot h ec h a r a c t e rc h a r a c t e r i s t i c t h er e s e a r c ho ft h i st e x ts h o w s :s e g m e n t a t i o nf o rv i d e oi m a g ec h a r a c t e rc a n d r a wc h a r a c t e r so fi m a g ee f f e c t i v e l y , e s p e c i a l l yi n d i v i d u a lc h a r a c t e r t h e s l o p e c h a r a c t e r sc a nb es e g m e n t e dt o o t h er e c o g n i t i o nc o d es c h e m ec a l lc o d ea n d d i s t i n g u i s h t h ec h a r a c t e r s v e r y w e l l a c c o r d i n g t o r e c o g n i t i o n c o d et h a tt h e c h a r a c t e r i s t i co ft h ec h a r a c t e ri sd r a w n s u m m a r i z et h e a d v a n t a g e a n dd e f i c i e n c yo fh u m a n o i d r e c o g n i t i o n c o d e s c h e m eo fc h i n e s ec h a r a c t e r si nt h et h e s i s p r o p o s e ds o m et h i n k i n ga n dp r o s p e c t i ns t u d y i n g k e y w o r d :w a v e l e tt r a n s f o r m a t i o n , m a t h e m a t i c a l m o r p h o l o g y , c h a r a c t e r s e g m e n t a t i o n , c h i n e s ec h a r a c t e r sr e c o g n i t i o n 合肥工业大学 本论文经答辩委员会全体委员审查,确认符合合肥工业大 学硕士学位论文质量要求。 答辩委员会签名 主席幽荔勿受始惑梭 导师: 腓砂智薯缀矛氧 “ p l l ,l 、引勿挝 硒铷嘭吠;景磺 粞掷 函l 暇 独创性声明 本人声明所罡交的学位论文是本人在导师指导下进行的研究1 作及取得的研究成 果。据我所知,除了文中特别加班标沣和致谢的地方外- 论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得盒胆量些盘堂 或其他教育机构的学位或 证书而使用过的材料。与我一同j 二作的同志对本研究所做的任何贡献均己存论文中作了 明确的说明井表示谢意。 学位论文作者签名:桶铸 箍字日期;计6 年f 月印日 学位论文版权使用授权书 本学位论史作者完全了解金妲王些盍堂有关保留、使用学位论文的规定t 玎极保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被青阅和借阅。本人授 权佥盟些盘堂可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印绒扫描等复制手段保存、忙编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:,栖静 签字日期;w 嫒年,月毋日 学位论文作者毕业后去向 工作单位: 通讯地址: 铷虢殁夸 签字日期丑p 5 省月上了日 电话 邮编 致谢 本人在三年的硕士研究生课程学习和撰写学位沦文的过程中,得到了王建平 教授和朱程辉副教授的悉心指导,无论从课程学习、论文选题,还是到收集资芈j 、 论文成稿,都倾注了王老师和朱老师的无私教导和唰心帮助。 王建平老师以渊博的知识、严谨细致的治学态度、敏锐的思维、诲人不倦的 教育情怀、非凡的敬、i k 精神给予了我专业技术的指导,为我树立了为人处事的楷 摸。同时,下老师还咀真诚热心的关怀给予r 我生活上的帮助,使我身心受益。 在此向王老师表示最诚挚的谢意! 衷心感刮朱程辉副教授。朱老师认真的工作态度、严谨细致的工作作风以及 学习生活上的热心帮助令人感动。在此向朱老师表示深深的感谢! 衷心感谢台肥工业大学智能控制研究所的王金玲老师、穆道明老师、罗国军 老师、郑沽老师在课题研究过程中给予的无私帮助。 感谢电气学院的全体老师,他们的教诲为本文的研究提供了理论基础,行创 造了许多必要条件和学习机会。 感谢和我共度三年美好时光的师兄钱自拓、王竹林、秦剑,感谢秦枫、钱波、 后俊、赵丽欣、郭之辉、黄冉、蔺菲、丘志削、季学峰、赵丽、陈军等实验室同 学与你们共度这段充实而又快乐的学习时光,将是我人生中难忘的美好同忆。 感谢我的父母及家人。他们用辛勤的劳动和无私的关怀给了我学习与生活的 物质精神支持,使我健康成长! 感谢所有关心和帮助过我的同学和朋友! 作者:杨静 2 0 0 5 年5 月1 9 日 第一章绪论 文字是人类思想的载体,是交流的工具。进入信息时代后,原来依靠图形 记载在纸上的文字有了电子化的以序号为代表的记载方式。这就产生了图形文 字与编码序号之间的转换问题。由编码序号到文字图形是汁算机输出,而由文 字图形到编码序号就是文字识别川【2 】1 3 1 。文字识别是模式识别f 4 】的一个重要研 究方向,在办公自动化、快速信息处理、机器视觉等多方面有着重要的理论意 义和实用价值。进入9 0 年代以后,随着计算机软硬件技术的发展,文字识别 逐步进入实用阶段,国内各厂商陆续推出了几种具有代表性的文字识别系统, 并对其在印刷文本汉字识别方面的应用做了详细介绍。纵观这些字符识别系统 】,一般分为预处理、特征提取、分类器、多分类器集成和后处理等模块,其 结构如图1 1 所示。 圈1 1 字符识别流程 1 预处理 预处理的目的是去除噪声、加强育用的信息,并对输入设备或其他因素造 成的退化现象进行复原,预处理部分一般包括消噪、二值化、细化、归一化等 步骤。一般来说,汉字识别的研究都以分割好的图像为起点。 2 特征提取 经过预处理阶段后,数据的维数依然很高,特征提取的目的是将图像信息 压缩成一组维数较低的、能够反映原始图像本质特征的特征向量。 一组稳定的和具有代表性的特征,是一个识别算法的核心,因此,采用不 同特征的识别算法即使是采用相同的分类策略也可以认为是不同的算法。 总的来说,特征可以根据提取方法和侧重点的不同分为统计特征和结构特 征两种类型。两种类型的特征分别适用于统计和句法两种识别方法。 3 识别 识别就是在特征空间中用统计决策方法或结构分析方法将被识别对象归 为某一类别。由于汉字数量大的特点,往往采用多级分类策略,以提高识别效 率。此时,凡是没有得到最终识别结果的各个分类环节均称为预分类。 4 后处理 单字识别完成后,系统可以通过加入语法和上下文的限制在识别候选中挑 选适合语境的结果,这一点在一般的汉字识别中非常有效。 1 2 汉字识别分类1 1 1 1 2 1 1 3 i 从学科划分的角度考虑,汉字识别属于模式识别1 4 的范畴。近2 0 年 来模式识别在理论、方法与实践方面取得的成果,为汉字识别打下了基 础。另一方面,由于类别非常大,汉字识别被公认为最困难的模式识别 问题之一。在国内,最初人们想研究汉字识别主要是从文化方面考虑。 我1 r 自己国家使用的汉字理所应当的由自己来用计算机进行识别汉字文 本的研究,以后主要被它巨大的市场及经济价值所吸引。在经过一段时 间的研究开发,人们对汉字识别的难度有了清醒的认识之后,仍有大批 的研究者坚持这方面的工作。 当人们在考虑用计算机自动认字,尤其是认汉字的时候,自然而然 地会联系到人认汉字时的特点,为的是用计算机来模拟人认汉字的过程。 许多科技工作者的实践表明,这是件很具吸引力但又不容易实现的事。 中国的小孩子在开始学习汉字时,是通过老师和家长的教导,一笔一笔 的写成一个汉字,从一些笔划构成偏旁部首,再从偏旁部首到整字,反 复地进行学习,可是长大成人后,在对汉字的“再认”时,是从整字来 看待的,并不注重一个字的各个部分,只有在遇到非常相似及难以辨认 时,才会进一步注意细微的差别,把这种差别加进去,进行最后的确认。 一般说来,不是对汉字的每个笔划或偏旁部首一个个地加以辨认。人的 学习过程和认字过程是不一样的,认字时考虑的是汉字的整体形象。 现今有两种汉字识别的技术和途径,一种途径是让计算机认字,发 展成为汉字识别的技术,把书写在纸上或其它介质上的汉字( 包括图形等 图文并茂的汉字文本) ,通过扫描等技术以及自动认字的方法,达到方便、 自动、快速地把汉字输入计算机。这种方法称为脱机汉字识别,这里所 说的汉字,包括手写汉字。以及各种印刷体汉字的文本;另一种办法称为 联机手写汉字识别,即使用者在一块特定的书写板上写字,在写的过程 中就把所写的字送进计算机。很明显,解决好汉字识别问题,对发展我 国的信息事业,弘扬我国的传统文化,具有重要的意义。 汉字识别的类型大致可概括如下 汉字识别 脱机汉字识别 手写汉字识别印刷体汉字识别 联机手写汉字识别 图1 2 汉字识别分类 另外还包括汉字中混有其它字符,如中、英文及数字混在一起的识别等。 1 3 汉字识别的问题和困难1 5 1 1 6 i 1 7 1 与所有模式识别系统一样,汉字识别的主要性能指标是正确识别率 和识别速度:从实用角度看,还应考虑系统的复杂性、可靠性和价格等 等。对识别系统识别率和识别速度的要求,很难有一种统一的、严格的 标准,主要根据实际应用的需要来确定。但是作为一种输入手段,汉字 识别系统的性能应该可以和其它的输入手段( 如人工键入) 相比拟。目前 由专业人员操作的汉字键入的错误率约为1 ,键入速度最高达2 0 0 字 m i n ,平均速度也在5 0 字m i n 以上。作为参考,这些指标应该是汉字识 别系统必须达到的最低要求,在某些需要大量输入的场合( 如数掘库的建 立) 对识别系统性能的要求还应更高。 要达到上述要求是相当困难的。这是因为:从客观上说,汉字是一 种特殊的模式集合。这种集合的模式种类( 汉字字数) 很多,结构复杂, 有些模式十分相似,加上印刷质量与干扰的影响,以及人们在书写时的 随意性使字形不够规范等原因,都使正确识别( 特别是要求具有高识别率) 十分困难。从技术上说,人们关于模式识别的研究虽已有较长的历史, 但迄今仍没有能够全面地适用于分析或描述各种模式的严谨的理论。在 研究某一种模式识别问题时,有的方法比较巧妙,或者说,某种识别方 法较符合被识别的模式集合的情况,因而得到较好的效果。但是即使这 是一种好的方法,由于不容易顾及所有各方面的问题,所得结果往往也 不是全局最佳的。例如:某一种方法可能得到较高的正确识别率,但算 法可能过于复杂,开销较大。 汉字集合识别的特点: ( 1 ) 字量大 目前我国常用汉字约3 0 0 0 4 0 0 0 个,国标g b 2 3 1 2 8 0 两级汉字共6 7 6 3 个。 识别系统一般应能正确识别这些常用的字,才能满足实际应用的需要。显然, 汉字集合的字量越大,识别速度越低。为了提高识别速度,常采用树分类,即 多级识别方法。采用这种方法以后,识别速度虽然可以提高,但也可能使谚 别 率下降。汉字集合字数愈多,f 确识别率与识别速度的矛盾愈大。这是汉字识 别的主要困难之一。 ( 2 ) 字体多 我国印刷字体主要有宋体、仿来体、黑体和楷体四种,手写体则有楷书、 行书和草书三大类。印刷体汉字不同字体的同一个字虽然拓扑结构基本相同, 但笔划的粗细、长短、位置及姿态,都有一定的差别,各个部件( 如偏旁、部 首与主体) 的大小比例与位置,也都有所变异。换句话说,不同字体的同一+ 个 字的字形点阵并不相同。对于手写汉字,这种差别就更大。因此,计算机自动 识别时,很难把不同字体的同一个字,用一个参考汉字来比较、判定。这种情 况将使多体汉字识别系统所需的参考模板数成倍增加,或者要求所选用的识别 特征能适应不同字体的字形变化,否则将难以获得足够高的识别率。 ( 3 ) 结构复杂、字形相似 和拼音文字相比,汉字笔划多,结构复杂。笔划最多的汉字有3 6 划,平 均每个汉字笔划为i l 划。由于笔划多,有的汉字结构十分复杂,有的字虽然 笔划较少,但往往字形十分相似,如“人、入”、“巳、已、己”等。这些字 有的只有一点之差,或者某一笔划长短略有差别,其意义就迥然不同。识别时 必须能正确判定这些微小差异,否则就会发生错误。我国工作者已经在这方面 进行了大量研究并取得了一定的成果。 汉字识别可简单的分为两个过程:学习( 训练) 过程和识别过程。学习过程 就是让计算机通过样本学习或训练提取出每个汉字的特征并存储起来,作为标 准特征库,即模板库:识别过程中,计算机首先按学习过程中的特征提取方法 提取出输入模式的特征,然后再与标准特征库中的特征进行匹配,匹配程度最 大的汉字即为识别结果。因此,如何确定表达汉字模式的最佳特征,如何有效 的提取特征,从而构建高性能的识别器,是汉字识别技术的关键所在。 1 4 汉字识别方法1 5 1 1 7 1 1 8 1 识别方法是整个系统的核心。用于文字识别的模式识别方法可以大致分为 结构模式识别、统计模式识别及两者的结合。下面分别进行介绍。 1 、结构模式识别 汉字是一种特殊的模式,其结构虽然比较复杂,但其字符图形含有丰富的 结构信息,可以设法提取含有这种信息的结构特征及其组字规律,作为识别的 依据,这就是结构模式识别法。 4 结构模式识别是早期印刷体汉字识别研究的主要方法。其主要出发点是印 刷体汉字的组成结构。从构成上讲,汉字是由笔划或更小的结构基元构成的。 由这些结构基元及其相互关系完全可以精确地对印刷体文字加以描述,就像一 篇文章由单字、词、短语和句子按语法规律所组成一样。所以这种方法也叫句 法模式识别。识别时,利用上述结构信息及句法分析的方法进行识别,类似 个逻辑推理器。在实际应用中,此方法面临的主要问题是抗干扰能力差,因为 在实际得到的文本图像中存在着各种干扰,如倾斜,扭曲,断裂,粘连纸张 上的污点,对比度差等。要想将这种方法发扬光大,首先要寻求有效的预处理 算法,待识字符的结构在经历预处理后能够清晰、完整、标准化地再现:其次, 在特征提取方法上也还有很多工作可做,只有得到可靠、稳定、独立且数量较 小的特征,结构识别方法的优势才能够最大限度地发挥出来。如果上述两点问 题得到较好的解决的话,结构识别方法将显示出其巨大的优势,匹配方法直观、 形象:识别稳定性好,算法的泛化能力强。 常见的结构模式识别方法有: ( 1 ) 笔划密度特征:笔划密度的描述有许多种,这里采用如下定义:字符 图像某一特定范围的笔划密度是在该范围内,以固定扫描次数沿水平、垂直或 对角线方向扫描时的穿透次数。这种特征描述了汉字的各部分笔划的疏密程 度,提供了比较完整的信息。在图像质量可以保证的情况下,这种特征相当稳 定。在脱机手写体的识别中也经常用到这种特征。但是在字符内部笔划粘连时 识别的误差会较大。 ( 2 ) 外围特征:汉字的轮廓包含了丰富的特征,即使在字符内部笔划粘连 的情况下,轮廓部分的信息也还是比较完整的。这种特征非常适合于作为粗分 类的特征,但细分的能力不强。 ( 3 ) 基于微结构特征的方法:这种方法的出发点在于,汉字是由笔划组成 的,而笔划是由一定方向,一定位置关系与长宽比的矩形段组成的。这些矩形 段则称为微结构。利用微结构及微结构之间的关系组成的特征对汉字进行识 别,获得了良好的效果。其不足之处是,在内部笔划粘连时,微结构的提取会 遇到困难。 ( 4 ) 特征点特征:早在1 9 5 7 年,s o l a t r o ne 1 e c t r o n i c sg r o u p 公司发布 了第一个利用窥视孔( p e e p h o l e ) 方法的o c r 系统。其主要思想是利用字符点阵 中一些有代表性的黑点( 背景) ,白点( 笔划) 作为特征来区分不同的字符。后有 人又将这种方法运用到汉字识别中。对其中的黑点又增加了属性的描述,如端 点、折点、交叉点等。也获得了比较好的效果。其特点是对于内部笔划粘连的 字符的识别的适应性较强,直观性好,但是不易表示为矢量形式,不适合作为 粗分类的特征,匹配难度大。 2 、统计模式识别 统计决策论发展较早,理论也较成熟。其要点是提取待识别模式的一组统 计特征,然后按照一定准则所确定的决策函数进行分类判决。汉字的统计模式 识别是将字符点阵看作一个整体,其所用的特征是从这个整体经过大量的统计 而得到的。统计特征的特点是抗干扰性强,匹配与分类的算法简单,易于实现。 不足之处在于细分能力较弱,区分相似字的能力差一些。另外,与结构法相比 特征无直观性的物理意义。 常见的统计模式识别方法有: ( 1 ) 模板匹配:模板匹配并不需要特征提取过程。字符的图像直接作为特 征,与字典中的模板相比。相似度最高的模板类即为识别结果。这种方法简单 易行,可以并行处理。但是一个模板只能识别同样大小、同种字体的字符,对 于倾斜、笔划变粗变细均无好的适应能力,因此对大字符集不适用。 ( 2 ) 利用变换特征的方法:对字符图像进行二进制变换( 0w a ls h h a r d a m a 变换) 或更复杂的变换( 如k a r h u n e n l o e v e ,f o u r i e r ,c o s i n e ,s 1 a n t 变换等) , 变换后的特征的维数大大降低。但是这些变换不是旋转不变的,因此对于倾斜 变形的字符的识别会有较大的偏差。二进制变换的计算虽然简单,但变换后的 特征没有明显的物理意义。k l 变换虽然从最小均方误差角度来说是最佳的, 但是运算量较大。总之,变换特征的运算复杂度较高。 ( 3 ) 投影直方图法:利用字符图像在水平及垂直方向的投影作为特征。该 方法对倾斜旋转非常敏感,对图像质量要求高,细分能力差。 ( 4 ) 几何矩( g e o m e t r i cm o m e n t ) 特征:m k h u 提出利用矩不变量作为 特征的想法,引起了研究矩的热潮。研究人员又确定了数十个移不变、比例不 变的矩。我们都希望找到稳定可靠的、对各种干扰适应能力很强的特征,在几 何矩方面的研究正反映了这一愿望。以上所涉及到的几何矩均在线性变换下保 持不变。但在实际环境中,很难保证线性变换这一前提条件。 ( 5 ) s p l i n e 曲线近似与傅立叶描绘子( f o u r i e rd e s c r i p t o r ) :两种方法 都是针对字符图像轮廓的。s p l i n e 曲线近似是在轮廓上找到曲率大的折点, 利s p l i n e 曲线来近似相邻折点之间的轮廓线。而傅立叶描绘子则是利用傅立 叶函数模拟封闭的轮廓线,将傅立时函数的各个系数作为特征的。前者对于旋 转很敏感。后者对于轮廓线不封闭的字符图像不适用,因此很难用于笔划断裂 的字符的识别。 当然还有许多种不同的统计特征,诸如图描述法、包含配选法、脱壳透视 法等,这里就不一一介绍了。 3 、统计识别与结构识别的结合 统计模式识别方法将重点放在模式信息处理的数学规范上,以数值特征向 量的方式表达模式,便于找到合适的模式学习和匹配算法,但难于描述模式内 部复杂的几何及拓扑结构特性。结构模式识别方法则以形式语言为基础,侧重 6 于句法结构分析,但文法复杂。结构模式识别与统计模式识别各有优缺点,随 着我们对于两种方法认识的深入,这两种方法正在逐渐融合,使得识别技术可 处理更多类型、更加复杂的模式。同时,也在模式特征的提取和学习,模式的 匹配与分类,以及模式样本的低层处理方法,如消除噪声、模式图像分割、特 征的抽取等方面都取得很多成果。从而大大扩展了模式识别技术的应用领域。 网格化特征就是这种结合的产物。字符图像被均匀地或非均匀地划分为若干区 域,称之为“网格”。在每一个网格内寻找各种特征,如笔划点与背景点的比 例,交叉点、笔划端点的个数,细化后的笔划的长度、网格部分的笔划密度等 等。特征的统计以网格为单位,即使个别点的统计有误差也不会造成大的影响。 另外,由于将不同含义的统计特征与结构特征有效地进行了组合,增强了特征 的抗干扰性,整个识别系统的稳定性与泛化能力都大大地增强了。目前,这种 方法正得到日益广泛的应用。 4 、人工神经网络 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,以下称a n n ) 是一种模拟人 脑神经元细胞的网络结构,它是由大量简单的基本元件一一神经元相互连接成 的自适应非线性动态系统。虽然目前对于人脑神经元的研究还很不完善,我们 无法确定a n n 的工作方式是否与人脑神经元的运作方式相同,但是a n n 正在吸 引着越来越多的注意力。a n n 中的各个神经元的结构与功能较为简单,但大量 的简单神经元的组合却可以非常复杂,我们从而可以通过调整神经元问的连接 系数完成分类、识别等复杂的功能。a n n 还具有一定的自适应的学习与组织能 力,组成网络的各个“细胞”可以并行工作,并可以通过调整“细胞”间的连 接系数完成分类、识别等复杂的功能。a n n 可以作为单纯的分类器( 不包含特 征提取,选择) ,也可以用作功能完善的分类器。在英文字母与数字的识别等 类别数目较少的分类问题中,常常将字符的图像点阵直接作为神经网络的输 入。不同于传统的模式识别方法,在这种情况下,神经网络所“提取”的特征 并无明显的物理含义,而是储存在神经物理中各个神经元的连接之中,省去了 由人来决定特征提取的方法与实现过程。从这个意义上来说,a n n 提供了一种 “字符自动识别”的可能性。此外,a n n 分类器是一种非线性的分类器,它可 以提供我们很难想象到的复杂的类间分界面,这也为复杂分类问题的解决提供 了一种可能的解决方式。 5 、模糊 随着科学研究的不断深入,推理的精确性要求也越高,为了精确地描述复 杂的现实对象,就不断地产生和发展起来对系统的判别和各类新的数学分支。 人们需要研究的关系越来越复杂。迄今为止,处理现实对象的数学模型可大致 分为三大类:第一类是确定性数学模型,这类模型的背景对象具有确定性或固 定性,对象问具有必然的关系;第三类是随机性数学模型,这类模型的背景对 象其有或然性或随机性;第三类模糊性数学模型,这类模型的背景对象极其关 系均具有模糊性。前两种模型的共同特点是所描述的事物本身的含义是确定 的,是非彼即此的清晰概念。而现实世界中的对象很多是无法精确定义的,表 现出“亦彼办此”的模糊性,如“健康”与“不健康”,“稳定”与“不稳定” 等等之间找不到明确的边界,从差异的一方到另一方经历了一个从量变到质变 的连续过渡过程。模糊性的数学模型就是为描述此类现象而设计的。 6 、汉字识别混合系统的研究 现有的多种汉字识别理论和方法,往往各有长短,当前汉字识别的个研 究重点就是一改传统的单一特征提取和单一分类方法构成的识别系统,而采用 多特征提取和多分类方法,并以多种方式混合而形成的汉字识别混合系统。因 为抽取单种类的特征进行汉字识别,所利用的汉字信息量较有限,不可能全 面反映汉字的特点。对于任一种汉字特征来说,必然存在其识别的“死角”, 即存在利用该特征很难进行区分的汉字,因此误识率很难降低,而且识别抗干 扰性能不易提高。 汉字识别混合系统就是采用多特征提取和多分类方法,灵活地利用各种汉 字特征的互相补充,相得益彰,从而达到提高识别率的目的。其基本出发点是: 混合多数据源、多表示法和多处理方法为一体,以解决一个复杂困难的模式识 别问题。汉字识别混合系统主要分为两大类:第一类是多分类器集成系统,其 基本原理是在系统内设计多个分类器以构成各自的独立系统,针对多个分类器 的各个输出信息,采取一定规则进行表决以得最终的输出结果。第二类是基于 多种分类方法的模块实现的混合模式识别系统,它不同于利用多分类器输出结 果进行表决的多分类器输出结果进行表决的多分类器集成系统,而是根据汉字 识别特点对整个识别过程进行分级或分阶段处理,前一级的输出结果是后一级 的输入,后一级识别是对前一级识别的细化和延续,从而实现多特征方法的互 补以及多识别级间信息的利用,以提高汉字识别率。 1 5 本文主要工作及内容安排 本文针对汉字本身的结构特征和笔划特征,综合运用了小波分析和数学形 态学,从仿人认字的过程出发,对视频图像进行了字符分割,针对机器识别汉 字结构的特点,提出了仿人汉字识别思路和方法,力图使计算机具有模仿人类 的视觉感知过程。 论文的研究工作如下: 1 ) 图像分割预处理。提出了利用小波变换的字符图像定位方法,结合数学形 态学定位分割出字符区域。字符图像通常具有一定的方向信息,二维小波 变换能够提取图像各方向上的边缘细节,字符图像具有一定的连通性,数 学形态学能够定位分割出字符区域。 2 ) 汉字编码方法。提出一种仿人汉字识别系统十码编码方法。研究了人类识 字的汉字编码方案,借鉴五笔码、四角号码、太极码等众多字元选取与取 码规则的基础上,结合仿人汉字识别系统中机器识别汉字结构的特点,提 出一种十码汉字编码机器识别方法。 3 ) 识别算法。给出了十码汉字编码法的识别码提取算法。在对汉字笔划分解 的基础上,根据运用的字符特征给出了识别码的提取算法。 本文研究表明:视频图像字符分割算法能够有效她提取出图像中的字符部 分,尤其是能够很好的将图像中的游离字符定位出来,对于有一定倾斜角度的 字符图像也可以被定位分割。编码识别方法能够按照字符特征提取的汉字识别 码对汉字十码编码,能很好的区分识别汉字字符。 总结了本文中仿人汉字识别编码方法的优点与不足,提出了研究中的几点 思考与展望。 本文内容安排如下: 第一章:绪论。概述了汉字识别的流程、及研究方法,说明了汉字识别的 特点及难点,介绍本文内容安排。 第二章:视频图像字符分割。针对汉字笔划的方向特征结合小波变换与数 学形态学进行视频图像字符的分割。 第三章:仿人汉字识别系统编码方案。结合仿入汉字识别系统中机器识别 汉字结构的特点,提出仿人汉字识别系统十码编码方案。 第四章:识别算法。给出了汉字十码识别码的提取算法。 第五章:小结与展望。 第二章视频图像字符分割 字符分割即为在待处理图像中,找到感兴趣的字符区域并提取出来,以为 后续的字符识别工作做好准备。在诸如彩色文本图像中,包含了大量文字和符 号,如何将字符与背景分离是字符区域提取的关键步骤。 本章首先阐述了图像分割【lo 】的定义、分类和方法,以此为基础,分析图 像中字符区域自身特征,对图像进行小波多尺度分解,提取m 字符边缘细节, 用数学形态学进行字符边缘连接和填充进行细定位分割。 2 1 图像分割i l o 1 1 i i 1 2 2 1 1 图像分割的定义和方法 在对图像的研究和应用中,人们往往仅对图像中的某些部分感兴趣。这些 部分常称为目标或前景( 其它部分称为背景) ,它们一般对应图像中特定的、具 有独特性质的区域。为了辨识和分析目标,需要将这些有关区域分离提取出来, 在此基础上对目标进一步利用。 所谓图像分割,就是要根据目标与背景的先验知识,对图像中的目标、背 景进行标记、定位,然后将待识别的目标从背景或其它伪目标中分离出来。例 如:将一幅航空照片分成工业区,住宅区,及湖泊、森林等。图像分割是图像 处理到图像分析的关键步骤,也是一种基本的计算机视觉技术。这是因为图像 的分割、目标的分离、特征的提取和参数的测量将原始图像转化成更抽象更紧 凑的形式,使得更高层的分析和理解成为可能。 图像分割是将图像中具有特殊含义的不同区域分开来,区域间互不相交。 且每个区域都满足特定区域的一致性。对一幅图像g ( x ,y ) ( 其中0 x x m a x o y y m a x ) 进行分割就是将图像划分为满足如下条件的子区域g l ,9 2 ,9 3 : ( a ) ij g k ( x ,y ) = g ( x ,y ) ,即所有子区域组成了整幅图像: 卮i ( b ) g 。是连通的区域; ( c ) g 。( x ,y ) n g ,( x ,y ) = 矿,即任意两个子区域不存在公共区域; ( d ) 区域m 满足一定的均匀性条件。均匀性意味着同一区域像素点之间 的灰度值差异较小或灰度值的变化较缓慢。 图像分割算法众多,分类方式也有多种。 基于边界的分割技术:在区域之间的边界上一般具有某种不连续性,可以 是颜色,灰度,或者像素的其他属性,这种技术通过对目标边界的检测来实现 1 0 图像的分割。边界蕴含了丰富的内在信息( 如方向,阶跃,形状等) 是图像识 别中重要的图像特征之一。从本质上说,图像边界是图像局部特性不连续性( 灰 度突变,颜色突变,纹理结构突变等) 的反映,它标志着一个区域的终结和另 一个区域的开始。目前常用的基于边界的分割技术包括边缘算子法,模板匹配 法,边界跟踪法,曲线拟合法等。 基于区域的分割技术:根据预先定义像素属性,可以将图像分成各个不同 的区域,不同区域之间的像素属性不同,同一区域的像素属性相似,这种分割 技术正是根据这一点,对目标区域进行检测,来实现分割。目前主要的基于区 域分割技术主要包括阈值化方法,特征空间聚类方法,区域生长方法,分裂合 并方法,比较新颖的方法是矢量量化法。 基于数学形态学的分割技术:简化图像数据,保持它们的基本形状特性, 并除去不相干的结构。它的基本运算有四个:膨胀,腐蚀,开启和闭合。基于 这些基本运算还可推导和组合成各种数学形态学使用算法,对某些强噪声图 像,可能取得好的效果: 基于小波分析和变换的分割技术,小波变换是空间( 时间) 和频率的局域 变换,能有效地从信号中提取信息,它通过伸缩和平移等运算功能对函数或信 号进行多尺度细化分析,解决了傅里叶变换不能解决的许多困难问题,因而被 誉为“数学显微镜”。小波作为一种多尺度多通道分析工具,比较适合对图像 进行多尺度的边缘检测。多尺度一般指空间尺度,它常与多分辨率的方法相联 系。一般认为在较大尺度下能较可靠地消除误检,但在大尺度下对边缘的定位 不准确。相反,在较小尺度下对真正边缘点的定位比较准确,但在小尺度下误 检的比例会增加。所以可以考虑在较大尺度下检测到真正的边缘点,再在较小 尺度下对真正边缘点进行较精确的定位。 2 1 2 图像分割的难点1 1 3 1 尽管人们在图像分割方面做了许多研究工作,由于尚无通用的分割理论, 现已提出的分割算法大都是针对具体问题的,并没有一种适合于所有图像的通 用分割算法。另一方面,给定一个实际图像分析问题要选择适用的分割算法也 没有一个统一的标准,而只是在算法本身的性能上进行了刻画。 图像分割之所以困难,主要体现在以下几个典型问题上: ( 1 ) 由于噪声的影响或者其它物体的遮挡,图像的连通性被破坏,仅用灰 度差闽值难以进行分割。 ( 2 ) 我们利用目标特征灰度统计量来确定分割阈值,但这种先验信息并不 完全可靠,因为统计量必须是在已知区域边界的情况下计算出来的。 ( 3 ) 在复杂的环境中,或称为非结构性场景的分割问题,是一个很难解决 的问题,其灰度信息不足以对图像进行分割,基于形状和运动的块分割也不足 以给出准确的分割结果。 任何分割都要具有先验知识,要根据分割目标的特征进行分割。字 符具有笔划特征,即具有横向、竖向和斜向边缘,而多尺度小波分解可 将信号分解为近似分量和横向、竖向、斜向细节分量,因此本文利用多 尺度小波分解来提取字符边缘。数学形态学是一种非线性滤波方法,其特 点是能将复杂的形状进行分解,并将有意义的形状分量从无用的信息中提取出 来。本文充分利用数学形态学这一特性来连接字符边缘并加以填充进行细定 位。 2 2 小渡函数简介1 4 i 1 s l 小波分析是一种窗口大小( 即窗口面积) 固定但其形状可改变,时间和频 率窗都可改变的时频局部化分析方法。即在低频部分具有较高的频率分辨率和 较低的时间分辨率,在高频部分具有较高的时问分辨率和较低的频率分辨率, 使小波变换具有对信号的自适应性。 小波变换最早由法国地球物理学家m o r l e t 于2 0 世纪8 0 年代初在分 析地球物理信号时作为一种信号分析的数学工具提出来的。经过近2 0 年 的发展,小波变换不仅在理论和方法上取得了突破性进展,而且已经和必 将广泛地应用于信号处理,图像处理,量子理论,语音识别和合成,机器视觉, 机械故障与监控等等科技领域。原则上讲,传统上使用傅立叶分析的地方,都 可以用小波分析取代。小波分析优于傅立叶分析的地方是,它在时域和频域同 时具有良好的局部化性质。 设( f ) 为平方可积函数,即妒( f ) r ( 胄) ,若其傅立叶变换满足条件 q = r 铷 0 ( 2 2 ) 式中:d 代表伸缩因子:6 代表平移因子:( f ) 为小波母函数。 f ,( ,) 经 过平移和伸缩变换后得到f 上堡1 ,即可以生成不同的频率成分。;f ,。o ) 为 “ 依赖于参数a ,6 的小波函数。 对于离散的情况,小波序列为: v ,j ( f ) = 2 - ) 2 妒( 2 一f 一七) j ,k z ( 2 - 3 ) 1 2 对于任意的函数f ( t ) l 2 ( r ) ,其连续小波函数为: w s ( 口,6 ) : 爿日r ,z p o ) ( t - b ) d t ( 2 4 ) ; n 2 2 1m a lia t 塔式分解 m a l l a t 算法是小波变换的快速算法,在小波分析中的地位相当于快速傅立 叶变换算法在经典傅立叶分析中的地位,它的问世使小波分析的实际意义才被 人们所重视。m a l l a t 小波快速算法是建立在多分辨率分析概念基础之上的。 1 9 8 8 年s m a l l a t 在构造正交小波基时提出了多分辨率分析的概念,从空间的 概念上形象地说明了小波的多分辩特性,将此之前的所有正交小波基的构造法 统一起来,给出了正交小波的构造方法以及正交小波变换的快速算法,即 m a l l a t 小波快速算法。 关于多分辩分析的理解,我们在这里以一个三层的分解进行说明,其小波 分解树如图2 1 所示: 图2 1 三层多分辩分析树结构图 从图中可以明显看出,多分辩分析只是对低频部分进行进一步的分解, 而高频部分则不予以考虑。分解具有关系: s u m = 4 + 岛+ d 2 + d l ( 2 - 5 ) 另外需要说明的是,这里是以一个层分解进行说明的,如果要进一步分解, 则可以把低频部分4 分解成次低频部分一。和次高频部分d 。,以下依次类 推。 小波分解的最终目的是力图构造一个在频率上高度逼近e ( r ) 空间的正交 小波基,这些频率分辨率不同的正交小波基相当于带宽各异的带通滤波器。从 上面的多分辨率数型结构图可以看出,多分辨

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论