




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
汉字识别及其应用程序的特征点法张炘中,闫昌德,刘秀英北京信息科技大学中文信息处理研究中心收于1988年12月3日,修订于1989年3月27日摘要 一种新的汉字识别技术方法被提议了。它是基于所谓的汉字特征点。我们使用的特征点包括那些在一个字符的笔画,即,端点,转折点,分叉点和交叉点,还有汉字背景上的关键点。这种方法不同以往是因为它结合笔画与那些背景上的特征点一击它利用特征点直接识别汉字。一个汉字识别系统是基于特征点已发展完成的自顶向下动态匹配。这个系统不仅能在5.55.5mm尺寸上以高识别率识别6763个汉字的歌曲印刷体样品,而且,一般的印刷书籍,杂志和文件都能以一个满意的,高速的识别率识别。1. 介绍随着中文信息处理技术的发展,手动和自动处理输入中文信息之间的矛盾,中文信息输出开始日益尖锐。事实上,中文的信息输入已经成为整个处理系统的“瓶颈”。这个矛盾可以用基于识别模式和人工智能原理的汉字识别技术来很好地解决。印刷体汉字的识别已经被广泛的研究,几个实验系统也已经在最近几年内完成。随着中国信息库和办公自动化的发展,我们在一个开发使用的印刷体汉字识别系统的时期,一个可以识别3000-7000个印刷体汉字的高性能的系统。识别率是不需要很高的,但我们必须注重它的实用性。换句话说,通过一个小的硬件来实现微型计算机,该系统通常可以识别具有足够的干扰吸收能力和可简单连接到中文信息处理系统的实用五号宋体字体的汉字。统计和结构的方法在汉字识别中具有不同的特性(参见图1)。统计方法适用于印刷体汉字识别,因为印刷体汉字字符变形太小。如果我们根据汉字的结构特性来结合结构法来提取高信息密度特征的识别,我们不仅可以减少所需内存,运行在微型计算机的识别系统,而且也增加了多字体的印刷字体货甚至用它来识别手写字体。基于上述原则,一种基于所谓的汉字特征点的汉字识别方法被提出了。这种方法是基于我们对有限的手写印刷体汉字识别的研究。一个字符的各种变形统计大量的字符结构字典生成 合适的 不合适的图1 统计和结构法的性能2. 汉字特征点 汉字识别的核心是特征选择。特征选择的原则如下。a.特征应反映汉字结构的基本属性,即,特征与字体的变化,笔画的宽度,位置和书写顺序没有关系。 b.特征应该是简单的,仅需要很少的内存。 c.特征应该易于提取和学习。 d.不同的字符应该有不同的特征。汉字是一种直线特征,包括最基本的直线笔画。大多数的二值化汉字字模信息都是集中在一个字符的骨架。此外,一个字符的骨架信息集中在一些特征点,如,笔画特征点(见图2)。一旦笔画特征点是肯定的,汉字的壁画和结构可以根据一些连接规则决定。 图2. 汉字骨架和笔画特征点 图3.汉字特征点一个汉字的背景也有许多可以把一个字符区从另一个字符中国区分出来的信息。所以,如果我们选择背景中的一些点(即后台关键点),我们可以更有效的区分每个字符。事实上,选择一些少笔画字符中的关键背景点是很重要的,因为少笔画字符和另一些字符主要的独特的信息是在于他们的背景。定义1.汉字的笔画特征点设置Ts是一个包括端点D,转折点Z,分叉点Q和交叉点J的点设置。Ts = D, Z, Q, J 。端点是笔画中点行程的开始或结束,并不连接其他的点。转折点是笔画中笔画方向变化明显的点。分叉点是一个笔画的开端或终点在另一个笔画中间的两个笔画的交叉点。交叉点是两个比划在中间相交的那个点。定义2.关键背景特征点B是能区分基于画画特征点Ts的字符的点。定义3.汉字特征点设置一个包括笔画特征点和背景关键点B的集合T。T= D, Z, Q, J, B 。汉字特征点如图3所见。很据我们在对有限的手写体汉字识别的研究,我们认为汉字笔画的类型和数量,系统组件的相对位置,每个笔画组成的相对位置和连接关系是汉字字形结构的基本特征。这是本研究的继承和发展,我们使用特征点来表示汉字字形。事实上,汉字笔画特征点反映汉字的基本特征以及集中汉字结构的主要信息。端点与转折点确定一个汉字笔画的位置与形状。分叉点和交叉点确定不同笔画间的连接关系。关键背景点能区别不被笔画特征点辨别的的相似笔画字符。由于特征点是由一个汉字的基本结构决定的,各种字体的印刷字的关键点(仿宋体,楷体,黑体等),甚至是有限的手写体字符都变化的很少。事实上,分叉点,交叉点和关键背景点都不会变化。原则上,我们可以使用特征点来识别多字体的印刷体甚至是有限的手写体汉字,即,使用一种方法来同时识别印刷体和手写体汉字。特征点所需要的内存是唯一一个百分之十的二值化汉字矩阵所需要的。换句话说,如果我们使用特征点来表示汉字,结构信息的损失会很小,但内存需要减少十倍。事实上,特征点是汉字图形的最佳结构表达。识别率可以提高,内存需要可以减少更多,并且识别系统可以运行在采用特征点法的微型计算机上。汉字特征点反映汉字的结构特征。汉字的非结构信息(笔画宽度,字符位置和小角度旋转等)在特征点上的影响小于它在统计特征上。因此干扰吸收能力和识别率得到了提高。利用特征点识别汉字的一般方法是,首先,细化字符,第二,检测笔画特征点,第三,连接特征点使创建线条,子笔画和笔画,然后根据笔画方向,长度和其他特征来识别字符。另一种方法是根据字笔画方向,数量和其他从字符背景中提取出来的的特征来识别汉字。我们根据特征点自己的信息(点的类型,数量和位置等)结合笔画特征点与关键背景点来识别汉字。如果T是汉字特征的表达,Tk是其中一个特征点,k是特征点的数量,Sk是特征点Tk的类型(端点D,转折点Z,分叉点Q,交叉点J和关键背景点B),Xk,Yk是对协调在字符矩阵和Pk中的特征点Tk其他属性的设置,然后我们有 T=Tk k= 1, 2, ., K, Tk =(Sk,Xk, Yk, Pk ). (1) 3.两种匹配方法 因为特征点需要的内存较少,所以我们可以使用自顶向下的匹配方法。也就是说,我们不仅可以使用一般的自底向上的方法首先提取位置字符的特征点,然后搭配词典,而且也可以使用自上而下的方法首先在字典中存储所有的汉字特征点,然后配以动态未知字符。不同的方法有不同的性质。底部匹配方法的优点是,它具有对印刷体汉字甚至是手写体汉字广泛的适用性,但不能高速以及高准确率的提取特征点。自顶向下的匹配方法的优点是,它不是必须要在识别的时候提取特征点。如果存储在字典中的特征点信息简单,那么识别速度会很快。但这种方法不能完全吸收字符图形变形,它只适用于单字体的印刷体汉字识别。1.自上而下的动态匹配识别(1)候选字符选择如下。A.输入字符矩阵c(i, j)和词典特征点Tk之间的距离Dk是 Q是一个常数。如果我们在4x4点矩阵中匹配点,Q是4。输入字符c(c,j)和词典特征点的相似性C是 B.Wk是特征点的重量。 候选字符是c e(0e1)的字符。(2) 字符识别的特征如下。a.如果这是唯一的一个候选字符并且C B(B = 0.9),那么此字符是可识别的字符。如果不是,那么b.匹配输入字符矩阵中每个候选字符的交叉点J,转折点Z,分叉点Q,端点D和关键背景点B。若输入字符不满足a或b将是无效字符。2.底部匹配识别通过提取特征点创建一个多维度特征向量T。(1) K是总的特征点的数目。(2) 端点,转折点,分叉点 ,交叉点和关键背景点分别是Kd,Kz,Kq,Kj和Kb。(3) Kd,Kz,Kq,Kj和Kb分布在四个象限中如图4所示。图4.四个象限中端点,转折点,分叉点,交叉点和关键背景点的分布。(4)其他属性的交叉和分叉点是P1,P2,Pw。我们有 输入字符的特征向量T和标准字典的特征向量GL之间的距离是l=1, 2, . L L是总识别字符数。 如果 那么字符的Io就是识别结果(P1和P2是恒定的)。4. 印刷体汉字识别系统我们根据原理描述特征点方法的汉字识别。但它的实际应用性能仍然是未知的。因此,我们设计了一个基于自上而下的特征点东派匹配印刷体汉字文本识别系统。该系统可以扫描文档的第一个汉字,理解它的文档,进而认识汉字文本。识别结果可以显示和打印。拒绝和错误的字符可以通过编辑来修正。4.1.系统配置印刷体汉字文本识别系统如图5所示。 图5.印刷体汉字文本识别系统(1) 硬件配置 为了降低识别系统的成本,我们的系统建立在微机IBM PC/AT(主时钟频率为6MHz)上。图像输入扫描仪是床型理光IS-300,它的最大扫描面积216297mm,最大的分辨率为300 dpi,以及扫描时间约30秒每页。(2) 软件配置 本系统的软件包括识别程序和应用程序。a. 扫描模块:控制扫描仪扫描汉字文档并且文档图像到计算机主机。b. 二值化模块:二值化图像输入。c. 文档理解模块:单独的汉字文本来自输入文档图像和连接相同标题下的不同项目。d. 线段模块:单独的字符线。e. 分词模块:在一个线中分离字符。f. 规范模块:规范大小不同的字符和笔画宽度。g. 分类模块:将未知字符分类为200类。h. 识别模块:最后识别未知字符。i. 创建字典模块:创建分类和给定的汉字图形的识别字典。j. 编辑模块:编辑,显示,打印以及记录识别结果。k. 价值模块:分析和记录汉字的图形,特征,分类,距离Dk,相似性C和其他信息。l. 学习模块:修改字典使在人的指导下的识别率增加。 4.2. 测试结果识别系统已与印刷样品,一般的出版书籍,杂志和文件测试。结果如下。(1) 印刷标准样品,3号宋体字体(5.65.6mm) 6763字符已知样本未知样本识别率 99.6%99.6%识别速度6字符/秒6字符/秒(2)一般的5号宋体印刷的书籍和杂志(3.753.75mm)。 识别率 95.2% 识别速度 6字符/秒(3) 一般的3号仿宋体打印文档(5.65.6mm)。 识别率 97.8% 识别速度 4.9字符/秒单一的字体需要的内存是关于6763字符是320KB/3755字或470kb/6763字。4.3.系统性能(1) 这一独特的识别方法体现了汉字的基本结构特征。(2) 该系统不同于以往。它是第一个在中国的可以识别一般印刷书籍和5号宋体字体的汉字杂志的系统。它的平均识别率为百分之95.2,识别速度是每秒6个字符对于一般印刷的书籍和杂志。(3) 一个完整的汉字识别系统拥有自动文档理解,字符识别,拒绝和错误校正及字符,输出合成语音开发完整。它是第一个可以做文件的理解和基于中国输出合成语音编辑的系统。(4) 该系统由一个总的图像扫描仪和IBM PC/AT组成。它可以很容易地被推广。参考1 梁涌.印刷体汉字识别系统的研究与实现D:(硕士学位论文).西安:西北工业大学,2006.2 金连文.手写体汉字识别的研究D:(博士学位论文).广州:华南理工大学,1996.3 倪桂博.印刷体文字识别技术的研究M.河北:华北电力大学,2008.4 苏金明、王永利,MATLAB图形图像M.北京:电子
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年内蒙古赤峰市高一年级学年联考试题生物+答案
- 汽车电气装调工应急处置分析及对策
- 海绵钛还原蒸馏工岗位实习报告
- 调车区长职业技能模拟试卷含答案
- 药物微生物检定员公司招聘笔试题库及答案
- 选品员基础技能培训手册
- 无人机驾驶员安全教育培训手册
- 工业车辆维修工安全技术操作规程
- 小学生详略得当课件
- 五年级数学(小数除法)计算题专项练习及答案
- 甘肃低空经济政策
- 介入室医院感染管理课件
- 学堂在线 大学生国家安全教育 期末考试答案
- 碳化硅培训课件
- 2025年公需科目考试试卷(含答案)
- 2024年北京市海淀区招聘社区工作者考试真题
- 交通信号控制系统检验批质量验收记录表
- 四大经典之温病
- 24kV环网柜技术规范
- 产品质量保证大纲
- 初中物理总复习笔记
评论
0/150
提交评论