印刷体汉字识别技术的研究英文文献翻译.doc

模切机总体和传动部分设计(全套含CAD图纸)

收藏

压缩包内文档预览:
预览图 预览图 预览图 预览图 预览图 预览图 预览图
编号:998927    类型:共享资源    大小:5.71MB    格式:RAR    上传时间:2017-01-24 上传人:机****料 IP属地:河南
30
积分
关 键 词:
模切机 总体 整体 以及 传动 部分 部份 设计 全套 cad 图纸
资源描述:

 

内容简介:
汉字识别及其应用程序的特征点法 张 炘 中,闫昌德,刘秀英 北京信息科技大学中文信息处理研究中心 收于 1988 年 12 月 3 日,修订于 1989 年 3 月 27 日 摘要 一种新的汉字识别技术方法被提议了。它是基于所谓的汉字特征点。我们使用的特征点包括那些在一个字符的笔画,即,端点,转折点,分叉点和交叉点,还有汉字背景上的关键点。这种方法不同以往是因为它结合笔画与那些背景上的特征点一击它利用特征点直接识别汉字。一个汉字识别系统是基于特征点已发展完成的自顶向下动态匹配。这个系统不仅能在 寸上以高 识别率识别 6763 个汉字的歌曲印刷体样品,而且,一般的印刷书籍,杂志和文件都能以一个满意的,高速的识别率识别。 随着中文信息处理技术的发展,手动和自动处理输入中文信息之间的矛盾,中文信息输出开始日益尖锐。事实上,中文的信息输入已经成为整个处理系统的“瓶颈”。这个矛盾可以用基于识别模式和人工智能原理的汉字识别技术来很好地解决。 印刷体汉字的识别已经被广泛的研究,几个实验系统也已经在最近几年内完成。随着中国信息库和办公自动化的发展,我们在一个开发使用的印刷体汉字识别系统的时期,一个可以识别 3000印刷体汉字的高性能的系统。识别率是不需要很高的,但我们必须注重它的实用性。换句话说,通过一个小的硬件来实现微型计算机,该系统通常可以识别具有足够的干扰吸收能力和可简单连接到中文信息处理系统的实用五号宋体字体的汉字。 统计和结构的方法在汉字识别中具有不同的特性(参见图 1)。统计方法适用于印刷体汉字识别,因为印刷体汉字字符变形太小。如果我们根据汉字的结构特性来结合结构法来提取高信息密度特征的识别,我们不仅可以减少所需内存,运行在微型计算机的识别系统,而且也增加了多字体的印刷字体货甚至用它来识别手写字体。 基于上述原则,一种基于所谓的汉字特征点的汉字识别方法被提出了。这种方法是基于我们对有限的手写印刷体汉字识别的研究。 统计 结构 一个字符的各种变形 大量的字符 字典生成 合适的 不合适的 图 1 统计和结构法的性能 汉字识别的核心是特征选择。特征选择的原则如下。 a.,特征与字体的变化,笔画的宽度,位置和书写顺序没有关系。 b.需要很少的内存 。 汉字是一种直线特征,包括最基本的直线笔画。大多数的二值化汉字字模信息都是集中在一个字符的骨架。此外,一个字符的骨架信息集中在一些特征点,如,笔画特征点(见图 2)。一旦笔画特征点是肯定的,汉字的壁画和结构可以根据一些连接规则决定。 图 2. 汉字骨架和笔画特征点 图 一个汉字的背景也有许多可以把一个字符区从另一个字符中国区分出来的信息。所以,如果我们选择背 景中的一些点(即后台关键点),我们可以更有效的区分每个字符。事实上,选择一些少笔画字符中的关键背景点是很重要的,因为少笔画字符和另一些字符主要的独特的信息是在于他们的背景。 定义 s 是一个包括端点 D,转折点 Z,分叉点 Q 和交叉点 J 的点设置。 D, Z, Q, J 。端点是笔画中点行程的开始或结束,并不连接其他的点。转折点是笔画中笔画方向变化明显的点。分叉点是一个笔画的开端或终点在另一个笔画中间的两个笔画的交叉点。交叉点是两个比划在中间相交的那个点。 定义 是能区分基于画画特征点 字符的点。 定义 的集合 T。 T= D, Z, Q, J, B 。 汉字特征点如图 3 所见。 很据我们在对有限的手写体汉字识别的研究,我们认为汉字笔画的类型和数量,系统组件的相对位置,每个笔画组成的相对位置和连接关系是汉字字形结构的基本特征。这是本研究的继承和发展,我们使用特征点来表示汉字字形。事实上,汉字笔画特征点反映汉字的基本特征以及集中汉字结构的主要信息。端点与转折点确定一个汉字笔画的 位置与形状。分叉点和交叉点确定不同笔画 间的连接关系。关键背景点能区别不被笔画特征点辨别的的相似笔画字符。 由于特征点是由一个汉字的基本结构决定的,各种字体的印刷字的关键点(仿宋体,楷体,黑体等),甚至是有限的手写体字符都变化的很少。事实上,分叉点,交叉点和关键背景点都不会变化。原则上,我们可以使用特征点来识别多字体的印刷体甚至是有限的手写体汉字,即,使用一种方法来同时识别印刷体和手写体汉字。 特征点所需要的内存是唯一一个百分之十的二值化汉字矩阵所需要的。换句话说,如果我们使用特征点来表示汉字,结构信息的损失会很小,但内存需要减少十倍。事实上,特 征点是汉字图形的最佳结构表达。识别率可以提高,内存需要可以减少更多,并且识别系统可以运行在采用特征点法的微型计算机上。 汉字特征点反映汉字的结构特征。汉字的非结构信息(笔画宽度,字符位置和小角度旋转等 )在特征点上的影响小于它在统计特征上。因此干扰吸收能力和识别率得到了提高。 利用特征点识别汉字的一般方法是,首先,细化字符,第二,检测笔画特征点,第三,连接特征点使创建线条,子笔画和笔画,然后根据笔画方向,长度和其他特征来识别字符。另一种方法是根据字笔画方向,数量和其他从字符背景中提取出来的的特征来识别汉字。我 们根据特征点自己的信息(点的类型,数量和位置等)结合笔画特征点与关键背景点来识别汉字。 如果 T 是汉字特征的表达, 其中一个特征点, k 是特征点的数量, 特征点 类型(端点 D,转折点 Z,分叉点 Q,交叉点 J 和关键背景点 B), 对协调在字符矩阵和 的特征点 他属性的设置,然后我们有 T=k= 1, 2, ., K, (k, ). (1) 因为特征点需 要的内存较少,所以我们可以使用自顶向下的匹配方法。也就是说,我们不仅可以使用一般的自底向上的方法首先提取位置字符的特征点,然后搭配词典,而且也可以使用自上而下的方法首先在字典中存储所有的汉字特征点,然后配以动态未知字符。不同的方法有不同的性质。底部匹配方法的优点是,它具有对印刷体汉字甚至是手写体汉字广泛的适用性,但不能高速以及高准确率的提取特征点。自顶向下的匹配方法的优点是,它不是必须要在识别的时候提取特征点。如果存储在字典中的特征点信息简单,那么识别速度会很快。但这种方法不能完全吸收字符图形变形,它只适用 于单字体的印刷体汉字识别。 ( 1)候选字符选择如下。 c(i, j)和词典特征点 间的距离 Q 是一个常数。如果我们在 4矩阵中匹配点, Q 是 4 2 。 输入字符 c( c, j)和词典特征点的相似性 C 是 特征点的重量。 候选字符是 c e( 0 e 1)的字符。 (2)字符识别的特征如下。 B( B = 那么此字符是可识别的字符。如果不是,那么 ,转折点 Z,分叉点 Q,端点 D 和关键背景点 B。 若输入字符不满足 a 或 b 将是无效字符。 通过提取特征点创建一个多维度特征向量 T。 ( 1) K 是总 的特征点的数目。 ( 2) 端点,转折点,分叉点 ,交叉点和关键背景点分别是 ( 3) 布在四个象限中如图 4 所示。 图 折点,分叉点,交叉点和关键背景点的分布。 ( 4)其他属性的交叉和分叉点是 , 们有 输入字符的特征向量 T 和标准字典的特征向量 间的距离是 l=1, 2, . L L 是总识别字符数。 如果 那么字符的 是识别结果( 恒定的)。 统 我们根据原理描述特征点方法的汉字识别。但它的实际应用性能仍然是未知的。因此,我们设计了一个基于自上而下的特征点东派匹配印刷体汉字文本识别系统。该系统可以扫描文档的第一个汉字,理解它的文档,进而认识汉字文本。识别结果可以显示和打印。拒绝和错误的字符可以通过编辑来修正。 印刷体汉字文本识别系统如图 5 所示。 图 ( 1) 硬件配置 为了降低识别系统的成本,我们的系统建立在微机 C/时钟频率为 6。图像输入扫描仪是床型理光 的最大扫描面积 216 297大的分辨率为300 及扫描时间约 30 秒每页。 ( 2) 软件配置 本系统的软件包括识别程序和应用程序。 a. 扫描模块:控制扫描仪扫描汉字文档并且文档图像到计算机主机。 b. 二值化模块:二值化图像输入。 c. 文档理解模块:单独的汉字文本来自输入文档图像和连接相同标题下的不同项目。 d. 线段模块:单独的字符线。 e. 分词模块:在一个线中分离字符。 f. 规范模块:规范大小不同的字符和笔画宽度。 g. 分类模块:将未知字符分类为 200 类。 h. 识别模块:最后识别未知字符。 i. 创建字典模块:创建分类和给定的汉 字图形的识别字典。 j. 编辑模块:编辑,显示,打印以及记录识别结果。 k. 价值模块:分析和记录汉字的图形,特征,分类,距离 似性 C 和其他信息。 l. 学习模块:修改字典使在人的指导下的识别率增加。 测试结果 识别系统已与印刷样品,一般的出版书籍,杂志和文件测试。结果如下。 ( 1) 印刷标准样品, 3 号宋体字体( 6763 字符 已知样本 未知样本 识别率 识别速度 6 字符 /秒 6 字符 /秒 ( 2)一般的 5 号宋体印刷的书籍和杂志( 识别率 识别速度 6 字符 /秒 ( 3) 一般的 3 号仿宋体打印文档( 。 识别率 识别速度 符 /秒 单一的字体需要的内存是关于 6763 字符是 320755 字或 470763 字。 ( 1) 这一独特的识别方法体现了汉字的基本结构特征。 ( 2) 该系统不同于以往。它是第一个在中国的可以识别一般印刷书籍和 5 号宋体字体的汉字杂志的系统。它的平均识别率为百分之 别速度是每秒 6 个字符对于一般印刷的书籍和杂志。 ( 3) 一个完整的汉字识别系统拥有自动文档理解,字符识别,拒绝和错误校正及字符,输出合成语音开发完整。它是第一个可以做文件的理解和基于中国输出合成语音编辑的系统。 ( 4) 该系统由一个总的图像扫描仪和 C/成。它可以很容易地被推广。 参考 1 梁涌 汉字识别系统的研究与实
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
提示  人人文库网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
关于本文
本文标题:模切机总体和传动部分设计(全套含CAD图纸)
链接地址:https://www.renrendoc.com/p-998927.html

官方联系方式

2:不支持迅雷下载,请使用浏览器下载   
3:不支持QQ浏览器下载,请用其他浏览器   
4:下载后的文档和图纸-无水印   
5:文档经过压缩,下载后原文更清晰   
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

网站客服QQ:2881952447     

copyright@ 2020-2025  renrendoc.com 人人文库版权所有   联系电话:400-852-1180

备案号:蜀ICP备2022000484号-2       经营许可证: 川B2-20220663       公网安备川公网安备: 51019002004831号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知人人文库网,我们立即给予删除!