


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
计算机仿真2007年 12月第 24 卷第 12 期文章编号 : 1006 - 9348 ( 2007 ) 12 - 0208 - 03英文字符特征提取系统庞东虎 ,金伟杰(同济大学电子与信息工程学院 ,上海 201804 )摘要 :英文字符识别是模式识别的一个重要分支 ,具有广泛的应用领域 。字符识别主要包括文档切分 、单词切分 、字符识别及 后处理几部分 。文中描述的是英文字符识别系统实现了从图像扫描到得到识别结果的全过程 , 而字符特征提取是文本的重 点内容 。以五十二个英文字符为研究对象 ,具体包括了图像预处理 、特征提取 、建立模板 、分类器设计 、后处理等步骤 。文章对 ocr 领域中应用比较广泛的网格特征 、外围特征 、穿越特征等特征和几种距离分类器分别进行比较分析 , 并进行大量的实 验 。实验结果表明识别准确率和识别处理时间方面具有良好性能 。关键词 : 字符识别 ;特征提取 ;整体识别中图分类号 : tp31714文献标识码 : ben g l ish c ha ra c ter fea ture ex tra c t ionpan g dong - hu, j in w e i - jie( co llege of e lec tron ic s and info rm a tic s, tongji u n ive rsity, shangha i 201804 , ch ina)a bstrac t: english cha rac te r recogn ition is an impo rtan t b ranch of p a tte rn recogn ition, and it is wo rth studying. th is system con sists of docum en t segm en ta tion, wo rd segm en ta tion, cha rac te r recogn ition and po st -p roce ssing. th is system imp lem en ts th is who le p roce ss from im age scann ing to ge tting the re su lt of the docum en ts recogn ition. fea tu re extrac tion is a p rim a ry con ten t of the system , and its re sea rch ob jec t is twen ty six cap ita l le tte rs and twen ty six lowe rca se s. cha rac te r recogn ition is con sisted of im age p rep roce ssing, fea tu re extrac tion, mode l bu ild ing, c la ssifie r de sign and po st - p roce ssing. in the a rtic le, seve ra l fea tu re s w ide ly u sed in ocr , such a s gridd ing fea tu re, th rough fea tu re and d istance c la ssifie rs a re exp la ined and comp a red, then m any exp e rim en ts a re m ade. the re su lts of the te st exp e rim en t show tha t th is system is w ith we ll p e rfo rm ance.keyw o rd s: cha rac te r recogn ition; fea tu re extrac tion; globa l cha rac te r recogn ition1引言我国早就已经开始进行字符识别的研究 ,然而与国外相 比 ,我国智能识别输入的普及和应用 , 在很长一段时间里都 不尽如人意 。例如 ocr 技术 1 ,国外在金融 、保险 、税务等领 域的应用至少有 15 年的历史 ,而与此对应的是 ,国内相关行 业对 ocr产品和技术的应用最近几年才刚刚起步 。在信息时 代的今天 ,以 ocr、手写 、语音等技术为核心的识别技术 , 以 解决信息输入问题为目标 ,已经衍生出了众多的技术 、产品 、 市场 、应用和服务 ,并有望形成一个庞大 、完整而且不断发展 的“字符智能识别产业 ”。而这一切的一切都是靠高水准的识 别率来支持的 ,本文就是运用相对高的识别率来完成的 。2字符识别研究现状在目前字符识别领域 ,根据识别字符所采用具体特征的 不同便衍生出了不同的识别技术 。通常 , 根据不同的技术策略 ,识别方法可以分为如下 3类 2 :统计特征字符识别技术 、结构字符识别技术和基于神经网络的识别技术 。统计特征字符识别技术一般选取同一类字符中共有的 、相对稳定的并且分类性能好的统计特征作为特征向量 。常用的统计特征有字符二维平面的位置特征 、字符在水平或者垂 直方向投影的直方图特征 、矩特征和字符经过频域变换或其 它形式变换后的特征等 。基于统计特征的字符识别技术对于形近字符区分能力弱 ,因此 , 通常 应用于字符的粗分类 。对于识别字符 集 比 较 小 、输入图像质 量比较高的图片 (例 如打印的数字字符集 )也可以担当主要的识别任务 。收稿日期 : 2007 - 08 - 11 修回日期 : 2007 - 10 - 05征 、网格特征等 。4. 1 穿越特征穿越特征是从水平和竖直两个方向分别计算特征 , 首先3英文字符特征提取系统图像预处理字符图像的预处理是字符识别前的一个重要步骤 3 ,其 主要功能有两点 :消除字符图像中的噪声 , 修正字符图像断 线 、粘连现象 ; 通过各种线性 、非线性归一化方法 , 使变换后 的图像相对稳定 ,便于识别 。3. 1 字符图像去噪字符图像的噪声大体可分为两类 : 第一类是白色背景下 的黑点噪声 。该类噪声如呈孤立的黑象素 , 则对字符的结构 没有明显影响 ,但如果导致笔划粘连 , 将改变字符的内部结 构特征 。第二类是黑色前景中的白色噪声 , 该类噪声可能造 成字符笔划的断线 ,或是形成“空心字 ”。如下就是常见的几种图像噪声 :计算水平方向 。将 32行图像平均分成 8个区域 s , s , . , s ,0 1 7每个区域包括四行像素 。计算每行中从白像素到黑像素变化的次数 m = 0, 1, , 63, 根据 m 统计每个区域中各行变化ii次数的总和得到前 8 维特 征 , 其 中 ti =m i , i = 0, 1, , 7; 然后根据前 8维特征利用公式 ( 1 ) 计算 tt = ,pi = 0, 1, , 7( 1 )t7t 3 10 + 0. 5tt = 0将 pi 作为第 9至 16维特征 。这样就得到了从水平方向得到的前 16维特征 。同理从竖直方向统计得到后 16维特征 , 构成 32维穿越特征 。图 1 常见的图像噪声“y”字符为粘连现象 ,该类噪声对字符内部结构有较大影响 ,对于该类字符 ,提取特征的时候应该选取如“外围轮廓 特征 ”等对内部结构不敏感的特征 。“b”字符为断线现象 ,该类噪声对字符的笔划结构有较大影响 ,对于该类字符 ,提取特征的时候应该选取如“模版匹 配 ”等对笔划结构不敏感的特征 。“a”字符为离散的黑象素噪声 ,该类噪声主要造成英文图 2 穿越特征示意图4. 2 外围特征外围特征是一种比较粗的特征 5 , 主要反映字符轮廓特 征 , 在汉字识别中经常将其作为粗分类特征 。距离最小的作为匹配 , 输出与之匹配的字符 。5 实验结果分析5. 1 实验环境在该系统 设 计 测 试 过 程 中 的 环 境 为 一 台 操 作 系 统 为w indow sxp的计算机 , cpu 为 p4,内存 256m。在实验过程中 用到 了 字 母 、单 词 、文 档 三 类 样 本 , 包 括 仿 宋 、a ria l、tim e s n ew rom an、pa la tino和宋体等几种字体 。在特征与分类器的 交叉实验及特征加权系数实验中用到了字母样本 ,这批样本 是杭州信雅达公司提供的 pn t样本 ,将每一类 200个左右的 样本写在一个 pn t为后缀的文件中 ,经过手工整理用于实验 中 。单词样本共 835类 3775个样本 ,是通过扫描文档然后利 用自动收 集 英 文 单 词 的 程 序 将 文 档 中 的 单 词 分 别 保 存 为bm p 图片形式得到的 ,文件名为单词内容加数字 。用单词内容做文件名可以有助于测试系统性能实验中测试识别率 。文 档样本是选取英 文 文 档 通 过 扫 描 仪 扫 描 得 到 的 , 分 辨 率 为300 dp i。5. 2 系统实验结果分析本文中 ,采用的样本是英文印刷体样本 。一共有 52 类样 本 ,每个样本有四个英文样本 。采用基于穿越特征和网格特 征提取字符特征 ,对 52个样本类逐一训练 ,穿越特征提取 32维特征向量 ,网格特征提取 64 维特征向量 。首先对穿越特征和 网 格 特 征 分 别 提 取 特 征 , 形 成 两 个 特 征 库 , 分 别 为 std_modfile. txt、grid_modfile. txt。通过对样本的识别 , 识别率 达到 100% , 对 其 他 的 样 本 的 识 别 分 别 达 到 96184 % 和93105% 。为了提高识别效率 ,通过对两种特征向量进行组合形成96维特征 ,提取特征形成 std_grid_modfile. txt库文件 。利用欧 氏距离作为分类器 。识别率达到 96123% 。图 3 外围特征示意图如图 3所示 , 它的提取过程为 : 首先将 64 3 64 的图像从四个方向分别等 分 成 八 份 , 从 图 像 四 边 分 别 向 对 边 进 行 扫描 , 以自左向右扫描为例 :依次对等分的八块区域 s0 , s1 ,s7每个区域包含八行像素 a8n a8n +7 , n = 0, 1, . 7, 计算各行左边框与首次与字符笔划相遇的位置围成的非字符部分的 面积 pi , i = 0, 1, . 63, 各个区域中的和该块全部面积的比值 作为前八围外围特征 。用同样的方法从其他三个方向各提取 八维特征 , 这样就得到了 32围特征 。网格特征网格特征是基于二值图像进行提取的 ,方法非常简单 ,如图4. 34所示 :将 643 64的图像等分成 64个方块 s0 , s1 , s63 ,每块大小为 83 8,分别计算每个方块中的黑象素个数 ai , i = 0, 1, . 63,则向量 表示 64维的网格特征 。a63参考文献 : 1 赵烨 , 王明磊 , 李新友. ocr 在大数据量文档系统中的应用 j . 计算机应用 , 2000 , 20 (增 ) : 336 - 338.a le ssand ro v incia re lli. a su rvey on o ff - line cu rsive wo rd recogn ition j . pa ttern recogn ition. 2002, (35) : 1433 - 1446. 荆涛 , 王仲. 光 学 字 符 识 别 技 术 与 展 望 j . 计 算 机 工 程.2003 , 29 ( 2 ) : 1 - 2.陈友斌 , 丁晓青 , 吴佑寿. 一种新的用于手写汉字识别的非线性 归一化方法 j . 模式识别与人工智能 , 1998, 11 (3) : 310 - 317. 赵海涛 , 於东军 , 金忠 , 杨静宇. 基于特征选择的字符识别 j . 计算机工程与应用 , 2002 , 21 34 - 35.作者简介 庞东虎 ( 1981 - ) , 男 (汉族 ) , 浙江天台 人 , 研究 生 ,主要研究方向 : 并发程序 , 人工智能 , 模 式识别 , pe tri ne t。金伟杰 ( 1982 - ) ,男 (汉族 ) ,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 合规师初级考试试题及答案
- 2025年金属复合材项目合作计划书
- 火花机考试试题及答案
- 2025年宽频带地震计合作协议书
- 电信5g考试试题及答案
- 2025年access数据库计算机二级试题
- 钳工中级考试试题及答案
- 河南高职考试试题及答案
- 分拣物流考试试题及答案
- 佛山高明转业士官考试试题及答案
- 医院消毒隔离知识培训
- 武装部文职试题及答案
- 警犬培训授课课件
- 2025年四川绵阳交通发展集团有限责任公司招聘笔试参考题库附带答案详解
- 成本控制在质量管理中的策略试题及答案
- 人工智能在药物研发中的辅助作用与潜力
- 作风建设学习教育查摆问题清单及整改措施
- 2025届河北省石家庄第一中学高三下学期二模地理试题及答案
- 2024年山东开放大学招聘考试真题
- PSP问题解决流程分析
- 语文-华大新高考联盟2025届高三3月教学质量测评试题+答案
评论
0/150
提交评论