汉字方向分解网格特征的改进_第1页
汉字方向分解网格特征的改进_第2页
汉字方向分解网格特征的改进_第3页
汉字方向分解网格特征的改进_第4页
汉字方向分解网格特征的改进_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 汉字方向分解网格特征的改进郑志洵杨建刚 浙江大学计算机学院杭州 310027摘 要 在现有的汉字方向分解网格特征基础上 对其分析和改进 提出了一套新的汉字特征方案 首先对原汉字进行轮廓提取在轮廓 汉字上进行有重叠的矩形弹性网格划分 然后对原汉字用边缘检测算子做边缘梯度方向角分解 得到横 竖 撇捺4 个方向的子图像 再把网格应用到这4 个方向的子图像上统计每个网格中的黑像素占这个子图像总像素的比例4个子图像的所有网格的比例值构成的矢量就是汉字的特征使用不依赖于分类器的特征标准比较了新旧方案表明新方案优于旧方案关键词 汉字方向分解网格特征矩形弹性网格 边缘梯度方向角 Improvement in

2、 Directional Decomposition Cellular Feature ofChinese Character ZHENG Zhixun, YANG Jiangang (College of Computer Science, Zhejiang University, Hangzhou 310027 Abstract A new feature of Chinese character based on analyzing and improving the directional decomposition cellular feature of Chinese charac

3、ter is proposed, which uses elastic rectangular mesh with overlap to divide boundary of character into meshes and uses edge gradient angle to decompose the original character into directional sub-patterns. Testing based on a classifier-irrelevant feature measure shows this new feature is better than

4、 the old directional decomposition cellular feature. Key words Directional decomposition cellular feature of Chinese character; Elastic rectangular mesh; Edge gradient angle 计 算 机 工 程 Computer Engineering 第 32 卷 第12期 V ol.32 12 2006年6月June 2006人工智能及识别技术文章编号 1000 3428(200612 020503文献标识码 A 中图分类号TP391.

5、431 概述将纸质媒介上的信息输入计算机最简便的方法就是使用扫描仪扫描进计算机的是图像图像占用的空间大而且查找修改等处理都非常不便传输也要花费大量的时间没有体现出计算机强大的信息处理能力使用脱机汉字识别将扫描进计算机的图像中的汉字识别出来用内码存储可以大大节省了存储空间和传输时间查找修改等处理将更 加方便 汉字特征提取是汉字识别至关重要的一步汉字特征有 两大类统计特征和结构特征 将图像用网格划分统计每个网格中的黑像素占整个图像黑像素之比例整个图像所有网格的比例值组成的矢量就 是图像的黑像素分布特征汉字图像的黑像素分布特征称为 汉字的网格特征为了消除汉字大小位置和扭转的影响 使用矩形弹性网格对汉

6、字划分矩形弹性网格划分用密度均衡原则将汉字分成M ×N的网格水平方向的M份每份的黑像素个数相等垂直方向的N份每份的黑像素个数也相等得到的密度均衡的网格就是全局矩形弹性网格在此基础上在每一个网格中 再进行同样的密度均衡划分得到的就是局部矩形弹性网格这样的划分可以不断地进行下去 每次划分作为一层全局矩形弹性网格是一层矩形弹性网格局部矩形弹性网格是多层矩形弹性网格多层矩形弹性网格能适应汉字局部的位移缩放 扭转等变形网格不可以划分得太多否则汉字划分太细模糊程度减小不利于对不同风格汉字的相容 网格也不能分得太少否则汉字局部特征就会被抹掉了 1然而矩形弹性网格的相邻网格互不相交存在对不同风格的同

7、一汉字划分差异大的缺点可以将其改进引入有重叠的矩形弹性网格汉字方向分解是一种简单有效的结构特征提取方法汉字有横竖撇捺4种基本方向的笔画汉字方向分解就是把一个汉字图像分解成4幅图像每幅图像只含横竖撇捺4个方向的笔画中的一个每个图像称为某方向的子图像方向分解有不同的方法例如合取方向分解2析取方向分解2方向长度分解1边缘检测分解2以及边缘梯度方向角分解3等对它们进行实验根据第3节提出的不依赖于分类器的特征优劣评价标准比较它们的优劣可以得到边缘梯度方向角分解最优用边缘梯度方向角对汉字方向分解先求出笔画的边缘梯度方向角再根据角度将笔画分入不同的子图像中具体做法如下对图像上的每一个像素首先用边缘检测算子卷

8、积求出水平方向和垂直方向的偏导数Dx和Dy arctan(DyDx就是梯度方向角梯度方向角与汉字笔画方向垂直当梯度方向角落在388时此像素分入捺方向当其落在-,88时此像素分入竖方向当其落在-3,88时此像素分入撇方向否则此像素分入横方向3可以使用Prewitt边缘边缘检测算子Dy用图1的算子卷积得到Dx用图2的算子卷积得到4也可以使用Sobel边缘检测算子Dy用图3的算子卷积得到Dx用图4的算子卷积得到4作者简介郑志洵(1981男硕士主研方向智能信息处理模式识别身份验证杨建刚教授博导205206 -1 -1 -1 -1 0 1 0 0 0 -1 0 1 1 1 1 -1 0 1图1 Prew

9、itt 边缘算子1 图2 Prewitt 边缘算子2-1 -2 -1 -1 0 1 0 0 0 -2 0 2 1 2 1 -1 0 1图3 Sobel 边缘算子1 图4 Sobel 边缘算子2可将汉字的这两大类特征结合起来得到汉字方向分解网格特征首先对汉字进行矩形弹性网格划分然后对汉字进行方向分解再把网格应用到其分解出的4个方向的子图像上统计每个网格中的黑像素占这个子图像总像素的比例4个子图像的所有网格的比例值共同构成的矢量为汉字方向分解网格特征2然而汉字内不同粗细的笔画对汉字网格划分有很大影响使用边缘检测算子对汉字做方向分解时一个笔画会产生两个边缘轮廓线下节将对如何对其改进作深入分析2 汉字

10、方向分解网格特征的改汉字方向分解网格特征的改进进 前述的汉字网格特征使用的矩形弹性网格是互斥的任何相邻的网格均不相交如图5中图5(a为全局88矩形弹性网格图5(b为两层矩形弹性网格第1层22第2层2 2 图5(c为两层矩形弹性网格第1层33第2层22(a (b (c图5 矩形弹性网格划分然而手写汉字笔画变形很严重局部笔画有位移不同人写的同一字的同一笔画通过矩形弹性网格划分入不同的网格的可能性很大因此可将矩形弹性网格作改进考虑相邻网格有部分重叠使原来在网格边界的笔画划分入两个网格以减少笔画位移带来的不同风格的同一汉字网格划分的差异具体做法如下在对汉字图像做网格划分时将网格数加倍原来水平方向划分成

11、M 份现在划分成2M 份原来垂直方向划分成N 份现在划分成2N 份此时在水平方向和垂直方向上的两个小网格的位置就是原来互斥的网格位置即4个小网格2×2=4组成的大网格就是原来的一个互斥网格将其在上下左右4个方向上各扩展一个小网格则16个小网格4×4=16组成了一个大网格图像的4边为12个4角为9个图6(b就是在图6(a的3×4互斥网格的基础上划分成6×8网格阴影部分16个小网格组成的大网格就是图6(a灰色网格在上下左右4个方向上各扩展一个小网格形成的其余网格也如此扩展最后得到的仍然为M ×N 个网格但是相邻网格有了重叠因为网格划分的时间复杂度只

12、与图像的像素数和划分的层数有关而与划分的网格数无关而在小网格合并时只需对划分后的小网格做一次遍历网格数远小于图像像素数故此改进的方法复杂度没有增加(a互斥网格划分 (b有重叠的网格划分图6 网格划分在对汉字做网格划分的时候因汉字内部不同的笔画粗细不等在黑像素均衡中会导致粗细笔画的地位不等又考虑到在方向分解得到汉字结构特征的时候使用边缘检测算子得到的实际上是对汉字轮廓的方向分解每个笔画有2条轮廓线分解到子图像后每个笔画能看到2条线如图7图7 边缘梯度方向角分解使用Prewitt 算子因此可以在网格划分时使用轮廓汉字图8因每个笔画都有2条轮廓线减少了不同笔画粗细不等对汉字特征的影响而在方向分解时使

13、用原汉字使网格划分和方向分解实际的对象都是汉字轮廓统一了起来这样增加了汉字轮廓提取的步骤而轮廓提取并不复杂只要对汉字图像的每个像素遍历一次的情况就可把轮廓提取出来 总之行轮廓提取在轮廓汉字上进行有重叠的矩形弹性网格划分然后对原汉字用边缘检测算子做边缘梯度方向角分解得到横竖撇捺4个方向的子图像再把网格应用到这4个方向的子图像上统计每个网格中的黑像素占这个子图像总像素的比例4个子图像的所有网格的比例值共同构成的矢量就是汉字的特征3 新旧方案的优劣比较3.1 不依赖于分类器的特征优劣评价标准如何评价两种特征方案的优劣一般的方法是设计一个分类器即可从训练样本提取出来的特征训练分类器然后用从测试样本提取

14、出来的特征测试以获得识别率识别率高的特征优秀这个方法依赖整个识别过程分类器的结构对其影响很大有可能出现用不同分类器得到的优秀方案不一致特征的优劣应该是不依赖于分类器的下面提出一种不依赖于分类器的特征优劣评价标准什么是优秀的特征同类别的样本提取出的特征尽可能接近不同类别的样本提取出的特征尽可能有大的差异这207 样的特征就能很好地表示出类别间的差异 类别内的共性 这就是好的特征 反之 则不能很好地区分类别就不是好 特征 用样本方差来量度这种差异的大小各个样本的特征 接近 表现为样本方差小 各个样本的特征差异大表现为样本方差大特征一般为矢量标量看成是一维矢量n 个p 维矢量i X (i=1,2 ,

15、n的样本方差为=ni iX Xn S1202|11 其中0X 为样本均值=ni iX nX 101 设总共有m 个类 别每个类别有n 个样 本ji X (j=1,2,m, i=1,2,n是第j 类的第i 个样本设0j X 是第j 类别的样本均值 =ni jij XnX11 用0j X 作第j 类别的特征 (j=1,2,mm 个类别就有m个矢量用这m 个矢量计算的样本方差就是类间方差此值越大表明不同类别之间的特征差异越大 因而此值越大越好 在每一类别中计算这类别所有样本的特征的方差就是类内方差m 类就有m 个方差求它们的平均值就是类内方差 均值 此值越小表明同类别内样本的特征越接近因此值越 小越

16、好 定义类间类内方差比 简称方差比为类间方差除以类 内方差均值 此值越大越好以这个方差比作为特征优劣评 价标准00X 是所有m 类样本均值的平均值=mj j XmX 1001 方差比的数学表达式如下=m j ni j ji mj j X X n m X X m 112012000|11(1|11 在求样本方差的时候 需计算两个矢量的距离的平方 而距离的平方是与矢量的维数有关的是每一维距离的平方 的和 维数越多 求和项越多 方差的值趋于越大 因此 这种方法只适用于比较两种维数相同的特征的优劣 方差比是一般的特征优劣评价方法不仅适用于汉字特 征的比较 但只适用于比较维数相同的矢量特征的优劣 3.2

17、 新旧方案优劣实验比较分析实验样本是3 套手写汉字和 套印刷体汉字每套含国标一级字库3 755 个汉字每个汉字是64×64 点阵图像3套手写汉字分别是3 个不同的作者手写汉字的图像4套印 刷体汉字为宋体 仿宋体 黑体和楷体汉字图像(1 网格划分使用两层矩形弹性网格第1层是2×2网 格第2层是2×2 网格则特征是64 维矢量分别对手写 和印刷体汉字用旧方案提取特征 计算其方差比(2提取对旧方案部分改进的特征使用轮廓汉字划分网 格 使用原汉字做方向分解但仍使用旧方案的互斥矩形弹 性网格称此特征为部分改进 1 计算其方差比(3实验旧方案的部分改进2特征使用有重叠的矩形弹

18、 性网格对原汉字划分 不使用轮廓汉字(4将这两个改进一起使用即实验第3节提出的新特征 方案对手写和印刷体汉字的方差比分别见表1和表 2汉字方向分解使用Prewitt 边缘检测算子表1 手写汉字64维矢量特征各种方案的方差比部分改进部分改进新方案表2 印刷体汉字64维矢量特征各种方案的方差比 旧方案 部分改进部分改进 新方案从表1和表2中可以看到不论是手写汉字还是印刷体汉字两种改进同时运用时的方差比高于单独运用的方差比而且比旧方案高不少 因此新方案比旧方案优秀同时 印刷体汉字的方差比比手写汉字大这是由于印刷体汉字工整变形小这是64维矢量的结论其他维数矢量是否也有这样的结论呢?我们对两层矩形弹性网

19、格第1层是 3×3网格第2层是2×2网格的144维矢量的特征实验结果见表3表4和表2再对全局8×8矩形弹性网格256维矢量的特征实验结果见表5表6汉字方向分解同样使用Prewitt 边缘检测算子表3 手写汉字144维矢量特征各种方案的方差比旧方案部分改进新方案表4 印刷体汉字144维矢量特征各种方案的方差比 旧方案 1.447部分改进1 1.752 部分改进2 1.883 新方案 2.306表5 手写汉字256维矢量特征各种方案的方差比 旧方案 0.965部分改进1 0.949 部分改进2 1.135 新方案 1.140表6 印刷体汉字256维矢量特征各种方案的方

20、差比 旧方案 1.254 部分改进 1 1.487 部分改进 2 1.867 新方案 2.236由表 3 表4和表 5 表6可以得到和表 1表2完全一致的结论进一步说明了新方案确实比旧方案优秀汉字方向分解也可用Sobel 边缘检测算子通过比较方差比可知它们差别很小Prewitt 算子略好一点4 总结在对旧的汉字特征方案分析改进的基础上提出了一套新的方案并用实验验证了其优于旧方案接下来可以进一步研究网格划分时相邻网格重叠的大小对特征的影响找出最佳的重叠大小汉字方向分解的笔画方向角度区间也可(下转第217页217调用外部模块之前需要事先准备一个absdata 对象并 设置好其全部成员变量 外部模块

21、处理结束后返回的也是一个absdata 对象调用程序再根据drawtype 和datatype 决 定如何在视图对象中绘制运算结果3.3 加载过程 在可视语音平台启动时加载外部模块的存放目录下全 部动态链接库文件 然后逐个分析判断它们是否符合前面提到的接口规范如果符合 进一步判断是否存在工作图标 3所示外部模块目录下是 文件系统加载 DLL 是否成功模块中是否存在 对象中的变量建立列表是否还有其他文件外部模块的加载流程所有合法的外部加载成功后可视语音平台根据module_struct 中的depend_name 和 depend_name_next 生成一个依赖关系链表如果一个外部模块所依赖的

22、某一个模块没有加载成功平台将停用该模块最后所有工作图标将组合成为一个长条形位图显示在单独的工具条中并设置好图标与模块之间的对应关系这样用户点击某一个图标后可视语音平台将根据对应关系找到需要执行的外部模块的句柄然后格式化输入的数据调用该模块的module_struct 中的process 函数值得注意的是module_struct 中定义了一个batch 函数接口利用它可以实现某一功能的成批操作例如一个目录下面所有文件的自动切分和基音周期标注4 研究平台的应用大规模的语音语料库已经在语音处理领域得到广泛的应用5在大语料库建设过程中语音的人工和自动标注是关键所在通常情况下语音标注包括语音合成基元的

23、边界设定基音周期点以及韵律信息标记可视语音平台内建支持了一套简易的XML 解释器能够直接输入和输出XML 文本方式的语音标注所有的波形文件加上标注文本构成了大语料库的雏形进一步对这一雏形加以整理建立索引去除冗余和归并重复信息后最终可以得到一个通用性较强的大语料库在自动标注方面可视语音平台包含了一个自动语音切分和基音周期自动估计的模块利用这两个模块所具备的批处理功能可视语音平台能够快速地完成语料库的自动标注过程在人工标注方面友好简单易用的人机界面保证了工作效率使标注人员以较少的时间修正自动标注环节引入的错误实践证明可视语音平台较大地提高了建库的自动化程度有效地缩短了从语句录音到大库合成的处理周期

24、有力地保证了语料库的质量5 结论在语音研究中语音特征的可视化是重要的研究手段由于语音特征的多样性和研究目的的差异性设计一个界面友好接口开放扩展能力良好的研究平台具有重要的实用价值本文设计和建立了一个模块组合式结构的数字语音处理研究平台该平台将数字语音处理分为分析阶段和可视化阶段可视化部分直接集成在平台内部模块中分析功能在外部模块中实现该平台具有良好的伸缩性能够快速地适应不同处理业务的需求它还内建支持了基于XML 格式的标注格式因此能够被直接应用到语料库建设及相关的语音分析领域参考文献1 田 岚, 白树忠. 通用语音处理软件包J. 计算机工程与应用, 1997, 33(7: 61-63.3 Rabiner L R, Schafer R W. Digital Signal Processing of Speech SignalM. New Y

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论