【《基于Hash算法的草书文字识别方法设计案例》5000字】_第1页
【《基于Hash算法的草书文字识别方法设计案例》5000字】_第2页
【《基于Hash算法的草书文字识别方法设计案例》5000字】_第3页
【《基于Hash算法的草书文字识别方法设计案例》5000字】_第4页
【《基于Hash算法的草书文字识别方法设计案例》5000字】_第5页
已阅读5页,还剩14页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于Hash算法的草书文字识别方法设计案例目录TOC\o"1-3"\h\u1463基于Hash算法的草书文字识别方法设计案例 )通过对相似距离S的简化,进行草书字体识别时,待识别图片只需要对每一个文字集进行一次汉明距离的计算,而不是之前需要对每一个文字集中每一个图片计算汉明距离。大大降低了时间复杂度,并且增强算法的可实用性。数据预处理草书字体区别于常规字体,具有较大的复杂度以及较高的自由度,且一般出现在碑文、书法等文物上,大多都存在背景过暗、字体模糊、破损较大等问题,如REF_Ref67693196\h图3.3。为了不影响识别结果,需要将数据集中草书图片在识别之前对图像进行预处理。数据预处理可以将其中不规范的样本进行增强和归一化处理,减少同类汉字之间的差异性,通过消除噪声来解决采集过程中,明暗变化明显、扫描设备产生故障、环境噪声干扰等噪声可能产生差异的情况,并且对数据集中图像进行仿射变化操作来提高图像的多样性。图STYLEREF1\s3.SEQ图\*ARABIC\s13原始数据集“爱”FigureSTYLEREF1\s3SEQFigure\*ARABIC\s13Theoriginaldataset“爱”具体来说,图像预处理主要分为4个步骤。如REF_Ref67693322\h图3.4所示。对数据集中非草书字体图片进行去除。对样本图像进行灰度化处理。确定阈值后对草书文字图像进行二值化处理,去除图像采集中不必要的信息,提高识别的速度和准确性。如果图片中含有水印,对图片进行去水印的操作。图STYLEREF1\s3.SEQ图\*ARABIC\s14图像预处理过程FigureSTYLEREF1\s3SEQFigure\*ARABIC\s14Imagepreprocessingprocess经过图像预处理后的数据集如REF_Ref67693460\h图3.5示。图STYLEREF1\s3.SEQ图\*ARABIC\s15处理后的文字集“爱”FigureSTYLEREF1\s3SEQFigure\*ARABIC\s15Theprocessedfontset"爱"多种哈希算法在草书识别中的应用数据集以及相似距离就绪后,接下来即可进行基于Hash算法的草书文字识别。基于Hash算法的草书文字识别方法流程如REF_Ref67693568\h图3.6所示。输入要识别的草书字体图片。如果图片没有经过预处理,则进行图片预处理。计算图片a与所有文字集的相似距离S。当图片a与文字集Z的相似距离S为最小时,则图片a被识别为Z。图STYLEREF1\s3.SEQ图\*ARABIC\s16基于Hash算法的草书文字识别流程FigureSTYLEREF1\s3SEQFigure\*ARABIC\s16CursivefontrecognitionprocessbasedonHashalgorithm使用Hash计算图像相似度的方式有点在于算法简单,不用构建复杂网络进行训练。对于草书文字识别来说,节省了时间以及资源。接下来介绍对均值哈希(AverageHash)、差异哈希(DifferenceHash)、感知哈希(Perceptualhash)三种基于哈希算法的草书的字体识别方法的研究。均值哈希在草书文字识别的应用均值哈希(AverageHash,AH),均值哈希是三种哈希算法其中最容易的实现且易于理解。均值哈希算法是一种基于低频的平均值的方法。在图片中,高频率提供细节信息,低频率提供结构信息。高清图片中含有大量高频信息,低分辨率图片缺乏细节,但可以较好反应整体结构。从数据集中随机选取一张草书字体图片,选取以下草书字体图片A作为实验字体,如REF_Ref67695177\h图3.7所示。图STYLEREF1\s3.SEQ图\*ARABIC\s17待测草书字体图片FigureSTYLEREF1\s3SEQFigure\*ARABIC\s17Cursivefontpicturetobetested按照REF_Ref67693568\h图3.6所示基于Hash算法的草书文字识别流程,使用均值哈希算法计算出草书字体图片A与部分文字集相似距离,如REF_Ref67699000\h表3.1相似距离表(均值哈希)所示。表STYLEREF1\s3.SEQ表\*ARABIC\s11相似距离表(均值哈希)TableSTYLEREF1\s3.SEQTable\*ARABIC\s11Similaritydistance(Averagehash)文字集相似距离低15.27傍12.80冬9.72出14.08利14.94哀14.33坐13.53多11.73奔11.07安12.60定14.18通过REF_Ref67695660\h图3.8可以看出,文字集“冬”对应相似距离最短。根据相似距离的定义,可以认为草书字体图片A为“冬”。图STYLEREF1\s3.SEQ图\*ARABIC\s18相似距离图(均值哈希)FigureSTYLEREF1\s3SEQFigure\*ARABIC\s18Similaritydistance(Averagehash)感知哈希在草书文字识别的应用均值哈希算大多数情况下表现良好,但是在计算草书字体相似距离方面,有以下缺点:相似距离之间差异并不大。由于比较过程比较简单直接,在图像经过一些特殊的处理时可能出现一些错误,比如对图像进行伽玛校正或颜色直方图。这是因为颜色沿着非线性变化会改变均值的位置,从而改变计算出的哈希值。感知哈希使用离散余弦变换(DiscreteCosineTransform,DCT)将图片从像素域变换为频率域后截取左上角的子矩阵来获取图片的低频成分。保持与AH算法相同的实验变量,采用与AH算法实验时相同的草书REF_Ref67695177\h图3.7。使用感知哈希算法计算出草书字体图片A与部分文字集相似距离如表3.2所示.表STYLEREF1\s3.SEQ表\*ARABIC\s12相似距离表(感知哈希)TableSTYLEREF1\s3.SEQTable\*ARABIC\s12Similaritydistance(Perceptualhash)文字集相似距离低28.88傍24.3冬21.12出29.89利25.91哀26.93坐27.83多26.86奔25.83安25.62定25.9通过REF_Ref67700818\h图3.9可以看出,文字集“冬”对应相似距离最短。根据相似距离的定义,可以认为草书字体图片A为“冬”。图STYLEREF1\s3.SEQ图\*ARABIC\s19相似距离图(感知哈希)FigureSTYLEREF1\s3SEQFigure\*ARABIC\s19Similaritydistance(Perceptualhash)通过多次实验我们发现,使用PH算法计算得出的相关距离S要显著大于AH算法,说明PH算法对图片内容的变化较敏感,但在相关距离的区分度上表现较好,能够很好的识别输入字体。基于差异哈希算法的草书文字识别前面提到的均值算法是基于图片颜色的平均值,感知哈希算法基于图片中频率信息。与均值哈希以及感知哈希类似,差异哈希算法基于图片中相邻像素的差异,差异哈希易于实现且正确率高,在算法实现方面,与均值哈希类似。同样采取相同的REF_Ref67695177\h图3.7进行识别,如图3.7,使用感知哈希算法计算出草书字体图片A与部分文字集相似距离如表3.3所示。表STYLEREF1\s3.SEQ表\*ARABIC\s13相似距离表(差异哈希)TableSTYLEREF1\s3.SEQTable\*ARABIC\s13Similaritydistance(Differencehash)文字集相似距离低30.69傍27.9冬21.12出31.91利27.82哀31.67坐31.69多29.39奔27.72安29定30.69REF_Ref67701916\h图3.10中,文字集“冬”对应相似距离最短。根据相似距离的定义,可以认为草书字体图片A为“冬”。经过大量的实验我们发现,使用DH算法计算得出的相关距离S与PH算法得出的相关距离类似,都要要显著大于AH算法,说明DH算法对图片内容的变化较敏感,在相关距离的区分度上表现中等,能够较好的识别输入字体。图STYLEREF1\s3.SEQ图\*ARABIC\s110相似距离图(差异哈希)FigureSTYLEREF1\s3SEQFigure\*ARABIC\s110Similaritydistance(Differencehash)Hash各算法相似距离比较比较均值哈希算法、差异哈希算法、感知哈希算法的相似距离,从REF_Ref67701969\h图3.11以及REF_Ref67702251\h表3.4中我们可以发现:1)均值算法计算出的相似距离较小。2)差异哈希与感知算法计算出的相似度距离较大。3)感知哈希算法在计算相似距离时区分度最高。表STYLEREF1\s3.SEQ表\*ARABIC\s14相似距离方差表TableSTYLEREF1\s3.SEQTable\*ARABIC\s14SimilaritydistancevarianceHash算法相似距离方差均值哈希2.62差异哈希3.68感知哈希5.16图STYLEREF1\s3.SEQ图\*ARABIC\s111三种哈希算法相似距离比较FigureSTYLEREF1\s3SEQFigure\*ARABIC\s111Comparisonofsimilaritydistancesofthreehashalgorithms对各哈希算法在草书文字识别的表现见REF_Ref67702464\h表3.5。由于书法字体经过图片预处理后为二值化后的图片,AH算法在计算哈希指纹时,只有黑白两色,单一对图片颜色取均值并不能很好的反应字体的体征。很有可能出现重复的现象,所以导致相似距离偏小且区分度不高的问题,识别效果自然一般。PH算法在计算哈希指纹时,是基于对图片频率的信息,相同字体的频率信息基本一致,不同字体之间的频率信息差别很大,基本不存在重复的问题。PH算法能够很好的反应字体的特征,对图片内容的敏感度高,计算出的相似距离区分度高。DH算法基于图片差异的信息,表现介于两者之间。表STYLEREF1\s3.SEQ表\*ARABIC\s15各Hash算法在草书文字识别的表现TableSTYLEREF1\s3.SEQTable\*ARABIC\s15TheperformanceofeachHashalgorithmincursivecharacterrecognition对图片敏感程度相似距离区分度识别效果AH低小一般PH高高优良DH中等中等中等多种哈希算法性能比较选择500个字体集作为测试集,共计10276张草书字体图片分别对均值哈希、差异哈希、感知哈希三种算法进行算法性能测试,每个算法分别对测试集中所有图片求哈希指纹,共执行6次,REF_Ref67704030\h图3.12各哈希算法执行时间为各哈希算法执行时间的比较。图STYLEREF1\s3.SEQ图\*ARABIC\s112各哈希算法执行时间FigureSTYLEREF1\s3SEQFigure\*ARABIC\s112Executiontimeofeachhashalgorithm从图中我们可以看到均值哈希算法与差异哈希算法执行时间基本相当,平均时间均为14s左右,感知哈希算法平均之间在17.6秒,在执行效率上,均值哈希算法与差异哈希算法要快于感知哈希算法。字体图像缩放对各哈希算法影响在草书文字识别时,字体图像经常会进行缩放,本节探究草书字体图片缩放对文字识别的影响。同样选取REF_Ref67695177\h图3.7作为测试字体。进行测试的字体图像像素是378×378,如REF_Ref67704198\h图3.13。非等比例缩放为50×100,等比例缩放为50×50。图STYLEREF1\s3.SEQ图\*ARABIC\s113对测试字体进行缩放FigureSTYLEREF1\s3SEQFigure\*ARABIC\s113Scaletestfonts使用三种算法分别对以上测试图片进行相似度距离的计算。均值哈希实验结果如REF_Ref67704417\h图3.14,发现非等比例的图像缩放对均值算法的性能会有影响。图STYLEREF1\s3.SEQ图\*ARABIC\s114图像缩放对相似距离的影响(均值哈希)FigureSTYLEREF1\s3SEQFigure\*ARABIC\s114Theeffectofimagescalingonsimilardistance(Averagehash)差异哈希实验结果如REF_Ref67704463\h图3.15,发现等比例的图像缩放对差异算法的性能会有影响。图STYLEREF1\s3.SEQ图\*ARABIC\s115图像缩放对相似距离的影响(差异哈希)FigureSTYLEREF1\s3SEQFigure\*ARABIC\s115Theeffectofimagescalingonsimilardistance(Differencehash)感知哈希结果如REF_Ref67704512\h图3.16,感知哈希算法对尺度的变化具有较强的鲁棒适应性,非等比缩放与等比缩放都不会对结果产生影响。图STYLEREF1\s3.SEQ图\*ARABIC\s116图像缩放对相似距离的影响(感知哈希)FigureSTYLEREF1\s3SEQFigure\*ARABIC\s116Theeffectofimagescalingonsimilardistances(Perceptualhash)由上述分析我们可以得出REF_Ref67704729\h表3.6图像缩放对哈希算法的影响,非等比例的图像缩放对均值算法的性能会有影响,等比例的图像缩放对差异算法的性能会有影响。感知哈希算法对图片大小的变化不敏感,非等比缩放与等比缩放均不对结果产生影响。均值算法适合处理等比例缩放的图片。例如,如果有一张图片的缩略图,并且知道它的大图片存在于数据库中的某处,则均值哈希算法能够快速找到它。对于非等比缩放的图片,均值哈希算法不再适用,可以使用差异哈希算法进行识别。表STYLEREF1\s3.SEQ表\*ARABIC\s16图像缩放对哈希算法的影响TableSTYLEREF1\s3.SEQTable\*ARABIC\s16Theimpactofimagescalingonhashingalgorithms等比缩放非等比缩放均值哈希无有差异哈希有无感知哈希无无图像旋转对各哈希算法的影响在字体识别时,字体图像经常会有一些旋转,探究旋转对图像旋转的影响,选用REF_Ref67695177\h图3.7作为测试字体,如图3.7,分别对待测字体旋转1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论