




已阅读5页,还剩33页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
毕业论文印刷体汉字识别方法的研究作者姓名XX专业电子信息工程指导教师姓名王导专业技术职务目录摘要1第一章绪论311汉字识别研究的意义312印刷体汉字识别研究的背景3第二章汉字识别技术421汉字识别概述422汉字识别的原理423汉字识别的一般方法524印刷体汉字识别问题与困难6第三章印刷体汉字识别的研究731印刷体汉字识别技术的发展历程732印刷体汉字识别的原理分析及算法研究8321预处理9322汉字特征提取11323汉字的分类识别13324后处理1533印刷体汉字识别技术分析16331结构模式识别方法16332统计模式识别方法1734印刷体汉字识别的分类19第四章系统的实现与仿真1941系统的实现1942系统的仿真20第五章总结与展望2351总结2352展望23参考文献25附录26致谢34摘要汉字识别技术是一种高速、自动的信息录入手段,成为未来计算机的重要职能接口,还可以作为办公自动化、新闻出版、机器翻译等领域的理想输入方式,有着广泛的应用前景。汉字识别的最终目的是使中文信息能更自然,更方便地输入计算机,以便于进一步处理实际生活中,大量的书信、报纸、杂志内容需要输入计算机,这就是印刷体汉字识别要解决的问题。本文首先就汉字识别研究的意义及背景作了综述。第二章介绍了汉字识别的基本过程以及印刷体汉字识别研究存在的问题与困难。第三章对印刷体汉字识别作了详细阐述,论述了印刷体汉字识别的原理和预处理、特征抽取与分析、后处理过程;着重分析了统计模式识别方法、结构模式识别方法以及匹配识别;第四章用MATLAB对系统进行了仿真;最后阐明了汉字识别技术研究今后发展的方向。关键词印刷体汉字识别特征提取匹配识别统计模式识别MATLAB仿真ABSTRACTCHINESECHARACTERRECOGNITIONTECHNOLOGYISAKINDOFAUTOMATICHIGHSPEED,INFORMATIONINPUTMETHOD,BECOMETHEIMPORTANTFUNCTIONSOFTHECOMPUTERINTERFACE,STILLCANASOFFICEAUTOMATION,THEPRESSANDPUBLISHING,MACHINETRANSLATION,ETC,THEIDEALINPUTHASWIDEAPPLICATIONPROSPECTSTHEAIMOFCHINESECHARACTERRECOGNITIONISTOMAKETHECHINESEINPUTMORENATURALANDCONVENIENTSOTHATTHECOMPUTERCOULDPROCESSCHINESEINFORMATIONMOREEASILYINPRACTICE,LARGEVOLUMEOFLETTERS,NEWSPAPER,MAGAZINESNEEDTOBECOVEREDINTOACODEDREPRESENTATIONOFTHEINPUTCHARACTERSTHATSWHATPRINTEDCHINESECHARACTERRECOGNITIONCANDOFIRSTLY,THISTHESISGIVESWHATISTHESIGNIFICANCEOFRESEARCHANDBACKGROUNDOFCHINESECHARACTERRECOGNITIONINCHAPTER2,THEBASICPROCEDUREOFCHINESECHARACTERRECOGNITIONANDDEFECTSANDDIFFICULTIESOFPRINTEDCHINESECHARACTERRECOGNITIONISINTRODUCEDEVERYSTEPOFRECOGNITIONISELABORATEDINDETAILSINCHAPTER3,WEDESCRIBEPRINTEDCHINESECHARACTERRECOGNITIONSYSTEMINDETAILS,DISCUSSINGTHEPRINTCHARACTERRECOGNITIONTECHNOLOGY,ANDLOOKSFORWARDTOTHEDEVELOPMENTTRENDOFCHINESECHARACTERRECOGNITIONTECHNOLOGYDISCUSSESTHEPRINCIPLESANDPRINTEDCHARACTERRECOGNITION,FEATUREEXTRACTIONANDANALYSIS,THEPOSTPROCESSINGPROCESS,EMPHATICALLYANALYSESTHESTATISTICALPATTERNRECOGNITIONMETHOD,STRUCTURALPATTERNRECOGNITIONMETHODANDMATCHINGRECOGNITIONINCHAPTER4,GIVINGANSIMULATIONFORTHESYSTEMEXPOUNDEDCHARACTERSIDENTIFICATIONTECHNOLOGYRESEARCHDIRECTIONSOFFUTUREDEVELOPMENTKEYWORDSPRINTEDCHINESECHARACTERRECOGNITIONFEATUREEXTRACTIONMATCHINGRECOGNITIONSTATISTICALPATTERNRECOGNITIONMATLABSIMULATION第一章绪论11汉字识别研究的意义汉字已有数千年的历史,是中华民族文化的重要结晶,闪烁着中国人民智慧的光芒。同时也是世界上使用人数最多和数量最多的文字之一。现如今,汉字印刷材料的数量大大增加,一些专业单位如新闻社、图书馆、古籍出版社、档案馆等所接触的印刷材料更是浩如烟海,信息量均是爆炸性增长,毕竟阅读印刷材料更为符合人的自然阅读习惯。然而,汉字是非字母化、非拼音化的文字,因此,如何将汉字快速高效地输入计算机,是信息处理的一个关键问题1,也是关系到计算机技术能否在我国真正普及的关键问题,更是传播与弘扬中华民族悠久历史文化的关键问题。但人工键入速度不仅慢而且劳动强度大,一般的使用者每分钟只能输入4050个汉字。这种方法不适用于需要处理大量文字资料的办公自动化、文档管理、图书情报管理等场合。而且随着劳动力价格的升高,利用人工方法进行汉字输入也将面临经济效益的挑战。因此,对于大量已有的文档资料,汉字自动识别输入就成为了最佳的选择。因此,汉字识别技术也越来越受到人们的重视。汉字识别技术已经呈现出了广泛的应用前景,它主要应用在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域。汉字识别是模式识别的重要应用领域,也是光学字符识别OCR(OPTICALCHARACTERRECOGNITION)的重要组成部分2。汉字识别是一门多学科综合的研究课题,它不仅与人工智能的研究有关,而且与数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等都有着千丝万缕的联系。一方面各学科的发展给它的研究提供了工具;另一方面,它的研究与发展也必将促进各学科的发展。因而有着重要的实用价值和理论意义。12印刷体汉字识别研究的背景印刷体汉字识别是汉字识别研究中的一个重要课题。在以往的研究中,均十分重视印刷体汉字特征点提取的工作。所谓特征点,是指反映汉字形体特征整体分布状况的关键点集,即构成汉字笔划骨架线的端点、折点、交点等。如图11所示汉字图像“大”汉字图像“大”的特征点。圆圈标出的点为特征点表示图11图像“大”特征点通常,对大多数结构稳定的汉字,一旦获得了正确的特征点集,就可能顺利地按照一定的策略和步骤(比如汉字的连接笔划、结构匹配等),将汉字形体划归为正确的字类,印刷体汉字识别的正确性就能够得到保证。当前,印刷体汉字特征点的识别效率还有进一步改进的空间。特征点提取方法属于句法结构模式识别方法之一。另一方面,随着数字图像处理技术的发展和实际应用的需求,许多问题不要求其输出结果是一幅完整图像本身,而是将经过特定处理的图像,再分割和描述,提取有效的特征,进而加以判决分类。这种技术就是图像的模式识别。随着数字图像处理和模式识别技术的不断发展与广泛应用,图像的编码技术得到了飞速发展,并以其优良的特性在图像处理领域得到越来越多的运用。第二章汉字识别技术21汉字识别概述汉字识别(CCRCHINESECHARACTERRECOGNITION)是用电子计算机自动辨识印刷在纸上和人写在纸(或者介质)上的汉字。汉字识别技术是计算机智能接口的一个重要组成部分。从学科上划分汉字识别属于模式识别和人工智能的范畴。它涉及到模式识别和图像处理、人工智能、形式语言学、模糊数学等众多学科,是一门综合性的技术。22汉字识别的原理汉字识别的基本思想是匹配判别。汉字识别可简单的分为两个过程学习(训练)过程和识别过程。学习过程就是让计算机通过样本学习或训练提取出每个汉字的特征并存储起来,作为标准特征库,即模板库。识别过程中,计算机首先按学习过程中的特征提取方法提取出输入模式的特征,然后再与标准特征库中的特征进行匹配,匹配程度最大的汉字即为识别结果。因此,如何确定表达待识别汉字模式的最佳特征(组合优化特征),如何进行特征匹配,从而进行高效、快速的识别,是汉字识别技术的关键所在。抽取代表未知汉字模式本质的表达形式(如汉字的各种特征)和预先存储在机器中的标准汉字模式表达形式的集合(称为字典)逐一匹配,用一定的准则进行判别,在机器存储的标准汉字模式表达形式的集合中,找出最接近输入模式的表达形式,该表达模式对应的字就是识别结果。图21汉字识别原理框图汉字识别原理如图21所示光电扫描器扫描纸上的文字,产生模拟电信号,经模数转器转换为由灰度值表达的数字信号,并送至预处理环节。预处理的内容和要求取决于识别方法,一般包括行、字切分,二值化,细化或抽取轮廓,平滑,规范化等等。经过预处理,汉字模式成为规范化的二值数字点阵信息,其中“L”部分反映了汉字笔划部分,“0”部分是文字的空白背景。对该二值化汉字点阵,抽取一定的表达形式后,和存储在字典中的已知标准汉字表达形式匹配判别,就可以识别出输入的未知汉字。23汉字识别的一般方法汉字的模式表达形式有多种,每种形式又可以选择不同的特征。每种特征又有不同的抽取方法。这些就使得判别方法和准则有不同,乃至形成多种不同形式的汉字识别方法。这些方法可以归结为两类一般性处理方法统计决策的方法和句法结构的方法。1统计决策的方法(STATISTICALDECISIONMETHOD)在汉字识别中,每个字的特征不是一维,而是一个M维的特征向量字典的每类标准模板也不是一个,而是一批;判别输入文字属于哪一类时,也不是只把它的特征向量和字典内标准特征向量逐一简单比较从而得到完全相同的结果才能分类识别,而是根据某种判别准则,相似到一定程度而且彼此又能区分时就可以分类识别。这些就需要用统计决策的概念、理论、方法来指导,这就产生了汉字识别的统计决策方法。统计决策的方法分类判别时,常用的判别准则是距离和类似度,它们是分类识别的依据。2句法结构的方法(SYNTACTICSTRUCTUREMETHOD)在汉字模式中,代表字形本质特征的结构信息很重要,研究这类结构信息丰富的模式时,可以用简单的子模式(SUBPATTERN)(如笔划)构成多级结构来描述一个复杂模式(如整个汉字)。例如把“叶”字先分解为部件“口”和部件“十”,并知道“十”在“口”的右面,再把这两个部件分解为笔划“|”、“”、“一”和“一”、“|”,也知道部件内这些笔划之间相对位置和连接关系,这样就可以把“叶”字表达成一维的符号串。若用(、)表示部件的界符,用、分别表示部件笔划间的上下、左右、交叉关系,则可以把“叶”字表示为符号串(|一)(一|)。汉字是一个模式,部件则是子模式,而笔划是一种最简单的子模式。组成一个模式的最简单的而且不再分割的子模式叫做基元(PATTERNPRIMITIVE)。上例中,各笔划以及、都是基元,基元根据一定规律组合成模式。这种对于一个模式。用层层更为简单的子模式,最后用基元来描述的方法,就是结构分析的方法。24汉字识别问题与困难当今许多汉字识别技术研究者想提升汉字识别系统的识别效果都遇到了一些同样的问题3。这些问题包括汉字量大、汉字结构复杂、字体字号多以及相似字多。这也使得汉字识别难度远远大于其它语言文字识别。由于汉字自身的特殊性,研究者也无法借鉴其它语言特别是西方发达国家的已有的技术来识别汉字。(1)汉字量特别大,类别繁多我国1980年公布的国家标准GB231280中第一级常用汉字共有3755个,第二级有3008个,两级共有6763个汉字。其中常用汉字有3000至4000个之多。第一级汉字使用频度为997,两级汉字总使用频度为9999。一个汉字识别系统至少要识别这些常用汉字才能满足需求,才具有实际应用价值。显然,汉字样本数量众多,这对一个系统来说是一种考验。大量的样本要占据更多的内存空间,更多的寻址时间,这对一个RTS(REALTIMESYSTEMS)来说是致命的。为了提高识别速度而采取一些措施之后,又可能会导致识别率的降低。这也导致了汉字识别系统不得不在识别率和识别速度之间有个妥协。(2)汉字结构复杂印刷体汉字识别系统的特征提取和匹配识别研究汉字是世界上结构最为复杂的文字之一。它的构成方法主要有三种象形法、会意法和形声法。不同的构成方法,具备不同的构字规律,这对采用统一标准处理如此大样本的汉字集来既是一大困难。笔画和部首的不同排列组合,构成了表达不同含义的结构异常复杂的汉字字符。非字母化,不同于拼字母文字,与世界上常用的其它民族的文字相比,汉字的结构是最为复杂的。(3)字体字号多我国印刷体汉字种类有超过一百种之多,其中主要以宋体、黑体、楷体和仿宋体为主,其它多为这四种字体的衍生字体。另外,印刷体汉字同一个字的不同字体即使拓扑结构大致相同,但字形点阵还是有很大差别。笔画的粗细、长短、位置及姿态,都有一定的差别,各个部件(如偏旁、部首与主体)的大小比例与位置,也都有所变异。对于手写汉字,这种差别就更大。手写体有楷体、行书和草书三类,但其自由发挥度很大,以致识别难度更大。印刷体汉字的字号更是繁多,这给汉字归一化带来了一定的计算量,归一化后也有可能使得汉字信息损失一部分,这给汉字识别也带来了困难。(4)相似字多由于我国汉字种类繁多以及构成方法的原因,汉字集中包含了大量的相似字。这些相似字不仅在形状上、构造上相似,而且在笔画上也相近。例如,“大”和“太”两个字只相差一个短捺,常用的特征提取算法根本无法区分这两个字的不同之处。这个相似字区分的问题往往出现在汉字识别系统的最后一级,也是至关重要的一级。第三章印刷体汉字识别的研究31印刷体汉字识别技术的发展历程计算机技术的快速发展和普及,为文字识别技术应运而生提供了必备条件。加上人们对信息社会发展的要求越来越高,文字识别技术的快速发展可想而知。印刷体文字的识别可以说很早就成为人们的梦想,早在1929年,TAUSHEK就在德国获得了一项有关OCR的专利4。为了将多年以来印刷在纸上的浩如烟海、与日俱增的报刊杂志、文献资料和单据报表等文字材料输入计算机进行信息处理,单靠人工击键输入,其速度利效率已远远不能满足要求,这就迫切需要研制以印刷体汉字识别为核心的光学汉字字符阅读器(OPTICALCHINESECHARACTERREADER,简称OCCR),使印刷体汉字可以高速自动地输入计算机。印刷体汉字的识别最早可以追溯到60年代。1966年,IBM公司的CASEY和NAGY发表了第一篇关于印刷体汉字识别的论文5。在这篇论文中他们利用简单的模板匹配法识别了L000个印刷体汉字。70年代以来,日本学者做了许多工作,其中有代表性的系统有1977年东芝综合研究所研制的可以识别2000个汉字的单体印刷汉字识别系统;80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷体汉字识别系统。这些系统在方法上,大都采用基于数字变换的匹配方案,使用了大量专用硬件,其设备有的相当于小型机甚至大型机,价格极其昂贵,没有得到广泛应用。我国对印刷体汉字识别的研究始于70年代末80年代初。大致可以分为三大阶段6(1)第一阶段从70年代末期到80年代末期,主要是算法和方案探索。研究人员提出了用于汉字识别的各种方法和特征,如特征点方法、汉字周边特征、汉字的结构元特征等,并在此基础上成功地研究出一批汉字识别系统。这一阶段是印刷汉字识别成果倍出的时期。但是,这些成果还仅仅处于实验室阶段,没有转化为产品来实际解决印刷汉字的自动输入问题。(2)第二阶段是90年代初期,中文OCR由实验室走向市场,初步实用。在实际的汉字识别输入应用条件下,检验和考查这些研究成果。而一个汉字识别系统能否通过这一严峻的考验,并进一步发展,取决于三个重要因素第一该系统能否根掘社会的发展,用户需求的变化,灵活地改进或者增加系统功能,以适应市场需求;第二该系统是否能在识别效率、识别速度和系统资源三者之间协调好关系;第三该系统是否具有足够高的抗噪性能,以适应各种各样的实际应用坏境。(3)第三阶段也就是目前,主要是印刷体汉字识别技术和系统性能的提高,包括汉英双语混排识别率的提高和稳定性的增强。同国外相比,我国的印刷体汉字识别研究起步较晚。从80年代开始,汉字ORC的研究开发一直受到国家重视,经过科研人员十多年的辛勤努力,印刷体汉字识别技术的发展和应用,有了长足进步,从简单的单体识别发展到多种字体混排的多体识别,从中文印刷材料的识别发展到中英混排印刷材料的双语识别。各个系统可以支持简、繁体汉字的识别,解决了多体多字号混排文本的识别问题,对于简单的版面可以进行有效的定量分析。同时汉字识别率已达到了98以上。但印刷体汉字识别系统的研究还要解决好实用汉字识别系统所必须解决的一些问题,如版面的自动分析、行字切分、人机界面和良好的应用环境等等。32印刷体汉字识别的原理分析及算法研究汉字识别实质是解决文字的分类问题,一般通过特征辨别及特征匹配的方法来实现。目前汉字识别技术按照识别的汉字不同可以分为印刷体汉字识别和手写体汉字识别。印刷体汉字识别从识别字体上可分为单体印刷体汉字识别(PRINTEDCHARACTERRECOGNITION)与多体印刷体汉字识别(MULTIPLEPRINTEDCHARACTERRECOGNITION);手写体汉字识别根据实时性又可以分为联机手写体识别(ONLINEHANDWRITTENCHARACTERRECOGNITION)和脱机手写体识别(OFFLINEHANDWRITTENCHARACTERRECOGNITION)。印刷体汉字识别的流程7如图31所示图31汉字识别流程框图印刷在纸张上的汉字,通过用扫描仪扫描或者数码相机拍摄等光学方式输入后得到灰度图像(GRAYSCALEIMAGE)或者二值图像(BINARYIMAGE),然后利用各种模式识别算法对汉字图像进行分析,提取汉字的特征,与标准汉字进行匹配判别,从而达到识别汉字的目的。印刷体汉字识别技术主要包括预处理、特征提取、匹配识别和后处理等步骤。预处理是在所有识别处理之前进行的,它将从各种不同输入方式获得的汉字图像中的干扰因素降到最低。随着汉字识别技术的深入研究,汉字的特征提取的算法越来越多,如何选择特征和如何组合优化特征已经成了研究的重要领域。匹配识别技术涉及到分类器的设计等重要问题,这也是非常重要的一个环节。汉字的后处理是出于获得最大化识别率考虑,它在前期已有识别水平上,通过调整参数或反馈处理获得更高的识别率。321预处理由于用数码相机或扫描仪作为输入设备得到的数据不可避免地存在着各种外在的干扰,图像质量也有偏差,对识别效果有一定影响。因此,在对原始图像进行识别处理之前,尽可能将干扰因素影响降低,是非常有必要的,也就是要先对原始采样信号进行预处理。预处理8通常包括去除噪声、版面分析、二值化、倾斜校正、行列切分、平滑、归一化、细化等。(1)版面分析印刷体文字识别常遇到的识别主体不是一个文字段,而是整个版面,所以版面分析是印刷体文字识别系统中的重要组成部分。它是指对印刷体文档图像进行分析,提取出文本、图像图形、表格等区域,并确定其逻辑关系,并将相应的文本块连接在一起。这一过程的自动完成算法还不是很完善,有些部分常由手工完成,最终的系统能够自动完成所有的版面分析。(2)二值化将一幅具有多种灰度值的图像变成白黑分布的二值图像的工作称为二值化处理,二值化的主要目的是将汉字从图像中分离出来。通常的方法为先确定像素的阈值,比较像素值和阈值的大小,从而确定为1或0,这个二值化阈值的选取较为关键。若阈值取的过大,则保留的信息过多,其中许多杂点无用信息造成了对以后处理的干扰;若阈值取得过小,则丢失的信息过多,其中许多文字信息产生续断或丢失,造成最终文字提取分割的信息丢失。如何确定此阈值的过程也就成了研究二值化算法的重点。现如今,汉字图像二值化方法多种多样,但大多都有应用限制。研究一种适合各种文字图像的二值化方法也是预处理环节的重点。(3)倾斜校正通过输入设备获得的图像不可避免地会发生倾斜,这会给后面的行字分割、文字识别等图像处理与分析带来困难,因此,在汉字识别系统中,倾斜校正是图像预处理的重要部分。倾斜校正的核心在于如何检测出图像的倾斜角。目前,倾斜角检测的方法有许多种,主要可分为5类基于HOUGH变换的方法;基于交叉相关性的方法;基于投影的方法;基于FOURIER变换的方法和K最近邻簇方法。灵活运用倾斜角度检测算法将是倾斜校正环节的重要研究方向。(4)行字切分汉字切分的目的是利用字与字之间、行与行之间的空隙,将单个汉字从整个图像中分离出来。汉字的切分分为行切分和字切分9。行切分是利用行与行之间的直线型空隙来分辨行,将各行的行上界和行下界记录下来。典型的算法是,从上到下,对二值汉字点阵的每行像素值进行累加,若从某行开始的若干累加和均大于一个试验常数,则可认为该行是一汉字文本行的开始,即行上界。同理,当出现连续大约一个汉字高度的大累加和情况后突然出现一系列小累加和甚至零值时,判定为行下界。字切分是利用字与字之间的直线型空隙来分辨字,将各字的左边界和右边界记录下来。典型的算法是,在确定这一行的行上界和行下界之后,从左到右搜索一行文字的左右边界,切分出单字或标点符号。从左边开始垂直方向的行距内像素单列累加和均大于一个试验常数,则可认为是该汉字的左边界。同理,当出现连续一个汉字宽度的大累加和情况后突然出现一系列小累加和甚至零值时,判定为该汉字的右边界。对文本汉字行来说,由于存在左右分离字,宽窄字,字间交连等,加上行间混有英文、数字、符号、和字间污点干扰,使得字切分比行切分困难得多。(5)归一化归一化也称规格化,它是把文字尺寸变换成统一大小,纠正文字位置(平移),文字笔画粗细变换等文字图像的规格化处理,并只对文字图像进行投影。汉字图像的归一化往往会带来两个问题一是字符图像的缩放可能会引入一些干扰二是图像缩放本身的运算量较大。所以,必须采用恰当的归一化方法来消除尺度变化对特征值的影响。(6)平滑对数字图像进行平滑,目的是去处孤立的噪声干扰,以平滑笔画边缘。平滑在图像处理中实质是一幅文字图像通过一个低通滤波器,去除高频分量,保留低频分量,在实际应用中,采用WXW(一般采用3X3)的辅助矩阵对二值文字图像进行扫描。根据辅助矩阵中各像素0、1的分布,使处于矩阵中心的被平滑的像素X从“0”变成“1”或者从“1”变成“O”。(7)细化细化处理是在图像处理中相当重要和关键的一环,它是将二值化文字点阵逐层剥去轮廓边缘上的点,变成笔画宽度只有一个比特的文字骨架图形。细化处理的目的是搜索图像的骨架,去除图像上多余的像素,从而在不改变图像主要特征的前提下,减少图像的信息量。细化处理结果的好坏,直接影响到识别的效果和质量。在细化处理过程中,一方面,去除的像素太少,则不能充分有效地减少图像的信息量;另一方面,去除的像素太多,特别是某些关键像素若被去除,则改变了原始图像的主要特征。因此,高质量的细化算法程序对图像识别有很大的实用价值。针对文字图像的细化算法已有很多,它的优劣对系统的识别效果影响很大。对细化的一般要求是保持原有笔画的连续性,不能由于细化造成笔画断开;细化成为单层像素线;保持文字原有特征,既不要增加,也不要丢失,保持笔画特征,最好细化掉笔锋细化结果是原曲线的中心线,保留曲线的端点,交叉部分中心线不畸变。针对各种不同的应用,国内外已发表了许多细化算法,如HILDITCH经典细化算法10、DEUTSCH算法11等。然而,细化过程本身固有的弱点总是造成笔画骨架线的畸变,增加对识别的干扰,主要的畸变包括交叉笔画畸变、转折处出现分叉笔画、失去短笔画和笔画合并等。可以说,这些问题依赖细化算法本身是无法克服的,需要在后续的处理中尽量消除这些畸变的干扰。322汉字特征提取预处理的最终目的是为了更加方便、准确地进行汉字的特征提取,从而提高汉字识别率。对于汉字,其特征大致分为两类,包括结构特征和统计特征,至今总数已经不下百种。但每种汉字特征的适用环境都有所不同,有的特征在一些情况下有很强的鲁棒性,但在另外一些情况下却完全失去了效用。例如,汉字特征点特征算法本身是一种比较简单、完善的特征提取算法。在汉字图像满足清晰、无笔画连联、无断笔等细化要求时,是能够完全将汉字的各种特征点位置提取处理的;若汉字图像本身模糊不清,预处理工作也无法达到要求,这样再好的汉字特征点特征提取算法也无法提取正确的汉字特征点特征,已经获得的特征点特征一旦应用到汉字识别系统中去,将会极大地影响整个系统的实用性。针对不同的系统需求,应该选择不同的汉字特征,进行优化特征组合,这样才能达到系统最佳识别效果。所以选择哪种特征,如何组合特征将是汉字特征提取这一部分的重点研究领域。要做到有的放矢,就需要研究已有的获得良好效果的各种汉字特征,分析它们的优点、缺点和适用环境。如下介绍并分析一下常用的一些的汉字结构特征和汉字统计特征。(1)结构特征抽取笔画法抽取笔画法是利用汉字由笔画所构成的特点进行识别,它利用汉字的结构信息来进行汉字的联机识别,在印刷体和脱机手写识别中,由于笔画提取的困难,结果不是很理想。松弛匹配法松弛匹配法是一种基于全局特征的匹配方法,它对输入汉字作多边近似,抽取边界线段,将这些边界线段组成临近线段表,然后用松弛匹配操作,完成边与边的匹配。这种方法利用弹性吸收汉字的变形,一个字只用一个样本。其缺点是操作速度较慢,计算量大。非线性匹配法非线性匹配法是由TSUKUMO等提出的,用以解决字形的位移、笔画的变形等现象。此方法试图克服从图形中正确抽取笔画的困难,以提高正确判别的能力。(2)统计特征笔画复杂性(COMPLEXITYINDEX)笔画复杂性指数是指文字笔画的线段密度,其定义如下(31)YXXCL(32)式(31)和(32)中、一横向和纵向的笔画复杂性指数;YC、一横向和纵向的文字线段总长度;XL、一横向和纵向质心二次矩的平方根;Y、分别反应了横向和纵向的笔画复杂性,横多的大,竖多的大。XXCY笔画复杂性指数与汉字的位移无关,受字体和字号的影响较小,但易受笔画断裂和粘连的影响,且其分类能力较差,常与另一种粗分类方法“四边码”连用。四边码(FOURSIDECODE)四边码是在汉字点阵图的四周各取一条带,计算其中的文字图像素点数,并将它分成四级,构成一个四元组。由于汉字边框不但含有丰富的结构信息,而且边框部分笔画一般较少,不易粘连,抗干扰能力强,但对汉字的位移和旋转比较敏感,与笔画复杂性指数正好形成互补。特征点特征点提取算法的主要思想是利用字符点阵中一些有代表性的黑点(笔画)、白点(背景)作为特征来区分不同的字符。特征点包括笔画骨架线的端点、折点、歧点和交点,汉字的背景也含有一定的区别于其它汉字的信息,选择若干背景点作为特征点,有利于提高系统的抗干扰能力。其特点是能够大大压缩特征库的容量,对于内部笔画粘连字符,其识别的适应性较强、直观性好,但不易表示为矢量形式,匹配难度大,不适合作为粗分类的特征。笔段特征汉字是由笔画组成的,而笔画又由笔段组成,笔段可近似为一定方向、长度和宽度的矩形段。利用笔段与笔段之间的关系组成特征对汉字进行识别,受字体和字号的影响小,对于多体汉字的识别获得了良好效果。其缺点是笔段的提取会较为困难,匹配的难度大,抗内部笔画断裂或者粘连能力差。当然,汉字的特征多种多样,各有各的优点、短处和不同的适用范围。选择什么样的特征使得此单分类环节的识别效果达到最佳,选择哪些特征来优化组合来达到整个系统的识别效果达到最佳,这就是本文需要研究的问题。323汉字的分类识别识别算法是整个识别过程的核心部分。原始图像经过预处理后,得到一个较为理想的二值图像,然后就可以对这个处理后的二值图像进行识别。识别的过程包括根据识别算法选择和提取汉字的特征、与标准文字的特征进行匹配判别。汉字的分类识别方法也是汉字识别系统的重要环节之一。诸多分类方法各自有其优缺点。(1)相关匹配这是一种统计识别方法,它通过在特征空间中计算输入特征向量与各模板向量之间的距离进行分类判决。距离度量的定义设X,S分别为输入特征向量和模板特征向量,N为特征维数。S阶MINKOWSKI度量(33),|JJJXSDW(34),|IIIXSP其中最为常用的是一阶度量,又称为绝对距离。即(35),1|NDXSJ欧氏距离S阶MINKOWSKI度量中,令S2,得到欧氏距离。(36)12,1|NDXSJS加权距离考虑到输入分量对模板的作用大小不同,故采用加权值来表示(37),|JJJXSW下标J表示不同的模板可以有不同的加权值。另一个描述输入向量与模板间关系的度量是相似度,最简单的相似度定义为二者方向夹角的余弦S,即(38),XS与距离一样,相似度也可以加权,得到加权相似度(39)1,|NIJISXSW其中,WI为权值,且,1NJJ当一个类别有多个模板时,还可以使用多重相似度(310),|IIISXXSP其中,SI是S类中的一个模板。PI是该模板的概率。相关匹配是一种统计识别方法。统计方法的优点是特征提取和模板的建立都比较容易,抗干扰能力强,使局部噪声不敏感缺点是分辨相似字的能力较弱,对书写风格的变化比较敏感。(2)文法分析文法分析的基本思想是将输入的汉字看作是一个语句或符号串,将识别问题转化为判断输入的语句是否属于某种语言,即句子是否符合某种语言的语法约束条件,这种方法在汉字识别中也得到了应用。文法分析是典型的结构识别方法,由于其侧重点是在笔段形状、位置以及笔段之间相互关系的分析上,所以它的优点是分辨相似字的能力较强,对书写风格的变化不敏感缺点是对局部噪声敏感,特征提取比较复杂。(3)松弛匹配无论是相关匹配还是文法分析,都要求输入特征向量和模板特征向量的各分量之间具有确切的对应关系,然而在结构分析中,往往事先难以确定两者各分量间的对应关系,此时可以采用松弛匹配法。松弛匹配法首先通过迭代运算,找出输入向量与模板向量各分量间的对应关系,然后再根据这一对应关系进行匹配。迭代开始之前,首先根据输入向量各分量与模板向量各分量之间的相似度构成一个初始权值矩阵。矩阵中各元素的值为相应分量之间的初始匹配概率,然后通过迭代运算对各个权值进行修正,并将其中趋近于零的值置为零,直至权值的变化趋于稳定,此时,可以认为权值矩阵中非零元素所对应的分量之间只有对应关系,然后根据这一对应关系计算输入量与该模板问的距离,重复上述过程。求出输入量与每个模板间的距离,取其中距离最小的模板所代表的类别为识别结果。松弛匹配法兼具统计方法和结构方法的特长。由于它是根据总体的匹配程度来决定识别结果的,所以这一点它类似于统计方法,同时它在迭代中还把基元间位置关系等结构信息考虑在内,这一点又很像结构方法。因此松弛匹配法在汉字识别中取得了很好的效果,它不仅可以用于特征点的匹配,而且还可以用于笔段、笔画和部件的匹配。其主要缺点是运算量较大,识别中往往需要增加预分类环节以减小运算量。另外,它吸收畸变的能力仍有不足。(4)人工神经网络汉字识别是一个非常活跃的分支,不断有新的方法涌现出来,为汉字识别的研究注入新的活力,其中基于人工神经网络的识别方法是非常引人注目的方向。目前神经网络理论的应用己经渗透到各个领域,并在模式识别、智能控制、计算机视觉、自适应滤波和信号处理、非线性优化、自动目标识别,连续语音识别、声纳信号的处理、知识处理、传感技术与机器人、生物等领域都有广泛地应用。324后处理后处理就是利用相关算法对识别后的汉字文本或者初级识别结果做进一步的处理,纠正误识的汉字,给出拒识的汉字,确定模棱两可的汉字。汉字识别的后处理方法12,13从用户的参与程度来说,可分为三类手工处理,交互式处理和计算机自动处理。以下对各种常用的后处理方法做简单的介绍。(1)简单的词匹配简单的词匹配就是利用文本中字的上下文匹配关系和词的使用频度,给识别后文本中的拒识字提供一个“最佳”的候选字,其关键是建立汉语词条数据库。该数据库应具印刷体汉字识别系统的特征提取和匹配识别研究有完善的词条存储、维修功能,应该能够反映不同词的使用频度,应尽可能的提高词条的检索速度,只有这样才能方便汉字后处理程序的使用。(2)综合词匹配综合词匹配方法,就是综合利用初级识别结果和字的上下文关系及词的使用频度,来决定最后的识别结果。这种方法实际上己把识别过程和后处理过程融为一体了。综合利用初级识别结果与词条信息的纠错优于单纯利用词条的纠错。综合词匹配法可以减少搜索词条关系时的搜索空间,从而提高纠错速度。这是因为在寻找字的上下文匹配关系时,利用初级识别结果的待选集,可以大大缩小搜索范围,避免了在整个词条库中查询。在不利用待选集时,对于有可能识别出错的地方,只能采用拒识,而拒识不提供任何未知汉字与已知汉字字符集中汉字相似度的信息,所以寻找词条时的搜索空间只能是整个词条库。另外,当某一个词前后两个字都被拒识时,简单的词匹配法就无能为力,而综合词匹配法仍能利用词条信息进行纠错。(3)词法分析语言是语音和意义的结合体。语素是最小的语言单位。无论是词还是短语,都有其构成规则,利用这些规则,将它们分类。另外,不同的应用背景,也有不同的分类结果。汉字识别后处理的词法分析方法,就是在词匹配的基础上,对仍难以确定的汉字,找出这些汉字与前后汉字所能组成的词,然后通过词法分析,确定一个能和该词的前后词组成“最佳”匹配的词,从而确定要识别的汉字。基于词法分析的汉字识别后处理的关键是构造一个完善的词条数据库。该数据库中的每一个词条项都要包括本词条的词性、词频、连接属性、语义信息等。(4)句法、语义分析语句无论是从结构上,还是从意思上都有一种人类共同理解、共同接受和共同遵守的语言组合法则。所以利用语义句法的方法,在初级识别结果的基础上,在利用词法分析进行匹配之后或匹配的同时,再进行句法分析和语义分析,从而确定要识别的汉字。进行语义句法分析也要首先建立词条库。这时词条库中的每一个词条项,还要包括该词的句法信息和语义信息。另外,还要建立起一套句法规则和语义规则,以便指导语法分析和语义分析。(5)人工神经元网络利用人工神经元网络的汉字识别后处理可以采取两种方式。一种是把识别过程和后处理过程分开,网络的输入是初级识别结果的短语或者句子,其中包含不确定的汉字(或拒识的汉字),通过网络的运行,最终确定这些字。另一种方法是把识别过程和后处理过程综合在一起,初级识别给出的结果是每一个待识汉字的前几个候选字和每一候选字与待识字之间的相似度。然后,把这些候选字以及与之相连的相似度输入网络,通过网络的并行作用,找到最符合汉语语法和语义组合关系的词或句子,从而确定出要识别的汉字。33印刷体汉字识别技术分析331结构模式识别方法汉字的数量巨大,结构复杂,但其特殊的组成结构中蕴藏着相当严的规律14。从笔画上讲,汉字有包括横、竖、撇、捺、点、折、勾等七种基本笔画,还有提挑、撇点、横捺等七种变形笔画。从部件上讲,部件是有特殊的笔画组合而成,故部件也是一定的。换而言之,汉字图形具有丰富的有规律可循的结构信息,可以设法提取含有这些信息的结构特征和组字规律,将它们作为汉字识别的依据。这就是结构模式识别。结构模式识别理论在20世纪70年代初形成,是早期汉字识别研究的主要方法。其思想是直接从字符的轮廓或骨架上提取的字符像素分布特征,如笔画、圈、端点、节点、弧、突起、凹陷等多个基元组合,再用结构方法描述基元组合所代表的结构和关系。通常抽取笔段或基本笔画作为基元,由这些基元组合及其相互关系完全可以精确地对汉字加以描述,最后利用形式语言及自动机理论进行文法推断,即识别。结构模式识别方法的主要优点在于对字体变化的适应性强,区分相似字能力强;缺点是抗干扰能力差,从汉字图像中精确的抽取基元、轮廓、特征点比较困难,匹配过程复杂。因此,有人采用汉字轮廓结构信息作为特征,但这一方案需要进行松弛迭代匹配,耗时太长,而且对于笔画较模糊的汉字图像,抽取轮廓会遇到极大困难。也有些学者采用抽取汉字图像中关键特征点来描述汉字,但是特征点的抽取易受噪声点、笔画的粘连与断裂等影响。总之单纯采用结构模式识别方法的脱机手写汉字识别系统,识别率较低。332统计模式识别方法统计模式识别方法是用概率统计模型提取待识别汉字的特征向量,然后根据决策函数进行分类,识别就是判别待识汉字的特征向量属于哪一类。常用的判别准则是距离准则和类似度准则,典型的统计模式识别方法有最小距离分类、最邻近分类等。A最小距离分类最小距离分类器(MINIMUMDISTANCECLASSIFIER)是以汉字与特征空间模型点之间的距离作为分类准则,它有着图32所描述的结构。其中,X是输入特征向量,他将被分配到C个类别中的某一个类K(K1,2,C),这些类有各自的典型模式MK表示。图32最小距离分类器系统图B最邻近分类最邻近法的思想是对于C个类别I(I1,2,C),每类有标明类别的样本NI个(I1,2,C)。规定I的判别函数如式(31)所示。其中的角标I表示I类,K表示I类NI个样本中的第K个。KIX,K1,2(311)MN|KIIIXXGIN,I1,2,C(312)JII若式(32)成立,则决策XJ。即对未知样本X,比较X与N个已知类别的样本之间的欧式距离并决策X与离它最近的样本同类。其中,CI1统计模式识别方法具有良好的鲁棒性(ROBUSTNESS),适合有噪声的文字,它一般采用多维特征值累加的办法,减少噪声的影响,但是,累加也会使相似汉字的结构的差异消失,因此区分相似字的能力较差。常用的汉字统计模式识别方法包括15(1)模板匹配模板匹配是将汉字的图像直接作为特征,将之与特征库中的汉字图像逐一比较,相似度最高的汉字即为待选汉字。这种需要将左右汉字图像的像素点阵均存储起来,既占用大量的内存空间,特别是对嵌入式系统来说是不可容忍的,也将在寻找最相似汉字过程中耗费大量的时间,这对实时系统也是致命的。另外,其对于倾斜、笔画变粗变细均无良好的适应能力。(2)利用变换特征的方法该方法利用各种函数变换,例如KL变换、FOURIER变换和GABOR变换等对汉字图像特征进行变换。但这些变换如果没有合适的处理,都多少存在缺陷。有的抗噪性能差,有的代码复杂度高。(3)笔画方向特征笔画方向的统计特征总共有3种全局笔画方向密度GDCD,局部笔画方向密度LDCD和周边笔画方向PDC。前两者用于预分类,后者用于单字识别。这些特征都是以笔画方向贡献(DIRECTIONCONTRIBUTION)为基础。(4)外围特征汉字的外围特征是由汉字轮廓信息获得的。汉字轮廓具有丰富的特征,即使在稍微倾斜或者笔画粘连的情况,也能提取较为完全的轮廓信息。(5)特征点特征汉字信息的绝大部分集中在汉字骨架上,而汉字骨架信息又大多集中在若干特征点上。一旦确定这些笔画特征点,汉字笔画以及结构形状就可以确定。它们包括端点、折点、歧点和交点等。汉字特征点的提取一般是基于汉字细化后的单像素图像,而往往细化算法不能达到算法的要求,经常有断笔、非单层像素等情况,一点点变形或噪声都会影响汉字特征点的提取。也就是它的鲁棒性一般不好。随着汉字识别技术的发展,已经有越来越多的统计特征出现。但几乎每种特征都不是完美的,都要在特殊条件下施加一些特殊的处理。如表11所示为统计方法和结构方法特征比较表11统计方法和结构方法特征比较项目方法识别策略判别方法文字变形变体特征提取相似文字区分统计方法向量维数距离、类似度适应性差容易不易区分结构方法分而治之串行判决适应性好不容易容易区分34印刷体汉字识别的分类在进行汉字识别时,考虑到汉字数目的庞大。识别总信息量比英文数字大得多,会大大增加识别时间。所以,汉字识别一般都采用一级或多级粗分类(GROSSCLASSIFICATION)再细分判别(FINECLASSIFICATION),从而人人提高识别速度。采用多级粗分类是印刷体汉字识别常用的方法。一般认为,多级分类汉字识别中,把各级粗分、细分、判别、包括预处理合在一起成为识别,把多级分类中的前N级称为粗分类,把最后一级粗分类后类中文字的区分称为细分类。对于粗分类,要求如下1粗分类的正确分类率和分类稳定性要高。2粗分类的速度要快。3粗分类的分类特性要平坦。4粗分类特征要简单,使分类字典容量小。5粗分类方法要和细分判别方法相协调。第四章系统的实现与仿真41系统的实现印刷品上的汉字输入,经过预处理后,对照标准汉字修补缺损部分,用修补后的汉字进行学习,形成初始的特征库后再进行大量样本的学习,建立实用的特征库。系统在识别过程中可进行自学习。取标准汉字,对每一个汉字计算面积。所有按面积由小到大排列,建立每一汉字与其国标码的指针。对神经网络设置其初始权值,选取大量标准汉字训练网络,反复修改权值,直至与面积序号对应的输出为有效,并建立每一输出与面积特征库之间的连接关系。以后随着学习过程的进行,将建立动态调整面积特征库及其与神经网络之间的对应关系。系统共包括5个子功能模块(见图41)。图41系统模块图图42系统流程框图系统的工作流程如图42所示,文件首先由文件管理器加载。送人图像处理模块,经二值化转灰度,均值滤波,二值化,行字切分等图像预处理操作后。得到待识文字的点阵,汉字识别模块从点阵中提取识别特征,通过十三点特征提取,精确匹配得出识别结果。42系统的仿真此次采用MATLAB进行系统仿真(MATLAB仿真程序见附录1),其中学习功能使用SIM函数实现,特征提取用十三点特征提取法。YSIM(NET,P_TEST);用训练出来的神经网络计算数据的第P_TEST行;其中NET是SIMULINK的模型名(神经网络的对象见附录2);P_TEST是外部输入向量。十三点特征提取法首先把字符平均分成8份,统计每一份内黑色像素点的个数作为8个特征,然后统计水平方向中间两列和竖直方向中间两列的黑色像素点的个数作为4个特征,最后统计所有黑色像素点的个数作为第13个特征。也就是说,画4道线,统计穿过的黑色像素的数目。可以得到4个特征。最后,将字符图像的全部黑色像素的数目的总和作为一个特征。十三点特征提取法有着极好的适应性,但是由于特征点的数目太少所以在样本训练的时候比较难收敛。系统首先对标准图像(见图43)进行识别,识别过程中转灰度(见图44),均值滤(见图45),二值化
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中考化学试题分类汇编:科学探究题(第2期)解析版
- 1 丰富的数据世界教学设计-2025-2026学年初中数学北师大版2024七年级上册-北师大版2024
- 1秋天 教学设计-2024-2025学年语文一年级上册(统编版)
- 2025年天津市河西区中考一模物理试题(解析版)
- 小学语文一遍过单元测试卷(3篇)
- 第一章有理数-单元测试卷-2025-2026学年人教版数学
- 2025年全国汽车驾驶员(技师)职业技能考试题库(含答案)
- 本册综合教学设计-2025-2026学年中职语文拓展模块语文版
- 2025年高考数学二模试题分类汇编(辽宁专用)立体几何与空间向量(解析版)
- 2025年食品企业生产工安全生产知识考试试题及答案
- 婴儿游泳馆卫生管理制度
- 规划违建考试试题及答案
- TSG Q7015-2016起重机械定期检验规则
- 上门服务项目创业计划书
- 药品效期和近效期药品管理
- 《诊断学意识障碍》课件
- 培训主管技能展示
- 《环境设计工程计量与计价》课件-1.什么是装饰工程预算
- 2024年美团电商合作商户合同版
- 砒霜治疗白血病
- 艺术家品牌影响力构建-洞察分析
评论
0/150
提交评论