从人工智能角度看手写体汉字识别.doc_第1页
从人工智能角度看手写体汉字识别.doc_第2页
从人工智能角度看手写体汉字识别.doc_第3页
从人工智能角度看手写体汉字识别.doc_第4页
从人工智能角度看手写体汉字识别.doc_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

从人工智能角度看手写汉字识别姓名:王刚班级:计算机学院2011级创新班学号:111101003邮箱:1935590190摘要模式识别发展至今已有数年,计算机文字识别是模式识别的一个重要领域。文字识别发展至今,在印刷体识别、仅有数字和英文字符的识别方面已经有足够高的识别率。然后在手写的汉字识别方面识别率却一直不高,为了提高手写体汉字的识别率可以从人工智能的角度结合现有的识别算法来做一定改进,以提高汉字的识别率。关键词 文字识别 识别率 人工智能引言计算机文字识别,俗称光学文字识别,其英文术语为Optical Character Recognition(缩写为OCR),是指通过计算机技术及光学技术对印刷或书写的文字进行自动的识别,达到认知的目的,是实现文字高速自动录入的一项关键技术。到目前为止,汉字OCR是模式识别技术的一个分支,其主要目的是将汉字(手写体与印刷体)自动读入计算机。而手写文字识别技术,是指通过计算机来识别手写文字的一种识别文字的技术。近年来脱机手写体汉字的识别已经有了很大的发展。但是由于受手写体汉字书写风格因人而异等因素的影响,使得脱机手写体汉字识别难以接近人类识别汉字的准确性、灵活性和容错性。现有的算法各有各的优势,但是多数算法集中于单个汉字的识别,对于全局的掌控较弱。从人工智能的角度出发,研究人们识别手写体汉字时候的思路,然后就这种思路来改进现有的算法,提高手写体汉字的识别率是很好的一个方向。一 、OCR技术的发展OCR概念的诞生,要早于计算机的问世。早期的OCR多以文字的识别方法研究为主,识别的文字当时仅为0-9这几个数字。后来随着计算机的出现和发展,OCR研究才在全球范围内广泛研究和发展。OCR发展至今,可分为三个阶段:1、第一代OCR产品出现于60年代初期,在此期间,IBM公司、NCR等公司分别研制出了自己的OCR软件,最早的OCR产品应该是IBM公司的IBM1418。它们只能识别印刷体的数字,英文字母及部分符号,而且都是指定的字体。60年代末,日立公司和富士通公司也研制出了各自的OCR产品。2、第二代OCR系统是基于手写体字符的识别,前期只限于手写体数字,从时间上来看,是60年代中期到70年代初期。 1965年IBM公司研发出IBM1287,并在纽约世界博览会上展出,开始能识别印刷体数字、英文字母及部分简单的符号。第一个实现信函自动分拣系统的是东芝公司,两年后NEC公司也推出了这样的系统,到1974年,分拣率达到92%-93%。3、第三代OCR系统要解决的技术问题是对于质量较差的文稿及大字符集的识别,例如汉字的识别。1966年,IBM公司开发的OCR系统利用简单的模板匹配法识别了1000个复杂的印刷体汉字,到了1977年,东芝公司又制出可识别2000多印刷体汉字的单字汉字识别系统。我国在OCR的研究方面起步相对较晚,70年代开始进行数字、英文及符号的识别研究,70年代末开始进行汉字的研究,到1986年,汉字的识别进入了一个具有成果性的阶段,不少单位推出了中文OCR产品。到目前为止,印刷体汉字的识别率达到了98%以上,手写体的识别率也在70%以上,并且可对多种字体、不同字号混排识别,国家“863”计划对该方面的研究给予了很大的资助。目前,我国正在争取实现OCR产品识别精度更高、识别速度更快,能同时支持单机和网络操作,使得使用更方便,应用更广泛,达到不同用户的使用要求。二、汉字的识别方法对于文字的识别,从文字类型上划分,通常分为印刷体文字的识别和手写体文字的识别;从识别的方式划分,通常分为在线识别和脱机识别。由于印刷体与手写体的文字特征差异较大,所以在软件识别上,其处理方法是不同的。下图描述了文字识别系统的组成:特征选取特征抽取特征匹配模式输入输出结果预处理模型字符特征图1 文字识别系统组成图字识别的特征提取通常有两类特征,一是将汉字图像进行统计计算后得到的数量特征,比如将图像向多个方向投影,以投影后的像素密度作为特征;二是将汉字的笔画分解,根据对汉字结构的认识提取有效的特征点,再编码成数字特征。在提取特征以后,每个字就成了一个由特征向量代表的样本,识别一个字就是要在所有可能的字中判断当前的样本是哪个字,属多类分类问题。分类器的建立除了要利用样本训练,还需要结合对文字结构的认识(比如旋转和尺度不变性)才能得到更好的识别效果。与语音识别类似,OCR在单字识别后往往还需要根据语言模型进行上下文匹配等后处理,才能达到更理想的效果。而在单字识别前,对扫描稿件的版面分析、字符分隔等是重要的预处理步骤。 与离线的手写文稿识别相比,联机的手写文字识别能有效地提取和利用笔画信息,因而可以取得更好的识别效果,目前已经发展为很多手机和掌上计算机的基本配置。这两种提取特征的方法衍生出了许多的算法,并且它们发展至今已经有较好的识字率。三、从人工智能角度看手写体汉字识别从人工智能的角度出发,我们首先不必不应该纠结于每一个字的识别。应该从人识别汉字的思路来加强现有的算法。本文重点就从人识别汉字时候,从整体到局部再从局部到整体的思路来说明这种识别手写体汉字的思想。如图1.1中的汉字,与平常的手写体汉字的复杂环境有一定的相似性。图1.1对于一个普通人而言,能很快的识别出其中的内容:“中国最长的河流是长江”“中国最长的河流是长江”“钟国最长的河流事长工”同样我们也能很快的识别出其中“钟”和“事”以及“工”是错别字,同样那条红线与文章的内容没有任何的联系。下面我们采用一些常用的ocr识别软件将图1.1进行文字识别,结果如图1.2所示图1.2当然,这只是很普通的一款脱机软件,效果惨不忍睹,但是由此却更加证明了当前手写体文字识别效果很差,或者说在复杂情况下的汉字识别效果并不很好。与当前汉字识别的步骤相似,我们先做的也是版面分析。本文撇开图表等暂时不谈,只说纯汉字识别时的版面分析。首先,我们应该确定的是整个文字区域的范围,如同人在看到一篇手写文字的时候,首先看的是哪些地方是文字的主要区域。如在图1.3所示的简单分栏环境中,一段文字分分为三栏。图1.3有ocr识别软件识别如图1.4图1.4很明显,在版面分析时简单的把文字分为严格的水平单行排列,或者竖直单列排列的形式是不能够应付稍复杂的汉字环境的,更加不用说手写体的汉字环境。人眼在识别汉字的时候,首先是找到整个文字的区域的,一般不会把上述分栏中的某一栏作为文字识别的主要区域。所以提高识别率的第一步就是用更加贴近人思维的算法来解决纯文字的版面分析问题。在我看来,所有文字分布区域的可以从字符的密度,字符的边界以及用现有的文字方法识别出的文字之间的词语组成关系、句子组成关系等等来确定,同时在区域之内用同样的方法识别出每一个相对独立的文字块。识别出了文字块之后,然后再进行每一个文字块中文字排列方式的判断。对于现有的识别算法,对于文字排列方式的判断可以说是个弱点,很多算法在这方面功能都十分的弱。如上面图1.2的识别效果一样,甚至连当前文字的排列方式都弄不清楚。从人工智能的角度出发,人在确定当前文字的区域之后,首要的并非立刻从行或者从列进行阅读,而是找到当前文字排列的规律。在具体的特征处理方面我认为按照某一个方向进行投影的方式是不会有非常好的效果的,要想得到更高的识别率,可以从文字本身的二维性出发。首先我认为应该通过密度和空格等判断确定每一个汉字所在的位置。然后用现有的方法进行一个初步的汉字识别,同时记录下当前所有的汉字以及它们具有的位置关系。然后在各个方向上,按照次序依次尝试将汉字以及它周围的汉字组成词组以及句子。当然,尝试的方向可以有优先顺序同时可以具有适宜的数量,比如先进行行识别,然后进行列识别,最后进行其它方向的识别。同时方向的数量是8个,分别是上下左右,以它们的及其夹角方向。最后根据组成的词句的数量以及质量的判断,来确定当前的文字是行还是列排列,或者是其它的排列方式,当然也可以结合用户手动指定排列方式的方法。而词句的质量可以由此词句的使用频率来判断。在确定了排列方式之后,就能算出其按照这种排列单位的数量。比如,判断出图1.1按照行排列,那么就能判断出其有三行。至于判断的方式,可以通过每一列的方向上的汉字的数量来判断,如在图1.1中,根据存储的汉字之间的方向关系可以判定出每一列的汉字都是三个,或者说三个是最多的,并且大于一个概率如90%之后,就一这个数量作为有多少行的数量。同时通过汉字之间的位置关系可以将同一行的汉字识别出来。如果将每一列的汉字进行排序,也就是在每一列的汉字具有相同序号的那么就在同一行。当然在进行汉字行列判断的时候一定会碰到部分“连体”汉字的情况发生,如何识别,或者说区分也是一个重要的问题。在这里,人眼识别汉字的时候更多的是一种综合性的识别,而不是仅仅通过笔画或者各个组成部分之间的大小等等来判断一个汉字的。所以这里也许可以首先来判断这一个“连体”的部分究竟有多少个汉字,这一点可以通过其它汉字的大小,空格关系,以及它们与当前所在行或者列的词句的组成关系来确定。在确定了多少个汉字之后,再根据汉字笔画的趋势,空白部分和书写部分的关系,它们各个笔画相对位置的关系,以及汉字笔画密度点的关系,以及汉字和他们整体块大小的关系,以及它们通过其它词句确定的部分词组关系来确定这“连体”的汉字。最后,在这些识别的过程之后一定要将汉字本身具有的发音相似和形体相似考虑进去,如在当前的识别中未发现与当前可能词组匹配度足够高的汉字或者是未发现和此句子匹配度足够高的词组,那么就可以考虑发音相似和形体相似的汉字。最后,本文的各种思想也许并不是很完善,但是未来的模式识别不仅仅是简单的识别,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论