




已阅读5页,还剩16页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
我国汉字识别研究的新进展 中国人民公安大学 毕业论文(设计) 题目汉字识别技术研究 学生姓名郭耀珅学号 年级专业 安全防范与网络保卫大队06中队一区队 指导教师王蓉 教务处制 汉字识别技术研究 摘要:本文主要在研究当前光学字符识别系统及相关识别技术的基础上,利用matlab编程语 言设计了一套简单的相对具有较高识别率的汉字识别程序。首先,将RGB图像转化为二值图像(即仅 有黑白二种颜色的图像),而后经平滑处理,滤除混入的噪声,得到清晰完整的文字图像,其次,进 行行字切分使整篇文字图像成为单个文字图像,最后提取汉字的横竖撇捺特征与现有的汉字特征库 进行比较匹配从而进一步输出汉字的数码形式。实验结果表明,本文研究的方法能够识别汉字,准 确率较高。 关键词:印刷体汉字识别;预处理;特征提取;特征匹配 ResearchonChineseCharacterRecognition Technology Abstract:Thisthesisstudiesontheopticalcharacterrecognitionsystemandcorrelativerecognition technology,basedonthematlabprogramminglanguagedesignedasetofrelativelyhighrecognitionsimple ofcharacterrecognitionprograms.First,transformingRGBimagesintobinaryimage(onlyblackand whitecolorimage),thenthesmoothfilteringde-noisingintermingledwiththenoiseofthetexttogetclear. Secondly,theimagesegmentationwords,theessaywritingasasinglewordimages,theimagesofChinese abandonedanyfinalextractingfeaturesofcharacterswithexistingisfeaturelibraryparedtofurther outputcharactersofthematchindigitalform.Experimentalresultsshowthatthismethodcanbeusedto identifyChinesecharactersandprecise. Keywords:PrintChineseCharacter;Preprocessing;Characteristiccollecting;Characteristic matching 目录 1绪论.1 1.1汉字识别的研究背景与现实意义.1 1.2我国汉字识别技术发展历史与现状.2 1.3本文研究的主要内容.3 2汉字识别技术的相关基础知识.4 2.1概述.4 2.2汉字识别流程.5 2.2.1预处理.5 2.2.2特征提取.6 2.2.3特征匹配与汉字识别.7 2.2.4后处理.7 2.3汉字识别模式.8 2.3.1结构模式识别.8 2.3.2统计模式识别.8 3汉字识别系统.9 3.1汉字图像增强.9 3.1.1二值化处理.9 3.1.2平滑去噪.10 3.1.3行字切分.10 3.2特征提取.12 3.2.1统计特征.12 3.2.2特征提取方法.13 3.3特征匹配识别.13 3.4后处理.14 4系统仿真与实验结果.15 4.1实验环境.15 4.2实验过程.15 4.2.1预处理.15 4.2.2特征提取与特征识别.19 4.2.3比对实验.21 4.3仿真结果分析.22 4.4本章小结.22 5总结与展望.23 5.1总结.23 5.2展望.23 致谢.25 参考文献.26 xx届本科生毕业设计(论文) 开题报告 课题名称专业电气工程及其自动化专业方向电气工程及其自动化班级学号学生姓名沈佳骏指导教师教研室电子电工教研室 上海应用技术学院 电气与电子工程学院 xx年3月1日 1开题依据 汉字已有数千年的历史,是中华民族文化的重要结晶,闪烁着中国人民智慧的光芒。同时也是世界上使用人数最多和数量最多的文字之一。现如今,汉字印刷材料的数量大大增加,一些专业单位如新闻社、图书馆、古籍出版社、档案馆等所接触的印刷材料更是浩如烟海,信息量均是爆炸性增长,毕竟阅读印刷材料更为符合人的自然阅读习惯。然而,汉字是非字母化、非拼音化的文字,因此,如何将汉字快速高效地输入计算机,是信息处理的一个关键问题1,也是关系到计算机技术能否在我国真正普及的关键问题,更是传播与弘扬中华民族悠久历史文化的关键问题。但人工键入速度不仅慢而且劳动强度大,一般的使用者每分钟只能输入4050个汉字。这种方法不适用于需要处理大量文字资料的办公自动化、文档管理、图书情报管理等场合。而且随着劳动力价格的升高,利用人工方法进行汉字输入也将面临经济效益的挑战。因此,对于大量已有的文档资料,汉字自动识别输入就成为了最佳的选择。因此,汉字识别技术也越来越受到人们的重视。汉字识别技术已经呈现出了广泛的应用前景,它主要应用在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域。汉字识别是模式识别的重要应用领域,也是光学字符识别OCR(OpticalCharacterRecognition)的重要组成部分2。汉字识别是一门多学科综合的研究课题,它不仅与人工智能的研究有关,而且与数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等都有着千丝万缕的联系。一方面各学科的发展给它的研究提供了工具;另一方面,它的研究与发展也必将促进各学科的发展。因而有着重要的实用价值和理论意义。 2文献综述 印刷体汉字识别是文字识别技术的一种。利用机器识别文字符号,可以说从1929年陶舍克利用光学模板匹配识别开始。当时,他使用了10块模板对应10个数字,依次把待识别的数字投影到这10块模板上,当模板透过的光达到最小时(数字遮挡了模板的透光部分),数字就被识别成这块模板上的数字。大约在50年代末60年代初,就已经出现了关于利用计算机识别数字及英文符号的研究论文。随后,日本对汉字识别进行了研究。大约从70年代开始,相继对印刷体汉字识别、手写印刷体汉字识别及在线手写汉字识别进行了研究。1980年进行了印刷体汉字识别的公开表演,1981年5月在日本第56届商业展览会上,富士通研究实验室进行了手写印刷体汉字识别的公开表演。1984年日本研制成多体印刷汉字识别装置,识别率为99.98%,识别速度大于100字/秒,代表了印刷体汉字识别的最好水平。最近几年出现的手写印刷体汉字识别装置,识别率可以达90%,识别速度540字/秒,笔顺可变,笔划数不变的联机手写楷书汉字识别装置已有产品出售,正在研究具有一定规则的手写行书识别装置。我国的汉字识别研究比日本晚了大约10年,1988年后才有初步实用的印刷体识别系统问世。从目前的文字识别技术水平来看,与实际的需求之间的确存在很大距离,可以说,在文字识别领域需要发现一些关键的计算方法,至少现在还没 有完全掌握这些方法,另一方面,文字识别必须充分地运用人识字的知识,即字词句的理解,从这个角度来说,文字识别技术正期待着人工智能在自然语言理解方面的进步。 3方案论证 汉字识别实质是解决文字的分类问题,一般通过特征辨别及特征匹配的方法来实现。目前汉字识别技术按照识别的汉字不同可以分为印刷体汉字识别和手写体汉字识别。印刷体汉字识别从识别字体上可分为单体印刷体汉字识别与多体印刷体汉字识别。 印刷体汉字识别的流程如图1-1所示: 图1-1汉字识别流程框图 印刷在纸张上的汉字,通过用扫描仪扫描或者数码相机拍摄等光学方式输入后得到灰度图像(Grayscaleimage)或者二值图像(Binaryimage),然后利用各种模式识别算法对汉字图像进行分析,提取汉字的特征,与标准汉字进行匹配判别,从而达到识别汉字的目的。印刷体汉字识别技术主要包括预处理、特征提取、匹配识别和后处理等步骤。 3.1预处理 在对原始图像进行识别处理之前,尽可能将干扰因素影响降低,是非常有必 要的,也就是要先对原始采样信号进行预处理。预处理通常包括去除噪声、版面分析、二值化、倾斜校正、行列切分、平滑、归一化、细化等。 (1)版面分析 它是指对印刷体文档图像进行分析,提取出文本、图像图形、表格等区域,并确定其逻辑关系,并将相应的文本块连接在一起。 (2)二值化 将一幅具有多种灰度值的图像变成白黑分布的二值图像的工作称为二值化处理,二值化的主要目的是将汉字从图像中分离出来。通常的方法为先确定像素的阈值,比较像素值和阈值的大小,从而确定为1或0,这个二值化阈值的选取较为关键。 (3)倾斜校正 通过输入设备获得的图像不可避免地会发生倾斜,这会给后面的行字分割、文字识别等图像处理与分析带来困难,因此,在汉字识别系统中,倾斜校正是图像预处理的重要部分。倾斜校正的核心在于如何检测出图像的倾斜角。 (4)汉字切分 汉字切分的目的是利用字与字之间、行与行之间的空隙,将单个汉字从整个图像中分离出来。汉字的切分分为行切分和字切分9。 (5)归一化 归一化也称规格化,它是把文字尺寸变换成统一大小,纠正文字位置(平移),文字笔画粗细变换等文字图像的规格化处理,并只对文字图像进行投影。 (6)平滑 对数字图像进行平滑,目的是去处孤立的噪声干扰,以平滑笔画边缘。平滑在图像处理中实质是一幅文字图像通过一个低通滤波器,去除高频分量,保留低频分量。 (7)细化 细化处理是将二值化文字点阵逐层剥去轮廓边缘上的点,变成笔画宽度只有一个比特的文字骨架图形。细化处理的目的是搜索图像的骨架,去除图像上多余的像素,从而在不改变图像主要特征的前提下,减少图像的信息量。 3.2汉字特征提取 预处理的最终目的是为了更加方便、准确地进行汉字的特征提取,从而提高汉字识别率。对于汉字,其特征大致分为两类,包括结构特征和统计特征,至今总数已经不下百种。 要做到有的放矢,就需要研究已有的获得良好效果的各种汉字特征,分析它们的优点、缺点和适用环境。如下列出常用的一些的汉字结构特征和汉字统计特征。 1.结构特征 (1)抽取笔画法 抽取笔画法是利用汉字由笔画所构成的特点进行识别,它利用汉字的结构信息来进行汉字的联机识别,在印刷体和脱机手写识别中,由于笔画提取的困难,结果不是很理想。 (2)松弛匹配法 松弛匹配法是一种基于全局特征的匹配方法,它对输入汉字作多边近似,抽取边界线段,将这些边界线段组成临近线段表,然后用松弛匹配操作,完成边与边的匹配。这种方法利用弹性吸收汉字的变形,一个字只用一个样本。 (3)非线性匹配法 非线性匹配法是由Tsukumo等提出的,用以解决字形的位移、笔画的变形等现象。此方法试图克服从图形中正确抽取笔画的困难,以提高正确判别的能力。 2.统计特征 (1)笔画复杂性(ComplexityIndex) 笔画复杂性指数是指文字笔画的线段密度,其定义如下: Cx?Ly/?x(1-1) Cy?Lx/?y(1-2) 式(1-1)和(1-2)中 Cx、Cy一横向和纵向的笔画复杂性指数; Lx、Ly一横向和纵向的文字线段总长度; ?x、?y一横向和纵向质心二次矩的平方根; Cx、Cy分别反应了横向和纵向的笔画复杂性,横多的Cx大,竖多的Cy大。笔画复杂性指数与汉字的位移无关,受字体和字号的影响较小,但易受笔画断裂和粘连的影响,且其分类能力较差,常与另一种粗分类方法“四边码”连用。 (2)四边码(Four-sideCode) 四边码是在汉字点阵图的四周各取一条带,计算其中的文字图像素点数,并将它分成四级,构成一个四元组。由于汉字边框不但含有丰富的结构信息,而且边框部分笔画一般较少,不易粘连,抗干扰能力强,但对汉字的位移和旋转比较敏感,与笔画复杂性指数正好形成互补。 (3)特征点 特征点提取算法的主要思想是利用字符点阵中一些有代表性的黑点(笔画)、白点(背景)作为特征来区分不同的字符。特征点包括笔画骨架线的端点、折点、 学校代码:10259 题目: 专业: 班级: 姓名:学号: 指导教师:上海应用技术学院学士学位论文硬刷题汉字识别技术的研究电气工程及其自动化09103212沈佳骏陈岚 二O一三年六月六日 印刷体汉字识别技术的研究 摘要:印刷体汉字识别技术是一种高速、自动的信息录入手段,成为未来计算机的重要职能接口,还可以作为办公自动化、新闻出版、机器翻译等领域的理想输入方式,有着广泛的应用前景。汉字识别的最终目的是使中文信息能更自然,更方便地输入计算机,以便于进一步处理。实际生活中,大量的书信、报纸、杂志内容需要输入计算机,这就是印刷体汉字识别要解决的问题。本文首先在第一章就汉字识别研究的意义和背景以及对目前存在的问题作了综述。第二章对印刷体汉字的识别过程进行基本概述。第三章对印刷体汉字识别作了详细阐述,论述了印刷体汉字识别的原理和预处理、特征抽取与分析、后处理过程;分析了统计模式识别方法、结构模式识别方法以及人工神经网络模式识别方法;第四章用Matlab对系统进行了仿真;最后在第五章进行全文总结并预测了汉字识别技术研究今后的发展方向。 关键词:汉字识别;特征提取;匹配识别;人工神经网络;Matlab仿真 TheresearchofprintedChinesecharacters recognitiontechnology Abstract:PrintedChinesecharacterrecognitiontechnologyisakindofautomatichigh-speed,informationinputmethod,beetheimportantfunctionsoftheputerinterface,stillcanasofficeautomation,thepressandpublishing,machinetranslation,etc,theidealinputhaswideapplicationprospects.TheaimofChinesecharacterrecognitionistomaketheChineseinputmorenaturalandconvenientsothattheputercouldprocessChineseinformationmoreeasily.Inpractice,largevolumeofletters,newspaper,magazinesneedtobecoveredintoacodedrepresentationoftheinputcharacters.ThatswhatprintedChinesecharacterrecognitioncando.Firstly,inchapter1,thisthesisgiveswhatisthesignificanceofresearchandbackgroundofChinesecharacterrecognitionandintroducetheproblemsweencounterednow.Thechapter2,itisabasicoverviewoftherecognitionprocessofprintedChinesecharacters.Inchapter3,wediscussestheprinciplesandprintedcharacterrecognition,featureextractionandanalysis,thepost-processingprocess,Emphaticallyanalysesthestatisticalpatternrecognitionmethod,structuralpatternrecognitionmethodandArtificialneuralworkpatternrecognitionmethod.Inchapter4,givinganMatlabsimulationconcludesthe
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水库坝基加固处理技术方案
- 热力设备故障诊断与维修方案
- 农特产品冷链仓储绿色运营模式实施方策
- 校园内安全教育稿
- 校园安全教育中学组作文
- 公路路基施工安全管理方案
- 校园期末安全教育论文
- 厦门塑胶操场施工方案
- 企业税收筹划与税收优惠政策执行合同
- 离婚协议中关于房产、股权及子女抚养权合同
- Unit 3 Places we live in单元整体公开课一等奖创新教学设计表格式(5课时)
- 2025年4月自考02204经济管理试题及答案
- 统战工作培训课件
- 泡茶的步骤课件
- 人教版(2024)八年级上册数学全册教案
- 《无机化学》第六版 课件 0绪论
- 水利建筑工程概算定额(上册)2025版
- 重庆医科大学护理学考研大纲
- 品管圈提高痰培养标本留取率
- 《新能源汽车电力电子技术》全册课件
- 护理管理学第五章 人力资源管理
评论
0/150
提交评论