毕设开题报告范文_第1页
毕设开题报告范文_第2页
毕设开题报告范文_第3页
毕设开题报告范文_第4页
毕设开题报告范文_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、*大学本科毕业设计(论文)开题报告论文题目:基于OCR的名片识别技术研究学 院: *学院 专 业: *工程 年 级: 201*级 班 级: * 学 号: * 姓 名: * 指导教师: * 本科毕业设计(论文)开题报告专业: * 班级:*学号姓名指导教师报 告 题 目基于OCR的名片识别技术研究题目来源(划)科研生产实验室专题研究企业联合论文类型(划)工程设计类实验研究类软件开发类其 他 报 告 日 期2015年 月 日 报告地点: 一、选题目的与背景名片已经成为一种简单且美观的信息载体,扮演着重要的角色,日常生活和商务活动中,它具有介绍、沟通、留存纪念等多种功能,是当代人际交往中不可缺少的名字

2、的派生物。当下手机、掌上电脑笔记本、电子记事簿以及 PC 机都能够完成对于名片的管理,但是经过手动方式输入大量的名片不仅仅是浪费时间,同时也浪费人的体力,除此之外也不能保证信息的正确性和完备性,这就会使得日常生活中经常用到的设备,如手机、掌上电脑及电子记事簿等对名片信息的管理和使用大减折扣。于是急需开发出一种高识别度、易于操作和管理的名片识别系统,使终端设备能够自动将名片中的内容进行保存,便于人们使用6,7。基于 OCR 技术的名片识别方法可解决上述问题,其优点是识别准确率高、复杂低和速度快,适用于各种版式的名片。所谓的 OCR 技术指的是光学文字识别,它是 Optical Character

3、 Recognition 的简称,是利用扫描把所有书籍、文稿及材料进行扫描,再对图片文稿做一下研究分析,取得字符和版面上信息的一个过程3,4。因此,采用 OCR 技术进行名片识别,并解决已有名片识别方法中存在的问题,具有非常重要的实际意义。二、国内外研究现状汉王公司于 1999 年推出了第一个中文名片识别与管理系统,历经 9 年的发展,功能越来越强大,识别技术水平不断提高,成为继 PDA、手机后又一个个人资源管理必备工具,目前在国内市场上销售的中文名片识别系统有北京汉王科技有限公司的汉王名片通、台湾蒙恬公司的蒙恬名片王、清华紫光公司的紫光名片大师、新加坡维优公司的维优名片管家等。“汉王名片通”

4、的研发起步最早,识别率最高,从 1999 年开始已开发出 10 几个版本,占中国大陆中文名片识别市场份额的 90%以上4。目前,有一些文献讨论名片的识别方法,文献8提出了一种多阶段识别方法,采用两种不同类型的神经网络识别中文名片;文献9构造了一个完整的中文名片识别系统,但只能处理纯横排或纯竖排的名片,而且假设已知待识别的字体;文献10采用模板匹配的方法分析名片版面,因此只能处理固定版面的名片。这些文献没有考虑构造实际系统可能会遇到的困难,比如:名片版面复杂,文字行横竖混排;行内文字排版方向不同;字符粘连;字体、字号变化频繁;汉英双语混排;简繁混排。由于名片识别系统的关键在于字符识别与版面分析上

5、,所以在此重点介绍版面分析与字符识别的研究现状。版面分析技术,己有四十多年的历史,八十年代早期,版面分析技术的初期研究大多集中于对布局结构较简单的文本文档页面进行分割,到九十年代初,对文档内部对象进行逻辑标识的研究开始逐步展开。目前,版面分析技术的研究已发展到针对各个不同领域的文档采用不同的技术,多角度地科学研究,并解决实际问题2。字符识别的研究,早在 1929 年,Taushek 就在德国获得了一项有关 OCR 的专利。据记载,印刷体汉字的识别最早可以追溯到 60 年代5。1966 年,IBM 公司的 Casey 和 Nagy 发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的

6、模板匹配法识别了 1,000 个印刷体汉字。70 年代以来,日本学者做了许多工作,其中有代表性的系统有 1977 年东芝综合研究所研制的可以识别 2000 个汉字的单体印刷汉字识别系统;80 年代初期,日本武藏野电气研究所研制的可以识别 2300 个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平。此外,日本的二洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统。 我国在 OCR 技术方面的研究起步较晚,在 70 年代才开始对数字、英文字母及符号的识别进行研究,70 年代末开始进行汉字识别的研究,到 1986 年汉字识别的研究进入一个实质性的阶段,取得了较大的成果,不少研究单位相

7、继推出了中文 OCR 产品,在中文信息处理领域有代表性的清华大学,汉王公司等都推出了各自代表性的产品,其中包括汉王的尚书五号、六号,汉王表格自动录入系统,蒙恬 OCR 文字扫描辨识系统,清华文通的 TH-OCR97, TH-OCR2000、清华紫光的紫光 OCR6,7。这些软件在文字识别方面,从识别速度和识别率上看,基本都达到了实用的效果,到目前为止,印刷体汉字识别技术和系统性能有了长足进步,系统的稳健性也得到进一步提高。三、主要研究内容和方法1. 研究内容以印刷体纸质中文名片图像作为信息来源,对名片图像进行二值化、平滑去噪、倾斜校正等预处理1,获得能够达到识别要求的图像数据。然后研究名片版面

8、分析方法,对名片的文字区域进行划分。通过对文本行图像进行字符切分,并进一步提取字符特征进行特征匹配,与数据库中的文字进行比对,最终完成中文名片文字的识别。2. 研究方法(1) 图像预处理方法由于输入设备得到的数据不可避免的存在各种外在干扰(名片图像的墨迹的浓淡、光洁度等),因此在对原始名片图像进行识别之前,尽可能将干扰因素的影响降低,需要对名片图像进行包括二值化、平滑去噪、倾斜校正在内的预处理操作,从而获得能够达到识别要求的图像数据。(2) 名片版面分析方法名片版面分析将名片图像切分为不同区域,再把其划分为不同的类型,如图片块、文本块和线条等。虽然名片图像的版面构造多种多样,仍能够将它划分成三

9、类图像组合: 1. 文字块:完全由字符构成,它包含中文、字母、数字以及各种标点符号等。 2. 线条块:有些名片图像中含有线条,用来醒目单位名称以及有关信息等,通常位于姓名与单位名称间或单位名称与地址之间。 3. 图形图片块:由各种线条构成的图案,如单位的标识等。有时,图片块中包含字符或线条,本文将其与图形块和线条分开处理,因为图片块中的信息也是有用的。(3) 字符切分方法在名片信息分类过程中能够根据文本信息和位置信息增加分类的准确率,然而如果字符识别准确率较低,致使该信息丢失了原有的使用价值。于是,为了提升整个名片识别系统的性能,增加字符信息的识别准确率是非常重要的一个环节。对于中文名片字符切

10、分往往包含对字符的粗切分和精细切分两个方面: 第一,对字符行进行垂直投影,依据投影图所获得的空白间隙对单个字符做粗切分,粗切分操作时会存在避免不了的切分错误; 第二,对已切分的字符判断类别;利用识别结果对字符进行精细切分,包括汉字部件的合并和粘连字符的重新切分。(4) 字符特征匹配方法将识别后的字符进行特征归类,分离出名片中各信息项,从而完成信息的归类与管理,然而对于较复杂的名片版面,采用已往的模板匹配方法进行信息分类很难达到实际的需求,则需要利用知识规则的理解进行判别。将图像里包含的各个信息项的特征分离出来,提取字符特征进行特征匹配,与数据库中的文字进行比对,最终完成中文名片文字的识别。 四

11、、期望实现的研究目标能够对印刷体中文名片图像进行有效预处理,对名片版面进行分析,对文本行进行字符切分,并最终识别中文名片的文字。五、主要技术指标1. 实现3种图像预处理算法;2. 实现1种名片版面分析方法;3. 实现文本行的字符切分;4. 完成名片文字识别。六、进度和要求1-2周 查阅相关资料,了解毕业设计的基本内容;3-4周 了解图像预处理、名片版面分析方法和中文字符切分方法;5-6周 完成3种图像预处理算法;7-8周 完成1种名片版面分析方法; 9-10周 实现文本行的字符切分; 11-12周 实现一种字符特征提取方法和特征匹配方法;13-14周 完成名片文字识别;15-16周 撰写毕业设

12、计论文;17周 完成毕业答辩。七、主要参考书及参考资料1 (美)冈萨雷斯. 数字图像处理 MATLAB版(中文版). 电子工业出版社, 2009.12.2 于万波. 基于Matlab的图象处理. 清华大学出版社, 2011.6.3 何耘娴. 印刷体文档图像的中文字符识别. 燕山硕士学位论文, 2011.4 金贞. 汉字特征提取及识别技术的研究. 上海交通大学硕士学位论文, 2010.5 郇政永. 基于OCR的中文文本校对研究. 北方工业大学硕士学位论文, 2011.6 索玉秀. 基于OCR技术的名片识别方法研究.哈尔滨理工大学硕士学位论文, 2015.7 武玉坤. 基于OCR技术的名片识别系统

13、的研究. 长沙理工大学硕士学位论文, 2008.8 H C Fu, C S Chen, K T Sun. Recognition of Chinese Business CardsC. Proc. of 5thOCR & DA conference,Hshinchu,Taiwan,1996, 169-1759 Yaw-Huei Chiou, His-Jian Lee .Recognition of Chinese Business CardsC. Proc. of 4th ICDAR, Ulm,Germany,1997, 1028-103210 X Lin, X Ding, Y Wu. Aut

14、omatic Input System for Chinese Business CardsC. Proc. of 7th ICCPOL, Hong Kong,1997, 277-280指导教师意见: 签名: 年 月 日开题评议小组成员: 开题评议小组意见:(包括对论文的选题、难度、进度、工作量、论文形式意见):1. 论文选题: 有理论意义; 有实用价值; 有理论意义与实用价值; 意义不大。2. 论文的难度: 偏高; 适当; 偏低。3. 论文的工作量: 偏大; 适当; 偏小。4. 进度: 可行; 不可行;5. 学生开题报告中反映出的综合能力和表达能力: 好; 较好;一般; 较差。6. 论文形式意见: 可行; 不可行;7. 对论文选题报告的总体评价: 好; 较好; 一般; 较差。(在相应的方块内作记号“”)组长签名: 评议结论是否同意论文选题报告: 同意; 需重做(在相应的方块内作记号“”) 评议小组组长签名: 年 月 日学院意见教学副院长:年 月 日

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论