




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
如何利用OFFICE软件将图片文字转换为文本文字复制本帖链接 飞雨飘 发表于 2006-01-25 14:23:36 此帖被浏览 28147 次,回复 33 次 最后由 飞雨飘 于 2006-01-25 14:43:32 修改 原创如何利用OFFICE软件将图片文字转换为文本文字在日常工作中,有大量的JPG或BMP格式的图片当中包含着文字与表格,如果需要将它们转换为WORD格式,则需要专门的OCR软件,如果没有的话,那就需要自已一个个字的打出来,浪费了大量的时间和精力,现在我们只要使用微软OFFICE2003版软件的话就没必要这么辛苦了。具体操作过程如下:首先手头要有一张JPG或BMP格式的图片,我使用的图片如下图用OFFICE软件中的MICROSOFTOFFICEPICTUREMANAGER软件将其打开。如下图点击导出图片按扭,在“以此文件格式导出”处将格式改为,TIFFTAG图像文件格式(*.tif),点击确定,将格式改为tif格式。然后用MICROSOFTOFFICEDOCUMENTIMAGING软件将此tif格式文件打开,点击将文本发送到WORD按钮,出现下图,并在版式选项中的在输出时保持图片版式不变选项去勾,按确认键。如下图经过ORC转换成WORD。如下图这样,一个从图片转换为文字的过程就基本完成,现在只要修改一下辨认不是很精确的部位就可大功告成了。另注,如果你的画图中有TIF格式,可把图片格式直接转为TIF格式,然后用MICROSOFTOFFICEDOCUMENTIMAGING软件转换为WORD格式。本文于2006-01-2514:43:32.673被飞雨飘修改过。这是本帖的第2次修改将图片文件JPG格式用画图工具读入另存为TIF格式。使用 Microsoft Office Document Imaging,打开已转换好的TIF图片。在 Microsoft Office Document Imaging中,点击工具使用OCR识别文本.在 Microsoft Office Document Imaging中,点击工具将文本发送到WORD .打开发送过来的WORD文档,进行编辑。 如果你的Office不是正版的也可以从网上下载OCR软件但识别效果都不太理想,最好还是自己识别啦! 1.清华紫光OCR V7.5 清华紫光 OCR支持Windows环境下的GB、BIG5、JIS和Shif /soft/6564.html 2.ABBYY FineReader OCR Professional 63 一款OCR软件。为用户提供了现代OCR赤铜的全部功能,给予它们对信息管理的完全控制。一 /soft/24081.htm 3.扫描小精灵 V1.30 Build 2003.03.21 针对OCR的图像增强、虚拟TWAIN、批量扫描.软件实现了 /soft/8242.html 4.Mini Ocr 汉字显示字体识别软件 1.0 本软件是飞涛软件工作室开发的一款免费Ocr软件,主要用于识别图像文件之中,出现的汉字 /soft/27951.htm 5.Mini Ocr 汉字显示字体识别软件 V1.0 本软件是飞涛软件工作室开发的一款免费Ocr软件,主要用 /soft/15933.html 6.奥普印刷体文字识别OCR系统 专业版 a.OCR专业版,OCR全称是光学字符识别技术(OpticalCharacterRecognition,简称OCR)。 /soft/29690.htm中国OCR信息网/风雨春水 2009-06-02 15:31:58 不要通过尚书7号扫描。 使用方法是: 在尚书软件里,打开扫描好的图像,再做识别就可以了。 正版的清华TH-OCR V9.0是带加密狗的。 首先手头要有一张JPG或BMP格式的图片,用OFFICE软件中的MICROSOFT OFFICE PICTURE MANAGER 软件将其打开。点击导出图片按扭,在“以此文件格式导出”处将格式改为,TIFF TAG 图像文件格式(*.tif),点击确定,将格式改为tif格式,然后用MICROSOFT OFFICE DO*ENT IMAGING 软件将此tif格式文件打开,点击工具-将文本发送到WORD按钮,并在版式选项中的在输出时保持图片版式不变选项去勾,按确认键.经过ORC转换成WORD。这样,一个从图片转换为文字的过程就基本完成,现在只要修改一下辨认不是很精确的部位就可大功告成了。软件简介: Mini Ocr 汉字显示字体识别软件首先声明,我不是一个OCR领域的专家。我的经验来自我写Mini Ocr软件的过程。 马飞涛 关于Mini Ocr 软件本软件是飞涛软件工作室开发的一款免费Ocr软件,主要用于识别图像文件之中,出现的汉字显示字体。Ocr的中文含意是光学字符识别。为什么叫Mini呢?因为现有的识别汉字的商业Ocr软件,动辄二三十兆,而本软件解压后,也不过三兆多,身材比较纤小,再加上本软件主要用于识别字体比较小的汉字,所以叫Mini,中文的发音是“迷你”,中文含义是超小型。既然有了商业Ocr软件,为什么还要开发这个软件?不同于商业Ocr软件,本软件是免费的,可以自由使用。第二个不同之处,本软件的识别对象是屏幕出现的“显示汉字”,而不是针对扫描仪扫出来的“打印汉字”。二者有什么不同呢?最重要的一点: 扫描出来的打印汉字的高度和宽度一般都在30多个像素点之上,这是我用画图软件,打开某个商业Ocr的samplessample1.tif,然后一点一点数出来的。从文件名和目录名的中文含意可以看出,这个点数应该是一个典型值。那么,如果用商业Ocr识别屏幕上出现的小五号字,汉字的高度是12个像素点,会出现什么情况呢? 测试方法:用记事本随便写几行汉字,设置字体为小五号字。这大概是看着还算舒服的最小号的汉字字体了(高度是12个像素点),如果再小,字体就很难看了。然后,按拷屏键PrtSc,把屏幕的图像拷贝、粘贴到画图软件中,修剪尺寸后,保存为bmp的格式。然后,我找了两个国内最著名的Ocr软件进行测试,结果让人大吃一惊,识别率几乎为零。把图像放大两倍,再测试,结果仍然很不理想,大概也只有百分之二三十的样子。开发Mini Ocr软件的由来我在开发护花使者反黄图像识别软件的时候,遇到有些图像里,嵌有某些文字,如果能把文字识别出来,图像的含义就很容易让计算机理解了。预算有限,我连扫描仪都舍不得买,就更别想买商业Ocr的开发包了,大概几十万,或者更多,或者别人压根就不卖。况且它们的识别率对小字体几乎为零,不符合我的要求。看来,只好自力更生,重新写一个了。开发Mini Ocr的历程经过三个多月的努力,终于诞生了这款Mini Ocr 软件。第个月做出了汉字识别的核心模块,第个月做出了文章段落切分的算法,并加入了对英文,数字,标点的支持,第三个月继续调整英汉混排和汉字切分的算法,并用MFC 做了一个界面。Mini Ocr的软件架构为了让更多的人能使用到这个软件,我在windows系统下,采用VC进行编程,界面当然只好用MFC写了。软件架构是一个SDI框架下的多窗口切分界面,左上角的窗口是一个CFormView,用来显示常用的按钮;左下角是一个CEditView,用来显示帮助信息;右上角是一个CView,用来显示要识别的图像;右下角是一个CEditView,用来存放识别出来的文字。识别部分采用了工作者线程,以避免显示界面的主线程僵掉。识别部分是整个软件的核心,与操作系统无关,可以单独摘出来放在dos窗口里跑,也可以移植到Linux系统中跑。汉字识别软件的难点所在:英文识别有一些开放源码的软件,我看过的软件,主要采取两种识别方法:基于规则的方法,和采用神经网络方法。而这两种方法,在识别汉字时,都不宜采用。因为汉字数目众多,最常用的国标2312的一级汉字就有3755个。如果借用基于规则的方法,需要对三千多个汉字,逐一人工写出分类规则,工作量太大,我一个人无法完成;如果采用神经网络的方法,这么多汉字,我不敢想象,需要多少层网络和神经节点呀!如果采用网格法,抗位移的效果太差;而采用不变矩法,识别人和入,土和士,相似度又难于控制。除此之外,汉字切分也是一大难题。英文宽度大概只有汉字一半,标点符号大概只有汉字三分之一宽,数字大概只有四分之一的宽度。而汉字本身又有二分字,和三分字。某些字,如“啊”,字体小时可能是独体字,字体大些,变为二分字,字体再大,又变为三分字。加上汉字与汉字之间的粘连、汉字与英文的混排,英文与英文的粘连,造成汉字切分模块的算法,甚至比汉字识别模块的算法还要复杂得多。为了克服这些难点,并加快识别速度,我在算法设计时,采用了一些优化和简化的策略。经过实践检验,证明行之有效。Mini Ocr进行汉字识别的策略:1) 采用复合特征的分类方法。2) 字符集选择3755个一级汉字。3) 字体选择最常用的宋体。4) 字号选择从小五号到一号汉字,主要针对20个点之
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2025学年度广东省佛山市南海区高一第二学期期中提升学业水平测试历史试题(含答案)
- 二十四节气小寒课件2
- 杭州市2023反射疗法师大赛复习题复习试题
- 汽车发动机装配与检测课件:活塞的结构
- 跨领域设计服务协议书(2篇)
- 毕业综合实践报告会计
- 2025年即时配送行业成本优化策略报告:配送路径优化与效率提升研究
- 发泡轮生产扩建项目环境影响报告表
- 2025年互联网直播行业发展趋势研究报告:直播经济与产业发展
- 2025年互联网医疗平台在线问诊平台与慢性病管理服务融合报告
- 罗伊护理个案模板
- 速达ERP-5000数据库表结构
- 油气藏类型、典型的相图特征和识别实例
- 《高尿酸血症》PPT课件(PPT 48页)
- 盐田区义务教育阶段学位住房锁定
- 《议程设置理论》
- 取力器的设计设计说明书
- CA6132普通车床使用说明书
- 铸造厂各岗位职责标准xls
- 电缆厂物料编码规则(共8页)
- (完整)中考英语首字母填词高频词汇
评论
0/150
提交评论