




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
OCR:如何把扫描版pdf转变成文字版?2011-07-31 11:28:39 我经常在阅读扫描格式pdf的时候,把它们抓取为文字格式,当然得是好书。可能有朋友不清楚ocr,它就是把文字从图像中识别抓取出来。文字版pdf的好处就是便于传播、引用,视觉上清晰,具有更大的处理空间,乃至可以二次制作,比如出于手机什么的阅读需要。但是,ocr过程中的文字识别率不会是100%,需要进一步校对,所以在这个意义上粗制滥造的文字版pdf还不如扫描原版的价值。 我分享自己的一点ocr经验,也是想更多的朋友制作文字版好书,也因为很多的朋友不熟悉ocr。 ocr软件很多,这里只根据自己的经验进行推荐,而忽略其他。首先说单页pdf的ocr 这种单张图片式的文字抓取我强烈推荐JOCR。JOCR的优点是免费绿色轻量(绿色就是不需要安装),体积小到几乎不可思议的不到100kb。然后不可想象的是,这么小的软件其识别率还非常高,而且可以抓取20多种语言,包括中文繁体,夫复何求。 JOCR(原版、汉化版、使用说明、MODI及“繁体中文识别”文件)下载: /s/uImX 网路上有汉化版,其实不必。它常用功能很简单,一般就是第一步“Capture Region(选取需要ocr的区域)”,然后在语言框选择语言,最后“Recognize(识别)”,于是就为你蹦出一个txt文本,接下去你还可以就着这文本进行校对。 注意: 1、要成功使用JOCR,首先得保证在安装office时选择了“完整”安装选项,因为JOCR的运转是依托于Microsoft Office Document Imaging (MODI,中文OCR辨识引擎)的。Office 2003的缺省安装是第一次使用MODI时安装,Office 2007的缺省安装是不装,都需要自己主动安装一下。如果你没有完整安装office,也可以只是再安装一下MODI,微软官方有下载。 2、如果需要抓取繁体,而你使用的是简体windows系统(即比如安装的是简体中文Office 2003),那么请将下列“繁体中文识别”文件复制到C:Program FilesCommon FilesMicrosoft SharedMODI11.0 TCCODE.UNI TCPRINT.DAT TCPRINT2.DAT TCSERHT.DAT TCTREE.DAT TW_BU.DAT TW_UB.DAT TWBIG532.DLL 然后双击reg文件导入注册表,ok。注意,导入注册表时必须先关闭所有MODI窗口。 此时,在MODI的OCR选项卡里,“OCR语言”中即可看到“中文(繁体)”,也就是说依托MODI运作的ocr软件具有了繁体识别功能。 或许你要问,JOCR的使用特别是繁体不免麻烦了一点点。我的回答是,推荐JOCR正是因为它要利用到MODI及其繁体识别功能。一般的ocr软件往往对繁体无措或者效果不如意,而微软MODI的效果非常的理想,我上一篇日记马克思披上科学外衣的诗人革命家用的就是它,几乎就没有改正几个字(原文是竖排的)。所以说磨刀不误砍柴工,而且是微软自带的,省事省心。然后说pdf批量ocr 一本pdf格式的书籍有很多页,自然要用批量才行。一般认为最强大的专业ocr软件是ABBYY FineReader,“世界排名第一的OCR文字识别工具”是也。ABBYY FineReader不依托MODI运作,不免费体积也很庞大,不过微软免费的MODI才5M多一点点。一个好状况是,热心的网友已经制作了中文绿色版,见“最好的OCR识别软件:ABBYY FineReader中文绿色版”/abbyy-finereader/。我自己比较ABBYY FineReader与MODI的效果,个人觉得MODI略胜一筹(主要在文字识别率上),至少难分上下。MODI抓取的结果只是文字,没有字体版式啥的,而ABBYY FineReader貌似有还原版面的追求,所以可能反而把问题复杂化(特别是在word中作修改可能叫你崩溃,当然你需要版面什么的另当别论)。 所以有鉴于此而推荐采用微软自带的MODI。 MODI的一般使用方法是:在打开的pdf文档“文件”-“打印”-“名称”中选择“microsoft office document imaging writer”,打印你需要的(所有)页面(这个乃至后边生成的文件地址最好在桌面一类,不然找起来费神)。于是,它生成一个后缀名为mdi的文件。你打开这个mdi文件,在“工具”中选择“使用OCR识别文本”,然后开始可能是很漫长的识别过程,电脑不给力的话一本数百页的书可能漫长到两三个小时。识别结束后,你再在“工具”中选择“将文本发送到Word”,然后它为你生成一个后缀名为htm的文件,里头就有你想要的文字了。 关于ocr繁体中文,就需要用到上边“繁体中文识别”的方法。在复制拷贝那几个文件后,你打开mdi文件,在“工具”-“选项”-“OCR”中就能看到“中文(繁体)”选项,需要时选中即可。 也许,把一本扫描版的pdf转换成文字版的pdf,最核心的部分其实是校对。如果那个文字版内容错误如毛毛,可真叫人纠结。只是对于大部头书籍校对的工程很有些浩大,当然也可以叫你静心精读,何乐不为。分享会让你心情愉快。朋友如果校对也好了,要分享,那还得把版面排好,至少得比我强一点点(比如那个马克思披上科学外衣的诗人革命家pdf),否则又是一块油炸鸡肋。一般地,排版的工具手头的word就够用,况且很多pdf制作软件是从word直接转pdf,很方便实在。 对于word转pdf,一般都采用pdf打印软件,就是在word打印中选择相应的打印机直接就打印成pdf,如下图。我用过的Word to PDF Converter效果很不错,但是它不免费,而且上次碰到一个字的字体嵌入错误()。Word to PDF Converter安装后会在word工具栏生成图标,见下图。pdfFactory Pro的功能和效果也不错(对DFKai-SB字体不支持,那可是我的大爱),而TinyPDF这种在视觉效果上就差强人意了。这里分享一下Word to PDF Converter v3.0及其破解与配套驱动,pdfFactory Pro 4.10 简体注册中文版及其破解(对杀软可能报毒,或者还需要从杀软中排除)。 下载地址:/s/uIPu 如果你使用的是word2010,恭喜你,它已经能够直接另存为pdf(2007弄个加载项Save As PDF and XPS也可以)。好久得去用用,看看能不能解决上边遇到的两个问题,如果能,其他的pdf打印软件就要
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 室外健身点管理制度
- 家政员薪酬管理制度
- 应加强合同管理制度
- 张掖市保洁管理制度
- 往来帐对帐管理制度
- 微商城销售管理制度
- 快递寄存点管理制度
- 怎样编考勤管理制度
- 总医院绩效管理制度
- 总裁办绩效管理制度
- 示范区城区控制性详细规划说明书
- 马鞍山二中理科创新人才实验班招生考试物理试题
- CJJT 182-2014 城镇供水与污水处理化验室技术规范
- 福建省2024年中考英语真题(含答案)
- GB/T 44198-2024空间站科学实验系统集成与验证要求
- 中考物理最后一课
- 2024年四川省凉山州“千名英才.智汇凉山”行动第二批引才395人历年(高频重点复习提升训练)共500题附带答案详解
- 安徽省马鞍山市2024-2025学年高一数学下学期期末考试试题含解析
- 【解决方案】动力环境监控系统【动环监控】
- 劳务班组施工合同范本(2024版)
- 北京市西城区2023-2024学年五年级下学期期末数学试卷
评论
0/150
提交评论