如何将繁体竖排扫描版pdf电子图书转化为可编辑的文本文件_第1页
如何将繁体竖排扫描版pdf电子图书转化为可编辑的文本文件_第2页
如何将繁体竖排扫描版pdf电子图书转化为可编辑的文本文件_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、如何将繁体竖排扫描版 pdf 电子图书转化为可编辑的文本文件2010年8月5日4:01一、背景酷暑难熬,心情烦躁,读书是最好的“清凉饮料”。最近,闲暇时间正在读春秋左传。我读的版本 为李梦生撰、上海古籍出版社出版的左传译注。在读的过程中,总是感觉有的地方没有注释, 只能看译文帮助理解。于是,就想找其它的版本作参考。该书“前言”中提到:“特别需要说明的 是,杨伯峻先生的春秋左传注一书,对我的帮助尤大。”所以,就在网上下载了此书(修订 本)的电子文档。杨伯峻先生的春秋左传注一书是春秋左传的经典必读之书。遗憾的是,此书为繁体竖排,注释 插在正文中,并且没有译文。此书对于大陆读者来说,可能很不习惯。能

2、不能将此书重新排版,采 用更适合大陆读者阅读习惯的格式,重新出版呢?这或许是我的一个梦想,因为杨伯峻先生已经去 世,而且全书有 1800多页。我一时冲动居然想实现这个梦想。我在网上下载的版本是扫描图像制成的pdf 格式,要想重新排版,需要可以编辑的文档。我在网上还没有找到此书可编辑的版本。所以,我就试着自己将这本书 的扫描版本转化为可编辑的版本。二、方法 我在网上看了一些相关的资料,借鉴了别人的一些经验,通过反复试验,终于找到了将繁体竖排扫 描图像的pdf电子图书转化为可编辑文本的方法。1、将扫描版Pdf图书转化为图像文件由于扫描后制成pdf格式的图书,内部的每页都是一个图像,所以必须把其中的

3、图像文件提取出 来,米用OCRS别的方法,才能转化为可编辑的文本格式。转化为图像文件,有两种方法:(1 直接由Adobe Acrobat导出图像文件。我采用的是Adobe Acrobat Pro 9。选择“文件一导出一图像一TIFF功能即可从扫描图像的pdf文中 提取出多个扫描文档(每页一个)。这种方法非常简单适用,推荐使用。之所以要转化成TIFF格式的图像文件,是因为有介绍说 TIFF格式的图像文件,OCR勺识别率高。(2)用 Microsoft Office Document Image Writer 打印生成 pdf文档的图像文件。Microsoft Office Document Im

4、age Writer是Office中带的一个工具。如果在安装 Office时没有安装,对 于2003和2007版本的Office,只须重新安装一遍即可。在需要安装的内容中,在“工具”中选择后 安装即可。我使用的是 Office 2010,在安装内容选项中没有找到这个工具。不知道是版本问题,还 是2010版本本身就没有这个工具。我用 Office 2007安装了此工具,使用正常。因为这就是一个虚拟 打印机,所以可以采用以前版本的。安装时,只选择此工具,其它内容全部不选。这样安装后,可 以保证Office 2010的正常使用。Microsoft Office Document Image Writ

5、er 安装正常后,在 Adobe Acrobat Pro 9中打印时,选择此打印机 即可将pdf格式的图书转化为一个TIFF文档。2、对提取到的图像文件进行处理。此项工作的主要目的是,提高 OCR识别率,减少校对编辑时间。如果扫描文件的质量很高,可以不 进行此项工作。进行此项工作 我之所以要进行此项工作,并不是因为扫描文件的质量不高,而是因为本书为繁体竖排,而且专有 名词下面都带了下划线。就是这些下划线影响了识别率。我在没进行图像处理前进行识别,识别出 来的文本错误很多,需要花费很长时间来进行校对。去掉下划线后,识别率显著提高。花了时间去 掉下划线,节约了校对时间,但是效率却大幅提高了。我采用

6、的图像处理软件为 PhotoFiltre Studio X 10.2.1。这个软件能够满足对扫描文件的处理。我最初 采用的是Windows自带的“画笔”软件,但是存盘后,发现分辨率降低了,以致识别率极低。所以 我最后才选定PhotoFiltre Studio X这个软件。使用其中的选择工具,把下划线和所有污点去掉。3、OCF识别经过比较,我选定了“汉王文本王 文豪7600”(专业版)这个软件。这个软件对于繁体竖排的扫 描文件识别率很高(去掉扫描文件中的下划线后),而且校对功能很方便。这是我没有想到的,说 明汉王的技术确实不错,不愧为“汉王”。最好一页一页地识别。打开需要识别的扫描文件,( 1)

7、在工具栏中选择选项“竖排”、“简繁” 等配置项;( 2)选择工具栏中的“版面分析”分析扫描文件的版面。可以将不需要识别的版面去 掉。版面会影响识别后的排版格式。(3)选择工具栏中的“识别”进行 OCR识别。(4)校对。在 校对窗口中校对文本。( 5)文本输出。可以将识别后的文本输出到 Word 2003,输出到2010可能有 些问题。所以我直接将文本复制到 Word 2010中,在其中重新编辑排版。4、繁体字的输入对于繁体书,在OCF识别后的校对过程中,需要输入繁体字,特别一些生僻的繁体字。对于大陆读 者来讲,输入和处理繁体字非常令人头痛。( 1)繁体字库。要处理繁体字,最好还是装一些繁体字库

8、。我装的有: PMingLiU -Fixed.ttf 、方 正兰亭字库5.0繁体和UniFonts.exe,这些字库在网上搜索下载安装即可,安装到 Windows的Fonts 目录下。 UniFonts.exe 字库是为了采用海峰五笔而安装的。( 2)繁体字的输入 网上介绍了很多种输入繁体字的方法,采用哪种方法取决于你所熟悉的输入法。现在,很多输入 法,输入简体可以自动转换输出繁体。因为我采用的是五笔,所以采用了万能五笔和海峰五笔。万能五笔对于一般的繁体字输入是没有问题的,但是对于生僻一点的繁体字就无法输入了。为此, 我发现了可以支持大字库 Uni code编码的海峰五笔,可以解决繁体生僻字的

9、输入问题。但是对于此 书中的个别生僻繁体字,仍然无法输入。( 3)生僻繁体字的输入生僻繁体字的输入让我伤透了脑筋,总算有了比较好的解决方法。采用海峰五笔可以解决绝大多数繁体字的输入。 对于海峰五笔无法输入或不会拆字的生僻字,我采用的是Word中的插入字符的方法。先在Word中写一个相似的字(部首相同),选择这个字,选择“插入一符号”,即可找 到与这个字相似的汉字,在其中查找,找到后插入。在一个字库中找不到,就只能在另外的繁体字 库中查找了,相当费时间,不过没办法,这是最后一招了。最麻烦的是字库中没有的生僻繁体字,就只能采用造字或其它方法了。三、效果经过一段时间的摸索,上述方法解决了将繁体竖排扫描版pdf图书转化为可编辑的文本文件。目前,我已成功将杨伯峻先生的春秋左传注一书的“前言”部分(近60页, 3万多字)转化为可前,我已成功将杨伯峻先生的春秋左传注一书的“前言”部分(近60页, 3万多字)转化为可编

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论