windows环境下编译Tesseract-OCR.docx_第1页
windows环境下编译Tesseract-OCR.docx_第2页
windows环境下编译Tesseract-OCR.docx_第3页
windows环境下编译Tesseract-OCR.docx_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

windows环境下编译Tesseract-OCR概述最近要用java实现一个验证码识别系统,选了半天之后最终决定用Tesseract-OCR作为识别引擎。既然是java+Tesseract-OCR,自然就首选Tess4J。由于Tess4J直接且仅提供了编译成dll的3.02版本的Tesseract-OCR,而我的最终目标Linux下使用且想自己更换Tesseract-OCR的版本,就决定自己动手对Tesseract-OCR的代码进行编译。而这篇文章就是这次研究的中间产物。虽然Tess4J目前支持的是Tesseract-OCR 3.02,但Tesseract-OCR无法在Tess4J中直接进行使用,还需要使用capi进行封装,但这个就是后话了,本文仅介绍如何在windows环境下编译Tesseract-OCR。准备工作根据GoogleCode上下载Tesseract-OCR的windows安装版本测试的结果及官方说明文档,Tesseract-OCR支持tiff、png、gif、bmp、jpeg等格式,所以首先就按照这个目标来收集所需的支持库。由于最终目标是在Linux下编译成功,所以我选择了msys+tdm-gcc来模拟Linux下的编译过程。需要下载的库有:1) zlib-1.2.72) libpng-1.5.103) giflib-4.1.64) libungif-4.1.4(这个似乎在最终的编译过程中没有起作用)5) jpeg-8d6) jbigkit-2.07) tiff-3.9.58) libwebp-0.1.39) leptonica-1.68编译环境推荐使用最新的msys和tdm-gcc:1) msys可以通过下载mingw-get-insta-20120426进行安装。2) tdm-gcc推荐使用4.5.2版本。Tesseract-OCR 3.02可以通过svn获取,地址是:/svn/trunk编译本节所列出的为完整的编译过程及步骤顺序,请按照顺序进行。以下所述步骤均在msys+tdm-gcc4.5.2测试通过。执行命令前,请先解压缩,并进入解压缩后的目录。zlib-1.2.7解压后进入代码目录,执行以下命令:./configuremake -f win32/makefile.gccmake -f win32/makefile.gcc install INCLUDE_PATH=/usr/local/include/zlib LIBRARY_PATH=/usr/local/lib BINARY_PATH=/usr/local/bin SHARED_MODE=1libpng-1.5.10./configure -includedir=/usr/local/include/png LDFLAGS=-no-undefined -Wl,-as-needed CPPFLAGS=-I/mingw/include/zlibmake -j8 & make installgiflib-4.1.6./autogen.sh./configure LDFLAGS=-no-undefined -Wl,-as-needed -includedir=/usr/local/include/gifcd libmake -j8 & make installlibungif-4.1.4./autogen.sh./configure LDFLAGS=-no-undefined -Wl,-as-needed -includedir=/usr/local/include/ungifcd libmake -j8 & make installjpeg-8d./configure LDFLAGS=-no-undefined -Wl,-as-needed -includedir=/usr/local/include/jpegmake -j8 & make installjbigkit-2.0 jbigkit由tiff组件所使用,虽不是必选项,但为了保证过程的完整这里也顺带一提。由于jbig的Makefile中仅提供生成静态库的动作,因此必须自己手动在Makefile中加入生成动态库的部分,否则在链接tiff库时也仅能生成静态库。从而影响到leptonica的链接。tiff-3.9.5./autogen.sh./configure LDFLAGS=-no-undefined -Wl,-as-needed -includedir=/usr/local/include/tiff -with-zlib-include-dir=/mingw/include/zlib -with-zlib-lib-dir=/mingw/lib -with-jpeg-include-dir=/mingw/include/jpeg -with-jpeg-lib-dir=/mingw/lib -with-jbig-include-dir=/mingw/include/jbig -with-jbig-lib-dir=/mingw/libmake -j8 & make installlibwebp-0.1.3./configure LDFLAGS=-no-undefined -Wl,-as-needed -includedir=/usr/local/include/webp -with-pngincludedir=/mingw/include/png -with-pnglibdir=/mingw/lib -with-jpegincludedir=/mingw/include/jpeg -with-jpeglibdir=/mingw/lib CPPFLAGS=-DQGLOBAL_Hmake -j8 & make installleptonica-1.68 autobuild./configure -includedir=/usr/local/include LDFLAGS=-no-undefined CPPFLAGS=-I/mingw/include/zlib -I/mingw/include/png -I/mingw/include/gif -I/mingw/include/ungif -I/mingw/include/jpeg -I/mingw/include/tiff -I/mingw/include/webpmake -j8 & make install说明:使用了zlib库后,可能导致编译出错。这时请修改pngio.c:在#include png.h后添加#ifdef HAVE_LIBZ #include zlib.h #endif要想保证Tesseract-OCR最终编译的版本能支持png、gif、tif、jpeg格式的图片,请确保以上步骤的正确,并将生成的库文件放在正确的目录下。tesseract-3.02./configure -includedir=/usr/local/include/tesseract -with-extra-includes=/mingw/include/leptonica -wit

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论