ocr技术调研及进展汇报.ppt_第1页
ocr技术调研及进展汇报.ppt_第2页
ocr技术调研及进展汇报.ppt_第3页
ocr技术调研及进展汇报.ppt_第4页
ocr技术调研及进展汇报.ppt_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

OCR技术调研及进展汇报 OCR介绍 OCR识别技术通过对图片中的文字进行提取识别 转换成可检索的数据 OCR基于汉字的识别最早见于20世纪60年代 采用基于模版匹配的方法 由IBM公司的Casey和Nagy于1966年提出 我们国家开始于70年代 到了90年代 中文OCR技术慢慢走商业市场 开始在实际中应用 OCR商业产品 目前国内水平较高的有清华文通 汉王 尚书 国外是ABBYY和IRIS 其产品各有千秋 但是都价值不菲 效果基本都能够达到95 扫描清晰的话正确率可以达到99 以上 腾讯云ocr据说已经达到99 99 OCR选型 Tesseract 开源OCR引擎 也有命令行工具 HP开发Google接手 3 0之后支持训练 4 0以后开始支持深度学习训练C 工程OCRopy 基于训练的OCR引擎 项目比Tesseract更年轻Python工程MicrosoftOCRLibrary 有中文版Windows8 1之后的版本内置OCR引擎 可用于桌面windowsapp不知道效果如何GNUOcrad 命令行工具 有JS移植 可用于前端GOCR 命令行工具 有JS移植 可用于前端CuneiformforLinux 本来是个Windows软件 这是Linux的移植 2011年4月已经停止维护 Tesseract的技术优势 开源Tesseract的OCR引擎已作为开源项目发布在GoogleProject 是完全开源的 多语言支持通过不同的语言训练库可以支持多种语言 包括中文 日文 多平台支持该项目目前支持Windows Linux和MacOS等主流平台 支持样本训练可以通过jTessBoxEditor工具对样本进行训练 而生成语言文件供Tesseract使用 从而提高识别精确度 基于项目选型的几点要求 开源 免费 识别率高 所以选择了Tesseract的OCR引擎 移动端OCR开源工程 tess two Tesseract的安卓移植microblink 免费的移动OCR SDK OCR问题分类 简单文本图片业界能做到比较好效果复杂图文复杂图文的文字检测和识别压力很大 非常具有挑战性结构化图文不光是ocr 需要结合其他方法定位 OCR流程 输入图像 图像预处理 特征提取和降维 分类器 分类得到识别结果 后处理纠正 输出 图像预处理 图像增强锐化 去雾 修复图像二值化黑白化 图像预处理 OpenCV 图像处理老大哥 OpenCV3中有SceneTextDetection值得一用 Libccv 现代图像处理库 被很多人推荐 实现了精选的若干个图像处理算法 干净容易移植 其中StrokeWidthTransfor尤其有用 lswms 分行检测 OCRopus 基于神经学习网络算法的布局分析库 TiRG 文字区域检测库unpaper 检测文字和旋转 用的是Houghtransform算法 Tesseract识别过程图 Tesseract识别关键技术 传统方法和深度学习方法对比 Tesseract训练 下载工具jTessBoxEditor1 自己扫描获取样本图像2 合并样本图像3 生成BoxFile文件4 手工矫正生成语言库文件5 使用训练后的语言库进行识别 Tesseract支持增量训练 通过输入小数据集进行优化 将不同的训练文件合在一起 可小幅度提升效果 后处理语义纠正 利用语义模型对一些错误识别进行纠正大树据 大数据仼小二 王小二 meta code 200 message 识别成功 data result 云计算 人工智能等技术 探索构建可灵活扩展的网站架构 创新服务模式 打造智慧型政府网站u5 集约节约 加强统筹规划和顶层设计 优化技术 资金 人员等要素配置 避免重复建设 以集中共享的资源库为基础 安全可控的云平台为依托 打造协同联动 规范高效的政府网站集群 二 职贵分工 一 管理职贵 国务院办公厅是全国政府网站的主管单位 负责推进 指导 监督全国政府网站建设和发展 各省 区 市 人民政府办公厅 国务院各部门办公厅 室 是本地区 本部门政府网站的主管单位 实行全系统垂直管理的国务院部门办公厅 室 是本系统网站的主管单位 主管单位负责对政府网站进行统筹规划和监督考核 做好开办整合 安全管理 考核评价和督查问贵等管理工作 地市级和县级人民政府办公厅 室 承担本地区政府网站的管理职责 中央网信办统筹协调全国政府网站安全管理工作u中央编办 工业和信息化部 公安部是全国政府网站的协同监管单位 共同做好网站标识管理 域名管理和ICP备案 网络安全等级保护 打击网络犯罪等工作 二 办站职贵u1 政府网站的主办单位一般是政府办公厅 室 或部门办 4 Tesseract效果 汉王效果 code 0 result 云计算 人工智能等技术 探索构建可灵活扩展的网站架构 创 u000a新服务模式 打造智慧型政府网站 u000a5 集约节约 加强统筹规划和顶层设计 优化技术 资金 u000a人员等要素配置 避免重复建设 以集中共享的资源库为基础 u000a安全可控的云平台为依托 打造协同联动 规范高效的政府网站 u000a集群 u000a二 职责分工 u000a 一 管理职责 u000a国务院办公厅是全国政府网站的主管单位 负责推进 指 u000a导 监督全国政府网站建设和发展 各省 区 市 人民政府办 u000a公厅 国务院各部门办公厅 室 是本地区 本部门政府网站的 u000a主管单位 实行全系统垂直管理的国务院部门办公厅 室 是本 u000a系统网站的主管单位 主管单位负责对政府网站进行统筹规划和 u000a监督考核 做好开办整合 安全管理 考核评价和督查问责等管 u000a理工作 地市级和县级人民政府办公厅 室 承担本地区政府网 u000a站的管理职责 u000a中央网信办统筹协调全国政府网站安全管理工作 中央编 u000a办 工业和信息化部 公安部是全国政府网站的协同监管单位 u000a共同做好网站标识管理 域名管理和ICP备案 网络安全等级 u000a保护 打击网络犯罪等工作 u000a 二 办站职责 u000a1 政府网站的主办单位一般是政府办公厅 室 或部门办 后期工作 本周可以完成产

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论