版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、TH-OCR 2009文通数据录入工厂 ChenJZ1编辑ppt产品概述 随着信息社会的发展,科技的进步,目前,我国的信息产业,面临着电子出版、Internet网上出版、建立数字图书馆的新型发展。我国现有常见报刊3000余种,各类杂志4500余种,报刊、杂志的电子出版已经成为媒体潮流和竞争的热点。百科全书、地方志以及建筑、金融、医药、法律等各行各业的档案资料、行业信息也都有待于数字化和电子出版;数字图书馆建设也成为国家关注的重点项目。 如何以低成本、快速度、高质量地将我国浩如烟海,取之不竭的文档资料和行业信息数字化,是“TH-OCR 2009文通数据录入工厂”能够解决的问题。TH-OCR 20
2、09文通数据录入工厂是在国家863计划、国家自然科学基金长期支持下,清华大学电子工程系智能图文信息处理研究室长期汉字识别研究工作的基础上,在八六三计划863306ZD03021重点课题和国家自然科学基金项目69682003的支持下开发完成的。清华大学电子工程系的汉字识别技术一直处于国内外领先地位,是海量数据电子化首选,图书馆数据电子化必备,可以全方位实现与大型报社以及数据加工企业的立体链结与无缝合作。 2软件功能识别核心TH-OCR 2009文通数据录入工厂内置文通科技最新研发的高性能文字识别引擎,中文汉字识别率达99.8%以上。英文、日文、韩文的识别率居世界领先水平。Unicode编码采用U
3、NICODE国际编码标准。系统可在一个统一的平台下,同时处理包括中文、日文、韩文、英文在内的多种文字的识别和校对修改。XML技术系统基于开放式的XML数据结构,可以对数据进行扩充和再定义。支持第三方开发厂商方便地进行文档数据的转换、迁移和再利用。3版面还原强大的版面还原技术,可将识别后的报刊、杂志、图书等多种形式的文档,通过还原字体、字号、版面位置、字体颜色等信息以原版原式呈现在读者面前,最终生成优质的全息PDF文档。集字校对集字校对是TH-OCR 2009文通数据录入工厂特有的文字校对技术,该技术打破了传统校对工具图像与识别结果文本比对显示的模式,将多篇文档中所有识别结果相同的字符图像集中呈
4、现在一个视图中,给校对人员强烈的视觉冲击,让错字自动“跳”入校对人员的眼中,避免了校对人员因陷入文档的上下文语境而产生视觉疲劳,引起的校对准确率下降。同时,由于常用汉字集中在3000-4000个左右,面对海量文字的校对时,不会因文字量的上升带来相应的校对量的上升,仍只需校对这几千个不同的汉字,明显提高工作效率。4增量识别增量识别功能允许用户只识别手工编辑修改过的或新增加的区域,而保留其他已经完成校对的文字区域,为用户使用提供最大的灵活性与方便性。自学习针对古籍、科研等特殊领域文档中经常出现的特殊文字,即使不在国家标准范围以内或者TH-OCR字库中并没有支持,用户也可通过自学习功能,将这些文字的
5、图像学习进入系统,使得调整后的核心可以支持这些文字的识别。双层PDF批量制作将指定的图像或者文件内的图像批量转化为双层可检索PDF。5全新简捷的界面页面视图区文本视图区缩略图和列表栏图像视图区索引栏工具栏6步骤一:导入图像TH-OCR 2009可以通过直接连接扫描仪来得到扫描文件,也可以直接从本地或者网络文件夹中导入已存在的图像文件。 TH-OCR 2009可以创建一个工程,然后在工程中创建文件夹或者直接导入页,可以对整个工程和工程内的文件夹进行批量处理、识别以及导出扫描图像导入已存在的图像7步骤二:图像处理TH-OCR 2009提供了简单的图像处理功能,可以满足基本的图像处理需求旋转图像,可
6、以将扫描得到的图像或者导入进来的图像进行旋转来得到正确的图像阅读方向删除区域,对不需要的区域可以该功能将区域抹白裁剪图像,如果只需要保留图像的某一区域,可以使用裁剪功能反转图像,对一些黑底白字的图像,可以使用该功能使其反转变成白底黑字的图像倾斜校正,对扫描时因放置不当而造成的图像倾斜可以进行自动或者是手动倾斜校正,通过增强图像质量,提高识别率8图像处理实例 反转图像 倾斜校正 裁剪 删除区域9TH-OCR 2009可以对如杂志、书本、报刊等进行自动版面分析。TH-OCR 2009将版面分为横排文本、竖排文本、图像、表格四种类型,正确的版面分析可以提高识别效果。用户也可以根据需求,进行手动版面分
7、析。步骤三:版面分析 竖排文本 图像 表格 横排文本10自动调整区域边界对黑白二值的图像,TH-OCR 2009可以自动进行区域调整,使区域自动适应到区域的边界。11删除被覆盖的区域该功能可以在进行新区域划分的时候,自动将新区域所覆盖的区域删除。12遗漏检查对于版面较多和比较复杂的页面,例如报纸,进行版面分析时,可能会有遗漏。通过遗漏检查则可以很清楚的看清那些版面是没有做过版面分析的。13步骤四:识别TH-OCR 2009可以进行简繁日韩英五种语言的文字识别:简体多体繁体多体简体全字集繁体全字集手写体纯英文日文韩文14增量识别增量识别可以大大提高识别效率。增量识别可以仅对版面分析中新增加的活着
8、区域属性类型有变化的区域进行识别,而保留其他未改动的区域的识别结果,这样可以很好的提高识别效率,增量识别后对区域属性没有改动的区域内的文字不会有丝毫影响。整页识别增量识别修改区域15步骤五:校对横向校对在识别结果区域中,通过人工逐字逐句比较识别结果与原始图像,找到错误的地方并修改。浮动跟踪条可以提高横向校对的速度,它是将识别的原始图像块跟踪显示在识别结果上,使识别结果与原始图像一一对应的显示,直观、方便、快捷16集字校对器横向校对是逐字逐句的对原始图像和识别结果进行校对,这种方法既费时费力,又容易疏忽而漏掉错误,仅仅使用该方法能够把错误率降低到千分之一左右。为了解决横向校对速度慢,效率低这一系
9、列难题,TH-OCR 2009提供了集字校对: 查错率高,集字校对编辑器把识别结果相同的文字对应的图像显示在一起。由于少数错误的字与大量正确的字有差别,可以比较容易地发现错字,不易漏掉错误。 集字校对编辑器重新组织文字顺序,不会使校对人员陷入到识别文字的故事情节中。 校对效率高,不易疲劳。 把集字校对的结果与传统方法校对的结果进行比较、综合,就能得到最高的查错和纠错效果,得到尽可能低的错误率和最好的最终结果。 17简洁方便的纵校界面识别结果与原始图像块对照区:第一个方格为识别结果,其后的方格为原始图像块识别结果列表区:显示当前校对图像的识别结果文字列表原始图像区直接输入的结果字符,可以跳到该字
10、符18识别结果经修改编辑后,可根据需要将文档存为RTF、PDF或直接保存为TXT格式。导出为PDF格式导出为RTF格式导出为TXT格式步骤六:识别结果输出19导出为RTF在导出识别结果为RTF时,可以选择在结果文件中保留图像和还原版面。不输出图像,取消精确还原版面输出图像,精确还原版面20导出为PDF由于PDF文件是一种跨平台的通用文件格式,能够保存任何源文档的所有字体、格式、颜色和图形,阅读方便,具有高效的浏览性。广泛应用于各种行业 。利用PDF的特性,可以将原始图片不加修改的放入PDF文件中,再将识别结果的文字以透明字体的形式置于其在原始图像上的位置。当用户浏览PDF文档的时候,看到的是原
11、始的图像,这样可以避免在浏览时,识别错误带来的影响。但是其中的文字是可以被检索、选中、复制、再利用的。 TH-OCR 2009可以将文件根据需要导出为四种类型的PDF格式,并且新增了PDF书签功能,可以直接将书签导入到PDF中。纯图像PDF文本PDF双层PDF21双层PDF的特点PDF中的文字层用于查询、检索、利用,图像层用于浏览,提供给用户多种应用方式。图像部分压缩存储。对黑白图像采用G4压缩,对彩色、灰度图像采用JPEG压缩。文字部分所占空间极小。整个文件与压缩过的图像文件大小相差无几。识别图像文本层图像层双层PDF22ImageToPDFImageToPDF可以实现图像文件到PDF文件的自动转换,生成的PDF文件能够实现全文检索,可以复制粘贴,也可以对某个指定目录进行长期监视,真正实现无人操作。23ImageToPDF 强大功能支持TIF、BMP、JPG、PDF格式文件的识别可将结果文件导出为三种不同格式的PDF图像PDF图在文上PDF公文PDF直接将图像文件加入到队列中,进行识别直接加入需要识别的文件夹,可以识别文件夹内所有的图像自动监视需要识别的文件夹更稳定、识别效果更好24典型应用图书馆中国国家图书馆清华大学图书馆上海交大图书馆天津
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026四川成都传媒集团人力资源服务中心售前工程师、内控法务专员等岗位招聘4人笔试备考试题及答案解析
- 2026福建龙岩市消防救援局招聘政府专职消防员53人笔试模拟试题及答案解析
- 2026年江西省海济融资租赁股份有限公司社会招聘2人笔试模拟试题及答案解析
- 2026年合肥肥西县高店镇中心幼儿园聘用专任教师招聘2名笔试备考题库及答案解析
- 2026广东中山市粮食储备经营管理有限公司招聘3人考试参考题库及答案解析
- 2026北京工业大学科研助理岗位招聘1人(第二批)笔试备考试题及答案解析
- 2026河南商丘市民权法院招聘46人笔试备考试题及答案解析
- 2026浙江省心血管重点实验室招聘笔试备考题库及答案解析
- 2026辽宁省辽水集团所属辽宁北方环境保护有限公司招聘6人笔试模拟试题及答案解析
- 2026福建福州市土开商业运营管理有限公司聘用人员招聘2人笔试备考题库及答案解析
- 2026年山东铝业职业学院单招职业技能考试必刷测试卷及答案解析(夺冠系列)
- 中国石化加油站形象识别手册
- 金华双龙洞游学课件
- 分子病理生物安全防护方案
- 陶瓷施釉工岗位设备技术规程
- 2026年长沙卫生职业学院单招职业倾向性测试题库及答案1套
- 施工资质挂靠协议书
- 工程施工每周工作汇报
- 谭浩强-c语言教程全书(第三版)
- 2025年贵州水利安全证试题及答案
- 临床预防呼吸机相关肺炎(VAP)的集束化管理策略
评论
0/150
提交评论