下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、在档案管理工作中汉字识别技术的应用分析 摘要:汉字识别技术(简称OCR)可以理解为是让 计算 机认字的技术。它通过光电信号转换,即文本数据。关键词:汉字 识别技术 档案管理 一、汉字识别技术的 应用 价值 汉字识别技术的应用价值主要体现在两个方面: 一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供 丰富的数据源。 首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的
2、160;重要 历史 ,对我国 现代 化事业的 发展 ,对精神文明和物质文明的建设都有着非常重要的利用 价值。但这部分档案的 内容 都没有文本数据,或者说都只是固定在纸质载体上的死信息。既 使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代 社会 对档案 信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相 当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值 就是使这两大
3、部分纸质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数 据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。 另一方面,提供了一种新的档 案目录数据的录入方式。 应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然 目前 汉字键盘录入的 方法 有许 多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需 要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当 比例的中老年同志来说,掌握起来确有难度。因此,键盘录
4、入方式仍然是 影响 一些档案部门 建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉 ”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相 应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或 调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且 ,如果利用OCR软件同时建立新型的综合档案信息数据库,例如包括档案的文件目录、图像
5、160;和文本等,效果就此较理想了。 二、汉字识别后生成的文本数据的属性 问题 。 原始性是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸 质载体上的汉字信息进行加工处理:扫描、识别、校对、修改等工序后形成的复制加工品, 因此不具有档案的原始性。 知识性是档案的又一个属性。汉字识别后生成的文本数据如果不计算人工校对后仍然可能存 在的微小误差,应该说具有与档案原件同等的内容,因此具有档案的知识性。 汉字识别后生成的文本数据是将档案的内容以特殊的物理方式重新记录在特殊的载体之上,
6、160;比以文字的方式记录在纸质载体之上更具有便于传递、接收、存储、利用以及不磨损、不丢 失等属性。因此具有更强的信息性。 汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果 。但作为一种新型的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性 :当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案 编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等 为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原
7、0;始性的基本属性,因为它们是印刷品或出版物的本源信息。 由此可见,汉字识别后生成的文本数据是一种不同于传统档案属性的新型档案信息。 三、汉字识别技术的应用方式 汉字识别技术在档案管理工作中的应用,根据其目前的技术水平主要适用于近几十年来印刷 汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。主要的应 用方式有:(一)利用者阅读纸质档案的 内容 之后,对其所需要的内容进行扫描和汉字识别,或打印出统 一格式的利用摘录,或直接提供文本拷贝。这种利用方式的优点主要有:1方便用户,可减少信息利用过程中
8、的重复劳动;2不给档 案人员增加建库的工作负担;3节省建库所需的经费开支。其缺点主要有:1不能为全文 检索提供数据,实现深层次开发档案信息资源的目的;2存在对同一档案内容重复进行扫 描和汉字识别的可能性。 (二)输入档案目录。这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高。 (三)扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务。 这种方式必须在已有文件目录的前提下使用。其优点主要有:1具有提供原件和提高信息 利用效率的双重优势;2档
9、案人员不承担汉字识别后生成的文本数据的维护工作。其缺点 主要有:1同第一种利用方式的缺点。2汉字识别技术要求图像的光学分辨率较高,一般为3000dpi,而一般图像的分辨率仅为150dpi,因此所需的存储空间较大,约是一般图像的2 、3倍,那么,所需的存储成本也要高得多。这种高代价的图像存储仅用来满足用户利用识 别的需要似乎有点得不偿失。因此低分辨率的图像也能进行汉字识别,只是识别率相对较低 而已。我们也曾做过对比实验,同一页印刷质量良好的B5纸型文件约500字,以300dpi进行扫描,识别率为100%;以150dpi进行扫描,识别率为99.4%(误识3字
10、)。这对于一般用户而言无所谓的。 (四)建立文本数据库。这种方式也应在已有文件目录的条件下使用。其优点主要有:1节省存储空间和存储成本。仍以一页B5型纸约500汉字的文件为例,以文本方式存储约需1000字节;以图像方式存储约需25000字节。因此,同量汉字的文本方式存储比图像方式存储成本低得多。2为全文检索提供数据,能够实现深层次开发利用档案信息资源的目的。其缺点主要有:1建立文本数据库的工作量较大。2不能满足用户阅读档案原件的需求。3 由于没有图像随时提供依据,不便于对文本数据的准确性进行核实。 (五)输入目录并保存图像。 (六)输入目录、建立文本数据库。 (七)保存图像、建立文本件数据。 (八)输入目录、保存图像并建立文本数据库。 这是充分发挥OCR软件功能,深层次开发利用档案信息资源的 应用 方式。但工程量较大,人力、资金需求较多,建库周期较长。 随着汉字识别技
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年度漯河市市直机关公开遴选公务员备考题库及答案详解一套
- 2026年安徽潜晟城市运营管理有限公司公开招聘工作人员6人备考题库及完整答案详解1套
- 2026年尤溪埔山幼儿园诚聘英才备考题库及完整答案详解一套
- 2026年上海对外经贸大学公开招聘工作人员备考题库有答案详解
- 2026年南宁市妇幼保健院公开招聘工作人员8人备考题库及完整答案详解一套
- 2026年嘉兴市南湖旅游文化公司招聘备考题库及一套参考答案详解
- 2026年无人机续航能力基准测试项目实施方案含答案
- 2026年审判管理流程与节点控制试题含答案
- 2026年金融科技终端安全认证考试题目含答案
- 2026年南京安管B证继续学习考前自测题含答案
- 清华大学教师教学档案袋制度
- GB/T 3098.5-2025紧固件机械性能第5部分:自攻螺钉
- 水泥生料配料方案解析
- 洗煤厂安全培训课件
- 水电站压力管道课件
- 铁总建设201857号 中国铁路总公司 关于做好高速铁路开通达标评定工作的通知
- 孟州市浩轩塑业有限公司年产200吨塑料包装袋项目环评报告
- 卫生院消防安全演练方案篇
- 电焊机操作JSA分析表
- 落地式钢管脚手架工程搭拆施工方案
- 养老院健康档案模板
评论
0/150
提交评论