




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1/8浅析汉字识别技术在档案管理工作中的应用汉字识别技术简称OCR可以理解为是让计算机认字的技术。它通过光电信号转换,即文本数据。一、汉字识别技术的应用价值汉字识别技术的应用价值主要体现在两个方面一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供丰富的数据源。首先,从库存档案的情况来看,近几十年来形成的大量印刷汉字档案记载了我们党和国家的重要历史,对我国现代化事业的发展,对精神文明和物质文明的建设都有着非常重要的利用价值。但这部分档案的内容都没有文本数据,或者说都只是固定在纸质载体上的死信息。既使通过扫描以图像方式存储于计算机中,检索利用也有不便之处,难于满足现代社会对档案信息的多种利用需求。其次,从办公自动化的发展情况来看,每年接收的档案中仍然会有相当数量的档案没有文本文件,或为外单位来文,或为丢失损坏等。汉字识别技术的应用价值就是使这两大部分纸2/8质档案上的固定信息变成可以被检索利用的活信息,为全文检索提供数据,使深层次的开发利用成为可能,更好地为现代化建设事业服务。另一方面,提供了一种新的档案目录数据的录入方式。应用计算机以来,汉字录入只有一种方式,即健盘录入。虽然目前汉字键盘录入的方法有许多种,而且日趋简便快捷,已是年轻人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档案部门占有相当比例的中老年同志来说,掌握起来确有难度。因此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数据库的因素之一。OCR软件为我们提供了一条新的途径。它通过“拖拉”的方式,将屏幕上文件的目录项如标题、文号、责任者等直接移植到档案目录数据库的相应字段中去,简单易学,一看就会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或调用图像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录信息数据库提供了一条前所未有的途径。而且,如果利用OCR软件同时建立新3/8型的综合档案信息数据库,例如包括档案的文件目录、图像和文本等,效果就此较理想了。二、汉字识别后生成的文本数据的属性问题。原始性是档案的基本属性。汉字识别后生成的文本数据是根据档案的本源信息,即固定在纸质载体上的汉字信息进行加工处理扫描、识别、校对、修改等工序后形成的复制加工品,因此不具有档案的原始性。知识性是档案的又一个属性。汉字识别后生成的文本数据如果不计算人工校对后仍然可能存在的微小误差,应该说具有与档案原件同等的内容,因此具有档案的知识性。汉字识别后生成的文本数据是将档案的内容以特殊的物理方式重新记录在特殊的载体之上,比以文字的方式记录在纸质载体之上更具有便于传递、接收、存储、利用以及不磨损、不丢失等属性。因此具有更强的信息性。汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果。但作为一种新型4/8的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原始性的基本属性,因为它们是印刷品或出版物的本源信息。由此可见,汉字识别后生成的文本数据是一种不同于传统档案属性的新型档案信息。三、汉字识别技术的应用方式汉字识别技术在档案管理工作中的应用,根据其目前的技术水平主要适用于近几十年来印刷汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。主要的应用方式有一利用者阅读纸质档案的内容之后,对其所需要的内容进行扫描和汉字识别,或打印出统一格式的利用摘录,或直接提供文本拷贝。5/8这种利用方式的优点主要有1方便用户,可减少信息利用过程中的重复劳动;2不给档案人员增加建库的工作负担;3节省建库所需的经费开支。其缺点主要有1不能为全文检索提供数据,实现深层次开发档案信息资源的目的;2存在对同一档案内容重复进行扫描和汉字识别的可能性。二输入档案目录。这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高。三扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务。6/8这种方式必须在已有文件目录的前提下使用。其优点主要有1具有提供原件和提高信息利用效率的双重优势;2档案人员不承担汉字识别后生成的文本数据的维护工作。其缺点主要有1同第一种利用方式的缺点。2汉字识别技术要求图像的光学分辨率较高,一般为3000DPI,而一般图像的分辨率仅为150DPI,因此所需的存储空间较大,约是一般图像的、3倍,那么,所需的存储成本也要高得多。这种高代价的图像存储仅用来满足用户利用识别的需要似乎有点得不偿失。因此低分辨率的图像也能进行汉字识别,只是识别率相对较低而已。我们也曾做过对比实验,同一页印刷质量良好的B5纸型文件约500字,以300DPI进行扫描,识别率为100;以150DPI进行扫描,识别率为误识3字。这对于一般用户而言无所谓的。四建立文本数据库。这种方式也应在已有文件目录的条件下使用。其优点主要有1节省存储空间和存储成本。仍以一页B5型纸约500汉字的文件为例,以文本方式存储约需1000字节;以图像方式存储约需25000字节。因此,同量汉字的文本方式存储比图像方式存储成本低得多。7/82为全文检索提供数据,能够实现深层次开发利用档案信息资源的目的。其缺点主要有1建立文本数据库的工作量较大。2不能满足用户阅读档案原件的需求。3由于没有图像随时提供依据,不便于对文本数据的准确性进行核实。五输入目录并保存图像。六输入目录、建立文本数据库。七保存图像、建立文本件数据。八输入目录、保存图像并建立文本数据库。这是充分发挥OCR软件功能,深层次开发利用档案信息资源的应用方式。但工程量较大,人力、资金需求较多,8/8建库周期较长。随着汉字识别技术水平的提高和应用的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 村集体资金入股合同范本
- 鱼船买卖合同协议书模板
- 船员的正规劳务合同范本
- 芯模板行业期货合同范本
- 游艇修理合同协议书模板
- 照明灯安装合同补充协议
- 高速便道租用协议书范本
- 肇庆正规劳务派遣协议书
- 高价回购铝合金合同范本
- 理发店长期消费合同范本
- 村集体资金入股合同范本
- DB46-T 707-2025 榴莲栽培技术规程
- 五升六数学暑假作业每日一练打印练习
- AQ 2003-2018 轧钢安全规程(正式版)
- 深锥沉降槽地面倒装施工工法
- 《熔化和凝固升华和凝华》
- 天津市2021年高考化学一轮复习专题七元素周期律和元素周期表
- 网架吊装方案计划
- igus拖链选型简述教学课件
- 静脉炎的分级及护理课件
- 康复医学科绩效方案
评论
0/150
提交评论