(计算机软件与理论专业论文)相似表格图像档案的表格提取与压缩存储方法研究.pdf_第1页
(计算机软件与理论专业论文)相似表格图像档案的表格提取与压缩存储方法研究.pdf_第2页
(计算机软件与理论专业论文)相似表格图像档案的表格提取与压缩存储方法研究.pdf_第3页
(计算机软件与理论专业论文)相似表格图像档案的表格提取与压缩存储方法研究.pdf_第4页
(计算机软件与理论专业论文)相似表格图像档案的表格提取与压缩存储方法研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东师范人学硕士学位论文 摘要 随着现代社会的快速发展,人们对信息的要求越来越高了,作为重要信息资 源之一的档案正面临着全球信息化浪潮的巨大冲击,原有的手工管理档案的方式 已经不能满足人们对档案高效管理和利用的需求。如何借助于先进的信息技术, 将档案管理从手工方式向数字化方式转变,即如何更好的实现档案现代化建设已 经成为人们关心和研究的热点问题。而档案数字化处理则是档案现代化建设中一 个重要的内容,是档案管理模式里的一项深刻变革。对档案数字化进行研究具有 十分重要的意义 在实际工作应用中,有很多要处理的数据是各种纸质的档案性表格文档。它 作为一种常见的表格文档,是日常工作中处理得比较多的一种,广泛应用于各种 场合,例如:各种银行票据、税务、财务报表、登记表、人事档案及考勤表等。 而这些档案性文档中的大量信息常常需要输入到计算机进行整理、归类、存储和 分析等更高一级的应用。 这些档案性表格文档有如下特点:数量通常非常庞大,具有相同结构的表格 信息,往往还包括一些公共的印刷体文字,不同的数据往往就只是人工填写的手 写体信息。这里就把它称为相似表格图像档案。 对档案的数字化研究首先从美国和英国开始,先进的技术和充分的研究使得 他们在理论和实践上已取得了较大的成绩。我国在这方面起步较晚,对档案的数 字化研究还处在探索和论证阶段,尚未形成统一的操作标准。档案图像质量还有 待进一步提高、档案图像的存储空间还有待进一步压缩等问题,本文借鉴了已有 的研究成果,根据实践,探讨了纸质档案中相似表格图像档案的数字化处理中的 一些应用性问题,从纸质档案的数字化生产开始,仔细研究总结了纸质档案的数 字化与预处理内容,包括纸质档案数字化处理的硬件设备、档案数字化的文件存 储格式及选择、纸质图像档案的数字化扫描和档案二值化等图像预处理。总结研 究相似表格图像档案的特点,对其中的公共表格线提取和倾斜校正进行了研究, 针对实际研究对象,提出了一种基于h o u 曲变换的图像档案的表格提取与倾斜 校正方法,并且对于表格图像倾斜角度较小的情况,采用基于线性搬移技术的校 正达到图像快速倾斜校正,在检测表格线的同时,完成对其端点坐标的同步记录。 最后,实现了一种基于特征的以图元信息代替像素信息的图像档案压缩存储方 式,对于表格线进行单独存储,然后对各档案的剩余内容再进行分别存储,与通 常的单张档案的分别存储相比,极大地压缩了存储空间,这对表格档案的现代化 建设具有非常大的实际意义和应用价值。 关键词:图像档案,h o u 曲变换, 表格提取,倾斜校正,图像压缩 中图分类号: t p 7 5 1 山东师范人学硕= b 学位论文 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to f 1 es o c i e 戗p e o p l er e q u i r em o r ea c c u r a t ea i l d f 缸t e ri n f o m l a t i o n a so n eo f 仕l ei m p o r t a n ti i l f o n n a t i o nr e s o u r c e s ,a r c l l i v e sa r e m r e a t e i l e db ym e9 1 0 b a li o 珊a t i o nw a v e s p e o p l en e e dt h ee f f e c t i v em a l l a g e m e n t a i l du t i l i z a t i o no nt 1 1 ea r c m v e s ,b u tm e0 1 dw a yc a i l n o tm e e tt h en e e da i l y m o r e h o w t oc h a n 2 em eo l dm a i l u a lw a yt ot h ed i 西t a lo n eb e c o m e sac r i t i c a li s s u e 。 a r c l l i v ed i g i t i z i n gi sa i li m p o r t 觚ts t a g ei nt h ec o n s t n l c t i o no ft h ea r c l l i v a lb 弱e , s ot h er e s e a r c hm e 锄i i l g f u l 狐dw o n h w l l i l e h 1r e a l i t y l a r g e 锄o u l l to fd a t aw i t hv a r i o u sf o n n so fp a p e rm e d i ad o c u 】 i l e l l t si s 也e r et ob ed e a l tw i t l l ,o fw 】:1 i c h ,f o m lo fd o c u m e n t s ,s u c ha s :a l lb a n kn o t e s ,t 瓢t a b l e s , 缸a | l c i a ls t a t e m e n t s ,r e 五s t r a t i o nf o m s ,p e r s o 如e 1 丘l e s 缸l da t t e n d 锄c et a b l en e e d st o b ee s p e c i a l l yf o c u s e d t h e s ed o c 啪e n t sa r eu s u a l l ya m o n g 圮f i r s tt h a tn e e d st 0i n p u t i n t oc o m p u t c rt oc o l l a t e ,c l a s s i 坝s t o r e ,a i l a l y s i s ,a | 1 de v e n al l i 曲e rl e v e lp r o c e s s i n g t h e s ef 0 册so fd o c 唧e n t a t i o nh a v ef o l l o w i l l gf e a t l l r e s :t l l en u m b e ru s u a l l yv e r y 1 a r g e ,t h es 讯l c t u r es i l i l 瓯o r e nm c h l d i i l gs o n l ep r e p r i n t e dt e x tw i t ham u l t i p l eo f h 卸d 州t t e na r e a w bw i l lc a l lt h e s ef o m l sa ss i m i l a rf o m li m a g ed o c u n l 肌t s d i 西t a la r c m v ep r o c e s s i i l gw a sf i r s ti i l i t i a t e di nt h eu n i t e ds t a t e s 觚dt l l eu i l i t e d l d n g d o m ,雅dt l l e yh a v em a d e 酉e a ta c l l i e v e m e n t si nb o mt l l e o 巧a n dp r a c t i c e w e c 1 1 i n ai sai i t t l el a t ei nt b j sa r e a ,m es t a t e o 二a r tc a nb er e g a r d e di i lt h es t a g eo f e x p l o r a t i o na n df e a s i b i l i t ma 1 1 dau 】 1 i 丘e d 、0 r | 【i n gs t a l l d 孤dh a sn o tf o u | 1 d e d f i l e i m a g eq u a l i 哆s t i l ln e e d st ob em m l e ri r l l p r 0 v e d ;i m a g ef i l es t o r a g es p a c en e e d st ob e 如“h e rc o m p r e s s e da n do m e ri s s u e s n l i sp a p e rd r a w so ne x i s t i i l gr e s e a r c hr e s u l t s ,i n a c c o r d a n c ew i t l lp r a c t i c e ,m ep 印e rf i l e so fs 沛i l a r 如吼so fd i 百t a li m a g e 丘1 e sd e a l i n g w i 也an l l l b e ro f 印p l i c a t i o n ,p 印e rf i l e s 矗0 mn l ed i 百t a lp r o d l l c t i o n ,s u m m e du p 缸l e c a r c 向l 咖d yo fp 印e rf i l e sa n dd i 西t a lp r 印r o c e s s i n g ,i 1 1 c l u d i n gp a p e rf i l e sd i 酉t a l p r o c e s s i i l gh a r d w a r ea n de q u i p m e n t ,f i l e s ;d i 百t a ld o c 唧e n ts t o r a g ef o m a ta n dm e c h o i c eo fp 印e rf i l e so fd i 萄t a li m a g e ss c 砌n ga 1 1 db i n a r yf i l e s ,s u c ha si m a g e p r e r o c e s s i n g r e s e a r c hs m l l 瑚a i yf 0 珊s i m i l a rt om ec h a r a 略t e r i s t i c so fi l a g ef i l e s , w 1 1 i c hf o ml i n e s 丘。o mt h ep u b l i ca i l ds k e wc o 玎e c t i o nt o 廿l es t l l d y ,i nv i e wo fm e a c t u a ls t l l d y ,w h i c hi sb a s e do nh o u 曲廿a i l s f o n nt h ei m a g e 丘1 e s 丹o mt h ef o 皿s 狃d t i l tc o r r e c t i o nm e t h o d ,a n dt of o mi m a g e st i l t 吼g l eo ft h es m a l l e r ,t e c h n o l o g y - b a s e d 1 i n e a rm o v e m e n to ft h ei m a 星r et oa c m e v er a p i dc o r r e c t i o nt i l tc o r r e c t i o n ,i nt h ef o 册o f 1 i i l e sa tt h es 锄et i i n et oc o m p l e t em e i re n d p o i n tc o o r d i i l a t es i i l l u l t a n e o u sr e c o r d i i l g f i n “1 y w er e a l i z e dt h ec o m p r e s s e d i m a g e f i l e s t o r a g ew l l i c hb a s e do nt h e c h a m c t e r i s t i c so fam e t a i n f o n n a t i o ni 1 1 m ef o ml i n e sa l o n e ,h e nc a r r yo nt o o r d e rt or 印l a c et h ep i ) 【e l i i l f 0 珊撕o n s a v e t h ed i f f e r e n tc o n t e n t so fe a c hf i l et os a v e r e s p e c t i v e l y c o m p a r e dw i m t h eu s u a l l yr e s p e c t i v es t o r a g eo ff o m 曲a g ed o c 姗e n t s , i th a sv e 巧b i ga c t u a lm e a i l i n g 孤d 印p l i c a t i o nv a l u et ot h em o d 咖c o n s m l c t i o no ft h e f o mf i l e k e y w o r d s :h n a g ef i l e s ,h o u 曲扛孤s f o 肌,f o 册谢t l l 出a w ,s k e wc o r r e c t i o n ,h n a g e c o r r 巾r e s s i o n v 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据 我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的 研究成果,也不包含为获得 或其他教育机构的学位或证书使用过的材料。 均已在论文中作了明确的说明并表示谢意。 ( 注:如没有其他需要特别声明的,本栏可空) 与我同工作的同志对本研究所做的任何贡献 学位论文作者躲匆玄年 导师粹 学位论文版权使用授权书 本学位论文作者完全了解堂蕉有关保留、使用学位论文的规定,有权保留并向国家有 关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权学校可以将学 位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段 保存、汇编学位论文。( 保密的学位论文在解密后适用本授权书) 学位论文储虢磊玄军 签字目期:2 0 0 彩年岁月? 夕曰 导师签字 签字日期:2 山东师范大学硕士学位论文 第一章绪论 1 1 本文的研究对象、目的和意义 随着经济的发展和社会的进步,信息化革命更加深入人心,并逐渐改变人们 的思维方式和生活方式。信息产业是近2 0 年全球发展最为迅猛的产业,尤其是 经济发达国家,信息产业已经取代了传统工业而成为第一大产业。由此可见信息 化建设在国家发展和经济建设中的重要地位。 在信息化浪潮中,人们已清醒的认识到,信息资源的开发利用将超越物质和 能源,成为信息社会中最重要的财富。档案作为“信息资源之源”,正处于这场 风暴的中心。巨大的变革为档案事业的发展创造出了一个挑战与机遇并存的“夹 缝时代”,如果逃避压力、固守陈规,传统的档案工作模式必将被时代遗弃;只 有迎接挑战、自强革新,才能顺应时代的潮流,继续担负起保存“社会记忆 的 历史使命。 在实际工作应用中,有很多要处理的数据是各种纸质的档案性表格文档。它 作为一种常见的表格文档,是日常工作中处理得比较多的一种,广泛应用于各种 场合,例如:各种银行票据、税务、财务报表、登记表、人事档案及考勤表等。 这些档案性表格文档通常具有以下特点:数量通常非常庞大,具有相同结构的表 格信息,往往还包括一些公共的印刷体文字,不同的数据往往就只是人工填写的 手写体信息。这里就把它称为相似表格图像档案。这些文档为保持其原貌不能以 文字处理或电子表格的方式存储。档案数字化是网络化、信息化社会对档案事业 的必然要求。 4 本文即以相似表格图像档案为研究对象,总结此类档案的特点,研究此类档 案的数字化处理中的一些应用性问题。主要包括图像档案的数字化,图像档案的 表格提取与倾斜校正,图像档案的压缩存储等内容。基于相似表格图像档案的特 点及表格线等公共信息的提取,探讨研究了一种基于特征的以图元信息代替像素 信息的图像档案压缩存储方式。这对图像档案的数字化处理及压缩存储具有极大 的意义及价值。 1 2 国内外研究现状 1 2 1 档案数字化 计算机的普及以及网络的应用,使得利用者越来越希望档案部门能够将纸质 档案数码化,以提供全天候、全文、异地远程优质信息服务,而现在大多数档案 山东师范大学硕。 :学位论文 部门根本达不到这种要求。这主要表现在l l 】: 第一,档案信息化建设面临着传统观念认识的制约。我国以往的档案工作一 直处于一种封闭半封闭的管理模式之下,档案一度被藏置密室,蒙上一层神秘的 面纱。档案工作中存在以“被动保管”为主,馆藏结构单一,档案信息利用率相 对较低等问题;存在“重藏轻用 与“重为政治服务,轻为经济文化服务”两种 倾向。由于历史的、政治的原因,一些人在思想上还受着诸多传统因素的影响, 没有真正认识到档案信息化建设的重大意义,没有认识到档案信息化建设将带来 的社会效益和经济效益,对档案信息化建设还不是十分重视,还存在坐等观望的 态度,因此投资力度不强,人员、技术力量配备薄弱,在硬件建设上流于走形式, 档案信息化建设步子迈得不大,发展速度缓慢。 第二,档案信息网络化建设面临着法律规定滞后的困境。 1 ) 网络档案信息内容范围缺乏相关的法律规定。怎样的档案信息可以通过 网络发布,怎样的档案信息不能通过网络发布,怎样的档案信息可以在因特网范 围内发布,怎样的档案信息只能在局域网范围内发布,根据已有的法律来看,对 这些内容还没有具体、明确、可执行的法律规定。这使得档案机构对档案信息的 网络发布持慎之又慎的态度,影响了他们的工作效率。 2 ) 网络档案信息凭证价值缺乏相关的法律认定。“档案是确凿的历史记录, 它足以成为查考、研究、争辩和处理问题的依凭,认定法律权利、义务与责任的 证据,以及政治斗争、外交斗争和教育人民的工具”。“档案的凭证价值,是档案 不同于和优于其它各种资料的最基本的特点 。网络档案信息的来源主要包括两 个部分:第一部分是传统档案经过数字化处理得来的网络档案信息,这部分信息 有档案原件作保证。但对于第二部分电子文件来说,在我国的法律条文中,还没 有明确规定其证据能力。证据的客观真实性是证据是否有证明力的决定性因素, 电子文件最难确定的就是其真实性。电子文件本身固有的原始信息的可变性和不 稳定性及人们对其可靠程度的不信任和矛盾心理,使其难以成为合法的证据。为 了实现电子文件的凭证价值,不得不将电子文件和同一内容的物质文件同时归 档,这又大大增加了库房面积,加大了经济负担,有悖于档案信息网络化建设的 初衷。 纸质档案数码化现状的其它方面还包括:档案信息化建设受技术力量( 人员) 滞后的制约;档案信息数字化的巨大工作量与档案部门人力、物力、财力和技术 力量相对缺乏的困境;档案网络和网络档案信息缺乏规范和组织管理。 1 2 2 档案图像处理 2 由于本文研究对象的明确性,本文涉及到的图像处理包括档案图像的表格提 山东师范人学硕士学位论文 取、档案图像倾斜校正、档案图像增强和档案图像二值化,与此相关的还包括档 案图像压缩,以下从这几个方面予以阐述。 表格作为一种特殊的文本,其最大的特点为结构化,即直线和明确的空白分 隔符将文字分隔成独立的表格单元。表格线基本上由水平线和竖直线组成,目前 大多数表格识别也正是运用这一特点得到各个单元。依表格线检测方法不同,目 前常用的方法有侧向投影法【2 3 】、轮廓提取法【4 1 、表格线交叉点分析法【5 1 、h o u 曲 变换法【6 】等几种。侧向投影法简单、速度快,但较容易受到表格倾斜和字符粘连 表格线的影响;轮廓提取法也很容易因表格线断裂或字符粘连表格线而产生错误; 表格线交叉点分析法则通过对相邻交叉点进行分类和匹配来迭代地构建出表格 中的所有单元格,但该方法比较耗时,且容易受断裂表格线的影响;h o u 曲变换 是一种效果较好的方法,能有效检测出断裂表格线、虚线等不同类型的表格线。 在图像档案扫描输入的过程中,无论是手工扫描,还是机器自动扫描,或多 或少会出现某种程度上的倾斜,这种图像的倾斜会给图像档案的识别和压缩存储 造成很大影响,因此有必要对档案图像进行倾斜校正。档案图像纠偏的一种主要 方法是基于投影的方法【7 1 ,它首先通过黑色像素沿着若干指定的方向投影而得到 若干投影图,再根据这些投影图的方差求得文本的倾斜角,但这种方法由于投影 的方向较多,所以存在计算量大的缺点。档案图像纠偏的另外一种主要方法是 h o u 豇变换【8 】,其基本思想是首先提取文本行中的一些点,然后利用h o u 豇变 换将这些点拟合成若干直线段,同时可以得到这些直线段对应的角度,再根据这 些角度的分布情况估算文本的倾斜角度。h o u g h 变换适合在图像中检测线条和 曲线。除此之外,还有邻域( n e a r e s t n e i g h b o r ) 方法、b a g ( b l o c ka 由a c e n tg r a p l l i c ) 算法、f o 谢e r 谱分析法、地图分析法和神经网络法等【9 1 。 图像增强是为了改善视觉效果或便于人或机器对图像的分析理解,根据图像 的特点或存在的问题,以及应用目的所采取的简单改善图像质量的方法或加强图 像某些特征的措施。一般来讲,图像增强的通用理论是不存在的,而且图像增强 是面向特定应用的。根据图像处理的方法不一样,可将图像增强分为空域方法和 频域方法,而空域方法可以进一步分为点处理( 变换) 和模板处理( 滤波) ;根据图 像处理的策略可将图像增强分为全局处理和局部处理;根据图像增强的处理对 象,可将图像增强分为灰度图像增强和彩色图像增强。文献【lo 】对各类常用的图像 增强算法进行了总结,分析了算法的特点和指出了使用的范围,在档案图像增强 时可以借鉴。 信息系统中另一关键图像处理技术是档案图像压缩。从通信系统的角度来划 分,图像压缩属于信源编码的范畴,也称为图像编码。图像压缩编码就是对图像 数据采用不同的表达方法,以减少表示图像所需的数据量。 图像数据能够进行压缩,是因为图像数据是高度相关的【1 1 】。大多数图像内相 山东师范人学顾十学位论文 邻像素之间有较大的相关性,存在很大的冗余度,即空间冗余度。序列图像前后 帧之间有较大的相关性,即时间冗余度。若用相同码长表示不同出现概率的符号 也会造成比特数的浪费,即符号冗余度。由于大部分图像的最终接收者是人眼, 而人眼对图像中不同部分的敏感程度是不同的,去处其中对人眼不敏感或意义不 大的部分,对图像的主观质量不会有很大的影响,即视觉冗余。 5 0 到7 0 年代,是图像压缩编码发展的早期阶段,主要是基于信息论的熵编 码。常用的熵编码有游程编码、霍夫曼编码与算术编码等。 1 9 8 5 年,图像压缩编码发展的中期阶段。m k l m t 提出“第二代图像编码技 术”的概念【1 2 】。其特点是不局限于信息论的框架,充分利用人的视觉生理、心理 和图像信源的各种特征,来获得高压缩比。主要有子带图像编码、基于方向性分 解的编码、基于区域分割和合并的编码。该阶段,还提出了一种重要的编码方法 一混合编码方法。例如,在旧e g 标准中【1 3 】就采用了d c t ( d i s c r c t ec o s i i l et r a n s f o m ,离散余弦变换) ,霍夫曼编码和算术编码等多种编码方法。 8 0 年代末到9 0 年代中期,大量崭新的数学理论成果被引入图像编码领域, 比如:分形理论、神经网络理论和小波理论。 1 3 本文的研究内容及其组织 本文章节安排如下:在第一章中,对图像档案的数字化进行了分析探讨,阐 述了本文的研究背景、研究现状以及本文的研究内容和章节安排。在第二章中, 针对本文研究的相似表格图像档案的特点,介绍了纸质档案的数字化过程和数字 档案图像的形式化描述,以及档案图像的预处理。在第三章中对相似表格图像档 案的表格提取及倾斜校正进行了研究,提出了一种基于h o u 曲变换的图像档案 的表格提取与倾斜校正方法,在检测表格线的同时,完成对其端点坐标的同步记 录,对于表格图像倾斜角度较小的情况,采用基于线性搬移技术的校正达到图像 快速倾斜校正的目的。在第四章中,对图像档案的图像压缩进行了探讨和研究。 基于相似表格图像档案的特点及第三章中的表格信息等公共元素的提取。提出了 一种基于特征的以图元信息代替像素信息以及将大量公共信息进行单独存储的 一种图像档案压缩存储方式。在第五章中,给出本文的总结和对未来工作的展望。 1 4 本章小结 本章主要介绍了本文的研究对象、目的及意义,分析了档案数字化、档案图 像处理技术的国内外现状,最后提出了本文研究的主要内容和本文的章节安排。 4 山东师范入学硕士学位论文 第二章纸质档案的数字化与预处理 本文研究的相似表格图像档案均为纸质档案的范畴。经过档案部门近些年的 研究与实践,对纸质档案的数字化加工一般采用的是直接扫描的方法,即利用扫 描仪对纸质档案进行直接扫描并以图像形式存储,这样既快捷又高效,并且效果 较为理想。本章将详细说明图像档案的扫描与预处理,为后续的表格等公共信息 提取做准备。 2 1 纸质档案数字化处理的硬件设备 通过直接扫描完成纸质档案数字化转换的工作原理类似于照相机拍照,只不 过它需要用到扫描仪。与照相机不同的是,照相机用的是自然光线,而扫描仪则 用灯管和镜头将文件图像暴光在玻璃板上,档案上带有的字迹或图形反射灯光后 形成波长不同的光波,扫描仪将这些光波转化为电子信号,经扫描软件处理后作 为图像文件存储进计算机。再通过图像软件就可以在计算机显示器上浏览图像文 件,看到的内容与纸质档案的原貌相同,基本上可以达到观看原件的效果【l 钔。 2 1 1 扫描仪 扫描仪是一个复杂的输入设备,在纸质档案数字化过程中它起着关键性的作 用。 1 、扫描仪的种类 对扫描仪种类的正确选择和参数的合理调整,会对扫描图像的质量产生很大 的影响。扫描仪通常分为高速扫描仪和平板扫描仪。高速扫描仪一般处理速度可 达每分钟2 卜1 2 0 页,还有单面扫描和双面扫描两种不同的类型可供选择。其 特点是扫描速度快,主要缺点是无法处理大幅面的档案文件,对档案纸张质量的 要求也较高,纸张状况较差时容易损坏档案原件,因此珍贵档案不适宜选用该种 类型的扫描仪。平板扫描仪主要用于a 4 、a 3 幅面档案的扫描,用途广泛、功 能强大、种类颇多、价格低廉,但扫描速度较慢。 针对当前纸质档案数字化的实际情况,档案原件的幅面大小、纸张质量通常 各不相同,因此在具体选购时建议以平板扫描仪为主,需要时适当选配少量的高 速扫描仪。在选择平板扫描仪时首先要注意扫描仪的最大幅面。一般平板扫描仪 分为a 4 、a 4 加长幅、a 3 、a 1 和a 0 几种,其中以a 4 最为普遍。由于目前 的纸质档案多为普通文档,极少有照片、图片之类,所以一般a 4 或a 4 加长 山东师范大学硕二b 学位论文 幅基本上已可以满足日常需要,若档案原件幅面较大如报纸,可以通过分块扫描 后再拼接的做法来完成。当然如果资金雄厚,也可购买扫描幅面较大的扫描仪。 扫描仪按扫描颜色分还可以分为黑白扫描仪和彩色扫描仪两种。如果仅作一 般扫描,则黑白扫描仪即可;但档案部门一般都保存有较多的政府发文( 即红头 文件) ,并且目前黑白扫描仪和彩色扫描仪的价格也已较为接近,建议档案部门 应该选购彩色扫描仪。 除上述扫描仪外,目前市场上还有手持式扫描仪、滚筒式扫描仪、工程图纸 专用扫描仪、底片扫描仪、3 d 扫描仪等众多类型【l5 1 。档案部门应根据本单位的 档案情况和经济实力,选择适合的纸质档案扫描仪。 2 、扫描仪的性能指标 ( 1 ) 分辨率 分辨率是扫描仪性能的重要指标之一,它反映了扫描仪对图像细节的表现能 力,其中光学分辨率直接决定了扫描仪扫描图像的清晰程度。扫描仪的分辨率通 常用每英寸长度上的点数,即d p i 来表示。“d p i 不仅决定了扫描仪对原始图像 的感知能力,同时也决定了扫描仪的价格层次。目前市场上售价在1 0 0 0 元以下 的扫描仪其分辨率通常为3 0 0 6 0 0 d p i ;价格在1 0 0 0 至2 0 0 0 元之间的扫描仪 其分辨率通常为6 0 0 1 2 0 0 d p i ;而分辨率达到1 0 0 0 2 0 0 0 d p i 甚至更高的,则 是高档专业扫描仪,市场上比较少见,价格相当昂贵。 档案馆在选择扫描仪时并非分辨率越高越好,扫描精度每提高一倍,其扫描 速度就会大大下降,并且产生的图像文件大小会成4 倍的倍率增长,这对文件数 量巨大的档案馆来说是无法承受的。实际上,分辨率在3 0 0 6 0 0 d p i 的扫描仪 足以应付档案部门一般档案的扫描工作,但目前市场已停止生产此类扫描仪,从 长远看,选择分辨率为6 0 0 1 2 0 0 d p i 的扫描仪较为明智。 同时需要指出的是扫描仪的分辨率需要和输出设备,即打印机的分辨率相吻 合,如果扫描仪的分辨率超过图像放大系数打印机的分辨率打印机喷头色数【l 6 1 ,则再清晰的图像都不可能打印出同样的效果来。 ( 2 ) 色彩分辨率 色彩分辨率是表示扫描仪分辨色彩或灰度细腻程度的指标。理论上说,色彩 分辨率越高,颜色越逼真。目前市场上扫描仪的色彩位数一般有2 4 位、3 0 位、 3 6 位、4 8 位几个档次。一般光学分辨率为3 0 0 6 0 0 d p i 的扫描仪其色彩位数为 2 4 位或3 0 位,而光学分辨率6 0 0 1 2 0 0 d p i 的,则一般为3 6 位,最高的有 4 8 位。对于档案部门来说,2 4 位即能满足要求,但考虑到2 4 位的扫描仪已 经停产,所以在购买时应选择3 0 位以上的产品。 ( 3 ) 动态密度范围 动态密度范围是表示扫描仪所能探测到的最浅颜色和最深颜色之间的差值。 6 山东师范人学硕: :学位论文 动态密度范围越宽表示扫描仪可捕获到的细节越多,即可再现的色彩细微变化能 力越强。对档案馆来说这一项性能影响并不大。 ( 4 ) 灰度级 灰度级表示灰度图像的亮度层次范围,级数多说明扫描仪图像的亮度范围 大,层次丰富。目前多数扫描仪的灰度级为1 0 2 4 级【1 7 j 。 ( 5 ) 扫描速度 扫描速度是表示扫描仪扫描快慢的指标。这项指标对拥有海量文件数量的档 案部门来说颇为重要。 ( 6 ) 扫描仪接口方式 目前扫描仪接口可分为四种e p p 、u s b 、s c s i 和m e e l 3 9 4 。e p p 即增强 并行口,通常用于家用型扫描仪,属于低端产品的,其最大特点是方便,对计算 机要求低,但扫描速度较慢质量较差。u s b 即通用串行接口,是一种新型的接 口,通常使用在界于家用和专业之间的扫描仪上,其优点几乎和e p p 并口一样, 使用非常方便,实现了热插拔和即插即用,而且不占用e p p 接口,扫描速度快, 但对计算机主板要求较高,目前已成为市场的主流。s c s i 接口是一种高速稳定 的传输接口,一直占据着高端专业型扫描仪市场,但在接扫描仪前需要在计算机 中安装一块接口卡,扫描时占用的系统资源很小。i e e e l 3 9 4 接口是一种串行数 据总线,能够在计算机和外围设备之间以1 0 0 、2 0 0 和4 0 0 m b p s 的高速率移动 大量数据,这种接口用于扫描仪上的时间还不太长,与u s b 一样它也支持热插 拔,但不同的是m e e l 3 9 4 技术,可以使两台电脑同时享用一台扫描仪,这是 u s b 和其它接口都无法实现的。而作为档案馆完成纸质档案扫描,推荐使用u s b 接口的扫描仪,当然如果计算机内已装有s c s i 接口卡,则选用s c s i 接口 的扫描仪更佳。 2 1 2 计算机 在纸质档案数字化过程中有几个关键环节需要用到计算机,如扫描后的录 入、扫描图像的质检和最后的刻盘。由于这几道工序性质的不同,所选用的计算 机在性能上也有较大的差异。扫描录入和图像质检的计算机选用市场上配置较 低、价格便宜的p c 机即可满足工作需要。其中用于扫描录入的计算机必须带 u s b 接口,以方便使用。同时为了保证扫描工作的进度和数据的安全,应备有 一台或几台备用机,备用机数量以每十台操作机准备一台为宜。最后刻盘用的计 算机可以兼有扫描区服务器的功能,所有扫描而得的数据经第一道详细图像质检 后全部汇总到这台刻盘计算机内,这台计算机再对所有数据的总量和文件名进行 比对,完成最后的检查,然后刻录制成光盘。因此对这台计算机的性能要求较高, 7 山东师范大学硕 学位论文 它必须有较大的存储容量和较快的运行速度,其最低配置不应低于:c p u 为p i 6 6 7 m h z ,内存为1 2 8 m b ,转速为7 2 0 0 转秒,容量为4 0 g b 的双硬盘,同 时还应带有刻录功能。 刻录机的选择,从长远角度看应选用c d r w 型,因为这种刻录机既可刻录 c d r 光盘,也可刻录c d 。r w 光盘。内置式刻录机和外置式刻录机均可。刻 录机接口类型不限,但写入速度要求在1 2 速以上,缓冲存储器至少应在4 m b 以上。 2 1 3 存储设备 档案部门对传统档案数字化后,产生的大量数据信息,其存储离不开海量存 储技术。就目前而言,光盘存储系统是海量存储的基本手段。档案部门纸质档案 的数字化,包括音频、视频档案的数字化,其数据存储都将采用光盘存储系统。 完整的光盘存储系统包括光盘盘片、相对应的光盘驱动器及光盘软件。 光盘由于其使用寿命长、价格远远低于缩微胶片,并和缩微胶片一样具有法 律效力,而成为数字化档案存储的首选。目前市场上流行的光盘为5 英寸盘, 材质为塑料,直径1 2 厘米,厚度1 2 毫米,重量1 4 1 8 克,盘体一面存储信 息,一面用来印刷有关标题目录及说明。光盘的存储容量极大,一张c d r o m 光盘可存储6 5 0 字节,相当于4 5 0 张目前广泛使用的3 5 英寸软磁盘,1 5 万张a 4 纸记录的文字信息,7 4 分钟高质量彩色电视节目,2 5 0 0 余幅高清晰度 普通大小彩色照片,如果采用压缩技术,存储容量还可大大增加。 光盘以其存放数据类型及其数据格式的不同大体可为三类:一是只读型光 盘,有c d r o m 、v c d 等;二是一次写入多次读出的光盘,如c d r 、c d r w ;三是可重复读写光盘,如磁光盘m o 等。档案部门的数字化档案信息一般 只需存入一次,改动的可能性很少,因此最佳选择为第二类光盘。 与光盘相对应,光盘机也有只读型、一次写多次读和可重复写三种类型。目 前,流行的光盘机主要有只读光盘存储器c d 。r o m ,俗称“光驱”;可写c d 驱动器,也称刻录机;可擦写光盘驱动器;d v d 机等。 如果今后数字化档案信息需要实现网络共享,则档案部门应根据访问用户的 数量、网络操作系统的种类、存储容量及安全体系等多方因素,选择光盘库、光 盘塔或其它超大存储容量的光盘服务器。光盘库、光盘塔的存储容量都很大,均 在几十个g b 以上,一个光盘塔可同时装载几十张甚至上百张c d ,一个5 0 g b 的光盘库,可存储相当于5 0 万到5 0 0 万张a 4 档案文件的内容。 山东师范人学硕十学位论文 2 2 纸质档案数字化的文件存储格式 文件存储格式因算法和压缩工具的不同,有不同的类型。目前现有的文件存 储格式有口e g 、b m p 、g i f 、c d r 、t 口f 、p s d 、p d d 、p n g 、c o l 、d i b 、d w g 、f i h l l s t r i p 、p d f 、d 、d x f 、u f o 、e m f 、e p s 等不下5 0 种。如此众 多的文件存储格式并非都适合用作档案文件扫描图像的存储。因此纸质档案扫描 后要按一定的原则选择合适的文件存储格式。 纸质档案经扫描仪扫描后在计算机内将以图像文件格式进行存储,而目前所 有的图像文件存储格式可以分为两大类:一类是位图式图像文件;另一类是矢量 图文件,也称描绘类或面向对象类图形图像文件。 位图也称光栅图,是由许多像素组成的图形。位图式图像文件以点阵形式描 述图形图像。位图形式能很好地表现图像颜色、阴影等精细变化。纸质档案经扫 描仪扫描后生成的便是位图式图像文件。 矢量图文件是以数学方法描述的,一种由几何元素组成的图形图像,一般都 直接在计算机上绘制而成。因而不属于纸质档案数字化生成的文件范畴。 以下是几种目前流行的文件存储格式。 1 、b 文件格式 b 是位图图像的普遍存储格式,其扩展名是宰b i n p ,由m i c r o s o r 公司 开发。在w i n d o w s 环境下运行的图形图像软件都支持b 图像文件格式,并 且可以用扫描仪直接扫描后进行存储。b 图像文件可以存储单色( 1 位) 、1 6 色( 4 位) 、2 5 6 色( 8 位) 、全彩色( 2 4 位) 、黑白和灰度色彩模式的图像数据,但 不支持c m y k 或双色调彩色图像。全彩色( 2 4 位) 的图像存储时b 不支持 压缩方式,其它色彩模式存储时可选择压缩或不压缩两种模式。 2 、g 文件格式 g 是研a p h i c sh n e r c h 孤g ef o 肌a t 的缩写,其扩展名是木西f ,采用改进 版的l z w 压缩方式,是由c o i n p u s e r v e 公司为了方便网络传送图像数据而制定 的一种图像文件格式。g 图像文件具有多元化结构,能够存储多张图像,这是 制作动画的基础。g 采用无损压缩,但它的每个像素只能存储到1 位到8 位的信息,只支持2 5 6 级灰度或2 5 6 色阶,所以文件不会很大。g i f 之所以流 行是因为过去绝大多数电脑的显示器只支持2 5 6 色。 。 3 、t f 文件格式 t i f f 是t a g g e dh i l a g ef i l ef o 锄a t 的缩写,其文件扩展名是半t i f ,是a l d u s 公司在早期苹果机上开发的,其设计的初衷是将扫描所得的图像在不同的平 台上进行高质量的打印,但现在已成为跨平台应用最为广泛的图像文件格式。t 巧f 允许图像存储相当多的位信息,每个像素点最多可存储3 2 位,最常用的为 9 山东师范大学硕:卜学位论文 2 4 位。除双色调图像外,t i f f 支持任何其它位图、灰度图、r g b 彩色图像、 c m y k 彩色图像、c 正l a b 彩色图像的存储。在用t i f f 格式存盘时会有一些选 择项目,首先选择是p c 还是m a c 机,其次选择需不需要l z w 压缩,l z w 是一种没有损失的压缩方式,选择l z w 压缩进行t 巧f 格式存盘时,可以减 少原有文件大约5 0 的容量,并保证图像质量不下降。 4 、j p e g 文件格式 旧e g 是j o i n tp h 6 t 0 黟印h i ce x p e n sg m u p 的缩写,其扩展名是宰j p g ,是 最常见的一种压缩图像文件格式。皿e g 在h l t e m e t 上被广泛使用,其每个像素 点最多可存储1 6 位。但皿e g 采用的是以损失图像质量为代价的有损压缩算 法,在存盘时可以根据对图像质量的等级来选择压缩比,若要保证图像有较高的 品质,则选择高质量的图像压缩方式,即h i 曲8 以上,相对应的图像的存储容 量会稍大些;反之如果图像存储文件容量较小,则图像质量也会有所降低。对于 图像质量要求不高,需要存储大量图像文件的网络,j p e g 是最佳的选择。 比较以上这些主流的文件存储格式: b 格式,存储2 4 位图像时b 格式无法压缩,而且所占存储空间很 大,而纸质档案扫描时的色彩位数一般定为2 4 位,显然选择b 御作为纸质档 案数字化存储格式是不现实的。 g 巧格式,虽然大多数纸质档案的数字化最后都形成了黑白或灰度图像,即 使是彩色档案,如红头文件,其色彩也比较单一,g 巧存储格式也已能满足要求, 但是g 巧的发展空间决定了它不能成为纸质档案数字化文件存储格式的理想选 择。 t 巧f 格式,由于它是一种基于标记的无损压缩格式,并且能在各种应用程 序之间和计算机平台之间灵活交换,其存储图像细微层次信息丰富,这样能保证 图像的质量,因而非常适合原件为黑白档案的数字化文件储存。 j p e g 格式,它是一种丢失少量信息的压缩格式,尤其适用于屏幕和打印显 示,并且它也支持所有主要计算机平台和w 曲浏览器。j p e g 格式文件比t f 格式文件小,影像质量在多数情况下均可接受。考虑到储存空间及传输效率, 当原件为彩色档案时可选用这种格式储存。 2 3 纸质档案数字化文件存储格式选择的基本原则 1 、文件的保真度 无论出于何种目的的档案数字化,“忠于原文 始终是最基本的原则。纸质 档案的数字化可以看成是对档案原文内容的“拷贝”,这种涉及到信息表达方式 变化的拷贝过程,极易造成档案原始信息的失真。为此,在选择文件存储格式时 1 0 山东师范大学硕士学位论文 必须要考虑其保真程度。严格的说,任何文件存储格式都存在不同程度的信息失 真,关键是将失真度控制在可允许的范围内。例如,h t m l ( 超文本标记语言文 件格式) 虽然具有通用性、传送性强等其它文件格式不具备的优点,但其信息还 原随阅读软件的不同而有不同的表现,稳定性差,决定了它不适合选作纸质档案 数字化的文件存储格式。 2 、文件大小 实现高密度存储始终是档案数字化追求的目标。浩如烟海的档案文献,即使 是其中精品的数字化,所需占用的存储空间仍然是一个天文数字。也许现在起步 阶段存储压力并不大,但与图书、杂志等一般文献的数字化不同,档案文件的数 字化通常都需要长久保存,其累积的存储空间是可以想象的。为此,在选择文件 存储格式时,应将文件存储所占空间的大小作为一个重要因素予以考虑。一份档 案在数字化时选择的文件存储格式不同,对整个数字化档案所占的存储空间影响 是巨大的。有关研究表明,在扫描图像分辨率和文件尺寸相同的情况下,最大存 储容量是最小存储容量的9 2 倍。 文件存储的大小通常与文件的保真度成反比,在很多情况下,必须在文件

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论