(计算机应用技术专业论文)图像处理在工商企业档案信息系统中的应用研究.pdf_第1页
(计算机应用技术专业论文)图像处理在工商企业档案信息系统中的应用研究.pdf_第2页
(计算机应用技术专业论文)图像处理在工商企业档案信息系统中的应用研究.pdf_第3页
(计算机应用技术专业论文)图像处理在工商企业档案信息系统中的应用研究.pdf_第4页
(计算机应用技术专业论文)图像处理在工商企业档案信息系统中的应用研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机应用技术专业论文)图像处理在工商企业档案信息系统中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

重庆大学硕士学位论文 中文摘要 摘要 随着计算机技术、通信技术和网络技术的发展,政府资源档案的管理和利用 也面f 每新的挑战和机遇,以档案图像数据为主体的信息系统得到越来越多的应用。 但现有的档案图像信息系统中,档案图像的处理还存在没有法定标准、档案图像 质量还有待进一步提高、档案图像的存储空间还有待进一步压缩等问题,本文从 纸质档案的数码化生产开始,仔细研究工商档案图像的特点,对图像倾斜校正、 图像增强和图像二值化三个方面陈述研究成果,并介绍其在实际的档案查询信息 系统中的应用与效果。 档案数码化是实态档案向虚态档案转换的过程,也是图像信息系统建设的首 要工作。文章从实际生产过程出发,分析了诸如工商、国土房产、办公文书等政 府资源类档案的数码化生产流程,总结了档案图像与其它图像的差异。 档案数码化为政府档案资源深度利用提供了途径,数码化后的档案图像倾斜 校正是数字档案质量的必然要求,也是数字图像的预处理过程。通过引入一个多 尺度的高斯滤波器,可以对档案图像的全局特征进行增强,继而在增强的图像中, 定义基于梯度函数的结构分析张量,提取像素点的行结构似然信息,对于大于一 定阈值的线结构信息,计算其倾角,最后利用倾角直方图的统计特性确定档案图 像的倾斜度。实验表明,本文介绍的档案图像倾斜校正方法对文本富裕档案具有 普遍适应性。 直方图均衡化能够调节图像的动态灰度范围,是一种经典有效的图像增强方 法,但它建立在合并相似像素灰度的基础之上,模糊了图像的细节。强调细节的 自适应图像均衡化( d e a h e ) 不但保持了图像均衡化具有动态范围调节的优点, 而且也可以放大图像细节。考虑到档案图像在数码化过程中可能受噪声的干扰, d e a h e 方法在强调图像细节的同时,也放大了噪声,因此,本文提出一种改进的 d e a h e 方法,即i a h e 方法,它使得增强后的档案图像噪声得到抑制、图像细节 得以放大、整幅图像的灰度范围得到调节。实验表明,经过i a h e 方法增强后的档 案图像,其主观视觉效果改善明显,可用于实际的数码档案生产过程中。 针对政府资源档案灰度图像,应用线性变换增强图像对比度,利用空域滤波 减少噪声对图像的影响,在此基础上,使用改进的大津率法计算图像的整体阈值 正,使用b e m s e n 算法计算图像的阈值曲面石,同时定义笔划断裂阈值瓦、邻域平 均阈值五、全局和局部相结合的阈值正;然后综合利用五正五个阈值,共同对灰 度图像进行二值化。实验表明,这种基于全局和局部阈值相结合的方法对政府资 源档案具有广泛适应性,对伪影和断笔划处理的效果令人满意。 重庆大学硕士学位论文 中文摘要 在随后的章节中,我们介绍了个实际的档案信息系统,它使用了上面提到 的图像处理技术,主要实现档案图像的两种查询功能,一是使用c s ( c l i e n t s e r v e r ) 模式的内部本地调阅,二是使用c s s ( c l i e n t j a p p l i c a t i o ns e r v e r d a t a b a s es e r v e r ) 模 式的外部异地查询,具有良好的社会效益和经济效益。本章内容涉及系统需求分 析、系统设计、系统实现和系统测试四个方面。系统测试和运行表明:该系统运 行稳定,界面规范,功能齐全;图像质量符合国家相关规定,能够满足用户的实 际需要;图像存取时间小于最大并发数时系统对时间的要求。 论文最后对全文所开展的研究工作进行了总结,并指明了未来的研究方向。 关键字:数码化,档案图像,倾斜校正,二值化,档案信息系统 n 重庆大学硕士学位论文英文摘要 a b s t r a c t w i t ht h ed e v e l o p m e n to ft e c h n i q u e ss u c ha sc o m p u t e r , c o m m u n i c a t i o na n d n e t w o r k , t h em a n a g e m e n ta n du t i l i z a t i o no fg o v e r n m e n tr e s o u r c ed o c u m e n ta r e c o n f r o n t e dw i t l lc h a l l e n g e sa n dc h a n c e s a l s om o r ea n dm o r ei n f o r m a t i o ns y s t e m s w h o s em a i nd a t aa r ed o c u m e n ti m a g e sa l eu s e dw i d e l yb u ti nt h ed o c u m e n ti m a g e i n f o r m a t i o ns y s t e m sn o w , t h e r ea r es o m ep r o b l e m s t h e s ep r o b l e m si n c l u d et h e s t a n d a r ds h o u l db ed e f i n e dw h e nd o c u m e n ti m a g ei s p r o c e s s i n g , t h eq u a l i t yo f d o c u m e n ti m a g es h o u l db ee n h a n c e dm o r e a n dt h es i z eo f d o c u m e n ti m a g es h o u l db e c o m p r e s s e dm o r e f r o mt h ed i g l t a l i z a t i o np r o c e d u r eo fp a p e rd o c u m e n tt oe l e c t r o n i c a l d o c u m e n t , w ea n a l y z e da n ds u m m a r i z e dt h ea t t r i b u t e so f a i c ( a d m i n i s t r a t o ro f i n d u s t r y a n dc o m m e r c e ) d o c u m e n ti m a g e t h e nw ep r e s e n tt h er e s e a r c h i n gr e s u l t so fs l a n t c o r r e c t i o n , e n h a n c e m e n ta n db i n a r i z a t i o no fd o c u m e n ti m a g e s i nt h ee n d ,w ei n t r o d u c e a na c t u a ld o c u m e n ti n q u i r i n gi n f o r m a t i o ns y s t e mw h i c ht h e s ei m a g ep r o c e s s i n g t e c h n i q u e sa p p l i e dt o d o c u m e n td i g i t a l i z a t i o ni st h ep r o c e d u r eo ft r a n s f e r r i n gp a p e re n t i t a t i v ed o c u m e n t t od i g i t a lv i r t u a ld o c u m e n t i t st h ef i r s tj o bo fc o n s t r u c t i n gi m a g ei n f o r m a t i o ns y s t e m f r o mt h ep r a c t i c a lm a n u f a c t u r eo fd i i g i t a ld o c u m e n t , w ea n a l y z e de v e r yd i g i t a l i z a t i o n s t e po fd o c u m e n t ss u c ha sa i c ,m u n i c i p a lb u r e a uo fl a n dr e s o u r c ea n dh o u s i n g m a n a g e m e n t f u r t h e r m o r e , w ec o u l dd e f i n et h ed i f f e r e n c e sb e t w e e nt h ed o c u m e n t i m a g ea n dt h eo t h e rn a t u r a li m a g e s d o c u m e n td i g i t a l i z i n gp r o v i d e sam e t h o dt ou t i l i z et h ea r c h i v a lr e s o u r c e so f g o v e r n m e n tc o m p r e h e n s i v e l y s l a n tc o r r e c t i o no fd i g i t a l i z e dd o c u m e n ti sn e c e s s a r yf o r t h eq u a l i t yo fd i g i t a li m a g e ,a n di t sap r e p r o e e s s i n go fa n yo t h e rp r o c e d u r e b ya g a u s s i a nf i l t e ro fm u l t i - s c a l e ,t h eg l o b a ls t r u c t u r eo ft h eo r i g i n a ld o c u m e n ti m a g ew a s e n h a n c e d b a s e do ng r a d i e n t so fe n h a n c e di m a g e , as t r u c t u r a la n a l y s i st e n s o rw a s d e f i n e da l s of o rt h ed e t e c t i o no fl i n es t r u c t u r ea tt h ee a c hp i x e l f o rt h el i n e - l i k e n e s s v a l u ea te v e r yp i x e l ,w h i c hi sg r e a t e rt h a nag i v e nn u m b e r , t h ec o r r e s p o n d i n ga n g l ew a s c a l c u l a t e d f r o mt h eh i s t o g r a mo ft h e s ea n g l e s ,d o c u m e n ts k e wc o u l db ed e t e r m i n e d o u r e x p e r i m e n t ss h o wt h a tt h em e t h o dw e i n t r o d u c e di sa d a p t i v et ov a r i o u sd o c u m e n t s w i t hr i c ht e x t h i s t o g r m ne q u i l i b r i u m o fi m a g ec a ne x t e n dt h ei m a g e sg r e yr a n g e i t sa c l a s s i ca n de f f i c i e n tm e t h o do f i m a g ee n h a n c e m e n t b u tt h i sm e t h o do a nb l u ri m a g ea l s o , b e c a m eo ft h ea l g o r i t h mi sc o n s t r u c t e db yt h eb a s i so fc o m b i n a t i o no fs i m i l a rg r e y 1 1 1 重庆大学硕士学位论文英文摘要 p i x e l s d e t a i le m p h a s i z e da d a p t i v eh i s t o g r a me q u i l i b r i u m ( d e a h e ) h a sn o to n l y h o l d i n gt h ea d v a n t a g eo fh e 一一e x t e n dt h eg r e yr a n g e ,b u ta l s oa m p l i f y i n gi m a g ed e t a i l d u et os o m en o i s e sw e r ea d d e dt ot h ei m a g e si nt h ed o c u m e n td i g i t a l i z a t i o np r o c e d u r e , s od e a h ea m p l i f i e dt h en o i s e ss i m u l t a n e o u s l yw h i l ei ta m p l i f i e dt h ei m a g ed e t a i l t h e r e f o r e ,w ep r o p o s e da ni m p r o v e dd e a h em e t h o d ,c a l l e di a h e ,t os u p p r e s sn o i s e , t oa m p l i f yt h ei m a g ed e t m l a n dt oa d j u s tt h eg r e yr a n g eo ft h ei m a g e n l ee x p e r i m e n t s s h o wt h a tt h ei d e a h em e t h o dc o u l di m p r o v et h ed o c u m e n ti m a g ev i s u a l l y i t sa n a l t e r n a t i v em e t h o do f i m a g ee n h a n c e m e n ti nd i g i t a ld o c u m e n ti m a g ep r o d u c i n g f o rt h eg r a y - l e v e li m a g eo f g o v e r n m e n td o c u m e n tl e s o n r c e ,al i n e a rt r a n s f o i t f lw a s e m p l o y e dt oe n h a n c e t h ei m a g ec o n t r a s t as p a t i a lf i l t e rw a sa p p l i e dt ob a t ei m a g en o i s e b a s e do nt h i sp r e p r o e e s s i n g , t h eg l o b a lt h r e s h o l d 互w a sc a l c u l a t e db ym o d i f i e do t s u m e t h o d t h et h r e s h o l ds u r f a c e 写w a sc o m p u t e db yb e m s e na l g o r i t h m o nt h eb a s i so f t 1a n d 互,s o m et h r e s h o l d ss u c h 髂t h es t r o k eb r e a k i n gv a l u e 巧,t h ea v e r a g ev a l u e 瓦o f l o c a lp r o c e s s i n gw i n d o wa n dt h eu n i o n v a l u e 正b e t w e e ng l o b a la n d l o c a lw e r e d e f i n e d t h e nt h eg r a y - l e v e li m a g ew a sb i n a r i z e dt h r o u g ht h ec o m b i n a t i o no f t h e s ef i v e v a l u e s o u re x p e r i m e n t ss h o wt h a tt h ep r o p o s e dm e t h o d ,b a s e do nt h eu n i o no fg l o b a l a n dl o c a lt h r e s h o l d ,i sa d a p t i v et ov a r i o u sd o c u m e n t so fg o v e r n m e n tr e s o u r c e i tc o u l d a c h i e v ea l s o0 1 1 1 p u r p o s eo f p r o c e s s i n go f i m a g eg h o s ta n db r o k er u p t u r e i nt h en e x tc h a p t e r , w ei n t r o d u c e da na c t u a ld o c u m e n ti n f o r m a t i o ns y s t e mw h i c h u s e dt h e s ei m a g ep r o c e s s i n gt e c h n i q u e sa b o v e 1 1 1 es y s t e mh a st w oi n q u i r i n gf u n c t i o n s o fd o c u m e n ti m a g e sm a i n l y o n ei si n n e rl o c a li n q u i r i n gb yc s ,a n o t h e ri so u t e r l o n g - d i s t a n c ei n q u i r i n gb yc s s i tp r o d u c e dg o o ds o c i e t yb e n e f i ta n dg r e a te c o n o m i c b e n e f i t t h ec o n t e n to ft h i sp a p e rc o v g i sf o u rp a r t s t h e y 撇s y s t e mr e q u i r e m e n t a n a l y s i s s y s t e md e s i g n , s y s t e mi m p l e m e n t a t i o na n ds y s t e mt e s t n l et e s ta n dt h eu s eo f t h es y s t e ms h o wt h a tt h es y s t e mi sn m n i n gs t e a d i l y i th a sf r i e n di n t e r f a c e sa n df i l l l f u n c t i o n s 1 1 地i m a g eq u a l i t yi sc o m p a t i b l ew i t ht h en a t i o n a lr u l e sa n dc a ns a t i s f yt h e p r a t i c a ln e e d so fu s e r s m o r e o v e r , t h ei m a g ea c c e s s i n gt i m ei sl e s st h a nt h es y s t e m p r e - d e f m e dt i m et h a tm o s t u s e r si n q u i r e f i n a l l y ,w es u m m a r i z e do u rr e s e a r c hw o r k , s i m u l t a n e o u s l yw ep o i n t e do u tw h a t s h o u l dw ed oi nt h ef u t u r e k e yw o r d s d i g i t a l i z a t i o n ;d o c u m e n ti m a g e ;s l a n tc o r r e c t i o n ;b i n a r i z a t i o n ;d o c u m e n t i n f o r m a t i o ns y s t e m i v 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取 得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果,也不包含为获得重迭太堂 或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本 研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:商焉 学位论文版权使用授权书 本学位论文作者完全了解重麽太堂有关保留、使用学位论文的 规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许 论文被查阅和借阅。本人授权重麽太堂可以将学位论文的全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段 保存、汇编学位论文。 保密() ,在年解密后适用本授权书。 本学位论文属于 不保密( ) 。 ( 请只在上述一个括号内打“4 ) 学位论文作者签名:南焉 签字日期:砷年厂月w 日 新虢一 签字日期:衫夕年j 。月日 重庆大学硕士学位论文1 绪论 1 绪论 1 1 问题的提出及研究意义 随着经济的发展和社会的进步,信息化革命更加深入人心,并逐渐改变人们 的思维方式和生活方式。越来越多的人在生活中离不开手机、电子记事簿、上网 浏览、收发电子邮件、刷卡消费。所有这些,都是人们在不知不觉中享受了 信息革命带来的实惠和方便,而一些传统的行业( 如邮政) 则逐步走向萧条。 信息产业是近2 0 年全球发展最为迅猛的产业,尤其是经济发达国家,信息产 业已经取代了传统工业而成为第一大产业。由此可见信息化建设在国家发展和经 济建设中的重要地位。 重庆市工商局作为重庆市政府的一个重要部门,其信息化建设是市政府电子 政务的一个组成部分。重庆市政府提出的重庆信息港和数字重庆的概念,就是基 于电子政务的基本思想,加快重庆市党政及下属各部门的信息化建设,以此为依 托,形成一个全市范围内的党政机关的信息化大网络。在这个网络中,囊括了全 市各行各业的各种数据资源,汇集成一个个庞大的资源信息库,衍生出一个个关 于重庆市经济建设、城市发展、人力资源开发等等的分析决策系统,供各级领导 参考决策;供经济学家、投资商、企业家等参考决策。因此,信息化建设是对 综合信息资源的汇总、处理、分析、再生的过程,这是靠人力和人脑难以完成的 复杂而巨大的工作。 重庆市工商局信息系统建设的总体目标,就是建设一个全市范围内的、包括 各个区市县分局及下属各工商所的三级计算机网络,形成一个完整的信息传输通 道;在此基础上,构造市、区县、所三级计算机系统和开发各级的业务应用系统 软件,使全局办公、业务计算机化、网络化;构造市、区县两级业务系统数据库, 为业务部门使用、领导查询、上报数据和社会查询服务。其最终目的,就是为民 众提供方便、快捷的服务;为政府提供准确、有效的数据信息;为行业提供规范, 有力的管理;为社会树立公正、廉洁的形象。 在重庆市工商局信息系统中,工商企业档案查询子系统是一个重要的部分。 工商档案是指企业的工商登记档案,它是企业的经济户口,包括静态的和动态的 两部分数据。静态数据是指诸如企业开业登记资料的自然情况,而动态数据涉及 市场的准入、生产经营和市场信誉等信息。前者是市场主体的自然表现,后者是 市场主体的市场表现和行为。 随着我国市场经济体制的建立和完善,特别是加入w t o 以后,国际市场和国 内市场相互交融,对市场主体的监控和管理就变得越来越重要。我们不仅要了解 重庆大学硕士学位论文1 绪论 和统计企业的基本情况,还要搜集和监控企业的动态发展数据,以实现工商档案 的三大功能:信息提供、预警分析和决策参考。 时代发展的要求只有建立市场经济条件下的经济户口来满足,工商档案数码 化就成为其必要手段。它是以数据库技术和计算机网络技术为支撑、由纸质档案 和电子档案两者组合、客观真实地反映市场主体静态与动态状况以及接受国家行 政执法机关监督管理状况的一个综合系统。 在工商企业档案查询子系统中,依据国家有关法律法规,对数字化的档案图 像进行处理,达到或符合人类视觉效果的要求,是该系统至关重要的质量因素, 也是影响系统检索效率的因素之一。 1 2 国内外研究现状 经检索,超过i t b 的大容量图像数据信息系统已有应用,但多数基于诸如 o r a c l e 、s y b a s e 等大型数据库和高端服务器,本文研究的档案信息系统基于企业级 的p c 服务器和s q l s e r v e r 数据库,数据容量达到4 0 0 g b 左右,并且还在以每年 1 5 的速度递增。下面从档案数码化、档案信息系统和档案图像处理技术三个方 面阐述其国内外的技术现状。 1 2 1 档案数码化 计算机的普及以及网络的应用,使得利用者越来越希望档案部门能够将纸质 档案数码化,以提供全天候、全文、异地远程优质信息服务,而现在大多数档案 部门根本达不到这种要求。这主要表现在【l 】: 第一,档案信息化建设面临着传统观念认识的制约。我国以往的档案工作一 直处于一种封闭半封闭的管理模式之下,档案一度被藏置密室,蒙上一层神秘的 面纱。档案工作中存在以“被动保管”为主,馆藏结构单一,档案信息利用率相对较 低等问题;存在“重藏轻用”与“重为政治服务,轻为经济文化服务”两种倾向。由于 历史的、政治的原因,一些人在思想上还受着诸多传统因素的影响,没有真正认 识到档案信息化建设的重大意义,没有认识到档案信息化建设将带来的社会效益 和经济效益,对档案信息化建设还不是十分重视,还存在坐等观望的态度,因此 投资力度不强,人员、技术力量配备薄弱,在硬件建设上流于走形式,档案信息 化建设步子迈得不大,发展速度缓慢。 第二,档案信息网络化建设面l 临着法律规定滞后的困境。1 ) 网络档案信息内 容范围缺乏相关的法律规定。怎样的档案信息可以通过网络发布,怎样的档案信 息不能通过网络发布,怎样的档案信息可以在因特网范围内发布,怎样的档案信 息只能在局域网范围内发布,根据已有的法律来看,对这些内容还没有具体、明 确、可执行的法律规定。这使得档案机构对档案信息的网络发布持慎之又慎的态 2 重庆大学硕士学位论文1 绪论 度,影响了他们的工作效率。2 ) 网络档案信息凭证价值缺乏相关的法律认定。“档 案是确凿的历史记录,它呆以成为查考、研究、争辩和处理问题的依凭,认定法 律权利、义务与责任的证据,以及政治斗争、外交斗争和教育人民的工具”。“档案 的凭证价值,是档案不同于和优于其它各种资料的最基本的特点”。网络档案信息 的来源主要包括两个部分:第一部分是传统档案经过数字化处理得来的网络档案 信息,这部分信息有档案原件作保证。但对于第二部分电子文件来说,在我国的 法律条文中,还没有明确规定其证据能力。证据的客观真实性是证据是否有证明 力的决定性因素,电子文件最难确定的就是其真实性。电子文件本身固有的原始 信息的可变性和不稳定性及人们对其可靠程度的不信任和矛盾心理,使其难以成 为合法的证据。为了实现电子文件的凭证价值,不得不将电子文件和同一内容的 物质文件同时归档,这又大大增加了库房面积,加大了经济负担,有悖于档案信 息网络化建设的初衷。 纸质档案数码化现状的其它方面还包括:档案信息化建设受技术力量( 人员) 滞后的制约;档案信息数字化的巨大工作量与档案部门人力、物力、财力和技术 力量相对缺乏的困境;档案网络和网络档案信息缺乏规范和组织管理。 1 2 2 档案信息系统 目前,特定表格档案图像信息已经进入实用阶段,通用表格档案图像信息系 统仍面临大量技术难题。这主要体现在:在美e t 等发达国家,o c r 在信函分拣 中得到广泛应用。在日本,金融行业中的大量存单、储单、保单以及户籍登记 都通过o c r 来实现。在美国,大规模的人口普查、针对个人的信贷业务、个 人所得税申报等也都采用o c r 技术。在国内,o c r 识别在脱机印刷体汉字识 别、小字符集手写汉字识别和手写数字识别等方向上,己经发展得比较成熟。在 手写数字识别方面,重庆大学光电工程学院研制的a v - 1 0 0 表格自动阅读机【2 】,得 到了国家高技术研究发展“8 6 3 ”计划的资助,在1 9 9 6 年的农业普查中得到大规模的 应用,实现了2 亿多张表格文档,2 0 0 多亿数据录入计算机进行处理、统计,其数 据量之大,堪称世界之最。在2 0 0 0 年的全国人口普查中,根据国家统计局提供的 数据,全国约有4 5 亿张普查表,同样采用o c r 技术实现了表格文档的自动录入。 通用的表格图像由于版面复杂、包含畸变和噪声等因素,到目前还没有一个好 的系统。 在汉字识别方面,印刷体汉字识别已经实用,手写体汉字识别、尤其是自由 书写识别和脱机识别,其识别率还有待提高。手写汉字识别的难点:汉字类别 多,康熙字典中就包含了4 9 0 0 0 多个汉字,而常用的一级汉字就有3 7 5 5 个, 因而汉字识别问题属于大类别( 或者称为超多类) 模式识别问题,在模式识别理论和 方法研究方面有重大意义。汉字字形结构复杂。汉字集合中相似字较多,有些 重庆大学硕士学位论文1 绪论 汉字的差别仅为一点或一个笔画,由于手写变形的存在,使得手写体中相似字的 区分比印刷体要困难得多。因不同人书写风格的差异造成手写汉字的变形很 大,具体表现在以下几个方面:一是基本笔画变化大,横不平,竖不直,直笔变 弯,折笔的拐角变成圆弧等。二是笔画模糊,不规范,该连的不连,不该连的却 相连。三是笔画与笔画之间、部件与部件之间的位置发生变化。四是笔画的倾斜 角、笔画的长短、部件的大小发生变化。 清华大学研制的非特定人脱机手写汉字文本识别系统于1 9 9 7 年3 月2 2 日通 过了由国家教委组织的鉴定,并获得了高度评价,对于书写较为工整的手写汉字 ( 一级字符集3 7 5 5 个) ,正确识别率达9 5 8 。 到目前,对于无太多限制的自由手写体汉字正确识别率百分之九十左右。远 远达不到实际应用水平。 1 2 3 档案图像处理 由于噪声的存在和信息系统对档案图像质量的要求,对数字档案图像进行处 理是必然的。本文涉及到的图像处理包括档案图像倾斜校正、档案图像增强和档 案图像二值化,与此相关的还包括档案图像压缩,以下从这几个方面予以阐述。 在档案的数码化加工过程中,无论是手工扫描,还是机器自动扫描,图像倾 斜是不可避免的,这就会对图像的后续处理带来不少的麻烦,因此有必要对档案 图像进行倾斜校正。档案图像纠偏的一种主要方法是基于投影的方法口】,它首先通 过黑色像素沿着若干指定的方向投影而得到若干投影图,再根据这些投影图的方 差求得文本的倾斜角,但这种方法由于投影的方向较多,所以存在计算量大的缺 点。档案图像纠偏的另外一种主要方法是h o u g h 变换【4 】,其基本思想是首先提取 文本行中的一些点,然后利用h o u g h 变换将这些点拟合成若干直线段,同时可以 得到这些直线段对应的角度,再根据这些角度的分布情况估算文本的倾斜角度。 但是,如果档案图像中出现横、纵、斜等多种书写方向,则该类方法效果不好。 1 9 9 8 年,o m i de k i a 和d a v i ds d o e r m a n n 等人瞪】将h o u g h 变换用于符号级压缩 域档案图像倾斜校正,在他们选用的1 2 2 幅图像中,实验表明每幅图像的平均倾 斜估计时间为1 5 s ,平均图像校正时间为1 8 8 s ,平均倾斜精度为0 1 7 8 6 0 。投影方 法是倾斜检测中最常用的技术,对只含文字的档案效果良好。h o u g h 变换适合在 图像中检测线条和曲线。上述两种方法的纠偏能力在很大程度上依赖于特征提取 过程中的可靠度,并且这些方法只局限于纯文本图像。除此之外,还有邻域 ( n e a r e s t - n e i g h b o r ) 方法、b a g ( b l o c ka d j a c e n tg r a p h i c ) 算法、f o u r i e r 谱分析法、地 图分析法和神经网络法等【6 j 。 图像增强是为了改善视觉效果或便于人或机器对图像的分析理解,根据图像 的特点或存在的问题,以及应用目的所采取的简单改善图像质量的方法或加强图 4 重庆大学硕士学位论文1 绪论 像某些特征的措施。一般来讲,图像增强的通用理论是不存在的,而且图像增强 是面向特定应用的。根据图像处理的方法不一样,可将图像增强分为空域方法和 频域方法,而空域方法可以进一步分为点处理( 变换) 和模板处理( 滤波) ;根据图像 处理的策略可将图像增强分为全局处理和局部处理;根据图像增强的处理对象, 可将图像增强分为灰度图像增强和彩色图像增强。文献 7 1 对各类常用的图像增强算 法进行了总结,分析了算法的特点和指出了使用的范围,在档案图像增强时可以 借鉴。 和倾斜校正一样,图像二值化也是图像预处理过程,对后续的o c r 和文档分 析等处理起着至关重要的作用。到目前为止,已经提出的图像二值化方法不下1 0 0 种。二值化方法一般都是针对具体的实际应用提出,所以用同一尺度进行精确的 定量比较并不科学。二值化的主要方法包括全局阈值法和局部阈值法。全局阈值 法包括中值法、o t s u 法【8 】和最大熵法;局部阈值法包括灰度直方图法、微分直方图 法和b e r s e n 法【9 】等。全局阈值法基于整张灰度图像得出一个阈值,然后将图像中 的每个像素都与该阈值比较。它对于目标和背景明显分离,直方图分布呈双峰的 图像效果好;但是对于由于光照不均匀,噪声干扰较大等原因使直方图分布不呈 双峰的图像,二值化效果明显变差。局部阈值方法则是根据某个像素点周围的像 素以某种方法计算出每一点的阈值,这样就可以得到一个阂值曲面,即是一个与 原图一样大小的矩阵,然后将图像中( x ,y ) 像素与阈值曲面对应的( x , y ) 相比较, 大于它的置为黑,反之则为白色。局部阀值方法对于光照不均匀的情况适应性就 比全局闽值方法好,但是它也存在以下问题和缺点:实现速度馒,不能保证字符 笔划的连续性,容易出现伪影。未来的研究将主要集中在对特定应用场合的二值 化研究,尽最大可能提取样本的信息和先验知识,使得对特定处理对象的效果最 优;另外就是如何将多种二值化的方法集成,根据不同的图像自动选择二值化的 方法,集成难点就是如何提取图像的信息、提取什么样的信息,以及自动选择的 标准;最后一个突破点就是做好图像的预处理和后处理,我们认为这是最有效的 办法,也是最直接的方法,而且往往收到很好的效果。 信息系统中另一关键图像处理技术是档案图像压缩。自2 0 世纪7 0 年代,传 真机的大量使用导致文档扫描和传输的增长,此时人们首次意识到文档图像压缩 的极端重要性。随后,c c i t t 开始制订传真机传输的压缩规则,并于1 9 8 0 年发布 了c c i t tc _ r r o u p 3 ,并采用了游程长度编码( r u nl e n g t he n c o d i n g ,r l e ) 技术, 其后在1 9 8 5 年,发布了c c i t tc , r o u p 4 t l l 】标准。1 9 7 4 年,r a s c h e r 和g n a g y 首 先提出了符号级档案压缩的思想【1 2 1 ,他们采用p m & s 俾a r e n am a t c h i n ga n d s u b s t i t u t e ,简称p m a s ) 技术,使得冗余不仅可以在像素流级进行减少,而且可以 在符号流级进行减少,从而把冗余减少从一维模式空问提升n - 维模式空间。其 重庆大学硕士学位论文1 绪论 后,一大批学者发扬和光大了符号级档案压缩,这包括w i l l i a m p r a t t 等人的 c s m ( c o m b i n es y m b o lm a t c h i n g ,组合符号匹配) ”,m j h o r 和c s x y d e a s 的 c s i s ( c o m b i n i n gs i z e - l n d e p e n d e n ts t r a t e g y ,组合大小无关策略) 算法,i a nh w r i t t e n 等人总结出的符号级压缩公式化流程,s m a r ti n # i s 和i a nh w i t t e n 提出的 c t m ( c o m p r e s s i o n b a s e dt e m p l a t em a t c h i n g ,基于压缩的模板匹配) ,q i nz h a n g 和 j o h nm d a n s k i n 提出了用于档案图像压缩的e p m ( e n t r o p y - b a s e dp a t t e r nm a t c h i n g ) 算法,笛卡儿产品公司开发的专利技术c p c ( c a r t e s i a np e r c e p t u a lc o m p r e s s i o n ,笛 卡儿视觉压缩1 【1 4 】,y i b i n gy a n g ,h o n gy a n 和d o n g g a n gy u 三人提出了y y y 方法 等。总的来讲,在本文涉及的工商档案系统中,像素级、符号级的档案压缩技术 已经得到应用,而档案页之间的冗余去除显得比较迫切。 1 3 本文的研究内容及其组织 章节安排如下:在第一章中,对工商企业档案的信息系统建设做了简单介绍, 阐述了本文的研究背景、研究现状以及本文的研究内容和章节安排。在第二章中, 针对工商企业档案信息系统中数字图像的特点,介绍了纸质档案的数码化过程和 数字档案图像的形式化描述,以及档案图像的特点。在第三章中对档案图像的处 理技术做了主要介绍,提出了诸如档案图像倾斜校正、档案图像增强和档案图像 二值化等适合工商档案的图像处理算法,并且通过实验对该算法进行比较分析。 在第四章中,针对一个实际的工商企业档案信息系统,进行了需求分析、系统设 计、系统实现和系统测试。在第五章中,给出本文的总结和对未来的展望。 论文的内容框架如下图所示: 本文 绪论档案数码化图像处理信息系统总结和展望 档案数码化 必要性 档案数码化过程 档案图像特点 需求分析 系统设计 系统实施 系统测试 图1 1 本文的研究内容与组织 f i g1 1t h ec o n t e n ta n do r g a n i z a t i o no f t h i sd i s s e r t a t i o n 6 作自舡舫 结来研总来及 ,l 。 化正强值 校增二 斜像像颐图图 织景状组背现与究术容研技内 重庆大学硕士学位论文1 绪论 1 4 本章小结 本章主要介绍了本文研究内容的背景,重点分析了档案数码化、档案信息系 统和档案图像处理技术的国内外现状,指出了现有工商档案图像信息系统中存在 的不足,尤其是数码档案的图像质量有待提高,本章最后提出了本文研究的主要 内容和本文的章节安排。 7 重庆大学硕士学位论文 2 档案数码化 2 档案数码化 2 1 档案数码化的必要性 按照丁海斌0 5 , 1 6 1 的观点:档案数码化过程就是实态档案( 物理档案) 向虚态 档案( 虚拟档案) 转化的过程。这种转化过程称为档案虚拟化,其本质意义是档 案信息的独立与自由。即虚拟化过程中信息与载体的分离和信息的共享,解脱了 载体对信息的传统束缚。这不仅使信息的存储密度、存储成本和总容量大大提高( 几 乎为无限的信息容量) ,更重要的是,大大改善了信息自身的性能。虚拟化的信息 具有极大的空间流动性。信息能以极高的速度、极大的容量、跨越广阔的地域自 由流动,为全社会共享,这是传统档案绝对做不到的。从档案信息与载体的“二位 一体”到信息的独立与自由,是档案虚拟化的最具有本质意义的变化。 档案数码化是信息化建设的一项基础工作,而信息化是覆盖我国现代化建设 全局的一项战略举措。搞好档案数字化工作是缩小我国与其他国家数字鸿沟的一 种努力。据国外统计【1 7 1 ,中国的计算机量在全球排名第1 2 名,而信息技术满足企 业需要的程度则排在第4 4 位。在国际数据库市场中,日本和韩国有1 0 0 种以上的 数据进入国际市场,中国只有4 种。因此,我们必须加快建设一批数字化档案馆, 以档案信息资源建设为核心,采用人工智能检索、信息海量存取、多媒体制作与 传输、自动标引、数字版权保护等现代信息技术

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论