(信号与信息处理专业论文)中文图像文档高速过滤中的关键技术研究.pdf_第1页
(信号与信息处理专业论文)中文图像文档高速过滤中的关键技术研究.pdf_第2页
(信号与信息处理专业论文)中文图像文档高速过滤中的关键技术研究.pdf_第3页
(信号与信息处理专业论文)中文图像文档高速过滤中的关键技术研究.pdf_第4页
(信号与信息处理专业论文)中文图像文档高速过滤中的关键技术研究.pdf_第5页
已阅读5页,还剩108页未读 继续免费阅读

(信号与信息处理专业论文)中文图像文档高速过滤中的关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文图像文档高速过滤中的关键技术研究 摘要 图像文档( d o c u m e n ti m a g e ) 是指以图像的方式保存的文本信息, 通常由扫描的方式或者通过软件把纯文本转换为图像获得。可包括各 类图像格式b m p ,g i f ,j p e g 等,各类f a x 文件格式,以及图像压缩 文件c c i t tg 3 4 ,j p e o ,j b i g 2 等。由于计算机和桌面扫描仪数量 的激增,图像文档已经是无处不在,但互连网上众多图像文档却不能 直接利用现有的文本过滤技术。传统o c r 方法首先把图像文档转换成 文本文件,再利用现有的文本过滤技术分析处理。由于目前o c r 技术 存在处理时间长,误识率高等缺点面不适合对动态信息进行处理。图 像文档过滤已成为互连网信息安全的瓶颈和死角,也成为一些别有用 心之人躲避网络实时监控的方便之门。巨大的应用需求追切需要一套 适合中文图像文档过滤的理论和方法。 由于汉字较英文字母结构更加复杂,字符数量庞大,词与词之间 没有自然间隔,中文图像文档过滤有自己的特点,并不能完全照搬英 文图像文档过滤的方法。图像文档过滤系统有两个重要的特征:第一, 它需要实时的处理网络数据流,在高速网络环境下,对文档内容的分 析要求有非常高的实时要求。第二,它需要尽可能早地发现匹配的规 则,一旦发现满足任何一条规则,则可以立即终止内容分析,这与一 般信息过滤中需要对整个文档全部处理后再执行判断是不同的。目前 图像文档过滤广泛使用的方法是关键词搜索。本文的主要成果包括: ( i ) 提出了一种多模板匹配结合可信度分析的中文图像文档过滤方 法,克服了传统o c r 速度慢的缺点,同时改善了基于图像特征匹 配方法对字体和噪音敏感的特性。通过粗特征和细特征两阶段过 滤,在提高速度的同时,保证了识别的准确度。采用w m 字符串匹 配方法,减少了特征抽取的次数,有效的减小了计算量,加快了 关键词识别速度。可信度分析提高了识别的正确率。处理速度的 提升,为过滤系统的实用化创造了条件。 ( 2 ) 过滤系统的关键词提前设置,在一段时间内不会更改,关键词的 数量也比较大。充分利用这些已知信息,可以加快在线实时处理 速度。借鉴语音关键词识别,提出了图像文档关键词垃圾模型。 首先通过动态聚类方法将3 7 5 5 个常用汉字按特征相似度分成不 同的类,并抽取各类的平均特征作为类特征。含有关键字的类称 为关键字类,不含关键字的类称为垃圾类。当对待检字进行判定 时,通过粗特征计算待检字与各类的距离尺度,用以判别待检字 的归属类。若待检字属于关键字类,则进步用细特征对关键字 及其相似字进行类内确认。否则待检字属于垃圾类,不再进行处 理。此方法解决了直接匹配判别条件及可信度分析所存在的问题, 提高了识别准确度。 ( 3 ) 基于字符串相似匹配算法提出了一种新的词匹配的关键词过滤方 法。由于质量低下的图像文档可能造成切分错误,使以字为单位 的关键词搜索方法无法正确地识别出来。以词为单位可以减少切 分错误带来的影响,模糊字符匹配方法使这种设想成为可能。该 方法通过提取整词简单图像特征与模板相似匹配比较作为确认是 否为关键词的手段,可以解决字符切分可能带来的误差等棘手问 题。 ( 4 ) 提出了一种基于隐性语义索引和线性判别分析的文档倾向性判别 方法。由于f h - v l l 练数据生成的词一文档矩阵维数很高,直接应用线 性判别分析计算量十分巨大。隐性语义索引是将多维特征映射成 低维特征的一种方法,能最低限度地减少信息的丢失。但是隐性 语义索引所提取的特征并不是最优分类特征。而在隐性语义索引 之后进行性判别分析既可以有效降维,又可提高分类精度。对图 像文档过滤关键词自动选择有重要意义。 关键词:图像文档模板匹配垃圾模型模糊字符串匹配潜语义索弓 线一f c - - n 断分析 i i r e s e a r c ho n k e yt e c h n o l o g i e so fh i g h 。s p e e dc h i n e s e d o c u m e n ti 【a g ef l l t e r i n g a b s t r a c t ad o c u m e n ti m a g ei sa l l i m a g ew h e r et e x tc o n t e n ti st h ed o m i n a n t i n f o r m a t i o n i tc a l lb e p r o d u c e db y s c a n n e ro r i m a g e p r o c e s s i n g s o f t w a r ea n di ss t o r e di ni m a g ef o r m a t s ( e g b m p ,g i f , j p e g ,e t c ) ,f a x f o r m a t so rc o m p r e s s e df o r r n a t s ( e g c c i t tg 3 4 ,j p e g , j b i g 2 ,e t c ) t h ep o p u l a r i t yo fc o m p u t e ra n ds c a n n e rh a sp r o d u c e dm o r ea n dm o r e d o c u m e n t i m a g e s ,b u tl a r g eq u a n t i t i e so f t h e mc a n n o td i r e c t l ye m p l o yt h e c u r r e n t p o w e r f u l t e x t f i l t e r i n gt e c h n o l o g i e s t r a d i t i o n a l o c r - b a s e d m e t h o di st ot r a n s f e rt h ei m a g ed o c u m e n t st ot h e i rt e x tf o r m a tu s i n go c r f i r s t ,a n dt e x ti n f o r m a t i o nf i l t e r i n gs t r a t e g i e sa r ea p p l i e dt h e n h o w e v e r , o c r i sn o tp e r f e c ta n di ti st i m e - c o n s u m i n g d o c u m e n tu m a g ef i l t e r i n g h a sb e c o m et h eb o t t l e n e c ko fi n f o r m a t i o ns e c u r i t yi ni n t e m e ta n dg i v e n t h ew a yt ob y p a s ss u r v e i l l a n c e t h e o r ya n dm e t h o do fc h i n e s ed o c u m e n t i m a g ef i l t e r i n gi sr e q u i r e d t os a t i s f yt h et r e m e n d o u sd e m a n d i i i a st h en u m b e ro fc h i n e s ec h a r a c t e r si sl a r g e ,t h es t r o k e sa n d s h a p e s o fm o s tc h i n e s ec h a r a c t e r sa r ev e r yc o m p l i c a t e da n dt h e r ei sn os p a c e b e t w e e nc h i n e s e w o r d s ,n o t a l l e n g l i s h d o c u m e n t i m a g ef i l t e r i n g t e c h n o l o g y i ss u i t a b l ef o rc h i n e s e t h e r ea r et w om a j o rf e a t u r e so f d o c u m e n t i m a g ef i l t e r i n gs y s t e m :o n e i si tm u s tw o r ko n l i n ei n h i g h s p e e dn e t w o r k t h ec o n t e n ta n a l y s i so f d o c u m e n t i m a g e m u s tb ef a s t t h eo t h e ro n ei si tm u s tm a k ed e c i s i o na ss o o na sp o s s i b l ei fh a v i n g f o u n dt h e m a t c h i n g t h i s i sd i f f e r e n tf r o mt e x t f i l t e r i n ga n a l y s i s k e y w o r ds p o t t i n gi s o n eo ft h em o s tw i d e s p r e a dm e t h o d si nd o c u m e n t i m a g ef i l t e r i n g t h ef o l l o w i n g a r ea c h i e v e dr e s u l t si nt h i sd i s s e r t a t i o n : ( 1 ) af a s ta p p r o a c ht ok e y w o r d ss e a r c h i n gi nc h i n e s ed o c u m e n t i m a g e sb a s e d o nm u l t i p l et e m p l a t e sm a t c h i n ga n dc o n f i d e n c em e a s u r ei s p r e s e n t e d t h es y s t e mo v e r c o m e sd r a w b a c k so f o c ra n ds i g n i f i c a n t l y i m p r o v e dp e r f o r m a n c eo fi m a g e - b a s e da p p r o a c hc o a r s e a n df i n ef e a t u r e v e c t o r sa r ee x t r a c t e da n dat w o - s t a g ef i l t e r i n gs c h e m ei sp r o p o s e da i m i n g a ta c c e l e r a t i n gt h ef i l t e r i n gp r o c e s sa n di m p r o v i n gp r e c i s i o n t h ew m a l g o r i t h m i su s e dt or e d u c et h ec o m p l e x i t yo ff e a t u r ee x t r a c t i o n ,s p e e d i n g t h ek e y w o r ds p o t t i n g c o n f i d e n c em e a s u r ee n s u r e sp r e c i s i o n t h eh i g h s p e e d m a k e st h es y s t e m p o s s i b l e t ob eu s e di nr e a la p p l i c a t i o n ( 2 ) a st h e k e y w o r d s i ni n f o r m a t i o n f i l t e r i n g a r e p r e s e t a n d n u m e r o u sk e y w o r d sa r en o tc h a n g e di nl o n gt e r m ,m a k i n gf u l lu s eo f t h e s em e s s a g e sc a na c c e l e r a t et h ef i l t e r i n gp r o c e s s g a r b a g em o d e l sa r e b u i l ta ss p e e c hr e c o g n i t i o n w ec a nc l a s s i f y3 7 5 5c h i n e s ec h a r a c t e r si n t o k e y c h a r a c t e rc a t e g o r ya n dg a r b a g ec a t e g o r yb yk e y w o r dc l u s t e r i n g k e y c h a r a c t e rc a t e g o r i e sa r et h ec o l l e c t i o n sw h i c hc o n t a i nt h ec h a r a c t e ro f k e y w o r d s g a r b a g ec a t e g o r i e s a r em ec o l l e c t i o n sw h i c hd on o tc o n t a i nt h e c h a r a c t e r so fk e y w o r d s i nt h e f i r s t s t a g e ,t h e c o a r s e m a t c h i n g i s p e r f o r m e du s i n gg a r b a g em o d e l t h i ss t a g ea i m sa ts e l e c t i n gc a n d i d a t e c h a r a c t e r s b yc a l c u l a t i n g d i s t a n c e a m o n gt h eg a r b a g e m o d e l s i ft h e n e a r e s tc o l l e c t i o nb e l o n g st ok e y w o r dc o l l e c t i o n ,i ti sr e g a r d e da sf o r m a l c a n d i d a t e t h e m a t c h i n g f o rt h es e c o n d s t a g e i s a c c o m p l i s h e db y c a l c u l a t i n g c o n f i d e n c e a m o n gt h e t e ns h o r t e s td i s t a n c e si nt h es a m e k e y w o r d c o l l e c t i o n t h i s a p p r o a c h c a no v e r c o m et h ed r a w b a c ko f t e m p l a t em a t c h i n g m e t h o da n d i m p r o v ep r e c i s i o n ( 3 ) aw o r db a s e da p p r o a c ht ok e y w o r ds e a r c h i n gi n c h i n e s e d o c u m e n ti m a g e si sp r e s e n t e di no r d e rt oo v e r c o m e t h ep r o b l e mc a u s e d b y c h i n e s ec h a r a c t e rs e g m e n t a t i o ni nc h i n e s ed o c u m e n ti m a g e t h ew - m a l g o r i t h mi sa d o p t e d t od e t e c tt h ek e y w o r dl o c a t i o n ,a n dt h e nf e a t u r e so f t h ee n t i r ew o r da r ee x t r a c t e da n da r ei d e n t i f i e dw i t hr e s p e c tt ot h ew o r d t e m p l a t e w ma l g o r i t h ma c c e l e r a t e st h e d e t e c t i o na n dw o r dm a t c h i n g a p p r o a c h r e m e d i e st h ed r a w b a c ko fc h i n e s ec h a r a c t e rs e g m e n t a t i o n u s i n g t h ee n t i r ew o r dr a t h e rt h a ne a c hi n d i v i d u a lc h a r a c t e rc a n a l s os p e e d t h ep r o c e s s i n ga n dm a k e t h em e t h o dm o r er o b u s tt on o i s y d a t a ( 4 ) al a t e n ts e m a n t i ci n d e x i n ga n dl i n e a r d i s c r i m i n a n ta n a l y s i s v b a s e dm e t h o df o rt e n d e n c yd i s c r i m i n a t i o nf o ri n f o r m a t i o n f i l t e r i n g i s p r o p o s e d i no r d e rt oi m p r o v et h ed i s c r i m i n a t i o n q u a l i t y a st h ed i m e n s i o n o fd o c u m e n t 4 e r mm a t r i x i s u s u a l l yv e r yh i 曲,a d a p t i n g l i n e a r d i s c r i m i n a n t a n a l y s i sd i r e c t l y i sn o t p r a c t i c a b l e t h e r e f o r e a h e a d d i m e n s i o nr e d u c t i o ni sn e c e s s a r y l a t e n ts e m a n t i ci n d e x i n gi sa r te f f e c t i v e a p p r o a c h f o rd i m e n s i o nr e d u c t i o n ,w h i c hc a nr e m a i nd i s c r i m i n a t i v e i n f o r m a t i o nm a x i m a l l y b u tl a t e n ts e m a n t i ci n d e x i n gc a n n o to b t n nt h e o p t i m u m f e a t u r e sf o rc l a s s i f i c a t i o n t h e r e f o r e p e r f o r m i n g l i n e a r d i s c r i m i n a n ta n a l y s i sa t t e rl a t e n ts e m a n t i ci n d e x i n gc a l ln o to n l yr e d u c e t h ed i m e n s i o n ,b u ta l s oi m p r o v et h ea c c u r a c y k e yw o r d s :d o c u m e n ti m a g e t e m p l a t em a t c h i n gg a r b a g e m o d e l a p p r o x i n a t es t r i n gm a t c h i n g l a t e n ts e m a n t i c i n d e x i n g l i n e a rd i s c r i m i n a n ta n a l y s i s v i 创新性声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,电不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均己在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:蝥:燮日期: 2 缨:主:! 竺 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅:学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。 本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 亟型堑 翅逐 日期:2 型:! 日期: 1 2 :! ! 生 北京邮电大学博士研究生论文 1 1 引言 第一章绪论 面对信息时代骤然涌来的海量数据,自动、准确和快速的信息处理技术成为 人们的迫切需求。时时刻刻,网络上都在流动着大量的信息,它们是信息时代标 志,也是推动社会发展的强劲动力。为了帮助人们有效地选择和利用所感兴趣的 信息,不被无关内容烦扰,内容过滤技术应运而生。使用内容过滤技术,网络用 户可以通过用户模板表达他们比较稳定的信息需求,并应用某种过滤算法在动态 信息源中搜索与用户模板褶匹配的内容,从而使网络用户各取所需。 另一方面,在网络信息极大丰富的同时,这些数据之中也夹杂部分不和谐因 素。比如,以暴力、色情等内容为主题的信息,使网络的光辉蒙上了阴影。因此, 用户对网络安全提出了新的要求,要求过滤掉那些有害无益的垃圾信息。但目前 各服务器软件中应用的过滤系统均采用“包过滤”技术,这种技术只能禁止来自 于非法端口的数据包,而无法对信息内容进行判断,不能作任何基于信息内容的 决定,要对信息内容进行判断,必须采用内容过滤技术。因此内容过滤又成为网 络安全中的一个新课题,也是网络安全的一个重要的研究方向。 网络内容分析过滤与一般意义上的查询有许多不同之处。网络内容分析过滤 是指在任何相关数据到达前就把全部过滤条件提交给该系统的一种查询。虽然普 通查询也可以被预先定义,但网络内容分柝过滤通常是持续查询( c o n t i n u o u s q u e r y ) 。有两方面的原因使得网络内容分析过滤需要单独考虑:原因之一是由于 能提前预知过滤条件,所以可以找出不同查询间的公共子表达式,从而优化查询: 第二个更重要的原因是由于网络内容分析过滤是短时间性的窗口查询,不能参考 己经到达的全部历史数据,因为有些数据已经被丢弃了。 网络内容分析过滤系统拦截用户在网络中传输的数据包,立即对数据包中的 内容进行分析,如果信息内容是不希望传输的,则终止用户这次数据传输,否则, 转发正常的数据。网络内容分析过滤系统有两个重要的特征:第一,它需要实时 的处理网络数据流,在高速网络环境下,对内容的分析要求有非常高的实时要求。 第二,网络内容分析系统需要尽可能早地发现匹配的规则,一旦发现满足任何一 条规则,则可以立即终止内容分析,这与一般信息过滤中需要对整个文档全部处 理后再执行判断是不同的。 考虑到网络内容分析可能成为过滤系统的瓶颈,一般采用监听( s n i f f ) 的方 式。在这种方式中,系统处理的数据包全部是从网络中复制过来,如果系统需要 第一章绪论 切断某个连接,则需要使用其他专用线路。现在己经有基于中间人的网络内容分 析系统结构了,它可以对每一个流过系统的数据包直接分析。这种方式更有利于 实现严格的网络管理。对系统的实时性处理要求更高。 文本是网上信息的主要载体,基于文本的内容过滤是当前的研究热点。文本 内容过滤与文本处理领域的其他分支有着十分密切的联系( 如文本检索、文本分 类、文本浏览和文本摘要等) ,近几年有关这方面的国际学术会议不断召开,已 成为计算语言学领域新的增长点。 1 2 信息过滤面临的挑战 随着计算机技术和互连网的飞速发展,网络中传输的数据内容除了文本以 外,静止图像、视频图像和语音等形式的信息越来越多。为了进行信息过滤,就 需要系统不仅能够正确“理解”文本信息,而且还要能够正确“理解”其它形式 信息。不仅需要在“外形特征”上标识出信息,还需要把握信息的内容,含义, 甚至倾向。目前,对于“纯文本”数据的自然语言理解和检索技术得到了国内外 的普遍重视,因而得到了迅速的发展。基于这两种技术,对“纯文本”数据的信 息过滤也日益实用化。但文本过滤技术不能直接应用于其它形式信息,对于静止 图像和视频图像等视觉信息的过滤技术也得到了许多专家的重视,并不断取得研 究进展,但距离实用系统还有一段路要走。 非文本格式信息过滤已成为当前互连网信息过滤的瓶颈和死角,也为那些为 数不多却破坏力巨大的反动言论和不健康信息,以及利用网络的违法行为躲避网 络实时监控打开了方便之门。为了维护网络的健康发展,保证其更好地为国家和 社会服务,开发非文本格式网络信息自动过滤技术势在必行。 1 3 图像文档过滤的意义 图像文档( d o c u m e n ti m a g e ) 是指以图像的方式保存的文本信息,通常由扫描 的方式或者通过软件把纯文本转换为图像获得。包括各类图像格式b m p ,g i f , p e g 等,各类f a x 文件格式,以及图像压缩文件c c i t tg 3 4 ,j p e g ,j b i g 2 等。 图像文档具有图像的外形、文本的内容。虽然在信息时代,大量文本以机器 可读的a s c i i 码电子文档的形式存在,图像文档仍有其存在的必要。首先一些历 史文件原件,以图像形式保存更能展示其历史价值。其次在计算机普及之前的漫 长岁月中积累的大量纸质文档,在电子化建立数字图书馆过程中,由于手工录入 要耗费巨大的人力物力,还要借助扫描设备。尽管o c r 技术已经得到了长足的发 展,但是在目前和可以预见的未来,o c r 技术仍不能把文本图像完整地转换为电 子形式。因而大量的文献将继续以图像的形式保存。另外由于计算机和桌面扫描 北京邮电大学博士研究生论文 仪数量的激增,以及网络传真的开通,图像文档在互连网上已经是无处不在。 图像文档过滤比直接文本过滤要困难得多,需要图像处理、版面分析、字 符切分、模式识别、自然语言理解、人工智能等相关知识。传统o c r 方法首先把 图像文档转换成文本文件,再利用现有的文本过滤技术分析处理。由于目前o c r 技术存在处理时间长,误识率高等缺点而不适合对动态信息进行处理。 应该看到,文本过滤经过这些年发展,已经相对比较成熟。而图像过滤还有 相当长的路要走。处于二者之间的图像文档过滤,兼具文本与图像双重属性,在 i f 和o c r 现有技术支撑下,应该有所作为,有所突破。其实现难度应该是大于 文本过滤而小于图像过滤。 研究处于交叉学科的图像文档过滤,要掌握大量相关学科的知识,并消化理 解,融会贯通,结合图像文档过滤特点,进行改进、创新。遗憾的是,这样一个 具有前景的研究领域,却没有引起国内学者的高度重视。相反国外却研究成果不 断m 。 1 4 国内外研究现状及分析 从国际范围看,图像文档过滤技术受到众多的关注,正处于迅速发展阶段, 不断取得研究成果,但仍有很大潜力需要挖掘。而国内对该问题重要性还认识不 足,研究也没有正式起步。目前甚至对中文的研究工作也主要是在国外和海外进 行的【4 】【5 】。 由美国n i s t 和美国国防部联合举办的文本信息检索国际会议( t r e c ,t e x t r e t r i e v a lc o n f e r e n c e ) 是信息检索领域最著名的国际会议。t r e c 于1 9 9 6 年开 始针对文本图像和语言信号设立了t h ec o n f u s i o nt r a c k 专项。国际光学工程协 会( s p i e ,t h ei n t e r n a t i o n a ls o c i e t yf o ro p t i c a le n g i n e e r i n g ) 举办了一系 列的文本识别与检索( d d r ,d o c u m e n tr e c o g n i t i o na n dr e t r i e v a l ) 会议。第1 1 届会议,d d rx i ,刚刚于2 0 0 4 年1 月在美国召开。美国计算机协会( a c m , a s s o c i a t i o nf o rc o m p u t i n gm a c h i n e r y ) 的信息检索特殊兴趣组( s i g i r ,s p e c i a l i n t ,e r e s tg r o u po ni n f o r m a t i o nr e t r i e v a l ) 对信息检索( i r ) 和o c r 技术的结合 非常重视,在s i g i r2 0 0 2 年会上设立了专门的讨论组:“信息检索和o c r :从 转换内容到抓取含义”。此外,对文本图像检索问题比较感兴趣的国际著名会 议还包括:i e e e 主办的i c d a r ( p r o c e e d i n g so ft h e i n t e r n a t i o n a lc o n f e r e n c e o nd o c u m e n ta n a l y s i sa n dr e c o g n i t i o n ) :i e e e 主办的i e e ei n t e r n a t i o n a l c o n f e r e n c eo n i m a g ep r o c e s s i n g :a c m 主办的p r o c e e d i n g s o ft h ea c m i n t e r n a t i o n a lc o n f e r e n c eo nd i g i t a ll i b r a r i e s 等等。除了国际会议之外, 对文本图像检索的文章还经常发表在一些重要学术杂志上,如:i e e e 第一章绪论 t r a n s a c t l o n so np a t t e r na n a l y s l sa n dm a c h i n ei n t e l l i g e n c e ,i n t e r n a t i o n a l j o u r n a lo fp a t t e r nr e c o g n i t i o na n da r t i f i c i a li n t e l l i g e n c e 等等。 国际会议和学术杂志的态度反映了国外众多主流实验室和大学等科研机构 目前的研究方向。因而英文文本图像检索技术得到了迅速的发展,研究得也比较 深入。 虽然也有很多人在进行中文文本图像检索问题的研究,但这些工作主要在国 外和海外进行。新加坡国立大学计算机系对该领域的研究比较深入。针对来自当 地、中国大陆、台湾和香港的报纸扫描图像,他们提出了一整套的快速检索方法。 台湾也对该领域进行了研究。台湾天主教辅仁大学在政府部门的资助下,建立了 一个测试数据库。该数据库选择了l i ,1 0 8 幅扫描的文本图像,利用o c r 上成了 8 ,4 3 8 个可用的文本,并利用人工方式产生“干净的文本”( 包括b i g 一5 和g b 两 个版本) 。该数据库的文本图像来自大陆、香港和台湾3 0 多个新闻社,内容集中 于外交和军事方面的新闻:并按照t r e c 的格式分为3 0 个主题。 文本图像信息检索在国家的安全方面至关重要,这是不言而喻的。t r e c 会议 的两个主办单位就是美国的政府部门和美国国防部;而研究中文文本图像检索的 新加坡国立大学和台湾天主教辅仁大学也都是在政府的资助下开始研究的。对于 文本图像信息检索的研究,特别是中文检索的研究,对于我们有重要意义,不能 让我们的技术落后于他人。 i 5 信息过滤与o c r 近年来信息过滤i f ( i n f o r m a t i o nf i l t e r i n g ) 和o c r 在各自独立领域都有了长足 的进步,各自有一套比较独立的理论体系。一般来说o c r 更关注字符识别的准 确性,而i f 更关注整篇文档的内容及含义的把握。随着越来越多的信息载体不 仅局限纸张,而以多种图像格式出现,o c r 在处理这类视频或静止文件时面临 巨大的机遇和挑战。当o c r 把主要精力放在提高字符的识别率上时,i f 开始以 现存系统能否满足用户需求作为出发点,特别是存取互连网上数以亿计的扫描文 档。 当前i f 与o c r 融合己成为研究热点,国际光学工程协会( t h ei n t e r n a t i o n a l s o c i e t yf o ro p t i c a le n g i n e e r i n gs p i e ) 已经成功召开了一系列文档识别和检 索( d o c u m e n tr e c o g n i t i o na n dr e t r i e v a ld r r ) 国际会议,第1 2 届d r r 于2 0 0 5 年1 月1 6 - 2 0 曰在美国c a l i f o r n i as a nj o s e 举行。为了加强i r 界和o c r 界更 紧密的合作,改善与i f 主要论坛s i g i r ( s p e c i a li n t e r e s tg r o u p o ni n f o r m a t i o n r e t r i e v a l ) 的交流,d r r 在2 0 0 2 年提出设立s i g i r 工作组用以促进o c r 与i f 互 相交流融合,希望i f 能为o c r 界摆脱繁重的手工处理,同时希望目前动态和静 北京邮电大学博士研究生论文 态图像处理技术与强鲁棒性的信息检索技术相结合能在图像流中提取信息以及 己存文档的转化产生实质性进展。这个工作组的主题为“信息过滤和o c r :从内 容转换到含义理解”,吸引了许多i f 和o c r 研究人员的参加”“8 “”“。 由于i f 主要是研究文档组织结构、内容、含义以及相关性,而o c r 主要研 究版面结构、字符等文本图像。i f 和o c r 可以看成一类噪音问题,而语言模型 为二者的连接点。二者都在研究如何利用基于字典或子集技术来平滑、增加或者 改正文档表示。九十年代初期采用i f 在o c r 的输出中进行搜索效果良好,让i f 界误以为从o c r 中检索问题已解决,但是对非英语文档,由于需要更高的准确性, 问题还远没有解决,需要一个更准确的o c r 以及更鲁棒性的i f 相互结合。 图像文档过滤( d o c u m e n ti m a g ef i i t e r i n gd i f ) 与图像文档处理( d o c u m e n t i m a g ep r o c e s s i n gd i p ) 密切相关,但二者也有本质区别。一个图像文档处理 系统需要分析面页文档不同的文本区域,理解这些文本区域的相互关系,用o c r 把它们转换成机器可读形式,其中每个字符指定相应的类。 而图像文档过滤主要是回答是否图像文档中包含用户感兴趣的特殊词,而 不关心其它不相关的词。换句话说,图像文档过滤系统只对用户的查询回答“是” 或“否”,而不是象文档图像处理那样准确识别字符和词语。 图像文档过滤正处于i f 与o c r 的交叉地带,同时也处于基于图像与基于o c r 过滤方法的交叉地带。是一种很有发展前途的交叉学科。 无庸置疑,一些英文文档处理方法能够解决中文文档相关问题,例如倾斜 矫正,非文本信息的隔离以及一些特征抽取方法。但是中文文档的复杂特性产 生了许多新问题,或者更难的问题。人们早已注意到汉字在所有文字中可能是 最难机器识别的。字符的数量和复杂的结构是产生困难的主要原因。字符的复 杂性要求能够分清前景与背景像素的细小区别。中文文档在同一页上有两种词 序:水平和垂直方向,这扩大了可能的文档版面结构的自由度。许多汉字由偏 旁组成也增加了设计分析这种结构算法的复杂度。所以中文图像文档过滤有自 己的特点。 1 6 研究范围与相关成果 北京邮电大学模式识别与智能系统实验室在手写汉字识别方面有深厚的积 累,近年来在文本分类过滤领域也进行了深入研究,在2 0 0 4 年国家8 6 3 测试评 比中,所开发的文本分类系统获得整体性能第一名。本文所做工作2 0 0 4 年获得 了国家自然科学基金项目支持( 文本图像高速检索和过滤中的关键技术研究 6 0 4 7 5 0 0 7 ) 。 本文研究重点的是中文图像文档过滤的关键词识别模型设计,包括中文字词 第一章绪论 特征表示、精确和模糊字符串匹配算法、可信度分析、倾向性分析和关键词自动 获取等问题。主要贡献是:系统地分析了中文图像文档过滤系统中存在的问题及 应用系统的特点:针对中文图像文档过滤系统的特点设计了高效实用的模型及相 应算法,这些模型和算法可以在不增加错误率的同时,大幅提高实时处理速度, 而且,这些模型和算法还可以防止由于污染文档造成的性能下降;本文首次提出 了将w m 算法引入中文图像文档过滤问题,并论证了该算法在处理图像文档情 况下比处理文本文档更能发挥效能; 首次利用汉字特征匹配和置信度分析提高了过滤精度和处理速度,解决了处 理速度这个瓶颈问题;将粗过滤与细过滤相结合,充分利用已知过滤信息,本文 提出了垃圾模型概念。该模型利用了过滤器长期用户需求表现在用户预先设置文 件中可以提供丰富信息的优势,通过聚类分析将关键字分为关键字类和垃圾类, 首先判断待检测字所属类别,若属予关键字类则用高级特征进行进一步的区分, 否则不为关键字。该模型虽然模型训练比较复杂,但实际运行效果令人满意:针 对中文图像文档过滤中词与词之间无自然间隔。在噪音情况下字符切分错误率较 高的现状, 本文提出了一种词匹配的关键词过滤方法。该方法首先确定关键词词尾位 置,再通过提取整词图像特征与模板相比较以确认是否为关键词。该算法不仅克 服了字符切分可能带来的误差,面且将关键词确认由字符水平提高到词语水平, 加快了确认速度,同时提高了算法的容错性: 本文还对文档倾向性判别进行了研究,在充分考虑隐性语义索引和线性判别 分析这两个工具特性的基础之上,本文根据由训练数据生成的词一文档矩阵维数 很高,直接应用l d a 计算量十分巨大,必须先进行降维。l s i 是将多维特征映射 成低维特征的一种方法,能最低限度地减少信息的丢失。但是l s i 所提取的特征 并不是最优分类特征,因此单独使用效果有限。而在l s i 之后进行l d a 既可以有 效降维,又可提高分类精度。通过与不应用l s i 和l d a 直接分类方法相比较,表 明了该方法在特征维数减少情况下仍保持了很高的分类精度。 本论文编排如下: 第一章介绍图像文档过滤问题的提出、重要意义、发展现状与应用前景、 分析了i f 与o c r 相结合趋势,介绍了本文成果及章节安排。 第二章介绍了文档过滤的基本方法、系统结构、性能评价、图像文档过滤 应用领域等。 第三章详细分析了基于多模板匹配和可信度分析的中文文档图像关键词 过滤方法。分别介绍了汉字特征提取、字符串匹配算法、可信度分析理论,并介 绍了关键词识别的系统实现。最后一节给出了该方法的一些实验结果并进行总 结。 北京邮电大学博士研究生论文 第四章实现了基于垃圾模型的中文文档图像过滤系统,这部分内容包括应 用系统流程简介、垃圾模型的训练、以及垃圾模型的算法实现。 第五章基于字符串相似匹配算法提如了一种新的词匹配的关键词过滤方 法。该方法通过提取整词图像特征与模板相比较作为确认是否为关键词的手段, 可以解决字符切分可能带来的误差等棘手问题。这部分内容包括,词图像特征提 取、关键词定位、关键词匹配。 第六章对文档倾向性判别方法进行了研究,指出l s i 与l d a 的各自特性: l s i 所提取的特征并不是最优分类特征与直接应用l d a 计算量十分巨大。在充分 考虑这两个特性的基础之上,根据倾向性判别的特殊情况,设计了将两个算法相 组合方法,并分别对其复杂度、适用性与性能进行了分析,证明了这个方法是实 用、高效的。 第七章在前面各章对中文文档图像过滤进行了充分研究基础上,指出了当 前存在的瓶颈和不足。阐述了未来一些改进方向。 本章参考文献 【l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论