




已阅读5页,还剩100页未读, 继续免费阅读
(信号与信息处理专业论文)现代信息检索中的文本分类及图像恢复研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京邮i u 人学博 :学位论文 摘蟹 现代信息检索中的文本分类及图像恢复研究 摘要 信息化的飞速发展使各种信息呈现爆炸式增长,这给人们的工作、 学习和生活提供了极大便利,但淹没于大量无用、重复信息之中的有用 信息很难通过人工的方法被全面准确地提取出来,人们陷于信息提取的 泥潭中,快速有效的信息检索技术成为了唯一的解决方案。信息检索主 要包含两个部分:按照科学的体系结构对信息进行归类和获取用户真实 意图,反馈给用户所需的信息。前者是提高效率的关键,本文的研究则 集中于信息归类,围绕中文文本分词、特征选择和分类方法以及图像检 索中的模糊图像恢复等关键技术展开探索。研究过程使用了理论分析和 计算机实验验证两种主要方法。以理论分析确定实验目的,指导实验方 法;以实验数据支持理论分析,推动更深入的理论分析。 本文首先介绍了信息检索的发展现状,结合本论文的主要研究内容 论述了信息检索中的关键技术,对本论文的内容安排和主要创新作了说 明。而后,从总体上介绍了自动文本分类系统的组成结构和功能,为后 面的研究打下了基础。本论文所作的创新主要包括以下几个部分: 现有机械分词方法准确率偏低,对后续特征选择和分类造成了破坏, 影响了文本分类精度;非机械分词法虽然有较好的分词精度,但是时间 和或空间复杂度较高,不易实现。针对上述问题,本文提出了一种对最 大匹配法进行改进得到的预测最大匹配分词方法。预测最大匹配法通过 对长词出现可能性和起始位置进行预测,使分词过程更符合长词优先准 则。通过对新方法分词性能和时间复杂度的分析,证明了该方法以较小 的复杂度增加为代价明显提高了分词准确性,接近全局最大匹配的性能。 以词为特征表示中文文本时特征维数较高,需要剔除对分类贡献小 的特征。现有特征选择方法基于词与词之间相互独立的假设,属于标量 特征选择。实际上词与词之间存在很强的的相关性,本文提出了基于期 望交叉熵的向量特征选择方法,兼顾了词与类别及词与词之间的相关性。 本文还研究了使用k _ l 变换和奇异值分解特征生成的方法。实验证明在 j l 京邮i u 人学博一i :学位论文摘要 相同的分词和分类法基础上,相对于标量特征选择,向量特征选择法配 合k l 变换和奇异值分解的特征生成方法有效提高了文本分类的精度。 分类器是文本分类系统的核心,经典的r d c c h i o 分类法实现简单,但 分类性能欠佳。在分析了r d c c h i o 法对样本统计特性利用的片面性的基础 上,本文提出了基于方差的文本分类算法,利用了不同类别文本在分布 上的差别。为了同时发挥r o c c h i o 法的速度优势和s v m 法的性能优势, 本文提出了使用r o c c h i o 法粗分类结合s 细分类的新分类方法。计算 机实验表明在使用相同的分词和特征选择方法的基础上,本文提出的分 类法,特别是r d c c h i o 结合s v m 的分类法显著改进了分类器的性能。 多媒体信息的检索是未来信息检索的发展方向,本文对图像检索系 统中的图像样本预处理技术进行了探索。借鉴通信领域应用的e v a 算法, 提出了一种在无先验知识的情况下对图像进行盲恢复的方法。通过这种 方法可以有效提高图像样本的质量,进而提高图像检索的效率和准确性。 未来智能信息检索技术的发展是无可限量的,本文的最后对全文内 容进行了总结,概括了其主要的贡献及意义,并提出了今后的研究方向。 关键词:信息检索文本分类分词特征选择图像检索图像预处理 北京邮电= ;= 学博一i :学位论文 摘要 s t u d yo ft e x tc a t e g o r 【z a t l 0 na n di m a g e r e s t o r a t i o nl nm o d e r ni n f o r m a t l o nr e t r i e v a l a b s t r a c t a st l l ei n f o r n l a t i o ns o c i e t yd e v e l o p e dr a p i d l y ,e s p e c i a l l yw i t ht h ew b r l d w i d ew e bp o p u l 撕z e dg l o b a l l y ,t l l ei n f o 肌撕o nc o m i n u e st oi n c r e a s e e x p o n e n t i a l l y _ o no n eh a l l d ,p e o p l et a k ea d v 踟t a g e so fm el a 唱ea m o u l l to f i n f o m a t i o n ;o nm eo t h e rh a n d ,m e l l ei sag r o w i n gn e e df o rt o o l sh e l p i n g p e o p l eb e t t e rf i n du s e 觚i n f o m l a t i o ni 1 1t i l o s et r e m e n d o u sa m o u n t so f i n f o r m a t i o nf o rm er e a s o nt 1 1 a ti ti sd i m c u l tt os e p a r a t et h eu s e 如l i n f o r m a t i o n f r o m 廿l ef e d u l l d a n tp a r t sm a n u a l l y i no r d e rt 0r e a c ham u c hm o r ee m c i e n t r e t r i e v a ls y s t e m ,1 ev a s t 础as h o u l db ec l a s s i f i e da m o m a t i c a l l y s ot e x t c a t e 酬z a t i o na t 衄托t sm o r ea n dm o r ea t t e n t i o n s o m ek e yt e c h n o l o g i e s i n c l u d i n g 、o r ds e 舯e n t a t i o n ,f b a t u r es e l e “o n ,c a t e g o r i z a t i o na l g o r i t l l mi n l e 锄i r l g - b 髂e da u t o m a t i ct e x tc a t e g o r i z a t i o n 明db l i n di m a g er e s t o r a t i o ni n i m a g er e 仃i e v a la r es t u d i e di nt l l i sd i s s e r t a t i o n as e r i e so fr e s e a r c h a c h i e v e m e n t sh a v eb e e no b t a i n e da l sm ec o i l s e q u e n c e so f m i ss t u d y _ t h ei n a i n c o n t r i b u t i o n so f 吐l es m d va r es u m m a r i z e da sf o l l o w s : c h i n e s ew o r ds e g i n e n t a t i o ni st l l e 如n d a i i l e n t a lt a s ka i l dt i l ef i r s ts t e df o r c h i n e s et e x t c a t e g o r i z a t i o n s e g m e n o n d i c t i o n a u - b a s e dg e n e r a l l y a d d r e s s e sm e 锄b i g u i 哆p r o b l e m w h i l en o n - d i c t i o n a 哆- b a s e dm e t h o dh a v e t l l eh i g l lp r e c i s i o nr e l a t i v e l y ,i ti sd i 伍c u l tt ob er e a l i z e df o ri t sh i 曲t i m ea n d s p a c ec o m p l e x i t y t h em a x i m a lm a t c h i n g ( m m ) m e t h o di sm em o s tc o m m o n 锄df - r e q u e n t l yu s e dd i c t i o n a r y 由a s e dm e t l l o d i ti sag r e e d ys e a r c hm u t i n et l l a t w a l k sm m u 曲as e n t e n c et 叮i n gt 0f i n dt l l el o n g e s ts 忙i n go f c h a r a c t e rs t a n i n g t r o ma g i v e np o i n ti nm es e n t e n c em a tm a t c h e saw o r de n t r vi na p r e 。c o m p i l e dd i c t i o n a r y t h em o s ts u c c e s s 如ls e g m e n t a t i o nd i c t i o n a r y b a s e d i i l 北京邮电大学博1 :学位论文 摘要 a r ev a r i a t i so fm em a x i r i m mm a t c h i n ga l g o r i t h m t h e n ap r e d i c t i o n m a x i m u mm a t c h i n gm e t l l o di sp r o p o s e dt 0i m p r 0 v et l l ew o r ds e g m e n t a t i o n p e r f o 姗a n c et o 印p r o a c ht 1 1 a to f 百o b a lm a x i m u mm a t c h i n gm e t h o dw i m a l i t t l ea d d i t i o n a lc o m p l e x i 够e x p 耐m e n tr e s u l t so fm m ,g l o b a lm ma n d p r e d i c t i o nm mm e 仕i o d sw i t ht h es 锄ef i e ;牡u r es e l e c t i o nm e t h o da n d c l a s s 湎c a t i o nm e t h o da r eg i v e nt os h o wm ei m p m v e m e n t o ft e x t c a t e g o r i z a t i o nb ye m p l o y i n gp r e d i c t i o nm m m e d l o d t i l e o 枷cp r o o f ss h o w t h a tt l l en e wm e t l l o di se 行e c t i v ea m de m c i e n tt o o g e n e r a l i y ,w em u s tf a c et h ep r o b l e m sc a u s e db yt h eh i g hd i m e n s i o n a l i t y o ft l l ef e a t u r es p a c ei nt e x tc a t e g o r i z a t i o n f e a t u r es e l e c t i o ni s 哆p i c a l l yu s e d t or e d u c em es i z eo ft 1 1 ef i e a t u r es e ti nt h ed o c u m e mr e p r e s e n t a t i o ni no r d e rt o o p t i m i z et i l eu s eo fc o m p u t i n gr e s o u r c e sa n dt 0r e m o v en o i s ef 如mt 1 1 ed a t ai n o r d e rt oo p t i m i z et l l ec l a s s i f i c a t i o np e r f b n l l a n c e t h ec h a r a c t e d s t i c so f e x i s t i n g s c a l a rf e a t u r es e l e c t i o n t e c l l i l o l o g i e s a r e c o m p a r e d 蚰dt h e a d v a n 招g e so ft l l ee x p e c t e dc r o s se n 缸_ o p ym e t h o da r ea n a l y z e d c o n s i d e r i n g t i l ec o r r e l a t i o n 锄o n gw o r d si nt e x t s ,av e c t o rf e a t u r es e l e c t i o nm e t h ) db a s e d o ne x p e c t e dc r o s se n 仃o p yi sp r e s e n t e d 1 1 1 em e m o do ff e 8 1 1 l r ec o n s t n l c t i o n b yk - l 缸狮s f b i mo rs i n g u l a rv a l u ed e c o n l p o s i t i o ni sa l s 0s t u d i e d e x p 舐m e n t r e s u l t so fs c a l a rf e a t u r es e l e c t i o na n dv e c t o rf e a t u r es e l e c t i o nw i mo rw i m o u t f e a t u r ec o n s t m c t i o ne m p l o y i n gm es 眦ew o r ds e g m e n t a t i o nm e t h o da n d c l a s s i f i c a t i o nm e t h o da r e 西v e nt os h o wm ea d v a n t a g e so fv e c t o rf e a t l l r e s e l e c t i o na n d 士e a t i l r ec o n s 虹u c t i o n 1 1 1 ec l a s s i f i c a t i o nm e t l l o d sa r ea l s os t u d i e di nt 1 1 i sd i s s e r t a t i o n r o c c l l i o s m e m o dh a ss u c ha d v 甜l t a g p 鹪s i m p l e c a t e g o r i z a t i o nm e c h a n i s m ,r a p i d p r o c e s sr a t ea 1 1 di su s e dc o m m o n l y ,w h i l ei t sm a i nd e f e c ti sd u et ot h ef h c tt l l a t i ti sd i m c u l tt or o u n d l yd e s 嘶b em ec h a r a c t e r i s t i c so ft l l ec a t e g o uw i t l lt h e o n l yi n f b m a t i o no fs a m p l e s m e a l l i no u rs t u d y i ti sf o u n dt i l a tt h es t 粕d a r d d e v i a t i o n ,、v h i c hi sac o m m o nu s e d 虬l t i s t i c sr e n e c t i n gm ed i 蛳b u t i o no ft l l e s 踟p l e si np a 仕e mr e c o g n i t i o n ,o fe a c hf e 姐i nd i v e r s ec a t e g o uc h a i l g e s d i s t i n c t l y w h i l et l l ef a c ti sn o tc o n c e m e di nc l a s s i c a lr o c c h i o sm e t h o d l e a d i n gt od e g r a d e dc a t e g o r i z a t i o nr e s u l t a r e rt 王l ec o m p a r i s o no fd i v e r s e p 叩u l a rm e t l l o d ,t l l eu n i l a t e m l i s mo fu s i n gs t a t i s t i c so ft e x t s a i l l p l e sb y 北京邮电大学博士学位论文摘要 e x i s t i l 培m e m o d s ,an e wm e m o de m p l o y i r l gs e c o n do r d e rm o m e n ti sp r o p o s e d w h i c hc o n s i d e r so ft i l ed i 髓i 它n c eo ft h es t a i l d a r dd e v i a t i o no nc o n t r a s tw i 出 m ec l a s s i c a lo n e a n o m e rm e t h o dc o m b i n e ds v ma n dr o c c h i o sm e t h o di s p m p o s e df o rt e x tc l a s s i f i c 砒i o n e x p e r i m e n tr e s u l t su n d e rt h es i t u a t i o no f u s i n gm es a m ew o r ds e g m e n t a t i o nm e t l o da n df e a t u r es e l e c t i o nm e m o da r e g i v e nt os h o wt h ea d v a n t a g e so f t w on e wm e m o d s a tl a s t ,i m a g er e t r i e v a ls y s t e l nb a s e do nc o n t e n ti ss t u d i e d an e wi m a g e p r c l ) r o c e s s i n ga l g 耐m mf o r b l i n di i l l a g er e s t o m t i o nv i a2 一d i m e n s i o n a lb l i n d e q u a l i z a t i o ni 3p r 叩o s e d i ti se s s e n t i a l l ya2 一d i m e n s i o n a le x p a n s i o no fe v a a l g o r i t h ma p p l i e di nm ef i e l do f c o m m u n j c a t i o n e x p e r i m e n tr c s u l t ss h o wt h a t m ea l g o r i m mw o r k sw i m r a p i dc o n v e r g e n c es p e e da n dh i g hi m p r o v e m e n to f s n :ra n dh a s l ep r o s p e c to f w i d ea p p l i c a t i o n s f i n a l l ym e m a i nw o r k so f m ed i s s e r t a t i o na r ec o n c l u d e da n dp r o s p e c t so f f m u r es t u d ya r ep r e s e n t e d k e yw o r d s :i n f o m a t i o nr 嘶e v a l t e x t c a t e g o d 2 a t i o n w o r d s e g m e n t a t i o n fe a t u r es e l e c t i o n i m a g e r c 仃i e v a l i m a g e p r e p r o c e s s i n g v 独创性( 蛾创新性) 声明 本入声饕瑟蘩瓮耱透文是奉夫在霉露意甏下遂蜇嚣硪变工箨爱致褥的褥究 成粟。撄我所知,除了文中特别加以标注和致谢巾所罗列的内容以外,论文中不 包含其他人已经发袈戴撰写过的礤究成果,也不饿盘为获褥托寨邮电大学域蔟他 鼗襄壤瓣熬学建或疆繁蔼整器蘧斡麓襄。与我一嚣工箨蕊疑惑辩奉骚突黪辍黎螽 何贡献均已在论文率作了明确的说明并表示了谢意。 申请学位论文姆资料若有不嬲之处, 本入签塞:垫 遗 本人承掇一切相关谢任。 嚣爨:兰壁! 垒叁! ! l 美手论文矮震援羧瓣谟蹊 学德论文律者究套了解j 凉酃极大学有关秣附和使用学德论文的规怒,即: 研究生线校攻读学位期间论文工作的知识产权单位属北京邮呶大学。学校:灯权保 蟹并惫漫窳奏关部门竣糗稳送交谂灾戆复露转移磁盘,竞麓:攀僚逡文鼓蠢辫秘爨 蘩;擎蔽莓疆公毒学攘论文翁垒帮躐部努蠹容,爵疆龛诲采掰影露、赣瘁袋黧它 复制筝段保存、汇编辫位论文。( 僚密的学位论文在解密后遵守此规定) 保辩论文注释:本学位论文属予保密在一蜃l 薹辫密后逶耀本授粳 睾。嚣像密谂 支注释:零学建谂交苓矮予爨密鏊赘,逶霉誊蔽投蔷。 本人签名:盥疆 一 日期: 呈塑垒热星至。 导师髂名:主譬速一 目期t 边企文厶童l l ! ! 塞塑生叁兰堡:i 二兰丝丝兰 一曼二要! i 鱼 1 1 引言 第一章绪论 以互联网为代表的现代信息网络的飞速发展给人们提供了更多的获取信息的便 捷途径,越来越多的人将网络作为首要的信息来源。中国互联网信息中心2 0 0 6 年1 月发布的调查报告显示【”,目前中国网民的数量已超过l 亿,网络已经成为不可缺少 的重要的信息平台。 网络的普及给人们的工作、学习和生活带来了巨大的变化,丰富的网络资源向人 们提供了大量可供选择的素材,对人们提高工作效率和改进工作方式提供了前所未有 的帮助。但是,网络巨大贡献的背后也隐藏着潜在的危机。网络上的信息浩如烟海, 而且网络上存在着为数众多的虚假和重复信息,有用信息被这些无用的信息所掩盖, 如果用户以人工的方式从中提取有用信息,那么用户为此所付出的代价将远远超过了 信息本身为用户所带来的便利。所以,及时、准确、全面的从网络上获取用户关心的 信息,就成为了网民最为迫切的需求。中国互联网信息中心的最新报告有力地证实了 这一点,其中显示网民上网经常使用的网络服务中浏览新闻、搜索引擎、收发邮件成 为网民最常使用的三大网络服务,三者的使用率分别为浏览新闻6 7 9 、搜索引擎 6 5 7 、收发邮件6 4 7 ,这三大网络服务的使用率领先其后的第二阵营2 0 个百分点 以上。这三种服务均与信息的获取密切相关,其中浏览新闻和收发邮件属于相当成熟 的领域,基本不存在技术上的障碍,而搜索引擎则是新兴的领域,也是目前网络信息 获取的主要途径。搜索引擎服务的需求巨大,但是其性能离人们的需求尚有不小的差 距,存在着客观的提升空间。 搜索引擎的核心就是信息检索技术。信息检索的应用范围很广,不仅限于搜索引 擎中,网络上纷繁复杂的信息为信息检索提供了最好的工作环境,也最能发挥信息检 索的作用。 从某个信息集合中选取符合需要的信息以供使用通常被称为信息检索 ( i n f 0 加a t i o nr e m e v a l ) 。信息检索包括了信息的存储、组织、表示、查询、存取等各 个方面,大体上可以分为两个部分,一是按照科学的体系结构对信息进行归类,这是 对信息进行检索的前提,也是提高信息检索效率的关键;二是获取检索信息的用户的 真实意图,反馈给用户所需的信息。这两个部分相互依存,互相促进。在存储方式混 乱的信息中,很难高效的提取用户所关心的内容;而合理分类的信息则可以大大加快 北京邮i 乜人学博一i 二学位论文第一章绪论 信息检索的进度。对于用户意图模糊的理解会导致错误的或不全面的反馈信息;而清 晰的检索条件则可以使检索系统准确的找到目标信息。信息检索的这两个方面,都是 目前重要而迫切的研究课题【2 j 。 信息检索系统一般包含三部分:用户输入、处理系统和输出。这种高度抽象的划 分方式可以套用于多种不同类型的信息检索系统。 系统赴删 图卜1 信息捡棠系统 1 ) 查询输入 查询输入是指信息检索条件的输入端,信息检索条件代表着用户对信息的需求, 以查询表达式的方式由输入端采集并传送到处理中枢。例如,搜索引擎的查询条件可 以是单个或者一组关键词,这些关键词之问还可以通过符号进行组合,从而创造出更 复杂、更精确的查询条件。 2 ) 系统处理 系统处理是信息检索系统的中枢,对各种检索操作进行集中管理和处理。处理系 统通过适当的方法对所有的信息进行组织和构造( 例如对信息进行分类) ,以便以更 快的速度和更高的准确性向用户返回信息。在检索过程中,处理系统一般遵循事先定 义的检索策略,以特定的模式、顺序和表现形式来进行检索操作,完成检索后再将检 索结果提供给输出端。其中所用到的检索策略,是由人工定义在软件系统中的,并根 据不同的系统需求可以进行调整。 3 ) 查询输出 查询输出模块根据处理系统中定义的策略,首先将检索的结果返回给用户。之后, 检索系统根据前一次查询中检索到的文献所得到的相关判断,完成相关反馈并且自动 重新构建查询表达式。这样用户就可以根据返回的结果对输入的检索条件进一步的修 2 北京邮l 乜火学博:i :学位论文 箱一章绪论 改,从而获得更理想的检索结果。 上述三个部分是每一个信息检索系统都必备的,它们构成了一个完整的信息检索 工作流程,是信息检索系统运作的基础。 1 2 信息检索的研究现状及挑战 随着人们对信息检索需求的不断升级,信息检索技术的研究掀起了前所未有的热 潮。对检索技术的研究逐步向应用需求靠拢,各种新技术概念层出不穷。目前,信息 检索已经由传统的手工检索向全文文本、多媒体、多载体、多原理等新型信息检索发 展:信息资源也由独立数据库集中管理的信息内容向网络化和分布化发展4 i ;信息 检索的用户出原来的情报专业人员趋于平民化,并且对信息检索从结果到方式提出了 更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术 发展的新趋势,与新的趋势相适应,信息检索领域主要的研究方向和挑战包括: 1 ) 全文检索技术 全文检索( f u u1 e x tr e 仃i c v a l ) 是诸如文字、声音、图像各类数据等为检索处理对 象,根据数据资料的内容而不是外在特征来实现的信息检索手段【9 】。全文数据库是全 文检索的基础,全文数据库是将一个完整的信息源的全部内容转化为计算机可以识 别、处理的信息单元并形成的数据集合,而且全文检索系统还可以对全文数据库中的 词( 字) 、句和段落等更深层次的内容进行编辑、加工和检索。同时,全文检索系统 还允许用户采用自然语言表达,借助截词和邻词等匹配方法直接查阅文献原文信息 【1 0 】。 中文全文检索技术的研发开始于1 9 8 7 年左右,目前已经商品化的软件有近l o 种。具有自主知识产权的中文全文检索技术已经达到了较高水平,在市场获得了很高 的占有率。但是,要在整体上进一步提高中文全文检索系统的水平和可用性还需要 在中文自然语言处理、可靠性和响应速度等方面进行努力。 2 ) 自动分类技术 如前文所述,网上庞大的数字化信息和人们获取所需信息能力间的矛盾日益突 出,而目前绝大部分搜索引擎仍然将查询结果中相关和不相关的链接关联的放在一 起,这对于查找目的明确的用户来说非常的不方便,因为用户必须在各个链接之间不 断的跳过或者选择。将查询页面进行分类是改善用户检索质量的有效途径,它可以让 用户快速的选择某个分类并在其中进一步细化查找目标。这个分类的过程就是前文中 所说的信息检索的第一个部分,即按照科学的体系结构对信息进行归类。有了分类的 北京邮电_ 夫学博j :学位论文 第一章绪论 需求,下一步面临的就是如何按照科学的体系结构对信息进行归类,即分类的方法问 题。 分类方法是管理信息的基础,也是使信息能够被有效分析的保障。在自动分类出 现之前,占主导地位的分类方法一直是基于知识工程的分类方法,即由专业人员手工 进行分类。人工分类非常费时,效率过低,已经无法满足人们对检索的准确性和高效 性的要求。因此,研究有效的自动分类就显得十分必要】。作为信息检索领域中个 极为重要的组成部分,自动分类在信息组织、导航方面非常有用。 自动文本分类是自动分类技术的一个重要分支,它是对文本信息进行基于内容的 管理的基础f 1 2 1 。具体而言,文本分类是指在给定分类体系下,根据文本的内容自动确 定文本所属类别的过程。文本分类被广泛的应用在文本检索、信息获取、信息过滤、 数掘组织、信息管理和网络搜索引擎上。首先,大量文本被映射成文本向量,然后将 其按一定方法加以分类,按类别对其进行存储。这样在用户进行查询时,就可以对查 询先进行分类,然后再在某一类内对检索文本向量进行相似度计算,这种分类方法可 以有效地减少系统的运算量,提高工作效率和系统的响应速度。 在半结构化网上文档信息极为丰富的情况下,以文本分类为基础的各种应用已成 为有效控制和利用海量信息的重要手段,诸多新分类技术和方法被提出来,并逐步付 诸实际,例如e x p e r tn e t w o r k 【1 3 】,支撑向量机的文本分类【1 4 】,神经网络的文本分类【。5 1 , w i d r o w h o 行和e g l l 州等。 3 ) 异构检索技术 复杂的网络环境对信息检索工作提出了很高的要求,信息检索系统必须能够检索 和整合不同来源和结构的信息。满足这种要求的信息检索技术称为异构信息检索技 术,异构信息检索技术支持包括图像检索在内的不同的文档格式:支持各种不同的语 种语系的检索;支持结构化数据、半结构化数据及非结构化数据的统一处理:可以和 关系数据库以及其他开放检索接口进行无缝的集成等【1 7 j 。图书馆界有三种用于异构信 息整合的方法,它们分别是目录控制、数据库导航和整合检索平台。整合检索平台可 以使用户通过统一的界面和统一的整合系统访问各个数据库,而屏蔽了各个数据库的 操作细节。 由于异构检索系统通过统一的接口从不同架构的信息平台上采集信息,这使得它 面临着复杂的实现问题。为了不同平台间平滑的互相联通,往往需要对系统进行大量 的修改并调整接口。异构信息检索通过在全文检索技术的基础上结合元数据检索的方 式来解决此类问题,这使得信息的全息式检索成为可能。 4 ) 智能检索技术 4 北京螂电大学博j :学位论文 第一帝绪论 检索的智能化主要对应了前文所述的信息检索系统的第二部分,即获取检索信息 的用户的真实意图。用户在检索过程中往往希望通过简单的检索步骤就能获得高效准 确的检索结果,而传统的全文检索技术很难满足这样的要求,特别是在用户对结果的 精度和完整程度要求较高的的情况下。智能检索技术就是为满足用户的这一要求而产 生的,使信息检索系统能够更加智能的“理解”用户用自然语言表达的检索请求和文 件中包含的信息内容。智能信息检索以对内容的分析理解、内容表达、知识学习为基 础,实现了检索的智能化。 近年来,以智能信息检索为基础,涌现出批以智能搜索引擎( i n t e i l i g e ms e a r c h c n g i n e ) 为代表的网络检索工具。智能搜索引擎是结合了人工智能技术的新代搜索引 擎,它将信息检索从目前基于关键词层面提高到基于知识( 或概念) 层面。智能搜索 引擎具备了一定的理解与处理知识的能力能够实现分词技术、同义词技术、概念搜 索、短语识别和机器翻译等技术。智能搜索引擎还具有信息服务的智能化、人性化的 特点,它允许用户采用自然语言对信息进行检索,并为用户提供更方便、更确切的搜 索服务。目前,很多智能搜索引擎在提供正常搜索结果的基础上,还可以给出各种意 义相近或拼写笔画相近的关键词供用户进一步搜索时参考使用。国内比较有代表性的 智能搜索引擎包括:孙悟空、悠游、爱问等;国外的代表则有a s k i e e v e s 和g o o 西e 等。国内首款中文智慧型互动搜索引擎是由新浪推出的“爱问”搜索引擎,它以互动 问答的形式增强了搜索界面的智慧性和互动性。 检索智能化体现了检索技术与人工智能技术融合,但是由于目前人工智能技术距 离使用还有一定的差距,智能检索还不能完全取代传统的信息检索技术。所以,目前 的智能检索技术仍然处于初级阶段,其智能化的程度还有待进一步提高。随着信息的 丰富以及对信息挖掘应用的深入,更加成熟的智能信息检索技术会为用户提供更优良 的服务。 1 3 主要研究内容 本文的研究集中于信息检索中的信息归类,以自动文本分类系统为主线,围绕中 文文本分类系统中的分词、文本表示、特征选择和文本分类以及图像检索中的模糊图 像恢复等关键技术展开探索。主要研究内容包括: 1 3 1 中文自动分词 中文文本与英文文本最明显的区别在于:中文文本是大字符集上的连续字串,没 北京邮电_ 人学博j :学位论文 第一章绪论 有如英文中的空格那样的词与词之间的明显切分标志,所以对中文文本进行自动分词 就成为了中文文本机器处理的首要步骤,也是贯穿于信息检索系统整体流程中不可缺 少的处理步骤l 阍。解决好自动分词问题,可以大大提高检索系统的检索效率。目前, 中文文本自动分词方法主要包括:机械分词方法【1 9 】、基于规则的分词方法和基于 统计( 基于语料库) 的分词方法1 2 m 4 1 。其中,机械分词方法准确率偏低,对后续的特 征选择和分类造成了破坏,影响了最终的文本分类的精度。而非机械分词法虽然有较 好的分词精度,但是时间和域空问复杂度较高,不易实现。 针对上述问题,本文中提出了预测最大匹配分词法,通过对词特别是长词出现的 可能性进行预测,实现了对长词出现的可能性和出现位置的智能识别,从而为词的切 分提供了指导信息,在一定程度上去除了分词的盲目性,降低了分词的时自j 复杂度。 通过实验结果,比较证明了预测最大匹配分词方法以较小的复杂度增加为代价明显提 高了分词的准确性,接近全局最大匹配的性能。 1 3 2 文本特征选择 由于构成文本的中文词条总数超过二十万【凋,所以表示中文文本的向量空问的维 数十分巨大,因此必须采用特征选择技术来降低特征空间的维度【2 6 ,2 7 1 ,特征选择的目 的主要有两个:第一,为了提高程序的效率,提高运行速度,第二,所有词汇对文本 分类的贡献是不同的,原始特征空间中含有许多具有干扰作用的噪音特征。一些通用 的、各个类别都普遍存在的词汇对分类的贡献小,在某特定类中出现比重太而在其他 类中出现比重小的词汇对文本分类的贡献大。所以,为了提高分类精度,对于每一类 文本都应去除那些表现力不强的词汇,筛选出针对该类的特征项集合。 现有的各种文本特征选择方法都是基于词与词之间相互独立这一假设,属于标量 特征选择。本文中,对期望交叉熵提取方法的优势进行了分析,针对文本中词与词之 间存在的高相关性,提出了基于期望交叉熵的向量特征选择方法,该方法对多个特征 综合进行考虑。兼顾了词与文本类别之间的相关性和词与词之间的相关性。为了进一 步降低文本向量的特征维数,还研究了使用k l 变换和奇异值分解进行特征生成的 方法。 1 3 3 文本训练和分类 训练方法和分类算法是分类系统的核心部分,目前存在多种基于向量空间模型的 训练算法和分类算法,例如,支撑向量机算法,神经网络方法,最大平均熵方法,k 近邻法和贝叶斯方法等等口8 t2 9 1 。 为了克服现有r o c c h i o 方法对文本样本统计特性利用的片面性,本文提出了基于 6 北京邮l u 大学博士学位论文 第一束绪论 方差的文本分类算法例,充分利用了文本向量的统计特征。对于特征维数较高的文本 向量,s v m 法是公认的首选二类分类法。为同时发挥r o c c h i o 法的速度优势和s v m 法的性能优势,本文还研究了将r o c c h i o 法和s v m 法结合,使用r d c c h i o 法进行粗 分类结合s v m 进行细分类的新分类方法。计算机实验结果证明,在使用相同的分词 和特征选择方法的基础上,本文提出的分类法,特别是r o c c h i o 结合s v m 的分类法 显著改进了分类器的性能。 1 3 4 圈像检索中的模猢图像恢复 基于内容的图像检索( c b i r ,c o n c e n t b a s e di 瑚g er e t r i v a l ) 是指在数据库中找出 满足某一特定的视觉特征描述的图像的过程【3 1 】。它的主要研究内容是在图像处理基础 上,对图像进行视觉特征抽取,多维索引以及检索系统设计。 图像样本中不可避免的含有因为采集及处理过程中的各种影响而受到污染的模 糊样本,这种样本对于图像信息的提取和检索均有很大影响,为了消除这种影响,本 文提出了基于二维有限冲击响应滤波器模型的盲图像恢复算法1 3 2 j ,同时使用了 “p o w e rm e t h 甜”来计算主特征值所对应的特征向量,这使得算法的运算量大为降低 从而更为实用。对于量化级数低于6 b “、信噪比b s n r 大于3 0 d b 的灰度图像的恢复, 这种算法具有收敛速度快、信噪比增益高的特点。 1 4 论文结构安排 本论文共分为7 章,以下是各章内容的安排: 第一章介绍了信息检索的发展现状,结合本论文的主要研究内容论述了信息检索 中的主要关键技术,对本论文的内容安排和主要创新作了说明。 第二章从总体上介绍了自动文本分类系统的组成结构和功能,分别对文本预处理 尤其是中文文本分类中的自动分词技术、特征选择算法、分类算法以及文本分类系统 的性能评估指标进行了深入讨论。通过对文本分类系统基础理论和方法的论述,为后 面各章的研究打下了基础,将各章的内容有机的结合于整个文本分类系统中。 第三章主要研究信息检索中的文本预处理技术,主要集中于中文文本的自动分词 技术。介绍了评价分词方法的指标,比较了各种现有的分词算法。针对现有分词方法 在分词精度和复杂程度上难以兼顾的困难,提出了一种对最大匹配法进行改进得到的 预测最大匹配分词方法,通过对词特别是长词出现的可能性进行预测,实现了以较小 的复杂度增加为代价明显提高了分词的准确性的目的。实验结果证明,本文提出的分 北京邮电大学博士学位论文 第一章耋 论 词方法取得了接近全局最大匹配的性能。在使用相同的特征选择和分类算法时,对使 用最大匹配法、全局最大匹配法和预测最大匹配法进行分词对于最终分类效果的影响 进行了比较,证明了本章提出的预测最大匹配法的有效性。 第四章主要研究了中文文本特征选择技术。分析了各种现有的标量特征选择方法 的优缺点,分析了期望交叉熵提取方法的优势。针对文本中词与词之间存在的相关件, 提出了基于期望交叉熵的向量特征选择方法,对多个特征综合进行考虑,兼顾了词与 文本类别之间的相关性和词与词之间的相关性。本章还研究了使用k l 变换和奇异 值分解进行进一步的特征生成的方法。通过实验,比较了在使用相同的分词和分类方 法的基础上,使用期望交叉熵法进行标量特征选择和使用基于期望交叉熵的向量特征 选择法以及k l 变换和奇异值分解两种特征生成方法对最终分类结果的影响,证明 了改进特征选择方法的有效性。 第五章主要研究了信息检索中的文本分类方法。在比较各种分类方法的基础上, 分析了现有方法对文本样本统计特性利用的片面性。提出了基于方差的文本分类算 法,分析了改进算法的优势。本章还研究了使用r o c c h i o 法进行粗分类结合s v m 进 行细分类的新分类方法。在使用相同的分词和特征选择方法的基础上,通过实验比较 了r ( 础i o 分类法、基于方差的分类法、s v m 分类法和r 0 c c l i o 结合s v m 的分类法 对最终分类性能的影响,证明了改进分类方法的有效性。 第六章主要针对基于内容的图像检索系统中的图像样本预处理技术进行了探索。 介绍了图像检索中的关键技术,借鉴通信领域应用的e 算法,提出了一种在无先 验知识的情况下对图像进行盲恢复的方法。通过这种方法可以有效提高图像样本的质 量,进而提高图
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届江苏省如东县数学九上期末考试试题含解析
- 2025广东中山市中山翠亨新区翠雅学校初中教师招聘17人考前自测高频考点模拟试题有答案详解
- 2025贵州黔东南州第十三届贵州人才博览会黔东南州事业单位人才引进19人模拟试卷及答案详解1套
- 2025甘肃陇南慈航精神康复医院招聘17人模拟试卷完整参考答案详解
- 2025广东省生物制品与药物研究所招聘12人(编制)模拟试卷附答案详解(考试直接用)
- 2025内蒙古通辽市新世纪学校招聘学科教师考前自测高频考点模拟试题附答案详解(突破训练)
- 2025年马鞍山市消防救援局招聘政府专职消防员38人考前自测高频考点模拟试题及答案详解(全优)
- 2025北京市海淀区中关村第二小学科学城北区分校教师招聘考前自测高频考点模拟试题附答案详解(突破训练)
- 2025贵州黔南州都匀市中小企业融资担保有限责任公司拟聘用人员考前自测高频考点模拟试题及答案详解(网校专用)
- 2025广西壮族自治区生态环境监测中心第二季度招聘编外聘用人员10人考前自测高频考点模拟试题(含答案详解)
- 2023-2024学年高二政治《哲学与文化》配套教学设计(统编版)
- 种植业可研报告范文
- 《复活(节选)》统编版高中语文选择性必修上册
- 《水墨风格动画》课件
- 销售合同协议书模板集
- 《建设工程造价咨询服务工时标准(房屋建筑工程)》
- 学校食堂汇报工作
- 南通市启秀初中2024-2025八年级上学期第一次月考物理试卷及答案
- 医生签约MCN机构合同模版
- 煤矿架空乘人装置安装检验报告
- 法人车辆租给公司合同范本
评论
0/150
提交评论