(计算机软件与理论专业论文)面向智能信息检索的web挖掘关键技术研究.pdf_第1页
(计算机软件与理论专业论文)面向智能信息检索的web挖掘关键技术研究.pdf_第2页
(计算机软件与理论专业论文)面向智能信息检索的web挖掘关键技术研究.pdf_第3页
(计算机软件与理论专业论文)面向智能信息检索的web挖掘关键技术研究.pdf_第4页
(计算机软件与理论专业论文)面向智能信息检索的web挖掘关键技术研究.pdf_第5页
已阅读5页,还剩129页未读 继续免费阅读

(计算机软件与理论专业论文)面向智能信息检索的web挖掘关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东北大学博士学位论文 面向智能信息检索的w e b 挖掘关键技术研究 摘要 w w w 自从1 9 9 1 年问世以来得到了非常迅速的发展,为人们获取各种信息 提供了方便。随着i n t e r n e t 技术的不断发展和完善,w w w 将会逐步成为人们获 取信息的一个重要渠道。如果说,在信息量相对较少的时候,i n t e r n e t 为人们获 取信息提供了方便的话,随着i n t e r n e t 上信息量的急剧增加,人们却感觉到查找 所需要的信息越来越困难了,其原因就在于传统的信息检索方式己越来越不适应 网上的海量信息,人们希望有更加智能化的信息检索方式出现,以应对海量信息 的检索。 本文对面向智能信息检索的w e b 挖掘的若干关键技术进行研究,重点研究 了数据预处理、w e b 页面分类聚类及w e b 用户分类聚类、概念检索、个性化服 务等问题,提出或改进了一些应用于智能信息检索的w e b 挖掘算法,应用研究 成果实现了一个小型智能化信息检索的系统原型。 数据预处理包括基于p d f 文件的信息抽取、中文文本分词和w e b 日志预处 理。对于p d f 文件信息抽取,提出了基于格式注入的规则抽取和基于树模型的 信息抽取算法,在人工标注指导下学习信息抽取规则,取得了较高的信息抽取准 确率。对于中文文本分词,提出了基于固定词典和统计相结合的渐进式丰富词典 的中文文本分词方法,较好地解决了新词识别问题,相对于单纯的词典方法或统 计方法,具有更好的分词效果。w e b 日志预处理包括数据清洗、用户识别、会话 识别和路径补充等工作,在分析已有工作的基础上,重点讨论了路径补充问题并 提出了新的路径补充算法,使w e b 日志预处理工作更加完善。 在中文页面分类研究中,讨论了用于文本分类的各种方法,重点讨论了对文 本分类具有较高分类准确率的k 近邻方法。针对k 近邻方法分类效率不高的问 题,提出了基于密度的训练样本集约减、渐进式分类等算法。通过计算训练样本 集中各类别的类别密度及整个训练集的平均密度,去掉高密度类别中的部分样 本;渐进式分类模式模拟人工分类文本的智能化形式,分为按标题分类、按关键 段落分类和按全文分类三个层次,尽量减少分析全文的比例。实验表明,这两个 方面的改进,不仅提高了k 一近邻方法的分类效率,而且对其分类准确率也有一 定程度的提高,这说明训练样本集的约减使其具有更好的代表性,渐进式文本分 东北大学博士学位论文 摘要 类更符合人工智能分类文本的模式。同时还讨论了基于遗传算法学习获得k 值和 通过领域本体对文本进行语义转换等问题。 在针对w e b 用户分类的讨论中,考虑到w e b 日志数据含有较多噪音及用户 分类特征不明显的特性,利用神经网络方法具有较强抗噪音能力的特点,把神经 网络方法用于w e b 用户分类,取得了较好的分类效果。 在聚类研究中,对各种常用的聚类方法进行了讨论分析,改进了k m e a n s 聚 类方法和d b s c a n 聚类方法。针对k - m e a n s 算法,提出了一种新的基于数据样 本分布选取初始聚类中心的方法,提高了k m e a n s 算法的聚类准确率;针对 d b s c a n 算法,实现了邻域半径e p s 和邻域内数据对象个数m i n p t s 两个重要参 数的自动选取,改进后的算法不仅提高了其自动化程度,而且更符合数据的实际 分布,拓展了原有算法的聚类能力。 结合智能信息检索系统原型的建立,讨论了概念检索和个性化服务问题。通 过信息抽取把p d f 文档转换成具有标题、摘要、关键字等语义信息的文档;我们 引入了本体的概念,通过领域本体的建立实现对用户兴趣模型和用户检索词的概 念描述,从而实现基于概念的信息检索;页面分类、用户分类能够有效的支持个 性化的信息服务。 总之,我们在信息抽取、w e b 日志预处理、中文分词、中文页面分类、w e b 用户分类聚类、个性化服务、概念检索等方面的研究能够有效地支持信息检索 的智能化。 关键词:智能信息检索,数据挖掘,w e b 挖掘,个性化服务,数据预处理 信息抽取,聚类分析,分类规则,w e b 用户,w e b 页面,本体,概念检索。 查苎垄堂堡主堂堡笙查 ! ! ! ! ! 兰! s t u d y o nk e yt e c h n i q u e so fw e bm i n i n gf o ri n t e l l i g e n t i n f o r m a t i o nr e t r i e v a l a b s t r a c t s i n c ew w wc a l n ei n t ot h ew o r l di n1 9 9 1 ,i th a sb e e nd e v e l o p e dq u i d d ya n di s b e c o m i n ga ni m p o r t a n ti n f o r m a t i o ns o u r c eo fh u m a ns o c i e t y w i t ht h er a p i dd e v e l o p m e n ta n d p e r f e c t i o no fi n t e m e tt e c h n i q u e s w w ww i l ls e r v ea s a ni m p o r t a n tm e d i u mf r o mw h i c h p e o p l eo b t a i ni n f o r m a t i o n i nt h ep a s ty e a r s ,i ti sc o n v e n i e n tf o rp e o p l et os e a r c hf o rt h eu s e f u l i n f o r m a t i o n ,b u tw i t ht h eh u g ei n c r e m e n to ft h ea m o u n to fi n f o r m a t i o ni nt h ei n t e m e t ,p e o p l e f e e l i ti sm o r ea n dm o r ed i f f i c u l tt os e a r c hw h a th en e e d s t h er e a s o ni st h a tt h et r a d i t i o n a l i n f o r m a t i o nr e t r i e v a lt e c h n o l o g yh a sn a ta d a p t e dw e l lt ot h em a s s i v ei n f o r m a t i o na n yl o n g e r , t h u si ti su r g e n tt oe x p e c tt h ea p p e a r a n c eo fam o r ei n t e l l e c t u a l i z e di n f o r m a t i o nr e t r i e v a l t e c h n o l o g yf o rt h em a s s i v ei n f o r m a t i o nr e t r i e v a li ni n t e r a c t 1 1 1 i sd i s s e r t a t i o nr e s e a r c h e ss o m ek e yt e c h n i q u e so nw e bm i n i n gf o r i n t e l l i g e n t i n f o r m a t i o nr e t r i e v a l i tm a i n l yf o c u s e so nd a t ap r e p r o c e s s i n g ,c l a s s i f i c a t i o n c l u s t e r i n go f w e b p a g e so rw e bu s e r s c o n c e p t u a lr e t r i e v a la n dp e r s o n a l i z e ds e r v i c e s w ep r o p o s eo ri m p r o v e s o m ew 曲m i n i n ga l g o r i t h m sf o ri n t e l l i g e n ti n f o r m a t i o nr e t r i e v a l a n dw ea l s od e v e l o pa n i n t e l l i g e n ti n f o r m a t i o nr e t r i e v a lp r o t o t y p es y s t e m d a t ap r e p m c e s s i n gi n c l u d e si n f o r m a t i o ne x t r a c t i o nf r o mp d fd o c u m e n t s ,c h i n e s ew a r d s e g m e n t a t i o na n dw e bl o gp r e p r o c e s s i n g f o ri n f o r m a t i o ne x t r a c t i o nf r o mp d fd o c u m e n t s , w ep r o p o s ear u l ee x t r a c t i o na l g o r i t h mb a s e do nf o r m a ti n f u s i o n ,a n da ni n f o r m a t i o n e x t r a c t i o na l g o r i t h mb a s e do nt r e em o d e l ;f o rc h i n e s ew o r ds e g m e n t a t i o n ,am e t h o db a s e do n g r a d u a le n r i c h i n gd i c t i o n a r yw a sp r o p o s e d c o m p a r i n gw i t ht h es i n g l ed i c t i o n a r ym a t c h i n go r s t a t i s t i cm e t h o dr e s p e c t i v e l y ,t h i sn e wm e t h o do b t a i n sm u c hb e r e rr e s u l t ;f o rw e bl o g p r e p r o c e s s i n g ,t h ep a t hc o m p l e m e n ti sm a i n l yd i s c u s s e da n dan e wa l g o r i t h mi sg i v e ni nt h i s d i s s e r t a t i o n , i nt h er e s e a r c h e so nw e bp a g e s c l a s s i f i c a t i o n ,t h i sd i s s e r t a t i o nd i s c u s s e sv a r i o u s m e t h o d so ft e x tc l a s s i f i c a t i o na n dm a i n l yd i s c u s st h ek - n e a r e s tn e i g h b o r ( k - q 3t h a th a s h i g h e rc l a s s i f i c a t i o na c c u r a c yo ft e x tc l a s s i f i c a t i o n t oi m p r o v et h ee f f i c i e n c yo fk - n n w e p r o p o s eat r a i n i n gs a m p l e sr e d u c t i o nm e t h o db a s e do nt h ed e n s i t yo fc l a s sa n dag r a d u a l c l a s s i f i c a t i o np a t t e m ,b yc o m p u t i n ge a c hd e n s i t yo fc l a s si nt r a i n i n gs e ta n dt h ea v e r a g e d e n s i t yo ft h ew h o l et r a i n i n gs e t ,s o m es a m p l e si nt h eh i g h d e n s i t yc l a s sc a nb ed e l e t e du s i n g t h et r a i n i n gs a m p l e sr e d u c t i o nm e t h o d n l eg r a d u a lc l a s s i f i c a t i o n p a u e mr e d u c e dt h e p r o p o r t i o no fa n a l y z i n gt h ew h o l ed o c u m e n tb ys i m u l a t i n gm a n u a lc l a s s i f i c a t i o ni n t e l l i g e n t l y i v - 东北大学博士学位论文 i tc l a s s i f i e dat e x tb yt i t l e ,b yk e yp a r a g r a p ha n db yt h ew h o l ed o c u m e n t e x p e r i m e n t ss h o w t h a tt h e s et w oa p p r o a c h e si m p r o v e dt h ec l a s s i f i c a t i o ne f f i c i e n c yo ft h ek - n nw h i l ei m p r o v e t h ec l a s s i f i c a t i o na c c u r a c y f u r t h e r m o r et h i sd i s s e r t a t i o na l s od i s c u s s e st h ep r o b l e m st h a t o b t a i n i n gt h ep a r a m e t e rki nk - n nm e t h o db yg e n e t i ca l g o r i t h ma n dt h ec h i n e s et e x t s s e m a n t i cc o n v e r s i o nb yo n t o l o g y i nt h ed i s c u s s i o no fw e bu s e r s c l a s s i f i c a t i o n ,d u et ot h en o i s e si nt h ew e bl o gd a t aa n d t h eu n c o n s p i c u o u sc h a r a c t e ro fu s e r s c l a s s i f i c a t i o n ,t h i sd i s s e r t a t i o na p p l i e st h en e u r a l n e t w o r kw h i c hi sn o ts e n s a t i v et on o i s e sa b i l i t yo nw e bu s e rc l a s s i f i c a t i o na n do b t a i nb e t t e r c l a s s i f i c a t i o ne f f b c tt h a nb e f o r e i nt h er e s e a r c ho nc l u s t e r i n go fw e bp a g e sa n dw e bu s e r s ,t h i sd i s s e r t a t i o na n a l y z et h e c o m m o nc l u s t e r i n gm e t h o d sa n dp r o p o s ei m p r o v e da l g o r i t h m sf o rk - m e a n sa n dd b s c a n f o rk m e a n sm e t h o d ,t h i sd i s s e r t a t i o ng i v e san e wm e t h o df o rs e l e c t i n go r i g i n a lc l u s t e r i n g c e n t e rb a s e do nd a t ad i s t r i b u t i o nt o i m p r o v et h ec l u s t e r i n ga c c u r a c yo fk - m e a n s f o r d b s c a nm e t h o d ,s e l e c t i n gt h ea d j a c e n c yr a d i u se p sa n dt h en u m b e ro fa d j a c e n c yd a t a o b j e c t sm i n p t sa u t o m a t i c a l l yi si m p l e m e n t e d t h ei m p r o v e dm e t h o dn o to n l ym a k et h e o r i g i n a lc l u s t e r i n gm e t h o dm o r ea u t o ,b u ta l s oe x t e n dt h ec l u s t e r i n ga b i l i t y t h ed i s c u s s i o n o fc o n c e p t u a lr e t r i e v a la n dp e r s o n a l i z e ds e r v i c e si s p u ti n t o t h e d e v e l o p e dp r o c e s so fi n t e l l i g e n ti n f o r m a t i o nr e t r i e v a lp r o t o t y p es y s t e m b yu s i n gi n f o r m a t i o n e x t r a c t i o n ,t h ep d fd o c u m e n t sa r ec o n v e r t e dt os e m a n t i ci n f o r m a t i o nd o c u m e n t s 埘t l lt i t l e a b s t r a c ta n dk e yw o r d s b yu s i n go n t o l o g yt e c h n o l o g yi nd e v e l o p i n gt h eu s e ri n t e r e s tm o d e l a n dd e s c r i b i n gt h eu s e r sr e t r i e v a lw o r d s ,w er e a l i z et h ei n f o r m a t i o nr e t r l e v a lb a s e do n c o n c e p t i o n s t h ec l a s s i f i c a t i o n o nw e bp a g e sa n dw e bu s e r s e f f e c t i v e l ys u p p o r tt h e p e r s o n a l i z e ds e r v i c e s i ns h o r t ,t h er e s e a r c hi ni n f o r m a t i o ne x t r a c t i o n ,w e bl o gp r e p r o c e s s i n g ,c h i n e s ew o r d s e g m e n t a t i o n ,c h i n e s et e x tc l a s s i f i c a t i o n ,w e bu s e r s c l a s s i f i c a t i o n c l u s t e r i n g ,p e r s o n a l i z e d s e r v i c e sa n dc o n c e p t u a lr e t r i e v a li sh e l p f u lt ot h ed e v e l o p m e n to fi n t e l l i g i e n ti n f o r m a t i o n r e t r i e v a ls y s t e m , k e yw o r d si n t e l l i g e n ti n f o r m a t i o nr e t r i e v a l ,d a t am i n i n g ,w e bm i n i n g ,p e r s o n a l i z e d s e r v i c e s ,d a t ap r e p r o c e s s i n g ,i n f o r m a t i o ne x t r a c t i o n ,c l u s t e r i n ga n a l y z i n g ,c l a s s i f i c a t i o n r u l e ,w e bu s e r , w e bp a g e ,o n t o l o g y , c o n c e p t u a lr e t r i e v a l 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得 的研究成果除加以标注和致谢的地方外,不包含其它人己经发表或撰写过 的研究成果,也不包括本人为获得其它学位而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢 意。 学位论文作者签名:蒂涝 日期:卵莎j 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 ( 如作者和导师不同意网上交流,请在下方签名;否则视为同意。) 学位论文作者签名: 签字日期: 导师签名 签字日期 东北大学博士学位论文 第一章前言 1 1 问题提出 第一章前言 w w w 自从1 9 9 1 年问世以来得到了非常迅速的发展,为人们获取各种信息 提供了方便。随着i n t e r n e t 技术的不断发展和完善,w w w 将会逐步成为人们获 取信息的一个重要渠道。 据统计【o c l 0 3 ,到2 0 0 2 年底,w w w 上约有9 0 4 万个网站,2 5 亿个网页, 1 9 0 亿字节以上的网页数据,同时网页数量正以每天7 5 0 万的速度净增长。在国 内,根据中国互联网络信息中心( c n n i c ) 在2 0 0 5 年7 月公布的互联网统计报 告【中0 5 】,截止到2 0 0 5 年6 月3 0 日,我国网民超过了1 亿人,网站数超过6 7 万个,c n 下注册的域名数为6 2 万个。用户上网的目的3 7 8 为获取信息,查询 信息遇到的最大困难依次是,重复信息太多占4 4 。6 ,信息陈旧占2 7 ,5 ,有用 信息少占l o 7 ,信息查找不方便占1 0 2 。 如果说,在信息量相对较少的时候,i n t e r n e t 为人们获取信息提供了方便的 话,随着i n t e r n e t 上信息量的急剧增加,人们却感觉到查找所需要的信息越来越 困难了,其原因就在于传统的信息检索方式已越来越不适应网上的海量信息,人 们希望有更加智能化的信息检索方式出现,以应对海量信息的检索。本文从支持 智能信息检索的角度来讨论w e b 挖掘问题。 1 2 智能信息检索 面对i n t e r n e t 上浩瀚纷繁的网络信息资源,若不借助于有效的信息检索 ( i n f o r m a t i o nr e t r i e v a l ,简记i r ) 工具,人们很难找到自己所需要的信息。搜 索引擎( s e a r c he n g i n e ) 从1 9 9 4 年诞生到现在,已逐渐成为人们广泛使用的信 息检索工具【o c l 0 3 ,中0 5 】,传统的搜索引擎及相应的信息检索技术满足了人们 一定的需要,但随着w e b 信息的日益快速增长,其不适应人们需要的方面日益 显现出来,使用过搜索引擎的人都有这种体会:检索出的条目成千上万,甚至几 十万、数百万,但用户真正想要的东西却难以找到,不想要的东西倒是不少。虽 然新一代搜索引擎相对于传统的搜索引擎在满足人们网上信息检索的需求上有 所改进,但构造更好的智能化的信息检索系统仍然是需要人们进步研究的重要 课题。 东北大学博士学位论文 第一章前言 传统的信息检索技术存在的主要问题有: ( 1 ) 检索方式有待改进,传统的信息检索仅采用机械的关键词匹配来实现, 缺乏知识处理能力和理解能力,不能实现基于概念( 语义) 的检索。 ( 2 ) 没有考虑用户的个性化需求,不同用户使用相同的检索词得到的检索 结果是相同的、通用的,没有考虑用户的兴趣差别,使用户很容易在大量无关信 息中迷失方向和失去耐心。实际上,在海量的网上信息面前,每个用户只是对通 用检索结果中的很一小部分信息感兴趣。 ( 3 ) 检索结果提供方式混乱,一个用户一般只对检索结果中的某类信息感 兴趣,现在的信息检索没有按类别给出检索结果,给用户的感觉是比较混乱,且 无关信息太多。 这几个方面综合起来看,就是目前的信息检索技术智能化程度不够,不能满 足海量信息检索的需要,为解决这些问题,适应网上信息快速增长的势头,更好 地满足人们信息检索的需要,智能信息检索( i n t e l l i g e n ti n f o r m a t i o nr e t r i e v a l , 简记i i r ) 得到人们的广泛重视。 下面,我们看一个人工信息检索的示例: 一位从事数据挖掘理论研究的教师向图书管理员提出要借“数据挖掘”方面 的书籍时,经验丰富的管理员会按如下方式为这位教师提供图书供其选择: ( 1 ) 由于峰据挖掘”的同义词有“数据开采”、“数据采掘”和“知识发 现”等,应把和这四个词有关的书籍( 与“数据挖掘”概念相关) 推荐给借阅者。 如果只是推荐和“数据挖掘”字面上有关的书籍,会漏掉一些从本质上来说和教师 借阅要求概念上相关的书籍。 ( 2 ) 根据这位教师的研究兴趣( 由登记信息或借阅历史推断出) ,可以知道 该教师主要从事数据挖掘理论研究,所以应优先推荐理论研究书籍,而对于数据 挖掘应用或数据挖掘工具介绍方面的书籍不推荐或作为补充推荐。 ( 3 ) 由于借书人较多,一些人有着相同或相似的兴趣,可以按兴趣对借阅 者进行分类聚类,然后针对用户群提供有针对性的借阅服务。 ( 4 ) 为了提高为借阅者提供书籍的效率,把图书馆中的书事先进行合理的 分类聚类,为借阅者提供书籍时,也是分门别类的提供出来,如分成关联规则 挖掘、空间数据挖掘、w e b 挖掘等,w e b 挖掘又分成w e b 内容挖掘、w e b 结构 挖掘和w e b 使用挖掘等。 这样的图书管理员、这样的书籍推荐方式肯定会受到借阅者的欢迎,对借阅 者来讲,其实这就是一种智能化信息检索( 信息推荐) 方式。 智能信息检索就是模拟人的信息检索方式,目前还没有严格的定义。我们认 为智能信息检索应具备如下主要特征:基于概念的信息检索、个性化服务和合理 的信息分类聚类。 东北大学博士学位论文 第一章前言 1 2 1 基于概念的信息检索 目前常用的信息检索技术有全文检索( t e x tr e t r i e v a l ) 和数据检索( d a t a r e t r i e v a l ) 【g m v 9 9 。全文检索的特点是把用户的检索请求和全文中的每一个 词进行比较,采用关键词匹配的形式,不考虑检索请求概念上的匹配,虽然全文 检索可以保证查全率,但是查准率大大降低;数据检索要求用户检索请求和信息 源中的数据要遵循一定的格式,具有很大的局限性,支持概念匹配能力差。利用 现有信息检索技术来进行信息检索,经常返回大量无关的信息,使用户大量的时 间都花费在排除无关的信息上,同时又可能丢失感兴趣的重要信息。 基于概念的检索( c o n c e p tr e t r i e v a l ) 也称为基于语义的检索,是相对于基 于关键词的检索提出的,把用户提交的关键词通过语义理解和计算转换成语义概 念,检索出与此概念有关的、用户真正想要的信息,而不只是字面上想要的,提 高查全率。目前常见的做法是,通过引入领域本体,把用户输入的关键词进行语 义转换,实现基于语义的信息检索。初始领域本体的建立和本体的补充、完善都 通过人机结合的方式实现。初始领域本体中的词汇通过对部分有代表性文档的分 析获得,在信息检索过程中及时补充新出现的领域词汇,动态完善领域本体。 1 2 2 个性化服务 现在的信息检索系统只要输入的检索关键词相同,得到的检索结果都一样, 是对每个用户都适用的通用结果,没有考虑不同用户的不同兴趣导致无关信息 太多。在海量信息的时代,通用往往意味着无用,因为一个特定的用户只对很小 很小一部分信息感兴趣,很难在大量的通用信息中找到自己感兴趣的那小部分 信息。人们希望的方式是: ( 1 ) 如果用户注册了个人背景信息及感兴趣的信息,系统就能为其推荐有 针对性的信息。 ( 2 ) 如果用户没有注册对什么信息感兴趣,系统可以从用户的访问行为中 挖掘出用户的兴趣,据此也可以为用户推荐感兴趣的信息。 ( 3 ) 如果能够找到与某用户兴趣相似的其它用户,也可以根据其它相似用 户的访问来为该用户推荐信息。 个性化服务是指针对不同用户提供不同信息的服务模式。与不区分用户特点 的通用服务模式相比,个性化服务模式显然具有更高的服务质量,能够有效提高 信息的查准率。 1 2 3 信息的合理分类聚类 i n t e r n e t a z 的信息浩若烟海而又纷繁杂乱,用户希望信息检索系统只提供其 东北大学博士学位论文 第一章前言 感兴趣的信息,而过滤掉其不感兴趣、甚至是讨厌的信息。而在通用的检索结果 中,一个用户感兴趣的信息可能正是另一个用户讨厌的信息。如同样是输入关键 词“数据挖掘”,作为一个准备购买数据分析软件的企业用户来说,有关数据挖掘 软件产品的介绍和广告,就是其感兴趣的信息;而对于一个从事数据挖掘研究的 学者来说,上述信息就是一种干扰,因为这位学者感兴趣的是有关数据挖掘的学 术论文和学术著作。 在目前的搜索引擎上,输入关键词进行信息检索,常常得到几万、甚至于几 十万、几百万个和检索关键词有关的页面,很难通过逐篇阅读的方式查看对某个 页面是否感兴趣。一种可行的解决办法就是把获得的大量信息进行整理,自动地 将页面分类聚类成不同的类别,并为每一类抽取出一个主题,而且这种主题是 分层次的,这有助于用户尽快找到感兴趣的信息,而过滤掉不感兴趣的信息。 例如,输入关键词“数据挖掘”,一个搜索引擎可能找到几十万个通用页面, 一个有特定兴趣的用户要想在这几十万个页面中较快地找到自己真正需要的信 息是很困难的。如果按图1 1 所示的层次对检索结果进行分类聚类,会帮助用户 尽快找到所需信息,此时用户可以跳过不感兴趣的类,而直接到感兴趣的类别中 查找需要的信息。 关联规则挖 k 近邻方法 分类贝叶斯方法 聚类 支撑向量机方法 图1 1 检索结果的分类层次 f i g i ,1c l a s s i f i c a t i o nh i e r a r c h yo fr e t r i e v a lr e s u l t s 1 3w e b 挖掘技术及其对智能信息检索的支持 1 3 1 数据挖掘 数据挖掘( d a t a m i n i n g ) ,又称知识发现,是从存放在数据库、数据仓库或 绍 文 构 介 论 机 品 术 究 产 学 研 。,l 数据挖掘 东北大学博士学位论文第一章前言 其它信息库中的大量数据中挖掘有趣知识的过程【h k 0 1 1 。 同传统的统计分析技术相比,数据挖掘的主要特点是系统的主动性。传统的 统计分析方法具有确定性,是正向思维,即首先由用户设定一个前提,然后证实 或否定它,在此,是用户发挥主动性。而数据挖掘技术具有探索性,是一种逆向 思维,即由系统发现一合适的前提,再证实或否定,是系统在发挥主动性【p a r 9 8 1 。 数据挖掘技术出现以来,经过不断的探索和开发,目前己在市场营销、银行、 保险、医药、交通、电信和公司经营管理等部门得以应用,并取得了长足的发展。 数据挖掘过程如图1 2 所示【王0 3 ,它一般由3 个主要阶段组成:数据准备、 挖掘操作、结果的表述和解释。 数据准备阶段包括数据选择和样本数据预处理。首先根据数据挖掘方法和 工具的要求选择合适的数据,并对选择的数据进行预处理。 挖掘操作包括规则发现和规则分析及建模。首先将确定的数据挖掘算法在 预处理后的数据中执行,得到相应的结果( 规则) ,再对结果进行辨证分析并将 其用于预测、预报等建模工作中。 结果的表述和解释阶段是将建模的结果以用户容易理解的、能够接受的形 式信息可视化技术展现给用户,为其提供满意的决策支持。 1 3 2w e b 挖掘 图1 2 数据挖掘的实旌过程 f i g 1 2s t e p so f d a t am i n i n g w e b 挖掘是以w w w 上的资源( 如网页内容、用户访问数据、w e b 网站结 构等) 作为数据源的数据挖掘技术,所以,w e b 挖掘定义为从与w w w 相关的 资源和行为中抽取感兴趣的、有用的模式和隐含信息【韩o u 。w e b 挖掘可以应用 传统的数据挖掘算法,同时,由于w e b 数据源的特点以及w e b 挖掘应用过程中 东北大学博士学位论文 第一章前言 的具体要求,使其又具有不同于传统挖掘方法的一些特殊性,针对这些特殊性又 需要给出新的定义,设计新的挖掘算法。 根据w e b 数据源的不同种类,可以将w e b 挖掘分为w e b 内容挖掘( w e b c o n t e n tm i n i n g ) 、w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) 和w e b 使用挖掘( w e b u s a g e m i n i n g ) 。图1 3 给出了w 曲挖掘的分类【a m 0 4 ,该图同时给出了w e b 挖 掘与信息检索的密切关系。 w e b 内容挖掘 这里的w e b 内容是网页上的数据,而w e b 内容挖掘是从w e b 文档或脚本中 抽取知识的过程。w e b 上的文档内容不同于其它数据源,是半结构化或非结构化 的,而且其内容的语法和语义是机器难以表达的,因此,需要采用一些瓤的技术 对w e b 文档进行重构。分类聚类、关联规则、文本挖掘、页面信息抽耿、语义 w e b 是w e b 内容挖掘的重要研究内容,其中分类聚类、关联规则也是w e b 使用 挖掘的重要研究内容。 曰 i 型 图1 3w e b 挖掘分类 f i g ,1 3c l a s s i f i c a t i o no fw e bm i n i n g q l l w e b 结构挖掘 这里的w e b 结构是指w e b 内容的组织形式,而w e b 结构挖掘是从w w w 组 织结构和w e b 页上引用链之间抽取知识的过程。由于文档之间的互连,w w w = 搬 一 矗 挖 一 一 蝴 一 w 东北大学博士学位论文 第一章前言 能够提供除文档内容之外的有用信息。一般地,一个文档被引用的次数越多,说 明该文档越重要。利用这些信息,可以对页面进行排序,发现重要的页面。 w e b 使用挖掘 w e b 使用数据即网页被用户使用的记录,而w e b 使用挖掘是从这类记录文件 w e b 日志中抽取感兴趣的模式的过程。w w w 中每个服务器都保留了w e b 日志, 记录了关于用户访问和交互的信息,分析这些数据可以帮助网站管理者理解用户 的行为,从而改进网站的结构,或为用户提供个性化的服务。用户兴趣描述、个 性化服务、个性化推荐是w e b 使用挖掘的主要研究内容。 从图1 3 中可以看出,w e b 内容挖掘、w e b 使用挖掘和信息检索的联系比较密 切,其研究成果对智能信息检索具有很好的支持作用,特别是分类聚类对智能 信息检索的支持作用尤大。 1 3 3 分类聚类对智能信息检索的支持 分类聚类是人们认识自然的一种重要手段,在计算机出现之后,人们就开 始借助这一先进工具研究数据的自动分类问题。从计算的观点看,如果分类原则 是事先通过示例告诉计算机的,那么计算机在示例基础上形成分类机制的过程就 成为有监督的分类;如果事先没有任何示例,全凭数据自身在某种角度上的相似 性来分类,这时自然就谈不上遵守既定分类体系的问题,那么这种分类过程就称 为无监督的分类,也称为自动聚类问题【方8 2 。聚类和分类都是机器学习、统计 分析等领域关注的课题,文本及页面的分类,聚类是w e b 挖掘的重要研究内容。 文本分类聚类技术将大量的文本分门别类,依据文本的语义将它们划归不同的 类别,从而可以更好地把握整个文本集。 对于智能信息检索,分类聚类技术可以在如下几个方面有所帮助: 使检索结果层次化、条理化 h 0 0 】 起初w w w 仅仅是一些主页的无组织的杂乱集合,用户没有一个访问这个庞 大资源的有效入口,为了满足信息检索的要求,人们设计丌发了a l t av i s t a 、 i n f o s e e k 、e x c i t e 、g o o g l e 等搜索引擎。 然而这些搜索引擎的检索结果却并不尽如人意,往往是用户输入一组关键 词,就会得到成千上万的通用检索结果,而某一特定( 类) 用户只是对其中很小 部分感兴趣,人们虽然设计了很多针对特定用户提供信息的方法,但却仍然难 以保证特定用户感兴趣的信息能够优先显示,用户还需在众多的页面中人工筛选 自己需要的信息。 分类聚类技术可以按性质、相似程度等对检索出的页面进行分类聚类操 作,使检索结果按类别分为若干组,每组都有个比较明确的主题,每个特定用 户可以迅速地查看每一组并选择那些和其兴趣最相关的组,进而快速找到最感兴 东北大学博士学位论文 第一章前言 趣的页面。 加速检索过程fh 0 0 】 自然语言中词形和词义并不是一一对应的,有很多一词多义和多词一义的现 象,这种现象使得仅仅依靠关键词的比较不足以获得满意的检索结果。针对这种 现象,f d d f 9 0 提出了一种称为隐性语义检索( l s i :l a t e n ts e m a n t i ci n d e x i n g ) 的算法,在大规模文本集合中提取出隐含的概念,进而使用在概念空间中的投影 表示文本。检索过程把用户输入的检索项视为一个虚拟文本,按照同样的方式计 算其在概念空间中的投影,将这个虚拟文本和文本库中的所有文本逐个比较,然 后返回那些距离比较小的文本。如果文本库中文本数目过多,这个过程将是非常 耗时的。一种可行的加速方案就是事前对原始文本进行分类聚类,把那些近似 程度较高的文本分在同一个组内,每个组都形成一个中心,检索时只需和这些类 中心比较就可以了,这会大大加速整个检索过程。 实现个性化服务 比较理想的信息检索模式是系统能够根据用户的个性( 由用户的注册信息或 访问信息获得) 主动为其提供有针对性的信息服务。由于用户数量巨大,要想有 效实现个性化服务,就需要对w e b 用户进行分类聚类,并描述出每一类用户的 兴趣模型,即w e b 用户分类聚类操作是实现个性化服务的基础。 1 4 本文的组织 本文在智能信息检索的背景下来讨论w e b 挖掘问题,并重点讨论了信息抽取、 w e b 日志预处理、分类聚类、概念检索和个性化服务等问题。 全文共分七章,每一章的具体内容如下: 第一章是“前言”部分,主要晚明了智能信息检索的含义和特征,数据挖掘 和w e b 挖掘的定义,w e b 挖掘的主要研究内容及w e b 挖掘研究对智能信息检索 的支持,重点讨论了分类聚类对智能信息检索的支持。 第二章是“相关概念与技术”部分,主要介绍了与智能信息检索密切相关的 w e b 挖掘研究内容,如用于页面和w e b 用户的分类聚类技术、用于概念检索的 本体方法等基本概念与技术。 第三章是“支持信息检索的数据预处理技术”部分,主要包括基于p d f 文件 的信息抽取、中文文本分词和w e b 日志预处理。从p d f 文件中抽取有用信息属 于页面内容挖掘范畴,提出了基于格式注入的规则抽取及基于树模型的信息抽

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论