(管理科学与工程专业论文)基于数据挖掘的web挖掘系统的研究.pdf_第1页
(管理科学与工程专业论文)基于数据挖掘的web挖掘系统的研究.pdf_第2页
(管理科学与工程专业论文)基于数据挖掘的web挖掘系统的研究.pdf_第3页
(管理科学与工程专业论文)基于数据挖掘的web挖掘系统的研究.pdf_第4页
(管理科学与工程专业论文)基于数据挖掘的web挖掘系统的研究.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随整w o r l dw i d ew e b 信患爆炸性的增长,人们遗切篱要一种能扶w e b 主莰速、蠢散遗获璇9 霹谈熟工具。现有翡搜索弓| 辇双惩予w e b 上鼹信惑检索, 褥虽覆藏率肖隈、糖度不馥,无法发现w e b 上潜我的知识。将健统的数撵挖 撼与w e b 结龠进行w e b 撼撼,已戒为数撰羧撼斡一个重要黢繁蘩豹予领域。 论文侧燕予w e b 挖撼系绞良身瓣橇建,建立了一个基予数据挖掘技术躲 w e b 挖援系绫豹窳型w e b _ m s ,嚣骢爱提供一夸安翅魏w e b 挖援工熬斡摸罄, 帮助入嬲更蠢效遮扶w e b 上获取鬏识。 在w e b 上豹举缝梅纯数寨弱楚凝上,率文褥窭了剩捌x m l 数壤攘取攘零 将半绫擒像数据骧瓣必终擒馋数援、建立多屡w e b 数撰露,圈辩对w e b 爨悫 矮娥理豹方察,解羧了w e b 挖懿系统数撰源魏范纯豹瓣怒。褒系缝挖搬动貔 靛蜜瑷土,采取将隳残? 多耱数壤挖籀穷法熬w e b 挖援方法瘁撂爻一令搂决 嵌入系统串瓣繁潞,逶过糕定英接露麓越稍调麓方法,傻之每系统其稳模疑 紧密缠会,荚弱竞戒w e b 土熬数器挖熬。 w e b 挖掇系统淼整w e b _ m s 摄供了一个w e b 擦掘工蒸懿模鼙,辩察丽黥w e b 挖掘系绕豹汗茇罴有较努豹参考徐蕊,辩w e b 挖掇瓣瑾论辑究也将起鞠定 酶撩动佟髑。 奖髓诞:数握撼撼;w e b 挖撼;w e b 文本挖搌;w e b 霹惑挖摄;拳络梅他数搪 a b s t r a c t w i t ht h ee x p l o s i v eg r o w t ho fi n f o r m a t i o no nt h ew o r l dw i d ew e b ,i ti s n e c e s s a r yt op r o v i d eu s e r sw i t ht o o l sf o re f f i c i e n tk n o w l e d g ed i s c o v e r yo nt h e w e b t h et a r g e to ft h es e a r c he n g i n ei sn o tk n o w l e d g ed i s c o v e r yb mi n f o r m a t i o n r e t r i e v a l w i t ht h e a p p l i c a t i o no fd a t am i n i n g t ot h ew e b ,w e bm i n i n gh a s b e c o m eo n eo f t h em o s t i m p o r t a n t a n d f l o u r i s h i n g f i e l d so f d a t am i n i n g , t h i sp a p e re m p h a s i z e so nt h ed e s i g no fw e bm i n i n gs y s t e m ac u r r e n t p r o t o t y p eo f w e bm i n i n gs y s t e mw e b _ m s i sp r e s e n t e d 。t h e p u r p o s e i st op r o v i d e a p r a c t i c a l m o d e lf o rw e bm i n i n ga n dm a k ei tm o r ee f f e c t i v et od i s c o v e r y k n o w l e d g e 0 nt h ew e b 。 t od e a lw i t ht h es e m i - s t r u c t u r e dd a t ao nt h e ,w e b ,t h i sp a p e rt r a n s f o r m st h e s e m i s t r u c t u r e dd a t at ow e l l s t r a c t u r e dd a t ab ye x t r a c t i o nb a s e do nx 鹾la n d b u i l d sam u l t i l e v e lw e bd a t a b a s e m e a n w h i l e ,i tp r e p r o e e s s e sw e bl o g s i ts o l v e s t h e p r o b l e m o fd a t as t a n d a r d i z a t i o nf o rw e bm i n i n gs y s t e m 。o nh o wt o i m p l e m e n tt h ef u n c t i o no fm i n i n g ,t h i sp a p e rt a k e st h es t r a t e g yt h a ti n t e g r a t e s d i f f e r e n tk i n d so fm e t h o d sf o rm i n i n gi n t oaw a r e h o u s ea n di n s e r t si ti n t ot h e s y s t e ma sam o d u l e t h e m o d u l eh a si t so w ni n t e r f a c ea n dm e t h o dt ob eu s e d i t c o o p e r a t e s w i t h o t h e r m o d u l e s 幻c o m p l e t e t h e t a s ko f w e b m i n i n g t h ep r o t o t y p eo fw e bm i n i n gs y s t e mw e b _ m sn o to n l yp r o v i d e sav a l u e d m o d e lf o rd e v e l o p i n gt o o l sf o rw e bm i n i n g ,b u ta l s op r o m o t e st h er e s e a r c ho f w e b m i n i n g i nt u r n 。 k e y w o r d s :d a t am i n i n g ;黏bm i n i n g ;w e bt e x tm i n i n g ;w e bl o gm i n i n g ; s e m i 一当t r u c t u r e dd a t a 基于数据挖掘的w e b 挖掘系统的研究 1 引畜 1 ,1 问题的提出 w o r l dw i d ew e b ( 简称w w w ,w e b ) 的迅速发腥,使其成为全球信息传递与 共享的霹益重要釉最其瓣力翡瓷源。w e b 上蔼慧瀑簿瞧弱增长,蓬人们逵锈 需要一种能从w e b 上快遮、有效地获取知识的工具。现有的提綮引擎目的在 予w e b 上的信意检索,聪置英覆盖率有限、精度不离,无法焉予w e b 上潜在 知识的发现。 w e b 不仅为新技术的产生开辟了薪的领域,也为佟统技术静研究提出了 搿方向。将传统的数搌挖掘技术和w e b 结合起来,从w e b 文档和w e b 活动 中抽取慧兴趣的、潜在的、有用的信怠,进行w e b 挖稚,成为数据挖獬的一 个重要和繁荣的子领域n ”。通过w e b 挖掘,可以帮助人们更寿效地从w e b 中获取知识。 w e b 挖掘从数据挖壤发震聪来,与传统的数据挖掘攘比又有许多独特之 处n ,。传统的数据挖掘的对象限于数据库中的结构化数据,利用关系袭格等 存德结秘来发瑷知识,嚣w e b 挖掇熬对象是大擞冥质、分毒、豢结构纯瓣w e b 数据,自身的特殊性决定了w e b 挖掘无法直接应用传统的数据库领域的挖掘 方法窝摸墅n “。麴想解决w e b 数据援藏纯窝颈怒毽熬潮蘧,馕挖撼系绞与数 据库紧密耦合,提供一个集成的信息处理环境,成了w e b 挖掘的前提。 w e b 挖掇燕一j 曩综合技拳,涉及w e b 、数攥挖掘、傣惠学、诗雾语蠢学等 多个学科。目前尚属一个较新的研究领域,正处于发展阶段,尚无统一结论。 不露领域静臻究者鹫w e b 挖掘骞着不磷瓣毽缮,矮嚣嚣发遣务骞英铡整煮。 数据挖掘领域的研究往往将重点放在崩部的具体挖掘辣法的设计、分析和改 遗上,缀少;l 重橼箍系统零赛懿 奄建迸帮讨论m ;。w e b 挽撵系统跫一个霄褫豹 艇体,备个部分之问有麓密切的关系。单纯地研究算法而不仔细对系统结构 避行分轿。势必导致各种算法之间酶羹复工作,不翻予多种不间算法的嵌入; 基于鼗舔撼编的w e b 挖掘系绕的研究 而且对辩法来讲,只有与系统其他模块紧密结合,才能究分发撵作用。 考感到基蓑w e b 挖撼鹣磅究芷处予发蒗除段,耘关技术不是穰纛熟,投 入实际遴作的系统并不多见,而恩往往带有很强的专业领域性,一般都针对 一耱w e b 对象。落貔,鸯必要梅建一个邋惩熬西岛多蛰w e b 鼗撂懿挖撬系统 原型,为w e b 挖掘工具的开发提供一个嶷用的横型,指姆实际的w e b 挖掘系 统的开发,接魂w e b 挖掘疆论致磺究。 。2 螯离羚簿类疆突缫遂 1 2 。i 数据楚鬟轿究综述 数攒羧握是熬着人类进天痿感社会戬来对铸惑徐镬魏试识不凝毽菇丽发 餍来的,怒信息技术自然演化的缡果。 叁8 0 年代皴寒,数撂瘴技拳麴特点楚广泛接受美暴技术,凝究器开发囊 的、功能强大的数据库系统w 。快速增长的海量数据收榘,理解它们已经远 遴超篷了入懿嶷力,丈羹翡鼗据被接述轰“装豢事富,餐壤息赛乏”,数据器 率富带来了对强柑力的数据分析工具的需求n ”。 对予数握挖糕溅,d a t a m i n i n g ) 窝熟识发瑰( k d d ,k n o w l e d g ed i s c o v e r y i nd a t a b a s e ) 的确切定义长久以来存在蓿混淆。有学者认为数据挖掘和知识 发瑷是等徐藏强念,天王饕毵领城嚣滚称懿浚发现,蔼数罨蓐鞭竣习滚称数 据挖掘,村的甚坚将两个概念视为同义词,也帮学者把知识发现看作发观知 识豹完整进程,两数据挖掘嚣是这个过舔孛靛一个都分m ;。 国际上第一次关于数据挖掘与知识发现的研讨会于1 9 8 9 犁8 月在荚羼底 祷律召开。1 9 9 5 筇在热翕大召开第一藉知识发现过程和数据挖獭国际学术会 议( i n t e r n a t i o n a lc o n f e r e n c eo nd a t am i n i n g k n o w l e d g ed i s c o v e r yi n d a t a b a s e s ) ,该会议是由1 9 8 9 弧1 9 9 4 锋举行的黯次数獬库中翔识发现国际 礤讨会发髅起来煞。这次会议上明确定义了知谈发璎的概念,势礁定了知谈 发观过程和数据挖掘豹美系n 一。从1 9 9 5 年开始,每年都要举办一次k d d 国 黪会议,翳外扶1 9 9 7 年开始,k d d 翻有了爨己抟杂志“k n o w l e d g ed i s c o v e r y 2 基予数据挖掘的w e b 挖搦系统的研究 a n dd a t am i n i n g ”。 数握挖掘俸戈戋鼙谖发瑗遘程的一个特宠步骤,是对数耀及数霸潮关系送 行考察和建模的方法集,应用一系列技术从大量数据中提取人们感兴趣的、 戆含瓣、潜在骞蘑懿售惠帮躲识,袭示蔻辍念( c o n c e p t s ) 、矮剽( r u l e s ) 、麓 律( r e g u l a r i t i e s ) 、模式( p a t t e r n s ) 等形式”“。 数蠢挖掘是一个交叉学辩领域,建大王智藐、辊器学习与数搽窿技术稻 结合的产物,受数据库系统、统计学、机器学习、可视化和信息科学等多个 学羊薛影嫡,数蕤挖灏系统可缝集成空阖数鼯分橱、信惫捡索、模式识弱、鬻 像分析、w e b 技术、经济、商业、生物信息学等领域的技术。 由于数据挖撼源予多个学科,鞭j 斑产生了大羹酌、备释不同类型靛数据 挖掘系统,对它的分类可以帮助用户确定最适合其需要的数据挖掘系统。 根据挖掘的数据库类型分:有关系黧、事务塑、面向对象型、空间型、 时闻型、文本型、多媒体型和异质数据库如w e b 数擐挖掘系统等。 根据发现知识的种类分:即根据数据挖掘的功能。如总结、特征化、 关联、分类、聚类、趋势分橇、偏菠分析等,一个垒恧的数据挖掇系统应当 提供多种或集成的数据挖撼功能。 根撵采用的技术分:如蟊囱数据露竣数据念露款技术、援器学嚣、统 计学、神经网络、模式识别、可视化等。一”。 扶琢粼上漤,数据挖撼霹强褒侄鹰类懿懿售惑存储上筵 蠢,瓴话关系数 据库、数据仓库、搴务数据库、展汗文件和w w w 。9 0 年代以来,数据挖掘和 数撂仓痒结会起来,锋荛凌壤支持豹薪蔹零 霉至l 遗速发最“。 数据、数据挖掘任务和方法的多样性,为数据挖掘提出了许多挑战性的 漾溪。数蠢挖摇方法静挺爨吾 起了学术器黎工鼗赛弱广泛荚注,嚣震了备耪 各样的研究计划,研究的主要目标鼹发展有关的方法论、邂论和工具。 数据携掘语言戆霞诗,岗效蔼有蔼豹数据挖擒方法帮系统豹开发,交互 和集成的数据挖掘环境的建立,以及应用数据挖掘技术解决大型斑用问题, 都燕蟊蘸数据挖掘磷究入熨和应蹋开发入员所面添豹主要溺蘧。褥应用的探 索、可伸缩的数据挖掘方法、数据挖掘语裔的标准化、可视化数粥挖掘、与 数掰瘁和数据仓库系统的集成、复杂数据类型挖掘的新方法、w e b 挖掘以及 基于数据挖掘的w e b 挖掘系统的研究 隐私保护和信息安全等将成为数据挖掘的发展趋势。 1 2 2w e b 挖掘的研究进展 当前w e b 正在深度和广度方面飞速地发展着,前所未有地改变着我们的 生活,在当今社会扮演越来越重要的角色。 w e b 是一个巨大的、分布广泛的、全球性的信息服务中心,涉及新闻、 广告、消费信息、金融管理、教育、电子商务和许多其它信息服务,还包含 了丰富和动态的超链接信息,以及w e b 页面的访问和使用信息。 在w e b 迅速发展的同时,我们不能忽视“信息爆炸”的问题,即信息极 大丰富而知识相对匮乏。在这些大量、异质的w e b 信息资源中,蕴含着具有 巨大潜在价值的知识,为数据挖掘提供了丰富的资源t l j , 2 5 。另外,w e b 上的一 些主要工作,如w e b 站点设计、w e b 服务设计、w e b 站点的导航设计、电子商 务等工作也变得越来越复杂和重要。人们迫切需要能够从w e b 上快速、有效 地发现资源和知识的工具。 从2 0 世纪6 0 年代以来,信息检索领域在索引模型、文档内容表示、匹 配策略等方面取得了许多研究成果,这些成果被成功地应用在w e b 上,产生 了搜索引擎,例如y a h o o 、g o o g l e 等。现在大多数的搜索引擎以搜索文字信 息为主,采用集中方式,试图遍历整个w e b ,对其上所有的文档生成索引, 根据用户的查询请求,按照一定的算法从索引数据库中查找相应的信息返回 给用户,完成对w e b 的搜索,如定位包含某关键字的w e b 页面等m - m 。 搜索引擎部分地解决了资源发现问题,但其覆盖率有限,精确度不高, 硬件设施消耗大,维护起来也比较困难,其效果远不能使人满意。改进的元 搜索引擎方式虽然可以一次让多个w e b 搜索引擎并发查询,扩大了查询的覆 盖面,但元搜索引擎对搜索引擎的依赖,使它无法从根本上解决上述问题m 。 此外,搜索引擎的目的在于发现w e b 上的资源,但就w e b 上的知识发现而言, 即使检索精度再高。搜索引擎也不能够胜任。为此,需要开发比信息检索更 高的新技术。 从大量数据的集合中发现有效、新颖、有用、可理解的模式,数据库领 域采用了数据挖掘技术。但是,数据挖掘的绝大部分工作所涉及的是结构化 基于数据挖掘的w e b 挖掘系统的研究 数据疼,缀少有处理w e b 上豹舅质、半结构化僚息豹工作”。解决这些阀题 的一个途径,就魑将传统的数据挖掘技术和w e b 结合起来,进干亍w e b 挖掘。 w e b 挖掘是数攥挖掇技术积理论反髑于w 弹箨资源进行挖掘戆一个糍兴领 域。目前在该研究领域中,根据挖掘对象的不同大致分为三个方面的挖掘研 究:w e b 凌吝挖攘、w e b 搜强挖搬移w e b 绥擒挖援“。 w e b 挖掘作为数据挖掘的一个新主题,引越了人们极大的必趣,它实现 霹w e b 存繇模式、w e b 维椽辜羹瓣羹l ,敦发动态熬w e b 遗容鲮瀣找。w e b 挖 掘可以程很多方面发挥作用,如对搜索引擎的结构进行挖掘,确定权威页面, w e b 文秘分类,w e bl o g 挖撼、蟹襞奁询、建交m e t a w e b 数撵仓库等。嗣 时,它也是一个富于争议的研究方向,藻于w e b 的数据挖掘的研究才刚刚起 爹,需曩莺内外学者在璎论上开装更多鞠讨论。 目前,国际七对此领域研究主要集中在:搜索引繁的设计、文件岛动分 类技术、关键谲的螽动褥取、半结梅纯傣怠酶擒取崴及w e b 上新鳖应用的研 究等”1 。应用领域中通用的w e b 挖掘工县还比较少,妻要分为文本信息挖掘 工具和糟户访润模式挖撼工具。 i b m 公司推如约w e b 文本挖掘工具i n t e l l i g e n t m i n e r f o r t e x t ,是i b m 开 发的i n t e l l i g e n tm i n e r 家族的一个成员,是一个高效的文本信息挖掘工凝,可 以实现全文搜索、文本转辑、文档囊询鼹捡索。主要燎虫缤怠提取器王具组 成,包搬高级搜索引擎t e x t m i n e r 、w e b 访问工具移文本分析工具三部分, 其中文本分辑王昃宠成熟考是慰文搴蕊惠豹挖撼,这部分工具霹以独立镬用, 但将它岛文本搜索工具结合使用才能发挥更强犬的作用。 a n a l o g 是一个惩寒分掇缀务嚣蟊悫文转豹王其,逶建子w i n d o w s 及u n i x 簿操作蕊统中,可以赢接在服务器上运行,也w 以将豳志文忭下载到客户端 运费。遗瘸子令久窝夺攘摸努辑应爱,楚一令囊罴缝缀强蘸秘恚文磐分拆王 熙,从h t t p :w 咖s t a t l a b c a m a c u k 上可以免费获得该软件。用户导航行 魏挖撼工爨箨漆疆e hu t il i z a t i o nm i n e r ) 是一耱痔甍挖掘器,生要瑟絮分羲 用户导航行为,适用予从任何擞型的日志文件中发现用户导航信息。w 以从 h t t p :w u m ,w i w i ,h u b e r l i n 。d e 上免费获褥w u m 5 ,0 酌演示版本8 一l 。 w e b 上的数据的最火特点熄半结构化。在众多的研究课题中,对半结构 基于数据挖掘的w e b 挖掘系统的研究 化数据结构的研究是一个非常重幕的方向,半结构化数据模型和半结构化数 攥模型攒驭技本楚匿囊w e b 的数攥挖握技术实熬豹兹爨,是当今数据拣援硬 究领域的热点“。 可扩震拣记谬言x m l e x t e n s i b l em a r k u pl a n g u a g e ) 翡毒聪,弥 了h t m l 的不足,将成为新一代i n t e r n e t 数据组织和交换的事实标准。x m l 是由 w 3 c ( w o r l dw i d ew e bc o n s o r t i u m ,万络瓣法会) 设诗并箍荐襞麓酶耨一代标 记语言。1 9 9 6 年7 月w 3 c 在j o nb o s a k ( s u n 公司的网络技术专家) 的建议下 成立了x m l 魏范铡定小缀,萁西豹是受了将标准邋霜标记语言s g m l ( s t a n d a r d g e n e r i cm a r k u pl a n g u a g e ) 方便地应用于网络,1 9 9 8 年2 月1 0 日经w 3 c 认 可,x m l l 0 建议书正式公布予众m 。x 耐l 改进th t m l 与s g m l 的不足,是一 种使页磷更具有弹性、熨容易添加新功能而又不失统一标准的语言格式,为 w e b 数攒管理提供了新酌数据模鍪。可戳说,x m l 是w e b 上的半结构数据,它 的出现搬动了半结构数搬研究的发展,为半结构数据的研究提供了广阕的应 用前景n “w 。 未来随羞x m l 的兴怒,大璧蛇w e b 疑厦用x m l 书写,w e b 擞露会藏含更 多的结构化和语义信息,便于设计和实现基于w e b 的信息搜索和知识发现语 蠢,有利予促进誉疑w e b 站点闻鲍信怠交换和多屡次w e b 数据黪款信息毒取。 w e b 挖掘工作将嶷得更为有效,也更为容易。w e b 文档的自动分类、多层次 w e b 数掇痒驰建嶷鼓及w e bl o g 挖擐镄然会是w e b 挖握瓣主题。 + 3 本文聚突愚路及 爨究王作 本文鸵磺竞思路并寒届辍予疑髂挖攘箕法鹣设计,恧是麸擦掇系绞本身 的构建入手,就如何提高系统的整体性、更有效地实现挖掘功能做了较为深 入戆臻究,绘出一个基予数据挖援技本靛瑟彝多耪w e b 数豢静携攘系绞嚣墼, 将此系统命名为w e b _ m s ( w e bm i n i n gs y s t e m ) 。 论文蓄先鞠确w e b 挖掘豹涵义,分莓子w e b 稳据翦笺杂牲毅w e b 挖藏系绞 设计的主耍难点。本文要解决的问题有: 荬一,w e b 挖箍系统数据源豹砉置范识处理。w e b 数据半结构纯豹祷煮决定 基于数据挖掘的w e b 挖掘系统的研究 了w e b 挖掘不能套用传统的数据挖掘的模式,如何将半结构化的数据转化或 映射为结构化的数据,使w e b 挖掘系统和数据库紧密结合,提供一个集成的 信息处理环境,论文将在第三部分给出一种解决方案。 其二,设计一个基于数据挖掘的w e b 挖掘系统的原型。将w e b 挖掘方法 库作为一个单独模块嵌入系统中并与其他模块紧密结合,如何规定挖掘方法 库的调用方法和接口规范,原型系统中各个模块如何工作等,将在论文的第 四部分做详细的探讨。 最后,简要介绍w e b 挖掘系统原型在实际领域中的一种应用。 基于数据挖掘的w e b 挖掘系统的研究 2w e b 挖掘的内涵及复杂性分析 数据挖掘的对象不仅包含关系数据库中的数据,而且也包括w e b 上的各 种有价值的信息,如何从w e b 上异质的、半结构化的数据中有效地挖掘出有 用的信息是w e b 挖掘和w e b 挖掘系统设计的难点,也是数据挖掘领域面临 的一个新挑战。 2 1w e b 挖掘的内涵 w e b 挖掘系统的研究对象是w e b 上的各种数据,不同研究者从自身的领 域出发,对w e b 挖掘的含义有不同的理解。人们往往将w e b 挖掘与w e b 上的 信息检索或信息抽取等同起来,其实,它们是两种不同的技术。 2 1 1w e b 挖掘的含义 w e b 挖掘是从w e b 资源上抽取信息或知识的过程,它是将传统的数据挖 掘的思想和方法应用于w e b ,从与w e b 文档和w e b 活动中抽取感兴趣的、潜 在的、有用的模式和隐藏信息t ,一。 通过w e b 挖掘,不仅可以从大量多种多样信息的w e b 页面中提取出我们 需要的有用的知识,还可以得到关于群体用户访问行为和方式的普遍知识, 用以改进w e b 服务方设计。更重要的是,通过对用户特征的理解和分析,如 对用户访问行为、频度、内容等的分析,能提取出用户的特征,从而为用户 定制个性化的界面,有助予开展有针对性的电子商务活动“。w 。 w e b 信息检索,是指从大量w e b 文档的集合中找到与给定的查询请求相 关的、恰当数目的文档子集。w e b 挖掘和w e b 信息检索的区别主要表现在: 目的不同。信息检索的目的在于帮助用户发现w e b 上的资源,从大量 文档中找到满足其查询请求的文档子集,通常不能发现隐藏在数据后面的联 系:而w e b 挖掘能够将大量看似无关的w e b 数据关联起来,应用数据挖掘方 法发现其中的规则和知识以供决策支持。 基于数据挖掘的w e b 挖掘系统的研究 着眼点不同。信息检索着眼于文档中显式存储的字词和链接;而挖掘 试图更多地理解其内容、结构和使用。信息检索针对某一特定领域进行信息 或文档的收集,可以看作是用于w e b 挖掘中文档分类的一种情况。 方法论不同。信息检索是目标驱动的,用户需要明确提出查询要求, 以关键词形式表示的简单目标,无法处理用户给出的样本形式的复杂模糊目 标;而挖掘可以从文本中提取出目标信息的特征,其结果独立于用户的信息 需求,常常是用户无法预知的。 评价方法不同。信息检索使用精度( p r e c i s i o n ) 和召回率( r e c a l l ) 来评 价其性能,要求返回尽可能多的相关文档,同时不相关的文档尽可能少:而 挖掘采用收益( g a i n ) 、置信度( c e r t a i n t y ) 、简洁性( s i m p l i c i t y ) 等来衡量所 发现知识的有效1 生、可用性和可理解性。 w e b 挖掘不同于w e b 信息检索,它是比信息检索层次更高的技术。然而, 二者又是相辅相成的。一方面,它们各有所长,有各自身适用的场合;另一 方面,可以利用w e b 挖掘的研究成果来提高信息检索的精度和效率,改善检 索结果的组织,使信息检索系统发展到一个新的水平。 2 1 2w e b 挖掘的分类 w e b 上的数据主要包括: w e b 页面:包含文本和多媒体信息( 包括图像、语音、图片) ,现有的 w e b 挖掘方法大都是针对w e b 页面开展的。 服务器日恚数据:测览w e b 服务器时,产生三种类型的臼志文件s e r v e r l o g s ,e r r o rl o g s 和c o o k i el o g s ,用于记录用户访闯的基本情况。 w e b 页面超链接关系:描述了文档之间的联系,同时为用户浏览w e b 站点提供了可用的路径。 在线市场数据;这是传统的关系数据库结构数据,如客户登记信息等, 存储电子商务信息。将它们和访问日志集成,有助于更好地提高w e b 挖掘的 准确度。 一般地,根据w e b 挖掘研究的对象,可以将w e b 挖掘分为三类:w e b 内 容挖掘( w e bc o n t e n tm i n i n g ) 、w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) 和w e b 9 基于数据挖掘的w e b 挖掘系统的研究 使用记蒙挖掘( w e bu s a g em i n i n g ) ,如图2 + 1 所示,其中,w e b 内容挖掘和w e b 馒耀记录挖握是w e b 挖援匏嚣令主要方露“”。 霆2 1w e b 挖掘静分类 f i 9 2 1t a x o n o m y o f w e b m i n i n g ( 1 ) w e b 内容挖掘 w e b 内容挖搬是从文档内容戏其描述中抽取知识的过程。驿e b 文档志容鲶 挖掘,毯于概念索引的资源发现,以及凝于代理的技术郯属于遮一类。 w e b 内容挖掘有两耪策略:轰接挖掇文档泌态容,戏在其它工爨搜索鲶 揍础上进行改进。通过w e b 内容挖掘可以对w e b 上大量文档集的内容进行 撼要、分类、聚类、关联分撰,以及剩翳w e b 文褴进雩亍趋势预 粪| | 等。 在w e b 文本发现中,文本的特征表示是发现工作的基础,而本文分类和 聚类是强转最重爨、最鍪本熬发凝臻裁。文本将,覆疆豹怒关予文本懿元数摇, 分为描述性特征,例如文本的名称、日期、大小、类型镣,以及语义性特征, 捌熟文誊菠箨考、瓤羲、标嚣、痣容等n ”“。捂遮毪特髹荔予获缮,弱港义经 特征则较难获得。w 3 c 近来制定的x m l 铸规范撮供了对w e b 文档资源进行描 述瓣语言器攘繁,在踅鏊穑主,霹敬获拳结稳能豹w e b 文挡串獭取特征。 ( 2 ) w e b 结构挖掘 箨轷并楚由分森在遂彝各建豹w e b 始点缀成的全球信息系统,每个w e b 站 点又是一个由许瘳w e b 页构成的子系统。w e b 员弗不是孤立存在的,相关的 文档之闻通常青怒链链接。超链体现7 文档之蠲的逻辑关系,嗣时为用户浏 览w e b 站点提供了可用的路径。 由于文档之间的互连,有用信息不仅包含在w e b 页面内容之中,而且也 包含在页面的结构之中m 。大量的w e b 链接信息提供了丰富的关于w e b 内容 相关性、质量和结构方面的信息,对w e b 挖掘而言是可以利用的一种重要资 源。 w e b 结构挖掘是从w e b 的链接关系和组织结构中推倒知识,目的是发现 页面的结构和w e b 的结构,在此基础上对页面进行分类和聚类从而找到权威 页面。常用的方法有p a g e r a n k 方法和h u b a u t h o r i t y 方法“3 。 p a g e r a n k 方法 人们搜索某一主题的w e b 页面时,除了要求内容相关,更加期望检索到 的页面具有较高的质量和权威性。 权威性可由w e b 页面链接来反映。超链接包含了大量人类潜在的语义, 有助于自动分析出权威性语义。当一个w e b 页顽的作者建立指向另一个页面 的链接时,可以看作是作者对另一页面的注解,把对一个页面的来自不同作 者的注解收集起来,就可以用来反映该页面的重要性,并可以很自然地用于 权威w e b 页面的发现。 p a g e - r a n k 方法的基本思想是:一个页面被多次引用,则这个页面很可 能是重要的;一个页面尽管没有被多次引用,但被一个重要页面引用,则这 个页面很可能是重要的。一个页面的重要性被均分并被传递到它所引用的页 面。 h u b a u t h o r i t y 方法 考虑到w e b 链接结构的特殊特征,不是每个超链接都具有注解性,有 些是为其它目的创建的,如为了导航或为了付费广告。另外,基于商业或竞 争的考虑,很少有w e b 页面会指向其竞争领域的权威页面。 由于w e b 链接结构存在这些局限性,人们提出了h u b 页面。一个h u b 页 面是指一个或多个w e b 页面,它提供了指向权威页面的链接集合。h u b 页面 本身可能并不突出,可能没有几个链接指向它们,但却提供了指向就某个主 题而言最为突出的站点链接。h u b 页面起到了隐含说明某主题权威页面的作 用,可以是主页上的推荐链接列表,例如一门课程主页上的推荐参考文献站 基于数据挖掘的w e b 挖掘系统的研究 点。 通常,好的h u b 是指向许多好的权威的页面,好的权威是指由许多好的 h u b 所指向的页砸。这种h u b 与a u t h o r i t y 之间的相互作用,可用于权威页 面的挖掘和高质量w e b 结构和资源的发现。这就是h u b a u t h o r i t y 方法的基 本思想。 ( 3 ) w e b 使用记录挖掘 w e b 作为一个信息资源是繁杂、异质和庞大的,但从局部来看,在每一 个提供信息资源的w e b 服务器上都有一个结构化较好的记录集,即w e b 访问 日志( w e ba c c e s sl o g ) 。每当有获取资源的请求到来时,w e b 服务器都将记 录和积累这些关于用户访问和交互的信息。 w e b 使用记录挖掘又称w e b 日志挖掘( w e bl o gm i n i n g ) ,主要目标是从 w e b 的访问记录中发现感兴趣的模式。分析不同w e b 站点的访问日志可以帮 助人们理解用户的行为和w e b 的结构,从而改进站点的结构,或为用户提供 个性化的服务。这方面的研究主要由两个方向:一般的访问模式追踪和个性 化的使用记录追踪n ”。 一般的访问模式追踪通过分析访问记录来了解用户的访问模式和倾向, 清楚地给出w e b 结构及资源提供者的分组情况,从而改进站点的组织结构。 个性化的使用记录追踪则倾向于分析单个用户的偏好,根据不同用户的访问 模式和个人喜好,为每个用户定制符合其个人特色的w e b 站点。 尽管对w e b 访问曰志存在着各种各样潜在的应用,然而应该指出的是, 这类应用的成功与否依赖于人们可以从大量原始数据中怎样发现和发现多少 可靠的信息。目前的w e b 服务器上存储的访问信息是有限的。w e b 使用挖掘 中经常采用的技术是聚类、关联和序列分析等。当然,要进行有效的w e b 使 用挖掘,在分析之前往往需要对这些信息进行必要的清理和变换工作。 由于w e bl o g 数据提供了用户访问w e b 页面的信息,因此w e bl o g 信 息可以与w e b 内容和w e b 链接结构挖掘集成起来,用于w e b 页面的等级划 分、w e b 文档的分类和多层次w e b 数据库的构造“”。 基于数据挖掘的w e b 挖掘系统的研究 2 2w e b 挖掘的复杂性分析 传统数据库中的数据结构性很强,可以根据一定的数据模型来具体描述 特定的数据,同时可以很好地定义和解释相关的查询语言。然而,w e b 在逻 辑上是一个由文档节点和超级链接构成的图,w e b 挖掘的对象是大量异质、 分布的w e b 文档以及服务器上的日志、用户信息等,挖掘所得到的模式可能 是关于w e b 内容的,也可能是关于w e b 结构或使用的n2 ”。可见,w e b 挖掘 比传统的数据库或数据仓库中的数据挖掘复杂得多。 2 2 1 异构的数据库环境 从广义数据库理解的角度来说,w e b 是_ 个数据库,它是指大量、相关 的有用信息的集合,是一个更大的、复杂性更高的数据库。w e b 上的每一个 站点就是一个数据源,每一个数据源都是异构的,因为各站点的信息和组织 形式都不一样,这就构成了一个巨大的、异构的数据库环境。 利用这些数据进行数据挖掘,首先必须要研究站点之间异构数据的集成 问题,提供给用户一个统一的视图,才有可能从巨大的数据资源中获取所需的 知识。然而对有效的数据库和数据仓库而言,w e b 似乎太庞大了,几乎不可能 去构造一个数据库或数据仓库来复制、存储或集成w e b 上的所有数据。同时 w e b 又是一个动态性极强的信息源,其增长速度极快,信息不断更新,链接 信息和访问也在频繁地更新之中。 w e b 上诸多数据源中的信息如何构成一个为用户可用的整体,是目前很 多应用亟待解决的问题。 2 2 2 半结构化的数据源 从狭义角度来说,w e b 不是一个数据库,因为它不是按一定数据模型组 织的数据的集合。 w e b 是一个巨大的、异构的、分布的、由超文本链接连结的文档的集合, w e b 页面的复杂性远比任何传统的文本文档复杂得多。w e b 页面缺乏统一的结 基于数摇挖掘的w e b 挖掘系统匀研究 构,包含了远比任何一组数据或其他文本文档多得多的风格和内容,w e b 文 楼著不援据任键蠢关排列次序加以组织,没毒分类素弓l ,更没鸯按标题、l 乍者、 封面页、目次等的索引。此外,文档的内容是人类所傥用的自然语言,计算 搬疆难处理其语义。 对这样的数据进行焱询和处理与传统的数据库方法有明显的不同,已有 瓣数据摸整不畿缀磐建瀵疫w e b 数据懿特点,嚣要 l 入黢匏数提模鍪,鑫l j 龟 人们提出了半结构化数攒的概念。 半缭构纯数据是雾予结筏纯数据( 贿关系数据痒串豹数据) 移完全无结 构的数据( 如声齿、图像文件) 之间的数据形式,它具肖如下特点: 戆禽豹摸袋蓓惠:半结构位数据蒸有一定豹结捣,毽萁结褐与数据混 在一起,没有显示的模式定义,如h t m l 文件; 不规弱的结构;一个数搽集合可徒由异构的元素组成,例如学生集合 中菜些学生有电予邮件地址,雨另一些举生则没有,同样的信恩可能出不同 类型的数据表示; 没有严格的类型结构:由于没有一个预先定义的模式,以及数掇在结 构上的不规鲻性,所以缺乏对数据的严格约束n “。 w e b 上的数掇的最大特点就是半结构化。一方匿,它没有特定的横型攒 述,缺芝可以理解的语义,每个站点的数据备自独立,并且数据本身具有 巍述性翻动态可变性;哭一方藤,它鲍烫西具蠢一定翡羧述屡次,存在一定 的结构。 藏以上分提耀躲,遴牙w e b 控据努矮建立程w e b 数据燕范像秘蓣处理戆 慕础上。译找一个半结构化的数据模型,并将这个模型从现有w e b 数据中抽 取窭来,残舞爨决上述矮点懿戆提秘关键蒺在。 此外,w e b 面对的鼹个广泛的形形色色的用户群体。用户群不断地扩 羧,各个臻户爵淤畜不丽豹鹜豢、兴趣鞠使瘸嚣鼢,一个爝户往往哭关心w e b 上的很小一部分信息,其余信息对用户来说是不感兴趣的,而鼠会淹没所希 警褥妥翡绣栗。w e b 躲谖发瑗蔡有裰夭豹撬战髋,这蛰撬战叉推动了鲡何高 效且实际地发现和利用w e b 上资源的研究工作。 基于数据挖掘的w e b 挖掘系统的研究 3w e b 挖掘系统数据源的规范化处理 w e b 是一个巨大的、分布的、高度异构的、由半结构化数据组成的复杂 的互联系统。用数据挖掘方法对w e b 进行挖掘时,必须解决包括w e b 内容 和w e b 使用在内的w e b 数据源的规范化问题,将它们转变成易于处理的数 据结构,组织到关系数据库的二维表中,为系统提供一个集成的信息处理环 境。 3 1 半结构化数据的抽取 w e b 上数据的最大特点是半结构化。w e b 挖掘首先要解决半结构化数据源 的集成与查询问题,因此,寻找一个半结构化的数据模型来清晰地描述w e b 上的数据并将这个模型自动抽取出来成了解决问题的关键。 3 1 1x m l 的优势与特点 可扩展标记语言x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 的出现推动了半结 构数据研究的发展,为w e b 的数据管理提供了新的数据模型。x m l 是由 w 3 c ( w o r l dw i d ew e bc o n s o r t i u m ,万维网协会) 设计并推荐的新一代标记语 言,它主要有三个部分:文档类型定义d t d ( d o c u m e n tt y p ed e f i n i t i o n ) 规 定文档的逻辑结构,定义页面的元素、元素的属性以及元素和属性之间的关 系;可扩展样式语言x s l ( e x t e n s i b l es t y l es h e e tl a n g u a g e ) 描述文档如何 显示,它是x m l 的样式表描述语言;可扩展链按语言xl l ( e x t e n s i b l el i n k l a n g u a g e ) 是x m l 的链接语言,提供x m l 中的链接m “。 x m l 弥补了h t m l 与s g m l 的不足,使w e b 页面更具有弹性、更容易添加 新功能又不失统一标准,适用于w e b 上的数据交换,将成为新一代i n t e r n e t 数据组织和交换的事实标准。 x m l 的主要特点有: ( 1 ) 使用有意义且可扩展的标记 基于嚣搬挖掘的w e b 挖掘系统的研究 x m l 文档怒由可嵌套的具有标记( t a g ) 的元素组成的文本。其最錾本的语 法单位翅下瑟忝: r 、 祷,主要功能在于告诉浏览器商关换行、表格等编排信息,不能传达数据的 语义;x m l 是颡向内容的篷够避行鸯瓣释豹语言,它掰使嗣酌标记蹩其有语 义的,w 以清楚地向计算机及用户传达数据信息。参考下面x m l 文件: c o m p u t e r $ 1o o o i b m 该x m l 文件所代表的信息如表3 1 所示; 凌3 1x m l 文傍妖表黪壤患 1 驰l e 3 1i n f o r m a t i o nr e p r e s e n t e db vx m lf i l e p r o d u c t n a l l e c o m p u t e r p r o d u c tp r i c e $ 1 0 0 0 p r o d u c t m a n u f a c t u r e rl 转m 爰户在鞠l 文橙中憝魄较糖确建拯透数鬃翡语义,透过谬义檬淀显示结 构性的数据,让计算机“读懂”这些标i 己,帮助文件保存数据结构。 我终,h t m l 豹标记囱多数的权藏溺俸掰截定,种类有限嚣不麓随意添糖, 而x m l 中的标记是没有预先定义的,用户须按需要自定义标记,这使得x m 。 具有蘸好的可扩震性。潮霄x m l 定义标记,对潮页中豹文本段进行注释,使用 1 6 基于数据挖掘的w e b 挖掘系统的研究 户能搀强懑的结构添如到文档中,无需说明结构豹具体含义,麓单两易于掌 援。 ( 2 ) 数握的谬义与显示方式分开 h t m l 是一种决定数撼显示方式的语言,而x m l 是一个描述数据内容的语 言。x m l 本隽并不决定数握该翅秘显示,数撂熬显示囊x s l 决定,具蠢更多 的结构和更多的语义。豳于x m l 将数据保存的格式与数据显示方式分开,使 褥x m l 文件霹鞋褰荔建曼换数援鼹示方式。援纛竣交x s l 豹设嚣,瑁户藏可 以将同一数据制作成不同的格式,供不同的硬件显示。x m l 的最大优势在于 任 鼙系统郡爵教遴过x m l 瓣群橇器解读x m l 兹数据,不溪整心系统不支簿静 问题。 ( 3 ) 严格的语法控翻 h t m l 具有较大的灵活性,容易编霹,但结构松散,不容易转换成其它类 黧的格式,难用褥序敲文蟹丽裔效静处瑗,数攒荐稠焉瓣潜力大为降低。x

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论