(管理科学与工程专业论文)基于xml的web数据挖掘研究.pdf_第1页
(管理科学与工程专业论文)基于xml的web数据挖掘研究.pdf_第2页
(管理科学与工程专业论文)基于xml的web数据挖掘研究.pdf_第3页
(管理科学与工程专业论文)基于xml的web数据挖掘研究.pdf_第4页
(管理科学与工程专业论文)基于xml的web数据挖掘研究.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

孝黛瓣瓣 摘鬟 随著i n t e r a c t 熬蔫遮发震,趣鑫经藏魏簸鬻集、蒙丰富翡德爨寨濂。在这些海 薰数撼孛薤藏繁葱襻游籍惑,麴蔼找到鬻户感兴趣瓣巷惑运囊藏簿人稻美注豹焦 点。作为飙w 嚣_ b 疯槠粒w e b 活动中抽取潜程的、有用的模式鞠隐藏信息的有效技 术,w e b 数据挖掘悄然兴起,各受荚淫。幽予x m l 具有可扩展键、结构化和有效 性等特性,建立了一种传输结构化数掘的方法,使用户能够对w 始信息实施精确 蠢懑与模型抽取,懑魁格遢,与w e b 数撼藐撬斓结合进行骄巍谜濑溅受了数据 挖掘凝蠛内懿一个毅热患。 本文从x m l 姆w e b 数据挖掘两项羧零榴结台入手进行研巍,提出了一个基 于川l 的w 曲数据挖掘系统模型,详绷设计了基于x m l 的w 协网页内容挖掘 子系统,并针对暇。在该子系统中的飘体成用展开研究,对谖麓统的具体环节提 出用观技术索髂汰懿途径。 本文磅究翻撵谫捷焉x m l 谗舞数瓣交攮播羲瓣蕊辐上鹣数据送行挖掘。 在数据羲处理静瀵耩皆,设计并实瑗琴鞣嘲l - x m l 静转换搂鍪。该横壁是一耱蜜 动的通用的转换模勰,突破了以往的转换模型需要人工参与或熙舱针对某一领域 的特定信息进杼转捷的不足能有效的将h t m lw e b 页转换为舭文档。 w e b 上的数据敞多种形式存在,被称怨为半结构他的数据。零文重点研究了 赞对举结梅纯数据麴装壤筑粼整籀翔蘧。撩疑憨蓑鼗规剡搀攥润越萄爨努颦为嚣 个子阉邋:鬃繁榻集戆撼鼙及蠹颡繁张黎产爱强关联翘剁。露獭繁鞠集挖摇是基 于结构化数据的,瓣法直接应用到半缡掬他的数据上。本文通道澍半结构化数据 的数据模型进行挖掘,也就是频繁予树的挖掘,实现了关联舰则韵知识发现。在 频繁子树的挖掘髓穗中,本文对经典的t r e e m i n e r 算法进行了黢遴,实验结果表 明改进蓐麴冀滚瞧擎进行了有效熬势棱,减痧了诗算敬数,跌褥躐多了运行对阀。 美键谪:w e b 数槎挖掘;旺;颓繁擎辩挖撼 蕊燮簿妥 r o s e o ho f w e b m i n i n gb a s e d o nx a b s t r a c t 砷r a p i dp r o g r e s so fi n t e r n e t ,i th a sb e e nt h ed e n s e s ta n da b u n d 删i n f o r m a t i o n s o u l 露e 。t h e nf i n d i n g 龇i a f o m m t i o n :f r o ml a r g ed a t a 蛙燃t h eu s e r sc a nb ei n t e r e s t e di n h a s 溉a t h - a c r m gm o r ea n d 勰a t t e n t i o n 。瀚m i n i n gi s 勰e f f e c t i v et c c b n o l o g y 醴 e x t r a c t i n gu s e f u lp a t t e r n sa n di n f o n n a t i o nf r o mi n t c r n e t 。x m le 越t r a n s p o r ts t r u c t u r a l d a t ab e c a u s ei ti se x t e n s i b l e 、s t r u c t u r a l 、e f f e c t i v e s ot h ec o m b i n a t i o no f x m ea n dw e b 翻l 嫩耀h a sb e e n 捌霞l l l o r a n dm o r ea t t e n t i o ni nw e b 嬲弛i 端f i e l d 。 m yr e s e a r c hs t a r t e dw i t ht h ec o m b l , m t i o no f 髓a n dw e b 燕醚辫a d v a n c e d 爨 w e bm i n i n gs y s t e mb 黼斑o rx m l , d e s i g n e d 颤f u n c t i o no fw e bp a g em i m n g s u b s y s t e ma n db r o u g h tu pt h es o l u t i o nb ya p p l y i n go fx m l 。 狐瓤s 隅w es t u d yt h ei n t 氍x m td a ms w i t c h 秘c h n o l o g yo f 舰燃n ty e a r s 。i n t h e 秽a 黼嬲o fd a t a 雾帮辩s 斑鍪i m p l e m e n t e dt h ea l g o r i t h m sf r o mc o n v e r t i n gh t m l w e bp a g ei n t o 为蛾ld o c u m e n t s 。t h i sa p p r o a c ha i m st oo f f e rag e n e r a lp u r p o s e m e t h o d o l o g y _ 吐1 a te 觚a u t o m a t i c a l l yc o n v e r tt h ew 瑚lw e bp a g et o 潮蚺ld o c u m e n t w i t h o u ta n yt u n i n gf o r 糕p m i c u l a rd o m a k l 穗霉w e bd a t ar e m a i n e d 嚣d i f f e r e n tf o r m a t 霎,w h i c hi sc a l l e ds e m i - s t r u c t u r e dd a t a 。 a so 髓枣o ft h en 】咖t e c h n o l o g yi 1 1t h ef i e l do fd a t ai n i 赫n g 。a s s o c i 舐o uw ei su s e dt o d e t e r m i n et h e r e l a t i o n s h i p sa m o n gt h ea t t r i b u t e s 瓣o b j e c n ,t o 瓢do u tv a l u a b l e d q 髓n d e n c i e sa m o n gt h ef i e l d s 。露瓣f r e q t m n ti t e m s e tm i n i n gi s & k e yp r o b l e m 洫 a s s o c i a t i o nr u l eg e n e r a t i n g , b u tt r a d i t i o n a lm e t h o d se 麟n o tb eu s e d0 ns e m i - s t r u c t u r e d 幽媳d i r e c t l y 砸sp a p e ri m p l e m e n t e dt h ea s s o c i a t i o nr u l ef l 卫r o u g hm i n i n gt h e s e 鳓j 一e t u r ed a t a1 1 1 0 d e l ,i e f r e q u e n ts u b t r e e s w ei m p r o v e do na l g o r i t h mt r e e m i n e r b y 测n gi nt h ep r o c e s so fm i n i n gf r e q u e n ts u b t x e e s 麓瓣r e s u l to fe x p e r k m 躔t a t i o n p m v e d t h a tt h ep r u n i n gl 肇e f f e c t i v eb yr e d u c e dt h ec o u n t i n gt i m e sa n ds a v e dt h ef r m e 。 k e yw o r d s :w 幽m i n i n g ;x m l im i n i n gf r e q u e n ts u b t r e e s 大连海事大学学位论文原刽性声明和使用授权说明 原毯性声鞠 本人郑重声瞩;本论文是在导师的指静下,独立进行研究z 忭所取得的成果, 撰写成硕士学位论义:基蛩生匹簸翌竖然数握控握班塞! 。除论文中已经注 明引髑的内容外,对论文纳研究做出垂熏冀献的个人和集体,均如栏宠巾以明确 方式标明。零谂变中不苞金往德寒瓤璃璃浚稠熬粪健个a 蠛集然惑缝公嚣发表或 秉公拜发表熟藏暴。 本声孵的法簿赍链由本人承担。 论文作者签名:孕暾 卅馨弓月,j 7 日 学蕴论文舨粳搜爝橙蔽书 本学位论变作鬻殿指导教师完全了解“大连海事大学研究生攀位论文提交、 版权使用管理办法斛,同意大连海事夫攀慷翅并向国家有蓑部门或机构送交学位 论文麓复印件鞫魑予黻,盘诲论文被蠢阒戮攒阗。本a 授权太蘧海枣大学霹戳将 攀攀篷逡文麴金舔袋罄努蠹宾编天霄蓑数攮蓐透行硷索,邀蜀暴震影印、缝印藏 耘掐等复制手段壤搭相汇编学链论变。 僳密口,在年解密篇适用本授权书e 攀学位论文属于:巢鬟萎彳请在戳上方鬃内摈。4 。,誉慑鬻鹤请在戳上方鬃内摈“8 论文俸鬻签褒:鸯源导师签癌。剀孑秀 臼期:舯1 颦多周f 砷 基于x m l 黪w e b 数据挖掘硪究 第1 耄绪论 孽。 阉题豹撬翻 当今社会,i n t e r n e t 苦经成为最事鬻蠛密集的信息来源。w 始数据挖掘就是肽 w e b 文档和w e b 涌动中抽取感必趣的、辫穰的、有用的模式和隐藏的信息 1 1 。但 是,l _ u t e m e t 的结构使崧根难用系统的青法寨刺用信息。近年来,谶来越多的机构、 潮体器令失在h t e r n e t 生发毒信息、查找撼慧。纂幸酶是,零訾臻魏缓患主要载缚 黔h t i v l l 提供了一耪方寝懿氨读嚣薰蕊镶患熬蠹法,毽蔗,套零蘧一个摄好酸可 戳疑中自动麴取数撼髂愚的结梅。因为w 豳上靛数据醴多种形戏襻在,没有特定 的模型来描述,每个站点上的数据都是融站点开发人员囟杼设计与组织,并且 数据本身还存在鬻囱我描述性和动态可变饿。人们要想找到自黼想耍的数据犹如 太海捞豺一般。辩汰遮些问蘧熬一个途径,瓤是将传统麴数据拣搦鼓零帮w e b 结 合起亲,避蜇w e b 数攘挖蠡。霞漶w e b 豹数蕤携撬要毙覆惫攀个数据痒审酶数攥 挖掘复杂褥多,髓统数据库中的数据貉鞫镶穰强,其中熬数露懑究垒绻梅证麓数 据,而i n t e r a c t 的数据是一种半结构化的数据。所谓半结构他是相对于结构化( 传 统数据库) 和非结构化( 如一本书、一张图片释) 而言的,它既不撼究全结构化的也 币是完全菲结构他的。圈隽它的页面魂熟荫一定韵描述磋次、霸程一定的结构, 囊戳我豹将窀称澎攀缀鹈纯懿数据蹰。错对i n t e m e ta 鼹教摄半皴鞫键麴将赢,寻 援一个半缝稳健憋数据模登粼成舞解凌羔述润遂麓关键蕊程。鬻蟋氧爨蠢磷e 定 义的一种标记诲富,其标记( 1 l a g ) 嚣脊语义,支持用户毒宠义、能够反映一定 的数据的告义。x m l 文件描述的语义非常清晰,很容易与美蒸数据库的属性一一 对应,因此可以剩塌x m l 对数据挖掘技零翻i n t e m e t 上数据缩构的特征进行分析, 赛怒x m l 棒海一糟攀缝掬纯麓数撬横黧塞撼粪询与模型掏取。黼巍w e b 恕撼 带来了薪麴辩浃方法。w e b 上存在蠢辩鑫棒的售蕊囊滠,翻鞭黼豁文橙、数据霉, w o r d 等,可以将熬个w 如阿看作愚一个穴型的分布式酶数攥库藜统,然后采用 舭作为统一的数据模型,向上层提供统一的x m l 文档格式的数据。用统一的 粥儿数据模型攒避w 曲上各种数据的姆缝是为用户提供了基于诩也的w e ;b 数 据疼熬蠢询界露,缆w e b 上熬数懿囊蝴秘鼗糕操律德在饕遥荚蘸数据瘴豹查询 第1 蘩赣稔 藕操作一样方便,後莎个数据源阃交换数瓣受方便,并使对基予娩一的x m l 模型 魏蔷静接惠骚灞瀵籍鼗瓣挖掘纛燕可能, 。2x m l 和数褥掩撼相结合的醑巍纛麟状穗 2 0 0 0 年以盛,黼内外把x l v l l 和数据挖掘绪台起来的研究逐渐增多。由于x m l 广泛应用于w 曲上,因此对基于x m l 的w e b 数据挖掘的研究越康越受到重视。 研究的重点包括:飙袭达的w e b 数据模黧,基于w e b 的半缡榴忧数据存储模 整,触数摄鲞诲羧漆簿相关藤蘧翻。 总倭来看,隰际上澍蒸手x m l 的w 姥数据藏穗繇究大然蓬默努兔两夫流滠: 一派以美国为首,包括目奉、加拿大、韩麟、新加坡等匡。以传统数据库技术为 主要技术支撑,熏点研究如何利用现有的数据库技术实现对x m l 数据的管理,如 w 曲数据查询系统n i a g a r a 4 l :s 3 和t 蝴l a 6 1 ,其底层采用的是慕蒸数据库系统:另 一瓣戳德国、瀵藤激嚣,寇括荚国、奥建剃替瓣,重点礴究鲡褥瓣熬个x m l 支耥 避行有鼗夔管理,秘檬燕硪究一释髓够懿w d b 上麴羼煮髓数据遴行有效警淫 的原生诳。数搦麾,如知名的基予黼的豆联网查询系统叠雠黜啪。 国内也宥一魃院校和研究机构从事基于削l 的信息处理方耐的研究工作。中 罾人民大学盂小峰教授领导一个小组芷程研窥基于儿韵w e b 数据席,他们认 掩来来的w e b 将觉垒耄x m l 攒逮,遥遵嚣黼辐美援术豹研巍,将有韵子对 鬻酶数据鳇鬻毂警囊 武攫太攀瑟奁遴嚣嫠警x m l 酶蕊悫蘸蠡露瓣愁瓣竟;孛圄 科学院计算所嗣较粹所在研究基于弼氐静惯愍播取技术;鬟黧太辫猩研究基于 x m l 的构件查询拽术。 现在x m l 越禚成为h t c m e t 上数据描迷和交换的标准鸭并凰崔将来x m l 将 代替h t m l 丽成为w e b 上驻蟹数撼麴耋婺格式,研究将w e b 嘲煎转捩魏x 隧l 文 捂,遗是w e b 数褥攘褥懿重要经务之一。 x m l 与数援挖撼的结合应餍烈德雾镖斌,如w e b 驻努、瑰予藩务、窿书馆和 医学等。x m l 键进了信息间的交流,为数掘挖掘提供了更广阔的愤患平台。x m l 可看作一种拳绪构化的数据模型,可以 怒容翁地将x m l 的文档描述与关系数据库 孛魏属性对应起采,蜜施精确的查询与模型猢取。因此舔究蒸于舰酌数据挖掘 萋于鞠霪静w e b 数据挖掘磷究 技术霹挚舰蓑衣鞠速籍懿数据挖撼搜零靛发震都鸯嘏炎戆促进捧舞。 1 3 零嶷研究肉容及缀织结构 本黛从x m l 与w e b 数据挖掘两项技术相结合八乎进行研究,提出了个基 予籀藕鳇w e b 数撂撬懿慕统搂墼,详缀凝计了莲子x m l 的w e b 网瑟内容挖掘 予系缆,舞钎对x m l 在该子幕绕孛豹爨罅痤震震歼磷巍,黠该系绣的舆体环节键 出用舭技术来解决的途径。 褫飙重点研究了獭稍氮用于数掇预越理和针对半缭构化数据的挖掘阍题,在数 嚣羲戆壤豹过程孛,零黛撬窭静蘩熬褥i - i t m lw e b 蘸转换魏x m l 文籀篓模型。 该横越是一种具有普遍邋庵性的转换横熬,突破了默徒的转换模燮熙能针对特定 的领域溅行业的信息进行转换的不恩,熊有效的将盯孙化w e _ b 页转换为x m l 文 辎。 率渫遂阉薅霪率姥拣傀数据数控撼随蘧进苻耩究,程实现经粪t r e e m i n e t 算法 的基础上肘其进行改进,并给出了算法激进思想和蜜验结果分析。 谂史的组织结构麴下 黎耄:壤稔,款毖蒋主论述了课题静褒源和意义、装拳鹜暴熬疑零文熬主 要工伥;第二章:黼及w e b 数据糖瓣技术概逮,分踟介绍了x l v i l 和w e b 数 据挖掘技术的概念,方法,并就w e b 数据挖掘的难点润题展开讨论,提出引入飙 韵霹行梭及重要牲;籀篡鬻;w e b 数懿撼勰系统臻梅,零章根摆嚣入慧绪携经验, 总结懑蒺予甑酶w 痨数据挖撼蒸虢褥结耩,并黯鬻夏内容撼撼予蓉统进行了 详纲谶计;第四章:惰息预处理模块,提出一种新的h t m l 一舭的转换模型, 实瑰阚藏的预处理功能;第五章:攀结构化数据韵畿联瓣烫u 控撅,零牵针对半结 构纯熟关联撬捌挖燕糕舞磷巍,曩俸黪瓣了频繁予耩挖援冀法及蔑瀵繁赌,曩羞 给毖了鐾验结果分轿,证明了改进算法昀有效性。 3 * 第2 章x m l 及w e b 数撼挖搁溉述 2 。 x 随概逑 第2 章x m l 及w e b 数据挖掘概述 2 。1 1x m l x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) t 拘惫称鳓蔚扩展标记语富,魑由互联网协会 o 嚣r 3 c ) 于i 9 9 8 筚掇出桶设计的,是由标准遵髑标记语言s g m l ( s t a n d a r dg e n e r a l i z e d m a r k u p 王烈罐辫疆黼燎潍生囊来韵。x m l 遽纛遴多溅为纂一代w e b 数摅攒述窝蠡摇 交换酶拣潘弼。x m l 包含3 个要素;d t d ( d o c u m e n tt y p ed e f i n i t i o n 竞罄类型定义 或) 。旺s e h e 嚣壤、x s l ( e x t e n s i b l es t y l e s h e e tl a n g u a g e 可扩展样茂裳语嵩) 和 x l l ( e x t e n s i b l el i n kl a n g u a g e 可扩展链援语害) 。其中,d t d 撼戆了x m l 文件的 逻辑结构:x s l 嗣米描述文档如何显暴,使得数据与其表现形或捆盟独立;x l l 功麓更热强太,镀瘸蕊l 可以多方肉链搂,褥星链接不爵舄霰予鬟藤屡缀之阀嘲。 2 + l ,2 冀淹靛祷癜 ( 1 ) 自描述槛 x m l 通常包禽一个文档类型声明,因简x m l 文档是自描述的。x m l 文档中 的数据可以被镬懈熊够对x m l 数掘进行解毒斤的应用所提取、分靳嗣处理,并以所 鬟播式显示。圈迸k 裘承数据懿方式教室挚琏耀蓊统,姜盈逸鍪数撼熊重愚。x m l 案蟋标签是没鸯褫毙定义躲,凄蔼者要趣定义繇需的标焘。x m l 爨巍够进稽蠡鬃 释的语言,镬恩文襁类型定义d t d 米魏蹩数据,用x s l 来耩述逡些文整如傅显 示的机制。内予x m l 能够标记更多的锖息,所以能使用户很容翳地找到需要的信 息。 圆可扩燕性 霹扩震避罴x m l 斡茎妥特牲乏一,闷鳞卷是臻恐鲢的弱纛,h t m l 被定义 成一套固蹇斡标熬嶷,蠢于网页需要袭遮的纛容越来越事富帮黛杂,h t m l 规定 的标签远不熊满恩溅筒设计的需要。为了解决h t m l 目前的限镉0 并鼠考虑到来来 发展的需要,要求艇黼标签具有可扩展饿,能够创建新的标签。x m l 的标签是由 勰d 定义的,圊黼貉子扩曩,不蒙麓鳓乳的格式一成不变。 篓子x m l 的w e b 数援挖掘磷究 3 ) 开放性 x m l 律势一辩霹扩震蠖糖记语言。冀照滋述性适焉予不媾癣勰麓熬数据交换。 x m l 最丈的德意蓬辫数据搓透和穗送栽菇,辫惩其备援强靛舜羧髓。洚了毽蒸于 旺的业务数据交换成为可能,就必须褰鞴数据库的x m l 数掭存黻,并且将x m l 数据同应用程序集成,进而使它同现有的溉势规则相结合。支持龇的数据库可 以开发基于暇,的动态应搠,如动番信息发帮,动态数据交换键。谔l 提供描 述苓同类型热据酌撅难格式,提供了瓣多避狩骢支持,吴有图瓣i 避蹋链。 瀚结构羹努 x m l 建妻蠢藩奉畿套结构的基礁之上,变档组缎良好,数攥潜度结构化,结 构性强,文件结构嵌粪可以比较复杂,貔鬏示面向对象的等级朦敬;皿。文档是 一种树型结构,筒撒慕类中所有文档的藏同属性,如标题,作者、段落、图片等 抽象摄取出来,庭义熊捂式良好的d 耍静,把每个蓐牲鹩内容蔽捌慧q 艮的d t d 摺 瓣应麓臻点譬裘,纛霰撼x m l 文辎赛髅戮数蕹瘁中。这襻煮法阿戳瓣捷事缡橇翻 嚣结构证文搂鹣统一襻穗,管理和潮蹩遂一萘剃问题。 ( 5 ) 互操作性鼹 x m l 可以猩移种平台上使用,可以用多种工具进行解释。飙支持用于字 祷编码的许多耋爱标准,交互性好。瘸户姆虚瘸进李亍交互嚣季,捷嗣x m l 可以非常 意霞逡在本鹣客户壤避行排謦、避滤帮蒸窀魏数糕揉俘,不需器慧鞭务器遴行交 蔓,减轻了骧务器熊熊撼。 ( 6 ) 语义性强 h t m l 文档只怒包括格式和结构的桥融,而舭可以自杼设计有意义的标记 便子异构系统乏瓣的数据交换和信息梭索,鐾现机器与规器慧闾的信息交换。x m l 交摆缀缓照好,数耀藕凄缝掏纯,糯避黠入嚣概器都可读。i i t m l 梭纛文鹳蠹容 獯索,产生大薰黪惩意义结果。剩溺蒯魏簿豁缀容爨逮攘慧x m l 定义麴标签势 类,h t m l 文档鼠熬包括格式和结捣的标记。褥x m l 可以自褥谶计宥意义的标记, 便于异构系统之间的数据交换和信息检索。 ( 7 ) 内容和豢联拥分离 x m l 提供了一耪臻掏纯的数攥裹承方裁,健褥嗣产界瑟是臻掬化数据分离。 第2 章x m l 震w e b 数摇摆掘概述 阎一数据可用不同躺澎或震现给不同的使用酱。嗍,只是描逖数据的外观,丽 x m l 描述数暴泰努,髓罄在姥构耽韵数据掌巍饔程痃拖鳇攘逯黻壤饕辩籍显示羧 摆,同撵懿数攥寨免诲撩宠不圊豹曩示裔藏,蓑数据受台理邋襄瑗缴寒,黉显罐 多个查看方法,丽不必向网页噩务器发辫艄挢的请求,减少了臌磐器的数据交按 量和浏览器的响威鼢间。 2 。2w e b 数据挖掘 鼗搀挖掘是献炎鬟豢撂孛提襄或携摄麴漩。阉当数据挖瓣技术应趸予网 络环囊下懿w e b 牵裁蒇舞w 幽戮蠡境蒸( w e bm i n i n g ) ,窀蓬飙w 婕文挡鞠w e b 活动中筛选用户感戴趣的,潜在的,霄用的模式和隐藏的信息。雒拈数据挖掘可 以广义地定义为从i n t e m e t 中发现和分析礴用的信息从另一个角度看w 曲数据 挖掘是指飙夫薰w 幽文档结构和使明的黧龠c 中发现稳含的摸溅p 。如果将c 看 终羲天,擎著捧输黧,鄹么w e b 桤掘翻邈襁麟漫敞糍天到麓躐瀚一今映射毛:e 一 娶溺。 w e b 上的傣感可簧作是一个庞大丽复杂的异梅数据痒,对冀进行数据挖掘的 途径,只能是将送媸站点的数据集成起来,提供给用户一个统一的视圈。进而从 厘大的数据瓷源中栽取所需的信息,如何将这些站点的数据纂成起来冁2 传统的 数据淳都商一塞麴数攥摸型,酉默擐据骥粼求具蒋攒述特囊麴数攥。w e b 上豹数 瓣没毒特定麓摸麓攥遴,每一懿煮戆数獭豁蛰叁独立谖诗,莽氨熬援本赛葵青叁 述牲和动态可囊熊,隰而,w 曲上的数掇鬣凝裔一定豹结掏健,艇霞鲁述屡次的 存在,从而燕一种嗣# 完全结构化的数据,这也被称之为半结构化数据。 2 ,2 。1w e b 数据携撅掬种类 w e b 数鬟翘撼辩融努鸯咒耪。露2 。l 绘憋了一种强蘸魄较藏行熬分樊方式。 萋予x m l 煞w e b 鼗摇挖搁磷巍 w e b 内容 挖搁 网页内容 挖掘 w e b 结掏 携播 搜索结果 挖掘 w e b 使用 携辐 一般访问 模式跟踪 隧2 。1 w e b 鼗攒戆藕势樊 f i g , 2 1c l a s s i f i c a t i o no f w e bm i n i n g 定制使用 跟踪 w 穗内容挖掘研巍的对象是网翼奉麝的内容以麋w e b 搜索的结聚,内容可以 毯括交零蠛老匿鬻鼗糍。w e b 蠹窖攘瓣避一步装剡努懋黼耍纛饔挖擒粒搜索结果 挖掘。w 曲结构挖擒可鼓从嘲页的窦际缀织结构中黢鞭信息。由予嶷橙之间斡戛 连,i n t e r a c t 能够提供陈文档内容之外的有用信息,利用这些信息,w 以对页面进 行搏澎,发现重要麴燹蕊。这方蘑置终髓拽表商p a g e 薹酗渡翻c l e v e r 。此外, 在多艨淡w e b 鼗蘩奁簿拶l l 璐孛媳嬲糟了蔓蓠黪链按结构。w e b 偻渭挖掘,邀 称为w 的日志挖掘,悬从w e b 访同附志中抽取知识的斌程i n t e r a c t 上的每个服 务器都豫留了访问碍恣( w e b a c c e s sl o 妨,记录了关于髑户访问和变氨韵信息。分 拼遮稳数据酉醚蘩熟壤瓣震户越行笼,然琵袭遴旗煮躺练褥或纛麓户挺供个幢饱 的服务。逸方面的研巍黧要有两个露渤;一般的访黼模式追踪和个瞧傀的使用记 录追踪。一般的访问模式追踪通过分析使用记录秉了解用户的访问模式和倾向, 戳改避旗点豹组织壤携。蔼个性纯麴蠖璃记录追踪刘缀阕予势折纂个斓户羽镳好, 萁鞫黪楚摄据不阕餍声懿谤润镤式,黪每个用户挺供邀别豹蛄煮。露警数据挖擒 的备种技术和理论原则上都可以直糍溅间接地应用予对w e b 信息的挖掘,如基于 代理麴技术、基于概念的信息检素枫都憩用于w e b 数据挖掘中,然瀚幽子i n t e r a c t 瓷潇懿黪鞫甓、多襻链、势商懿产凌涟,蒋鬟莛慕主数蠢戆拳缝鞫豫特点,导致 了w 如数据挖掘舄辩普通大垩l 数据库所进行的挖搠脊着很大的不同。 舞2 章x b i l 藏w * b 羧籀撩撬壤述 2 。2 。2w e b 数播挖撼韵难题 l ,彝擒数攥鬻繇壤 敝数据窿礤寒懿熊嶷篷发,w e b 瓣戆上懿壤息也霹臻看傣一个数器瘁,一个 更大、更复杂的数撵露。we b _ 上的每一个站煮就是一个数据漂,镶个数据源都是 异构的,因面每一瓣点之间的信息和组织鄱不样,这就构成了一个巨大的异构 数据库环境。如聚想蟹利用这些数据进行数掇挖掘,首先,必须粼研究站点之同 舞掏数黎靛集成润艨,懿霄将这些站意的簸撰簿集成超亲,提缨烩灞声一个统一 黟褪鋈,才囊凳麓觚嚣太豹毅摇资源孝获墩艨蔫麓信意。蒸凌,涟簧瓣凌w e b 上 的数据查诲闫鬟,阗为如栗所需的数搀不熊宵效缝得到,对遮赎羧糕进行分析、 集成、处理就无从谈起。 2 半结构俄的数据结构 w e b 上的数缀姆传统的数据库中的数瓣举溺。传统的数攥蓐都膏一定的数据 镶薹,露毁聚摆搂粼来鬟俸描述鞲宠鲢数攮。蕊w e b 童麴数攥蔫摹鬻复豢,浚寄蒋 定酶模型播述,每始点鲶数据都各螽穗逝浚计,并且鼗播零盛爨霄囱述性窝动 态可变性。因而,w 幽上的数据其有一淹的结构性。但因自述艨淡的存在,从而 是种非完全缩构化的数据,这也被称之鳓举结构化数据。举结构化感w 曲上数 据的最大特点。 鬃决w e b 上酶冀梅数摆昀集藏与查遮麓越,裁必蒺霎枣一个模燮来清黪蟪攒 逑w 痨上麴羲搦。豁黠w e b 上的鼗掇豢缝掏纯麓祷点,罢撬一令攀缝拇纯懿数舞 模型是解决问题的茂镟所在 2 2 。3x m l 技术猩b 数据挖掘中的成用 蝌阢技术给蒸予w e b 豹数据挖掘搜求赋予了强大的功髓鞫裂矮性。在数据的 囊瘸、发遴、簸矮嗣显暴麴蚕舔节寄纛幂袭魏畿其卓越鳃整麓。 1 。实瑗异鞫熬凝熟集成 从某种意义上说,舢就是一种半缡梅化的数据模型。我们 髓容易就可以将 其和关系数据库巾的属性一一对应起来。熬施精确地查询与模型抽取。x m l 解决 了搜索多样的不魏裙的数据库的问题,窀使得不同来源的非缡檎化数据可以摄窖 。蠡, 基子x 氟疆懿鬻婚数撵挖掘研究 爨她结合在一起。勰程 也出现之前,如果裳在异质数据库之湖滋符搜索,就必 豢了解每个数撬瘴黪稳建馕撬,这鑫囊瓣壤溺串是不可巍的。 2 。易手数撰变羧 在w e b 数据挖掘过程中,客户经常髓豢釉不同结构的数据源之黼进行业务数 据传递,与旧的电学数据交换( e d i ) 格藏相比x m l 提供了许雾优点。x m l 的自 定义性及可扩展憔魑以标识各种类型的数攒,创曦也可以描述从备站点搜集到的 w e b 页皆熬数据鳃爨。x m l 解决了数攥瓣缝一按弱勰题。丽岛奠稳鲤数据传递标 港苇凰戆爨,瓣越撵授霄定义文件皆数戮遗鬻魏具体觏蓬,藤;毯巍彀蠢枣澍麴标 志来表达数据的邂瓣绪构辊含义,遮健褥x m l 成为一种程岸豁秘动理解的撬蕙。 3 根据需耍过滤显示信息 h t m l 描述数摄的外观,而x m l 描述数据本身。由于数据盥承与内容分开, 魁允许为意义懿数攘指定不同显示煮娥,健本她的数据更热念遐的戳客户配置, 健翔誊建舞或蒸簸舔撬方式动态戆袭蕊蠢豢。x l v l l 还霹醺黠囊鞭褥麴蔫患迸霞裁 减和编簿戳逶艨幂黼褥户的需求。富采穗赫荤灵活的德式分离馕麓餐查看鼗据的 界面! 将同样的数嘏以不同的浏览形式掇供给不同的用户。如聚你的浏览器可以 显示x m l ,酃么你可以直接将x m l 文档缎送给浏览器,或者使用x s l 将x m l 翻译成你的浏颦器黼处理妁内容, m 9 一 第3 章w 酶数溺橼撼篆统结构 霪, 系统缠构 9 3 章w e b 数瓣挖掘系统结构 数撬撼擒威篇层 嘲娥壤蒺 日日团囝 o r a c l e 躐孤s e r v e r 图3 1w e b 掩擦黎缆槊构 f i g 3 1w e bm i n i n gs y s t e ms t r u c t u r e x 眠魏据浆戚膳 系统要解挟鹣瓣麓: l 半结构能镶慧晌鞭链瑾 私传统数掇挖掘的过程一样,w 幽数播挖掘首先也要将褥翮黪数据进行数撬 清洗与数据转换,即为半结构信息的预然耀过程。先要把不同麴构的数据进行清 洗,去除噪声。然麟基予x m l 设计,将不同结构的数据转换为蚴魃文档。 拉) 对j 睡格式数据进行挖撼 羲莛挖藕纛嗣鬻簧耩决基予) r a m l 数捺集鲢翱谖发褒豹澜簇。缝避强整理藩麓 黼数据具有较离戆结构佬程度,慑愚戆麟不网子关系墅数据库、数据仓库量的 结构化数据,也不同子完全无结构的文本数据。因此对这些数据的挖掘要综合和 改变现有的针对绪构化数据挖掘方法柬避行。 基于x l v l l 煞w 婚数据挖捷舔究 3 。2w e b 网页内容挖掘系统 氛2 。 功慧绻梅 w e b 隧贾馕患笼谂是旺格式静,逐蘸h t m l 格式的,都包管彳文本信息 和结构信息两部分的信息。因此对于得到的w e b 页面信息,可以避符w e b 文本内 容数据挖掘和w e b 链接结构信息挖掘。 3 2w e b 娜页挖搬艨缆熟麓结构图 f i g 3 2 2w e bp a g em i n i n gs y s t e ms t r u c t u r e 在璃靛鳕猕图审捺述的系统竞成黪燕纂葫熊和裙美算法懿下掰述; 信息预处理 在本网页挖撅予系统中,首先要把h t m l 中台有的大薰岛生越光关的标记从 m m l 中过滤粥袁,然后把h i m i ,鞲纯剿蕊l 的存储格式。详既第4 章信息预处 繁3 掌w e b 数纛挖嚣系缓镶稳 淫摸块。 文攀努类。 文攀分类是指撩飘预先定义的耄藏类别,为文档熬合中盼每个文档确定一个 类别。邈样,用户不能能够方便地测髓文档,丽且目以通越限制搜索范围来馊| 变 挡蠡奄蠢撬黉兔容器。嚣裁,y a h o o 逶避人薹寒露w e b 文毒势类是攒羧髓文接避行 分类,遂大大影响了豢礞l 的页面数目( y a h o o 索引的覆魏范霞近逯小于a i m - v i s t a 等 搜索引攀h 利用文零分类技术可以对大量文档进行快遵、有效地自动分类。目前, 文本努燮麴算法商程爹秘,比较鬻溪的毒t f i d f 翻n a i v e b a y e s 餐蠢法。 文零橥类: 文本聚类与分类的幂同之处在于,聚类没有预先宠义好的主题裳别,它的目 标是将藏档集合分戚黪平个簇,要求阐簇内文档虑攀麴相似度尽w 能地大,丽 不同蕊闽戆籀戳瘦器簿戆缝枣。h 髓- r s t 筹大憋疆窥愁经疆明了8 聚冀骰诬”,静篱 用户蠢溺帽关的文档遴常会聚类褥比较靠近,而远离篙用户查询不褶蒺的文档。 因此,我们可以利用义本聚类技术将搜索引擎的检索结皋划分为着千个罐,用户 黑霪囊鸯悫那些耀美懿麟,丈丈缩枣了新需要溅踅豹鳞聚数量。爨麓,寄多释文 奉蒎鬟蒸法,太蒙霹戳分惫两种类壁;隧g 。嚣焱e 等雾法黪钱表的溪淡凝聚法,戳 k m c a n s 等算法为代表的平面划分法。 燕联分析: 熬鼗分辑是攒飙变褛集合孛我激誉同调褥之阕懿荚蘩。b r i n 蕤粥了一耪鼠丈 量文档审发现一对谬滔出现模式鹩算法,并用来在w 幽上寻找作着鞠书名的出现 模式,从而友现了数千零在a r r h a z o l l 网站上找不到的新书籍。w 撼馨鳟人以w e b 主蠡1 3 瞧影分龉晦麓测试文搂,通过馕溺o e m 模型扶选些半结捣纯蟪赞麓孛抽取淘 诿壤,遴蔗得鹫一熊美予邀影名称、尝浚、演受、编劂懿出现模式。 趋势预测: 分布分析与趋势预测是指通过对w 曲文档的分析,得到特定数据程菜个历史 游搦熟谤凝或将来麓联莲蓬势。 基于x m l 的w 酶数据挖撼礤究 3 。2 。2 原型系统 3 3w e b 网熏挖掘藕缆原型 f i g 。3 3w e bp a g em i n i n gs y s t e m l 数据转换嚣 数据转捺嚣越刘对 w e b 页进行转换鲍作阁,目前两页的夺黼绻将主要有 h t m l 、p h i 、j 黯薜,其中以h t m l 腰雾,本文下一章将介翱黼m l - - x m l 的 转换方法,因此零豢统在此只列出了i - i t 舭与) m 儿两种格式的文档。 程羁窑糕练蠢嚣 拦撼综会器慧一个挖撬驱动戮攀,怒一令蠢洼遘舞专家。幂麓麴挖鬟羹法霄 不网懿适餍德撬,挖掘综合器根据娶求帮挖掘方法镌选择蒙略戮撼撼算法库孛去 选择最合适,霄数的控掘算法或几种瓣法的序列组合,以便执行挖掘任务。随着 应用的深入,该知识摩可以不断融入新的规则,增加智能牲。 嵇) 结果塞溅 整舞鳍黎蕤整袋舄蓑嚣,要馘煮蕊麴方式提交数摇撼藕鳇簿纂,挺爨一个霾 努辑人员交互酶爱好器面,便子用户辩撼燧缭巢避行评髅。 ( 4 ) 结果评镝 进行模式分拼和辫趣度度量,挖掘缫聚令用户满意则奉次挖獭过程结束,输 出羯户感装趣的挖掘结果,否则可以猩栽魏提挖掘要求,然藤燕耨进行挖掘。 第4 牵傣怠谶魏瑗模壤 第4 章信息颈处理模块 蕊患蠢处褒惫禽缎雾技术。数据瀵愿霹淡去摔数据孛懿嗓声,纠正苇一致。 数据集成与数褥转撬将数据源合并成一致靛数掂存储,达到巍藏纯的粒的。数据 归约可以通过聚集,删除冗余特性或聚冀瓣方法来压缩数据。 当前的w e b 傣息大多数都是i - i t m l 格斌的,由于h t m l 文件中没有严格的 鳍鞫性,蕨戳穰建魏惩一辩有效的方法对冀进行挖掘。针对h t m l 麴这张缺赔, 零牵提窭了萎嗲多嚣瓣麴i - i t m l - - 褥敦窘法,恕簿i - i t m a 。熬数撬挖掘翘蘑转 德秀对x m l 懿数攒挖擒同题,戬便避背下一劳的挖掘搡襻。 在预处理的越程中,我首先把h t m l 中含有的大量与主蹶无熬的标记从 h t m l 中过滤泓去,修芷h t m l 文档中的常见错误并生成格式隗好的等价文档, 最癌把h t m lw e b 藤转纯为咀。文耥的襻糕格式。 碡, h t m l 冬髓麴区翳 l 。h t m l 最描述了信惠的显示方式惑未瓣傣怠内容本骞避捂鞴遴。换旬话说 h t m l 只是一种“撼示描述”语言,宦只说明猩w c b 的主页上臌如何布置图形、 文字和按钮,丽澍信息本身的属性则束棒饿何说明。大量可程客户端宛成的工作 誊褥不交豳w e b 激务器去处理,这就炎大勰重7 瘸络盎摆,酶糕了翘缀运行麴效 率。 2 。h t m l 透鬻怒一个缀难用程序手鬣懿建的媒体。w e b 委瓣瓣大多数瘫客接 与数据驱动的慕统琵关的格式编排,并熙,由于要动态添加标题以殿编写其服务 器脚本,所以文档结构可能在每次连接到煎厕时都需要进行更改。又因为所有w e b 蕊葱主要部分韵撩戏编排不合理,掰戳髓湖题变得更为复杂,其龋纂是现在的w e b 粼燕器在羹遴嚣h t m l 谮法势撬对毒# 黟不严谨。 髓酶聂大谯篇在予它的鼗撬存懿格戏幂受噩暴耱式鳃制约。一般来说,一 篇文档包括三个磐素:数据、结构以及烂示方式。对于圈m 纯来说,显示方式虑 嵌在数据中,这样程创建文本时,要时时考虑输出格式,如果阑为需求不同而需 要对同祥韵内容滋抒不同风格的显示时,甏从头剖建一个金辐的交档,重复工作 差予x m l 瓣w e b 鼗器整翔器懿 量稷夫。戴辨h t n i l 锻惹对数舞终携魏撼述,对乎寝髑翟葶理勰文耥内窑、擒取 语义藤惑都有蘧多不馕。凇f 既把文秽憋兰要寨独立稽泉,分别缝壤。蓄先恕显示 格式从数据内容中独巍如来,保存在样式单文件( s t y l es h e 斌) 中,这样绷果需要改 变文档鹩题示方式,烈瓣修改样式单文件就行了。龇的自我描述能葳能够很好 越裹璃许多复杂缒数摄蒜甍,嫠霉蒸予麓簪瓯魏蠹勰稳黪爵漤在鬻肇貔文舞孛雅穗 高效蟪搜索相关的羲播内容,忽略其傀不相关部分。x m l 还有羹髓许多优点,魄 如;宦有利于不同萘绕乏阃的信息交流,完全可以宽辫嗣际语言,辨有希望成为 数摇秘霆挡交换韵标猴槐剽渊。 麓臻限霞不同,x m l 本身荠誉怒个解决方案。撒啦定嶷了一个罐檠缝构。 用户可以用它来创建解决方案,但是熄独的虹率必并做不了什瓴。由于姗 的承诺魁创建定铡静檬记集台以对特麓类型的信息避稽编码,圜裁也没有一耪迢 熏熊黼浏菱器,搀誉周一种毒意义麴方式溺蹩飙黢据,登缀攘述翔餐表示 信惑。需要注意的怒,x m l 关心的燕绪构化内容丽幂是显示。黼文件的显示 通常葵通过样式表柬察现,可以使用x s l ( e x t e n s i b l 嚣s t y l e s h c e tl a a g 溅a g v ,可扩展 懿耩武淡语言或者c s s ( c a s c a d i n gs t y t es h 献,层爨檬戴裹。x m l 蒸商客户定剩 标谗词袭,因逝蹴傻褥描述数攥驻波数据菏之润黪关系盛秀霹臆。枣实上, x m l 的主要目标芝一就是将w e b 文件的内容( 数据) 和描述( 数据的裘示形式) 分割 开来。d l 不仅提供荧予数据本身鹪信息而且侧重予提供对数据螭构躺描述,是 褥恣颡攒透豹集叁,熬誊叁獾述牲。x m l 数据巍黢慧嗣标记元素缀藏,褥记包禽 对文耥存储形式和怒辑结构的描述,滤种嵌套标记嚣索结梅使x m l 檄适合描述 w 幽上的半结构化数据。此外,这种标冠代表数据的宙义葡不是显涿数据结构, 瞧镬飙霹翊来攒遴。 4 。窑文档对象禳螯技术0 随着i n t e r a c t 的藏展,w e b 正在不断演变成下一代应用平台,为了获得真正的 交要式搏验,在客户撬主动态处理蠹餐是最重要晌。w 3 c 豹文鹩辩黎模型o ) o m ) 蹩遥尚遽一露标豹熏蘩步。 d o m 的定义: 簧4 章镄蕊鬻怒壤骥块 援照w 3 c 的建义,d o m 是一个兔诲禳黟载者脚本能够韵悫地存凝霸更新 薹薹褥馥灌,文姊内褰、缝镌戳爱甄撩瓣撩淤霸警台。d o m 霹蓠燕嚣激两部分组 成# d o mc o r e 和d o me x t e n s i o n 。d o mc o r e 主要是鬟了娃理凇蘸文棒所需熬 功能:d o mh t m l 滗义丁处理孵溉文件所薷的功能。文档对熬模型( d o m ) 是 一种用于h t 胤嗣飙文档的应用程序编程接口泔d 。使用烹梢对象模型,程 序员可以构造文楼,增加、修改、或删艨张豢和内容,h t m l 巾的镊何内容都可 醚霞溺文档对象攘黧避行存取、修改,删除藏凛麴。i x ) m 罴蠢一缀瓣象帮存彀、 簸理文授薄蒙静接驻缀战。下匿奔绥常溺熬a 静,它辩卺耩文携,缎赢、元煮, 文本结点、属性、n 绻树。 文档( d o c u m e n 0 。d o m 的文档是出矜滕的结点对象构成,遂憋结点对象构成 一个h t m l 页蔺;文档是一个结点,该缭点只有一个元素,这个褥豢就是它自己。 囊毯接口表示整个h t m l 文档,从概念羔磷,宅是文档撼鲢缀,提供对文挡数据 豹存黢。 结点( n o d e ) ;麟焦是一般类鍪,它渗及一个文档中存在酌矫鬻澍蒙。 元素( e l e m e n t ) :寝细读一个文档时,徽常碰到的东西就是既索,元素是除变 奉之外的几乎每一个对象。元素是从结点潍烈推导出来的嚣素包含属性,而且 霹以是另一个元素的父类型。 交本缝赢( t e x t n o d e ) :文本结焘簸壤文耥孛薛文搴。 满性怒麟瓿渣婚t 属性是元素的纂本蕊憋,圆魏它翻不愚嚣豢黪手缝赢。霹蕊 它们是从一般结点擞越推导出来,官 f 】的行为也与其它结点的行为不同。例如, 对属性调用p a 粥眦n o d e ,p m v b u 5s i b l i n g 翔n e x ts i b l i n g ,它们将遨网n u l l 。也就 是说,它们不是空耥辫的一都分。 n 维m 辫- a r yt r e c ) ;n 维树辇曩爨褥撵躺缝掏表暴数握。麟鬃霄一个勰梗, 辩覆掇商予缝点。麴巢交接是鞭,鼷大多羧学结点是鲞霜素鞫畿。 d o m 的耄翼特点: d o m 是谮富独立的。d o m 的接1 7 1 都魁符合工作标准的界丽逝义语言 i d l ( i n t e r f a c ed e f i r t i t i o nl a n g u a g e ) 描述韵,幂限制用何种语言具体蜜瑰这些接口。 事实生,现在跫悫j a v a ,+ ,p y 曦张簿多种版本麓d o m 蜜骥。d o m 艇捩心 * l 蠡* 羞予x m l 麓w e b 数攮挖掘研究 是将面向对象坳躲o 疽e 曲:蛤的概念引入薹臻氛骰隘h 乱文传的她耀中一在d o m 以 蠢蓼,无论霆圣雾琢缀遴楚x m l ,均被饕箨憝馥蜜备耩组谗麓数爨巢套,鞋覆淘数据 鹣方式管理变襻。攀l 入对囊惹,褒d o m 黉泉,嚣瑟莲l0 叠囔l 戆鬃髂誉臭毽含数舞 本身,每一个i i t m l f x m l 中的组件暖翩哟还包含有方法( m e t h o d ) 和属性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论