




已阅读5页,还剩60页未读, 继续免费阅读
(计算机应用技术专业论文)web日志中序列模式挖掘及其应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京工业大学学位论文独创性声明及使用授权的声明 一、学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得南京工业大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡 献均已在论文中作了明确的说明并表示了谢意。 研究生签名 扭盔翌日 期:鲨尘! 铲 二、关于学位论文使用授权的声明 南京工业大学、中国科学技术信息研究所、国家图书馆、中国学术期刊( 光 盘版) 电子杂志社及清华同方光盘股份有限公司有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文 档的内容和纸质论文的内容相一致。允许论文被查阅和借阅,可以公布( 包括刊 登) 论文的全部或部分内容。论文的公布( 包括于登) 授权南京工业大学研究生 部办理。 研究生签名 导师签名 日期 顿上学位论j 摘要 随着i n t e r n e t 的迅速发展和不断的普及,w e b 日志资源越来越丰富,如何分 析和利用这些海量的数据是当前突出的问题。w e b 日志挖掘是网络信息处理的一 门新技术,也是数据挖掘在i n t e m e t 领域的一个重要应用。伴随着i n t e m e t 的迅 速发展,w e b 同志挖掘在电子商务和个性化w e b 等方面有着广泛的应用。通过 挖掘w e b 日志可以改善网站的组织结构,监控服务器的工作情况,改善w e b 应 用的系统设计,为用户提供个性化服务。另外,w e b 目志挖掘中通过分析挖掘用 户访问路径的结果可以改善站点的设计,改进市场决策。 w e b 日志挖掘就是运用数据挖掘的思想来对服务器目志进行分析处理,因而 可以实现上述的各种功能。但目前现有的用户访问路径挖掘算法大多数只是直接 利用挖掘布尔关联规则频繁项集的a p r i o r i 算法,而没有很好的考虑如何结合访问 路径的特点来改进算法以得到更好的挖掘结果及挖掘效率。本文在研究数据挖 掘技术的基础上,重点研究了w e b 日志挖掘的特点、方法及相关技术。讨论了日 志预处理的过程及几种有效的数据预处理方法,实现了分割服务器日志为单独的 用户和用户会话过程。关联规则和序列模式是研究和发现事务数据库中数据项之 间的相关性的方法。本文深入研究了关联规则挖掘技术和序列模式识别技术,并 结合二者的优点,实现了基于关联规则的序列模式识别算法。算法可以从w e b 服 务器日志中挖掘出用户信息和数据信息,有效地识别用户访问模式。并将w e b 日 志挖掘技术应用于电子商务领域,介绍了几种应用方向,重点研究了改进站点设 计的方法。 实验证明,w e b 日志挖掘技术可以有效的识别用户访问模式,为网站管理员 和商家决策提供宝贵的信息,实现网络个性化服务。 关键字:数据挖掘w e b 日志关联规则序列模式电子商务 垒堕! 坠盟 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n ta n d a p p l i c a t i o no fi n t e r n e t ,t h er e s o u r c eo fw 曲l o g i sb e c o m i n gm o r ea n dm o r ea b u n d a n t t h e p r o m i n e n tp r o b l e mi sh o wt oa n a l y z ea n d u s et h eg r e a ta m o u n to fd a t a t h ew e bl o gm i n i n gi san e wt e c h n i q u eo fw e b i n f o r m a t i o np r o c e s s i n g ,a n di ti sa l s oa ni m p o r t a n ta p p l i c a t i o no fd a t am i n i n gi nt h e i n t e m e td o m a i n w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e t ,w e bl o gm i n i n gi s w i d e l y a p p l i e d t oe - c o m m e r c ea n d i n d i v i d u a f i n gw e b w eo a ni m p r o v et h es t r u c t u r e so fw e b s i t e sa n dt h e s y s t e md e s i g no fw e ba p p l i c a t i o n ,m o n i t o rt h es e r v e ra n dp r o v i d e i n d i v i d u a ls e r v i c et ot h eu s e r s i na d d i t i o n ,w e bl o gm i n i n gc o u l do p t i m i z et h e d e s i g n o ft h ew e bs i t e sa n di m p r o v e st h ed e c i s i o n - m a k i n go ft h em a r k e tb ya n a l y z i n ga c c e s s p a t ho ft h eu s e r sw h ou s et h ew e bm i n i n g w e bl o gm i n i n gi st ou s et h ei d e ao fd a t am i n i n gt oa n a l y z ea n dd e a lw i t ht h e s e r v e rl o g s ,t h u sw ec a nh s et h e s et e c h n i q u e st or e a l i z et h ea b o v ef u n c t i o n s h o w e v e r , t h ea l g o r i t h m so fm i n i n gu s e r sv i s i t i n gp a t h su s e dp r e s e n t l ya r em o s t l yt ou s et h e a p r i o r ia l g o r i t h mw h i c hm i n e sd i r e c t l yf r e q u e n ti t e m s e to fb o o l e a na s s o c i a t i o nr u l e i t i g n o r e sh o wt oc o m b i n ew i t ht h ef e a t u r e so ft h ea c c e s sp a t ht oi m p r o v et h e a l g o r i t h m s ,w h i c hc a ng e tb e a e rm i n i n gr e s u l t sa n dm a k em i n i n gm o r ee f f i c i e n t , b a s e do nt h er e s e a r c ho fd a t am i n i n gt e c h n i q u e ,w ef o c u so nt h ef e a t u r e ,m e t h o da n d r e l a t e dt e c h n i q u e so fw e bl o gm i n i n g t h ep r o c e s so ft h el o gp r o c e s s i n ga n ds e v e r a l k i n d so f e f f i c i e n tm e t h o d so f d a t ap r e t r e a t m e n ta r ed i s c u s s e d ,a n dt h ei d e n t i f i c a t i o no f t h em a n yu n i q u eu s e r sa n du s e rs e s s i o nf r o ms e v e rl o g si sr e a l i z e d a s s o c i a t i o nr u l e a n ds e q u e n t i a lp a t t e r nt e c h n i q u e sa r et h em e t h o d st h a ts t u d ya n df i n dt h er e l a t i o n s h i p i nt h ei t e m so ft r a n s a c t i o nd a t a b a s e i nt h i sp a p e r ,t h em i n i n gt e c h n i q u e so f a s s o c i a t i o nr u l ea n ds e q u e n c ep a t t e r nr e c o g n i t i o nt e c h n i q u e sa r er e s e a r c h e d ,m o r e o v e r s e q u e n t i a lp a t t e mr e c o g n i t i o na l g o r i t h mb a s e do na s s o c i a t i o nr u l e si sr e a l i z e dw h i c h m a k eu s eo ft h ea d v a n t a g e so ft h et w ot e c h n i q u e s t h ea l g o r i t h mc a r te x t r a c tt h e i n f o r m a t i o no ft h eu s e ra n dd a t af r o mw e bs e v e rl o g ,a n dc a ni d e n t i f yt h eu s e r s a c c e s sp a t he f f i c i e n t l y t h ew e bl o gm i n i n gt e c h n i q u e si sa p p l i e dt oe c o m m e r c e j 鲢燮坠 d o m a i n , s o m ed i r e c t i o n so fa p p l i c a t i o na n dt h er e s e a r c ho f t h ea l g o r i 血mw h i c hc a n i m p r o v ed e s i g n so fw e bs i t e sa r ee m p h a s i z e d t h ee x p e r i m e n ts h o w st h a tt h et e c h n i q u e so fw e bl o gm i n i n gc o u l d e 龉c i e n t l y e c o g n l z eu s e r sa c c e 8 sp a t h ,a n dv a l u a b l ei n f o r m a t i o nf o rt h ew e b s i t ea d m i n i s t r a t o r s a l l dt h e m e r c h a n t s d e c i s i o n m a k i n gi sp r o v i d e d ,w h i c hr e a l i z et h es e r v i c e o f i n d i v i d u a t i n gw e b 1 ( e y w o r d s :d a t am i n i n g ;w e bl o g :a s s o c i a t i o n r u l e ;s e q u e n t i a lp a f t e m ; e c o m m e r c e 顾士学位论文 1 1引言 第一章绪论 i n t e r n e t 的迅速发展,在给人们带来丰富信息和极大便利的同时,也随之产 生了一些亟待解决的问题,个性化的信息服务和构建智能化w e b 站点便是其中 之一。一方面,不同层次、不同爱好的浏览者需要个性化的信息服务:另一方面, w e b 站点的经营和管理者为提高网站的声誉和效益,需要了解客户需要什么和想 做什么。其中包括根据大多数客户的共同兴趣,开展有针对性的信息服务,以及 对特定的用户开展个性化的信息服务和电子商务活动。 直接或间接解决这个问题的途径之一就是将数据挖掘技术应用于w e b 服务 器曰志的挖掘。从用户在w e b 上浏览行为数据中获取用户的行为模式,根据用 户的行为模式改进站点的设计和服务。开展个性化信息服务和有针对性的电子商 务活动和构建智能化w e b 站点。 面对巨大而复杂的网络系统吼及活鲡爝海的信患资源,研究入贯将传统的数 据挖掘技术和w e b 楣结合,进行w e b 挖掘,从半结构或无结构的w e b 页两中, 以及使用糟的活动中,抽取感兴趣的、潜在的模式,分析、研究,并加以利用。 万维嬲是一个蓬大豹、分布广泛豹、全球性毂信患服务中心,它包含了丰塞 和幼态的越链接信息及w e b 页面的访问和使用信息,这为w e b 挖掘提供了丰富 翁瓷嚣。偿楚对予w e b 送行有效瓣资源帮麓浚发璃藤谗具有强大戆魏凌凌l “。 1 ) 对有效的数据仓库和数据挖掘而畜,w e b 似乎太庞大了。 2 ) w e b 页面的复杂豫离于任何传统的文本文磷。 3 ) w e b 是一个动态性极强的绩息源。 4 ) w e b 面对的是一个广泛的形形色色的用户群体。 5 ) w e b 上的镶愚只煮缀小懿一部分楚橱关或有埂匏。 这些挑战已经推动了如何高效并且有效地发现和利用因特网上资源的研究 王 乍。w e b 挖摇怒一个委具有熬藏经瑟瀑越,宅实瑗对w e b 存取模式、w e b 结 构年规则的发现和动态的w e b 内容的查找等以实现网络的个性化服务,对用户 群体进行聚类和分类,改避站点斡设计等等,困诧,w e b 挖擒成了计算季兄工作者 第1 章绪论 研究的新热点。 w e b 日志挖掘有以下几条重要应用:能够监控服务器的工作情况;改善 w e b 站点的导航;改善w e b 应用的系统设计;提供各种分析报告;为电子商务 定制目标顾客;确定潜在的原始消息地址。此外w e b 同志信息可以与w e b 内容 和w e b 链接结构挖掘集成起来,用于w e b 页面的等级划分、w e b 文档的分类和 多层次w e b 信息库的构造。 例如:在i n t e m e t 电子商务中,客户浏览信息被w e b 服务器自动收集,并保 存在访问日志、引用日志和代理日志中。有效地对这些w e b 日志进行定量分析, 揭示其中的关联关系、时序关系、页面类属关系、客户类属关系和频繁访问路径、 频繁访问页面等,不但可以为优化w e b 站点的拓扑结构提供参考,更重要的是 还可以为企业制定有效的市场营销策略提供依据,帮助企业确认目标市场,改进 决策,获得更大的竞争优势。 w e b 日志挖掘是将数据挖掘技术应用于网络使用记录文件的分析中,以发现 用户的浏览模式,分析站点的使用情况。它可用于协助管理员优化站点结构、提 高站点效率、从而构造合理的w e b 服务器,提高用户的有效性。 1 2 数据挖掘技术 数据挖掘,英文是d a t am i n i n g ( d m ) ,鄹在一魃事实或观察数攥的集合中寻 找模式的决策支持过程,它是9 0 年代发展超来的- i - i 新科学,它融合了统计学、 数攒瘁、久工餐笼麓多令领域兹理论穗技零。数据羧壤技术黥提出为我翻携爨有 效识别出存在于数据库中的有效的、新颖的、具有潜在效用的乃至最终可理解的 模式捷供了可靠静科学方法。w e b 挖掘是麸数据挖攒发展瓣亲酶,楚褥鼗器挖掘 技术应用于w e b 。所以,我们对数据挖掘技术做初步的研究。 数据挖掘是和知识发现紧密联系在一麓的,因此它又可称为:数据库的知识 发现、数撂采掘、信息发砜等等。数据瘁知识发观( k n o w l e d g ed i s c o v e r yi n d a t a b a s e ,k d d ) 则是在1 9 8 9 年的箱一属k d d 专磁讨论会上被首次采用,用于 表示在鼗掇中知识发理熬广泛进程,著强调特残数撼挖撼方法筑“蔫层”应鼹。 这个术语强调了知识是数据发现的嫒终产品,并很快在人工智能和机器学习等领 域得戮了广泛瓣应髑。 顾士学位论文 知识发现研究领域知名学者u m f a y y a d 和e s m y t h 认为数据挖掘和知识发 现是有重要区别的两个概念 2 】。他们认为:知识发现是指从数据库中发现知识的 全部过程,而数据挖掘就是此处理过程的一个特定最为重要的步骤,并给出了数 据知识发现的如下定义1 2 】: 定义:数据库知识发现是识别储存于数据库中有效的、新颖的、具有潜在效 用的乃至最终可理解的模式的非平凡的过程。 这些学者认为:数据库知识发现是一个多步骤的处理过程,其主要步骤包括: 数据选择、数据预处理、数据挖掘以及对挖掘结果的解释与评价。整个发现过程 也不是简单的线性流程,可能包括了有限次的迭代,任意两个步骤之间有可能进 行重复和反复。这样可以对所发现的知识不断求精、深化,并使其易于理解l j j 。 数据库知识发现过程包括了特殊的数据挖掘算法,是应用数据挖掘技术析取知识 的个进程。因此数据挖掘是数据库知识发现中的一个最重要步骤。 数据挖掘是人们试图理解、分析和利用大量已经获得的数据的过程。那么什 么是数据挖掘呢? 其英文是d a t am i n g i n g ,有人将其翻译为数据开采,数据采掘 等。国内的学者们对它也有不同的定义,我们将数据挖掘定义为: 定义:数据挖掘是从大量数据中挖掘有趣知识的过程。 这里需要强调的是,数据挖掘的对象不仅是数据源,也可以是文件系统,或 者是其它任何组织在一起的数据集合,例如w w w 资源、数据仓库等。 1 3w e b 挖掘 1 3 。1 w e b 挖掘技术 w e b 挖獭孰是在大型网络( 主要是i n t e m e t ) 的信息和信息的使用记录的数 据中挖掘爨漤在戆、煮意义鲍窝有耀德牲载熟识。从 l j 进步开发燧络数信息资 源,提高躐终信惑靛剩爱馀缓,瀵是有关髑户豹零求。一般黝,w e b 挖掘可分为 三炎:w e b 内容挖籀( w e bc o n t e n t m i n i n g ) ,w e b 结桷挖掘( w e bs t r u c t u r e m i n i n g ) , 和w e b 毽掰记录掩藏( w e bu s a g em i n i n g ) 。 w e b 内容挖獭是指从w e b 页硒内容及其描述信息中获驳潜在的、有价德的 知识戏模式过程。w e b 内露挖掘分为文本挖掘和多媒体挖獭两大癸:对于文本( 包 第l 章绪论 括t x t ,p o s t s c r i p t ,p d f , h t m l ,等) 的挖掘称为文本挖掘。w e b 文本挖掘的数据 对象既可以是结构化的,也可以是非结构化的、半结构化的。w e b 文本挖掘的结 果既可以是对某个文本内容的概括,也可以是对整个文本集合的分类结果或聚类 结果,还可以利用w e b 文档进行趋势预测等”1 。 多媒体信息挖掘,主要是指通过对w e b 上的音频、视频数据和图像进行预 处理,应用存储和搜索技术与标准的数据挖掘方法的集成对其中潜在的、有意义 的信息和模式进行发掘的过程。多媒体信息挖掘可以应用于语音识别、图形和图 像处理等研究领域。 w e b 结构包括不同页面之间的超链接结构和一个网页内部的可以用 h t m l 、x m l 表示成树形结构,以及文档u r l 中的目录路径结构等。 w e b 结构挖掘是从w w w 的组织结构和链接关系中推导知识,主要是通过 对w e b 站点的结构进行分析、变形和归纳,将w e b 页面进行分类,以利于信息 的搜索。 w 曲缩构挖掘所得到的模式,可以揭示许多蕴涵在w e b 内容之外的有用信 息e 妞通过文档之间的超链接,可以挖掘出文档之阅的引用关系,从露帮躜我们 找到与用户请求相关的权威页面;通过分析w e b 网页内部树形结构,可以发现 与给定夏瑟集合稷关戆其它夏嚣;w e b 页蘸载u r l 翘撑可以反映页嚣类型以及 页丽之间的从属关系,通过分析页面的u r l ,可以找到改变了位嚣的w e b 页面 静薪位置。 w e b 曰志挖掘怒从w e b 的存取模式中获取有价值的信息或模式的过穰,就 是对角户访问w e b 时在服务器留下的访简泡录进行挖掘。 望翦鹩数据挖搦一般憝基于关系数据瘁或数据仓库,历处理的数据具有完整 的结构,数据库管理系统提供了查询和统计的快速响应等高散的功能。由于w e b 上熬数据楚羞量熬、秃痔酶、j 续撼爨,劳虽存在蛰大量熬冗余霹噪声,黧憩, w e b 挖掘具有以下的特点; 1 ) w e b 挖握黥数据麓模卡分蠹大; 2 ) w e b 数据源是无序的和非结构的; 3 ) w e b 数据源具有镔强的动态往; 4 ) w e b 数据内容具有较大的练台性; 4 硕士学位论文 5 ) 网络信息和数据挖掘的用户目标具有多样性。 1 3 2w e b 挖掘的意义和作用 信息时代,唾手可得的信息已使得人们站在了相同的起跑线上,但是空握满 口袋的信息不懂得利用,同样将会被时代所抛弃。 i n t e m e t 时代,问题已经不是不知道信息,而是把握不住隐藏在信息后面的 信息,如何从海量的文本及多媒体数据或用户访问信息中发现有用的知识更是突 破了人类的极限。w e b 数据挖掘为解决这个问题指出了一条道路。 数据挖掘在传统的结构化的事务数据挖掘领域,已经取得了比较成功的应 用。然而,w e b 上的信息不同于数据库,数据库有规范的数据结构,而w e b 上 包括文本、图片、v e d i o 等多种信息,它们是半结构化的。因此,w e b 上的挖掘 需要不同于常规的数据挖掘的很多技术。在现实研究领域中,存在很多半结构化、 异构的数据源,w e b 挖掘的研究也极大的推动数据挖掘在其它领域的应用。 w e b 内容挖掘提供了自动的文档分类与聚类功能,基于内容挖掘的智能搜索 代理可以给人们提供更好的信息服务。而w e b 使用记录的挖掘,能够辅助改进 分布式网络的设计性能,如在高度相关的站点间提供快速有效的访问通道;能帮 助更好的组织w e b 页面;帮助改善市场营销策略。 特别要指出的是,w e b 挖掘技术从一开始就是面向应用的。它不仅是面向特 定数据源的简单检索查询调用,而且要对这些无结构的异构的数据进行微观、中 观乃至宏观的清洗、集成、统计分析、综合和推理,以指导实际问题的求解,企 图发现用户间、页面间的相互关联,甚至利用已有的数据对用户未来的活动进行 预测。因此,w e b 挖掘被信息产业界认为是最有前途的交叉学科。 1 。4w e b 器恚挖瓣 1 4 1w e b 酲志挖掘的概念 w e b 爵志挖掇主要是从用户斡两络使埔记录中轴取有愆义的模式。网络的每 个服务器都保留了访问同意等记录,保存了有关用户访阅和交互信息。分析这些 数攒可以用来了解用户的行为,从而改迸网络服务嚣系统的性能和结构,为用户 第1 幸绪论 提供个性化服务。 w e b 的基本结构是:客户端一代理服务器一w 曲服务器。客户端记录的是单 个用户访问多站点的信息。代理服务器同志记录的是多用户访问多站点的信息。 w e b 服务器日志则记录多用户访问单站点的信息。因此,用户访问模式的挖掘有 三种类型:客户端、代理服务器和w e b 服务器端。根据挖掘的目的和应用方向, 挖掘的用户访问模式的侧重点也不尽相同。 客户端、代理服务器的用户访问模式的挖掘,涉及到整个w e b 与半结构化 的w e b 的描述模型直接相关。半结构化的w e b 数据模型是研究w e b 数据挖掘、 信息检索、智能搜索引擎及w e b 用户访问模式挖掘的前提和重点。w e b 服务器 端的用户访问模式挖掘,挖掘的重点是用户的频繁访问路径、用户聚类等。 w e b 日志挖掘的数据源主要包括:w e b 服务器日志( 包括服务器日志、引用 日志和代理日志) 、w 曲站点的拓扑结构和站点文件、用户的注册信息、用户调 查信息、c o o k i e s ,以及与网站服务相关的数据库等。 w e b 日志挖掘的目的是在海量的w e b 日志数据中自动、快速地发现用户的 访问模式,如频繁访问路径、频繁访问页组、用户聚类等。其一般过程如下所述a 数据预处理:预处理主要对用户访问日志( 包括用户的访问日志、引用日志 和代理日志) 进行数据净化、用户模式识别、会话识别、路径补充、格式化和事 件识别等处理,形成用户会话文件。 挖掘处理:对数据预处理所形成的用户会话文件,利用数据挖掘的一些有效 算法( 如关联规则、聚类、分类、序列模式等) 来发现隐藏的模式规则。 模式分析:在这个阶段,主要是对挖掘出来的模式、规则进行分析,找出用 户感兴趣的模式。 可视化:采用可视化技术以圈形界面的方式表示最有价值的模式。 w e b 爨恚挖撼褥到的缝累,可以赐予蕊掬w e b 站点的页殛之湖的链接关系, 及整构w e b 站点的拓扑结构、发现相似的客户群体,开展个性化的信息服务和 鸯镑鼹戆黪逄孑蠹务活动,应鼷嫠患接趋蔽零穆建磐麓善艺w e b 站患。 1 4 2w e b 西悫挖掘特点及镶耀 w e b | 三| 恚挖攘主要是扶w e b 黪访闽记泶中撼淑鸯意义懿模式。弱户只要连 6 坝l 学位论立 接到一个网络服务器上,就已经在这个服务器上留下“脚印”。w e b 中的每个服务 器都保留了访问日志( w e ba c c e s sl o g ) 记录,保存了有关的用户行为特征,对 用户的访问内容及其频度等进行分析,可以得到某一群体的行为方式的知识,从 而为改进网络服务器系统的性能和结构、个性化的服务提供方便。 目前,w e b 日志挖掘可以分为两类:访问模式的追踪和个性化的使用记录的 追踪。一般的访问模式追踪通过分析使用汜录来了解用户的模式和倾向,以改进 站点的组织结构;而个性化的使用记录追踪则倾向于分析个别用户的偏好,其目 的是根据用户的访问模式,为其提供定制服务。从研究的角度看,现有的基于网 络服务记录数据的分析大致可分为: 1 ) 以分析系统性能为目标; 2 ) 以改进系统设计为目标; 3 1 以分析用户的行为为目标,由于各自目标针对的功能不同,采取的主 要技术也不同 4 】。 当前,w e b 目志挖掘具有重要的现实意义和理论意义,主要体现在如下几个 方面: 1 ) 为网络服务提供有效的决策依据; 增加网络的个性化服务 发现潜在的用户; 用户群体分析和聚类; 5 ) 改进站点的设计; 6 ) 发现信息传播的规律。 1 4 3w e b 曰志挖掘的研究现状 目前圈内外基于w e b 服务器e j 志数据的用户访问模式挖掘研究工作大致可 分为以下3 类扭j 。 1 ) 分析w 曲站点性能为目标,主要从统计学的角度,对日志数据项进行简单的统计, 褥到鬻户频繁访阕燹、单像露阕诱鞫数、谚嗣数据涎时瓣分带蓉等。绝大多数意 用及免费的w e b 日虑分析工具都属于此类。 2 ) 理解用户意图为匿标。c h e n 等提出的路径游掰模式( p a t ht r a v e r s a tp a t t e r n ) 醵发 第1 审绪论 现算法,以及j i a w e ih a n 等使用数据立方体方法,便是此类的典型代表。 3 ) 以改进w e b 站点设计为目标。通过挖掘用户的频繁访问路径和用户聚类,重构站 点的页面之间的连接关系以更适应用户的访问习惯,同时为用户提供个性化的信 息服务。c o o l e yr ,m o b a s h e rb 【6 】等人首次给出w e b 挖掘的定义,并且给出个关 于w e b 访问信息挖掘的系统w e b m i n e r 。文献6 1 中得到的思路是,通过对w e b 站点的日志进行处理,将数据组织成传统的数据挖掘方法能够处理的事务数据形 式,然后利用传统的数据挖掘方法( 如关联规则发现算法) 进行处理,所得出的 挖掘结果也是传统的数据挖掘结果。 c h e n 7 1 等首先将数据挖掘技术应用于w e b 服务器日志挖掘,发现用户的 浏览模式。提出最大前向引用( m a x i m a lf o r w a r dr e f e r e n c e ,m f r ) 系列概念。将 用户会话分割成一系列的事务,然后采用与关联规则相似的挖掘频繁的浏览路 径。 b u c h n e rag ,m u l v e r m amd 日1 等人首次将数据挖掘技术应用于电子商务的 环境下,以发现市场智能。挖掘的对象不仅包括日志、w e b 页面,也包括市场数 据,并且给出了在电子商务环境下,挖掘的一个总的框架。 c l a e nm s ,p a r kj s ,y ups , 9 1 等人把l o g 数据映射到关系表中,然后应用 标准的数据挖掘方法发现用户迁移模式。 b o r g e sj ,l e v e n em 等人应用超文本概率法( h y p e r t e x tp r o b a b i l i s t i c g r a m m a r ) 发现蔫户迁移模式,著嗣g r a m m a r 静熵镳评信藏糖到酶穰式。 m y r as p i l i o p o u l o u l l l l 等人提出了套类似s q l 的挖掘谬言m i n t ,允许用户 认为指定感兴趣的频繁路径的特征,然后根据用户的要求挖掘满足条件的络巢。 国内学嚣在w e b 用户馈息挖掘方面也开展了大量的工j 乍。西安交通大学沈 均毅教授f j2 l 等人提黩 :首先以w e b 站点的u r l 为行、以u s e r i d 为列,建立 u s l - u s e r i d 关联舔簿,元綮篷为鬟户兹访溺额次数,然爱,对剜溺量进行稳夔鬟 性分析得到相似客户群体,对行向爨进行相似度量获得相关w e b 页面,对相关 页蕊进行避一步楚璞,良菠璇频繁访潮路径。并撬浅了w e b 页瑟犟嚣群体瀚搂糊 聚类算法。在该算法中,首先根据客户对站点的浏览情况分别建立w e b 页蕊和 客户的模糊集,在此基础上根据m a x m i n 模糊相似度量规则构造椭应的模糊相 强戆蓐,然后根据模糊媚似短阵直搂避行聚类。 颂t 学位论文 国防科技大学吴泉源教授5 1 等人提出基于e o e m 模型,综合考虑服务器的应 用逻辑设计、页面拓扑结构及用户浏览路径等多个数据源的用户访问模式及电子 商务中潜在客户群的挖掘算法。另外他们还提出可基于b a y e s 概率的用户访问路 径及其发现算法。 西安交通大学陆丽娜教授【”1 等人,采用基于事务的方法,研究w e b 日志挖 掘预处理及用户访问序列模式挖掘方法,提出了一种基于扩展有向树模型进行用 户浏览模式识别的w e b 目志挖掘方法;华中理工大学胡和平教授”4 1 等人提出了 应用多维立方体挖掘w e b 日志的多维关联规则的方法。 中国科技大学王熙法教授1 5 1 等人提出了基于神经网络的w e b 用户行为聚类 分析方法,即首先对w e b 服务器的i = t 志文件进行分析,再进行会话分析,从会 话向量中找出频繁数据集,进行归一化处理后,生成模式向量,采用s o f m 模 型进行聚类,最后生成用户聚类。 中国科学院计辣技术研究所高文教授 】酬等人,采用w e b 站点的访问日恚进 行事务识别后,根撼群体用户对w e b 站点的访问顺序进行路径聚类,最终每一 个聚类集裁爱姨基该爨粪纂孛兹全髂用户醵访趣兴麓,为了褥到这种根据思户访 问* 趣而对用户的划分,提出了k - p a t h 路径聚类方法。 中国秘掌陵数学疆究联髑龙镶教授【拜j 等a ,分拆了w e b 麓户溺笼活动蔑终, 提出了有关、w w 浏览路径的一些基本概念,设计了基于用户访问模式的浏览 路径优化算法。 w e b 嗣忠挖掘是一个较新的研究领域,具有广阔的发展和应用前景。面对日 益增加的商业需求,w e b 目志挖掘技术还有许多问髓需要解决,有待于这一领域 的深入酝究。铡摇: ( 1 ) w e b 目志挖掘中内在机理及新的挖掘体系和结构的研究; 挖攘舞法奁海董数嚣挖掘中黪遥应链t 莘羹时效性硬究; ( 3 ) 智能站点个性化和性能最优化的研究; ( 4 ) 关联蕊雯6 和序剜模式在构造程组织方谣酶研究; ( 5 ) 分类在电子商务市场智能提取中的研究。 第1 章绪论 1 5 本文的主要工作和结构安排 1 5 1 本文的主要工作 数据挖擒在传统的绣鞫纯鹩事务数据掩掘领域,已经凝得了比较成功的应 用t 然而,w e b 上的信息不同于数据库,数据库有规范的数据结构,面w e b 上 包括文本、图片、v e d i o 等多种信恿,它们是半结构化的。因此,w e b 上的挖掘 需要不同予紫规的数据挖撼熊很多技术;然嚣这些半结构化、异麴熬数摆信惑包 含着丰富有价值的知识。基于以上两点,本文对以下内容谶行了研究和分析。 i 怼数据挖壤瓣实瑗过程及实骥菝拳遴行势撬雾鼙骚究,对w e b 基恚趁瓣技 术的相关理论和技术进行深入分析。 2 讨论了蟊志颓处理静过程及几稀有效酌数据预处蘸方法,包括数据清洗、 用户识别、会话识潮等,突观了分割服务器臼志为单独的粥户和用户会 话过程。 3 关联援则黧序列模式是磅究秘发现攀务数摄瘴中数据顼之耀豹耀关蛙的 方法。本文深入研究了关联规则挖掘技术和序列模式识别技术,并结合 二毒鲍优点。实臻了基予关联爆刘兹序列模式识巅算法。算法可以臻 w e b 服务器臼志中挖掘出用户信息和数据信息,可有效地识别用户访问 模式。 4 将w e b 目志挖掘披术应用予电子商务领域,对面向电子商务的w e b 臼 志挖掘应用系统建模,并介绍网页优化设计的算法。 1 5 2 本篇论文的结构安排 全文共分六章。第一章是绪论。介绍了本课题的来源、茸的和懑义,及数据 挖撼技术、w e b 挖掘技术秘w e b 翳志挖撼技术豹蒸本概念、特点鞭磺究现状。 第二章介绍了数据挖掘的一般过程、数据挖掘方法及其研究现状和前景。第三章 蓄先详绥分辑了w e b 强恚捻撼技零静一般实凌遵稷、关键羧零霹w e b 瑟志文搏 念。并具体实现了w e b 同患挖掘的数据预处理,包括数据清洗、用户识别和会 话浚尉等,分割疆务器西志为荸猿的用户辩稽户会话过程。第鹜章深入礤究了关 顾七学位论文 联规则挖掘技术和序列模式识别技术,并结合二者的优点实现了基于关联规则 的序列模式识别算法。第五章将w e b 挖掘技术应用于电子商务领域,对面向电 子商务的w e b 日志挖掘应用系统建模,并介绍网页优化设计的算法。第六章总 结与展望,对今后的工作提出了具体的方向。 第2 章数据挖掘技术 第二章数据挖掘技术 数据挖掘工具进行数据分析,可以发现重要的数据模式,对商业决策、知识 库、科学和医学研究做出了巨大贡献。数据和信息之间的鸿沟要求系统的开发数 据工具,将数据坟墓转换成知识“金块”。当前,由于数据挖掘技术所表现出来 的广阔应用前景吸引了众多的研究人员和商业机构,很多数据挖掘技术被开发出 来,并在商业、金融、管理、保险等领域取得较好的发展。这些系统综合了数据 库技术、专家系统、机器学习、在线分析等领域中的研究成果。 2 1 数据挖掘一般过程 数据挖掘一般由3 个主要的阶段组成:数据准备、模式发现( 建模) 、模型 谬煞及摸墼疲是。蒸挖握过程妇圈2 1 。 数据礁备阶段:这个阶段又可分成三个子步骤,数据集成、数据选择、数据 舔鲶壤。数箨集成将多文 誓鬣数搽簿运彳亍环境中觞数耀避行合并处淫,解决语义 模糊性、处理数据中的遗漏和清洗胜数据等。数据选择的目的是辨别出需要分析 的数据集合,缩小娥理范围,提高数据挖掘的质量。预处理篷为了克服目前数据 挖撼工具的局限性。 建模:包括挖掘算法的选择和簿法参数的确定等。 模型译估:避孑攘墼熬落练季霹溺试,对褥窭鳇模望速嚣谬嚣。i 三拿狳段是 循环往复的过程,巍到得到用户满意的模裂为止。 模鼙应鹅:褥裁满意酶模鳖后,藏可隧遂瑟瑟横墅对耨数据遴行解释。 甾2 一i 数据挖掘过程 f i g u r e2 1 p r o c e s so f d a t am l n i n g 1 2 雹 蝴i 星寓 慕 顾j :学位论文 2 2 数据挖掘的研究现状及前景 计算机的应用可归结为三个阶段:数值计算一数据处理知识处理。数值计算 偏重于算法研究,数据处理需要对大量数据进行处理。以数据库为基础出现了管 理信息系统,可以方便得对数据库进行查询、修改、汇总,及时提供所需数据, 提高管理效率。对于复杂系统,仅靠人工提出一些计算指标来进行管理还不够, 而需要建立数学模型,通过计算机对模型进行优化寻找最佳方案,这就是作为决 策支持系统。数据挖掘的研究始于科学发现的计算机建模。是人们长期对数据处 理、分析并进行研究和开发的结果,它使数据库技术进入了一个更高级的阶段。 随着数据量的增多,人们对数据处理的要求越来越高。 数据挖掘作为一个新兴的研究领域,刚刚出现立即受到广泛关注,归纳起来, 国际知识发现研讨会所讨论的问题主要有:定性知识和定量知识的发现; 数据汇总;知识发现方法;数据依赖关系的发现和分析;发现过程中知 识的应用:集成的交互式的知识发现系统;知识发现的应用等。 第一本关于数据挖撼和知识发现的国际学术杂志d a t am i n i n ga n d k n o w l e d g ed i s c o v e r y 于1 9 9 7 年3 月刨干q ,许多学术期刊魄为此领域开辟专栏, 在i n t e r n e t 上也出现了有关知识发现的趣子舨物,始 k n o w l e d g ed i s c o v e r y n u g g e t “”,还有许多知识发现论坛和数据挖掘的兴趣组。近年来,数据挖掘无论 在遴论土还是实委羧零上罄鼗霪了许多藏袋,诲多专勰蠢逶罔懿窝烫数据蔽掇软 件已经面墩。目前,国际上比较有影响的数据挖掘系统有:s a s 公司的e n t e r p r i s e m i n e r ,i b m 公司静i n t e l l e g e n tm i n e r ,s c i 公司勰s e t m f n e r ,s p s s 公司酶 c 1 e m e n t i l l e ,s y b a s e 公司的w a r e h o u s es t u d i o ,加拿大s i m o nf r a s e r 大学的 d b m i n e r 等。 随着数据挖掇在国内外匏兴起,我国也缀块跟上了国琢步伐,一大批数擐痒、 人工智能、机器学习等领域的学者投入到数据挖掘的研究中。目前数据挖潲技术 已经在辩学磺究、仓敲授资、市场落链、辍猃、医疗里生、产晶割造、逶馈、溺 络管理等行业得到应用,而且其应用领域在不断的扩大。 爵前,数据挖滴的研究主要是隧知识发现的任务疆述、知识评价霸舞识表示 为线,有效的发现算法为中心,开发各种原型与实用系统。近年来的研究熏点逐 渐从发现方法转向系统应用。研究主要集中在以下几个方面:研究各种数掇挖掘 第2 章数据挖掘技术 算法:研究专门用于知识发现的数据挖掘语言;寻求数据挖掘过程中的可视化方 法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互: 研究各种非结构化数据( 如文本数据、图形图象数据、多媒体数据) 的挖掘技术。 研究网络环境下的数据挖掘技术。从国内外目前的研究进展来看,数据挖掘在不 同的领域发展不平衡,许多领域的研究自成一派,没有突破各个领域的技术界限; 没有融合各个领域的不同方法,尤其是未来有关的方法集成。近年来,有些技术 定位于大型数据库的挖掘,出现了除关系数据库的数据挖掘外,还有面向对象数 据库的数据挖掘、面向非结构化数据库的数据挖掘( 如文本数据挖掘) 等。随着 i n t e m e t 的广泛应用,出现了基于网络异构数据源的数据挖掘,如电子商务系统 中的数据挖掘等;由于新的数据库技术的发展,多媒体数据库的数据挖掘、时态 数据库的数据挖掘、空间数据库的数据挖掘等也引起了人们的关注;随着第三代 通信一移动计算的出现,有关移动数据的数据挖掘也在研究之中| 2 。数据挖掘在 应用中出现了越来越多的研究领域和发展方向。 2 3 数据挖掘方法 我们知道,数搬库技术只是将数据有效的组织和存储在数据库中,并对数据 进行简单的分析和处理,大量隐藏在数据内部的有用信息我们无法得到。数据挖 掘从个毅憝角度将数据黪学习、投器学习、统计学领域续合起来,从更深层次 上发掘存在于数据内部的有用的、新颖的、具有潜在效用的乃至最终可理解的模 式。其需臻方法驽缡努下 2 ,2 2 1 : ( 1 )关联规则和序列模式挖掘 关联兢翊是数攒挖摇研究的一个重要谦题。它怒描述数据库中簸据顼之闻所 存在固滢在关系的舰则,其最初的应用原型是超市营销数掇的分孝行。即某种事物 发生时其它事物会发牛的这样一种联系。倒如:每天购买啤酒的人也有可能购买 蚕烟,比重肖多大,霹以遴过笑联蠖嘲豹支持凄积可信凄束攒述。与笑联燃则不 同,序列模式是一种纵向的联系,和时刚i 吼序有商接的关系。例如:今天锻行调 整翻率,翻天箴市酶交亿。 ( 2 ) 聚类 聚类没有预先定义好辩主题类澍,谴的蟊的是将群体分或若手个族,要求甬 顺l j 学位论史 一族内群体的相似度尽可能的大,而不同族蚓的相似度尽可能的小。h e a r s t 等人 的研究已经证明了“聚类假设”,即用户查询
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度跨境电商法律顾问合作协议
- 二零二五年度灾害预警机井承包与维护协议
- 2025版高空作业大白施工安全协议
- 程一波消防操作员课件
- 2025版带购房协议转让的房产交易税费缴纳承诺合同
- 高速电梯安装工程劳务分包及运营维护合同
- 二建挂靠合同效力审查及合同备案手续
- 淀粉类产品市场推广与品牌合作协议
- 二手房买卖交易中房屋质量保修服务协议
- 二零二五年度电商平台信息安全保障合作协议
- 电商运营岗位聘用合同样本
- 农村公路工程质量检测培训
- 《妇产科学》课件-8.1决定分娩的因素
- 部队热射病预防与急救
- 糖尿病性坏死性筋膜炎
- 2024年教师资格考试初中学科知识与教学能力信息技术试题与参考答案
- DB11T 1975-2022 建筑垃圾再生产品应用技术规程
- 荆州市国土空间总体规划(2021-2035年)
- 2024-2030年中国粪便菌群移植(FMT)行业经营风险与投融资趋势预测报告
- 儿童参加活动免责协议书范本
- 银行灭火和应急疏散应急预案
评论
0/150
提交评论