WEB数据挖掘课件_10.ppt_第1页
WEB数据挖掘课件_10.ppt_第2页
WEB数据挖掘课件_10.ppt_第3页
WEB数据挖掘课件_10.ppt_第4页
WEB数据挖掘课件_10.ppt_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、刘 均 电信学院系统结构与网络研究所,WEB MINING日志挖掘,主要内容,Web Usage Mining的定义 Web Usage Mining的分类 Web Usage Mining的应用 Web Usage Mining的方法 预处理方法 挖掘方法,Web Usage Mining 定义,WUM的定义,Application of data mining techniques to discover usage patterns from web log data,WUM的定义,通过根据Web日志记录的挖掘,发现用户访问Web页面的模式,以期改进站点的性能和组织结构,提高Web用户查

2、找信息的质量和效率;并通过统计和关联的分析找出特定用户与特定地域、特定时间、特定页面等要素之间的内在联系,为用户提供个性化的服务。,Web Usage Mining 分类,Web Usage Mining的分类,WUM在Web Mining中的位置 从挖掘的目标:公共的、个体的 从挖掘数据的类型 从挖掘的数据源:客户端、代理、WEB服务器,Web Mining 分类,Web Usage Mining,Web Structure Mining,Web Content Mining,Web Page Content Mining,Search Result Mining,Web Usage Min

3、ing,General Access Pattern Tracking Web Log Mining Uses KDD techniques to understand general access patterns and trends. Can shed light on better structure and grouping of resource providers.,Customized Usage Tracking,Web Usage Mining,Web Usage Mining,General Access Pattern Tracking,Customized Usage

4、 Tracking Analyzes access patterns of each user at a time. Web site restructures itself automatically by learning from user access patterns.,Web Structure Mining,Web Content Mining,Web Page Content Mining,Search Result Mining,Data available,Server logs Error logs Cookie logs Query data,Data Sources,

5、W3C Extended Log File Format,WUM Server logs,123.456.78.9 - - 24/Oct/1999:19:13:44 0400 “GET /Images/tagline.gif HTTP/1.0” 200 1449 “Mozilla/4.51 en (Win98;I)”,Proxy Log,0 - - 23/Jan/1998:11:21:33 +0100 GET TCP_DONE 21495 4 - - 23/Jan/1998:11:21:52 +0100 GET http:/www.panda.c

6、z/simpsons/simpicon.zip TCP_MISS 0 4 - - 23/Jan/1998:11:21:54 +0100 GET http:/www.panda.cz/simpsons/pict/nuclearplant.gif TCP_DONE 2726 0 - - 23/Jan/1998:11:22:10 +0100 GET 1/campus/graphics/2girls.jpg TCP_DONE 33371 4 - - 23/Jan/1998:11:22:40 +01

7、00 GET http:/www.panda.cz/simpsons/pict/school.gif TCP_DONE 3184 4 - - 23/Jan/1998:11:28:41 +0100 GET http:/www.panda.cz/simpsons/pict/simpcity.jpg TCP_DONE 80729 4 - - 23/Jan/1998:11:35:30 +0100 GET http:/www.panda.cz/simpsons/simpicon.zip TCP_DONE 131322 4 - - 2

8、3/Jan/1998:11:37:54 +0100 GET http:/www.panda.cz/simpsons/simpicon.zip TCP_HIT 131322,Web Usage Mining 应用,Web Usage Mining的应用,Market research Site design,Web Usage Mining的应用,System Improvement 1). Site Improvement,根据实际用户的浏览情况,调整网站的网页的连接结构和内容,更好的服务用户,极端:Adaptive web sites,Web Usage Mining的应用,System I

9、mprovement 2). Caching it only indicates the use of a page as a localized navigational nexus for that particular user. The similarity sim(t,s) as the normalized cosine of the angle between the two vectors. K-means algorithm is used to obtain transaction clusters.,The Recommendation Process,The recom

10、mendation engine is the online component of the system based on usage mining. The task of the recommendation engine is to compute a recommendation set(potentially useful links based on the users navigational activity through the site) for the current session. Consider factors: The matching criteria for each cluster or frequent itemset to the current active

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论