第4章 Web挖掘技术.ppt_第1页
第4章 Web挖掘技术.ppt_第2页
第4章 Web挖掘技术.ppt_第3页
第4章 Web挖掘技术.ppt_第4页
第4章 Web挖掘技术.ppt_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据挖掘,第4章Web挖掘技术,【教学目标与要求】了解WEB数据挖掘的发展现状、分类及其流程掌握WEB使用挖掘的过程和方法理解WEB结构挖掘的数据源处理和算法了解WEB内容挖掘的流程,数据仓库与数据挖掘,4.1Web数据挖掘流程4.2Web数据挖掘分类4.3WUM挖掘过程4.4WEB结构挖掘4.5WEB内容挖掘,内容,数据仓库与数据挖掘,1.背景材料2.案例分析WEB挖掘继承了传统数据挖掘的过程,即数据收集、数据预处理、模式发现、模式分析及应用,但是WEB挖掘的各个过程与传统的数据挖掘又不全相同;Web挖掘是一项涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域的综合技术,【导入案例】,数据仓库与数据挖掘,Web站点上数据的特点数据量巨大,动态性极强,并且增长速度惊人;异构数据库环境,Web页面的结构比一般文本文件复杂很多,它可以支持多种媒体的表达;半结构化的数据结构。,4.1Web数据挖掘流程,数据仓库与数据挖掘,4.1Web数据挖掘流程,处理流程:查找资源信息选择和预处理模式发现模式分析信息获得和信息抽取相当重要,数据仓库与数据挖掘,4.2Web数据挖掘分类,Web数据的类型:HTML标记的web文档数据、Web文档内的链接的结构数据、用户访问数据Web数据挖掘分为:内容挖掘、结构挖掘、访问控制挖掘。如下图:,数据仓库与数据挖掘,4.2.1Web内容挖掘概述,两个观点:从资源查找(InformationRetrival)的观点挖掘非结构化文档非结构化文档:web上的自由文本,包括小说、新闻等。词汇袋(BagofWords)或称向量表示法(VectorRepresentation):将单个的词汇看成文档集合中的属性,只从统计的角度将词汇孤立地看待而忽略了该词汇出现的位置和上下文环境。,数据仓库与数据挖掘,4.2.1Web内容挖掘概述,从数据库(Database)的观点挖掘非结构化文档主要解决Web信息的管理和查询问题。Web信息的建模和查询信息抽取与集成Web站点建构和重构,数据仓库与数据挖掘,4.2.2Web结构挖掘概述,挖掘对象:Web本身的超链接目的:发现链接之间的有用信息引用分析研究:网页之间的关系分为incoming链接和outgoing链接运用引用分析方法找到同一网站内部及以不同网站之间的链接关系著名算法:HITS、PangeRankWeb数据仓库环境下的挖掘,数据仓库与数据挖掘,4.2.3Web访问挖掘概述,概念:即Web使用记录挖掘,通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式,通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以发现潜在的用户、增强站点的服务竞争力。挖掘方式:间接挖掘:将web使用记录转换到关系表,基于关系表的挖掘直接挖掘:将web使用记录的数据直接预处理再进行挖掘,数据仓库与数据挖掘,4.2.3Web访问挖掘概述,Web使用挖掘可分为5类:个性挖掘系统改进站点修改智能商务Web特征描述,数据仓库与数据挖掘,4.3WUM挖掘过程,Web使用挖掘一般有4个过程:数据预处理、模式发现、模式分析、模式应用,数据仓库与数据挖掘,4.3.1WUM数据预处理,预处理主要对用户访问日志进行数据清洗(DataCleaning)、用户唯一性识别(UserIdentification)、用户会话识别(IdentifyUserSession)、路径补充(PathCompletion)和事务识别(transactionidentification)等处理。,数据仓库与数据挖掘,4.3.1WUM数据预处理,源数据收集从3方面收集:服务器端、客户端、代理端日志类型:AccessLog:访问日志ReferLog:请求页面信息CookieLog:由WebServer产生的标记号,并由客户端持有,用于识别用户和用户会话。数据类型:内容数据、结构数据、使用数据、用户资料,数据仓库与数据挖掘,4.3.1WUM数据预处理,使用数据预处理数据清理:清除与挖掘算法无关的数据。图片、框架等非用户请求逻辑单位WebRobot的浏览日志噪声和错误信息用户识别:IP地址、浏览器软件或操作系统、ReferLog会话识别:会话是指同一用户连续请求的页面路径补充事务识别,数据仓库与数据挖掘,4.3.1WUM数据预处理,内容预处理:把文件、图像、脚本及其他文件等转换为Web使用挖掘处理所需要的数据格式。结构预处理,数据仓库与数据挖掘,模式发现阶段就是利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的信息和知识。可用于WUM的技术有统计分析路径分析关联规则序列模式分类聚类依赖性建模,4.3.2WUM模式发现,数据仓库与数据挖掘,4.3.3WUM模式分析,挖掘出来的用户行为模式(集合),需要合适的工具和技术对其进行分析、解释和可视化,从中筛选出有趣(有用)的模式,使之成为人们可以理解的知识,否则挖掘出来的模式将得不到很好的应用。对于大量挖掘出来的模式,也需要一种技术使用户可以方便地查询其想要的模式,从而使解释和分析更具有针对性。,数据仓库与数据挖掘,4.3.4WUM模式应用,个性化服务与定制个性化网站个性化广告在线推荐商务智能:分析潜在的目标市场聚类客户确定消费者消费的生命周期了解客户,量身定做产品延长客户的驻留时间发现潜在的用户改善站点性能,数据仓库与数据挖掘,4.4.1WEB结构挖掘概述1超链和页面内容的关系发现中心网站,权威网站发现权威页,进行相关度排序2不同挖掘阶段的分析用基于内容的搜索引擎形成文件根集在根集的基础上建立候选集根据网页面在这些集合中的分量来划分哪些为中心页面,哪些为权威页面,并将其排序。,4.4WEB结构挖掘,数据仓库与数据挖掘,4.4.2网络结构挖掘的两种算法及改进,PageRank算法(P267)HITS算法两种算法的比较PageRank算法的改进,数据仓库与数据挖掘,4.4.3Web结构挖掘应用,主要应用于WWW上的信息检索领域如利用网页间的超链接信息对搜索引擎的检索结果进行相关度排序寻找个人主面和相似性网页提高搜索蜘蛛在网

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论