Web与数据挖掘.ppt_第1页
Web与数据挖掘.ppt_第2页
Web与数据挖掘.ppt_第3页
Web与数据挖掘.ppt_第4页
Web与数据挖掘.ppt_第5页
免费预览已结束,剩余57页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据挖掘 主讲教师 王浩畅E mail wanghch angel SchoolofComputer InformationTechnologyofDQPI 上节课内容回顾 1 7 7基于网格的方法STING 统计信息网格WaveClusterCLIQUE7 8基于模型的聚类方法统计学方法神经网络方法7 9孤立点分析统计学方法 上节课内容回顾 2 基于距离的方法基于索引的算法嵌套 循环算法基于单元的算法基于偏差的方法基于密度的方法 第8章基于WEB日志的用户访问模式挖掘 数据挖掘 简短回顾 1 什么是数据挖掘 JiaweiHan 从大量的数据中挖掘哪些令人感兴趣的 有用的 隐含的 先前未知的和可能有用的模式或知识 数据挖掘 简短回顾 2 数据挖掘的主要功能关联分析发现数据之间的关联规则 这些规则展示属性 值频繁的在给定的数据中所一起出现的条件 分类和预测通过构造模型 或函数 用来描述和区别类或概念 用来预测类型标志未知的对象类 聚类分析将类似的数据归类到一起 形成一个新的类别进行分析 孤立点分析通常孤立点被作为 噪音 或异常被丢弃 但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论 体系结构 典型数据挖掘系统 数据仓库 数据清洗 过滤 数据库 数据库或数据仓库服务器 数据挖掘引擎 模式评估 图形用户界面 知识库 数据集成 第8章基于WEB日志的用户访问模式挖掘 电子商务与数据挖掘 完美结合 在电子商务中进行成功的数据挖掘得益于 电子商务提供海量的数据如果一个电子商务网站平均每个小时卖出五件物品 那么它一个月的平均点击量是160万次 丰富的记录信息良好的WEB站点设计将有助于获得丰富的信息干净的数据从电子商务站点收集的都是电子数据 无需人工输入或者是从历史系统进行整合研究成果容易转化在电子商务中 很多知识发现都可以进行直接应用投资收益容易衡量 电子商务为数据挖掘提供海量数据 点击流 Clickstreams 将会产生电子商务挖掘的大量数据Yahoo 在2000年每天被访问的页面数是10亿 如此大的访问量将会产生巨大的Web日志 记载页面访问的情况 每个小时产生的Web日志量就达到10GB 即便是一个小的电子商务站点 也会在短时间内产生进行数据挖掘所需的大量数据计算一下 如果你的站点一个小时卖出5件物品 一个月会有多少页面访问 5件 24小时 30天 2 转化率 表示访问的人中买东西的人的比率 9页面 平均买一件物品要访问9个页面 1 600 000页面 丰富的记录信息 如果你的电子商务站点设计的好 你将可以获得各种商务的或者是用户访问的信息 商品和商品的属性商品的归类信息 当同时展示多种商品是 归类信息是非常有用的 促销信息关于访问的信息 比如 访问计数 关于客户额信息 可以通过登陆 注册来获得 干净的数据 信息直接从网站上提取无需从历史系统中集成 避免很多错误可以通过良好的站点设计 直接获得跟数据挖掘有关的数据而不是再来分析 计算 预处理要用的数据直接收集的电子数据 可靠无需人工数据输入 避免了很多错误可以通过良好的站点设计 良好的控制数据采样的颗粒度颗粒度控制在客户级别或者是session级别 而不是页面级别 有趣的 生日现象 一个银行通过对客户数据统计发现 它的5 的客户都是在同一天出生的 同年同月同日 为什么 如何解释 研究成果容易转化 历史上的数据挖掘研究有过许多的知识发现 但是这些知识发现却很少在实际的商业应用中产生什么效果要应用这些发现的知识可能意味着要进行复杂的系统更改 流程更改或是改变人们的办事习惯 这在现实中是非常困难的 在电子商务中 很多知识发现都可以进行直接应用改变站点的设计 改变布局 进行个性化设计等 开始有目标的促销根据对广告效果的统计数据改变广告策略可以很容易的提供捆绑销售 投资收益容易衡量 使用数据挖掘成果的革新带来的收益如何衡量 在传统的商业中衡量投资收益需要长期的测量和观察 PacoUnderhill在 购物的科学 一书中提及 一个超市为了衡量他们的促销策略带来的投资收益 每年要花14 000个小时查看录像带 在电子商务中 衡量革新的投资收益是非常容易的销售变化的报表可以自动产生客户对电子邮件和电子调查的反馈都可以在几天内得到 而不必等个几个月电子商务乃至整个互联网都是传统商业的理想试验室 第8章基于WEB日志的用户访问模式挖掘 对电子商务网站的Web数据挖掘 通常在一个电子商务网站上应用的数据挖掘技术是Web数据挖掘 我们可以在一个电子商务网站挖掘些什么东西 内容挖掘 WebContentMining 结构挖掘 WebStructureMining 使用挖掘 WebUsageMining 内容挖掘 对Web页面内容进行挖掘 从Web数据中发现信息 自动地从数以百万计的Web站点和在线数据库中搜索和获取信息和资料 尽管人们可以直接从网上通过抓取建立索引 实现检索服务来获得资源 但是大量的 隐藏 信息只能通过内容挖掘来自动挖掘 结构挖掘 结构挖掘是对Web页面之间的结构进行挖掘 在整个Web空间 有用的知识不仅包含在页面的内容中 而且也包含在页面的结构中 Web结构挖掘主要针对的就是页面的超链接结构 如果有较多的超链接指向它 那么该页面就是重要的 发现的这种知识可用来改进搜索路径等 使用挖掘 与WebContentMining和WebStructureMining不同的是 WebUsageMining的挖掘对象是用户和网络交互过程中抽取出来的二手数据 这些数据主要是用户在访问Web时在Web日志里留下的信息 以及其它一些交互信息 日志信息包括访问日期 时间 用户IP地址 服务器IP地址 方法 所请求URL资源 服务器响应状态 用户代理 发送字节等 WebUsageMining就是对系统日志信息 以及用户的注册数据等进行挖掘 以发现有用的模式和知识 使用挖掘的作用 通过对电子商务网站应用WebUsageMining数据挖掘技术 可以提高站点的质量改善WEB缓存 缓解网络交通 提高性能在电子商务中还可捕捉到大量的采购过程的细节 为更加深入的分析提供了可能 Web日志 1 典型的日志文件片断133 43 96 45 01 Aug 1995 00 01 39 0400 GET shuttle missions sts 72 mission sts 72 htmlHTTP 1 0 2003804133 68 18 180 01 Aug 1995 00 01 48 0400 GET persons nasa cm jmd htmlHTTP 1 0 2004067 WEB日志通常包含7个字段 第一项 远程主机的地址 即它表明访问网站的究竟是谁 第二项 浏览者的email地址或者其他唯一标识符 到了今天 我们在日志记录的第二项看到email地址的机会已经微乎其微 所以上面用 标志字段为空 Web日志 2 典型的日志文件片断133 43 96 45 01 Aug 1995 00 01 39 0400 GET shuttle missions sts 72 mission sts 72 htmlHTTP 1 0 2003804 第三项 记录浏览者进行身份验证时提供的名字 对于不需要用户身份验证的网站 这个字段都是空白 第四项 请求的时间 第五项 告诉我们服务器收到的是一个什么样的请求 该项信息的典型格式是 METHODRESOURCEPROTOCOL 即 方法资源协议 这是Web日志中最有用的信息 在上面的示例中METHOD是GETRESOURCE是指浏览者向服务器请求的文档 或URLPROTOCOL通常是HTTP 后面再加上版本号 Web日志 3 典型的日志文件片断133 43 96 45 01 Aug 1995 00 01 39 0400 GET shuttle missions sts 72 mission sts 72 htmlHTTP 1 0 2003804 第六项 状态代码 它告诉我们请求是否成功 或者遇到了什么样的错误 大多数时候 这项值是200 它表示服务器已经成功地响应浏览器的请求 一切正常 第七项 发送给客户端的总字节数 使用挖掘的基本过程 进行WebUsageMining主要是通过对系统日志信息的数据挖掘Web服务器日志ErrorLogsCookiesWebUsageMining的基本实现过程预处理模式发现模式分析 预处理 通过预处理 使挖掘过程更有效 更容易数据清洗其目的在于把日志文件中一些与数据分析 挖掘无关的项清除掉 比如 剔除用户请求方法中不是GET的记录 用户识别日志文件只是记录了主机或代理服务器的IP地址 要识别用户 需要Cookie技术和用一些启发规则来帮助识别 路径补充确认Web日志中是否有重要的页面访问记录被遗漏 事件识别事件识别是与要挖掘什么样的知识有关 将用户会话针对挖掘活动的特定需要进行事件定义 上节课内容回顾 1 8 1数据挖掘 简短回顾什么是数据挖掘 数据挖掘的主要功能体系结构 典型数据挖掘系统8 2电子商务与数据挖掘在电子商务中进行成功的数据挖掘得益于 电子商务提供海量的数据丰富的记录信息干净的数据研究成果容易转化投资收益容易衡量 上节课内容回顾 2 8 3对电子商务网站的WEB日志挖掘内容挖掘 Web站点和在线数据库结构挖掘 主要针对的就是页面的超链接结构使用挖掘 对系统日志信息 以及用户的注册数据等进行挖掘使用挖掘的作用 提高站点的质量 改善WEB缓存 缓解网络交通 提高性能 在电子商务中还可捕捉到大量的采购过程的细节 为更加深入的分析提供了可能Web日志 包含7个字段使用挖掘的基本过程 预处理 模式发现 模式分析 模式发现 在经过预处理后的数据上应用各种数据挖掘的功能和算法 挖掘出有用的模式和规则的过程 WebUsageMining中用到的Web日志分析及用户行为模式的挖掘方法包括 关联分析分类和预测聚类分析序列模式统计分析 WebUsageMining 关联分析 1 通过分析用户访问网页间的潜在联系而归纳出的一种规则 如80 的用户访问Web页面 company product1时 也访问了 company product2 常用算法Apriori算法或其变形算法 频繁模式树 FP 树 算法等等 挖掘出访问页面中频繁的在一起被访问的页面集比如可以通过 A B CA B D A B A B E F WebUsageMining 关联分析 2 可以使用通过关联分析挖掘出来的频繁项集 页面集 来预取可能请求的页面 以减少等待时间 对于频繁项集 页面集 A B 在用户访问A时 将页面B调入缓存中 从而改善Web缓存 缓解网络交通 提高性能促进网上商务对于频繁项集 A B 如果分别代表两个产品的页面 则说明这两个产品间存在相关性 可以利用这点在电子商务的实践中给出更有效的促销策略或广告策略 WebUsageMining 分类和预测 分类和预测功能可以用来提取描述重要数据类的模型 并使用模型预测来判定未知数据的类标号 从而预测未来的数据趋势 常用算法 判定归纳树 贝叶斯分类 k 最近邻分类等应用 可以根据用户的个人资料或者其特定的访问模式 将其归入某一特定的类可以根据用户对某类产品的访问情况 或者时根据其购物情况 或者根据其抛弃购物车的情况 来决定用户的分类 e g 对电子产品感兴趣的用户 并对相应的分类使用相应的促销策略 WebUsageMining 聚类分析 1 聚类 将对象的集合分组成为由类似的对象组成的多个类的过程 与分类的区别 常用聚类算法 划分方法 层次的方法 基于密度的方法等等 在WebUsageMining应用中包含着两种聚类 页聚类将内容相关的页面归在一个网页组 对网上搜索引擎及提供上网帮助很有用用户聚类将具有相似访问特性的用户归在一起 在电子商务的市场分割和为用户提供个性化服务中 能发挥巨大作用 WebUsageMining 聚类分析 2 聚类分析可以将喜好类似的用户聚类 从而动态地为用户定制观看的内容或提供浏览建议 比如 购买推荐系统或动态促销系统作用 1 方便用户查询和浏览2 增强广告的作用3 促进网上销售4 提高用户忠诚度 WebUsageMining 统计分析 1 统计分析通过求出现率 求平均 求中值等 统计最常访问的网页 每页平均访问的时间 浏览路径的平均长度等 以获得用户访问站点的基本信息 还能提供有限的低层次的错误分析 比如检测未授权入口点 找出最常见不变的URL等 可以用来计算客户对某页面的访问次数 停留时间等 得到访问次数最多的页面 或产品 URL等 WebUsageMining 统计分析 1 常用的电子商务网站用户访问数据统计 节选 平均一个用户访问8 10个页面在站点上花5分钟每个页面上花35秒平均一个购物的用户访问50个页面在站点上花30分钟这是经过大量的数据统计得出的结果 具有高度一致性 WebUsageMining 序列模式 序列模式试图找出页面依照时间顺序出现的内在模式序列模式可以用来做用户的浏览趋势分析 即一组数据项之后出现另一组数据项 从而形成一组按时间排序的会话 以预测未来的访问模式 这将有助于针对特别用户群安排特定内容 趋势分析访问模式的相似性分析 模式分析 在挖掘出一系列用户访问模式和规则后 还需要进一步观察发现的规则 模式和统计值 确定下一步怎么办 是发布模型 还是对数据挖掘过程进行进一步的调整 产生新的模型 经过模式分析得到有价值的模式 即我们感兴趣的规则 模式 采用可视化技术 以图形界面的方式提供给使用者 第8章基于WEB日志的用户访问模式挖掘 WEB日志挖掘的不足 WEB日志提供的数据非常有限 即使使用的是扩展日志格式 ECLF 主机名TimeRequest e g 一个网页的URLReferrerUseragent 浏览器及版本号 IP地址Cookie字节数和状态位等等 网页上都有什么 WEB日志的设计目的是分析WEB服务器的运行状况 而不是挖掘电子商务的交易数据和点击流虽然Web日志中给出了被访问页面的URL 但是这并不等于知道了该URL所指向的网页内容 给定一个URL 能不能提取出上面有什么 http www china 动态内容 随着互联网上的动态内容越来越多 基于WEB日志的分析与挖掘就越来越困难了同样的URL将会连接到不同的内容在动态站点 URL往往会很长很复杂而实际所指的内容却是在应用服务器的session上 重构session的困难 一个Session代表着一次用户和网站之间的连接 从Web日志中的多个用户的requests中重构每个用户的session是困难的 由于HTTP是无状态的 因此通过Web日志重构session只能依赖于假设与推断 而且用于假设与推断的数据也少得可怜IP地址Cookies浏览器类型 商业事件 对用户 点击流 事件的考察 最终必须定位到 商业事件 即将一个点击 或请求 的集合转化为一个逻辑上有意义的事件或商业细节 一些对数据挖掘很重要的商业相关事件无法由Web日志来决定购物中哪些东西添加到购物车 哪些又被抛弃了购物车中物品数量的增减网页上的促销信息当时显示的 没有库存 的商品表单数据检索 关键字以及没有找到内容的关键字 示例 关键字检索 在一个销售运动器材的电子商务网站 排名前10的检索关键字为 篮球录像足球排球乒乓球音乐书海报扑克手套 红色字体显示的关键字都有些什么共同特点 失败的检索 红色字体显示的关键字都是没有检索结果的关键字 有些关键字可能是因为用词不正确有些却传达了一种强烈的暗示 这个网站都还应该卖些什么东西而Web日志却没有足够的信息让我们来提取哪些关键字检索失败了在实际的电子商务网站中 11 的检索没有返回任何结果 将Web日志中的内容映射到数据库 从Web日志中提取一个URL请求 如何才能 将这个请求映射到在你的数据库中注册过的一个客户 决定这是这个客户的第几次访问 决定这个客户是否曾经购物 由事后来决定上述信息是极端困难的要想由一系列的请求来重构一个用户的购物过程就更加困难了 该挖掘什么 用点击率和访问量来决定一个站点成功与否 就好像用音量来决定音乐美妙与否 ForresterReport 1999对电子商务站点而言 只有转化率 购物者与浏览者之间的比率 才是最重要的指标对广告链接而言 更是如此给出一个指向你的广告的HTTP请求 你怎么决定该HTTP请求是否会带来一个销售 结论 现在流行的基于Web日志的数据挖掘并不是一个很好的选择电子商务中蕴涵有的数据 远比Web日志中所提供的内容要多两种比Web日志更好的数据收集方法 Packetsniffer在应用服务器层收集数据 第8章基于WEB日志的用户访问模式挖掘 PacketSniffer Packetsniffer通过侦听从Web服务器发送的数据包来获得跟电子商务相关的数据 优点可以获得比Web日志中更多的信息不需要改动现有的应用架构缺点在识别用户和session方面还是有困难逻辑信息提取困难无法探测到加密的信息 比如使用SSL协议传送的信息 而实际应用中 一些关键信息 像用户登陆 登出 用户信息传送都常常使用SSL协议 第8章基于WEB日志的用户访问模式挖掘 多层应用框架 J2EE EJB 应用服务器层数据收集 应用服务器层数据收集可以克服Web日志和Packetsniffer的缺点 对用户的访问数据做全面的收集和解析 应用服务器端可以得到返回给用户的所有内容应用服务器使用cookie技术 或者是URL编码技术 来记录一个用户的session应用服务器通过用户登陆机制来锁定一个用户 因而可以将每个点击定位到用户需要将数据收集机制和应用服务器端相集成 第8章电子商务与数据挖掘 基于WEB日志的用户访问模式挖掘 电子商务中进行数据挖掘的几个难点 爬虫 机器人大量数据的处理分析前的数据变换提供市场级的决策支持 网络爬虫 机器人 网络爬虫 机器人是自动访问你的站点的程序搜索引擎使用的爬虫 购物机器人 IE离线浏览器 E MAIL搜索者 一些PERL脚本 为了对客户行为作出准确研究 必须过滤掉爬虫 机器人的访问30 的session是由网络爬

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论