电子商务与数据挖掘_第1页
电子商务与数据挖掘_第2页
电子商务与数据挖掘_第3页
电子商务与数据挖掘_第4页
电子商务与数据挖掘_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、电子商业和数据挖掘,基于WEB计程仪的用户网站数据库模型挖掘,电子商业和数据挖掘完全结合,在电子商业成功的数据挖掘是,电子商业提供大量数据的电子商业网站平均每小时卖出5项,每月平均点击次数为160万次。 丰富的记录信息良好的网站设计,丰富的信息有助于获得漂亮的数据从电子商业网站收集的都是电子数据,手动输入和来自历史系统的综合研究成果可以容易地转换为电子商业,很多知识发现应用直接投资收益容易测量, 电子商业为数据挖掘提供大量数据,“喀呖声流”产生电子商业挖掘大量数据Yahoo 2000年1天网站数据库的页数是1.0亿,这样大的网站数据库量产生庞大的Web计程仪(记载页网站数据库的情况),每小时发

2、生的Web日志量即使是小的电子商业站点,也可以在中断时间内计算数据挖掘所需的大量数据。 如果你的网站每小时销售5件物品,每月会有多少页访问: 5件2.4时间3.0日/2(转化率,表示访问人中购物者的比率) 9页(平均购买1件物品9页) 1,600,000页,记录丰富商品和商品的属性商品的分类信息(在多个商品被展示在云同步的情况下,分类信息非常有用)关于优惠促销信息网站数据库的信息(例如访问量)顾客额信息(可以通过计程仪登录/登记得到)、“清洁的数据”信息直接从网站提取不需要从历史系统统合, 避免许多错误可以通过良好的站点设计直接获得与数据挖掘相关的数据,直接收集用于分析、计算、预处理的数据的电

3、子数据确实不需要人工输入数据,避免许多错误通过良好的站点设计获得良好的控制数据有趣的“生日现象”不是由页面级别控制,而是由客户级别或session级别控制,银行统计客户数据,这五位客户在同一天出生(同年同月同日)! 为什么?怎么解释? 研究成果容易改变,在历史数据挖掘研究中有很多知识发现,但是这些个的知识发现给实际的业务应用带来什么样的效果,可能意味着复杂的系统变更、流程变更,或者改变人们的工作习惯,在现实中是非常困难的在电子商业,很多知识发现改变网站的设计(改变版结构、客制化设计等)以有目的的促销为开端,根据广告效应的统计数据改变化学基就能容易地提供捆绑软件销售,投资收益能容易地测量,使用数

4、据挖掘成果革新带来的收益是怎样测量的在传统的商业测量投资收益需要长期的测量和观察,Paco Underhill在购物大头针的科学书中说超市为了测量他们的营业推广策略带来的投资收益,每年要看1.4,000小时网络视频。 在电子商业,测量创新性的投资收益是一份非常容易的销售变化报告,可以在几天之内自动得到顾客对电子邮箱和电子调查的种子文件反馈,是传统商业的理想实验室,无需等待几个月即可完成整个电子商业和网际网络。 电子商务网站的Web数据挖掘通常应用于电子商务网站的数据挖掘技术是Web数据挖掘。 在电子商业网站上能发掘出什么吗? 使用“内容挖掘”、“结构挖掘”、“Web使用挖掘”和“Web内容挖掘

5、”挖掘网页的内容,并使用Web虽然可以从数百万个网站和上线了数据库中自动搜索和检索信息和资料的网际网络中直接获取目录索引,通过实现搜索服务获得资源,但是大量的“隐藏”信息只能通过内容挖掘自动挖掘。Web Structure Mining和Web Structure Mining挖掘网页之间的结构。 在整个Web空间中,有用的知识不仅包括在页面的内容中,也包括在页面的结构中。 Web结构挖掘主要面向页面的超级网络链接结构,如果指向它的超级网络链接多,则该页面很重要,所发现的知识可用于改善搜索路径等。 Web Usage Mining与Web Content Mining和Web Structur

6、e Mining不同,Web Usage Mining的挖掘对象是在与用户进行网络交互的过程中提取的二手数据。 计程仪信息(主要是用户网站数据库Web时在Web计程仪上留下的信息)包括网站数据库日期、时间、用户IP地址、服务器IP地址、方法、请求的URL资源、服务器响应状态、用户本代理、发送字节等。 Web Usage Mining挖掘系统计程仪信息和用户的登录数据等,发现有用的模式和知识。Web Usage Mining的作用是,通过对电子商业网站应用Web Usage Mining数据挖掘技术,可以提高网站质量改善WEB高速缓存区、缓解网络交通、提高性能,在电子商业中捕捉大量的采购流程细节

7、, WEB计程仪(1)典型的计程仪文件片段-0.1/aug/1953353353636001336038-0400 get/shutter/missions/STS-7.1/images/images.HTS 1.02008529.6.4.5- 0.1/aug/1953363000336001:39-0400 get/shutter/missions/STS-7.2/mission-STS-7.2.html http/1 . 1953336300336001:48-0400 get/persons/NASA-cm/jmd.html http/1.02004067以及网络计程仪

8、通常包含七个字段。 第一项:远程男公关地址指示网站数据库到站点的用户。 第二:读者的电子电子邮箱地址或其他唯一标识符。 到今天,我们在计程仪记录的第二项中几乎没有看到电子邮箱地址的机会,所以在上面用“-”标记的Web计程仪(2)、典型的计程仪文件片断-0.1/aug/195335335363001:38-0400 get/shutto STS-7.1/images/images.html http/1.2008529,第三项:在不需要用户身份验证来记录查看者进行身份验证时提供的名称的站点上,此字段为空第四项:请求的时间为第五项,服务器为哪个此信息的典型格式是“方法资源协议”,即“方法资源协议”

9、。这是Web计程仪中最有用的信息。 在上面的示例中,GET RESOURCE是浏览器向服务器请求的文档,或者URL PROTOCOL通常是HTTP,并且具有版本号。Web计程仪(3)、典型的计程仪文件片段-0.1/aug/195335336336001336038-0400 get/shutter/missions/STS-7.1/images/images.html http/1.02008 告诉你要求是否成功,有什么错误。 在大多数情况下,此值为200,表示服务器对浏览器请求的成功响应。 第7项:发送到客户端的总字节数。、网页使用挖掘的基本流程是进行网页使用挖掘主要是系统计程仪信息的数据挖

10、掘网站服务器计程仪error logs cookies网页使用挖掘的基本实现流程的预处理模式发现模式分析、预处理、 通过预处理,挖掘过程更为有效,为了便于数据清洗,对计程仪文件进行数据分析,删除与挖掘无关的项,比如在用户请求方法中删除非GET的查询密码的用户标识计程仪文件, 仅记录了男公关或在线代理服务器的IP地址,为了识别用户,需要使用Cookie技术和启发规则来鼎力相助识别符的路径完成,以及确认Web计程仪中是否有重要的页面网站数据库记录缺失的上通告识别上通告识别符,涉及尝试挖掘怎样的知识、对模式发现、预处理的数据应用各种数据挖掘的功能和算法,发掘有用模式和规则的过程。 Web Usage

11、 Mining中使用的Web计程仪分析和用户行为模式的挖掘方法是:相关分析分类和预测聚类分析序列模式统计分析、Web Usage Mining相关分析(1), 作为通过分析用户网站数据库的网页间的潜在联系总结的规则的用户的80%在网页/company/product1中网站数据库的情况下,在/company/product 2中也网站数据库的一般的算法Apriori算法及其变形算法、 挖掘网站数据库页中频繁网站数据库的页面定径套(诸如频繁的模式树(FP-树)算法)意味着,例如由A=B=C A=B=D、A=B、A=B=E=F、Web Usage Mining相关性分析(2)相关分析挖掘出的频繁眼

12、睛可用于预取可请求页面以减少等待时间,以及频繁的项目定径套(页面定径套) a, 关于b,当用户网站数据库到a时,将页面b读入高速缓存区,改善Web高速缓存区,缓和网络交通,提高性能,频繁的项目定径套a, 关于b,只要分别代表两个产品的网页,就表示两个产品之间有关联,利用这一点,可以在电子商业的实践中提示更有效的优惠促销策略和广告策略,Web Usage Mining分类和预测、分类和预测功能提取描述重要的数据类的模型,作为模型一般算法:判定归纳木、贝叶斯分类、k-最近邻分类等的应用:根据用户的个人资料和其特定的网站数据库模式,分类到某个特定的类,根据用户对某个产品的网站数据库状况化学基,或者根

13、据其购物大头针状况化学基, 或者,可以根据抛弃购物车的状况,决定用户的分类(e.g .对电子产品感兴趣的用户),并对该分类应用适当的营业推广策略。Web Usage Mining聚类分析(1)、聚类:将对象集合分组为类似对象的多个类的过程。 (与分类有什么不同? (一般聚类算法:分割方法、分层方法、基于密度的方法等。 Web Usage Mining应用程序包含2种集群。 页面分组通过将与内容相关的页面组合成一个页面组来实现,并且用于网际网络搜索引擎和网际网络鼎力相助的用户分组通过将具有相似网站数据库特性的用户组合成市场划分电子商业以及向用户提供个人化服务来实现, 能够起到很大作用,Web U

14、sage Mining聚类分析(2)、聚类分析使得相似的用户能够喜好,并且动态地向用户客制化视听内容或者提供阅览广告老虎钳。 例如,购买推荐系统和动态促销系统的作用:1)方便用户的询问法和浏览的作用;2 )加强广告的作用;3 )促进在线销售的作用;4 )提高用户企业忠诚度的作用;Web Usage Mining统计分析(1);在统计分析中,求出出现率,求出平均值; 汇总最常网站数据库的网页(包括求中值),获取用户在网站上网站数据库的基本信息,包括每页的平均存取时间、平均浏览路径长度等。 它还可提供有限的低级错误分析,例如检测未授权入口点并找到最常见的不变URL。计算客户端到某页的网站数据库次数、停留时间等,并将网站数据库次数最多的页(或产品、URL等)、Web Usage Mining统计分析(1)、一般电子商务网站的用户网站数据库数据统计(摘录)平均810页网站数据库到站点每一页3.5秒,购物大头针的用户在站点上网站数据库5.0页所花费的3.0,是大量数据统计的结果,具有很高的一致性。Web Usage Mining序列模式、序列模式能够找出页面按时间序列出现的内在模式序列模式,用于用户阅览倾向的分析。 也就是说,在数据项定径套之后,另一数据项定径套出现以形成在时间上排序的会话,以预测未来的网站数据库模式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论