


全文预览已结束
付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于兴趣的电子商务数据挖掘技术的研究摘要 本文对电子商务Web页数据挖掘技术做了全面分析,对于个性化电子商务网站中难以发现用户兴趣行为特征问题,给出了Web页面关联算法。利用数据仓库技术可有效挖掘用户兴趣特征,从而指导电子商务网站资源的组织和分配,为商务型网站的投资者和建立者提供正确的盈利导向。 关键词 电子商务数据挖掘兴趣特征 数据挖掘技术是随着数据库技术和人工智能技术发展起来的一种新型的交叉信息技术。无论是B2B、B2C还是B2G电子商务模式,商品的采购者都需要通过Web方式与商品的供应商及其合作者之间建立信息流的交互,面向电子商务的数据挖掘的特点就是从Web数据库中,运用关联、分类、聚类等技术手段,从中提取出可以指导市场策略的有用数据。它基于“消费者过去的行为预示着其今后的消费倾向”的原理,通过收集、分析和处理从网上获取的有关消费者消费行为的数据,从潜在的、隐含的、事先不知的状态,经过提取、洗涤、加工变为潜力巨大的价值信息,从而实现网络营销的目的,确定特定消费群体或个体的消费习惯、爱好、倾向,进而预示出消费者下一步的消费行为,有针对性地提供服务。 一、电子商务Web数据挖掘技术 1.电子商务Web数据挖掘技术的分类 电子商务Web数据挖掘一般可分为三个部分:内容挖掘、结构挖掘、用法挖掘。Web内容挖掘有两种策略:直接挖掘文档内容和在其他检索工具搜索的基础上进行改进。Web结构挖掘是从WWW上的组织结构和链接关系中推导知识。Web用法挖掘的主要目标是从Web的访问记录中抽取感兴趣的模式。大多数基于数据库的数据挖掘方法均可作用于电子商务Web数据挖掘。 在研究以电子商务网上购物为应用背景的工作时发现。商家在Web上建立自己的在线商品目录,顾客(即用户)通过浏览器可以浏览商品目录、实现网上订购甚至网上支付等。用户与商家的Web服务器间交互的过程信息(包括用户的登录信息、用户的浏览记录)以及用户的个人简要信息等,都能以日志文件或顾客数据库的形式存在,从中找出规律性,对商家的市场销售是至关重要的;从大量顾客数据及日志数据中,应用到计算机并行处理、神经元网络、模型化算法和其他信息处理技术手段,挖掘出有意义的用户访问模式及相关的潜在顾客群,从中可得到商家用于向特定消费群体或个体进行定向营销的决策信息。同时有效地对这些Web日志进行定量分析,揭示其中的关联关系、时序关系、页面类属关系、客户类属关系和频繁访问路径、频繁访问页面等,不但可为优化Web站点拓扑结构提供参考,而且还可为企业更有效地确认目标市场、改进决策获得更大的竞争优势提供帮助。 2.电子商务Web数据挖掘模型构建和基本流程 电子商务Web服务器自动收集客户浏览信息并保存在访问日志、引用日志和代理日志中。典型的电子商务Web服务器日志文件包括以下信息:IP地址,请求时间,方法(如get),被请求文件的URL,HTTP版本号,返回码,传输字节数,引用页的URL和代理。 电子商务Web挖掘,首先对日志文件进行预处理,预处理主要由两部分构成:数据清洗(data cleaning)和事务识别(transaction identification)。包括对Web日志进行清洗、过滤和转换以及无关记录的剔除,判断是否有重要的访问没有被记录,并从中抽取感兴趣的数据;并将URL、资源的类型、大小、请求的时间、在资源上停留的时间、请求者的Internet域名、用户、服务器状态作为数据cube的维数变量;再将对模块、页面和文件请求次数,来自不同Internet域请求次数、事件、会话、带宽、错误次数、不同浏览器种类、用户所在组织作为度量变量建立data cube;而将文件、图像脚本及多媒体等其他文件转换成可用于Web使用挖掘的数据格式,从而可将数据挖掘技术用于Web流量分析、典型的事件序列分析和用户行为模式分析及事务分析。 定义函数log=ip,uid,url,time表示电子商务Web服务器日志。其中,ip,uid,url,time分别标识客户ip、客户id、客户请求的url和浏览时间。 在经过数据预处理阶段后,即可针对电子商务中不同的挖掘目标可以采用不同的数据挖掘方法,选择数据挖掘模式,如统计分析、关联规则、时序模式、路径分析(path analysis)及聚类、分类技术。 进行实际的挖掘操作的要点有:首先决定如何产生假设;选择合适的工具;发掘知识的操作;证实发现的知识。 二、基于兴趣的关联算法在电子商务中的Web挖掘应用 关联分析是寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相关性。序列模式与此类似,它寻找的是事件之间时间上的相关性,假设I=i1 ,i2 ,im 是所有项的集合, 相当于商品的所有种类的集合,D是所有事务的集合, 也即数据库中记录的集合, 事务T=t1 ,t2 , ,tn,tiI, 相当于交易中的商品列表。设X是一个I中项的集合,如果XTk,那么称交易Tk包含项集X,若X,Y为项集,XI, YI,并且XY=,则形如X=Y的表达式称为关联规则。 计算方法: 交易数据集中同时包含X和Y的交易数与所有交易数之比: support(XY)=P(XY)=|T:XYT,TD|/|D|100%(其中|D|是交易数据集D中的所有交易数),给定一个交易集 D, 挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度 (minsupp)和最小确信度(minconf)的关联规则。当规则的确信度和支持度分别大于minsupp、minconf 时,我们认为规则是有效的,称为强关联规则。当数据项集X的支持度大于minsupp时, 称X为高频数据项集。 关联规则发现任务的本质是要在数据库中发现强关联规则。在电子商务中关联规则的发现也就是要找到客户对网站上各种文件之间访问的相互联系。例如,用关联规则发现技术,我们可以找到以下的相关性:40%的客户访问页面/company/product1时,也访问了/company/product2。30%的客户在访问/company/special时,在/company/product1进行了在线定购。利用这些相关性,可以更好的组织站点,实施有效的市场策略。 三、数据挖掘技术的工具 随着电子商务和数据库技术的发展,越来越多的公司、厂家开始开发数据挖掘工具。如Oracle公司通过从Thinking Machine公司获得Darwin产品来增强其数据挖掘功能;IBM公司的Intelligent Miner提供了基于DB2的数据挖掘能力,提供了支持C+类和方法的API(应用程序接口);SAS公司推出的SASEM(Enterprise Miner)数据挖掘软件可以对Oracle、Informix、Syb
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年律师执业资格考试预测试题及答案解析
- 2025年机关事务局会议组织与管理职位笔试模拟题及解析手册
- 2025年部编版八年级下册语文教学工作计划
- 中小学校园防欺凌班级管理计划
- 新人教版七年级上册英语期末复习计划
- 虫害行为调控-洞察及研究
- 高校传染病疫情报告制度范文
- 河北景县梁集中学2026届化学高一第一学期期末复习检测模拟试题含解析
- 护理品管圈腕带
- 眼表免疫应答机制-洞察及研究
- 2025重庆对外建设集团招聘41人笔试参考题库附带答案详解(10套)
- 《无人机飞行控制技术》全套教学课件
- 石油行业较大危险因素辨识与主要防范措施
- 2025年教育管理领导力案例分析试题及答案
- 护士分配科室管理办法
- 颅内动脉瘤护理病例讨论
- 教师军训团建活动方案
- 新产品开发立项报告
- 2025届广东省深圳市罗湖区英语八年级第二学期期末教学质量检测试题含答案
- 期权开户考试题及答案
- 建筑工程装饰预算课件
评论
0/150
提交评论