




已阅读5页,还剩49页未读, 继续免费阅读
(计算机软件与理论专业论文)基于cf的个性化电子商务推荐系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
兰州大学硕士学位论文基于c f 的个性化电子商务推荐系统研究 摘要 随着互联网技术的发展,网络用户剧增。电子商务也越来越受到企业和消费 者的青睐。电子商务推荐技术作为电子商务中的重要技术,模仿销售员向客户推 荐客户偏好度较高的产品。如何提高电子商务推荐系统的推荐质量,目前已成为 专家学者们研究的热点。 本文将数据仓库技术应用到电子商务体系构建中,介绍了w e b 环境下进行 会话识别、客户识别、路径辨别、数据清理、数据集成、数据装载等技术,为电 子商务数据挖掘提供规范的数据。同时本文在关联规则、协同过滤等技术的基础 上设计了个性化的推荐系统。根据客户特点,将客户进行分类,并根据客户不同 的分类,采取不同的模式挖掘算法。提出基于内容的跟踪树算法、基于关联规则 的协同过滤,并引入分区的理念,为客户提供个性化的服务,从而提高电子商务 推荐系统的推荐质量。最后,对算法进行了分析。 关键字:数据仓库、数据挖掘、电子商务推荐系统、协同过滤、面向客户 兰州大学硕士学位论文基于c f 的个性化电子商务推荐系统研究 a b s t r a c t i n t e m e tu s e r si n c r e a s i n gr a p i d l yb yt h ed e v e l o p m e n to fi n t e r n e tt e c h n o l o g y e - c o m m e r c eh a sb e e ng r o w i n gc o n c e r nb yb u s i n e s s e sa n dc o n s u m e r s e - c o n l l n e r c e r e c o m m e n d e rs y s t e mi sav e r yi m p o r t a n tt e c h n o l o g yo fe - c o l i l n l e r c et h a ti m i t a t e s e l l e r sr e c o m m e n dp r o d u c t st h a tc u s t o m e rp r e f e r e n c e s h o wt oi m p r o v et h eq u a l i t yo f e c o m m e r c er e c o m m e n d a t i o ns y s t e m ,h a sb e c o m eah o tr e s e a r c hb ye x p e r t sa n d s c h o l a r s i nt h i s a r t i c l e ,d a t a w a r e h o u s et e c h n o l o g yi su s e di ne c o m m e r c e w eg e t n o r m a t i v ed a t af o re - c o m m e r c ed a t am i n i n gb ys e s s i o ni d e n t i f i c a t i o n ,c u s t o m e r i d e n t i f i c a t i o n ,p a t hi d e n t i f i c a t i o n ,d a t ac l e a n i n g ,d a t ai n t e g r a t i o n ,d a t al o a d i n g e t c p e r s o n a l i z e de - c o m m e r c er e c o m m e n d e rs y s t e mi sp r o p o s e db a s e do nc o l l a b o r a t i v e f i l t e r i n g ,w h i c hc l a s s i f yc u s t o m e r s ,a n da c c o r d i n gt oc u s t o m e rc l a s s i f i c a t i o n ,a d o p ta d i f f e r e n tp a t t e r nm i n i n ga l g o r i t h m sb a s e do nc u s t o m e rc h a r a c t e r i s t i c s t h i sa r t i c l e p r o p o s e dc o n t e n t - b a s e dt r a c k i n gt r e e ,a r - b a e s dc o l l a b o r a t i v ef i l t e r i n g ,a n dp u l li n z o n i n gc o n c e p tt op r o v i d ec u s t o m e r sw i t hp e r s o n a l i z e ds e r v i c et oe n h a n c et h e r e c o m m e n d a t i o nq u a l i t yo fe - c o m m e r c er e c o m m e n d a t i o ns y s t e m f i n a l l y , w ea n a l y s i s o ft h ea i g o r i t h m k e y w o r d s :d a t aw a r e h o u s e ,d a t am i n i n g ,e - c o m m e r c er e c o m m e n d e rs y s t e m , c o l l a b o r a t i v ef i l t e r i n g ,c u s t o m e r o r i e n t e d i i 原创性声明 本人郑重声明:本人所呈交的学位论文,是在导师的指导下独立 进行研究所取得的成果。学位论文中凡引用他人已经发表或未发表的 成果、数据、观点等,均已明确注明出处。除文中已经注明引用的内 容外,不包含任何其他个人或集体已经发表或撰写过的科研成果。对 本文的研究成果做出重要贡献的个人和集体,均已在文中以明确方式 标明。 本声明的法律责任由本人承担。 论文作者签名:互童 盟日 期:塑! ! :垡 关于学位论文使用授权的声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归 属兰州大学。本人完全了解兰州大学有关保存、使用学位论文的规定, 同意学校保存或向国家有关部门或机构送交论文的纸质版和电子版, 允许论文被查阅和借阅;本人授权兰州大学可以将本学位论文的全部 或部分内容编入有关数据库进行检索,可以采用任何复制手段保存和 汇编本学位论文。本人离校后发表、使用学位论文或与该论文直接相 关的学术论文或成果时,第一署名单位仍然为兰州大学。 保密论文在解密后应遵守此规定。 论文储擗:芈剔磴轹 日期:踟口t 沙 兰州大学硕士学位论文基于c f 的个性化电子商务推荐系统研究 第一章绪论 1 1 选题的背景和意义 随着科学技术的发展,尤其是计算机技术和信息技术的迅猛发展,互联网的 普及,电子商务也取得了快速的发展。电子商务为客户提供了丰富的商品,同时 电子商务网站在运行时也产生了大量的数据。然而作为顾客在电子商务网站上购 物时,因为没有传统销售模式下的营销员的引导,往往很难快速定位到自己需要 的商品,这样容易造成客户对电子商务的兴趣度降低,从而导致客户的流失。如 何解决这个制约电子商务发展的瓶颈问题? 如何将电子商务产生丰富的数据转 化为知识? 如何让客户在丰富的商品中快乐的购物? 针对这些问题,在电子商务 网站上使用数据仓库技术、进行数据挖掘和商品推荐势在必行。 1 1 1 电子商务的发展现状 根据新华网公布的数据【1 1 ,2 0 0 7 年我国电子商务交易总额已经达到2 1 7 万 亿元,比2 0 0 6 年度增长了9 0 :跟据商务部的预计,未来的1 0 年内,将会有 7 0 的贸易额通过电子交易来完成,电子商务将会成为主流的商业经济模式。国 内的电子商务网站淘宝网由阿里巴巴于2 0 0 3 年7 月建立,在不到3 年的时间里, 就成为了亚洲最大的电子商务网站。截止到2 0 0 8 年底,淘宝网注册会员达到了 9 8 0 0 万人。 如图1 1 所示,导致电子商务迅猛发展的主要原因有以下几个方面: 1 、网络用户的大幅增加,为电子商务提供了广泛的客户来源。根据第2 3 次中国互联网络发展状况统计报告【2 】截至2 0 0 8 年年底,我国网民已经达到2 9 8 亿人,比2 0 0 7 年增长了4 1 9 ,互联网普及率也达到了2 2 6 ;其中网络购物 用户人数已经达到7 4 0 0 万人,年增长率为6 0 。 2 、客户在电子商务上购物,不出门,便可以享受网络购物带米的便捷和快乐。 3 、电子商务网站节省了传统经营模式下的经营店面、营业人员和仓储没施所 必需成本投资。 兰州大学硕士学位论文基于c f 的个性化电子商务推荐系统研究 4 、电子商务的进入和退出成本降低,规避了投资风险,即使企业因经营不利 而退出电子商务,损失也不会很大。 5 、传统的店面具有商品陈列的限制,而电子商务消除了这个界限,可以为客 户提供一个无限大的商品陈列空间。 图1 1 电子商务迅猛发展原因剖析 1 1 2 数据仓库在电子商务应用的必要性 电子商务的迅猛发展,引起了企业界的广泛关注,电子商务越来越受到企业 的青睐。同时电子商务在运行过程中产生大量的数据,包括网络客户注册数据、 电子商务提供的商品数据、网络客户的消费行为数据等。如何对这些数据进行处 理,如何从这些数据中获取知识,了解顾客的消费行为,为企业的决策提供支持, 对企业的发展来说至关重要。 数据仓库技术与传统的数据库技术相比,具有以下优势: 1 、传统的数据库技术,对电子商务过程中产生的数据应用仅仅局限于简单 的数据处理与存储,无法有效的利用这些数据或信息为管理者制定决策提供重要 参考和依据。 2 、传统数据库技术无法实现数据的分类、合成以及深层次处理等功能。 3 、电子商务围绕决策的主题组织数据,并利用历史数据做决策时,这些是 2 兰州大学硕士学位论文基于c f 的个性化电子商务推荐系统研究 传统数据库技术无法满足和实现的。 4 、数据仓库技术能够实现把决策者需要的主题信息从原始的操作型数据中 提取出来;同时实现把难以访问的、分散的原始操作型数据经数据消噪、数据集 成、数据转换等处理后转化成随时可访问的、主题集中的信息。 数据仓库技术能够对数据信息实现全面、高效、合理的管理。因此,研究数 据仓库技术并将其应用于电子商务系统中对电子商务的发展将起到至关重要的 作用。 1 1 3 数据挖掘在电子商务应用的必要性 电子商务网站为顾客提供了丰富的商品,但是电子商务网站又没有传统营销 模式下的销售员进行个性化的导购。这样导致客户无法在短时间内迅速的定位到 自己所需要的商品或自己感兴趣的商品,使客户面临严重的“信息超 载”( i n f o r m a t i o no v e r l o a d ) 3 1 现象。在这种状况下客户难免会浏览大量不相关的信 息,从而导致使客户产生购物疲劳甚至失去购物兴趣而离丌,造成客户流失和企 业的损失。因此,挖掘客户的购买行为,对客户进行分析,为客户推荐其感兴趣 的商品势在必行。 电子商务在运行当中会产生大量的数据,这些数据为电子商务进行数据挖掘 提供了基础。在电子商务中进行数据挖掘具有以下便利条件: 1 、收集信息的便利性,通过网上购物系统可以很方便的获取客户的注册信 息并记录客户的交易行为;通过w e b 使用日志可以获取客户的浏览行为。如客 户浏览了哪些页面,浏览路径是什么,客户将哪些商品放进了购物车,又有哪些 商品最终购买。 2 、电子商务系统收集信息的准确性和完整性,电子商务中大多数数据都是 通过系统自动的收集,这样可以大大减少手工收集数据产生的错误。 3 、在电子商务系统的基础上实现数据挖掘相对较为容易。电子商务系统具 有较高的自动化、网络化和信息化,这些特性使数据挖掘系统容易和电子商务系 统进行结合。 基于客户的需求、企业的需求以及电子商务本身进行数据挖掘的优势,我们 认为基于电子商务的数据挖掘足必要的,而且是可行的。 3 兰州大学硕士学位论文基于c f 的个性化电子商务推荐系统研究 1 2 电子商务推荐系统研究现状 目前,很多大型的商务网站已经开始使用电子商务推荐系统,如新浪商城 ( h t t p :m a l l s i n a c o m 饥) 、网易商城( h t t p :m a l l 16 3 e o m ) 、e b a y ( h t t p :w w w e b a y e o m ) 等。随着电子商务推荐系统的广泛应用,电子商务推荐技术也成为目前研究的热 点。 目前,国内外的大量专家、学者对电子商务推荐技术已经开展了大量的研究。 p e n n o c k 从社会选择理论( s o c i a lc h o i c et h e o r y ) 1 4 ,y a g e r 从模糊集( f u z z ys e t ) 【5 】、 l i j i m a 等人多准则决策( m u l t i c r i t e r i ad e c i s i o nm a k i n g ) 【6 】的角度对其进行了剖析; n a s r a o u i 等人通过对客户访问模式进行聚类的方法预测客户的未来访问行为【刀; s c h e c h t e r 等人以客户的访问路径为研究对象,预测客户未来可能的请求,并让 代理服务器执行预提取操作,将相关w e b 页面放入到c a c h e 中,从而提升了客 户的访问速度【8 1 。另外电子商务推荐系统已经开发出来的还有s i t eh e l p e r 系统【9 1 、 f o o t p r i n t s 系统1 0 1 、a v a n t i 系统【l l 】、w e bw a t c h e r 系统【1 2 】等。协同过滤 ( c o l l a b o r a t i v ef i l t e r i n g ,c f ) 被认为是电子商务推荐技术中应用最广泛的、效果最 好的推荐算法。但是协同过滤算法也存在着诸如客户评分数据稀疏性( s p a r s i t y ) 、 首次访问客户冷启动( c o l d s t a r t ) 、算法的可扩展性( s c a l a b i l i t y ) 等问题f 1 3 】。 1 3 创新点及组织结构 1 3 1 主要创新点 本文在大量的电子商务数据挖掘研究和电子商务推荐系统研究的基础上,结 合电子商务目前研究的热点以及电子商务推荐系统中遇到的瓶颈问题,提出了基 于数据仓库和数据挖掘的电子商务推荐系统,主要创新点为: 1 、构建了电子商务数据仓库的事实星座模型,将数据仓库技术和数据挖掘 技术结合起来应用到电子商务中,为电子商务推荐系统以及电子商务数据挖掘提 供面向主题、规范的数据。 2 、本文基于协同过滤算法,提出了个性化的电子商务推荐系统,主要包括 面向客户的模式挖掘和面向客户的协同过滤。针对不同的客户采取不同的模式挖 4 兰州大学硕士学位论文 基于c f 的个性化电子商务推荐系统研究 掘方式,并根据客户的不同将协同过滤算法进行降维处理,为客户提供个性化很 强的推荐服务,提高推荐质量。 1 3 2 论文组织结构 本文以数据仓库在电子商务中的应用为基础,以数据挖掘技术为理论依托, 以提供个性化服务的面向对象的电子商务推荐系统为研究重点,展开论述。 第一章为绪论部分,主要介绍了本文选题的意义,目前研究现状。 第二章重点介绍了数据仓库技术的特点、发展趋势、数据仓库在电子商务中 的应用模型,介绍了电子商务环境下数据的清理、转换、集成、装载等技术,为 数据挖掘提供数据支持。 第三章对数据挖掘技术在电子商务中的应用进行了阐述,提出电子商务推荐 系统的系统结构及关键技术,重点介绍了关联规则和协同过滤算法,为面向客户 的电子商务推荐系统提供技术保障。 第四章基于协同过滤算法提出个性化的电子商务推荐系统,针对不同的客户 采取不同的推荐算法,并提出面向客户的协同过滤算法,并进行了论述和实验验 证。 第五章是总结与展望部分,总结了本文的主要工作,对未来工作进行展望。 兰州大学硕士学位论文 基于c f 的个性化电子商务推荐系统研究 第二章数据仓库技术 2 1 基于电子商务的数据仓库系统模型 图2 4 基于电子商务的数据仓库系统模型 如图2 4 ,基于电子商务的数据仓库系统主要包括数据处理、数据集成与装 载、提供分析处理服务三个部分。原始数据经过数据抽取、数据转换、数据清理、 数据集成、数据装载等环节存入数据仓库,并为数据挖掘提供数据支持和保障。 数据仓库在电子商务数据挖掘中起到承上启下的作用。 2 。2 电子商务数据挖掘的数据源 2 2 1 数据来源 电子商务的数据源主要存储在客户数据库、商业数据库以及w e b 使用日志中, 这些数据源主要包括以下几种: 1 、客户注册信息,如客户的姓名、年龄、性别、所在地、职业、收入状况 等信息。在数据挖掘中,客户注册信息要和访问日志、客户评分等信息进行集成, 6 兰州大学硕士学位论文基于c f 的个性化电子商务推荐系统研究 便于更进一步了解客户需求,以提高数据挖掘的准确度。 2 、存储在传统关系数据库里的有关电子商务的商品信息、商务站点信息、 客户交易数据、购物篮数据、客户对商品的评分数据等。 3 、客户端的访问请求信息。 4 、电子商务网站服务器上存储的客户浏览日志。客户访问电子商务网站, 便会在服务器上留下记录,这些客户浏览记录可分为查询数据和w e b 同志文件【1 5 】 【1 6 】【l7 】,其中w e b 日志文件包括e r r o r l o g s 、c o o k i el o g s 、s e r v e rl o g s 。 e r r o rl o g s : e r r o rl o g s 为请求失败的数据,包括超时,授权失败,丢失连接等。 c o o k i el o g s : c o o k i e s 记录客户访问服务器的信息。其中服务器上存储的c o o k i e 部分是 c o o k i el o g s ,c o o k i el o g s 包含的内容有:“n a m e ,p a t he x p i r y ,d a t e ,d o m a i n ,s e c u r i t y l e v e l ”。 s e r v e rl o g s : s e r v e rl o g s 按照两种格式进行存储【18 1 ,普通日志文件格式c l f ( c o m m o nl o g f o r m a t ) 格式或扩展同志文件格式e c l f ( e x t e n d e dc o m m o nl o gf o r m a t ) 。其中 c l f 包含“d a t e ,u s e rn a m e ,c l i e n ti p ,s e r v e r ,b y t e s ,r e q u e s t ,s t a t u s ,s e r v i c e n a m e ,p r o t o c o lo fv e r s i o n ,t i m e ,u s e ra g e n t ,c o o k i e ,r e f e n e r 客户访问电子 商务网站的信息内容。e c l f 包括以下数据域:i p a d d r e s s ,也就是发出请求的客 户的i p 地址;t i m e d a t e ,为服务器端收到客户请求的时间:m e t h o d u r l p r o t o c o l , 即客户请求的方法、请求的u r l 以及使用的协议。u r l 可以是一个静态文件, 也可以是在应答时需要调用的可执行文件的名字,即u r l 地址。u r l 地址包括 以下信息:s t a t u s ,即对客户请求的应答返回码;s i z e ,即返回的字节数;r e f e r r e r , 即当前u r l 的引用页;a g e n t ,即客户端使用的操作系统或浏览器软件。 5 、查询数据 查询数据是电了商务站点在服务器上产生的数据。如客户搜索某种商品或某 些广告信息,这些信息通过c o o k i e 或者客户注册信息连接到服务器的访问日志 卜。 7 兰州大学硕士学位论文基于c f 的个性化电子商务推荐系统研究 2 2 2 数据源分类 根据数据的来源形式,可以将数据源分为显式数据和隐式数据。显式数据指 客户直接给出的自己的偏好信息,如典型的客户对商品进行等级评价的数据。显 示数据的针对性较强,数据的可用性较大。但是显式数据比较难获取,因为大多 数的客户可能因为隐私而不愿给出自己的偏好信息,另外对商品进行评分也会增 加客户的负担。 隐式数据指的是客户以一种隐蔽的方式表达自己的兴趣偏好,通常这种偏好 反映在客户网上浏览或购物的过程中所表现出自己的兴趣偏好。如客户对某商品 比较感兴趣,便会在在商品的页面上浏览时问较长。以隐式数据为研究对象的电 子商务推荐系统能自动获取数据,一般不需要客户人为地给出自己的偏好信息。 但是,这种方法对数据处理技术要求较高,要进行大量的处理才能转化为对决策 者有用的信息。 2 2 3 原始数据处理 1 、数据抽取 电子商务数据抽取是指在电子商务系统中,提取与电子商务决策相关数据的 过程。由于电子商务的数据挖掘具有较强的动态性,所以电子商务数据仓库需要 增量的从客户数据库、商业交易数据库和w e b 使用日志中提取数据。客户数据 库的信息主要记录客户的相关特征,如客户名、客户i d 、年龄、性别、职业、 收入、学历、电子邮件、联系方式和家庭住址等,这些数据可以从客户登记信息 中或从电子商务网站的注册页面中获得。但是,对于未注册的客户很难获取该类 信息;商业数据库用来记录客户进行商品交易的数据,包括客户i d 、客户名、 交易时间、交易商品名称、交易商品数量、交易商品价格、销售地点等信息; w e b 使用r 志数据记录客户对电子商务站点的浏览访问行为,通常以c l f 、e c l f 两种日志格式进行存储信息,与电子商务数据挖掘相关的信息主要包括客户i p 地址、请求域、状态域、代理域、引用域、大小域和时问戳信息。 2 、数据转换与消噪 经过数据抽取后的数据大多是含噪声的( 错误的或偏离期望的孤立点) 、不 兰州大学硕士学位论文基于c f 的个性化电子商务推荐系统研究 完整的( 有些感兴趣的属性缺少属性值,或仅包含聚集数据) 或不一致的数据。 这些数据很难直接应用于电子商务决策支持和电子商务推荐系统中,这就需要我 们对这些数据进行转换和消噪处理,将其转变为适合电子商务数据挖掘和模式发 现的数据形式。在电子商务数据仓库的数据处理中,客户数据文件、商业数据库 的数据转换和数据清理工作较简单,可以采用分箱、聚类、计算机和人工相结合、 回归等方法,已有的论述也比较多,本文不再进行介绍,本文介绍的重点是w e b 使用日志中的数据转换与数据清洗【2 0 】: 数据清洗。数据清洗是指消除数据中的冗余和噪声,清除与电子商务数据挖 掘任务无关的客户访问日志记录。由于客户对电子商务w e b 服务器进行请求, 需要每个文件都形成一个连接,这样客户向电子商务网站请求的一个页面中包含 多个文件,就需要进行多个连接,同时也在电子商务服务器同志上形成了多条记 录。 首先,我们需要进行相关识别工作。 ( 1 ) 通过状态域识别出的客户请求失败的访问记录; ( 2 ) 通过检查r o b o t s t x t 文件或检查代理域,识别出网络爬虫( c r a w l e ro i s p i d 哪和搜索代理( a g e n t ) 等对电子商务网站进行访问的记录【2 0 】; ( 3 ) 识别出文件后缀名为z i p 、j p g 、j p e g 、g i f , c g i 、j s 的访问记录。 我们可将服务器日志文件中后缀为西f ,j p g ,j p e g 和m a p 的记录项删除;将 请求失败的记录删除。以一个w e b 日志数据为例,w e b 日志数据包括以下几个 部分: 210 2 6 51 3 9 - 0 7 m a y 2 0 0 9 :0 0 :o o :o o + 0 0 0 0 】f t g e t l z u s d h n o t i c e h t m l h t t p 1 0 2 0 0 ”3 0 4 ”h t t p :w w w t u a n w e i 1 z u e d u c n ”m o z i l l a 4 0 4 ” 对以上w e b 同志数据进行解读:i p 地址为2 1 0 2 6 5 1 3 9 ;访问时间为 “0 7 m a y 2 0 0 9 :0 0 :0 0 :0 0 + 0 0 0 0 ”;状念“g e t ”;请求网址为“l z u s d h n o t i c e h t m l ”; 协议为“h t t p 1 0 2 0 0 ”;状态为“3 0 4 ”;参考页面为 “h t t p :w w w t u a n w e i 1 z u e d u c n ”;代理“m o z i l l a 4 0 4 ”。 去掉对电子商务数据挖掘无关的信息,经过数据清洗、数据转换后,将数据 存到如表2 1 结构的数据表中。 表2 1w e bl o g 表 序号字段名中文名数据类型备注 9 兰州大学硕士学位论文基于c f 的个性化电子商务推荐系统研究 1 i t e m k e y 索引 c h 缸2 0 ) 外键 2 u s e r _ k e y客户i dc h a r ( 5 0 )外键 3s e s s i o nk o 客户会话i d c h a r ( 5 0 ) 外键 4 i p _ a d d r e s s 客户口地址c h a r ( 3 0 ) 5v i s i t t i m e 访问时间c h a t ( 6 0 ) 6 v i s i t _ u f l 访问u r l c h a r ( 6 0 ) 7 r e f e r e d 参考页面 c h a r ( 3 0 0 ) ! g i 朗t 垡垄篮皇! 亟1 5 0 0 2 i 一 一_ 3 、客户识别 客户识别主要有两种方式:一种是通过客户的注册登记信息进行识别;一种 是通过客户的i p 地址进行识别。通过客户的注册登记信息进行识别比较容易, 但对于未注册客户无法进行识别。通过客户的i p 地址进行识别,受到代理服务 器、防火墙和本地缓存的影响,可能使得具有相同的i p 地址的访问对应着不同 的客户。这样根据i p 地址识别客户变得困难。我们可以通过以下方法进行识别: ( 1 ) 访问者的p 地址不同,代表访问者为不同的客户; ( 2 ) i p 地址相同但是代理域不同,代表不同客户; ( 3 ) i p 地址相同,但客户当前请求的页面与历史访问的页面之间没有超链 接关系,我们认为不同的客户; ( 4 ) i p 地址相同,但是客户所使用操作系统或网络浏览器不同,代表着不 同的客户。 会话识别。会话表示客户在一次电子商务网站的浏览过程中连续访问的网页 页面的序列集合。会话可以采用如下形式进行表示: s e s s i o n = u i d ,t i m e b ,t i m e e “( u r l l ,t i m e l ) ,( u r l 2 ,t i m e 2 ) ,( u r l n ,t i m e n ) 。 其中u i d 是客户的标识符,用来确定具体的客户;u r l i 和t i m e i 分别表示为会话 第i 次访问的页面和该页面被访问的时间;t i m e b 和t i m e e 分别表示会话的开始和 结束时间。 4 、路径补充 当客户向w e b 服务器发出页面请求时,由于客户端页面缓存技术和代理服 务器的使用,如果被请求的页面存在于代理服务器或者缓存当中,电子商务w e b 服务器就不会接收到这个请求信息。这样就造成电子商务w e b 服务器的访问日 志文件没有记录本次请求,从而使得w e b 服务器访问日志中所记录的路径与客 户的实际访问路径不符,可能不是客户完整的访问路径。当我们利用不完整的访 1 0 兰州人学硕士学位论文基于c f 的个性化电子商务推荐系统研究 问日志进行电子商务数据挖掘时,挖掘出的模式很可能是片面的、不准确的。所 以,我们认为对客户的访问路径进行有效的补充是有必要的。 我们可以结合站点的拓扑结构对客户访问路径进行补充,我们将站点的拓扑 结构用前缀树进行表示,如图2 5 所示。 d 图2 5 客户访问路径前缀树 根据客户访问路径前缀树图,结合页面进行分析,便可以对客户访问路径进 行补充。具体的补充办法如下: ( 1 ) 路径不完整判断:客户被请求的w e b 页面不是直接链接到当前客户已 经请求的最后一个w e b 页面上,我们认为就出现了路径不完整的情况,需要对 客户访问路径进行补充。 ( 2 ) 路径补充:首先对客户的访问日志进行检查,如果客户历史访问记录 中有这个页面的参照页,我们认为客户使用了“后退”按钮。如果在客户的历史访 问记录中,直接链接到该页面有多个页面,根据网站的网页拓扑结构,我们从请 求时间上选定最接近当前请求页面的页面,作为本次请求的参照补充页面实现路 径补充。文献2 】取两个页面访问时间的中蒯点作为补充页面的访问时问。 2 2 4 数据集成、数据装载与多维数据模型构建 电子商务数据仓库的数据集成阶段是基于多维的数据模型。我们将w e b 使 用日志、客户数据库、商业数据库中的数据进行合并,并集装载到格式一致的电 子商务数据仓库中。因为电子商务数据的复杂性,我们采用事实星座模型的多维 数据模型,也便于数据挖掘和联机分析处理,如图2 6 所示。 兰州大学硕士学位论文基于c f 的个性化电子商务推荐系统研究 客户行为事实表 图2 6 电子商务数据仓库事实星座模型 由图2 6 可以看出事实星座模型主要由事实表和维表两个部分构成。 ( 1 ) 事实表。我们根据事实表分析维之间的关系。本文提出的电子商务数 据仓库的数据模型包括销售事实表和客户点击事实表两个主题事实表。如表2 2 所示,销售事实表包含5 个维表的关键字:客户维表关键字u s e r _ k e y 、时间维表 键字t i m e _ k e y 、地点维表关键字l o c a _ k e y 、产品维表关键字p r o d _ k e y 和活动维表 关键字b e h a _ k e y 以及商品销售单价d o l l s o l d 和商品销售数量u n i t _ s o l d 两个度量。 表2 2 销售事实表 如表2 3 所示,客户行为事实表包含6 个维表的关键字,月j 户维表关键字 u s e r _ k e y 、时间维表键字t i m e _ k e y 、地点表关键字l o c a _ k e y 、活动维表关键字b e h a 蛊要一 一一:2j 5 i釜等 一一一一一一一一一一一一一一一 萋三兰 留叼吖q卵m一潮 一一一一一一一一一一一一一 一一一一一似一曲一一一一一 焖一一一一一一 一 一e y 一 一pedy k i t a一一a一一日j h h he e eb b b 盯一 一竺kyn t一仃一一一y cnot oor一1 兰ij曲 吖一硼一阳一以一n一她kntcs一旧 一一 一一 一一 一一 一一珂 ddddd一一 0一o000一d 一一一一一一一 兰州大学硕士学位论文基于c f 的个性化电子商务推荐系统研究 k e y 、引用维表关键字r e c o _ k e y 和i p 地址维表关键字i p _ k e y 和以及页面浏览时间 v i s i t _ t i m e 、传输字节数u n i t s _ s o l d 和h ”r p 状态码h t t p _ e o d e3 个度量,传输字节数 和h t t p 状态码从w e b 使用日志大小域和状态域中提取。 表2 3 客户行为事实表 ( 2 ) 维表。本文设计电子商务数据仓库有七个维表:如表2 4 所示,时间 维表分为年、月、周、日、小时、分、秒7 各层次,并可以根据时间维表进行 o l a p 的上卷和下钻操作;地点维表包含国家、省份、城市三个概念抽象层次; 商品维表记录商品的名称、型号、类型、颜色、材料等信息;活动维表记录会话 开始、会话结束、登录、下载、点击、购买等活动;客户维表记录客户的性别、 年龄等信息;i p 地址维表记录电子商务网站访问客户的i p 地址信息;引用维表 记录客户引用或访问u r l 地址情况。7 个维表由多个全序或偏序的概念分层属 性组成,从而为电子商务的数据挖掘提供从不同角度观察数据的灵活性和查询约 束。 表2 4 维表概况 电子商务数据仓库的数据装载阶段利用数据库管理系统提供的后端管理,对 事实表和维表进行汇总、建立索引、排序、计算视图与备份等操作,并将数据分 级处理、增量地更新到数据仓库中。 兰州大学硕士学位论文基于c f 的个性化电子商务推荐系统研究 2 2 5 数据仓库的管理与维护 根据电子商务的性质,大型的电子商务每天都会产生大量的数据,相关的数 据管理也应该以天或更小的时间粒度开展。我们可以将电子商务数据仓库中数据 的更新周期定为一天或者是更短的时间( 需要根据电子商务实际需要进行定) 。 利用s q l s e r v e r2 0 0 5i n t e g r a t i o ns e r v i c e s 设计自动更新策略。自动更新步骤如下: 1 、建立“电子商务数据仓库自动更新”解决方案ea u t ou p d a t e ,在该解决方 案中建立包括三个任务的一个包,用于实现数据立方体、事实表和维表的更新。 ( 1 ) 因为客户的购买行为、浏览行为、注册行为,部分维表会产生变化。 我们需要增量增添装载相应的内容。 ( 2 ) 因为主题的不同,电子商务数据仓库会产生不同的事实表。如销售事 实表,有时则需要覆盖已前的信息,有时需要增量装载,要根据实际情况进行确 定。 ( 3 ) 当维表和事实表更新完成后,需要使用sql 语句选择更新后的数据, 以实现数据立方体的自动更新。 2 、完成包的创建以后,就可以通过生成项目,对包进行部署,根据不同的 要求,可以把包部署到不同的位置:s q ls e r v e r2 0 0 5m a n a g e m e n ts t u d i o 文件系 统。 3 、最后创建一个作业,使用s q ls e r v e r 代理自动执行s q ls e r v e r2 0 0 5 i n t e g r a t i o ns e r v i c e s ( s s i s ) 包。确定每天进行一次数据更新,所以调度包的时间是 一天,可以将作业的执行频率为一天。 2 3 本章小结 本章简要的介绍了数据仓库技术的定义、发展趋势以及数据仓库技术的重要 作用,勾画出基于电子商务数据仓库系统模型,分析其组成部分;同时本章分析 了针对电子商务系统进行数据挖掘的数据源,详细的介绍了w e b 环境下源数据 的提取、转换、清理、集成与装载技术;本章提出数据仓库的管理与维护方案。 本章的内容将为以下几章的数据挖掘内容提供数据支持和保障。 1 4 兰州大学硕士学位论文基于c f 的个性化电子商务推荐系统研究 第三章数据挖掘技术 3 1 数据挖掘概述 图3 1 知识发现流程图 数据挖掘是近几年内国内迅速发展起来的一门新兴技术,如图3 1 所示,数 据挖掘是知识发现的一个步骤,它是用于开发信息资源的一种新的数据处理技 术。包括机器学习、神经网络、模式识别、数理统计、数据库、粗糙集、模糊数 学等相关技术【2 2 1 。数据挖掘技术的研究和利用,极大的推动了相关行业的发展。 目前,数据挖掘技术已经广泛的应用到了分子生物学、产品质量分析、基因工程 研究、信息检索、访问模式发现、金融风险预测及分类发现多个领域【2 3 1 。 如图3 2 所示,一个典型的数据挖掘系统主要包括【2 4 】数据库、数据仓库、信 息库;数据库或数据仓库服务器;数据挖掘引擎;模式评估模块;知识库;图形 用户界面六个部分。数据库、数据仓库、信息库主要负责数据的收集、清理和集 成工作;数据库或数据仓库服务器,根据挖掘主题负责提取与主题相关的数据; 数据挖掘引擎用来进行模式挖掘;模式评估模块,度量用户的兴趣度,一般该模 块使用兴趣度阈值的方法过滤发现的模式;知识库为某个主题领域的知识,用于 指导搜索,指导数据挖掘,并为模式评估提供支持,这些知识【2 5 】主要包括不同 领域的兴趣度限制、闽值和元数据、用户确信的知识等;图形用户界面实现用户 和系统的交互,并将挖掘的模式显式给顾客。 兰州大学硕士学位论文基于c f 的个性化电子商务推荐系统研究 图3 2 数据挖掘系统结构 3 2 数据挖掘在电子商务中的应用 客户 图3 3 数据挖掘在电子商务中的作用 如图3 3 ,数据挖掘在电子商务中的作用主要表现在以下几个方面: 1 、数据挖掘技术在电子商务客户关系处理上的作用: ( 1 ) 挽留老客户。对电子商务企业来说,客户是企业发展的关键和命脉,对 一个企业来说,利润的最大化不仅仅是简单的扩大市场份额,还存在着如何保留 已有客户这一严重的问题。通过数据挖掘,可以对已经流失的客户进行针对性研 究,分析其特征,再把分析结果与数据仓库中现有的客户资料进行对比,找出可 1 6 兰州大学硕士学位论文基于c f 的个性化电子商务推荐系统研究 能会流失的客户,然后根据分析模型设计预防客户流失的方案。 ( 2 ) 发掘潜在客户。根据数据仓库中的客户资料,分析忠诚客户的特征,发 掘与忠诚客户具有相似行为的客户,并将营销模式客户兴趣结合起来。如通过对 已有数据的分析,发现年龄在3 5 岁左右收入在5 0 0 0 元左右的女性对某名牌包的 购买兴趣比较大,当发现具有相同特征的新客户的时候,便可以向该客户推荐该 品牌包。 ( 3 ) 客户分类。对现有客户进行聚类分析,并根据聚类结果对客户进行分类, 根据不同分类人群的特点,采取不同的营销策略,以增加电子商务面向对象推荐 的针对性和实效性。 ( 4 ) 挖掘客户的潜在购买力。分析现有客户的购买行为,通过预测模型对客 户将来的消费行为进行预测,挖掘客户的潜在购买力,提前对客户进行商品推荐。 ( 5 ) 防范客户的欺诈行为。通过孤立点分析,找出与其他客户群体不同的客 户,对该客户进行分析,预防欺诈行为。 2 、数据挖掘在企业决策中的作用 ( 1 ) 挖掘客户的购买行为,制定合理的营销策略。 ( 2 ) 产品生命周期策略。通过对商品购买时间上的挖掘,获得商品的生命周 期,从而制定商品的优惠策略。 ( 3 ) 产品的市场定位。通过对客户的购买行为分析,建立分析模型,确定市 场的定位和价格定位。 3 3 电子商务推荐系统概述 3 3 1 电子商务推荐系统的定义 电子商务推荐系统( e c o m m e r c er e c o m m e n d e rs y s t e m s ) 是应用于电子商务的 商品推荐软件系统,该系统模拟传统商务模式的营销员,作为电子商务网站的“虚 拟店员”,向客户提供商品建议和信息【2 6 1 。 电子商务推荐系统是数据挖掘在电子商务应用中的重点,是电子商务网站客 户关系管t 里( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ,c r m ) 的重要组成部分【2 7 】;电子 商务推荐系统是实现电子商务网站“一对一营销”( o n e t o o n em a r k e t i n g ) 的重要战 1 7 兰州大学硕士学位论文基于c f 的个性化电子商务推荐系统研究 略2 6 】;电子商务推荐系统是电子商务解决客户信息超载问题的一种重要方案。 3 3 2 电子商务推荐系统的数据源 电子商务的推荐系统的数据源主要来自客户数据库、销售数据库、服务器上 记录的客户访问日志或经过数据清理、转换的数据仓库中的数据( 第二章已有介 绍) ,具体的数据来自以下几个方面: 1 、客户的在电子商务网站的浏览行为; 2 、客户注册信息; 3 、客户对某产品的等级评价或评分数据; 4 、客户输入的关键词或商品属性; 5 、客户购买历史数据; 6 、商品信息; 7 、企业活动信息; 8 、购物篮信息。 3 3 3 电子商务推荐系统的推荐表现形式 电子商务管理者可以通过不同的形式应用电子商务推荐系统的推荐结果。电 子商务推荐系统的推荐表现形式主要有以下几种: l 、电子邮件( e m a i l ) ,电子商务管理者可以将电子商务推荐系统推荐出来的 客户感兴趣的商品信息发送给客户。 2 、相似项( s i m i l a m e m ) ,根据客户购买信息分析客户的兴趣,通过购物篮等 向客户推荐相似商品。 3 、排序列表( s o r tl i s t ) ,根据客户对商品特征查询,返回客户需求的商品 排序列表。 4 、t o p n :推荐系统根据客户的喜好向客户推荐最可能吸引他的n 件产品, 增加客户的购买兴趣,将客户由网站的浏览者转变为实际购买者。 5 、页面布局( p a g el a y o u t ) ,根据客户的兴趣,将客户感兴趣的商品显示在 电子商务网站页面的显眼位置。 兰州大学硕士学位论文基于c f 的个性化电子商务推荐系统研究 3 4 电子商务推荐技术 电子商务推荐技术是电子商务推荐系统的核心和主要部分,目前电子商务网 站推荐技术主要包括信息检索( i n f o r m a t i o nr e t r i e v a l ) 、贝叶斯网络( b a y e
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 光纤检测员上岗考核试卷及答案
- 松焦油工技能巩固考核试卷及答案
- 纸面石膏板制备工上岗考核试卷及答案
- 玻璃制品冷加工工前沿技术考核试卷及答案
- 制线工岗位操作规程考核试卷及答案
- 染料合成工特殊工艺考核试卷及答案
- 物流配送中心运营管理实操手册
- 2025至2030中国鱼腥草口含片行业发展分析及竞争格局及有效策略与实施路径评估报告
- 物流仓储管理流程与库存控制方法
- 房地产项目销售合同模板及风险提示
- 隧道消防维护维修及专项工程技术文件
- 幼儿园一日生活指南汇总
- 阿甘正传全部台词中英对照
- 火电厂工作原理课件
- 重金属在土壤 植物体系中的迁移及其机制课件
- 抢救车管理制度 课件
- 跌倒坠床不良事件鱼骨图分析
- 供应商分级管理制度管理办法
- 招议标管理办法
- 小儿急性上呼吸道感染的护理查房ppt
- 跨文化交际全套课件
评论
0/150
提交评论