




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着网络技术的飞速发展,网上销售已经走进寻常百姓家,电子商务得到 了蓬勃的发展。然而网上商品的种类繁多,客户要找到自己喜爱的商品并不容 易,常常迷失在信息的汪洋中。而传统的电子网站提供给客户的是千人一面的 商品页面,不能根据客户制定个性化的界面,客户通常需要点击多个链接才能 搜寻到自己感兴趣的商品,这增加了客户负担,在一定程度上抑制了电子商务 的更好发展,而且大多数电子网站出于赢利,一般不提供给客户在本网站搜索 其他网站类似商品的需求,客户常常需要到各大网站进行商品比对来下订单, 这增加了客户负担,实际上网站的开放性会有利于增加销售量,各大网站可以 共享客户信息,更加准确有效的把握市场。本文研究了如何基于数据挖掘的各 项技术来分析商务网站的客户信息,从而制定个性化的客户端,它能实现向不 同客户群推荐不同类别的商品的功能;设计了一个基于移动a g e n t 技术的商品搜 索框架,提供给客户跨网络的离线搜索,能便利客户,缓解网络负担。 关键词:电子商务;数据挖掘;w e b 挖掘;移动a g e n t ab s t r a c t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e tt e c h n o l o g y , s e l l i n go nl i n eh a v ee n t e r e d t h ec o m m o nf a m i l y , t h ee l e c t r o n i cc o m m e r c eh a sg o tb o o m i n gd e v e l o p m e n t h o w e v e r , t h e r ea r es om a n yk i n d so fg o o d so nl i n e ,i ti sb e c o m i n gm o r eh a r d e rf o r c u s t o m e rt of i n dw h a tt h e yr e a l l yf a v o r i t eg o o d s t h e yu s u a l l yt r a pi nt h es e ao f i n f o r m a t i o n ,a n dd o n tk n o wh o wt od e a lw i t hi t t h et r a d i t i o n a lw e b s i t eo f f e ra l lh i s c u s t o m e r sw i t ht h es a m ep r o d u c tp a g e ,c a n td e s i g na ni n d i v i d u a lp l a t f o r m t h e c u s t o m e ru s u a l l yh a v et oc l i c km a n yl i n k st of i n dh i si n t e r e s t ,w h i c ha d de x t r ab u r d e n o nt h e m ,a n dt oac e r t a i ne x t e n t ,t h ed e v e l o po fe l e c t r o n i cc o m m e r c e ,a n dm o r e o v e r , m o s tp a r t so fw e b s i t ed i d n tp r o v i d e dh i sc u s t o m e rt h es e r v i c ef o rs e a r c hg o o d so f o t h e rs i t e sf o rf e a ro fl o s i n gc u s t o m e r s ,s ot h ec u s t o m e r sw i l lh a v et os e a r c ha n d c o m p a r et h eg o o d so nv a r yw e b s i t eb e f o r et h e ym a k et h e i ro r d e r s ,t h i sa d dm o r e b u r d e no nt h ec u s t o m e r s a c t u a l l yt h em o r eo p e no ft h ew e b s i t e ,t h em o r ec t i s t o m e r t h e yw i l la t t r a c t ,a n dt h em o r ev e n d i t i o nw i l lb ec r e a t e d ,d i f f e r e n tw e b s i t e sw i l ls h a r e t h e i rc u s t o m e r si n f o r m a t i o n ,w h i c hh e l pt h e mc a t c ht h em a r k e tm o r ea c c u r a t e l y t h e a r t i c l es t u d i e sh o wt oa n a l y z et h ec u s t o m e r s i n f o r m a t i o nb yu s i n gv a r i o u s t e c h n o l o g i e so fd a t em i n i n g ,s oa st od e s i g na ni n d i v i d u a lc l i e n ti n t e r f a c e ,i tw i l l a c h i e v et h ef u n c t i o no fp r o v i d e dv a r i o u sg o o d sp a g et ov a r i o u sc u s t o m e r s , i ta l s o d e s i g nag o o d ss e a r c h i n gf r a m eb a s e do nm o b i l ea g e n tt e c h n o l o g y , p r o v i d eh i s c u s t o m e r sw i t hs e a r c h i n gg o o d so nd i f f e rw e b s i t ew i t h o u tw a i t i n go nl i n e ,w h i c hw i l i 0 f f e rc n n v e n i e n ts e r v i c et ot h ec u s t o m e ra n dr e l e a s et h eb u r d e no ft h en e t k e yw o r d s :e l e c t r o n i c c o m m e r c e ,d a t am i n i n g ,w e bm i n i n g ,m o b i l ea g e n t i i 学位论文独创性声明 学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得南昌大学或其他教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名( 手写) :磊笨吩弘 签字日期: 汕g 年,月加日 学位论文版权使用授权书 本学位论文作者完全了解直昌太堂有关保留、使用学位论文的规定,有权 保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 阅。本人授权南昌大学可以将学位论文的全部或部分内容编入有关数据库进行 检索,可以采用影印、缩印或扫描等复制手段保存、汇编本学位论文。同时授 权中国科学技术信息研究所将本学位论文收录到中国学位论文全文数据库, 并通过网络向社会公众提供信息服务。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名( 手写) :匀笼而汐导师签名( 手写) 库i ,差;滂 签字目期:伊d 暑年f1 月 日签字日期:炉龋年,月妒日 第1 章引言 第1 章引言 1 1 研究背景 由于电子商务不受时空限制,其运行效率高,成本低,并提供全球的丰富 的信息资源,为企业在商品宣传,采购,销售等各个方面提供了便利,节约了 成本,所以电子商务被认为是最具发展前景的营销手段,然而其发展中存在的 一些缺陷抑制了它的迸一步发展:大多网站总是将各类商品不加区别的罗列给 各类客户,不能根据已有数据提供个性化的购物界面,使得客户需花费大量时 间来搜寻感兴趣的商品;各网站缺乏沟通与协作,相互不提供客户信息,客户 检索商品不得不登陆各大网站,进行多次注册以搜索商品,增加了客户负担, 同时采购操作需要在线进行,占用了过多带宽,容易造成网络壅塞。 以上问题的出现,要求采用新的技术对电子网站的构建进行改进,数据挖 掘技术能从历史销售数据,网站注册客户数据,w e b 日志数据中挖掘出商家需要 的各类知识,为商家设计个性化的客户端提供依据,个性化客户端能针对不同 客户提供不同的页面,给客户便利的商品选购;通过a g e n t 技术,提供客户跨网 商品检索的功能,该引擎就能为客户提供各大电子网站上同类商品的页面;采 用的移动a g e n t 技术,使得客户活动无需在线进行,减轻了网络负担。 1 2 本人研究主要内容 一、根据数据挖掘知识,研究如何面向不同类型客户( 注册和未注册的) 进行个性化的商品推荐,设计了一个叶子提取算法,提取出客户浏览的商品页 面。针对网页内容,设计一个基于h t m l 文档的提取框架,和与词库数据比对 从而获得页面信息的提取算法,为分析客户兴趣提供页面内容数据; 二、设计一个基于移动a g e n t 技术的网络搜索引擎框架,设计描述了各个模 块功能框架,从而实现客户的离线跨网商品搜索。 1 3 论文组织结构 第一章:引言,介绍本文研究的背景,研究的主要内容,以及各个章节的 第1 章引言 主要内容。 第二章:介绍电子商务的发展以及面临的问题,a g e n t 技术对解决这些问题 所提供的帮助,介绍数据挖掘的主要技术:关联规则,聚类算法。 第三章:结合数据挖掘技术、w e b 挖掘技术,针对注册客户的注册信息, 购物信息,非注册客户的日志信息进行挖掘,发现客户兴趣,制定个性化的客 户端。分析未注册客户浏览的页面内容,运用内容挖掘技术,提取出页面信息 转化为结构化数据,再对其运用数据挖掘技术进行分析,得出客户兴趣,制定 相应的个性化客户端。 第四章:设计结合移动a g e n t 技术进行商品检索的框架,使得客户在一个网 站搜索出多个网站商品的需求,详细讲述框架的各个模块的实现。 第五章:讨论本论文的研究前景的展望。 2 第2 章电子商务与数据挖掘技术 第2 章电子商务与数据挖掘技术 2 1 序言 随着计算机的普及,网络技术的发展以及政府机构的支持与推动,产生于 6 0 年代的电子商务,在2 l 世纪迎来了它的高速发展。电子商务在经过了6 0 年 代呻0 年代的基于e d i 的发展阶段后,在中后期,开始成为国际互联网( i n t e r n e t ) 应用的最大热点。电子商务的出现打破了传统的固定的商场销售模式,为各个 生产商、经销商,宣传商品、销售商品提供了一条新的渠道,它解决了传统销 售模式的地域限制问题,其商务活动因网络而具有了开放性,全球性,简化了 企业与企业,企业与个人之间的流通环节,它将商务流程数字化、电子化,大 大提高了商业运作效率,降低了成本,同时它不受时间的限制,是“不打烊的 商店”,网上商店的如上优势吸引了越来越多的投资商加入进来。正如h a m m e r 和c h a m p e y 所说“科技的真正威力不在于将以前的工作完成的更好,而在于它 可以帮助我们打破陈旧的规定,创造出新的工作方式” 2 2 电子商务的定义和分类 电子商务( e l e c t r o n i cc o m m e r c e ) 是在i n t e m e t 开放的网络环境下,基于浏览 器服务器应用方式,实现消费者的网上购物、商户之间的网上交易和在线电子 支付的一种新型的商业运营模式。欧洲经济委员会于1 9 9 7 年l o 月在全球信息 标准大会上对电子商务做出如下的定义:“电子商务是各参与方之间以电子方式 而不是以物理交换或直接物理接触方式完成的任何形式的业务交易”。 电子商务根据交易对象的不同分为四种交易模式: 1 、商家对消费者模式( b u s i n e s st oc u s t o m e r ) 商家通过在电子网站提供商品的类别,品牌,价格,功能描述等信息供消 费者选购,是一种以零售为主的销售方式,客户将选中的商品放入购物篮提交 给商家,通过电子货币的进行支付,收到订单的商家据此发货,并到银行将电 子货币转换成真实的货币。 2 、商家对商家的电子商务模式( b u s i n e s st ob u s i n e s s ) 是指企业( 或商业、公司) 使用i n t e m e t 或各种商务网络向供应商( 企业或公司) 3 第2 章电子商务与数据挖掘技术 定货、接受发票和付款。各个电子网站通过在供货商处采购商品以补充自己的 货架,通过询价,报价,下订单,发票,货币支付等流程来进行,比较流行的 方式是e d i 模式。在组织内部,通过计算机与计算机之间的转换,以机器处理 格式存储的商业文件技术。 3 、企业对政府机构的电子商务( b z g ) : 在企业与政府机构方面的电子商务可以覆盖公司与政府组织问的许多事 物。目前我国有些地方政府己经推行网上采购。 4 、消费者对政府机构的电子商务( c z g ) : 政府把电子商务扩展到福利费发放和自我估税及个人税收的征收方面。 随着i n t e m e t 的快速发展,现在的电子商务系统已经难以承受商务信息的爆 炸式增长和网络环境的日益复杂化,现有的电子商务系统,只做到了提供给客 户商品或服务的信息描述,客户要选购到自己满意的且相对价格较低的商品服 务往往要到不同站点去搜寻,比较,浪费了客户很多时间和精力,同时具有不 同兴趣爱好的客户在某个网站搜寻自己所需商品时所面对的都是同样的页面, 要搜寻到感兴趣的商品,很多客户将不得不浏览许多不关心的页面,这种千篇 一律的方式势必会同益随着追求个性化的新的时代的来临而被淘汰;那如何根 据已有的大量数据记录、客户浏览的日志信息来分析得到客户的兴趣爱好,从 而向客户推荐相关商品呢,这就需要一种能针对海量数据进行分析的工具与技 术数据挖掘技术。 2 3 数据挖掘技术 数据挖掘( d a t am i n i n g ) 是从大量的、不完全的、有噪声的、模糊的、随机的 数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知 识的过程【2 】它是信息技术自然演化的结果,是一个多学科交叉领域知识融合的 技术,它从数据库技术,人工智能,机器学习,统计学等学科汲取营养来使自 己日益完善。 数据挖掘技术使数据库技术进入了一个更高级的阶段。数据挖掘能处理存 储在数据库中的海量的历史数据,能挖掘出数据之间的潜在联系,发现有价值 的信息。 4 第2 章电子商务与数据挖掘技术 2 3 1 数据仓库技术 直接对客户历史数据进行挖掘通常是不可行的,因为客户数据常常存储在 不同数据库中、具有不同的数据表现形式、不同种类的数据库的存储格式存在 差异等问题,这些都使得直接在各数据库上进行数据挖掘行不通,需要事先将 数据以统一的格式进行汇总。 数据仓库技术通过整合来自企业各个业务系统的各种类型和格式的数据, 进行系统加工、汇总和整理,形成一个完整而一致的企业全局信息库,为后续 数据挖掘提供了良好的数据基础。对仓库中的数据运用相关的数据挖掘技术挖 掘出决策者感兴趣的知识模式,给管理者制定相应商业决策提供依据。 数据仓库不同于传统的数据库管理系统,它更加适合进行数据挖掘,这也 是数据挖掘不直接在数据库中进行的原因。数据仓库无需支持事务处理,存储 于其中的数据大都是历史数据,很少进行删除修改等操作,它常是只读的,较 稳定的,这使得在它之上进行数据挖掘的难度降低( 不会因为数据变化而频繁 的进行相关挖掘) ,而数据库系统是需要支持事务处理的,它是可读写的,随着 事务的处理,它的数据是不断变化的,在其上进行数据挖掘将是低效和繁琐的。 2 3 2 数据预处理 汇总在数据仓库中的数据由于各种原因( 存储器的损坏、原来数据录入的 失误等) 会存在不完整的、不一致等问题。要提高数据挖掘的性能和精度就需 要对数据进行一些预处理。数据预处理包括如下一些步骤: l 、进行数据清理:通过数据清理清除掉数据中存在的空缺值,孤立点,纠 正数据中的不一致。对应的一些处理方法有: 1 ) 对于空缺值的处理方法: ( 1 ) 使用全局常量填补空缺值 ( 2 ) 使用属性的平均值填充空缺值 ( 3 ) 使用与给定元组属同一类的所有样本的平均值等方法; 2 ) 消除噪声平滑数据的方法有分箱、聚类、计算机与人工检验结合、回归 等方法: 2 、对清理好的数据进行集成和变换:即将多个数据源中的数据结合起来放 在一个一致的数据存储中( 如数据仓库中) ; 3 、对数据仓库中的数据进行进一步处理,数据归约,删除不相关的属性和 5 第2 章电子商务与数据挖掘技术 维、对数据进行聚集、对数据进行概念分层来对数据进行删减压缩,从而减轻 数据挖掘的负担。 2 4 基于布尔关联规则的a p r i o r i 算法 要从客户存储的数据中发现客户的兴趣爱好,以便给客户推荐相关商品就 需要采用一些挖掘算法柬处理数据仓库中的数据,在各种挖掘算法中关联规则 算法是一项较为重要的挖掘算法,通过它能挖掘出客户所购物品之间存在的有 趣的、频繁出现的模式,能为商家制定关联商品的推荐提供依据,进而引导客 户选购相关商品,增加销售量。 关联规则是形如x j y 的逻辑蕴涵,它具有x c i ,y c i 且x ny = c d 的性 质。关联规则的支持度s u p p o n ( x ,y ) ,表示数据集中同时包含x ,y 的交易数与 所有交易数之比。s u p p o r t ( x jy ) = s u p p o r t ( x u y ) = p ( x y ) 关联规则置信度:是 数据集中包含x ,y 的交易数与包含x 的交易属之比,计为:c o n f i d e n c e ( x jy ) , c o n f i d e n c e ( x jy ) = 篙- p ( y 举个例子说明: 设有如下逻辑蕴涵: a g e ( x , 3 0 4 0 ”) ai n c o m e ( x , 6 0 0 0 8 0 0 0 , 程序员”) j b u y s ( x , c o m p u t e r ”,”i b m ”,”8 0 0 0 10 0 0 0 ”) ( 2 0 ,4 0 ) 该蕴涵的的含义是: 年龄在3 0 到4 0 的且收入在6 0 0 0 到8 0 0 0 的程序员会买价格在8 0 0 0 到1 0 0 0 0 的i b m 电脑的支持度为2 0 ,置信度为4 0 。 要挖掘出有价值的关联规则常需经过两个步骤: l 找出所有的频繁项集 2 由频繁项集产生关联规则。 关联规则挖掘中一个非常著名的算法是a p r i o r i 算法,它是一种最有影响的 挖掘布尔关联规则频繁项集的算法。通过某个设定的阀值该算法先找出所有的 频繁一项集,在一项集的基础上再计算频繁二项集,如此持续下去,直到所有 满足阀值所限的频繁项集都计算出来,算法就终止,其具体描述如下: 设输入是:事物数据库d ;最小支持度m i ns u p 输出是:d 中的频繁项集l 。它通过类似黑盒的方式进行工作, 6 第2 章电子商务与数据挖掘技术 步骤: l l = f i n d f r e q u e n t - l i t e m s ( d ) : f o r ( k = 2 :l 一i ;k h ) ,1 。一 、 l 2a p r o t r t g e n ( l k l ,m i n _ s u p ) ; f o re a c ht r a n s a c t i o nt d c = s u b s e t ( c k ,) ; f o re a c hc a n d i d a t e c c f c c o u n h h 卜; ) l = c c klc - :o u n t m i n _ s u p ) r e t u r nl = u l 女; p r o c e d u r e :f r e q u e n c e ( k 一1 ;m i n _ s u p :m i ni n u m s u p p o r t t h r e s h o l d ) f o re a c hi t e m s e t 厶l 。 i 一i f o re a c h i t e m s e t ,2 厶一l 矿( ( ,l 【1 】= 1 2 【l 】a ( ,l 【2 】= 1 2 2 1 ) ( ,l 【七一2 】= 1 2 【七一2 】) a ( ,l 【七一1 r e t u r n c k ; p r o c e d u r e h a s i n f r e q u e n t s u b s e t ( c :c a n d i d a t ek i t e m s e t ;l :f r e q u e n c e ( k 一1 ) 一i t e m s e t ) f o re a c h ( k 一1 ) 一s u b s e tso fc i fs 萑l k lt h e nr e t u r nt r u e : r e t u r nf a l s e : 通过a p r i o d 算法挖掘出频繁项集后,通过设置置信度阀值,就能得到商品 间的强关联规则,商家可以将强关联规则作为知识运用,来设定货架的摆放, 向客户推荐关联商品等商务活动。 假设根据以上算法得出如下频繁项 值为8 0 ,事物数据库中的记录为 集l in ,1 3 ,h ) ,商家设定最小置信度阀 7 第2 章电子商务与数据挖掘技术 表2 1 事物数据记录 t i d项i d 列表 t l 1 1 1 2 1 3 1 4 t 2 1 2 1 3 t 3 1 1 1 3 1 4 1 5 t 4 1 2 1 3 1 5 t 5 1 4 1 5 t 6 1 1 1 2 1 3 t 7 1 3 1 4 1 5 t 8 1 1 1 3 1 4 t 9 1 i 1 2 1 3 1 4 则可以通过如下方式来计算强关联规则: l 的非空子集为 1 1 ) ; 1 3 ; 1 4 ) ; i i 1 3 ) ; 1 1 1 4 ; 1 3 ,1 4 ) i l 1 3j1 4c o n f i d e n c e = i l 1 4 1 3 1 3 k 1 4ji l i i = 1 3 人1 4 1 3ji la1 4 s u p _ c o u n t ( i lu1 3u1 4 ) s u p _ c o u n t ( i lu1 3 ) cd,z疗沈,zcp:sup_count(ilu 1 4w 1 3 ) 。 s u p _ c o u n t ( i lu1 4 ) 肼沈疗c e :! ! 坠竺竺坠! 生! 型 。 s u p _ c o u n t ( 1 3u1 4 ) cdnfiae门cp:sup_count(11w 1 3w1 4 ) s u p _ c o u n t ( 1 1 ) c 。n f i d e 舭:! 兰坠型堕! ! ! 墨! 型 s u p _ 一c o u n t ( 1 3 ) 1 4ji l k 1 3c o n f i d e n c e = s u p _ c o u n t ( i lu1 3u1 4 ) s u p _ c o u n t ( 1 4 ) 根据计算结果,和商家设定的置信度阀值,我们可以制定出如下的商品推 荐规则; 1 对买了i 。,1 3 商品的客户推荐1 4 ; 2 对买了i ,1 4 商品的客户推荐1 3 ; 3 对买了1 3 ,1 4 商品的客户推荐i l ; 4 对买了1 1 商品的客户推荐1 3 ,1 4 ; 8 毗 一 毗 毗 姚 一 = = = = i l = 4 5 4 4 4 5 4 5 4 8 4 6 第2 章电子商务与数据挖掘技术 由于a p r i o r i 算法需要多次扫描事物数据库,而且由频繁一项集构建频繁二 项集再到三项集的计算量呈指数集增长,所以现实中通常采用的是a p f i o f i 算法 的变种,如f p 树挖掘算法,冰山挖掘法等,在此不作一一描述了。 2 5 多维关联规则 a p r i o r i 算法基于的是事物数据库,通过挖掘客户购买商品之间的强关联规 则来对客户进行商品的推荐,a p r i o r i 算法并没有考虑到购物客户的个人信息, 其推荐是面向所有客户的,这样的推荐方式无疑是有缺陷的,为了挖掘出包括 客户信息的关联规则必须选取关系数据库或数据仓库,将关系数据库的每个属 性或数据仓库的每一个维作为一个谓词,就能挖掘出包含客户信息的多维关联 规则。如: a g e ( x , 3 0 4 0 ”) ko c c u p t i o n ( x , 程序员”) 人i n c o m e ( x , 5 0 0 0 8 0 0 0 ”) j b u y s ( x , t a t , t o p ”) 数据库属性可能是分类的或量化的,对于量化的属性进行多维关联规则挖 掘可采用三种方法: l 、在数据挖掘之前对量化属性进行概念分层,如a g e 分为”1 0 2 0 ”,”2 0 3 0 ” “3 0 6 0 ”等,用它们替换原来的属性a g e 2 、根据数据的分布将量化属性离散到箱。如a r c s ( 适合2 维量化关联规 则) ,该方法将量化属性对影射到满足给定属性条件的2d 栅格上,然后合并相 邻的栅格点形成聚类,由此产生关联规则。 3 、量化属性离散化,以紧扣区间数据的定义。考虑到数据点之间或区间之 间的相对距离采用聚类找出区间或簇,将各个簇替换原来的属性进行多维关联 规则的挖掘,得出基于距离的关联规则。 由于强关联不一定是有趣的,还需研究项集之间的相关性。 可以通过如下公式来分析项集a 与项集b 的相关性: c o r r 户丝旦塑, 尸( x ) 尸( j ,) c d 亿, l :正相关; c d l :负相关; 9 第2 章电子商务与数据挖掘技术 c o r r ,j ,= 1 :不相关。 在决策者根据强关联规则得出的知识给客户推荐商品时需要剔除强关联规 则中负相关或不相关的规则,这样的推荐才是有益的。 2 6 聚类分析 聚类是将数据对象分组成多个类或簇,在同一个簇中的对象之间具有较高 的相似度,而不同簇中对象差别较大。在电子商务中,聚类能帮助市场分析人 员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同客户群的特 征。 聚类算法需要具备的特性: l 、可伸缩性:无论是在数据对象较小的集合上进行聚类操作还是在较大的 对象集合上进行聚樊,都能得到满足客户最小偏差的聚类结果。 2 、处理不同类型属性的能力:除了能够聚类数值类型的数据外,还能处理 二元类型的数据,分类标称数据,序数型数据以及这些数据类型的混合。 3 、发现任意形状的聚类:除了能聚类具有球状簇的数据对象外,还能聚类 具有其他形状的数据。 4 、用于决定输入参数的领域知识最小化:尽量使得输入的参数对结果的影 响降到最小,降低聚类算法对输入参数的敏感性。 5 、处理噪声的能力:聚类算法能很好的处理噪声数据,在其算法中能够对 噪声数据进行一定的处理,减轻其对结果的影响。 6 、对于输入记录的顺序不敏感:即该算法能面向不同的输入顺序,能够产 生类似的聚类结果。 7 、高维性:一个聚类算法能在2 3 维的数据上得出好的聚类结果也能在多 维数据上取得好的效果。 8 、基于约束的聚类:能根据客户需求进行约束条件下的聚类。 9 、可解释性和可用性:通过聚类算法得出的结果是能为客户所理解的,是 可用的。 聚类分析中的数据类型: 基于内存的聚类算法采用的数据结构有如下两种:数据矩阵,相异度矩阵。 数据矩阵用p 个变量来表现n 个对象。相异度矩阵存储n 个对象之间的近似性。 1 0 第2 章 电子商务与数据挖掘技术 许多聚类算法以相异度矩阵为基础,相异度的计算因变量所属类型不同而 有差异,通常的对象数据类型有如下一些: ( 1 ) 区间标度变量:是一个粗略线性标度的连续变量。如身高,体重,经度, 纬度,温度等。由于度量单位的大小会影响变量的值域,某些改变会对聚类结 果产生很大影响,所以在进行相似度计算前需要根据情况对度量单位标准化, 我们可以采用如下公式进行: 1 、计算平均的绝对偏差s ,: j 厂2 音( ix l f m f x 2 厂m f | + 一+ i x 旷一m f 这里的x l f ,x n f 是f 的n 个度量值,m f 是f 的平均值,即: 朋厂仃( x l f + x 2 f + + x n f ) 标准度量值:z 。,:互 兰 ? s f 用z , f 代替五,进行后续的相似度的计算。 最常用的距离度量方法是:欧几里得距离,其定义如下: d ( i ,) = 肛可可i i 丁i 可而 曼哈坦距离: d ( f ,) - - ix ,l x ll + 1x t 2 一x j 2i + + ix 。一x i 加权的名考斯基距离: d ( f ,) = 三1 ( w 。i 一。一x ,l1 2 + w :ix ,:一x ,:1 2 + + w p x 妒一x 伊1 2 ) ( 2 ) 二元变量:只有两个变量0 ,1 ;0 表示变量为空,1 表示变量存在。 如两个变量具有相同的权重,则该二元变量是对称的;基于对称二元变量 的相似度称为恒定的相似度,相异度计算可用简单匹配系数法: 嘶) 2 羔q + r 七s + t : 对于非恒定的相似度,计算方法可以采用:j a c c a r d 系数: 第2 章电子商务与数据挖掘技术 d ( i ,) :旦; q + r + s ( 3 ) 标称变量:具有多于两个的状态值。两个对象的相异度可以用简单匹配 方法来计算: d ( i ,) :生竺 p 其中m 是匹配的数目,p 是全部变量的数目。 ( 4 ) 序数型变量:包括离散的序数型变量:类似于标称变量,其m 个状态是 以有意义的序列排序的。连续的序数型变量:象一个未知标度的连续数据集合, 值的相对顺序是必要的,而实际大小并不重要。 相异度的计算公式为: 矿筹 ( 5 ) 比例标度型变量: 与挖掘客户聚类不相关,故在此不详细讲述。 ( 6 ) 混合类型的变量:即对象是由以上各个类别的变量来共同描述的,如本 论文要研究的电子网站上的客户,每个客户是由混合类型的变量来描述的,包 括二元变量如:性别;标称变量如:喜爱的商品,职业,区间标度变量如收入 在占 寸0 相异度计算的结果将为后续的聚类算法提供数据,根据得到的相异度,可 以采用如下一些方法进行聚类: 1 划分方法:给定要划分的数目k ,划分方法首先创建一个初始划分,然后 采用一种跌代的重定位技术,尝试通过对象在划分间移动来改进划分; 2 层次的方法:层次的方法分为凝聚的和分裂的,凝聚的方法:一开始将 每个对象作为单独的一个组,然后相继地合并相似的对象或组,直到达到一个 终止条件,或并为一个。分裂的方法:将所有对象置于一个簇中,在跌代的每 一步中,一个簇被分为更小的簇,直到达到一个终止条件或每个对象都在一个 簇中。 3 基于密度的方法:其主要思想是:只要临近区域的密度超过某个阀值,就 继续聚类,即对给定类中的每个数据点,在一个给定区域内必需至少包含某个 1 2 第2 章 电子商务与数据挖掘技术 数目的点。 4 基于网格的方法:该方法把对象空间量化为有限数目的单元,形成一个 网格结构,所有的聚类操作都在这个网格上进行。 ( 5 ) 基于模型的方法:该方法为每个簇设定一个模型,寻找数据对给定模型 的最佳拟合。 1 3 第3 章客户兴趣的分析与群的划分 第3 章客户兴趣的分析与群的划分 各大网站要针对不同客户制作特定的界面,需要知道来访的客户的兴趣爱 好,据以制定出个性化的商品推荐页面。一个大型的电子商务网站,来访的客 户数量巨大,很难针对每个客户都制定友好的个性化的页面,简化的方法可以 将来访客户按照一定相似度阀值进行聚类操作,尽量使得在同一类中的对象彼 此相似,与其它类中的对象相异。 3 1 基于注册信息的客户端设计 合理的客户类别划分有助于商家进行针对性的营销活动,并能分类比较客 户兴趣爱好以推荐相关的商品页面【2 l 。聚类分析能帮助市场分析人员从客户基本 库中发现不同的客户群,并且用购买模式来刻画不同客户群的特征。聚类的目 的是将具有类似购物倾向的客户归在一处,便于商家针对的进行商品推荐。 本节将就具有注册信息和购物信息的客户为对象来研究客户群的划分及客 户端的设计。其具体实现流程如下: 图3 1 流程图 3 1 1 客户各类信息的预处理 通过挖掘电子网站上客户采购的历史数据,能对具有相似购物倾向的客户 1 4 第3 章客户兴趣的分析与群的划分 进行归类。但采购数据中记载了客户所购货物和客户自身的详尽信息,以这些 信息为基础进行聚类分析来发现客户群将是困难且低效的,因此需要对购物信 息进行数据概化操作,剔除无关的信息,概化繁杂的分类,将注意力集中到有 效的属性中进行分析。 常用的概化操作有数据立方体技术和面向属性归纳的方法。属性归纳包括 两个方法,属性删除和属性概化。 l 属性删除:如果初始工作关系的某个属性有大量不同的值,但是在该属性 上没有概化操作符,或者它的较高层概念用其他属性表示,则该属性应当予以 删除。 2 属性概化:如果初始工作关系的某个属性有大量不同的值,并且该属性上 存在概化操作符,则应当选择该概化操作符,并将它用于该属性。属性概化的 程度,即控制到多高的抽象层才是合理的,才能很好的将客户群进行分类,一 种方法是通过专家来设置或修改属性阀值,一种方法是对概化关系中不同元组 个数进行阀值的设置。 3 1 2 群的划分 组成客户购物信息的变量具有多种属性,有区间标度变量如收入、对称二 元变量如性别、序数型变量如职业,标称型变量如:采购的商品。对于具有混 合类型的变量的对象其相异度的计算可以采用如下的公式: 们棚= 脊 其中如果勺或x 缺失,或者h = x 2 0 ,且变量f 是不对称的二元变量,则 指示项毹,) = o ;否则瓯,) = 1 。 如果f 是二元变量或标称变量:如果h = x g - , d := o ,否则d :,= 1 ; 如果f 是区间标度变量:d u ( ) :旦生二址,这里的h 遍取所有非 空缺对象。 如果f 是序数型或者比例标度型变量:计算勺和z 矿5 之_ 音,并将z 矿作为 区间标度变量值对待。 1 5 第3 章客户兴趣的分析与群的划分 根据各个对象的相异度,采用适当的聚类方法,将能实现客户群的划分。 一个广泛应用的方法是先通过层次划分以根据商家制定的一些限制来计算 出簇的数量,再根据簇数确定划分的客户群数,采用划分方法来进行归类。 3 1 3 根据群进行客户端的设计 构建客户群页面主要根据的是客户群的总体兴趣,通过建立一个兴趣到商 品的映射表来将客户兴趣记录转化为商品列表,这个表可以通过挖掘历史销售 数据来得到,其形式如下:具有a 兴趣的客户采购了具有b 属性的商品c 的 置信度为x ,支持度为y ,将满足一定置信度的知识以记录的方式添加到映 射表中记为:ajc ( b ) 。据此在均衡页面的友好性、页面容量,的基础上来设 定页面包含具体商品数和商品属性描述的概化程度。为了使得面向群的页面深 化为更为个性化的客户端页面,可以以该门户页面为主,针对不同客户进行轻 微的调整,如插入客户特别兴趣的弹窗或广告等。 3 2 基于w e b 日志的客户端的设计 客户要采购自己喜爱的商品往往需要浏览很多电子网站,并在找到自己喜 爱的商品后才会在该电子网站注册以实现购买行为。因此一个有吸引力的电子 网站还需分析未注册的客户或注册但没有购物的客户的购物倾向,并针对性的 提供商品推荐,对于注册了信息的客户,可以通过与各个客户群客户信息的相 似性比较,将其归入某个客户群,然后推荐相关商品,对于未注册信息的客户, 只能根据客户浏览的网页来分析客户的兴趣爱好,向客户推荐商品。要得到客 户的浏览记录需要取得客户的w e b 日志信息,根据这些数据来挖掘客户的兴趣 与爱好。 3 2 1 基于w e b 日志的客户兴趣挖掘 所谓w e b 日志,是指在服务器上有关w 曲访问的各种日志文件,它记录着 用户访问该站点时每个页面的请求信息,如用户的i p 地址、所访问的u r l 、访 问日期和时间等。 典型的日志记录形式如下: 2 1 2 1 2 1 3 4 9 2 1 4 2 2 9 j u l 2 0 0 8 :0 9 :2 5 :3 3 - 0 5 0 0 1 ”g e t s u r v e y h i s t o r y h t m h t t p 1 1 ”2 0 0 1 1 6 3 1 ”h t t p :w w w t j u e d u c n ”m o z i l l a 4 0 ( c o m p a t i b l e ;m s i e 5 5 ;w i n d o w s n t5 o ) ” 1 6 第3 章客户兴趣的分析与群的划分 通过客户的同志信息我们能获得客户浏览的页面信息,其中既有商品页面, 也有其他页面,我们只须分析那些商家关心的商品页面,而不必分析所有页面, 可以通过建立一个电子网站数据库来对网页进行过滤,其中储存了商家关注的 网站的门户页面地址和到各具体商品页面的链接地址,将客户浏览的页面地址 与之比较,删除不能匹配的页面。通过定期更新网址来保证数据库中存储的网 址是时新的。 3 2 2 叶子页面提取算法: 在我们得到的经过过滤处理的页面中有一些是商家的门户页面,这些页面 包含商家大量的商品汇总,从这些页面我们并不能看出客户到底对哪样商品感 兴趣,因此还需进一步过滤,我们认为当客户在某个网页上停留了足够的时间, 并且该网页是作为叶子页面出现时( 用树来描述客户浏览的某网站所有网页, 各网站构成森林,每棵树表示客户的在某个网站上浏览的各个页面,叶子页面 为客户在某个网站上浏览的最后页面) ,那该页面很可能为客户感兴趣的具体商 品页面,针对它进行基于内容的数据挖据来分析客户兴趣爱好。在一个商品页 面中通常还包括类似商品的推荐,和关联商品的广告链接,如果客户点击了某 个链接就会使得关注的页面成为非叶子页面而被忽略,所以在进行叶子页面提 取中还需事先剔除那些浏览时间过短的页面,如果它是叶子页面,删除它,将 其直接父类作为叶子页面进行后续处理。 输入:w e b 日志; 提取关键的属性值:l 、访问的网页地址( q ) ,2 、用户浏览的上一页( p ) ,3 、 客户的i p 地址( p i p ) ,4 、自动生成记录标号( i d ) 。 汇总某一客户某段时间的日志数据,将不满足浏览时间的记录删除后得到 客户浏览记录表: 表3 1 :客户浏览页面记录 1n u l la 2ab 3ac 4bd 5be 6c f 7cg 1 7 第3 章客户兴趣的分析与群的划分 8 eh 9ws 1 0 n u l lw 1 lw s 1 2sb 1 3bd 1 4bi 1 5ij 1 6n u l lw 1 7w c l8 cu 1 9cv 2 0w b 设库存的电子网站是:b ,c 。 叶子页面提取算法如下: s e l e c t ( p a g e ) : i n t i ,j ,x = o ; i n t s n 】;a n 】;s n 用于存储记录, f o r ( i = l ;1 = n x ;i + + ) i f ( s i p = p a g e ) j = 1 ; ad 】= s i 】; j + + ;d e l ( i ) ;x + + ) e l s ei f ( p a g e = b & & p a g e ! = c ) a d d ( p a g e ) 将叶子页面添加到有效页面中 f o r ( i = 1 ;i j ;i h ) p a g e = a i 】q ; s e l e c t ( p a g e ) ; ) 该算法将记录下由b ,c 网站发出且是叶子节点的页面。s 【i 1 表示上面表的 第i 条记录。 对上述2 0 条记录,选择b 作为p a g e 输入s e l e c t 方法;目的得到记录中浏 览过电子网站b 的站点,由上得到记录:s 4 】,s 【5 】,s 1 3 ,s 1 4 】;取s 4 q = d , 搜索s i 中s 【i 】p = d 的记录,第4 条记录无需比较,因为其记录为b 故删除:d e l ( 4 ) , 搜索后没有发现记录,说明由d 发出的记录为空,d n e x t = n u l l ;故d 为叶子节点, 1 8 第3 章客户兴趣的分析与群的划分 且是由电子网站b 发出,故将该页面添加到有效页面中,类似方法取s 【5 】q = e ,搜 索s 【i 】中s i 】p = e 的记录,第5 条记录无需比较,因为其记录为b 故删除:d e l ( 5 ) , 得到s 【8 】,取s 【8 】q = h ,搜索s 【i 】中s l i p = h 的记录,第8
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 零售业店铺顾客流量分析与营销策略考核试卷
- 针织品销售区域布局优化考核试卷
- 重疾险产品设计
- 胸痛常见疾病及诊断
- 班主任六一汇报工作总结
- 冲管操作与感染防控要点
- 妊高征的急救处理
- 中医外科疾病诊疗概要
- 事故隐患内部报告奖励制度模板三
- 港股6月IPO火热给港股投资带来更多选择
- 2025年报关操作技巧与核心要点
- 2025年统编版小学语文五年级下册期末综合测试题及参考答案
- 浙江临安招聘事业编制笔试真题2024
- 2024-2025学年人教版八年级数学下册期末综合复习解答压轴题培优提升专题训练+
- 2025年高考数学全国一卷试题真题及答案详解(精校打印)
- DB62T 4130-2020 公路混凝土构件蒸汽养护技术规程
- 洗浴中心保安合同范本
- 行政人事部所需各类表格模板
- 2024北京西城区六年级毕业考英语试题及答案
- 《基础护理学》第七版考试题库大全-上部分(600题)
- 大学计算机知到智慧树章节测试课后答案2024年秋广西师范大学
评论
0/150
提交评论