




已阅读5页,还剩58页未读, 继续免费阅读
(计算机软件与理论专业论文)基于数据挖掘的电子商务网站优化技术研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基十数据挖掘的电于商务时站优化技术研究与应用摘要 【摘要】 随着w e b 技术和数据挖掘技术的广泛发展,越来越多的基于电子商务技术 的组织从对网站交易数据和点击数据的深入洞察中获益。因此如何对这些数据进 行分析和挖掘,充分了解客户的喜好和购买模式,设计出满足不同客户群体需要 的个性化网站,从而增加竞争力,已经变得势在必行。 本文针对数据挖掘技术在电子商务网站优化中的应用,重点分析了w e b 访 问模式挖掘和推荐技术的研究,并以2 0 1 0 年上海世博会官方网站为依托,设计 开发了“世博网站优化工具”。该工具可以为网站结构离线调整做出建议和进行 商品实时推荐。 本文主要工作成果为: 1 )提出了一个针对电子商务网站用户访问模式挖掘的方法k包含从 数据收集,到数据清理,用户识别,会话分割,频繁模式挖掘算法以及模式应用 等各个阶段,并对已有相关研究各自的优势,弱点及可能的解决方案等作了深入 探讨; 2 )提出了一种基于修正评分矩阵的协同过滤推荐改进算法。传统的协 同过滤方法在面对“数据稀疏”时,推荐质量会急剧下降。本文提出的改进算法 首先量化用户对评分项的隐式兴趣度,并将这种度量与用户的显式评分矩阵相结 合。在修正后的评分矩阵基础上,根据用户角色和评分项的语义信息进行降维, 从而提高了推荐效果; 3 1针对世博网站,设计和实现站点结构优化工具。通过该工具,可以 收集用户访问日志和站点结构数据,并使用日志清理工具上述数据进行清理和转 换。站点结构工具使用这些数据分析站点页面的访问情况,并根据这些结果调整 网站的链接拓扑,以给用户提供便捷易用的链接,优化网站结构。另外该工具还 具体实现了一个自顶向下的频繁访问模式挖掘算法; 设计和实现了世博网站推荐系统,该系统具有良好的开放性,能同 时支持多种推荐功能。该系统实现了关联推荐,热门推荐,改进的协同过滤推荐 等多种推荐方法。 关键词:数据挖掘、电子商务、访问模式挖掘、推荐系统 中图法分类号:t p 3 1 1 a b s t r a c t a st h er a p i dd e v e l o p m e n to fw e bt e c h n i q u ea n dd a t am i n i n g ,m o l ea n dm o r o o r g a n i z a t i o n s ,b a s e do ne - c o m m e r c e ,b e n e f i tf r o mt h ed e 印i n s i g h t so f t h e w d _ r 1 蚰t c t i o n a n dv i e wd a t ao f t h ew e b s i t e s o ,i no r d e rt oe n h a n c ec o m p e t i t i v es t r e n g t h , i tc o m e st o b eu r g e n tt ok n o wc u s t o m e r s i n t e r e s t sa n db u yp a t t e r n se f f i c i e n t l ya n dd e s i g n p e r s o n a l i z e dw e b s i t e sf o rd i v e r s i t yc u s t o m e rg r o u p sb ya 咖i n ga n dm i n i n gt h e s e d a t a a i m e da tt h ea p p l i c a t i o no fd a t am i n i n gt e c h n i q u ei nt h eo p t i m i z a t i o no f e - c o m m e r c ew e b s i t e , t h i sp a p e re m p h a s i so nt h er e s e a r c ho fw e ba c c e s s i n gp a r e m a n dr e c o m m e n d a t i o nt e c h n i q u e , a n dp r e c e d e dt h i s , o nt h eb a s i so f e x p 0 2 0 1 0w e b s i t e , d e s i g na n dd e v e l o pt h ew e b s i t eo p t i m i z a t i o na p p l i a n c e t h i st o o l c a nm a k e r e c o m m e n d a t i o n sf o rw e b s i t es t r u c t u r eo f f - l i n ea n df o rc o m m o d i t i e so n - l i n e s o m ek e yr e s e a r c h e sc o n c l u d e di nt h i sp a p e ra sf o l l o w s : 1 ) am e t h o d o l o g ya b o u tf r e q u e n tw e ba c c e s s i n gp a t t e r n sm i n i n go ne - e o m n l e r c e w e b s i t e ,i n c l u d ed a t ac o l l e c t i n g , d a t ac l e a n i n g ,u s e ri d e n t i f i c a t i o n ,s e s s i o n s e g m e n t a t i o na n df r e q u e n tp a t t e r n sm i n i n ga l g o r i t h m ,p a t t e r n sa p p l i c a t i o n o nt h e b a s i so fa b o v ea n a l y s i s ,t h i sp a p e rg i v e sad e e pi n s i g h ti nt h es t r e n g t h , d e f e c ta n d p o s s i b l es o l u t i o n so f t h er e l a t e dr e s e a r c h 2 ) an e wc o l l a b o r a t i v ef i l t e r i n ga l g o r i t h mb a s e do na m e n d e dr a t i n g m a t r i x t r a d i t i o n a lc o l l a b o r a t i v ef i l t e r i n gm e t h o d s ,u n a v o i d a b l y , a , l - ep u z z l e db yt h e p r o b l e mo f d a t a - s p a r s i t y ;a n di nt h i sp a p e r , t h en e wr e c o m m e n d i n ga l g o r i t h mi s b r o u g h tf o r w a r dt o s e t t l et h ep r o b l e m t h ea l g o r i t h mf i r s t l ya c q u i r e su s e r s i m p l i c i td e g r e e o f - i n t e r e s tt oi t e mt h r o u g ha n a l y s i n gw e bl o g ;a n dt h e nc o m b i n e s t h ei m p l i c i td e g r e e - o f - i n t e r e s tw i t ht h ee x p l i c i tr a t i n sm a t r i x o nt h eb a s i so f m i x e dr a t i n gm a t r i x ,s e m a n t i cc l a s s i f y i n gi n f o r m a t i o ni si m p o r t e dt od e c r e a s et h e r a t i n gm a t r i x sd i m e n s i o n sa n dt h u sf n r t h e ri m p r o v et h ep r e c i s i o no f c o l l a b o r a t i v e r e c o m m e n d a t i o n 3 1 d e s i g na n di m p l e m e n tas t r u c t u r e - o p t i m i z a t i o nt o o lf o re x p 0 2 0 1 0w e b s i t e w i t h t h i st o o l ,w ec a l lc o l l e c th s c r s a c c e s s i n gl o ga n dw e b s i t es t r u c t u r ed a t a , a n dt h e n , c l e a na n dt r a n s f o r mt h e s ed a t ab yl o g c l e a n i n gt 0 0 1 s t r u c t u r eo p t i m i z a t i o nt o o l u s e st h e s ed a t at oa n a l y z ep a g e - a c c e s s i n g ,a n da d j u s tt h el i n k a g et o p eo ft h e w e b s i t eb yt h ea b o v ea n a l y s e s b e s i d et h i s ,t h i sp a p e ra l s oi m p l e m e n t e da t o p - d o w nf r e q u e n ta c c e s s i n gp a t t e r n sm i n i n ga l g o r i t h m 4 1 d e s i g na n di m p l e m e n tar e c o m m e n d a t i o ns y s t e mf o re x p 0 2 0 1 0w e b s i t e t h i s s y s t e mi so p e nt os u p p o r tv a r i e sr e c o m m e n d a t i o nf u n c t i o n ss u c ha sa s s o c i a t i o n r e c o m m e n d a t i o n , t o p r e c o m m e n d a t i o na n dt h en e wc o l l a b o r a t i v e r e c o m m e n d a t i o na l g o r i t h mr o s eb ya b o v ep a p e r k e yw o r d s :d a t am i n i n g e - c o m m e r c e ,a c c e s s i n gp a t t e r nm i n i n g ,r e c o m m e n d a t i o n s y 7 s t e m , 论文独创性声明 本论文是我个人在导师指导_ f 进行的研究工作及取得的研究成果。论文中除 了特别加以标注和致谢的地方外,不包含其他人或其它机构已经发表或撰写过的 研究成果。其他同志对本研究的启发和所做的贡献均已在论文中作了明确的声明 并表示了谢意。 作者签名: 论文使用授权声明 日期:塑! :! 本人完全了解复旦大学有关保留、使用学位论文的规定,即:学校有权保留 送交论文的复印件,允许论文被查阅和借阅:学校可以公布论文的全部或部分内 容,可以采用影印、缩印或其它复制手段保存论文。保密的论文在解密后遵守此 规定。 作者签名:导师签主葛兰茎雳兰2 垒!名歪圭三茎三谛= :竺: 斟 基十数据挖掘的电了| 商务时站优化技术研究与麻用 第1 章绪论 1 1 研究背景 1 1 1 数据挖掘 第1 章绪论 随着计算机普及水平的不断提高,数据采集、存储与管理技术的进步,各类 企业级应用成功案例不断增加,与之对应的就是各类企业数据量迅速扩大,很多 数据库已经达到t b 级,成为名副其实的海量数据。如何在这些海量数据中发现 隐藏的知识和规律,避免“数据爆炸而知识贫乏”,避免被淹没在数据和信息的 海洋当中,已经成为计算机界尤其是数据库领域研究者的一个重要研究方向 数据挖掘。 数据挖掘也称为数据库中的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e , k d d ) ,即从大规模的数据中抽取非平凡的、隐含的、未知的、有潜在使用价值 的信息的过程。数据挖掘是面向应用的多学科交叉领域,汲取了许多学科中成熟 的工具和技术,包括数据库技术、统计学、机器学习、模式识别、人工智能、信 息检索、数据可视化等。数据挖掘是个年青的学科领域,源于上述交叉学科在知 识和规律发现上的优点,但又有所不同,数据挖掘技术一般与数据访问的相关技 术紧密结合,更加侧重于对海量数据的多种模式的自动发现,复杂的数据挖掘算 法通常是多种有效技术的集成,因此数据挖掘具有更广泛的应用前景。 数据挖掘的一般过程可以分为三个阶段,包括数据准备、模式发现与结果表 达。数据准备又可分为数据清理、数据集成、数据选择、数据变换,数据清理过 程主要解决数据的不完整和不一致问题,填充空缺值,识别异常点和纠正不一致 现象;数据集成过程主要是将分布在各个不同物理位置的多个同构或异构数据源 中的数据集中起来存放;数据选择过程主要是通过分析数据,获得与分析任务相 关的数据;数据变换过程主要是将实际数据转换成为适合挖掘的数据。模式发现 包括模式挖掘和模式评价,模式挖掘是通过各类统计、机器学习或人工智能等的 方法挖掘海量数据中存在规律和知识模式的过程,是整个数据挖掘的核心,也是 数据挖掘领域的难点所在;模式评价根据某种领域专家定义的兴趣度度量,识别 发现真正有趣的模式。结果表达是使用可视化和知识表示技术以一种直观、容易 理解的方式展示给用户挖掘得到的规则和模式。 根据模式发现阶段所发现的规则不同,数据挖掘方法一般可以大致划分为关 摹十数据挖掘的电了- 商务蚓站优化技术研究j 应用 第1 章绪论 联分析、预测、分类分析、聚类分析以及异常检测等五种。 在研究领域,虽然数据挖掘还是个年青的领域,但是已经得到越来越多的来 自各个其它各个相关领域研究人员及专家的关注,国际k d d ( k n o w l e d g e d i s c o v e r y i n d a t a b a s e ,k d d ) 组委会于1 9 9 5 年把专题讨论会更名为国际会议, 在加拿大蒙特利尔市召开了第一届k d d 国际学术会议,以后每年召开一次。除 了美国人工智能协会主办的k d d 年会外,还有许多的数据挖掘年会,包括 p a k d d ,p k d d ,s i a m - d a t am i n i n g 等。 数据挖掘的经济价值也日益被众多商业厂家所推崇,形成初步的市场。一份 最近的g a r m e r 报告中列举了在今后3 5 年内对工业将产生重要影响的五项关键 技术,其中k d d 和人工智能排名第一。虽然数据挖掘技术在不断的取得突飞猛 进的发展,但是必须结合特定领域的需要才能定制出比较合适的特定工具,取得 良好的效果。目前数据挖掘技术在金融数据、客户关系数据、生物数据、零售业 和电信业数据分析领域的应用中都取得了比较大的成功。 1 1 2 电子商务 在过去的十几年里,w w w 系统以难以想象的速度在中国飞速发展。2 0 0 6 年7 月1 9 日,中国互联网络信息中,t :, ( c n n i c ) 在北京发布第十八次中国互联 网络发展状况统计报告。报告显示,截止到2 0 0 6 年6 月3 0 日,我国网民人数 达到了1 2 3 亿人,与去年同期相比增长了1 9 4 ,同1 9 9 7 年l o 月第一次调查的 6 2 万网民人数相比,现在的网民人数已是当初的1 9 8 4 倍( 如图1 1 所示) 。其 中宽带上网网民人数为7 7 0 0 万人,在所有网民中的比例接近2 3 。 2 基十数据挖掘的屯子商务嘲站优化技术研究与应用第1 章绪论 图1 1 历次调查网民总数 报告显示,我国网站总数达到了7 8 8 ,4 0 0 个, 网络国际出口带宽总量则达 到2 1 4 1 7 5 m ,与去年同期相比增长率为1 5 9 2 。网民平均每周上网1 6 5 小时。 与去年同期相比,网民的每周平均上网时间增加2 5 小时,增幅为1 7 9 。 因特网的发展和普及为电子商务提供了优厚的土壤。w w w 系统是各种信息 的交流的绝好平台,为现代商业交易及其信息交流提供了合适的环境,也为购物 者和销售者提供了方便、快捷和廉价的选择。电子商务是商业的新模式,它将信 息技术应用在商业活动中,增强贸易伙伴之间的商业关系或提高贸易过程中的效 率,它通过电子方式而不是面对面方式完成交易。1 9 9 7 年,m m 公司第一次使 用术语“电子商务”( e - - c o m m e r c e ) 【c c z 0 6 】。i b m 将电子商务定义为“将系 统和运行主要商业操作的过程结合起来,传送不同商业价值的安全,灵活和完整 的途径”。与此同时,基于w 曲的各种交易方式陆续出现,各种专门从事w e b 交易的公司也应运而生,如网上书店a m a z o n ,d a n g d a n g ,网上拍卖场e b a y 等 等。 许多企业已经开始意识到电子商务是保持竞争力的一个重要手段。尤其是对 于许多拥有大量顾客的行业,如零售业、制造业、服务业等,电子商务技术正逐 渐成为业务经营中至关重要的部分。根据在线调查结果,目前大约有1 5 0 0 万人 经常使用网络教育,2 5 0 0 万人经常使用网上招聘,经常使用博客和上网购物人 数分别达到2 8 0 0 万和3 0 0 0 万人,分别占网民总数的1 2 、2 0 、2 3 7 和2 6 。 另外,与去年同期相比,经常购物的网民增长5 0 n , 6 ,显示出这一新兴购物方式良 好的潜力和前景。 建立起一个电子商务网站并不困难,困难的是如何从电子商务网站获益。虽 3 基十数据挖掘的电于商务州站优化技术研究与应用 第l 章绪论 然电子商务面对的是全球化的市场,理论上有更多的商业机会,但是业务竞争比 传统的业务竞争更加激烈。其中一个很重要的原因就是电子商务网站的客户转移 成本较低,客户只需几下点击,就很容易的从一个电子商务网站转移到竞争对手 那里,因此如何有效的吸引客户,增加客户忠诚度,成为电子商务网站获益的关 键所在。电子商务网站每天都有可能产生上千万条交易记录,点击数据以及其他 记录文件,因此如何对这些数据进行分析和挖掘,充分了解客户的喜好和购买模 式,设计出满足不同客户群体需要的个性化网站,进而增加竞争力,已经变得势 在必行。本文正是描述如何在电子商务网站中应用数据挖掘技术,发现隐藏在商 业数据和w e b 数据背后的知识,从而帮助决策者制订智能商业策略,改进客户 关系。 1 2 电子商务网站优化 数据挖掘的成功应用需要一些必备的要素,在现实领域中,这些要素很难同 时满足,但电子商务网站的特殊性,却很好的或较好的满足了这些要素。这些要 素包括以下几个方面: ( 1 ) 海量的数据 点击流数据包含了大量的页面浏览信息,比如y a h o o ! 公司服务器每天有超 过1 0 亿的页面浏览信息。海量的数据才能保证发现的模式具备统计意义的 重要性,并且降低过拟合的概率。 ( 2 ) 多个属性 。 如果记录只包含少量的属性数,那么只需采样简单的图形展现技术就可以对 数据进行分析。 ( 3 ) 干净的数据 包含噪声和不一致的数据会使得模式挖掘以及预测更为艰难,且降低了结果 的可信度。电子商务网站的直接电子化数据收集策略提高了源数据的高质量 和高可靠性。 ( 4 ) 可操作性 数据挖掘不能只停留在发现有趣的模式上,只有将挖掘的结果应用到组织 中,数据才能最终转化为信息。但在传统的领域中,由于组织历史系统的不 灵活性,使得这种结果应用比较艰难。在电子商务领域中,可以很方面的通 过改变网站结构,布局,交叉销售,个性化等措施来应用挖掘结果。相比于 其他领域的数据挖掘应用,电子商务网站中的业务系统和分析系统可以更为 容易的形成一个闭环过程。 4 基十数据挖掘的电子商务列站优化技术研究与应用第1 章绪论 ( 5 ) r o i 可度量性 我们用r o i ( r e v e n u eo fi n v e s t m e n t ) 来衡量数据挖掘项目所取得的成果与 所花费的代价之比。在其他一些传统领域,很难准确度量数据挖掘产生的实 际改进效果。但在电子商务中,因为有良好的数据收集机制,我们可以更为 便捷更为及时的捕获用户对于数据挖掘结果的响应。 正是由于电子商务网站具备上述五点特征,使得数据挖掘技术具备成功应用 的天然条件。任何基于电子商务技术的组织都可以从对网站交易数据和点击数据 的深入洞察中获益 r o n 0 1 。这种深入洞察有助于改进站点结构设计,个性化服 务,提高客户忠诚度和盈利能力。参照 c 0 0 1 0 0 的分类法,本文将数据挖掘技术 在电子商务网站优化中的应用分为以下五个方面: 1 ) w e b 个性化服务( w e bp e r s o n a l i z a t i o n ) w e b 个性化服务是指w - e b 站点能够根据用户喜好和需求自动调整w e b 站点的 信息组织和表示。一方面用户能够在它的帮助下迅速找到需要的信息,另外一方 面每个不同的用户( 或者用户群) 可以获得不同的访问体验,使得w e b 站点更有 人性化和吸引力。其中的关键问题是用户建模和行为预测。利用w e b 使用挖掘技 术从大量的使用数据中获取用户有价值的行为信息是实现此类功能的捷径。 2 ) 系统改进( s y s t e mi m p r o v e m e n t ) 系统改进包括两个方面,一是改进系统的运行性能,例如使用w e b 缓冲技术, 改善网络交通状况,提高站点响应速度;二是优化站点的设计,例如调整页面间 的连接结构,使其更加符合用户的使用习惯,同时也检测出设计中存在的问题。 w e b 使用挖掘技术能够帮助w e b 站点管理者及时了解用户的访问行为,改进系统 的设计和性能。 3 1 站点调整( s i t em o d i f i c a t i o n ) 通过对用户使用模式的挖掘,可以增强电子商务网站的魅力,既包含内容也 包含结构方面。挖掘用户的频繁访问模式,可以为站点结构设计者重新调整站点 结构提供详细的反馈信息。 4 ) 商业智能( w e bi n t e l l i g e n c e ) 了解客户行为和需求一直是商业领域内的一项很重要的工作。由于电子商务 站点的运行不受时间和地域因素的影响,所以通过w e b 站点可收集大量的客户 行为数据。这些数据包含着许多可影响商业决策的用户行为信息。由于数据量很 大,手工分析几乎变成了不可能的任务。适合处理大数据量的w e b 使用数据挖掘 技术便在此处体现出了它的商业价值,它能帮助企业迅速发现和商业决策相关的 5 摹十数据挖掘的电了商务 b 4 站优化技术研究与应用 第l 章绪论 信息,提高应变能力。例如,数据挖掘技术可以有效的分析商品购买情况,在线 广告的点击情况等等。 5 ) 使用描述( u s a g ec l m m c t e r i z a t i o n ) 和商业领域内的各种流量分析不同,这属于科学研究范围,目的是观察w e b 用户的使用行为,发现一些规律。成果可用于改进w e b ,包括各种相关工具和协 议。此类研究需要收集和分析大量的使用数据,w e b 使用挖掘技术自然成了一个 合适的分析工具。 1 。3 本文工作 本文针对数据挖掘技术在电子商务网站优化中的应用,重点分析了w e b 访 问模式挖掘和推荐技术的研究,并以世博网站为依托,设计开发了世博网站优化 工具。该工具可以为网站结构离线调整做出建议和进行商品实时推荐。本文的主 要工作包括以下几个方面: 提出了一个针对电子商务网站用户访问模式挖掘的方法论,包含从数据收 集,到数据清理,用户识别,会话分割,频繁模式挖掘算法以及模式应用等 各个阶段,并对已有相关研究各自的优势,弱点及可能的解决方案等作了深 入探讨; 提出了一种基于修正评分矩阵的协同过滤改进算法。传统的协同过滤方法在 面对“数据稀疏”时,推荐质量会急剧下降。本文提出的改进算法首先量化 用户对评分项的隐式兴趣度,并将这种度量与用户的显式评分矩阵相结合。 在修正后的评分矩阵基础上,根据用户角色和评分项的语义信息进行降维, 从而提高了推荐效果: 针对世博网站,设计和实现站点结构优化工具。通过该工具,可以收集用户 访问日志和站点结构数据,并使用日志清理工具上述数据进行清理和转换。 站点结构工具使用这些数据分析站点页面的访问情况,根据这些结果调整网 站的链接拓扑,以给用户提供便捷易用的链接,优化网站结构。另外该工具 还具体实现了一个自顶向下的频繁访问模式挖掘算法; 设计和实现了世博网站推荐系统,该系统具有良好的开放性,能同时支持多 种推荐功能。该系统实现了关联推荐,热门推荐,改进的协同过滤推荐等多 种推荐方法。 6 摹十数据挖掘的电子商务嘲站优化技术研究与应用 第l 章绪论 1 4 文章结构 本文共分为五章,每章的主要内容介绍如下。 第一章简要地介绍了数据挖掘、电子商务的发展背景;论述了电子商务网站 优化中应用数据挖掘技术的适应性和应用点,然后介绍了本文的主要工作及整体 组织结构; 第二章综述了电子商务网站用户访问模式挖掘的各个子过程,从数据收集, 到数据清理,用户识别,会话分割,频繁模式挖掘算法以及模式应用等。不仅系 统的介绍了各个子过程迄今为止的相关研究,还分析了相关研究各自的优势,弱 点及可能的解决方案等; 第三章介绍了推荐技术在电子网站中的应用,并指出传统的协同过滤推荐技 术受困于“数据稀疏”的问题。针对这一问题,该章提出了一个基于修正评分矩 阵的改进算法; 第四章以世博网站为依托,基于用户访问模式挖掘过程和推荐技术,设计开 发了世博网站优化工具。工具包含两个部分,分别是网站结构优化工具和推荐系 统。该章介绍了该工具的设计与实现以及关键技术分析; 第五章是讨论与小结部分,对本文的工作进行总结并指出了未来的研究方 向。 7 基十数据挖掘的t 乜于商务叫站优化技术研究与应用第2 章电子商务嘲站中的访问模式挖掘 第2 章电子商务网站中的访问模式挖掘 本章主要针对电子商务网站中的访问模式挖掘进行综述,包括挖掘过程,数 据收集,用户识别,会话分割,访问模式挖掘( w a p ) 算法等。对于其中的每一 个话题,本章都力图阐释迄今相关方面的研究成果,包括各自的优势,弱点及可 能的解决方案等。 2 1 访问模式挖掘问题定义 一个访问序列数据库纾笤是元组 t 2 = e s , 如果 s 汹呵边则必定有j 1 锄。在孵中的支持度定义为:s u p p o r t w s ( s ) = 10 - s j ) n ( w s ) l 。给定一个正整数f 作为支持度阈值,如果s u p p o r t w s f ,则称s 是个;模式或者简称其为w s 的访问模式。 例子2 1 :表2 1 显示的是一个访问数据库的内容。设 口,b ,c ,西p ,岛h ) 是 事件集,而 1 ,2 ,3 ,4 ,5 ) 是一组标识。下面是其中包含的一些访问序列( 格式是访 问序列:支持度) : 驴:4 , 胁:4 , 伊:2 ,舻:2 , :l ,胁:3 ,驴4q 6 ,痧:l 如果支持度阈值是3 ,全部访问模式是: 驴:4 ,勺,日:4 , :4 , 3 4 勺,h ,驴 5 6 ,f ,吐p 2 2 访问模式挖掘过程 数据挖掘的过程模型对数据挖掘应用建设具有直接的指导作用。目前提出的 过程模型有:f a y y a d 过程模型;b r a c h m a n 强调以用户为中心的过程模型; 8 摹十数据挖掘的电了商务刚站优化技术研究与应用 第2 章电r 商务叫站中的卉问模式挖掘 r c i n a r t z 进一步强调以用户为中心的重要性;而数据挖掘跨行业标准c r j s p d m 倡导的是一种有不同任务组成的数据挖掘方法学。w e b 使用挖掘在实际应用中 体现为一个知识发现的过程,针对电子商务网站访问模式挖掘的具体特点,本章 的过程模型如图2 2 所示: 聃期硼勰 軎种馘 主台嚣 图z 2 :模式挖掘过程 为了体现数据收集在整个过程中的重要性,本章依据 r u a n 0 4 在原有过程模 型上添加了这个前端任务。如图2 2 中间的串连的椭圆所示,整个访问模式挖掘 过程分为四个任务:数据收集,数据预处理,模式挖掘和模式分析及应用,各个 阶段有不同的输出,画在对应任务下面。图2 2 还显示除了数据收集外,其他任 务都可使用辅助数据。各个任务解释如下: 2 3 数据收集 与用户访问模式相关的数据,主要包括w e b 服务器访问日志,代理服务器 日志,浏览器日志,用户配置文件等 r b j 9 7 】。上述数据按照用户的角度,又可 以分为针对用户的个人交互数据【l a n 9 9 】,以及各种相关曰志 s p i 9 9 】。 2 3 1 基本概念和数据模型 用户在w e b 上的基本访问行为是通过点击超链接从一个w e b 页面浏览到另 外一个w e b 页面,w 3 c 组织为描述此类行为定义了相关的概念 w 3 c 9 9 1 ,这些 术语是理解和利用w e b 使用数据特性的基础。表2 2 描述了电子商务网站中与 9 基十数据挖掘的电了商务刚站优化技术研究与j 训玎第2 章电了商务州站中的访问模式挖掘 w e b 服务器w 曲s e l n c f能够处理h t l l p 请求的服务器端软件 洲览器b r o w s e f向w e b 服务器发送h 1 1 p 请求井显示其内容的客户端软件。 应用服务器 a p p l i c a t o i n 构建和运行在w e b 服务上的能够动态地提供页面内容的任 s e r v e r何应用系统,负责根据h 兀p 请求动态生成页面文件。 用户u s e r是使用浏览器访问w e b 单个人 页面文件 p a g ef i l ew e b 服务器通过h m 协议发送给浏览器的w e b 数据文件。 页面视图p a g ev i e w同时显示在浏览器窗口内的页面文件集合。 服务器会话s e r v e rs e s s i o n单个w e b 用户访问单个w e b 服务器产生页面视图序列。 用户会话u s e r s e s s i o n单个w e b 用户访问w e b 产生的页面视图序列。 访问情节 e v i d e 一段属于用户会话或着服务器会话的页面视图序列。 表2 2 :与访问模式相关的基本概念 下图是访问模式挖掘过程包含的基本数据模型的e r 图 r u a n 0 4 : 图2 2 :w e b 访同模式数据基本e r 梗型 图中的关系都是组成关系,例如用户由多个用户会话组成,用户会话由多个 服务器会话组成。上图标出了实体的关键常见的几个属性,省略号“”表示还有 多种属性。各种数据实体都由其特定的各种属性,其中用户和页面文件是使用数 据和其他辅助数据集成的“连接点”。因为用户不仅关联着其本身的属性数据,而 且关联着大量的商业交易数据,类似页面文件关联着内容数据和站点的结构数 据。站点结构一般建模成基于超连接互连形成的某种结构( 树,图或者其他) , 而对应页面文件的内容数据一般简化表示成关键字集合( 或者包) ,或者其他改 进形式。 2 3 2 数据收集 图2 3 展示了用户在电子商务网站的整个交互环境: l o 基十数据挖掘的 乜了商务州站优化技术研究与应用 第2 辛 乜子商务嘲站中的访问模式挖掘 1 谢览器交互敦据 3 盯t p 协议数据2 应用变互数据 4 t 驯i p 协识最据 图2 3 :w e b 交互环境 按图2 3 所示,常见的收集地点有浏览器,网络层,代理服务器,w e b 服务 器应用服务器,常见原始行为数据有四类:应用交互数据,h t i t 协议数据和 t c p i p 协议数据和浏览器交互数据。四者容纳的行为信息量和类型是不同的。 一般情况下这些原始数据包含的行为信息基本上有一个递增关系:应用交互是基 于m 1 甲协议的,m 1 p 协议依赖于t c p i p 协议层传输数据包,上述所有数据 又都是用户从浏览器端点击输入超连接而触发的。为了提高数据传输速度,w e b 上存在各种页面缓冲环节( 测览器或者h 1 1 p 代理等) ,所以除了浏览器交互数 据,其他数据均存在着行为信息缺失的问题,除非采用特殊技术来阻止缓冲( 例 如 h h w l o i i u r l 动态修改法) 。 c o o l 0 0 r u a n 0 4 z r a 0 6 对这四种数据收集方 法进行了描述和总结: ( 1 ) 浏览器交互数据 此类数据包含了浏览器界面上发生的各种事件,例如点击超链接,点击按钮 或者菜单,甚至是键盘输入或者鼠标移动。和其他原始数据相比它包含的用户行 为信息最为丰富。一般在浏览器端收集此类数据,然后传送给专门的数据收集服 务器,所以对原有w e b 服务性能没有影响,也不受缓冲的因素影响,而且利用 数据收集服务器能够做到在线识别用户和会话 s k 0 1 l h c 9 9 。扩展浏览器本身 和在w e b 页面上添加小程序是目前普遍采用的两种收集方法。前者利用浏览器 的扩展机制添加行为跟踪功能 , 例如 【s z a s 9 7 a b g + 9 7 l i e 9 5 l h c 9 9 1 r p c 0 0 c p 9 5 收集方法,好处是能够记录 用户会话,它包含的行为可横跨整个w e b ;后者在页面上添加跟踪程序( 脚本程 序 e c 9 9 或者j a v a 小程序 s k 0 1 ) ,w e b 站点上每个需要跟踪的页面都需要添加, 因此只能收集服务会话,范围限制于特定的某个,几个w e b 站点。但是扩展的浏 览器必须强制要求用户使用,所以只能用于能够强制使用的环境,例如专门可用 性测试环境。在w e b 页面卜添加跟踪程序的限制很小,只求用户使用支持小程 愚抛胪 基十数据挖掘的电子商务嘲站优化技术研究与应用 第2 章电子商务嘲站中的访问模式挖掘 序的浏览器( 或者开启这些可屏蔽的功能) ,这在现今的w e b 技术环境中基本不 成问题。 ( 2 ) 应用交互数据 此类数据包含在应用层面的各种事件信息,所以其他数据相比这些事件属于 更高的应用概念层次,挖掘的结果容易被应用领域专家分析和理解。虽然这些数 据可从其他原始数据中根据领域知识提取出来,但是需要繁琐的预处理工作。因 为只有应用系统确切知道各种唧请求对应的应用语义,所以一般在应用服务 器内部建立识别和收集机制, m ( m z o h 认为此种方法适合在使用挖掘技术和电 子商务系统的集成构架中。但是此种技术对w e b 缓冲是敏感的,因此需要用特 殊技术来阻止缓冲。收集应用交互数据只能针对一个站点,而且也只能够跟踪需 要应用动态生成的页面。鉴于应用服务器是建立在w e b 服务上的,所以对w e b 服务器的运行性能有影响。通过适当的技术能够在线识别用户和会话。 ( 3 ) h r r p 协议数据 h t t p 协议数据是浏览器和w e b 服务通讯产生的数据( 也常称为w e b 日志 数据) ,主要包括u r l 请求和与此相关的协议数据。由于许多w e b 服务器本身 就有记录m 1 甲请求的功能,而且积累w e b 日志往往已是日常管理的一部分, 所以此类数据成为w e b 使用挖掘的数据主体。虽然这类数据没有统一标准,但 是w 3 c 的通用日志文件格式( c o m m o nl o g f i l ef o r m a t ) w 3 c 9 5 或者其扩展格 式 w 3 c 9 6 在主流w e b 服务器广泛采用。 下面举例描述通用日志文件格式,这里只列举了部分与访问模式挖掘相关的 项: h o s t i p l o g n a m e d d 棚y y l f l f :瑚:姗:s s o o o o “m e t h o d p a t h h t t p 1 o 竹c o d eb y t e s h o s t i p :表示访问者的主机地址或者i p 地址。从访问者正处于的连接中来: l o g n a m e :用户在当前目录中的登录名。如果为空,该值用“一”来显示; d d 姗d y y l l n f :唧:嘲:s s - o o o o :分别表示用户访问的天( d d ) ,月( 删) , 年( 1 f l f y y ) ,小时( 明) ,分钟( 枷) ,秒( s s ) 。最后一个符号表示与标准格林尼 治时间的差距。 m e t h o d :访问页面或文件的方式,取值有p u t ,g e t ,p o s t ,h e a d 。p u t 方式允 许用户向w e bs e r v e r 传送文件,g e t 方式将w e b 内容传给客户,这是最普遍的 方式,p o s t 方式与p u t 类似,但它是将信息作为请求的一部分传到w e bs e r v e r 的。h e a d 方式表示页面的头部,通常用于检验页面的可用性,日期和长度等; p a t h :表示访问w e bs e r v e r 的路径; 1 2 基十数据挖掘的电了商务嘲站优化技术研究与应用第2 章电于商务埘站中的访问模j 挖掘 c o d e :表示服务器的状态。比如4 0 4 表示文件不存在,3 0 4 表示从c a c h e 中 重新获取该文件等; b y t e s :表示从w e bs e r v e r 到用户传输的字节数。 但是此类廉价的数据并不全部可靠,需要大量的数据预处理工作,主要原因 是:乱受到特定收集机制的限制,一些协议数据无法收集( 例如p o s t 命令的参 数数据) :b m 1 甲协议本是无状态的,缺乏用户跟踪机制;c 收集机制对缓冲敏 感。如果需要提高数据质量,必须扩展w 曲服务器的收集功能( 例如服务器插 件或者直接修改服务器) 。依靠w e b 服务器收集的方法只能针对单个站点,对 w e b 服务器性能有影响。另外一种收集方法是在h t t p 代理服务端收集h t t p 协议数据。此类方法也存在和前者一样的问题,也需用各种扩展技术提高数据质 量( 例如 h h w l 0 1 1 j f m 9 7 m w r 0 3 的方法) 。它的一个好处是能够收集到面向 整个w e b 的行为信息,而且对w e b 服务器没影响,缺点是强制用户使用代理服 务器,所以它适合于正式的可用性测试。 * ( 4 ) t c p i p 协议数据 因为h t y p 协议通讯基于t c p i p 协议,所以此类数据包含了所有( 3 ) 中的行 为信息。它是底层的通讯协议,所以它又包含了只有在通讯层面才有的信息:例 如h t t p 连接的断开和连接出错等。常见的收集方法是直接从网络设施上截取的 数据包( p a c k e ts n i f f i n g ) a c c 0 4 】。此类方式收集的数据和( 3 ) 一样存在可靠性问 题:不能在线跟踪用户和会话,对页面缓冲敏感。更要命的是这些闯题必须在上 层通讯设施( 例如w 曲服务器) 上解决。另外此类方法对于加密的数据包无法 处理( 例如基于s s l s e c u r es o c k e t l a y e r ) ,这在安全问题突出的电子商务环境中 经常碰到。基于上述原因此类收集方法限制性很大。 2 4 数据预处理 数据预处理的目的在于选择必要的属性,剔除无关的记录,最后将原始数据 转换成如表2 1 所示的会话数据库。数据预处理对数据挖掘工作十分重要,首先 在原始数据往往存在着缺失,错误,噪音等情况,这直接影响到后续挖掘工作的 结果是否有用;其次在数据挖掘算法要求的数据模型和原始数据表示的数据模型 之自j 存在差别,需要作抽取和转换工作。 灿 亿0 1 指出访问模式挖掘中数据预 处理占整个过程大约8 0 左右的时间。下图2 4 描绘了访问模式挖掘过程的数 据预处理几个主要的步骤: 基于数据挖掘的电了商务删站优化技术研究0 廊用 第2 章电子商务州站中的涛婀模式挖掘 2 4 1 数据清理 数据过滤 图形文件 管理动作 脚本文件 用户识别 通过i p 地 通过域名 通过引用 会话分割 通过时间 通过停留 后向跟踪 数据采样i1 日志数据 1 淫f l 竹话翦irj 图2 4 访问模式挖掘中的数据预处理步骤 挖掘算法 此步骤主要包括一些常规的数据预处理工作,例如属性选择,规范化数据项, 修正错误和缺失数据等。对于通过定制方法收集的使用数据( 例如在应用服务器 上收集的使用数据) 需要的处理工作很少,甚至不用处理。从h t t p 代理服务器 和w 曲
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 现代汉语规范:字音字形的辨别与理解教学教案
- 牛津英语语法大全之定语从句精讲教案
- 辅导机构办学特色调查与效果分析
- 市场调研数据分析可视化工具
- 月光下的畅想曲抒情作文7篇范文
- 心灵的成长历程抒情演讲稿9篇
- 汽车销售业务员客户服务技巧培训
- 小学语文新课标适应教学策略
- 家居用品定制与销售合同
- 商业广告合作协议签署声明
- 中医基础理论-脏象学说
- ICU患者的早期活动
- GB/T 8566-2007信息技术软件生存周期过程
- TSZUAVIA 009.11-2019 多旋翼无人机系统实验室环境试验方法 第11部分:淋雨试验
- GB/T 13452.2-2008色漆和清漆漆膜厚度的测定
- GB/T 12730-2008一般传动用窄V带
- ps6000自动化系统用户操作及问题处理培训
- 手机拍照技巧大全课件
- 基层医院如何做好临床科研课件
- 核电质量保证培训讲义课件
- 2021年东台市城市建设投资发展集团有限公司校园招聘笔试试题及答案解析
评论
0/150
提交评论