




已阅读5页,还剩121页未读, 继续免费阅读
(计算机应用技术专业论文)面向智能电子商务的web挖掘理论与方法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着全球信息化的发展,信息量指数增长,电子商务在全球取得了迅 速发展。目前电子商务已经发展到一个新的阶段,处理对象向综合化、 大型化、复杂化方向发展。把智能计算技术应用到电子商务,解决现有 电子商务技术在大量商品信息的搜索、分析和决策等方面的种种不足, 已经成为发达国家大企业提高竞争力和市场份额的战略选择。 利用w e b 挖掘技术对电子商务中的大量数据进行存储、管理、对比、 检索、寻找其相关性,挖掘出数据所隐藏的规律,自动获取知识,可以 对电子商务作出决策支持。智能电子商务网站能为用户提供个性化和推 荐商品服务,使用户快速找到自己需要的商品,提高用户的信任度。智 能电子商务网站也可以通过预取和缓存方法来提高网站的性能,减少用 户的延时感受,间接提高用户的满意度。为用户提供更加称心如意的智 能服务,让用户享受一种个性化的购物体验,才能留住和争取更多的用 户,从而在竞争中取得先机。 目前,基于w e b 挖掘的智能电子商务技术存在着各种不同的问题。首 先,大部分w e b 挖掘方法都使用w e b 日志作为数据源,冗余数据多,预 处理方法不精确且效率低。为挖掘算法提供质量差的数据源。其次,各 种w e b 挖掘算法没有很好地结合电子商务的特性来设计,挖掘算法性能 低,挖掘结果的质量差且缺乏语义。再次,存放挖掘结果的知识库没有 得到有效管理,降低了知识匹配速度和利用率。以上这些问题都很大程 度地影响了智能服务的精度和性能。 本文针对当前基于w e b 挖掘的智能电子商务网站中存在的问题,设计 了一个组件化的多层次的体系结构框架,提出了利用新的w e b 数据源模 型统一事件模型作为基础,设计个性化、推荐、预取、规则求精等方面 的智能算法,为网上用户提供比现有电子商务网站更具人性化特色和成 功率更高的智能服务。本论文的创新主要体现在: f 1 )提出了一种基于应用层记录的统一事件模型u e m 。该模型提供 方便和精确的数据源搜集方式,搜集的数据内容齐全,提供w e b 挖掘算 法分析所需要的数据。u e m 的准确、快速的用户识别和会话识别算法为 w e b 使用挖掘算法提供了准确的数据源。u e m 可扩充性好。可以根据需 要很方便地增加各种的电子商务行为的数据记录。u e m 能方便地把用户 会话的结果转化为事件序列库,供w e b 挖掘算法使用。u e m 很好地支持 华南理工大学博士学位沧文 多维多层次的w e b 使用挖掘算法分析。新的w e b 数据源模型的提出,为 智能电子商务站点提供了高质量的数据源,进而提高智能服务的质量。 f 2 )通过改进的信任函数公式和启发式聚类方法,提出了基于用户 任务级的w e b 用户聚类算法u t c ,发现每簇用户群共同的访问模式。 u t c 将频繁特征子序列视为任务,使用信任函数进行基于用户任务级的 用户聚类挖掘。基于用户缴的挖掘能有效地挖掘同组用户共同的访问模 式且具有较好的性能:基于任务级的挖掘具有较好的语义涵义且具有较 好的性能。该算法有效地挖掘用户群的访问模式,为智能电子商务站点 提供更高质量的个性化、推荐等智能服务。 ( 3 )提出一种基于m a r k o v 树的混合阶m a r k o v 树预取算法h o m t , 发现用户访问转移模式,同时进行快速的在线预取。h o m t 使用一个模 式树压缩存储所有的w e b 访问序列和一种逐阶增量更叛方法来创建所有 阶的m a r k o v 模式树。混合阶算法综合考虑m a r k o v 模型备阶对预取的影 响,具有高覆盖率和高精确率。利用离线产生的预取树,h o m t 在线使 用快速预测算法进行用户访问预测,从而进行高性能的预取。该算法有 效提高了电子商务中w e b 预取等智能服务的质量,减少用户的延时感受。 f 4 1提出了w e b 拓扑概率模型和有趣关联规则算法i a r ,结合商品 目录( 网络拓扑等) ,对挖掘出的关联规则进行有趣度评价,得出有趣度 高的规则,即规则求精。进一步改进了【a r 算法,提出了一种矩阵迭代 的规则求精算法w t p m ,快速迭代求解任意两个页面间的关联概率。规 则求精能对知识库进行有效管理,提高了知识的利用率,进丽提高智能 服务的质量和性能。 r 5 )充分结合多功能数据挖掘器( m f d m ) ,设计并实现多层体系架 构的智能商品信息分析决策网站的原型系统m y e s h o p ,作为具有自主知 识产权的e g o 网络购物引擎系统的一部分。e g o 系统采用搜索技术自动 在网上搜索商品信息,并自动进行信息提取,学习用户兴趣,进行个性 化、推荐、预取等智能服务。目前,国内外极少出现能将搜索引擎技术 和智能电子商务技术有机结合的产品。 关键词:w e b 挖掘;智能电子商务:个性化;推荐;预取 中图分类号: t p l 8 l文献标识码:a a b s t r a c t a b s t r a c t w i t ht h ed e v e l o p m e n to ft h e g l o b a l i n f 0r m a t i o n i n d u s t r y a n dt h e e x p o n e n t i a ii n c r e a s eo fi n f o r m a t i o nc a p a c i t y ,e c o m m er c eh a sd e v e i o p e da t at r e m e n d o u sp a c e n o we c o m m er c eh a ss t e p p e di n t oan e wp e r i o d i t n e e d st oh a n d l em o r es y n t h e t i c a l ,l a r g e - s c a i ea n dc o m p l e xo b j e c t s t oa p p l y i n t e u i g e n tc o m p u t i n gt e c h n i q u e st oe - c o m m e r c ea n ds o i v ed e f i c i e n c yo f c u r r e n te c o m m e r c et e c h n i q u e si np r o d u c ts e a r c h i n g , a n a l y z i n g a n d d e c i s i o n m a k i n gh a sb e c o m eas t r o n g p o i n tf b rl a r g ee n t e r p r i s e st or e m a i n c o m p e t i t i v ei nt h eg l o b a lm a r k e t s w e bm i n i n gt e c h n i q u e sc a ns t o r e ,m a n a g e ,c o m p a r e ,s e a r c ha n dm i n e e c o m m er c ed a t a h i d d e nk n o w l e d g ec a nb ed i s c o v e r e df r o mt h e s ed a t a , t h u st o h e l pd e c i s i o n - m a k i n g i ne - c o m m e r c e i n t e l i i g e n te - c o m m e r c e w e bs i t e sc a np r o v i d eu s e r sw i t hp e r s o n a l i z a t i o ns e r v i c e sa n dr e c o m m e n d p r o d u c t st ou s e r s i th e l p su s e r sc h o o s ep r o d u c t sq u i c k l y ,i n0 r d e rt ob u i l d c u s t o m e ri o y a l t y w i t hp r e f e t c h i n ga n dc a c h i n g , i n t e l i i g e n te - c o m m e r c e w e b s i t esc a na l s oe n h a n c ep e r f o r m a n c ea n dr e d u c e l a t e n c y , w h i c hcan i n d i r e c t l yi n c r e a s eu s e rs a t i s f a c t i o n h i g h e rq u a l i t yi n t e l i i g e n ts e r v i c e sc a n o f f e ru s e r sm e m o r a b l e s h o p p i n ge x p e r i e n c e , w h i c hc a nm a k eo n l i n e r e t a i l e r sr e t a i na n dw i nm or ec u s t o m e r s n o wt h e r ea r eal o to fp r o b l e m se x i s t i n gi nc u r r e n tw e bm i n i n gb a s e d i n t e “i g e n te c o m m e r c et e c h n i q u es f i r s t ,m o s tw e bm i n i n ga l g o r i t h m su s e w e b i o g s a st h ew e bd a t as o u r c e t h e yc o n t a i nr e d u n d a n td a t a t h e p r e p r o c e s s i n gm e t h o d so ft h e ma r ei n a c c u r a t ea n di n e f f i c i e n t s ow e bl o g s p r o v i d el o wq u a l i t yd a t af o rw e bm i n i n ga l g o r i t h m s s e c o n d ,m o s tm i n i n g a i g o r i t h m s a r en o tw e l i d e s i g n e da c c o r d i n g t oc h a r a c t e r i s t i cso f e c o m m e r c e t h em i n i n ga l g o r i t h m sa r ei n e f f i c i e n ta n dt h er e s u l t sa r eo f l o wq u a l i t ya n dn o ts e m a n t i c a l t h i r d ,t h ed i s c o v e r e dk n o w l e d g ei sn o t e f f e c t i v e l ym a n a g e d ,w h i c hl e a d st o1 0 wo n l i n ep e r f o r m a n c e a nt h ea b o v e p r o b l e m sh a v ea f f e c t e da c c u f a c ya n de f f i c i e n c yo fi n t e l l i g e n ts e r v i c e s i nt h i sa r t i c l e , a c c o r d i n gt o f a c t si ne c o m m e r c ea p p l i c a t i o n sa n d e x i s t i n gp r o b l e m si nw e bm i n i n gb a s e di n t e l l i g e n te - c o m m e r c ew e b s i t e ,w e d e s i g nac o m p o n e n tb a s e dm u l t i - l a y e ra r c h i t e c t u r e t h es y s t e mu s e san e w 华南理工大学赙士学位论文 w e bd a t as o u r c em o d e l ,u n i “e de v e n tm o d e l ,a n dm a n yn e w a l g o r i t h m sf or p e r s o n a l i z a t i o n ,r e c o m m e n d a t i o n , p r e f e t c h i n g a n dr u l e s p r u n i n g t h e s y s t e mp r o v i d e su s er sw i t ham or ep e r s o n a l i z e da n dm o r es u c c e ss f u l a n a l y s i sa n dd e c i s i o n - m a k i n ge x p e r i e n c e i n n o v a t i o n sm a i nj yr e s i d ei n : ( 1 ) a na p p l i c a t i o ns e r v erl o gb a s e dm o d e lu e mh a sb e e np r o p o s e d t h em o d e lp r o v i d e sc o n v e n i e n ta n dp r e c i s ed a t ac o i l e c t i o nm e t h o d s t h e c o l l e c t e dd a t aa f eo fh i g hq u a l i t ya n dc a np r o v i d ea l in e c e s s a r yd a t af b rw e b m i n i n ga l g o r i t h m s t h eu s e rs e ss i o ni d e n t i f i c a t i o nm e t h o d sa r ea c c u r a t ea n d e f f i c i e n t ,w h i c hm a k e su e m ah i g hq u a l i t yd a t as o u r c e u e mi se x t e n s i b l e a l lk i n d so fe a c t i o n sc a nb ee a s i l ya d d e di n u e mc a nc o n v er tt h eu s e r s e s s i o ni d e n t i f i c a t i o nr e s u l t st o s e q u e n c ed a t a b a s ef o rw e bm i n i n g a l g o r i t h m s u e ms u p p or t sm u n i - d i m e n s i o na n dm u h i l e v e iw e bm i n i n g a n a i y s i s t h en e ww e bd a t am o d e lu e mg r e a t l ye n h a n c e sw e bd a t aq u a i i t y , p r o v i d i n gag o o df o u n d a t i o nf o ri n t e l l i g e n ts e r v i c e s ( 2 ) au s e r t a s kb a s e dw e bu s e rc i u s t e r i n ga i g o r i t h mu t cisp r o p o s e d t od i s c o v e rc o m m o na c c e s sp a t t e r n si ne a c hu s e rc l u s t e r a ni m p r o v e db e l i e f f u n c t i o na n dah e u r i s t i cc l u s t er i n gm e t h o da r e p r o p o s e d u t cr e g a r d s f r e q u e n ts u b s e q u e n c e sa st a s k s ,u s e sb e i e ff u n c t i o nf oru s e rc l u s t e f i n ga n d c i u s t e r sb a s i n go nu s e r t a s ki e v e i u s e rb a s e dm i n i n gc a nd i s c o v e rc o m m o n c i u s t e rp a t t e r n sa n dh a s9 0 0 d m i n i n gp e f f o r m a n c e ;t a s kb a s e dm i n i n gi s s e m a n t i ca n dh a sg o o d m i n i n gp e r f o r m a n c e s ou t cc a n e f f e c t i v e l y d i s c o v e ru s e rc i u s t erp a t t e r n sa n dp r o v i d ei n t e l l i g e n te c o m m e r c ew e b s i t e s w i t h h i g h e rq u a l t i t yi n t e l l i g e n ts e r v i c e s , s u c ha sp e r s o n a i i z a t i o na n d r e c o m m e n d a t i o n ( 3 ) ah y b r i do r d e rm a r k o vt r e e p r e f e t c h i n ga i g o r i t h mh o m tis p r o p o s e d i tc a nd i s c o v e ru s e rt r a n s i t i o np a t t e r n sa n dm a k ee f f i c i e n to n l i n e p r e d i c t i o n h o m tu s e s ap a t t e r nt r e et o c o m p a c t i ys t o r ea l lw e ba c c e s s s e q u e n c e s t h e na no r d e r - b y or d e ri n c r e m e n t a lu p d a t i n ga p p r o a c hi su s e dt o c r e a t ea na l i - o r d e rm a r k o vm o d e lt r e e t h eh y b r i dor d e rm e t h o dc o n s i d e r s a l lor d e rm o d e l sa n dh a sh i g hc o v e r a g ea n da c c u r a c y f i n a l i yah y b r i dor d e r m a r k o vm o d e lo n l i n e p r e d i c t i o nm e t h o di s u s e df o ro n l i n e p r e f e t c h i n g u s i n gt h eo f f l i n eb u i l tp r e f e t c h i n gl r e e ,o n l i n ep f e d i c t i o nm e t h o do fh o m t h a sg o o dp er f o r m a n c ea n di ss u i t a b l ef o rp r e t e c h i n g t h ea i g o r i t h mc a n e f f e c t i v e i ye n h a n c ew e bp r e f e t c h i n gq u a l i t ya n du s e rp e r c e p t i o n ( 4 ) aw e bl o p o l o g yp r o b a b i i i t ym o d e la n da ni a ra l g o r i t h ma r e a b s i r a c 【 p r o p o s e d ,c o m b i n e dw i t ht h ep r o d u c tc a t a l o g ( o rt h ew e bt o p o l o g y ) ,i a r e v a l u a t e st h ei n t e r e s to fe a c ha s s o c i a t i o nr u l ea n d 叠e n e r a t ea s g o c i a t i o nr u l e s w i t hh i g hi n t e r e s t i a ri sf ur t h e ri m pr o v e da n dam a t r i xi t e r a t i o na l g o f i t h m w t p mf o rr u l e p r u n i n g i s pr o p o s e d w t p mc a ne f f i c i e n t l yc a i c u i a t e a s s o c i a t i o np r o b a b i i i t i e sb e t w e e ne v er yt w or e s o u r c e s nc a ne f f e c t i v e l y m a n a g et h ek n o w l e d g eb a s e , i n cr e a s e k n o w l e d g eu s a b i l i t ya n de n h a n c e q u a l i t ya n dp e r f o r m a n c eo fi n t e l l i g e n ts e r v i c e s ( 5 ) c o m b i n e dw i t ht h em u l t i f u n c t i o n a ld a t am i n e r( m f d m ) ,a n i n t e i l i g e n tp e r s o n a i i z a t i o na n dr e c o m m e n d a t i o np r o t o t y p es y s t e mm y e s h o p i s d e s i g n e da n di m p l e m e n t e d m y e s h o pi s am u l t i l a y era r c h i t e c t u r eg y s t e m , w h i c hi sas u b s y s t e mo ft h ee g os h o p p i n ge n g i n e e g ou s e si n t e l l i g e n t s e a r c h i n gt e c h n i q u e sc o s e a r c hp r o d u c ti n f o r m a t i o n “o mt h ew e b ,e x t r a c t ;n f b r m a i o n , s t u d y u s e ri n t e r e s t sa n dm a k e p e r s o n 8 i i z a t i o n a n d f e c o m m e n d a t i o ns e r v i c e st ou s e r s t h e r ea r el i t t l es i m i i a re x i s t i n gp r o d u c t s w h i c hc o m b i n es e a r c he n g i n et e c h n i q u e sa n di n t e i i i g e n ta n a l ys i sa n d d e c is i o n m a k i n gt e c h i q u e s k e y w o r d s : w e b m i n i n g ; i n t e l i i g e n t e c o m m er c e ; p e r s o n a l i z a t i o n ; r e c o m m e n d a t i o n ;pr e f e t c h i n g v 华南理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进 行研究所取得的研究成果。除了文中特别加以标注引用的内容 外,本论文不包含任何其他个人或集体已经发表或撰写的成果作 品。对本文的研究做出重要贡献的个人和集体,均己在文中以明 确方式标明。本人完全意识到本声明的法律后果由本人承担。 作者签名: 霉飘整 日期:2 。1 年6 月f 7 口 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使刖学位沦文的规 定,同意学校保留并向国家有关部门或机构送交论文的复印件和 电子舨,允许论文被查阅和借阅。本人授权华南理工大学可以将 本学位论文的全部或部分内容编入有关数据库进行检索,。可以采 用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密囱。 ( 请在以上相应方框内打“”) 作者签名: 誊颖基日期: 埘年月j 了日 导师签名:u 日期:捭6 月f 7 第一章绪论 第一章绪论 1 1 智能电子商务技术的发展 随着全球信息化的发展,信息量指数增长,电子商务在全球取得了 迅速发展。目前电子商务已经发展到一个新的阶段,处理对象向综合化、 大型化、复杂化方向发展。把智能计算技术应用到电子商务,解决现有 的电子商务技术在大量商品信息的搜索、分析和决策方面的种种不足, 已经成为发达国家大企业提高竞争力和市场份额的战略选择。 近年来网络技术发展一日千里,i n t e r n e t 和电子商务这两个词对我 们并不陌生。w w w ( w o r l dw i d ew e b ) 自1 9 9 3 年出现,以惊人的速度增 长,不到l o 年就遍布世界各地。互联网在中国已从最初的试验、研究性 质发展到当今的商业应用。我国的网络普及化越来越高,网络已给社会 带来许多改变。电子商务这种新的信息产业应运而生。网上购物迅速发 展,打破了传统商业的时空界限,给用户提供了更大范围的更灵活的选 择方式。2 0 0 3 年受伊拉克战争和s a r s 的影响,更是使得电子商务异常 火爆。在中国,宽带网的普及、电信改组、网上银行的发展、加入w t o 、 政府积极参与组织等因素都成为了电子商务前所没有的机遇,涌现了卓 越等b 2 c 网站、阿里巴巴等b 2 b 网站。易观国际关于电子商务的最新研 究报告预计,2 0 0 5 年中国电子商务交易总额将从4 4 0 0 亿元激增至6 2 0 0 亿元。随着手机和p d a 等移动终端的普及,移动电子商务成为今后电子 商务的发展趋势,电子商务将受到越来越多人的使用。 当前,随着互联网上的信息量指数增长,电子商务已经发展到一个 新的阶段,处理对象向综合化、大型化、复杂化方向发展。现有的电子 商务技术在大量商品信息的搜索、分析决策方面都表现出种种不足。海 量的商品数据和缺乏智能导航,使经验不足的用户经常“迷失”在网络 空间中。用户是企业的最大财富,决定了企业的成败。互联网市场竞争 日趋猛烈,目前全球的电子商务网站已过千个,用户在电子商务的世界 里具有更大的购物选择权。企业只有提供质量更高、效果更好的商品网 站智能服务,以用户为中心,才能留住旧用户和吸引新用户。w e b 挖掘 技术可以从用户数据中挖掘出隐藏的规律,以符合访问者喜好、身份和 需求的信息为用户提供独特的智能服务,从而建立良好的用户关系。 1 2 数据挖掘和w e b 挖掘技术 华南理工大学博士学位论文 1 2 1 数据挖掘 数据挖掘技术从9 0 年代开始日渐发展,在金融、交通、商业、工业、 军事、农业、教育、科技等领域都有不少成功的应用。它能帮助企业从 海量数据中发现规律,为决策者提供决策支持。数据挖掘w 是从海量数 据中抽取隐含的、以前未知的、潜在的有用信息的过程。它是数据库知 识发现k d d 的一个基本步骤,其核心技术是人工智能、机器学习和统 计。根据挖掘的任务,挖掘算法分为分类、聚类、关联规则分析、序列 模式分析等几种。 在科学领域,s k i c a t 使用决策树分类器帮助天文学家发现l6 个新的 遥远的类星体,在d n a 分析、免疫计算、遥感器等方面也有应用。在电 信领域,加拿大s j m o nf r a s e r 大学k d d 研究组根据加拿大b c 省电话 公司十多年的用户数据,为该公司分析并提出新的电话收费、管理办法 和优惠政策。在商业领域,银行、证券、保险、零售以及电子商务方面 都有数据挖掘的应用,如用户流失分析、信用记分、欺诈识别等。 国内外出现了不少数据挖掘的产品。国外的包括c i e m e n t i n e , i n f e l l i g e n tm i n e r 【6 】,d b m i n e r 【7 】,x e l o p e s 【,w e k a 【9j 等。国内也有相关的 有竞争力的产品如d m i n e r 】,m f d m 】等。 1 2 2w e b 挖掘 w e b 挖掘是由数据挖掘发展而来的,用于发现隐藏在w e b 上的知识。 w e b 挖掘是对w e b 文档的内容、w e b 上可利用资源的使用情况以及资源 之间的关系进行分析,从中发现有效的、新颖的、潜在有用的并且最终 可理解的模式1 。w e b 挖掘l 包括w e b 内容挖掘、w e b 结构挖掘和w e b 使用挖掘。 w e b 内容挖掘是从文档内容或其描述中抽取知识的过程,其重要应用 有智能代理搜索、网站架构重组等。w e b 内容挖掘有两种策略:直接挖掘 文档的内容,在其它工具搜索的基础上改进。a h o y 利用启发式规则寻找 个人主页信息】。w e b s q l 对搜索引擎的查询结果进一步处理来获取更精 确和有用的信息】。搜索引擎的研究要用到w e b 内容挖掘技术,w e b 包含 了文本和多媒体数据,非结构化、半结构化和结构化的数据,w e b 内容挖 掘分析需要从海量的包含复杂类型数据的w e b 网页中获取信息。 w e b 结构挖掘是从w e b 的组织结构和链接关系中推导知识,可用于改 善网络结构,增强网站性能。由于w e b 表现一定的自组织性和网页间存 在关联性4 l ,从w e b 结构获取信息将促进w e b 信息搜索、网上社区发现 2 第一章绪论 等领域的发展。i b m 的c l e v e r i 系统的核心算法h i t s 】挖掘好的权威页 面和h u b ,用于高质量w e b 结构和资源的自动发现。g o o g l e j 系统的核 心算法p a g e r a n k - 利用文档问的链接信息来查找相关的网页。分块 p a g e r a n k 算法提出了页面分块的概念,把结构挖掘拓展到页面内部, 发现网页图像之间的关联,进行图像聚类。 w e b 使用挖掘,也称为w e b 日志挖掘,是从w e b 日志中提取有用的 模式,用于用户分群、个性化服务、系统改进以及商业智能等方面。电 子商务中使用较多的是w e b 使用挖掘。w e b 使用挖掘主要分三个部分: 数据预处理、模式发现和模式评价。图1 1 显示了w e b 使用挖掘的过程。 预处理完成从w e b 目志到用户会话的转换的过程,包括数据清洗、用户 识别、会话识别以及转换为挖掘算法需要的形式等步骤l 。模式发现是 利用数据挖掘算法,包括了聚类、关联规则、序列模式、m a r k o v 模型等, 对w e b 日志数据进行处理以得出一些模式,用于个性化、推荐等各种智 能服务。模式评价对模式发现过程产生的模式进行过滤,滤除用户不感 兴趣的部分,加强模式应用的效果。模式评价的方法包括了可视化技术、 知识s q l 查询机制、o l a p 联机分析等l 。 原始日志文件用户会话文件规则和模式( 感兴趣的) 规则和模式 图1 - lw e b 使用挖掘的过程 f i g u r e1 一lw e bu s a g em i n i n gp r o c e s s 随着i n t e r n e t 和电子商务的发展,w e b 挖掘已成为热点研究方向。1 9 9 9 年开始国内外许多会议,如s i g k d d ,i j c a i ,a a a i 等,都设立专门的 研讨小组研究电子商务中的w e b 挖掘技术。2 0 0 4 年9 月微软亚洲研究院 将互联网搜索和挖掘列为第五大研究方向。不少学术或商业机构举办了 和w e b 挖掘相关的竞赛活动,如2 0 0 4 年1 1 月的c w t l0 0 9 为测试集的 w e b 信息检索竞赛1 ,p r u d s y sd m 2 0 0 5 比赛【2 0 】,对w e b 挖掘技术起到了 华南理工大学博士学位论文 促进学术交流和加速研究向商业产品转化的作用。许多大公司的商业网 站也开始采用数据挖掘应用到商业智能分析。h p ,b m w 公司和德国4 大电子商务网站采用了基于x e i o p e s 的i n t e r s h o p l 2 1 1 解决方案aa m a z o n 1 成立子公司a g c o m ,专门开发网络搜索技术,目标是为网民带束高度个 性化及多样性的搜索服务。 1 3 智能电子商务技术的研究及应用现状 智能技术包括了统计、o l a p 分析、推荐和个性化等。统计和o l a p 分析z 4 l 提供了低层次的分析,在用户购买商品时提供定的决策支持。 个性化和推荐对用户访问进行深层次的分析,自动地发现用户的兴趣所 在,以广告、促销产品、个性化新闻提供、推荐文档和针对性的电子邮 件等形式呈现给用户。近几年电子商务快速发展,个性化和推荐逐渐成 为电子商务的主流发展方向。结合预取和缓存技术,可减少用户访问网 站的等待时间,改善个性化推荐的性能。 1 3 1 个性化 个性化是以符合访问者喜好、身份和需求的信息为用户提供特殊的待 遇m ,。个性化可使用户在选购产品和服务时更容易,对推荐有更高的满 意度,从而使公司能获得更多的交易。w e b 服务器通过与用户交互收集 用户的信息,服务器根据这些信息对用户请求的页面进行裁剪,为用户 返回定制的页面,其目的就是提高用户的满意度。 网站采用个性化技术主要分为两大类,一种是直接处理【2 6 】,第二种是 软件代理,:e 】。直接处理技术需要用户显式圈定感兴趣的内容。目前大部 分网站( 如a m a z o n ,m y y a h o o 等) 和工具都提供个性化服务,但需要用 户对站点有比较好的了解,巨大的信息量给用户带来了负担。软件代理 技术则利用人工智能、w e b 挖掘等技术发现用户兴趣。过去的软件代理 技术m l 主要有三大类型:基于规则、基于内容、协同过滤。基于规则的 方法由管理员根据不同用户的注册信息手工制定个性化网站的内容、布 局。这种方法给管理员造成负担而且规则的有效性依赖于专家经验。协 同过滤方法根据用户对商品的评价提供同类型的其他用户关心的雨该用 户没有注意到的信息。这种方法需要用户评价商品,给用户带来负担。 基于内容的方法采用商品之间的内容( 品牌、尺寸、颜色等) 描述信息 之间的关联来进行个性化信息推荐。这种方法只能推荐功能类似的商品。 随着w e b 挖掘技术的不断研究,越来越多的研究注重在使用智能技术 4 第一章绪论 来进行个性化。br a 1 使用页面框架实现个性化服务,把页面分为多个框 架,每个框架对应某个栏目,根据当前用户的情况来添加用户感兴趣的 栏目和该栏目中感兴趣的内容。t a m l 通过设置个性化的网页信息、w e b 布局和发布时间频率来提高音乐网站的歌曲下载率。a m a z o n c o m 把个性 化用在e m a i l 和网站上进行营销。x e l o p e s 挖掘注册用户信息,生成个 性化规则,将指定的推荐给予特定的用户群。h a i j o 】通过商务网站的个性 化服务帮助用户完成从访问到购买这个过程。 1 3 2 推荐 推荐是向用户提供可能感兴趣的信息以帮助他们决定购买何种商 品。推荐为用户在选购产品和服务时起到协助和关联促销的作用。推荐 的形式可以是列表、可视化路径等。目前包含推荐的电子商务网站主要 分为以下几种: 1 )非个性化推荐系统 对所有的用户都推荐相同的结果,主要是基于用户对产品的平均评 价,如a m a z o n 的 a v e r a g ec u s t o m e rr a t i n g 、y o u rr e c o m m e n d a t i o n 和e b a y 的c u s t o m erc o m m e n t s 等根据用户评价来对商品进行排序筛选。这种 推荐属于低层次的推荐,不针对用户。 2 )基于属性的推荐系统 根据产品的属性特征的关联为用户进行推荐,与用户的兴趣以及浏览 行为无关,如r e e l 的m o v i em a p 和a m a z o n 的d e i i v e r s 。这种推荐只能 作相似产品的推荐。 3 ) 协同过滤( 基于用户相关性) 根据用户与其他已经购买了商品的用户间的相关性进行推荐。以往 大量的协同过滤技术】用于推荐网页、电影、文章和产品等,如a m a z o n 的b o o km a t c h e r 和m o v i ef i n d e r 的w ep r e d i c t 。这种推荐的分析操作都 是在线进行,开销大。 4 )基于w e b 挖掘的推荐系统 利用w e b 挖掘方法在后台处理得出一些模式,前台根据用户访问对这 些模式进行在线匹配。它的优点在于巨大的数据量在后台处理,减少在 线开销。w e bw a t c h e r l 使用可视化的路径帮助用户在网上导航,同时通 过为用户选择链路或站点跟踪学习,改善导航的质量。o n e 】构造可视化 的层次树来协助u ls t e r 大学网站的用户在线浏览。n e tp e r c e r p t i o n s l 采 用了一个实时建议技术,根据用户问的关联浏览行为和购买记录对当前 华南理j 二大学博士学位论文 用户进行浏览行为的预测,为用户提供浏览推荐。f u t u r ev i e w m ,使用分 类方法处理用户浏览行为和网页内容,为用户提供浏览协助。 1 3 3 预取和缓存 预取和缓存两者都通过预测用户行为来减少延迟。缓存;利用了 w w w 访问的时间局部性,将用户最近的访问信息暂存在服务器,以便其 他用户访问时能快速读取。预取i ”n l 利用w w w 访问的空间局部性,预测 用户将来可能发出的访问请求,预先放到c a c h e ,用户在下次访问这些信 息时只需从c a c h e 下载,大大减小用户的访问延迟。在电子商务网站中, 频繁访问的商品信息和推荐规则可在服务器缓存起来,以便其它用户的 访问,同时可通过预测用户将来访问的商品,预取信息到c a c h e ,以提高 个性化推荐的性能。徐埽0 用w c b 内容挖掘对用户浏览器c a c h e 中的数据 进行挖掘,从中获取知识存放在兴趣关联知识库,用来预测用户即将访 问的链接。文献 4 0 1 把网络拓扑作为空间模型,把用户访问当作时间模型, 提出了二步时间空间的结合模型来预测用户访问。c h e n 】使用基于网页 受欢迎程度的部分匹配预测p p m 算法,来改善c a c h e 的命中率。 缓存技术很早就用于改善系统性能了,以往的缓存机制可直接用于 w e b 缓存中。但以往的置换策略,如l r u ,s l r u o r c l 等】,并没有结 合w e b 访问的特性,命中率较低。改进缓存机制,结合w e b 挖掘算法改善 w e b 缓存置换策略,可提高缓存的命中率。b o c h i j 使用优先级队列缓存 机制存储频繁访问的网页信息,使用关联规则扩展l r u 策略和决策树改 进0 r c l 策略来评估队列各项的优先级。e g l u e l 采用动态p r o f i l e 表示推荐 规则,用多层优先级缓存队列存储频繁匹配的规则,提高规则搜索效率。 1 4 面向智能电子商务的w e b 挖掘理论与方法的研究现状
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年灌溉工程技术高级考试预测题集
- 2025年销售总监竞聘笔试备考策略
- 2025年水利工程灌区管理工高级知识精讲与模拟试题集
- 2025年初中体育教师招聘面试要点及预测题解析
- 电击安全知识培训
- 2025年特岗教师招聘考试小学数学命题趋势分析
- 2025年物业管理技能进阶考试必-备知识点与模拟题
- 2025年财务会计实操手册中级考试模拟题集及案例分析
- 2025年火电运行值班员中级考试模拟题及解析
- 2025年游戏开发工程师游戏设计方向面试题集解析
- 工信部规《通信建设工程安全生产操作规范》
- 社会组织内部规范化治理课件
- 农村公路建设标准
- GB/T 13825-2008金属覆盖层黑色金属材料热镀锌层单位面积质量称量法
- GA/T 1237-2015人员基础信息采集设备通用技术规范
- 红十字急救培训-包扎课件
- 药物分析实验注意事项课件
- 《C语言程序设计》一等奖说课稿
- 沙盘游戏治疗课件
- 甘肃省烟花爆竹经营许可实施标准细则
- 企业内部控制基本规范与配套指引
评论
0/150
提交评论