(计算机应用技术专业论文)结合可拓方法提升网站流量研究.pdf_第1页
(计算机应用技术专业论文)结合可拓方法提升网站流量研究.pdf_第2页
(计算机应用技术专业论文)结合可拓方法提升网站流量研究.pdf_第3页
(计算机应用技术专业论文)结合可拓方法提升网站流量研究.pdf_第4页
(计算机应用技术专业论文)结合可拓方法提升网站流量研究.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

l l l ll i l l r lj rrj i l i j i f l llfi iiiiiii i i fy 17 4 5 6 2 9ad i s s e r t a t i o ns u b m i t t e dt og u a n g d o n gu n i v e r s i t yo ft e c h n o l o g yf o rt h ed e g r e eo fm a s t e ro fe n g i n e e r i n gs c i e n c er e s e a r c ho ni m p r o v i n gw e bs i t e sr a t eo ff l o ww i t he x t e n s i o nm e t h o d l 5 x t e n sc a n d i d a t e :w a n gd e r o n gs u p e r v i s o r :p r o f l iw e i h u am a y2 0 10f a c u l t yo fc o m p u t e rg u a n g d o n gu n i v e r s i t yo ft e c h n o l o g yg u a n g z h o u ,g u a n g d o n g ,p r c h i n a ,5 10 0 9 0摘要摘要对于像新浪、搜狐,腾迅,电信互联星空以及1 1 4 门户类网站,聚集了很大的人气,可以说其生存的来源是大量的用户对网站进行访问,这样,网站不仅产生了很大的用户群体,带来了很大的影响力,把目标用户发展为客户,而且带来很大的流量,对于这些丰富的流量,可以进行各种经营。可以说把网站当成流量来经营,是互联网在中国发展到后来形成的一种惯性思维,由这种思维推导出的经营思路便是影响力,有影响力提升盈利能力。那么如何提升目标网站的流量呢,除了做好本身网站内容满足用户需求这个内功之外,还需从网站访问数据信息分析和经营,以及网站的结构优化,w e b 个性化服务在线推荐外功做起。本文首先介绍了目前互联网流量的发展模式和状况,比较了各种不同类型的网站的互联网流量模式,并提出了互联网流量产品的需求和用户群,在此基础上提出了提升流量的必要性,提出了流量经营各种方法和思想,在此基础上提出了本文重点研究的内容:个性化推荐服务。接着介绍了w e b 数据挖掘和可拓学理论,从可拓学基本概念,可拓学数据基础方面阐述了可拓学基本理论,并浓重介绍了本文借鉴的可拓分类思想的优度评价方法。然后重点阐述可拓兴趣分类算法和在线推荐算法模型,给出可拓分类个性化服务思想流程,阐述了从用户访问事务信息采集,用户识别,构建用户可拓分类算法方面介绍了可拓用户兴趣分类模型,并介绍在可拓用户兴趣分类模型基础上建立用户兴趣度模型,存储在线推荐页面集合和两种在线推荐算法思想和步骤。最后本文从实验环境,系统业务功能,架构软件体系,实验数据采集和分析以及可拓分类算法与在线推荐算法实现这几个方面详细的阐述了可拓个性化服务和在线推荐的实验思想和过程。本文的创新之处在于从满足系统分类多级层次性角度出发,提出了可拓分类算法的思想进行用户分类,从存储和推荐页面的的高效的角度出发,分别以树型结构存储在线推荐页面和x m l 文档格式存储用户兴趣度模型,从而快速而清晰的进行用户分类匹配。关键词:流量;可拓学;可拓兴趣分类;可拓类别;个性化服务广东工业大学工学硕j :学位论文a b s t r a c tp o r t a ls i t e ss u c ha ss i n a ,s o h u ,t e n gx u n ,t e l e c o m m u n i c a t i o n sa n d11 4 ,g a t h e r e dag r e a td e a lo fp o p u l a r i t y i tc a nb es a i dt h a tt h e i re x i s t e n c ec o m ef r o mal a r g en u m b e ro fu s e r sv i s i t i n gt h es i t e s ,s ot h a tt h es i t e sh a dn o to n l yav e r yl a r g eu s e rc o m m u n i t y ,w h i c hh a sb r o u g h tg r e a ti n f l u e n c et ot h ed e v e l o p m e n to ft a r g e tu s e r sf o rt h ec u s t o m e r ,b u ta l s oag r e a td e a lo fw e bf l o w f o rt h e s er i c hf l o w , t h es i t e sc a nm a k ea l lk i n d so fb u s i n e s s i tc a nb es a i dt or u nt h es i t ea sw e bf l o wi st h ei n t e m e td e v e l o p m e n ti nc h i n aa n dl a t e rf o r m e dal ( i n do ft h i n k i n g t h em a n a g et r a i no ft h o u g h td e r i v e df r o mt h i st h i n k i n gp r o d u c e sag r e a ti m p a c t t h ei m p a c te n h a n c e sp r o f i t a b i l i t y s oh o ww ec a ni m p r o v et h ef l o wo ft h et a r g e ts i t e ? i na d d i t i o nt ol e tw e bc o n t e n t st om e e tu s e r s n e e d s ,w en e e dt os t a r tw o r kf r o ma c c e s sd a t af r o mt h ew e bi n f o r m a t i o na n a l y s i sa n dm a n a g e m e n t ,a n ds i t eo p t i m i z a t i o n , w e bs e r v i c e sa n do n l i n ep e r s o n a l i z e dr e c o m m e n d a t i o n s t h i st h e s i sf i r s td e s c r i b e st h ed e , e l o p m e n to ft h ec u r r e n ti n t e r a c tt r a f f i cp a t t e r n sa n dc o n d i t i o n s ,a n dc o m p a r e sd i f f e r e n tt y p e so fs i t e so fi n t e r n e tt r a f f i cp a t t e r n s ,a n dp u tf o r w a r d st h ed e m a n df o ri n t e r n e tt r a f f i cp r o d u c t sa n du s e rg r o u p s ,p u tf o r w a r d so nt h i sb a s i st h en e e dt oe n h a n c et h ef l o w , p r o p o s e sf l o wb u s i n e s sm e t h o d sa n di d e a sp r e s e n t e di nt h i sb a s i s ,t h ec o n t e n to ft h i st h e s i sf o c u s e so n :p e r s o n a l i z e dr e c o m m e n d a t i o ns e r v i c e t h e ni ti n t r o d u c e st h ew e bd a t am i n i n ga n de x t e n i c st h e o r y i td e s c r i b e st h eb a s i ct h e o r yo fe x t e n i c sf r o mt h eb a s i cc o n c e p t so fe x t e n i c sa n dd a t ab a s eo fe x t e n i c s t h es t r o n gr e f e r e n c ei nt h i sp a p e ri st h ee x t e n i c sc l a s s i f i c a t i o nt h i n k i n gg o o d n e s se v a l u a t i o nm e t h o d t h e ni ti n t r o d u c e se x t e n s i v ei n t e r e s tc l a s s i f i c a t i o na l g o r i t h ma n do n l i n er e c o m m e n d a t i o na l g o r i t h mm o d e la n dg i v e sp e r s o n a l i z e ds e r v i c ee x t e n i c si d e o l o g i c a lc l a s s i f i c a t i o np r o c e s s i td e s c r i b e s t h ei n f o r m a t i o nc o l l e c t e df r o mu s e r st oa c c e s ss e r v i c e s ,u s e ri d e n t i f i c a t i o n ,b u i l d i n gt h eu s e rs i d ee x t e n i c sc l a s s i f i c a t i o na l g o r i t h mi ia b s t r a c ta n di n t r o d u c e se x t e n i c s1 1 8 0 1 i n t e r e s tc l a s s i f i c a t i o nm o d e l i td e s c r i b e st h ee x t e n i c sm o d e lo fu s e ri n t e r e s tc a t e g o r i e sb a s e do nu s e ri n t e r e s tr a t em o d e l ,s t o r eo n l i n er e c o m m e n d a t i o np a g es e t sa n dt w o l i n er e c o m m e n d a t i o na l g o r i t h mi d e a sa n ds t e p s f i n a l l y , t h i st h e s i sd e s c r i b e si nd e t a i ls e v e r a la s p e c t so ft h ee x t e n i c so fp e r s o n a l i z e ds e r v i c ea n do n l i n et e s ti d e a sa n dp r o c e d u r e sr e c o m m e n d e df r o mt h ee x p e r i m e n t a le n v i r o n m e n t ,t h es y s t e mb u s i n e s sf u n c t i o n s ,s t r u c t u r eo ft h es o f t w a r es y s t e m ,e x p e r i m e n t a ld a t ac o l l e c t i o na n da n a l y s i s ,a n dc l a s s i f i c a t i o na l g o r i t h m sa n dl i n ee x t e n i c st oa c h i e v et h i sr e c o m m e n d a t i o na l g o r i t h m i n n o v a t i o no ft h i sp a p e ri sf r o ms a t i s f y i n gs y s t e mm u l t i l a y e r e dc l a s s i f i c a t i o np e r s p e c t i v e ,p u tf o r w a r d sc l a s s i f i c a t i o na l g o r i t h mp r o p o s e dt h ei d e ao fe x t e n i c so fu s e rc l a s s i f i c a t i o n f r o ms t o r a g ea n dr e c o m m e n d e dp a g e sf r o mt h ee f f i c i e n tp o i n to fv i e w , e a c ht r e es t o r e so n l i n er e c o m m e n dp a g ea n dx m ld o c u m e n tf o r m a tt os t o r eu s e ri n t e r e s tr a t em o d e l ,s ot h a tq u i c k l ya n dc l e a rt om a t c hu s e rc l a s s i f i c a t i o n s k e y w o r d s :w e bf l o w ;e x t e n i c s ;e x t e n s i o ni n t e r e s tc l a s s i f i c a t i o n ;e x t e n s i o nc a t e g o r y ;p e r s o n a l i z e ds e r v i c ei i i广东工业人学工学硕 :学位论文目录摘要ia b s t r a c t i il 了录c o n t e n t s v i第一章绪论11 1 研究背景及意义11 2 国内外研究状态31 3 流量经营思想概述61 4 本文的主要研究内容91 s 本文组织结构。1 0第二章w e b 可拓挖掘理论基础:1 l2 1w e b 数据挖掘介绍1 12 1 1w e b 挖掘主要研究内容,。1 22 1 2w e b 挖掘定义1 22 2 可拓学知识。1 32 2 1 可拓学基本概念1 32 2 2 可拓学数学基础1 32 2 3 优度评价方法1 9第三章可拓个性化分类服务2 23 1 基于可拓分类个性化服务概述。2 23 1 1 可拓分类个性化服务思想2 23 1 2 可拓分类和推荐流程2 43 2 可拓用户兴趣分类。2 43 2 2 用户访问事务信息采集2 43 2 3 用户识别2 53 2 4 构建用户可拓分类2 6i vc o n t e n t s3 3 本章小结3 3第四章在线推荐3 54 1 用户兴趣模型表示3 54 2 存储在线推荐页面集合3 64 3 在线推荐算法概述3 74 3 1 未可拓分类用户在线推荐算法步骤3 84 3 2 可拓分类用户在线推荐算法步骤3 84 4 本章小结3 9第五章可拓个性化服务和在线推荐实验与实现4 05 1 实验环境4 05 2 系统业务功能和包含系统用例。4 05 3 架构软件体系4 l5 4 实验数据采集和分析。4 35 5 可拓分类与在线推荐算法实验与实现。4 4结论一5 5参考文献。5 7攻读硕士学位期间发表的学术论文一6 0独创性声明6 1致谢一6 2v广东工业人学t 学硕t :学位论文c o n t e n t sa b s t r a c t ( c h i n e s e ) ia b s t r a c t ( e n g l i s h ) vc h a p t e r1 i n t r o d u c t i o n 11 1r e s e a r c hb a c k g r o u n da n ds i g n i f i c a n c e l1 2d o m e t i ca n do v e r s e a sr e s e a r c hc u r r e n ts i t u a t i o n 31 3o v e r v i e wo f w e bf l o wm a n a g e m e n ti d e a s 61 4m a i nc o n t e n to f t h i st h e s i s 91 5a r r a g e m e n to f t h i st h e s i s ”1 0c h a p t e r2 w e be x t e n i c sm i n i n gt h e o r yf o u n d a t i o n 1 12 1i n t r o d u c t i o nw e bd a t am i m n g 。1 12 1 1w e bc o n t e n t m i n i n gr e s e a r c h 1 22 1 2d e f i n i t i o nw e bm i n i n g 1 22 2e x t e n i c sk n o w l e d g e ”13 2 2 1e x t e n i c sb a s i cc o n c e p t s j 1 32 2 2e x t e n i c sm a t hf o u n d a t i o n 1 32 2 3g o o d n e s se v a l u a t i o nm e t h o d 2 0c h a p t e r3 e x t e n s i o np e r s o n a l i z e dc l a s i c f i c a t i o ns e r v i c e 3 1o v e f v i e wo f p e r s o n a l i z e ds e r v i c eb a s e do ne x t e n s i o nc l a s s i f i c a t i o n 2 23 1 1p e r s o n a l i z e ds e r v i c ei d e ab a s e do ne x t e n s i o nc l a s s i f i c a t i o n 2 23 1 2e x t e n s i o nc l a s s i f i c a t i o na n dr e c o m m e n d a t i o np r o c e s s 2 43 2u s e ri n t e r e s te x t e n s i o nc l a s s i f i c a t i o n 。2 43 2 1u s e r a c c e s ss e r v i c ei n f o r m a t i o nc o l l e c t i o n 2 43 2 2u s e ri d e n t i f i c a t i o n 。2 53 2 3c o n s t r u c t i o no f t h eu s e re x t e n s i o nc l a s s i f i c a t i o na l g o r i t h m 2 63 3s u m m a r y 。3 3c h a p t e r4 o n l i n er e c o m m e n d sv i3 6c o n t e n t s4 iu s e ri n t e r e s tm o d e ld e s c r i b e 。3 54 2s t o r eo n l i n er e c o m m e n dp a g ec o l l e c t i o n 3 64 3o v e r v i e wo fo n l i n er e c o m m e n d a t i o na l g o r i t h m 3 74 3 1n o n e x t e n s i o nc l a s s i f i c a t i o nu s e ro n l i n er e c o m m e n d a t i o na l g o r i t h ms t e p 。3 84 3 2e x t e n s i o nc l a s s i f i c a t i o nu s e ro n l i n er e c o m m e n d a t i o na l g o r i t h ms t e p 3 84 4s u m m a r y 3 9c h a p t e r5 e x t e n s i o np e r s o n a l i z e ds e r v i c ea n do n l i n er e c o m m e n d st e s ta n di m p l e m e n t a t i o n 5 1e x p e r i m e n t a le n v i r o n m e n t ”4 t5 2s y s t e mb u s i n e s sf u n c t i o n sa n di n c l u d i n gs y s t e mu s ec a s e s 4 15 3s o f t w a r es y s t e ma r c h i t e c t u r e 4 25 4e x p e r i m e n t a ld a t ac o l l e c t i o na n da n a l y s i s 4 35 5e x t e n s i o nc l a s s i f i c a t i o na n do n l i n er e c o m m e n d a t i o na l g o r i t h mt e s ta n di m p l e m e n t a t i o n 4 4c o n c l u s i o n 5 3r e f e r e n c e s j 5 7p u b l i c a t i o n sd u r i n gm a s t e rd e g r e es t u d i e s 6 0o r i g i n a lc r e a t i o nd e c l a r e 6 1a c k n o w l e d g e m e n t 6 2v i i第一章绪论1 1 研究背景及意义第一章绪论中国互联网市场已发展成为仅次于美国的全球第二大市场,中文成为互联网第二大语言,国内网民规模已达1 4 亿( c n n i c 2 0 0 7 年报告) 【l l ,互联网产业与传统产业的融合日益加强。从互联网产业本身来讲,在原有的新闻、电子邮件、搜索引擎、网络游戏等服务保持高速增长的同时,各种新的网络服务如网络视频、w e b 2 0 、博客等服务风起云涌,丰富和延伸了互联网服务的应用领域。2 0 0 7 年中国互联网用户互联网消费总规模达3 9 8 8 亿元人民币。2 0 0 8 年中国互联网用户互联网消费总规模将达5 8 1 5 亿元人民币,增长率达4 5 8 。中国互联网用户人均2 0 0 7 年度互联网消费总规模为2 1 9 1 2 元人民币,比2 0 0 6 年增长7 7 。预计2 0 0 8 年中国互联网用户互联网消费总规模将达2 3 8 3 2 元人民币,预计增长率为8 8 。2 0 0 7 年中国互联网用户人均月度互联网消费1 8 2 6 元人民币。预计2 0 0 8 年中国互联网用户人均月度互联网消费规模将达1 9 8 6 元人民币,预计增长率为8 8 。随着互联网的发展,中国的网民数量越来越大,互联网已成为人们不可或缺的部分,随着w e b 2 0 的发展,还可与其他消费者进行互动,所有这些都是传统的营销方式不具备的优点。可以说,只要是上网的用户,都是我们想争取的用户。搜索是通过技术手段为网民在互联网上快速查找到他需要的信息,而我们想做的,就是通过营销策划以及技术手段,帮助网络上的各种类型的网站快速介绍给与该类网站匹配需求的用户。中国的互联网市场巨大,很多企业利用互联网为手段开展营销活动,也取得了骄人的业绩。如今开展网络营销的企业越来越多,这是营销的革命。然而我们也不难发现有相当多的企业网络营销并不成功,对网络营销产生迷茫和彷徨,又”爱”又m 恨”。企业的在互联网的网络营销主要遇到的三个问题:“买家从哪里来”、”如何留住买家”、”怎样才能成交”,是困扰企业网络营销的关键。这三个问题的关键又以“买家从哪里来”为主要矛盾。广东t 业大学t 学硕十学位论文提起互联网的流量,很多用户就联想到流量= 金钱。流量对于互联网网站来说,不仅仅意味着巨大的浏览用户量,如合把这些用户有效利用并转化为网站的利润,是每个网站的目标。以下以百度和阿里巴巴等网站为例子,说说这几类网站的流量的模式:表1 - ! 几个网站的流量模式比较t a b l e1 - 1s e v e r a ls i t ew e bf l o wp a t t e r n s电信类网百度阿里巴巴资讯类网论坛博一般网站站站客类网站流量用户的浏用户的浏用户的浏用户的浏用户的浏用户的浏览量览量览量览量览量览量用户访问基本确定基本确定基本确定一般没有毫无目的有一个预目的目的目的目的特定访问设的行为目的方向渠道线下渠道线下渠道线下渠道线上渠道线上渠道线上渠道流量价值会员数x搜索量带会员数xp vx 看用户的浏用户的浏会费( 地来的点击会费( 地新闻( 看览量x览量主模式,x 点击的主模式,了白看,由浏览引由浏览引但种地的竞价但种地的最多点一发的其他发的其他人越多收人越多收下广告)行为价值行为价值成越好)成越好)收益扩大用户点击竞价扩大会员取决于广提升流量提升流量规模+ 提和搜索量规模告点击率+ 行为价+ 行为价升用的的双重提和媒体平值的提高值的提高a r u p 值升来提高台价值提升流量较容易容易容易较难很难很难价值的难易度以上的对比可以看出,提升流量价值的难易度:阿里巴巴是比较容易的,只要做会员推广,也就是线下渠道建设,当用户量足够大的时候,自己制定游戏规则,会员费的定价也与平台大小和服务能力挂钩;百度也容易,单纯提升流量之2第一章绪论后,点击竞价的价格也会随之不断提升,点击率则不容易掌握,此外竞价热情来自于用户的忠诚度,也需要提升客服水平,但这些工作都是百度自己可以掌握的,外人难以攻破;电信类网站,依靠电信行业的业务做发展,在如今电信越来越大众化,资费越来越低的情况下,只有通过提供增值类业务的快速发展,来提升用户的a r u p 值。以资讯内容为主的门户较难提升流量价值,提升广告点击率本身就是杀鸡取卵,一般都靠骗点的,现在用户已经基本上被玩得很精了,媒体的平台价值在还只有新浪搜狐腾讯网易等几家大门户,其他网站要拿一点点品牌广告只能去人家牙缝里挤一点出来,互联网的媒体价值同时也被电视广告压制着。对于一般的论坛博客类网站或是不计其数的小网站,是最难提升流量价值的。百度和阿里巴巴的用户在访问其网站前已经基本确定目的,具备特定的行为价值;而资讯类网站的用户一般没有特定访问目的,一般的小网站的用户则干脆就是毫无目的去猎奇的,想留着这部分流量,是难中之难呀。除非做大,否则以流量互换( 纯粹的网络广告) 为主要商业模式的小网站永远都不能比拟象百度和阿里巴巴的流量价值所有基于互联网所开展的业务都与地理位置无关,任何一个业务运营商只要在一个地点开展了该业务,则它面对的用户群将是互联网上的所有用户。因此,基于互联网下的各种业务运营,市场竞争的格局是全球性,同时我们面对的用户也是巨大的。可以说,我们的流量经营的用户群是整个互联网上的各类网站。我们需要做得就是把我们所掌握的用户流量,分析用户的需要,分流到各类用户需求的网站上去。综上所述:要想从互联网上获取收入,网站的流量是一个至关重要的环节。网站的流量越大,在网站上花费的人数就越多,网站能够获取的收入就越大。故吸引大量的用户流量,并留住这些用户并是目前每个网站都关注的问题,可以说,网站的流量是关系到网站生存的根本。1 2 国内外研究状态目前,国内外围绕提升网站流量方面进行了大量的研究工作,提出了许多提升网站流量的方法和模型,比如s e o 处理,目标网站分析,个性化服务定制,其中对个性化服务定制国内外进行了大量的研究,这也是本文研究的重点,并处理3广东工业人学下学硕l :学位论文开发了许多个性化服务原型系统,它们提出了各种思路来实现个性化服务。大致上分为基于规则的系统、基于内容过滤和协同过滤的系统,以及基于多种技术的混合推荐系统。基于规则的系统允许系统管理员根据用户的静态特征和动态属性来制定规则,一个规则本质上是一个i f - t h e n 语句,它规定了在不同情况下如何为用户提供服务。基于规则的技术的优点是简单直接,缺点是规则质量很难保证,而且不能动态更新,此外,随着规则的数量增多,系统将变得越来越难以管理。如b r o a d v i s i o n 、m m 的w e b s p h e r e 、i l o g 等为这类系统。基于内容的过滤系统根据资源和用户兴趣的相似性来推荐信息。基于内容的过滤技术的优点是简单有效,缺点是只能推荐和用户已有兴趣相似的资源,不能为用户发现更多新的兴趣。这类系统c i t e s e e r 、e l f i ,i f w e b ,l e t i z i a 、p e r s o n a lw e b w a t c h e r 、p v a 、s i f t e r 、s y s k i l l & w e b e r t 、w e b a c e 、w e b m a t e 和w e b p e r s o n a l i z e r 2 1 等等。协同过滤系统根据用户之间的相似性来互相推荐信息。协同过滤技术的优点是能应用于那些不能直接获取特征的资源,还能为用户发现更多新的兴趣。这类系统如:f i r e f l y g r o u p l e n s l e t 。s b r o w s e 、l i k e m i n d s ( w w w m a c r o m e d i a c o r n ) 、s e l e c t 、s i t e s e e r和w e b w a t c h e r 等。还有一些个性化服务系统如:a n a t a g o n o m y 、d y n a m i cp r o f i l e r 、f a b 和w e b s i f t 等,它们同时采用了基于内容的过滤和协同过滤这两种技术,又称为基于内容和协同过滤的混合系统( h y b r i ds y s t e m ) 。由于基于过滤技术的个性化推荐系统仍然存在一些问题,主要是大多数个性化推荐系统针对的是注册用户,较少考虑非注册用户的推荐。此外,大多数个性化推荐系统对新用户和访问站点较少的用户的信息推荐考虑不够,因为新用户和浏览站点较少的用户被系统收集的用户信息较少,采用某些推荐算法并不合适。针对这些存在问题基于数据挖掘的个性化推荐服务成为当前的一个研究热点,已经出现了许多基于w e b 挖掘的原型系统和实际应用系统。例如美国m i n n e s o t a大学和d e p a u l 大学开发的w e b s i f t 系统致力于使用挖掘算法定义及工具的研制,该系统通过对各种日志文件的数据预处理,应用序列模式分析、网页及用户聚类分析以及关联规则挖掘等方法实现用户模式发现,并应用信息过滤、o l a p 及可视化等技术实现了一个集w e b 内容挖掘和w e b 使用挖掘结果于一体的个性化推荐系统。德国h u m b o l d t 大学研制的m m 则是一个集日志数据准备、查询和可视化技术于一体的集成环境,特别是它的挖掘查询语言l v b n t 支持模式描述的标准规范,能够进行用户访问行为的序列模式发现,并用可视化方式显示路径具有独4第一章绪论特的特点。在我国,虽然个性化技术的研究起步较晚,但也已经取得了一些初步成果,如四川大学和香港城市大学联合开发的个性化远程教学原型系统e - t e a c h e r ,中国人民大学研究的个性化图书管理系统,国防科技大学和复旦大学对电子商务的个性化推荐系统的研究,东北大学对网络个性化数据挖掘技术的研究等。在个性化信息服务研究的早期,建模技术并没有得到应有的重视。大量的研究集中在实现个性化服务的具体技术上,如推荐技术、信息检索技术、用户聚类技术等,用户建模技术往往只是这些研究中几笔带过的陪衬。然而随着个性化信息服务的发展和研究的深入,研究者逐渐意识到,个性化信息服务的质量不仅取决于具体的推荐技术、检索技术等,还取决于用户兴趣和偏好等特点的可计算描述1 3 】,而后者尤其重要。所以,近年来,有关用户建模技术的研究开始从具体的个性化服务形式中脱离出来,作为个性化信息服务中的基础技术来研究。国外学者对于个性化的用户模型研究的主要成果有:l i e b e r l l l a nh ,l e t i z i a 提出了信息代理l e t i z i a ,l e t i z i a 可准确地监控用户浏览行为自动形成一个用户模型【4 】。系统不要求用户进行显示的评价,主要是通过分析用户的浏览行为确定用户的兴趣爱好。c h a n 提出w e b m a t e ,w e b m a t e 是c m u 开发的、辅助用户浏览和搜索w e b的个人代理。w e b m a t e 由一个独立代理部件和一个a p p l e t 控制器组成。独立代理的功能是学习用户兴趣并对网页进行过滤,a p p l e t 控制器的功能是和用户交互。独立代理是一个位于用户浏览器和w e b 之间的h t t p 代理,它监控所有的h t t p 请求并从用户请求的网页中学习用户的兴趣。a p p l e t 控制器是用户和独立代理进行交互的界面,用户能够通过控制器表示自己的兴趣并对推荐结果进行反馈。国内的学者在w e b 个性化服务和推荐方面也开展了大量的研究工作。西安交通大学沈均毅教授等人提出以w e b 站点的u r l 为行,以u s e r l d 为列,建立u r l u s e r l d i s 关联矩阵,元素值为用户的访问次数,然后对列向量进行相似性分析得到相似客户群体,对行向量进行相似性度量获得相关w e b 页面,对相关页面进行进一步处理,以发现频繁访问路径,并提出了w e b 页面和客户群体的模糊聚类算法:另外他们还提出了基于b a y e s 概率的用户访问路径及其发现算法。西安交通大学陆丽娜教授等人,采用基于事务的方法,研究w e b 日志挖掘预处理及用户访问序列模式的挖掘方法,提出了一种基于扩展有向树模型进行用户浏览模式识别的w e b 日志挖掘方法。华中理工大学胡和平教授等人提出了应5广东工业大学t 学硕卜学位论文用多维立方体挖掘w e b 日志的多维关联规则的方法;中国科学技术大学王熙法教授等人提出基于神经网络的w e b 用户行为聚类分析方法:中国科学院计算技术研究所高文教授等人对w e b 站点的访问日志进行事物识别后,根据群体用户对w 曲站点的访问顺序进行路径聚类,最终每一个聚类集就反映出该聚类中的全体用户的访问兴趣,为了得到这种根据用户访问兴趣而对用户的划分,提出了k - p a t h 路径聚类方法 6 1 ;中国科学院数学研究所周龙镶教授等人分析了w e b 用户浏览活动规律,提出了有关浏览路径的一些基本概念,设计了基于用户访问模式的浏览路径优化算法;上海交通大学尤晋元教授等人引入w e b 页面的内容链接比和页组的组内链接度,修改了频繁访问页组支持度的计算公式,提出了基于页面内容和站点结构的页面聚类挖掘的改进算法;清华大学马少平教授等人提出一种利用w e b 服务器同志文件,运用n 元预测模型对用户未来可能进行的w e b 访问请求进行预测。1 3 流量经营思想概述流量经营说白了,主要就是用户经营,使网站更吸引用户,吸引用户在于把网站当做生活中实体来做,让用户觉的网站就是生活中离不开的实体,比如把网站当做媒体,商店和超市和书店来经营。基于上述考虑,流量经营经营的流量可从如下几个方面做:1 纠错d n s 流量分流和汇聚通过全国每天将近几百万的d n s 纠错处理,把用户错误的请求域名导向到目标网站中,这无疑将大大提高目标网站的访问量。纠错流量经营可存在两个方面:一是对跟进用户的产生错误域名来源进行相关各种分析,根据相关分析结果和定义的相关规则汇聚到相关页面,以增加签约商家网站的流量。二是对纠错之后基于导向的页面用户产生的各种行为和网站本身进行相应的经营分析。经分析,可对纠错d n s 流量进行如下方式那样经营以提升目标网站的流量。对于d n s流量可按如下方式进行经营:域名流量转到与错误域名关键字类似的网站,地址对错误域名流量进行分类,错误域名流量进行分类,按地域对错误域名流量进行分类,按i p 地址对错误域名流量进行分类,按时间段对错误域名流量进行分类2 目标网站w e b 访问流量统计分析6第一章绪论( 1 ) 网站各主题统计分析主要是从统计学的角度,对w e b 系统的特性数据【主要是w e b 日志数据)进行多种分析和统计,包括频繁访问页、单位时间访问频度、访问量的时问分布等,从而改进系统性能和结构,基于网站各主题,可进行用户行为分析,搜索引擎访问分析,时间段异常访问分析,站点走势分析,各站点广告分析,流向分析,网站内容分析。( 2 ) 异常访问分析一般情况下,正常的用户访问网站都是通过浏览器( i e 、f i r e f o x 等) 向网站发送u r l 请求,操作是一个手动平缓的过程。所谓“异常访问”,是指不是通过浏览器,而是通过程序进行的一个高速机械化的连续u r l 请求过程。这包括不良程序黑客攻击、搜索引擎蜘蛛程序对网站的访问等。“异常访问 主要包括5个功能:异常访问分析、搜索引擎访问分析、发生错误分析、异常u r l 分析、时段访问分析。通过“异常访问分析 ,可以让用户发现异常访问行为和访问规律,通过对u r l 请求频度、服务器处理时间、请求流量等时序图形趋势分析,确定黑客攻击点,排查软件错误、诊断服务器处理能力、网站i n t e r n e t 带宽限制“瓶颈所在点。正常的访问是通过i e 等浏览器登陆网站进行浏览。“非正常访问 是指不通过浏览器对网站的访问:包括黑客攻击、搜索引擎的“蜘蛛 等。这些访问占用大量的服务器资源,造成正常访问者的访问速度下降,甚至造成网站服务器堵塞,严重影响网站服务质量。异常访问分析还提供了一系列网站运行状态的技术分析指标,包括:流量、流速、服务器处理时间等技术指标,帮助网站管理者对网站的服务器和网络设备进行改造,有针对性地提高网站技术服务性能。3 s e o 优化处理目标网站进行s e o 优化处理,提高目标网站在知名搜索引擎的搜索量。4 丰富网站的内容和质量要丰富网站的内容和质量主要是从其他目标网站上抓取针对性的数据,然后再进行文本分类挖掘,把抓取的数据来丰富网站的内容和质量。丰富网站的内容和质量,要丰富网站的内容和质量主要是从其他目标网站上抓取针对性的数据,然后再进行文本分类挖掘,把抓取的数据来丰富网站的内容和质量7广东t 业大学工学硕上学位论文5 个性化服务与定制( 1 ) 通过对用户存取数据表中的存取事务进行聚类分析、发现用户的个性化搜索兴趣模式,根据个人的喜好,为每个用户定制符合其个人特色的w e b 站点,提供符合其兴趣要求的个性化界面。在信息的显示、网站结构及资源格式等方面动态进行定制。根据用户的o u r e y 和目标网页的并发关系,分析聚类用户的存取事务,发现用户的个性化搜索模式,对其所需服务进行主动定制。( 2 ) 据对用户访问路径的分析,生成用于导航的用户局部网络视图。根据用户一般对某些特定的资源感兴趣,且其浏览需求往往是重复的这一特点,提出浏览区域的概念,将用户在一次浏览过程中从某个u r l 开始的、彼此间由超链接连接的的被访问的网页划分为一个单位,并由此产生该用户的浏览虚拟视图,进行导航。( 3 ) 用于用户共同兴趣进行信息导航。通常首先对用户群体进行聚类,找出各用户簇的共同特征,即该用户簇所有用户的共同检索兴趣、习惯和模式,并据此进行信息定制。( 4 ) 用户访问行为预测。包括单用户和用户簇的行为预测。6 页面推荐收集和统计活动用户对站点的近期访问信息,分析其浏览路径,并与挖掘的模式进行比较匹配,并根据匹配程度进行排序,为活动用户预测下一步只有可能访问的页面,并将排序结果附加在现行用户请求页面之后,从而进行页面推荐。该推荐不是根据用户输入的p r o f i l 。做出的,而是根据从其访问活动中动态自动发现的模式进行的。相比之下,由用户输入的p r o f i l e 是动态的且具有片面性,而w e b 站点具有动态性、异质性和时效性除上述针对性较强的应用及其挖掘工具外,有的产品及其从w e b 数据中抽取的使用模式已经应用到了广泛的领域。目前研究较多的w e b 使用记录挖掘技术可分为两大类:模式发现和模式分析。7 商业智能通过用户行为和购物关系的挖掘,能更好理解用户的购买意图,发现其中的用户购物特征和购买趋势,识别电子商务的潜在用户,确定电子商务的潜在用户群,以此进行商业智能、支持商业决策,合理制订网络广告策略。8 网站安全和技术性能分析异常访问分析,可以识别各种非正常访问记录,通过详细的图表,详细观察8第一章绪论”蜘蛛”s p i d e r 及各种非正常( 不是通过浏

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论