（计算机科学与技术专业论文）web+analytics的研究与实现.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：74 大小：8.54MB 积分：0 举报 版权申诉

（计算机科学与技术专业论文）web+analytics的研究与实现.pdf_第2页

（计算机科学与技术专业论文）web+analytics的研究与实现.pdf_第3页

（计算机科学与技术专业论文）web+analytics的研究与实现.pdf_第4页

（计算机科学与技术专业论文）web+analytics的研究与实现.pdf_第5页

已阅读5页，还剩69页未读，继续免费阅读

（计算机科学与技术专业论文）web+analytics的研究与实现.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

中文摘要摘要：在过去几年，随着互联网的快速发展，w e b 己真正成为多数公司的一个获取信息和宣传的渠道，并且影响力越来越大( 比起其他的信息渠道，如电话销售、广告等等) 。于是从w e b 站点上获取用户的访问信息进而去分析他们的行为成为一个大家关注的热点。因为从互联网经历了繁荣与萧条以来，互联网的投资就变得越来越谨慎，公司希望证明注入到该渠道的投资是有效的，同时想从很多方面观察它以证明其效果。因此w e ba n a l y t i c s ( w e b 分析) 变得异常的重要：有了它，在商业运作中，就能够为网站决策者提供投资的有效依据。同时，w e ba n a l y t i c s 得到了用户有价值的访问信息，从而为吸引访问者，提供更便利的服务和产品带来了巨大的帮助，进而提高客户的个人网上消费。本文的出发点是以研究w e ba n a l y t i c s 技术为目的，致力开发一种比较通用的网站分析服务系统，该系统能够为公司和个人网站提供良好的用户行为收集和分析的价值。本文中提及的网站分析服务系统全称叫“i b mw e ba n a l y t i c s ，它是本人在i b m 中国研究院实习期间参与的w e ba n a l y t i c s 研究课题。该系统经历了早期w e ba n a l y t i c s 技术基础研究、w e ba n a l y t i c s 设计阶段、w e ba n a l y t i c s 平台的开发三个重要阶段。w e ba n a l y t i c s 系统最核心也是难点的部分是数据收集与数据分析。本人在数据收集中采用的是基于目前流行的三种数据收集技术( l o g f i l e a n a l y s i s 、p a g et a g g i n g 、w e bb e a c o n s ) ，将三者优势整合而形成的一种通用数据收集机制。在数据分析中是采用w e b $ m a l y f i c s 技术中最新的用户行为分析模式。本人会在文中重点讲述这两个部分设计与实现。另外，本文还将着重深入探讨网站分析技术的核心概念和最前沿的发展状况。本文的意义在于：一方面，它对于网站分析和相关的网站数据挖掘提供了一个比较好的解决方案。同时，在各种测试环境下保证收集网站数据的完整性和可行性。另一方面，它提供了一个网站分析服务的典型案例，介绍了网站分析的核心技术原理，同时也深入解剖网站分析的核心概念，对于想了解w e b 肖m a l y t i c s 学科的读者提供了一个基本的教程。关键词：网站分析；数据挖掘；数据捕获；数据度量分类号：t p 3 1 l a b s t r a c t a b s t r a c t ：f o rt h el o n g e s tt i m e ，c o m p a n i e ss i m p l ys p e n tm o n e yo nt h e i rw e b s i t e s b e c a u s ei tw a st h et h i n gt od o i nt h ep a s tf e wy e a r s ，t h ew e bh a sr e a l l y “g r o w nu p a sa c h a n n e lf o rm o s tc o m p a n i e s ，a n ds u d d e n l yt h e r ei sad e e pd e m a n df o rt h ew e bc h a n n e l t 0b eh e l dj u s ta sa c c o u n t a b l ea st h eo t h e rc h a n n e l s ( p h o n eo rr e t a i l ，f o re x a m p l e ) s i n c e t h eb o o ma n db u s to i lt h ew e b ，t h e r eh a sb e e ne v e r - i n c r e a s i n gs c r u t i n y , a n dc o m p a n i e s a r ed e m a n d i n gt h a tt h ew e b l e a d e r s h i pj u s t i f yi n v e s t m e n t sb e i n gp o u r e di n t ot h ec h a n n e l n e w t h i n k i n ga n da r c h i t e c t u r et h a ta p p e a r sr e c e n t l yt or e s o l v et h e s ep r o b l e m s s o ，w e b a n a l y t i c si sm o r ea n dm o r en e c e s s a r y t h eu s eo fw e ba n a l y t i c si ss a i dt oe n a b l ea b u s i n e s st oa t t r a c tm o r ev i s i t o r s ，f e t a i no ra t t r a c tn e wc u s t o m e r sf o rg o o d so rs e r v i c e s , o rt oi n c r e a s et h ed o l l a rv o l u m ee a c hc u s t o m e rs p e n d s t h ep a p e ri sf o c u st oh o wt oi m p l e m e n tt oac o m m o nw e ba n a l y t i c ss y s t e mb a s e d o nl o g f i l ea n a l y s i s 、w e bb e a c o n sa n dp a g et a g g i n gw h i c ha r en o wt h em o s tp o p u l a r b u tn o tb e s ta d v a n c e dc a t e g o r i e s a tt h es a m et i m e ，i tt r i e st oe x p l o r ew e ba n a l y t i c s d e f i l a t i o nd e e p l ya n di n t r o d u c em o s ta d v a n c e da n dn e w t e c h n o l o g ya b o u tw e ba n a l y t i c s t h ep u r p o s eo ft h i sp a p e rl i e si nt w oa s p e c t s ：f i r s t ，i tg i v e sa9 0 0 ds o l u t i o nt ot h e a n a l y z ew e bs i t e sa n dd a t am i n i n g ；s e c o n d ，i tg i v e sat y p i c a lc a s eo fw e ba n a l y t i e s i t n o to n l yi n t r o d u c e su st h ec o r eo ft r a c t a b l ea n da n a l y t i c a lt e c h n o l o g y , b u ta l s od od i v e d e e pi n t oc o r ew e ba n a l y t i c sc o n c e p t s t h i se a s ee a rh e l pu su n d e r s t a n dt h es u b j e c t a b o u tw e b a n a l y t i c s k e y w o r d s ：w e b a n a l y t i c s ；l o g f i l ea n a l y s i s ；p a g et a g g i n g ；d a t am i n i n g ； j a v a s c r i p tt a g g i n g ； c l a s s n o ：t p 3 1 1 5 1 ：t p 3 1 1 5 3 独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果，除了文中特别加以标注和致谢之处外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得北京交通大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名：蒋莩书签字日期：2 仍7 年舌月，8 日 7 1 学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索，提供阅览服务，并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 虢蔼砩签字日期：二气年6 月。7 日导师签名。岳凤嘲签字日期：。沏7 年舌月纡日 1 引言 w e b 分析协会【1 ( w e ba n a l y t i c sa s s o c i a t i o n ) 给w e b 分析的标准定义：w e b 分析是对定量i n t e r n e t 数据的客观性跟踪、收集、测量、报告和分析，从而优化w e b 站点，并发挥w e b 营销的主动性。 1 1 研究背景 1 1 1w e ba n a l y t i c s 的发展简史 w e b 分析的出现始于2 0 世纪9 0 年代，这是一个非常年轻的领域，直到2 0 0 6 年它的标准化定义才提出来。在i n t e r n e t 诞生之初，人们只要输入地址和u r l ，就会打开文本和链接的文件。有时人们会发现文件不存在或者链接不正确，从而访问失败。那时，人们发明了服务器日志工具，利用它们找到w e b 服务器日志上记录的错误信息。这些服务器日志不但捕获了有人命中网站的事实，而且得到一些额外信息，如文件名、时间、推荐者( 发出请求的网站页面) 、i p 地址浏览器标示符等。随着日志文件越来越丰富和庞大，非技术人员开始对数据感兴趣，程序员开始编写了会自动分析日志文件并产生分析结果的脚本，由d r s t e p h e nt r u n e r 的a n a l o g 最为广泛使用，从此宣告了w e b 分析诞生。在1 9 9 5 1 9 9 6 年，页面计数器开始风靡，使得i n t e r n e t 的一般用户开始出现在w e b 统计信息中。页面计数器可以说是w e b 病毒式营销( 病毒式营销是一种常用的网络营销方法，常用于进行网站推广、品牌推广等) 的第一个实例，现在w e b 计数器无处不在，它反映了站点的流行程度。随着w e b 的普及程度呈指数增长，在2 0 0 0 年，w e b 分析成为一个准则，在w e b 领域开辟了一个新的空间。a c c r u r e 、w e b t r e n d s 、w e b s i d e s t o r y 等公司以提供越来越复杂、报告海量数据的解决方案成为具有代表性的w e b 分析服务供应商。与此同时，w e b 分析单凭依靠w e b 日志旧来优化数据出现了瓶颈，它主要表现在： 1 w e bb r o w s e r 的页面缓存：页面缓存带来的麻烦是：b r o w s e r 如果有页面的一个副本，后面的所有页面都从缓存中获取，而w e b 站点日志文件中没有这些请求页面的记录。 2 搜索机器人旷w 1 ：随着搜索引擎的日益流行，搜索机器人会经常“爬“到韭垂窑重盍生亟圭蠖堂垫逵窑到直 w e b 站点上，在日志中留下非w e b 用户的登录信息。进行统计时这些登录信息也会被计算在内。虽然可以过滤到机器人的命中，但难以抵挡更多新出现的机器人。 3 唯一访问者：随着要动态分配i p 地址和通过代理服务器的访问的用户量的增多，标识唯一访问者变得困难起来，供应商开始采取i p 地址加上用户代理i d ( 用户操作系统和浏览器) 的方式，但这种方式也不是很理想。站点设置有c o o k i e 会有些用处。服务器日志的不足，j a y a s c r i p t 标记。演变成从w e b 站点收集数据的新标准。这是一种简单得多的数据收集方式；像每个页面添加几行j a v a s c r i p t 代码，当加载页面时，他们就开始工作并将数据传送到数据收集服务器上。j a v a s c r i p t 日志文件比w e b 服务器日志文件更易维护，在大多数情况下它们也将收集和处理数据的责任从公司i t 部门转到w e b 分析供应商那里。这样就使w e b 分析更容易实现。j a v a s c r i p t 标记也使得w e b 分析更易革新，从而可以捕获新数据块，以及做些如设置c o o k i e s 跟踪访问者行为等事情。现在供应商就能做到这些事，也不必通过相应公司的i t 部门。 w e b 分析的下一个发展趋势可能是点击密度的概念。它的思想是只要客户在浏览器中打开想要分析的页面，贞面上会自动将分析结果显示出来。这种方案不仅亲切而且更加的反映网站的实际访问情况，同时还可以避免彻底搜索一整套复杂的数据或拼命研究相应的数据表格。目前，有很多公司尝试和已经开发出一系列概念的产品，譬如c l i c k t r a c k 和c r a z y e g g 公司。比如图卜1 ，它是c r a z y e g g 公司描绘的点击密度图( 颜色越明亮，有关的热点或链接的点击就越多) ：图i - ic r a z y e g g 公司的点击密度实例 f i g u m l i ：t h e h e a t m a pa b o u t c h c k s n 揶a n dc l i c k - d e n s i t y 1 1 2w e ba n a l y t i c s 的现状目前的w e b 分析领域有以w e b s i d e s t r o y 为代表的大供应商，还有一批中级市场供应商，如c l i c k t r a c k s ，以及许多开源产品的解决方案，如a w s t a t s ， s t a t c o u n t e r 。 2 0 0 5 年g o o g l e 收购了u r c h i n ，对w e b 分析前景产生了重要影响，在2 0 0 6 年， g o o g l ea n a l y t i c s u u 的免费工具发布，现在使用g o o g l ea n a l y t i c s 的人不计其数。目前，g o o g l ea n a l y t i c s 向客户和免费用户提供第三方的w e b 分析服务，你可以在网上很方便看到自己网站的统计报表。 1 1 3w e ba n a l y t i c s 的未来和挑战在互联网繁荣之初，市面上有形形色色的供应商2 0 0 家。自其泡沫破灭以来，该产业进行了整合。w e b 分析系统仍然被供应商支配，并且支持更多的商业m a r k e t 功能。但是，由于缺乏专业的w e b 分析人员，一些标准技术，如客户驱动的创新 ( c u s t o m e r - d r i v e ni n n o v a t i o n ，c d i ) t m , 从来都没有广泛运用到w 曲分析世界中，大部分进展是由可能性驱动的创新( p o s s i b i l i t y - d r i v e ni n n o v a t i o r t , p d i ) t m 促进的，比如我们对捕获到的数据还能否做些创新，挖掘一些更有意思的数据。 w 曲2 o 及其相关的技术正逐渐成为主流访客体验的一部分。这种转变正在成为目前多数w 曲分析方法与供应商遇到的难题。在w e b2 0 的世界中，我们要加速对w e b 分析的策略改变和实现。典型的c l i c ks t r e a m 数据几乎没有意义，因为 r i a ( r i c hi n t e r n e ta p p l i c a t i o n ) u 川交互不会随着页面的变化而变化。日益增长的数据量为我们分析和下一步行动提供了一个机会，同时这也带来了如何提取有用数据的难度，反而增加了分析的负载和困扰。因此，拥有准确测量的能力成为如今日志分析的一个难点。未来的w e ba n a l y t i c s 不再是一些c li c k s t r e a m t d 数据，它还包括各种各样的数据，有时能被j a v a s c r i p t 标记捕获，有时需要设计一些创造性的测量方法，同时还包括定性行为的分析：访客为什么做了它们所做的事情，他们与我们网站互动的动机是什么? 1 2w e ba n a l y t i c s 中数据收集的研究当访客和w e b 站点进行交互时，主要用来收集数据的方法有：w e b 日志【6 】、 w e bb 黜璐【4 】、j a v a s c r i p t 1 2 】标记和包嗅探器。而有些公司的高级电子商务软件 3 内置了数据收集机制，如收集重要的业务事件和背景数据的事件日志。有时候需要数据收集的方法不止一种，你可能会选择目前最标准的j a v a s c r i p t 标记收集w e b 站点的行为信息。然而，想要分析站点上搜索机器人的行为，则要访问w e b 日志，因为搜索引擎机器人不会执行j a v a s c r i p t ，因此在常用的数据源上留下蛛丝马迹，不过在项目中对搜索机器人最后也可以采用j a v a s c r i p t 标记处理。但是在很多方面数据收集方式都是要集合使用的。 1 2 1w e b 日志技术的介绍 w e b 日志t o 从w e b 出现的时候起就一直是数据收集的最原始数据源，它最初是被开发出用来捕获w e b 服务器产生的错误。随着分析的需求从基于技术转向基于营销，它的功能慢慢地被“强化为捕获更多的数据。捕获过程如下： 1 客户在浏览器中输入u r l 。 2 页面的请求到达其中一个w e b 服务器( 一个典型的商业网站有一系列的 w c b 服务器组成，每个都可以处理页面请求) 。 3 w e b 服务器接受请求，在w e b 日志中为这个请求创建一个条目( 通常捕获的数据包括页面的名称、i p 地址、客户的浏览器以及日期时间戳) 。 4 w e b 服务器将页面发送给客户。在多数情况下，w 曲日志按规定程序从服务器上取下。然后开始启动标准的日志过滤程序或w e b 分析工具来分析w e b 日志文件，并产生标准报告。原理如图l - 2 所示：图1 2 w e ；b 日志收集数据方式 f i g u r e l - 2 ：h o ww e bl o g sc a p t u r ed a t a w e b 日志作为数据收集机制的优势如下： 1 ) w e b 日志可能是最容易被访问的数据源了。每个w e b 服务器使用这一机 4 制可以简化收集数据和建立w e b 日志，可以通过配置服务器很方便记录日志格式。 2 ) 已有很多日志文件解析工具可以免费获取。所以你不仅可以获得数据，还可以很快的创建基本报表。 3 ) w e b 日志是可以捕获”搜索引擎机器人竹访问站点行为的唯一数据捕获机制。 4 ) 使用w e ；b 日志，你总是可以拥有数据。通过很多其他方法，这些数据将被在应用服务供应商模式下的w e ：b 分析供应商所捕获、处理、存储。但你将拥有和保存所有的w e b 日志，这样在更换w e b 分析供应商时，也可以很容易地用新的工具来重新处理历史数据。 w e b 日志分析面临的问题如下： 1 ) w e b 日志主要为了捕获技术信息( 4 0 4 错误、服务器使用趋势、浏览器类型等) 而创建的，但它用于捕获商务和市场信息并不是最理想的。 2 ) 如果需要捕获市场和商业数据，需要和i t 团队密切合作，并要依赖它们的公开日程。这可以通过其他的数据捕获机制使之更快的进行。 3 ) 如果w e b 服务器没有设置c o o k i e ，那么多访客进行唯一识别是比较困难的。 4 ) 创建w e b 日志是用来捕获服务器上所有的正常访问结果。所以，为了获得精确的流量趋势和行为，每当应用过滤器来移除图像请求、页面错误、机器人流量、层叠样式表( c s s ) 文件等时，必须非常小心。 5 ) 代理服务器和i s p 缓存的页面意味着一些流量对你来说是不可见的。随着页面缓存的普遍使用，站点页面( 如首页) 会存储在i s p 或者代理服务器那里。所以当来自这个i s p 网络的某个用户请求首页时，他获得的页面来自于i s p 而不是w e ：b 服务器。因此，在日志文件里就没有那个页面请求的条目。 w e b 日志技术作为常用的w c b 分析技术，几乎少有创新。w e b 日志应当用于分析搜索机器人的行为，去衡量在搜索引擎优化上的努力是否有成效。相对于其它几种w e b 分析方法，它们捕获数据的方式更通用和适用。所以，w e b 日志可以用来弥补其它几种方法的不足，但是在这种情况下增加了分析的复杂性和工作量。 1 2 2w e bb e a c o n s 技术的介绍一个公司可能在多个站点上投放了很多广告横幅，而这些广告横幅常常是很类似的。这时有一个很重要的需求，不但要知道有多少人看到这些广告的横幅点击进去了，而且还要知道其中有多少是被同一个点击的。为了要测量这些站点上广 5 告的点击率时，因此出现了w e bb e a c o n s 。w e bb e a c o n s 是一张1 1 像素的透明图像，位于第三方或本地w e b 服务器程序中。 w e bb e a c o n s 【4 】运行原理图如图1 - 3 所示：甩户燃户图1 - 3w e ；bb e a n c o n s 收集数据方式 f i g u r e l 3 ：h o ww e bb e a n c o n sc a p t u r ed a t a w e bb e a c o n s 捕获数据过程如下： l 、客户在浏览器浏览u r l 2 、页面的请求到达一个w e b 服务器 3 、w e b 服务器将页面返回，连同一个获取第三方服务器上的1 1 像素图像的请求。 4 、页面被加载，执行对该1 奉1 像素图像的调用，发送页面视图的数据给第三方服务器。 5 、第三方服务器将图像返回给浏览器，一起返回的还包括可以读取的c o o k i e 和捕获匿名访客数据，这些数据包括已经浏览的页面、i p 地址、页面浏览的时间、之前设置的c o o k i e 和更多的内容。 w e bb e a n c o n s 作为数据收集机制的优势如下： l 、w e bb e a n c o n s 易于实现，它只需要嵌入一段简单的i m gs i c 的h t m l 标记。一旦收到图像的请求，捕获的信息会随h t t p 请求发送到服务器端或第三方。 6 2 、这比w e b 日志单纯依赖服务器端收集数据更灵活强大。 3 、可以对w e bb e a c o n s 收集的数据进行优化( 比如浏览的页面、时间、c o o k i e 值或者引用者) 。因为机器人并不执行图像请求，所以不会收集到无用的数据。这使得日志可以维持在一个可管理的规模上，并且不需要复杂过滤。 4 、w e bb e a c o n s 在收集多个站点或多个域的数据时显得很强大。如果你是一个在内部网络有多个站点的公司，使用b e a c o n s 可以在一个服务器上收集多个站点的数据( 这个服务器发送所有的数据请求) 。这样你可以更好的了解不同站点的情况，更好的定位访客的内容。 w e bb e a n c o n s 作为数据收集机制的问题如下： 1 、w e bb e a c o n s 不能像j a v a s e r i p t 标记一样，可以对捕获的数据进行扩展和定制。它捕获的数据有限，但能取到更大范围内的站点信息( 典型的比如跨多个域名的站点信息) 。 2 、根据其特征，w e bb e a c o n s 和第三方服务器的交互，主要是设置第三方的 c o o k i e 。伴随严格的隐私方面的限制，浏览器或者不接受或者不显示第三方的c o o k i e ，有时反间谍的软件会删除这些第三方的c o o k i e ，使得用 b e a c o n s 更难追踪和访问。 3 、如果想跨越多个站点追踪访客的行为，w e bb e a n c d n s 可能是最佳的选择。对于大量的站点访问流量分析而言，很可能还必须依赖其它的方法进行数据分析，因为b e a n c o n s 捕获的数据不如其他方法多。 1 2 3j a v a s c r i p t 标记技术的介绍 j a v a s c r i p t 标记【1 2 】目前是业界最普遍和最受欢迎的技术，大部分的供应商和 w e b 分析的解决方案都依靠j a v a s c r i p t 标记来收集数据。 j a v a s c r i p t 标记可以更精确地收集更多的数据很重要的是它将数据服务和数据捕获分离的思想。对于各种数据捕获而言，减少了对公司i t 部门的依赖性。这意味着大多数情况下，数据捕获交给了第三方。不需要捕获数据，w e b 页面就可以从公司的服务器中显示出来，呈现给w e b 站点的访客。关于访客的数据就在其他服务器，通常是第三方服务器上捕获和处理，从而获得在线的报表。 j a v a s c r i p t 标记收集数据的过程如下： 1 、在客户端浏览器输入u r l 。 2 、页面的请求到达一个w e b 服务器。 3 、w e b 服务器将页面返回，连同附加这一页面的j a v a s c r i p t 标记代码片段。 7 4 、页面被加载，执行j a v a s e r i p t 的代码，节和c o o k i e ，然后返回给收集数据的服务器。有些情况下，当收到第一批数据的时候，器来设置c o o k i e 或者更多的数据。包括浏览的页面，关于访问者的细服务器就将其余的代码返回给服务 j a v a s c r i p t 标记收集数据的原理如图1 _ 4 所示： o - - - - - - - - - - - - - - - - - - - 一 w e b s i t es e r v e r s o h b x ，c l i c k t r a c k s ， g o o gl ea n a l y t l c s ， o m n i t u r e 。 w e b t r e n d s 图l _ 4 捕获数据时如何通过j a v a s c r i p t 标记实现的【2 】 f i g u r e l - 4 ：h o wj a v a s c r i p tt a g g i n gc a p t u r ed a t a 2 】 j a v a s e r i p t 标记收集数据的优势如下： 1 、j a v a s c r i p t 能很灵活的选择要捕获的页面。它只需要在一个全局站点元素中增加标准的几行j a v a s c r i p t 代码即可标记整个站点。 2 、如果由于隐私和技术原因不能访问w e b 服务器日志，j a v a s c r i p t 标记是唯一的选择。使用它可以很轻松地安装这些标记来生成报表，对中小型企业很具诱惑力。 3 、页面缓存，不管是本地的访客p c 还是诸如代理服务器上的缓冲，对于 j a v a s c r i p t 标记都可以执行，分析工具都可以收集数据。 4 、对于收集什么数据有很大的精确控制权。还可以在一些特定的页面( 购物、结账、订单确认以及知识库文章) 实现特定的标记( 例如订单值、数量、产品名称等) 。 5 、j a v a s c r i p t 使得数据服务器和数据捕获相分离。当使用j a v a s c r i p t 标记时，站点的发布速度会更快，因为i t 部门不需要检查和数据捕获相关的任何事物，除了确保标记是在页面上以外，不需要麻烦i t 部门来设置c o o k i e 的跟踪会话，用自己的工具就可以完成。 j a v a s c r i p t 标记收集数据的问题如下： 8 ，矗丁矗 h 1 、不是所有的站点访客都会开启j a v a s c r i p t 标记，这常常是出于隐私或者其他方面的考虑。对于这些用户而言，分析平台不会收集到任何数据，基准点也难以获得。但通常还是有2 6 的站点访客关闭j a v a s e r i p t ，这些访客对你来说成为不可见。 2 、尽管一些供应商正在考虑一些明智的解决方案，用j a v a s e r i p t 标记捕获那些( e x e 和p d f ) 和重定向的数据要比w e b 日志更困难。 j a v a s e r i p t 标记所收集的数据，在数据质量方面是最优的，但是如何能更好的支持j a v a s e r i p t 是一个困难的问题。 1 2 4 包探嗅器技术的介绍从技术来讲，包探嗅器 2 1 3 n - - j 能是最先进的方式，它的使用可以不再依靠 j a v a s c r i p t 技术，而且收集的数据更快更广泛。但是，它却没有流行起来，原因跟它的实现原理有关。包探嗅器技术的原理图如下图1 5 所示：如耀户包嗅探嚣、鼋了- 图1 - 5 捕获数据时如何通过j a v a s c r i p t 标记实现的 f i g u r e l - 5 ：h o wd a t ac a p t u r ew o r k sw i t l lp a c k e ts n i f f i n g 包探嗅器技术捕获数据的过程： l 、客户在浏览器中输入u r l 。 2 、请求到w e b 服务器之前会被拦截。但在请求到达之前，它会通过一个基于软件或者硬件的包探嗅器，收集请求的一些属性，将关于访问的更多数据返回给包嗅探器。 9 3 、包探嗅器将请求发送给w e ；b 服务器。 4 、请求先传送给包探嗅器，然后唤回给客户。包探嗅器捕获返回的页面信息并存储数据。一些包探嗅器方案的厂家还附加j a v a s c r i p t 标记，从而可以会给包探嗅器更多访问者的数据。 5 、包探嗅器将页面数据返回给浏览器。包探嗅器收集数据的优势如下： l 、因为所有数据通过包探嗅器，它没有必要在站点使用j a v a s e r i p t 。 2 、收集大量的数据，要比用标准的j a v a s c r i p t 标记要快得多。如果，可以获取服务器错误、带宽利用、所有的技术数据以及和页面相关的业务数据。包探嗅器收集数据的问题如下： 1 、对大多数公司而言，很难说服i t 部门在w e ：b 服务器上增加一个额外的软件层，或者在高层配备的数据中心安装物理设备并通过这一方案来路由所有的w e ：b 流量。包探嗅器就是在客户与w e b 页面设置一个层，这一思想可能会遭到反对。 2 、在使用包探嗅器方案时，还需要j a v a s e r i p t 标记来收集用于最优分析所需的全部数据。例如，没有j a v a s c r i p t 标记，包探嗅器就无法得到缓存页面的任何数据( 因为网站服务器没有收到任何请求) 。来自a d o b ef l a s h 文件或者a j a x 1 0 或者大量的i n t e m e t 应用的交换数据，对传统的包探嗅器来说是根本不可见。 3 、使用包探嗅器需要花费额外的硬件和软件。包探嗅器机制的建立专业性比较强，目前只有一些w e b 分析供应商支持。为了更有效，需要将包探嗅器和j a v a s e r i p t 标记结合起来。总体来讲，在j a v a s c r i p t 标记或w 曲日志无法满足机构的数据需求时，考虑包探嗅器。 1 3w e ba n a l y t i c s 中数据分析的研究 w e b 分析的基本度量p j ：每个w e b 分析的征程都是从三个基本的问题开始：到你站点的访客有多少? 他们会在站点待多久? 他们访问了多少网页? 这些都是简单的问题，但是对他们的评估往往却各抒己见。因为每个问题都有它的局限性和复杂性。下面是对w e b 分析中一些常用到的度量说明： 1 访问数和访客p 1 ：每个人头脑中的第一个问题是我们站点上有多少访客? 第一本能反应是想知道访问站点的人是谁( 这可能是从你希望被人喜欢这个简单的愿望引发的) 。访 1 0 韭塞窑壅盍芏亟盛芏垃业主虽直问数，这个度量通常也被称为访客或者中访客。目的是为了测量在一个给定的时间范围里人们访问站点的次数。( 我们通过不同的c o o k i e 来对人们进行跟踪) 。因为大多数平台都使用c o o k i e ，并且在访客到达和离开时开始和结束会话，因此对于访问度量有以下最简单的定义：访问数：在一个给定的时问内所有会话的数量。 2 唯一访客：唯一访客这个度量，用于确定一个特定时间段内达到站点的唯一的访客。我们试图理解客户的重复访问和多少人来我们的网站。这个度量是通过使用访客浏览器中临时c o o k i e 来进行跟踪的。由w e b 服务器或者j a v a s c x i p t 标记读取。对于唯一访客有以下最简单的定义h ：唯一访客：在一个给定的时间段内所有唯一的c o o k i ei d 的数量。这个时问范围很重要，对于访问来说，仅仅对每个会话进行累加，但对于唯一访客来说是选择不同的c o o k i ei d 值并将它们进行累加。下面图1 - 6 是常见的访问统计图：图l 石常见的访问数和访客图表 f i g e r e l 一6 ：v i s i t o r sa n d v i s i t s c h a r t s 对于唯一访客，要准确理解这两个度量的每一个是如何运算的。和w e b 分析商进行合作，准确地理解使用了什么公式以及在一段时间里它怎样测量的。如果供应商的公式和本文定义的不一样，要清楚原因确保得到满意的答案。另外要注意唯一访客使用了c o o k i e 值，因此尽量使用第一方c o o k i e 。 3 站点访问时问：站点访问时间看上去是一个容易理解的简单的度量，但理解人们在站点上花了多少时间似乎很简单，然而这其中却有很多的陷阱。当客户向w e b 服务器发送了第一个请求的时候，通常对这个访客来说会话就已经启动了。从这一点开始，在客户浏览站点的过程中，每个请求的时间标记都进行了日志记录。任何一个w e b 分析工具是怎样对这个度量进行运算的，以及站点访问时间对一些客户体验比如博客来说没什么意义是怎么回事，这些都是非常关键的问题。比如一个客户到达一个站点，跳转了4 个页面，然后离开站点。点击1 ：i n d e x h t m l9 m s 点击2 ：p a g e l h t m l5 8 9 7 m s 点击3 ：p a g e 2 h t m l7 8 8 8 m s 点击4 ：p a g e 3 h t m l2 8 8 4 4 m s w e b 分析工具通过计算一个页面和下一个页面之间的时间标记的差值来确定访客花在一个页面上的时间。比如，首页花费时间就是5 7 8 8 m s 。问题的难点在于最后一个页面的访问时间，因为没有时间差，它是不能测量出来的。而且，如果用户一直打开浏览器未关闭该网页，我们就会认为用户一直未离开。这个显然和用户真实的行为有偏差。 4 页面浏览：页面浏览还可以被称为访问深度或称为页面加载活动。它测量的是：在访客会话期间被浏览的页面或者请求的数量。通常站点上被浏览的页面数还可以是客户活动的一种表示。这是基于这样一种想法：如果站点访客浏览更多的页面，那么我们的站点在活动参与方面还是满意的。这也相当适用于内容站点。页面浏览有三个方面需要密切关注： 1 ) 理解站点上一个独特的页面时如何定义的，然后确保配置w e b 分析程序对浏览器页面进行正确的报告。 2 ) 如果运行在一个丰富的媒体站点( 站点纯粹是f l a s h 的形式) ，或者已经在站点上实现了a j a x 或者丰富的交互式应用，那么不管它们有多么深入，应该为这些体验报告一个页面浏览。 3 ) 应当少报告平均的页面浏览( 每次访问、或者通过源、或者活动关键字) ，对大多数站点来说，尽管每次访问的页面分布对特定的站点而言有很大的不确定性，但访客行为的动态性很相似，取平均页面浏览将会和实际偏差。 5 跳出蓼1 】【1 6 】：这个度量在驱动认识和行动上有很好的帮助。跳出率简单的定义如下：在站点上停留少于多少秒的流量百分比。秒数这个参数需要从实践的角度进行评估，通过跳出率我们可以注意到一些很有趣的信息：比如用户为什么会来，站点哪些部分比较吸引人或者哪些部分又比较失败，通过 1 2 跳出率我们能够知道我们的搜索栏、页面的布局策略是否成功与否。 6 推荐者j l - 站点是通过哪些源地址或者搜索引擎跳转而来推荐信息的两个很好的来源是推荐站点( u r l ) 和搜索引擎向访客推荐的关键字短语。这两个度量和报告在推断意图方面提供很丰富的信息。这两个度量可以说明我们的访问来自哪里、还可以确定各种流量的表现如何以及进行改进的机会在哪里。图1 7 是表示用户通过g o o g l e 搜索来找到站点的统计情况：秘v i s i t 0 6 1 蹙书，譬鼢；i ：? 圆降，擘谰滔，? 蠹峨，7 鬈龟嗡 ! + 7 锈叠黻，皤，诋掐茜。+ j 。t o t a l ：7 簟甏嚣i 嚣j 翦噍：羔t 桌糕麴硪翔黯霸酾夥缓露缓么赫乒髓簿。e 籀莸钢瞪荔；磊良彩女斩彩施；。籀磊1 5 织翩参黢锄麓落s 羁毓巍s 敷5 糕 p r o f i l es 商t w a r e 、 5 2 45 嚣1 2 9 7 2 i 毒9 7 s6 0 3 9 6 州；l e 3 8 l4 2 7 耵2 , 08 0 s5 9 6 与0 辫稿l e 霸c ，j 。7 3 1 77 1 毫黜。7 3 8 j、2 3。。9 2 s，4 7 图1 - 7 对搜索关键字度量的分析 f i g u r e l - 7 ：a v e r a g et i m eo ns i t ef o rs e a r c he n g i n ca n ds a n ss i n g l e - p a g ev i s i t s 7 项级的页面浏览最多的、进入最多的、退出最多的页面： 1 ) 访客到达页面，而站点有很多页面，所以是页面在起决定作用。这在大多数情况下是正确的。对于项级页面的研究是对所有用户观看内容进行理解。 2 ) 浏览最多的页面：这个页面也被认为是请求最多的u r l 、最受欢迎的内容和最受欢迎的页面。它是对站点上具有最多访客数的页面。对于浏览最多的页面来说，原始数字可能不会太大变化，所以要以周对周、月对月、昨天对今天的页面进行比较。 3 ) 进入最多的页面：这个简单的报告显示了作为访客访问站点的入口点进入最多的页面。它还可以根据访问而不是唯一访客来测量。在搜索引擎占主导地位的世界里，进入最多的页面至关重要。搜索引擎的优化不仅仅是一个口号。大多数w e b 分析的实践者对他们的首页都有无谓的困扰。但来自搜索引擎的访客通常是直接深入到站点中去。对于站点来说，很大部分流量不一定来自于主页。退出最多的页面：它是提取在每个访客会话中最后浏览的页面并对这些最后浏览的页面出现最多的集合进行计算。 8 点击密度分析：点击密度的报告，也称为站点覆盖的报告，通过覆盖在w e b 页面上方的点击，它可以直接显示客户在w e b 页面上点击哪里。如图1 8 所示： 1 3 韭毫窑塑左芏亟攫芏僮造窒型直蔫量默翩news b l o ko h c u m m 1 ”8 一曩曩嗣量寓量盈窝窖鼍鼍舅醺图1 8 对点击密度的分析 f i g u r e l - 8 ：a r i a l y t i e s o f c l i c k _ i e n s i t y 从上圈1 - 8 可以看到，在这个w e b 页面上的每个链接都用一个小图案进行了标记，他能够说明在这个页面上哪个链接被点击了。通过观察不同部分的浏览行为，站点可以开始了解客户想要的不同价值的部分是什么。然后能够开始创建个性化的体验或者满足他们的需求。 1 4 论文组织和结构本论文在分析了w e ba m l y d c s 技术的发展现状和发展趋势中，重点提到数据收集和数据分析中的难点和关键点。在讲述了w e ba n m y t i 曙的概念之后，本文开始结合项目详细介绍如何去实现数据收集、如何定义数据度量到如何实现有效数据的分析，然后介绍了该项目的主体架构和各个模块的具体功能。本论文的内容组织与安排如下：第一章讨论论文研究的背景和当前w e b p m a l y t i c s 技术的发展现状，分析当前w e b 分析的各项需求，在传统的w e b 分析上进行w e b 分析技术的创新和改革。第二章介绍了论文中开发w e ba n a l y t i c s 系统的环境配置和w e ba n a l y t

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机科学与技术专业论文）web+analytics的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

（计算机科学与技术专业论文）web+analytics的研究与实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档