(产业经济学专业论文)门户网站用户浏览行为规律分析研究.pdf_第1页
(产业经济学专业论文)门户网站用户浏览行为规律分析研究.pdf_第2页
(产业经济学专业论文)门户网站用户浏览行为规律分析研究.pdf_第3页
(产业经济学专业论文)门户网站用户浏览行为规律分析研究.pdf_第4页
(产业经济学专业论文)门户网站用户浏览行为规律分析研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(产业经济学专业论文)门户网站用户浏览行为规律分析研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随萧计算机技术积通瓯技术的迅猛发展,今天全球已经实现了熙终化,互联网 已成为我们生活中不可缺少的组成部分。门户网站是互联网上的导航性质的网站, 是网民进入互联网的窗口,通过门户网站网民可以更煺便利地测览网络信患,门户 网站在互联网中有着重要的地位。因此,研究门户闷站用户的浏览行为规律可以更 。 好地帮助我鲥理解网民鸵网络 亍为特征。本文正是针对这一阅题展开研究,根据用 一户测览网络时留下的c o o k i e 文件资料建立模型,从中寻求网民的浏览行为规律并 、 发抠媳律背后的内在原因。 全文共分为五个部分,引言部分主要是简介本文的研究背景、研究意义和本文 主要研究的问题。第一章主要是概述与f 1 户鄹站相关的理论知识和有关网络消费者 的行为特征的理论知识。第二章是根掘门户网站网民的c o o k i e 文件数据绘制门户 网站用户登陆人数曲线图和网站点击数曲线图;利用z 2 检验方法检验网跨人目统 计变量信息对网民潮览行为的影响;利用平稳时间序列a r m a 模型拟合备1 3 户网站 网民的点击数变化曲线图。实 正研究对象是y a h o o 铆、p c h o m eo n l i n e 、m s n 、h i n e t 等门户网站。第三章是利用马尔可夫转移概率矩阵模型分析网民访问门户网站时的 路径变化规律,实证研究对象是y a h o o t w 嬲站,研究结论表明网民访闽网站时浏 览网页时虽然具有随意性,但大量统计结果显示在这种随机的行为背后有着比较稳 定豹访翔幸亍为模式;第四章魁结论部分,总结本文的研究结论茅弱需进一步研究的问 题,并提出一些门户网站发展的建议。 逶过本文的实证分析研究,我们尝试运用一些分析疗法研究网民对于门户网洁 访问时的浏览行为规律,有效地利用了网民的c o o k i e 文件资料,这些方法可以更 好地帮助我们理解和掌握嘲民的网络浏览行为规律。 。关键词:f 1 户网站,z2 检验,时间序列,马尔可夫链,转移概率矩眸 a b s t r a c t w i t ht h ef a s tg r o w t ho fc o m p u t e ra n dc o m m u n i c a t i o nt e c h n o l o g y , t h ew o r l d t o d a yh a sb e c o m ean e t w o r k a n di n t e r n e th a sb e c o m eap a r to fp e o p l e sd a i l yl i f e t h ew e b s i t e ,aw i n d o wt h r o u g hw h i c hp e o p l ee n t e rt h ei n t e r n e t ,p r o v i d e sp e o p l e ( n e t i z e n s ) w i t ham o r ec o n v e n i e n tb r o w s i n go ft h en e t w o r ki n f o r m a t i o n b e c a u s e o ft h ei m p o r t a n c eo fw e b s i t ei ni n t e r n e t ,s t u d y i n gi t su s e r s b r o w s i n gh a b i t sc a n b e t l e rh e l pu st ou n d e r s t a n dt h ef e a t u r e so ft h en e t i z e n su s eo fi n t e r n e t t h i s t h e s i ss t u d i e si t b a s e no nt h er e c o r d st h a tt h eu s e r si e a v e w h i l eb r o w s i n g i n f o r m a t i o ni ni n t e r n e t t h i st h e s i es e t su pam o d a l ,f r o mw h i c ht h eb r o w s i n g h a b i t so ft h ei n t e m e tu s e r sa r ef o u n da n dt h ei n t r i n s i cr e a s o n sa r ee x p l o r e d t h et h e s i sc a nb ed i v i d e di n t of i v ep a r t s : i nt h ep r e f a c ea r et h er e s e a r c h i n gb a c k g r o u n do ft h i sr e s e a r c h ,i t s s i g n i f i c e n c ei t sm a i nt o p i c s t h ef i r s tc h a p t e ri s ag e n e r a li n t r o d u c t i o no ft h e r e l e v a n tt h e o r yo fw e b s i t ea n dt h ef e a t u r e so ft h ei n t e r n e tu s e r s u s eo fi t nt h e s e c o n dc h a p t e r , ac h a r to ft h en u m b e ro fu s e r sl o g i n n i n gi ni n t e r n e ta n dac h a r to f t h ew e b s i t e st h a tt h eu s e r sh a v el o g g e di no nt h eb a s i so ft h eb r o w s i n gr e c o r d so f t h eu s e r sb yu s i n gt h et e s to fz 2 t oa n a l y s i z et h ei m p a c to nd e m o g r a p h yb y u s i n ga r m a m o d a lo ft h es t a b l et i m es e q u e n c e ,t h ea u t h o rs t u d i e st h ec h a r ta n d f i n d so u tt h eh a b i t so fi n t e r n e tu s e r sa n dt h eh a b i t s r e a s o n s ,t h u sr e a c h i n ga c o n c l u s i o nt h a tt h er e s e a r c h i n go b j e c t sa r ey a h o o t w ,p c h o m eo n l i n e ,m s n ,h i n e t 。 e t ct h ec o n c l u s i o nd e m o n s t r a t e st h a tt h eu s e r s v i s i t st ow e b s i t e si sq u i t es t a b l e a n d h a sa no b v i o u sc y c l e 1 nt h et h i r dc h a p t e r t h ea u t h o ru s e sm a r k o v s p r o b a b i l l i t y st r a n s f e r r i n gm a t r i xm o d a l t oa n a l y z et h er h y t h mo ft h ep a t hw h i l et h e n e t i z e n sa r eb r o w s i n gi n f o r m a t i o ni ni n t e r n e t ,p r o v i n gt h a tt h er e s e a r c h i n go b j e c t i sy a h o o t wa n dt h i sc o n c l u s i o ns h o w st h a t ,a l t h o u g ht h en e t i z e n sv i s i tw e b s i t ea t r a n d o m ,v a s tn u m b e ro fs t a t i s t i c ss i g a l s t h a tt h e r ei sam o d a lb e h i n dt h i s r a n d o m l ya c t i o n t h ef o u r t hc h a p t e r i sac o n c l u s i o n ,w h i c hs u m su pt h e c o n c l u s i o no ft h i st h e s i s ,i t sd e f a u l t sa n dt h ep r o b l e m st h a tn e e dt ob ef u r t h e r s t u d i e d b ya n a l y z i n gr e a lc a s e s ,t h et h e s i sa t t e m p t st os t u d yt h eb r o w s i n gh a b i t so f t h ei n t e r n e tu s e r s i tm a k e sa ne f f e c t i v eu s eo ft h ed a t aa n dm a t e r i a l so ft h eu s e r s r e c o r d a n dt h i sa p p r o a c hc a nh e l pu sb e t t e ru n d e m t a n da n dg r a s pt h eb r o w s i n g h a b i t so fi h ej n t e r n e tu s e r s n a n f e n g ( i n d u s t r ye c o n o m i c s ) directed b yp r o f e s s o rl ix u y i n g 一,k e yw o r d s :w e b s i t e ,t e s to fz2 ,t i m es e q u e n c e ,m a r k o vc h a i n ,p r o b a b i l i t y s t r a n s f e r r i n gm a t r i x 论文独创性声明 本论文是我个人在导师指导下进行的研究工作及取得的研究成果。 论文中除了特荆舷以标注帮致落酶圭氇方铃,不包含葵谴人或其德枧擒鑫 经发表或撰写过的研究成暴。其他同志对本职究的癌发和所做的贡献均 邑在论文中俸了骥确酶声鞠荠表示了谢意。 , 乍者签名:盘遣垒基期:翌型:2 :2 论文使用授权声明 本人嗣意上海海事大学有关保鍪、使用学位论文静攥定,鞭:学校 有权保留送交论文复印件,允许论文被遴阅和借阅;学校可以上网公布 论文骆全部或部分恣容,萤唾“以采爝影印、缝馨或蠹其它复裁手段保存论 文。僚密的论文在熊密后遵守此趣定。 作者签名: 趣鳆学师签名j 丝日期:衅b 引言 当今世界,人们已深深领略到信息革命第二次浪潮的冲击。现代信息技术突破 了时间和地域的局限,实现了全球网络化,我们现在正生活在一个网络化的时代, 通信技术、计算机技术和网络技术f 改变着整个人类社会。如果用芯片集成度来衡 量微电子技术,用c p u 处理速度来衡量计算机技术,用信道传输速率来衡量通信技 术,那么摩尔定律告诉我们,它们都是以每1 8 个月翻一番的速度在增长,这一势 头已经持续了十多年。在新世纪钟声刚刚敲响的时候,回顾往昔,人们不仅要问, 就推动人类社会进步而言,历史上有什么技术能与网络技术相比拟呢? 有人甚至提 出要把网络技术与火的发明相比拟。火的发明区别了动物和人。种种科学技术的重 大发现扩展了自然人的体能、技能和智能,而网络技术则大大提高了人的生存质量 和人的素质,使人真正成为社会人、全球人。 在互联网发展的初期,网络上就建立了相当多的网站,但这些网站没有任何分 类,也没有任何系统引导人们迅速、简便地查找他们所需要的信息,这给网民使用 互联网带来了极大的不便。1 9 9 4 年,杨致远和大卫费勒组建了以雅虎( y a h o o ) 命 名的导航性质的网站,这也是今天众多门户网站的雏形。随着门户网站的不断完善 发展,它们已经成为网民使用互联网的核心枢纽。在网络经济日益发展的形势下, 各类门户网站的竞争也越发激烈。成功的门户网站关键在于更多地吸引网民的访 问。因此,有必要深入地研究门户网站网民的浏览行为规律。它可以帮助门户网站 更好地理解自己用户的访问行为,更有效地组建自己网站的结构,设计网页内容。 计算机网络科技迅速发展的今天,在互联网上人们已经可以详细记录网民在网站上 的浏览信息。这些网民的浏览信息数据使得深入研究网站网民的浏览行为规律成为 可能。本文是以台湾网民在y a h o o t w 、p c h o m eo n l i n e 、m s n 、h i n e t 等门户网站上 浏览信息为数据基础,分析网民在门户网站上的浏览行为规律,具体的研究问题有: 1 分别以r 和小时为时间分割点,从门户网站的访问人数和网站的点击数两个 不同角度分析门户网站用户的浏览行为是否存在周期性变化规律。 2 门户网站用户的访问行为是否受到人口统计变量差异的影响。 3 用户在门户网站上的浏览行为模式是否有规律可以遵循。 通过对门户网站网民浏览行为的分析研究可以帮助门户网站更好地了解自己 的用户,根据用户的需求、喜好有针对性地组织网站的链接结构,设计网页的内容 和形式,及时将信息传递给网民,更好地服务网民,吸引网民点击网站,增加网站 的人气与流量。 由于客观条件及本人的学术水平所限,文中难免会有一些浅陋之处,恳请各位 评审专家及其他读者不吝批评和指正,本人将十分感激。当然,如果文中的某些思 路或想法能够对阅读者有所触动或启发,本人也将感到万分的喜悦与欣慰。 第一节门户网站概述 第一章概述 一、互联网发展的历史和现状及其商业模式 互联网的雏形是1 9 6 9 年美国国防部资助的一个有关广域网络的项目,名叫阿 帕计算机网( a r p a n e t ) 。开始用4 台计算机互联试验,到1 9 7 7 年网络节点达5 7 个, 连接各类计算机1 0 0 多台,发展至今,互联网已经成为联通全球2 0 0 多个国家和地 区3 0 0 0 多万台主机,拥有数亿网民的国际网络。由于方便、可靠、实用,互联网 迅速扩大,现在,全球每天有数千万人在因特网上漫游、交流和工作,互联网已经 从本质上改变了人类的沟通方式和生活方式。 互联网作为改变整个世界运行状态与构成结构的一种新兴事物开始萌生、发展 以及壮大,到目前为止已经在世界政治、经济、文化、人类生活等各个方面产生了 翻天覆地的深刻影响。有别于传统的工业经济、农业经济,2 l 世纪新兴经济的内在 驱动要素就是网络。 同其它所有行业一样,互联网行业发展到一定的程度以后,专业化分工的过程 也使其内部结构中产生了比较细致的分化,从而形成了整个互联网产业从低到高分 成几个层次:处于不同层次的互联网企业具有不同的客户对象、服务手段和利润来 源,这就自然地形成了目前互联网企业的不同商业模式。从目前互联网业界比较通 用的角度来划分互联网产业的结构层次,或者晚互联网企业的商业模式主要有以下 几种: 1 接入与平台( a c c e s sa n dp l a t f o r m s ) :这是互联网企业最初的业务形式之一。 服务主要包括互联网接入( 有线、无线接入服务) 、虚拟主机、主机托管等。同时, 部分这类企业还提供网站制作、维护等服务。 2 网上内容提供服务( i n t e r n e tc o n t e n tp r o v i d e ) :这项服务是指通过在互联 网上建立网站向网络的用户( 包括个人用户与企业用户) 提供各种资讯、信息和社区 服务的互联网服务。内容和社区服务类网站根据其所提供内容的广度和深度的不同 又可以分为综合类网站和专业类网站两个大类;依据其提供内容的不同类别,又可 以分为搜索引擎、门户以及虚拟社区等。 3 电子商务( e - - c o m m e r c e ) :是利用w e b 技术、电子化手段在i n t e r n e t 网上 完成商业贸易活动的新型方式。电子商务的发展非常迅速,根据商务活动产生的资 金流和物流,可以大体上分为电子事物处理( 无支付、无物流,如网上报税、网上 办公等) 和电子贸易处理( 有支付、或者有物流,如网上购物、网上直销等商务活动) : 根据交易对象的不同,电子商务又可以分为企业一企业( bt ob ,如电子贸易、电 子数据交换、电子资金调拨等应用) 、企业一个人( bt oc ) 、个人一个人( ct oc , 如网络拍卖交易) 、政府一个人( 6t oc ,如通过网络实现个人身份核实、报税、收 税等政府对个人的事务性处理) 、政府企业( gt ob ,实现网上报关、报税、网上 产权交易等企业与政府之间的行为) 等形式。 本文的研究是针对门户网站,以下我们将对门户网站的相关理论加以简述。 二、门户网站的概念 门户就是房子的入口,互联网的门户就是网民进入互联网的入口,是用户接触 网络内容与应用服务的入口,不是硬件终端的入口。门户网站最初只是提供搜索引 擎和网络接入服务,而今天的门户网站快速地拓展各种新的业务类型,包罗万家, 成为网络世界的“百货商场”或“网络超市”。现在门户网站提供新闻、搜索引擎、 网络接入、聊天室、电子公告牌、免费收费邮箱、电子商务、网络社区、网络游 戏、免费网页空间等多项服务。 从狭义的角度讲,门户网站就是雅虎、f l s n 这种综合性的网站。从广义角度而 言,门户网站包括企业门户网站、政府门户网站、个人门户网站、手机门户网站、 硬件门户网站、城市门户网站、音乐门户网站、游戏门户网站、房地产门户网站等 等。本文的研究对象是狭义上的门户网站。 互联网门户网站一般都以大众互联网用户( 网民) 为服务对象,通过向其提供各 种基于互联网的服务,如咨询、el 、网上传呼、 、个人主页、网上订购商_ m a i b b s 品目录等,吸引“眼球”和“点击率”,即所谓的“注意力资源”,并将所获得的注 意力资源作为向广告商收取广告费的资本或作为向风险资金融资的资本。 互联网门户网站一般内容丰富、服务项目众多,主要目的是希望成为网民进入 i n t e r n e t 浏览的起始站点,成为通往互联网络其它地方的通道,同时能满足网民在 互联网络上对信息和服务的大部分需求。目前各类门户网站提供的服务主要有个性 化服务、功能性服务、即时性服务、交互性服务、娱乐性服务、专业性服务、工具 性服务等。 三、门户网站的发展变迁 门户网站在互联网中占有很重要的地位,门户网站的发展可以看作是互联网产 业发展的指示器,而门户网站的兴衰也标志着网络经济的发展和变化。从早期的门 户网站雅虎出现至今,短短的十几年时间,门户网站已经发生了天翻地覆的变化, 除了数量的增多之外,门户网站在内容深度、信息覆盖面、运作形式以及盈利模式 等诸多方面都有扩展和创新。 1 从综合门户到垂直门户 综合门户网站有一些最基本的功能,包括信息检索( 搜索引擎) 、信息交流( 聊 天室和各种论坛) 、信息传递( 免费的电子邮件和即时通信息) 。综合门户要有极强 的网络信息检索功能,应该是网民信息检索的起点。所谓的垂直门户是与综合门户 相对的概念,综合门户在于信息的广泛性,垂直门户在于信息的专深性。因此,垂 直门户除了上述的三项功能以外,最主要的特点是:搜索的信息是让某个行业的专 业人员满意,垂直门户应该是某个专业信息搜索的起始站点。 2 从中央门户到地方门户 在众多的综合门户和垂直门户的大发展中,作为政府门面的电子政务门户网站 的发展也不甘示弱。电子政务门户是指政府对公众和企业信息服务和政务服务的入 口网站。通过电子政务门户,一方面,政府可以为公众和企业提供及时、丰富的政 务信息,提供公众和企业所需要的政务服务:另一方面,公众和企业可以随时随地 地查阅政府公布的各种政策信息,享受政府的各种服务,包括各种申报,甚至参政 议政。 3 从组织门户到个人门户 在社会经济活动中,组织和个人是两个很重要的主体,在门户网站的建设上也 是这样。作为一种互联网战略的延伸,企业门户网站曾经经受到一些大型企业的青 睐,这种模式通常以一个大型企业的内部资源为基础,建立一个庞大的企业门户型 网站,力争做到为用户提供的服务向多个领域延伸,包括新闻、教育、社区、音乐、 产品销售,甚至旅游、气象等,在一定程度上类似于综合门户网站。其主要思路是 通过提供综合性的网络服务聚集人气,在此基础上促进公司产品的销售,增加产品 和服务的附加值,并且逐步开拓新的盈利领域。 4 从窄带门户到宽带门户 互联网正在改变我们的工作、学习和生活。互联网自身也在不断发展,以适应 人们不断增长的需求。在互联网的发展过程中,带宽始终是最为重要的一个方面。 社会的发展使人们不再满足于简单的语音通信,而是渴望着多媒体的介入,让人与 人之间的交流更加方便快捷。但传输带宽始终是限制互联网发展的根本因素,同样 也是新经济无法得以实现的瓶颈。从窄带向宽带过渡是国际互联网络发展必经的过 程。互联网最终要达到的目标是高速、互动、个性化。高速是指在进行大数据量传 输的过程中不再受带宽的限制;互动是指在互联网络上相互交流时语音和图像的传 输过程是双向对称的:个性化是指通信与媒体的传输是依据个人所需自由选定时间 和空间来进行的。这就是国际互联网络具有生命力和发展前景的三大基本要素。因 此,宽带门户也是门户网站发展的必由之路。 第二节网络用户特征分析 一、网络用户的需要 需要是指消费者生理和心理的匮乏状态,即感到缺些什么,从而想获得它们的 状态。需要按不同的标准可分为多种,如生理需要和心理需要,物质需要和精神需 要,马斯洛的五层次需要等。在网络消费中,消费者表现出一些新的需要:一是兴 趣的满足。人们选择上网,很大一部分原因是个人兴趣。这种兴趣的产生,主要源 于探索与成功。两种内在驱动力前者源于蕴藏丰富的网络,包容了各种各样的知识 与信息,网民可以根据自己的心理沿着网络提供的线索不断深入查询:后者则指人 们通过网络找到自己感兴趣的内容时产生的一种满意感。这种源于探索与成功的兴 趣会使消费者不由自主地选择网络这一媒介。二是聚集的需要。人是社会的动物, 从本质上来说,人们都有一种参与集体活动的需求。由于现代生活节奏的加快,人 们很难找出共同的闲暇时间来进行集体活动。网络的出现导致了一个虚拟社会的产 生,它为人们的虚拟聚集提供了可能。如目前广受欢迎的o i c q ,就给孤独的网民 们提供了交友聊天的便利;再如,一个爱下棋的网民在找不到现实中的棋友时,随 时到哪一家网上棋室都可以寻找到水平相当的棋手;而各种女性网站、减肥网站的 开设,则为妇女和减肥需求者提供了聚集的机会,她们可以在网络这个虚拟的空间 中找到一种集体归属感。三是交流的需要。在网络上下棋的网民,可能并不需要进 一步切磋棋艺,而只是要找一个可以对弈的人。事实上,下棋的过程本身就是一种 无声的交流。而类似聊天室与各种专业网站的网民,聚集之后的主要任务就是交流。 他们会提供自己的各种思想与见解,同时也希望能从其他网友那里获取自己想要的 各种信息。网民的这种交流需要,可以分为两类:一类是并不涉及经济利益,纯属 沟通的需要;另一类则是希望通过沟通,能获得某些经济利益,如制造商和消费者 希望能通过网上交流,达成一笔交易,满足自己的某些利益需求。 二、网络用户群的分类 网络用户的特性主要是由外部因素和个人因素决定的。外部决定因素包括:文 化因素、社会因素和家庭因素:个人决定因素包括:生命周期阶段、职业因素、经 济收入因素、生活方式、个性因素、自我观念以及心理因素等等,这些多方面的因 素将综合在一起对消费者网络行为产生作用。我们可以将网络用户群分为四种类 型: 1 交易群体:网民参与的是具体的交易活动( 即商品或服务的购买活动) 。该群 体成员具有明确的交易目的,在与其他成员互相交流、获得尽可能多的商品信息的 基础上,作出购买决策,实施交易。 2 兴趣群体:是由对某种具体活动( 如购物、社交等) 共同感兴趣的网上活动参 与者构成。与交易群体相比,更注重对各自感兴趣内容的广泛信息交流。 3 幻想群体:该群体成员往往不表现真实的自我或沉迷于幻想,喜欢在网上创 造一个与现实不同的环境或人格个性,如写小说等。 4 关系群体:是由经历类似生活波折( 如疾病、婚姻破裂等) 并寻求与他人交流 与倾诉这种生活感受的网上活动参与者构成,他们往往表露自己的真实身份,这类 群体的人际关系较深厚。 上述群体之问并不相互排斥,一个上网者可同时属于几个群体。 三、网络用户的浏览行为 网民在访问网站时的行为变化可以分为三个阶段: 1 立刻离开:当消费者访问某个网站时,若网站界面设计与消费者的审美严重 相左或者由于网页设计过分复杂导致出现严重的传输延迟现象时,消费者会毫不 犹豫地离开。 2 浏览:网站的界面设计引起了消费者一定的兴趣,但消费者仅仅在网站上浏 览而没有发生进一步的注册使用行为或是网上消费行为。 3 浏览并消费:消费者在浏览网站的过程中网站的界面设计刺激消费者产生了 某种需求并引起相应的消费行为。 第三节用于分析网络用户行为规律的数据来源 用于分析网络用户行为规律的数据,往往量很大,并且数据类型众多。归纳总 结起来有以下几种: 1 服务器数据 访问者在访问一个w e b 站点时,会留下“足迹”。这里的“足迹”是指用户访问 站点时在w e b 服务器上留下的相应同志数据,这些日志文件有:s e v e rl o g s ,e r r o r l o g s c o o k i el o g s 等,记录用户访问的基本情况。其中s e v e rl o g s 记录了用户 的各种访问信息:e r r o rl o g s 记录了请求w e b 页面失败的信息。 2 查询数据 查询数据是用户在查询自己需要的信息时在服务器端产生的记录,它是电子商 务站点在服务器上产生的典型数据。例如c o o k i e ,c o o k i e 是由服务器产生的,用 于记录用户的状态或者访问路径。由于涉及到用户的隐私问题,使用c o o k i e 需要 用户的配合。 3 市场数据 这类数据主要是传统关系数据库中存储的有关电子商务站点的信息、用户购买 信息、商品信息等。 4 w e b 页面数据 这类数据主要是指h t m l 和x m l 页面的内容,包括文本、图片、语音、图像等。 5 用户注册信息 用户注册信息是用户提交给w e b 服务器的用户信息,其中包括了描述用户的基 本情况和特征的信息。 本文的分析所使用的主要是网民在访问门户网站时所留下的c o o k i e 记录。 第四节国内外研究成果评述 早期,国外学者曾利用网民的c o o k i e 数据进行过定性的分析研究。在1 9 9 5 年 到1 9 9 7 年问,c a t l e d g e 和p i t k o w 、t a u s c h e r 和g r e e n b e r g 曾分别对网民网页浏 览行为进行过早期研究。这两组研究都是基于特定的用户群,在特定的时间段内的 c o o k i e 文件展开的。c a t l e d g e 和p i t k o w 研究是基于1 0 7 个目标网民,时间三个星 期,用户共有3 11 3 4 条浏览指令记录。他们发现,在研究时间内每人每天大约访问 1 4 个网页。t a u s c h e r 和g r e e n b e r g 的研究数据是基于2 3 个目标网民,时间是六个 星期,用户共有1 9 0 0 0 条浏览指令记录,平均每人每天浏览大约2 1 个网页。t a u s c h e r 和g r e e n b e r g 的研究特别集中在网民对网页的重复访问问题上。他们发现一个网页 被重复访问的概率大约是0 5 8 。他们也再次分析了c a t l e d g e 和p i t k o w 的研究中的 5 5 个网民的数据,由这些资料得出重复访问一个网页的概率大约是0 6 1 ,因此网 民的浏览行为存在稳定的变化规律。 在1 9 9 9 年,a l a nl m o n t g o m e r y 利用t y p e i it o b i tr e g r e s s i o nm o d e l 对网 民的c o o k i e 数据进行研究,在研究中他发现人口统计变量差异对网民的网络浏览 行为有一定的影响,而蕴藏在c o o k i e 数据中的信息对网民互联网浏览行为的预测 意义更为重要。 在2 0 0 2 年,c a t a r i n as i s m e i r o 和r a n d o l p he b u c k l i n 利用条件概率方法依 据网民的c o o k i e 文件研究顾客在电子商务网站上的购买行为,研究对象是一个在 线汽车销售网站,通过模型分析他发现用户在网站上的访问行为规律可以在一定程 度上预测网民的在线购车时机。 在2 0 0 3 年,w e n d yw m o e 和p e t e rs f a d e r 根据网民的c o o k i e 数据建构了一 个关于顾客在电子商务网站上购物的预测模型,该模型依据观察到的顾客对网站的 访问信息及购买行为的历史记录来预测每位消费者从登陆网站到在网站上购物的 概率。 、 随着计算机数据处理能力的不断提高和数据挖掘理论研究的深入发展,目前国 外学术研究机构的另一个热点研究问题是运用数据挖掘理论研究w e b 日志数据文 件,这些研究主要是建立在计算机程序的基础上,利用数据挖掘技术,自动地从网 络文档以及服务中发现和抽取有价值的用户信息,分析网民的浏览行为规律。与国 外相比,国内大陆地区对w e b 日志文件数据挖掘的研究稍晚一些,从事w e b 日志数 据挖掘研究的人员主要在大学,也有部分在研究所或公司。研究的问题主要有根据 w e b 日志文件挖掘用户浏览模式,建立自适应性w e b 站点,建立具有个性化学习能 力的网站导航系统等等。 综上所述,虽然基于网络数据研究网民浏览行为的开始时间并不长,但国内外 已经有一些学术机构的研究者在这个领域进行了比较深入的研究。这些研究有的是 基于定性的分析比较,也有运用模型进行预测用户的网络行为,还有从数据挖掘角 度进行的w e b 同志数据挖掘。但针对网民在门户网站上浏览行为规律的研究还并不 多,本文正是在这些研究成果的启发下对门户网站网民的访问行为加以具体的分 析,尝试建立一些可行的方法分析网民在门户网站上留下的c o o k i e 记录,找寻隐 藏在其中的网民规律性浏览行为。 第二章门户网站网民周期性访问行为分析 本章的研究内容有两个,一是分析门户网站网民的浏览行为是否具有周期性变 化规律,分析从两个方面展开,一方面是分析每日登陆网站的网民人数的变化规律, 并利用a r m a 模型拟合各个门户网站的点击数曲线;另一方面是分析网站每小时用 户点击数的变化规律。二是分析网站登陆用户在人口统计变量特性上存在的差异, 利用z2 一致性检验法分析。 j 第一节研究数据基本信息描述 一、研究数据来源 本文所用的研究数据是由台湾p m i 智动营销公司上海分公司提供。用于研究的 网民样本是台湾某研究机构从台湾网络用户中征集的,网民的c o o k i e 文件采集时 间是2 0 0 3 年1 2 月1 日一2 0 0 3 年1 2 月3 0 日。网民的c o o k i e 文件结构见表2 1 。 表2 一lc o o k i e 文件结构表 停留时间 用户i d 号日期时点序列号域名子域名 ( 微妙) i x l 4 0 1 1 2 2 2 0 2 3 7 8 1 1 8 7 7 92 0 0 3 1 2 0 10 8 :5 6 :1 23 4 1 n t ue d u t ww e b m a i ln t ue d ut w3 3 8 8 90 0 i x l 4 0 1 1 2 2 2 0 2 3 7 8 1 1 8 7 7 9 2 0 0 3 1 2 0 10 9 :3 3 :5 42 22c w bg o v t ww w w c w bg o v t w3 0 0 0 l x l 4 0 1 1 2 2 2 0 2 3 7 8 1 1 8 7 7 92 0 0 3 1 2 0 10 9 :3 3 :5 42 53c w bg o v t ww w w c w bg o v t w1 00 0 i x l 4 0 1 1 2 2 2 0 2 3 7 8 1 1 8 7 7 92 0 0 3 1 2 0 10 9 :3 3 :5 42 64 c w bg o v , t w w w w c w bg o v t w5 1 00 0 i x l 4 0 1 1 2 2 2 0 2 3 7 8 1 1 8 7 7 92 0 0 3 - 1 2 0 1 0 9 :3 3 :5 57 75c w bg o v t ww w wc w bg o v t w2 00 0 l x l 4 0 1 1 2 2 2 0 2 3 7 8 1 1 8 7 7 9 2 0 0 3 1 2 0 10 9 :3 3 :5 57 96c w bg o v t ww w wc w bg o v t w22 9 40 0 i x l 4 0 1 1 2 2 2 0 2 3 7 8 1 1 8 7 7 92 0 0 3 1 2 - 0 12 1 :5 0 :1 64 51 y a h o oc o m t wt wm a i ly a h o oc o r n 5 3 00 0 l x l 4 0 1 1 2 2 2 0 2 3 7 8 1 1 8 7 7 92 0 0 3 1 2 0 12 1 :5 0 :1 65 72 y a h o oc o m t wt w r e gy a h o oc o m 7 4 0 10 0 二、网络数据总体描述 本文用户样本数是8 1 3 人,样本用户在数据采集期的浏览记录共有2 3 4 8 8 4 9 条。 8 1 3 名被调查的用户在2 0 0 3 年1 2 月份内共登陆了1 4 9 1 1 个网站,平均每人访问了 2 3 3 2 个网页。其中登陆最为频繁的网站是y a h o o t w ,访问次数达7 9 6 4 8 2 次,而也 有一些网站如,y u a n c o m t w 的登陆次数仅有一次,分析结果如图2 - 1 所示: 图2 1网站点击数分布图 从图中可以看出,虽然用户访问的网站数量非常大,但主要集中在y a h o o t w 、 p c h o m eo n l i r e 、m s n 、h i n e t 等门户网站上,这些门户网站受到网民的频繁点击, 深受网民喜爱,它们是网民的导航性网站,网民j 下是从这些门户网站进入互联网, 在这些网站的导航下搜寻自己需要的信息并在线消费。因此,研究这些门户网站用 户的访问行为规律可以帮助我们更好的分析和理解网民的浏览行为。 第二节曲线图分析 对于门户网站而言,了解用户每天、每小时的访问行为是否存在稳定的变化规 律是非常有价值的,比如,在哪些时问登陆用户人数比较多,哪些时间网站登陆的 用户数比较少:在哪些时间网站的网站点击数比较高,而哪些时间相对较低。本节 将利用用户的c o o k i e 记录分别绘制同曲线图和小时曲线图来分析门户网站用户的 浏览行为规律。 一、日数据曲线图分析 根据用户的c o o k i e 文件资料,绘制图2 2 每日登陆网站的用户人数变化趋势 曲线图,原始数据详见附表l 。 图2 2日上网人数变化趋势曲线图 从图2 2 可以看出,根据网民一个月时间的c o o k i e 文件所绘制的各曲线走势 有明显的周期,曲线波峰与波谷交替出现。曲线的波谷区域处于1 2 月6 、7 号,1 3 、 1 4 号,2 0 、2 1 号,2 7 、2 8 号,这些日期f 是周末时间,在此期间网站用户人数 相对较少;曲线的波峰区域则处于工作日,即周一至周四,在此期间内上网人数是 高峰时期,各网站都被高频率的使用。门户网站y a h o o t w 、p c h o m eo n l i n e 、m s n 、 h i n e t 的曲线走势、波动周期与互联网总体上网人数曲线图非常相近,可见门户网 站网民的访问行为的时间变化情况与互联网的整体情况是相似的。 二、小时数据曲线图分析 上节的分析是针对用户每日对门户网站的使用情况,本节将利用网民的c o o k i e 文件资料以小时为分割点的绘制曲线图,研究各门户网站每小时网民对网站的点击 数变化情况和每小时网民访问人数变化情况。 曲线图2 3 是根据每天各个小时网民对y a h o o t w 、p c h o m eo n l i n e 、m s n 、h i n e t 等门户网站点击数均值绘制的,原始数据详见附表2 。 ( b ) p c h o m eo n l i n e 秽。一 ( c ) m s n ( d ) h i n e t 图23门户网站每日各小时网民点击数均值变化趋势曲线图 曲线图2 - 4 是根据每天各个小时网民对互联网点击数均值绘制的,原始数据详 见附表2 。 h f 删l 7 1 h x i h m 积肼 _ ;童l i m 崤x m 2 l 啪 1 0 0 0 0 图24 每日各小时网民对互联网点击数均值变化趋势曲线图 图2 5 是根据每天各个小时y a h o o t w 、p c h o m eo n li n e 、m s n 、h i n e t 等门户网 站网民登陆人数均值绘制的,原始数据详见附表3 。 k 睡 l _ l 塾 ( c ) m s n( d ) h i n e t 图2 5 门户网站每同各小时访问人数均值变化趋势曲线图 一 帮 z : 一1 ) 时拒绝 风,反之则接受h 。 二、人口统计变量信息z2 一致性检验实证分析 本节分别从网民的年龄、受教育程度、职业、个人收入等不同角度分析人口统 计变量差异对网民浏览行为的影响情况。 1 网民年龄差异分析 根据网民年龄差异将其分为4 个类别:小于1 5 岁,1 5 岁2 9 岁,3 0 岁_ 4 4 岁,4 5 岁以上。分别对休眠期、苏醒期、平稳期和高峰期四个时期进行z2 检验。 检验假设: h o :p 小1 :l5 岁= = = p l5 岁一2 9 岁= p 3 0 岁4 4 岁= p 4 5 参以j 一,h l :p 小于i5 岁,p 1 5 岁一2 9 岁,p 3 0 岁4 4 岁,p 4 5 岁以j 不全相等。 临界值是z ;。,( 3 ) = 7 8 1 5 。 表2 - 2 各时期网民年龄差异z2 检验值表 网站 休眠期z2 值苏醒期z2 值 平稳期z2 值高峰期z2 值 总互联网 5 1 4 44 4 1 84 5 17 5 1 i6 y a h o o t w4 1 564 2 2 14 3 3 54 7 5 9 p c h o m eo n l i n e2 9 182 3 5 22 2 7 33 9 39 m s r l2 2 6 21 8 0 31 6 7l3 3 4 7 h i n e t1 9 4 02 2 842 2 003 3 2 1 从表2 2 所得到的z 2 值可以看出它们均高于i 瞄界值,所以在6 t = 0 0 5 的显著性 水平下可以拒绝h 。,即在一天的四个不同时期,各个网站的网民年龄差异是显著 的。 2 网民受教育程度差异分析 根据网民受教育的程度差异将其分为4 个类别:国中以下,高中职,大学大 专,硕士以上。分别对休眠期、苏醒期、平稳期和高峰期四个时期进行z2 检验。 检验假设: h o :p 中以下= p 高i ,棚 = p 失学大0 = p 硕i :咀i ,h l :p 闻中以u r ,p 高中,职,p 大学,太分,p 俘h :以i = 不全相等。 临界值是z ;。,( 3 ) = 7 8 1 5 。 表2 3 各时期网民受教育程度差异z2 检验值表 网站休眠期z 2 值苏醒期z2 值平稳期z2 值高峰期z 2 值 总互联网 5 3 3 9 5 6 7 35 9 8 66 4 7 2 y a h 0 0 t w 4 3 6 4 4 9 345 0 1 55 8 1 8 p c h o m eo n l i n e 3 0 4 12 9 4 92 7 8 2 4 1 88 m s n2 4 1 o 2 5 6 52 2 8 54 1 5 9 h i n e t1 9 1 0 1 3 9 82 5 3 13 8 5 ,5 从表2 3 所得到的z2 值可以看出它们均高于临界值,所以在口= 0 0 5 的显著性 水平下可以拒绝h 。,即在一天的四个不同时期各个网站的网民受教育程度差异是 显著的。 3 网民职业差异分析 根据网民的职业差异将用户群分为1 1 个类别:一般白领职员,中层管理者, 高层管理者,专业技术人员,设计工作艺术创作者,自营商,蓝领职员,军工教 人员,家管,学生,其他。分别对休眠期、苏醒期、平稳期和高峰期四个时期进行z 2 检验。 检验假设: 爿;:p 一般白强邴i | 层 f h = = p 商层t t m n = = 分业技术人6 于= p 瞪汁创什印自营商2 = :p 靛领= = p 坼- t 救= = p 家管

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论