




已阅读5页,还剩52页未读, 继续免费阅读
(设计艺术学专业论文)基于上下文感知的网络用户行为分析.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
、 1 帆m l l l 心l l l l l l t l l l l l l l l l l l l l l l l l y 17 5 7 9 1 2 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:堑叠:堡。日期: 2 21 旦生圣丑! ! 璺 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 日期: 幻,o 。专,lr 一 i h 7 北京邮电大学学位论文 基于上下文感知的网络用户行为分析 摘要 目前,w e b 信息的迅速增长使得原有不区分用户的网站服务越来 越难以满足人们的需求,随着用户网络经验的增长,网站仅靠提供大 。量的信息已经不能完全吸引用户,用户需要质量更高、效果更好的服 务,这些为网站的设计提出了更高的要求。本文的核心就是围绕着这 一问题,针对w e b 用户访问行为进行分析和研究,发现其中隐藏的 知识,建立用户模型,网站据此提供相应的服务,从而提升用户访问 网站的满意程度。 本文首先介绍了目前互联网领域中用户访问行为研究的重要意 义和价值,并对当前国内外研究现状进行了分析,指出了其中存在的 问题,如目前的用户兴趣提取过程中没有考虑w e b 环境对行为数据 建模的影响。针对这一问题,提出了相应的解决方案:基于用户访问 上下文环境信息确定行为参数,构建兴趣发现模型。另外,文中还介 绍了研究中应用到的相关理论知识,主要包括数据挖掘知识、w e b 挖掘知识和上下文感知理论。 其次,在上下文感知理论的基础上,本文提出了用户访问互联网 过程中的w e b 上下文概念,并分别对用户上下文、网络资源上下文 和设备上下文进行了定义。同时分析了三种上下文信息对用户访问行 为的影响情况,最终确定网络资源上下文信息对用户访问行为的影响 最大。另外,本文还对w e b 上下文感知的概念进行了阐述,并沿用 前人理论,分析了针对w r e b 上下文信息,如何进行推理计算。 综合以上w e b 上下文的分析结论,本文提出了基于上下文感知 的用户行为分析方法,侧重于根据不同的上下文信息对用户操作行为 数据进行兴趣建模。与现有技术相比,本文针对不同用户所处的w e b 上下文信息,采用不同的浏览行为分析模型。考虑因素更全面,模型 计算结果更准确。 最后,本文构建了一种基于上下文感知的用户访问行为分析系统, 系统从功能上划分,主要包含五个逻辑处理模块,分别是用户识别模 块、w e b 上下文信息预处理模块、信息分享模块、行为参数模型建立 模块和兴趣确定模块。文中通过一个博客类网站的应用实例对该系统 北京邮电大学学位论文 进行验证,证明系统在度量用户兴趣方面的可行性和有效性。并且对 系统的应用情况进行了介绍说明。 关键词:互联网w e b 上下文访问行为兴趣度 , - 一 i k , - 北京邮电大学学位论文 t h eu s e rb e ha v l o ra n 札y s i sb a s e do nt h e c o n t e x t a w r a r e a b s t r a c t t h er a p i dg r o w t ho ft h ei n f o r m a t i o ni nt h ei n t e m e tm a k e si t i n c r e a s i n g l yd i f f i c u l tt om e e tp e o p l e sn e e d sf o rt h es e r v i c ew h i c hd i dn o t d i s t i n g u i s ht h e u s e rd i f f e r e n c e a n da st h eg r o w t ho ft h eu s e re x p e r i e n c e , t h ew e b s i t ec o u l dn o tf u l l ya t t r a c tu s e r sb yp r o v i d i n go n l yw e a l t h y i n f o r m a t i o n u s e rn e e d sh i g h e rq u a l i t ya n db e t t e rs e r v i c ei nt h en e t w o r k , w h i c hc a l l sah i g h e rd e m a n df o rt h es i t ed e s i g n i n g t h ec o r eo ft h i sp a p e r i s a n a l y z i n gt h eu s e r sb e h a v i o ri nt h ew e bb yu s i n gd a t am i n i n g t e c h n i q u e s ,a n dt h e nf o u n d i n gt h eh i d d e nk n o w l e d g e t h e r e f o r e ,t h e s p e e da n da c c u r a c yo fa c c e s s i n gt oi n f o r m a t i o ns h o u l db ei m p r o v e d t h e i m p o r t a n c eo ft h er e s e a r c ho fu s e r sb e h a v i o rh a sb e e n i n t r o d u c e di nt h ef i e l do ft h ew r e bd a t am i n i n g s e c o n d l y , t h ep r o b l e m si n c u r r e n tr e s e a r c h e sh a v eb e e np o i n t e do u t i nt h ec u r r e n tp r o c e s so fu s e r i n t e r e s tm i n i n g ,t h ei m p a c to fw 曲e n v i r o n m e n tt ot h eb e h a v i o rm o d e l i n g w a sn o tt a k e ni n t oa c c o u n t s u c ha si n d i f f e r e n tw r e b r e s o u r c e e n v i r o n m e n t ,t h ei n f l u e n c e so fu s e ro p e r m i n gb e h a v i o r sa c to nt h ei n t e r e s t m i n i n ga n dm e a s u r i n ga r ed i f f e r e n t a tl a s t ,ac o r r e s p o n d i n gs o l u t i o nh a s b e e np r o p o s e d :b u i l d i n gt h ei n t e r e s td i s c o v e r ym o d e lb a s e do nt h ew r e b c o n t e x t i na d d i t i o n ,t h er e l e v a n tk n o w l e d g ea p p l i e dt ot h i sr e s e a r c ha l s o h a sb e e nd e s c r i b e d ,w h i c hm a i n l yi n c l u d e sd a t am i n i n gt e c h n i q u e ,w r e b m i n i n gt e c h n o l o g ya n dc o n t e x t - a w a r ek n o w l e d g e i nt h es e c o n dp a r to ft h i sp a p e r , t h ec o n c e p to ft h ec o n t e x ti nt h e i n t e r n e t a c c e s s i n gh a sb e e np r e s e n t e d t h e u s e rc o n t e x t ,n e t w o r k r e s o u r c e sc o n t e x ta n dd e v i c ec o n t e x ta l s oh a v eb e e nd e f i n e d ,a n dt h e i n f l u e n c e so ft h e s et h r e ec o n t e x t st ot h eu s e ra c c e s sb e h a v i o rh a v eb e e n a n a l y z e d a c c o r d i n gt ot h i sa n a l y s i s ,t h en e t w o r kr e s o u r c e sc o n t e x t i n f l u e n c e st h eu s e r sm o s t l y f u r t h e r m o r e ,t h i sp a p e rh a sd e f i n e dt h e 北京邮电大学学位论文 c o n e 印to f c o n t e x ta w a r e n e s s ,a n dd i s c u s s e dt h ec a l c u l a t i o nm e t h o db a s e d o np r e v i o u sr e s e a r c h a c c o r d i n gt ot h er e s e a r c h e sa b o v e ,au s e rb e h a v i o ra n a l y s i sm e t h o d w h i c hi sb a s e do nt h ec o n t e x ta w a r e n e s sh a sb e e np r e s e n t e d t h i sm e t h o d f o c u s e so nt h eu s e ri n t e r e s tm o d e l i n go nd i f f e r e n tc o n t e x ti n f o r m a t i o n c o m p a r e dw i t ht h ee x i s t i n gt e c h n o l o g yo fi n t e r e s tm o d e l i n go fa c c e s s b e h a v i o r , t h i sm e t h o dh a sm o r ec o m p r e h e n s i v ec o n s i d e r a t i o na n d a c c u r a t e f i n a l l y , au s e rb e h a v i o ra n a l y s i ss y s t e mh a sb e e nc o n s t r u c t e d ,w h i c h i sb a s e do nt h ec o n t e x ta n ds u i t a b l ef o re a c hs i t e t h es y s t e mc o n t a i n s f i v el o g i c a lp r o c e s s i n gm o d u l e s ,t h e ya r eu s e ri d e n t i t ym o d u l e ,w - e b c o n t e x ti n f o r m a t i o np r e - p r o c e s s i n gm o d u l e ,i n f o r m a t i o n s h a r i n gm o d u l e , m o d e lb u i l d i n go fb e h a v i o r a lp a r a m e t e r sm o d u l ea n di n t e r e s td e t e r r i n g m o d u l e t h i sp a p e rs e tab l o gw e b s i t ea sa l le x a m p l et ot e s tt h i ss y s t e m , a n di n t r o d u c e dt h ea p p l i c a t i o ns i t u a t i o n t h ef e a s i b i l i t ya n dv a l i d i t yo f t h i ss y s t e mh a v eb e e np r o v e db yt h i se x a m p l e k e yw o r d s :i n t e m e tw e b c o n t e x ta c c e s sb e h a v i o ri n t e r e s t d e g r e e , - a , 、 - | l 北京邮电大学学位论文 目录 第一章绪论l 1 1研究背景1 1 1 1用户需求分析l 1 1 2w e b 数据挖掘2 1 1 3个性化服务 j 2 1 2 研究意义3 1 3国内外研究现状4 1 4 存在的主要问题:6 1 5论文主要研究内容6 第二章 相关理论知识:8 2 1 数据挖掘:8 2 2w e b 挖掘及相关技术9 2 3 上下文及上下文感知1 l 2 4本章小结1 2 第三章w e b 上下文定义及分析1 4 3 1 w e b 上下文概述及定义1 4 3 1 1w 曲用户上下文1 4 3 1 2 网络环境上下文15 3 1 3 设备上下文15 3 2 w 曲上下文获取1 5 3 3w e b 上下文分析16 3 3 1 用户上下文对访问行为的影响分析1 7 3 3 2 页面上下文对访问行为的影响分析1 8 3 3 3 设备上下文对访问行为的影响分析。18 3 3 4w 曲上下文分析结论1 9 3 4 w e b 上下文感知1 9 3 5 本章小结2 1 第四章基于w e b 上下文感知的用户行为分析2 2 4 1 w e b 上下文信息识别及预处理2 2 4 1 1w e b 页面信息识别及预处理2 3 4 1 2w e b 用户信息识别及预处理2 6 v 北京邮电大学学位论文 4 2基于w e b 上下文信息的用户行为建模2 8 4 2 1用户访问行为数据获取2 8 4 2 2基于w 曲上下文感知的行为参数建模2 9 4 2 3 基于用户上下文信息修正参数模型。3 0 4 3行为参数度量用户兴趣3 l 4 4 本章小结3 2 第五章用户访问行为分析系统模块设计3 3 5 1 各模块的基本功能3 4 5 1 1用户识别模块。3 4 5 1 2 w e b 上下文信息预处理模块一3 4 5 1 3 信息分享模块:。3 5 5 1 4行为参数设定模块3 6 5 1 5页面兴趣度量模块3 6 5 2系统应用实例分析- 3 6 。5 3 系统应用说明4 1 5 4本章小结o 4 2 第六章总结与展望。4 3 6 1 总结4 3 6 2 展望。:4 4 参考文献4 5 致谢:4 7 攻读学位期间发表学术论文目录4 8 , j _ 北京邮电大学学位论文 1 1 研究背景 第一章绪论 i n t e m e t 的出现跨越了时间和空间的障碍,实现了信息自由便捷的流通,世 界上任何一个人都可以在任何时候获取自己愿意得到的信息,人们在获取信息上 的地位也就更具有主动性,而w e b 也已成为人们获取信息的一个重要途径。 w e b 信息的存在使人们有了接触更多信息的畅通渠道;同时,人们也不得不 忍受信息噪音,不得不花费大量的时间去搜索、浏览自己需要的信息。从而产生 了网络信息无限和人们注意力有限这样的矛盾,w e b 信息日益增长使这一矛盾激 化,故必须寻找一种有效的途径,缓解这一问题。目前提到比较多的一种解决方 法了解用户特征及需求,推荐相应的信息给用户,从而减轻用户查找信息的负担。 1 1 1 用户需求分析 以用户为中心的设计思想认为,产品的成败最终取决于用户的满意程度。要 达到用户满意的目标,首先应当深入而明确地了解谁是产品的目标用户。产品的 设计者关心的不是这些用户的姓名,而是目标用户群体区别于一般人群的具体特 征,如特定年龄区间、特殊地文化背景等。这一过程就是用户特征描述。同时, 产品设计者还应当明确地了解目标用户对被设计产品各方面期望是什么,包括用 户希望使用的功能或达到目标的指标等,这一过程就是需求收集和需求分析。用 户特征描述和用户需求分析是以用户为中心设计的基础。用户需求的数据和信息 可以来源于用户试验或者市场分析资料等多种渠道,其中用户试验是进行需求收 集的常用渠道【1 1 。 在用户需求收集过程中常用到的用户试验包括:观察、聆听和讨论法 ( c o n t e x t u a li n j u r y ) ;个人采访法;焦点小组( f o c u sg r o u p )问卷研究等方法。 通过试验,可以获取到用户行为操作数据;再经过进一步的信息提取和加工,可 以得到用户特征模型及深层次的需求分析结论,如人物角色( p e r s o n a ) 等。 北京邮电大学学位论文 1 1 2w 曲数据挖掘 w e b 数据挖掘也是在此背景下而生,它是传统数据挖掘技术在w e b 环境下 的应用,试图从大量的w e b 文档集合和用户浏览w e b 的数据信息中发现蕴涵的、 未知的、有潜在应用价值的、非平凡的模式【2 】。互联网上包含了丰富和动态的超 链接信息,以及页面的访问和使用信息,这为数据挖掘提供了丰富的资源。应用 w e b 数据挖掘可以改善人们获取信息的速度和准确度。 其中,搜索引擎( s e a r c he n g i n e ) 是最普遍的辅助人们检索信息的工具,满足 了人们一定的需要,但由于其通用的性质,现有的信息服务系统仍存在着明显的 缺陷,比如资源分散,检索集中,对所有的用户是一副面孔,有求则应,无求不 动;用户按格式请求,系统按字面匹配,因而查询方式局限、死板,且其检索结 果庞杂,用户很难从查询结果中得到自己真正想要的信息;没有统一的标准,而 且门户林立,各自为政,不同信息源使用不同服务机制,不同服务使用不同身份 论证机制等【3 】。所以现有查询系统仍不能满足不同背景不同目的和不同时期的查 询请求【4 】。 1 1 3 个性化服务 在一些网站服务应用上,w e b 信息的迅速增长使得原有不区分用户的服务越 来越难以满足人们的需求,因为随着用户网络经验的增长,网站靠提供大量的信 息也已经不能完全吸引用户,用户需要质量更高、效果更好的服务。人们期望得 到个性化的服务,对于网站的风格以及内容都可以根据自己的兴趣进行定制的。 也希望网站可以根据用户的兴趣所在,为用户推荐可能感兴趣但是尚未阅读的内 容。这些都为网站的设计提出了更高的要求。 在这种市场的需求下,研究者提出了w e b 个性化服务、推荐系统以及自适 应站点等商业智能技术以满足用户的需求,如:y a h o o 的个性化窗口m yy a h o o 的用户模型就是以用户选择的网站栏目来表示如果用户定制了体育和科技, m y y a h o o 就将这一定制记录下来,作为用户模型下次用户登录时,m y y a h o o 就会显示根据保存的用户模型定制的个性化页面。 所谓个性化服务就是指对不同的用户采取不同的服务策略,提供不同的服务 内容。很显然,在提供个性化服务时,系统必须知道用户的兴趣、偏好和访问模 式等用户信息,才有可能“投其所好”,实现个性化服务。因此,如何准确有效 地对用户的浏览兴趣进行度量和表达是实现个性化服务的基础。而在网络环境中, 用户兴趣与所浏览网页时的浏览行为是密切相关的,用户很多浏览行为都能很好 地反映用户的兴趣。张莹等人指出用户的很多动作都能暗示用户的喜好,如查询、 2 北京邮电大学学位论文 浏览页面和文章、标记书签、反馈信息、点击鼠标、拖动滚动条、前进、后退等 【2 l 。谭琼等人在研究中指出用户访问时的停留时间、访问次数、保存、编辑、修 改等动作能够揭示用户兴趣【5 1 。文献研究表明浏览页面和拖动滚动条所花的时间 可以有效揭示用户兴趣【6 】。而另一文献研究指出网页平均阅读速度有助于确定用 户兴趣的等级【7 l 。 另外,i n t e r n e t 环境的动态、异构等特性要求基于w e b 提供的服务更灵活、 可靠地满足客户的要求,从而实现个性化的服务,也就是按照用户的要求将各种 已有的服务组合起来,协同工作完成用户的任务。为了实现个性化服务自由组合 以达到用户的要求,必须综合考虑环境、用户的偏好、组合服务上下文、执行组 合服务上下文等因剥引。所谓上下文( c o n t e x t ) ,是一种信息输入,该信息可以 是任一种描述与用户及其应用相关的环境实体的信息,包括人物、地点、时间、 物体、用户的心理状态及相互关系等1 9 1 。而上下文感知就是系统利用上下文信息 智能判断用户行为并提供最合适的服务,从而实现对用户服务的人性化【l o 】。 1 2 研究意义 未来世界是w e b 世界,用户和服务方需要通过访问信息互相了解、沟通,服 务方据此改进服务,访问者由此提高访问效率,这样能够更好的促进互联网的发 展。对服务方来说,分析互联网背后的用户行为,是获取用户偏好、了解用户的 必要利器,而理解用户行为最好的方式就是对其访问信息进行挖掘。由于用户的 访问信息存在于每一台w e b 服务器上,因此具有普遍性,并且遵循共同的标准, 那么开展这项研究就具有普遍意义。然而对服务器日志进行简单的统计,如:页 面访问次数、日均访问人数、最受用户欢迎的页面等,已不能满足设计人员对站 点结构进行优化的需求。用户访问信息挖掘则是将数据挖掘技术作用于w 曲服务 器日志文件等以发现隐藏在其中的用户访问模式的技术。通过对总的用户访问行 为、频度、内容等的分析,可以得到群体用户访问行为和方式的普遍知识,用以 改进w 曲服务。 从网站使用者的角度来看,用户访问信息挖掘技术在w e b 服务中的应用及价 值主要表现在以下几个方面: 首先,从用户的角度来看,通过对用户访问行为进行分析,网站系统可以发 现用户的兴趣偏好,智能的向用户推送相关信息,从而减轻用户寻找信息的负担, 使其操作更加简单,节省了时间成本和精力。 其次,从服务方的角度来看,通过分析客户访问过的内容和没有访问过的内 容、浏览路径、频繁访问页面、相关页面,从而得到客户群体的构成及其动态改 变等特点,辨别重要客户和偶然客户;另外,从顾客行为上的不同表现发现顾客 3 北京邮电大学学位论文 的兴趣和偏好,最终促进网站建设和进行个性化服务。 最后,从商业价值角度来看,通过对网站的用户访问行为进行分析,首先可 以发现目标用户群,并了解用户对业务的贡献率,如知道哪部分人使用目标业务 频率最高,哪部分对目标业务没有吸引力;其次易于目标业务拓展,通过分析发 现目标用户群特征,了解他们的文化背景、经济基础、社交目的、娱乐方式、心 理诉求等特征,投其所好,在满足用户心理需求和功能需求基础上,提供更丰富 的业务应用留住用户;最后凸显网站的商业价值。尤其是对于商业w e b 网站或电 子商务站点的客户行为的研究,更为重要,通过对这些用户特征的理解和分析, 有助于开展有针对性的电子商务活动。 目前,国外学者己尝试着把w e b 用户访问日志挖掘相关的研究应用在以下几 个方面【l l l : 一 1 为用户提供个性化服务 在w e b 个性化应用中,可以辨认出每个用户或用户群的需求和爱好,配置基 于用户需求的w 曲信息的内容和结构的组织。在电子商务网站进行个人营销,根 据用户访问历史,动态的向用户推荐商品通过w 曲日志挖掘完全可以实现这一 功能。 2 提高系统效率 。 通过日志挖掘,可以提供网站服务效率全方面的信息,从而有助于找到平衡 服务器的负荷,优化传输,减少阻塞,缩短用户等待时间,提高系统效率和服务 质量。 3 提高网站结构设计 w e b 结构的复杂度正在飞速发展,因此,w e b 站点和w e b 服务器设计和维护 的难度也在增加。而通过挖掘得到的用户使用网站信息,可以帮助网站设计者确 定如何修改网站结构。 4 网络安全 分析网上银行、网上商店交易用户日志,可以防范黑客攻击、恶意诈骗。 综上所述,如何从海量的数据和信息中高效地提取有用的知识,如何提高信 息检索与推荐的智能水平,以及如何满足各种用户不同的个性化需求等,都是新 的信息服务系统面临的挑战性课题,同时也具有普遍性的意义。 1 3 国内外研究现状 国内外关于互联网用户行为分析的研究非常多,但总的来说,根据研究目的 可以分为两类,一类是为了实现个性化服务,主要通过分析用户在网页上的具体 点击行为,得到用户的兴趣点及相应的兴趣度,并根据兴趣给出相应的信息推荐; 4 北京邮电大学学位论文 另外一种是为了实现网站系统架构的完善,主要通过分析用户访问行为流,建立 大众用户浏览模型,从而指导页面之间的组织关系。这两种方法都可以有效的解 决用户访问互联网时信息量过大,用户查找信息困难这一问题,可以有效提升网 站易用性。 目前,对于用户点击行为分析,建立相应的个性化服务系统,重庆大学的付 关友等人在这方面有很深的研究。其中付关友等人探索性的将心理学中的内驱力 理论用到了用户兴趣发现当中【1 2 】。作者认为用户的信息心理行为分析属于一种 社会性的研究,并且经过分析发现用户的浏览行为和用户对网页的兴趣度之间确 实存在某种关系,故从众多的社会研究方法中选用回归分析方法来描述它们之间 的相关性,通过多组实验数据分析证明所建立的模型是成立的,并且确实能较好 的描述用户对网页的兴趣度。 关于用户访问行为流的研究,更多的是对用户的访问日志进行挖掘,分析其 浏览路径,建立模型,从而预测用户的访问行为。如施建生等人研究了w e b 日 志挖掘相关知识,在经过数据预处理和事务识别两个阶段后,使用频繁遍历路径 作为用户浏览模式,并在分析挖掘频繁遍历路径的问题特征和对其进行形式化描 述的基础上,进一步提出了一种在w e b 日志中挖掘频繁遍历路径的类a p r i o r i 算 法,该算法能够正确、快速地从w e b 日志中抽取频繁遍历路径i b 】。 另外,目前关于互联网用户访问行为分析及其兴趣建模的系统已被广泛应用 到各领域,具体实例如下: s e a n ( s e v e rf o r a d a p t i v en e w s ) b 4 是一个自适应系统,它能够为访问互联 网新闻的用户提供个性化的服务。在s e a n 中,用户兴趣建模可分为两个独立的 阶段,第一个阶段是为首次登录到新闻服务器的用户建立初始的兴趣模型,这一 过程是根据用户在登录时所填写的注册信息把用户划分到预先定义好的用户类 型中;第二个阶段是更新用户兴趣模型,在这个阶段中s e a n 观察用户浏览新闻 时的动作,获取相应的事件,并利用这些事件激活用户兴趣建模规则。所以s 幽n 在建模用户兴趣时需要用户的直接参与,而且用户的初始类型是事先定义好的, 因此缺乏灵活性。 i b m 的l e e 和p o d l a s e c k ( 2 0 0 0 ) 【1 5 】贝0 在s t a rf i e l d 显示器的基础上,开发出 s t a rf i e l d 可视化( v i s u a l i z a t i o n ) 软件来分析网上商店的点击流数据和产品的绩 效。这个可视化系统通过分配并行的坐标到点击流的顺序序列中,提供给用户更 大的能力来解释和探索网上商店的点击流数据,并使这些点击流信息更加形象和 生动。 w e b m a t e d m 】是一个个性化的a g e n t ,它能够帮助用户浏览和搜索w 曲中的信 息。w e b m a t e 在学习用户兴趣模型的过程中并没有要求用户提供初始的兴趣信 5 北京邮电大学学位论文 息,而是从用户对w e b 页面的隐式反馈中逐渐地学习用户兴趣模型! 每当用户表 明对某一页面感兴趣时,w e b m a t e 便用该页面的信息来更新用户兴趣模型,但 它没有区分用户对不同w e b 页面的感兴趣程度。 p e r s o n a lw e bw a t c h e r 是一个个性化代理,在用户浏览网页时提供帮助,将用 户感兴趣的链接突出显示出来。与w e bw a t c h e r 相同,p e r s o n a lw e bw a t c h e r 针 对特定用户,通过学习用户以前的浏览模式来得到用户兴趣模型。它无须用户参 与,不需要用户给出对网页的评价【3 】。 1 4 存在的主要问题 互联网的用户访问行为分析在研究领域获得了广泛关注,也在实际的个性 化服务系统和网站信息架构分析中得到了广泛应用。特别是针对互联网环境下 的用户兴趣研究,更多的是分析用户的信息浏览行为( 主要浏览行为包括:信 息打开时长、信息打开次数、是否保存信息,信息是否被转发) ,建立了描述 用户兴趣的用户模型。但是,随着其规模越来越大目前面临着_ 系列亟待解 决的问题,主要包括: 1 研究的对象是形形色色的各类用户群。各个用户可能有不同的背景、兴趣和 使用目的,而大部分用户可能并不了解信息网络结构,这些因素在具体的行 为分析过程中,会形成数据噪音和冗余,影响兴趣计算的精度。 2 w e b 自身具备的一些特点使系统分析更加困难。如:w e b 页面的复杂性远比 任何传统的文本文档复杂的多,缺乏统一的结构:另外w 曲是一个动态性极 强的信息源。不仅以极快的速度增长,而且其信息还在不断地发生着更新。 3 系统孤立地分析单一用户行为信息,没有考虑其周围环境对其行为的影响。 如在用户兴趣一致的情况,不同的环境下访问网速不一致,导致同一网站的 访问时长也不一致;同一兴趣下,用户访问不同的页面,也会存在访问时长 和访问频率的差异。 4 系统在学习效率上较低。一方面,用户兴趣的学习和获取中更多依赖于对众 多用户访问过的网页中全文本内容的分析,因网页过大会导致用户兴趣信息 提取的效率降低;另一方面,为适应用户兴趣变化的需要,要求用户提供必 要的学习所需信息,在信息提供的格式、准确性和系统操作上给用户带来诸 多不便。 1 5 论文主要研究内容 本文的核心是针对互联网用户行为数据进行挖掘,获取用户的意图,并根据 6 - o 一 北京邮电大学学位论文 用户的需求自主向用户推送服务或者信息,从而实现w e b 信息获取的简便性及 服务的个性化。本文首先阐述了一些基本的概念,其中包括上下文感知和数据挖 掘技术,之后对如何通过用户行为数据分析发现用户兴趣偏好进行了探讨,建立 了基于上下文感知的用户行为分析模型及体系框架。 本文共分为五章,其余各章节的具体安排如下: 第二章主要介绍了本文中用到的相关理论知识,主要包括数据挖掘概念; w e b 数据挖掘及其关键技术和上下文及其上下文感知系统。 第三章对互联网中的w e b 上下文概念进行了定义和描述,其中具体包括用 户上下文、页面上下文和设备上下文。在此基础上分析了w e b 上下文对用户访 问行为的影响,确定了不同w e b 上下文环境下用户访问行为的差异。最后,基 于前人的上下文感知理论和w e b 上下文分析结论,提出了w e b 上下文感知模型。 第四章提出了一种基于上下文感知的用户行为分析方法及概念,其中的重点 在于如何结合w e b 上下文信息建立用户行为参数模型,并根据其得到的行为参 数如何进行兴趣建模。 第五章根据前面提出的基于上下文感知的用户行为分析方法构建了一个应 用于实际网站中的系统结构框架,并通过一个博客类的网站应用实例对该系统进 行验证,证明该系统在度量用户兴趣方面的有效性最后对系统的应用情况进行 了说明。 第六章是总结和展望部分,在总结了本文所研究的内容基础上,对不足之处 做了分析并对未来研究的方向进行了展望。 过程中,k d d 系统将从备选的源数据中进行知识提取。 3 数据预处理:主要是对上一阶段产生的数据进行再加工,检查数据的完整性 和数据的一致性,对其中的噪声数据进行处理,对丢失的数据可以利用统计 方法进行填补,对一些不适合操作的数据进行必要的处理等。 4 数据缩减t 对经过预处理的数据,根据知识发现的任务对数据进行必要的再 处理,使数据集中在用户的挖掘目标上。此过程对k d d 系统的精度和效率 起着重要的作用。 5 k d d 目标确定:根据挖掘的目标和用户的要求,确定k d d 所发现的具体知 识模式和类型,为选择或开发适合用户要求的数据挖掘算法提供模式或模板。 8 北京邮电大学学位论文 6 挖掘算法确定:根据上一阶段所确定的模式,选择合适的数据挖掘算法,包 括选择合适的参数、知识表示方式,并保证数据挖掘算法与整个k d d 的评 判标准相一致。 7 数据挖掘:运用选定的算法,从数据中提取出用户所需要的知识。这些知识 可以用特定的方式表示或者使用一些常用的表示方法。 8 模式解释:对发现的模式进行解释。在此过程中,为了获取更加有效的知识, 可能会返回前面处理步骤中的某些步以改进结果,保证提取出的知识是有效 和可用的。 9 知识评价:将发现的知识以用户能了解的方式呈现给用户。这期间也包括对 知识的一致性检查,以确信本次发现的知识不与以前发现的知识相抵触。 在每个阶段中,k d d 系统可以借助于相应的处理工具来完成相应的工作, 在对挖掘的知识进行评测后,根据结果可以决定是否重新进行某些处理过程,在 处理的任一阶段都可以返回以前的阶段进行再处理。 2 2w e b 挖掘及相关技术 w e b 挖掘是数据挖掘技术在w c ;b 上的应用,一般的定义为:w e b 挖掘就是从 与w w w 相关的资源和用户浏览行为中抽取感兴趣的、有用的模式和隐含信息【2 1 。 根据挖掘对象的不同,可以将w e ;b 挖掘分为三个方面,即w e b 内容挖掘( w e b c o n t e n tm i n i n g ) 、w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) 和w e b 使用挖掘( w e bu s a g e m i n i n g ) 。 w e b 内容挖掘【1 9 】是数据挖掘在网络信息处理中的应用,不同于传统的数据挖 掘技术,w e b 内容挖掘主要针对各种非结构化的数据,如文本数据、音频数据、 视频数据、图形图像数据等多种数据相融合的多媒体数据挖掘,又可将其分为基 于文本的挖掘和基于多媒体的挖掘两种。 w e b 结构挖掘是从w e b 的组织结构和链接关系中推导知识。在整个w e b 空间 中,有用的知识不仅包含在w e b 页面中,而且包含在页面的结构中【2 0 】。由于文档 之间的互连,w e b 能够提供除文档内容之外的有用信息,利用这些信息,可以对 页面进行排序,发现重要的页面。这种思想源于引文分析,即通过分析一个网页 链接和被链接数量以及对象来建立w e b 之间的链接结构模式。这种模式可以应用 于网页的归类,并且可以由此获取有关不同网页间相似度及关联度的信息【2 1 1 。 这种基于链接结构的w e b 结构挖掘还有助于用户找到相关主题的权威站点和网 页,对网络资源检索结果的排序也有很大的意义。另外,每个w e b 内部也有或多 或少的结构,通过对w e b 内部结构的研究,发现可以利用给定的w e b 页面的集合 得出一定的规则,寻找到相关的其它页面。 g 北京邮电大学学位论文 w e b 使用挖掘是通过挖掘w e b 用户的使用数据发现用户访问w e b 页面的模 式、挖掘有价值的模式或规律并预测用户行为模式的技术,其主要目的就是要从 大量的w e b 使用数据中挖掘出隐藏的、感兴趣的模式。w e b 中的每个服务器都保 留了访问日志,分析这部分的内容可以理解用户的行为,从中抽取行为模式。文 献【2 2 忡提到,对于服务器日志的研究主要有两个方向:一般的访问模式追踪和 个性化的使用记录追踪。一般的访问模式追踪通过分析使用记录来了解用户的访 问模式和倾向,以改进站点的组织结构。而个性化的使用记录追踪则倾向于分析 单个用户的偏好,其目的是根据不用用户的访问模式,为每个用户提供定制的站 点。数据挖掘中的各种挖掘技术都可以用在w c b 使用记录挖掘中,根据不同的需 要可以选取不同的方法。 w e b 使用挖掘是通过挖掘w e b 用户的使用数据发现用户访问w e b 页面的模 式、挖掘有价值的模式或规律并预测用户行为模式的技术,其主要目的就是要从 大量的w e b 使用数据中挖掘出隐藏的、感兴趣的模式【2 3 1 。w e b 使用挖掘过程和数 据挖掘过程类似,分为数据采集、数据预处理、模式发现和模式分析四个阶段【刎。 其中在模式发现阶段,可以进行用户访问路径的解读、用户特征发现。其中主要 应用的技术如下; 1 关联规则 关联规则挖掘是由r a k e s h a p w a l 等人首先提出的。两个或两个以上变量的取 值之间存在某种规律性,就称为关联。关联分析的目的是找出数据库中隐藏的关 联网。一般用支持度和可信度两个阈值来度量关联规则的相关性,还不断引入兴 趣度、相关性等参数,使得所挖掘的规则更符合需求。 在w e b 使用记录挖掘中,关联规则用来发现用户在一个服务器会话期间访问 服务器上的页面文件间的联系。这些页面之间并不需要存在直接的链接,只要 它们同时出现在服务器会话中就认为是相互关联的页面。最常用的技术a p r i o r 算 法,从事务数据库中挖掘出最大频繁访问项集,这个项集就是关联规则挖掘出来 的用户访问模式。根据分析出各个页面之间的关联程度,从而了解到用户在访问 网页时的习惯以及兴趣。而网站也可以根据这些分析数据对网站结构做出合理的 调整,甚至可以在用户分类的情况之下对不同用户组的访问页面有不同的推荐项 目。 2 聚类分析 聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同 类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可 能的数据属性之间的相互关系。 在w e b 使用记录挖掘中,主要有两种类型的聚类:用户聚类和页面聚类。用 北京邮电大学学位论文 户聚类是将具有相似浏览模式的用户分为一类。用户聚类可以为用户群体细分提 供重要的信息,是开展w e b 个性化服务的重要依据,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届江苏省徐州市睢宁高级中学南校高二化学第一学期期中质量检测试题含解析
- 电子商务物流配送优化方案协议
- 2026届新疆乌鲁木齐地区化学高二第一学期期中监测试题含解析
- IT运维管理云桌面管理及远程技术支持设计
- 青少年足球体能训练计划
- 制造业企业健康体检工作总结范文
- (2025年标准)股权割让协议书
- (2025年标准)股票借款协议书
- 2025年无人机航模制作与调试专业笔试预测试题及答案解析
- 建筑工地任何可能的紧急情况的处理措施
- 物资部档案管理制度
- 2025-2030中国烟花爆竹市场竞争动态分析及前景销售格局研究报告
- 2025年普通高等学校招生全国统一考试数学试题(全国一卷)(有解析)
- 比亚迪公司薪酬管理制度
- 公司监控视频管理制度
- 交通事故护工合同范本
- T/CECS 10103-2020用于水泥和混凝土中的铅锌、铁尾矿微粉
- 消防接警考试题及答案
- 2024年高级消防员技能鉴定考前必刷必练题库500题(含真题、必会题)
- 《智能客服运营管理》课件
- 管网工程施工组织设计与管理
评论
0/150
提交评论