已阅读5页,还剩61页未读, 继续免费阅读
(计算机软件与理论专业论文)网络用户行为分析研究及其应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着互联网络的迅猛发展,以信息获取、交流沟通类为主的基础网络服务正逐 渐发展为以休闲娱乐、电子服务、电子商务三大类服务为主的扩展网络服务。与此 同时,一方面,安全方面的问题成为制约i n t e m e t 网络良性发展的关键因素;另一 方面,商业网站等赢利性站点需要分析用户的行为及爱好来提供更满意的服务使得 利润最大化,它也与提高网站服务的效率和个性化程度极为相关;政府、科研机构 等非赢利性的网站也需要通过分析用户构成与其网络行为上的特点来构建科学的决 策支持系统。为此,网络用户行为的分类以及在此基础上的分析研究越来越亟待提 到同程上来。 本论文在此领域主要工作成果如下:建立了网络用户行为的概念与分类体系, 并在此基础上进行了用户分类;分析了网络行为分析系统的信息源,其中主要考虑 了信息获取的高效性和准确性两个方面;探讨了建立网络用户行为分析系统的需求、 步骤和体系框架,以及设计和实现系统过程中所面临的一些关键技术:接着在上述 基础上提出几种常用的网络用户行为分析系统模型或其思想,主要列举了网络用户 行为分析在w e b 点击流分析、计算机与网络安全方面以及i n t r a n e t 网内用户结构分 析中的应用。文中提出了一种基于i s o d a t a 算法的路径聚类方法,实验结果较好。 在应用方面,本文进行了n t r a n e t 网内用户结构分析系统原型的构思;并把行为分 析方法融入计算机网络的入侵检测、病毒检测和木马检测等方面,该思想也反映了 安全领域发展的趋势。 关键词:网络用户行为行为分析w e b 用户行为分析模型网络数据挖掘 a b s t r a c t a b s t r a c t w i t ht h eq u i c kd e v e l o p m e n to ft h ei n t e m e t ,i ti saf a c tt h a tt h ee x p a n s i o nn e t w o r k s e r v i c e si n c l u d i n ga m u s e m e n t ,e l e c t r o ns e r v i c ea n de l e c t r o n i cc o m m e r c e s u b s t i t u t ef o rt h e t r a d i t i o n a lo n e si n c l u d i n gi n f o r m a t i o ns e a r c ha n dn e t w o r kc o m m u n i c a t i o n ,e t c o no n e h a n d ,t h eq u e s t i o no ft h es e c u r i t yi sm o r ea n dm o r eo u t s t a n d i n g ,a n db e c o m e sab a s i c g u a r a n t e eo f t h ec o m p u t e r a n dn e t w o r k sb e n i g ng r o w t h ;o nt h eo t h e rh a n d ,t h ep r o f i t a b l e w e b s i t e ss u c ha st h eb u s i n e s sw e b s i t e s ,e t c ,n e e dt oo f f e rm o r es a t i s f a c t o r ys e r v i c e t h r o u 吐a n a l y s i n gu s e r s b e h a v i o r sa n dh o b b i e si no r d e rt oo b t a l nm a x i m u mp r o f i t s a n d t h e s ea r ec o r r e l a t e de x t r e m e l yw i t hi m p r o v i n ge f f i c i e n c ya n di n d i v i d u a l i z e dd e g r e eo f w e b s i t e ss e r v i c e a st o n o n p r o f i t w e b s i t es u c ha s g o v e r n m e n t ,s c i e n t i f i c r e s e a r c h i n s t i t u t i o n ,n e e dt oa n a l y s eu s e r sf o rs c i e n t i f i cd e c i s i o n - m a k i n gt o o f o rt h e s er e a s o n s , c l a s s i f i c a t i o n ,a n a l y s i sa n d r e s e a r c ho nn e t w o r ku s e r s b e h a v i o r sd e m a n dt ob em e n t i o n e d u r g e n t l y t h ew o r kr e a d sa s f o l l o w s :s e t t i n gu pt h ec o n c e p to fn e t w o r ku s e r s b e h a v i o ra n d c a t e g o r i s e ds y s t e m ,t h e nd i s c u s s i n gt h ec l a s s i f i c a t i o no fu s e r sb a s e do nn e t w o r ku s e r s b e h a v i o r ;a n a l y z i n g t h ei n f o r m a t i o ns o u r c eo fn e t w o r kb e h a v i o r a n a l y t i c a ls y s t e m , c o n s i d e r i n gm o s t l yt w or e s p e c t so fe f f i c i e n c ya n da c c u r a c yo fb e h a v i o ri n f o r m a t i o n ; p r o b i n g i n t ot h ed e m a n d ,s t e pa n ds y s t e mf r a m ef o re s t a b l i s h i n gn e t w o r ku s e r sb e h a v i o r a n a l y t i c a ls y s t e m ,a n dd i s c u s s i n gs o m ek e yt e c h n o l o g yi nc o u r s eo ft h e s y s t e m i m p l e m e n t a t i o n ;t h e np u t t i n gf o r w a r ds e v e r a lk i n d so fc o m m o na p p l i c a t i o nm o d e so r t h o u g h to fn e t w o r ku s e r s b e h a v i o ra n a l y s i s ,i n c l u d i n gn e t w o r kc l i c kf l o wa n a l y s i s , c o m p u t e ra n dn e t w o r ks e c u r i t ya n a l y s i sa n du s e rs t r u c t u r ea n a l y s i so fh n t r a n e t t h ek e y a l g o r i t h m o fb e h a v i o ra n a l y s i s s y s t e mh a sb e e nd i s c u s s e da n di m p r o v e d t h ep a t h c l u s t e r sm e t h o db a s e do ni s o d a t a a l g o r i t h mi sp r o p o s e di nt h i sp a p e r ,a n dw eh a v e g o t t e nb e t t e re x p e r i m e n t a lr e s u l t f i r s tt h et h o u g h to fi n t r a n e tu s e r s s t r u c t u r ea n a l y s i s s y s t e mp r o t o t y p eh a sb e e nb u i l t ;t h e n ,s u c hb e h a v i o ra n a l y s i sm e t h o di su s e di nt h e i n t r u s i o nd e t e c t i o na n dv i r u sd e t e c t i o ni nt h ec o m p u t e ra n dn e t w o r k t h i sa p p l i c a t i o ni s t h et r e n do f t h i ss a f e t yf i e l d w eh a v ed e t e c t e dt h ei n t r u s i o n t h r o u g hf i n d i n go u t l i e r k e y w o r d :n e t w o r ku s e r s b e h a v i o r sb e h a v i o r s a n a l y s i s w e h s i t eb e h a v i o r a n a l y s i sm o d e l n e t w o r kd a t a m i n i n g 创新性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表论文或使甩论文工作成果时署名单位仍然为西安电子科技大学。 学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文 在解密后遵守此规定) 本学位论文属于保密在年解密后适用本授权书。 本人签名: 导师签名:盐j 坠暨静日期! ! :! :! i 一一 蔓二童些堡 ! 一一一 第一章绪论 本章主要介绍本文所做工作的背景和意义,列出了所要解决的问题以及取得 的主要研究结论,最后给出全文的内容简介。 1 1 研究背景和意义 现代化的电子信息网络是计算机与现代通信技术的有机结合,是以计算机技术 为基础的数字化的多媒体通信网络。目前最具代表性的是i n t e m e t ( 互联网) ,它提 供了一种获取信息、共享资源的革命性新途径,打破了信息流通与共享的时间限制 与地域限制,实现了“时空压缩”,从而使人类真正进入一个双向互动、平衡交换 的理想状态。网络不仅从根本上改变着现有的生产结构、产业结构、劳动结构,而 且也极大地影响着人们的生活方式、交往方式、工作方式、学习方式乃至思维方式, 并导致人的价值观和伦理观的深刻变革,一种新型的社会一网络虚拟社会应运而生。 随着网络基础设施建设步伐的加快和网络应用的日益广泛,网络用户的数量不 断增多。互联网已经成为人们实现资源共享和信息交流的最重要传播媒介。在应用 方面,随着社会对互联网的认识进一步加深,用户对互联网的应用也逐渐从传统的 浏览新闻、查询信息、收发邮件等方面向更深、更广的领域发展,电子政务、网上 银行、在线购物、网络短信、网络游戏、远程教育等各种网络应用深入到人们工作、 学习和生活的各个角落。总之,以信息获取、交流沟通类为主的基础网络服务正逐 渐发展为以休闲娱乐、电子服务、电子商务三大类服务为主的扩展网络服务1 1 。 下面以中国互联网信息中心( c n n i c ) 和互联网实验室( c h i n a l a b s c o l f f l ) 对我 国互联网发展最近的调查研究结果进行说明: 中国互联网信息中心于2 0 0 4 年4 月发布了以2 0 0 3 年中国互联网络信息资源 数量调查报告为主的一系列官方调查报告。该报告统计得出:从我国互联网宏观 状况上看,截止2 0 0 3 年1 2 月3 1 日,中国的互联网上网用户数已达到79 5 0 万,与 去年同期相比,保持了3 5 的高增长率,并且仍在以每天5 万人的速度急剧增长; 上网计算机数己攀升至30 8 9 万,与去年同期相比增长率约为4 8 ;w w w 站点数 为5 9 55 5 0 个,和去年同期相比增长6 0 3 ;全国域名数为11 8 73 8 0 个,而去年同 期为9 4 0 3 2 9 个,增长幅度也非常大。表1 1 给出了2 0 0 1 年至2 0 0 3 年全国域名、网 站、网页、用户数量比较表【1 】。 中国城市居民互联网应用研究报告 2 1 是互联网实验室于2 0 0 3 年1 月对中国 5 0 万以上人口大城市居民互联网使用及消费行为所做调查获得的数据,就网络用户 应用互联网的情况进行了全景描述和详细分析,是对中国城市居民互联网使用及消 网络用户行为分析研究及其应用 表112 0 0 1 年至2 0 0 3 年全国域名、网站、网页、j = | j 户数量对比表 j 年份域名数( 个)网站数( 个网页数( 干个)内地网民( 万人) 2 0 0 16 9 2 4 9 02 3 02 4 91 5 94 6 0 2 0 0 29 4 03 2 93 7 16 0 01 5 70 9 l 2 0 0 311 8 73 8 05 9 55 5 03 1 l8 6 579 5 0 费行为进行的一次比较全面的系列市场调查。该报告分析了当前网络用户的数量和 结构、所应用的网络服务、网上消费行为及消费数量等几个方面,并指出城市互联 网发展的三大主要趋势:( 1 ) 网络用户群体保持相对稳定状态:( 2 ) 网络用户价 值在未来相当长一段时问内将缓慢增长;( 3 ) 网络服务从单一服务向综合服务发展。 随着互联网络的迅猛发展,一方面,网络安全方面的问题越来越突出【3 ,成为 制约网络良性发展的关键因素:另一方面,在用户对网站的服务质量要求越来越高 的同时,商业网站等赢利性站点为了提高服务质量以获取用户的满意,网站的管理 工作也逐渐需要从盲目走向科学,这需要通过分析用户的群体构成及其爱好来提供 更满意的服务以便获取最大的利润,它也与提高网站服务的效率和个性化程度极为 相关;政府、科研机构等非赢利机构的网站也需要分析用户构成与其网络行为上的 特点来制定规划和支撑决策。 在网络安全方面,网络管理员或入侵检测系统( i n t r u s i o nd e t e c t i o ns y s t e m ,1 d s ) 通过区分用户的正常行为和异常行为,进一步来判断出具有入侵或入侵倾向的用户: 在电子消费方面,商业站点可以从顾客行为上的不同表现来辨别重要客户、偶然客 户或潜在客户;在i n t r a n e t 内联网建设和管理中,根据用户所访问的信息,可分析 出用户的兴趣和爱好,“将用户的数据转化为用户价值”,进一步来优化站点的性 能。在此我们只是列举了很少一部分的应用,仅仅是冰山一角,而且关于这方面的 应用还在不断地发掘和扩展。 与现实社会中人们的社会行为相对应,我们把发生在互联网络上虚拟社会中的 行为称为“网络行为”。网络行为是伴随现代网络技术出现的,可定义为:行为主 体为实现某种特定的目标,采用基于计算机系统的电子网络作为手段和方法而进行 的有意识的活动。发生在虚拟网络上的网络行为作为一神特殊的社会活动,它具有 社会行为的一般特征和基本要素。但由于网络行为存在于虚拟空间( c y b e r s p a c e , 音译为赛博空间) 之中,所以这种在网络中形成的信息交流空间又具有不同于物理 空间的特殊性,故网络行为有其自身的特点:知识含量高,升级快:隐蔽性强;主 动性强,涉及面广;判断标准不一;性质复杂【4 。 网络行为同其他社会行为一样,需要一定的规范和原则,需要集中和超个人的 社会控制。目前,互联网络已构成社会密不可分的一体化组织结构,社会对于信息 和信息网络的依赖性使得人类愈来愈方便的同时,社会的稳定性也受到空前的严重 一 蔓二垩竺丝l 一一 挑战,也使人们日益重视对于网络行为的研究和控制。为了对网络行为实行有效的 管理和控制,也为了提高互联网络服务的质量和效率,系统化的网络用户行为的研 究越来越亟待提到日程上来。 1 2 网络用户行为分析 1 2 1 网络信息的知识发现 随着计算机技术和信息技术的发展,信息的增长速度呈现指数上升,最近几十 年产生了很多超大型数据库,遍及超级市场销售、银行存款、天文学、地质学、行 政办公、科学研究,信息量急剧增长。这些数据都是大量的关于人类自身及生存环 境的数据和信息,它具有预测外部环境变化及其趋势的潜力;但到目前为至,这种 潜力没有得到充分的开发和利用,特别是在网络领域。这主要有两个原因:一是数 据分散在相互无关的不同档案系统中,数据缺乏良好的组织结构;二是缺少对统计 工具及其数据潜力的深刻认识 ”,人们急切的需要一种去粗存精、去伪存真的技术, 能够从海量的数据中提取知识和信息。 两个方面的成就有助于克服以上两个问题。一是软硬件产品的低价格、高性能 趋势得到继续,这允许各个组织去收集数据并组织成结构化的数据,以便访问和转 换;二是方法的研究,特别是计算和统计领域,方法的研究促使了灵活的和可扩展 的算法能够分析大的存储数据。 知识发现,又叫数据库中的知识发现( k n o w l e d g e d i s c o v e r y i n d a t a b a s e ,k d d ) , 指从大量数据中提取出可信的、新颖的、有效的并能被人们理解的模式的处理过程。 网络信息的知识发现是从网络信息中提取人们感兴趣的知识,这些知识可能是 隐含的、事先未知的、潜在有用的信息,它集数据收集、数据清理、维数变换、规 则归纳、模式识别、数据结果分析及评估等多种过程于一身,是统计学、计算机科 学、模式识别、人工智能、机器学习及其他学科相结合的产物。发现了的知识可以 被用于信息管理、查询优化、决策支持、过程控制等,还可以进行数据自身的维护。 由于i n t e r n e t 上的数据是巨量的、无序的、非结构的,并且存在大量的冗余与噪声, 因此,网络信息的知识发现具有以下特点: - 数据规模巨大、维度很高。 一数据源具有无序性和非结构性。 一数据源具有很强的动态性。 _ 发现的目标具有多样性。 作为知识发现的核心过程的数据挖掘( d a t a m i n i n g ) 技术是从大量的、不完全 的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、 但又是潜在有用的信息和知识的过程的技术。这些数据可以是结构化的,如关系数 !塑堑旦生堡垫坌堡塑塞墨基壁型一 据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网 络上的异构型数掘。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程 等领域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据库、 人工智能、数理统计、可视化、并行计算等技术。 1 2 2 网络用户行为分析 c n n i c 对网络用户( 网民) 的定义:平均每周使用互联网至少1 小时的中国公 民n 从宏观上,网络用户行为的研究与心理学、社会学、社会心理学、人类学以及 一切与网络行为的学科密切相关,它研究网络用户行为的规律性,借以控制并预测 网络用户行为,并为实现政治的、经济的和文化的目的服务。具体讲,网络用户行 为研究就是分析网络用户的构成、特点及其行为活动上所表现出来的规律【6 j 。就不 同的研究目的和对象规模,网络行为可分为网络个体用户行为和网络群体用户行为。 网络用户行为分析就是运用多学科知识研究和分析网络用户的构成、特点及其 在网络应用过程中行为活动上所表现出来的规律。网络用户行为分析是个广义的 概念,它属于网络信息知识发现的范畴。从逻辑上说,网络行为分析是信息时代社 会科学研究的制高点。因为,哲学、经济学、社会学、心理学、计算机科学等众多 学科聚焦于此。网络行为所赖以存在的网络虚拟空间已经成为一种全方位的新质社 会形态8 1 。 研究网络用户行为,首先面临的是对网络用户及其行为进行系统的研究和分类。 关于网络用户行为,一直没有比较统一规范的界定和分类。根据研究和应用的侧重 点不同,网络用户行为可以从多个角度进行分类。例如中国城市居民互联网应用 研究报告中,把网络用户行为分为基础网络行为和扩展网络行为,进而再细分成 五大类,即信息获取类、沟通交流类、休闲娱乐类、电子服务类、电子商务类。这 是从应用层面上的宏观分类。实际上,就研究问题的不同,网络用户行为的分类方 式也各异。我们从自身需求和应用的角度,可以进行网络用户行为的多种分类,接 着在此分类基础上进行了网络用户的界定。 我们就常见的几种具体应用引出了相应的分类方式,并且具有一定的普遍意义。 在网络安全方面可以区分为正常行为和异常行为( 并不一定是入侵行为) 、善 意行为和恶意行为;在电子消费方面,可以从行为上的不同表现来辨别重要客户、 偶然客户和潜在客户,文献 9 】系统地比较了网络消费者购买行为与传统的消费者购 买行为之间的差异,并对引起这些差异的因素及其影响进行了分析;在h l r a n e t 内 联网建设和管理中,根据用户获取的信息可分析出用户的兴趣和爱好,例如该用户 所访问网页频率最高的特征字或关键字,最受该用户欢迎站点等,据此可以分析网 内用户的不同行为表现,正确引导用户行为的健康发展【”。 兰二皇丝堡 ! _ _ _ _ _ - _ _ - _ - - - _ _ _ _ _ - _ _ _ _ _ _ _ _ _ _ _ 在网络安全方面,i d s 的研究初期主要是基于入侵知识的检测方法,也称滥用 检测( m i s u s ed e t e c t i o n ) ,主要利用收集到的入侵或攻击的相关知识( 特征、模式 等) 来识别系统中是否出现了这些己知的入侵攻击,并据此判断系统是否遭受到攻 击。此种方法的困难主要在入侵特征的获取上。d e n n i n g 在上世纪八十年代较早地 运用基于系统行为的检测方法到i d s 模型中,开创了入侵监测的新局面。从此,i d s 的设计理念也开始从单纯的基于入侵知识的检测分析到与基于行为的入侵检测分析 相融合的过渡,再通过区分用户的正常行为和异常行为,进一步来判断出具有入侵 行为或有其倾向的入侵者。 只看重网站点击率和流量的时代已经远去,务实风格影响了互联网市场,现在 越来越多的网站希望从简单的数字游戏中摆脱出来,能真正了解网站用户的行为。 用户访问行为模式在网站的设计和管理中是很有用的,主要包括:提供各种统计报 表,完成日常维护工作:改进w e b 站点内容和结构上的设计,来改善网站性能;导 航用户浏览行为;优化缓存配置和预取机制的相关参数;分析趋势,了解w e b f 在 发生的变化:均衡服务器负载;定制自适应w e b 站点;支持商业智能和市场决策; 测试用户接口;监控系统安全等。 为了研究商业w e b 网站或电子商务站点的客户行为,一般通过客户访问过的内 容和没有访问过的内容、浏览路径、频繁访问页面、相关页面来分析客户群体的构 成及其动态改变等特点,从顾客行为上的不同表现来发现顾客的兴趣和偏好,辨别 重要客户和偶然客户,以促进网站建设和进行个性化服务来完成其商业目标,使客 户( 因为将客户感兴趣的货物放在一起) 和销售商( 因为有更大规模的销售) 同时 受益。更重要的是,在w 曲个性化应用中,可以辨认出每个用户或用户群的需求和 爱好,配置基于用户需求的w e b 信息的内容和结构的组织。例如网上推荐系统和广 告设置。 非赢利网站进行用户行为分析同样具有比较重要的意义。我们可统计用户的浏 览信息,分析用户或用户群的行为模式及其变化,来加强网站宏观管理,正确引导 用户良性发展。 互联网用户行为分析是制订网络营销战略的基础之一,国外从事互联网使用情 况测量的专业性公司比较有名的有m e d i am e t r i x 、n e t r a t i n g s 和n e t v a l u e 。m e d i a m e t r i x 是美国一家最早从事互联网用户访问率研究测量的公司,1 9 9 6 年1 月发布了 第一份美国互联网使用情况的调查报告;美国著名的市场调查和互联网媒体市场研 究公司n i e l s e n n e t r a t i n g s ,主要从事互联网使用及用户与广告互动的测量,从1 9 9 9 年9 月起推出了以网络用户样本为基础、覆盖全球的网络监测服务;n e t v a l u e 是 1 9 9 8 年成立的总部在法国的一家欧洲领先的互联网测量公司,并与国际著名的市场 研究机构之一一t a l o r n e l s e n s o f i e s 实施全球性的战略合作,利用互联网用户样本组 网络削户行为分析研究及其应用 及其开发的基于互联网t c p i p 协议的信息测量软件,提供互联网用户行为的全景测 量。 上述几种不同方面的网络用户行为分析,一般都是基于网络日志挖掘方面,其 研究主要集中在借助数据挖掘技术的已有成果,包括常用模型在某个方面的应用或 某种具体算法的改进,内容也比较深入但却不够系统化,没有整体的解决方案。 1 3 本文的主要研究工作和论文安排 通过广泛参考各种文献和借鉴国内外的研究成果,本文首先阐述了网络用户及 其行为的定义与分类,建立了网络用户行为分析的步骤及体系框架,提出了几种常 见应用下的行为分析模型或思想,并就模型中一些关键技术进行了讨论,同时进行 了相关算法的改进。结论主要包括: 一 阐述了网络用户及网络用户行为的概念和分类方法。 - 提出了网络用户行为分析的步骤及体系框架,并讨论了体系模型中各模 块功能和相互之间的协作关系,最后讨论了行为分析系统设计中面临的 一些关键实现技术。 m 1 分析了行为分析的数据源,主要考虑了数据获取的准确性和实时性。 m l 提出了网络用户行为分析系统在几个方面的应用,包括w e b 站点用户浏 览行为的分析内容和步骤、入侵检测和病毒检测的行为分析思路,i n t r a n e t 内联网的用户结构分析模型。 _ 进行了模型中的某些算法的改进及其与同类算法的比较。 本论文共分五章,其余各章节具体安排如下: 第二章主要讨论了网络用户行为的概念、表示、测量及此基础上网络用户分类。 第三章分析了实现网络用户行为分析系统的几个阶段、体系结构框架,最后讨 论了系统设计中面临的一些关键实现技术。 第四章网络用户行为分析数据的来源、获取方式及其预处理,我们主要考虑了 数据获取的完整性、精确性和效率等几个方面,并提出一种有效的w e b 站点用户使 用记录信息收集模型。 第五章提出了网络用户行为分析系统在几个方面的应用,包括w e b 站点用户 浏览行为的分析、入侵和病毒检测,i n t r a n e t 内联网的用户结构分析等方面。 结论与展望在总结了本文所做工作的基础上对网络用户行为分析的发展方向 进行了展望。 塑兰兰旦竺型2 笪垄塑塑堡兰旦塑塑旦堕坌耋 : h h _ h _ _ ,_ - _ - _ 一 第二章网络用户行为的概念与网络用户的分类 本章主要讨论了网络用户行为的相关概念,包括定义、表示和测量,引入了 网络用户行为的分类,接着在此基础上进行了网络用户的分类方法研究。 2 1 网络信息的数据挖掘 2 1 1 数据挖掘 知识发现是对数据进行分析处理来发现知识的过程,数据挖掘( d a t am i n i n g ) 是 知识发现的主要步骤。 数据挖掘的目的 ( 1 ) 发现知识:知识发现的目标是从数据库存储的数据中发现隐藏的关系、 模式和关联。例如,在商业应用中数据挖掘可用于发现分割、分类、关联、喜好 四种知识。发现分割知识可以将客户记录分组,策划为客户度身定做的推销活动。 发现分类知识可以将输入的数据分配到预定义的类别中,发现和理解趋势以及对 文本文档进行分类等。发现交叉销售的机会是一种关联知识,以及发现大部分客 户喜好的知识。 ( 2 ) 使数据可视化:分析人员需搞清楚数据库中存储的大量信息的含意。在 做任何分析之前,需先将待处理的数据人性化,并寻找显示数据的好方法。 ( 3 ) 纠正数据:在结合大规模的数据库时,数据库的数据通常是不完整的, 而且通常包含错误和自相矛盾的信息。数据挖掘需要以最稳定的方法识别和纠正 这些问题。 _ 数据挖掘的方法 数据挖掘方法分为统计方法、机器学习方法、神经网络方法和数据库方法。 ( 1 ) 统计学的方法是数据挖掘的经典方法。统计方法中包括回归分析f 多元回 归、自回归等) 、判别分析( 贝叶斯判别、费歇尔判别、非参数判别等) 、聚类分析f 系 统聚类、动态聚类等) 、探索性分析( 主元分析法、相关分析法等) 等。 ( 2 ) 机器学习中包括归纳学习方法( 决策树、规则归纳等) 、基于范例学习、遗 传算法、粗糙集等。粗糙集能够对不确定、不完整的信息进行处理,而遗传算法 具有全局最优搜索的能力。 ( 3 ) 神经网络方法具有处理非线性数据和含噪声数据的能力。神经网络的常 用算法包括前向神经网络( b p 算法等) 、自组织神经网络( 自组织特征映射、竞争学 习等】等。 !塑竺旦2 堑垄坌堑塑壅墨茎壁塑一 ( 4 ) 数据库方法主要是多维数据分析或o l a p 方法。o l a p 系统的数据库为了 高效存储静态数据而构建。其存储结构的设计是为了高效检索数据,尤其是聚合数 据,比如求总和或是其他运算。 2 1 2 网络数据挖掘 利用数据挖掘方法发现包括网页内容、页面之间的结构、用户访问信息、电子 商务信息在内的各种网络资源中的有用知识,帮助人们认识网络、改进网络设计, 更好地为用户服务。w c b 挖掘是网络数据挖掘的一个重要组成部分。 2 1 3w e b 数据挖掘i “i 将传统的数据挖掘技术和w e b 结合起来进行w e b 挖掘。w e b 挖掘就是从w e b 文档和w e b 活动中抽取感兴趣的、潜在的有用模式和隐藏的信息。w e b 挖掘可以在 很多方面发挥作用,如对搜索引擎的结构进行挖掘,确定权威页面,w e b 文档分类, w e b l o g 挖掘,智能查询,建立m e t a - w e b 数据仓库等 1 2 】。 w e b 数据挖掘 w e b 数据挖掘就是利用数据挖掘技术,自动从网络文档以及服务中发现和抽取 信息的过程,它主要实现对w e b 存取模式、w c b 结构和规则以及w e b 内容的查找。 一般地,根据网络数据挖掘对象的不同,人们将w 曲数据挖掘分为三种: ( 1 ) w e b 内容挖掘 w e b 内容挖掘是从文档内容或其描述中抽取知识的过程。网络信息内容是由文 本、图像、音频、视频、元数据等形式的数据组成,网络内容挖掘就是从网络信息 内容中发现有用信息的过程。 ( 2 ) w e b 结构挖掘 w e b 结构挖掘就是推出网络的拓扑信息一网页之间的链接信息。利用这些信息, 可以对页面进行排序,发现重要页面,通过分析个网页连接和被连接数量以及对 象,来建立w e b 自身的连接结构模式。 ( 3 ) w c b 使用记录挖掘m 1 4 】 它的主要目标是从用户和网络交互的过程产生的访问已录中抽取出来的第二手 数据( 包括网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户简 介注册信息、用户对话或交易信息、用户提问方式等) 。通过网络使用记录挖掘 可以了解用户的网络行为,改进站点结构,或为用户提供个性化的服务。其主要包 括一般的访问模式发现和个性化的使用记录发现两个方面。前者是通过分析使用记 录来了解用户的访问模式和倾向,以改进站点的组织结构。而后者则倾向于分析单 个用户的偏好,其目的是根据不同用户的访问模式,为每个用户提供定制的站点。 第二章网络用户行为的概念与网络用户的分类 9 一一 在w e b 挖掘中,w e b 内容挖掘、w e b 结构挖掘和w e b 使用记录挖掘必须结合 起来,阻提高数据挖掘的精确度。网络用户行为分析则侧重于利用网络数据挖掘中 的w e b 挖掘束发现用户行为。 2 2 网络用户行为的概念与分类 网络用户行为的研究与心理学、社会学、社会心理学、人类学以及一切与网络 行为的学科密切相关,它研究网络用户行为的规律性,借以控制并预测网络用户行 为,并为实现政治的、经济的和文化的目的服务。具体一些讲,网络用户行为研究 就是分析网
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《探寻自我连结他人-高中一年级友谊心理班会课教学设计》
- 班级·温度·成长-高二(X)班新学期班集体建设主题班会教学设计
- 水渠护坡施工方案
- 隧道勘察阶段病害识别方案
- 充电桩报装接电方案
- 水厂维修工单闭环管理方案
- 桥梁钢箱梁吊装方案
- 企业调试阶段系统联调方案
- 景观工程专项施工方案
- 建筑弱电竣工验收方案
- 禁止纹身主题班会课件
- 辽宁医药职业题库及答案
- 上市公司报销管理制度
- CJ/T 511-2017铸铁检查井盖
- 2025年党建工作知识竞赛测试题库及答案(完整版)
- GB/T 15268-2024桑蚕鲜茧
- 中国婴幼儿 科学配餐与食品制作指导手册
- 2024年广西机场管理集团限责任公司招聘156人高频500题难、易错点模拟试题附带答案详解
- 2024年湖南省永州市中考物理试卷(-含解析)
- 首届不动产登记技能大赛试题库-3地籍调查
- 旅游投诉处理课件
评论
0/150
提交评论