(管理科学与工程专业论文)基于用户浏览行为的网络资源排序研究.pdf_第1页
(管理科学与工程专业论文)基于用户浏览行为的网络资源排序研究.pdf_第2页
(管理科学与工程专业论文)基于用户浏览行为的网络资源排序研究.pdf_第3页
(管理科学与工程专业论文)基于用户浏览行为的网络资源排序研究.pdf_第4页
(管理科学与工程专业论文)基于用户浏览行为的网络资源排序研究.pdf_第5页
已阅读5页,还剩82页未读 继续免费阅读

(管理科学与工程专业论文)基于用户浏览行为的网络资源排序研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一 1 : _ 0 l , m 胁哪m m 咖眦矾删则孟d 二舅则掣 u s e rb r o w s i n gb e h a v i o r at h e s i ss u b m i t t e dt o d a l i a nm a r i t i m eu n i v e r s i t y i np a r t i a lf u l f i l l m e n to ft h er e q u i r e m e n t sf o rt h ed e g r e eo f m a s t e ro fe n g i n e e r i n g b y j if e i ( m a n a g e m e n ts c i e n c ea n de n g i n e e r i n g ) t h e s i ss u p e r v i s o r :p r o f e s s o rc h e ny a n m a y 2 0 1 1 一 大连海 本人郑重声 撰写成硕士学位 注明引用的内容 确方式标明。本 或未公开发表的 学位论文作 本学位论文 位论文的规定, 文的复印件和电 学位论文的全部 描等复制手段保 学位论文全文数 文全文数据库 出版发行和提供 本学位论文 r 中文摘要 摘要 随着社会信息化的发展,i n te m e t 已经成为人们的日常生活和工作中的一个重 要组成部分,迅速增长的网络信息形成了海量信息资源,这本能够为人们提供更 多的选择,但是目前i n t c r n e t 的资源分布较杂乱,无用信息过多,没有统一的分布 格局,导致人们很难找到自己所需的资源信息。针对于这种现状,人们都在寻找 着如何解决信息资源丰富而用户使用困难这一矛盾的方法,其中一种方法就是通 过改变网络资源排序来改善网页布局以提高网站的可用性。 网络资源排序是根据某类资源的用户群体特征对资源进行一个排列使用户能 够很方便的找到所需的资源。本文从用户群体需求出发,通过对用户使用行为的 挖掘找到某类资源中各个资源的重要性及相互间的关联性,以此为基础对这类资 源进行排序以期使用户能够迅速地找到所需资源。本文研究工作从下面三个方面 展开: ( 1 ) 分析用户浏览行为和网络资源重要性之间的关系,以此为基础建立起基 于用户浏览行为的网络资源评分模型,对各个资源的重要性进行评价,为后续的 挖掘工作和最后的资源排序提供支持。 ( 2 ) 针对常用的关联规则算法是基于项目的出现次数的,而在网络使用中有 很多像点击事件是无效地这样的情况,提出使用加权关联规则挖掘资源间的关联 性。对于权重本文将用网络资源评价模型推出的网络资源评分作为其权重。为了 能够提高加权关联规则算法的性能,提出了一种改进的加权关联规则。 ( 3 ) 为了既能满足某类资源用户的使用需求又能使资源得到最大程度的使 用,本文提出了以网页权重为主线关联规则为基本单位进行排序的排序算法。 本文提出的排序模型,采用了基于用户浏览行为的资源重要性评分机制,并 通过加权关联规则算法找出的资源间关联性来改善资源排序。该模型为改善网站 的可用性提供了很好的参考价值。 关键词:网络资源排序;浏览行为;线性回归;加权关联规则 英文摘要 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n f o r m a t i o ns o c i e t y , i n t e r n e th a sb e c o m ea ni m p o r t a n t p a r to fp e o p l e sd a i l yl i f ea n dw o r k , w h i l et h er a p i d l yg r o w i n gn e t w o r ki n f o r m a t i o n b e c o m eam a s s i v ei n f o r m a t i o nr e s o u r c e s ,w h i c hs h o u l dh a v ep r o v i d e dm o r eo p t i o n sf o r p e o p l e ,b u td u e t ot h ei n t e r a c tr e s o u r c e sh a sn o tau n i f o r md i s t r i b u t i o np a t t e r n , w i t ht o o m u c hu s e l e s si n f o r m a t i o n , l e dt oi ti sd i f f i c u l tt of i n dt h en e e dr e s o u r c e s b a s e do nt h e e x i s t i n gc o n d i t i o n ,p e o p l ea r et r y i n gt of i n dt h ew a y t os o l v et h ec o n t r a d i c t i o nt h e r ea r e m a n yd i f f i c u l t i e sw h e n u s e r ss e a r c hf o rr e s o u r c e st h e yw a n t e dw h i l et h er e s o u r c ei st o o r i c h o n ew a yi st oi m p r o v et h ep a g el a y o u tt oe n h a n c et h eu s a b i l i t yb yc h a n g i n gt h e o r d e ro fn e t w o r kr e s o u r c e s t h es o r to fn e t w o r kr e s o u r c e si sa i la r r a yw h i c hb a s e do nc e r t a i nc h a r a c t e r i s t i c so f r e s o u r c eu s e rg r o u p s ,s ot h a tu s e rc a ne a s i l yf i n dt h en e c e s s a r yr e s o u r c e s t h i sp a p e r s t a r t st h ea n a l y s i sf r o mt h ep e r s p e c t i v eo fu s e rc o m m u n i t yn e e d s ,a n dt h e nm i n e st h e a c t so fu s e r st of i n dt h ei m p o r t a n c eo fe a c hr e s o u r c ea n dt h er e l a t i o n s h i pb e t w e e nt h e m i nac e r t a i nt y p er e s o u r c e s t a k ei ta sab a s i sf o rs o r t i n go fs u c hr e s o u r c e si no r d e rt o e n a b l eu s e r st oq u i c k l yf i n dt h er e s o u r c e s t h ep a p e rw i l ls t u d yf r o mt h ef o l l o w i n gt h r e e a s p e c t s : ( 1 ) a n a l y s i st h ec o n n e c t i o nb e t w e e nu s e rb r o w s i n gb e h a v i o ra n dt h ei m p o r t a n c eo f n e t w o r kr e s o u r c e s ,t h e na sab a s i s ,e s t a b l i s has c o r e sm o d e lo fn e t w o r kr e s o u r c e sb a s e d o nu s e rb r o w s i n gb e h a v i o r , e v a l u a t et h ei m p o r t a n c eo f e a c hr e s o u r c e ,s ot h a ts u p p o r tt h e f o l l o w - u pm i n ea n df i n a ls o r to f r e s o u r c e s ( 2 ) a sf o rt h ec o m m o n l ya s s o c i a t i o nr o l e sa l g o r i t h mi sb a s e d o nt h en u m b e ro ft h e p r o j e c ta p p e a r s ,w h i l el i k et h ec l i c ke v e n ti nt h en e t w o r ki sn o tv a l i dt ot h i ss i t u a t i o n , t h ep a p e rm a k eu s eo fw e i g h t e da s s o c i a t i o nm l e st om i n i n gt h er e l a t i o n s h i pb e t w e e n r e s o u r c e s t h ep a p e rw i l lt a k et h en e t w o r ks c o r ea st h ew e i g h t ,w h i c hc a l c u l a t e db yt h e s c o r e sm o d e lo fn e t w o r kr e s o u r c e s i no r d e rt oi m p r o v et h ep e r f o r m a n c eo fw e i g h t e d a s s o c i a t i o nr u l e s ,a ni m p r o v e dw e i g h t e da s s o c i a t i o nr u l e si sp r o p o s e d ( 3 ) i no r d e rt om e e tt h eu s e r s r e q u i r e m e n tt ot h ec e r t a i nt y p e so fr e s o u r c ea tt h e s a m et i m e ,m a k et h em a x i m u mu s eo fr e s o u r c e ,t h i sp a p e rp r e s e n t sas o r t i n ga l g o r i t h m , w h i c ht a k e st h ep a g ew e i g h ta sm a i nl i n e ,t h ea s s o c i a t i o nr u l e sa sb a s i cu n i t t h ep r o p o s e ds o r t i n gm o d e lu s e st h er e s o u r c e si m p o r t a n c eb a s e do nu s e rb r o w s i n g 英文摘要 b e h a v i o ra st h es c o r i n gm e c h a n i s m ,a n di m p r o v e st h er e s o u r c eo r d e rb yt h er e s o u r c e r e l a t i o n s h i p ,w h i c hf o u n db yw e i g h t e da s s o c i a t i o nr u l e s t h em o d e lp r o v i d e sag o o d r e f e r e n c ev a l u et oi m p r o v et h ea v a i l a b i l i t yo ft h es i t e k e yw o r d s :s o r t i n gn e t w o r kr e s o u r c e s ;b r o w s i n gb e h a v i o r ;l i n e a rr e g r e s s i o n ; w e i g h t e da s s o c i a t i o nr u l e s 目录 目录 第1 章绪论1 1 1 课题研究背景1 1 2 研究现状1 1 3 本文工作2 1 3 1 研究内容2 1 3 2 论文结构3 第2 章网络资源排序理论及相关技术研究5 2 1 网络资源排序相关方法5 2 1 1 基于网络资源链接的排序5 2 1 2 基于网络资源内容分析排序5 2 1 3 基于用户浏览行为的排序6 2 2 数据挖掘技术与方法6 2 2 1 数据挖掘技术6 2 2 2w 曲挖掘技术8 2 2 3 数据预处理技术1 1 2 3 相关工具1 2 2 3 1 网络加速器和浏览器辅助对象1 2 2 3 2s p s s 工具14 2 3 3a r m a d a 1 4 2 4 用户浏览行为采集技术1 5 2 4 1 基于用户行为的数据采集技术1 5 2 4 2 本文采集数据策略。1 5 第3 章基于用户行为的网络资源排序1 7 3 1 基于用户行为的网络资源评价1 7 3 1 1 相关分析1 7 3 1 2 线性回归2 3 3 1 3 线性回归建立网络资源评分模型2 7 3 2 关联规则算法改进4 0 3 2 1 关联规则4 0 3 2 2 基于加权关联规则的挖掘算法4 5 3 2 3 加权关联规则挖掘算法改进5 1 目录 3 3 基于网络资源评价和加权关联规则的资源排序5 3 3 3 1 推荐度5 3 3 3 2 基于加权关联规则排序算法5 4 第4 章基于用户行为的网络资源排序实验5 7 4 1 实验数据5 7 4 2 获得权值5 8 4 3 关联规则挖掘5 9 4 3 1 找到加权频繁项集5 9 4 3 2 挖掘强关联规则j 6 2 4 3 3 推荐度计算6 3 4 4 排序6 4 4 5 排序结果分析6 5 第5 章总结与展望6 8 5 1 总结6 8 5 2 展望6 8 参考文献7 0 攻读学位期间参与的课题情况7 4 致 射7 5 基于用户浏览行为的网络资源排序研究 第1 章绪论 1 1 课题研究背景 计算机的普及和信息网络的高速发展,使得越来越多的人从网上获取所需信 息,网络已经成为人们的日常生活和工作中的一个重要组成部分。互联网如今已 成为一个拥有非常丰富资源的平台,并且其资源量在急剧增长,整个互联网正逐 渐成为一个信息量超大的资源存储空间。但是人们的在网上查找自己所需的资源 的精力和时间是有限的,因此怎样有效而又快捷的从海量数据中找出自己所需的 信息就成为一件很困难的事情,搜索引擎的出现正好成为解决信息丰富却获取所 需信息困难这一对矛盾的钥匙。搜索引擎被称为是一个处理与获取信息的黑盒子, 通过一定的规则在互联网中爬取信息资源并对其进行处理与提取,对外提供方便 用户查询的接口,进而起到指导用户获取信息的作用。搜索引擎主要由三部分组 成:采集信息、组织并处理信息和查询接口【l 】。 随着搜索引擎技术的高速发展关于搜索引擎的技术也成为人们研究的热点, 其中排序算法就是其中的一个。现有的排序算法主要是超链接和词频加权算法, 这些算法都有很多地方需要改善,例如超链接算法的主题漂移问题以及词频加权 算法的防作弊等问题【2 1 。 本文要研究的排序算法与这些算法有所不同,本文是通过挖掘用户使用行为 来推出资源的重要性和资源间的关联性并以此为基础来进行排序,这种基于用户 行为的排序能够比较真实的反映出用户的需要,进而使得排序结果能够更好地让 用户找到所需的资源。 1 2 研究现状 目前,对于网页的排序研究,主要集中在网页的组织和检索结果的相关性排 序方面。网页的重要性体现在:时间更新性,内容重要性和用户使用偏好等方面【3 ,4 1 。 网页排序算法主要有三大类:( 1 ) 基于网络资源链接的排序算法,它独立于 语言和内容,如p a g e r a n k 、h i t s 是研究中广泛关注的,从资源链接结构关系角度 来计算权威网页的重要性等方面,但它缺少对网页主题内容的分析。( 2 ) 基于网 络资源主题内容的排序算法,为了弥补网络资源链接的排序算法缺乏考虑主题内 第1 章绪论 容的不足,将检索词在网页内容中出现的频率、位置等特征考虑进来将其结合到 排序算法中,以提高检索结果的相关性。如张贤等提出基于l u c e n e 网页排序算法 的改进,就是结合了词频位置、h i t s 和p a g e r a n k 算法改进了的网页排序算法【5 1 。 原永福等提出基于内部文档比较的重排序算法,通过扩展关键词在正文、标题及 链接文本中出现的频率等影响因素,计算出网页间的相似度以对网页进行排序【6 1 。 x i nj i n 等提出了结合链接、时间和内容等信息,对检索结果中主题最初出现的网 页进行排序的算法i n i t r a n k t 7 1 。( 3 ) 基于用户点击和浏览行为信息的排序算法,何 国斌等提出一种基于链接和内容分析并结合用户点击行为的网页排序算法【4 1 。 1 3 本文工作 1 3 1 研究内容 为优化网络资源的排序,提高网络资源有效利用率,使用户能够顺利的找到 所需资源,本文从通过用户浏览行为研究网络资源重要性、加权关联规则算法挖 掘网络资源间的关联性、网络资源排序这三个方面对网络资源排序进行了研究( 每 个网络资源都对应着一个单独的浏览网页) 。这三者之间的关系是: 通过用户浏览行为研究网络l 资源权重 加权关联规则算法挖掘网络 资源重要性l资源问的关联性 网络资源排序 图1 1 研究内容关系图 t a b 1 1d i a g r a mo fr e a r c hc e n t e n t 一、通过用户浏览行为研究网络资源重要性 用户的浏览行为主要有查询、浏览页面、将浏览页面加入收藏、页面窗口最 大化和最小化、点击鼠标、拖动滚动条、前进、后退等等【8 1 。从表面上看,这些行 为都能够反映用户对网页的兴趣,但是深入分析后发现,几乎所有的浏览行为都 基于用户浏览行为的网络资源排序研究 可以由两种浏览动作集中体现,即用户在网页上的浏览时间和拖动滚动条的次数【3 , 4 1 。因此本文将以浏览时间和拖动滚动条的次数为基础通过线性回归分析来建立网 页评价模型,用以预测网页评价来说明不同网页的重要性,以帮助建立更合适的 网络资源排序。 二、加权关联规则算法挖掘网络资源间的关联性 常用的关联规则算法是基于项目的出现次数的,但是在现实世界项目出现的 次数并不能真实的反映出项目的重要性,因此挖掘出来的规则很多是无用的,甚 至有些还会产生误导作用,为了解决这个问题,提出了使用加权关联规则,本文 将用网页评价模型推测出的网页评分作为该网页的权重,通过加权关联规则算法 找出更符合实际的有效地规则用于帮助资源排序。为了能够提高加权关联规则算 法的性能,提出了一种改进的加权关联规则。 三、网络资源排序 本文提出的排序算法是以网页权重为主线以关联规则为基本单位进行排序 的,以权重为主线是权重代表的是这个资源的总体重要程度,是用户长期以来使 用结果的表现,以关联规则为基本单位是关联规则是通过挖掘用户日常使用行为 而得到的,是群体性行为,具有代表性,这一群体用户在选择了规则前件的项目 则他很有可能会选择规则后件的项目,那么我们把规则的前件和后件按顺序排列 在一起将有助于用户找到所需的项目,大大节约用户的查找时间,同时也提高了 资源整体的利用率。 1 3 2 论文结构 本文是对用户浏览行为数据使用数据挖掘的方法进行分析,在分析结果的基 础上对网络资源排序进行研究,主要的技术路线和论文结构如图1 2 所示: 第1 章绪论 旧关的分类卜 用户使 加权关联舰 用行为v ; p 秒卜 数据相 一i | l 一 法 7关分析 关联规则 l 线性同归模 基于用 资源权重: 型p 户行为 i ( 权值) i d 的网络 i + 回归检验l 资源评 lf “ 分模型 争资源评分 l 口 i 基| l 着! l 排l 圈e = 二罩= 一翠 a r m a d | l l 第二章s p s s ,数据挖掘技术与方法,网络资源排序方法 a ,数据 i 采集技术i i 图1 2 论文结构 t a b1 2n e s i ss t r u c t u r e 第一章:概述网络资源排序的研究背景、研究现状,提出本文的研究内容和 论文章节的安排。 第二章:主要阐述了相关的理论基础、技术和工具,主要介绍网络资源排序 的相关方法和数据挖掘、日志挖掘的相关的基本理论和概念,以及本文使用到的 工具和用户浏览行为的数据采集技术。 第三章:首先介绍相关分析和线性回归的理论知识,其次客观地分析了用户 浏览行为和网页的重要性之间的关系,并依据用户浏览行为的样本数据,使用多 元线性回归分析方法建立网页评价模型。再次介绍关联规则和加权关联规则,并 在此基础上提出一种改进的加权关联规则算法以提高规则挖掘效果,最后提出一 种基于项目重要性和加权关联规则的排序算法用以实现网络排序优化。 第四章:用第三章提出的排序算法对实验数据进行网络资源排序实验,并对 排序结果进行分析。 第五章:总结本文主要工作和特点,提出以后的研究方向。 基于用户浏览行为的网络资源排序研究 第2 章网络资源排序理论及相关技术研究 2 1 网络资源排序相关方法 目前网页排序算法主要分为三大类:基于网络资源链接的排序,基于网络资 源内容分析排序和基于用户浏览行为的排序。下面将分别介绍这三种排序方法的 典型算法。 2 1 1 基于网络资源链接的排序 p a g e r a n k 算法是基于网络资源链接的排序的典型算法之一,是著名搜索引擎 g o o g l e 引入的网页排序算法。p a g e r a n k 的原理类似于科技论文中的引用机制:一 个页面的重要性( 即页面等级) 与引用该页面的网页数量有关,与被重要页面引 用有关;且一个页面的重要性被均分并传递到它所引用的页面。其计算公式: e e ( 炉v 。- c l m k ( u ) 蔷南 ( 2 ,) l o l l , l ,“,i 针对范化问题及权值沉积( r a n ks i n k i n g ) 问题,引入一个范化因子d ( 一般 取d = o 8 5 ) ,及衰退因子e ( u ) ( e ( u ) 通常取l n ) ,则得: pr(甜)=de(“)+d酾pie(v)veclmk(u) ( 2 2 ) i o - , v “、7 ,l p a g e r a n k 算法是基于随机网络冲浪模型提出的。其特点在于它是一个与查询 无关的静态算法,所有网页的p a g e r a n k 值均可以通过离线计算获得。该算法在用 户查询时仅仅根据关键字匹配获得网页集合,然后排序推荐给用户,因此具有很 高的响应速度。但是,p a g e r a n k 依靠计算网页的外部链接数量来决定该网页的页 面等级,而忽略了页面的主题相关性,从而影响了搜索结果的相关性和准确性【4 】。 2 。1 2 基于网络资源内容分析排序 a r c 算法是典型的基于网络资源内容分析排序,由i b m a l m a d e n 研究中心的 c l e v e r 工程组提出的。它以h i t s 算法为核心,对网页集对应的链接矩阵初值设置 结合了链接的锚( a n c h o r ) 文本,试图通过增加对网页内容信息的利用来克服h i t s 算法的主题漂移。h i t s 算法中,每个链接对应的矩阵值设为1 ,实际上每个链接 的重要性是不同的。a r c 算法考虑了链接周围的文本来确定链接的重要性。考虑 第2 章数据挖掘理论及相关技术和工具 p q ( p 链接到q ) ,若p 中有链接标记: 文本l 锚文本 文本2 设查询词q 在文本1 、锚文本和文本2 中出现的次数为n ,则w ( p ,q ) = l + n , 以代表链接的权重,从而构造邻接矩阵w 。迭代执行以下操作:( 1 ) a - - w h ;( 2 ) h = z a ;( 3 ) 规范化a ,h 。 a r c 算法的目标是找到前1 5 个最重要的网页,只需要a h 的前1 5 个值相对 大小保持稳定即可,不需要a h 整个收敛,这样式( 2 ) 中迭代次数很小就能满足, 因此,a r c 算法具有很高的计算效率【4 】o 2 1 3 基于用户浏览行为的排序 在对用户浏览行为进行分析并以此为根据进行排序是一种非常有用的排序方 法,它是以用户为中心的,在了解用户的使用偏好后做出的排列行为。在基于用 户行为的排序方法中最常用的方法之一就是根据网络资源在用户群体心目中的重 要性资源评价来进行排序。 第三方评价和用户评价是对资源进行评价中比较常用的方法。第三方评价是 相对于网络信息资源的发布者以及网络信息资源用户而言的,评价的范围多侧重 于综合性网络资源,面向普通网络用户,所选择的评价指标体系包括日访问量、 网站设计的感官效果等,注重网络资源的形式而不注重信息内容。用户评价方式 主要是由有关网络资源评价的专业机构向用户提供相关的评价指标体系和方法, 由用户根据其特定信息需求从中选择符合其需要的评价指标和方法【9 1 。 2 2 数据挖掘技术与方法 2 2 1 数据挖掘技术 一、数据挖掘概念 数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随 机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知 识的过程 1 0 ,1 1 1 。 二、数据挖掘过程 数据挖掘的过程从k d d ( k n o w l e d g ed i s c o v e r y i nd a t a b a s e s ,数据库中知识发 基于用户浏览行为的网络资源排序研究 现) 宏观角度看主要有数据准备、数据挖掘及挖掘结果解释和评价三个部分【1 2 ,13 1 。 数据挖掘过程可以描述为这几个阶段反复的过程如下图所示。 : 数据准备l数据挖掘 : 评价 : r 一一一一一一一一一一一一一一一一一一卜r 一一一一一一一下一一一一一一- 1 图2 1 数据挖掘过程 f i g 2 1p r o c e s so fd a t ad i n i n g 三、数据挖掘功能 数据挖掘任务一般可以分为两类:一类是描述,刻画数据库中数据的一般性; 另一类是预测,根据当前数据进行推断,找出规律、模式等,将规律、模式用于 预测。数据挖掘功能主要有以下六类: ( 1 ) 概念类描述 数据可以与类或概念相关联。类概念描述就是用汇总的、精确的、简洁的方 式描述每个类或概念,这种类或概念的描述可以通过下述方法得到:数据特征化, 数据区分,数据特征化和比较。 ( 2 ) 关联分析 数据库中项目间往往隐藏着一些有趣的关联,关联分析就是从大量数据中发 现这些有趣的关联。发现这样的关联可以应用于帮助如企业的顾客分析、商品生 产量分析、上下游企业分析等,为企业决策提供支持。关联分析的主要方法有 a p r i o r i 算法、a p r i o r i t i d 算法和f p - g r o w t h 算法等。 ( 3 ) 分类和预测 分类和预测是两种不同的数据分析形式。分类是找出描述并区分数据类或概 念的模型,根据模型来预测类标记未知的对象类的过程。分类的主要方法有i d 3 算法、c 4 5 算法、b a y e s 分类算法、c b a ( c l a s s i f i c a t i o nb a s e do na s s o c i a t i o n ) 算法、 神经网络方法等。预测是构造连续值函数模型,用来预测未知的的数值数据值, 第2 章数据挖掘理论及相关技术和工具 如回归分析就是一种常用的方法。 ( 4 ) 聚类分析 聚类是在事先不知道的条件下根据要进行分析的对象的一些相似特征分组, 与分类和预测不同,聚类分析数据对象,而不考虑已知的类标记。聚类分析的主 要方法有层次方法、基于网格的方法等。 ( 5 ) 离群点分析 数据库中可能包含一群这样的数据对象,它们所表现出来的行为与数据库中 数据总体行为或模型不一致。这些数据对象就是离群点。在大部分数据挖掘中都 视其为错误数据或异类,为消除它们的影响而排除它们。但在某些应用中孤立点 本身却可能包含着非常重要的信息,值得我们去挖掘分析。这样离群点的分析就 是离群点挖掘。 ( 6 ) 演变分析 数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。尽管 这可能包括时间相关数据的特征化、区分、关联和相关分析、分类或聚类,这类 分析的不同特点包括时间序列数据分析、序列、或周期模式匹配和基于类似性的 数据分析。 2 2 2w e b 挖掘技术 网络技术的迅猛发展使得i n t e r n e t 成为信息发布和交流的全球性平台,w e b 上 包含的信息量也越来越大,使得用户在w e b 上寻找自己所需的信息越来越困难。 有研究表明:9 9 的w e b 信息相对9 9 的用户来说都是无用的【1 4 】。其实用户真正 关心的信息只是沧海一粟。所以如何使用户能够快速、准确、高效地从浩瀚的w e b 信息资源中找到自己所需的信息和知识己经成为一个迫切需要解决的问题,将w e b 与数据挖掘技术有机地结合起来,对w e b 进行挖掘是解决这个问题的有效途径【”】。 一、w e b 挖掘概念和基本分类 w e b 挖掘( w 曲m i n i n g ) 1 6 1 是将数据挖掘技术应用于大规模的w 曲文档和服务 数据中,用以发现新颖的、有效的、潜在有用的及最终可理解的模式和规则的过 程。w 曲挖掘根据对象不同分为w e b 内容挖掘( w e bc o n t e n tm i n i n g ) 、w e b 结构挖 掘( w e bs t r u c t u r em i n i n g ) 采lw 曲使用挖掘( w 曲u s a g em i n i n g ) 三类【1 7 1 。 基于用户浏览行为的网络资源排序研究 | w e b 挖划( w e bm i n i n g ) - = :;三二二s = 二。:。 w e b i q ? 2 日w e b :i 0 挖挚 l w e b7 t i j ! 2 绒 | 何e bc o n t e n tm i n i n g ) ( w e bs t r u c t u r em i n i n g ) | ( w e bu m g em i n i n g ) 图2 2 w e b 挖掘分类 f i g 2 2c l a s s i f i c a t i o no f w e bm i n i n g ( 1 ) w 曲内容挖掘 w e b 内容挖掘是指从文档内容或其描述中抽取知识的过程。w e b 内容挖掘 的重点有两个方面:一是页面分类,根据各个页面的特征,将其划归为事先建立 起来的不同的类中;二是页面聚类,是指在没有事先给定主题类别的情况下,将 w e b 页面按照一定的规则集合聚成若干个簇,在同一簇内的页面内容相似度尽可 能大,簇与簇之间的相似度尽可能小。 ( 2 ) w 曲结构挖掘 w e b 结构挖掘【1 9 1 是通过挖掘w e b 潜在的链接结构模式,从w e b 的组织结构和 链接关系中推导出知识的过程。文档之间的互连性提供了文档内容之外的结构信 息,通过对这些结构信息的分析用以对页面进行排序,发现重要的页面,其典型 代表是p a g e r a n k 算法。w 曲的链接结构模式可以用一个有向图表示,有向图中的 顶点表示页面,边表示超链接。通过对有向图的分析,能找到从一个顶点到另一 个顶点的最短路径,从而找到一个主页到其它页面的最短路径。 ( 3 ) w e b 使用挖掘 w e b 使用挖掘是从w e b 使用数据中发现模式的过程 2 0 】。在一般的w e b 使用挖 掘中,最直接的数据来源是w e b 服务器端的日志数据。w e b 使用挖掘研究中研究 最多的是如何对日志文件进行挖掘,发现用户的习惯偏好、相似的用户群体等知 第2 章数据挖掘理论及相关技术和工具 识。w e b 站点的经营者可以通过对挖掘出来的知识进行分析从而更好地理解用户, 改进网站为用户提供更好的服务。 w e b 使用挖掘的研究方法主要包括两类:一类是基于w e b 事务的方法,将用 户会话划分成事务序列,再使用数据挖掘的方法进行模式挖掘;另一类是基于数 据立方体的方法,将w e b 日志数据直接组织成数据立方体用于数据挖掘和 o l a p 2 0 】。 二、日志挖掘 w e b 日志挖掘是通过对w e b 日志记录数据的挖掘发现用户访问w e b 页面的模 式、挖掘有用模式和预测用户使用行为的技术【2 1 1 。w e b 日志挖掘的结果通常是用 户个人的偏好、模式和用户群体的共同行为、兴趣等。w e b 日志挖掘主要应用在 以下几个方面: ( 1 ) 个性化服务与定制 对用户进行个性化分析为用户提供个性化服务和定制服务。通过对日志文件 中的存取事务聚类分析,发现用户的偏好模式,根据其偏好,在信息的显示、网 站结构及资源格式等方面进行动态定制【2 2 】,为用户定制符合其个人特点的w e b 站 点,并提供符合其偏好要求的个性化接口。通过对用户访问路径分析,生成用户 局部网络导航视图,为有共同偏好的用户进行信息导航。实现过程通常是先基于 用户的访问路径找出用户的共同检索兴趣、习惯和模式等共同特征对用户进行聚 类,再以聚类结果为基础进行信息定制 2 3 】和用户访问行为预测( 包括单用户和用 户簇的行为预测) 。 ( 2 ) 改进系统性能和结构 网站的内容和组织结构的合理设计决定了它的吸引力,因此所有网站都致力 于提高内容和组织结构的合理性。w e b 使用挖掘能够发现用户访问w e b 行为模式, 从而能够为网站设计者提供改进网站设计依据,增强网站吸引力。w e b 日志挖掘 可以在无有经验的人员参加的情况下帮助网站进行有效测试。此外,还可以利用 挖掘出的结果来探讨网站内容安排的自动改进等问题。对所有用户的访问路径、 访问模式及倾向进行分析,挖掘出页面间的关联,获得用户访问模式信息,利用 这些信息改进w 曲站点,提高服务质量。这方面的软件主要有p a g e g a t h e r 2 2 1 , 基于用户浏览行为的网络资源排序研究 s c m l 2 4 】等。 ( 3 ) 商业智能 电子商务风行在一定程度上推动了w e b 使用挖掘的发展。通过挖掘用户浏览 行为和网上购物行为等关系,更好理解用户的购买意图和需求,发现用户的购物 特征和偏好等模式,挖掘电子商务潜在客户,以此为基础进行商业智能、支持商 业决策,制订出合理的符合市场需要的网络广告策略。这方面的应用软件主要有 w e b l o g m i n e r l 2 5 】和b u e h n e r t 2 6 】等。 ( 4 ) 页面推荐 收集用户对站点的近期访问信息并进行统计,分析用户访问网页路径,并与 挖掘的模式进行匹配,并根据匹配结果按照匹配的程度进行排序,预测出活动用 户下一步最有可能访问的页面,并将排序结果页面附加在现行用户请求页面之后, 从而进行页面推荐。该推荐是根据活动用户从其访问活动中动态自动发现的模式 进行的,而不是根据用户输入的p r o f i l e 做出的。二者相比较而言,由用户输入的 p r o f i l e 是静态的,带有片面性,而w e b 站点具有动态性、异质性和实时性。 2 2 3 数据预处理技术 现实世界的数据是不完整的、混乱的,这样的数据是不能够满足数据挖掘的 需求的,因此在进行数据挖掘前首先要对数据进行预处理,数据预处理主要包括 数据清理、数据集成、数据变换和数据规约等【2 7 ,2 8 1 。在经过预处理后的数据将大 大提高数据挖掘的质量和速度。 一、数据清理 数据清理包括填充空缺的值,识别孤立点、光滑噪声,并纠正数据中的不一 致性。 对于空缺值的处理,其方法包括:忽略元组,人工填写空缺值,使用一个全 局的常量填充,使用与给定元组同一类的所有样本的均值和使用最可能的值填充 等。这些方法各有好坏,但常用的方法是用最有可能值来填充空缺值。 噪声是一个测量变量中的随机错误或偏差。处理噪声数据涉及的内容有光滑 噪声、识别离群点和纠正数据的不一致性。其方法有:( 1 ) 分箱,即通过考察周 围数据来平滑存储数据的值。存储的值被分布到一些箱或桶中,然后采取箱平均 第2 章数据挖掘理论及相关技术和工具 值或者箱边界值来平滑。( 2 ) 聚类,简单来说就是取得相对比较集中的值,对于 相对分散的值则忽略的方法。( 3 ) 回归,就是通过一个合适的函数来平滑数据。 二、数据集成 数据集成就是把多个数据源如数据库、数据立方体和一般文件中的数据组合 起来存放在一个一致的数据存储中。在数据集成时,主要考虑的问题有:( 1 ) 实 体识别问题;( 2 ) 数据冗余问题,即一个数据属性可以由另外的属性导出;( 3 ) 数据值冲突的检测与处理,同一实体在不同数据源中的属性值可能不同。 三、数据变换 数据变换就是将数据变换成适于挖掘的形式,数据变换涉及到的主要内容有: ( 1 ) 平滑,即去掉数据中的噪声;( 2 ) 聚集,即对数据进行汇总和聚集; ( 3 ) 数据概化,就是使用概念分层,用高层次概念替换低层次数据;( 4 ) 规范化,即 将属性值按一定比例缩放,使之落入一个特定的小区间;( 5 ) 属性构造,就是构 造一些新的属性并将其添加到属性集中,以帮助挖掘。 四、数据规约 数据规约就是将从用户处得到数据集的进行规约表示,它比原始数据集小得 多,但是归约后的数据仍然接近于原始数据的完整性,这样的数据即保持了数据 的有效性,又使得挖掘更加有效。数据归约的策略主要有:数据立方体聚集、维 度规约、属性子集选择、数据压缩、数值压缩、离散化和概念分层等。 2 3 相关工具 在本文将用到一些工具进行辅助研究,首先是利用网络加速器和浏览器辅助 对象对用户的使用行为进行捕捉;其次是对获得的用户行为进行分析,在分析用 户行为时我们将先利用s p s s 工具对用户行为进行线性回归,建立网络资源评分模 型,再根据关联规则对用户使用的资源进行挖掘,找出这些资源间的关联性,在 这个过程中我们将用到a r m a d a 工具。下面分别对这些工具进行介绍。 2 3 1 网络加速器和浏览器辅助对象 一、亿目加速器 基于用户浏览行为的网络资源排序研究 亿目加速器是由亿目公司开发的一种网络加速器,其目的是为了提高不同网 络之间的访问速度。亿目加速器本质上是一种代理服务器,用于接收用户的访问 请求之后,选择最优路径进行转发,再将结果返回给用户。因为亿目加速器可以 选择最优路径与所有网域高速通信,所以经过网络加速器的转发,对于低速相连 的网络访问其访问速度明显加快了【2 9 】。下图为亿目加速

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论