(计算机应用技术专业论文)基于web使用挖掘的用户模式识别研究.pdf_第1页
(计算机应用技术专业论文)基于web使用挖掘的用户模式识别研究.pdf_第2页
(计算机应用技术专业论文)基于web使用挖掘的用户模式识别研究.pdf_第3页
(计算机应用技术专业论文)基于web使用挖掘的用户模式识别研究.pdf_第4页
(计算机应用技术专业论文)基于web使用挖掘的用户模式识别研究.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(计算机应用技术专业论文)基于web使用挖掘的用户模式识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种全新信息技术,也是计算机科学与技术,尤其是计算机网络的发展和普遍应用所提出的迫切需要解决的重要课题。数据挖掘是从大量数据库中发现人们感兴趣的、隐藏的、先前未知的知识。数据挖掘技术主要研究结构化的数据挖掘,而w e b 数据挖掘是应用于w w w 的技术研究,是从半结构或无结构的w e b 页面中抽取令人感兴趣的、潜在的模式。w e b 服务器日志记录具有良好的结构,非常有利于进行数据挖掘。w e b 使用挖掘是w e b 挖掘中三个研究领域中非常重要的一个研究方向,通过分析和探索w e b 日志记录中的规律,可以识别电子商务中的潜在客户,增强对用户的网络服务质量,并改进w 曲服务器系统的性能。本文在基于聚类的基础上讨论了w e b 使用挖掘中的各种问题。首先系统地阐述了从数据挖掘、w e b 数据挖掘到w e b 日志挖掘整个过程。通过对基于w e b 日志的数据挖掘的讨论,说明如何进行w r c b 日志挖掘以及在w e b 日志挖掘中应采取的数据挖掘技术。然后从理论的角度对聚类进行较为全面的探讨,分析了聚类的概念,常见的聚类方法和常见的聚类的算法。在w e b 使用挖掘的模式识别阶段,本文对b i r c h 算法改进,将改进的算法应用于w e b 用户模式识别中,验证了算法的有效性。关键词,:数据挖掘,w e b 挖掘,w e b 使用挖掘,用户模式识别a b s t r a c td a t am i n i n gi san e wi n f o r m a t i o nt e c h n o l o g yw h i c ha p p e a r e dw i t ht h ed e v e l o p m e n to ft h ed a t a b a s et e c h n o l o g ya n da r t i f i c i a li n t e lli g e n c et e c h n o l o g yi nr e c e n ty e a r s a ls oi tisa ni m p o r t a n ts u b j e c tw h i c hw a sp r o p o s e db yt h ed e v e l o p m e n ta n da p p li c a t i o no fc o m p u t e rs c i e n c ea n dt e c h n o l o g y ,e s p e c i a ll yb yt h ed e v e l o p m e n to fc o m p u t e rn e t w o r k ,a n di ts h o u l db es o l v e du r g e n t l y d a t am i n i n gi su s e dt od i s c o v e rt h ei n t e r e s t i n g ,h i d d e na n du n k n o w nk n o w l e d g ef r o mm a s sd a t a a n di tm a i n l yd e a l sw i t ht h es t r u c t u r a ld a t a ,w h il ew e bd a t am i n i n gi sb a s e do nw w w ,w h i c hg e t st h ei n t e r e s t i n ga n dp o t e n t i a lp a t t e r nf r o mt h es e m i s t r u c t u r a lo rn o n s t r u c t u r a lw e bp a g e s t h el o gf il e so fw e bs e r v e rw i t han i c es t r u c t u r ew i1 1b ec o n v e n i e n tf o rd a t am i n i n g w e bu s a g em i n i n gi so n eo ft h em o s ti m p o r t a n tr e s e a r c hf i e l d si nw e bm i n i n g i tc o u l df i n do u tt h ep o t e n t i a lc u s t o m e r so fe - c o m m e r c ea n de n h a n c et h eq u a li t yo fw e bs e r v i c eb ya n a l y z i n ga n de x p l o r i n gt h er u l e so fw e bl o g s m o r e o v e r ,i tc o u l di m p r o v et h ep e r f o r m a n c eo ft h ew e bs e r v e r i nt h i st h e s i s ,w ed i s c u s sd i f f e r e n tq u e s t i o n so fw e bu s a g em i n i n gb a s e do ncl u s t e r i n g f i r s t l y ,i ti n t r o d u c e st h ed e v e l o p m e n tf r o md a t am i n i n ga n dw e bd a t am i n i n gt ow e bl o gm i n i n g b yd i s c u s s i n gd a t am i n i n gb a s e do nw e bl o g ,i ts h o w sh o wt op r o c e s st h ew e bl o gm i n i n ga n dw h i c hd a t am i n i n gt e c h n o l o g ys h o u l db et a k e ni nw e bl o gm i n i n g t h e n ,w ed is c u s st h ec l u s t e r i n gt e c h n o l o g yi nd e p t h ,a n da n a l y z et h ec o n c e p to fc l u s t e r i n g ,t h ef a m i l i a rc l u s t e r i n gm e t h o d sa n da l g o r i t h m s 1 1d u r i n gp a t t e r nd is c o v e r yp h a s eo fw e bu s a g em i n i n g ,t h et h e s isp r e s e n t sa na m e li o r a t e ds o l u t i o no nt r a d i t i o n a lb i r c ha l g o r i t h m a n dt h e nt h ei m p r o v e da l g o r i t h mi su s e di nu s e r sp a t t e r n sd i s c o v e r yt op r o v et h ev a li d i t yo ft h ea r i t h m e t i c k e yw o r d s :d a t am i n i n g ,w e bm i n i n g ,w e bu s a g em i n i n g ,u s e r sp a t te r n sd is c o v e r y i i i湖南师范大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品成果对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:望搁鹾山谚年汐月歹日,rvii j 7湖南师范大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南师范大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文本学位论文属于1 、保密口,在年解密后适用本授权书。2 、不保密口。( 请在以上相应方框内打“ )作者签名:事由鞫缪i - - f导师签名:。( 吃渖日期:o 乏矽谚年多月岁日日期:加驴年月7 日基于w e b 使用挖掘的用户模式识别研究1 1 研究背景和意义第一章绪论随着i n t e r n e t 的发展,w w w 的应用越来越广泛,w e b 站点迅猛增长。在竞争日益激烈的网络经济中,只有赢得用户才能最终赢得竞争的优势。所有客户行为都电子化,使得大量收集每个用户的每一个行为数据并深入研究用户的行为成为可能。那么如何利用这个机会,从这些繁琐的数据中得到大众都能看懂的、有价值的信息和知识就成了我们所要面对的问题。将数据挖掘技术用在w e b 站点上,就能够很好的解决这个问题。目前w w w 的数据挖掘应用很大一部分都集中在w e b 站点的日志上。w e b 站点的日志记录了w e b 站点浏览者的所有动作,对这些记录进行挖掘,找出浏览者喜爱的浏览路线,对w e b 站点的经营者和管理者有着很重要的意义。一方面,不同层次、不同使用目的和不同爱好的浏览者需要个性化的信息;另一方面,w e b 站点的经营者和管理者为了提高网站的知名度和效益,需要了解用户需要什么信息和想要做什么。其中包括了大多数用户的共同兴趣,开展有针对性的服务,以及对特定的用户进行个性化的信息和电子商务活动。目前,w e b 日志挖掘主要研究以下几个方面i l 】:1 ) 调整网站信息的组织和显示,优化服务性能。通过对用户浏览路径进行挖掘来进行页面聚类,根据得到的结果调整网站的链接结构;合理的设置广告页面。2 ) 辅助商业决策。在电子商务网站中,对w e b 日志中的顾客信息进行挖掘,就能够发现顾客的购买趋势以及潜在顾客对商品的兴趣,从而对商品信息在页面的显示进行调整,方便顾客浏览和购买,为顾客推荐商品,预测顾客的购买兴趣,还有可能将潜在的顾客转变为实际的购买者。硕士学位论文3 ) 提供在线推荐和页面预取机制。由于w e b 用户的增加和网络的延迟,用户对w e b 服务器的请求常常得不到及时的响应。为了提高服务质量,w e b 浏览器提供了缓冲机制,把用户访问过的w e b 页面保存在本地机器,用户再次读取该页面时,就可以减少读取该页面的时间,提高响应速度。另外,还可以对用户未来的请求进行预测,把用户可能要访问的页面预先放到本地或代理服务器上,当用户要访问这些缓冲过的页面时,就不用从远程服务器传输了,大大减少了用户等待时间。可以将用户距离当前最近的历史访问信息与应用w e b日志挖掘技术所发现的模式进行匹配,确定用户当前所遵循的访问模式;分析当前请求页面中的每一个超链接,然后推荐给用户相关的页面。4 ) 响应每一个特定用户的特定需求并为其提供个性化服务。通过对用户访问历史进行分析,发现用户的访问模式,并从该模式中学习、记忆用户的兴趣、习惯、爱好和需求,建立个性化用户模型。把从w e b 上获取的数据与个性化模型所描述的信息相比较,能够选择性的向用户推荐符合兴趣的个性化信息。使用w e b 日志挖掘来建立个性化用户模型有以下优点: 用户不用对自己的兴趣、爱好和需求进行描述。因为在有些时候,用户很难对自己的需求进行清楚、明确的表达,而用户的行为很自然的反映了用户的兴趣和需求。通过对w 曲日志中的客观数据自动挖掘,发现用户的兴趣和需求,能够减少用户参与的负担,并且具有一定的客观性。 个性化用户模型是能够随着用户需求的改变而不断调整和改进的,因而总是反映用户当前最新的兴趣和需求。 适用于所有的w e b 用户。 把具有相似访问模式的用户加以聚类,可以根据同一类用户的兴趣和爱好向个体用户推荐最有可能需要的信息。基于w e b 使用挖掘的用户模式识别研究1 2 国内外研究现状1 2 1w e b 使用挖掘国外研究现状h u m b o l d t 大学的w u m ( w e bu t i l i z a t i o nm i n e r ) 2 1 能够挖掘w e b 日志中的序列模式,并提供了一个集成了日志准备、模式查询以及可视化的环境。w e b w a t c h e r l 3 1 提出了基于w e b 日志挖掘的个性化服务,用户的每一个页面请求都要经过w e b w a t c h e r 的代理服务器,代理服务器基于用户的兴趣、收集的网页的位置和相关性,引导用户沿着合适的足径浏览。v r e b m i n e r 4 1 系统提供了对w e b 日志进行挖掘的框架,并能对用户访问的文件之间的关系进行分析。j i a np e i 等人提出了简明的高度压缩的w a p t r e e 结构【5 】,基于该结构的挖掘算法简化了用户浏览路径模式的产生过程。m i n g s y a nc h e n s l 等人提出浏览路径挖掘,引入了最大前向路径的概念,用来对w e b 站点日志进行分析。1 2 2w e b 使用挖掘国内研究现状国内的w e b 使用挖掘主要放在理论研究方面。最初研究的重点是对模式发现中挖掘算法的设计、分析和改进。现阶段对日志文件预处理方法和模式分析的研究有所增加。东南大学提出了一种新颖的m b p 算法 7 1 ,利用关联规则发现的频繁项目集以加快速度,能找出所有能满足阀值的频繁浏览路径;陈才扣等人提出一种新的w e b 序列模式,访问序列模式,并提出了识别最大前向访问路径和发现最大前向访问路径i s 的算法;上海交通大学提出了一种w e b 日志预处理阶段的f r a m e 页面过滤算法网;中科院提出了k - p a t h s 路径聚类算法【1 0 】,根据用户访问兴趣对用户集进行划分;国防科技大学、武汉大学也在做电子商务网站中的数据挖掘研究。硕士学位论文从上面的介绍可以看出,国内对数据挖掘研究较多的是关联规则挖掘、序列模式挖掘以及频繁遍历路径挖掘,对聚类挖掘的研究则相对较少。而现有的聚类主要应用在相似客户群体的聚类和相关w e b页面的聚类等方面。对于相似客户群体聚类,国内的大多数研究人员还是停留在依靠统计学方法和简单聚类方法的阶段,如基于模糊等价关系的聚类算法。1 3 论文的内容与框架论文共分为五章。第一章是引言,介绍了数据挖掘和w e b 数据挖掘国内外的研究现状,并说明了本文的研究背景和意义。第二章是w e b 数据挖掘,本章首先给出了数据挖掘的定义,介绍了w e b 数据挖掘的概念、功能和分类以及可以用于挖掘的数据对象类型,描述了w e b 数据挖掘的难点。最后研究了w e b 日志挖掘的处理过程中的几个关键步骤。一是数据采集,从各种渠道采集原始数据,主要来源是服务器端日志。二是预处理阶段,先给对日志中与挖掘算法没有关联的数据进行清洗,并对u r l 地址进行规范化处理,便于后续阶段使用;其次是进行用户识别,用识别算法分辨不同的用户,分别提供针对性的、个性化的服务;还要进行会话识别,将同一用户的浏览行为分解成多个会话,找出点击路径;最后对遗漏的页面路径进行补充,推断出读取缓存网页情况。第三章是聚类分析,本章首先介绍了聚类的概念和用于数据挖掘中的聚类方法,并对主要的聚类算法进行了简要的说明,并使用仿真实验对部分聚类算法进行分析和讨论,对算法的优缺点以及重要影响的参数进行仿真测试,为聚类算法的后续研究奠定了基础。第四章是聚类分析在w e b 使用挖掘中的应用,详细介绍了b i r c h 聚类算法,对b i r c h 算法提出改进并应用在w e b 用户模式识别中。第四章是聚类分析,本章是全文的重点章节,是将前几章中的理基于w e b 使用挖掘的用户模式识别研究论知识应用到实际中去的具体实践的过程。在本章中,首先介绍了b i r c h 算法的相关概念和算法本身,然后对传统的b i r c h 算法中的c f t r e e 进行改进,从而增强了算法的性能,最后用仿真实验来证明结果的有效性。第五章是总结与展望,主要是总结本文的内容,讨论相关方面的研究和趋势,提出进一步的研究工作和方向。本文总结和研究了最新的学术和应用成果,对聚类算法中的b i r c h 算法作出相应改进,将其应用到w e b 使用挖掘中的用户模式识别中,并最后用仿真证明了改进的成果。硕士学位论文2 1w e b 数据挖掘第二章w e b 数据挖掘2 1 1 数据挖掘概述数据挖掘就是通过分析已经存在数据库中的数据解决问题。数据挖掘被定义为发现数据模式的过程。这个过程必须是自动化的或者是半自动化的。计算机技术的另一领域人工智能【1 1 】自诞生之后取得了重大的进展,将人工智能和数据库技术结合起来,促成了数据库中的知识发现( k d d t l 2 1 ,k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ) 的产生。实际上,数据库中的知识发现是一门交叉性学科,涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等多个领域。而从数据库中发现出来的知识可以用在信息管理、过程控制、科学研究、决策支持等多个方面。鉴于数据挖掘对于k d d 的重要性,数据挖掘集中了研究人员的主要精力,相关的研究工作也取得了较大的进展。通常,根据发现任务与发现目标的不同,我们把数据挖掘分为以下几类【1 3 】:1 ) 分类分类是指将数据映射到预先定义好的群组或类。因为在分析测试前,类别就已经确定了,所以分类通常被称作有指导的学习。数据分类就是对数据库中的每一类数据,挖掘出关于该类数据的描述或模型,而这些数据库中的类是事先利用训练数据建立起来的。在数据挖掘中,分类算法的研究成果较多,常用的数据分类算法有:c a i h 、c 4 5 、i d 3 、s l i q 、k n n 、g a k n n 等。2 ) 回归回归是指将数据项映射到一个实值预测变量。事实上,回归涉及学习一个可以完成该映射的函数。回归首先假设一些已知类型的函数基于w e b 使用挖掘的用户模式识别研究( 例如线性函数、l o g i s t i c 函数等) 可以拟合目标数据,然后利用某种误差分析确定一个与目标数据拟合程度最好的函数。3 ) 时间序列分析在时间序列分析中,数据的属性值是随着时间不断变化的。时间序列分析有三个基本功能:第一,使用距离度量来确定不同时间序列的相似性;第二,检验时间序列图中线的结构来确定( 有时是分辨)时间序列的行为;第三,利用历史序列图来预测数据的未来数值。4 ) 预测许多实际的数据挖掘应用需要基于过去和当前数据对未来数据状态进行预测。预测可以看作是一种分类。预测主要是预测未来数据的状态而不是当前状态。预测应用包括水灾预报、语音识别、机器学习和模式识别等。除了可以使用时间序列分析和回归分析对未来值进行预测外,其他的技术也可用于预测。5 ) 聚类分类是一种有指导的学习,而聚类则不同,它属于一种无指导的学习。数据聚类是将物理的或抽象的对象分成几个群体,在每个群体内部,对象之间只有较高的相似性,而在不同群体之间,相似性则比较低。一般地,一个群体也就是一个类,但与数据分类不同的是,聚类结果主要基于当前所处理的数据,我们事先并不知道类目结构及每个对象所属的类别。另外,数据聚类计算量巨大,其时间复杂度也要比数据分类大得多。目前,数据聚类已有很多不同的方法和技术,常见的算法有:p a m 、k - m e a n s 、c l a r a n s 、b i r c h 等。6 ) 汇总汇总就是将数据映射到伴有简单描述的子集中。汇总有时也被称作特征化( c h a r a c t e r i z a t i o n ) 或泛化( g e n e r a l i z a t i o n ) 。汇总从数据库中抽取或者得到有代表性的信息,这可以通过检索部分数据来完成,也可以从数据中得到一些总结性信息( 例如某些数值属性的平均值) 。汇总简洁的将数据库的内容特征化。硕士学位论文7 ) 关联规则【1 4 】所谓关联规则,是指数据对象之间的相互依赖关系,而发现规则的任务就是从数据库中发现那些确信度( c o n f i d e n c e ) 和支持度( s u p p o r t ) 都大于给定值的强壮规则。从数据库中发现关联规则近几年研究最多。目前,已经从单一概念层次关联规则的发现发展到多个概念层次的关联规则的发现。在概念层次上的不断深入,使得发现的关联规则所提供的信息越来越具体,实际上这是个逐步深化所发现知识的过程。目前有很多技术都可用于数据挖掘。机器学习、模式识别、人工智能等领域的技术、方法经过相应的改进,大都可以应用于数据挖掘。常用的方法有决策树、粗糙集、神经网络、遗传算法和概念树等。2 1 2w e b 数据挖掘的概念自从w e b 出现以来,即以惊人的速度发展着。早期w e b 是以信息共享为主,近年来,电子商务、电子图书馆、远程教育等已成为w e b 的主要应用,促使w e b 以更快的速度发展,同时,对w e b 站点的设计和功能提出了更高的要求。要求w e b 具有智能性,能快速、准确地找到用户所需信息;能为不同用户提供不同的服务:能允许用户根据自己的需要定制页面;能为用户提供产品营销策略信息等等。完全彻底地实现所有功能是困难的,它需要在人工智能和自然语言理解等方面有突破性进展。将数据挖掘技术应用于大规模的w e b 数据,发现有效的、新颖的、潜在有用的并能最终可理解的模式规则就形成了w e b 数据挖掘。简单的说,w e b 数据挖掘【1 5 】指从w e b 服务器上的数据文件中提取人们感兴趣的知识。w e b 挖掘其实就是对文档的内容、可利用资源的使用以及资源之间的关系进行分析。基于w e b 使用挖掘的用户模式识别研究2 1 3w e b 数据挖掘的对象和分类w e b 数据挖掘的对象主要包括日志数据、电子商务数据、页面数据以及其他数据等。1 ) 日志数据:当个人浏览w e b 站点时,服务器方将会产生几种类型的文件,如s e r v e rl o g s ,e r r o rl o g s 等,以记录用户的访问基本情况。其中s e r v e rl o g s 记录了用户的各种访问信息,e r r o rl o g s 保存了用户请求失败的数据,如丢失连接、授权失败或超时等。2 ) 电子商务数据:传统关系数据库中存储的结构数据,用于存储日常商务活动中的电子商务信息。3 ) 页面数据:符合h t m l 标准的w e b 页面。4 ) 其他信息:主要包括用户注册、调查信息等一系列信息。是一些为了得到效果更好的挖掘结果而附加的信息。w e b 挖掘实现了对w e b 存取模式、w e b 结构和规则以及动态韵w e b 内容的查找。一般地,w e b 挖掘可分为三类【1 6 1 :w e b 内容挖掘( w e bc o n t e n tm i n i n g ) ,w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) ,和w e b 使用挖掘( w e bu s a g em i n i n g ) 。w e b 结构也可以被认为是w e b内容挖掘的一部分,这样w e b 挖掘可以简单分为两类,即w e b 内容挖掘和w e b 使用挖掘。w e b 内容挖掘也叫w e b 页面挖掘,是从w e b页面内容中挖掘有用的知识。w e b 使用挖掘也叫w e b 日志挖掘,是通过挖掘w e b 日志记录,发现用户访问w e b 页面的模式。图2 1 给出了w e b 挖掘的分类图。图2 - 1w e b 挖掘分类图硕士学位论文1 ) w e b 内容挖掘。w e b 内容挖掘主要是指w e b 文本挖掘和多媒体挖掘。本文主要介绍w e b 文本挖掘。w e b 文本挖掘主要是对w e b 上大量文档集合的内容进行总结、分类、聚类、关联规则分析以及利用w e b 文档进行趋势预测。文本的特征表示是基础,文本的分类和聚类是最基本最核心的功能。文本总结就是文本摘要,它是指从文档中提取关键信息并用简洁明了的形式对文档内容进行摘要和解释,使用户不需浏览全文就可以了解文档或文档集合的总体内容,其目的是对文本信息进行浓缩,给出其紧凑描述。常用的摘要算法技术有:采用词性标注,进行切词分析;用统计方法提取高频词以确定摘要。文本分类的一般过程为:文档表示专特征提取哼文档分类一模型评价。文本聚类是指把一组对象按照相似性归成若干类别。h e a r s t 等人的研究已经证明了与用户查询相关的文档通常会类聚得比较近,而远离与用户不相关的文档【1 7 1 。目前的文本聚类算法主要分为两类:以g - h a c 等算法为代表的层次凝聚法;以k m e a n s 等算法为代表的平面划分法。w e b 内容挖掘常用的研究方法有:词频统计、分类算法、聚类算法、机器学习、模式识别和元数据。w e b 内容挖掘主要应用在:主题抽取和文本分类;半结构化查询语言与模式抽取;w e b 异构数据集成;学习模式或规则;基于特定知识领域的信息发现。这方面的研究成果主要有:b a y e s 模型一基于主题词词频;m a x i m u me n t r o p y 算法- b e y e s i a n算法的改进;对自然语言的理解;c o - t r a i n i n g 利用超链接信息和文本内容的组合。2 ) w e b 结构挖掘w e b 结构挖掘就是挖掘w e b 潜在的链接结构模式,从w e b 组织结构和链接关系中推导信息与知识的过程。通过对w e b 页面的超链接进行分类,可以判断与识别页面信息间的属性关系,由于w e b 页基于w e b 使用挖掘的用户模式识别研究面内部存在或多或少的结构信息,通过研究w e b 页面的内部信息结构,可以寻找出与用户选定的页面集合信息相关的其它页面信息模式,在w e b 数据库中利用w e b 结构挖掘方法检测w e b 站点所展示的信息完整度。康奈尔大学的j o nk l e i n b e r g 提出了一种被广泛采用的技术来解释超链接中的信息。他是基于这样的假设的:在建立从一个站点到另一个站点的链接时,网站的管理者会认为这个被链接的网站是重要的,并且这两个网站通常具有相似的或相关的内容。一个链接到许多权威站点的站称为中枢( h u b ) ,而被许多中枢所连接的站点则成为权威( a u t h o r i t y ) 。基于上面的理论,k l e i n b e r g 创建了识别权威来源的算法h i t s ( h y p e r l i n k - i n d u c e dt o p i cs e a r c h ) t 蝎1 。另外还有很多学术科研机构对w e b 上的超链接进行了研究和分析,并提出了许多关于w e b 结构挖掘的算法。如w e i s s 用聚类的方法对链接结构进行了分析;s p e r t u s 通过将链接结构对应成标准关系数据库中的信息,用s q l 语句实现了对w e b 的查询;k l e i n b e r g 通过对w e b 对应关联矩阵的特征向量计算寻找a u t h o r i t i e s 页和h u b s 页;b r i n 和p a g e 利用页面的i n l i n k 和o u t l i n k 计算w e b 页的p a g e r a n k 值,并以此为依据来寻找权威页;l e m p e l 和m o r a n 利用马尔可夫链的理论,对k l e i n b e r g 的算法进行了改进,提出了一种分析超链接结构的随机算法s a l s a t l 8 1 。目前对w e b 超链接结构进行分析的主要方法是将w e b 对应成有向图或无向图的形式,然后根据一定的启发规则,用图论的方法对其进行分析。比较典型的有p a g e r a n k 算法,该算法是评价网页权威性的一个重要工具【懈。g o o g l e 就是利用该算法和a n c h o rt e x t 标记、词频统计等因素相结合的方法对检索出的大量结果进行相关度排序,将权威的网页放在前面。在高效率的背后,p a g e r a n k 也有其不足,它完全忽略了网页的内容。k l e i n b e r g 提出了h i t s 算法来评定网页内容的重要性,加入了内容挖掘。w e b 结构挖掘的应用领域主要有:搜索引擎查询结果排名;查找硕士学位论文相关文档;计算w e b 页面的r e p u t a t i o m 确定某站点的主要内容和特征;w e bc r a w l e r 的u r l 爬行优先顺序 2 0 1 。3 ) w e b 使用挖掘w e b 使用挖掘是对w e b 服务器的日志进行挖掘来获取信息并预测用户浏览行为的技术,即从用户访问日志中挖掘用户的访问模式。在2 2 节将详细介绍w e b 使用挖掘。2 1 4w e b 挖掘的难点w e b 是一个巨大的、分布广泛的的信息服务中心,涉及到经济、文化、教育、金融、保险、电子商务等信息服务,内容极其丰富。目前,对w e b 进行有效的信息抽取和知识发现面临着很多方面的问题,主要有:1 ) 信息的收取仅限于利用各种搜索引擎。虽然业界开发了很多搜索引擎,但是检索的性能和服务质量并不能令人满意。主要表现在:检索方式单一、检索时间长、检索质量差( 检索精度低和检索面窄) 、无法精确表达用户需求、无法适应用户群体的多样性等。精度低导致返回的结果中常常包含大量无关的信息,用户难以得到真正感兴趣或有用的信息;检索面窄导致很多相关的文档不能查询到。2 ) w e b 是一个动态的,分布式的信息源。w e b 及其数据的更新和增长速度非常之快且无固定的模式。而且w e b 上的信息都是未知的、隐藏的和潜在的,现有的搜索引擎仅用传统的基于关键字的检索方式,很难发现未知的信息和有用的模式。3 ) 不同的用户访问w e b 的兴趣、爱好和目的是不同的,面对各个不同的用户群体,能否使用户根据自已的爱好兴趣定制网页,从而提供个性化服务也是一个问题。4 ) w e b 页面以h t m l 或x m l 呈现的,其数据结构是不规则或不完整的,其复杂程度远远高于普通的文本文档。大量的文档是杂乱无章的,无分类索引的。基于w e b 使用挖掘的用户模式识别研究5 ) w e b 上的数据以t b 数据级计算且在迅猛增长,构建一个庞大的数据仓库把w e b 上所有分布的数据集成起来也是一个难题。2 2w e b 使用挖掘2 2 1w e b 使用挖掘的应用w r e b 使用挖掘( w e bu s a g em i n i n g ) 是利用数据挖掘技术对网站大量的用户访问信息以及其他相关数据所组成的数据集合进行挖掘分析。可以从客户或者服务器的观点对w e b 日志进行分析,从服务器的观点分析,挖掘分析发现的是提供服务的网站的信息,挖掘出来的结果可以帮助改善网站的设计;通过对用户的点击序列进行分析,可以发现一个或一组用户的信息,这些信息可以帮助实现网页的预存取和缓存。w e b 使用挖掘是通过挖掘w e b1 e j 志以发现用户访问w e b 的模式、挖掘有用模式和预测用户浏览行为的技术【2 l 】。r o b e r tc o o l y 将w e b使用挖掘定义为数据挖掘技术应用在大型w e b 资源中以分析w e b 站点的使用 2 2 1 。w e b 使用挖掘的结果通常是用户群体的共同行为和共性兴趣,以及个个用户的检索偏好、习惯和模式等。w e b 使用挖掘可以应用于多种不同的目的。通过分析一个用户访问的网页序列,可以得到用户的信息,从而可以帮助实现个性化。使用网站挖掘,可以评估网页的质量和效果。w e b 使用挖掘主要应用在以下几个方面:1 ) 个性化服务i 通过对用户存取日志文件中的存取事务进行聚类分析,发现用户的人性化搜索兴趣模式,根据个人的喜好,为第个用户定制符合个人特色的w e b 站点,提供符合其兴趣要求的个性化界面。在信息的显示、网站结构及资源格式等方面动态进行定制。硕士学位论文i i 根据对用户访问路径的分析,+ 生成用于导航的用户局部网络视图。根据用户一般对某些特定的资源感兴趣,且其浏览要求往往是重复的这一特点,提出了浏览区域的概念【2 3 1 ,将用户在一次浏览过程中从某个u r l 开始的、彼此间由超链接相连的被点击的网页划分为一个单位,并由此产生该用户的浏览虚拟视图,进行网络导航。i i i 基于用户共同兴趣进行信息导航。首先对用户群体进行聚类,找出各用户簇的共同特征,并据此进行信息定制。i v 用户访问行为预测。包括单用户和用户组的行为预测。文献2 4 对给定的事件序列训练集进行学习,以基于训练集中频繁出现的主题预测未来事件,从而进行网页预取。个性化服务常用的挖掘工具有:w e b w a t c h e r l 2 5 1 、l e t i z i a 2 6 1 、s i t e 2 h e l p e r l 2 7 】等。2 ) 通过确定用户的频繁访问行为,可以识别用户需求的链接,改进系统性能和结构。系统服务的性能和质量对于用户是否满意网站的信息服务等至关重要。w e b 使用挖掘为准确了解w e b 使用的访问情况提供了宝贵的决策支持。由此所获得的挖掘结果将有助于设计合理的w 曲缓存、网络通信、负载平衡或数据分布等方案。主要从统计学的角度,对w e b 系统的特性数据进行多种分析和统计,包括频繁访问页、单位时间访问频度、访问量的时间分布等,从而改进系统性能和结构。这方面的工具有:r e x f o r d 2 引、a g g a r w a l 2 9 1 、wu s a g e 3 0 l 、f a s t s t a t s 3 1 】等。3 ) 站点修改识别通常的访问行为不但可以帮助改变网站的链接结构,还可以帮助改进网页的设计和对网站进行其他修改。例如,如果能够区分一个电子商务网站的用户是否为顾客,就可以把顾客和没有购物的访问者的行为作比较,从而帮助对网站总体设计进行更改。可能会发现许多访问者从来没有访问一个特定网页,就可以对该目标网页进行改进,尝试把那些访问者转变为顾客。这方面的工具有p a g e r g a3 2 】、3 】等。therscmlt34 ) 商业智能基于w e b 使用挖掘的用户模式识别研究w e b 使用挖掘可以对用户行为和购物等关系进行挖掘,更好的理解用户的购买意图,发现其中的用户购买特征和购买趋势、识别电子商务的潜在客户,确定电子商务的潜在客户群,以此进行商业智能、支持商业决策、合理制订网络广告策略等。这方面的工具有:w e b l o g l v f i n e r t 3 + l 、w e b t r e n d s 3 卯、b u e h n 0 3 6 等。5 ) 页面推荐收集和统计用户对站点的近期访问信息,分析其浏览路径,并与挖掘的模式进行匹配,根据匹配程度进行排序,为用户预测下一步最有可能访问的页面,将排序结果附加在现行用户请求页面之后,从而进行页面推荐。2 2 2w e b 使用挖掘的过程w e b 用户访问模式挖掘过程一般分为4 个阶段,分别是:确定数据源( d a t as o u r c e s ) 、数据预处理( p r e p r 0 c e s s i r 吗) p 7 】【3 8 1 、模式发现( p a t t e r nd i s c o v e r y ) 和模式分析( p a t t e r na n a l y s i s ) 。如图2 2 所示:w e b 原始日志预处理)( 模式发现)( r 模式分析预处理后的数据规则、模式、统计数据图2 2w e b 用户访问模式过程有趣规则、模式、统计数据1 ) 确定数据源在w e b 访问模式挖掘中,首先要确定合适的数据源。w e b 用户访问数据可以从以下几方面收集:服务器端( s e r v e r - s i d e ) 、客户端( c l i e n t - s i d e ) 、代理服务器( p r o x ys e r v e r s ) p 9 1 或从一些组织的数据库( 包含商业数据或整理过的w e b 数据) 获得。根据数据来源和可获得数据类型,每种w e b 访问数据收集方式不同。有多种数据类型可用于w e b 挖掘,包括:内容数据( w e b 页面的真实数据,也就是硕士学位论文w e b 页传达给用户的数据,通常包括文本和图形等) ;结构数据( 描述站点的结构信息) ;访问数据( w e b 用户访问信息,包括客户端i p 、参照页、访问日期以及耗用时间等) 和用户背景信息( 注册信息和提交的查询信息) 。曲服务器端数据收集在w e b 访问模式挖掘中最重要的数据源是服务器日志文件( a c c e s sl o g ) ,它详细记录了网站用户的访问行为。服务器日志文件可以用普通日志格式或扩展日志格式存储。可是,由于本地c a c h e 和代理器的存在,使得a c c e s sl o g 记录的用户浏览信息并不完全可靠另外,a c c e s sl o g 无法记录以p o s t 方式向服务器提交的重要信息。p a c k e ts n i f f i n g 技术通过p a c k e ts n i f f e r 登录到w r e b 站点,监测网络流量,直接从t c p i p 包提取用户访问数据,避免了以上情况。使用c o o k i e 可以自动跟踪用户,记录它的访问行为,但这种方法涉及到用户的隐私。w e b 服务器端的日志记录是以文本形式存储的,其中存放了大量与挖掘工作无关的数据,很难将其直接用于挖掘工作。由于服务器或者设置参数的不同,得到的日志文件中的信息也会有所不同,但都包含访问用户的基本信息。日志记录通常有两种格式:通用日志格式( c o m m o nl o gf o r m a t ,c l f ) 和扩展性日志格式( e x t e n d e dl o gf o r m a t ,e l f ) 。其主要结构如表2 1 所示。基于w e b 使用挖掘的用户模式识别研究表2 1w e b 日志记录格式字段描述日期( d a t e )执行操作的日期时间( t i m e )活动发生的时间客户端i p 地址( c - i p )访问服务器的客户端m 地址服务器i p 地址( s i p )生成日志记录的服务器i p 地址方法( m e t h o d )客户端执行的操作( g e t 或p o s t )服务器端口( s - p o r t )客户端连接服务器的端口号u 资源访问的资源协议状态( s t a t u s )h t t p 或f t p用户代理( a g e n t )客户端使用的浏览器发送的字节数眼务器发送的字节数接收的字节数眼务器接收的字节数酝雨时间操作所占用的时间协议版本( v e r s i o n )客户端斫使用的h t t p 或h p 的皈本_ 妄t l ( h o s t )显示主机标题的内容c o o k i e发送或接收的c o o h e 内容劭用站点( r e f e r e r )用户访问的前一个站点服务名( s i t e n a m e )客户端已k y h t j :_ 节t e l i n t e r n e t 服务和实钢编号, q y y ;- g 擎i p 地址( s - 碴)生或a 志记录的眼务器p 地址在表2 - 1 中,斜体字体的为扩展格式日志的记录项,其中一些在日常应用中是很难得到的,例如c o o k i e ,由于涉及到个人隐私,它的使用就要用户的配合,现在大多数浏览器都是可以禁止使用c o o k i e的。一段通用的日志格式记录如表2 2 所示。表2 - 2 通用日志格式的记录2 0 0 6 - 1 1 - 0 60 0 :0 0 :5 22 11 2 8 6 0 1 3 5 1 9 2 1 6 8 2 1 28 0g e t i m a g e s s t y l e s c s s 一2 0 0m o z i l l a 4 0 + ( c o m p a t i b l e ;+ m s i e + 6 0 ;+ w i n d o w s + n t + 5 1 )2 0 0 6 - 1 1 0 60 0 :0 0 :5 22 11 2 8 6 0 1 3 5 1 9 2 1 6 8 2 1 28 0g e t i m a g e s j d _ b g 酉f - 2 0 0m o z i u a 4 0 + ( c o m p a t i b l e ;+ m s i e + 6 0 ;+ w i n d o w s + n t + 5 1 )2 0 0 6 - 1 1 0 60 0 :0 0 :5 22 1 1 2 8 6 0 1 3 5 1 9 2 1 6 8 2 1 28 0g e t i m a g e s j d _ 0 5 g i f 一2 0 0m o z i l l a 4 0 + ( e o m p a t i b l e ;+ m s i e + 6 0 ;+ w i n d o w s + n t + 5 1 )2 0 0 6 - 1 1 0 60 0 :0 0 :5 22 1 1 2 8 6 0 1 3 5 1 9 2 1 6 8 2 1 28 0g e t i m a g e s j d _ s p g i f 2 0 0m o z i l l a 4 0 + ( c o m p a t i b l e ;+ m s i e + 6 0 ;+ w i n d o w s + n t + 5 1 )2 0 0 6 1 1 0 60 0 :0 0 :5 32 1 1 2 8 6 0 1 3 5 - 1 9 2 1 6 8 2 1 28 0g e t i m a g e s j d _ _ a r g i f 一2 0 0m o z i l l a 4 0 + ( c o m p a t i b l e ;+ m s i e + 6 0 ;+ w i n d o w s + n t + 5 1 )”客户端数据收集客户端数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论