第6章Web挖掘技术(new).ppt_第1页
第6章Web挖掘技术(new).ppt_第2页
第6章Web挖掘技术(new).ppt_第3页
第6章Web挖掘技术(new).ppt_第4页
第6章Web挖掘技术(new).ppt_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Web挖掘的意义Web挖掘的分类Web挖掘的含义Web挖掘的数据来源Web内容挖掘方法Web访问信息挖掘方法Web结构挖掘方法,从大量的信息中发现用户感兴趣的信息:因特网上蕴藏着大量的信息,通过简单的浏览或关键词匹配的搜索引擎得到的是孤立而凌乱的“表面信息”,Web挖掘可以发现潜在的、丰富的关联信息。将Web上的丰富信息转变成有用的知识:Web挖掘是面向Web数据进行分析和知识提取的。因特网中页面内部、页面间、页面链接、页面访问等都包含大量对用户可用的信息,而这些信息的深层次含义是很难被用户直接使用的,必须经过浓缩和提炼。对用户进行信息个性化:网站信息的个性化是将来的发展趋势。通过Web挖掘,可以达到对用户访问行为、频度、内容等的分析,可以得到关于群体用户访问行为和方式的普遍知识,用以改进Web服务方的设计,提供个性化的服务。,Web挖掘的意义,Web挖掘依靠它所挖掘的信息来源可以分为:Web内容挖掘(WebContentMining):对站点的Web页面的各类信息进行集成、概化、分类等,挖掘某类信息所蕴含的知识模式。Web访问信息挖掘(WebUsageMining):Web访问信息挖掘是对用户访问Web时在服务器方留下的访问记录进行挖掘。通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。,Web挖掘的分类,Web结构挖掘(WebStructureMining):Web结构挖掘是对Web页面之间的链接结构进行挖掘。在整个Web空间里,有用的知识不仅包含在Web页面的内容之中,而且也包含在页面的链接结构之中。对于给定的Web页面集合,通过结构挖掘可以发现页面之间的关联信息,页面之间的包含、引用或者从属关系等。,WeB挖掘是一个宽泛的概念,可以简单地描述为:针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息等在内的各种Web数据,应用数据挖掘方法以帮助人们从因特网中提取知识,为访问者、站点经营者以及包括电子商务在内的基于因特网的商务活动提供决策支持。,Web挖掘的含义,Web挖掘与信息检索,两种截然不同的观点:Web上的信息检索是Web挖掘的一个方面:Web挖掘旨在解决信息检索、知识抽取以及更宽泛的商业问题,是Web上IR技术的延伸。这种观点大多来自于数据挖掘研究领域。Web挖掘是智能化的信息检索:对于IR领域的研究人员来说,Web挖掘是IR研究向着智能化的方向发展的结果。信息检索可能经常被说成是Web挖掘的初级阶段,是为了强调Web挖掘不是简单的信息索引或关键词匹配技术,而是实现信息浓缩成知识的过程,它可以支持更高级的商业决策和分析。,Web挖掘与信息抽取,Web上的IE的研究目的是希望从众多的Web文挡中抽取可供分析的信息,与Web挖掘的关系也有不同的观点:IE是Web挖掘整个过程的一部分:这是因为Web上的数据一般是半结构化或无结构的,因此需要进行规格化的信息抽取这样的预处理。Web挖掘是IE的一个特殊技术:既然IE是希望把Web蕴藏的信息抽取出来,那么Web挖掘或者文本挖掘只不过是达到这个目的的特殊技术手段。信息抽取经常被说成是Web挖掘的一个预处理阶段,那是因为在数据挖掘领域,Web挖掘的更广义的理解应该是一个知识提取的完整过程。,Web挖掘的数据来源是宽泛的:凡是在Web站点中对用户有价值的数据都可以成为它挖掘的数据源。由于这些对象的数据形式及含义的差异,其挖掘技术会不同。一些比较有代表性的数据源有:服务器日志数据在线市场数据Web页面Web页面超链接关系,Web挖掘的数据来源,服务器日志数据,对Web服务器的访问,服务器方将会产生3种类型的日志文件:Serverlogs:记录用户的访问时间、IP地址以及请求等信息。Errorlogs:存取请求失败的数据,例如丢失连接、授权失败或超时等Cookielogs:Cookie是由web服务器产生的记号并由客户端持有,用于识别用户和用户的会话。Cookie是一种标记,用语自动标记和跟踪站点Web的访问者。,这些日志用于记录用户访问的基本情况,是进行Web访问信息挖掘的主要数据源。,FieldDescriptionDateDate,time,andtimezoneofrequestClientIPRemotehostIPand/orDNSentryUsernameRemotelognameoftheuserBytesBytestransferred(sentandreceived)ServerServername,IPaddressandportRequestURIqueryandstemStatushttpstatuscodereturnedtotheclientServicenameRequestedservicenameTimetakenTimetakenfortransactiontocompleteProtocolversionVersionofusedtransferprotocolUseragentServiceproviderCookieCookieIDReferrerPreviouspage,Serverlogs的一个格式示意,在线市场数据,在线市场数据是指和市场活动相关的信息。例如一个电子商务站点,存储相关的电子商务信息。从内容上说,不同目的商务网站有不同的商务信息。但是,这类数据通常是用传统的关系数据库结构来存储数据。在线市场数据是业务数据,是进行业务相关分析的主体。用户的挖掘目标只有结合在线市场数据分析才能达到目的。,Web页面,Web页面是网站信息的主体,但是它们的主要信息不可能像关系型数据库那样规整,因此Web页面的内容组织形式的分析是研究Web挖掘的具体方法的基础。目前的Web页面大多满足HTML标准,现有的Web挖掘方法大多是针对Web页面开展的。1998年WWW社团提出了XML语言标准(eXtensibleMarkupLanguage)。该标准通过把一些描述页面内容的标记(tag)添加到HTML页面中,用于对HTML页面内容进行自描述。基于XML规范的挖掘研究也是一个重要的研究分支。,Web页面超链接关系,Web页面之间的超链接关系是一种重要的资源,Web页面的设计者常常会把他们认为重要的页面地址添加到自己的页面上。显然如果一个页面被很多页面引用那么它一定是重要的。这就是从中需要挖掘的知识。,Web内容挖掘可以被认为是基本的Web检索工作的延伸。有许多技术可用于Web信息检索。如大多数搜索引擎采用关键字匹配技术。Web内容挖掘建立在信息检索基础之上,通过采用概念层次、用户概貌、页面链接技术等对传统搜索引擎进行改进。,Web内容挖掘的方法,Web内容挖掘分为代理人方法和数据库方法。代理人方法使用软件系统(代理)来完成内容挖掘。包括智能检索代理、信息过滤和个性化Web代理等。智能检索代理超越了简单的检索机制,使用通过关键词之外的技术来完成检索,可以利用用户模版或其关心的知识领域等来实现信息的抽取。信息过滤利用信息检索技术、连接结构的知识和其他方法来分析和分类文档。个性化Web代理使用有关用户的喜好的信息来指导它们的检索。数据库方法将所有的Web数据描述为一个数据库系统。意味着Web是一个多级的异构的数据库系统,可以通过多种查询语言获得Web的信息来完成信息的抽取。,Web内容挖掘的基本技术是文本挖掘。文本挖掘的方式是有层次的,基本层次有:关键词检索:最简单的方式,与传统的搜索技术类似。挖掘项目关联:聚焦在页面的信息(包括关键词)之间的关联信息挖掘上。信息分类和聚类:利用数据挖掘的分类和聚类技术实现页面的分类,将页面在一个更到层次上进行抽象和整理。自然语言处理:揭示自然语言处理技术中的语义,实现Web内容的更精确处理。,搜索引擎与Web内容挖掘,传统的搜索引擎(SearchingEngine)效率低下。由于是基于Web中超文本结构分解的:它从一个网页开始的,通过查阅和记录这个网页的所有链接并把它们排列起来,然后再从找到的新页面继续开始重复工作。利用数据挖掘技术来改进搜索引擎是有价值的。如:通过对搜索结果进行关联分析或聚类,对结果进行清洗和浓缩。面向主题进行搜索,即只检索与某一主题有关的页面。聚焦用户感兴趣的页面,在有限的资源下使有效内容挖掘力度提高。基于搜索引擎的挖掘工作有下面一些重要方面:利用超文本链接结构进行页面内容分类,使搜索引擎检索的页面符合用户的兴趣。有些页面包含很多链接,而这些链接的页面是用户感兴趣的,因此它们需要被检索。采用合理而高效的方法对被选择的页面进行内容分析和挖掘。,虚拟的Web视图,一个有效的解决在Web中大量无结构数据的方法是在这些数据之上建立一个MLDB(MultipleLayeredDatabase)。这个数据库是多层次的,每层索引都比它下一层要小。对于最底层来说,需要了解Web文档结构,而最高层则有着完善的结构并可以通过类似SQL的查询语言进行访问或挖掘。MLDB提供一个被称为VMV(VirtualWebView)的视图机制,Web中的感兴趣的结构被浓缩在这个视图中。等级概念(近意词组、词汇和语义联系等)将帮助归纳过程来架构更高层的MLDB。,个性化与Web内容挖掘,通过个性化,网页的内容和组织将更加适合用户的需要。个性化服务是Web挖掘技术的重要目标之一。通过个性化,网页的内容和访问方式将修改以更加适合用户的需求。这些应包括为每个特定用户定制网页,或根据用户的需求决定哪些网页会被检索到。Web内容挖掘的目的之一是基于页面内容相似度进行用户分类或聚类的,个性化的建立是通过用户过去的检索内容分析而建立起来的。自动的个性化技术可以通过过去的需要和相似用户的需要来预知特定用户将来的需要。,Web页面内文本信息挖掘,挖掘的目标是对页面进行摘要和分类。页面摘要:对页面应用传统的文本摘要方法可得相应的摘要信息。页面分类:分类器输入Web页面集(训练集),根据页面文本信息内容进行监督学习,然后就可以将学成的分类器用于对一个新输入的页面进行分类。在处理阶段,要把Web页面集合转化为一个二维的数据表,其中列集为特征集,行为页面集。在文本学习中常用的方法是TFIDF向量表示法,它是一种文档的词集(Bag-of-Words)表示法,所有的词从文档中抽取出来,而不考虑词间的次序和文本的结构。,Web页面内文本信息挖掘,这种构造二维表的方法是:每一列为一个词,列集(特征集)为辞典中的所有有区分价值的词,所以整个列集可能有几十万列之多。每一行存储一个页面内词的信息,将该页面中的所有词对应到列集(特征集)上。列集中的每一个列(词),如果在该页面中不出现,则其值为0;如果出现k次,其值就为k;页面中的词如果不出现在列集上,可以被放弃。这种方法可以表征出页面中词的频度。对中文页面来说,还需先分词然后再进行以上两步处理。这样构造的二维表表示的是Web页面集合的词的统计信息,最终就可采用NaiveBayesian方法或k-NearestNeighbor等方法进行分类挖掘。在挖掘之前,一般要先进行特征子集的选取,以降低维数。,Web页面内多媒体信息挖掘,多媒体挖掘是一个大研究分支,总的挖掘过程是先要应用多媒体信息特征提取工具,形成特征2维表,然后就可以采用传统的数据挖掘方法进行挖掘。在特征提取阶段,利用多媒体信息提取工具进行特征提取。一般地,信息提取工具能够抽取出image和video的文件名、URL、父URL、类型、键值表、颜色向量等。对这些特征可以进行如下挖掘操作:关联规则发现:例如,如果图像是“大”的而且与关键词“天空”有关,那么它是蓝色的概率为68%。分类:根据提供的某种类标,针对特征集,利用决策树可以进行分类。,Web页面内容的预处理,Web页面内容预处理的目的是把包括文本、图片、Script和其他一些多媒体文件所包含的信息转换为可以实施Web挖掘算法的规格化形式。一般,常用分类或聚类的方法完成这样的预处理。常见的Web页面有:首页:站点的主页内容页:提供详细内容信息的页面导航页:提供超链接以帮助用户到达内容页内容导航页:页面中既提供内容,也提供到达其他内容页的或内容导航页的信息查找页:帮助用户查找站点内的特定内容数据入口页:用于从用户那里收集信息,Web页面内容的预处理,Web页面内容预处理的首要工作是对页面的分类。自动完成对页面的分类就是Web挖掘的基础性工作。常见的是采用C4.5或朴素贝叶斯方法。另外,XML语言也可以提供较为详细的分类知识。对文本内容的预处理是开展Web页面内容预处理的主要内容。一些研究包括利用HypergraphClustering进行聚类、利用SupportVectorMachine进行分类、以及特征空间缩减技术等也被广泛采用。虽然Web页面内容挖掘的主要信息源是无结构或半结构的Web页面,但与其他信息的结合可以得到很好的效果,它与Web访问信息挖掘、Web结构或链接挖掘可相互补充:当Web结构挖掘得到站点结构图后,每个HTML文件可用页面内容挖掘算法进行相应的处理,以得到更有用的信息在Web访问信息挖掘的环境下,内容挖掘的结果有助于改进访问信息挖掘的成果。如,内容分类算法的结果有助于限制导航模式发现算法的结果,使发现的模式只包含特定的主题或特定的内容。根据主题和用户访问信息对页面视图进行分类或聚类,得到的结果可以更好的改进Web站点的访问效率。,Web挖掘的意义Web挖掘的分类Web挖掘的含义Web挖掘的数据来源Web内容挖掘方法Web访问信息挖掘方法Web结构挖掘方法,第七章Web挖掘技术内容提要,Web访问信息挖掘的特点,Web访问数据容量大、分布广、内涵丰富和形态多样大规模海量数据信息:一个中等大小的网站每天可记载几兆的用户访问信息。随时间推移,累计信息非常庞大广泛分布于世界各处。访问信息形态多样。访问信息具有丰富的内涵。,Web访问信息挖掘方法,Web访问数据包含决策可用的信息数据记录的用户的访问行为,代表用户的个性。用户的访问特点可以被用来识别该用户和网站访问特性。同一类用户的访问,代表同一类用户的个性。一段时期的访问数据代表了群体用户的行为和共性。Web访问信息数据是网站的设计者和访问者进行沟通的桥梁。Web访问信息数据是开展数据挖掘研究的良好的对象。,Web访问信息挖掘对象的特点访问事务的元素是Web页面,事务元素之间存在着丰富的结构信息。访问事务的元素代表的是每个访问者的顺序关系,事务元素之间存在着丰富的顺序信息。每个页面内容可被抽象出不同的概念,访问顺序和访问量部分决定概念。用户对页面存在不同的访问时长,访问长代表了用户的访问兴趣。,Web访问信息挖掘的意义,通过分析日志文件,可以发现用户访问页面的特征、页面被用户访问的规律、用户频繁访问的页组等,以便其合理、有效地优化站点的结构,最终为用户提供一个方便快捷的信息获取环境。比如,页面1、2、3相互之间没有链接,但有相当数量的用户访问站点时浏览了这三个页面,由于站点设计不合理,使得用户不得不进行多次回退后才能全部浏览到这三个页面。利用Web日志挖掘,可以解决这个问题。,Web访问信息挖掘的意义,在Web访问信息挖掘中,主要解决三方面的需求:Web服务方主要根据自己的领域知识设计Web页面的结构,而群体用户根据各自的访问兴趣访问这些页面,那么服务方的结构设计是否合理?怎样的设计以便利于群体用户的访问,更加吸引访问者?这些问题的解决是Web访问信息挖掘的主要目的。群体用户的访问存在哪些特点?如果掌握了这些特点,那么就可以利用其开展进一步的商务活动。对于每一个新的Web站点的访问者,都会在曾经访问的群体用户中找到一些最相似的相同的访问者,那么那些访问者的访问就可以给这个新的访问者提供推荐,以便利于该访问者的进一步访问。,理解用户访问行为的主要方式就是依靠对用户访问信息的挖掘。面向群体访问者通过Web访问信息挖掘,对总的用户访问行为、频度、内容等的分析,可以得到关于群体用户访问行为和方式的普遍知识,用以改进Web服务方设计。更重要的是,通过这些用户特征的理解和分析,有助于开展有针对性的电子商务活动。这些意义归纳如下:提供高效访问:减少有用信息的检索时间,提高在大负载下的服务性能;吸引访问者;保持访问者:如果网站具有更好的结构设计,就能留住用户;避免访问者离开:找到离开原因,改进网站的结构设计;地区/行业/阶层的分析:根据交易者留下的信息,可以知道访问者所在的地区、所属的行业或阶层;防止访问者迷航:访问者不能找到相应的访问目标,或者面对复杂的页面结构不知所措,那么遇到了迷航的问题。改进页面的结构设计是必要的;群体推荐:针对群体用户的访问偏好,推荐他们感兴趣的东西;针对性服务:如在合适路径上,就可以放置相应内容的广告。,面向群体每一个访问者,能够:个性化推荐。用户建模:根据已有群体用户的访问,推断当前用户的特征。个性化推销(DirectMarketing):识别出对某种产品或服务的可能购买者,对其推荐相应的产品或服务。,Web访问信息挖掘的数据源,由于Web世界的分布性,用户访问行为被广泛地分布记录在Web服务器、用户客户端,和代理服务器中。在各个分布地点的不同的用户访问信息表征了不同类型的用户访问行为。挖掘工作必须针对数据的特点来决定相应的挖掘任务。用户访问信息的分布简单归结为:服务器方:一般地,在一个Web服务器上,服务器日志记录了多个用户对单个站点的用户访问行为。客户方:一般地,在客户端计算机上,客户端的代理记录了单个用户对单个站点或单个用户对多个站点的用户访问行为。客户端的Cache记录了用户访问内容。客户端的BookMark也记录了单个用户对单个站点的访问偏好。客户端代理服务器:代理服务器记录了多个用户对多个站点的访问行为,同时代理服务器内部的Cache记录了多个用户对多个站点的访问内容。,服务器方访问信息,当访问者浏览Web服务器时,将产生ServerLogs、ErrorLogs、CookieLogs等日志文件,这是Web访问信息挖掘的主要数据源。一个Web服务器日志(Serverlog)反映出多个用户对单个站点的访问行为。,一个从实际Web服务器上采集的Log文件片段:,客户端IP地址,用户标识符,时间戳:接受该请求的时间,请求域:包括请求方法/URI/请求协议。GET:从Web服务器得到对象POST:向Web服务器发送对象HEAD:仅请求一个对象的HTTP头,状态域:指示出响应某请求的行为。200299:一般成功响应300399:重定向400499:错误。如404文件未找到500599:Web服务器有问题,返回大小域:返回结果字节数,客户端访问信息,代理服务器端的访问信息包括用户访问日志和在Cache中被访问的页面信息。,8,HEADSWANG,Mozilla/4.0(compatible;MSIE4.0;Windows95),Y,99-3-28,15:57:44,W3Proxy,NTPROXY,-,,80,200,582,1376,http,tcp,GET,,用户端访问信息,代理服务器端访问信息,一个代理服务器日志的例子,代理服务器端,单个客户端的访问信息收集工作可通过使用远程代理或修改浏览器的源代码来实现。单个客户端的访问信息收集带来的益处有:提供单个用户较为精确的对一个站点或多个站点的访问偏好。这种偏好表现为对一些页面或站点的频繁访问。,单个用户,Web访问信息挖掘的预处理,Web访问信息挖掘的基础和最烦琐的工作是数据的预处理。预处理用户访问信息是整个数据准备的核心工作,也是开展下一阶段Web访问信息挖掘的基础。预处理阶段主要的工作是识别用户访问事务和访问片断。WebUsageMining在预处理阶段主要的工作有:数据清洗:由于数据表示、写入的对象差异以及用户的兴趣和挖掘算法对数据要求的不同,对于Web日志中的数据需要确定合理的数据清洗策略。识别用户访问事务:在对Web日志数据进行数据挖掘之前,需要把对Web页的访问序列组织成逻辑单元以表征事务或用户会话。,数据清洗,合并数据:在给定挖掘时间段后,数据清洗需要合并Web服务器上的多个日志文件,并且解析每个文件,将其转化到数据库或特定格式的数据文件中。剔除不相关的数据:在Web日志中一些存取记录可能对挖掘来说是不必要的,例如图形文件,压缩文件等的存取可能对面向文本挖掘的用户不需要考虑,所以应该被剔除。通过检查后缀gif、jpeg、zip、ps等就可以实现。代理访问的处理:由于搜索引擎或其他一些自动代理的存在,日志中存在大量的由它们发出的请求。因此从日志中识别代理(Agent)或网络爬虫(CrawlerorSpider)对站点的访问是必须的。正规化URI(UniformResourceIdentifier):由于各种默认情况的存在,需要进一步正规化URI。数据项解析:CGI数据项必须被解析在不同的域中,并被解析为对的形式。,在对Web日志数据进行数据挖掘之前,需要把对Web页的访问序列组织成逻辑单元以表征事务或用户会话。用户会话:是用户访问一个站点时,访问的全部页的参照序列;事务:在一个用户会话中,依赖于事务识别的标准,事务可以是一个页,也可以是全部页。在Web日志中,用户的访问事务并不是一个显然的结果,需要专门的算法来进行识别和生成。找到相应的事务集,才能对事务集进行关联规则和序列模式发现等挖掘工作。,识别用户访问事务,常见的识别用户会话和事务的技术有:识别单个用户技术,如Cookie或嵌入会话ID,或多或少影响用户的隐私;客户端跟踪技术,有助于得到精确的用户信息,但使用范围窄,不受用户欢迎;嵌入会话ID技术,可以提供精确的跟踪,但需要动态的Web服务机制;用户注册机制,对大多数站点而言,没有必要。等等,下面给出一种用户事务的描述:定义1设L为用户访问日志,其中的一个项lL包括用户的IP地址l.ip,用户的标识符l.uid,被存取页的URI地址l.url,长度l.length以及存取访问的时间l.time,存取访问的时长l.timelength,访问事务被定义为:,这里C是一个固定的时间窗。时间窗C大小的界定是一个经验值(有人建议30分钟较为合适)。,根据上面的定义,给出生成用户访问事务的算法:算法GSS(GeneratingServerSession)输入:日志L输出:用户访问事务集T(1)T=NULL;(2)UserAccessSet=Partitionn(L);/根据每个IP和Agent划分日志。(3)ForeachuaUserAccessSetBEGIN(4)ua=sort(ua);/对每个访问者的访问记录集根据时间升序排序t=NULL;FOReachljuaBEGINIF(lj.time-lj-1.time)CTHENadd(t,lj);/把lj增加到t的尾部ELSEBEGINT=Tt;t=NULL;ENDEND(14)END,经过对Web日志的预处理,找到相应的事务集,就可以对其进行关联规则和序列模式发现等挖掘工作。因此,Web访问信息挖掘的简单步骤可归纳为:对日志进行预处理;根据每一个访问者IP,划分日志,即在日志中找到每个访问者的访问记录集;对每个访问者的访问记录集,根据C进行分割,找到每个访问者的每一次访问记录集,这就构成了一个访问事务;对所有的事务按时间戳有序排列,调用相应的算法对其进行挖掘。,其他信息的预处理技术,1导航内容片断在一些电子商务网站中,需要知道用户到达一个内容页之前是经历哪些导航页的。例如,一个用户访问事务为:N1,N2,N3,C1,N4,N5,N6,C2,N7,N8,C3,N9,N10,N11,N12,C4其中N为导航页,C为内容页。识别导航内容片断就是要从用户访问事务中识别出:片断1:N1,N2,N3,C1。片断2:N4,N5,N6,C2。片断3:N7,N8,C3。片断4:N9,N10,N11,N12,C4。,2最大前向访问序列用户最大前向访问序列是指在用户访问回退之前一直被访问的页面序列。每个最大前向访问序列就构成一个访问片段。定义该片断的优点是有利于发现用户感兴趣的事务。在用户访问事务中寻找最大前向序列必须要依据Web站点的拓扑结构。,在Web访问挖掘中的常用技术,1.路径分析:路径分析最常用的应用是用于判定在一个Web站点中最频繁访问的路径,这样的知识对于一个电子商务网站或者信息安全评估是非常重要的。例如,通过路径分析得出有用信息:70%的客户端在存取/company/product2时,是从/company开始,经过/company/new,或经过/company/products,或经过/company/product1。80%的客户存取这个站点是从/company/products开始。60%的客户在浏览4个或更少页面后离开。,2.关联规则发现:使用关联规则发现方法可以从Web访问事务集中,找到一般性的关联知识。例如:40%的客户访问Web页面/company/product1时,也访问了/company/product2。30%的客户在访问/company/special时,在/company/product1进行了在线订购。,3.序列模式发现:在时间戳有序的事务集中,序列模式的发现就是指找到那些如“一些项跟随另一个项”这样的内部事务模式。例如:在访问/company/products的客户中,有30%的人曾在过去的一星期里用关键词W在Yahoo上进行过查询。在/company/product1进行过在线订购的客户中,有60%的人在过去的15天内也在/company/product4处下过订单。,4.分类:发现分类规则可以给出识别一个特殊群体的公共属性的描述。这种描述可以用于分类新的项。例如:政府机关的顾客一般感兴趣的页面是/company/product1。在/company/product2进行过在线订购的客户中,有50%是2025岁生活在新城区的年轻人。,5.聚类:可以从WebUsage数据中聚集出具有相似特性的那些客户。在Web事务日志中,聚类顾客信息或数据项,就能够便于开发和执行未来的市场战略。例如:自动地给一个特定的顾客聚类发送销售邮件。为一个特定的顾客聚类动态地改变一个特殊的站点等。,Web访问信息挖掘的要素构成,1数据来源:数据的来源分为服务器,代理服务器,和客户端。2数据类型:数据的类型主要分为结构,内容,访问信息,用户概貌文件。3用户的数量:用户的数量表现为:或者数据集只由一个用户的信息构成,或者数据由多个用户的信息构成。4站点的数量:在数据集中的Web站点的个数表现为:或者在数据集中只记录单个站点的信息,或者记录多个站点的信息。5服务对象:Web访问信息挖掘的结果由Web服务方进行应用。应用的结果即服务对象可以是当个单个用户,或群体用户。单个用户即意味着个性化。6挖掘手段:Web访问信息挖掘所采用的各种数据挖掘方法,例如关联规则发现,聚类,分类,统计等等。,利用Web访问信息挖掘实现用户建模,由于Web网站的特性,对网站的经营者和设计者而言,无法直接了解用户的特性。然而对访问者个人特性和群体用户特性的了解对Web网站的服务方而言显得尤为重要。幸运的是可以通过数据挖掘的方法得到用户的特性。“用户建模”(ModellingUsers)是指根据访问者对一个Web站点上Web页面的的访问情况,可以模型化用户的自身特性。在识别出用户的特性后就可以开展针对性的服务。用户建模主要有三种途径。推断匿名访问者的人口统计特性在不打扰用户的情况下,得到用户概貌文件根据用户的访问模式来聚类用户,推断匿名访问者的人口统计特性由于访问者大都是匿名的,所以要根据其访问内容推断其特征,如根据已知访问者的统计特性(年龄、性别、收入、婚姻、教育、子女等)和对访问页面的内容来推断未知访问者的统计特性。常用分类和聚类方法。,在不打扰用户的情况下,得到用户概貌文件用户概貌文件用于描述用户的基本特性。个性化服务的基础。得到用户概貌文件两个途径:用户填写特定的表格数据挖掘方法用户概貌文件至少包含两部分WAG(WebAccessGraph)PIE(PageInterestEstimators),根据用户的访问模式来聚类用户Web访问信息挖掘的一个重要内容就是聚类Web用户,即基于用户的公共访问特性来进行聚类,每个聚类集表征这些用户的共同特性。,利用Web访问信息挖掘发现导航模式,发现导航模式(DiscoveringNavigationPatterns)是Web访问信息挖掘的一个重要的研究领域。用户的导航模式是指群体用户对Web站点内的页面的浏览顺序模式。用户导航模式的主要应用在改进站点设计和个性化服务等方面。改进Web站点的结构设计个性化行销(DirectMarketing):利用关联规则发现算法发现导航模式利用模板发现导航模式利用超文本概率文法发现导航模式,利用Web访问信息挖掘改进访问效率,1Web服务器推送技术当用户下载一个文档时,相关文档就会被推送到Proxy上。从日志中挖掘出关联规则,一旦发现规则“Document1Document2”存在并被选中,则当用户访问了Document1时,Document2就被推送。2自适应网站利用聚类等技术可发现常被一起访问的页面,这时可将他们组织在一个组中,以帮助用户更好的访问。3应用导航模式的结果改进Web站点的访问效率4改进Web服务器的性能,改进Web站点访问效率方法的比较,利用Web访问信息挖掘进行个性化服务,在Web站点开展个性化(Personalization)服务的总的思路和步骤是:模型化页面和用户;分类页面和用户;在页面和对象之间进行匹配;判断当前访问的类别以进行推荐。个性化系统一般分为两个部分离线部分:用于挖掘用户的特性信息;在线部分:用于识别用户,以提供个性化的服务。典型的方法离散聚类和动态链接结合基于关键词学习识别感兴趣的链接自动定制不同的用户访问界面利用客户端代理进行个性化聚类推荐,离线聚类和动态链接结合基于关键词学习识别感兴趣的链接自动定制不同的用户访问界面利用客户端代理进行个性化聚类推荐,利用Web访问信息挖掘进行个性化服务,在Web站点开展个性化(Personalization)服务的总的思路和步骤是:模型化页面和用户;分类页面和用户;在页面和对象之间进行匹配;判断当前访问的类别以进行推荐。而且,个性化系统一般分为两个部分:离线部分和在线部分。,表7-11个性化方法的比较,利用Web访问信息挖掘进行商业智能发现,表7-12商业智能方法的比较,利用Web访问信息挖掘进行用户移动模式发现,在移动计算环境中,一个新的挖掘方法,即用户的移动模式挖掘被提出。挖掘的结果可以用于开发数据的分配模式以改变移动系统的总的性能。首先,对移动环境中的一些日志数据进行挖掘,可以得到频繁用户移动模式。然后,根据挖掘结果和数据的特性设定个人数据分配模式。根据不同层次的挖掘结果,有两种个人数据分配模式:利用集合层次的用户移动模式(DS模式);利用路径层次的用户移动模式(DP模式)。,图7-2在一个移动计算系统中移动模式的例子,利用Web访问信息挖掘用户移动模式发现,利用Web访问信息挖掘进行用户移动模式发现可以分为如下三个主要步骤:数据收集阶段:从各个服务器的日志集合中判断最大的移动序列和移动对的出现次数。挖掘阶段:从第一步的结果集中的每w个最大移动序列中判断大项移动序列。考虑到新近的移动模式,设立w为一个回顾因子,一个可调整的窗口。产生模式阶段:根据第二步的得到的大项移动序列,判断用户的移动模式。,利用协作推荐的方法实现实时个性化推荐,基于协作筛方法的Web站点实时个性化系统的结构如图7-3所示。图7-3基于协作筛方法的Web站点实时个性化系统整个处理过程分为两部分:离线部分:包括数据准备、得到推荐池、建立协作筛。在线部分:推荐引擎。,Web挖掘的意义Web挖掘的分类Web挖掘的含义Web挖掘的数据来源Web内容挖掘方法Web访问信息挖掘方法Web结构挖掘方法,第七章Web挖掘技术内容提要,页面重要性的评价方法,在设计搜索引擎等服务时,对Web页面的链接结构进行挖掘以得出有用的知识是提高检索效率的重要手段。Web页面的链接类似学术上的引用,因此一个重要的页面可能会有很多页面的链接指向它。定义7-3设u为一个Web页,Fu为所有u指向的页面的集合,Bu为所有指向u的页面的集合。设Nu=|Fu|为从u发出的链接的个数,c(1)为一个归一化的因子(因此所有页面的总的PageRank为一个常数),那么u页面的PageRank被定义为:一个页面对应的PageRank值被分配到所有它所指向的页面中;每一个页面求和所有指向它的链接所带来的PageRank以得到它的新的PageRank。在计算时可以从任何一个页面开始,通过上面的公式反复计算直到其收敛。,页面等级,一般地说,页面的页面等级值是通过指向这个页面的数量来计算的,即通过指向向后连接数来计算的。向后连接是指向这个页面的连接减去它指向外面的连接。计算量不是简单地向后连接的数量加合,而是要考虑向后连接的页面的重要性。给定一个页面p,我们使用Bp作为指向一系列指向P的页面,并且用Fp作为一系列由外部指向P的连接,则这里的Nq=|Fq|。常量c是一个介于0,1之间的数,用于标准化。这里有一个循环分级的问题。当计算一个页面的页面等级时,如果发生循环则产生这个错误(页面A指向页面B,页面B同时指向页面A),此时页面等级值随这些页面增加。可以通过另一个公式解决:其中c是最大值,E(v)是一个矢量来增加一个人工连接。它是模拟一个用户不随着连接访问其他页面,而是随机跳到一个新的页面。E(v)增加一对结点中间可能的连接。,权威页面和中心页面,所谓权威页面是指包含需求信息的最佳资源页面。所谓中心页面是一个包含权威页面连接的页面。HITS(Hyperlink-InducedTopicSearch)是遵照寻找权威页面和中心页面的典型方法。HITS技术由两部分组成:基于一组给定的关键字,可以找到相关的页面。权威和中心页面与上述页面有关,返回具有最高权重的页面。,算法7-3HITS输入:(把www看作)一个引导图W;查询请求q;支持s。输出:权威页面的集合A;中心页面的集合H。(1)BEGIN(2)R=SE(W,q);/利用q得到页面的根集合R(3)B=R指向R的连接来自R的连接;(4)G(B,L)=由B导出的W的子图;(5)G(B,L1)=删除G中相同站点的连接;(6)xp=qYq;/L1,得到权威页面的权重;(7)yp=qXq;/L1,得到中心页面的权重;(8)A=p|p为具有最高xp值的页面;(9)H=p|p为具有最高yp值的页面;(10)END,Web访问信息的一些概念(一),W3C国际组织已经为Web访问信息定义了一些基本概念:定义7-4用户(User):用户被定义为一个通过浏览器访问一个或者多个Web服务

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论