(计算机应用技术专业论文)基于数据挖掘的web个性化信息推荐系统的研究.pdf_第1页
(计算机应用技术专业论文)基于数据挖掘的web个性化信息推荐系统的研究.pdf_第2页
(计算机应用技术专业论文)基于数据挖掘的web个性化信息推荐系统的研究.pdf_第3页
(计算机应用技术专业论文)基于数据挖掘的web个性化信息推荐系统的研究.pdf_第4页
(计算机应用技术专业论文)基于数据挖掘的web个性化信息推荐系统的研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机应用技术专业论文)基于数据挖掘的web个性化信息推荐系统的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 近年来,个性化主动信息服务的研究取得了很大的进展。而在个 性化主动信息服务中最重要的服务就是个性化信息推荐。作为人工智 能的一个重要研究领域,数据挖掘近年来有了广泛的应用。因此,两 者的结合基于数据挖掘的w e b 个性化信息推荐服务日益成为一 个重要的研究课题。本文针对目前i n t r n e t 上信息获取方面出现的 矛盾和困难,提出了一个面向i n t e r n e t 的基于数据挖掘的w e b 个性 化信息推荐系统,并研究了其中的关键算法。 w e b 访问挖掘预处理过程主要包括:数据净化、用户识别、会话 识别、路径补充和用户事务模式识别等步骤,本论文针对各个步骤进 行了详细的分析。 进而本文设计并实现了一个基于数据挖掘的w e b 个性化信息推 荐系统,并给出了相应的推荐策略和推荐算法。该系统分为离线部分 和在线部分,离线部分主要完成从站点服务器的访问l o g 文件中挖掘 出适合在线智能个性化推荐服务的用户事务模式,采用了基于关联规 则的挖掘方法。在线部分,实现基于关联规则挖掘的个性化智能推荐 服务。基于关联规则挖掘的推荐方法利用用户自己的用户事务模式文 件,生成聚集树,然后利用用户访问操作和聚集树来发现关联规则, 最终生成推荐集。 关键词数据挖掘,w e b ,最大向前访问路径,个性化服务,聚集树 a bs t r a c t t h er e s e a r c ho fp e r s o n a l i z e da c t i v ei n f o r m a t i o ns e r v i c eh a sm a d ea b i gp r o g r e s sd u r i n gt h e s ey e a r s ,t h em o s ti m p o r t a n to fw h i c hi s p e r s o n a l i z e di n f o r m a t i o nr e c o m m e n d a t i o n d a t am i n i n gh a sb e e na p p l i e d a b r o a di nr e c e n ty e a r sa sak e yr e s e a r c hf i e l do fa r t i f i c i a l i n t e l l i g e n c e t h e r e f o r e ,t h ei n t e g r a t i o no ft h i st w ok i n d so ft e c h n o l o g y , w e b p e r s o n a l i z e di n f o r m a t i o nr e c o m m e n d a t i o ns e r v i c eb a s e do nd a t am i n i n g h a sb e c o m ea ni n c r e a s i n g l yi m p o r t a n tr e s e a r c ht a s ka st h et i m eg o e sb y w i t ht h ei n c r e a s i n ga m o u n to fa v a i l a b l ei n f o r m a t i o no ni n t e r n e t t h i s p a p e rp r o p o s e sap e r s o n a l i z e da c t i v ei n f o r m a t i o nr e t r i e v a lm o d e lb a s e d o nw e bm i n i n gf o ri n t e r n e ta n dr e s e a r c h e sr e l a t e dt om a i nm e t h o d si n t h e s ef i e l d t h ep r e p r o c e s so fw e bu s a g em i n i n gm a i n l yi n c l u d e s :d a t ac l e a n i n g , u s e rr e c o g n i t i o n ,s e s s i o ni d e n t i f i c a t i o n ,p a t h s u p p l e m e n t a t i o na n du s e r t r a n s a c t i o n p a t t e r nr e c o g n i t i o n ,e t c i nt h i sp a p e rv a r i o u ss t e p sa r e a n a l y z e di nd e t a i l t h i sp a p e rd e s i g n sa p e r s o n a l i z e di n f o r m a t i o nr e c o m m e n d a t i o n s y s t e mb a s e do nd a t am i n i n g ,a n dg i v e sar e c o m m e n d a t i o ns t r a t e g ya n d a l g o r i t h m sr e s p e c t i v e l y t op r o p o s ea ni n t e l l i g e n ts e r v i c em e t h o do n p e r s o n a l i z e dr e c o m m e n d a t i o nb a s e do nu s e r s t r a n s a c t i o np a t t e r n sa n d u s e r s c u r r e n tn a v i g a t i o n a la c t i v i t y , t h eo v e r a l lp r o c e s so fw h i c hc a nb e d i v i d e di n t ot w op a r t s :o f f l i n ep a r ta n do n l i n ep a r t i no f f l i n e ,w r e bm i n i n g t a s k sc a ne x e c u t ei nt h el o g so fw r e bs e r v i c e r e s u l t i n gi n au s e r s t r a n s a c t i o n p a t t e m f i l e i n o n l i n e ,t h ec a n d i d a t eu r l sf o r r e c o m m e n d a t i o nc a nb ed e t e r m i n e db ym a t c h i n ga s s o c i a t i o nr u l e si nt h e a g g r e g a t i o n t r e ef o rt h e i n t e l l i g e n t s e r v i c e so f p e r s o n a l i z a t i o n r e c o m m e n d a t i o n t h er e c o m m e n d a t i o nm e t h o db a s e do na s s o c i a t i o nr u l e m i n i n gu s e r s o w nt r a n s a c t i o np a t t e r nf i l et op r o d u c ea s s e m b l yt r e e ,t h e n a s s o c i a t i o nr u l e s b y u s e r s s e s s i o na n d a s s e m b l yt r e e ,f i n a l l y r e c o m m e n d a t i o ns e t se n s u e s 1 ( e yw o r d s d a t am i n i n g ,w e b ,m a x i m a lf o r w a r dr e f e r e n c e p e r s o n a l i z e ds e r v i c e ,a s s e m b l yt r e e n 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在在论文中作了明确的说 明。 作者签名:! 画殛日期:塑! 年旦月兰日 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位 论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论 文;学校可根据国家或湖南省有关部门规定送交学位论文。 中南大学硕士学位论文 第一章绪论 1 1 课题研究背景 第一章绪论 伴随着计算机技术、通信技术的同臻成熟和广泛应用,互联网自9 0 年代初 开始得到迅猛发展,至今虽然只有短短十多年的时间,但它已发展成为现今信息 时代人类生活中不可或缺的重要组成部分,并成为全球范围内传播信息的主要渠 道。随之而来的是互联网上信息资源越来越丰富,人们要在浩如烟海的“混乱的 互联网信息世界中寻找到自己真正感兴趣信息却存在很大的困难,具体表现在: 用户不知道如何贴切表达( 目前技术也并没有提供合适的表达手段) 真正想要的 网上资源的需求,也不知道如何去更准确有效地寻找,即所谓的“信息迷失 问 题n 1 ;和对收到的或已经下载的大量无关的信息难以消化,即所谓的“信息过载” 问题。虽然我们可以借助于搜索引擎来检索w e b 上的信息,但仍不能满足不同 背景、不同目的和不同时期的查询要求,因为大多数搜索引擎缺少主动性,没有 考虑用户的兴趣偏好和用户的不同,无法有效地解决信息过载和信息迷失的问 题。 为了适应用户不断增长的信息需求,有效地解决信息过载和信息迷失给人们 带来的种种问题,研究人员纷纷从人工智能中寻找突破口。在许多探索性研究中, 个性化主动信息服务( p e r s o n a l i z e da c t i v ei n f o r m a t i o ns e r v i c e :p a l s ) 心儿3 作为一种崭新的智能信息服务方式,应用前景广泛,十分引人注目。p a i s 的特 征是信息服务系统根据每个用户的信息需求和用户的个性化模式,主动搜寻相关 信息,并且利用在线智能推荐服务或者推送( p u s h ) 技术瞄1 ,准确地将用户所 需的信息传送到相应的用户。 p a l s 包括三个要素:用户、信息源和它们之问的关联关系,根据这三个要素, p a i s 的研究内容可以归纳为三个主题: ( 1 ) 用户个性化模式的建立。根据用户访问站点的行为和信息需求等资料 建立用户个性化模式。 ( 2 ) 信息源的分类与聚类。将信息分类整理,把同类信息聚集到一起。 ( 3 ) 智能个性化服务机制。建立用户和信息源的对应关系。 在这三个研究主题中,主题( 1 ) 和( 2 ) 是主题( 3 ) 的前提和保证,又以 中南人学硕十学位论文 第一章绪论 ( 1 ) 最为关键。因为要想有效地实现智能个性化主动服务,关键是获取高质量 的用户个性化模式。 在智能个性化主动信息服务中最重要的服务是个性化信息推荐。作为人工智 能的一个重要研究领域,数据挖掘近年有了广泛的应用。因此,两者的结合 基于数据挖掘的w e b 个性化信息推荐服务r 益成为一个重要的研究课题。 1 2 课题研究现状 目前人们己经发展了许多个性化服务技术,个性化服务技术是指针对不同用 户提供不同的服务策略和服务内容的服务模式,帮助用户在w w w 的信息海洋中快 速定位、检索用户自己感兴趣的信息。现在已经出现的一些个性化服务相关的技 术研究主要有: ( 1 ) w e b w a t c h e r 系统一3 :采用跟踪用户浏览w e b 站点的行为或者访问路径 方法,学习用户的访问模式,将用户可能感兴趣的w e b 页在线推荐给用户。 ( 2 ) s i t e h e l p e r 系统m 瑚1 :采用分析每一个用户已经访问的w e b 页,学习用 户的兴趣摸式,从用户感兴趣的w e b 中提取关键词,然后提供给用户,系统基于 用户相关反馈技术为用户推荐其它的相关w e b 页。 ( 3 ) f o o t p r i n t s 系统n 叽1 1 1 :利用可视化技术,为用户提供w e b 站点被频繁 访问的路径。 ( 4 ) a v a n t i 系统n 别:利用自适应规则为每一组相同的用户访问模式实现定 制化。 而基于数据挖掘的个性化信息推荐服务是当前的一个研究热点,在这方面的 主要研究有: ( 1 ) s c h e c h t e r 等人n 3 1 根据用户的访问路径模式预测用户未来可能的h t t p 请求,让代理服务器执行预取操作,将相关w e b 页放入其c a c h e 中,以加快访问 速度。 ( 2 ) c o o l e y d e n 钔等人和b u c h n e r n 叼等人利用数据挖掘技术从访问的l o g 文件 中提取用户的访问模式,用于市场决策和智能推荐服务。 ( 3 ) n a s r a o u i n 8 1 等人采用聚类用户访问模式方法,预测用户未来的访问行 为。 ( 4 ) s h a h a b i 刀等人提出的使用挖掘系统依赖于客户端的数据收集,客户端 的代理为服务器返回用户请求的页面及时间等数据。 ( 5 ) 最新的w e b 使用挖掘综述可以参见j s r i v a s t a v a ,r c o o l e y 等人写的 文献u 刖。 2 中南大学硕士学位论文 第一章绪论 国内学者在w e b 用户访问信息挖掘方面也开展了大量的研究工作。如:上海 交通大学尤晋元教授等人引人w e b 页面的内容链接比和页组的组内链接度,修改 了频繁访问页组支持度的计算公式,提出了基于页面内容和站点结构的页面聚类 挖掘改进算法n 9 3 ;清华大学马少平教授等人,提出一种利用w e b 服务器同志文件, 运用n 元( n - g r a m ) 预测模型对用户未来可能进行的w e b 访问请求进行预测。 1 3w e b 个性化信息推荐技术面临的主要挑战 基于w e b 个性化信息推荐技术还有许多问题需要解决,有待这一领域的研究 者深入研究。归纳起来主要包括: ( 1 ) 隐私问题。由于个性化服务技术中利用到用户的个人资料和网页浏览 行为,这就涉及到隐私问题。要使个性化技术顺利发挥其功效,必须首先提出一 个有效的保护用户隐私的机制。 ( 2 ) 聚类技术。聚类技术是w e b 个性化技术中的关键技术。聚类方法的可 伸缩性,对聚类复杂形状和类型的数据的有效性,高维聚类分析技术,以及针对 大型数据库中混和数值和分类数据的聚类方法都是富有挑战性的研究领域。 ( 3 ) 个性化推荐技术。现有的个性化推荐技术都存在一些缺点,如何克服 这些缺点也是今后研究方向之一。 ( 4 ) 质量评价问题。目前存在很多个性化服务系统,对于系统的评价各有 各的方案,如何更客观的评价个性化服务,提出一个通用的性能指标也是今后研 究方向之一。 1 4 本文研究的内容 本文研究的是一个基于数据挖掘的w e b 个性化信息推荐系统,文中针对w e b 访问挖掘预处理的各个步骤进行了详细的分析,并给出了预处理的关键算法:设 计并实现了一个基于数据挖掘的w e b 个性化信息推荐系统。在此系统中,我们提 出了推荐策略和推荐算法,给出了基于关联规则挖掘的个性化信息推荐服务方 法,并通过实验对该系统进行了测试,验证了该系统的可行性及有效性。 1 5 本文内容安排 全文共分为六章,具体的章节安排如下: 中南人学硕十学位论文第一章绪论 第一章,概述了本课题的研究背景和现状,介绍了本文的研究内容; 第二章,对本论文所需要的数据挖掘理论知识做了简单的论述; 第三章,回顾了w e b 个性化服务的研究现状,描述了w e b 个性化服务系统的 体系结构、实现结构和建立个性化服务的关键技术,涉及w e b 个性化服务的多个 方面。 第四章,针对w e b 访问挖掘预处理的各个步骤进行了详细的分析,并给出了 其中的关键算法; 第五章,设计并实现了一个基于数据挖掘的w e b 个性化信息推荐系统,提出 了推荐策略和推荐算法,并做了相关的实验; 第六章,总结全文,展望下一步工作。 4 中南大学硕士学位论文 第二章数据挖捌知识概述 2 1 数据挖掘 第二章数据挖掘知识概述 2 1 1k d d 产生的背景 2 0 世纪7 0 年代以来,数据库技术在自然科学、工程技术、工商管理、金融 证券、政府机构等领域,已经或者正在实施全面的信息化建设方面得到了迅速发 展及广泛应用。其核心是建立大型复杂的数据库管理系统。随着信息技术的高速 发展,数据库的应用规模、范围和深度不断扩大,已经从点( 单台机器) 、线( 局 域网) 发展到面( 广域网) ,甚至到i n t e r n e t 全球信息系统。近年来,商业条码 的推广、企业和政府事物的信息采集工具的发展和普及,为我们提供了大规模的 数据。在商业、服务业、制造业、政府部门和科学研究等领域的数据管理中都建 立了数以百万计的数据库,不仅积累了大量的历史数据,而且数据量按指数规律 快速增长。 但传统的信息处理技术在于从符号中获取信息,但信息不等于知识,如何从 海量信息中获取知识是信息处理面临的一个重大问题。在信息时代,每天产生的 信息量浩如烟海,数据量堆积如山,它们可能来自数据库、文件系统、w e b 资源 等。它们之中隐藏着丰富的知识远没有得到充分的发掘和利用,正如j o h n n a i s b e t t 的名言:”w ea r ed r o w n i n g i n i n f o r m a t i o n ,b u ts t a r v i n gf o r k n o w l e d g e ”( 人类正被数据淹没,却饥渴于知识) 。过去,没有数据难于决策:现 在,面临浩瀚的数据汪洋,仍然难于决策。人们呼唤从数据汪洋中去粗存精,去 伪存真的计算机技术。 因此,现在仅仅依靠数据库管理系统的查询检索机制和统计学分析方法已远 远不能满足现实需要了,它迫切要求自动和智能的将待处理的数据转化成有用的 信息和知识。于是,数据挖掘( d a t am i n i n g ,d m ) 便应运而生,成为近年来人 工智能、数据库应用领域的研究热点。目前,数据挖掘技术的研究覆盖了多个领 域的多种知识发现方法,已经能够发现关联规则、分类规则、聚类规则等多种知 识类型乜。此外,随之数据仓库技术的发展与应用,联机分析处理( o n - i i n e a n a l y t i c a lp r o c e s s i n g ,称为o l a p ) 陴3 的研究也发展到了一个新的高度,将o l a p 中南人学硕十学位论文 第二章数据挖掘知识概述 与m d 两者结合用于数据分析和知识发现是一个新的研究方向汹1 。 2 1 2k d d 的定义 随着k d d 研究的不断深入,人们对k d d 的理解越来越全面,对k d d 的定义也 不断修改,下面是对k d d 的比较公认的一个定义:k d d 是从数据集中识别出有效 的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程强“踟。 k d d 就是利用机器学习的方法从数据库中提取有价值知识的过程。数据库技 术侧重于对数据存储处理的高效率方法的研究,而机器学习则侧重于设计新的方 法从数据中提取知识。k d d 利用数据库技术对数据进行前端处理,又利用机器学 习方法从处理后的数据中提取有用的知识。 k d d 技术与其他学科和技术也有很强的联系,如统计学、数学和可视化技术 等等。虽然k d d 和机器学习都是从数据中提取知识,但k d d 是从现实世界中存在 的一些具体数据中提取知识,这些数据在k d d 出现之前早已存在;而机器学习 所使用的数据是专门为机器学习而特别准备的数据,这些数据在现实世界中也许 毫无意义。由于k d d 使用的数据来自于实际的数据库,要处理的数据量可能很 大,因此k d d 中的学习算法的效率和可扩充性就显得尤为重要。 2 1 3 数据挖掘产生的背景 数据挖掘是近年来随着数据库和人工智能技术的发展而出现的一种全新信 息技术,也是计算机科学与技术,尤其是计算机网络的发展和普遍使用所提出的 而且迫切需要解决的重要课题。它是以数据库技术为基础,集统计学、人工智能、 模式识别、并行计算、机器学习等技术于一身的交叉性的研究领域乜“2 8 2 7 1 。它的 目标是高度自动化地分析企业原有数据,做出归纳性推理,从中挖掘出潜在的模 式,预测客户的行为,帮助企业决策者调整市场策略,减少风险,做出正确决策。 数据挖掘是一个逐渐演变的过程,电子数据处理的初期,人们就试图通过某 些方法来实现自动决策支持,当时机器学习成为人们关心的焦点。机器学习的过 程就是将一些已知的并已被成功解决的问题作为范例输入计算机,机器通过学习 这些范例总结并生成相应的规则。 这些规则具有通用性,使用它们可以解决某一类的问题。随后随着神经网络 技术的形成和发展,人们的注意力转向知识工程;知识工程不同于机器学习那样 给计算机输入范例,让它生成出规则,而是直接给计算机输入己被代码化的规则, 而计算机是通过使用这些规则来解决某些问题。 8 0 年代人们又在新的神经网络理论的指导下,重新回到机器学习的方法上, 井将其成果应用于处理大型商业数据库。用数据库管理系统来存储数据,用机器 6 中南大学硕士学位论文第二章数据挖捌知识概述 学习的方法来分析数据,挖掘大量数据背后的知识,这两者的结合促成了数据库 中的知识发现k d d ( k n o w l e d g ed is c o v e r yi nd a t a b a s e ) 的产生。人们用k d d 来 描述整个数据挖掘的过程,包括最开始的制定业务目标到最终的结果分析。 2 1 4 数据挖掘的定义 数据挖掘( d a t am i n i n g ,d m ) 又称为数据库中的知识发现( k n o w l e d g e d i s c o v e r yi nd a t a b a s e ,k d d ) ,目前对它的定义可概括如下:“是从数据库的数 据中发现人们感兴趣的知识的处理过程,这些知识应该是非细节的、隐藏的、以 前未知的、潜在有用的和简单的。 在这个定义中包含以下内涵啪瑚圳。 数据:数据是数据挖掘的“源”,这些“源包含一般数据库中的数据,也 包含数据仓库中的数据,甚至包含某些非数据库系统的数据,如文本、主页、多 媒体信息和其它非结构化的内容,这些内容可通过转换成为数据挖掘的目标。 知识:又称模式,是数据挖掘的结果,它是在数据库所提供的数据基础上, 经过分析、推理等方法对数据加以“挖掘”,从中获取蕴含的规则、规律和论断 等。这些知识应具有非细节的、隐藏的、以前未知的、潜在有用的和简单的等特 性。 处理过程:数据挖掘是一个多步骤的处理过程。该过程应是非繁琐的,这是 指处理过程的大部分工作是系统自动进行的,而无须人工干涉。但从目前的技术 发展水平来看,数据挖掘过程需要适当介入人工干预、引导或限制,以提高数据 挖掘的有效性和有用性。 2 1 5 数据挖掘过程 数据挖掘过程可粗略地分为:数据选择、数据集成、数据预处理、数据转换、 挖掘过程以及模式评估和知识表示等口。 ( 1 ) 数据选择 从数据源中检索与分析任务相关的数据。 ( 2 ) 数据集成 建立目标数据集。根据数据挖掘目标,从原始数据中选择相关数据集,并将 不同数据源中的数据集成起来,以确定数据挖掘的操作对象,需要解决平台、操 作系统和数据类型不同产生的数据物理格式差异( 如e b c d i c 码和a s c i i 码、不 同机器的不同字长等) 。 ( 3 ) 数据预处理 数据集中不可避免地存在着不完整、不致、不精确和重复的数据,这些数 7 中南人学硕十学位论文 第二章数据挖掘知识概述 据统称为脏数据。数据抽取之后须利用领域专门知识对脏数据进行清洗。通常采 用基于规则的方法引、神经网络方法口3 1 和模糊匹配技术m 1 分析多数据源数据之间 的联系,然后再对它们实施相应的处理。 ( 4 ) 数据转换 根据分析任务目标,选用关键特征表示数据,并将数据通过汇总或聚集等操 作转换为适于数据挖掘处理的形式。 ( 5 ) 挖掘算法 基本步骤,使用智能方法提取数据模式。这些方法包括概括、分类、回归和 聚类等。 ( 6 ) 模式评估 采用有关方法对数据挖掘发现的模式进行评价,根据某种兴趣度度量,识别 表示知识的真正兴趣的模式。 ( 7 ) 知识表示 使用可视化和知识表示技术,向用户提供挖掘的知识,帮助用户理解发现的 模式。 由上述过程可知,整个挖掘过程是一个不断反馈的过程。比如,用户在挖掘 途中发现选择的数据不太好,或使用的挖掘技术产生不了期望的结果,这时,用 户需要重复先前的过程,甚至从头重新开始。 2 1 6 数据挖掘的主要技术 数据挖掘有多种技术,主要包括以下几种: 关联规则 。 关联规则是用来描述在给定的事务集中,频繁出现的项目集的规则。关联规 则是k d d 研究中的一个重要分支。自从r a g r a w a l 等人在s i g m o d 9 3 上第一次提 出这个问题以来,关联规则一直是众多学者的研究热点。现已发表的研究论文包 括确定性关联规则的挖掘、量化关联规则的挖掘、增量式关联规则的挖掘、模糊 关联规则的挖掘、广义关联规则的挖掘等。著名的关联规则发现算法是a p r i o r i , 该算法首先识别所有的频繁项目集,这是算法的核心。为了改善算法的性能, a g r a w a l 等人在v l d b 9 4 上又提出了快速算法。 分类 分类,属于有导师学习,即利用给定的训练数据集建立分类模型,再通过分 类模型对新的数据进行分类的工程。主要的分类方法有决策树、贝叶斯、神经网 络和粗糙集等。 聚类 8 中南大学硕士学位论文 第二章数据挖掘知识概述 聚类也可以称为无监督分类( 不需要训练集) 。聚类,事先并不知道训练数 据的类标签,而是本着“最大化类内部数据相似度,而最小化类间数据相似度” 的原则,产生新的类别。聚类方法包括统计方法、机器学习方法和空间数据库方 法等。 可视化 可视化就是把数据、信息和知识转化为可视表示形式的过程。可视化技术为 人类与计算机之间提供了一个接口。使用可视化界面,可以快速高效地与大量的 数据交互,以发现其中隐藏的特征、关系、模式和趋势等。a n d r e w 等从认知的 角度讨论了可视化在大规模高维数据集中挖掘的作用,l i 采用三维投影技术可 视化关系数据库。 2 2w e b 挖掘 2 2 1w e b 挖掘的基本概念 w e b 挖掘( w e bm i n i n g ) 是数据挖掘在w e b 上的应用,是一项综合技术,涉及 w e b 、数据挖掘、计算机语言学、信息学等多个领域,不同研究者从自身的领域 出发,对网络挖掘的含义有着不同的理解,项目开发也各有其侧重点。例如,国 外有人认为:w e b 挖掘就是利用数据挖掘技术,自动地从网络文档以及服务中发 现和抽取信息的过程。国内则众说纷纭。有学者将网络环境下的数据挖掘归入网 络信息检索与网络信息内容的开发。也有站在信息服务的角度上提出“w e b 挖掘”, 指出其有别于传统的信息检索,能够在异构数据组成的信息库中,从概念及相关 因素的延伸比较上找出用户需要的深层次的信息,并提出w e b 挖掘将改革传统的 信息服务方式而形成一个全新的适应网络时代要求的信息服务组合。文献。佑1 将 w e b 挖掘定义为:针对包括w e b 页面内容、页面之间的结构、用户访问信息、电 子商务信息等在内的各种w e b 数据,应用数据挖掘方法以发现有用的知识来帮助 人们从w w w 中提取知识,改进站点设计,更好地开展电子商务。我们这里采用一 个更一般的定义啪1 。 w e b 挖掘是指从大量w e b 文档的集合c 中发现隐含的模式p ,如果将c 看作 输入,将p 看作输出,那么,w e b 挖掘的过程就是从输入到输出的一个映射:c p 。 w e b 挖掘从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类 似。但是,w e b 挖掘与传统的数据挖掘相比有许多独特之处。首先,w e b 挖掘的 对象是大量、异质、分布的w e b 文档。我们认- 为,以w e b 作为中间件对数据库进 行挖掘,以及对w e b 服务器上的同志、用户信息等数据所开展的挖掘工作,仍属 9 中南人学硕十学位论文第二章数据挖掘知识概述 于传统的数据挖掘的范畴。其次,w e b 在逻辑上是由一个由文档节点和超链接构 成的图,因此w e b 挖掘所得到的模式可能是关于w e b 内容的,也可能是关于w e b 结构的。此外,由于w e b 文档本身是半结构化或无结构的,缺乏机器可理解的语 义,而数据挖掘的对象局限于数据库中的结构化数据,并利用关系表格等存储结 构来发现知识,因此有些数据挖掘技术并不适用于w e b 挖掘,即使可用也需要建 立在对w e b 文档进行预处理的基础之上。这样,开发新的w e b 挖掘技术,以及对 w e b 文档进行预处理以得到关于文档的特征表示,便成为w e b 挖掘研究的重点。 2 2 2w e b 挖掘的分类( 按资源类型分类) w e b 上信息的多样性决定了w e b 挖掘任务的多样性,根据挖掘对象的不同, 可以将w e b 挖掘分为w e b 内容挖掘、w e b 结构挖掘和w e b 访问挖掘汹1 三大类,如 图2 - 1 所示。 r 一。 w e b 挖掘 图2 - 1w e b 挖掘的分类图 1 、w e b 内容挖掘 w e b 内容挖掘是指对w e b 页面内容进行挖掘,从w e b 文档的内容信息中抽取 知识。w e b 文档文本挖掘、基于概念索引的资源挖掘和基于代理的技术都属于w e b 内容挖掘。w e b 内容挖掘有两种策略:直接挖掘文档的内容,或在其它工具检索 的基础上进行改进。采用第一种策略的查询语言有w e bl o g ,w e b s q l 等,利用启 发式规则来寻找个人主页信息的a h o y 等等。采用第二种策略的方法主要是对搜 索引擎的查询结果进行下一步的处理,得到更为精确和有用的信息。属于该类的 有w e b s q l ,及对搜索引擎的返回结果进行聚类的技术等。 w e b 内容挖掘有很多研究课题,如分类、聚类等。b j o r n a rl a r s e n c h i n a t s u a o n e 等人在k d d 9 9 上发表了使用线形时间文档聚类的快速的内容挖掘方法的文 章,介绍了其聚类算法的主要步骤。d h a e m e n d r as m o d h a 同时综合利用了文本 向量、外链向量作为衡量网页之间的相似关系的因素,并在聚类算法中考虑如何 1 0 中南大学硕士学位论文第二章数据挖掘知识概述 选取这三个因素的权重。 2 、w e b 结构挖掘 w e b 结构挖掘主要是通过对w e b 站点的结构进行分析和归纳,将w e b 页面进 行分类,以利于信息的搜索。因为超文本之间的链接,w w w 显示的信息远比文档 内容多。利用这些信息,可以对页面进行排序,发现重要的页面。这方面工作的 代表有p a g e r a n k 和c l e v e r 。此外,在多层次w e b 数据仓库( m l d b ) 中也利用了 页面的链接结构。 p a g er a n k 算法的基本思想口7 1 是:一个页面被多次引用,这个页面很可能是 重要的;一个页面尽管没有被多次引用,但被一个重要页面引用,则这个页面很 可能是重要的;一个页面的重要性被均分并被传递到它所引用的页面。 h i t s 算法呻1 是利用h u b a u t h o r i t y 方法的搜索算法。它的思想是:一个页面 的权威性取决于它被引用的次数以及链接它的页面的权威性。h i t s 算法应用到 了c l e v e r 和g o o g l e 等系统中。 3 、w e b 访问挖掘 w e b 访问挖掘的主要目标是从w e b 的访问记录中抽取感兴趣的模式。随着越 来越多的企业利用i n t e r n e t 和w w w 进行商业活动,传统的市场分析策略和技术 也应用到了w w w 上的访问模式挖掘。企业和个人在w w w 上的商用或浏览访问活动 的大部分信息都记录在服务器的访问l o g 文件中,其它类型的信息数据还包括引 用l o g 文件、用户登记信息数据及通过工具( 如c g is c r i p t ) 收集的统计数据。 分析这些数据可以帮助企业确定用户的消费心态,制定市场决策策略。此外, 分析w e b 服务器的访问l o g 文件和用户登记信息,还可以挖掘出非常有价值的信 息,能够自适应地个性化w e b 站点的组织结构,以便更好地为企业或个人实现个 性化服务。最后,从广告商的角度看,分析用户访问模式可以根据用户的不同兴 趣,制定相应的广告方式。现有的大多数w e b 分析工具都提供了报告用户访问服 务器的统计信息的机制以及各种形式的数据过滤。利用这些工具,就能够统计特 定用户访问w e b 服务器的次数,甚至是企业数据库中每个文件的次数,以及访问 的间隔时间、域名和用户访问w e b 服务器的u r l 。然而,这类工具仅能统计处理 中等以下访问流量的l o g 文件,没有提供分析访问l o g 文件和目录的功能。 近来涌现了许多有效的系统和技术,用于发现和分析用户访问模式,主要以 两大类形式出现:模式发现和模式分析。 模式发现方法主要是对数据进行预处理后,挖掘出有价值的知识。例如 w e b m i n e r 系统的w e b 访问挖掘系统模型口引,可以从服务器的访问l o g 文件中自 动地发现关联规则和序列模式,m s c h e n 等提出了发现最大向前访问路径n 们 和最大访问序列的算法p o i r o l l i 等人利用信息检索技术,结合访问路径模式、 中南人学硕+ 学位论文第二章数据挖掘知识概述 w e b 页类型和站点拓扑结构,对w e b 页面进行分类,实现用户个性化访问。 现有的几十种商用的w e b l o g 挖掘工具,大部分速度慢,并且做了一些假设 以便减小要分析的l o g 文件的大小。 当访问模式发现以后,下一步就是选择合适的分析方法去理解并使这些访问 模式可视化。j p i t k o w 等研究的w e b v i z 系统就是用于可视化访问路径模式的 例子。c d y r e s o n 等利用o l a p 技术、数据立方体实现对访问l o g 文件进行简单 的统计和分析。w e b m i n e r 系统也提出了类似的s q l 查询机制,用于查询已经发 现的知识,如关联规则和序列模式等。 中南大学硕士学位论文第二章w e b 个性化服务 第三章w e b 个性化服务 个性化服务是指针对不同用户提供不同的服务策略和服务内容的服务模式。 与不区分服务的普通服务模式相比,个性化服务显然具有更高的服务质量。人们 常说的“因材施教就是个性化服务在教育中的一种应用。w e b 个性化服务是指 在i n t e r n e t 中为不同的用户提供针对性的服务,是个性化服务在i n t e r n e t 中的 拓展,是个性化服务新的应用和发展领域。 i n t e r n e t 的迅速发展和i n t e r n e t 资源的指数增长使得个性化服务脱颖而 出。个性化服务已经成为网络技术和智能信息处理中新的研究热点。 3 1 研究和发展动态 1 9 9 5 年3 月,卡内基梅隆大学的r o b e r ta r m s t r o n g 等人在美国人工智能协 会( a a a i ) 春季会议上提出了个性化导航系统w e b w a t c h e r n h 捌,斯坦福大学的 m a r k ob a l a b a n o v i c 等人在同一次会议上推出了个性化推荐系统l i r a 。同年8 月, 麻省理工学院的h e n r yl i e b e r m a n 在国际人工智能联合大会( i j c a i ) 上提出了 个性化导航智能体l e t i z i a h 3 1 。这三个系统被公认为个性化服务发展初期最为经 典的系统,标志着个性化服务的开始。 在此后的几年中,个性化服务系统层出不穷,出现了很多。1 9 9 6 年,加州大 学i r v i n e 分校的b r i a ns t a r r 等人提出了发现用户感兴趣的页面有价值的变化、 进而通知用户访问的个性化服务智能体d o - i - c a r e ;同年,卡内基梅隆大学的 d u n j am l a d e n i c 在w e b w a t c h e r 的基础上进行了改进,提出了个性化推荐系统 p e r s o n a lw e b w a t c h e r h 引;1 9 9 6 年,著名的网络公司y a h o o 也注意到了个性化服 务的巨大优势和潜在商机,推出个性化入口m y y a h o o 。 1 9 9 7 年,a t & t 实验室提出了基于协作过滤方式的个性化推荐系统p h o a k s 和 r e f e r r a lw e b ;斯坦福大学的m a r k ob a l a b a n o v i c 和y o a vs h o h a m 推出了基于内 容过滤和协作过滤两种方式相结合的个性化推荐系统f a b h 引。同年3 月, ( c o m m u n i c a t i o n so ft h ea c m 组织了个性化推荐系统的专题报道,标志着个 性化服务已经受到了相当的重视。 1 9 9 9 年,德国d r e s d e n 技术大学的t a n j aj o e r d i n g 实现了个性化电子商务 原型系统t e l l i m ;麻省理工学院的h e n r yl i e b e r m a n 提出了基于协作过滤方式 中南人学硕十学位论文第三章w e b 个性化服务 的个性化导航系统l e t sb r o w s e 6 1 :意大利t o r i n o 大学的l i l i a n aa r d i s s o n o 和a n n ag o y 提出了个性化网上商店s e t a 。个性化服务开始向全球发展。 2 0 0 0 年,n e c 研究院的k u r td b o l l a c k e r 等人为搜索引擎c i t e s e e r 增加了 个性化推荐功能,将搜索引擎c i t e s e e r 个性化;爱尔兰d u b l i n 大学的b a r r y s m y t h 和p a u lc o t t e r 提出了个性化电视网站p t v ;同年,美国n s f 基金开始支 持有关个性化服务的研究;同年4 月,以美国为主的多国个性化研究机构和网络 公司成立了个性化协会,旨在推动个性化服务的发展,同时保护个性化服务中涉 及的用户隐私。这一年,我国也开始了个性化服务的研究。清华大学的路海明等 人提出了基于多a g e n t 混合智能实现个性化推荐h 。 2 0 0 1 年,纽约大学的g e d i m i n a sa d o m a v i c i u s 和a l e x a n d e rt u z h i l i n 实现 了个性化电子商务网站的用户建模系统1 :i p r o ;i b m 公司在其电子商务平台 w e b s p h e r e 中增加了个性化功能,以利于商家开发个性化电子商务网站:n e c 研 究院的e r i cg l o v e r 等人提出了个性化元搜索引擎原型系统i n q u i r u s 2 。我国也 广泛丌展了对个性化服务的研究,提出了一些原型系统。清华大学的冯翱等人提 出了基于a g e n t 的个性化信息过滤系统o p e nb o o k m a r k h 8 l ;南京大学的潘金贵 等人设计并实现了个性化信息搜集智能体d o l t r i - a g e n t h 训。 近几年,个性化服务逐渐从学术研究走向实际应用,成为业界的热点概念。 很多公司纷纷推出个性化系统,提供个性化服务。很多网站,如m i c r o s o f t 、a o l 、 c n n 、l y c o s 、i b m 等,均推出了个性化功能;很多电子商务网站也注意到了个性 化服务的巨大商机,丌始提供个性化服务,如a m a z o n 、e b a y 、b e s tb u y 、e x p e d i a 等;我国的部分网站( 如新浪网) 也推出了个性化服务。 3 2w e b 个性化服务系统的体系结构 现有的w e b 个性化服务系统个数繁 多,服务形式也不尽相同,但通过对各 种不同的个性化服务系统的分析发现, 不同形式的个性化服务系统都可以抽象 成一个共同的体系结构,即首先收集用 户信息,而后根据用户信息对用户进行 建模,进而在构建的用户模型的基础上 提供个性化的服务策略和服务内容唧1 。 w e b 个性化服务系统的体系结构如 图3 1 所示。 1 4 用户反馈 r 。广。一1 片j用个用 户 户 性 信 化 息 建 服 入 收 y 一 集 模 务 模 模 模 块 块 块 户 图3 - 1w e b 个性化服务系统体系结构 中南大学硕士学位论文 第二章w e b 个性化服务 3 2 1 用户信息收集模块 用户信息收集模块是一种个性化服务系统的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论