




已阅读5页,还剩81页未读, 继续免费阅读
(计算机应用技术专业论文)基于wum的个性化智能推荐技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着i n t e r e n t 的迅速发展和w w w ( w o r l dw i d ew e b ) 技术日渐 成熟并向社会生活各方藤渗透,可利用的信息资源的数量越来越大, 类澄越来越多,人类交互僖患也不可避免圭氇电子化和海量纯。巨量静、 无组织的信息,以及i n t e r e n t 上信息资源分布的广泛性,给用户寻 找感兴趣的信息增加了困难,用户不知道如何更有效地发现自己所需 静信息资源。露显,现有懿信惠发鸯霹搜索弓| 擎,壶予其固有懿缺点, 无法有效地解决这两类问题。 传统的数据挖掘技术和w e b 相缩合衍生的w e b 挖掘技术为有效解 决这一问题开辟了崭耨的途径。本文尝试剥用w e b 挖掘技术对海量懿 w e b 访闻目志数据进行深入圭氇分孛厅帮研究,挖掘出用户的个性化访闻 事务模式,并在此基础上对用户进行锗能地信息推荐,达到个性化主 动信息服务的目的。所做鹏工作主要包括以下几个方面: ( 1 ) 分折了数据挖稼技术豹产生疆蠢襄发展骛最,介绥了当蓠国蠢 外数据挖掘技术研究的现状。 ( 2 ) 对w e b 数据挖掘体系结构进行了深入的分析和研究,综述了w e b 数据挖搬,绘出了稳关鲢定义秘分类,著藏w e b 基怨萋翼半结构 纯数据的挖掘技术进行详细地探讨,描述了w e b 日志数据挖掘 的一般过程。 ( 3 ) 讨论了w e b 使用记录挖掘的预处理方法舱一般流程及相关定 义。掇滋了基予弓 耀时长豹事务模式识剃方法、基予最大前礴 引用的事务模式识别方法和基于时间窗的事务模式方法。 ( 4 ) 讨论了两种用户事务模式的聚类方法,即蒸于最大前向访问路 径导蕊一内容事务模式夔聚类方法翻基予凌容事务模式戆聚类 方法,并分剐提出了基予结构系数的用户事务之间的相似度计 算方法和基于共同祖先、子孙相似系数的相似度计算方法。试 验结果盛示。基予最大蓠向访阉路径导艘一内容事务模式的聚类 将访闻潞径耜似熬爝户事务摸式聚类到一起,因此,跣较适合 在线个性化推荐服务。而基于内容事务模式的聚类方法则较适 合关联性强的w e b 页的聚类分析。 ( 5 ) 磋究了基予黼8 捷惩模式挖掘懿在线个瞧纯智麓德悫推荐黢 务,分为在线部分和离线部分。离线部分主要完成从站点服务 鞭珏二照大学 算规2 0 0 0 研究生弼字拯替老i | l l :张森 涛汪工渡太学疆圭论室 器麴访问l o g 文件中挖掘出适合在线智能个性化推荐服务的照 户事务模式,分别采用了藜于关联觌燹| j 挖掘方法和聚类焉户事 务方法获取用户个性化模式。在线部分,实现基于关联规则挖 掘的个性仡褥能拣荐服务和基于u r l 聚类耩式的个槛纯餐能 推荐服务。本文对这两神魉能推荐方法进行了分析、比较,总 结了它街的优缺点。实验结果显示,该智驻摊荐系襞是可行蠢 有效的。 关键词:w e b 挖掘;w e b 日志挖掘;关联规则:最大前向访问路径: 淄览模式 渐 王羔业丈掣计冀扭2 0 0 0 蝌究生周字 揩粤孝掰 辩森 篷鋈三塑态塑圭整塞 a b s t 融k c 譬 w i t ht h ef a s t - g r o w i n gi n t e r n e ta n dt h em a t u r a t i o no f 箨释箨 ( w o r l dw i d ew e b ) ,a p p l i c a t i o n sb a s e do nt h i st e c h n o l o g ya r e e n t e r i n gin t oe v e r ya s p e c t so fo u rs o c i e t y ,t h em o u n t o ft h e i n f o r m a t i o nw h i c hc a nb em a d eu s eo fb e c o m em o r ea n dm o r el a r g e r e i t h e rt ot h et y p eo f i t 。i n e v i t a b l yt h et r a n s a c t i o n i n f o r m a t i o no fh u m a n k i n di sb e i n ge l e c t r i f i e d 。t ti sd i f f i c u l t f o rt h eu s e rt os e a r c ho u tt h en e e d e di n f o r m a t i o nb e c a u s eo f t h ei 托o r 篷a n i 嚣a 屯i o 轻a n dl a r g e n e s so ft h ei n f o r m a t i o na n dt h e u n i v e r s a l i t yo ft h er e c o u r c e i ni n t e r n e t + f u r t h e rm o r e ,t h e i n f o r m a t i o na c c e s sa n ds e a r c he n g i n ec a nn o tr e s o l v et h e s e p r o b l e m se l f i c i e n c yf o rt h e i ri n h e r ed e f e c t t h ea m a l g a m a t i o no ft h ed a t am i n i n ga n dw e bo f f e ran e ww a y t or e s o l v et h ep r o b l e m 。t h i sp a p e rt r yt om a d ei n ”d e p t ha n a l y s i s a n dr e s e a r c ho nt h ew e bl o g sd a t ab yw e bd a t am i n i n gr e s u l t i n g i nau s e r st r a n s a c t i o np a t t e r n ,m u da c h i e v et h ei n t e l l i g e n t s e r v i c e so fd e r 嚣o n a l i z 鑫t i o 魏r e c o m m e n d a t i o n 。t h ec o n t e n t so f t h i sd i s s e r t a t i o na r e 氇塞f o l l o w s : ( 1 ) w er e v i e wt h eo r i g i n a n db a c k g r o u n do fd a t a m i n i n g t e c h n o l o g y :i n t r o d u c ec u r r e n t s t a t u so fi n t e r n a ti o n a la n d d o m e s ticr e s e a r c ho nd a t am i n i n g 。 ( 2 ) w em a d ei n - d e p t ha n a l y s i sa n dr e s e a r c ho nt h es y s t e m a t i c s t r u c t u r eo fw e bd a t em i n i n g ,g a v eo u t l i n eo fw e bd a t e m i n i n g ,d e f i n i t i o na n dc a t e g o r yo fw e bd a t em i n i n g ,a n d d e s c r i b e dg e n e r a lp r o c e s so fd a t am i n i n gf o rw e bl o g s 。 ( 3 ) t oi n t r o d u c et h eg e n e r a ls t r u c t u r ea n dd e f i n i t i o no ft h e d a t a p r e p r o c e s s i n gp h a s e o fw e b l o g s m i n i n g t h e t r a n s a c t i o ni d e n t i f i c 魏t i o nb a s e do nr e f e r e n c el e n g t h 、 m a x i m a lf o r w a r dr e f e r e n c ea n dt i m ew i n d o w sa r ep r o p o s e d r e s p e c t i v e l y j ( 4 ) t od i s c u s st h ec l u s t e r i n gm e t h o d sf o rt w ou s e rt r a n s a c t i o n p a t t e r n st h a ta r eu s e r sn a v i g a t i o n c o n t e n tt r a n s a c t i o n b a s e do nm a x i m a lf o r w a r dr e f e r e n c ea n dt h eu s e r s c o n t e n t - o n l yt r a n s a c t i o nr e s p e c t i v e l y 。i nt h ef o r m e r t h es i m i l a r i t y m e a s u r e sb e t w e e nu s e r st r a n s a c t i o n p a t t e r n sa t t e m p tt oi n c o r p o r a t e w i t ht h es t r u c t u r e so f 磁游 浙繇瓮簸夫攀静葬枫鞲究生瓣擎牾替老舜 张,森 滚茳羔娩大学颈圭论文 s i t ea n dt h eu r l si n v o l v e d m e a s u r e su s ed i r e c tp a t h s , i nt h el a t t e r ,t h es i m i l a r i t y t h ec o m m o na n c e s t o r sa n dt h e c o m m o nd e s c e n d a n t st oc l u s t e r i n gu s e r st r a n s a c t i o n p a t t e r n s f o rt h eo n l i n e p e r s o n a l i z e di n t e l l i g e n t r e c o m m e n d a t i o ns e r v i c e s ( 5 ) t op r o p o s eai n t e l l i g e n ts e r v i c em e t h o do np e r s o n a l i z e d r e c o l m m e n d a t i o nb a s e do nu s e r st r a n s a c t i o np a t t e r n sa n d u s e r sc u r r e n t n a v i g a t i o n a la c t i v i t y ,t h e o v e r a l l p r o c e s so fw h i c hc a nb ed i v i d e di n t ot w op a r t s :o f f l i n e p a r t a n do n l i n ep a r t i no f f l i n e ,w e bm i n i n gt a s k sc a n e x e c u t ei nt h el o g so f 辫嚣器s e r v i c er e s u l t i n gi nau s e r s t r a n s a c t i o np a t t e r nf i l e i no n l i n e t h ec a n d i d a t eu r l s f o rr e c o m m e n d a t i o nc a nb ed e t e r m i n e d b ym a t c h i n g a s s o c i a t i o nr u l e si nt h ea g g r e g a t i n gt r e eo ru r lc l u s t e r s 箨i t ht h ec u r r e n ta c t i v es e s s i o nf o rt h e i n t e l l i g e n t s e r v i c e so f p e r s o n a l i z a t i o n r e c o m m e n d a t i o n t h e a d v a n t a g e a n d s h o r t c o m i n g o fe a c hi nt w om e t h o d sa r e d i s c u s s e d t h ee x p e r i m e n t sd e m o n s t r a t et h a to u ra p p r o a c h i sa p p l i c a b l ea n de f f e c t i v e 。 k e yw o r d s :w e bm i n i n g :w e b m a x i m a lf o r w a r d l o gm i n i n g :a s s o c i a t i o nr u l e s : t r a v e r s a lp a t h ;b r o w s i n gp a t t e r n s 浙江工业大学计算机2 0 0 0 研究生周宇指导老师 搬森4 浙江工业大学硕士论文 第一章绪言 i n t e r e n t 是一个开放、分布的信息空间,随着它上面的资源成几何级数的 增长,它的三个显著特点也明显地阻碍了人们对i n t e r e n t 上信息资源的充分利 用: i n t e r e n t 可利用的信息是无组织、多种结构形式的,并且分布在全世 界的各个站点上。 数据和服务的类型以及数量每天都在大量增加,信息的可利用性和可靠 性也在不断的变化。 由于信息源的动态性以及潜在的有用信息的更新和保存问题,信息常常 是模糊的,有时还是不完整的。 这三个特点已成为i n t e r e n t 信息服务进一步发展的瓶颈。随着i n t e r e n t 上信息资源、站点和用户数量的进一步增长,网络上的资源管理日趋复杂,网 络管理的自动化和智能化已成为i n t e r e n t 急待解决的问题之一。 1 1 论文的选题背景和意义 i n t e r e n t 的迅速发展,可利用的信息资源的数量越来越大,类型也越来越 多,面对着海量的、无组织的信息,人们难以从中发现对自己有价值的信息, 这种现象称为信息过载。i n t e r e n t 上信息资源分布的广泛性又给用户寻找感兴 趣的信息增加了困难,用户不知到如何更有效的发现自己所需的信息资源,这 也就是所谓的资源迷向。然而,现有的信息发布和搜索引擎,、由于其固有的缺 点,无法有效地解决这两类问题。 对连通的依赖性;由于信息资源分布在i n t e r e n t 各个站点上,搜索引擎 检索信息完全依赖于w e b 页上的超链的链接,虽然用户通过一个搜索引擎能 够搜索到不同站点上的相关信息,但是,每次只能浏览一个站点。如果相关 信息站点没有被链接,收集到的信息可能存在不全的问题。由于网络信息是 动态变化的,用户时常关心的是变化的信息,迫切需要智能化和集成化的智 能信息检索搜索引擎。 浙江工业大学计算机2 0 0 0 研究生周宇指导老师t 张森 浙江工业大学硕士论文 被动性:用户需要的表达完全依赖于用户本身对自己需求的描述,而搜 索引擎只是被动的僵硬地执行命令。现有的搜索引擎所提供的人机接口都是 一种模式,用户不能用自然语言表达自己的信息需求。只要用户使用的关键 词相同,所得的结果就相同,搜索引擎并不考虑用户的兴趣偏好和用户的不 同。另外搜索返回的结果成千上万,良莠不齐,使得用户在寻找自己感兴趣 的信息时有如大海捞针,降低了搜索的质量。用户需要个性化主动信息服务。 请求格式的局限性及输入格式的不统一;现有的搜索引擎在文本处理部 分所采用的语言是人工标识语言,对文本信息也只是特征描述,并没有涉及 到语义层次。因此,只能机械地、死板地接受用户所规定格式的输入请求, 执行字面相似的匹配操作。而且,不同的搜索引擎所提供的输入格式要求也 不同。 为了适应用户不断增长的信息需求,有效地解决信息过载和资源迷向给人 们带来的种种问题,研究人员纷纷从人工智能种寻找突破口。在诸多探索性研 究中,个性化主动信息服务旧j ( p e r s o n a l i z e da c t i v ei n f o r m a t i o n s e r v i c e s :p a i s ) 作为一种崭新的智能信息服务方式,应用前景广阔,十分引人 注目。 p a i s 中的个性化,就是针对每一个用户的独特信息需求进行有针对性的服 务,基于大量用户的各自不同的信息需求进行高效率的集成化信息过滤”j 及信 息分流。从根本上改变了人找信息的传统信息获取方式,变为信息找人,通过 在线式的智能推荐、电子邮件、“频道”推送、预送网页、寻呼机等多种途径将 信息推送给用户。 因此,p a i s 的特征是信息检索系统能够按照用户的信息需求,主动搜索相 关信息。并且利用推送技术【6 7 l 或者在线智能推荐服务1 8 】,准确地将检索结果传 送到相应的用户。用户的信息需求可以是用户提交的格式化请求或自然语言输 入,也可以是用户的个性化模式,如以往的网上冲浪行为和习惯模式等。 p a i s 包括三个要素:用户,信息源和他们之间的关联关系,根据这三个要 素,p a i s 的研究内容可以归纳为以下三个方面: ( 1 ) 用户知识的获取问题。用户访问站点的行为、信息需求等资料通常被w e b 浙江工业大学计算机2 0 0 0 研究生周宇指导老师t 张森 浙江工业大学硕士论文 服务器和用户浏览器以l o g 文件形式缓存,通过分析挖掘这些l o g 文件,获取 有价值的用户知识,创建用户个性化聚类模式。 ( 2 ) 信息源聚类( 或称聚集) 。将信息分类整理,把同类信息聚集到一起,这 是建立用户和相关信息源对应关系,实现个性化智能推荐服务的基础。 ( 3 ) 智能个性化信息服务机制。建立用户和信息源的对应关系,这也是智能个 性化信息服务的最终目的。主要技术是信息滤波技术、信息推送技术和在线智 能个性化推荐服务。 在这三个研究主题中,主题( 1 ) 和( 2 ) 是( 3 ) 的前提和保证,又以( 1 ) 为关键。因为想要有效地实行智能个性化主动服务,关键是要获取高质量的用 户个性化模式。 一般来说,用户的信息需求知识的获取可以在三个层面上进行,即文字层 面、隐含层面和行为层面。文字层面就是我们常见的关键词匹配方式,获取的 知识就是关键词。隐含层面表示用户的知识不能从文字层面获取,必须从用户 的信息需求语句中推理才能获取,即从语义关联性中获取知识。从行为层面获 取用户知识,需要分析反映用户访问w e b 服务器的各种痕迹和线索的历史记录 才能实现,用户以往的历史记录包括:频繁访问信息站点和网页的类型、选择 倾向、相关反馈与二次检索的记录、需求与需求之间的隐性相关、信息内容或 区域、重点浏览的信息内容,甚至失败的记录等。通过分析这些历史记录,构 造用户的个性化模式,应用于未来的个性化检索、信息滤波和网页推荐。 利用w e b 挖掘获取用户知识和信息源知识,是实现智能个性化信息检索的 有效手段。w e b 挖掘就是从用户访问w e b 站点的兴趣需求和行为模式中,挖掘 出用户的知识,用于实现个性化信息服务。 p a i s 作为一种新的信息服务方式,对人们充分利用i n t e r n e t 上的资源进 行信息检索,提高资源的利用率和检索的效率,实现当代人的个性化需求,具 有重要的理论意义和实际意义,它也是实现现有商业检索系统的智能化的一种 重要手段。对当今的电子商务的发展也具有重要意义和价值。 1 2 本文主要研究内容 本课题从p a i s 角度出发,主要研究了基于w e b 使用记录挖掘的个性化智能 浙江工业大学计算机2 0 0 0 研究生周宇指导老师t 张森 浙江工业大学硕士论文 维荐技术所涉及的关键技术及算法,实现弱国i n t e r n e t 的在线智能倍慧推荐服 务。而w e b 访问挖掘又分两个阶段完成,第一阶段主蒙将w e b 访问网志数据经 避数据糖化、豢务识别、数掇集成,转换成适合挖掘任务的集成化事务数据形 式;第二阶段主簧是模式发现糨模式分橱,完成数据挖掇任务。这冀中,模式 发现方法包括了路径分析、关联规则分析、序列模式分析和聚类分析:模式分 秽亍识括了o l a p 可视化工具、知识检索和智能a g e n t 。本论文仅就部分楣关内容 展开深入地探讨。 本文围绕上述研究内容深入研究了以下关键技术和算法: w e b 访阉挖掘及颈处瑾方法 w e b 事务模式聚类方法 基于w e b 访问记录挖掘的智能在线个性化推荐服务 本文将基予w e b 内容挖掘获取的用户模式称约照户个性化模式( u s e r p r o f i l e ) ,相同兴趣的用户个性亿模式聚癸称为用户个性亿聚类模式( u s e r p r o f i l ec l u s t e r i n g ) ,而对熬于w e b 访问挖掘获取的用户模式称为用户事务模 式( u s e r st r a n s a c t i o np a t t e r n ) 。 1 2 1w e b 访问挖掘及其预处理方法 w e b 挖掘楚爨兹网上蟹能售惠检索翻襄业缀务静烹簧辑究课题之一,本文 简要地介绍了w e b 访问挖掘的研究内容。详细地讨论了w e b 访问挖掘的预处理 方法,给出了一般事务模式的定义、导航一内容事务模式定义、内容搿务模式定 义秘最大蔻囊谤麓事务模式定义,提出了蒸手弓| 爱对长戆事务谖剩磐法窝基予 时间窗的事务识别方法。 l 。2 ,2w e b 事务搂式聚类秀法 本文在研究了w e b 访问挖掘的基础上,讨论了不同类型的w e b 南务模式的 聚类方法。研究了两种用户攀务模式的聚凝:基于最大前向访问导航一内容事 务模式戆聚类秽纂子蘑户肉褰事务摸式煞豢类。蓑者缝会链煮豹逻鬟链蔹续稳, 掇出了基于结构系数的用户攀务模式之间相似度计算方法;后者利用引文分析 方法的“引文耦合”和“同被引”概念,提出了基于必阉祖先和共间子孙相似 浙江z 业丈学计算机2 0 0 0 研究生周字措罨老师t 张森4 浙江工业大学硕士论文 系数的相似度计算方法。 1 2 3 基于w e b 访问挖掘的智能在线个性化推荐服务 p a i s 的主要手段之一是个性化推荐服务。本文采用基于用户事务模式聚类 的挖掘,获取用户的个性化模式,实现智能在线个性化推荐服务。本文提出的 基于w e b 访问挖掘智能在线个性化推荐服务过程分成离线和在线两部分,离线 部分由数据准备和特定的访问挖掘任务组成,在线部分利用离线部分生成的频 繁项和u r l 聚类,再根据用户当前访问操作行为,动态地为用户推荐下一步访 问操作,从而实现了个性化智能推荐服务的自动化、动态和实时。 1 3 本文内容安排 全文共分六章。具体的章节内容安排如下: 第一章概述了论文的选题背景及意义,介绍了本文的主要研究内容。 第二章介绍了本文所涉及的相关研究技术及其国内外最新动态。 第三章详细地讨论了w e b 访问挖掘预处理的关键算法,包括数据精化、用 户识别、访问操作识别、路径完善和事务识别。 第四章讨论用户事务模式聚类问题,提出了两种类型的用户事务模式的聚 类方法。 第五章讨论基于w e b 访问挖掘的个性化智能推荐服务技术,着重研究了基 于关联规则挖掘的智能个性化推荐服务和基于u r l 聚类模式的智能个性化推荐 服务。 第六章总结了全文,探讨了未来研究方向。 浙江工业大学计算机2 0 0 0 研究生周宇指导老师:张森 浙江工业大学硕士论文 第二章相关研究技术及动态 2 1 数据挖掘技术 2 1 1 数据挖掘技术概述 近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万 个数据库被用于商业管理、政府办公、科学研究和工程开发等等,并且这一势 头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆 炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋 大海所淹没,从中及时发现有用的知识,提高信息利用率呢? 要想使数据真正成 为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才 行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对“人们被数据 淹没,却饥饿于知识”的挑战,数据挖掘和知识发现( d m k d ) 技术应运而生,并 得以蓬勃发展,越来越显示出其强大的生命力。 数据挖掘( d a t a m i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随 机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息 和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识 ( k d d ) 、数据分析、数据融合( d a t af u s i o n ) 以及决策支持等。人们把原始数据 看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的, 如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚 至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非 数学的:可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、 查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据 挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、 人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。 特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向 特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观 的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件问的相互 关联,甚至利用已有的数据对未来的活动进行预测。这样一来,就把人们对数 浙江工业大学计算机2 0 0 0 研究生周宇指导老师;张森 辑汪工娩太学疆论文 据的应用,从低层次的末端查询操作,提高到为各级经营决策糟提供决策支持。 这神需求鞭动力,比数据库查询更为强大。同时需要指出的是,这里所说的知 识发王觅,不是要求发现技之四海丽黉准静真理,壤不是要去发税崭薪豹自然奉萼 学定理和纯数学公式,照不是什么机器定理证明。所有发现的知识都是相对的, 是有特定前提和约束条传、面向特定领域的,同时还要能够易于被用户理解, 最好能璃巍然语言表这发现结果。困扰d m k d 的研究成采是缀讲求实际豹。 2 1 2 数据挖掘技术研究现状 k d d 一调首次密璃在1 9 8 9 年8 胃举行魏第l l 麓国际联合入工智能学术会议 上。迄今为止,由美国人工智能协会难办的k d d 阑际研讨会已缎召开了8 次, 规模由原来的专题讨论会发展到国黪学术大会,人数由二三十人到七八百人, 论文收录魄镯从2 眈l 翻6 魄l ,研究重点也逐渐麸发现方法转向系统应溺, 并且注重多种发现策略和技术的集成,以及多种学科之间的棚艇渗透。其他内 容的专题会议也把数据挖握和知识发瑷烈为议题之一,成为当靛计算机科学器 的一大热点。 现有的数据挖掘技术分为五类,即预测模型化、聚类、数搬归纳、依赖模 型纯以及舞常检测。从露内外基嚣的硬究进展来餐,各学科戆研究鱼成一派, 没有突破务个领域的技术界限,茏冀是未将并行优化的方法集成用于数据艨中 的数据挖掘,从而提高实时性,并解决随机的、幼态的、不完企的及馄饨数据 匏数握挖攥,瑟所谓静餐楚数据挖壤。近每寒,露些技术已舞鲶定位于大型数 据库上盼 窀掘,即基予磁盘存储迸幸予挖掘,扶而滋现了关系数瓣库的数据挖掘、 面向对象数据库的数据挖掘等。由予i n t e r n e t 和w w w 的广泛殿用,出现了基于 吴构数攒源毂数据挖搦,翔文本挖撼、蛙闯序烈挖攘、毫子囊务系统中戆数攥 挖掘。伴随着数据库技术的发展,多媒体数据库的挖掘、对态数据库的挖掘、 空间数据岸的挖掘也引起了人们的广泛关注。 夔蓉数暴挖搀技术熬发震,数攥挖蠡软 孛也襄了突飞猛遴童l 錾发震。国豁上 有影响的典型数据挖掘系统有s a s 公司的e n t e r p r i s em i n e r ,i b m 公司的 i n t e l l i g e n tm i n e r ,s g i 公司的s e t m i n e r 等。岛国外相比,阑内的大部分还 楚予鞋磷除段,没毒形成整臻力量,黧内萋终戆数摄挖掘方嚣熬书遣较少凳鲻。 浙江工业大学计算机2 0 0 0 研究生周宇指导老郁l 张森 濒扛工监丈学磺士论文 目前,一些大学和科研机构从事数据挖掘技术和算法的研究,包括清华大学、 中科院计算机技术研究所、掇军第三研究所、海军装备论证中心等。其中,北 京系统工程疆究袋对模凝方法在知识发瑷中载痘曩进程了较深入豹囊秀突,j l 京 大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、 中豳科技大学、中科院数学研究所、吉林大学等单位开展了对关联舰则开采算 法豹臻健秘改逡;枣索大学、溪翊联舍大学秘上海交逶大学等萃经搽讨蓦舞究了 非结构化数据的知识发现以及w e b 数据挖擒。这其中的一些公司在圜外产品的 基础上开发了热有特定应用的自主知识产权的数据挖掘软件,如复旦德门 ( w w w 。d a t a m i n i n g 。c o m c n ) 簿。 研发机构( 企业)产品名称 s a s 公司e n t e r p r i s em i n e r i b m 公司i n t e l l i g e n tm i n e r s g i 公司s e t m i n e r s p s s 公司c l e m e n t i n e s y b a s e 公司 w a r e h o u s es t u d i o r u l e q u e s tr e s e a r c h 公司 s e e 5 i n t e g r a ls o l u t i o n 公司 c l e m e n t i n e h n cs o f t w a r ei n c d a t a b a s em i n i n gw o r k s t a t i o n c o g n i t i v es y s t e m s 公司 r e m i n d m i tg m b h 公弼d a t a e n g i n e a n g o s ss o f t w a r ei n tl t d k n o w l e d g es e e k e r 袭2 1 典型数嚣挖掘产品 2 1 3 挖掘任务及挖掘方法 数据挖掘掰戆发现静知识寿妇下几秘:广义型知识,反映同类搴甥共同性 质的知识:特镊鍪知识,反映事物各方面的特征知识;麓异型知识,反映不同 事物之间属性熬别的知识;燕联型知识,反映事物之间依赖或关联的知识;预 测怨知识,棂撼历史豹和当翡熬数据推测来来数据;镳离墅知识,羯示事物缡 浙江工业大学计算机2 0 0 0 研究生周字描肆老师:张森 浙江工业大学硕士论文 离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概 念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。 至于发现工具和方法,常用的有分类、聚类、减维、模式识别、可视化、决策 树、遗传算法、不确定性处理等。 数据挖掘涉及的学科领域和方法很多,有多种分类法。根据挖掘任务分, 可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、 依赖关系或依赖模型发现、异常和趋势发现等等:根据挖掘对象分,有关系数据 库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、 异构数据库、遗产数据库以及互联网w e b :根据挖掘方法分,可粗分为:机器 学习方法、统计方法、神经网络方法和数据库方法。机器学习中,可细分为: 归纳学习方法( 决策树、规则归纳等) 、基于范例学习、遗传算法等。统计方法 中,可细分为:回归分析( 多元回归、自回归等) 、判别分析( 贝叶斯判别、费歇 尔判别、非参数判别等) 、聚类分析( 系统聚类、动态聚类等) 、探索性分析( 主 元分析法、相关分析法等) 等。神经网络方法中,可细分为:前向神经网络( b p 算法等) 、自组织神经网络( 自组织特征映射、竞争学习等) 等。数据库方法主要 是多维数据分析或o l a p 方法,另外还有面向属性的归纳方法。 2 1 4 数据挖掘发展趋势 随着各种计算机技术,如数据模型、数据仓库技术和应用开发技术的不断 进步,数据挖掘技术也不断发展,研究焦点将集中到以下几个方面: 可伸缩的数据挖掘方法:一个重要的方向是基于约束的挖掘 ( c o n s t r a i n t - b a s e dm i n i n g ) ,它致力于在增加用户交互的同时如何改进挖 掘处理的总体效率,并提供额外的控制方法,允许用户说明和使用约束,引 导数据挖掘系统对感兴趣模式的搜索; 数据挖掘与数据库系统、数据仓库系统和w e b 数据库系统的集成:由于数据 库系统、数据仓库系统和w w w 已经成为信息处理系统的主流,保证数据挖掘 作为基本的数据分析模块能够顺利地集成到此类信息环境中的研究将变得 十分重要: 数据挖掘语言的标准化:研究专门用于知识发现的数据挖掘语言也许会像 浙扛工业大学计算机2 0 0 0 研究生周宇指导老师t 张森 浙江工业大学硕士论文 s q l 语言一样走向形式化和标准化,这将有助于数据挖掘的系统化开发,改 进多个数据挖掘系统和功能间的互操作,促进数据挖掘系统在企业和社会中 的教育和使用: w e b 挖掘:w e b 上存在大量信息,并且w e b 在当今社会中扮演越来越重要 的角色,有关w e b 内容挖掘、w e b 日志挖掘和互联网上的数据挖掘服务, 将成为数据挖掘中一个重要和繁荣的子领域。 数据挖掘中的私隐保护与信息安全:随着数据挖掘工具和电信与计算机网 络的日益普及,数据挖掘要面对的一个重要的问题是私隐保护和信息安全。 需要进一步开发有关方法,以便在适当的信息访问和挖掘过程中确保私隐 保护和信息安全。 2 2w e b 数据挖掘 2 2 1 w e b 挖掘概述 近年来,i n t e r n e t 正以令人难以置信的速度在飞速发展。越来越多的机构、 团体和个人在i n t e r n e t 上发布信息,查找信息。虽然i n t e r n e t 上有海量的数 据,但由于w e b 是无结构的、动态的,并且w e b 页面的复杂程度远远超过了文 本文档,人们想要找到自己感兴趣的数据犹如大海捞针一般。许多搜索引擎被 开发出来,但其覆盖率有限,因此查全率低,而且一般的搜索引擎是基于关键 字的查询,命中率较低,另外不能针对特定的用户给出的特定的服务,因为每 个人感兴趣的东西并不一样,所以不具有个性化。 解决这一问题的途径就是将传统的数据挖掘技术和w e b 结合起来,进行w e b 数据挖掘。w e b 挖掘就是从w e b 文档和w e b 活动中抽取感兴趣的、潜在的、有 用模式和隐藏信息。w e b 挖掘可以在很多方面发挥作用,如对搜索引擎的结构 进行挖掘,确定权威页面,w e b 文档分类,w e bl o g 挖掘,智能页面推荐等等。 万维网目前是一个巨大的、分布广泛、全球性的信息服务中心,它涉及新闻、 广告、消费信息、金融管理、教育、政府、电子商务和其他许多信息服务。w e b 还包含了丰富和动态的超链接信息,以及w e b 页面的访问和是使用信息,这为 攀 曼挖提l 麟毳毒富的资源。然而从以下的分析可以看出,对w e b 进行有效的 资源和知识发现具有极大的挑战性。 浙江工业大学计算机2 0 0 0 研究生周宇指导老师t 张森 1 0 浙江工业大学硕士论文 时有效的数搽仓库和数据挖掘雨言,w e b 似乎太庞大了,w e b 的数据量蟊蘸 以兆兆字节计辫,而且仍然在迅速增长。许多机构和社团都在把备自大量的 可访问信息放农嬲上。这使得几乎不可熊橡造一个数攮仓淳来复制、存储或 集成w e b 上所脊盼数据。最近有一些工 窜在致力于存储或集成w e b 上的所有 数据。w e b 页颟的复杂性远商于任何传统的文本文档。w e b 页面缺乏同一的结 季鸯,它包含了逸眈任何一鳃书籍或其健文本文撞多褥多撂嫩格和内容。w e b 可以看作一个巨大的数字圈书馆,然而这图书馆审盼大量文档弗不根据任 何有关排序加以组织,在这样一个图书馏中搜索想要的信息是极具挑战性的。 w e b 是一个动态性极强的揍患源。w e b 不仅戳极快的遮度增长,嚣鼠其信息 还在不断地发艇更新。新闻、股票市场、公司广告和w e b 服务中心都在不断 地更新着自己的页面。链接信息和访问记录也在频繁地更新之中。 w e b 覆对的楚个广泛的形形色色的群体。基兹因特阏土连接约毒六手万台 工作站,其用户群仍在不断魂扩展当中。各个用户可以有不同的背景、兴趣 和使用目的。大部分用户并不了解信息网络结构,不清楚搜索的高昂代价, 缀容易在“黑瞧”豹网络串迷失方囊,媳搬容易在“掣歇式”访润巾缀乱不 融和在等待信感中失去耐心。 w e b 上的信息只有很小的一部分是相关肖用的。据说9 9 的信息对于9 9 的 瘸户来说是天麓豹。虽然谈这善起来苓爨缀硬显,毽一令人只是关,ow e b 土 很小一部分信息却是事实,w e b 所包含的其余信息对用户来说是不感兴趣的, 而且会淹没所希望得到的搜索信息。 2 2 2w e b 挖掘的分类 w e b 数据挖掘总的来说w 以分为内容挖掘、访问信息挖掘和结构挖掘3 类。 1 ) w e b 内容挖援。 w e b 内容挖掘是对w e b 页面内容进行挖掘。它包括: 传统的从w w w 上提取信息的搜索引擎,如:l y c o s ,v l s t a 等。 额透豹扶餮瓣上更餐戆瓣提取售惑瓣覆素工昊,麴:i n t e l l i g e n tw e b a g e n t ,i n f o r m a t i o nf i l t e r i n g c a t e g o r i z a t i o n 等。 数据库方法:把半结构化的w e b 信息进行重构使其更结构化,然后就可 浙江工她太学计算机2 0 0 0 研究生周字指导老师t 张森 浙江工业大学硕士论文 以使用标准化的数据库查询机制和数据挖掘方法进行分析。 对h t m l 页面内容进行挖掘,对页面中的文本进行文本挖掘,对页面中 的多媒体信息进行多媒体信息挖掘。包括对页面内容摘要、分类、聚 类以及关联规则发现。 ( 2 ) w e b 访问信息挖掘 w e b 访问信息挖掘是对用户访问w e b 时在服务器方留下的访问记录进行挖 掘,即对用户访问w e b 站点的存取方式进行挖掘。挖掘的对象是在服务器上的 包括s e r v e rl o gd a t a 等日志。挖掘的手段包括:路径分析;关联规则和 序列模式的发现;聚类和分类。 w e b 访问信息挖掘是本文的研究重点,本文将在下章开始详细分析对用户 访问模式的挖掘。 ( 3 ) w e b 结构挖掘 由于w e b 中包含的结构信息处理起来比较困难,因此通常的w e b 搜索引擎 等工具仅将w e b 看作是一个平面文档的集合,而忽略了其中的结构信息。w e b 结构挖掘的目的在于揭示蕴含在这些文档结构信息中的有用模式。 文档之间的超链反映了文档间的某种联系,例如包含、从属等。超链中的 标记文本对链宿页面也起到了概括作用,这种概括在定程度上比链宿页面作 者所作的概括( 页面的标题) 要更为客观、准确。c r a v e n 等人使用一阶学习方法 对w e b 页面间的超链类型进行分类,以判断页面间的m e m b e r s o f p r o j e c t , d e p a r t m e n t o f p e r s o n s 等关系;同时,他们还利用超链中的标记文本对链宿 页面进行分类,取得了较好的效果。超链还反映了文档间的引用关系,一个页 面被引用的次数体现了该页面的重要性。b r i n 等人通过综合考虑页面的引用次 数和链源页面的重要性来判断链宿页面的重要性,从而设计出能够查询与用户 请求相关的“权威”页面的搜索引擎。 每个w e b 页面并不是原子对象,其内部有或多或少的结构。s p e r t u s 对w e b 页面的内部结构作了研究,提出了一些启发式规则,并用于寻找与给定的页面 集合( p 1 ,p n ) 相关的其它页面。d i p a s q u o 使用h t m l 结构树对w e b 页面进 行分析,得到其内部结构特征,从而学习公司的名称和地址等信息在页面中的 出现模式。 浙江工业大学计算机2 0 0 0 研究生周宇指导老师:张森 游汪工遵走学疆圭论文 2 3 w e b 使用记录挖掘 w e b 使用记录的挖掇( w e bu s a g em i n i n g ) 是搬通过挖糕w e b 曩志记秉, 来发现用户访问w e b 嚣黼的模式。经过分析和探究w e b 日志记激中的规律,可 以弄清用户的喜好,增强对最终用户的因特网信息服务的质量和交付,并改进 w e b 服务爨系统惶和续橡。 2 3 1w e b 使用记录挖掘的对象 记录震户粒行为模式靛主要数攒来源寿薅个,是注鼹售感衰孛浏览卷戆 背景信息,而另夕 一部分数据主
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年县级体育馆社会体育指导员飞盘运动专业技能测试题库
- 2025年医学数据分析师面试模拟题与答案详解
- 2025年宠物动物科学高级模拟题及答案
- 2025年安全生产B卷复审试卷答案解析
- 2025年安全知识培训资料含试题答案
- 2025年工民建筑设计师职业资格考试试题及答案解析
- 2025年翻译口译资格考试试卷及答案解析
- 2025年宠物克隆技术师高级笔试应试模拟题集
- 2025年扶梯安全常识手册答案大全集
- 数学教学经验交流课件
- 山东省临沂市兰山区2022-2023学年小升初数学自主招生备考卷含答案
- 电气设备交接试验方案
- D500-D505 2016年合订本防雷与接地图集
- 北邮社电机拖动与调速技术教学包课后题解
- 学校门卫岗位职责及管理制度
- JJG 1105-2015氨气检测仪
- GB/T 8118-2010电弧焊机通用技术条件
- GB/T 17421.7-2016机床检验通则第7部分:回转轴线的几何精度
- 呆滞物料预防与处理(精益培训)
- 《中式面点制作第二版》教案高教版
- 看门狗定时器
评论
0/150
提交评论