面向web的数据挖掘技术_第1页
面向web的数据挖掘技术_第2页
面向web的数据挖掘技术_第3页
面向web的数据挖掘技术_第4页
面向web的数据挖掘技术_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 / 7面向的数据挖掘技术来自:免费范文网 转载请注明出处! 访问挖掘 Web 访问挖掘是从服务器端记录的用户访问日志或从用户的浏览信息中抽取感兴趣的模式,通过分析这些数据可以帮助理解用户隐藏在数据中的行为模式,做出预测性分析,从而改进站点的结构或为用户提供个性化的服务。 Web 访问挖掘一般分为两种:一般访问模式跟踪和定制使用跟踪。一般访问模式跟踪通过分析 Web 日志来理解用户的访问模式和倾向;定制使用跟踪分析单个用户的偏好,根据其访问模式为每个用户定制符合其个人特色的 Web站点。Web 的 log 数据包括:senrer log,proxy serverlog,client 端的 cookie log 等。Web 使用记录挖掘通常需要经过三个阶段:数据预处理阶段(主要包括数据2 / 7清洗和事物识别两个部分):模式识别阶段(采用统计法、机器学习等成熟技术从 Web 使用记录中挖掘知识):模式分析阶段(采用合适的成熟的技术和工具进行模式的分析,从而辅助分析人员理解使采用各种工具挖掘出的模式得到很好利用)。对 Web 使用记录挖掘采用的算法有:路径分析、关联规则和有字模式的发现、聚类分类等,为了提高精度,使用记录挖掘也用到站点结构和页面内容等信息。 四、Web 数据挖掘中的关键技术 Web 数据挖掘中常用的技术有 Web 使用的特有的路径分析技术,数据挖掘领域常用的关联规则、序列模式、分类聚类技术等。 1.路径分析技术 用路径分析技术进行 Web 数据挖掘时,最常用的是图,因为 Web 可以用一个有向图来表示,G=(V,E),V 是页3 / 7面的集合,E 是页面之间的超连接集合,页面定义为图中的顶点,而页面之间的超连接定义为图中的有向边。顶点 v的入边表示对 v 的引用,出边表示 v 引用了其他的页面,这样形成网站结构图,从图中确定最频繁的访问路径。 2.关联规则挖掘技术 关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则,就是要挖掘出用户在一个访问期间(SESSION),从服务器上访问的页面文件之间的联系,这些页面之间可能并不存在直接的参引(RIFERENCE)关系最常用的是用 APRIOR 算法,从事务数据库中挖掘出最大频繁访问项集,这个项集就是关联规则挖掘出来的用户访问模式。 3.序列模式挖掘技术 序列模式数据挖掘就是要挖掘出交易集之间的有时4 / 7间序列关系的模式它与关联挖掘技术都是从用户访问下的日志中寻找用户普遍访问的规律,关联挖掘技术更注重事务内的关系,序列模式技术则注重事务间的关系。 4.聚类分类技术 分类规则可以挖掘出某些共同的特性,这个特性可以用来对新添到数据库里的数据项进行分类。在 Web 数据挖掘中,分类技术可以根据访问这些用户而得到的个人信息或共同的访问模式得出访问某一服务器文件的用。特征。聚类技术则是对符合某一访问规律特征的用户进行用户特征挖掘。最后进行模式分析,挖掘出人们可理解的知识的模式解释。 五、Web 数据挖掘的应用 5 / 7随着中国经济的高速发展,数据挖掘将在中国形成一个产业,目前 Web 数据挖掘已广泛地应用于金融业、远程通讯业、政府管理、制造业、医疗服务以及体育事业中,基于 Web 的数据挖掘技术已经成为一个热点,下面主要介绍Web 数据挖掘的三个应用前景。 1.在电子商务中的应用 在电子商务中,运用 Web 挖掘技术从服务器和浏览器端日志记录中自动发现隐藏在数据中的模式信息,对此进行分析加工,通过对客户进行分类和聚类,从中可得到商家用于向特定消费群体或个体进行定向营销的决策信息。了解系统的访问模式以及用户的行为模式,从而做出预测性分析。同时有效地对这些 Web 日志进行定量分析,提示其中的关联关系、时序关系、页面类属关系、客户类属关系和频繁访问路径、频繁访问页面等,从而为企业更有效地确认目标市场、改进决策获得更大的竞争优势提供帮助。6 / 72.在搜索引擎中的应用 利用 Web 数据挖掘技术,通过对网页内容的挖掘,可实现对网页的聚类和分类,实现网络信息的分类浏览与检索;运用网络内容挖掘技术改进关键词加权算法,提高网络信息的标引准确度,从而改善检索效果;通过对用户所使用的提问式的历史记录的分析,可以有效地进行提问扩展,提高用户的检索效率。 3.在网站设计中的应用 在网站建设中,使用 Web 挖掘通过对网站内容的挖掘,可有效地组织网站信息,例如采用自动归类技术实现网站信息的层次性组织;分析用户的 Web 访问行为,可为用户提供智能化、个性化服务。比如,可根据客户的访问兴趣、访问频度、访问时间,动态地调整页面结构,迎合每个客户的浏览兴趣,使客户在浏览时感觉自己是网站的惟一客户;另外,网站还可以根据实际用户的浏览情况,挖掘用户的7 / 7兴趣点,定期为用户推送相关信息,以及调整网站中网页的链接结构和内容,为用户提供个人的定制服务。 六、结束语 就 Web

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论