【Web数据挖掘研究】数据挖掘python_第1页
【Web数据挖掘研究】数据挖掘python_第2页
【Web数据挖掘研究】数据挖掘python_第3页
【Web数据挖掘研究】数据挖掘python_第4页
【Web数据挖掘研究】数据挖掘python_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

【数据挖掘研究】数据挖掘python 摘要:网络资源的迅速增长使Web挖掘研究日益重要,文章介绍了Web挖掘的概念、流程以及分类,并从挖掘对象、方法、过程等方面分别对Web内容挖掘、Web结构挖掘、和Web使用挖掘进行详细的阐述。 关键词:数据挖掘;Web;Web内容挖掘;Web结构挖掘;Web使用挖掘 :TP302:A:1009-3044(xx)18-31502-01 The Rearch of Web Data Mining LI Xue-zhu1, WANG Feng2 (1.Computer Department Suzhou College, Suzhou 234000, China;2. Computer Department Automobile Manage College, Bengbu 233011, China) Abstract:The rapid development of work resources has made the research of Web mining so increasingly important. This dissertation introduces the concept,process and classification of Web mining and also expounds detailedly the mining of Web content, structure and usage from the perspective of the object and method of Web mining. Key words:data mining; Web content mining; Web structure mining; Web usage mining 1 引言 随着数据库与网络技术的飞速发展,尤其是自从inter产生以来,资源迅速增长。为使用者提供了一个极其巨大的信息源,由于Web缩具有的开放性、动态性和异构性,又让使用者很难快捷准确地获得所需要的信息。为适应网络的快速发展及人们对知识的需求,以网络数据为挖掘对象的Web挖掘(Web Data Mining)就应运而生并快速成为目前信息技术中的研究热点。 IBM,NEC等机构对Web数据挖掘进行了大量的研究并取得了一定的成果;S.Charkrabarti对超文本数据挖掘进行了研究并指出基于知识的算法将会在Web数据挖掘中扮演重要的角色;B.Pinkerton对信息的收集和评价方法进行了讨论并引入了解雇挖掘来评价查询结果。Osmar R.Zaiane等还对Web多媒体数据挖掘进行了研究,并提出了一个多媒体数据挖掘的系统原型。Sbrin和L.page提出了Pagerank算法并将其应用到google。与国外相比,国内对Web数据挖掘的研究起步较晚。 2 Web数据挖掘概念 Oren Etioni在1996年首次提出Web数据挖掘这一概念,Web挖掘就是运用数据挖掘技术在Web文档与服务器中自动发现并提取有用信息。Web数据挖掘是一项综合技术,涉及很多领域,是数据库、信息检索、人工智能、机器学习、自然语言处理 等几个相关研究领域的集合。 3 Web数据挖掘的流程 与传统的数据挖掘相比,面向Web的数据挖掘要复杂的多。Web上的信息是异构的、动态的,并容易造成混淆。所以很难直接对Web网页上的数据进行操作,而必须经过必要的数据处理。典型的Web挖掘的流程如图1所示: 图1 Web挖掘的原理流程 2.1 资源查找 任务是从目标Web文档中得到数据。值得注意的是有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组,或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。 2.2 预处理 任务是从取得的Web资源中剔除无用信息和讲将信息进行必要的处理。 2.3 模式发现 自动进行模式发现。可以在同一个网站内部或在多个站点之间进行。 2.4 模式分析 验证解释上一步骤的模式,可以是机器自动完成,也可以是与分析人员进行交互完成。 Web挖掘作为一个完整的技术体系,在进行挖掘之前的信息获取IR(Information Retrieval)和信息抽取IE(Information Extraction)相当重要。最近几年在这两方面都有相应的研究成果和具体应用,特别是在大型搜索引擎中得到了很好的应用。 3 Web数据挖掘的分类 Web数据有三种类型:Web文档(主要是HTML、XML格式的)、Web结构数据(如Web文档中的超级链接)、用户访问数据(如服务器上的Web LOG日志信息)。相应地,Web挖掘也分为三类:Web内容挖掘(Web content mining)、Web结构挖掘(Web structure mining)和Web使用模式的挖掘(Web usage mining)。如图2所示: 图2 Web数据挖掘分类 以下就从挖掘对象、主要过程、方法等几个方面分别对这三种类型进行阐述。 3.1 Web内容挖掘 Web上的信息包罗万象,Web内容挖掘的对象包括文本、图像、音频、视频、多媒体和其它各种类型的数据。其中针对无结构化文本进行的Web挖掘被归类到基于文本的知识发现(KDT)领域,也称文本挖掘,是Web挖掘中比较重要的技术领域。Web内容挖掘就是针对这些大量的文档的集合进行总结、分类、聚类与关联分析来获取信息。其中多媒体数据的挖掘在近年来收到研究人员的关注。Web文本挖掘的基本过程如图3所示。 图3 Web文本挖掘的基本过程 3.2 Web结构挖掘 Web结构不仅含有不同页面之间的超链接,还包括以HTML或XML表示的树形结构、文档URL的目录路径结构。Web结构挖掘通过分析一个网页链接和被链接数量、对象,建立Web自身的链接结构模式。这方面研究工作的代表有pageRank和CLEVER,它们正是利用了文档间的链接信息,查找相关的Web页。有关方面研究的算法有:pagerank、HITS(HyperlinkIncluded Topic Search)以及改进的HITS(将内容信息加入到链接结构中)、Hub/authourity。这些方法可以用来改进搜索引擎。 3.3 Web使用挖掘 Web使用挖掘又叫Web日志挖掘,是指从Web访问日志中发现用户的访问模式。运用Web使用挖掘技术能够从服务器浏览器端的日志记录和用户的个人信息中自动发现隐藏数据中的模式信息,了解系统的访问模式以及用户的行为模式,从而作出预测性分析。Web使用挖掘结合了数据挖掘、信息处理、可视化、数理统计等领域的成熟技术。Web使用挖掘基本过程可以分为四个阶段:数据采集、预处理、模式发现、模式分析。基本流程如图4所示: 图4 Web使用挖掘的基本过程 4 结束语 随着Web的迅猛发展,Web资源越来越丰富。如何更好的利用这些资源已成为大家关注的热点。Web站点设计、电子商务等工作变得更复杂、繁杂。由于Web数据挖掘在我国起步较晚,许多与之相关的技术都有待更新、提高和发掘。随着研究的进步,Web数据挖掘会变得更加轻松方便。 _: 1马保国,候存军,王文丰,钱方正. Web数据挖掘及应用J. 计算机与数字工程, xx,34(6):20-22. 2将座东, 黄发良. 基于Web的数据挖掘研究综述J. 湖南工程学院学报, xx,(3):61-64. 3王焱梁. Web数据挖掘技术应用J.省略ki. 4顾晓燕. 关于Web挖掘技术的研究J. 电脑知识与技术, xx,2:70-72. 5李琳, 吴成东, 韩中华

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论