初探数据挖掘技术在Web中的应用.doc_第1页
初探数据挖掘技术在Web中的应用.doc_第2页
初探数据挖掘技术在Web中的应用.doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

初探数据挖掘技术在Web中的应用 DATABASE AND INFORMATION MANAGEMENT 数据库与信息管理1 面向Web 的数据挖掘1.1 定义Web 数据挖掘就是利用数据挖掘技术从网络文档和服务中发现和提取信息。它的一般处理过程是:资源风险信息选择和预处理模式提取模式分析。1.2 特点和难点特点Web 上的数据与传统的数据库中的数据不同,Web 上的数据最大特点就是半结构化,所谓半结构化是相对于结构化和非结构化而言的,传统的数据库都有一定的数据模型,可以根据模型来具体描述特定的数据,而且按照一定的组织有规律地集中或者分布存放,结构性很强,而Web 上的数据非常复杂,没有特定的模型描述,每一站点的数据都各自独立设计并且数据本身具有自述性和动态可变性,因而Web 上的数据不是强结构性的,但与此同时Web 页面又是有描述层次的,单个网站也是按照各自的结构构架的,从而具有一定的结构性。半结构化数据具有结构是不规则;结构是隐含;结构是部分的有时部分数据根本无结构,而部分数据只有粗略的结构;指示性结构与约束性结构;半结构化数据通常在数据存在之后才能通过当前数据归纳出其结构,称之为事后模式引导5 方面的主要特点。模式有时可被忽略,同时数据与数据模式间的区别逐渐消除。 难点由于Web 数据具有这些特点,所以在数据挖掘中存在着一定的困难。对Web 数据进行挖掘时首先必须解决半结构化数据源模型和半结构化数据模型的查询与集成问题,而解决Web 上异构数据的集成与查询问题,必须要有一个模型来清晰地描述Web 上的数据。另外,针对Web 上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所在。因此在Web 上进行数据挖掘。必须做到两点:第一要建立一个半结构化数据模型,以描写Web 上的数据;第二需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。面向Web 的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。2 优势2.1 XML 及其特性XML 是由万维网协会(W3C )设计的一种中介标示语言,它提供了描述结构化数据的格式,可以通过独立运行程序的方法来共享数据。同时,XML 又是一种是用来自动描述信息的新的标准语言,它能使计算机通过Internet 的强大功能把信息传递到人类的各种活动中去。 内容与形式的分离在6HTML 中,数据内容和表现形式是混在一起的。这样,当数据的表现形式需要改变时,文档更新的工作量就比较大。而对于XML 文档而言,标记是包含信息的,这些信息对于数据的检索、描述将起到极大的简化作用。利用XML的这一特性,当数据的表现形式有所改变时,仅需修改从XML 文档中分离出的用于描述数据表现形式的样式单就可以了。 良好的可扩展性XML 允许程序员制定自己的标记集,允许一个行业或某初探数据挖掘技术在Web中的应用周光睿,马骏(新乡广播电视大学计算机教研室,新乡453000 )摘要:数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中, 提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。随着互联网的飞速发展,Web 上的数据量急剧膨胀, 但是其中蕴含的知识却未能得到充分的挖掘和利用,因此将传统的数据挖掘技术和Web 结合起来, 进行Web 数据挖掘成为数据挖掘技术研究

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论