免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1.8 数据挖掘系统与数据库系统或数据仓库系统的集成数据库 电脑资料 1.8 数据挖掘系统与 数据库 系统或数据仓库系统的集成 1.2节勾画了典型的数据挖掘系统结构的主要成分(见图1-5), 1.8 数据挖掘系统与数据库系统或数据仓库系统的集成 1.2节勾画了典型的数据挖掘系统结构的主要成分(见图1-5)。一个好的系统结构将有利于数据挖掘系统更好地利用软件环境,有效、及时地完成数据挖掘任务,与其他信息系统协同和交换信息,适应用户的种种需求,并随时间进化。 数据挖掘(DM)系统设计的一个关键问题是如何将DM系统与数据库(DB)系统和/或数据仓库(DW)系统集成或耦合。如果DM系统作为一个孤立的系统或嵌入应用程序中,则不存在DB或DW系统与它通信。这种简单的方案称为不耦合,其中DM设计所关注的主要问题停留在开发挖掘可用数据集的有效算法。然而,当DM系统工作在一个需要与其他信息系统成分(如DB和DW系统)通信的环境下,可能的集成方案包括不耦合、松散耦合、半紧密耦合和紧密耦合。我们逐一考察这些方案如下: . 不耦合(no coupling):不耦合意味着DM系统不利用DB或DW系统的任何功能。它可能由特定的数据源(如文件系统)提取数据,使用某些数据挖掘算法处理数据,然后再将挖掘结果存放到另一个文件中。 尽管这种系统简单,但有不少缺点。首先,DB系统在存储、组织、访问和处理数据方面提供了很大的灵活性和有效性。不使用DB/DW系统,DM系统可能要花大量的时间查找、收集、清理和变换数据。在DB和/或DW系统中,数据多半被很好地组织、索引、清理、集成或统一,使得找出任务相关的、高质量的数据成为一项容易的任务。其次,有许多经过测试的、可伸缩的算法和数据结构在DB或DW系统中得到实现。使用这种系统开发有效的、可伸缩的实现是可行的。 此外,大部分数据已经或将要存放在DB/DW系统中。要是没有任何这样的系统耦合,DM系统就需要使用其他工具提取数据,使得很难将这种系统集成到信息处理环境中。因此,不耦合是一种很糟糕的设计。 . 松散耦合(loose coupling):松散耦合意味着DM系统将使用DB或DW系统的某些设施,从这些系统管理的数据库中提取数据,进行数据挖掘,然后将挖掘的结果存放到文件中,或者存放到数据库或数据仓库的指定位置, 松散耦合比不耦合好,因为它可以使用查询处理、索引和其他系统设施提取存放在数据库或数据仓库中数据的任意部分。这带来了这些系统提供的灵活性、有效性等优点。 然而,许多松散耦合的挖掘系统是基于内存的。由于挖掘本身不利用DB或DW提供的数据结构和查询优化方法,因此,对于大型数据集,松散耦合系统很难获得高度可伸缩性和良好的性能。 . 半紧密耦合(semitight coupling):半紧密耦合意味除了将DM系统连接到一个DB/DW 系统之外,一些基本数据挖掘原语(通过分析频繁遇到的数据挖掘功能确定)的有效实现可以在DB/DW系统中提供。这些原语可能包括排序、索引、聚集、直方图分析、多路连接和一些基本的统计度量(如求和、计数、最大值、最小值、标准差等)的预计算。 此外,一些频繁使用的中间挖掘结果也可以预计算,并存放在DB/DW系统中。由于这些中间挖掘结果或者是预计算,或者可以有效地计算,这种设计将提高DM系统的性能。 . 紧密耦合(tight coupling):紧密耦合意味DM系统平滑地集成到DB/DW系统中。数据挖掘子系统视为信息系统的一个功能组件。数据挖掘查询和功能根据DB或DW系统的挖掘查询分析、数据结构、索引模式和查询处理方法优化。随着技术进步,DM、DB和DW系统将进化和集成在一起,成为一个具有多种功能的信息系统。这将提供一个一致的信息处理环境。 这种方法是高度期望的,因为它有利于数据挖掘功能、高系统性能和集成的信息处理环境的有效实现。 有了这些分析,可以看出数据挖掘系统应当与一个DB/DW系统耦合。松散耦合尽管不太有效,也比不耦合好,因为它可以使用DB/DW的数据和系统设施。紧密耦合是高度期望的,但其实现并非易事,在此领域还需要更多的研究。半紧密耦合是松散和紧密耦合之间的折衷。 重要的是识别常用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 一建机电补考真题及答案
- 广东省招聘社区工作者试题及答案
- ERP工程师笔试复习题(题及答案已分开)
- 广东省韶关市继续教育公需科目试题及答案
- 吉林省《全科医学》测试卷(第681套)
- 《公共基础知识》考点中国的农业(含答案)
- 基孔肯雅热相关试题
- 国家开放大学电大《成本会计》形考任务二试题及答案
- 大学《数据库原理与应用》考试题库及答案
- 2023年重庆公务员行测考试真题
- 2025年资助政策知识竞赛题库(含答案)
- 山东省济南市钢城区(五四学制)2024-2025学年六年级下学期7月期末数学试卷(含答案)
- 2025初中音乐学科教材教法考试综合测试卷及答案(共三套)
- 护理床旁交接班规范与实践
- 2025至2030中国飞机健康监测系统(AHMS)行业产业运行态势及投资规划深度研究报告
- 2025年黑龙江省绥化市初中学业水平考试中考(会考)地理试卷(真题+答案)
- 北师大版必修第二册 Unit 5 Humans and Nature Lesson 1 A sea story课件(内嵌视频)
- 2025年煤炭生产经营单位(安全生产管理人员)证模拟考试题库及煤炭生产
- 备战2026年高考数学模拟卷(新高考Ⅰ卷专用)(考试版)
- SMT 操作员(锡膏印刷)笔试试题
- 服装公司清仓活动方案
评论
0/150
提交评论