【毕业学位论文】(Word原稿)数据挖掘技术与关联规则挖掘算法研究-人工智能与知识工程博士论文_第1页
【毕业学位论文】(Word原稿)数据挖掘技术与关联规则挖掘算法研究-人工智能与知识工程博士论文_第2页
【毕业学位论文】(Word原稿)数据挖掘技术与关联规则挖掘算法研究-人工智能与知识工程博士论文_第3页
【毕业学位论文】(Word原稿)数据挖掘技术与关联规则挖掘算法研究-人工智能与知识工程博士论文_第4页
【毕业学位论文】(Word原稿)数据挖掘技术与关联规则挖掘算法研究-人工智能与知识工程博士论文_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

工学博士学位论文 数据挖掘技术与关联规则挖掘算法研究 北北 京京 工工 业业 大大 学学 2003 年 4 月 分类号: 单位代码: 10005 学 号: 级: 北京工业大学工学博士学位论文 题 目 : 数据挖掘技术与关联规则挖掘算法研究 英文题目 : 研究生姓名: 毛国君 专 业: 计算机应用技术 研究方向: 人工智能与知识工程 导师 姓名: 刘椿年 职 称: 教授 论文报告提交日期: 2003. 4 学位授予日期: 授予单位名称和地址: 北京工业大学(北京市朝阳区平乐园 100 号) 摘要 I 摘 要 数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,它成为未来信息技术应用的重要目标之一。经过十几年的努力,数据挖掘产生了许多新概念和方法。特别是最近几年,一些基本概念和方法趋于清晰,它的研究正向着更深入的方向发展。像其它新技术的发展历程一样,数据挖掘技术也必须经过概念提出、概念接受、广泛研究 和探索、逐步应用和大量应用等阶段。从目前的现状看,大部分学者认为数据挖掘的研究仍然处于广泛研究和探索阶段,迫切需要在基础理论、应用模式、系统构架以及挖掘算法和挖掘语言等方面进行创新。关联规则挖掘是数据挖掘中成果颇丰而且比较活跃的研究分支,留给研究者的是更深入的课题。面对大型数据库,关联规则挖掘需要在挖掘效率、可用性、精确性等方面得到提升。因此,需要探索新的挖掘理论和模型;需要利用用户的约束等聚焦挖掘目标;需要对一些传统的算法进行改进;也需要研究新的更有效的算法等。鉴于目前数据挖掘技术和关联规则挖掘研究的现状 和发展趋势,在各类基金的支持下,我们选择了这一课题开展相关工作。 本文的研究主要包括数据挖掘应用系统体系结构、关联规则挖掘理论及其算法等。关于数据挖掘应用系统体系结构研究方面,我们设计了一个数据挖掘应用系统的原型体系结构,系统化地分析了知识发现的基本过程和系统的各部件功能。由于不同的源数据类型、不同的应用目标以及不同的挖掘策略对数据挖掘系统的功能部件要求不同,这些研究主要是从知识发现的基本过程出发,探讨系统应具备的主要功能部件及其相互联系等。在关联规则挖掘理论研究上,我们首次给出了项目序列集格空间,并且探讨 了在这个空间上的基本 操作算子。基于 项目序列集格空间及其操作,我们建立了关联规则挖掘模型和算法。 在 关联规则挖掘算法方面,设计了基于项目序列集操作理论的关联规则挖掘算法 态约束下的关联规则挖掘算法 据分割下的关联规则挖掘算法 法是建立在严格的项目序列集格理论及其操作基础上,是一个一次数据库扫描的而且不使用侯选集的高效算法。我们选择目前引用率较高的 法和 行了对比 实验。结果表明, 行时间整体上 优于 法, 而且随着数据量的增大 行时间的增长幅度也小于 法。为了提高对大型数据集挖掘的适应性,将时态约束应用到挖掘的预处理中,改进 部分工作还包括对时态区间、时态约束下的数据挖掘空间以及时态区间操作等进行了形式化,它们是 理论基础。对 它是针对大数据集挖掘过程中对内存和 用了数据分割的方法来减少资源的占用。本文解决了数据分割下局部频繁项目序列集和全局频繁项目序列集的转换等问题,是一个两次扫描数据库的算法。 总之,本文在分析、归类现有数据挖掘研究成果以及原型系统的基础上,进行了数据挖掘应用系统体系结构、关联规则挖掘理论模型以及算法方面的研究。在项目序列集格及其操作、时态约束挖掘空间等方面具有较好的摘要 论价值,所设计的算法在挖掘效率和对大型数据库挖掘的可用性方面具有潜在的应用前景。 关键词: 数据挖掘,知识发现,关联规则,项目序列集,时态约束,数据分割。 is a to in It as an in to it or is to of of or on of in f ew an of is it a to a it as of It in In is to is of to is an V of it a of to on is so of on to In of of of of a In we et on we an is to it is to of of on We on an by of be as an In to of I/O PU an in PU In of a of on of 目录 录 摘要 I 1 章 绪论 1 究背景 1 解决的问题 3 新性工作 4 据挖掘理论研究 4 联规则挖掘算法设计与实现 5 章小节 6 第 2 章 数据挖掘技术 7 据挖掘技术的产生背景 7 据挖掘技术的商业需求分析 7 据挖掘产生的技术背景分析 9 据挖掘概念 10 商业角度看数据挖掘技术 10 据挖掘的技术含义 11 据挖掘研究的理论基础 12 据挖掘技术的分类问题 15 据挖掘常用的知识表示模式与方法 15 义知识挖掘 15 联知识挖掘 19 知识挖掘 19 测型知识挖掘 24 异型知识挖掘 26 同存储形式下的数据挖掘问题 27 务数据库中的数据挖掘 28 目录 关系型数据库中的数据挖掘 28 据仓库中的数据 挖掘 30 关系模型基础上发展的新型数据库中的数据挖掘 31 向应用的新型数据源中的数据挖掘 31 据源中的数据挖掘 32 据挖掘的应用分析 34 据挖掘与 35 据挖掘应用的成功案例分析 35 章小节 36 第 3 章 知识发现过程与系统结构设计 37 识发现的基本过程 37 识发现系统的基本构架 40 识发现软件或工具的发展 42 识发现项目的过程化管理 44 章小节 45 第 4 章 关联规则挖掘理论和算法研究 47 本概念与解决方法 47 典的关联规则挖掘算法分析 48 法的性能瓶颈问题 50 项目集格空间理论的发展 51 目序列集格空间和它的操作 55 于项目序列集操作的关联规则挖掘算法 57 联规则挖掘空间定义 57 个实用算子 58 大频繁项目序列集的生成算法 60 法执行示例 60 法分析 61 间与时间复杂度的理论分析 61 验数据与分析 62 章小结 65 第 5 章 时态约束关联规则挖掘问题及算法 67 善关联规则挖掘质量问题 67 目录 V 户主观层面 68 统客观层面 69 束数据挖掘问题 69 态区间格及时态约束关联规则挖掘 72 态约束关联规则挖掘的预处理 74 态约束下的关联规则挖掘算法 75 验与讨论 77 章小结 79 第 6 章 数 据分割下的挖掘问题及算法 81 联规则的优化算法 81 法描述 87 据分割问题 87 数 据 分 片 中 发 现 局 部 频 繁 项 目 序 列 88 成全局的频繁项目序列 89 验 89 章小节 91 结论 93 参考文献 95 攻读博士学位期间所发表的学术论文 103 致谢 104 索引 105 第 1章 绪论 - 第 1 章 绪论 数据挖掘( 一个多学科交叉研究领域,它融 合 了 数 据 库 ( 技 术 、 人 工 智 能 ( 、 机 器 学 习 ( 、 统 计 学( 知识工程( 面向对象方法( 、 信 息 检 索 ( 高性能计算( 及数据可视化( 最新技术的研究成果。经过十几年的研究,产生了许多新概念和方法。特别是最近几年,一些基本概念和方法趋于清晰,它的研究正向着更深入的方向发展。 数据挖掘之所以被称为未来信息处理的骨干 技术之一,主要在于它以一种全新的概念改变着人类利用数据的方式。 二十世纪,数据库技术取得了决定性的成果并且已经得到广泛的应用。但是,数据库技术作为一种基本的信息存储和管理方式,仍然以联机事务处理( 核心应用,缺少对决策、分析、预测等高级功能的支持机制。众所 周 知, 随 着 数 据库 容 量的 膨 胀 , 特别 是 数据 仓 库 ( 及 新型数据源的日益普及,联机分析处理( 决策支持( 及分类( 聚类( 复杂 应 用 成 为 必 然 。 面 对 这 一 挑 战 , 数 据 挖 掘 和 知 识 发 现( 术应运而生,并显示出强大的生命力。数据挖掘和知识发现使数据处理技术进入了一个更高级的阶段。它不仅能对过去的数据进行查询,并且能够找出过去数据之间的潜在联系, 进行更高层次的分析,以便更好地 作出理想的决策、 预测未来的发展趋势 等。 究背景 经过十几年的研究和实践,数据挖掘技术已经吸收了许多学科 的最新研究成果而形成独具特色的研究分支。勿容置疑,数据挖掘研究和应用具有很大的挑战性。象其它新技术的发展历程一样,数据挖掘也必须经过概念提出、概念接受、广泛研第 1章 绪论 - 究和探索、逐步应用和大量应用等阶段。从目前的现状看,大部分学者认为数据挖掘的研究仍然处于广泛研究和探索阶段。一方面,数据挖掘的概念已经被广泛接受。在理论上,一批具有挑战性和前瞻性的问题被提出,吸引越来越多的研究者。数据挖掘的概念从二十世纪八十年代被提出后,其经济价值已经显现出来,而且被众多商业厂家所推崇,形成初步的市场。另一方面,目前的数据挖掘系统研制 也决不是象一些商家为了宣传自己商品所说的那样神奇,仍有许多问题需要研究和探索。把目前数据挖掘的研究现状描述为鸿沟( 段是比较准确的 1。所谓 段是说数据挖掘技术在广泛被应用之前仍有许多“鸿沟”需要攀越。例如,就目前商家推出的数据挖掘系统而言,它们都是一些通用的辅助开发工具。这些工具只能给那些熟悉数据挖掘技术的专家或高级技术人员使用,仅 对 专 业 人 员 开 发 对 应 的 应 用 起 到 加 速 或 横 向 解 决 方 案( 作用。但是,数据挖掘来自于商业应用,而商业应用又会由于应用的领 域不同而存在很大差异。大多数学者赞成这样的观点:数据挖掘在商业上的成功不能期望通用的辅助开发工具,而应该是数据挖掘概念与特定领域商业逻辑相结合的纵向解决方案( 1 。 分析目前的研究和应用现状,数据挖掘在如下几个方面需要重点开展工作: 数据挖掘技术与特定商业逻辑的平滑集成问题。 它包括领域知识对行业或企业知识挖掘的约束与指导、商业逻辑有机嵌入数据挖掘过程等关键课题。 数据挖掘技术与特定数据存储类型的适应问题。 不同的数据存储方式会影响数据挖掘的具体实现机制、目标定位、技术 有效性等。指望一种通用的应用模式适合所有的数据存储方式下发现有效知识是不现实的。因此,针对不同数据存储类型的特点,进行针对性研究是目前流行而且也是将来一段时间所必须面对的问题。 数据挖掘系统的构架与交互式挖掘技术。 虽然经过多年的探索,数据挖掘系统的基本构架和过程已经趋于明朗,但是受应用领域、挖掘数据类型以及知识表达模式等的影响,在具体的实现机制、技术路线以及各阶段或部件(如数据清洗、知识形成、模式评估等)第 1章 绪论 - 的功能定位等方面仍需细化和深入研究。由于数据挖掘是在大量的源数据集中发现潜在的、事先并不知道的知识,因此 和用户交互式进行探索性挖掘是必然的。这种交互可能发生在数据挖掘的各个不同阶段,从不同角度或不同粒度进行交互。所以良好的交互式挖掘( 是数据挖掘系统成功的前提。 数据挖掘语言与系统的可视化问题。 对 用来说,结构化查询语言 经得到充分发展,并成为支持数据库应用的重要基石。但是,对于数据挖掘技术而言,由于诞生的较晚,加之它相比 用的复杂性,开发相应的数据挖掘操作语言仍然是一件极赋挑战性的工作。可视化要求已经成为目前信息处理系统的必不可少技术。对于一个数据 挖掘系统来说,它更是重要的。可视化挖掘除了要和良好的交互式技术结合外,还必须在挖掘结果或知识模式的可视化、挖掘过程的可视化以及可视化指导用户挖掘等方面进行探索和实践。 数据挖掘理论与算法研究。 经过十几年的研究,数据挖掘已经在继承和发展相关基础学科(如机器学习、统计学等)已有成果方面取得了可喜的进步,探索出了许多独具特色的理论体系。但是,这决不意味着挖掘理论的探索已经结束,恰恰相反它留给了研究者丰富的理论课题。一方面,在这些大的理论框架下有许多面向实际应用目标的挖掘理论等待探索和创新。另一方面,随着数据挖掘技 术本身和相关技术的发展,新的挖掘理论的诞生是必然的,而且可能对特定的应用产生推动作用。新理论的发展必然促进新的挖掘算法的产生,这些算法可能扩展挖掘的有效性,如针对数据挖掘的某些阶段、某些数据类型、大容量源数据集等更有效;可能提高挖掘的精度或效率;可能融合特定的应用目标,如 子商务等。因此,对数据挖掘理论和算法的探讨将是长期而艰巨的任务。 从上面的叙述,可以看出数据挖掘研究和探索的内容是及其丰富和具有挑战性的。我们正是在这样的背景下,在以往的研究和各类基金的支持下,开展相关研究工作的。 第 1章 绪论 - 解决 的问题 作为博士论文,我们在收集和整理大量的相关资料,弄清相关的理论、方法、算法、体系结构(原型系统)等基础上,集中选取了下面几个问题开展相关工作: 数据挖掘过程和系统构架研究。 在分析现有的数据挖掘系统(原型系统)的体系结构基础上,系统化研究了数据挖掘系统的基本过程和功能部件。这些研究包括从 数 据 挖 掘 的 基 本 过 程 来 探 讨 系 统 应 具 备 的 主 要 功能部件及其相互联系;不同的源数据类型对数据挖掘系统的功能部件要求;不同的应用目标对数据挖掘系统的功能部件要求;数据挖掘系统的主要功能部件的实现机制等。 数据挖掘理论探索。 如前所述 ,数据挖掘已经建立了许多 独 具 特 色 的 挖 掘 理 论 体 系 , 但 是 不 论 是 从 应 用 范围、有效性以及适应性等方面仍需新的挖掘理论的探索。因此,本文对关联规则( 掘理论和模型进行了研究,建立了项目序列集格空间和基于项目序列集操作的关联规则挖掘模型等。 关联规则挖掘算法 设计 。关联规则挖掘是数据挖掘中研究较早而且至今仍最活跃的研究分支之一。 影响关联规则的挖掘效率的因素主要有数据库扫描的 I/O 代价、内存的需求、 时间花费等。 目前的关联规则挖掘算法仍然需要在这些方面加以创新或改进。因此,我们选取了 关联规则挖掘算法进行了集中研究和实现,并通过系列的算法设计和实现来验证我们新的挖掘理论和积累研制数据挖掘系统的经验。 新性工作 本文的创新性工作集中在数据挖掘理论和关联规则挖掘算法设计两个方面。 据挖掘理论研究 大多数文献中使用的项目集( 普通的集合概念 1, 2。我们使用术语“项目序列( 来替代其第 1章 绪论 - 它文献中出现的“项目集”。所谓项目序列是指项目集中的元素是按特定标准(如出现次数、字典排序)进行有序排列的。因此,我们首次引入的项目序列集( 念可以用来表示一类特定的项目序列集合(如频繁项目序列集)。 本文主要的理论研究和成果为: ( 1)基于项目序列集操作的挖掘模型 我们建立了项目序列集的代数空间描述,并探讨了在这个空间上的基本 操作算子。 在此基础上,讨论了基于项目序列集操作的数据挖掘模型(详见第 4 章)。 ( 2)约束条件下的数据挖掘理论 毫无疑问,引进约束条件可以加速数据挖掘的过程。但是,约束条件的引入,必须解决诸如适合数据挖掘的约束条件的形式化表示以及约束条件在数据挖掘特定阶段的使用方式等。本文针对时态约 束条件下的数据挖掘理论问题进行了探索。在时态区间代数空间上定义了两个新的时态区间变量操作(时态交T 和时态并 基于这样的时态约束条件下的数据挖掘理论框 架 , 我 们 可 以 扩 展 数 据 挖 掘 工 作 到 包 括 数 据 过 滤 ( 时态区间合并等数据预处理在内的更广泛的范畴中去(详见第 5 章)。 ( 3)数据分割下的数据挖掘理论 随着数据库容量的增大,使得通过对源数据集的分割来处理大容量数据库的数据挖掘问题成为必要。本文就数据分割下的数据 挖 掘 问 题 进 行 了 讨 论 , 引 入 局 部 频 繁 项 目 序 列 集 (et 和 全 局 项 目 序 列 集 (et 概念,并解决了局部频繁项目序列集和全局频繁项目序列集转换等问题(详见第 6 章)。 联规则挖掘算法设计与实现 把上面的数据挖掘理论应用到关联规则的发现中,我们完成了相应算法的设计,并且通过理论分析和实验模拟讨论了算法的性能。第 4 章介绍了基于项目序列集操作的 法。它是一个一次数据库扫描并且不使用侯选集的高效算法。为了增强对大容量数据库挖掘的适应性和可 用性,第 5 章设计了时第 1章 绪论 - 态约束下的 法。它是对 法的改进,实验证明它具有较好的数据过滤和区间合并效率,因而能在同样的处理环境下挖掘更大容量的数据库(比 第 6 章提出了另一个 改进算法 通过对数据库的分割,减少了对内存和 系统资源的占用,而且可以在两次数据库扫描的情况下完成挖掘工作。 章小节 本章介绍了数据挖掘研究的意义和技术背景、论文的选题依据、研究背景以及我们的主要研究内容等。数据挖掘作为二十世纪信息处理的骨干技术之一,正以一种 全新的概念改变着我们利用数据的方式。经过十几年的研究和实践,数据挖掘技术已经融合了许多学科的最新研究成果而形成独具特色的研究分支。目前的数据挖掘研究正处于蓬勃发展时期,有许多具有挑战性的课题被提出。数据挖掘的研究内容是极其丰富的。作为博士论文,我们在充分了解基本概念和主要技术发展状况的前提下,有选择地进行了重点研究。这些研究包括数据挖掘系统的体系结构、关联规则挖掘理论和算法等。 第 2章 数据挖掘技术 7 - 第 2 章 数据挖掘技术 数 据 挖 掘 作 为 一 个 只 有 十 几 年 研 究 历 史 的 较 新 研 究 领域 , 许 多 概 念 和 技 术 是 逐 步 发 展 起 来 的 。 因 此 , 本 章 将 系 统地 介 绍 相 关 的 概 念 和 技 术 , 并 力 求 从 不 同 视 点 和 流 派 来 阐 述数 据 挖 掘 的 重 要 概 念 、 发 展 和 应 用 情 况 。 在 , 我 们 介绍 了 数 据 挖 掘 技 术 产 生 的 商 业 和 技 术 背 景 ; 在 , 我 们从 不 同 视 点 阐 述 了 数 据 挖 掘 的 概 念 和 主 要 理 论 构 架 ; 在 我 们 从 多 种 角 度 对 数 据 挖 掘 系 统 的 分 类 问 题 进 行 了 概 括 ;在 , 我 们 从 知 识 表 示 模 式 角 度 出 发 , 归 纳 了 主 要 的 数据 挖 掘 技 术 及 其 研 究 成 果 ; 对 不 同 源 数 据 组 织 形 式 下的 数 据 挖 掘 技 术 的 特 点 和 策 略 进 行 了 剖 析 ; 分 析 了 数据 挖 掘 技 术 的 应 用 现 状 和 发 展 趋 势 。 据挖掘技术的 产生背景 据挖掘技术的商业需求分析 数 据 挖 掘 之 所 以 吸 引 专 家 学 者 的 研 究 兴 趣 和 引 起 商 业 厂家 的 广 泛 关 注 , 主 要 在 于 大 型 数 据 系 统 的 广 泛 使 用 和 把 数 据转 换 成 有 用 知 识 的 迫 切 需 要 。 60 年 代 ,为 了 适 应 信 息 的 电 子化 要 求 , 信 息 技 术 一 直 从 简 单 的 文 件 处 理 系 统 向 有 效 的 数 据库 系 统 变 革 。 70 年 代 ,数 据 库 系 统 的 三 个 主 要 模 式 层 次 、网络和关系型数据库的研究和开发取得了重要进展。 80 年代 , 关 系 型 数 据 库 及 其 相 关 的 数 据 模 型 工 具 、 数 据 索 引 及 数据 组 织 技 术 被 广 泛 采 用 ,并 且 成 为 了 整 个 数 据 库 市 场 的 主 导 。80 年 代 中 期 开 始 ,关 系 数 据 库 技 术 和 新 型 技 术 的 结 合 成 为 数据 库 研 究 和 开 发 的 重 要 标 志 。 从 数 据 模 型 上 看 , 诸 如 扩 展 关系 、 面 向 对 象 、 对 象 以 及 演 绎 模 型等 被 应 用 到 数 据 库 系 统 中 。 从 应 用 的 数 据 类 型 上 看 , 包 括 空间 、 时 态 、 多 媒 体 以 及 新 型 数 据 成 为 数 据 库 应 用 的重 要 数 据 源 。同 时 ,事 务 数 据 库( 主动 数 据 库 ( 知 识 库 ( 办 公 信 息 库( 技 术 也 得 到 蓬 勃 发 展 。从第 2章 数据挖掘技术 8 - 数 据 的 分 布 角 度 看 , 分 布 式 数 据 库 ( 其 透 明 性 、 并 发 控 制 、 并 行 处 理 等 成 为 必 须 面 对 的 课 题 。进入 90 年 代 ,分 布 式 数 据 库 理 论 上 趋 于 成 熟 ,分 布 式 数 据 库技 术 得 到 了 广 泛 应 用 。 目 前 , 由 于 各 种 新 型 技 术 与 数 据 库 技术 的 有 机 结 合 , 使 数 据 库 领 域 中 的 新 内 容 、 新 应 用 、 新 技 术层 出 不 穷 , 形 成 了 庞 大 的 数 据 库 家 族 。 但 是 , 这 些 数 据 库 的应 用 都 是 以 实 时 查 询 处 理 技 术 为 基 础 的 。 从 本 质 上 说 , 查 询是 对 数 据 库 的 被 动 使 用 。 由 于 简 单 查 询 只 是 数 据 库 内 容 的 选择 性 输 出 , 因 此 它 和 人 们 期 望 的 分 析 预 测 、 决 策 支 持 等 高 级应 用 仍 有 很 大 距 离 。 新 的 需 求 推 动 新 的 技 术 的 诞 生 。 数 据 挖 掘 的 灵 魂 是 深 层次 的 数 据 分 析 方 法 。 数 据 分 析 是 科 学 研 究 的 基 础 , 许 多 科 学研 究 都 是 建 立 在 数 据 收 集 和 分 析 基 础 上 的 。 同 时 在 目 前 的 商业 活 动 中 , 数 据 分 析 总 是 和 一 些 特 殊 的 人 群 的 高 智 商 行 为 联系 起 来 , 因 为 并 不 是 每 个 平 常 人 都 能 从 过 去 的 销 售 情 况 预 测将 来 发 展 趋 势 或 作 出 正 确 决 策 的 。 但 是 , 随 着 一 个 企 业 或 行业 业 务 数 据 的 不 断 积 累 , 特 别 是 由 于 数 据 库 的 普 及 , 人 工 去整 理 和 理 解 如 此 大 的 数 据 源 已 经 存 在 效 率 、 准 确 性 等 问 题 。因 此 , 探 讨 自 动 化 的 数 据 分 析 技 术 , 为 企业 提供 能 带 来 商业利润 的 决 策 信 息 而 成 为 必 然 。 事 实 上 , 数据 ( 、 信 息 ( 和 知识( 以 看 作 是 广 义 数 据 表现 的 不 同 形式 3 。毫 不夸 张 地 说 , 人 们 对 于 数 据 的 拥 有 欲 是 贪 婪 的 , 特 别 是 计 算 机存 储 技 术 和 网 络 技 术 的 发 展 加 速 了 人 们 收 集 数 据 的 范 围 和 容量 。这 种 贪 婪 的 结 果 导 致 了“ 数据 丰 富 而 信 息 贫乏 ( 现 象 的 产 生 。 数 据 库 是 目 前 组 织 和 存储 数 据 的 最 有 效 方 法 之 一 , 但 是 面 对 日 益 膨 胀 的 数 据 , 数 据库 查 询 技 术 已 表 现 出 它 的 局 限 性 。 直 观 上 说 , 信 息 或 称 有 效信 息 是 指 对 人 们 有 帮 助 的 数 据 。 例 如 , 在 现 实 社 会 中 , 如 果人 均 日 阅 读 时 间 在 30 分 钟 的 话 ,一 个 人 一 天 最 快 只 能 浏 览 一份 20 版 左 右 的 报 纸 。 如 果 你 订 阅 了 100 份 报 纸 ,其 实 你 每 天也 不 过 只 阅 读 了 一 份 而 已 。 面 对 计 算 机 中 的 海 量 的 数 据 , 人们 也 处 于 同 样 的 尴 尬 境 地 , 缺 乏 获 取 有 效 信 息 的 手 段 。 知 识是 一 种 概 念 、 规 则 、 模 式 和 规 律 等 。 它 不 会 象 数 据 或 信 息 那么 具 体 , 但 是 它 却 是 人 们 一 直 不 懈 追 求 的 目 标 。 事 实 上 。 在我 们 的 生 活 中 , 人们 只是 把 数 据 看 作 是 形 成 知 识 的 源 泉 。我第 2章 数据挖掘技术 9 - 们 是 通 过 正 面 的 或 反 面 的 数 据 或 信 息 来 形 成 和 验 证 知 识 的 ,同 时 又 不 断 地 利 用 知 识 来 获 得 新 的 信 息 。 因 此 , 随 着 数 据 的膨 胀 和 技 术 环 境 的 进 步 , 人 们 对 联 机 决 策 和 分 析 等 高 级 信 息处 理 的 要 求 越 来 越 迫 切 。 在 强 大 的 商 业 需 求 的 驱 动 下 , 商 家们 开 始 注 意 到 有 效 地 解 决 大 容 量 数 据 的 利 用 问 题 具 有 巨 大 的商 机 ; 学 者 们 开 始 思 考 如 何 从 大 容 量 数 据 集 中 获 取 有 用 信 息和 知 识 的 方 法 。 因 此 , 在 二 十 世 纪 八 十 年 代 后 期 , 产 生 了 数据 仓 库 和 数 据 挖 掘 等 信 息 处 理 思 想 。 据 挖 掘 产 生 的 技 术 背 景 分 析 任 何 技 术 的 产 生 总 是 有 它 的 技 术 背 景 的 。 数 据 挖 掘 技 术的 提 出 和 普 遍 接 受 是 由 于 计 算 机 及 其 相 关 技 术 的 发 展 为 其 提供 了 研 究 和 应 用 的 技 术 基 础 。 归 纳 数 据 挖 掘 产 生 的 技 术 背 景 , 下 面 一 些 相 关 技 术 的 发展 起 到 了 决 定 性 的 作 用 : 数 据 库 、 数 据 仓 库 和 信 息 技 术 的 发 展 ; 计 算 机 性 能 的 提 高 和 先 进 的 体 系 结 构 的 发 展; 统 计 学 和 人 工 智 能 等 方 法 在 数 据 分 析 中 的 研 究 和 应用。 数 据 库 技 术 从 二 十 世 纪 80 年 代 开 始 ,已 经 得 到 广 泛 的 普及 和 应 用 。 在 关 系 型 数 据 库 的 研 究 和 产 品 提 升 过 程 中 , 人 们一 直 在 探 索 组 织 大 型 数 据 和 快 速 访 问 的 相 关 技 术 。 高 性 能 关系 数 据 库 引 擎 以 及 相 关 的 分 布 式 查 询 、 并 发 控 制 等 技 术 的 使用 , 已 经 提 升 了 数 据 库 的 应 用 能 力 。 在 数 据 的 快 速 访 问 、 集成 与 抽 取 等 问 题 的 解 决 上 积 累 了 经 验 。 数 据 仓 库 作 为 一 种 新型 的 数 据 存 储 和 处 理 手 段 , 被 数 据 库 厂 商 普 遍 接 受 并 且 相 关辅 助 建 模 和 管 理 工 具 快 速 推 向 市 场 , 成 为 多 数 据 源 集 成 的 一种 有 效 的 技 术 支 撑 环 境 。 另 外 , 普 及 也 为 人 们 提供 了 丰 富 的 数 据 源 。据 说 ,在 美 国 电 视 达 到 5000 万 户 大 约 用了 15 年 , 而 网 达 到 5000 万 户 仅 用 了 4 年 。 而 且术本身的发展,已经不光

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论