数据挖掘概念与技术_第1页
数据挖掘概念与技术_第2页
数据挖掘概念与技术_第3页
数据挖掘概念与技术_第4页
数据挖掘概念与技术_第5页
已阅读5页,还剩637页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 2008年 3月 数据挖掘概念与技术 2 第 1章 引言 本章要点 数据仓库的发展 数据挖掘 数据挖掘的类型 数据挖掘常用技术 数据挖掘解决的典型商业问题 3 数据仓库的发展 自从 NCR公司为 Wal Mart建立了第一个数据仓库。 1996年,加拿大的 IDC公司调查了 62家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益。 早期的数据仓库:大都 客户 /服务器结构。 近年来:数据仓库体系结构从功能上划分为若干个分布式对象,可以直接用于建立数据仓库,还可以在应用程序中向用户提供调用的接口。 IBM的实验室在数据仓库方面已经进行了 10多年的研究,并将研究成果发展成为商用产品。 其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。 4 数据仓库的发展 IBM: 在其 DB2UDB发布一年后的 1998年 9月发布 5.2版,并于 1998年 12月推向中国市场,除了用于 OLAP(联机分析处理)的后台服务器 DB2 OLAP Server外,IBM还提供了一系列相关的产品,包括前端工具,形成一整套解决方案。 Informix公司 : 在其动态服务器 IDS( Informix Dynamic Server)中提供一系列相关选件,如高级决策支持选件( Advanced Decision Support Option)、 OLAP选件( MetaCube ROLAP Option)、扩展并行选件( Extended Parallel Option)等,这种体系结构严谨、管理方便、索引机制完善,并行处理的效率更高,其中数据仓库和数据库查询的 SQL语句的一致性使得用户开发更加简便。 5 数据仓库的发展 微软公司 : 在其 SQL Server7.0以及 SQL Server2000中集成了代号为 Plato的 OLAP服务器。 Sybase: 提供了专门的 OLAP服务器 Sybase IQ,并将其与数据仓库相关工具打包成 Warehouse Studio 。 PLATINUM: 提出了由 InfoPump(数据仓库建模与数据加载工具)和 Forest&Trees(前端报表工具)构成的一套较有特色的整体方案。 ; Oracle公司 : 则推出从数据仓库构建、 OLAP到数据集市管理等一系列产品包(如 Oracle Warehouse Builder、 Oracle Express、 DataMart Suit等)。 6 数据仓库的我国的发展 现状:数据仓库的概念已经被国内用户接受多年,但在应用方面的收效不理想 原因: 现有的数据库系统不健全,数据积累还不够,无法提出决策支持需求; 缺乏能够担负规划、设计、构建和维护数据仓库的重任的复合型人才; 没很好使用数据仓库前端工具(如 OLAP工具、数据挖掘工具等)。 7 数据仓库的我国的发展 前景:随着计算机技术的发展,尤其是分布式技术的发展, 数据仓库在我国有着广阔的发展空间和良好的发展前景。例如: 由于银行商业化的步伐正在加大,各大中型银行在入世的机遇和挑战下,开始重新考虑自身的业务,特别是信贷风险管理方面特别注意,因而有关信贷风险管理和风险规章的基于数据仓库的决策支持系统的需求逐渐增多; 由于电子商务的迅速发展,越来越多的电子商务网站,开始考虑如何将数据仓库应用于商品销售分析、顾客的诚信度分析等,为客户提供更进一步的个性化服务; 如移动通信等各大型企业也开始考虑着手进行决策支持以及数据仓库规划。 8 数据仓库 (Data Warehouse)的定义 数据仓库用来保存从多个数据库或其它信息源选取的数据 , 并为上层应用提供统一 用户接口,完成数据查询和分析。 数据仓库是作为 DSS服务基础的分析型 DB, 用来存放大容量的只读数据,为制定决策提供所需要的信息。 数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。 W.H.Inmon对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。 9 数据仓库的适用范围 信息源中的数据变化稳定 或可预测应用不需要最新的数据 或允许有延迟 应用要求有较高的查询性能 而降低精度要求 10 支持管理决策 数据仓库支持 OLAP(联机分析处理)、数据挖掘和决策分析。 OLAP从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分析,使决策者能够以更加自然的方式来分析数据。 数据挖掘则以数据仓库和多维数据库中的数据为基础,发现数据中的潜在模式和进行预测。 因此,数据仓库的功能是支持管理层进行科学决策,而不是事务处理。 11 数据仓库的技术要求 大量数据的组织和管理:包含了大量的历史数据,它是从数据库中提取得来的,不必关心它的数据安全性和数据完整性。 复杂分析的高性能体现:涉及大量数据的聚集、综合等,在进行复杂查询时经常会使用多表的联接、累计、分类、排序等操作。 对提取出来的数据进行集成:数据仓库中的数据是从多个应用领域中提取出来的,在不同的应用领域和不同的数据库系统中都有不同的结构和形式,所以如何对数据进行集成也是构建数据仓库的一个重要方面。 对进行高层决策的最终用户的界面支持:提供各种分析应用工具。 12 随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息。 如何有效使用数据库中存储的海量数据? 13 如何有效使用数据库中存储的海量数据? 数据挖掘就是从大量的实际应用数据中,提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。 数据挖掘的主要目的是提高市场决策能力,检测异常模式,在过去的经验基础上预言未来趋势等。 例如,通过对大量气象资料和销售资料的处理及分析,德国的啤酒商发现,夏天气温每升高1 ,就会增加 230万瓶的啤酒销量;而日本人则发现,夏季 30 以上的天气每增加一天,空调的销量便增加 4万台。 14 美国沃尔玛超市 “ 啤酒与尿布 ” 的故事 沃尔玛超市建立数据仓库,按周期统计产品的销售信息,经过科学建模后提炼决策层数据。 发现每逢周末,位于某地区的沃尔玛超市连锁店的啤酒和尿布的销售量很大,而且单张发票中同时购买尿布和啤酒的记录非常普遍。 分析人员认为这并非偶然,经过深入分析得知,通常周末购买尿布的是男士,他们在完成了太太交给的任务后,经常会顺便买一些啤酒。 得出这样的结果后,沃尔玛超市的工作人员尝试着将啤酒和尿布摆放在一起销售,结果尿布与啤酒的销售额双双增长。 从上面的例子不难看出,数据管理的主要目的是获取信息和分析信息以指导我们的行动或帮助我们作决策。 15 数据挖掘 数据挖掘( ata Mining) :又称为数据库中的知识发现,是基于、机器学习、统计学等技术,高度自动化地分析原有的数据,进行归纳性推理,从数据仓库或数据库中提取可信的、新颖的、有效的、人们感兴趣的、能别人理解的知识的高级处理过程。这些知识是隐含的、事先未知的有用信息,提取的知识表现为概念、规则、模式、规律等形式,以帮助管理者作出正确的决策。 模式:它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。模式按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。 16 数据挖掘 数据挖掘和数据仓库是作为两种独立的信息技术出现的。它们都可以完成对决策过程的支持,并且相互间有一定的内在联系。因此,将数据仓库与数据挖掘集成到一个系统中将能够更有效地提高系统的决策支持能力。 数据挖掘是一门交叉性学科,它涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等多个领域。可广泛地应用于信息管理、过程控制、科学研究、决策支持等许多方面。 17 数据挖掘的发展 “从数据中发现有用模式 ” 历来有很多称法,如 : 数据挖掘 ( data mining) 知识提取 (knowledge extraction) 信息发现 (information discovery) 信息收获 (information harvesting) 数据考古 (data archaeology) 数据模式处理 (data pattern processing) “数据挖掘 ” 的称法大部分是由统计学家,数据分析学家和 MIS团体使用的,在数据库领域也得到了广泛接受。 18 数据挖掘的发展 70 80年代:知识发现与数据挖掘结合 1989年 6月:在美国底特律举行了第一届 “ 从数据库中 知识发现 ” 的国际学术会议,在这次会议中第一次使用了 KDD 这个词来强调 “ 知识 ”是数据驱动 (data-driven)发现的最终结果。 1995:加拿大召开第一届知识发现与数据挖掘国际学术会议 19 历届有关 KDD的学术会议 时间 会议名称 会议地点 接受论文数 提交 论文数 Jun.1989 Workshop on KDD Detroit,Michigan,USA 29 69 Jul.1991 Workshop on KDD Anaheim,California, USA 25 46 Jul.1993 Workshop on KDD Washington,USA 28 40 1995 KDD95 Montreal,Canada 40 135 Aug.1996 KDD96 Portland,Oregon,USA 45 220 Feb.1997 PAKDD97 Singapore 35 97 Aug.1997 KDD97 California,USA Apr.1998 PAKDD98 Melbourne,Australia Aug.1998 KDD98 New York,USA 20 数据挖掘的发展 数据挖掘技术的应用开发在国外已经迅速发展,许多大公司(如 Informix, Oracle, IBM等)都投入了巨资对其进行研究,并开发出了一些产品和原型,如 DBMiner、 Quest、 EXPLORA等。 第一本关于数据挖掘的国际学术杂志 Data Mining and Knowledge Discovery 于 1997年3月创刊。 国内在这方面的研究起步比较晚,早期研究的方向多集中于关联规则的挖掘,近来关于时序模式、分类、聚类、 WEB数据挖掘等的研究也日益受到重视,并取得了不少可喜的成果,一些原型系统或数据挖掘工具已经研制成功并在不断完善中。 21 DM系统的体系结构 ( 1) DW 的步骤: 数据准备: 数据集成 数据选择 预分析 挖掘 表述 评价 ( 2) DW 系统的结构: 用户界面 结果输出 数据挖掘核心 知识库 数据仓库 数据库 文件系统 其他 数据源 ODBC或其他专用数据库接口 22 数据准备阶段:经过处理过的数据一般存储在数据仓库中。数据准备是否做得充分将影响到数据挖掘的效率和准确度以及最终模式的有效性。包括: 数据的选择:选择相关的数据 数据的净化:消除噪音、冗余数据 数据的推测:推算缺失数据 数据的转化:离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之间的计算组合等 数据的缩减:减少数据量 数据挖掘的过程 23 数据挖掘的过程 挖掘阶段:该阶段是数据挖掘的核心步骤,也是技术难点所在。根据数据挖掘的目标,采用人工智能、集合论、统计学等方法,应用相应的数据挖掘算法,分析数据并通过可视化工具表述所获得的模式或规则。 24 数据挖掘的过程 评价阶段:在数据挖掘中得到的模式可能是没有实际意义或没有使用价值的,也有可能不能准确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,确定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。 25 数据挖掘的过程 巩固和运用阶段:用户理解的、并被认为是符合实际和有价值的模式形成了知识。同时还要对知识进行一致性检查,解决与以前得到的知识互相冲突、矛盾的地方,使知识得到巩固。 运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求运用知识对新的数据进行分析,由此可能产生新的问题,而需要对知识作进一步的优化。 26 数据挖掘的类型 数据挖掘的任务 : 是从大量的数据中发现模式。 比较典型的有: 预测模型 关联分析 分类分析 聚类分析 序列分析 偏差检测 模式相似性挖掘 Web数据挖掘 27 预测模型 预测模型( Predictive Modeling): 即从数据库或数据仓库中已知的数据推测未知的数据或对象集中某些属性的值分布 建立预测模型的常用方法: 回归分析 线性模型 关联规则 决策树预测 遗传算法 神经网络 28 关联分析 关联( Association)分析:关联规则描述了一组数据项之间的密切度或关系。关联分析用于发现项目集之间的关联。 在关联规则挖掘算法中,通常给出了置信度和支持度两个概念,对于置信度和支持度均大于给定阈值的规则称为强规则,而关联分析主要就是对强规则的挖掘。 近几年研究较多。现在,已经从单一概念层次关联规则的发现发展到多概念层次的关联规则的发现,并把研究的重点放在提高算法的效率和规模可收缩性上。它广泛地运用于帮助市场导向、商品目录设计客户关系管理)( CRM)和其他各种商业决策过程中。 关联分析算法: APRIORI算法、 DHP算法、 DIC算法、PARTITION算法及它们的各种改进算法等。另外,对于大规模、分布在不同站点上的数据库或数据仓库,关联规则的挖掘可以使用并行算法,如: Count分布算法、 Data分布算法、Candidate 分布算法、智能 Data分布算法( IDD)和 DMA分布算法等。 29 分类分析 分类( Classification)分析:根据数据的特征为每个类别建立一个模型,根据数据的属性将数据分配到不同的组中。 在实际应用过程中,分类规则可以分析分组中数据的各种属性,并找出数据的属性模型,从而确定哪些数据属于哪些组。这样就可以利用该模型来分析已有数据,并预测新数据将属于哪一个组。类的描述可以是显式的,如用一组特征概念描述;也可以是隐式的,如用一个数学公式或数学模型描述。分类分析已经成功地用于顾客分类、疾病分类、商业建模和信用卡分析等。 分类分析的常用方法: 约略( Rough)集 决策树 神经网络 统计分析法 30 聚类分析 聚类 (Clustering)分析:聚类是指一组彼此间非常 “ 相似 ” 的数据对象的集合。相似的程度可以通过距离函数来表示,由用户或专家指定。 聚类分析是按照某种相近程度度量方法将数据分成互不相同的一些分组。每一个分组中的数据相近,不同分组之间的数据相差较大。 好的聚类方法可以产生高质量的聚类,保证每一聚类内部的相似性很高,而各聚类之间的相似性很低。聚类分析的核心是将某些定性的相近程度测量方法转换成定量测试方法。 采用聚类分析,系统可以根据部分数据发现规律,找出对全体数据的描述。 聚类分析的常用方法: 随机搜索聚类法 特征聚类 CF树 31 序列分析 序列( Sequence)分析:序列分析主要用于分析数据仓库中的某类与时间相关的数据,搜索类似的序列或子序列,并挖掘时序模式、周期性、趋势和偏离等。 例如,它可以导出类似 “ 若 AT&T股票连续上涨两天且 DEC股票不下跌,则第三天 IBM股票上涨的可能性为 75%”的数据关系。序列模式可以看成是一种特定的关联模型,它在关联模型中增加了时间属性。 32 偏差检测与模式相似性挖掘 偏差检测( Deviation Detection):用于检测并解释数据分类的偏差,它有助于滤掉知识发现引擎所抽取的无关信息,也可滤掉那些不合适的数据,同时可产生新的关注性事实。 模式相似性挖掘:用于在时间数据库或空间数据库中搜索相似模式时,从所有对象中找出用户定义范围内的对象;或找出所有元素对,元素对中两者的距离小于用户定义的距离范围。模式相似性挖掘的方法有相似度测量法、遗传算法等。 33 Web数据挖掘 Web数据挖掘:万维网是一个巨大的、分布广泛的和全球性的信息服务中心,其中包含了丰富的超链接信息,为数据挖掘提供了丰富的资源。 Web使用模式挖掘:在 Web环境中,文档和对象一般都是通过链接来便于用户访问。捕捉用户的存取模式或发现一个 Web网站最频繁的访问路径称为 Web使用模式挖掘或 Web路径挖掘。 Web结构挖掘:是挖掘 Web的链接结构,并找出关于某一主题的权威网站。 Web内容挖掘:是指在大量训练样本的基础上,得到数据对象之间的内在特征,并以此为依据进行有目的的信息筛选,从而获得指定内容的信息。 基于 Web的研究:搜索引擎的设计、文件自动分类技术、关键词的自动提取、半结构化信息的提取及 Web上新型应用的研究 34 数据挖掘系统的结构 数据挖掘系统可以采用三层的 C/S结构: 第一层:为图形用户界面,位于系统的客户端; 第二层:为数据挖掘引擎,它是数据挖掘系统的核心,位于系统的应用服务器端; 第三层:为数据库与数据仓库,位于数据服务器端。 35 数据挖掘系统的结构 图形用户界面 该模块实现用户与数据挖掘系统之间的通信,允许用户与系统交互。 用户可以通过图形化界面指定数据挖掘任务、输入有关信息,根据系统以可视化形式输出的数据挖掘的中间结果进行探索式的数据挖掘。 此外,该模块还提供用户浏览数据库和数据仓库模式或数据结构、评价数据挖掘的模式等功能。 36 数据挖掘系统的结构 数据挖掘引擎 数据挖掘引擎是数据挖掘系统最基本、最重要的部分,是数据挖掘系统的核心。 该部分由一系列功能模块组成,分别用于关联规则挖掘、分类规则挖掘、聚类规则挖掘、时序与序列数据挖掘和 WEB数据挖掘等。 37 数据挖掘系统的结构 数据库与数据仓库 该部分位于数据服务器端,包括数据库、知识库、文件系统、其他数据源以及存放经过数据准备提取和集成后数据的数据仓库。在知识库中存放领域知识,用于搜索和对模式进行评价。 数据库与数据仓库服务器的功能是根据用户的数据挖掘请求,提取相应的数据供数据挖掘引擎使用。 38 数据挖掘常用技术 生物学方法 人工神经网络 遗传算法 信息论方法 决策树 集合论方法 约略集 模糊集 最邻近技术 统计学方法 可视化技术 39 生物学方法 神经网络方法 神经网络是人工智能领域的一个重要的分支。采用神经网络设计的系统模拟人脑的结构,而与传统的系统截然不同。由医学可知,人的大脑中有几十亿个大脑细胞(称为神经元),这些神经元通过神经中枢的导电神经纤维互相连接,从而形成一个复杂的脑神经网络。人在学习某一件事的时候,某些神经元的连接得到强化。 在人工神经网络中,用计算机处理单元来模拟人脑的神经元,并将这些处理单元象人脑的神经元那样互相连接起来,构成一个网络。神经网络并非使用编程的方式让计算机去做某项工作,而是采用所谓 “ 训练 ” 的方法让神经网络进行 “ 学习 ” 。完成某项工作的正确动作,使得神经网络的某些连接或模式得到强化;而错误的动作则使神经网络的相应连接或模式不被强化。从而让神经网络 “ 学会 ” 如何去做这项工作。 40 生物学方法 神经网络方法 神经网络通过学习待分析数据中的模式来构造模型,一般可对隐类型进行分类,用于非线性的,复杂的数据。它通过模拟人脑神经元结构进行数据挖掘。 以 MP模型和 Hebb学习规则为基础,建立了三大类多种神经网络模型: 前馈式网络:以感知机、反向传播模型、函数型网络为代表,可用于预测、模式识别等方面。 反馈式网络:以 Hopfield的离散模型和连续模型为代表,分别用于联想记忆和优化计算。 自组织网络:以 ART模型、 Koholon模型为代表,用于聚类。 41 生物学方法 遗传算法 遗传算法( Genetic Algorithms,简记为 GI):是一种借鉴生物界自然选择和进化机制发展起来的高度并行、随机、自适应搜索算法。 遗传算法的研究历史比较短,是从 20世纪 60年代末期到 70年代初才开始的,当时的一些学者从试图解释自然界中生物的复杂适应过程入手,模拟生物进化的机制来建立人工系统的模型。经过近 30的发展,现已取得了理论研究的进展和丰硕的应用成果。 目前,以遗传算法为核心的进化算法已与模糊系统理论、人工神经网络等一起成为人工智能研究中的热点,受到许多学科的共同关注。 42 生物学方法 遗传算法 遗传算法的研究与生物进化理论和遗传学密切相关。生命的基本特征包括生长、繁殖、新陈代谢和遗传与变异。生命是进化的产物,现代的生物是在长期的进化过程中发展起来的。 达尔文提出了用自然选择来解释生物的进化过程,该学说包括遗传、变异、生存斗争和适者生存三个方面。 生物进化是非常复杂的,它将涉及诸如染色体、脱氧核糖核酸、遗传因子、种群、基因、进化、选择、复制、交叉、变异、编码与解码等许多名词术语,而且许多现象尚无法用现有的进化理论来解释。 43 生物学方法遗传算法 遗传算法的基本思想:从代表问题的可能潜在解集的一个种群开始,一个种群是由经过基因编码的一定数量的个体组成,每个个体是染色体带有特征的实体,染色体是多个基因的集合,它决定了个体的形状和外部表现;通过模拟基因编码形成初代种群,然后按照适者生存和优胜劣汰的原则逐代演化产生出越来越好的近似解;在每一代,根据问题域中个体的适应度大小进行选择,并借助遗传算子进行组合交叉和变异,从而产生出代表新的解集的种群;以上过程将导致种群象自然进化一样的后代种群比前代种群更加适用于环境,末代种群中的最优个体经过解码可以作为问题的最优近似解。 44 生物学方法 遗传算法 遗传算法中的三个基本操作: 选择:即通过适应度的计算确定重组或交叉的个体,并确定被选个体将产生多少个子代个体。 交叉:又称为基因重组,即结合来自父代种群中的信息产生新的个体。 变异:即交叉之后子代的基因按小概率扰动所产生的变化。 遗传算法可起到产生优良后代的作用。这些后代需满足适应值,经过若干代的遗传,将得到满足要求的后代(问题的解)。 遗传算法提供了一种求解复杂系统优化问题的通用框架,它不依赖于问题的具体领域,因此可以应用于函数优化、组合优化、生产调度、自动控制、机器人智能控制、图像处理、模式识别、机器学习、数据挖掘等众多领域。 45 信息论方法 信息论是研究信息的测度及其性质、信息传输和信息处理系统的一般规律的学科分支。其研究内容主要包括:以编码理论为中心的所谓狭义信息论,它研究信息的测度、信息的容量、信源特性、信源编码、信道和信息系统模型等;信号处理技术,它研究信号和噪音分析、信号的过滤与检测,以及有关理论;以计算机为中心的信息处理技术与理论,例如模式识别、自学习理论、自动机器翻译等。 在数据挖掘中,决策树( decision tree)是一种广泛使用的图解法决策分析工具,它把影响各行动的有关因素(自然状态、概率、损益值等)用树型图表示,可直观形象地表示出各条件和所允许的行动以及各种结果中间的关系。 46 决策树方法 决策树:用树结构表示决策集,这些决策产生规则,用于对数据集进行分类。 决策树的建立:利用训练集生成一个测试函数,根据不同取值建立树的分支,再在每个分支子集中重复建树的分支的过程,即可建立决策树。然后对决策树进行剪枝处理,即可得到规则。 典型的决策树方法: ID3、分类回归树( CART)、 C4.5等。 47 集合论方法约略集 约略集( Rough Set)又称为粗糙集和粗集,是由波兰华沙理工大学 Z . Pawlak教授等提出的研究不完整数据、不精确知识的表达、学习和归纳的理论与方法。 约略集方法与使用统计学方法或模糊集合论方法处理不精确数据的方法不同,它是以对观察和测量所得数据进行分类的能力为基础的,为智能信息处理提供了有效的理论基础和处理技术。 48 集合论方法约略集 约略集理论是 Z.Pawlak于 1982年在 计算机与信息科学 国际杂志上发表的论文 “ Rough Sets”中首先提出的一个分析数据的数学理论。在分类的意义下,这个理论定义了模糊性与不确定性的概念,由于最初的研究大多是用波兰文发表的,因此,这项研究在当时并未引起国际计算机学界的重视,研究地域局限在东欧各国。 到了 80年代末,这个理论引起了世界各国学者的注意,人们对约略集理论的主要兴趣在于它恰好反映了人们以不完全信息或知识去处理一些不分明现象的能力,或依据观察、度量到的某些不精确的结果而进行分类数据的能力。如医学、药学、工业、工程技术、控制系统、社会科学、地球科学、开关电路、图象处理和其他许多方面都已经成功地实现了它的应用。 49 集合论方法约略集 国际上关于约略集理论和知识发现的会议: 1993年在 Banff, Alberta, Canada举行的 The Intl Workshop on Rough Sets and Knowledge Discovery 1996年在 University of Tokyo举行的 The Fourth Intl Workshop on Rough Sets, Fuzzy Sets, and Machine Discovery 研究集中在约略集理论的数学性质、拓广、与其他不确定方法的关系和互补,以及有效算法等方面。 基于 Rough集方法的数据挖掘工具:如ProbRough、 TRANCE、 KDD-R、 LERS、DataLogic/R等。 50 精确集与约略集 令 U是全域, XU,若 X是任意基本集的并,则 X是 R(区分关系) 可定义的,否则是 R不可定义的; R可定义集也称作 R精确集( R Exact Sets),它在 U的知识库中可以被定义,而 R不可定义集不能在该知识库中定义,称为 R非精确集( R Inexact Sets)或 R约略集( R Rough Sets)。 51 约略集 上近似与下近似 约略集的基本观点:用一个二元关系来建构集合的近似。信息系统 S =( U, T, V, )的不可区分集合 RB(x)(在约略集理论中即等价类xB)是用来近似任何子集 XU的基石。 如果用属性 B不能精确地定义集合 X,这时可以考虑用等价关系 B导出的等价类近似地定义集合 X,给出集合 X的下近似和上近似的定义。 根据 X的上下近似,可以将 U分为三个区域:正区域,负区域和边界区域。 52 概念 X的上下近似图解 53 集合论方法 约略集 约略集理论用于分类规则挖掘:发现不精确数据或噪声数据的内在结构联系。其基本思想是建立样本数据内部的等价类,而这些等价类是按照下近似和上近似“ 约略地 ” 定义的。对于每一个等价类可以产生相应的判定规则,对于下近似可建立确定性规则,对于上近似可建立不确定性规则(含可信度),并用判定表表示这些规则。 约略集理论用于特征归约和相关分析:找出描述给定数据集中所有概念的最小属性子集。 约略集理论用于属性化简及其规则筛选:减少数据库系统中的冗余属性,提高数据库中所隐含知识的可理解性。 54 集合论方法 模糊集方法 模糊性是客观存在的,系统的复杂性越高,精确化能力就越低,也就意味着模糊性越强。 在进行分类规则挖掘时,如果采用精确值作为阈值或边界是比较苛刻的,引入模糊集的隶属函数后可以使分类更加接近于现实。基于模糊集理论的分类方法通常需要将属性值转换为模糊值,然后使用模糊规则对给定样本数据进行分类。 模糊集合理论还可以用于对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析等。 55 统计学分析方法 在数据挖掘中,统计学可应用于预测、聚类规则挖掘和时序数据的趋势分析等。 预测是数据分析的一种重要形式,通过建立连续值函数模型,可以预测数据的未来变化趋势。连续值的预测可以使用统计学中的回归统计技术建模,如线性回归、多元回归、非线性回归、广义线性回归(对数回归、泊松回归等)。许多问题可以用线性回归方法解决,而更多的问题则可以对变量进行变换,使得非线性的问题转换为线性的问题加以处理。 56 统计学分析方法 预测 在数据属性之间存在两种关系: 函数关系:能用函数公式表示的确定性关系,可以采用回归分析的方法; 相关关系:不能用函数公式表示,但仍是相关确定的关系,可以采用相关分析和主成分分析等方法。 57 统计学分析方法 聚类分析 统计学方法还可以应用于基于模型的聚类分析。例如,概念聚类是一种基于模型的聚类方法,它对于一组为标记的对象,产生一个分类模式。这种聚类不仅能够确定相似对象的分组,还可以发现每一个分组的特征描述,即每一个分组代表了一个概念或类。概念聚类的大多数方法采用了统计学的途径,在决定概念或聚类时使用概率度量,用概率描述导出的概念。 58 可视化技术 可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析更清楚、更直观。例如,把数据仓库中的多维数据或者把由数据挖掘获得的模式和规则变成多种图形,这对揭示数据的状况、内在本质及规律性起到了重要的作用。 59 数据挖掘解决的典型商业问题 数据挖掘技术从一开始就是面向应用的,尤其是在如银行、电信、保险、交通、零售(如超级市场)等商业领域。 解决的典型商业问题包括:数据库营销( Database Marketing)、客户群体划分( Customer Segmentation & Classification)、背景分析( Profile Analysis)、交叉销售( Cross-selling)等市场分析行为,以及客户流失性分析 (Churn Analysis)、客户信用记分 (Credit Scoring)、欺诈发现 (Fraud Detection)等等。 60 数据挖掘在市场营销的应用 是以市场营销学的市场细分原理为基础, 其基本假定是 “ 消费者过去的行为是其今后消费倾向的最好说明 ” 通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为,然后以此为基础,对所识别出来的消费群体进行特定内容的定向营销 61 数据挖掘在市场营销的应用 与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。 基于数据挖掘的营销对我国当前的市场竞争中也很具有启发意义,我们经常可以看到繁华商业街上一些厂商对来往行人不分对象地散发大量商品宣传广告,其结果是不需要的人随手丢弃资料,而需要的人并不一定能够得到。 如果搞家电维修服务的公司向在商店中刚刚购买家电的消费者邮寄维修服务广告,卖特效药品的厂商向医院特定门诊就医的病人邮寄广告,肯定会比漫无目的的营销效果要好得多。 62 竞技运动中的数据挖掘 美国著名的国家篮球队 NBA的教练,利用 IBM公司提供的数据挖掘工具临场决定替换队员。大约 20个 NBA球队使用了 IBM公司开发的数据挖掘应用软件Advanced Scout系统来优化他们的战术组合。 - Advanced Scout是一个数据分析工具,教练可以用便携式电脑在家里或在路上挖掘存储在 NBA中心的服务器上的数据。 每一场比赛的事件都被统计分类,按得分、助攻、失误等等。时间标记让教练非常容易地通过搜索 NBA比赛的录像来理解统计发现的含义。 例如:教练通过 Advanced Scout发现本队的球员在与对方一个球星对抗时有犯规纪录,他可以在对方球星与这个队员 “ 头碰头 ” 的瞬间分解双方接触的动作,进而设计合理的防守策略。 第 3章 数据仓库和数据挖掘的 OLAP技术 本章要点 数据仓库的基本概念 多维数据模型 数据仓库的系统结构 数据仓库实现 数据立方体技术的近一步发展 从数据仓库到数据挖掘 数据仓库的发展 自从 NCR公司为 Wal Mart建立了第一个数据仓库。 1996年,加拿大的 IDC公司调查了 62家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益。 早期的数据仓库大都采用当时流行的客户 /服务器结构。近年来分布式对象技术飞速发展,整个数据仓库体系结构从功能上划分为若干个分布式对象,这些分布式对象不仅可以直接用于建立数据仓库,还可以在应用程序中向用户提供调用的接口。 IBM的实验室在数据仓库方面已经进行了 10多年的研究,并将研究成果发展成为商用产品。 其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。 数据仓库的发展 IBM: 在其 DB2UDB发布一年后的 1998年 9月发布 5.2版,并于 1998年 12月推向中国市场,除了用于 OLAP(联机分析处理)的后台服务器 DB2 OLAP Server外,IBM还提供了一系列相关的产品,包括前端工具,形成一整套解决方案。 Informix公司 : 在其动态服务器 IDS( Informix Dynamic Server)中提供一系列相关选件,如高级决策支持选件( Advanced Decision Support Option)、 OLAP选件( MetaCube ROLAP Option)、扩展并行选件( Extended Parallel Option)等,这种体系结构严谨、管理方便、索引机制完善,并行处理的效率更高,其中数据仓库和数据库查询的 SQL语句的一致性使得用户开发更加简便。 数据仓库的发展 微软公司 : 在其 SQL Server7.0以及 SQL Server2000中集成了代号为 Plato的 OLAP服务器。 Sybase: 提供了专门的 OLAP服务器 Sybase IQ,并将其与数据仓库相关工具打包成 Warehouse Studio 。 PLATINUM: 提出了由 InfoPump(数据仓库建模与数据加载工具)和 Forest&Trees(前端报表工具)构成的一套较有特色的整体方案。 ; Oracle公司 : 则推出从数据仓库构建、 OLAP到数据集市管理等一系列产品包(如 Oracle Warehouse Builder、 Oracle Express、 DataMart Suit等)。 数据仓库的我国的发展 前景:随着计算机技术的发展,尤其是分布式技术的发展, 数据仓库在我国有着广阔的发展空间和良好的发展前景。例如: 由于银行商业化的步伐正在加大,各大中型银行在入世的机遇和挑战下,开始重新考虑自身的业务,特别是信贷风险管理方面特别注意,因而有关信贷风险管理和风险规章的基于数据仓库的决策支持系统的需求逐渐增多; 由于电子商务的迅速发展,越来越多的电子商务网站,开始考虑如何将数据仓库应用于商品销售分析、顾客的诚信度分析等,为客户提供更进一步的个性化服务; 如移动通信等各大型企业也开始考虑着手进行决策支持以及数据仓库规划。 数据挖掘的发展 数据挖掘是与数据仓库密切相关的一个信息技术新领域,它是信息技术自然演化的结果。 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多,但缺乏挖掘数据中隐藏的知识的手段,导致了“ 数据爆炸但知识贫乏的 ” 现象。 自 80年代后期以来,联机分析处理( OLAP)和数据挖掘技术应运而生。 3.1数据仓库 (Data Warehouse) 数据仓库用来保存从多个数据库或其它信息源选取的数据 , 并为上层应用提供统一 用户接口,完成数据查询和分析。 数据仓库是作为 DSS服务基础的分析型 DB, 用来存放大容量的只读数据,为制定决策提供所需要的信息。 数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。 W.H.Inmon对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。 数据仓库的适用范围 信息源中的数据变化稳定 或可预测应用不需要最新的数据 或允许有延迟应用要求 有较高的查询性能 而降低精度要求 数据仓库中数据的特点 面向主题 集成性 稳定性 时变性 面向主题 主题:是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑上,它对应于企业中某一宏观分析领域所涉及的分析对象。 面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系,从而适应企业各个部门的业务活动特点和企业数据的动态特征,从根本上实现数据与应用的分离。 集成性 数据仓库中的数据是从原有分散的源数据库中提取出来的,其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致,且与不同的应用逻辑相关。为了创建一个有效的主题域,必须将这些来自不同数据源的数据集成起来,使之遵循统一的编码规则。因此,数据仓库在提取数据时必须经过数据集成,消除源数据中的矛盾,并进行数据综合和计算。经过数据集成后,数据仓库所提供的信息比数据库提供的信息更概括、更本质。 稳定性 数据仓库中的数据反映的是一段时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于撰写快照进行统计、综合和重组的导出数据,而不是联机处理的数据。主要供企业高层决策分析之用,所涉及的数据操作主要是查询,一般情况下并不进行修改操作,即数据仓库中的数据是不可实时更新的,仅当超过规定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入数据仓库。 时变性 时变性:许多商业分析要求对发展趋势做出预测,对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉 OLTP数据库中变化的数据,生成数据库的快照,经集成后增加到数据仓库中去;另外数据仓库还需要随时间的变化删去过期的、对分析没有帮助的数据,并且还需要按规定的时间段增加综合数据。 支持管理决策 数据仓库支持 OLAP(联机分析处理)、数据挖掘和决策分析。 OLAP从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分析,使决策者能够以更加自然的方式来分析数据。数据挖掘则以数据仓库和多维数据库中的数据为基础,发现数据中的潜在模式和进行预测。因此,数据仓库的功能是支持管理层进行科学决策,而不是事务处理。 数据仓库的技术要求 大量数据的组织和管理:包含了大量的历史数据,它是从数据库中提取得来的,不必关心它的数据安全性和数据完整性。 复杂分析的高性能体现:涉及大量数据的聚集、综合等,在进行复杂查询时经常会使用多表的联接、累计、分类、排序等操作。 对提取出来的数据进行集成:数据仓库中的数据是从多个应用领域中提取出来的,在不同的应用领域和不同的数据库系统中都有不同的结构和形式,所以如何对数据进行集成也是构建数据仓库的一个重要方面。 对进行高层决策的最终用户的界面支持:提供各种分析应用工具。 操作数据库与数据仓库的区别 操作数据库系统的主要任务是联机事务处理 OLTP 数据仓库在数据分析和决策方面为用户提供服务 ,这种系统称为联机分析处理OLAP 事务型处理与分析型处理 事务型处理:即操作型处理,是指对数据库的联机操作处理。事务型处理是用来协助企业对响应事件或事务的日常商务活动进行处理。它是事件驱动、面向应用的,通常是对一个或一组记录的增、删、改以及简单查询等。事务型处理的应用程序和数据是紧紧围绕着所管理的事件来构造的。在事务型处理环境中,数据库要求能支持日常事务中的大量事务,用户对数据的存取操作频率高而每次操作处理的时间短。 分析型处理 分析型处理:用于管理人员的决策分析,例如DSS、 EIS、和多维分析等。它帮助决策者分析数据以察看趋向、判断问题。分析型处理经常要访问大量的历史数据,支持复杂的查询。在分析型处理中,并不是对从事务型处理环境 中得到的细节数据进行分析。细节数据量太

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论