数据仓库与数据挖掘发展展望_第1页
数据仓库与数据挖掘发展展望_第2页
数据仓库与数据挖掘发展展望_第3页
数据仓库与数据挖掘发展展望_第4页
数据仓库与数据挖掘发展展望_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第12章,数据仓库与数据挖掘的发展,目录,12.1 综合决策支持系统 12.2 可拓数据挖掘,12.1 综合决策支持系统,12.1.1 从管理科学到决策支持系统 12.1.2 基于数据仓库的决策支持系统与传统决策支持系统的结合 12.1.3 综合决策支持系统发展趋势,12.1.1 从管理科学到决策支持系统,1.管理科学 管理科学(MS)的传统名字叫运筹学(OR) 。 管理科学是对管理问题用定量分析方法,建立数学模型,通过求解计算,达到辅助管理决策的一门学科。 管理科学是用数学模型方法研究经济、国防等部门在环境的约束条件下,合理调配人力、物力、财力等资源,通过模型的有效运算,来预测发展趋势,制定

2、行动规划或优选可行方案。,12.1.1 从管理科学到决策支持系统,2. 决策支持系统 管理科学与运筹学是运用模型辅助决策,体现在单模型辅助决策上,模型所需要的数据在计算机中以文件形式存储。 对多模型辅助决策问题,在决策支持系统出现之前是靠人来实现模型间的联合和协调。 决策支持系统(DSS)的出现是要解决由计算机自动组织和协调多模型的运行和数据库中大量数据的存取和处理,达到更高层次的辅助决策能力。,12.1.1 从管理科学到决策支持系统,2. 决策支持系统 管理科学与运筹学是运用模型辅助决策,体现在单模型辅助决策上,模型所需要的数据在计算机中以文件形式存储。 对多模型辅助决策问题,在决策支持系统

3、出现之前是靠人来实现模型间的联合和协调。 决策支持系统的出现是要解决由计算机自动组织和协调多模型的运行和数据库中大量数据的存取和处理,达到更高层次的辅助决策能力。,决策支持系统的特点就是增加了模型库和模型库管理系统,它把众多的模型有效地组织和存储起来,并且建立了模型库和数据库的有机结合。这种有机结合适应人机交互功能,自然促使新型系统的出现,即决策支持系统的出现。,决策支持系统结构,多模型组合的自动运行为改变方案中的模型和数据带来了方便。在系统方案中采用不同的模型或数据的组合将形成不同的方案,故决策支持系统为解决半结构化问题(部分由计算机完成,部分由人来完成的问题)成为可能。 DSS语言应是两类

4、语言(数值计算语言和数据库语言)的综合。,12.1.1 从管理科学到决策支持系统,3. 智能决策支持系统 智能决策支持系统(IDSS)是决策支持系统(DSS)与人工智能(AI)技术相结合的系统。 人工智能技术融入决策支持系统后,使DSS在模型技术与数据处理技术的基础上,增加了知识推理技术, 使DSS的定量分析和AI的定性分析结合起来,提高辅助决策和支持决策的能力。,在决策支持系统中加入知识部件(知识库、知识库管理系统与推理机)后,形成了智能决策支持系统。 知识推理是建立从初始概念到中间概念,最后到目标概念的推理链。 知识部件由知识库、知识库管理系统和推理机三者组成。,智能决策支持系统结构,智能

5、决策支持系统的特点是以模型计算和知识推理的方式辅助决策。我们称它为传统决策支持系统。,12.1.2 基于数据仓库的决策支持系统与传统决策支持系统的结合,数据仓库是为辅助决策而建立的。数据仓库所提供的辅助决策信息是大量数据的综合信息与预测信息。 数据仓库(DW)和联机分析处理(OLAP)及数据挖掘(DM)结合的决策支持系统,是以数据仓库为基础的,我们称为基于数据仓库的决策支持系统。 我们把基于数据仓库的决策支持系统称为新决策支持系统 。,基于数据仓库的决策支持系统结构,1. 新决策支持系统与传统决策支持系统的比较,新决策支持系统和传统决策支持系统几乎没有什么共同之处,它们是从不同的角度发展起来,

6、辅助决策的方式也不相同。由于两者不是覆盖关系,也就不存在相互代替的问题,而是相互补充和相互结合的问题。,1. 新决策支持系统与传统决策支持系统的比较,(1)新决策支持系统中数据挖掘获取的知识与传统决策支持系统的知识推理中的知识是不相同的。 (2)新决策支持系统中没有充分利用模型和模型组合来辅助决策。 (3)决策支持系统的技术还没有完全成熟。 传统决策支持系统和新决策支持系统结合起来,一方面可以相互促进、互相结合,对已成熟的技术可以先结合起来,逐步扩展到后成熟的技术。,2. 新决策支持系统与传统决策支持系统的结合,将传统决策支持系统和新决策支持系统结合起来的决策支持系统称为综合决策支持系统(SD

7、SS) 。 数据仓库与联机分析处理和数据挖掘三者结合起来辅助决策能力有极大的提高,它们应用于实际决策问题而形成的决策支持系统是一种新型决策支持系统。,2. 新决策支持系统与传统决策支持系统的结合,将传统决策支持系统和新决策支持系统结合起来的决策支持系统称为综合决策支持系统(SDSS) 。 数据仓库与联机分析处理和数据挖掘三者结合起来辅助决策能力有极大的提高,它们应用于实际决策问题而形成的决策支持系统是一种新型决策支持系统。,2. 新决策支持系统与传统决策支持系统的结合,将传统决策支持系统和新决策支持系统结合起来的决策支持系统称为综合决策支持系统(SDSS) 。 数据仓库与联机分析处理和数据挖掘

8、三者结合起来辅助决策能力有极大的提高,它们应用于实际决策问题而形成的决策支持系统是一种新型决策支持系统。,新决策支持系统的典型特点是从数据中获取辅助决策信息和知识。它们以数据仓库中的大量数据为对象,数据仓库本身能提供综合信息和预测信息;联机分析处理提供多维数据分析信息;数据挖掘提供所获取信息和知识,共同为实际决策问题辅助决策。,传统决策支持系统是以模型和知识为决策资源,通过模型的计算和知识推理为实际决策问题辅助决策。 新决策支持系统与传统决策支持系统在本质上是不一样的,也就是说不能用新决策支持系统来代替传统决策支持系统。为了更有效地辅助决策,应该将新决策支持系统和传统决策支持系统结合起来。,3

9、. 综合决策支持系统结构,把数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)、模型库(MB)、数据库(DB)、知识库(KB)结合起来形成的综合决策支持系统是更高级形式的决策支持系统。 它们集成的综合决策支持系统(SDSS),将相互补充和依赖,发挥各自的辅助决策优势,实现更有效的辅助决策。,3. 综合决策支持系统结构,综合决策支持系统的三个主体,(1)模型库系统和数据库系统结合的主体。该主体完成多模型的组合与大量共享数据的处理,是利用模型资源辅助决策的; (2)数据仓库系统与联机分析处理(OLAP)结合的主体。该主体完成对数据仓库中数据的综合、预测和多维数据分析,是利用数据资源辅助决

10、策的; (3)知识库系统(知识库、推理机和知识库管理系统)与数据挖掘结合的主体。该主体完成知识推理,是利用知识资源辅助决策的。,12.1.3 综合决策支持系统发展趋势,1. 综合决策支持系统的兴起 数据仓库提供综合信息和预测信息辅助决策,未明确提出利用模型的问题。 现在,数据仓库在逐步增加各种模型,来提高辅助决策效果。即:数据仓库和模型库结合。,以客户为中心的银行数据仓库使用模型: 1. 分销渠道的分析模型 2. 客户利润贡献度模型 3. 客户关系(信用)优化模型 4. 风险评估模型,网络上的数据库服务器,使数据库系统从单一的本地服务上升为网络上的远程服务,而且能对远地多个用户的不同客户机,同

11、时并发的提供服务。 数据仓库也是以服务器形式在网络上提供共享、并发服务。 数据库和数据仓库都是数据资源。同样,将模型资源和知识资源也以服务器的形式在网络上为远地的客户机提供并发和共享的模型服务和知识服务。,2.网络环境的综合决策支持系统,决策支持系统的综合部件(问题综合与交互系统)是由网络上的客户机来完成,即在客户机上编制DSS控制程序,由它来调用或者组合模型服务器上的模型,完成模型计算;知识服务器上的知识,完成知识推理以及数据仓库的综合信息查询,或用历史数据进行预测。这样,就形成了网络环境的综合决策支持系统。,网络环境的综合决策支持系统结构,客户i 客户j 客户k,模型服务器 知识服务器 联

12、机分析与数据挖掘服务器 (MS) (KS) (ODS),数据库服务器 数据仓库服务 (DBS) (DWS),12.2 可拓数据挖掘,12.2.1 可拓学基本原理 12.2.2 从数据挖掘到可拓数据挖掘 12.2.3 可拓数据挖掘理论 12.2.4 可拓数据挖掘实例,12.2.1 可拓学基本原理,可拓学的理论和方法,具体来说就是通过可拓变换与可拓知识来改变问题的目的或条件,去解决矛盾问题。可拓学是我国学者蔡文教授提出的原创性理论和方法。 可拓学的详细内容参见可拓逻辑初步等书。,1可拓学的基础信息,可拓学将客观世界的物、事、关系表示为物元、事元、关系元,把它们统称为基元,它们是可拓学的基础信息。

13、(1)物元 物元表示为:是物N、特征c及取值v的三元组。,1可拓学的基础信息,(2)事元 事元表示为:是动词d、特征b及取值u的三元组。,1可拓学的基础信息,(3)关系元 关系元表示为:是关系s、特征A及量值W的三元组。,2可拓变换,解决矛盾问题的工具是可拓变换。通过可拓变换,使求知问题中不可知问题变为可知问题,使求行问题中不可行问题转化为可行问题,使假命题变为真命题,即通过可拓变换变矛盾问题为不矛盾问题。 可拓变换是把一个对象变为另一个对象,即可拓变换T将基元u变成基元v,表示为:,可拓变换T包括:置换、增加、删减、扩大、缩小等。 置换变换: 增加变换: 删减变换: 扩缩变换:,3可拓信息,

14、可拓信息是解决矛盾问题的信息。可拓学的基元(物元、事元、关系元)是可拓信息的基础信息。可拓学的变换是变化信息,通过变换才能变矛盾问题为不矛盾问题。 可拓信息基元(基础信息)+可拓变换(变化信息),4可拓学的基础知识,可拓学的基础知识为拓展式,包括:发散式、相关式、可扩式、蕴含式等。 发散式: , 相关式: 蕴涵式: 可扩式: ,可拓学的传导原理表示为变换蕴含式,它 是变化的知识: 简写为:,可拓学引入关联函数将矛盾问题进行量化处理,称 它为量化知识。关联函数公式: 其中 X0=,k(x)0 是正域区间,即量变区间, X=,k(x)0 是负域区间,即质变区间。,5. 关联函数,可拓学的拓展式是可

15、拓知识的基础知识; 可拓学的传导原理的变换蕴含式是变化知识。 可拓学引入关联函数将矛盾问题进行量化处理, 称它为量化知识。 它们共同构成了可拓知识,6. 可拓知识,可拓知识拓展式(基础知识) 变换蕴含式(变 化知识) 关联函数(量化知识),(1)挖掘关联函数的区间信息 解决矛盾问题的量化方法是建立关联函数,通过可拓推理使变量x从区间X0变换到X,区间参数a、b、c、d,一般是运用实验或统计得到。 利用数据挖掘方法,获取区间参数信息,是可拓数据挖掘的一类重要任务。,12.2.2 从数据挖掘到可拓数据挖掘,数据挖掘获取知识(条件结论),我们对条件进行可拓变换和对结论进行传导变换,获得的变化的知识,

16、即可拓知识:,我们把这种挖掘变化的知识称为新型的可拓数据挖掘。,(2)挖掘变换蕴含式的可拓数据挖掘,12.2.3 可拓数据挖掘理论,1.可拓数据挖掘定理 2.可拓数据挖掘过程,定理1: 对于两类规则,若存在条件的可拓变换T条件:,并存在结论的可拓变换T结论 (它为T条件的传导变换):,则成立可拓变换规则知识(变化知识),即: if,then,1. 可拓数据挖掘定理,定理2:对于两条同类规则,若存在可拓变换,则成立:可拓变换规则知识,即: if,then,我们证明了两条可拓数据挖掘定理。 并通过实例,获得了比原数据挖掘更有价值的变化知识。,2. 可拓数据挖掘过程,(1)通过数据挖掘获取知识 (由

17、计算机利用数据挖掘方法完成) (2)人机交互给出能发生的可拓变换 (3)可拓知识的获取 (由计算机利用定理1或定理2来完成),3. 可拓推理,在智能科学中,知识推理采用了形式逻辑中的假言推理,即:,可拓推理是对拓展式和变换蕴含式的假言推理。,对拓展式的假言推理称为拓展推理。 以发散式为例,发散式推理表示为:,(1)拓展推理,变换蕴含式是可拓变换与传导变换之间的蕴含式,它的假言推理称为传导推理,表示为:,(2)传导推理,该公式的正确性已证明。,12.2.4 可拓数据挖掘实例,1. 实例1 适合打网球的气候(天气、气温、湿度、风)的类别: 类别P(可打网球) 类别N(不可打网球) 数据库如下:,(

18、1)数据挖掘获得的知识 if 天气=晴 and 湿度=正常 then 类别=P if 天气=多云 then 类别=P if 天气=雨 and 风=无风 then 类别=P if 天气=晴 and 湿度=高 then 类别=N if 天气=雨 and 风=有风 then 类别=N,(2)存在的可拓变换,T1(天气=晴)=(天气=多云) T2(天气=晴)=(天气=雨) T3(天气=雨)=(天气=多云) T4(天气=多云)=(天气=晴) T5(天气=雨)=(天气=晴),T6(天气=多云)=(天气=雨) T7(湿度=高)=( 湿度=正常) T8(湿度=正常)=( 湿度=高) T9(风=无风)=( 风=

19、有风) T10(风=有风)=( 风=无风),1)条件变换,2)结论变换 T(N)=P T(P)=N,(3)可拓数据挖掘,利用定理1和定理2,可以得到如下 可拓知识:,(天气=晴) and (T7(湿度=高)=( 湿度=正常) )T(N)=P (湿度=高) and (T1(天气=晴)=(天气=多云) )T(N)=P (天气=晴) and (T10(风=有风)=( 风=无风)T(N)=P (风=有风) and (T3(天气=雨)=(天气=多云) )T(N)=P (天气=晴) and (T8(湿度=正常)=( 湿度=高) )T(P)=N (天气=雨) and (T9(风=无风)=( 风=有风)T(P

20、)=N,1)类别发生变化的可拓知识,(湿度=正常) and (T1(天气=晴)=(天气=多云) )类别=P (风=无风) and (T3(天气=雨)=(天气=多云) )类别=P (风=无风) and (T6(天气=多云)=(天气=雨) )类别=P (湿度=正常) and (T4(天气=多云)=(天气=晴) )类别=P,2)类别不发生变化的可拓知识,2. 实例2,通过“脑出血”和“脑血栓”两种疾病实例(训练例子集)中找到这两类病的识别规则。 为了作出判断,应当考虑如下几个方面的特征(属性): 1. 病人的既往史,包括a.高血压(有,无);b.动脉硬化(有,无); 2. 起病方式(快,慢); 3. 局部症状,包括: a.偏瘫(是,否); b.瞳孔不等大(是,否); c.呕吐(是,否); d.两便失禁(是,否); e.语言障碍(是,否); f.意识障碍(无,深度,轻度); 4. 病理反射(阳,阴); 5. 膝腱反射(无,活跃,不活跃); 6. 病情发展(快,慢); 上面是从六个方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论