版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘的关键词和概念
数据挖掘是从海量数据中提取隐含在其中的有用信息和知识的过程。它可以帮助企业对数据进行微观、中观乃至宏观的统
计、分析、综合和推理,从而利用已有数据预测未来,帮助企业赢得竞争优势。例如,利用数据挖掘可以对企业的海量数
据进行客户分析,包括客户类型、各类客户的需求倾向、贷款偿还预测和客户信用政策分析、客户流失分析等;进行市场
研究,包括商品市场占有率预测、市场拓展计划仿真;进行经营策略研究,包括经营成本与收入分析、风险控制、欺诈行
为甄别等。
实现数据挖掘的四个关键
首先,要踏踏实实做好基础数据库的建设。一个企业实现数据挖掘的前提和基础是拥有大量、真实的数据积累。没有
数据积累,数据挖掘将无用武之地。
一般用于挖掘的数据有两种来源:数据仓库或数据库。目前,基于数据仓库的数据挖掘逐渐被人们所推崇,它有三点
显著优势:数据挖掘必须要对数据进行抽取、清洗、转换和装载,这个过程很耗时。如果基于数据仓库,数据仓库已
经做好以上工作,就能避免挖掘时每次对数据进行抽取、清洗等。二,数据仓库的数据是按主题组织的,这为数据挖掘选
择合适的数据源提供了方便。三,数据库不能存放历史数据,因此直接在数据库中挖掘,许多知识无法挖掘出来,如预测
型应用;相反,数据仓库却能。
其次,企业要有比较明确的挖掘目标。盲目的数据挖掘是很难成功的。
再次,数据挖掘必须由来自不同领域的人员共同参与,包括行业专家、数据管理员、数据分析人员、业务分析人员、
数据挖掘专家等。大家需要通力合作,寻找一套适合自己企业的开发方法,并逐步建立起挖掘的模型库。
最后,构建数据挖掘系统,不仅需要很高的资金投入,而且挖掘结果是供决策层决策使用的,因此必须得到最高决策
管理层的支持、认可和参与
2、数据挖掘(DM)、在线分析(OU\P)和决策支持(DSS)的差异
在在线分处理0L7XP中,它采用的是演绎推理;在数据挖掘中,则是归纳推理。因此二者的区别是什么及分别采用什
么技术差不多是一个问题。
数据挖掘(DataMining)
数据挖掘的目标仍然很像是人工智能。数据挖掘用户不能对系统严格地提出个尽可能完整的问题,以在此模型中发现过
去的模式来预测未来的行为。这可以产生以前不知晓的有价值的事实。
更开放的数据挖掘请求甚至可以像这样:"给我•个人们购买敞蓬卡车时的特点预测模型"。通过从过去的模式的学习,数
据挖掘系统应能提供下列类型的答案:”它取决于时间年份和所在地区。在冬季,在新英格兰乡下的人们,在特定的年龄组
和收入水平,将比中西部的同类人,喜欢购买更多的该种卡车"。
数据挖掘可以发现复杂或精细的答案,而这些是OSP处理所不能做到的。但抛去这些差别,一些不做数据挖掘的OLAP
销售商也声称他们能做。Riot公司的专家说:"给出数据挖掘的较弱的定义,OSP销售商说他们可以做数据挖掘。明显
的分界线一个是处理是否是口动的,另一个是对诸如‘什么是感兴趣的‘和'什么是无关的’等问题,你是否有一个好的统计基
础。"
在线分析(OLAP)和决策支持(DSS)
OLAP和DSS配置有少数的算法,并且依赖于人们提供给问题和假设。这样做的缺点在于”问题和假设"受限于人的•己之
见。
•个典型的OLAP或DSS问题是问:"去年中西部的人比新英格兰的人购买了更多的敞蓬卡车吗?"注意这里的问题隐含
有某种假设,OLAP或DSS处理将回答:"去年中西部的人购买了12,000辆卡车,而同一时间,新英格兰的人买了10,000
辆。”这显然是有帮助的,但这受限于假设。
特别查询并生成报表一般用于很多商务活动,来为他们的决策提供输入。决策支持系统DSS和执行信息系统曰S大多用
于这种目的。从基本面来看,需要使用报表生成工具。应用系统利用这些特别的关系数据库系统的查询能力是普遍的现象。
数据挖掘帮助人们聚焦于这些系统和技术的使用使用,这样关系信息可以快速获取分析时间更加有效率。
分界线的消退。与此同时,数据挖掘、0sp和DSS的界线正在消退。数据挖掘的算法已经进入了很多产品的议程,包
括那些纯粹的DSS和OSP销售商,和AT&T那样,他们已经在悄悄地工作于一个称为"最近邻居系统”的数据挖掘方案,
它可以展示记录间的相似性。因为DSS销售商已经有了前11的数据库可视化系统,如果数据挖掘功能很好地做出,那它
的加入是自然而然的事。
2、DataMining包含哪些主要功能?
DataMining实际应用功能可分为三大类六分项来说明:Classification和Clustering属于分类区隔类:Regression和
Time-series属于推算预测类;Association和Sequence则属于序列规则类。
Oassification是根据一些变量的数值做计算,再依照结果作分类。(计算的结果最后会被分类为几个少数的离散数值,例如
将一组资料分为"可能会响应“或是"可能不会响应"两类).Classification常被用来处理如前所述之邮寄对象筛选的问题。
我们会用一些根据历史经验已经分类好的资料来研究它们的特征,然后再根据这些特征对其他未经分类或是新的数据做预
测。这些我们用来寻找特征的已分类资料可能是来自我们的现有的客户资料•,或是将一个完整数据库做部份取样,再经由
实际的运作来测试;譬如利用一个大型邮寄对象数据库的部份取样来建立一个OassificationModel,再利用这个Model来
对数据库的其它资料或是新的资料作分类预测。
Qustering用在将资料分群,其目的在于将群间的差异找出来,同时也将群内成员的相似性找出来。Qustering与
Oassification不同的是,在分析前并不知道会以何种方式或根据来分类。所以必须要配合专业领域知识来解读这些分群的
意义。
Regression是使用一系列的现有数值来预测一个连续数值的可能值。若将范围扩大亦可利用LogisticFtegression来预测类
别变量,特别在广泛运用现代分析技术如类神经网络或决策树理论等分析工具,推估预测的模式已不在止于传统线性的局
限,在预测的功能上大大增加了选择工具的弹性与应用范围的广度。
Time-SeriesForecasting与Regression功能类似,只是它是用现有的数值来预测未来的数值。两者最大差异在于Time-Series
所分析的数值都与时间有关。Time-SeriesForecasting的工具可以处理有关时间的一些特性,譬如时间的周期性、阶层性、
季节性以及其它的一些特别因素(如过去与未来的关连性)。
Association是要找出在某一事件或是资料中会同时出现的东西。举例而言,如果A是某一事件的一种选择,则B也出现在
该事件中的机率有多少。(例如:如果顾客买了火腿和柳橙汁,那么这个顾客同时也会买牛奶的机率是85%。)
SequenceDiscovery与Association关系很密切,所不同的是SequenceDiscovery中事件的相关是以时间因素来作区隔(例
如:如果A股票在某天上涨12%,而且当天股市加权指数下降,则B股票在两天之内上涨的机率是68%)。
3.完整的DataMining包含哪些步骤?
以下提供一个DataMining的进行步骤以为参考:
1.厘清目标与理解资料:
2.获取相关技术与知识;
3.整合与查核资料;
4.去除错误或不一致及不完整的资料:
5.由数据选取样本先行试验;
6.研发模式(model)与型样(pattern):
7.实际DataMining的分析工作;
8.测试与检核;
9.找出假设并提出解释;
10.持续应用于企业流程中。
由上述步骤可看出,DataMining牵涉了大量的准备工作与规划过程,事实上许多专家皆认为整套DataMining的进行有
80%的时间精力是花费在资料前置作业阶段,其中包含资料的净化与格式转换甚或表格的连结。由此可知DataMining只
是信息挖掘过程中的一个步骤而已,在进行此步骤前还有许多的工作要先完成。
4、OLAP能不能代替DataMining?
所谓OLAP(OnlineAnalyticalProcess)意指由数据库所连结出来的线上查询分析程序。有些人会说:「我一经有OLAP的
工具了,所以我不需要DataMining"事实上两者间是截然不同的,主要差异在于DataMining用在产生假设,0sp则用
于查证假设。简单来说,0LAP是由使用者所主导,使用者先有一些假设,然后利用0LAP来查证假设是否成立;而DataMining
则是用来帮助使用者产生假设。所以在使用0sp或其它Query的工具时,使用者是自己在做探索(Exploration),但Data
Mining是用工具在帮助做探索。
举个例子来看,一市场分析师在为超市规划货品架柜摆设时,可能会先假设婴儿尿布和婴儿奶粉会是常被一起购买的产品,
接着便可利用OLAP的工具去验证此假设是否为真,又成立的证据有多明显;但DataMining则不然,执行DataMining的
人将庞大的结帐资料整理后,并不需要假设或期待可能的结果,透过Mining技术可找出存在于资料中的潜在规则,于是我
们可能得到例如尿布和啤酒常被同时购买的意料外之发现,这是OLAP所做不到的。
DataMining常能挖掘出超越归纳范围的关系,但OLAP仅能利用人工查询及可视化的报表来确认某些关系,是以Data
Mining此种自动找出甚或不会被怀疑过的资料型样与关系的特性,事实上已超越了我们经验、教育、想象力的限制,OLAP
可以和DataMining互补,但这项特性是DataMining无法被OLAP取代的。
5、DataWarehousing和DataMining的关系为
何?
若将DataWarehousing(资料仓储)比喻作矿坑,DataMining就是深入矿坑采矿的工作。毕竟DataMining不是一种无
中生有的魔术,也不是点石成金的炼金术,若没有够丰富完整的资料,是很难期待DataMining能挖掘出什么有意义的信
息的。
要将庞大的资料转换成为有用的信息,必须先有效率地收集信息。随着科技的进步,功能完善的数据库系统就成了最好的
收集资料的工具。「资料仓储」,简单地说,就是搜集来自其它系统的有用资料•,存放在一整合的储存区内。所以其实就是
一个经过处理整合,且容量特别大的关系型数据库,用以储存决策支持系统(DesignSupportSystem)所需的资料,供决
策支持或资料分析使用。从信息技术的角度来看,资料仓储的目标是在组织中,在正确的时间,将正确的资料交给正确的
人。
许多人对于Datawarehousing和DataMining时常混淆,不知如何分辨。其实,资料仓储是数据库技术的一个新主题,在
资料科技日渐普及下,利用计算机系统帮助我们操作、计算和思考,让作业方式改变,决策方式也跟着改变。
资料仓储本身是一个非常大的数据库,它储存着由组织作业数据库中整合而来的资料,特别是指从线上交易系统OUTP
(On-LineTransactionalProcessing)所得来的资料。将这些整合过的资料置放于资料仓储中,而公司的决策者则利用这
些资料作决策;但是,这个转换及整合资料的过程,是建立一个资料仓储最大的挑战。因为将作业中的资料转换成有用的
的策略性信息是整个资料仓储的重点。综上所述,资料仓储应该具有这些资料:整合性资料(integrateddata)、详细和汇
总性的资料(detailedandsummarizeddata)、历史资料、解释资料的资料。从资料仓储挖掘出对决策有用的信息与知识,
是建立资料仓储与使用DataMining的最大目的,两者的本质与过程是两码子事。换句话说,资料仓储应先行建立完成,
Datamining才能有效率的进行,因为资料仓储本身所含资料是干净(不会有错误的资料参杂其中)、完备,且经过整合的。
因此两者关系或许可解读为「DataMining是从巨大资料仓储中找出有用信息的种过程与技术」。
6、DataMining和统计分析有什么不同?
硬要去区分DataMining和Statistics的差异其实是没有太大意义的。一般将之定义为DataMining技术的CART、CHAID
或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,换另•个角度看,DataMining有相当大的比重
是由高等统计学中的多变量分析所支撑。但是为什么DataMining的出现会引发各领域的广泛注意呢?主要原因在相较于
传统统计分析而言,DataMining有下列儿项特性:
1.处理大量实际资料更强势,且无须太专业的统计背景去使用DataMining的工具;
2.资料分析趋势为从大型数据库抓取所需资料并使用专属计算机分析软件,DataMining的工具更符合企业需求;
3.纯就理论的基础点来看,DataMining和统计分析有应用上的差别,毕竟DataMining目的是方便企业末端用者使用而
非给统计学家检测用的。
7、数据挖掘技术简介
1、数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先
不知道的、但又是潜在有用的信息和知识的过程。随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以TB计,
如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。是
知识发现(KnowledgeDiscoveryinDatabase)的关键步骤。
2.数据挖掘的任务
数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。
(1)关联分析(associationanalysis)
关联规则挖掘是由RakeshApwal等人首先提出的。两个或两个以上变量的取值之间存在某种规律性,就称为关联。
数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是
找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参
数,使得所挖掘的规则更符合需求。
⑵聚类分析(clustering)
聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观
的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。
⑶分类(classification)
分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,
一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。
⑷预测(predication)
预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精
度和不确定性,通常用预测方差来度量。
⑸时序模式(time-seriespattern)
时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用已知的数据预测未来的值,但
这些数据的区别是变量所处时间的不同。
(6)偏差分析(deviation)
在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。
偏差检验的基本方法就是寻找观察结果与参照之间的差别。
3.数据挖掘对象
根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间
数据库、时态数据库、异质数据库以及Internet等。
4.数据挖掘流程
⑴定义问题:清晰地定义出业务问题,确定数据挖掘的目的。
⑵数据准备:数据准备包括:选择数据-在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理-
进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。
⑶数据挖掘:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。
⑷结果分析:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。
⑸知识的运用:将分析所得到的知识集成到业务信息系统的组织结构中去。
5.数据挖掘的方法
⑴神经网络方法
神经网络由于本身良好的鲁棒性.、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,
因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类:以感知机、BP反向传播模型、函数型网络为代表
的,用于分类、预测和模式识别的前馈式神经网络模型;以Hopfield的离散模型和连续模型为代表的,分别用于联想记忆
和优化计算的反馈式神经网络模型;以ART模型、Koholon模型为代表的,用于聚类的自组织映射方法。神经网络方法的
缺点是"黑箱"性,人们难以理解网络的学习和决策过程。
⑵遗传算法
遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行
性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。
Sunil已成功地开发了一个基于遗传算法的数据挖掘工具,利用该工具对两个飞机失事的真实数据库进行了数据挖掘实
验,结果表明遗传算法是进行数据挖掘的有效方法之一[4]。遗传算法的应用还体现在与神经网络、粗集等技术的结合上。
如利用遗传算法优化神经网络结构,在不增加错误率的前提下,删除多余的连接和隐层单元;用遗传算法和BP算法结合
训练神经网络,然后从网络提取规则等。但遗传算法的算法较复杂,收敛于局部极小的较早收敛问题尚未解决。
⑶决策树方法
决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主
要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由Quinlan提出的著名的
基于信息端的1D3算法。它的主要问题是:ID3是非递增学习算法;ID3决策树是单变量决策树,复杂概念的表达困难;
同性间的相互关系强调不够:抗噪性差。针对1:述问题,出现了许多较好的改进算法,如Schlimmer和Fisher设计了ID4
递增式学习算法;钟鸣,陈文伟等提出了IBLE算法等。
⑷粗集方法
粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的
表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展
起来的数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。但粗集的数学基础是集合论,难以直接处理连续的属性。
而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点。现在国际上已经研制出来
了一些基于粗集的工具应用软件,如加拿大Regina大学开发的KDD-R;美国Kansas大学开发的LERS等。
⑸覆盖正例排斥反例方法
它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。
与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。
比较典型的算法有Michalski的AQ11方法、洪家荣改进的AQ15方法以及他的AE5方法。
⑹统计分析方法
在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但
仍是相关确定性关系),对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计
(求大量数据中的最大值、最小值、总和、平均值等)、回归分析(用回归方程来表示变量间的数量关系)、相美分析(用相关
系数来度量变量间的相关程度)、差异分析(从样本统计量的值得出差异来确定总体参数之间是否存在差异)等。
⑺模糊集方法
即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高,模糊
性越强,一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。李德毅等人在传统模糊理论和概率统计的基础上,
提出了定性定量不确定性转换模型一云模型,并形成了云理论。
6.评价数据挖掘软件需要考虑的问题
越来越多的软件供应商加入了数据挖掘这•领域的竞争。用户如何正确评价一个商业软件,选择合适的软件成为数据
挖掘成功应用的关键。
评价一个数据挖掘软件主要应从以下四个主要方面:
⑴计算性能:如该软件能否在不同的商业平台运行;软件的架构:能否连接不同的数据源:操作大数据集时,性能变
化是线性的还是指数的;算的效率;是否基于组件结构易于扩展;运行的稳定性等;
⑵功能性:如软件是否提供足够多样的算法;能否避免挖掘过程黑箱化:软件提供的算法能否应用于多种类型的数据:
用户能否调整算法和算法的参数:软件能否从数据集随机抽取数据建立预挖掘模型;能否以不同的形式表现挖掘结果等;
⑶可用性:如用户界面是否友好:软件是否易学易用;软件面对的用户:初学者,高级用户还是专家?错误报告对用户调
试是否有很大帮助;软件应用的领域:是专攻某•专业领域还是适用多个领域等;
⑷辅助功能:如是否允许用户更改数据集中的错误值或进行数据清洗;是否允许值的全局替代;能否将连续数据离散
化;能否根据用户制定的规则从数据集中提取子集;能否将数据中的空值用某一适当均值或用户指定的值代替;能否将一
次分析的结果反馈到另一次分析中,等等。
7.结束语
数据挖掘技术是一个年轻且充满希望的研究领域,商业利益的强大驱动力将会不停地促进它的发展.每年都有新的数
据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。尽管如此,数据挖掘技术仍然面临着许多问题和挑战:如数
据挖掘方法的效率亟待提高,尤其是超大规模数据集中数据挖掘的效率;开发适应多数据类型、容噪的挖掘方法,以解决
异质数据集的数据挖掘问题;动态数据和知识的数据挖掘;网络与分布式环境卜•的数据挖掘等;另外,近年来多媒体数据
库发展很快,面向多媒体数据库的挖掘技术和软件今后将成为研究开发的热点
8、OLAP及其多维数据分析
联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的。当时,Codd认为联机事务处理
(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。用
户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此Codd提
出了多维数据库和多维分析的概念,即OLAP。
一、OLAP的概念
根据OLAP产品的实际应用情况和用户对OLAP产品的需求,人们提出了一种对OLAP更简单明确的定义,即共享多
维信息的快速分析。
(1)快速性
用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应。如果终端用户在
30秒内没有得到系统响应就会变得不耐烦,因而可能失去分析主线索,影响分析质量。对于大量的数据分析要达到这个速
度并不容,因此就更需要一些技术上的支持,如专门的数据存储格式、大量的事先运算、特别的硬件设计等。
(2)可分析性
OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。尽管系统需要事先编程,但并不意味着系统已定义好了
所有的应用。用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户理想的方式给出报告。用户可以
在OLAP平台上进行数据分析,也可以连接到其他外部分析工具上,如时间序列分析工具、成本分配工具、意外报警、数
据开采等。
(3)多维性
多维性是OLAP的关键属性。系统必须提供对数据分析的多维视图和分析,包括对层次维和多重层次维的完全支持。
事实上,多维分析是分析企业数据最有效的方法,是OLAP的灵魂。
(4)信息性
不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。这里有许多因素
需要考虑,如数据的可复制性、可利用的磁盘空间、OLAP产品的性能及与数据仓库的结合度等。
二、OLAP的多维数据概念
多维结构是决策支持的支柱,也是OLAP的核心。OLAP展现在用户面前的是一幅幅多维视图。
1.维
假定某某是个百货零售商,有一些因素会影响他的销售业务,如商品、时间、商店或流通渠道,更具体一点,如品牌、
月份、地区等。对某一给定的商品,也许他想知道该商品在哪个商店和哪段时间的销售情况。对某一商店,也许他想知道
哪个商品在哪段时间的销售情况。在某时间,也许他想知道哪个商店哪种产品的销售情况。因此,他需要决策支持来帮
助制定销售政策。
这里,商店、时间和产品都是维。各个商店的集合是维,时间的集合是一维,商品的集合是一维。维就是相同类数
据的集合,也可以理解为变量。而每个商店、每段时间、每种商品都是某一维的一鼠稍薄C扛就困率涤梢桓鎏纳痰
辍⑻冈Q乐奔浜吞肉U纳唐纷槌伞?/fbnt>
维有自己固有的属性,如层次结构(对数据进行聚合分析时要用到)、排序(定义变量时要用到)、计算逻辑(是基
于矩阵的算法,可有效地指定规则)。这些属性对进行决策支持是非常有用的。
2.多维性
人们很容易理解一个二维表(如通常的电子表格),对于三维立方体同样也容易理解。OLAP通常将三维立方体的数据
进行切片,显示三维的某一平面。如一个立方体有时间维、商品维、收入维,其图形很容易在屏幕上显示出来并进行切片。
但是要加•维(如加入商店维),则图形很难想象,也不容易在屏幕上画出来。要突破三维的隙碍,就必须理解逻辑维和
物理维的差异。OLAP的多维分析视图就是冲破了物理的三维概念,采用了旋转、嵌套、切片、钻取和高维可视化技术,
在屏幕上展示多维视图的结构,使用户直观地理解、分析数据,进行决策支持。
三、OLAP的多维数据结构
数据在多维空间中的分布总是稀疏的、不均匀的。在事件发生的位置,数据聚合在一起,其密度很大。因此,OLAP
系统的开发者要设法解决多维数据空间的数据稀疏和数据聚合问题。事实上,有许多方法可以构造多维数据。
I.超立方结构
超立方结构(Hypercube)指用三维或更多的维数来描述一个对象,每个维彼此垂直。数据的测量值发生在维的交叉点
上,数据空间的各个部分都有相同的维属性。
这种结构可应用在多维数据库和面向关系数据库的OLAP系统中,其主要特点是简化终端用户的操作。
超立方结构有一种变形,即收缩超立方结构。这种结构的数据密度更大,数据的维数更少,并可加入额外的分析维。
2.多立方结构
在多立方结构(Multicube)中,将大的数据结构分成多个多维结构。这些多维结构是大数据维数的子集,面向某一特
定应用对维进行分割,即将超立方结构变为子立方结构。它具有很强的员活性,提高了数据(特别是稀疏数据)的分析效
率。
•殷来说,多立方结构灵活性较大,但超立方结构更易于理解。终端用户更容易接近超立方结构,它可以提供高水平
的报告和多维视图。但具有多维分析经验的MIS专家更喜欢多立方结构,因为它具有良好的视图翻转性和灵活性。多立方
结构是存储稀疏矩阵的一个更有效方法,并能减少计算量。因此,复杂的系统及预先建立的通用应用倾向于使用多立方结
构,以使数据结构能更好地得到调整,满足常用的应用需求。
许多产品结合了上述两种结构,它们的数据物理结构是多立方结构,但却利用超立方结构来进行计算,结合了超立方
结构的简化性和多立方结构的旋转存储特性。
3.活动数据的存储
用户对某个应用所提取的数据称为活动数据,它的存储有以下三种形式:
(1)关系数据库
如果数据来源于关系数据库,则活动数据被存储在关系数据库中。在大部分情况下,数据以星型结构或雪花结构进行
存储。
(2)多维数据库
在这种情况下,活动数据被存储在服务器上的多维数据库中,包括来自关系数据库和终端用户的数据。通常,数据库
存储在硬盘上,但为了获得更高的性能,某些产品允许多维数据结构存储在RAM上。有些数据被提前计算,计算结果以
数组形式进行存储。
(3)基于客户的文件
在这种情况下,可以提取相对少的数据放在客户机的文件上。这些数据可预先建立,如Web文件。与服务器上的多维
数据库一样,活动数据可放在磁盘或RAM上。
这三种存储形式有不同的性能,其中关系数据库的处理速度大大低于其他两种。
4.OLAP数据的处理方式
OLAP有三种数据处理方法。事实上,多维数据计算不需要在数据存储位置上进行。
(1)关系数据库
即使活动的OLAP数据存储在关系数据库中,采用在关系数据库上完成复杂的多维计算也不是较好的选择。因为SQL
的单语句并不具备完成多维计算的能力,要获得哪怕是最普通的多维计算功能也需要多重SQL。在许多情况下,一些OLAP
工具用SQL做一些计算,然后将计算结果作为多维引擎输入。多维引擎在客户机或中层服务器上做大部分的计算工作,这
样就可以利用RAM来存储数据,提高响应速度。
(2)多维服务引擎
大部分OLAP应用在多维服务引擎上完成多维计算,并且具有良好的性能。因为这种方式可以同时优化引擎和数据库,
而服务器上充分的内存为有效地计算大量数组提供了保证。
(3)客户机
在客户机上.进行计算,要求用户具备性能良好的PC机,以此完成部分或大部分的多维计算。对于日益增多的瘦型客
户机,OLAP产品将把基于客户机的处理移到新的Web应用服务器上。
四、多维数据库
多维数据库(MultiDimesionalDatabase,MDD)可以简单地理解为:将数据存放在一个n维数组中,而不是像关系数
据库那样以记录的形式存放。因此它存在大量稀疏矩阵,人们可以通过多维视图来观察数据。多维数据库增加了一个时间
维,与关系数据库相比,它的优势在于可以提高数据处理速度,加快反应时间,提高查询效率。
目前有两种MDD的OLAP产品:基于多维数据库的MOLAP和基于关系数据库的ROLAP。ROLAP建立了一种新的
体系,即星型结构。
MDD并没有公认的多维模型,也没有像关系模型那样标准地取得数据的方法(如SQL、API等)。基于MDD的OLAP
产品,依据决策支持的内容使用范围也有很大的不同。
在低端,用户使用基于单用户或小型LAN的工具来观察多维数据。这些工具的功能性和实用性可能相当不错,但由
于受到规模的限制,它们不具备OLAP的所有特性。这些工具使用超立方结构,将模型限制在n维形态。当模型足够大且
稀疏数据没有控制好时,这种模型将会不堪一击。这些工具使用数据库的大小是以MB来计量的,而不是以GB计量的,
因此只能进行只读操作,且具备有限的复杂计算。
在高端,OLAP工具用4GL提供了完善的开发环境、统计分析、时间序列分析、财政报告、用户接口、多层体系结构、
图表等许多其他功能。尽管不同的OLAP工具都使用了它们自己的多维数据库,但它们在不同程度上也利用了关系数据库
作为存储媒体。因为关系数据库和OLAP工具同时在高端服务器上处理,所以速度和效率仍然很快。
纯多维数据库引擎也被开发出来。尽管这些工具缺乏4GL及充分的开发环境,但却有比高端MDD工具所使用的数据
库更为复杂的数据库。这些工具也具有统计分析、财务分析和时间序列分析等功能,并有自己的API,允许其对前端的开
发环境开放。
MDD能提供优良的杳询性能。存储在MDD中的信息比在关系数据库中的信息具有更详细的索弓I,可以常驻在内存中。
MDD的信息是以数组形式存放的,所以它可以在不影响索引的情况下更新数据。因此MDDr常适合于读写应用。
9、从OLAP、数据挖掘到OLAM
OLAP(联机分析处理)与DM(数据挖掘)都是数据库(数据仓库)的分析工具,在实际应用中各有侧
重。前者是验证型的,后者是挖掘型的。前者建立在多维视图的基础之上,强调执行效率和对用户命令的及
时响应,而且其直接数据源•般是数据仓库;后者建立在各种数据源的基础匕重在发现隐藏在数据深层次
的对人们有用的模式(Patterns),一•般并不过多考虑执行效率和响应速度。OLAM——OnLineAnalytical
Mining是二者相结合的产物,又称为OLAPMining,目前是学术界研究的一大热点。本文在简单介绍OLAP
和数据挖掘的基础上,重点讨论OLAM的发展动力、体系结构及发展前景。
OLAP与数据挖掘
OLAP主要有两个特点,一是在线性(On—Line),体现为对用户请求的快速响应和交互式操作,它的实现
是由Client/Server这种体系结构来完成的;二是多维分析(Multi_Analysisb这也是OLAP技术的核心所在。
目前,针对OLAP技术的研究领域相当活跃,对OLAP的理解也不断深入。有人提出了OLAP的更为简
洁的定义,如NigelPendse提出的FASMI(FastAnalysisOfSharedMultidimensionalInformation)»WOLAP
所满足的特点用五个词来描述:Fast:对用户请求的快速响应;Analysis:可以应用多种统计分析工具、算法对
数据进行分析;Shared:多个用户同时存取数据忖,保证系统的安全性;Multidimensional:体现了OLAP应用多
维的实质;Information:指应用所需的数据及其导出信息。
DM(DataMining),或者说KDD,是从大量原始数据中抽取模式的一个处理过程,抽取出来的模式就是所
谓的知识,必须具备可信、新颖、有效和易于理解这四个特点。
OLAM------OLAPMining
OLAP+数据挖掘=OLAM从以上的分析中我们可以发现,OLAP和DM虽然都是数据库(数据仓库)的
分析工具,但其应用范围利侧重点是不同的。
OLAP的在线性体现在与用户的交互和快速响应,多维性则体现在它建立在多维视图的基础上。用户
积极参与分析过程,动态地提出分析要求、选择分析算法,对数据进行由浅及深的分析。
DM与OLAP不同,主要体现在它分析数据的深入和分析过程的自动化,自动化是说,其分析过程不需要
用户的参与,这是它的优点,也正是它的不足,因为在实际中,用户也希望参与到挖掘中来,如只想对数据的某
-子集进行挖掘,以及对不同抽取、集成水平的数据进行挖掘,还有想根据自己的需要动态选择挖掘算法等
等。
由此可见,OLAP与DM各有所长,如果能将二者结合起来,发展一种建立在OLAP和数据仓库基础上的
新的挖掘技术,将更能适应实际的需要。而OLAM(OnlineAnalyticalMining或OLAPMining),正是这种
结合的产物。
发展OLAM的原始驱动力有以下几点:
(1)DataMining工具需要的数据是一些经过净化、集成处理的数据,通常这种处理过程也是昂贵的;而
DW(DataWarehouse,数据仓库)作为OLAP的数据源,存储的就是这样的数据。它能为OLAP提供数据,当
然也可以为DM提供数据;
(2)DW是一项崭新的技术彳艮多人在研究它。围绕着它有许多工具或是体系结构。而DM作为数据分析工
具的一种,不是孤立的,也必然要与其他的工具发生联系。因此,考虑到如何最大限度地利用这些现成的工具,
也是OLAM发展之初所关心的问题;
(3)成功的数据挖掘需要对数据进行钻探性(exporatory)分析,比如,挖掘所需的数据可能只是一部分、一定
范围的数据。因此,对多维数据模型的切片、切块、下钻等操作,同样可以应用于DM的过程中。也就是说,
可以将DM建立在多维模型(或说超级立方体)的基础之上。
(4)用户的参与对DM的重要性,动态地提出挖掘要求、选择挖掘算法。故可以将OLAP的Client/Server
结构应用于DM中来。
OLAM的体系结构
OLAM的挖掘分析处理是建立在超级立方体的基础之上的,而且,在实际应用中,尽管OLAM的多维计
算可能需要更多的维数和更强大的访问工具,但我们可以断定,用于OLAP的立方体和用于OLAM的立方
体之间并没有本质的区别。因此,我们可以将OLAM的结构图与OLAP画在一起。
我们可以看到,OLAM服务器通过用户图形接口接收用户的分析指令,在元数据的指导下,对超级立方
体作一定的操作,然后将挖掘分析结果展现给用户,这个过程是动态的。多维数据视图(超立方体)是OLAM
的基础,多维视图的组织方式对于系统的执行效率和响应速度起着至关重要的作用。根据多维数据实际存
在形式的不同,有两种组织方式:
△基于多维数据库:在这种方式下,来自各关系数据库的综合数据以实际的多维形式被存储在多维数据库
(MDDB)里。
△基于关系型数据库:在这种情况下,多维数据视图是在程序执行时由RDBMS翻译执行相应SQL语句来
实现的。
两种结构各有长处,前者执行效率高、响应速度快,后者则在灵活性和扩展性方面要优于前者。在实际
应用中到底应该采用哪•种,还是一个需要探讨的问题。
OLAM的功能特征
建立在庞大数据库或数据仓库基础上的OLAM在实现过程中面临的最大挑战是执行效率的提高和对
用户请求的快速响应。目前还没有OLAM的产品出现,对OLAM所应具备的特征也众说纷纭。但是,针对
OLAM的发展驱动力和基本结构,以下几点是必要的:
(l)OLAM建立在多维数据库和OLAP的基础之上,因此应能方便地对任何一部分数据或不同抽象级别的
数据进行挖掘。这是借助OLAP对超级立方体进行切片、切块、下钻等操作来实现的。另外,如果需要,OLAM
还可以直接访问存储在底层数据库里的数据。总之,借助于OLAP的支持QLAM能对任何它想要的数据进
行挖掘。
(2)用户对挖掘算法具有动态选择的权力,在传统的关系数据库应用中,对同一个主题,任何不同的查询过程
所得到结果是相同的。而数据挖掘则不然,对同一个问题,运用不同的挖掘算法,得出的结果可能大相径庭。
因此很有必要给予用户以动态选择挖掘算法的权力。此外,有的用户针对自己的问题,可能有一套他自己独
特的挖掘算法,也希望嵌入到OLAM中,因此,OLAM应该具有一个通用的接口,以便与其他工具或算法相衔
接。
(3)OLAM建立在多维数据视图的基础之上,因此,基于超立方体的挖掘算法是其核心所在。超立方体计算
与传统挖掘算法的结合使得数据挖掘有了极大的灵活性和交互性。这里所说的立方体计算方法一般指切
片•、切块、下钻、旋转等操作;而挖掘算法则是指关联、分类、聚类等基于关系型或事务型的挖掘算法。
根据立方体计算和数据挖掘所进行的次序的不同组合可以有以下一些模式:
♦先进行立方体计算、后进行数据挖掘。在进行数据挖掘以前,先对多维数据进行一定的立方体计算,以
选择合适的数据范围和恰当的抽象级别;
♦先对多维数据作数据挖掘,然后再利用立方体计算算法对挖掘出来的结果做进一步的深入分析;
♦立方体计算与数据挖掘同时进行,在挖掘的过程中,可以根据需要对数据视图做相应的多维操作。这也
意味着同一个挖掘算法可以应用于多维数据视图的不同部分;
♦回溯特性QLAM的挖掘过程是对多维数据视图的一个不断深入的过程。在实际中,用户很有可能因为
算法的复杂性而在超立方体中“迷失方向"。因此OLAM的挖掘算法应能给用户退回上次操作初始状态这
样的回溯功能。
(4)与OLAP类似QLAM也采用Client/Server体系结构,这使得它具有较高的执行效率和较快的响应速度。
但由于一般挖掘算法都复杂而且耗时,因此在执行效率与挖掘的准确性两者之间应该协调好。一般情况
卜,OLAM与用户频繁而且高速地交互,选择合适的挖掘算法和数据空间。一旦这两点确定,在特定数据空
间上再执行用户选定的复杂而缓慢的挖掘算法,以保证最终结果的正确性。
除了以上四点外QLAM还应具有灵活的可视化工具和良好的扩展性。OLAM是一个复杂的结构,它在
实际应用中要与多个模块或工具交互作用。例如,一个OLAM系统可能与一个统计软件包相结合;或者系
统本身功能扩展,使之适合于地理数据、文本数据或者商业数据的挖掘。因此,OLAM接口的标准化、通用
化就显的尤为重要。
结语
通过以上的分析我们可以得出以下结论:OLAM是OLAP与数据挖掘相结合的产物,它兼有OLAP多
维分析的在线性、灵活性和数据挖掘对数据处理的深入性,是数据库(数据仓库)应用工具未来发展的方向。
目前,这个领域中的研究工作尚处于起步阶段,还有很多问题需要得到解决,包括技术问题和非技术问题。这
不仅给广大研究工作者带来挑战,同时也给他们带来了机遇。
10、数据挖掘技术及其应用现状
近十几年,随着科学技术飞速的发展,经济和社会都取得了极大的进步,与此同时.,在各个领域产
生了大量的数据,如人类对太空的探索,银行每天的巨额交易数据。显然在这些数据中丰富的信息,如
何处理这些数据得到有益的信息,人们进行了有益的探索。计算机技术的迅速发展使得处理数据成为可
能,这就推动了数据库技术的极大发展,但是面对不断增加如潮水般的数据,人们不再满足于数据库的
查询功能,提出了深层次问题:能不能从数据中提取信息或者知识为决策服务。就数据库技术而言已经
显得无能为力了,同样,传统的统计技术也面临了极大的挑战。这就急需有新的方法来处理这些海量般
的数据。于是,人们结合统计学、数据库、机器学习等技术,提出数据挖掘来解决这难题。
数据挖掘的含义和作用
数据挖掘的历史虽然较短,但从20世纪90年代以来,它的发展速度很快,加之它是多学科综合的
产物,目前还没有一个完整的定义,人们提出了多种数据挖掘的定义,例如:
SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。
Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模
式和趋势的过程
Handetal(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。
我们认为:数据挖掘就是从海量的数据中挖掘出可能有潜在价值的信息的技术。这些信息是可能有
潜在价值的,支持决策,可以为企业带来利益,或者为科学研究寻找突破口。
现今资料流通量之巨大已到了令人咂舌地步,就实际限制而言,便遇到了诸如巨量的纪录,高维的
资料增加的传统分析技术上的困难,搜集到的资料仅有5%至10%用来分析,以及资料搜集过程中并不探
讨特性等问题,这就让我们不得不利用DataMining技术。
数据挖掘综合了各个学科技术,有很多的功能,当前的主要功能如下:
1.分类:按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前
的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方
案。
2.聚类:识别出分析对内在的规则,按照这些规则把对象分成若干类。例如:将申请人分为高
度风险申请者,中度风险申请者,低度风险申请者。
3.关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。例如:
每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。与关联不
同,序列是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。
4.预测:把握分析对象发展的规律,对未来的趋势做出预见。例如:对未来经济发展的判断。
5.偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的
100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营
的风险。
需要注意的是:数据挖掘的各项功能不是独立存在的,在数据挖掘中互相联系,发挥作用。
数据挖掘的方法及工具
作为一门处理数据的新兴技术,数据挖掘有许多的新特征。首先,数据挖掘面对的是海量的数据,
这也是数据挖掘产生的原因。其次,数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,维
数大。最后,数据挖掘是许多学科的交叉,运用了统计学,计算机,数学等学科的技术。以下是常见和
应用最广泛的算法和模型:
(1)传统统计方法:①抽样技术:我们面对的是大量的数据,对所有的数据进行分析是不可能的也
是没有必要的,就要在理论的指导下进行合理的抽样。②多元统计分析:因子分析,聚类分析等。③统
计预测方法,如回归分析,时间序列分析等。
(2)可视化技术:用图表等方式把数据特征用直观地表述出来,如直方图等,这其中运用的许多描述
统计的方法。可视化技术面对的一个难题是高维数据的可视化。
(3)决策树:利用一系列规则划分,建立树状图,可用于分类和预测。常用的算法有CART、CHAID、
ID3、C4.5、C5.0等。
(4)神经网络:模拟人的神经元功能,经过输入层,隐藏层,输出层等,对数据进行调整,计算,最
后得到结果,用于分类和回归。
(5)遗传算法:基于自然进化理论,模拟基因联合、突变、选择等过程的一种优化技术。
(6)关联规则挖掘算法:关联规则是描述数据之间存在关系的规则,形式为“A1AA2八…An—BIA
B2A...Bn'\一般分为两个步骤:①求出大数据项集。②用大数据项集产生关联规则。
除了上述的常用方法外,还有粗集方法,模糊集合方法,BayesianBeliefNetords,最邻近算法(k-nearest
neighborsmethod(kNN))等。
由于数据挖掘一开始就是面向应用的,是为决策服务,而决策者又不一定具备太多的技术的知识,
现许多公司和研究机构开发了•系列的工具用于数据挖掘,见表1
表1常用数据挖掘工具及其比较
NNDTBisQL
INSPred
\W32UP
公司名;生n口n-夕D
YesYes
AngossInternationalLtd.KnowledgeSEEKEResYes
YesYesYesYesYesYesYesYes
Yes
KnowledgeSTUDIO
BusinessObjectsBusinessMinerYesYes
YesYes
CognosIncorporated?4Thoughtes
ScenarioYesYes
YesYes
HNCSoftwareDataBaseMiningMarksmanesYes
YesYes
Yes
InformixSoftwareInc.RedBrickDataMinees
InternationalBusinessMachines(intelligentMinerYesYes
csYesYes
esYesYes
YesYes
csYesYes
AccrueSoftware|DecisionSeriesesYes
YesYes
NeuralWare|NeuralSIM
loarwinYesYes
OracleCorp.esYesYes
YesYes
RightPointSoftwareDataCruncheres
YesYes
SalR)rdSystemsCARTes
YesYes
esYesYes
SASInstituteEnterpriseMineresYes
YesYes
esYesYes
SGIMineSetcsYesYes
YesYes
SPSS,Inc.AnswerTreeesYes
ClementineYesYesYesYesYesYesYesYes
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 苏教版六年级下册数学第二单元 圆柱与圆锥 同步练习题1含答案
- 2024 年江苏省镇江市中考二模物理试卷
- 员工岗位竞聘演讲稿
- 服装店实践报告
- 物流管理调研报告
- 老年旅游项目可行性分析报告
- 文物遗址保护服务项目可行性分析报告
- 酒店宴会设计方案总结(2篇)
- 货物供货整体方案(2篇)
- 秩序维护方案及措施(2篇)
- 甘肃省白银市景泰四中学2024届中考一模数学试题含解析
- 健康大数据的分析应用
- 招投标法律法规及其违法后果(一)-国浩-易律师
- 少年中国说-英文版
- 摄影基础:定格光影瞬间智慧树知到课后章节答案2023年下湖南应用技术学院
- 管材挤出成型-管材挤出辅机(塑料挤出成型课件)
- 综合性学习“有朋自远方来”讲评
- EBV相关NK淋巴细胞增殖性疾病
- 智能制造MES生产制造执行系统解决方案
- 邓小平理论PPT2023版毛泽东思想和中国特色社会主义理论体系概论课件
- 近五年江苏省中考数学试题及答案2023
评论
0/150
提交评论