




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘入门
2012-9-61
引语
二.KDD与数据挖掘
三.数据挖掘方法
四.数据挖掘的应用和发展趋势
五.多媒体数据挖掘
六.可视化数据挖掘
2012-9-62
一、引语
■什么激发了数据挖掘
近年来,数据挖掘引起了信息产业界的极大
关注,其主要原因是存在大量数据可以广泛使用,
并且迫切需要将这些数据转换成有用的信息和知
识。获取的信息和知识可以广泛应用于各种领域,
如商务管理、生产控制、市场分析、工程设计和
科学探索等。
面对〕海量数据库和大量繁杂信息,如何才能
从中提取有价值的知识,进一步提高信息的利用
率,由此引发了一个新的研究方向:基于数据库
的知识发现(KnowledgeDiscoveryinDatabase)及
相应的数据挖掘(DataMining)理论和技术的研
究。
2012-9-63
为什么数据挖掘是重要的
■数据的丰富带来了对强有力的数据分析工
具的需求。
■快速增长的海量数据收集存放在大型和大
量的数据库中,没有强有力的工具,这些
数据就变成了“数据坟墓”——难得再访
问的数据档案。
■因此数据和信息之间的鸿沟要求系统地开
发数据挖掘工具,将数据坟墓转换成知识
“金块”。
2012-9-64
:、KDD与数据挖掘
人们给KDD下过很多定义,内涵也各不
相同,目前公认的定义是由Fayyad等人提出
的。
所谓基于数据库的知识发现(KDD)是指
从大量数据中提取有效的、新颖的、潜在
有用的、最终可被理解的模式的非平凡过
程。
2012-9-65
2.2KDD过程
KDD是一个人机交互处理过程。该过程需
要经历多个步骤,并且很多决策需要由用
户提供。
■从宏观上看,KDD过程主要经由三个部分
组成,即
2012-9-66
知识发现(KDD)的步骤
1.了解KDD应用领域的有关情况。包括
熟悉相关的知识背景,搞清用户需求。
2.数据选取的目的是确定目标数据,根
据用户的需要从原始数据库中选取相关数据或样
术°,在此建程中,将利用一些数据库操作对数据
岸进行相关处理。
3.对步骤2中选出的数据进行再处理,
检查数据的完整性及一致性,消除噪声及与数据
蹊翎无关的®余黎超,、根强理回岳列和知的变
化情况,利用统计尊方法埴充丢失的薮P据。
2012-9-68
知识发现(KDD)的步骤
4.根据知识发现的任务对经过预
处理的数据再处理,主要是通过投影或利
用数据库的其它操作减少数据量。
5.根据用户的要求,确定
KDD要发现的知识类型。
6.根据步骤5确定的任务,选择
合适的知识发现算法,包括选取合适的模
型和参数。
2012-9-69
知识发现(KDD)的步骤
7.这是整个KDD过程中很重要的一个步
臀血套板照的港普算法墓座出重取用户
感兴趣的知识,并以一7E的方式表不出来。
8.对在数据挖掘步骤中发现的模式(知
识)进行解释。通过机器评估剔除冗余或无关模
武,惹模式不满足,再返回到前面某些处理步骤
中反量控取。
9.将发现的知识以用户能了解的方式呈
现给用户。其中也包括对知识一致性的检查,以
确信本次发现的知识不会与以前发现的知识相抵
触。
2012-9-610
什么是数据挖掘
1.(从数据中发现知识)
从海量的数据中抽取感兴趣的(有价值的、隐
含的、以前没有用但是潜在有用信息的)模式和
知识。
2.
数据库中知识挖掘、知识提取、数据/模式分析、
数据考古、数据捕捞、信息获取、事务智能等。
3.广义观点
数据挖掘是从存放在数据库、数据仓库中或其
它信息库中的大量数据中挖掘有趣知识的过程。
2012-9-611
数据挖掘(DM)
从信息中抽取隐含的、以前未
知的、具有潜在应用价值的信息技术,它能从
大量的信息中发现隐藏于其后的规律或信息间
的关系。
虽然在其它领域还缺乏根基,
但它们在客户关系管理(CRM)数据分析中的
应用已经趋于成熟。这些工具通常采用机器自
动识别的方式,不需要更多的人工干预。
■这些工具的使用,使得从数据、信息到知识的
飞跃成为可能。
2012-9-612
数据挖掘看穿你的需求
■‘一4,住何丛藜斯库史摺提值国的过程都叫做
数据挖掘。庆区点着莱,数据拉脑就是BI。
■,数据挖掘(DataMining)特指的
是工源数据经过清洗和转换等成为适合于秋掘的数
据集。
■数据挖掘在这种具有固定形式的数据集上完成
人,「最后以合适的知识模式用于进一步分析决
策工作。
■从这种狭义的观点上,可以定义:数据挖掘是从特
定形式的数据集中提炼知识的过程。数据挖掘往往
针对,选择一种或者多种
拉掘算法,找到数据背后隐藏的规律,这些规律往
往。
2012-9-613
03和数据挖掘的区别
OLAP:报告过去的事情数据挖掘:fiS测未来的事情
在过去的3年里哪些人是我们最好的前100名
前100个具行最好的利润潜力的客户将是谁
客户
在过去的2年里哪些客户拖欠他们的抵押哪些客户可能具有坏账风险
和目标值相比।上个季度各个区域的销售情况
明年各个地区的预期的倘例额是多少
如何
在最近的四个#度内哪此销桃人员的销例撷用明年啷些销得人员的侑悔熟有希望超过他们的
过了他们的配颖配额
去年哪些商店的借售额超过了其前年的制售额接F来的两年里,哪些商店有可能表现得最好
去年,表现最好的前5次促侑活动是什么明年的促销活动的预期的回报是什么
去年哪些客户移向了其他的电话公司明年序些客户有可能转向竞争对手的怀抱
2012-9-614
OLAP和数据挖掘的区别
特性OLAP数娴挖掘
牛丁6m’发牛的事情预测它的
仰总谛求的动机企业里而正在发生什么事梢
求木
数据粒度汇总数据详细的交易级别的数据
曲业健改的数期自做的维数大量的维度
傕度属性的数鼠少尉属性很多徘度属性
通常每个维度的数据集都是『
维他的数据集的大小每个网用的数据集都不大
常大的
由数据驱动,自动进行如织发现
分析方法由用户驱动,交卬式地进行分析
过程
多维的、向下钻取利多层次/筮视
分析技术冷备数据JI入拽掘工具之后就
角查看不采取行动了
仍然处于发展阶段,技术的一些
枝术的状态成熟并使用广泛
部分枷对成熟
2012-9-615
OLAP和数据挖掘的区别
数据挖掘
预处现过的数据
16
数据挖掘的主要流程(四个阶
段)
系统的数据挖掘过程是一个不断循环、优化的过程。
模
模
主
数
式
式
题
数据挖掘任务据知识应用
评
分
准
----------A------->发-------->
估
析
备
现
新的数据挖掘任务
2012-9-617
数据挖掘各阶段的工作量
DM牵涉大量的规划与准备,专家声称:高达80%的
过程花在准备数据阶段。
60-
50-
40-
30-
20-
O
oL
2012-9-618
数据挖掘系统的组成
是一*个或一*组数
据库、数据仓库、电子表格或其他类型的至息库。
可以在数据上进行数据清理和集成。
根据用户的挖掘请求,
数据库或数据仓库服务器负责提取相关数据。
是领域知识,用于指导搜索,或评估结果
模式的兴趣度。
2012-9-619
数据挖掘系统的组成
数据挖掘系统的基本部分,由一
组功能模块组成,用工特优化、关联、分类、聚
类分析以及演差和偏差分柝o
使用兴趣度量,并与数据挖掘模
挑客三左以便道理塞聚焦有自整的模式上,可能
使南兴趣度则直过滤发现将稹黄。
该模块在用户和数据挖掘系统之
间通信,允许用户与系统交互,指定数据挖掘查
量新褊麒毓蟾鬻益氟根据数据
2012-9-620
数据挖掘系统结构
数据库或数据仓库服
冬器知识库
数据清理T数亲集成T过滤
2012-9-621
三、数据挖掘方法
3.1可以分别按挖掘任务、挖掘对象和挖掘方
法来分类。
1.包括分类或预测知识模
型发现,数据总结,数据聚类,关联规则
发现,时序模式发现,依赖关系或依赖模
型发现,异常和趋势发现等。
2.包括关系数据库,面向
对象数据库,空间数据库,时态数据库,
文本数据库,多媒体数据库,异构数据库,
数据仓库,演绎数据库和Web数据库等。
2012-9-622
3.包括统计方法,机器学习方法,
神经网络方法和数据库方法,其中:
>统计方法可分为:回归分析(多元回归、自回归
等),判别分析(贝叶斯判别、费歇尔判别、非
参数判别等),聚类分析(系统聚类、动态聚类
等),探索性分析(主成分分析、相关分析等)
等。
>机器学习方法可分为:归纳学习方法(决策树、
规则归纳等),基于范例学习,遗传算法等。
>神经网络方法可以分为:前向神经网络(BP算法
等),自组织神经网络(自组织特征映射、竞争
学习等)。
>数据库方法分为:多维数据分析和OLAP技术,此
外还有面向属性的归纳方法。
2012-9-623
数据挖掘技术分类
2012-9-624
数据挖掘分类
■描述型(Descriptive)
■预测型(Predictive)
•分类:对没有分类的数据进行分类;
■预测:用历史来预测未来;
・关联分析:关联规则;
■聚类:物以类聚;
・序列模式:在多个数据序列中发现共同的行为模式;
■描述和可视化:数据挖掘的结果的表示形式;
・偏差分析:从数据分析中发现异常情况。
2012-9-625
偏差分析
■数据库中的数据,从数
据库中检测这些偏差很有意义。
■,如分类中的反
常实例、不满足规则的特例、观测结果与
模型预测值的偏差、量值随时间的变化等。
■寻找观测结果与
参照值之间有意义的差别。
2012-9-626
数据挖掘分类
■响应模型
-交叉销售
・价值评估
■客户分群
2012-9-627
3.2数据挖掘方法
■挖掘模型
■决策树(decisiontree)
■关联规则(associationrules)
■聚类(clustering)
■遗传算法(geneticalgorithms)
■贝叶斯分类(Bayes)
-分类和预测
■神经网络(ArtificialNeuralNetworks,简记作ANN)
■粗糙集(roughset)
■模糊集(fuzzyset)
■概念格(conceptlattice)
■序列模式(sequencepattern)
・支持向量机(supportvectormachine,简记作SVM)
■基于案例的推理(case-basedreasoning,简记作CBR)
2012-9-628
决策树
■一种用树枝状展现数据受各变量的影响情况的分析
根据对目标变量产生效应的不同而制定
分类规则,它是建立在信息论基础之上,对数据进
行分类的一种方法。
■它首先通过一批建立一棵决策树,
然后采用建好的决策树对数据进行预测。
■数据规则的生成过程,因此这
种方法实现了数据规则的可视化,其输出结果容易
理解,精确度较好,效率较高,因而较常用。
■分类及回归树法、卡方自动交互探
测法等。
2012-9-629
决策树
■决策树学习是以实例为基础的归纳学习算法,
着眼于从一组无次序/无规则的事例中推理出
决策树表示形式的分类规则;
■:贪心算法。它以自顶向
下递归、各个击破方式构造决策树.
salary<20,000
salaryeducationlabel
10.000high-schoolrejectno
40,000under-graduateaccept
educationin[graduate)accept
15,000under-graduatereject
yeno
75,000graduateaccept
18.000graduateaccept
accept口reject
2012-9-630
关联分析
□关联规则反映一个事物与其它事物之间的相互依存性和关
如果两个事物或者多个事物之间存在一定的关联关
系,那么其中一个事物就能够通过其他事物预测到。
□人们希望在海量的商业交易记录中发现感兴趣的数据关联
关系,例如:
面包2%牛奶1.5%(占超市交易总数)
2%和1.5%表明这两种商品在超市经营中的重要程度,
商家关注高支持度的产品。
面包二〉牛奶60%
在购买面包的交易中,有60%的交易既买了面包又买
了牛奶,则60%为规则“面包二〉牛奶”的信任度。
反映了商品间的关联程度。
2012-9-631
关联分析
□项目构成的集合称为。项集在事物数据库中出
现的次数占总事物的百分比叫做。如
果项集的支持度超过用户给定的最小支持度阈值,
就称该项集是。
□关联规则就是支持度和信任度分别满足用户给定阈
值的规则。
□发现关联规则需要经历如下两个步骤:
(1)找出所有的频繁项。
(2)由频繁项集生成满足最小信任度阈值的规则。
2012-9-632
聚类分析
■聚类是对物理的或抽象的对象集合分组
的过程。聚类生成的组为簇,簇是数据
对象的集合。
■聚类是根据—征,将其划分
为不同的簇(cluster),目的是使得
任意两个具有
较高的相似度;而属于不同簇的两个对
象间具有较高的相异度(差别较大)。
2012-9-633
聚类分析
■相异度可以根据描述对象的属性值计
算,对象间的距离是最常采用的度量
指标。
■在实际应用中,经常
作为一个整体看待。
■用聚类生成的簇来表达数据集不可避
免地会损失一些信息,但却可以使问
题。
2012-9-634
聚类技术大致分为五种
(partitioningmethod)
(hierarchicalmethod)
(density-based
method)
(grid-basedmethod)
(model-basedmethod)
2012-9-635
遗传算法
□一种新的最佳化空间搜索方法,它应用算法的适
应函数耒决定搜索的方高,运用一些拟星物化的
人工运算过程进行一代一代的周而复始的演化,
求得一个最佳结果。
□具有强固形与求值空间的独立性。
强固形使问题的限制条件降到最低,并大幅度提
高系统的容错能力;
求值空间的独立性则使遗传算法的设计单一化,
且适用于多种不同性质、领域的问题。
□将遗传算法运用于数据挖掘,可以开采出与众不
同的信息,O
2012-9-636
遗传算法
■(GeneticAlgoritms,简称GA)是
以自然选择和遗传理论为基础,将生物进
化过程中“适者生存”规则与群体内部染
色体的随机信息交换机制相结合的搜索算
法;
■遗传算法主要组成部分包括:
编码方案
适应度计算
父代选择
交换算子
2,2变异算子37
贝叶斯分类
■贝叶斯分类是统计学的分类方法,
是使用概率来表示所有形式的不确
定性,学习或推理都用概率规则来实现;
■:假定一个属性值对给定类
的影响独立于其他属性的值;
■是用来表示变量间连接概率的
图形模式,它提供了一种自然的表示因果信
息的方法,用来发现数据间的潜在关系。
2012-9-638
分类与预测
■分类和预测是两种重要的数据分析方法,在商业上
的座用徨孥工分类邳球测可以用于提取描述重要
数据其型或预测未来的数据趋势。
提出一个分类函数或分类模型
人即分类量)工通过分类器将数据对象映射到某一
个善定的笑别中。
第一步,建立模型,用于描述给定的数据集合。
耍髓需脯性描述的数据集合来建立反映数据集
金二步,用盛运对数据对象进行分类。
从历史数据记录中自动推导出对
给定数据的推广描述,从而能够对事先未知的数
据进行预测。
2012-9-639
分类的方法
决策树内部节点进行属性值测试,并根据
属性值判断由该节点引出的分支,在决策树的叶结
翻I患羯翩集合,叶节
是一种统计学分类方法,可以预测类
成员关系的可能性,如给定样本属于一个特征类的
寓送魏群髓部菌类、字母识别、经济
模拟生物进化过程中的计算模
型,是自然遗传学与计算机科学互相结合、互相渗
透而形成的新的计算方法。利用选择、交叉、变异
等操作对子代进行操作,优点是:问题求解与初始
条任王养二堪案鬟俅解的能力极强,可以对各种数
据核掘我术进行优袱。
2012-9-640
预测
构造和使用模型评估无标号样本类,或评
估给定样本可能具有的属性值或区间值。
从历史数据中自动推导出对给定数
据的推广描述,从而能对未来数据进行预测。例如:
金融系统可以根据顾客信誉卡消费量预测他未来的
刷卡消费量或用于信誉证实。
推销人员希望在开拓新客户时,找出顾客一些共同
特征,预测出潜在顾客群。
回归统计,线性回归、非
线性回归、多元回归、泊松回归、对数回归等。
也可以用来预测。
2012-9-641
神经网络
□人工神经网络,是对人类大脑系统的模拟;
□
互联的网络,能够篇£*患寓*£扁露I
□组成神经网络的的结构简单,功能有限,
但尾,由大量神经元构成的网络系统可以实现强大
的功能。
□由于现实世界的数据关系相当复杂,和
噪声数据普遍存在。将人工神经网络应用于数据挖
雕蠲麟懿鼾处理能力和,得到
较好的
.1甬
学习荷间
2012-9-642
神经网络
■神经网络是一组连接的输入/输出单元,其中
O在学习阶段,通
过调整神经网络权值,使得能够预测输入样本
的正确类标号来学习。
■和权值的调整
2012-9-643
神经网络
图4:一个神经元网络05:带权重般的裸玩网络
2012-9-644
神经网络
■为解决大复杂度问题提供了一种
相对来说比较有效的简单方法。神经网络
可以很容易的解决具有上百个参数的问题。
■很容易在并行计算机上实现,可
以把他的节点分配到不同的CPU上并行计
■神经网络很难解释,目前还没有能对神经
网络做出显而易见解释的方法学。
2012-9-645
神经网络
在训练神经网络时一定要
恰当的使用一些能严格衡量神经网络的方法,如
测试集方法和交叉验证法等。这主要是由于神经
网络太灵活、可变参数太多,如果给足够的时间,
他几乎可以“记住”任何事情。
训练一个神经网络可能需要
相当可观的时间才能完成。当然,一旦神经网络
建立好了,在用它做预测时运行时还是很快。
■建立神经网络需要做的很大。
2012-9-646
粗糙集
□1982年波兰数学家Z.Pawlak针对G.Frege的
提出了粗糙集(RoughSet),他把那些无法确认的个
体都归属于边界线区域,而这种边界线区域被定义为上
近似集和下近似集之差集。
□它恰好反映了人们用粗糙集方
法处理不分明问题的常规性,即以不完全信息或知识去
处理一些不分明现象的能力,或依据观察、度量到的某
些不精确的结果而进行分类数据的能力。
■粗糙集理论是一种的数学工
具;
■,每一被划分的集合称为
概念,主要思想是:利用已知的知识库,将不精确或不
确定的知识用已知的知识库中的知识莱近似刻划处理。
2012-9-647
粗糙集
■粗糙集对不精确概念的描述方法是:通过上近似概念和下
近似概念这两个精确概念来表示;一个概念(或集合)的
下近似指的是其中的元素肯定属于该概念;一个概念(或
集合)的上近似指的是其中的元素可能属于该概念。
■:不需要预先知道的额外信息(如
统计中要求的先验概率和模糊集中要求的隶属度);算法
简单,易于操作。
■粗糙集理论在知识发现研究中有着许多具体应用,
数据之间(精确的或近似的)依赖关系发现、评价某
一分类(属性)的重要性、数据相似或差异发现、数据模
式发现、从数据中产生一般决策规则、削减冗余对象与属
性、寻求属性的最小子集以确保产生满意的近似分类等等
2012-9-648
模糊集
■对应二值逻辑,一个元素要么
属于、要么不属于给定集合。因此经典集合
不能很好地描述具有模糊性和不确定性的问
题。
■美国加利福尼亚大学的扎德教授于1965年提
出了模糊集合论,用来描述差异的
中间过渡,是一种用精确的数学语言对模糊
性进行描述的方法。
■不同于经典集合,没有精确边界的集
合;
2012-9-649
模糊集
■论域x={x}上的模糊集合A由隶属函数
)LIA(X)来表征。其中|iiA(x)在实轴的闭区间[0,1]中
取值,心㈤的大小反映x对于模糊集合A的隶属
程度。
-心㈤的值接近1,表示X隶属于A的程度很高。
屋⑶的值接近3表示x隶属于A的程度很低。
■当S的值域取[0,1]闭区间的两个端点,
亦即{0,1}两个值时,A
O隶属函数也就退化为普通逻辑值。
2012-9-650
概念格
■概念格描述的是对象和属性之间的联系和统一,表
明概念之间的泛化和例化关系,相应的Hasse图实现
数据的可视化。
属性,
#0([1,2,3,4,5,6},力)
对象二
芳FTRTETMfS”
一■「
X]►fi»-ri-»ei-«mi+s#2({1,2,3,6}bl晟})2,4,6),fsl})4,5},{el}).
X”-,&TriTe3-,miTS],
XjY-►6Tli->e3flni-»S3+'#5([岑3}#6((b2,4}
-►HfeifinzTSi,]松思}))
Xj-»-»5ftLei—m?.sN
X,T►0-*八->e2TmiTSI,,
2012-9-651
序列模式
■是指在多个数据序列中发现共同的行为模式。
■通过时间序列搜索出重复发生概率较高的模式。这
里强调时间序列的影响。
例如,在所有购买了激光打印机的人中,半年后
80%的人再购买新硒鼓,20%的人用旧硒鼓装碳
粉;
在所有购买了彩色电视机的人中,有60%的人再
购买VCD产品;
■在时序模式中,需要找出在某个最短时间内出现比
率一直高于某一最小百分比(阈值)的规则。
2012-9-652
支持向量机
■支持向量机(SupportVectorMachine,SVM)
建立在计算学习理论的结构风险最小化
之上。
■其核心问题是寻找一种归纳原则,以实现
最小化风险,从而实现最佳的推广能力。
■SVM一个重要的优点是可以处理
的情况。
■以往的机器学习理论的核心是经验风险最
(ERM)
2012-9-653
案例推理
■案例是一段。
■该知识表达了在达到其目标的
过程中能起关键作用的经验
2012-9-654
几个概念的区别
■泰寿增指将数据归于一系列已知类别之中的某个类的分
■客体进行类别的
二O
分类和预测
■是两种数据分析形式.是两类主要的预测问题
■分类是预测分类号(或者离散值);
■而预测是建立连续值(例如使用回归分析)的函数模型
■预测和回归
建立模型,并用此
■预测的典型方法就是回归分析。
2012-9-655
其他问题
■数据挖掘的涉及到的技术
包括:
分布
并行
异质数据库等
2012-9-656
四、数据挖掘系统与应用
数据挖掘系统的开发工作十分复杂,不仅要有大量的
数据挖掘算法,而且其应用领域往往取决于最终用户的知
识结构等因素。下面介绍几个数据挖掘系统:
MIT喷气推进实验室与天文科学家合作开发的
而开发的
O会产生“如果在某一时间段内发生某些预警信息组
合,那么其他类型的预警信息将在某个时间范围内发生”
的规则。时间段大小由用户定义。
运用分类技术从噪声中提取有价值的信息。由于是
在微弱变化中获取信息,该系统也可以应用于
o
2012-9-657
>KDW是大型商业数据库中的交互分析系统。包括聚类、
分类、总结、相关性分析等多种模式。
>DBMiner是加拿大SimonFraser大学开发的一^个多任务KDD
系统。能够完成多种知识发现,综合了多种数据挖掘技术。
>Clementine可以把直观的图形用户界面与多种分析技术结
合在一起,包括神经网络、关联规则和规则归纳技术。
>Darwin包含神经网络、决策书和K-邻近三种数据挖掘方法,
处理分类、预测和预报问题。
>DMW是一个用在信用卡欺诈分析方面的数据挖掘工具,
支持反向传播神经网络算法,并能以自动和人工模式操作
>IntelligentMiner是IBM开发的包括人工智能、机器学习、
语言分析和知识发现领域成果在内的复杂软件解决方案。
2012-9-658
五、多媒体数据挖掘
■多媒体数据库系统由多媒体数据库管理系统和多
媒体数据库构成。其中多媒体数据库用于存储和
管理多媒体数据,多媒体数据库管理系统负责对
多媒体数据库进行管理。多媒体数据库包括结构
化的fife半结核化的数据型韭箱构强田数握
如音频数据、视凝及据、文本薮据和图像数据K等。
■多媒体数据挖掘就是通过综合分析多媒体数据的
内容和语义,从大量多媒体数据中发现隐含的、
有效的、有价值的、可理解的模式,得出事件的
孽屣草原型去骐未系,为用户提供问题求解层次
上的决策支持能力。
2012-9-659
多媒体数据挖掘
■多媒体数据是指由多种不同类型多媒体数据组成
的,包括文本、图形、图像、声音、视频图像、
动画等不同类型的媒体数据。为了挖掘多媒体数
据Z必须对两种或多种类型的媒体数据进行综合
O
■多媒体挖掘的方法有两种:
一种是先从多媒体数据库中提取出结构化数据,
然后用假统的数据挖掘工具在这些结构化的数据
上进行捶掘。
O
2012-9-660
六、可视化数据挖掘
■可视化:使用计算机图形学创建可视化图像,帮助用
户理解复杂,大规模数据
■可视化数据挖掘:使用可视化技术,从大规模数据集
中发现隐含,有用知识的过程
2012-9-661
信息可视化
■信息可视化:结合了科学可视化、人机交
互、数据挖掘、图像技术、图形学、认知
科学等诸多学科的理论和方法,而逐步发
展起来的。
■信息可视化参考模型
2012-9-662
可视化数据挖掘
■可视化的目的
■提供对大规模数据集定性的理解
■查看数据中的模式,趋势,结构,不规则性,
关系等
■帮助寻找感兴趣的区域,为进一步定量分析提
供合适的参数
■为计算机得出的结果提供可视化的证明
2012-9-663
可视化数据挖掘
■可视化与数据挖掘的结合
■数据可视化
■数据挖掘结果可视化
■数据挖掘过程可视化
■交互式可视化数据挖掘
2012-9-664
数据可视化
■数据可视化
■以下面两种方式观察数据库或数据仓库的数据:
■在不同的粒度或抽象层面观察
■属性或维度的不同结合
■数据可以被表示成不同的格式,柱状图、饼状
图、散点图、三维立方体、曲线、数据分布图
表等
2012-9-665
MineSet—数据可视化
■数据的直方图,均值,中值,标准差,四
分位数
horsepower
v,luzCategoryTottiValues
Car4l|mHH4C
---I•,
djittun
buick
•ediAnbond*
Mtrcury
。皿sb”・
tot^lvalue*
distinctvaluer
2012-9-666
数据挖掘结果可视化
■以视图的形式给出由数据挖掘算法得出的结
果或知识
■例如
■决策树
■贝叶斯网络
■关联规则
■聚类
■孤立点
2012-9-667
SASEnterpriseMiner:scatterplots
BUSINESS
A
L
3ACEQS?K9Io
6■•39
濡
suo/5Z新311♦K
」
・-•
6-sIs5H-3NySb06•,4
・
•」
os431B一S402117108
・7•
*a.823■-4I0A
s0A・795R
7W-•97
I56s一»•
3rL46RG11718il・
••8:16
4一
;?1S6z946ss93,
・
一6
lJ1・I
s5sB8.S
-sr0I0063gS,B•、
•2o4
6sa313g1•63B一x4
.•
6s一.13-10\
AA00・2R3
・
-fvoGn174.76tin・
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 绿色金融产品创新与绿色金融产品创新人才培养报告
- 毕生发展心理学(第2版)课件 第九章 童年期儿童心理的发展
- 三级教育安全考试试题及答案
- 数控车床试题及答案期末
- 胎膜早破试题及答案
- 养护安全管理办法
- 养藏獒管理办法
- 兽药审查管理办法
- 内河河道管理办法
- 内部督查管理办法
- 2025年护理知识竞赛考试试题库(答案+解析)
- 陕西事业单位考试真题2024
- 2025电子产品租赁合同模板
- 基于Hive数据仓库的瓜子网二手车数据分析系统设计与实现
- 阑尾炎术前术后健康宣教
- 软件硬件资产管理办法
- 留置看护队员试题及答案
- 中国药师职业技能大赛处方审核案例题及答案
- GA/T 1378-2018法庭科学STR已知分型参照物质技术要求
- CVP的测量方法和注意事项
- GB∕T 20975.25-2020 铝及铝合金化学分析方法 第25部分:元素含量的测定 电感耦合等离子体原子发射光谱法
评论
0/150
提交评论