




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据发掘数据发掘: 探求数据探求数据第第3章章 探求数据探求数据什么是数据探求什么是数据探求?l数据探求的主要目的l有助于选择适宜的数据预处置和数据分析技术l可以经过对数据进展直观检查来发现方式l数据探求中运用的某些技术如可视化可以用于了解和解释数据发掘结果。 对数据进展初步研讨,以便更好地了解它对数据进展初步研讨,以便更好地了解它的特殊性质的特殊性质.鸢尾花鸢尾花Irisl本章用到的数据集鸢尾花.l150种鸢尾花的信息,每50种取自三个鸢尾花种之一l三种花类型 (classes):l Setosa(带刺的)l Virginica 杂色的l Versicolour处女花l四个属性描画l 萼片长
2、度和宽度厘米l 花瓣长度和宽度厘米汇总统计汇总统计Summary Statisticsl汇总统计是量化的如均值和规范差,用单个数或数的小集合捕获能够很大的值集的各种特性l例子:家庭平均收入l大部分汇总统计只需求简单的计算就可得到结果频率和众数频率和众数Frequency and Model频率定义为l众数定义:具有最高频率的值 ( )iivfrequency vm具有属性值 的对象数百分位数百分位数Percentilesl对于有序数据,思索值集的百分位数更有意义对于有序数据,思索值集的百分位数更有意义. l给定一个有序的或延续的属性给定一个有序的或延续的属性x和和0与与100之间之间的数的数p
3、,第,第p个百分位数个百分位数xp是一个是一个x值,使得值,使得x的的p%的观测值小于的观测值小于xp。l例3.2 从1到10的整数的百分位数x0%, x10%,., x90%, x100%依次为:1.0, 1.5, 2.5, 3.5, 4.5, 5.5, 6.5, 7.5, 8.5, 9.5, 10.0。按照惯例,min(x) = x0%,而max(x) = x100%。 位置度量位置度量:均值和中位数均值和中位数 Mean and Medianl对于延续数据,两个运用最广泛的汇总统计是均值mean和中位数median,它们是值集位置的度量。 l均值和中位数定义 位置度量位置度量:均值和中位
4、数均值和中位数 Mean and Medianl均值对于离群值很敏感;对于包含离群值的数据,中位数又一次提供值集中间的一个更稳健的估计。l截断均值trimmed mean:指定0和100之间的百分位数p,丢弃高端和低端(p/2)%的数据,然后用常规的方法计算均值,所得的结果即是截断均值。位置度量位置度量:均值和中位数均值和中位数 Mean and Median中位数是p = 100%时的截断均值,而规范均值是对应于p = 0%的截断均值。 例3.3 思索值集1, 2, 3, 4, 5, 90。这些值的均值是17.5,而中位数是3.5,p = 40%时的截断均值也是3.5。 分布度量分布度量:
5、极差和方差极差和方差Range and Variancel延续数据的另一组常用的汇总统计是值集的弥散或分布度量。这种度量阐明属性值能否分布很宽,或者能否相对集中在单个点如均值附近。l最简单的分布度量是极差range。lx的极差定义为:给定一个属性x,它具有m个值x1,., xml range(x) = max(x) - min(x) = x(m) - x(1) 分布度量分布度量: 极差和方差极差和方差Range and Variancel极差:最大值和最小值的差l方差:l l均值和方差对离群值很敏感,这样经常需求运用值集分布更稳健的估计. 绝对平均偏向、中位数绝对偏向、四分位数极差 多元汇总统
6、计多元汇总统计l包含多个属性的数据多元数据的位置度量可以经过分别计算每个属性的均值或中位数得到。 l对于具有延续变量的数据,数据的分布更多地用协方差矩阵covariance matrixS表示 l两个属性的协方差是两个属性一同变化并依赖于变量大小的度量。可视化可视化动机1:是人们可以快速汲取大量可视化信息,并发现其中的方式动机2:解释方式 可视化可视化数据可视化是指以图形或表格的方式显示信息. 胜利的可视化需求将数据转化成可视的方式,使得可以借此分析或报告数据的特征和属性之间的关系。可视化的目的是可视化信息的人工解释和信息的意境模型的构成例子例子:海洋外表温度海洋外表温度 l以摄氏度为单位显示
7、1982年7月的海洋外表温度 (SST)l这张图汇总大约250000格数据,容易看出,海洋温度在赤道最高,而在两极最低。 l 表示表示l表示:将数据映射到图形元素如:用点表示对象l可视化是将信息映射成可视方式,即将信息中的对象、属性和联络映射成可视的对象、属性和联络。就是说,数据对象、它们的属性,以及数据对象之间的联络要转换成诸如点、线、外形和颜色等图形元素。选择选择选择:删除或不突出某些对象和属性如:PCA当数据点的个数很多例如超越数百个或者数据的极差很大时,显示每个对象的足够信息是困难的,有些数据点能够遮掩其他数据点,或者数据对象能够占据不了足够多的像素来清楚地显示其特征。 安排安排l重新
8、安排表中数据的重要性l例3.5:左图为具有6个二元属性的9个数据对象,对象和属性之间看起来没有明显的联络,但经重新安排后,右图显示出了数据的特点l例3.6 思索图3-3a,该图显示一个图的可视化假设将连通子图分开,如图3-3b所示,结点和图之间的联络就变得更加简单易懂 可视化技术可视化技术: 直方图直方图Histogramsl直方图l通常显示单个变量值的分布l经过将能够的值分散到箱中,并显示落入每个箱中的对象数. l高度表示对象数可视化技术可视化技术: 直方图直方图Histogramsl例子: 花瓣宽度 (10 和 20 个箱) 二维直方图二维直方图l每个属性划分成区间,而两个区间集定义值的二
9、维长方体 l例子: 花瓣宽度和花瓣长度l从这个二维直方图,我们能看出什么特点? 可视化技术可视化技术: 盒状图盒状图Box Plotsl盒状图: 它是另一种显示一维数值属性分布的方法 outlier10th percentile25th percentile75th percentile50th percentile90th percentile盒状图的例子盒状图的例子 l盒状图相对紧凑,因此可以将许多盒状图放在一个图中。饼图饼图 l饼图pie chart类似于直方图,但通常用于具有相对较少的值的分类属性。饼图运用圆的相对面积显示不同值的相对频率,而不是像直方图那样运用条形的面积或高度。 阅历
10、累计分布函数和百分位数图阅历累计分布函数和百分位数图l一个累计分布函数cumulative distribution function,CDF显示点小于该值的概率。 可视化技术可视化技术: 分布图分布图Scatter Plotsl分布图l二维分布图,运用数据对象两个属性的值作为x和y坐标值,每个数据对象都都作为平面上的一个点绘制l普通附加的属性可用如大小、颜色、外形等来表示 l分布图矩阵可同时调查许多分布图分布图矩阵例子:鸢尾花分布图矩阵例子:鸢尾花可视化技术可视化技术: 等高线图等高线图Contour Plotsl等高线图l对于某些三维数据,两个属性指定平面上的位置,而第三个属性具有延续值,
11、如温度或海拔高度。l对于这样的数据,一种有用的可视化工具是等高线图Celsius可视化技术可视化技术: 矩阵矩阵Matrix Plotsl矩阵 l主要用于数据矩阵可视化,将数据矩阵的每个元素与图像中的一个像素相关联l这使得容易检查一个类的一切对象能否在某些属性上具有类似的属性值。l假设不同的属性具有不同的值域,那么可以对属性规范化,使其均值为0,规范差为1鸢尾花数据矩阵的可视化鸢尾花数据矩阵的可视化鸢尾花相关矩阵的可视化鸢尾花相关矩阵的可视化可视化技术可视化技术: 平行坐标系平行坐标系l平行坐标系l每个属性一个坐标轴l与传统的坐标轴不同,平行坐标系不同的坐标轴平行 ,而不是正交的。对象用线而不
12、是用点来表示。l当对象过多时会产生混乱,但,对象趋于分成少数几组时,而且对象数少时,结果有能够提示有趣的方式。l平行坐标系显示结果能够依赖于坐标轴的序 鸢尾花的平行坐标系鸢尾花的平行坐标系其他可视化技术其他可视化技术l星形坐标Star Plots l与平行坐标系类似,但坐标轴从一中心点向周围发散l一切的属性值都映射到0,1区间l每个对象映射成一个多边形lChernoff 脸Chernoff FacesStar Plots for Iris DataSetosaVersicolourVirginicaChernoff Faces for Iris DataSetosaVersicolourVir
13、ginicaOLAP和多维数据分析和多维数据分析l联机分析处置On-Line Analytical Processing (OLAP) 由关系数据库之父 E. F. Codd提出.lOLAP普通用多维数组表示数据l如何将数据转化成多维数组?l属性值需求离散化l目的值可以是计数或延续值等例子例子: 鸢尾花多维数组鸢尾花多维数组 离散花瓣长度、宽度为低、中、高 我们得到下面的表 留意计数属性例子例子: 鸢尾花多维数组鸢尾花多维数组例子例子: 鸢尾花多维数组鸢尾花多维数组l二维表切片l这些表通知我们什么?分析多维数据分析多维数据: 数据立方体数据立方体l数据的多维表示,连同一切能够的总和聚集称为数据立方体l转轴是指在除两个维之外的一切维上聚集。结果是一个二维交叉表,只需两个指定的维作为留下的维分析多维数据分析多维数据:转轴转轴(pivoting)分析多维数据分析多维数据:切片和切块切片和切块Slicing and Dicingl切片是经过对一个或多个维
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 课件随机出现
- 课件阶梯箭头
- 裱花培训基础知识济宁课件
- 中国连续控制电磁阀行业市场前景预测及投资价值评估分析报告
- 中国远红外加热管行业市场占有率及投资前景预测分析报告
- 中国贵州省煤炭项目商业计划书
- 中国光纤光缆项目商业计划书
- ICU监护室设备维护手册
- 中国锰粉项目商业计划书
- 中国电动工具锂电池项目创业投资方案
- 学生安全生产教育
- 标书售后服务措施及方案
- 2023-2024学年高二政治《哲学与文化》配套教学设计(统编版)
- 《关于当前发展学前教育的若干意见》解析
- 3D打印雕塑创新-深度研究
- 氧化铋系玻璃基低温共烧陶瓷的制备与性能研究
- 民事诉讼法知到智慧树章节测试课后答案2024年秋嘉兴大学
- 秋天的怀念课文赏析
- excel函数教学教学课件教学课件教学
- 常见的ESD解决方案
- 临床护理常见应急预案
评论
0/150
提交评论