数据挖掘2 第二章数据探索和预处理

上传人：1*** IP属地：广东上传时间：2025-06-06 格式：PPTX 页数：181 大小：4.53MB 积分：15 举报 版权申诉

已阅读5页，还剩176页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第2章

数据探索和预处理1西安邮电大学跨行业数据挖掘标准流程（CRISP-DM）把完整的数据挖掘过程定义为六个标准阶段，分别是业务理解、数据理解、数据准备、创建模型、模型评估和模型应用。数据准备是数据挖掘流程中的一个重要环节，具体工作主要包括数据探索和数据预处理引言2西安邮电大学数据准备

70%工作量输入数据的质量决定了数据挖掘模型输出结果的质量，即数据决定了模型的上限。没有高质量的数据，就没有高质量的挖掘结果！引言3西安邮电大学西安邮电大学4数据挖掘过程中最费时费力的阶段是（）数据采集数据探索和预处理数据建模挖掘数据可视化展示ABCD提交单选题1分4.数据统计描述图形数据探索5.数据相似性度量

3.数据统计描述2.数据属性类型1.数据探索含义和目的西安邮电大学5西安邮电大学1.数据探索含义和目的

数据探索就是对调查、观测所得到的一些初步的杂乱无章的数据，在尽可能少的先验假设下进行处理，通过检验数据集的数据质量、绘制图表、计算某些特征量等手段，对样本数据集的结构和规律进行分析的过程，以便更好地理解它的特殊性质。数据探索是从数据质量和数据特征等两个角度进行分析。*1977年美国统计学家JohnW.Tukey出版了《探索性数据分析》引起统计学界的关注，统计建模应该结合实际数据，而不是从理论假设出发构建6西安邮电大学1.数据探索含义和目的数据探索的主要目的：有助于选择合适的数据预处理和数据分析技术可以通过对数据进行直观检查来发现模式数据探索中使用的某些技术（如可视化）可以用于理解和解释数据挖掘结果。7西安邮电大学4.数据统计描述图形数据属性类型

5.数据相似性度量

3.数据统计描述2.数据属性类型1.数据探索含义和目的西安邮电大学8西安邮电大学数据属性类型

数据集：数据集是数据挖掘的对象，由数据对象组成，又称样本、实例、数据点或元组。属性（attribute）：一个数据字段，表示数据对象的一个特征。属性向量（或特征向量）：用来描述一个给定对象的一组属性。属性有不同类型：标称属性（nominalattribute）序数属性（ordinalattribute）数值属性（numericalattribute）离散属性与连续属性9西安邮电大学数据属性类型（定性）

标称属性（nominalattribute）标称属性的值是一些符号或实物的名称，每个值代表某种类别、编码或状态，是分类型的属性。这些值不必具有有意义的序，并且不是定量的。一种比较常见的标称属性是二元属性，只有两个类别或状态：0或1，其中0常表示不出现，1表示出现。如果将0和1对应于false和true，二元属性则为布尔属性。序数属性（ordinalattribute）序数属性取值之间具有有意义的序或秩评定，但相继值之间的差是未知的。例如，学生的成绩属性可以分为优、良、中、差四个等级。然而，具体“优”比“良”好多少是未知的。

标称属性和序数属性都是定性的，只描述样本的特征，而不给出实际大小或数量。定性属性通常是代表类别！10西安邮电大学数据属性类型（定量）

数值属性（numericalattribute）数值属性是可度量的量，用整数或实数值表示，有区间标度和比率标度两种类型。a)区间标度（interval-scaled）属性，区间标度属性用相等的单位尺度度量。区间属性的值有序，属性允许比较和定量评估值之间的差。不一定存在真正的零点。对于没有真正零点的摄氏温度和华氏温度，其零值不表示没有温度。例如，摄氏温度的度量单位是水在标准大气压下沸点温度与冰点温度之差的1/100。尽管可以计算温度之差，但因没有真正的零值，因此不能说10℃比5℃温暖2倍。b)比率标度（ratio-scaled）属性：比率标度属性的度量是比率的，可以用比率来描述两个值，即一个值是另一个值的倍数，也可以计算值之间的差。11西安邮电大学离散属性与连续属性

另外一个角度，机器学习领域的分类算法常把属性分为离散的或连续的属性。

离散属性具有有限或无限可数个值。如学生成绩属性，优、良、中、差；如果一个属性不是离散的，则它是连续的，通常“数值属性”和“连续属性”可以互换使用

在数据挖掘算法中：不同类型有不同的处理方法数据属性类型

12西安邮电大学4.数据统计描述图形数据探索5.数据相似性度量

3.数据统计描述2.数据属性类型1.数据探索含义和目的西安邮电大学13西安邮电大学数据中心趋势度量

均值数据是的平均值

中位数是常用的数据中心度量，是有序数据值的中间值

众数是集合中出现最频繁的值

14西安邮电大学度量数据散布

1.极差、四分位数和四分位数极差极差是最大值与最小值之差

分位数是数据集上每隔一定间隔上的点，把数据划分成基本上大小相等的连贯集合。

四分位数给出分布的中心、散布和形状的某种指示。第1个四分位数记作Q1，是第25个百分位数，它砍掉数据的最低的1/4。第2个四分位数是第50个百分位数，作为中位数，它给出数据分布的中心。第3个四分位数记作Q3，是第75个百分位数，它砍掉数据的最低的3/4（或最高的1/4）。四分位间距：第1个和第3个四分位数之间的距离是散布的一种简单度量，它给出被数据的中间一半所覆盖的范围。15西安邮电大学

2.方差与标准差：代表数据分布的散布程度，是数据散布的度量。低标准差意味数据趋向于靠近均值；而高标准差表示数据散布在一个大的值域中。度量数据散布16西安邮电大学度量数据散布3.协方差和协方差矩阵协方差（Covariance）在概率论和统计学中用于衡量两个变量的总体误差。n个样本的样本协方差计算公式：17西安邮电大学度量数据散布3.协方差和协方差矩阵协方差矩阵（Covariancematrix）由数据集中两两变量（属性）的协方差组成。矩阵的第(i,j)个元素是数据集中第i和第j个元素的协方差。例如，三维数据的协方差矩阵如式所示：18西安邮电大学4.数据统计描述图形数据探索5.数据相似性度量

3.数据统计描述2.数据属性类型1.数据探索含义和目的西安邮电大学19西安邮电大学1.作图软件比较2.常规图表

2.1直方图2.4线图（半对数线图）2.2条形图（含分列散点图）2.5饼图2.3箱式图2.6小提琴图

目录20西安邮电大学Excel2010Graphpad6.02SigmaPlotV12.5OriginPro9.1所用软件21西安邮电大学作图软件比较GraphpadSigmaplotOriginpro优点1.多应用于生物医学领域2.作图简单，输完数据即刻生成图表3.曲线拟合功能强大1.适合论文发表用图2.运行速度快，图表种类多3.为作图而设计1.统计与作图功均强2.图表种类多，适合做复杂图表3.帮助文件可读性强缺点1.图片不够美观2.功能简单，适用于简单图表3.统计功能不强1.统计功能不够强2.部分电脑不兼容3.自学时的帮助文件可读性差1.图表美观性差2.操作较为复杂22西安邮电大学

直方图

直方图的应用范围：

在科研领域其主要是用于查看数据是否符合正态分布，在其他领域不一定是看是否符合正态分布，而仅考察数据分布情况。直方图（histogram）又称频率直方图（frequencyhistogram），是一种显示数据分布情况的柱形图，即不同数据出现的频率。通过这些高度不同的柱形，可以直观、快速地观察数据的分散程度和中心趋势。23西安邮电大学

直方图24西安邮电大学条形图—堆积条图25西安邮电大学条形图—百分堆积条图26西安邮电大学

散点图散点图又称散点分布图，是因变量随自变量而变化的大致趋势图。数据点是在直角坐标系平面上，以一个变量为横坐标，另一变量为纵坐标，利用散点（坐标点）的分布形态反映变量统计关系的一种图形。它的特点是能以图形方式直观表现出影响因素和预测对象之间的总体关系趋势。学生身高（cm）体重（kg）A16755B15650C18570D17565E18070F15050G17060H1575527西安邮电大学箱形图

箱形图是在1977年由美国的统计学家约翰·图基(JohnTukey)发明的。由五个数值点组成：

最小值(min)，下四分位数(Q1)，

中位数(median)，上四分位数(Q3)

最大值(max)带有隔间的盒子：下四分位数、中位数、上四分位数胡须(whisker)：上四分位数到最大值之间建立一条延伸线。

28西安邮电大学“离群点”或“异常值”，为了不因这些少数的离群数据导致整体特征的偏移，将这些离群点单独绘出，一般情况下，根据经验异常值被定义为小于Q1－1.5IQR或大于Q3+1.5IQR的值。通常情况下，最大(最小)观测值设置为与四分位数值间距离为1.5个IQR(四分位数极差)，箱形图中的胡须的两极修改成最小观测值与最大观测值。

最小观测值为min=Q1-1.5*IQR，如果存在离群点小于最小观测值，则胡须下限为最小观测值，离群点单独以点绘出。如果没有比最小观测值小的数，则胡须下限为最小值。

最大观测值为max=Q3+1.5*IQR，如果存在离群点大于最大观测值，则胡须上限为最大观测值，离群点单独以点汇出。如果没有比最大观测值大的数，则胡须上限为最大值。箱形图29西安邮电大学箱形图例子

西安市在岗工作人员年薪值（以千元为单位）：｛50,51,67,70,72,72,76,80,83,90,90,130｝；北京市在岗工作人员年薪值（以千元为单位）：｛46,71,90,97,98,99,99,100,109,115,120,130｝30西安邮电大学用于显示数据分布及其概率密度。结合了箱形图和密度图的特征，主要用来显示数据的分布形状。中间黑色粗条表示四分位数范围，延伸幼细黑线代表95%置信区间，白点则为中位数。

小提琴图(ViolinPlot)31西安邮电大学4.数据统计描述图形数据探索5.数据相似性度量

3.数据统计描述2.数据属性类型1.数据探索含义和目的西安邮电大学32西安邮电大学数据相似性度量在数据挖掘的大多应用场景，往往需要度量数据之间的相似（相异）程度，相似性（或相异性）度量是很多数据挖掘技术的基础，如聚类、最近邻分类和离群点检测等。两个对象之间的相似度的非正式定义是这两个对象相似程度的数值度量。因而，两个对象越相似，它们的相似度就越高。对象越类似，它们的相异度就越低。通常，术语距离（distance）用作相异度的同义词，距离常常用来表示特定类型的相异度。33西安邮电大学数据相似性度量距离越大，相似性越小。点间距离与类间距离类间距离基于点间距离计算距离函数应同时满足

1.d(i,j)≥02.d(i,i)=03.d(i,j)=d(j,i)4.d(i,j)≤d(i,k)+d(k,j)34西安邮电大学数据相似性度量1．明考夫斯基距离令dij

表示样品Xi与Xj的距离35西安邮电大学数据相似性度量明考夫斯基距离的缺陷:容易受变量的量纲影响.

没有考虑变量间的相关性

两种改进措施:“马氏距离”法变量标准化处理法36西安邮电大学数据相似性度量 2．马氏距离两个样品间的马氏距离为:

马氏距离又称为广义欧氏距离。优点:

(1)考虑了观测变量之间的相关性。

如果各变量之间相互独立，即观测变量的协方差矩阵是对角矩阵。(2)不再受各指标量纲的影响。37西安邮电大学数据相似性度量距离选择的原则（1）要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。（2）要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理，则通常就可c采用欧氏距离。（3）要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题，我们应根据研究对象的特点不同做出具体分折。实际中，聚类分析前不妨试探性地多选择几个距离公式分别进行聚类，然后对聚类分析的结果进行对比分析，以确定最合适的距离测度方法。38西安邮电大学数据矩阵与相异性矩阵

数据矩阵：又称对象-属性结构：这种数据结构用关系表的形式或n×p（n个对象×p个属性）矩阵存放n个数据对象

相异性矩阵：又称对象-对象结构：存放n个对象两两之间的邻近度（proximity)，通常用一个n×n矩阵表示

39西安邮电大学标称属性相异性度量标称属性的值是一些符号或事物的名称，可以取两个或多个离散状态。两个对象i和j之间的相异性可以根据不匹配率来计算：其中，m是匹配的数目（即i和j取值相同状态的属性数），而p是刻画对象的属性总数。相似性可以用下式计算：40西安邮电大学西安邮电大学41对象i和对象j距离函数d(i,j)一般满足性质（）

d(i,j)≥0

d(i,i)=0

d(i,j)≥0

d(i,j)≤d(i,k)+d(k,j)ABCD提交多选题1分4.数据变换数据预处理5.数据归约

3.数据集成2.数据清理1.数据预处理含义西安邮电大学42西安邮电大学数据预处理

60%工作量输入数据的质量决定了数据挖掘模型输出结果的质量，即数据决定了模型的上限。没有高质量的数据，就没有高质量的挖掘结果！数据预处理43西安邮电大学机器学习算法地图44西安邮电大学45数据预处理准确性完整性一致性时效性可信性可解释性数据质量的含义

西安邮电大学现实世界的数据不完整的缺少属性值或某些感兴趣的属性，或仅包含聚集数据。含噪声的包含错误或存在偏离期望的离群值。不一致的采用的编码或表示不同，如属性名称不同冗余的如属性之间可以相互导出46西安邮电大学47导致不正确数据的原因数据输入和获得过程数据错误数据集成所表现出来的错误数据传输过程所引入的错误

西安邮电大学48数据预处理的形式数据清理补充缺失数据、平滑噪声数据、识别或删除离群点，解决不一致数据集成集成多个数据库、数据立方或文件数据变换规范化、数据离散化、概念分层产生数据归约简化数据、但产生同样或相似的结果西安邮电大学49西安邮电大学数据预处理的形式50西安邮电大学数据预处理的缘由现实世界的数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据的质量，从而有助于提高其后的挖掘过程的精度和性能。高质量的决策必然依赖于高质量的数据，因此数据预处理是知识发现过程的重要步骤。检测异常数据、尽早地调整数据并归约待分析的数据，将在决策过程中得到高回报。51西安邮电大学西安邮电大学52数据预处理通常包括（）datacleanningdataintegrationdatareductiondatatransformationABCD提交多选题1分4.数据变换数据预处理5.

数据归约

3.数据集成2.数据清理1.数据预处理含义西安邮电大学53西安邮电大学数据清洗现实世界的数据一般是脏的、不完整的和不一致的。而数据清洗试图填充空缺的值、识别孤立点、消除噪声，并纠正数据中的不一致性。因此，从如下几个方面介绍：（1）空缺值；（2）噪声数据；（3）不一致数据。54西安邮电大学1.空缺值的处理？55西安邮电大学56空缺值数据并不总是完整的数据库表中，很多条记录的对应字段可能没有相应值，比如销售表中的顾客收入引起空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时，有些数据因为得不到重视而没有被输入对数据的改变没有进行日志记载空缺值要经过推断而补上。西安邮电大学如何处理空缺值1）忽略该元组：2）人工填写空缺值3）使用属性的平均值填充空缺值4）使用一个全局变量填充空缺值5）使用与给定元组属同一类的所有样本的平均值6）使用最可能的值填充空缺值（最常用）7）使用填充算法来处理缺失数据57西安邮电大学如何处理空缺值1）忽略该元组：若一条记录中有属性值被遗漏了，则将该记录排除在数据挖掘之外；尤其当类标号缺少时通常这样做（假定挖掘任务涉及分类或描述)；但是，当某类属性的空缺值所占百分比很大时，直接忽略元组会使挖掘性能变得非常差。58西安邮电大学如何处理空缺值2）人工填写空缺值：工作量大，可行性低3）使用属性的平均值填充空缺值：如所有顾客的平均收入为$1000，则使用该值替换income中的空缺值。59西安邮电大学如何处理空缺值4）使用一个全局变量填充空缺值：如：将空缺的属性值用同一个常数(如“Unknown”)替换。如果空缺值都用“Unknown”替换，当空缺值较多时，挖掘程序可能误以为它们形成了一个有趣的概念，因为它们都具有相同的值——“Unknown”。因此，尽管该方法简单，但不可靠，不推荐！60西安邮电大学如何处理空缺值5）使用与给定元组属同一类的所有样本的平均值：适用于分类数据挖掘；如将顾客按信用度分类，则用具有相同信用度的顾客的平均收入替换income中的空缺值。6）使用最可能的值填充空缺值（最常用）：可以利用回归、贝叶斯计算公式或判定树归纳确定，推断出该条记录特定属性最大可能的取值；如，利用数据集中其他顾客的属性，构造一棵判定树，预测income的空缺值。7）使用填充算法来处理缺失数据。例如可以采用基于k-NN近邻算法来填充缺失数据

61西安邮电大学讨论

根据个人知识经历，尝试给出一个处理空缺值的方法（）

可以发弹幕和其他同学一起分享！西安邮电大学62标准化后原始数据63西安邮电大学对含缺失值“-”的序号2数据点做K近邻填充，取K值为5，计算序号2与其他不包含缺失值的数据点的距离矩阵，选出欧氏距离最近的5个数据点：用这5个近邻的数据点对应的字段均值来填充序号2中的“-”值64西安邮电大学商业系统的典型用户和用户画像用户画像：组成用户画像的标签要跟业务/产品结合，提升运营效果典型用户：用户特征抽象出来组合在一起，是虚构的，不真实存在来源：2015年微信生活白皮书延伸知识65西安邮电大学例：运营社要卖课，那么建立用户画像最核心的诉求就是：提高课程购买数量如果能通过用户画像了解用户购买课程的意愿，然后采取相应的运营策略，效率便会大幅度提高。而这个购买课程意愿度，就是我们最需要放在用户画像里的标签。（1）携程网大数据杀熟！（2）双十一淘宝歧视“穷人”，背后是用户画像在搞鬼！/article-18396-1.html淘气值66西安邮电大学数据清洗现实世界的数据一般是脏的、不完整的和不一致的。而数据清洗试图填充空缺的值、识别孤立点、消除噪声，并纠正数据中的不一致性。因此，从如下几个方面介绍：（1）空缺值；（2）噪声数据；（3）不一致数据。67西安邮电大学噪声数据处理噪声(noise)：是一个测量变量中的随机错误或偏差，包括错误的值和偏离期望的孤立点值。引起噪声数据的原因数据收集工具的问题数据输入错误数据传输错误技术限制命名规则的不一致68西安邮电大学如何处理噪声数据1）分箱(binning):分箱方法通过考察“邻居”(即周围的值)来平滑存储数据的值。存储的值被分布到一些“桶”或箱中。由于分箱方法参考相邻的值，因此它进行局部平滑。用“箱的深度”表示不同的箱里有相同个数的数据，用“箱的宽度”来表示每个箱值的取值区间，宽度越大，光滑效果越明显。分箱的主要目的是去噪，将连续数据离散化，增加粒度，也常作为一种离散化技术使用。按照取值的不同可划分为按箱平均值平滑、按箱中值平滑以及按箱边界值平滑。69西安邮电大学如何处理噪声数据

分箱的步骤：首先排序数据，并将它们分到等深（等宽）的箱中；然后可以按箱的平均值、按箱中值或者按箱的边界等进行平滑。按箱的平均值平滑：箱中每一个值被箱中的平均值替换按箱的中值平滑：箱中的每一个值被箱中的中值替换按箱的边界平滑：箱中的最大和最小值被视为箱边界，箱中的每一个值被最近的边界值替换。70西安邮电大学如何处理噪声数据①等深分箱(binning):按记录数进行分箱，每箱具有相同的记录数，每箱的记录数称为箱的权重，也称箱子的深度。71西安邮电大学示例：已知一组价格数据：15,21,24,21,25,4,8,34,28现用等深（深度为3）分箱方法对其进行平滑，以对数据中的噪声进行处理。思考：根据bin中值进行平滑的结果？结果：Bin1：8、8、8；Bin2：21、21、21；Bin3：28、28、2872西安邮电大学

在该例中，price数据首先被划分并存入等深的箱中(深度3)。对于按箱平均值平滑，箱中每一个值被箱中的平均值替换。例如，箱1中的值4，8和15的平均值是9；这样，该箱中的每一个值被替换为9。对于按箱边界平滑，箱中的最大和最小值被视为箱边界。箱中的每一个值被最近的边界值替换。类似地，可以使用按箱中值平滑。此时，箱中的每一个值被箱中的中值替换。73西安邮电大学如何处理噪声数据②等宽分箱(binning):

在整个属性值的区间上平均分布，即每个箱的区间范围设定为一个常量，称为箱子的宽度。74西安邮电大学

示例：已知一组价格数据：15,21,24,21,25,4,8,34,28现用等宽（宽度为10）分箱方法对其进行平滑，以对数据中的噪声进行处理。结果：先排序：4，8，15，21，21，24，25，28，341）划分为等宽度箱子Bin1：4、8；Bin2：15、21、21、24、25；Bin3：28、342）根据均值进行平滑Bin1：6、6；Bin2：21、21、21、21、21；Bin3：31、313）根据中值进行平滑Bin1：6、6；Bin2：21、21、21、21、21；Bin3：31、314）根据边界进行平滑：Bin1：4、8；Bin2：15、25、25、25、25；Bin3：28、3475西安邮电大学练习：已知客户收入属性income排序后的值（人民币元）：800，1000，1200，1500，1500，1800，2000，2300，2500，2800，3000，3500，4000，4500，4800，5000要求：分别用等深分箱方法(箱深为4）、等宽分箱方法（宽度为1000）对其进行平滑，以对数据中的噪声进行处理。76西安邮电大学（1）等深分箱结果：（1）首先，划分为等深的箱：箱1（800，1000，1200，1500）；箱2（1500，1800，2000，2300）；箱3（2500，2800，3000，3500）；箱4（4000，4500，4800，5000）（2）按箱的平均值平滑，结果为：箱1（1125，1125，1125，1125）；箱2（1900，1900，1900，1900）；箱3（2950，2950，2950，2950）；箱4（4575，4575，4575，4575）77西安邮电大学（1）等深分箱结果：（2）按箱的中值平滑，结果为：箱1（1100，1100，1100，1100）；箱2（1900，1900，1900，1900）；箱3（2900，2900，2900，2900）；箱4（4650，4650，4650，4650）（2）按箱的边界值平滑，结果为：箱1（800，800，1500，1500）；箱2（1500，1500，2300，2300）；箱3（2500，2500，3500，3500）；箱4（4000，4000，5000，5000）78西安邮电大学（2）等宽分箱结果：（1）首先，划分为等宽的箱：箱1（800，1000，1200，1500，1500，1800）；箱2（2000，2300，2500，2800，3000）；箱3（3500，4000，4500）；箱4（4800，5000）（2）按箱的平均值平滑，结果为：箱1（1300，1300，1300，1300，1300，1300）；箱2（2520，2520，2520，2520，2520）；箱3（4000，4000，4000）；箱4（4900，4900）79西安邮电大学（2）等宽分箱结果：（1）按箱的中值平滑，结果为：箱1（1350，1350，1350，1350，1350，1350）；箱2（2500，2500，2500，2500，2500）；箱3（4000，4000，4000）；箱4（4900，4900）（2）按箱的边界值平滑，结果为：箱1（800，800，800，1800，1800，1800）；箱2（2000，2000，3000，3000，3000）；箱3（3500，3500，4000）；箱4（4800，5000）80西安邮电大学如何处理噪声数据2）聚类（Clustering）：相似或相邻近的数据聚合在一起形成各个聚类集合，而那些位于聚类集合之外的数据对象，被视为孤立点。特点：直接形成簇并对簇进行描述，不需要任何先验知识。通过聚类分析查找孤立点，消除噪声81西安邮电大学如何处理噪声数据3）计算机和人工检查结合计算机检测可疑数据，然后对它们进行人工判断4）回归发现两个相关的变量之间的变化模式，利用回归分析方法所获得的拟合函数，帮助平滑数据及除去噪声。xyy=x+1X1Y1Y1’82西安邮电大学许多数据平滑的方法也是涉及离散化的数据归约方法。另外，概念分层是一种数据离散化形式，也可以用于数据平滑。例如，price的概念分层可以把price的值映射到inexpensive，moderately_priced和expensive，从而减少了挖掘过程所处理的值的数量。注意：83西安邮电大学数据清洗现实世界的数据一般是脏的、不完整的和不一致的。而数据清洗试图填充空缺的值、识别孤立点、消除噪声，并纠正数据中的不一致性。因此，从如下几个方面介绍：（1）空缺值；（2）噪声数据；（3）不一致数据。84西安邮电大学3.不一致数据的处理？85西安邮电大学86不一致数据处理不一致数据的方式：人工更正利用知识工程工具：例如，如果知道属性间的函数依赖关系，可以据此查找违反函数依赖的值。

数据字典：在将不同操作性数据库中的数据进行集成时，也会带来数据的不一致。如：一个给定的属性在不同的数据库中可能具有不同的名字，如姓名在一个数据库中为Bill，在另一个数据库中可能为B。对此，可根据数据字典中提供的信息，消除不一致。西安邮电大学典型案例：一种基于离群点检测的自动实体匹配方法《计算机学报》2017.1087西安邮电大学西安邮电大学88常见的数据清洗操作有（）空缺值填充识别孤立点，消除噪声处理不一致数据ABC提交多选题1分4.数据归约数据预处理5.数据变换与数据离散化

3.数据集成和变换

2.数据清理1.数据预处理含义西安邮电大学89西安邮电大学

数据集成和变换数据挖掘所需要的海量数据集往往涉及多个数据源，因此，在信息处理之前需要合并这些数据源存储的数据。如果原始数据的形式不适合信息处理算法的需要，就要进行数据变换。1）数据集成：将来自多个数据源的数据合并到一起：2）数据变换：对数据进行规范化操作，将其转换成适合于数据挖掘的形式。90西安邮电大学1.数据集成？91西安邮电大学92数据集成数据集成将多个数据源中的数据整合到一个一致的存储中。这些源可以是关系型数据库、数据立方体或一般文件。它需要统一原始数据中的所有矛盾之处，如字段的:同名异义；异名同义；单位不统一；字长不一致等。西安邮电大学93数据集成集成过程中需要注意的问题模式集成问题；冗余问题；数据值冲突检测与消除。西安邮电大学94（1）模式集成问题模式集成：整合不同数据源中的元数据；进行实体识别：匹配来自不同数据源的现实世界的实体如：如何确信一个数据库中的customer_id和另一个数据库中的cust_number是同一实体。通常，数据库的数据字典和数据仓库的元数据，可帮助避免模式集成中的错误。西安邮电大学95（2）数据冗余问题数据冗余问题：同一属性值不同的数据库中会有不同的字段名；一个属性可以由另外一个表导出，如：一个顾客数据表中的平均月收入属性，可以根据月收入属性计算出来。西安邮电大学96（2）数据冗余问题数据冗余问题：有些冗余可以被相关分析检测到：如果变量A、B间具有较高的相关系数，表明A或B可以作为冗余而去掉。除了检查属性是否冗余外，还要检查记录行的冗余。西安邮电大学97(3)数据值冲突问题数据值冲突对现实世界的同一实体，来自不同数据源的属性值可能不同。产生的原因：表示、比例或编码不同。如：重量属性在一个系统中可能以公制单位存放，而在另一系统中可能以英制单位存放；同一商品的价格属性值不同地域采用不同价格单位；不同学校的成绩单可能以百分制、五分制及其他等级制来存放等等。西安邮电大学2.数据变换？98西安邮电大学99数据变换数据变换：将数据转换成适合数据挖掘的形式。涉及内容：（1）平滑：去掉数据中的噪声，将连续的数据离散化：分箱聚类回归。（2）聚集：对数据进行汇总和聚集Avg(),count(),sum(),min(),max(),…如，每天销售额（数据）可以进行聚集操作以获得每月或每年的总额。可用来构造数据立方体。西安邮电大学100数据变换数据变换：将数据转换成适合数据挖掘的形式。涉及内容：（3）数据概化：使用概念分层，用更抽象（更高层次）的概念来取代低层次或数据层的数据对象如，街道属性，可以泛化到更高层次的概念，如城市、国家；同样，对于数值型的属性，如年龄属性，可以映射到更高层次的概念，如年轻、中年和老年。西安邮电大学101数据变换数据变换：将数据转换成适合数据挖掘的形式。涉及内容：（4）规范化：将数据按比例进行缩放，使之落入一个特定的区域，以消除数值型属性因大小不一而造成的挖掘结果的偏差。如将工资收入属性值映射到[-1.0,1.0]的范围内。规格化的目的：

是将一个属性取值范围影射到一个特定范围之内，以消除数值性属性因大小不一而造成挖掘结果的偏差。常用的方法：最小-最大规范化；零-均值规范化（z-score规范化）；小数定标规范化。西安邮电大学在正式进行数据挖掘之前，尤其是使用基于对象距离的挖掘算法时，必须进行数据的规格化。

如对于一个顾客信息数据库中年龄属性或工资属性，由于工资属性的取值比年龄属性的取值要大得多，若不进行规格化处理，基于工资属性的距离计算值将远远超过基于年龄属性的计算值，这就意味着工资属性的作用在整个数据对象的距离计算中被错误放大了。数据变换—规范化102西安邮电大学103数据变换—规范化数据规范化：将数据按比例缩放至一个小的特定区间：1）最小—最大规范化：假定minA和maxA分别为属性A的最小和最大值，则通过下面公式将A的值映射到区间[new_min,new_max]中的v’：例：假定属性income的最小与最大值分别为$12000和$98000，可根据最小—最大规范化方法将其范围映射到[0,1]：如：属性值$73600将变换为：[(73600-12000)/(98000-12000)]*(1-0)+0=0.716西安邮电大学104数据变换—规范化2）z-score规范化（零均值规范化）：将属性A的值根据其平均值和标准差进行规范化；常用于属性最大值与最小值未知，或使用最小最大规范化方法会出现异常数据的情况。其中，meanA、standard-devA分别为属性A取值的均值和标准差。例：假定属性income的平均值与标准差分别为$54000和$16000，使用z-score规范化，则属性值$73600将变换为：(73600-54000）/16000=1.225西安邮电大学105数据变换—规范化3）小数定标规范化：通过移动属性A的小数点位置进行规范化，小数点的移动依赖于A的最大绝对值：例：假定A的取值范围[-986,917]，则A的最大绝对值为986，为使用小数定标规范化，用1000（即j=3）除每个值，这样-986被规范化为-0.986。其中，j是使Max(|v’|)<1的最小整数西安邮电大学规范化将原来的数据改变很多，特别是上述的后两种方法。有必要保留规范化参数（如平均值和标准差（z-score规范化）），以便将来的数据可以用一致的方式规范化。注意：106西安邮电大学107数据变换数据变换：将数据转换成适合数据挖掘的形式。涉及内容：（5）属性构造：利用已有属性集构造出新的属性，并加入到现有属性集中以帮助挖掘更深层次的模式知识，提高挖掘结果的准确性；如，根据宽、高属性，可以构造一个新属性：面积。西安邮电大学4.数据归约数据预处理5.数据离散化

3.数据集成与变换2.数据清理1.数据预处理含义和目的西安邮电大学108西安邮电大学

数据归约对大规模数据库内容进行复杂的数据分析常需要消耗大量的时间，使得对原始数据分析变得不现实和不可行；数据归约（datareduction）：数据消减或约简，是在不影响最终挖掘结果的前提下，缩小所挖掘数据的规模。数据归约技术可以用来得到数据集的归约表示，它小得多，但仍接近保持原数据的完整性。对归约后的数据集进行挖掘可提高挖掘的效率，并产生相同（或几乎相同）的结果。109西安邮电大学

数据归约数据归约的标准：用于数据归约的时间不应当超过或“抵消”在归约后的数据集上挖掘节省的时间。归约得到的数据比原数据小得多，但可以产生相同或几乎相同的分析结果。110西安邮电大学

数据归约数据归约的策略如下：数据立方体聚集；维归约（属性归约）；数据压缩；数值归约；离散化和概念分层生成。111西安邮电大学1.数据立方体聚集？112西安邮电大学113数据立方体聚集对数据进行了数据上卷，数据描述的粒度变粗，进而减少了数据数量西安邮电大学数据仓库通过提供多维数据视图和汇总数据的预计算，数据仓库非常适合联机分析处理。联机分析处理操作使用数据的领域背景知识，允许在不同的抽象层提供数据。联机分析处理操作的例子包括下钻和上卷。他们允许用户在不同的汇总级别观察数据。在OLAP中下钻和上卷这两个术语用的真的是相当的贴切。例如，可以按照季度汇总的销售数据下钻，观察按月汇总的数据。也可以按城市汇总的销售数据上卷，观察按国家汇总的数据。这就是数据钻取的两个简单例子。数据的下钻和上卷114西安邮电大学2.维归约？115西安邮电大学116维归约（属性归约）维归约：主要用于检测并删除不相关、弱相关或冗余的属性维用于数据分析的数据可能包含数以百计的属性，其中大部分可能与挖掘任务不相关，是冗余的。维归约通过删除不相关的属性（或维），而有效减少数据库的规模。最常用的方法：主成分分析、属性子集选择。西安邮电大学主成分分析假定待归约的数据由n个属性描述的数据组成。主成分分析(PCA)搜索k个最能代表数据的n维正交向量，其中。这样，原数据投影到一个小得多的空间上，导致维规约。与属性子集选择通过保留原属性集的一个子集来减少属性集的大小不同，PCA通过创建一个替换的、较小的变量集“组合/融合”属性的基本要素。PCA的基本原理PCA的计算步骤PCA应用实例117西安邮电大学PCA的基本原理PCA可以把可能具有相关性的高维变量合成线性无关的低维变量，新的低维数据集会尽可能的保留原始数据的变量。PCA将数据投射到一个低维子空间实现降维，是数据规约的一种常用方法。在属性归约中，用较少的属性去解释原始数据中的大部分属性，即将许多相关性很高的属性转化成彼此相互独立或不相关的属性。当自变量之间不是相互独立时，PCA能够将自变量变换成独立的成分；在自变量太多的情况下，PCA能够降维。118西安邮电大学PCA的计算步骤

（1）原始数据标准化；（2）计算标准化变量间的相关系数矩阵；（3）计算相关系数矩阵的特征值和特征向量;（4）计算主成分变量值；（5）统计结果分析，提取所需的主成分；（6）将原始数据投影到新的基下。119西安邮电大学PCA应用实例[例]使用一组简单数据对上述算法进行说明，这组原始数据只有两个特征x1和x2，利用PCA方法将二维数据降到一维。数据集如表所示：

特征x1特征x2数据1-1-2数据2-10数据300数据421数据501原始数据矩阵的两列分别是特征x1和特征x2，也就是二维。

120西安邮电大学PCA应用实例（1）让x1和x2分别作为两个特征变量，得到原始数据组成的矩阵，并对其标准化，如下式：其中每行都是一条数据记录，共5个数据，每列为一个特征。对矩阵X进行标准化：根据均值（μ）的定义带入数据可以求得下式：

121西安邮电大学PCA应用实例

可以计算出每列的均值都是0，方差为x1_var和x2_var，如下式:（方差公式）由于两个特征的均值都是0，方差都是1.5，为计算简便不除方差。122西安邮电大学PCA应用实例

（2）求协方差矩阵，由于是二维可根据前面推导的公式所示：求得其协方差矩阵如下式：123西安邮电大学PCA应用实例

（3）求协协方差矩阵的特征值和特征向量：矩阵R的特征值则为式：

对应的特征向量即式：对其进行单位化（归一化）后的结果为式:实对称矩阵一定可以相似对角化，且对角矩阵的对角线元素为其特征值，所以对角矩阵为式:124西安邮电大学PCA应用实例

（4）将特征值从大到小排列:（5）计算出累计贡献率，确定主成分个数。一维的累计贡献率已经达到83.33%，基本满足需要，主成分个数为1就可以了，贡献率计算如下式：125西安邮电大学PCA应用实例

（6）将矩阵投影到新的基下，就是降维到k维的数据，这里降到一维，，这里的例子是从二维降到一维，而x1和x2的特征值分别为2和，因此选取x1的特征向量作为新的基，乘以原始数据矩阵X，就可以得到降维后的表示，如式所示：通过这个简单的二维降维到一维的过程，可以得到高维（n维）在降维（k维）时只是在第五步时，需要降到几维就找几个特征向量做新的基。126西安邮电大学主成分分析方法应用实例表1某农业生态经济系统各区域单元的有关数据

127西安邮电大学128西安邮电大学步骤如下：（1）将表1中的数据作标准差标准化处理，然后将它们代入公式（4）计算相关系数矩阵（见表2）。表2相关系数矩阵129西安邮电大学

（2）由相关系数矩阵计算特征值，以及各个主成分的贡献率与累计贡献率（见表3）。由表3可知，第一，第二，第三主成分的累计贡献率已高达86.596%（大于85%），故只需要求出第一、第二、第三主成分z1，z2，z3即可。

130西安邮电大学表3特征值及主成分贡献率

（3）对于特征值=4.6610，=2.0890，=1.0430分别求出其特征向量l1，l2，l3。131西安邮电大学

①第一主成分z1与x1，x5，x6，x7，x9呈显出较强的正相关，与x3呈显出较强的负相关，而这几个变量则综合反映了生态经济结构状况，因此可以认为第一主成分z1是生态经济结构的代表。

②第二主成分z2与x2，x4，x5呈显出较强的正相关，与x1呈显出较强的负相关，其中，除了x1为人口总数外，x2，x4，x5都反映了人均占有资源量的情况，因此可以认为第二主成分z2代表了人均资源量。

分析：132西安邮电大学显然，用三个主成分z1、z2、z3代替原来9个变量（x1，x2，…，x9），描述农业生态经济系统，可以使问题更进一步简化、明了。③第三主成分z3，与x8呈显出的正相关程度最高，其次是x6，而与x7呈负相关，因此可以认为第三主成分在一定程度上代表了农业经济结构。133西安邮电大学2.维归约？第二种常用方法：属性子集选择134西安邮电大学135维归约—属性子集选择目标：找出最小属性集，确保新数据集的概率分布尽可能接近原数据集的概率分布。如何找出原属性的一个‘好的’子集d个属性有2d个可能的子集。穷举搜索找出属性的最佳子集可能是不现实的，特别是当d的数目很大时。NP问题，组合爆炸！西安邮电大学136维归约—属性子集选择启发式算法：对于属性子集选择，通常使用压缩搜索空间的启发式算法。它们的策略是做局部最优选择，期望由此导致全局最优解。西安邮电大学137维归约—属性子集选择常用的启发式方法：1）逐步向前选择：

该过程由空属性集开始，选择原属性集中最好的属性，并将它添加到该集合中。在其后的每一次迭代，将原属性集剩下的属性中的最好的属性添加到该集合中。

如：遗传算法是一种基于生物进化论和分子遗传学的全局随机搜索算法。西安邮电大学138维归约—属性子集选择常用的启发式方法：2）逐步向后删除：由整个属性集开始，每一步都删除尚在属性集中的最坏属性。直到无法选择出最坏属性或满足一定的阈值为止。如：粗糙集理论，

利用定义的数据集合U上的等价关系对U进行划分，对于数据表来说，这种等价关系可以是某个属性，或者是几个属性的集合。因此，按照不同属性的组合就把数据表划分成不同的基本类，在这些基本类的基础上进一步求得最小约简集。西安邮电大学139维归约—属性子集选择常用的启发式方法：3）向前选择和向后删除的结合：将向前选择和向后删除方法结合在一起；每一步选择一个最好的属性，并在剩余属性中删除一个最坏的属性。西安邮电大学140维归约—属性子集选择常用的启发式方法：4）判定树归纳：在判定树的每个节点，算法选择“最好”的属性，将数据划分成类。当判定树归纳用于属性子集选择时，不出现在树中的所有属性假定是不重要、不相关的；出现在判定树中的属性形成归约后的属性子集。西安邮电大学141西安邮电大学3.数据压缩？142西安邮电大学143数据压缩数据压缩就是利用数据编码或数据转换将原来的数据集合压缩为一个较小规模的数据集合。压缩算法分为两类：无损压缩（loseless）：可以不丢失任何信息地还原压缩数据；如：字符串压缩有损压缩（lossy）：只能重新构造原数据的近似表示；如：音频/视频压缩。西安邮电大学144数据压缩两类：1）无损压缩：指使用压缩后的数据进行重构(或者叫做还原，解压缩)，重构后的数据与原来的数据完全相同。即：数据经过压缩后，信息不受损失，还能完全恢复到压缩前的原样。压缩软件：Zip或RAR，哈夫曼编码等西安邮电大学145数据压缩两类：2）有损压缩：又称破坏型压缩，即将次要的信息数据压缩掉，牺牲一些质量来减少数据量，使压缩比提高。常用于压缩声音、图像以及视频。音频能够在没有察觉的质量下降情况下实现10:1的压缩比，视频能够在稍微观察质量下降的情况下实现如300:1这样非常大的压缩比。常见算法：JPEG、MPEG、MP3等。

算法机理：小波变换或主成份分析西安邮电大学小波变换与数据压缩典型案例：一种基于数据流分析的冗余变异体识别方法持续集成测试用例集优化综述研究146西安邮电大学147数值归约数值归约：通过选择替代的、较小的数据表示形式来减少数据量。（1）有参方法：通常使用一个参数模型来评估数据，该方法只需要存储参数，而不是实际数据，能大大减少数据量，但只对数值型数据有效。如：线性回归方法（最小二乘法）：Y=α+βX西安邮电大学148数值归约数值归约：通过选择替代的、较小的数据表示形式来减少数据量。（2）无参方法：常见的有：直方图；聚类；取样。西安邮电大学1491）直方图直方图：根据属性的数据分布将其分成若干不相交的区间，每个区间的高度与其出现的频率成正比。例：下面的数据是AllElectronics通常销售的商品的单价表（已排序）：1,1,5,5,5,5,5,8,8,10,10,10,10,12,14,14,14,15,15,15,15,15,15,18,18,18,18,18,18,18,18,20,20,20,20,20,20,20,21,21,21,21,25,25,25,25,25,28,28,30,30,30。试用直方图表示，以压缩数据。西安邮电大学1501）直方图频率-值对应关系图西安邮电大学1512）聚类聚类：将原数据集划分成多个群或聚类。原则：同类中的数据彼此相似；不同类中的数据彼此不相似。相似：通常用空间距离度量

聚类的有效性依赖于实际数据的内在规律。基于聚类算法的测试用例排序西安邮电大学1523）取样取样（抽样）：允许用数据的较小随机样本（子集）表示大的数据集。取样方法：

不放回简单随机取样（SimpleRandomSamplingWithoutReplacement,SRSWOR）放回简单随机取样（SimpleRandomSamplingWithReplacement,SRSWR）

聚类取样：先聚类，后取样

分层取样：先分层，后取样。西安邮电大学取样——SRSSRSWOR(简单随机选样，不回放)SRSWR(简单随机选样，回放)原始数据153西安邮电大学154取样

聚类采样：

首先将大数据集D划分为M个互不相交的聚类，然后再从M个类中的数据对象分别进行随机抽取，可最终获得聚类采样的数据子集。聚类采样方法示意图西安邮电大学155聚类取样西安邮电大学156取样分层取样：

首先将大数据集D划分为互不相交的层，然后对每一层简单随机选样得到D的分层选样。

如，根据顾客的年龄组进行分层，然后再在每个年龄组中进行随机选样，从而确保了最终获得分层采样数据子集中的年龄分布具有代表性。西安邮电大学157分层取样分层采样方法示意图西安邮电大学4.数据归约数据预处理5.数据离散化和概念分层

3.数据集成与变换

2.数据清理1.数据预处理含义西安邮电大学158西安邮电大学

数据离散化和概念分层*三种类型的属性值：标称型（名称型、名义型）：数值来自于无序集合，如性别、地名、人名等。序数型：数值来自于有序集合，如奖学金的等级；职称分布等。连续型：实数值，如温度、体重等。离散化技术：通过将属性（连续取值）阈值范围分为若干区间，来帮助消减一个连续（取值）属性的取值个数。

例如，将气温划分为：冷、正常、热。159西安邮电大学

数据离散化和概念分层*概念分层：概念分层定义了一组由低层概念到高层概念集的映射。允许在各种抽象级别上处理数据，从而在多个抽象层上发现知识。用较高层概念替换低层次（如年龄的数值）的概念，以此来减少取值个数。

虽然一些细节数据在泛化过程中消失了，但这样所获得的泛化数据或许更易于理解、更有意义。另外，在消减后的数据集上进行信息处理显然效率更高。

概念分层结构可以用树来表示，树的每个节点代表一个概念。160西安邮电大学离散化方法1）通过直方图分析离散化：使用分箱来近似数据分布。属性A的直方图（histogram）将A的数据分布划分为不相交的子集或桶。如果每个桶只代表单个属性值/频率对，则该桶称为单值桶。通常，桶表示给定属性的一个连续区间。桶和属性值划分规则：等宽直方图中，将数据划分成相等的部分或区间，如(0,100$)、(100$,200$]、(200$,300$]….等频（或等深）直方图：使每个桶的频率粗略地为常数，即每个桶大致包含相同个数的邻近数据样本。161西安邮电大学离散化方法2）通过聚类分析离散化：聚类算法可以将数据集划分为若干类或组。每个类构成了概念分层树的一个节点；每个类还可以进一步分解为若干子类，从而构造更低水平的层次。当然类也可以合并起来构成更高层次的概念水平。3）基于熵的离散化：熵是一种信息度量的方法4）通过直观划分离散化162西安邮电大学基于熵的离散化思想：

基于熵的离散化是一种监督的、自顶向下的分裂技术。它在计算和确定分裂点（即划分属性区间的数据值）时利用类分布信息。选择A的具有最小熵的值作为分裂点，计算分裂前后信息增益变化的阈值（即分裂前后的信息熵），如果左右两区间差值超过阈值就继续分裂，每次差值最大的点作为分类点，直到收敛，并递归地划分结果区间，得到分层离散化。这种离散化形成A的概念分层。163西安邮电大学基于熵的离散化思想：考虑类别信息，递归计算信息熵，产生分层的离散化。给定一个数据元组的集合S，基于熵对S离散化的方法如下：1）属性A中的每个取值可被认为是一个潜在的区间边界或阈值T。例如，A的取值v可以将样本S划分为分别满足A<v和A≥v两个子集，这样就创建了一个二元离散化。2）对于数据集S，根据所划分子集而获得的最大熵增益来选择阈值，划分后数据集S提供的信息如下：E(A)=学习属性A之后的不确定性：164西安邮电大学基于熵的离散化

其中S1和S2分别对应于S中满足条件：A<T与A≥T，的样本。对给定的集合，熵函数Ent根据集合中样本的类分布来计算。例如，给定m个不同类别，S1的熵就是：

其中pi为类i在S1中出现的概率，等于S1中类i的样本除以S1中样本的总行数。同理，计算Ent(S2)。3）确定阈值的过程递归的用于所得到的每个划分，直到满足某个终止条件，如：Ent(S)-I(S,T)≤δ信息增益不能低于δ：165西安邮电大学基于熵的离散化总结：基于熵的离散化可以减少数据量。与迄今为止提到的其他方法不同，基于熵的离散化使用了类别信息。这使得它更有可能将区间边界定义在准确位置，有助于提高分类的准确性。此处用到的信息增益和信息熵也用于决策树归纳。166西安邮电大学通过直观划分离散化思想：将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。聚类分析产生的概念分层可能会将一个工资区间划分为：[51263.98,60872.34]而通常数据分析人员希望看到划分的形式为[50000，60000]直观划分的3-4-5规则常可以将数值数据划分为相对一致和“自然”的区间。一般的，根据最重要的数字上的值区域，递归的和逐层的将给定的数据区域划分为3、4或5个等宽区间。167西安邮电大学自然划分的3-4-5规则规则的划分步骤：如果一个区间最高有效位上跨越3，6，7或9个不同的值，就将该区间划分为3个等宽子区间；(72,3,2)如果一个区间最高有效位上跨越2，4，或8个不同的值，就将该区间划分为4个等宽子区间；如果一个区间最高有效位上跨越1，5，或10个不同的值，就将该区间划分为5个等宽子区间；将该规则递归的应用于每个子区间，产生给定数值属性的概念分层；168西安邮电大学自然划分的3-4-5规则规则的划分步骤：对于数据集中出现的最大值和最小值的极端分布，为了避免上述方法出现的结果扭曲，可以在顶层分段时，选用一个大部分的概率空间。e.g.5%-95%例如，在资产数据集中，少数人的资产可能比其他人高几个数量级。如果按照最高资产值进行分段，可能导致高度倾斜的分层。此时，可以在顶层分段时，选用一个大部分的概率空间。e.g.5%-95%。越出顶层分段的特别高和特别低的部分采用类似的规则划分方法形成单独的区间。169西安邮电大学示例：3-4-5规则假定AllElectronics所有分部1999年的利润覆盖了一个很宽的区间，从-351.00$到4700$。要求利用3-4-5规则自动构造利润属性的一个概念层次树。170西安邮电大学示例：3-4-5规则思路：

设在上述范围取值为5%至95%的区间为：-159$至1838$。应用3-4-5规则的具体步骤如下：1）根据以上信息，在利润数据集中最小和最大值分别为：MIN=-351$,MAX=4700$。而根据以上分析，对于分段的顶层或第一层，要考虑的最低（5%）和最高（95%）的值是：LOW=-159$,HIGH=1838$。2）依据LOW和HIGH及其取值范围，确定最高有效位为1000$，LOW按1000$美元向下取整，得到LOW’=-1000$；HIGH按1000$向上取整，得到：HIGH’=2000$。171西安邮电大学示例：3-4-5规则3）由于该区间在最高有效位上跨越了3个值，即(2000-(-1000))/1000=3，根据3-4-5规则，该区间被划分成3个等宽区间：(-1000$,0],(0,1000$],(1000$,2000$]。这代表分层结构的最顶层。172西安邮电大学示例：3-4-5规则4）现在，考察原数据集中MIN和MAX值与最高层区间的联系。由于MIN值落在区间(-1000$,0]，因此调整左边界，对MI

人人文库> 全部分类> 教育资料 > 作文作品

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘2 第二章数据探索和预处理

文档简介

温馨提示

最新文档

评论

数据挖掘2 第二章 数据探索和预处理

文档简介

温馨提示

最新文档

评论

相关文档

数据挖掘2 第二章数据探索和预处理