




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2021-10-24离群点挖掘主要内容主要内容n离群点挖掘的概述n离群点数据挖掘方法简介基于统计的方法基于统计的方法基于距离的方法基于距离的方法基于密度的方法基于密度的方法基于聚类的方法基于聚类的方法什么是离群点什么是离群点(outlier)?nhawkins的定义的定义:离群点是在数据集中偏离大部分数偏离大部分数据的数据据的数据,使人怀疑这些数据的偏离并非由随机因素产生,而是产生于完全不同的机制。nweisberg的定义:离群点是与数据集中其余部分不服从相同统计模型的数据。nsamuels的定义:离群点是足够地不同于数据集中其余部分的数据。nporkess的定义:离群点是远离数据集中其余部分
2、的数据离群点的特殊意义和实用价值离群点的特殊意义和实用价值 n 现有数据挖掘研究大多集中于发现适用于大部分数据的常规模式,在许多应用领域中,离群点通常作为噪音而忽略,许多数据挖掘算法试图降低或消除离群点的影响。而在有些应用领域识别离群点是许多工作的基础和前提,离群点会带给我们新的视角。 n如在欺诈检测中,离群点可能意味欺诈行为的发生,在入侵检测中离群点可能意味入侵行为的发生。 n实例:n例如我们设儿童上学的具体年龄总体服从正态分布,所给的数据集是某地区随机选取的开始上学的20名儿童的年龄具体的年龄特征如下: 年龄=6,7,6,8,9,10,8,11,7,9,12,7,11,8,13,7,8,1
3、4,9,12 那么.相应的统计参数是:均值=9.1; 标准差=2.3。 如果选择数据分布的阈值为:阈值=均值2标准差 故在4.5 ,13.7区间以外的数据都是潜在的离群点, 将最大值取整为13。所以年龄为14的孩子可能是个例外。而且由均值可知,此地的孩子普遍上学较晚.教育部门以后可据此作一些政策上的改进。n案例:孤立点挖掘在高等学校科技统计数据分案例:孤立点挖掘在高等学校科技统计数据分析中的应用析中的应用 孤立点实验数据源:孤立点实验数据源:(选自全国普通高等学校科技统计数据上报基表中的数据) 甘肃省甘肃省2010年科技统计上报数据中的一所高校数据年科技统计上报数据中的一所高校数据 对基表中的
4、数据,如选取科技人员职称和学历作为最终测试对象,因职称只有院士、正高、副高、讲师、助教和其它职称共六种职称,而学历只有高中以下、中专、大专、本科、硕士和博士共六种职称,职称和学历跨度小,检测出来的孤立点孤立程度相对较低,故选取跨度较大的出生年月作为测试对象。选取三个指标:出生年月、学位和职称作为检测属性。n实验及结果分析实验及结果分析 用ds算法时,取m=20,算法返回距离的值最大的20个教师信息如表1所示。 通过分析,可以发现孤立点数据中存在两种典型的孤立点类别: (1)孤立点数据远远偏离于正常值的范围 序号1-4 (噪声) (2)孤立点数据偏离于正常值的范围 可能是录入错误,可能是真实数据
5、序号出生年月学历职称1198907大学本科正高级2198510硕士研究生副高级3196008博士研究生初级4197909专科副高级5196002博士研究生中级6195511博士研究生副高级7198109硕士研究生副高级8197408博士研究生初级9198109硕士研究生副高级10198206博士研究生副高级11198301博士研究生副高级12195706博士研究生副高级13195712博士研究生副高级14197302硕士研究生正高级15197211大学本科正高级16195001硕士研究生正高级17197304硕士研究生副高级18195011硕士研究生副高级19196911硕士研究生初级2019
6、7002离群点检测的应用领域离群点检测的应用领域n电信、保险、银行中的欺诈检测与风险分析 n发现电子商务中的犯罪行为n灾害气象预报n税务局分析不同团体交所得税的记录,发现异常模型和趋势 n海关、民航等安检部门推断哪些人可能有嫌疑 n海关报关中的价格隐瞒n营销定制:分析花费较小和较高顾客的消费行为n医学研究中发现医疗方案或药品所产生的异常反应n计算机中的入侵检测n应用异常检测到文本编辑器,可有效减少文字输入的错误 n离群点挖掘离群点挖掘(outlier miningoutlier mining)n离群点挖掘问题由两个子问题构成:。 n(1)定义在一个数据集中什么数据是不一致或离群的数据;n(2)
7、找出所定义的离群点的有效挖掘方法。离群点挖掘问题可以概括为如何度量数据偏离的程度和有效发现离群点的问题。为什么会出现离群点?为什么会出现离群点?n测量、输入错误或系统运行错误所致n数据内在特性所决定n客体的异常行为所致客体的异常行为所致 由于离群点产生的机制是不确定的,离群点挖掘算法检测出的“离群点”是否真正对应实际的异常行为,不是由离群点挖掘算法来说明、解释的,只能由领域专家来解释,离群点挖掘算法只能为用户提供可疑的数据,以便用户引起特别的注意并最后确定是否真正的异常。对于异常数据的处理方式也取决于应用,并由领域专家决策。离群点挖掘中需要处理的几个问题离群点挖掘中需要处理的几个问题n(1)
8、全局观点和局部观点全局观点和局部观点离群点与众不同,但具有相对性。n(2) 点的离群程度点的离群程度可以通过定义对象的偏离程度来给对象打分离群因子(outlier factor)或离群值得分(outlier score),即都为离群点的情况下,也还有分高和分低的区别。n(3) 离群点的数量及时效性离群点的数量及时效性正常点的数量远远超过离群点的数量,离群点的数量在大规模数据集中所占的比例较低,小于5%甚至1%离群点实例离群点实例n一个人的年龄为-999就可能是由于程序处理缺省数据设置默认值所造成的 ;n一个公司的高层管理人员的工资明显高于普通员工的工资可能成为离群点但却是合理的数据(如平安保险
9、公司2007年 5位高管税后收入超过了1000万元); n一部住宅电话的话费由每月200元以内增加到数千元可能就因为被盗打或其它特殊原因所致; n一张信用卡出现明显的高额消费也许是因为是盗用的卡。n离群点与众不同但具有离群点与众不同但具有相对性:相对性: 高与矮,疯子与常人。n类似术语:类似术语: outlier mining,exception mining:异常挖掘、离群挖掘、例外挖掘和稀有事件挖掘 。离群点检测方法分类离群点检测方法分类从使用的从使用的主要技术路线主要技术路线角度分类角度分类n基于统计的方法基于统计的方法n基于距离的方法基于距离的方法n基于密度的方法基于密度的方法n基于聚
10、类的方法基于聚类的方法n基于偏差的方法n基于深度的方法n基于小波变换的方法n基于神经网络的方法从从类标号类标号(正常或异常正常或异常)利用的程度利用的程度分类分类n无监督的离群点检测方法无监督的离群点检测方法q在实际情况下,没有提供类标号n有监督的离群点检测方法q要求存在离群点类和正常类的训练集n半监督的离群点检测方法q训练数据包含被标记的正常数据,但是没有关于离群点对象的信息 离群点检测中需要处理的问题离群点检测中需要处理的问题(1)用于定义离群点的属性个数用于定义离群点的属性个数n一个对象只有单个属性n一个对象具有多个属性:q可能某个属性异常,某个属性正常如:对于男生而言, 身高1.6m,
11、体重55kg,这个很正常; 身高1.6m,体重75kg,这个有点离群; 身高1.8m,体重75kg,基本正常。若对于女生,则三组值可能都不太正常。 n所以,定义离群点需要指明如何使用多个属性的值确定一所以,定义离群点需要指明如何使用多个属性的值确定一个对象是否离群?个对象是否离群?(2)全局观点和局部观点全局观点和局部观点n一个对象可能相对于所有对象看上去离群,但它相对于它的局部近邻不是离群的q例如:身高1.85m对于一般人群是不常见的,但对于职业篮球运动员不算什么(3)点的离群程度点的离群程度n某些技术方法是以二元方式来报告对象是否离群点,即:离群点或正常点q但,这不能反映某些对象比其他对象
12、更加极端偏离的基本事实q通过定义对象的离群程度来给对象打分 ,如都为离群点的情况下,也还有分高和分低的区别。离群点得离群点得分分(outlier score)或离群因子或离群因子(outlier factor)离群点检测的挑战和前提离群点检测的挑战和前提n挑战:q数据中有多少离群点?q方法应该是无监督的,就像在干草堆中寻找一根针n前提假设q假定数据集中被认为正常的点数远远超过被认为离群的点数基于统计的离群点检测基于统计的离群点检测基于统计的离群点检测n这类方法大部分是从针对不同分布的离群点检验方法发展起来的,通常用户使用分布来拟合数据集。q假定所给定的数据集存在一个分布或概率模型(例如,正态分
13、布或泊松分布),然后将与模型不一致(即分布不符合)的数据标识为离群数据。基于统计的离群点检测n假定用一个参数模型来描述数据的分布 (如正态分布)应用基于统计分布的离群点检测方法依赖于q数据分布q参数分布 (如均值或方差)q期望离群点的数目 (置信度区间)离群点的概率定义离群点的概率定义n离群点的概率定义:q离群点是一个对象,关于数据的概率分布模型,它具有低概率n概率分布模型通过估计用户指定的分布的参数,由数据创建。q例:如果假定数据具有高斯分布,则基本分布的均值和标准差可以通过计算数据的均值和标准差来估计,然后可以估计每个对象在该分布下的概率。实例:检测一元正态分布中的离群点实例:检测一元正态
14、分布中的离群点n下面利用统计学中最常用的分布-高斯(正态)分布,来介绍一种简单的统计学离群点检测方法。q正态分布用记号:n (,)表示,表示均值,表示方差。cn(0,1)的10.31731.50.133620.04552.50.012430.00273.50.000540.0001来自n(0,1)分布的对象(值)出现在分布尾部的机会很小。例如,对象落在 3标准差的中心区域以外的概率仅有0.0027。更一般地,如果x是属性值,则|x|=c的概率随c增加而迅速减小。设= p (|x| c)。表6-1显示当分布为n(0,1)时c的某些样本值和对应的值。注意:离群值超过4个标准差的值出现的可能性是万分
15、之一。实例:检测一元正态分布中的离群点实例:检测一元正态分布中的离群点定义定义n定义 设属性x 取自具有均值0 和标准差1 的高斯分布。如果属性值x 满足: p(|x|c)=,其中c 是一个选定的常量,则x以概率1-为离群点。 q为了使用该定义,需要指定值。从不寻常的值(对象)预示来自不同的值的观点来说,表示我们错误地将来自给定分布的值分类为离群点的概率。从离群点是n(0,1)分布的稀有值的观点来说,表示稀有程度。n如果(正常对象的)一个感兴趣的属性的分布是具有均值和标准差的正态分布,即 分布,则可以通过变换z=(x-)/转换为标准正态分布n(0,1),通常和是未知的,可以通过样本均值和样本标
16、准差来估计。n实践中,当观测值很多时,这种估计的效果很好;另一方面,由概率统计中的大数定律可知,在大样本的情况下可以用正态分布近似其它分布。n在该图中, 中心线是观测值的预测值, 3 对应上下控制线, 2对应上、下警告线。根据3原则,99.73%的观测值将落在上下控制线的区间内,仅有0.27%的观测值落在此区间之外。质量控制示意图+3xt-3-2+2对于观测样本对于观测样本x:n(1)如此点在上、下警告线之间区域内,则测定过程处于控制状态,生产过程或样本分析结果有效;n(2)如果此点超出上、下警告线,但仍在上、下控制线之间的区域内,提示质量开始变劣,可能存在“失控”倾向,应进行初步检查,并采取
17、相应的校正措施;n(3)若此点落在上、下控制线之外,表示生产或测定过程“失控,生产的是废品或观测样本无效。应立即检查原因,予以纠正。质量控制示意图t+3x-3-2+2基于统计的离群点检测方法的优缺点基于统计的离群点检测方法的优缺点n优点:q离群点检测的统计学方法具有坚实的基础,建立在标准的统计学技术(如分布参数的估计)之上。q当存在充分的数据和所用的检验类型的知识时,这些检验可能非常有效。n缺点:q大部分统计方法是针对单个属性的,对于多元数据技术方法较少。q在许多情况下, 数据分布是未知的。q对于高维数据, 很难估计真实的分布。q这类方法不适合混合类型数据基于距离的离群点检测基于距离的离群点检
18、测基于距离的离群基于距离的离群点检测检测n基于距离的离群点检测方法,其基本思想如下:q一个对象是离群的,如果它远离大部分其它对象。n优点:确定数据集的有意义的邻近性度量比确定它的统计分布更容易,综合了基于分布的思想,克服了基于分布方法的主要缺陷 。基于距离方法的两种不同策略基于距离方法的两种不同策略n第一种策略是采用给定邻域半径,依据点的邻域中包含的对象多少来判定离群点q如果一个点的邻域内包含的对象少于整个数据集的一定比例则标识它为离群点,也就是将没有足够邻居的对象看成是基于距离的离群点。n利用k最近邻距离的大小来判定离群q使用k-最近邻的距离度量一个对象是否远离大部分点,一个对象的离群程度由
19、到它的k-最近邻的距离给定 。q这种方法对k的取值比较敏感。k太小(例如1),则少量的邻近离群点可能导致较低的离群程度。k太大,则点数少于k的簇中所有的对象可能都成了离群点。到到k-最近邻的距离的计算最近邻的距离的计算nk-最近邻的距离:q一个对象的离群点得分由到它的k-最近邻的距离给定。q离群点得分的最低值为0,最高值是距离函数的可能最大值-如无穷大定义6-2 对于正整数k,对象p的k最近邻距离k-distance(p)定义为:(1)除p外,至少有k个对象o满足 (2)除p外,至多k-1个对象o满足)distance(pk,o) distance(p )distance(pk,o) dist
20、ance(p 2021-10-24定义6-3 点x的离群因子定义为: | ),(|y)(x,k)f1(x,),(kxndistanceokxny这里 是不包含x的k-最近邻的集合, 是该集合的大小。),(kxn| ),(|kxn),distance(),distance(|),(xyxkyxykxn 基于距离的离群点检测算法基于距离的离群点检测算法n输入:数据集d;最近邻个数kn输出:离群点对象列表n1:for all 对象x don2: 确定x的k-最近邻集合n(x,k)n3: 确定x的离群因子 of1(x,k)n4:end forn5:对of1(x,k)降序排列,确定离群因子大的若干对象n
21、6:return应注意:x的k-最近邻的集 包含的对象数可能超过k。选择合适的离群因子阈值选择合适的离群因子阈值n一种形式上简单的方法是指定离群点个数;这里介绍另一种确定of1(x,k)分割阈值的方法:对of1(x,k)降序排列,选择of1(x,k)急剧下降的点作为离群值、正常值的分隔点,如图6-3所示,在该图中,有两个点判定为离群点。例例6-1n例6-1 在图6-4所示的二维数据集中,当k=2时,p1、p2哪个点具有更高的离群点得分?(使用欧式距离)xy1213112122236824325752例例6-1解答:对p1点进行分析:k=2;最近邻的点为p3(5,7),p2(5,2),dista
22、nce(p1,p2)与distance(p1,p3)分别为6.08,1.41,平均距离为:对p2点进行分析:k=2;最近邻的点为p3,p4,同理有:因为of1(p1,k) of1(p2,k),因此,p1点更有可能是离群点。745. 3241. 108. 62)3, 1(tan)2, 1(tank)of1(p1,ppcedisppcedis5 . 32252)4, 2(tan)3, 2(tank)of1(p2,ppcedisppcedis基于距离的离群点检测基于距离的离群点检测 例例6-2 在图在图6-5所示的二维数据集中,当所示的二维数据集中,当k=5时,哪个点具有时,哪个点具有最大的离群因子
23、最大的离群因子,b的离群因子和的离群因子和d的离群因子哪个小?的离群因子哪个小?cdab解答:图所示的二维数据集主体由解答:图所示的二维数据集主体由一个紧密的簇和一个松散的簇组成,一个紧密的簇和一个松散的簇组成,下图以灰度图显示了各点的离群因子下图以灰度图显示了各点的离群因子情况,情况,d的离群因子低于松散簇中部的离群因子低于松散簇中部分点的离群因子。点分点的离群因子。点c的离群因子最的离群因子最大,大,b点的离群因子大于点的离群因子大于d点的离群点的离群因子。这个例子说明,当数据集包含因子。这个例子说明,当数据集包含不同密度的区域时,基于距离的离群不同密度的区域时,基于距离的离群点检测方法不
24、能很好地识别离群点。点检测方法不能很好地识别离群点。cdab离群点得分递增基于距离的离群检测的优缺点基于距离的离群检测的优缺点n优点:优点:q基于距离的离群点检测方案简单 n缺点:缺点:q(1) 检测结果对参数k的选择较敏感q(2)时间复杂度为 ,难以用于大规模数据集,这里n为数据集的规模;q(3)需要有关离群因子阈值或数据集中离群点个数的先验知识,在实际使用中有时由于先验知识的不足会造成一定的困难。q(4) 因为它使用全局阈值,不能处理不同密度区域的数据集。)(2no基于相对密度的离群点检测基于相对密度的离群点检测2021-10-24基于密度的基于密度的离群点检测离群点检测 n当数据集含有多
25、种分布或数据集由不同密度子集混合而成时,数据是否离群不仅仅取决于它与周围数据的距离大小,而且与邻域内的密度状况有关。n这里使用每个对象到第k个最近邻的距离大小来度量密度。n定义6-4 (1) 对象的局部邻域密度 n(2) 相对密度n其中, 是不包含x的k-最近邻的集合, 是该集合的大小,y是一个最近邻。1),(| ),(|y)(x,k)(x,kxndistancedensitykxny),(kxn| ),(|kxn 基于相对密度的离群点检测方法通过比较对象的密度与它的邻域中的对象平均密度来检测离群点。 簇内靠近核心点的对象的相对密度接近于1,而处于簇的边缘或是簇的外面的对象的相对较大。定义相对
26、密度为离群因子:),(| ),(| / ),(),(),(kxdensitykxnkydensitykxdensityrelativekxny),(),(2kxdensityrelativekxof相对密度离群点检测算法相对密度离群点检测算法 n1:k是最近邻个数n2:for all 对象x don3: 确定x的k-最近邻n(x,k)。n4: 使用x的最近邻(即n(x,k)中的对象), 确定x的密度density(x,k)。n5:end forn6:for all 对象x don7: 确定x的相对密度relative density(x,k), 并赋值给of2(x,k)。n8:end for
27、n9:对of2(x,k)降序排列,确定离群点得分高的若干对象 例例6-3:给定二维数据集,表:给定二维数据集,表6-2给出了点的坐标,可视化的给出了点的坐标,可视化的图形如图图形如图6-7所示所示(对象间的距离采用曼哈顿对象间的距离采用曼哈顿(manhattan)距离距离计算计算)。n(1)取k=2,计算点p4, p15的局部邻域密度 及相对密度 ,哪个点更可能是离群点? n(2)取k=2,按照基于距离的离群点检测,p4, p15哪个点更可能是离群点?k)(x,density),(kxdensityrelativep1p2p3p4p5p6p7p8p9p10p11p12p13p14p15p16x
28、1 112222333344455y2 341234123412301n(1) 对于p4,k最近邻邻域包含两个对象: 8, 5), 4(ppkpn9, 6, 5, 1), 5(ppppkpn12, 9, 4), 8(pppkpn133| ), 8(|y)(p8,k)(p8,11), 8(kpndistancedensitykpny112/ ) 11 (), 4()4(2kpdensityrelativepof对于p15,k最近邻邻域包含2个对象:16,12),15(ppkpnp12,p16的密度均为1,5 . 13/22/ ) 11 (),15()15(2kpdensityrelativepo
29、f相对点相对点p4,点,点p15更可能是离群点。更可能是离群点。1211| ), 4(|y)(p4,k)(p4,11), 4( kpndistancedensitykpny144| ), 5(|y)(p5,k)(p5,11), 5(kpndistancedensitykpny32212| ),15(|y)(p15,k)(p15,11),15(kpndistancedensitykpny(2)对于k=2np4的k最近邻邻域为 ,k最近邻距离均值为1。np15的k最近邻邻域为 ,k最近邻距离均值为1.5。经过比较可以看出,点经过比较可以看出,点p15的离群程度要高。的离群程度要高。8, 5), 4
30、(ppkpn16,12),15(ppkpn例例6-4 模拟图模拟图6-8中类似数据,中类似数据,k取取2,3,5时,以表格方式给出所有点的时,以表格方式给出所有点的局部邻域密度及相对密度、基于距离的离群因子。局部邻域密度及相对密度、基于距离的离群因子。(采用欧式距离采用欧式距离)n解答:k取2,3,5时,所有点的局部邻域密度、相对密度、基于距离的离群因子表所示。点的坐标k=2k=3k=5xy局部邻域密度相对密度距离离群因子局部邻域密度相对密度距离离群因子局部邻域密度相对密度距离离群因子45950.07 0.88 14.00 0.06 0.87 16.33 0.04 0.90 22.60 609
31、60.05 1.34 20.50 0.04 1.15 22.33 0.04 1.11 27.00 51800.06 0.96 17.00 0.05 0.96 18.33 0.05 0.80 20.60 38900.08 0.91 13.00 0.06 0.94 16.33 0.04 0.96 23.80 39770.07 0.98 14.50 0.06 1.04 17.67 0.04 1.02 25.00 69790.04 1.21 22.50 0.04 1.33 25.67 0.03 1.35 31.80 1511690.13 1.39 8.00 0.13 1.16 8.00 0.10 1.
32、07 9.80 1451630.13 1.56 8.00 0.11 1.40 9.33 0.09 1.27 11.40 1511560.14 1.36 7.00 0.12 1.20 8.67 0.10 1.09 10.40 1531630.17 1.04 6.00 0.15 0.87 6.67 0.14 0.76 7.40 1611540.12 1.11 8.50 0.09 1.49 11.33 0.07 1.49 13.60 1511610.22 0.70 4.50 0.18 0.70 5.67 0.14 0.76 7.40 1571670.13 1.17 8.00 0.11 1.40 9.
33、33 0.09 1.24 11.20 1611590.12 1.44 8.50 0.10 1.20 9.67 0.09 1.14 10.80 1121860.02 7.00 56.00 0.02 7.99 58.67 0.02 6.68 60.80 502380.01 5.85 131.00 0.01 5.66 138.00 0.01 5.52 146.60 基于聚类的离群点检测基于聚类的离群点检测2021-10-24基于聚类的离群点检测方法基于聚类的离群点检测方法 物以类聚物以类聚相似的对象聚合在一起。 基于聚类的方法有两个共同特点: (1)先采用特殊的聚类算法处理输入数据而得到聚类,再在聚
34、类的基础上来检测离群点。 (2)只需要扫描数据集若干次,效率较高,适用于大规模数据集。2021-10-24基于聚类的离群点检测方法基于聚类的离群点检测方法n静态数据的离群点检测第一阶段对数据进行聚类第二阶段计算对象或簇的离群因子,将离群因子大的对象或簇中对象判定为离群点。n动态数据的离群点检测第一步,利用静态数据的离群检测方法建立离群检测模型第二步,利用对象与已有模型间的相似程度来检测离群点关键问题:距离的定义、离群程度的度量基于对象离群因子的方法基于对象离群因子的方法n首先聚类所有对象 ,然后评估对象属于簇的程度q如果一个对象不强属于任何簇,则称该对象为基于聚类的离群点。q对于基于原型的聚类
35、,可以用对象到它的簇中心的距离来度量对象属于簇的程度。 基于对象离群因子的方法基于对象离群因子的方法n定义定义6-5 给定簇c,c的摘要信息csi(cluster summary information)定义为: 其中n为簇c的大小,summary由分类属性中不同取值的频度信息和数值属性的质心两部分构成,即:n定义定义6-6 假设据集d被聚类算法划分为k个簇 对象p的离群因子(outlier factor)op3(p)定义为p与所有簇间距离的加权平均值: ),(,1,)(,(,21|ncccimmmmcidciipppcenmjidaafreqastatcenstatsummary,summa
36、ryncsi ,21kcccckjjjcpddcpof1),()(3n引理引理 如果随机变量 服从正态分布 ,则有:),(2n023. 0)2pr(05. 0)645. 1pr(10. 0)285. 1pr(16. 0)pr(两阶段离群点挖掘方法两阶段离群点挖掘方法tod描述如下:描述如下:第一步,对数据集d进行采用一趟聚类算法进行聚类,得到聚类结果第二步,计算数据集d中所有对象p的离群因子of3(p),及其平均值ave_of和标准差dev_of,满足条件: 的对象判定为离群点。 通常取 ,21kcccc)21 (_)(3ofdevofavepof285. 11或例6-5 基于聚类的离群点检测
37、示例1对于图所示的二维数据集,比较点p1(6,8),p2(5,2),哪个更有可能成为离群点。假设数据集经过聚类后得到聚类结果为c=c1、c2、c3,图中红色圆圈标注,三个簇的质心分别为:c1(5.5,7.5)、c2(5,2)、c3(1.75,2.25),试计算所有对象的离群因子。例6-5 基于聚类的离群点检测示例1解答:根据定义6-6,公式对于p1点有: 对于p2有:可见,点p1较p2更可能成为离群点。kjjjcpddcpof1),()(39 . 57.5)-(8+5.5)-(61132)-(8+5)-(61112.25)-(8+1.75)-(6118),()(3222222111kjjjcp
38、ddcpof4 . 37.5)-(2+5.5)-(51132)-(2+5)-(51112.25)-(2+1.75)-(5118),()(3222222122kjjjcpddcpof例6-5 基于聚类的离群点检测示例1n同理可求得所有对象的离群因子,结果如表所示。xyof3122.2132.3112.9212.6221.7231.9685.9242.5322.2574.8523.4进一步求得所有点的离群因子平均值ave_of=2.95,标准差dev_of=1.3,假设 ;则阈值e=ave_of + *dev_of=2.95+1.3=4.25离群因子大于4.25的对象可视为离群点,p1 与p2都是
39、离群点,但相对而言,p1更有可能成为离群点。1基于簇的离群因子的方法基于簇的离群因子的方法n(1)在某种度量下,相似对象或相同类型的对象会聚集在一起,或者说正常数据与离群数据会聚集在不同的簇中;n(2)正常数据占绝大部分,且离群数据与正常数据表现出明显不同,或者说离群数据会偏离正常数据(也就是大部分数据)。 介绍簇的离群因子概念,利用簇的离群因子将簇区分为正常簇和离群簇。定义定义6-7n给定簇c,c的摘要信息csi (cluster summary information)定义为: 其中kind为簇的类别(取值normal或outlier), 为簇c的大小, cluster为簇c中对象标识的集
40、合,summary由分类属性中不同取值的频度信息和数值型属性的质心两部分构成,即:),(,1,)(,(,21|ncccimmmmcidciiccccenmidaafreqastatcenstatsummary|cn ,summaryclusternkindcsi 定义定义6-8n假设据集d被聚类算法划分为k个簇 ,簇 离群因子(outlier factor) 定义为簇 其它所有簇间距离的加权平均值:,21kcccckijjjijiccddccof, 1),()(4)(4icoficic如果一个簇离几个大簇的距离都比较远,则表明该簇偏离整体较远,其离群因子也较大。 度量了簇 偏离整个数据集的程度
41、,其值越大,说明 偏离整体越远。 )(4icoficic基于聚类的离群挖掘方法基于聚类的离群挖掘方法(cbod)ncbod方法由两个阶段构成:q第一阶段是利用一趟聚类算法对数据集进行聚类;q第二阶段是计算每个簇的离群因子,并按离群因子对簇进行排序,最终确定离群簇,也即确定离群对象。 cbod算法描述如下:算法描述如下:n第一阶段,聚类:对数据集d进行聚类,得到聚类结果 ;n第二阶段,确定离群簇:计算每个簇 的离群因子 ,按 递减的顺序重新排列 ,求满足: 的最小 ,将簇 标识为outlier类(即其中每个对象均看成离群),而将 标识为normal类(即其中每个对象均看成正常)。)1 (kici
42、)(4icof)1 (kici) 10(1dcbiibbccc,21kbbccc,21,21kcccc)(4icof例例6-6 基于聚类的离群点检测示例基于聚类的离群点检测示例2对例6-5中的数据集,聚类后得到三个簇c=c1、c2、c3,簇心分别为:c1(5.5,7.5)、c2(5,2)、c3(1.75,2.25)。簇之间的距离分别为进一步计算三个簇的离群因子,具体如下:52. 52)-(7.5+5)-(5.5),(2221ccd45. 62.25)-(7.5+1.75)-(5.5),(2231ccd26. 32.25)-(2+1.75)-(5),(2232ccd例例6-6 基于聚类的离群点检
43、测示例基于聚类的离群点检测示例2可见簇c1的离群因子最大,其中包含的对象判定为离群点,与例6-5得到的结论相同。19. 545. 611852. 5111),(118),(111)(431211ccdccdcof37. 326. 311852. 5112),(118),(112)(432122ccdccdcof47. 126. 311145. 6112),(111),(112)(423133ccdccdcof基于聚类的动态数据的离群点检测基于聚类的动态数据的离群点检测 基本思想如下:基本思想如下:在对训练集聚类的基础上,按照簇的离群因子排序簇,并按一定比例将簇标识为”normal”或”outl
44、ier”,以标识的簇作为分类模型,按照对象与分类模型中最接近簇的距离判断它是否离群点。 基于聚类的动态数据的离群点检测基于聚类的动态数据的离群点检测n第一步,聚类:对训练集 进行聚类,得到聚类结果 ;n第二步,给簇作标记:计算每个簇 的离群因子 ,按 递减的顺序重新排列 ,求满足: 的最小b,将簇 标识为离群簇,而将 标识为正常簇。n第三步,确定模型:以每个簇的摘要信息,聚类半径阈值r作为模型。1t,211kccct)1 (kici)(4icof)(4icof)1 (kici11tcbiibccc,21kbbccc,21(1) 模型建立模型建立(2) 模型评估模型评估n利用改进的最近邻分类方法
45、inn(improved nearest neighbor) 评估测试集中的每个对象。inn方法具体描述如下:q对于测试集 中对象p,计算p与每个簇的距离 若 ,则说明p是已知类型的行为,将簇 的标识作为p的标识,否则说明p是一种新的行为,将p标识为可疑对象候选离群点 。2t),(icpddcpdkicpdii),(1),(min00ic(3) 模型更新模型更新n对于测试集 中对象p,按照前面聚类的方式,对新增对象进行增量式聚类更新n用建立模型同样的方法对所有簇重新标记其类别。3t,21kccct6.6 离群点挖掘方法的评估离群点挖掘方法的评估可以通过下表所示混淆矩阵来描述离群点挖掘方法的检测性能。在离群点检测问题中,并不关注预测正确的normal类对象,重点关注的是正确预测的outlier类对象。预测类别outliernormal实际类别outlier预测正确的outlier预测错误的outliernormal预测错误
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 在线旅游平台搭建与运营协议
- 乡村旅游开发项目农业合作社协议
- 产品供应及延迟交货违约金协议
- 情感计算模型-洞察及研究
- 保理合同法律风险及管理建议
- 销售医疗合同模板4篇
- 2025年文化娱乐产业投资热点领域深度研究方案
- 2025年智能厨房设备技术鉴定方案
- 2025年行业政策调整下的医疗健康产业发展趋势方案
- 2025年服装行业规范标准方案
- GB/T 27043-2025合格评定能力验证提供者能力的通用要求
- 加工公司实验室设备管理办法
- (2025秋新版)北师大版二年级上册数学全册教案
- 2025年“学宪法讲宪法”知识竞赛题库含答案
- 教室布置方案(模板)
- 2024年辽宁省地矿集团招聘真题
- 2025年上海入团考试试题及答案
- 2025年《土地管理法》考试试题及答案解析
- 2025至2030年中国机织服装市场现状分析及前景预测报告
- 妇幼信息安全课件
- 《测绘基础》课件(共八个任务)
评论
0/150
提交评论