




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、金融数据挖掘论文院系: 理学院 专业班级: 信息与计算科学132班学号: 201311010213姓名: 施秋梅 日期: 2016年6月24日摘要 本文主要讲述金融数据挖掘中的聚类分析,主要介绍聚类分析的几种聚类的方法系统层次聚类法,k-均值算法,BIRCH算法和基于密度的聚类算法。然后通过几个实例来深度了解这几种算法,最后是聚类分析在生活中的应用。12目 录摘要11. 前言32. 相关算法分析32.1系统层次聚类法32.2 k-均值算法42.3 BIRCH算法62.4 基于密度的聚类算法73. 实例分析83.1 R语言的一个实例84. 应用105. 总结111、前言聚类分析也称无教师学习或无
2、指导学习,与分类学习相比,聚类的样本一般事先不做标记,需要由聚类学习算法自动确定。聚类分析是在没有训练目标的情况下将样本划分为若干簇的方法。聚类分析是数据挖掘中重要的分析方法,由于数据和问题的复杂性,数据挖掘对聚类方法有一些特殊的需要,这些需要表现为:大规模数据中块特征的认识需要,能够处理不同属性数据的聚组,适应不同形状的聚类方法,具备抗强噪声的能力和较好的解释性,不受输入数据的顺序的影响,高维聚类以及能够和具体的约束兼容等,以上需要造就了丰富的聚类分析方法,也使得聚类分析广泛的应用于客户分析、文本归类、结构分组和行为跟踪等问题中,成为数据挖掘中发展很快而且灵活变化丰富的一个分支。聚类分析是一
3、种探索数据分组的统计方法,其目的是建立一种归类的方法,将一批样本或变量,按照它们在特征上的水程度进行分类,使得组内样品的相似度达到最大,而组间的差距达到最大。即簇内部的人艺两个样本之间具有较高的相似度,而属于不同簇的两个样本之间具有较高的相异度。相异度通常用样本间的距离刻画。在实际应用中,经常将一个簇中的数据样本作为同质的整体看待,有简化问题和过滤冗余信息的作用。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的
4、簇中。2、相关算法分析2.1系统层次聚类法距离分层的典型方法是层次聚类算法。层次聚类法也称为系统层次聚类法,其想法是首先将所有的样品都单独作为一类,然后计算任意两个类之间的距离,将其中距离最近的两个类合并为一类,同时聚类的数量减一。不断重复这个过程,直到最后只剩下最大的类别。层次聚类算法的步骤可以概括如下:(1)根据适当的距离定义准则,计算现有的N个类别两两之间的距离,找到其中最近的两个类(不妨记为P和Q);(2)将P,Q合并,作为一个新类PQ,加上剩下的N-2个类,此时共有N-1个类;(3)重复步骤(1)(2),直到聚类数缩减为1停止。系统聚类的算法复杂度是O(n2),上述聚类的结果可以用一
5、个树状图展示,如图2.1所示,其中树的最低端表示所有的样品单独成类,最顶端表示所有的样品归为一类,而在此之间,聚类数从N-1变动到2。在任何一个给定的高度上,都可以判断哪些样品被分在树的同一枝,而聚类数的确定,需要通过实际情况进行判断。图2.12.2 k-均值算法k-均值算法是另一种应用范围非常广的聚类方法,它是一种典型的划分聚类的方法。其思想是在给定聚类数K时,通过最小化组内误差平方和来得到每一个样本点的分类。k-均值算法的过程大致如下:(1)从N个样本点在中任意选择(一般是随机分配)K个作为初始聚类中心;(2)对于剩下的其他样本点,根据他们与样本中心的距离,分别将他们分派给与其最相似的中心
6、所在的类别;(3)计算每个新类的聚类中心;(4)不断重复(2),(3),直到所有的样本点的分类不再改变或类中心不再改变。具体如下:输入:k, datan;(1) 选择k个初始中心点,例如c0=data0,ck-1=datak-1;(2) 对于data0.datan,分别与c0ck-1比较,假定与ci差值最少,就标记为i;(3) 对于所有标记为i点,重新计算ci= 所有标记为i的dataj之和/标记为i的个数;(4) 重复(2)(3),直到所有ci值的变化小于给定阈值。K-均值算法的第二个人问题是容易受到初始点选择的影响,在分类数据上分辨力不强,不适用于非凸问题,受异常数据影响,受到不同类别的密
7、度方差大小的影响。解决的方法是采用二分K-均值过程。其主要思想是:假设要将样本数据分为K个簇,先用基本K-均值算法将所有的数据分为两个簇,从所得结果中选择一个较大的簇,继续使用K-均值算法进行分裂操作,直到得到K个簇,算法终止。二分K-均值算法步骤如下:输入:训练数据集D,二分次数m,目标簇数k。输出:簇集N=N1,N2,Nk。(1)初始化簇集S,它只含一个包含所有样本的簇N,将簇数K初始化为1;(2)从S中取出一个最大的簇Ni;(3)使用K-均值聚类算法对簇Ni进行m次二分聚类操作;(4)分别计算这m对子簇的总SSE的大小,将具有最小总SSE的一对子簇添加到S中,执行K+操作;(5)如果K=
8、K,算法结束。否则重复(2)到(5)步骤。算法使用误差平方和SSE最为聚类的评价函数,对于二分K-均值聚类算法是各个步骤都是只有2个簇中心,因此相对于基本K-均值算法而言,更不易受到簇中心初始化问题的影响。二分K-均值算法中各步找出SSE之和最小的一对子簇N1和N2:J=xiN1xi-m1*2+xiN2xi-m2*2 在二分K-均值算法中,使用误差平方和和度量聚类的质量的好坏,具体的操作是对各个样本点的误差采取欧几里德距离进行计算,然后计算误差平方和。二分K-均值算法没有初始化的问题,每一步操作实际上就是从m对子簇中找到误差平方和最小的一对子簇,然后再进行基本的K-均值操作。2.3 BIRCH
9、算法Zhang 等人提出了Birch(Blanced Iterative Reducing and Clustering)1 算法来对大规 模数据集进行聚类。Birch 算法是一种非常有效的、传统的层次聚类算法,该算法能够用一 遍扫描有效地进行聚类,并能够有效地处理离群点。Birch 算法是基于距离的层次聚类,综 合了层次凝聚和迭代的重定位方法,首先用自底向上的层次算法,然后用迭代的重定位来改 进结果。2层次凝聚是采用自底向上策略,首先将每个对象作为一个原子簇,然后合并这些 原子簇形成更大的簇,减少簇的数目,直到所有的对象都在一个簇中,或某个终结条件被满足。Birch 算法的主要思想是:通过扫
10、描数据库,建立一个初始存放于内存中的聚类特征树, 然后对聚类特征树的叶结点进行聚类。它的核心是聚类特征(CF)和聚类特征树(CF Tree)。CF 是指三元组CF=(N,LS,SS),用来概括子簇信息,而不是存储所有的数据点。 其中:N:簇中d 维点的数目; LS:N 个点的线性和;SS:N 个点的平方和。比如给定一个由二维点组成的集合(3,4),(2,6),(4,5),那么CF 结构概括了簇的基本信息,并且是高度压缩的,它存储了小于实际数据点的聚类信息。同时CF 的三元结构设置使得计算簇的半径、簇的直径、簇与簇之间的距离等非常容易。Birch 算法主要分为以下两个阶段:(1) 扫描数据库,动
11、态的建立一棵存放在内存的CF 树。若内存不够,则增大阈值,在 原树基础上构造一棵较小的树。(2) 对叶节点进一步利用一个全局性的聚类算法,改进聚类质量。 由于 CF 树的叶节点代表的聚类可能不是自然的聚类结果,原因是给定的阈值限制了簇 的大小,并且数据的输入顺序也会影响到聚类结果。因此,需要对叶节点进一步利用一个全 局性的聚类算法,改进聚类质量。2.4 基于密度的聚类算法DBSCAN(Density-based Spatial Clustering of Applications with Noise)是一种基于高密度联通区域的聚类算法,它将类簇定义为高密度相连点的最大集合。它本身对噪声不敏感
12、,并且能发现任意形状的类簇。DBSCAN中的的几个定义:领域:给定对象半径为内的区域称为该对象的领域核心对象:如果给定对象领域内的样本点数大于等于MinPts,则称该对象为核心对象。直接密度可达:对于样本集合D,如果样本点q在p的领域内,并且p为核心对象,那么对象q从对象p直接密度可达。密度可达:对于样本集合D,给定一串样本点p1,p2.pn,p= p1,q= pn,假如对象pi从pi-1直接密度可达,那么对象q从对象p密度可达。密度相连:对于样本集合D中的任意一点O,如果存在对象p到对象o密度可达,并且对象q到对象o密度可达,那么对象q到对象p密度相连。可以发现,密度可达是直接密度可达的传递
13、闭包,并且这种关系是非对称的。密度相连是对称关系。DBSCAN目的是找到密度相连对象的最大集合。Eg: 假设半径=3,MinPts=3,点p的E领域中有点m,p,p1,p2,o, 点m的E领域中有点m,q,p,m1,m2,点q的E领域中有点q,m,点o的E领域中有点o,p,s,点s的E领域中有点o,s,s1.那么核心对象有p,m,o,s(q不是核心对象,因为它对应的E领域中点数量等于2,小于MinPts=3);点m从点p直接密度可达,因为m在p的E领域内,并且p为核心对象;点q从点p密度可达,因为点q从点m直接密度可达,并且点m从点p直接密度可达;点q到点s密度相连,因为点q从点p密度可达,并
14、且s从点p密度可达。算法DBSCAN步骤:输入:E 半径 MinPts 给定点在E领域内成为核心对象的最小领域点数 D 集合输出:目标类簇集合方法:repeat(1)判断输入点是否为核心对象(2) 找出核心对象的E领域中的所有直接密度可达点 util 所有输入点都判断完毕 repeat 针对所有核心对象的E领域所有直接密度可达点找到最大密度相连对象集合, 中间涉及到一些密度可达对象的合并。 Util 所有核心对象的E领域都遍历完毕3、实例分析一个用R语言的聚类分析,数据集用的是iris 第一步:对数据集进行初步统计分析 #检查数据的维度 > dim(iris) 1 150 5 >
15、names(iris) #显示数据集中的列名1 “Sepal.Length” “Sepal.Width” “Petal.Length” “Petal.Width” “Species” > str(iris) #显示数据集的内部结构 data.frame: 150 obs. of 5 variables: $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 $ Petal.Length: num 1.4 1.4 1.
16、3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 $ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 $ Species : Factor w/ 3 levels “setosa”,”versicolor”,.: 1 1 1 1 1 1 1 1 1 1 > attributes(iris) #显示数据集的属性 $names #就是数据集的列名 1 “Sepal.Length” “Sepal.Width” “Petal.Length” “Petal.Width” “Species” $s #个人理
17、解就是每行数据的标号 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
18、 96 97 98 99 100 101 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 141 142 143 144 145 146 147 148 149 150 $class #表示类别 1 “data.frame” > iris1:5, #查看数据集的前五项数据情况Sepal.Length Se
19、pal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa 5 5.0 3.6 1.4 0.2 setosa > iris1:10, "Sepal.Length"#查看数据集中属性Sepal.Length前10行数据 1 5.1 4.9 4.7 4.6 5.0 5.4 4.6 5.0 4.4 4.9> iris$Sepal.Length1:
20、10 # 同上1 5.1 4.9 4.7 4.6 5.0 5.4 4.6 5.0 4.4 4.9 > summary(iris) #显示数据集中每个变量的分布情况Sepal.Length Sepal.Width Petal.Length Petal.Width Species Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 setosa :50 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 versicolor:50 Median :5.800 Median :3.000 M
21、edian :4.350 Median :1.300 virginica :50 Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800 Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500 3> table(iris$Species) setosa versicolor virginica 50 50 50 #显示iris数据集列Species中各个值出现频次> pie(table(iri
22、s$Species) #根据列Species画出饼图> var(iris$Sepal.Length) #算出列Sepal.Length的所有值的方差1 0.6856935 > cov(iris$Sepal.Length, iris$Petal.Length) # 算出列iris$Sepal.Length和iris$Petal.Length的协方差1 1.2743154、应用聚类分析师数据挖掘中一种常用的技术,在实践中可以多角度应用于市场分析,为市场营销战略和策略的制定提供科学合理的参考。主要介绍其在市场分析中的应用,并且我们从客户细分、实验市场选择、抽样方案设计、销售篇区确定、市场
23、机会研究五个方面探讨聚类分析在市场分析中的具体应用。 (1)在客户细分中的应用: 消费同一种类的商品或服务时,不同的客户有不同的消费特点,通过研究这些特点,企业可以制定出不同的营销组合,从而获取最大的消费者剩余,这就是客户细分的主要目的。常用的客户分类方法主要有三类:经验描述法,由决策者根据经验对客户进行类别划分;传统统计法,根据客户属性特征的简单统计来划分客户类别;非传统统计方法,即基于人工智能技术的非数值方法。聚类分析法兼有后两类方法的特点,能够有效完成客户细分的过程。 (2)在实验市场选择中的应用: 实验调查法最常用的领域有:市场饱和度测试。市场饱和度反映市场的潜在购买力,是市场营销战略
24、和策略决策的重要参考指标。企业通常通过将消费者购买产品或服务的各种决定因素(如价格等)降到最低限度的方法来测试市场饱和度。或者在出现滞销时,企业投放类似的新产品或服务到特定的市场,以测试市场是否真正达到饱和,是否具有潜在的购买力。前述两种措施由于利益和风险的原因,不可能在企业覆盖的所有市场中实施,只能选择合适的实验市场和对照市场加以测试,得到近似的市场饱和度;产品的价格实验。这种实验往往将新定价的产品投放市场,对顾客的态度和反应进行测试,了解顾客对这种价格的是否接受或接受程度;新产品上市实验。(3)在销售片区确定中的应用 销售片区的确定和片区经理的任命在企业的市场营销中发挥着重要的作用。只有合理地将企业所拥有的子市场归成几个大的片区,才能有效地制定符合片区特点的市场营销战略和策略,并任命合适的片区经
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- T/CCAS 033-2023油井水泥浆防气窜试验方法
- T/CAPEB 00001.8-2022制药装备容器和管道第8部分:验证
- 湖北成人考试题库及答案
- ensp春考试题及答案
- 敦煌文化考试题及答案
- 风车运营面试题及答案
- 高中教师考试题及答案
- 小儿三尖瓣闭锁的临床护理
- 如何助推新质生产力
- 乡镇年度民政工作总结
- DB32/T 4220-2022消防设施物联网系统技术规范
- 湖北省武汉市2025届高三年级五月模拟训练试题数学试题及答案(武汉五调)
- DL∕T 5210.6-2019 电力建设施工质量验收规程 第6部分:调整试验
- 安全文明施工措施费清单五篇
- 医院感染暴发报告处理流程图
- 中等职业学校学生实习鉴定表
- 高考数学一轮复习-分配问题(答案)
- 六西格玛DMAIC案例(ppt-85页)课件
- 质量管理8D报告培训(教材)含案例分析课件(PPT 57页)
- T∕CAGHP 070-2019 地质灾害群测群防监测规范(试行)
- 年庆六一文艺汇演节目评分表
评论
0/150
提交评论