




已阅读5页,还剩68页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,1,数据的分类聚类分析,.,2,在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费习惯。它作为数据挖掘中的一个模块,可以作为一个单独的工具来发现数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上做进一步的分析。聚类分析的算法可以分为划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法。其中,最广泛使用的聚类算法k-means算法属于划分法。,聚类算法,.,3,给定一个有N个元组或者纪录的数据集,划分法将构造K个分组,每一个分组就代表一个聚类,Ko。,在解决实际问题时,一般不是取p个主成分,而是根据累计贡献率的大小取前几个。,定义称第一主成分的贡献率为,主成分的贡献率就是主成分的方差在全部方差中的比值,因此第一,2020/6/13,.,46,个值越大,表明第一主成分综合X1,Xp信息,的能力越强。,前两个主成分的累计贡献率定义为,前两个主成分的累计贡献率定义为,前k个主成分的贡献率达到85,表明取前是个主成分基本包含了全部测量指标所具有的信息,这样既减少了变量的个数又便于对实际问题的分析和研究。,如果,值得指出的是:当协差阵未知时,可用其估计值S(样本协差阵)来代替,设原始资料阵为:,2020/6/13,.,47,则,其中,而相关系数阵:,其中,2020/6/13,.,48,显然当原始变量Xl,Xp标准化后,则,实际应用时,往往指标的量纲不同,所以在计算之前先消除量纲的影响,而将原始数据标准化,这样一来S和R相同。因此一般求R的特征根和特征向量,并且不妨取RXX。因为这时的R与,不变,它并不影响求主成分。,只差一个系数,显然,与,的特征根相差n倍,但它们的特征向量,(2)、主成分的主要性质,性质1F的协差阵为对角阵A。,2020/6/13,.,49,证明:,记,显然,性质2,证明:,性质3,2020/6/13,.,50,证明:,其中,为单位向量,第i个分量为1,其余为0。,所以,2020/6/13,.,51,4计算步骤及实例,设有n个样品,每个样品观测p个指标,将原始数据写成矩,1将原始数据标准化。这里不妨设上边矩阵已标准化了。,2建立变量的相关系数阵:,不妨设,2020/6/13,.,52,3求特征根,及相应的,单位特征向量:,4写出主成分,例对全国30个省市自治区经济发展基本情况的八项指标作主成分分析,原始数据如下:,2020/6/13,.,53,2020/6/13,.,54,2020/6/13,.,55,2020/6/13,.,56,第一步将原始数据标准化。,第二步建立指标之间的相关系数阵R如下,2020/6/13,.,57,第三步求R的特征值和特征向量。,2020/6/13,.,58,从上表看,前3个特征值累计贡献率已达89564,说明前3个主成分基本包含了全部指标具有的信息,我们取前3个特征值,并计算出相应的特征向量:,2020/6/13,.,59,因而前三个主成分为:,第一主成分:,第二主成分:,F2=0.107995X1+0.258512X2+0.287536X3+0.100931X4-0.40431X5+0.498801X6-0.48868X7+0.167392X8,2020/6/13,.,60,第三主成分:,在第一主成分的表达式中第一、二、三项指标的系数较大,这三个指标起主要作用,我们可以把第一王成分看成是由国内生产总值、固定资产投资和居民消费水平所该划的反映经济发展状况的综合指标;,在第二主成分中,第四、五、六、七项指标的影响大,且第六、七项指标的影响尤其大,可将之看成是反映物价指数、职工工资和货物周转量的综合指标;,在第三主成分中,第八项指数影响最大,远超过其它指标的影响,可单独看成是工业总产值的影响。,2020/6/13,.,61,5附注,1从和从R出发计算主成分一般是不同的,当变量取值范围彼此相差很大或度量单位不同时,应该考虑标准化,以便使计算结果有合理的解释,避免出现误解。如果没有上述度量单位和数量级的差异,从和从R出发计算的结果对主成分的解释或计算贡献时,在一般情况下是不会发生矛盾的。,2主成分是原始变量的线性组合,它不能简单地解释为单变量的属性作用,因而不能直接说明单个原始变量属性对主成分的作用,而应该同时看一些起主要作用的原始变量的综合作用,依此给主成分一个合理解释。,3从主成分的数学推导,不难看出主成分仅依赖于X1,X2,Xp的协差阵(或相关系数阵)并不要求分布,2020/6/13,.,62,是多元正态的,即未对总体分布提出什么特定的要求。,4主成分个数的确定。一种方法在前边计算过程中已提到即根据实际问题的需要由累计贡献率的大小来确定,因此一般就选前二、三个主成分代替原来p个变量的信息,而不会损失很多信息。另一种方法是作如下的假设检验:,(如果不作检验就没必要有这个限制),因为特征根相等意味着数据在相应的p一q维空间上有各向同性的散布,若接受H0则在q的基础上,再增加任何主成分就得把剩下的全部包括进去,因为后p一q个主成分含有相同的信息量。,在H0成立下可得Bartlet近似检验统计量:,2020/6/13,.,63,其中,(算术平均),(几何平均),若拒绝H0即应增加主成分的个数。若接受H0,说明在已给检验水平下取q个主成分已能描述数据。,5主成分分析用于系统评估,系统评估是指对系统营运状态做出评估,而评估一个系统的营运状态往往需要综合考察许多营运的指标.,2020/6/13,.,64,例如对某一类企业经济效益作评占,影响企业经济效益就有许多指标,很难直接比较其优劣,听以解决评估问题的焦点就是希望科学、客观地将一个多指标问题综合成一个单指标的形式,也就是说只有在一维空间中才能使排序评估成为可能,因此产生了许许多多评估方法。鉴于系统评估在社会、经济等许多领域中有着广泛而重要的应用,下面介绍三种方法。,第一种方法,利用主成分F1,Fp做线性组合,并以每个主成分Fi的方差贡献率作为权数构造一个综合评价函数:,也称y为评估指数,依据对每个系统计算出的y值大小进行排序比较或分类划级。,2020/6/13,.,65,这一方法目前在一些专业文献中都有介绍,但在实践中经常看到它的应用效果并不理想,主要原因是产生主成分的特征向量的各分量符号不一致,很难进行排序评估,因此有下面的改进方法。,第二种方法,只用第一个主成分作评估指数即Y=F1,理由是:第一主成分与原始变量X1,Xp综合相关度最强即,从这个意义上看,如果想以一个综合变量来代替原来所有原始变量,则最佳选择应该是F1,另一方面由于第一主成分F1对应于数据变异最大的方向也就是使数据信息损失最小,精度最高的一维综合变量。但值得指出的是使用这种方法是有前提条件的即要求所有评估指标变量都是正相关,2020/6/13,.,66,的,也就是说对听有变量均有同增、同减的趋势,这个前提条件是基于代数中的Frobinius定理。,定理若相关系数阵,中的每一个元素都是,正值,即,对一切,则只矩阵的第一个特征,向量中的所有分量均大于零,即,如果不满足这个前提条件,在原变量系统中X1,Xp有一部分变量正相关,另一部分变量负相关,则无法保证第一个特征向量u1o,因此生成的F1有一部分与原变量正相关与另一部分变量负相关甚至于一部分变量无关,这时很难以n取值的大小来排序。特别是当出现某一分量时使用Fq作为评估指数,更要慎重防止遗漏上的重要信息。,2020/6/13,.,67,第三种方法是在前两种方法的基础上又作了改进,具体做法.,(1)将原始资料阵,进行标准化处理记为,标准化后的变量记为,(2)令,即根据变量的重要程度,赋予权数,重要的变量取,大些,这时,因此,各变量的方差分别为,由于一部分在系统评估中更为重要的变量被赋予更大的权,2020/6/13,.,68,因此在这些指标上,变量的变差被拉长,于是在求第一主成分时,这些指标会得到更多的重视。,(3)对标准化又加权后的数据阵,计算协差阵,求,的最大特征值和特征向量,(4)令,然后按,进行排序,比较或分类划级。,6除本章介绍的主成分分析之外,还有主成分回归和加权主成分分析等。顾名思义,主成分回归,就是把各主成分作为新的自变量代替原变量作回归,在一般情况下它可以克服多重共线性带来的干扰。所谓加权主成分分析是当原来指标X1,Xp的重要程度存在较大差异时,这时对原指标应辅以加权,即相当于用一个权数阵,2020/6/13,.,69,去乘,而得出,其中,然后对作主,成分分析.,2020/6/13,.,70,1、用主成分分析研究股票内在的联系。2、对国民经济增长方式作主成分分析。3、房地产指标的主成分分析。,思考题,.,71,稀疏子空间聚类模型给定一组数据设,这组数据属
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 园林专业造价试题及答案
- 闵行区老旧厨房施工方案
- 时尚产业全球市场布局研究
- 互联网营销方案
- 网络安全威胁防范策略探讨
- 网络经纪合同
- 山东省日照市校际联合考试2024-2025学年高二上学期11月期中考试地理试卷(含答案)
- 建设天桥围栏施工方案
- 灰土防弹墙施工方案
- 湖北交通标牌施工方案
- 剖宫产术后腹胀护理
- 项目部商务管理办法
- 2025重庆医科大学附属第一医院(编制外)招聘18人考试参考试题及答案解析
- 精麻药品培训知识课件
- 2025细胞与基因治疗科研领域蓝皮书
- 2025年高考语文全国二卷真题拓展:语言文字运用“衔接+感情色彩+关联词语+错别字”
- 2025年司法考试题库(附答案)
- 仪表工安全基础知识培训课件
- ISO9001质量管理体系培训
- 光电检测技术及应用 周秀云
- 2025至2030中国糠醛衍生物市场未来趋势及发展态势展望报告
评论
0/150
提交评论