《数据挖掘与数据分析(财会)》主成分分析及应用_第1页
《数据挖掘与数据分析(财会)》主成分分析及应用_第2页
《数据挖掘与数据分析(财会)》主成分分析及应用_第3页
《数据挖掘与数据分析(财会)》主成分分析及应用_第4页
《数据挖掘与数据分析(财会)》主成分分析及应用_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主成分分析及应用CONTENTS目录5.1主成分分析法概概述5.2主成分分析法代数模型5.3主成分分析法的步骡和方法2.4主成分分析法的操作流程5.5主成分分析举例5.6用Python实现主成分分析015.1主成分分析法概概述1.主成分分析法(principalcomponentsanalysis,简写“PCA”)也称主分量分析,是考察多个变量之间相关性的一种多元统计方法。主成分分析旨在利用降维的思想,在尽量保证数据信息丢失最小的情况下,把多指标转化为少数几个综合指标。也就是根据多个变量之间的相关关系和某种线性组合进行转化,得到少数几个综合变量,这几个综合变量保留较多信息,并且之间是不相关的,转换后的这组变量称为主成分。5.1.1主成分分析法概念2.在统计学中,主成分分析是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。5.1.2主成分分析法降维的主要体现

能用来降低算法计算开销、去除噪声,以及使结果易于展示与理解等;

主成分分析就是找出数据里最主要的方面,用数据里最主要的方面来代原始数据;

主成分分析主要应用领域包括数据压缩、简化数据、数据可视化等。主成分分析(Principalcomponentsanalysis,PCA)是最重要的降维方法之一,在数据压缩、消除冗余和数据噪音消除等方面有广泛的应用,其主要体现在:在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。

因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。5.1.3主成分分析的基本思想

在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。

主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。

主成分分析的原理是设法将原来变量重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。5.1.4主成分分析法的基本原理

主成分分析是设法将原来众多具有一定相关性(比如p个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现再F2中,用数学语言表达就是要求

,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第p个主成分。概括起来说,主成分分析主要由以下几个方面的作用:5.1.5主成分分析的主要作用

多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布情况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。

由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量X做回归分析。

用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。

主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X成份分析空间(m<p),而低维的Y空间代替高维的X空间所损失的信息很少。即:使只有一个主成分Yl(即m=1)时,这个Yl仍是使用全部X变量(p个)得到的。例如要计算Yl的均值也得使用全部X的均值。在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。 

有时可通过因子负荷

的结论,弄清X变量间的某些关系。(1)综合打分。比如员工绩效的评估和排名、城市发展综合指标等。这类情况只要求得出一个综合打分,

因此使用主成分分析比较适合。相对于单项成绩简单加总的方法,主成分分析会使得评分更聚焦于单一维度,即更关注这些原始变量的共同部分,去除不相关的部分。不过,当主成分分析不支持取一个主成分时,就不能使用该方法了。

(2)对数据进行描述。描述产品情况,比如著名的波士顿矩阵、子公司的业务发展状况、区域投资潜力等,这类情况需要将多个变量压缩到少数几个主成分进行描述,能压缩到两个主成分是最理想的。这类分析一般只进行主成分分析是不充分的,进行因子分析会更好。5.1.6主成分分析的主要应用领域(3)为聚类或回归等分析提供变量压缩。消除数据分析中的共线性问题。消除共线性常用的有三种方法,分别是:①在同类变量中保留一个最有代表性的变量,即变量聚类;②保留主成分或因子;③从业务理解上进行变量修改。主成分分析是以上3种方法的基础。(4)去除数据中的噪音。比如图像识别。025.2主成分分析法代数模型假设用p个变量来描述研究对象,分别用

来表示,这p个变量构成的p维随机向量为

。设随机向量X的均值为μ,协方差矩阵为Σ。假设X是以n

个标量随机变量组成的列向量,并且

是其第k个元素的期望值,即

协方差矩阵然后被定义为:5.2.1主成分分析法代数模型对X进行线性变化,考虑原始变量的线性组合:主成分是不相关的线性组合

,并且Z1是

的线性组合中方差最大者,Z2是与Z1不相关的线性组合中方差最大者,…,Zp是与

都不相关的线性组合中方差最大者。035.3主成分分析法的步骤与方法5.3.1主成分分析法基本步骤

第一步:设估计样本数为n,选取的财务指标数为p,则由估计样本的原始数据可得矩阵

,其中,

表示第i家上市公司的第j项财务指标数据。

第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标数据进行标准化,得到标准化矩阵(系统自动生成)。

第三步:根据标准化数据矩阵建立协方差矩阵R,是反映标准化后的数据之间相关关系密切程度的统计指标,若值越大,说明有必要对数据进行主成分分析。其中,

为原始变量Xi与Xj的相关系数。R为实对称矩阵(即

),只需计算其上三角元素或下三角元素即可,其计算公式为:5.3.1主成分分析法基本步骤

第四步:根据协方差矩阵R求出特征值、主成分贡献率和累计方差贡献率,确定主成分个数。解特征方程

,求出特征值

。因为R是正定矩阵,所以其特征值λi都为正数,将其按大小顺序排列,即

。特征值是各主成分的方差,它的大小反映了各个主成分的影响力。主成分Zi的贡献率

,累计贡献率为

。根据选取主成分个数的原则,特征值要求大于1且累计贡献率达80%-95%的特征值

所对应的1,2,….m(m≤p),其中整数m即为主成分的个数。

第五步:建立初始因子载荷矩阵,解释主成分。因子载荷量是主成分Zi与原始指标Xi的相关系数

,揭示了主成分与各财务比率之间的相关程度,利用它可较好地解释主成分的经济意义。

第六步:计算企业财务综合评分函数Fm,计算出上市公司的综合值,并进行降序排列:5.3.2主成分分析法分析②总体主成分的计算:设

的协方差矩阵,

的特征值及相应的正交单位化特征向量分别为

则X的第ⅰ个主成分为

此时:③总体主成分性质

(1)主成分的协方差矩阵及总方差

为主成分向量,则

,其中

由此得主成分的总方差为:5.3.2主成分分析法分析即主成分分析是把p个原始变量

的总方差分解成

p个互不相关变量

的方差之和,即

第k个主成分的贡献率:

;前m个主成分累计贡献率:它表明前m个主成分

综合提供

中信息的能力。5.3.2主成分分析法分析④标准化变量的主成分

在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起各变量取值的分散程度差异较大,这时总体方差则主要受方差较大的变量的控制。为了消除由于量纲的不同可能带来的影响,常采用变量标准化的方法,即令5.3.2主成分分析法分析5.3.2主成分分析法分析(2)样本主成分:前面讨论的是总体主成分,但在实际问题中,一般∑(或P)是未知的,需要通过样本来估计。设

分别以S和R作为∑和P的估计,然后按总体主成分分析的方法作样本主成分分析。045.4主成分分析法的操作流程5.4.1主成分分析法的操作流程5.4.1主成分分析法的操作流程055.5主成分分析举例5.5.1主成分分析举例某市为了全面分析机械类个企业的经济效益,选择了8个不同的利润指标,14企业关于这8个指标的统计数据如下表所示,试进行主成分分析。(其中,xi1:净产值利润率(%);xi2:固定资产利润率(%);xi3:总产值利润率(%);xi4:销售收入利润率(%);xi5:产品成本利润率(%);xi6:物耗利润率(%);xi7:人均利润率(千元/人);xi8:流动资金利润率(%))

解:样本均值向量为:5.5.1主成分分析举例样本协方差矩阵为:5.5.1主成分分析举例由于S中主对角线元素差异较大,因此我们样本相关矩阵R出发进行主成分分析。样本相关矩阵R为:5.5.1主成分分析举例矩阵R的特征值及相应的特征向量见表5-2:特征值特征向量6.13660.321130.295160.389120.384720.379550.370870.319960.355461.0421-0.4151-0.597660.229740.278690.316320.37151-0.27814-0.156840.43595-0.451230.10303-0.0398950.053874-0.0372920.0751860.77059-0.424780.22037-0.668170.36336-0.22596-0.110810.148740.069353-0.134950.559490.15191-0.0382170.624350.12273-0.0369090.159280.21062-0.43006-0.581050.0088274-0.101670.13584-0.158110.86226-0.25204-0.34506-0.13934-0.0265570.00296240.1596-0.061134-0.539660.0466060.7609-0.278090.06203-0.131260.00122380.19295-0.031987-0.641760.11002-0.253970.68791-0.006045-0.0054031表5-2:矩阵R的特征值及相应的特征向量5.5.1主成分分析举例特征值贡献率(%)累计贡献率(%)6.13660.767080.767081.04210.130270.897340.435950.0544940.951840.220370.0275470.979380.151910.0189880.998370.00882740.00110340.999480.00296240.00037030.999850.00122380.000152971表5-3:R的特征值及贡献率前3个标准化样本主成分类及贡献率已达到95.184%,故只需取前三个主成分即可。5.5.1主成分分析举例前3个标准化样本主成分中各标准化变量

前的系数即为对应特征向量,由此得到3个标准化样本主成分为:注意到,y1近似是8个标准化变量

的等权重之和,是反映各企业总效应大小的综合指标,y1的值越大,则企业的效益越好。由于y1的贡献率高达76.708%,故若用y1的得分值对各企业进行排序,能从整体上反映企业之间的效应差别。将S中

的值及

中各

的值及企业关于

的观测值代入y1的表达式中,可求得各企业y1的得分及其按其得分由大到小的排序结果。065.6用Python实现主成分分析5.6.1PCA的函数参数scikit-learn库中提供PCA函数可创建PCA模型,其收录的PCA函数语法格式如下:sklearn.decomposition.PCA(n_components=None,copy=True,whiten=False,svd_solver=’auto’,tol=0.0,iterated_power=’auto’,random_state=None)总结:PCA函数返回值是一个PCA对象,主要包括以下属性。

components_,返回具有最大方差的成分。explained_variance_,降维后的各主成分的方差值。explained_variance_ratio_,返回值n个特征各自的方差百分比,比例越大越重要。n_components_,返回所保留的特征个数n。mean_,返回值的平均值。5.6.2在PCA中采用的方法

在PCA中采用的方法如表5-5所示:常用方法格式解释说明fit()fit(X,

y=None)scikit-learn中通用的方法,fit(X)

表示用数据X来训练PCA模型fit

_transform()fit_

transform(X)用数据X来训练PCA模型,同时返回降维后的数据get_covariance()get

covariance()计算并生成模型的协方差get_params()get_params(deep=True)获取当前模型的参数get_precision()get_precision()计算当前模型的精度矩阵inverse_transform()inverse_transform(X)将降维后的数据转换成原始数据score()score(X,

y=None)返回所有样本的平均对数似然数score_samples()score_samples(X)返回每个样本的对数似然数set_params()set_params(*

*params)设置模型的参数transform()transform(X)将数据X转换成降维后的数据表5-5PCA中的常用方法5.6.3用Python实现PCA下面我们就通过具体的实例在Python中实现主成分分析。以波士顿的房价数据集进行分析,在该数据中包含了13个特征,具体的操作步骤如下:第一步,导入数据库importnumpyasnpfromsklearn.treeimportDecisionTreeClassifierfromsklearn.decompositionimportPCA第二步,载入数据集,输入相关代码如下:fromsklearn.datasetsimportload_bostonpca=load_boston()#从数据库中导出波士顿房价数据集x=pca.data#从数据集中获得特征值xy=pca.target#从数据集中获得目标变量房价yprint(x[:2])#打印输出x的前2条记录print(y[:2])#打印输出y的前2条记录

print('x

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论