多元统计分析与Excel应用

上传人：l*** IP属地：安徽上传时间：2022-08-09 格式：DOCX 页数：21 大小：336.24KB 积分：20 举报 版权申诉

已阅读5页，还剩16页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、多元统计分析方法概述目录简介第 4 页线性回归原理多元线性回归案例叙述分析第4页多元线性回归分析法在社会中的应用第 8 页聚类分析原理介绍聚类分析案例叙述分析第 8 页聚类分析法在社会中的应用第 10 页成分分析原理介绍主成分分析案例叙述分析第11页主成分分析法在社会中的应用第 14 页因子分析原理简介第 14 页因子分析案例叙述分析第 14 页因素分析法在社会中的应用第 17 页偏最小二乘回归分析原理介绍第18页偏最小二乘回归分析案例叙述分析第19页偏最小二乘回归分析法在社会中的应用第21页总结第 21 页参考文献第 22 页辞职第 23 页概括本文主要概述了多元统计分析的

2、各种方法，然后介绍了多元统计分析方法在社会生活等方面的实际案例和分析。并通过案例分析找出每种统计分析方法对应的应用领域。关键词多元统计方法回归分析聚类分析因子分析主成分分析偏最小二乘回归分析因子股市模型金融引言多元统计分析的基本方法。多元统计分析是近30年来发展迅速的数理统计的一个分支。随着计算机的普及和各种统计软件的不断推出，多元统计分析方法已广泛应用于教育管理的各个领域。多元统计分析是利用数理统计研究多元问题的理论和方法。它是单变量统计的推广。在许多教育问题中，教育现象涉及的不是一个变量，而是多个变量，而这些变量之间存在一定的关系，需要处理多个变量的观测数据。如果采用单变

3、量统计方法，则需要分别分析多个方面，一次分析一个方面，而忽略各个方面之间的相关性。会丢失很多信息，分析结果不能客观、全面地反映情况。多元统计分析方法主要包括线性回归分析法、判别分析法、聚类分析法、主成分分析法、因子分析法、对应分析法、典型相关分析法和最小二乘回归分析法。这里主要结合偏最小二乘回归分析方法和实际案例，对最常用的回归分析方法、聚类分析方法、主成分分析方法、因子分析方法进行分析总结。最后，总结了每种方法使用的字段。多元线性回归分析法多元线性回归分析原理介绍将变量按照相关性的大小进行分组，使得同组变量之间的相关性高，而不同组变量之间的相关性低。因子分析的目的是减少变量的数量，用少数几个

4、因子代替所有变量来分析整个问题。多元线性回归案例叙述分析公路客货流量多元线性回归预测方法探讨1. 背景近年来，道路客货运量的 HYPERLINK %20%20%20%20:/wiki.mbalib%20%20%20%20/wiki/%E5%AE%9A%E9%87%8F%E9%A2%84%E6%B5%8B o 定量预测定量预测在我国道路运输领域得到广泛开展， HYPERLINK %20%20%20%20:/wiki.mbalib%20%20%20%20/wiki/%E5%85%AC%E8%B7%AF%E8%BF%90%E8%BE%93 o 公路运输有力地推动了道路运输 HYPERLINK %

5、20%20%20%20:/wiki.mbalib%20%20%20%20/wiki/%E5%85%AC%E8%B7%AF%E8%BF%90%E8%BE%93 o 公路运输经营决策的科学化和现代化。 HYPERLINK :/wiki.mbalib /wiki/%E7%BB%8F%E8%90%A5%E5%86%B3%E7%AD%96 o 经营决策公路客货运量的定量预测方法有很多。本文主要介绍多元线性回归法在公路客货运量预测中的具体操作。根据笔者先后参与的部、省、市科研项目的实践证明，多元线性回归法是一种有效的、高置信度的公路客货运预测方法。2. 多元线性回归预测线性回归分析基于相关原理。相关性

6、原理是预测的基本原理之一。因为公路客货运输受社会经济因素的综合影响。因此，多元线性回归预测首先是建立高速公路客货运量及其相关影响因素的线性关系的数学模型 HYPERLINK :/wiki.mbalib /wiki/%E6%95%B0%E5%AD%A6%E6%A8%A1%E5%9E%8B o 数学模型。然后，通过预测各影响因素的未来值，计算出道路客货运量的预测值。三、公路客货流量多元线性回归预测方法的实施步骤：影响因素的确定影响道路客货流量的因素很多，包括以下几个因素：（一）影响客运量的因素人口增长量、 HYPERLINK %20%20%20%20:/wiki.mbalib%20%20%20%

7、20/wiki/%E5%9B%BD%E6%B0%91%E7%94%9F%E4%BA%A7%E6%80%BB%E5%80%BC o 国民生产总值国民生产总值、国民总 HYPERLINK %20%20%20%20:/wiki.mbalib%20%20%20%20/wiki/%E5%9B%BD%E6%B0%91%E6%94%B6%E5%85%A5 o 国民收入收入、工农业产值、 HYPERLINK %20%20%20%20:/wiki.mbalib%20%20%20%20/wiki/%E5%9F%BA%E6%9C%AC%E5%BB%BA%E8%AE%BE%E6%8A%95%E8%B5%84 o

8、基本建设投资基本建设投资、城乡居民储蓄、铁路和水运客运量等。(2) 影响货运量的因素载货车（含拖拉机）人口、 HYPERLINK %20%20%20%20:/wiki.mbalib%20%20%20%20/wiki/%E5%9B%BD%E6%B0%91%E7%94%9F%E4%BA%A7%E6%80%BB%E5%80%BC o 国民生产总值国民生产总值、 HYPERLINK %20%20%20%20:/wiki.mbalib%20%20%20%20/wiki/%E5%9B%BD%E6%B0%91%E6%94%B6%E5%85%A5 o 国民收入国民收入、工农业总产值、 HYPERLINK

9、 %20%20%20%20:/wiki.mbalib%20%20%20%20/wiki/%E5%9F%BA%E6%9C%AC%E5%BB%BA%E8%AE%BE%E6%8A%95%E8%B5%84 o 基本建设投资基本建设投资、主要工农业产品产量、 HYPERLINK %20%20%20%20:/wiki.mbalib%20%20%20%20/wiki/%E7%A4%BE%E4%BC%9A%E5%95%86%E5%93%81%E8%B4%AD%E4%B9%B0%E5%8A%9B o 社会商品购买力社会商品购买力、 HYPERLINK %20%20%20%20:/wiki.mbalib%20

10、%20%20%20/wiki/%E7%A4%BE%E4%BC%9A%E5%95%86%E5%93%81 o 社会商品社会商品零售总额。铁路和水路货运等上述影响因素只是一般性的，在针对具体研究对象时会增加或减少。因此，模型的建立只需要包含重要的影响因素，非重要的因素可以不包含在模型中。如果忽略一些重要的影响因素，预测结果就会失真。此外，影响因素太少会导致模型过于敏感。相反，如果将非重要因素包含在模型中，则会增加计算量，使模型的建立复杂化，并增加 HYPERLINK %20%20%20%20:/wiki.mbalib%20%20%20%20/wiki/%E9%9A%8F%E6%9C%BA%E8%

11、AF%AF%E5%B7%AE o 随机误差随机误差。影响因素的选择是建立预测模型的第一个关键环节，可以采用定性和定量相结合的方法进行。影响因素的确定可以通过 HYPERLINK %20%20%20%20:/wiki.mbalib%20%20%20%20/wiki/%E4%B8%93%E5%AE%B6%E8%B0%83%E6%9F%A5%E6%B3%95 o 专家调查法专家调查法进行，目的是充分发挥专家的聪明才智和经验。具体办法是 HYPERLINK %20%20%20%20:/wiki.mbalib%20%20%20%20/wiki/%E8%BF%90%E8%BE%93%E7%AE%A1%

12、E7%90%86 o 运输管理对本地区长期从事道路运输企业和交通管理部门的领导干部、专家、工作人员和专家进行调查。会议可以通过组织举行。也可以通过访谈、填写 HYPERLINK %20%20%20%20:/wiki.mbalib%20%20%20%20/wiki/%E8%B0%83%E6%9F%A5%E8%A1%A8 o 调查表问卷等方式，选择主要影响因素进行。为了避免影响因素确定的随机性，提高回归模型的准确性，减少预测的工作量，可以检查相关的 HYPERLINK %20%20%20%20:/wiki.mbalib%20%20%20%20/wiki/%E7%BB%9F%E8%AE%A1%E

13、8%B5%84%E6%96%99 o 统计资料统计数据，进而分析影响因素。对因素进行相关（或相关）和共线性分析，以重新筛选出最重要的影响因素。所谓相关分析，就是确定 HYPERLINK %20%20%20%20:/wiki.mbalib%20%20%20%20/wiki/%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0 o 相关系数各影响因素的时间序列与公路客货运量时间序列的相关系数，剔除相关系数较小的影响因素。相关度是灰色 HYPERLINK %20%20%20%20:/wiki.mbalib%20%20%20%20/wiki/%E7%B3%BB%E7%BB%9F

14、%E7%90%86%E8%AE%BA o 系统理论系统理论中事物发展变化过程中各种因素之间的相关程度。空空公路客货运量与各影响因素之间的相关系数矩阵可根据一定的标准系数舍弃相关度。小的影响因素。所谓共线性是指某些影响因素之间存在线性关系或接近线性关系。由于道路运输经济本身的特点，影响道路客货运量的诸多因素之间总是存在一定的相关性，是 HYPERLINK %20%20%20%20:/wiki.mbalib%20%20%20%20/wiki/%E5%9B%BD%E6%B0%91%E7%BB%8F%E6%B5%8E o 国民经济关系到国民经济的一些价值型指标。4. 建立经验线性回归方程利用最小

15、二乘法原理求误差平方和为一个小的经验线性回归方程：y - 预测的客运和货运量g主要影响因素5. HYPERLINK %20%20%20%20:/wiki.mbalib%20%20%20%20/wiki/%E6%95%B0%E6%8D%AE%E6%95%B4%E7%90%86 o 数据整理数据组织对历年收集的客货运输统计数据及主要影响因素进行审查和处理的目的是确保预报工作的质量。数据整理主要包括以下内容：(1)数据的补偿和计算。(2)对不可靠信息进行核实和调整。对识别原因的异常值进行更正。(3) HYPERLINK %20%20%20%20:/wiki.mbalib%20%20%20%20/w

16、iki/%E8%A7%84%E8%8C%83%E5%8C%96 o 规范化对时间序列中不可比的数据进行调整和标准化；以当年价格计算 HYPERLINK :/wiki.mbalib /wiki/%E4%BB%B7%E5%80%BC%E6%8C%87%E6%A0%87 o 价值指标的 HYPERLINK %20%20%20%20:/wiki.mbalib%20%20%20%20/wiki/%E5%BD%93%E5%B9%B4%E4%BB%B7%E6%A0%BC o 当年价格价值指数应换算为标准。6. 多元线性回归模型的参数估计在经验线性回归模型中，它是要估计的参数，可以通过数理统计理论建立模

17、型来确定。在实际预测中，可以使用多元线性回归和多元相关分析的计算机程序来检验模型参数的估计值。这项工作的目的是确定估计是否令人满意和可靠。一般检查工作必须从以下几个方面进行。(1) 经济意义检验(2) 统计检验(3) 拟合测试(4) 回归方程的显着性检验标准差检验 HYPERLINK :/wiki.mbalib /wiki/%E6%A0%87%E5%87%86%E5%B7%AE o 标准差应该强调。统计检验仅次于经济显着性检验。如果经济显着性检验不合理，那么即使统计检验可以达到很高的置信度，也应该放弃这样的估计，因为用这样的结果来进行经济预测是没有意义的。7. 最优回归方程的确定经过上述经济

18、显着性和统计检验后，往往会选出几个线性回归方程。为了选择实际预测的方程，我们可以采用定性和定量相结合的方法。从数理统计的原理来看，方程的残差均方和 SE 最好选择尽可能小。但是，作为经济预测，我们必须尽量考虑方程中的影响因素更现实，其未来值更容易把握的原则。当然，有时也可以从中选出几个较好的回归方程。预测通过后，作为不同的高、中、低方案供决策者选择。8.模型的实际预测测试在得到模型参数的估计值后，经过上述一系列检验，选择最优（或更好）的回归方程，还必须检验模型的预测能力。不难理解，最优回归方程对于样本期是正确的，但是否适合实际预测呢？为此， HYPERLINK %20%20%20%20:/wi

19、ki.mbalib%20%20%20%20/wiki/%E6%A0%B7%E6%9C%AC%E5%AE%B9%E9%87%8F o 样本容量还必须研究参数估计的稳定性和对样本量变化的敏感性。必须进行研究以确定估计模型是否可用于样本观察之外的国家，具体而言是：(1)将增加样本量后的模型估计结果与原始估计结果进行比较，检验差异的显着性。(2)使用估计模型对样本外的某时刻进行实际预测，将预测值与实际观测值进行比较，然后检验差异的显着性。9.模型的应用公路客货运量多元线性回归预测模型的研究目的主要包括以下几个方面。（1）开展结构分析，研究影响本区道路客货运量的主要因素及各影响因素的影响程度，进一步探

20、索本区道路交通经济理论。（2）预测未来区域内道路客货运量变化， HYPERLINK %20%20%20%20:/wiki.mbalib%20%20%20%20/wiki/%E9%A1%B9%E7%9B%AE%E6%8A%95%E8%B5%84 o 项目投资为正确决策道路交通市场、道路交通政策和道路交通配套建设项目投资提供理论依据。此外，还可以通过公路客运。货运量与道路交通量相关，可预测道路饱和的发展趋势。从而为公路新建、扩建项目的投资提供决策分析。(3) 模拟 HYPERLINK %20%20%20%20:/wiki.mbalib%20%20%20%20/wiki/%E7%BB%8F%E6%

21、B5%8E%E6%94%BF%E7%AD%96 o 经济政策各种经济政策的经济效果， HYPERLINK :/wiki.mbalib /wiki/%E7%BB%8F%E6%B5%8E%E6%95%88%E6%9E%9C o 经济效果以评估相关政策。4、经调查分析，影响某区域客流量的因素有：x 1 - 国民收入x 2 工农业总产值x 3 - HYPERLINK %20%20%20%20:/wiki.mbalib%20%20%20%20/wiki/%E7%A4%BE%E4%BC%9A%E6%80%BB%E4%BA%A7%E5%80%BC o 社会总产值社会总产值x 4 - 人口x 5 乘用车

22、数量x 6城乡居民 HYPERLINK %20%20%20%20:/wiki.mbalib%20%20%20%20/wiki/%E5%82%A8%E8%93%84%E5%AD%98%E6%AC%BE o 储蓄存款储蓄存款计算如下相关系数表： 1 2 3 4 5 6是0.94390.92 87O.90 430.99140.96700.7021Z0.97 3 60.96l4O.932 6O.8645O.93210.6678Y乘客盈余Z - 乘客周转率x 6可以舍弃，即认为“城乡居民储蓄存款”不能作为影响客运量的主要因素。2、经调查分析，影响某区域客流量的因素有：x 1 - 国民收入x 2 工农业

23、总产值x 3 - 社会总产值x 4 - 人口x 5 乘用车数量x 6 - 国民生产总值x 7 - 行驶里程计算的客流量和客流量的经验线性回归方程如下：Y = 0 + 1 x 1 + 2 x 2 + 5 x 5 R 2 = 0.9997R 2 = 0.9962Z = 0 + 4 x 4 + 5 x 5 + 7 x 7 R 2 = 0.9983R2 = 0.9990Y乘客盈余Z - 乘客周转率每个变量的相关系数表如下：从以上计算可以看出，四个方程中不存在r i j R 2的情况。因此，可以认为各方程的影响因素之间不存在严重的共线性问题。3、经调查分析，影响某区域货运周转的因素有：x 1 - 国民收

24、入x 2 工农业总产值x 3 基础设施投资金额x 4 - 原煤产量x 5 钢铁、化肥、水泥、粮食的总产量x 6 - 国民生产总值x 7 社会商品零售总额x 8 相邻地区和城市工农业产值的平均值Y = a 0 + a 4 x 4 + a 6 x 6 + a 7 x 7 (1)其中： R 2 = 0.9875F=206.33 SE=1673.24t 4 =-2.8321 t 6 =3.1407 t 7 =2.7431Y = b 0 + b 2 x 2 + b 4 x 4 (2)其中： R 2 = 0.9764F=164.59 SE=1044.27(3) 多元线性回归分析法在社会中的应用从以上案例分

25、析可以看出，多元线性回归分析方法通过线性约束等条件对一个事物进行多次分析和处理，最终可以过滤掉影响这个事物发展的因素。这样，通过多元线性回归分析，可以为一个事物优化资源配置，在交通运输领域更加实用。聚类分析法聚类分析法原理介绍聚类分析是研究事物分类的一种方法，就是将一组样本或变量按其在自然界中的接近程度进行分类。本质是将数据按照距离划分为几个类别，使类别数据的差异尽可能小，类别之间的“差异”尽可能大。聚类分析包括：层次聚类法、费用层次聚类法、智能聚类法等多种详细方法。（2）聚类分析案例叙述分析1.问题的提法随着我国市场 HYPERLINK %20%20%20%20:/%20%20%20% 经济

26、建设的 HYPERLINK %20%20%20%20:/%20%20%20% 发展，人们的 HYPERLINK %20%20%20%20:/%20%20%20% 理财意识和投资意识日益增强。股票市场作为市场经济的组成部分，正逐步走向成熟和规范。越来越多的投资者将注意力转向股票。， HYPERLINK %20%20%20%20:/%20%20%20% 历史证明，股票是一种投资媒介，过去不仅为投资者提供了可观的长期收益，而且在未来也将提供良好的机会。然而，股票价格波动，股票市场不可预测。投资者要想在股市投资中获得丰厚的投资回报，成为一名成功的投资者，就必须认真研究上市公司的历史、业绩和发展前景，

27、详细分析。上市公司财务状况，建立以基本面分析为基础，技术分析为补充的投资理念，找出具有真实投资价值的股票，进行长期投资。股票投资的基本分析分为宏观分析、中观分析和微观分析三个部分。宏观分析是指对一个国家的国民经济、 HYPERLINK %20%20%20%20:/%20%20%20% 政治和文化的分析，微观分析是指公司分析，中观分析主要是指行业分析。还有区域分析等，板块分析主要属于细观分析，还有微观分析。 HYPERLINK %20%20%20%20:/%20%20%20% 中国股市从无到有，发展到相当规模。几年前中国股市发展初期，由于市场规模小，上市公司数量少，投资者的投资思维和操作方法不成

28、熟，投机性很强，此时没有太多的行业分析。但是，随着股市的发展，投资方式和证券监管方式的成熟，以及上市公司数量的不断增加，如果和以前一样，面对千千万万只股票，他们会随意喘口气，试试运气，甚至被各种股票评级。谣言难以理顺，也难以最终取得投资成功。因此，在成熟的股市中，投资者要想成功，就必须学习板块分析，习惯理性操作，树立板块投资理念。2 、聚类分析在股市板块分析中的应用系统发育聚类分析的基本思想是先将每个样本看成一个类，然后根据样本之间的相似程度对样本进行组合， HYPERLINK %20%20%20%20:/%20%20%20% 计算新的类与其他类的距离，然后选择相似的类和将它们结合起来。一次减

29、少一个类，并继续此过程，直到所有样本合并为一个类。在聚类过程中，我们使用欧几里得距离来衡量类之间的相似度，聚类方法采用类平均法。我们以31家高科技领域上市公司为研究对象，选取这31家上市公司1997年的每股收益、每股净资产、股东权益比率、净资产收益率和净利润率。是反映上市公司综合盈利能力的指标，数据取自4（略）。使用SAS软件中的系统聚类过程CLUSTER对31个样本进行聚类，得到如表1所示的聚类过程。表1中，NCL为簇数； Clusters Joined 是每次聚类成一个新类的 2 个样本（标记为 OB）或老类（标记为 CL）； FREQ 是新类中包含的样本数； SPRSQ是Semi-par

30、tial R2，表示每次合并的信息丢失程度。查看该列中的值，可以看出从 4 个类别合并为 3 个类别时，信息损失（0.1042）最大。该统计数据表明，将其分为 4 类更为合适； CCC NCL=4时唯一峰值-2.49，支持4类； PSF是一个伪F统计量，PSF的峰值对应的类别数比较合适。 =12，4次达到峰值时NCL=9和NCL=4，但NCL=4时峰值更陡； PST2是t2统计量，PST2峰值前的行对应的类别数比较合适，从这一列NCL=3的值显示峰值为9.8，也支持4个类别。结合这四个统计数据，我们可以看到将 31 个样本分为 4 类更为合适。根据表1，制作了图1所示的聚类谱系图。当我们将分类

31、阈值设为 1.0 时，将 31 个样本划分为各类包含样本如下：第一类：OB18（磁卡）、OB29（燕华高科）；第二类：OB22（深科技）、OB15（实达电脑）、OB10（清华同方）、OB12（东大阿派）、OB14（长城电脑）、OB31（风华高科）、OB17（通讯）；第三类：OB1（华光科技）、OB26（照明）、OB4（国脉通信）、OB8（工大高科）、OB11（振华科技）、OB21（彩虹股份）；第四类：OB2（冰箱压缩）、OB19（同济科技）、OB20（华东电脑）、OB9（长安信息）、OB23（中科健）、OB16（翔 HYPERLINK %20%20%20%20:/%20%20%20% 电脑）、

32、OB30（贝特高科）、OB6（南方）华西）、OB28（华强）、OB7（信达）、OB25（华谊压缩）、OB27（广东TCL）、OB3（富华实业）、OB5（南洋实业）、OB13（ HYPERLINK %20%20%20%20:/%20%20%20% 中国高科）、OB24（申华远））。一、二类公司在业务规模、经营实力、技术水平等方面具有一定优势，竞争力强，经营业绩优良，综合财务状况良好。是高科技板块的蓝筹龙头股，具有可观的 HYPERLINK %20%20%20%20:/%20%20%20% 发展潜力和长期投资。价值是高科技领域投资者的首选投资对象。其中，第一类磁卡和燕华高科1997年净利润率为4

33、5.86%和44.32%，净利润增长率分别为93.6%和96.95%，盈利能力远大于其他公司。第四类公司业绩一般。投资者应谨慎介入，多观望。聚类分析法在社会中的应用从以上案例可以看出，聚类分析可以整合多个财务指标来反映上市公司的盈利能力和水平，得到的聚类结果与公司的实际财务和经营状况相吻合。我们还可以对每个选定板块的领先潜力股进行聚类分析，找出最强大的板块领先股。因此，聚类分析法适用于分析一些企业在社会上的盈利能力和水平，在经济类中更为突出。主成分分析主成分分析原理介绍主成分分析是将多个指标转化为几个综合指标的统计方法。相关主成分分析的应用目的是数据压缩和数据解释。常用于寻找判断某一事物或现象

34、的综合指标，并对综合指标所包含的信息进行适当的解释，从而更深刻地揭示。事情的顺序。主成分分析案例叙述分析中学生四项体质指标的主成分分析随机抽取某年级30名学生，测量身高（ X1 ）、体重（ X2 ）、胸围（ X3 ）和坐高（ X4 ）。数据如下。对30名中学生的四项体质指标数据进行主成分分析。X1X2X3X4X1X2X3X411484172781615235737921393471761714947827931604977861814535707741493667791916047748751594580862015644788561423166762115142738271534376832

35、2147387378815043777923157396880915142778024147306575101393168742515748808811140296474261513674801216147788427144366876131584978832814130677614140336777291393268731513731667330148387078数据相关矩阵的主成分分析，我们有 pr.stud 摘要(pr.stud,loadings=TRUE)组件的重要性：比较 1 比较 2 比较 3 比较 4标准差 1.8817805 0.55980636 0.28179594 0.25

36、711844方差比例 0.8852745 0.07834579 0.01985224 0.01652747累计比例 0.8852745 0.96362029 0.98347253 1.00000000载荷：比较 1 比较 2 比较 3 比较 4X1 -0.497 0.543 -0.450 0.506X2 -0.515 -0.210 -0.462 -0.691X3 -0.481 -0.725 0.175 0.461X4 -0.507 0.368 0.744 -0.232其中，标准差是主成分的标准差，即方差的平方根，即对应特征值的平方根。 Proportion of Variane表示方差贡献率，

37、 Cumulative Proportion表示累积方差贡献率。 Loadings=FALSE或默认不列出loadings 。分析：从主成分分析结果可以看出，前两个主成分的累积贡献率高达96%，选择了两个主成分。第一主成分对应系数的符号都相同，其值在0.5左右，反映了中学生的粗壮程度。对于高个子的学生来说，他的四个部分的大小比较大，所以第一主成分的值比较小。对于身材矮小的学生，他的四个部分比较小，第一主成分的值比较大。第一个主成分是尺寸因子。第二个主成分是高度和周长之间的差异。较大的表示学生高大苗条，而较小的则称为“矮胖” 。第二个因素称为形状因素。查看每个样本的主成分值绘制第一个主成分的散点

38、图，可以看出10、11、15、29的值较大，说明学生瘦小，而3、5、25的值较小，说明学生更高。预测（pr.stud）-分数情节（1:30，得分，1）情节（1:30，得分，2）从这张照片中不难看出，那些学生身材高大魁梧，比如25号学生、 3号和5号学生，而那些又高又瘦的学生，比如23号、 19号、 4号学生等等。主成分分析法在社会中的应用根据主成分分析的定义和性质，我们一般可以看到一些主成分分析的应用。综上所述，主成分分析主要有以下应用。1 .主成分分析可以降低所研究数据空间的维数。即用m维Y空间代替p维X空间(m p) ，用低维Y空间代替高维X空间，信息丢失很少。也就是说，即使只有一个主成分

39、Yl（即m = 1），这个Yl仍然是使用所有X变量（p ）得到的。例如，要计算Yl的平均值，还必须使用所有x的平均值。在选取的前m个主成分中，如果某个Xi的系数都近似为零，则可以删除这个Xi，这也是一种删除冗余变量的方法。2.有时可以通过因子载荷aij的结构来阐明X变量之间的一些关系。3. 多维数据的图形表示。我们知道，当维数大于3时，几何图形是无法绘制出来的，而多元统计研究的问题大多是3个以上的变量。用图形表示研究问题是不可能的。但是，经过主成分分析后，我们可以选择前两个主成分或其中的一些，根据主成分的得分，在一个二维平面上绘制n个样本的分布，从图形。找出每个样本在主成分中的位置。4.通过主

40、成分分析构建回归模型。即每个主成分都作为一个新的自变量代替原来的自变量x进行回归分析。5.通过主成分分析筛选回归变量。回归变量的选取具有重要的现实意义。为了使模型本身易于进行结构分析、控制和预测，最好从原始变量组成的子集中选择最佳变量，形成最佳变量集。通过使用主成分分析过滤变量，可以用较少的计算量选择数量，并获得选择最佳变量子集的效果。五、因子分析法（一）因子分析原理简述因子分析在一定程度上可以看作是主成分分析的延伸和发展。它更深入地研究了这个问题，研究了相关矩阵或协方差矩阵的部分依赖关系。将多个变量组合成几个因子，再现原始变量与因子之间的相关性，也是多元统计分析中降维的一种方法。因子分析是通

41、过研究多个变量之间的相关系数矩阵的部分依赖关系，找出能够综合所有变量的少数随机变量。这些随机变量是不可测量的，通常称为因子。但是，它们是根据自然界的亲密程度来分类的。本质是将数据按照距离划分为几个类别，使类别数据的差异尽可能小，类别之间的“差异”尽可能大。（2）因子分析案例叙述分析众所周知，建立套利定价模型的关键在于因素的选择，这需要大量的计算。因子分析可以将大量的原始指标变量分析合成为几个公因子变量，从而大大降低了计算复杂度。本文采用因子分析的方法对11个因子进行筛选，确定4个能很好地反映所有因子所包含信息但互不相关的公因子变量，建立套利定价模型。通过因子筛选建立的套利定价模型具有较好的定价

42、效果。一、问题的表述1976年，斯蒂芬罗斯提出了著名的资产定价模型套利定价理论（APT）。该理论假设任何风险证券的收益都受 K 因子的影响，这由 K 因子线性模型给出：ri=ai+kk=1bikfk+i, i= 1 , 2, ., n(1) 其中： E(i)=E(fk)=E(ij)=E(ifk)=0； E(2i)=s2iS2； ri 是第 i 个风险证券的收益率； ai 表示当所有影响风险证券收益率的因素均为零时，风险证券 i 的平均收益率； fk 表示第 k 个因子的值； bik 表示风险证券 i 对第 k 个因子的敏感度； i 是随机扰动项。在没有渐进套利机会的情况下，可以从K因子线性模

43、型套利定价模型（APT）中得到如下近似定价模型：E(ri)=ai0+Kk= 1b ikk (2) 其中k称为风险证券i对第k个因子的风险溢价。如果误差写成viai-0-Kk=1bikk，那么当没有渐近套利机会时，有limn1nni=1v2i= 0。建立套利定价模型的关键在于因素的选择。但是，风险证券的收益率受很多因素的影响，我们不知道构建一个 APT 需要多少因素。假设影响一个证券收益率的因素有n种，那么可能有n= 1Cmn种因素的组合。从这么多因素组合中筛选出最优的因素组合，计算量可想而知。一般来说，因素的识别和确定有两种基本方法：统计方法和推理方法。统计方法包括从一组全面的资产收益中识别

44、因子（通常远远超过用于估计和测试的样本资产收益），并使用这些收益的样本数据来构建代表因子的投资组合，如 Connor 和 Korajczyk (1988)、Lehmann 和Modest（1988），前者采用因子分析法，后者采用主成分分析法。推理方法基于捕捉经济系统风险的原则来识别因子，例如Fama和French（1988，1996）利用企业特征构建因子组合。在这类研究中，股票分组后，首先对每组股票进行因子分析，估计影响股票收益的因素数量，估计每只股票的因子载荷；对估计的因子载荷进行横截面回归，估计因子的风险溢价，进而检验多因子模型的适用性。另外，由于APT认为股票收益的风险可以分为可分散风险

45、和不可分散风险，因此可分散风险部分的均值为零，在大样本中可以忽略不计，而不可分散风险部分为由 K 个公因子确定，并通过 K 个因子系数反映股票收益与各非零风险溢价之间的关系。然而，在现实中，一个变量本身可能与不可分散风险无关（即它不应该作为一个因素出现），而是在 APT 模型中定价不当而成为一个共同因素。虽然根据实际数据生成的因子模型通过了显着性检验，但不能确定这些因子是不可分散风险的溢价，也不排除可分散风险成为公因子的可能性。鉴于此，我们有必要对APT进行“自方差”检验。这里使用的“自方差”只是一个强调的说法，其本质是资产收益的方差从长远来看，证券收益的自方差总是与平均收益率有很高的相关性，

46、并且自方差对于每个证券都是唯一的，并且是可分散的风险。如果 APT 是有效的，那么单个证券的自方差不应该对预期收益起作用，因为 APT 认为只有不可分散的风险在定价中起作用并且可以成为定价因素。 “自方差”检验是为了证明个股收益的自方差是否为公因子，能否用于定价，是否接受或拒绝APT。有鉴于此，他们还使用“自方差”检验来补充多因素模型。研究。迄今为止，我国关于套利定价理论因素确定的研究还不多，主要是利用多元线性回归构建套利定价模型。这种方法计算量大，包含的因素太多或不完整。它们之间的相关程度很高。因子分析是一种常用的统计降维技术，它可以利用原始指标变量中某些指标之间的相关性，对多元面板数据进行

47、优化合成和简化，将大量指标合成为几个共同的因子，反映大部分信息减少了公因子变量的原始指标变量，从而大大降低了分析问题的难度。2.使用因子分析来确定APT中的因子组合在现有研究中，普遍认为APT中至少存在三种不同类型的因素：反映整体经济活动的指标、通货膨胀率和某些类型的利率因素。有鉴于此，本文对全社会国民生产总值、工业生产总值、第二产业国内生产总值、第三产业国内生产总值、国民消费水平、通货膨胀率、固定资产投资增长率、和消费品零售总额。、总货币供应量、全年净出口贸易总额、利率期限结构等11个因子作为原始指标变量，采用中国统计年鉴1980-200 =3年的数据进行因子分析。( 1 )原始指标变量的

48、相关性分析因子分析是从大量的原始指标变量中构造出几个有代表性的公因子变量。它要求原始指标变量之间具有较强的相关性，否则无法全面反映某些变量的共同特征。原始指标变量不适用于因子分析。因此，在进行因子分析之前，需要对原始指标变量进行相关性分析。本文使用 KMO（Kaiser-Meyer-Olkin）检验和 Bartlett 球形检验。统计量 KMO 的值为 0.771，大于 0.6。根据统计学家Kaiser给出的标准，原始指标变量适合因子分析； Bartlett球形检验给出的自由度为55的卡方近似值为780.924，相关概率为0.000，小于显着性水平0.05，适合因子分析。根据KMO检验和Bar

49、tlett球形检验结果，原始指标变量适合进行因子分析。同时，本文还对11个原始指标变量进行了反射图像相关矩阵检验。在反射图像相关矩阵中，所有偏相关系数的绝对值均小于0.05，说明所有原始指标变量都适合进行因子分析。 .( 2 )构造公因子变量构造公因子变量是因子分析的核心问题。因子分析中公因子变量的确定方法很多，本文采用主成分分析法。确定保留公因子变量的个数根据公因子变量及其特征值的散点图（图1）可以看出，前四个公因子变量的特征值变化非常显着，从8.744到0.126，从第五个公因子变量开始， Changes 的特征值趋于平稳。这说明前四个公因子变量的提取对原始指标变量的信息描述有显着影响。为

50、了得到更准确的APT，本文决定保留4个公因子变量。. 因子分析的效果因子分析的最终解法解释了每个原始指标变量的99.5%以上的方差，每个原始指标变量的共同度几乎都在98%以上，非常接近于1，也就是说所承载的信息由原始指标变量不能小于 2% 由公因子变量解释。这说明提取的公因子变量基本反映了原指标变量的全部信息，只有少量信息丢失。可以看出，因子分析的效果非常好。. 因子提取和因子轮换结果（表略）根据公因子变量散点图及其特征值的判断，提取四个公因子变量来描述整体的原始指标变量。这 4 个公因子变量的方差贡献（特征值）分别为 8.744、1.348、0.729 和 0.126。在11个公因子变量组成

51、的初始解中，前4个公因子变量解释了原指标变量总方差的99.522%，尤其是第一个公因子变量，解释了11个原指标变量总方差的79.490% .因子旋转后，这四个公因子变量的特征值分别为8.444、1.231、1.102和0.171，可以解释原指标变量的76.192%、11.194%、10.014%和1.552%，共解释了11个原变量.指标变量总方差的 99.522%。可以看出，提取的4个公因子变量几乎反映了原指标变量的全部信息，可以替代11个原指标变量构建多因子线性模型。从以上分析可以看出，第一个公共因素变量主要反映一个国家的整体经济水平，第二个公共因素变量主要反映通货膨胀率，第三个公共因素变量

52、反映固定资产投资的增长率。整个社会，第四个公因子变量反映了利率的期限结构。由此可见，风险证券的预期收益率主要与国家整体经济水平有关，也与国家通货膨胀率、全社会固定资产投资增速、期限等有关。利率结构。统计分析表明，这四个公因子变量都是均值为0，方差为1的随机变量，它们之间完全没有相关性。因此，它非常适合作为 APT 的一个因素。3. APT的实证检验通过以上分析，确定了国家整体经济水平、通货膨胀率、全社会固定资产投资增速、利率期限结构等4个公共因素变量，11个原始指标变量的年度数据1980年至2003年是通过公共因素得分获得的。计算这四个公因子变量的对应值。为构建套利定价模型，本文首先根据公式（

53、1）分别选取广电电子、爱视、华远药业、方正科技等10只股票1995-2005年的年收益率作为解释变量。 .以公因子变量对应的1995-2005年数据作为解释变量，进行多元线性回归，得到每只股票的ai 、b i1 、b i2 、b i3 、b i4 ；则根据式(2)，其中a i为被解释变量，b ik (k=1, 2, 3, 4) 为被解释变量。再次进行多元线性回归得到套利定价模型： a i=0.189-1.051 1+0.02067 2-0.0233 3 -0.238 4 (3)在式(3)中，我们注意到：一方面，风险证券 i 对通货膨胀率的敏感性仅为正，即风险证券 i 对通货膨胀率的风险溢价越大

54、，证券的预期收益率越高；另一方面，风险证券i对国家整体经济水平、全社会固定资产投资增速和利率期限结构的敏感性均为负数，即风险证券i的敏感性对通货膨胀率是负的。证券的风险溢价越大，证券的预期收益率越小。为了检验本文得到的套利定价模型的效果，本文还选取了ST兴业、豫园商城、金杯汽车、深达盛、ST易安等10只股票，采用公式（3）对其进行定价.模型预测值和实际平均收益的差异作为评估模型的标准。由于 APT 只是一种近似定价模型，应用于个股时可能存在较大误差，因此通常用于为投资组合定价。因此，本文构建了上述十只股票的简单等权组合，并用y=1n ni=1 (r i predict-r i actual)

55、2来衡量误差，计算结果为y=0.129。实证检验表明，本文得到的套利定价模型为（3）具有较好的定价效果，但仍存在12.9%的定价误差。本文认为可能是由以下原因造成的：我国宏观经济指标统计起步较晚，许多宏观经济指标数据不完整，统计标准不一致，2000年以前的宏观经济指标基本只有年度数据，导致可用的样本数据太少。同时，由于宏观经济指标使用年度数据，为了与之对应，股票收益率只能使用年度数据，而我国股市只有12年左右的历史，进一步造成样本量最多为 12 个。在构建 APT 时，为了尽可能扩大样本量，本文只选取了 10 年左右历史的股票，导致股票数量少，类别相对单一。因此，在回归分析中，回归方程的显着性

56、和拟合优度可能不高（在使用回归分析得到APT的过程中，确实发现一些回归方程的显着性和拟合优度较低），最终导致预测结果出现较大误差。本文认为，通过更好的样本数据，我们可以进一步降低 APT 的定价误差。（3）因素分析法在社会中的应用通过引入因子分析法，对国民生产总值、全国居民消费水平、全社会固定资产投资总额、通货膨胀率、利率期限结构等11个因子进行综合简化，得出具有明显经济意义的4个因子。提取。公共因素反映了国家整体经济水平、通货膨胀率、全社会固定资产投资增速和利率情况。相关统计分析表明，因子分析提取的四个公因子变量非常有效。本文利用这四个公因子变量构建了套利定价模型，并对模型进行了实证检验。实

57、证检验表明，通过因子分析进行因子筛选得到的套利定价模型具有较好的定价效果。因此，因子分析法可以很好地应用于股票市场等经济领域。6.偏最小二乘回归分析法（一）偏最小二乘回归分析法原理介绍偏最小二乘判别分析（PLS- DA ）是一种鲁棒的判别分析统计方法，特别适用于解释变量数量多且存在多重共线性、样本观测数量少、干扰噪声大的情况，这种情况极为常见在基因微阵列表达谱数据中。偏最小二乘判别分析首先用虚拟变量处理样本类别，使用克罗克符号，即：然后，使用偏最小二乘回归建立解释变量和响应变量（虚拟变量）之间的关系模型。最后，通过比较模型响应变量的预测值来确定每个样本的类别，即如果某个虚拟变量分量的预测值最大

58、，则确定该样本属于对应的类别虚拟变量。参见图1 。首先，从遗传理论的角度来看，某一类疾病的更具体的特征通常与某些基因表达水平的变化有关，而不是所有基因；解释变量空间的维数过高，导致计算时间和存储容量需求急剧增加另外，使计算变得困难；最后，它受到模型中引入的许多解释变量（基因）的噪声的干扰累积效应的影响也会降低模型的判别效果，影响分类的预测精度和拟合精度。因此，在偏最小二乘判别分析中，更常用的解释变量筛选统计指标是Wold于1994 年提出的预测变量重要性（ VIP）是根据解释变量的影响强度筛选变量，是衡量解释变量对响应变量影响的指标。（类别）解释力的统计。可变投影重要性（VIP）定义如下：式中

59、，whj是第h个主成分的权向量的第一个分量； Rd(Y ; t h )是Y与第h 个主成分之间的决定系数； Rd(Y ; t 1, , t m )是Y和第 1到第 m 个主成分的决定系数之和。统计软件SAS的PLS过程，编译相关宏，完成急性白血病识别模型的构建。（2）偏最小二乘回归分析案例叙述分析Golub 等人的研究。 1999年的研究表明，利用基因微阵列技术构建基于基因表达谱的肿瘤分型预测模型，可为肿瘤诊断提供更客观、更准确的方法。因此，本文采用Golub等人收集的急性白血病基因表达谱数据集。作为实验样本集。该数据集共包含72个样本，每个样本包含7 129个基因的表达数据。通过常规临床诊断

60、和组织学检查，该数据集中的47个样本被诊断为急性淋巴细胞白血病（ALL）， 25个样本被诊断为急性髓细胞白血病（AMI）。由于样本量小，变量多，变量的数量远远超过样本量。为了获得更可靠的白血病分型错误率估计，更好地评估所建立模型的拟合和预测效果， Golub等人也得到了相同的结果。因此，本研究采用以下四个步骤来估计样本分类错误率。1、样本划分：为了使本研究与Golub等人的研究具有可比性，与Golub等人的研究完全一致的样本划分。仍然被采纳。整个数据集分为训练样本集和独立的测试样本集。训练样本集包含急性淋巴细胞白血病（ALL） 27例，急性髓细胞白血病（AML） 11例，测试样本集包含20

人人文库> 全部分类> 应用文书 > 办公表格

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

多元统计分析与Excel应用

文档简介

温馨提示

最新文档

评论

多元统计分析与Excel应用

文档简介

温馨提示

最新文档

评论

相关文档