第一讲多元统计分析概述_第1页
第一讲多元统计分析概述_第2页
第一讲多元统计分析概述_第3页
第一讲多元统计分析概述_第4页
第一讲多元统计分析概述_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、姓 名:许晓晴单 位:经管学院-统计系E-mail: 2022-3-242课程基本信息课程基本信息课程名称:应用多元统计分析课程类别:公共基础必修课(专业必修)先修课程:统计学;线性代数;概率论;高数总 学时:40 总 学分:2时间&地点:1,3,5,7,9周,周一 7-8节 SY2201 1-11,14-17周,周二1-2节 WM1315课程目的:目的在于通过学习,学生能够基本掌握高级统计分析方法,能够运用SPSS统计分析软件对实际问题进行分析,提高解决实际问题能力。 2022-3-243教材及参考资料教材及参考资料n 朱建平主编,应用多元统计分析,科学出版社,2006n 何晓群著,

2、多元统计分析,中国人民大学出版社,2008 n 郭志刚编,社会统计分析方法SPSS软件应用,中国 人民大学出版社,2004nRichard A. Johnson and Dean W. Wichern著,陆璇译,实用多元统计分析(第四版),清华大学出版社,2001n 胡平,崔文田,徐青川编著,应用统计分析教学实践案例 集,清华大学出版社2022-3-244教学内容教学内容u 第一讲 多元分析概述u 第二讲 多元正态分布的参数估计u 第三讲 多元正态分布均值向量和协差阵的检验u 第四讲第四讲 聚类分析聚类分析u 第五讲 判别分析u 第六第六讲讲 主成分分析主成分分析u 第七第七讲讲 因子分析因子

3、分析2022-3-245u 第八讲 相应(对应)分析u 第九讲 典型相关分析u 第十讲 多变量的可视化分析u 自 学 多维标度法教学内容教学内容补充多元统计方法:多元回归多元回归分析分析、多元方差和协方差分析、Logistic 回归、对数线性模型、路径(通径)分析、结构方程模型、事件史分析2022-3-246课程要求课程要求课程形式:课堂讲授+上机作业考核方式:课堂参与+平时作业+考试成绩课堂参与: 出勤率+课堂表现 (5%)平时作业: 计算机实例作业(15%)考试成绩 : 闭卷(80%)第一章 多元分析概述多元统计应用及方法第一节 多元统计分析应用 多元统计分析方法多元统计应用研究及研究方法

4、论第二节计算机在统计分析中的应用第三节 统计分析软件 计算机统计分析步骤2022-3-247第一节第一节 多元统计分析应用及方法多元统计分析应用及方法n何谓多元统计分析?何谓多元统计分析?一元统计分析- 研究一个随机变量一个随机变量统计规律的学科多元-例1:地区经济发展的指标:总产值、利润、效益、劳动生产率、固定资产、物价、信贷、税收等多元-例2:医学诊断:血压、脉搏、白血球、体温等多元统计分析-研究多个随机变量多个随机变量之间相互依赖关系以及内在统计规律性的统计学科。(分类和简化)1. 多元统计分析应用多元统计分析应用n 多元统计分析应用多元统计分析应用问题问题 内容内容 方法及举例方法及举

5、例数据或结构性化简数据或结构性化简 尽可能简单地表示所研究的现尽可能简单地表示所研究的现象,但不损失很多有用的信息,象,但不损失很多有用的信息,并希望这种表示能够很容易的并希望这种表示能够很容易的解释。解释。 多元回归分析、聚类分析、多元回归分析、聚类分析、主成分分析、因子分析、主成分分析、因子分析、相应分析、多维标度法、相应分析、多维标度法、可视化分析可视化分析 分类和组合分类和组合 基于所测量到的一些特征,给基于所测量到的一些特征,给出好的分组方法,对相似的对出好的分组方法,对相似的对象或变量分组。象或变量分组。 判别分析、聚类分析、主判别分析、聚类分析、主成分分析、可视化分析成分分析、可

6、视化分析 变量之间的相关关系变量之间的相关关系 变量之间是否存在相关关系,变量之间是否存在相关关系,相关关系又是怎样体现。相关关系又是怎样体现。 多元回归、典型相关、主多元回归、典型相关、主成分分析、因子分析、相成分分析、因子分析、相应分析、多维标度法、可应分析、多维标度法、可视化分析视化分析 预测与决策预测与决策 通过统计模型或最优准则,对通过统计模型或最优准则,对未来进行预见或判断。未来进行预见或判断。 多元回归、判别分析、聚多元回归、判别分析、聚类分析、可视化分析类分析、可视化分析 假设的提出及检验假设的提出及检验检验由多元总体参数表示的某检验由多元总体参数表示的某种统计假设,能够证实某

7、种假种统计假设,能够证实某种假设条件的合理性。设条件的合理性。 多元总体参数估计、假设多元总体参数估计、假设检验检验 1)在企业经济效益的评价中,涉及到的指标往往很多,如百元固定资产原值实现产值、百元固定资产原值实现利税、百元资金实现利税、百元工业总产值实现利税、百元销售收入实现利税、每吨标准煤实现工业产值、每千瓦时电力实现工业产值、全员劳动生产率、百元流动资金实现产值。如何将这些具有错综复杂关系的指标综合成几个较少的因子,既有利于对问题进行分析和解释,又能便于抓住主要矛盾做出科学的评价。可用主成分分析和因子分析法。(结构简化,相关性)2)研究中国七星瓢虫在黄海、渤海的群聚与近期气象条件的关系

8、。对1000个类似的鱼类样本,如何根据测量的特征如体重、身长、鳍数、鳍长、头宽等,我们可以利用聚类分析方法将这类鱼分成几个不同品种。(简化,分类)3)若考察某商业行业今年和去年的经营状况,这时需要看这两年经营指标的平均水平是否有显著差异以及经营指标之间的波动是否有显著差异。可用多元正态总体均值向量和协差阵的假设检验。(假设检验)4)某医院已有100个分别患有胃炎、肝炎、冠心病、糖尿病等的病人资料,记录了他们每个人若干项症状指标数据。如果对于一个新的病人,当也测得这若干项症状指标时,可以利用判别分析方法判定他患的是哪种病。(分类,预测)5)按现行统计报表制度,农村家庭纯收入是指农村常住居民家庭总

9、收入中扣除从事生产和非生产经营用支出、税款和上交承包集体任务金额以后剩余的、可直接用于进行生产的、非生产性建设投资、生产性消费的那一部分收入。如果我们收集某年各个省、自治区、直辖市农民家庭人均纯收入的数据,可以用相应分析,揭示全国农民人均纯收入的特征以及各省、自治区、直辖市与各收入指标的关系。(变量间关系)第一节第一节 多元统计分析应用及方法多元统计分析应用及方法2. 多元统计分析方法多元统计分析方法n 主要主要的多元统计方法的多元统计方法1)多元回归多元回归;路径(;路径(通径)通径)分析;结构方程模型分析;结构方程模型2)聚类分析聚类分析3)判别分析判别分析4)主成分分析;主成分分析;因子

10、分析因子分析5)典型相关分析典型相关分析6)多元方差分析多元方差分析7)Logistic 回归回归;Logit模型模型8)事件事件史分析史分析9)对应(相应)分析对应(相应)分析第一节第一节 多元统计应用及方法多元统计应用及方法n多元统计方法的多元统计方法的分类分类 1)按照观测数据数据的来源可将分析方法分为两大类:第一类是横贯数据,指的是同一时间、不同案例的观测数据。第二类是纵贯数据,是指同样案例在不同时间的多次观测数据(也称为事史性数据) 2)按变量变量的测度等级(数据类型)划分:一是类别(非测量型)变量,二是数值型(测量型)变量 3)按照分析模型模型的属性划分:一类是因果模型;一类是相依

11、模型。 4)按照模型中因变量的数量划分:一种是单因变量模型;一种是多因变量模型;还有多层因果模型 2. 多元统计分析方法多元统计分析方法第一节第一节 多元统计应用及方法多元统计应用及方法n变量测度等级变量测度等级非测量型(分类)变量- 名义变量&序次变量 例1:性别,男=1,女=2; 教育程度,小学=1,初中=2,高中=3测量型(数值)变量-间距变量(&比率变量) 例2: 温度,身高等等(不一定连续,可以非连续取整)2. 多元统计分析方法多元统计分析方法第一节第一节 多元统计应用及方法多元统计应用及方法n模型类型模型类型因果模型-即在变量中明确设置因变量和自变量的模型,目的在于

12、描述自变量变化如何影响因变量的变化。一层因果模型:单因变量模型;多因变量模型(单方程模型)多层因果模型:结构方程模型相依模型-用以分析变量、案例或类型(变量值)之间的结构关系。2. 多元统计分析方法多元统计分析方法横贯数据:横贯数据: 关系类型关系类型 因果模型因果模型 相依模型相依模型 因变量数因变量数? 变量测度变量测度? 多重因果关系多重因果关系 多因变量多因变量 单因变量单因变量 测量型测量型 非测量型非测量型有否潜在变量有否潜在变量? 因变量测度因变量测度? 因变量测度因变量测度? 关系结构类型关系结构类型? 类别结构类别结构? 有有 无无 测量型测量型 非测量型非测量型 测量型测量

13、型 非测量型非测量型 变量变量 案例案例 对应分析对应分析 自变量自变量 自变量自变量 之间之间 之间之间结构结构 通径通径 测度测度? 虚拟变量虚拟变量 多元回归多元回归 测度测度? 方程方程 分析分析 典型相关典型相关 因子因子 聚类聚类 模型模型 分析分析 分析分析 分析分析 测量型测量型 非测量型非测量型 测量型测量型 非测量型非测量型 典型相关典型相关 多元方差多元方差 logistic 判别判别 logit 相关相关 分析分析 回归回归 分析分析 模型模型 事件史数据事件史数据: 离散时间模型离散时间模型事件史分析事件史分析 有动态自变量有动态自变量 cox比例风险模型比例风险模型

14、 没有动态自变量没有动态自变量第二节第二节 统计应用研究与研究方法论统计应用研究与研究方法论n统计分析只是整个研究当中的一个环节,一个好的研统计分析只是整个研究当中的一个环节,一个好的研究不可能仅仅建立在统计分析的基础上。因此在学习究不可能仅仅建立在统计分析的基础上。因此在学习和应用统计分析时,必须把握统计分析的方法论,自和应用统计分析时,必须把握统计分析的方法论,自觉的将其服从于整个研究。觉的将其服从于整个研究。n方法论是研究过程的理论,从属于认识论;而方法则方法论是研究过程的理论,从属于认识论;而方法则是具体的研究技术或工具。是具体的研究技术或工具。n研究方法的正确选择和使用,不仅需要有关

15、研究对象研究方法的正确选择和使用,不仅需要有关研究对象的学科理论指导,也需要研究方法论作为指导。的学科理论指导,也需要研究方法论作为指导。第二节第二节 统计统计应用研究与研究应用研究与研究方法论方法论理论、观察、统计之间的关系理论、观察、统计之间的关系n现代社会科学研究中包含三个要素:理论、观察、现代社会科学研究中包含三个要素:理论、观察、统计。在整个研究过程中,三个要素是密切联系,统计。在整个研究过程中,三个要素是密切联系,相互制约的。相互制约的。n如果将研究看作一个周期性循环上升的过程,三要如果将研究看作一个周期性循环上升的过程,三要素的统一完成本身就构成了一个完整的周期。素的统一完成本身

16、就构成了一个完整的周期。第二节第二节 统计统计应用研究与研究应用研究与研究方法论方法论统计研究中的常见谬误统计研究中的常见谬误1.混淆统计联系与因果关系混淆统计联系与因果关系。因果关系是事物之。因果关系是事物之间的本质联系,而统计联系只是观测数据中所间的本质联系,而统计联系只是观测数据中所反映的事物的数量联系。反映的事物的数量联系。2.事后解释谬误事后解释谬误。将一个探测性或描述性分析结。将一个探测性或描述性分析结果当作了一个解释性分析的结果,完全混淆建果当作了一个解释性分析的结果,完全混淆建立假设和假设检验的区别。立假设和假设检验的区别。3.生态学谬误生态学谬误。根据集合单位的分析结果作关于

17、。根据集合单位的分析结果作关于个体的断言,混淆了不同层次主体的行为模式个体的断言,混淆了不同层次主体的行为模式(微观行为模式和宏观行为模式)。(微观行为模式和宏观行为模式)。4.还原论谬误还原论谬误。与生态学谬误相对,它是根据较低层。与生态学谬误相对,它是根据较低层次研究单位的分析结果推断较高层次单位的运行规次研究单位的分析结果推断较高层次单位的运行规律。律。5.混淆统计检验显著与实际意义显著混淆统计检验显著与实际意义显著。统计检验是否。统计检验是否显著受到三方面的影响:一是实际差异幅度或作用显著受到三方面的影响:一是实际差异幅度或作用强度的影响;二是所要求的置信度的大小;三是抽强度的影响;二

18、是所要求的置信度的大小;三是抽样样本规模的大小。统计性是否显著只是一个相对样样本规模的大小。统计性是否显著只是一个相对于这三个方面条件的结论,并不是用来表示实际显于这三个方面条件的结论,并不是用来表示实际显著意义的标志。所以不仅要考虑统计分析的结果,著意义的标志。所以不仅要考虑统计分析的结果,而且最终要把这些统计结果放在整个实际研究的理而且最终要把这些统计结果放在整个实际研究的理论框架中去考察其实际意义。论框架中去考察其实际意义。统计研究中的常见统计研究中的常见谬误谬误第二节统计第二节统计应用研究与研究应用研究与研究方法论方法论统计分析统计分析和理论分析和理论分析n统计研究和理论研究必须结合,

19、这既有利于反对从理论到统计研究和理论研究必须结合,这既有利于反对从理论到理论的单纯演绎推理的倾向,又有利于反对忽视理论、只理论的单纯演绎推理的倾向,又有利于反对忽视理论、只注重经验的倾向。注重经验的倾向。 比如,如何判定哪些变量该列入模型,主要是理论分比如,如何判定哪些变量该列入模型,主要是理论分析的结果,而不是统计分析的结果。析的结果,而不是统计分析的结果。n统计分析的功能主要是在理论分析的基础上,检查各个模统计分析的功能主要是在理论分析的基础上,检查各个模型变量的作用,对其作用进行量化描述,并对有关理论假型变量的作用,对其作用进行量化描述,并对有关理论假设进行检验。设进行检验。第二节统计第

20、二节统计应用研究与研究应用研究与研究方法论方法论真理性真理性的检验与统计检验的检验与统计检验n实践是检验真理的唯一标准,但实践是一个活动过程,不能简单归结为实践是检验真理的唯一标准,但实践是一个活动过程,不能简单归结为直接经验这样的个别环节。并且,实践检验过程是借助逻辑推论的链条直接经验这样的个别环节。并且,实践检验过程是借助逻辑推论的链条进行的,在这一逻辑链条中,只是某些环节才可能进行直接检验。进行的,在这一逻辑链条中,只是某些环节才可能进行直接检验。n统计检验是实践检验的一种形式。一种认识是否正确,看它是否符合客统计检验是实践检验的一种形式。一种认识是否正确,看它是否符合客观实际,反映在统

21、计研究中,就是看理论假设是否符合观测数据。观实际,反映在统计研究中,就是看理论假设是否符合观测数据。n统计检验不可避免地存在其局限性,其结果会受到分析技术的成熟度、统计检验不可避免地存在其局限性,其结果会受到分析技术的成熟度、模型变量的有效性、数据的可靠性、样本规模的大小等多方面的影响。模型变量的有效性、数据的可靠性、样本规模的大小等多方面的影响。n统计检验不显著,并不意味着这一研究无价值。统计检验不显著,并不意味着这一研究无价值。n统计检验显著时,则更要清醒地认识到,统计分析只是就事物的统计联统计检验显著时,则更要清醒地认识到,统计分析只是就事物的统计联系进行分析,统计分析中得到肯定事物联系

22、的结论到对于事物之间本质系进行分析,统计分析中得到肯定事物联系的结论到对于事物之间本质联系的认识还有很远的距离。联系的认识还有很远的距离。n统计检验只是从一个侧面进行实践检验,并不能替代其他形式的实践检统计检验只是从一个侧面进行实践检验,并不能替代其他形式的实践检验验第三节第三节 计算机在统计分析中计算机在统计分析中的应用的应用一一 统计分析软件统计分析软件二二 计算机统计分析的基本步骤计算机统计分析的基本步骤 一、统计分析软件EXCEL最简单的办公软件SPSS常用统计分析软件EVIEWS计量经济学STATA 小型统计软件,速度极快,使用简单SAS数据处理和统计分析,标准软件系统二、计算机统计

23、分析的基本步骤 1数据的组织。数据的组织实际上就是数据库的建立。数据组织有两步。第一步是编码,即用数字代表分类数据(有时也可以是区间数据或比率数据)。第二步是给变量赋值,即设置变量并根据研究结果给予其数字代码。2数据的录入。数据的录入就是将编码数据输入计算机、即输入已经建立的数据库结构,形成数据库。数据录入关键的是保证录入的正确性。录入错误主要有认读错误和按键错误。在数据录入后还应进行检验,检验可采取计算机核对和人工核对两种方法。3统计分析。首先根据研究目的和需要确定统计方法,然后确定与选定的统计方法相应的运行程序,既可以用计算机存储的统计分析程序,也可以用其他的统计软件包中的程序。4结果输出

24、。经过统计分析,计算结果可用计算机打印出来,输出的形式有列表、图形等。课程小结2022-3-2427u 多元统计分析方法及其分类框架u 统计分析与研究方法论u 统计分析软件作业手绘多元统计分析方法分类框架图 统计分析软件简介2022-3-2428See you tomorrow!销售额、人口数和年人均收入数据销售额、人口数和年人均收入数据地区地区编号编号销售额销售额(万元)(万元)y人口数人口数(万人万人) x1年人均收入年人均收入(元元)x21234567891033.335.527.630.431.953.135.629.035.134.532.429.126.32

25、9.823.028.226.91250165014501310131015801490152016201570【例例】一家百货公司在10个地区设有经销分公司。公司认为商品销售额与该地区的人口数和年人均收入有关,并希望建立它们之间的数量关系式,以预测销售额。有关数据如下表。试确定销售额对人口数和年人均收入的线性回归方程,并分析回归方程的拟合程度,对线性关系和回归系数进行显著性检验(=0.05)。SPSS输出Model Summaryb.968a.937.9192.0101Model1RR SquareAdjustedR SquareStd. Error ofthe EstimatePredict

26、ors: (Constant), 年 人 均 收 入 ( 元 ) , 人 口 数( 万 人 )a. Dependent Variable: 销 售 额 ( 万 元 )b. ANOVAb423.0182211.50952.350.000a28.28274.040451.3009RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), 年人均收入(元), 人口数(万人)a. Dependent Variable: 销售额(万元)b. SPSS输出(2)Coefficientsa-38.82

27、58.479-4.579.0031.341.143.8879.355.0002.280E-02.005.4554.796.002(Constant)人口数(万人)年人均收入(元)Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: 销售额(万元)a. 一个二元线性回归的例子1.销售额与人口数和年人均收入的二元回归方程为销售额与人口数和年人均收入的二元回归方程为2. 多重判定系数多重判定系数R2= 0.9373;调整后的;调整后的R2= 0.91943. 回归

28、方程的显著性检验回归方程的显著性检验F = 52.3498 FF0.05(2,7)=4.74,回归方程显著,回归方程显著4. 回归系数的显著性检验回归系数的显著性检验t= 9.3548t=0.3646; t 2 = 4.7962 t=2.3646;两;两个回归系数均显著个回归系数均显著n100100个学生的数学、物理、化学、语文、历史、英个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。语的成绩如下表(部分)。从本例可能提出的问题从本例可能提出的问题n目前的问题是,能不能把这个数据的目前的问题是,能不能把这个数据的6 6个变量用一个变量用一两个综合变量来表示呢?两个综合变量来表示

29、呢?n这一两个综合变量包含有多少原来的信息呢?这一两个综合变量包含有多少原来的信息呢?n能不能利用找到的综合变量来对学生排序呢?这能不能利用找到的综合变量来对学生排序呢?这一类数据所涉及的问题可以推广到对企业,对学校一类数据所涉及的问题可以推广到对企业,对学校进行分析、排序、判别和分类等问题。进行分析、排序、判别和分类等问题。n大学生成绩的主成分分析T To ot ta al l V Va ar ri ia an nc ce e E Ex xp pl la ai in ne ed d3.73562.25462.2543.73562.25462.2541.13318.88781.1421.133

30、18.88781.142.4577.61988.761.3235.37694.137.1993.32097.457.1532.543100.000Component123456Total% of VarianceCumulative %Total% of VarianceCumulative %Initial EigenvaluesExtraction Sums of Squared LoadingsExtraction Method: Principal Component Analysis.Component MatrixComponent Matrixa a-.806.353-.674.

31、531-.675.513.893.306.825.435.836.425MATHPHYSCHEMLITERATHISTORYENGLISH12ComponentExtraction Method: Principal Component Analysis.2 components extracted.a. Component PlotComponent -.5-1.0Component -.5-1.0englishhistoryliteratchemphysmath可以把第一和第二主成分的点画出一个二维图以直可以把第一和第二主成分的点画出一个二维图以直观地显

32、示它们如何解释原来的变量的。观地显示它们如何解释原来的变量的。该图该图左面三个点是数学、物理、化学三科左面三个点是数学、物理、化学三科,右边三个点是语文、历史、外语三科。右边三个点是语文、历史、外语三科。 n旋转前,第一因子称为两旋转前,第一因子称为两级因子(不易解释);第级因子(不易解释);第二因子可称为智力因子二因子可称为智力因子Com ponent Matrixa.893.306.836.425.825.435-.806.353-.675.513-.674.531LITERATENGLISHHISTORYMATHCHEMPHYS12ComponentExtraction Method:

33、Principal Component Analysis.2 components extracted.a. Rotated Component Matrixa.913-.216.911-.201.879-.343-.172.841-.184.827-.387.790ENGLISHHISTORYLITERATPHYSCHEMMATH12ComponentExtraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.Rotation converged in 3 iterations.a. v旋转后,第一因子称旋转后,第一因子称为文科因子;第二因为文科因子;第二因子可称为理科因子子可称为理科因子 Component Plot in Rotated SpaceComponent -.5-1.0Component -.5-1.0englishhistoryliteratchemphysmathMATHCHEMPHYSF2F*2F*1-0.50.51-1因子旋转因子旋转-1-0.50

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论