版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
马昕经济学教研室电话mail:maxin@应用统计学教材:何晓群《多元统计分析》,中国人民大学出版社,2004参考书何晓群《现代统计分析方法与应用》,中国人民大学出版社,1998王学民《应用多元分析》,上海财经大学出版社JamsMLattin等著,《多元数据分析》(英文版),机械工业出版社考核方法:读书报告:30分(考试前交)期末考试(开卷):70分课程内容:第一章绪论第二章向量、矩阵与多维正态分布第三章聚类分析第四章判别分析第五章方差分析第六章回归分析第七章主成分分析第八章因子分析第九章对应分析第十章结构方程模型第一章绪论多元数据分析的必要性多元数据分析方法概论多元数据的描述统计基本知识回顾一、多元数据分析的必要性信息时代——数据时代,决策:经验→科学经济发展科学研究军事企业组织——信息组织市场分析投资决策设备管理你的直觉判断总是正确的吗?基于数据分析的决策对LaQuinta旅馆进行以回归分析为基础的选址数据分析从大量数据中发现尽可能多的有用信息,从而把握事物特征的过程每个数据:反映某个事物某一方面的特征统计学:单变量/双变量分析描述统计集中趋势离散趋势变量分布异常点推断统计:从样本统计量推断总体参数参数估计:样本均值估计总体均值,假设检验:总体均值或方差的检验,两总体均值/方差相等的检验相关分析:两个随机变量间的(线性)相关程度回归分析:一个随机变量和一组随机变量间的依存/相关关系为什么需要多元数据?一般来说事物通常具有多面性,即每一事物有多方面特征例:学生的能力、物种、国家经济实力、企业竞争力仅从一个方面往往不足以反映事物特性或个体之间的差异必须全面考虑事物的各个方面,才能对其正确认识。Simpson’sParadoxExample:44%ofmaleapplicantsareadmittedbyauniversity,butonly33%offemaleapplicantsDoesthismeanthereisunfairdiscrimination?UniversityinvestigatesandbreaksdownfiguresforEngineeringandEnglishprogrammesMaleFemaleAccept3520Refuseentry4540Total8060为什么需要多元数据-续两变量分析有时会得到虚假结果Simpson’sParadoxNorelationshipbetweensexandacceptanceforeitherprogrammeSonoevidenceofdiscriminationWhy?MorefemalesapplyfortheEnglishprogramme,butitithardtogetintoMoremalesappliedtoEngineering,whichhasahigheracceptanceratethanEnglishMustlookdeeperthansinglecross-tabtofindthisoutEngineeringMaleFemaleAccept3010Refuseentry3010Total6020EnglishMaleFemaleAccept510Refuseentry1530Total2040两变量分析有时会得到虚假结果Simpson’sParadoxInthisexample,thebivariateanalysis(cross-tabulationorcorrelation)gavemisleadingresultsIntroducinganothervariablegaveabetterunderstandingofthedataItevenreversedtheinitialconclusions二、多元数据分析过程及方法反映对象行为的、可被观测的所有特征面精选特征面子集行为数据测量模型模式多元分析方法行为—数据—结构蠓:身体长度、翅膀长度、翅膀宽度、触角长度、…翅膀长度、触角长度定比数据SomeCommonPatternsinPointCloudsplanesfilamentsclustersoutliersDataAnalysis:FindingandInterpretingsuchPatterns多元数据分析方法概述多元分析的目的:探索数据的模式(结构)多元数据分析的难点:维度太多使我们难以发现规律、把握重点多元分析方法的核心:概要和简化工具:矩阵代数、统计软件(SAS,SPSS,Stata等)具体方法聚类分析:按距离远近分类判别分析:给定样本定类——亲疏判别主成分分析、因子分析、对应分析:找出主要因素,化简数据方差分析多元回归分析结构方程模型GroupingDiscriminatingPrincipleComponent,Factoring,CorrespondenceInferring推断exploring探索数据模式StructuralEquationModel课程重点强调方法的应用而非理论推导强调方法的内涵与几何解释强调SPSS软件的应用和结果的解释牢记:从数据中获取信息没有确定的方法具体问题具体分析三、多元数据的描述数据的计量尺度(measurementscale):告诉我们从数据中可获得哪些信息。品质数据:计算无意义定类尺度:按穷尽和互斥原则将对象某种特征归类通常用虚拟变量表示:定序尺度对象特征等级或顺序差别的测度三、多元数据的描述数值数据定距尺度:测度对象特征的间距,不能做绝对比较。定比尺度:即可测度间距,又可做绝对比较。数值数据的矩阵表示:样本数n,变量数p数据的矩阵描述注:若无特别说明,向量均指列向量四、统计基本知识回顾:单变量分析描述统计参数估计假设检验1.描述统计描述数据的集中趋势均值中位数众数描述数据的离散趋势极差方差、标准差变异系数异常点均值的代表性目的:描述数据分布与正态分布的可能偏离正态分布具有许多有利于统计的特性一般独立随机事件的分布都服从正态分布人的身高,产品质量偏度:用来度量对称性的指标峰度:刻画一个分布陡峭或平缓程度的指标正态右偏左偏正态比正态更陡比正态平缓分布的偏度与峰度标准化变量对于任意变量x,将观测值转换成相应Z值的过程称为将该变量标准化,所得到的变量Z称为标准化变量。
相对度量例:地区供电局数据基本概念2、参数估计总体样本变量观测值华北电大的所有学生华北电大的所有学生中所有抽取的100名学生基本概念(续)参数统计量精确度准确度偏误标准差:小标准误:小标准差:大标准误:小标准误差standarderror标准差standarddeviation抽样推断:从样本统计量推断总体参数参数估计:在未知总体参数的情况下,利用样本统计量来估计总体参数的方法。参数点估计参数区间估计假设检验:先对总体参数作一个假设,然后通过搜集样本数据,用样本统计量判断对总体参数的假设是否成立参数估计:总体参数的点估计假设在总体X中,θ为未知参数(均值、方差、成数等)。由样本(x1、x2…xn)构造统计量来估计未知参数θ,称为θ的点估计量。将某次抽样的样本观测值,代入即得该估计量的一个点估计值。方法
矩估计法
极大似然估计法
最小二乘法设为待估计的总体参数,为样本统计量,则的优良标准为:点估计量的优良性标准指样本统计量抽样分布的平均值等于被估计的总体指标无偏性
设和是总体指标
的两个无偏估计量,有效性若,则称为比更有效的估计量如果随着样本容量n的增大,样本估计量在概率意义下越来越接近于总体真实值,则称该估计量是待估参数的一致估计量。一致性一致性是对一个估计量的最起码要求。“如果你在n趋于无穷大时还不能正确地得到它,那你就不应该做这件事”——葛兰杰
n1n2n3n1<n2<n3置信度(1-)反映了估计的可靠程度。根据样本指标和抽样极限误差可以得到满足一定置信度的总体指标的可能范围定义设总体参数为,L、U为由样本确定的两个统计量,对于给定的(0<<1),有P(L≤≤U)=1-,则称(L,U)为参数的置信度为1-的置信区间参数估计:参数的区间估计可靠度精确度为什么要做区间估计?任意抽出一个妇女,试猜测其体重,猜对赢50元,猜错输50元如何猜?输赢概率如何?例:20个妇女的体重资料如表,
平均体重:123.6pound,标准差:15.5猜均值上下一个标准差:赢的概率?输的概率猜均值上下两个标准差:输赢概率?目的前提条件
置信度的置信区间估计总体均值正态总体方差已知估计总体均值正态总体方差未知(小样本)估计总体均值
置信区间估计方法一览表总体分布知,正态总体方差未知(大样本)区间估计原理0.6827
落在范围内的概率为68.27%样本抽样分布曲线原总体分布曲线置信度1-=0.6827区间估计原理0.9545
落在范围内的概率为95.45%样本抽样分布曲线原总体分布曲线置信度1-=0.9545例某保险公司从投保人中随机抽取36人,计算出此36人平均年龄为39.5岁,已知投保人年龄近似正态分布,标准差7.2岁,试以99%的可靠度求所有投保人平均年龄的置信区间。如果将可靠度降低到95%的水平呢?解:求所有投保人平均年龄的置信区间。现有一个点估计量在点估计量基础上,构造投保人平均年龄的置信区间关键是置信区间的宽度是多少。置信区间宽度取决于置信度和抽样平均误差:根据置信度查表得到∴在99%的置信度下,投保人年龄总体均值的置信区间为:(39.5-3.1,39.5+3.1)→36.4<
<42.6置信度95%,Z/2=1.96,=1.96*1.2=2.35,置信区间(37.2,41.9)3、假设检验采用逻辑上的反证法——先认为假设为真,观察在此前提下所抽到样本的出现是否合理。若合理则判断假设可接受,反之拒绝假设。判断是否合理的依据统计上的小概率原理(即这里的反证法是基于一定概率的反证法)。假设检验的步骤提出原假设和备择假设:收集样本数据,确定适当的检验统计量及其分布规定显著性水平,确定拒绝域和接受域计算检验统计量的值作出统计决策假设的三种形式:Z临界点Z/2接受域-Z/2<Z<Z/2拒绝域︱Z︱>Z/2Z临界点-Z
拒绝域Z<-Z
接受域Z>-Z
Z临界点Z
拒绝域Z>Z
接受域Z<Z
——在原假设为真的前提下,出现观察到的样本以及更极端样本的概率。——P值(P-value):拒绝原假设的最小显著性水平。如果检验的统计量为t,c是从样本得到的统计量的值。左侧检验时,P值=p{t
c}右侧检验时,P值=p{t
c}双侧检验中,P值=单侧P值的2倍。Z临界点-
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年高考地理天津卷题库及一套完整答案
- 2026年湖南省永州市高职单招职业技能测试题库试题附答案
- 2026年安徽铜陵市中考地理考试真题带答案
- 数学必修 第二册10.1 随机事件与概率第一课时教案
- 第2课 提升系统安全的措施教学设计小学信息技术(信息科技)六年级下册鲁教版(信息科技)
- 江苏省宜兴市伏东中学初中音乐 《三峡的孩子爱三峡》 教学设计
- 初中化学人教版 (五四制)八年级全册第四单元 自然界的水课题3 水的组成教案
- 数学22.2二次函数与一元二次方程教案及反思
- 高中物理人教版 (2019)选择性必修 第二册1 认识传感器一等奖教案设计
- 山东省泰安市肥城市2026届高三下学期高考适应性训练语文试题(一)(含答案)
- 2024-2025学年度金华职业技术学院单招《英语》考试彩蛋押题附答案详解AB卷
- 2026年中诚国际海洋工程勘察设计有限公司公开招聘12名笔试参考题库及答案解析
- EAST5.0数据结构一览表
- 呆滞物料管理规定
- 病案信息技术基础知识考试重点梳理(中级)
- 聚丙烯题库PP通用部分
- 卫生监督PPT课件 卫生监督证据
- 【民宿空间设计(论文)6200字】
- GB/T 4893.9-1992家具表面漆膜抗冲击测定法
- GB/T 14039-2002液压传动油液固体颗粒污染等级代号
- FZ/T 98008-2011电子织物强力仪
评论
0/150
提交评论