应用统计学-绪论2015_第1页
应用统计学-绪论2015_第2页
应用统计学-绪论2015_第3页
应用统计学-绪论2015_第4页
应用统计学-绪论2015_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

马昕经济学教研室电话mail:maxin@应用统计学教学目的:信息时代是数据时代。决策已从过去以经验为主转变到科学决策。如何从大量数据中发现尽可能多的有用信息,从而把握事物特征,为科学决策提供依据,这是本课程要解决的问题。本课程是在学生掌握统计分析的基本知识和技能之后,以进一步深化学生的量化分析能力为宗旨、以多元统计为中心的一门应用性课程。课程内容:第一章绪论第二章向量、矩阵与多维正态分布第三章方差分析第四章回归分析第五章聚类分析第六章判别分析第七章主成分分析第八章因子分析第九章对应分析第十章结构方程模型教材:JamsMLattin等著,《多元数据分析》(英文版),机械工业出版社参考书何晓群《多元统计分析(第三版)》,中国人民大学出版社,2012王学民《应用多元分析》,上海财经大学出版社理查德·约翰逊《实用多元统计分析》,清华大学出版社,2008(英文版)考核方法:读书报告:30分(考试前交)期末考试(开卷):70分教学资源位于:appliedmultistat@126.com(key:ncepuedu2013):网盘课件课件例题数据第一章绪论多元数据分析的必要性多元数据分析方法概论多元数据的描述统计基本知识回顾一、多元数据分析的必要性数据分析从大量数据中发现尽可能多的有用信息,从而把握事物特征的过程事物特征的描述:变量/指标每个变量/指标数据:反映事物某一方面的特征一般来说事物通常具有多面性,即有多方面特征例:学生的能力、物种、国家经济实力、企业竞争力仅从一个方面往往不足以反映事物特性或个体之间的差异必须全面考虑事物的各个方面,才能对其正确认识。统计学:单变量/双变量分析描述统计集中趋势离散趋势变量分布异常点推断统计:从样本统计量推断总体参数参数估计:样本均值估计总体均值,假设检验:总体均值或方差的检验,两总体均值/方差相等的检验双变量:相关分析:两个随机变量间的(线性)相关程度一元回归:一个随机变量对另一变量间的依存关系Simpson’sParadoxExample:44%ofmaleapplicantsareadmittedbyauniversity,butonly33%offemaleapplicantsDoesthismeanthereisunfairdiscrimination?UniversityinvestigatesandbreaksdownfiguresforEngineeringandEnglishprogrammesMaleFemaleAccept3520Refuseentry4540Total8060为什么需要多元数据-续两变量分析有时会得到虚假结果Simpson’sParadoxNorelationshipbetweensexandacceptanceforeitherprogrammeSonoevidenceofdiscriminationWhy?MorefemalesapplyfortheEnglishprogramme,butitithardtogetintoMoremalesappliedtoEngineering,whichhasahigheracceptanceratethanEnglishMustlookdeeperthansinglecross-tabtofindthisoutEngineeringMaleFemaleAccept3010Refuseentry3010Total6020EnglishMaleFemaleAccept510Refuseentry1530Total2040两变量分析有时会得到虚假结果Simpson’sParadoxInthisexample,thebivariateanalysis(cross-tabulationorcorrelation)gavemisleadingresultsIntroducinganothervariablegaveabetterunderstandingofthedataItevenreversedtheinitialconclusions性别录取率专业?二、多元数据分析过程及方法反映对象行为的、可被观测的所有特征面精选特征面子集行为数据测量模型模式多元分析方法行为—数据—结构定比数据筛选变量/指标SomeCommonPatternsinPointCloudsplanesfilamentsclustersoutliersDataAnalysis:FindingandInterpretingsuchPatterns多元数据分析方法概述多元分析的目的:探索数据的模式(结构)多元数据分析的难点:维度太多使我们难以发现规律、把握重点多元分析方法的核心:概要和简化工具:矩阵代数、统计软件(SAS,SPSS,Stata等)具体方法聚类分析:按距离远近分类判别分析:给定样本定类——亲疏判别主成分分析、因子分析、对应分析:找出主要因素,化简数据方差分析多元回归分析结构方程模型GroupingDiscriminatingPrincipleComponent,Factoring,CorrespondenceInferring推断exploring探索数据模式StructuralEquationModel课程重点强调方法的应用而非理论推导强调方法的内涵与几何解释强调SPSS软件的应用和结果的解释牢记:从数据中获取信息没有确定的方法具体问题具体分析:把握机理三、多元数据的描述数据的计量尺度(measurementscale):告诉我们从数据中可获得哪些信息。品质数据:计算无意义定类尺度:按穷尽和互斥原则将对象某种特征归类通常用虚拟变量表示:定序尺度对象特征等级或顺序差别的测度三、多元数据的描述数值数据定距尺度:测度对象特征的间距,不能做绝对比较。定比尺度:即可测度间距,又可做绝对比较。数值数据的矩阵表示:样本数n,变量数p数据的矩阵描述注:若无特别说明,向量均指列向量四、统计基本知识回顾:单变量分析描述统计参数估计假设检验1.描述统计描述数据的集中趋势均值中位数众数描述数据的离散趋势极差方差、标准差变异系数异常点均值的代表性目的:描述数据分布与正态分布的可能偏离正态分布具有许多有利于统计的特性一般独立随机事件的分布都服从正态分布人的身高,产品质量偏度:用来度量对称性的指标峰度:刻画一个分布陡峭或平缓程度的指标正态右偏左偏正态比正态更陡比正态平缓分布的偏度与峰度标准化变量对于任意变量x,将观测值转换成相应Z值的过程称为将该变量标准化,所得到的变量Z称为标准化变量。

相对度量例:地区供电局数据基本概念2、参数估计总体样本变量观测值华北电大的所有学生华北电大的所有学生中所有抽取的100名学生基本概念(续)参数统计量精确度准确度偏误标准差:小标准误:小标准差:大标准误:小标准误差standarderror标准差standarddeviation抽样推断:从样本统计量推断总体参数参数估计:在未知总体参数的情况下,利用样本统计量来估计总体参数的方法。参数点估计参数区间估计假设检验:先对总体参数作一个假设,然后通过搜集样本数据,用样本统计量判断对总体参数的假设是否成立参数估计:总体参数的点估计假设在总体X中,θ为未知参数(均值、方差、成数等)。由样本(x1、x2…xn)构造统计量来估计未知参数θ,称为θ的点估计量。将某次抽样的样本观测值,代入即得该估计量的一个点估计值。方法

矩估计法

极大似然估计法

最小二乘法设为待估计的总体参数,为样本统计量,则的优良标准为:点估计量的优良性标准指样本统计量抽样分布的平均值等于被估计的总体指标无偏性

设和是总体指标

的两个无偏估计量,有效性若,则称为比更有效的估计量如果随着样本容量n的增大,样本估计量在概率意义下越来越接近于总体真实值,则称该估计量是待估参数的一致估计量。一致性一致性是对一个估计量的最起码要求。“如果你在n趋于无穷大时还不能正确地得到它,那你就不应该做这件事”

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论