




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、马昕经济学教研室电话mail:maxin,应用统计学,教学目的:,信息时代是数据时代。决策已从过去以经验为主转变到科学决策。如何从大量数据中发现尽可能多的有用信息,从而把握事物特征,为科学决策提供依据,这是本课程要解决的问题。本课程是在学生掌握统计分析的基本知识和技能之后,以进一步深化学生的量化分析能力为宗旨、以多元统计为中心的一门应用性课程。,课程内容:,第一章绪论第二章向量、矩阵与多维正态分布第三章方差分析第四章回归分析第五章聚类分析第六章判别分析第七章主成分分析第八章因子分析第九章对应分析第十章结构方程模型,教材:JamsMLattin等著,多元数据分析(英文版
2、),机械工业出版社,参考书何晓群多元统计分析(第三版),中国人民大学出版社,2012王学民应用多元分析,上海财经大学出版社理查德约翰逊实用多元统计分析,清华大学出版社,2008(英文版)考核方法:读书报告:30分(考试前交)期末考试(开卷):70分,教学资源位于:,appliedmultistat(key:ncepuedu2013):网盘课件课件例题数据,第一章绪论,多元数据分析的必要性多元数据分析方法概论多元数据的描述统计基本知识回顾,一、多元数据分析的必要性,数据分析从大量数据中发现尽可能多的有用信息,从而把握事物特征的过程事物特征的描述:变量/指标每个变量/指标数据:反映事物某一方面的特
3、征一般来说事物通常具有多面性,即有多方面特征例:学生的能力、物种、国家经济实力、企业竞争力仅从一个方面往往不足以反映事物特性或个体之间的差异必须全面考虑事物的各个方面,才能对其正确认识。,统计学:单变量/双变量分析,描述统计集中趋势离散趋势变量分布异常点推断统计:从样本统计量推断总体参数参数估计:样本均值估计总体均值,假设检验:总体均值或方差的检验,两总体均值/方差相等的检验双变量:相关分析:两个随机变量间的(线性)相关程度一元回归:一个随机变量对另一变量间的依存关系,SimpsonsParadox,Example:44%ofmaleapplicantsareadmittedbyauniver
4、sity,butonly33%offemaleapplicantsDoesthismeanthereisunfairdiscrimination?UniversityinvestigatesandbreaksdownfiguresforEngineeringandEnglishprogrammes,为什么需要多元数据-续,两变量分析有时会得到虚假结果,SimpsonsParadox,NorelationshipbetweensexandacceptanceforeitherprogrammeSonoevidenceofdiscriminationWhy?Morefemalesapplyfort
5、heEnglishprogramme,butitithardtogetintoMoremalesappliedtoEngineering,whichhasahigheracceptanceratethanEnglishMustlookdeeperthansinglecross-tabtofindthisout,两变量分析有时会得到虚假结果,SimpsonsParadox,Inthisexample,thebivariateanalysis(cross-tabulationorcorrelation)gavemisleadingresultsIntroducinganothervariableg
6、aveabetterunderstandingofthedataItevenreversedtheinitialconclusions,性别,录取率,专业,?,二、多元数据分析过程及方法,行为数据结构,定比数据,筛选变量/指标,SomeCommonPatternsinPointCloudsplanesfilamentsclustersoutliers,DataAnalysis:FindingandInterpretingsuchPatterns,多元数据分析方法概述,多元分析的目的:探索数据的模式(结构)多元数据分析的难点:维度太多使我们难以发现规律、把握重点多元分析方法的核心:概要和简化工具
7、:矩阵代数、统计软件(SAS,SPSS,Stata等),具体方法,聚类分析:按距离远近分类判别分析:给定样本定类亲疏判别主成分分析、因子分析、对应分析:找出主要因素,化简数据方差分析多元回归分析结构方程模型,Grouping,Discriminating,PrincipleComponent,Factoring,Correspondence,Inferring推断,exploring探索数据模式,StructuralEquationModel,课程重点,强调方法的应用而非理论推导强调方法的内涵与几何解释强调SPSS软件的应用和结果的解释,牢记:从数据中获取信息没有确定的方法具体问题具体分析:把
8、握机理,三、多元数据的描述,数据的计量尺度(measurementscale):告诉我们从数据中可获得哪些信息。品质数据:计算无意义定类尺度:按穷尽和互斥原则将对象某种特征归类通常用虚拟变量表示:定序尺度对象特征等级或顺序差别的测度,三、多元数据的描述,数值数据定距尺度:测度对象特征的间距,不能做绝对比较。定比尺度:即可测度间距,又可做绝对比较。数值数据的矩阵表示:样本数n,变量数p,数据的矩阵描述,注:若无特别说明,向量均指列向量,四、统计基本知识回顾:单变量分析,描述统计参数估计假设检验,1.描述统计,描述数据的集中趋势均值中位数众数描述数据的离散趋势极差方差、标准差变异系数,异常点,均值
9、的代表性,目的:描述数据分布与正态分布的可能偏离正态分布具有许多有利于统计的特性一般独立随机事件的分布都服从正态分布人的身高,产品质量偏度:用来度量对称性的指标峰度:刻画一个分布陡峭或平缓程度的指标,分布的偏度与峰度,标准化变量,对于任意变量x,将观测值转换成相应Z值的过程称为将该变量标准化,所得到的变量Z称为标准化变量。,例:地区供电局数据,基本概念,2、参数估计,基本概念(续),标准差:小标准误:小,标准差:大标准误:小,标准误差standarderror,标准差standarddeviation,抽样推断:,从样本统计量推断总体参数参数估计:在未知总体参数的情况下,利用样本统计量来估计总
10、体参数的方法。参数点估计参数区间估计假设检验:先对总体参数作一个假设,然后通过搜集样本数据,用样本统计量判断对总体参数的假设是否成立,参数估计:总体参数的点估计,假设在总体X中,为未知参数(均值、方差、成数等)。由样本(x1、x2xn)构造统计量来估计未知参数,称为的点估计量。将某次抽样的样本观测值,代入即得该估计量的一个点估计值。,矩估计法极大似然估计法最小二乘法,设为待估计的总体参数,为样本统计量,则的优良标准为:,点估计量的优良性标准,如果随着样本容量n的增大,样本估计量在概率意义下越来越接近于总体真实值,则称该估计量是待估参数的一致估计量。,一致性,一致性是对一个估计量的最起码要求。“
11、如果你在n趋于无穷大时还不能正确地得到它,那你就不应该做这件事”葛兰杰,置信度(1-)反映了估计的可靠程度。根据样本指标和抽样极限误差可以得到满足一定置信度的总体指标的可能范围,设总体参数为,L、U为由样本确定的两个统计量,对于给定的(01),有P(LU)=1-,则称(L,U)为参数的置信度为1-的置信区间,参数估计:参数的区间估计,可靠度,精确度,为什么要做区间估计?,任意抽出一个妇女,试猜测其体重,猜对赢50元,猜错输50元如何猜?输赢概率如何?,例:20个妇女的体重资料如表,平均体重:123.6pound,标准差:15.5,猜均值上下一个标准差:赢的概率?输的概率猜均值上下两个标准差:输
12、赢概率?,置信区间估计方法一览表,总体分布知,正态总体方差未知(大样本),区间估计原理,0.6827,落在范围内的概率为68.27%,置信度1-=0.6827,区间估计原理,0.9545,落在范围内的概率为95.45%,样本抽样分布曲线,原总体分布曲线,置信度1-=0.9545,例某保险公司从投保人中随机抽取36人,计算出此36人平均年龄为39.5岁,已知投保人年龄近似正态分布,标准差7.2岁,试以99%的可靠度求所有投保人平均年龄的置信区间。如果将可靠度降低到95%的水平呢?,解:求所有投保人平均年龄的置信区间。现有一个点估计量,在点估计量基础上,构造投保人平均年龄的置信区间,关键是置信区间
13、的宽度是多少。置信区间宽度取决于置信度和抽样平均误差:,根据置信度查表得到,在99%的置信度下,投保人年龄总体均值的置信区间为:(39.5-3.1,39.5+3.1)36.442.6,置信度95%,Z/2=1.96,=1.96*1.2=2.35,置信区间(37.2,41.9),3、假设检验,采用逻辑上的反证法先认为假设为真,观察在此前提下所抽到样本的出现是否合理。若合理则判断假设可接受,反之拒绝假设。判断是否合理的依据统计上的小概率原理(即这里的反证法是基于一定概率的反证法)。,假设检验的步骤,提出原假设和备择假设:收集样本数据,确定适当的检验统计量及其分布规定显著性水平,确定拒绝域和接受域计算检验统计量的值作出统计决策,假设的三种形式:,在原假设为真的前提下,出现观察到的样本以及更极端样本的概率。P值(P-value):拒绝原假设的最小显著性水平。,如
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 整式乘除类型题目及答案
- 2025年中国铝箔玻璃棉管行业投资前景及策略咨询研究报告
- 2025年中国退浆水洗联合机行业投资前景及策略咨询研究报告
- 2025年中国氧化锆增韧氧化铝陶瓷面板行业投资前景及策略咨询研究报告
- 2025年中国明式花瓶柜行业投资前景及策略咨询研究报告
- 孕产妇配偶艾滋病、梅毒检测服务流程
- 危重新生儿救治中心工作手册-(制度、职责、预案、流程、诊疗规范)
- 德州历史期末考试题目及答案
- 大四班的考试题目及答案
- 大班测试考试题及答案语文
- 山东省济宁市(2024年-2025年小学四年级语文)统编版期末考试((上下)学期)试卷及答案
- 乐器设备供货项目实施方案及售后服务方案
- DL∕T 1901-2018 水电站大坝运行安全应急预案编制导则
- DL∕T 1076-2017 火力发电厂化学调试导则
- DB6101-T 3186-2024 物业服务评价技术规范
- 抖音红娘话术
- 创设生活化教学与情境模拟
- 砂石料供应、运输、售后服务方案
- 2023年安徽省公务员《申论》试题及答案解析(C卷)
- 血糖监测小讲课ppt
- 《科研论文的写作》课件
评论
0/150
提交评论