数据分析第二节推论统计.ppt_第1页
数据分析第二节推论统计.ppt_第2页
数据分析第二节推论统计.ppt_第3页
数据分析第二节推论统计.ppt_第4页
数据分析第二节推论统计.ppt_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2 推论统计 O、预备知识 一、抽样分析 二、参数估计 三、假设检验的基本概念 四、t检验 五、F检验 六、 检验 七、示例,管理研究和社会研究绝大部分都采用样本研究,从较大的研究对象总体中抽样收集数据。最终目的是从样本来判断样本所在的总体的特性。 统计推断是一套有清晰逻辑程序的统计计算,对于从样本观测值得出的发现(findings),作出是否适用于总体的判断。发现亦即研究的结果,这些结果不外乎以下几个方面的内容:,假设中的自变量和因变量之间有无关联? 这种关联的趋向和形式如何? 这种关联的强度如何? 这种关联是否是因果 自变量的属性值变化引起因变量的属性值变化,说明两变量间存在关联。 关联强度的判断则是指观测值中有多大比例的因变量属性值可以从自变量的属性值来解释。 统计技术用统计显著性来检验所观测到的关联是随机性的还是系统性的原因。, 自变量和因变量之间存在关联并非表明自变量就是因,因变量就是果,因果辨析一般属于实证研究之后机理分析的内容。 数据分析的主要内容主要围绕变量间关联的存在性、趋向和形式、强度和统计显著性四个方面。描述统计已涉及到存在性、趋向和形式的内容,推论统计则主要回答统计显著性问题。,当=0, 2=1时,我们称X服从标准正态分布,即X N(0, 1). 标准正态分布的密度和分布函数分别为:,定理 1 设 XN(, 2),则 (X) N(0,1). 定义 设X1,X2,Xn为相互独立的随机变量,它们都服从标准正态N(0,1)分布,则称随机变量 服从自由度为n的 分布,记作Y (n).,定理 2 设X1,X2,Xn独立,同N(,2)分布,记,则(1) (3) 与S2 相互独立.,定义2 设XN(0,1),Y (n),且X与Y 相互独立,记 则T服从自由度为n的t分布,又称为学生(student)分布,记作Tt(n),定理3 设X1,X2,Xn独立,同N(,2)分布,记,定义 3 设 X ,Y , X与Y独立,则称随机变量 服从自由度为(n1,n2)的F分布,记作FF(n1,n2),一、抽样分析 样本统计值(sample statistics):描述样本分布情况的特性值。 总体参数值(population parameter):描述总体分布情况的特性值。 样本统计值是否能代表总体参数值,怎样才能代表参数值,这正是推论统计解决问题的出发点。 统计值和参数值两者的关系可以通过“抽样分布” (sampling distribution)这个概念连通起来。统计值的分布情况就是抽样分布。 统计推论可分为参数估计(parameter estimation)和假设检验。,二、参数估计 参数估计分为点估计(point estimation)和区间估计 (interval estimation) 1、点估计 常用的点估计方法有矩法和极大似然估计(Maximum Likelihood Estimation)。 样本均值 样本方差 参数是概率分布的特征值,各种概率分布有不同的特征值,最常用到的参数有平均数和方差2。,2、区间估计 估计偏差(bias) 无偏估计:设 是未知参数的一个估计量,若有 则称 是的无偏估计量。 抽样误差:每次估计值和长期估计的平均值(long-run average value)之间的随机误差称作抽样误差。 抽样误差的一个很有用的特点是它符合正态分布。,点估计值给出了参数的一个近似值且是随机的,它跟随着样本的抽取而随机变化,估计值本身既没有反映这种近似的精确度,又没有给出误差范围。为了弥补这些不足,人们希望估计出一个范围,并知道这个范围包含参数真值的可靠程度。这样的范围通常以区间的形式给出,同时还要给出该区间包含参数真值的可靠程度。这种形式的估计称为区间估计。, 定义 对于参数,如果有两个统计量 和 ,对给定的(,),有 则称 是的一个区间估计或置信区间, 为置信水平(置信度)。, 一个正态总体的参数的区间估计 已知方差,对均值的区间估计 未知方差,对均值的区间估计 对方差的区间估计,三、假设检验的基本概念 1、对立假设 2、显著性试验 3、甲种误差和乙种误差 4、单边检验和双边检验 5、自由度 6、参数检验和非参数检验,根据样本提供的信息判断总体是否具有预先指定的特性。 进行假设检验的基本思想:某种带有概率性质的反证法。基于的原则是:小概率事件在一次观察中可以认为基本上不会发生。 小概率事件:通常把概率不超过0.05的事件当作“小概率事件”,有时把概率不超过0.01的事件当作“小概率事件”.,假设检验的步骤: 提出假设H;备选假设H 构造统计量,并由样本算出其具体值 求出在H下,统计量的分布,构造对H不利的小概率事件 给定显著性水平,确定临界值,从而 得出H的否定域。 得出结论。若统计量否定域,则拒绝 H, 承认备选假设H;若统计量 否定域,则接受H,、对立假设 待研究的假设可分为两类: 研究假设研究者希望验证的命题 对立假设(null hypothesis)研究假设的逻辑对立面 2、 显著性试验 否定域(critical region):一般说来,对于给定的显著水平,以及某一统计量,若有 P区域G 则称区域G为H0的否定域。,显著性水平(检验标准) 1置信水平 直观意义:把概率不超过的事件当作一次观察不会发生的“小概率事件”。,3、 甲种误差和乙种误差(检验中的两类错误) 甲种误差(type error):把正确的对立假设推翻的可能性,其出现的可能性大小取决于显著度。 实际情况是H0成立,而检验的结果表明H0不成立,即拒绝H0,这时称该检验犯了第一类错误或“弃真错误”(以真为假)。显著水平是犯第一类错误的概率。 乙种误差(typeerror):把错误的对立假设视为真实的可能性。“纳伪错误” (以假为真),4、单边检验和双边检验 双边检验(twotailed test):否定域预设在正态分布的两端。 单边检验(onetailed test):否定域预设在正态分布的一端。 5、自由度 自由度(degree of freedom):自由度是指可以自由变动数值的样本数目.,6、参数检验和非参数检验 假设检验分为 参数检验(parametric statistical test)非参数检验(nonparametric statistical test)。 总体X的分布类型为已知,其中仅含有有限个未知参数,我们要做的只是对这些参数进行检验,称为参数假设检验。 在许多实际问题中,总体分布的类型往往不知道,或者知之甚少。因此需要引进另一些统计方法,要求这些方法不依赖于总体分布的具体形式,这些方法称为非参数方法。,数据为定距和定比类型时对应的检验方法为参数检验。 数据为定类和定序类型以及总体偏态分布或分布情况不明的情况下,对应的检验方法为非参数检验。 四、t检验 1、t分布定义 t分布常用于数理统计中正态总体均值的区间估计和检验。 2、常用的两个定理(预备知识中定理3和定理4),举例 P228 例5.2 H0: 1=2 H1:12, 非独立样本的t检验 如果样本经过某种形式的配对处理,则应用非独立样本的t检验.非独立样本的t检验算式为:,当12时,tt(N-1) 例 P 例.,单因素方差分析数学模型,1、 F分布定义 2、 简单方差分析(单因素方差分析) 简单方差分析将总误差划分为两种来源:一种是组间,由施加的试验处理形成;另一种是组内,由随机误差形成。 单因素方差分析表,计算SST ,SSW ,SSB时,常按下列顺序进行,例 P231 例5.4 三个班组在半年内的缺勤次数,24,10,20,22,90,122,54,234,5,5,5,15,F检验表,查表 F0.05(2,12)=3.88, 6.623.88 拒绝H0 ,三个班的平均值有显著差异。,Scheffe 检验 Scheffe检验是常用的多重比较法(multi-comparison),它用来细化F检验的结果,在组间差异显著情况下,辨别成对组件是显著差异还是随机差异。在总体无显著差异情况下,也可能发现其中差异显著的两组。 仍以三个班缺勤率为例说明Scheffe检验的应用。比较x1与x2两组,其F值算式为,简单方差分析得出的三者之间显著差异之结论为:夜班比早班的缺勤率显著高,而早班和中班及中班和夜班之间的缺勤率虽有差异但不显著.,六、 检验 (chi-square test)检验是一种非参数检验,适用于定类变量,数据表达为频次形式,按两个或更多的相斥属性归类。 检验用于比较各类型事件的发生频次是否差异显著,现举例说明。 例 在超级市场随机选择90位顾客征求其对三种新品牌果酱的偏好,设由40位顾客选择品牌x,30位选择y,20位选择z,如对立

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论