应用统计分析经典复习笔记_第1页
应用统计分析经典复习笔记_第2页
应用统计分析经典复习笔记_第3页
应用统计分析经典复习笔记_第4页
应用统计分析经典复习笔记_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、应用统计分析复习笔记BY 东海 2009年12月1日星期二第一章 导论1、统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。内容:收集数据(取得数据);处理数据(整理与图表展示);分析数据(利用统计方法分析数据);数据解释(结果的讲明);得到结论(从数据分析中得出客观结论)。2、统计研究的循环过程:实际问题收集数据处理数据分析数据数据解释实际问题。统计方法描述统计推断统计参数可能假设检验点可能区间可能4、描述统计:研究数据收集、整理和描述的统计学分支。内容:收集数据;整理数据;展示数据;描述性分析。目的:描述数据特征;找出数据的差不多规律。5、推断统计:研究如何利用样本数据来推断总体

2、特征的统计学分支。内容:参数可能;假设检验。目的:对总体特征做出推断。6、描述统计与推断统计的关系:反映客观现象的数据总体内在的数量规律性推断统计(利用样本信息和概率论对总体的数量特征进行可能和检验等)概率论(分布理论、大数定律和中心极限定理等)描述统计(数据的收集、整理、显示和分析等)总体数据样本数据7、统计数据的类型(1)按计量层次:分类数据、顺序数据、数值型数据(2)按收集方法:观测数据和实验数据(3)按时刻状况:截面数据和时刻序列数据8、总体:所研究的全部个体(数据) 的集合,其中的每一个个体也称为元素。分为有限总体和无限总体。样本:从总体中抽取的一部分元素的集合。构成样本的元素的数目

3、称为样本容量或样本量。9、参数:描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值。所关怀的参数要紧有总体均值()、标准差()、总体比例()等。总体参数通常用希腊字母表示。10、统计量:用来描述样本特征的概括性数字度量,它是依照样本数据计算出来的一些量,是样本的函数。所关怀的样本统计量有样本均值()、样本标准差(s)、样本比例(p)等。样本统计量通常用小写英文字母来表示。变量:讲明现象某种特征的概念,如商品销售额、受教育程度、产品的质量等级等。变量的具体表现称为变量值,即数据变量能够分为:(1)分类变量(讲明事物类不的名称)、顺序变量(讲明事物有序类不的名称)和数值型变量(讲明事

4、物数字特征的名称)。其中数值型变量又分离散变量(取有限个值)和连续变量(能够取无穷多个值)。(2)经验变量(所描述的是我们周围能够观看到的事物)和理论变量(由统计学家用数学方法所构造出来的一些变量,比如,z 统计量、t 统计量、2统计量、F 统计量等)。(3)随机变量和非随机变量。11、随机现象的一个特点是:不确定性。随机现象也存在其固有的量的规律性,人们把这一规律性称为随机现象的统计规律性。 对随机现象的观看称为随机试验,并简称试验,用以研究随机现象的统计规律性。随机试验的特点:可重复性、可观看性和随机性。统计中的抽样过程事实上确实是一次随机试验。因而能够利用概率论的技巧来分析推断统计方法。

5、而样本领实上确实是随机变量。12、常见分布:二项分布、几何分布、指数分布、正态分布。13、统计学中泛称统计量(或枢轴量)的分布为抽样分布。讨论抽样分布的途经有两种:1)精确地求出抽样分布,并称相应地统计推断为小样本统计推断;2) 让样本容量趋于无穷,并求出抽样分布的极限分布。以极限分布作为抽样分布的近似分布,来对未知参数进行统计推断,称相应的推断为大样本统计推断。14、典型的统计软件:SPSS、MINITAB、STATISTICA、Excel和SAS。第二章 参数可能1、可能量:用于可能总体参数的随机变量。如样本均值,样本比例、样本方差等。例如:样本均值确实是总体均值的一个可能量。参数用 表示

6、,可能量用表示。可能值:可能参数时计算出来的统计量的具体值。假如样本均值=80,则80确实是的可能值。2、可能方法:点可能和区间可能。其中点可能的方法包括矩可能法、顺序统计量法、最大似然法、最小二乘法。3、点可能:用样本的可能量的某个取值直接作为总体参数的可能值,例如:用样本均值直接作为总体均值的可能。一个点可能量的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点可能值无法给出可能的可靠性的度量。4、评价可能量的标准:无偏性(可能量抽样分布的数学期望等于被可能的总体参数)、有效性(对同一总体参数的两个无偏点可能量,有更小标准差的可能量更有效)和一致性(随着样本容量的增大,可能量的值越来越

7、接近被可能的总体参数)。5、区间可能:在点可能的基础上,给出总体参数可能的一个区间范围,该区间由样本统计量加减可能误差而得到。依照样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。7、置信水平:将构造置信区间的步骤重复专门多次,置信区间包含总体参数真值的次数所占的比例称为置信水平。表示为,为是总体参数未在区间内的比例,常用的置信水平值有99%, 95%, 90%,相应的为0.01,0.05,0.10。8、置信区间:由样本统计量所构造的总体参数的可能区间称为置信区间。用一个具体的样本所构造的区间是一个特定的区间,我们无法明白那个样本所产生的区间是否包含总体参数的真值我们只

8、能是希望那个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个。9、阻碍区间宽度的因素:(1)总体数据的离散程度,用 来测度。(2)样本容量n,。(3)置信水平,阻碍 z 的大小。10总体均值的区间可能(大样本)1.假定条件总体服从正态分布, 且方差() 已知假如不是正态分布,可由正态分布来近似 (n 30)使用正态分布统计量 z 总体均值 在1- 置信水平下的置信区间为总体均值的区间可能(正态总体、未知、小样本)1.假定条件总体服从正态分布,但方差() 未知小样本 (n ”或“”的假设检验,称为单侧检验或单尾检验(one-tailed test)。备择

9、假设的方向为“”,称为右侧检验。7、假设检验中的两类错误:第类错误(弃真错误),原假设为正确时拒绝原假设,第类错误的概率记为;第类错误(取伪错误),原假设为错误时未拒绝原假设,第类错误的概率记为。和 的关系就像翘翘板,小 就大, 大 就小,要同时减少两类错误的惟一方法是增加样本容量。由于犯第类错误的概率是能够由研究者操纵的,因此在假设检验中,人们往往先操纵第类错误的发生概率。8、阻碍 错误的因素:总体参数的真值;显著性水平;总体标准差 ;样本容量 n。9、检验能力:正确拒绝一个错误的原假设的能力。 是指没有拒绝一个错误的原假设的概率。这也确实是讲,1- 则是指拒绝一个错误的原假设的概率,那个概

10、率被称为检验能力,也被称为检验的势或检验的功效。10、显著性水平:表示总体中某一类数据出现的经常程度。是一个概率值,原假设为真时,拒绝原假设的概率,即抽样分布的拒绝域。表示为 ,常用的 值有0.01, 0.05, 0.10,由研究者事先确定。11、拒绝原假设,表示如此的样本结果并不是偶然得到的;不拒绝原假设(拒绝原假设的证据不充分) ,则表示如此的样本结果只是偶然得到的。12、检验统计量:依照样本观测结果计算得到的,并据以对原假设和备择假设做出决策的某个样本统计量。13、P 值被称为观看到的(或实测的)显著性水平。决策规则:若p值, 拒绝 H0。14、P 值决策与统计量的比较:用P值进行检验比

11、依照统计量检验提供更多的信息;统计量检验是我们事先给出的一个显著性水平,以此为标准进行决策,无法明白实际的显著性水平究竟是多少。15、假设检验步骤:(1)陈述原假设和备择假设(2)从所研究的总体中抽出一个随机样本(3)确定一个适当的检验统计量,并利用样本数据算出其具体数值(4)确定一个适当的显著性水平,并计算出其临界值,指定拒绝域(5)将统计量的值与临界值进行比较,做出决策第四章 非参数检验1、无需假定总体分布的具体形式,仅仅依靠于数据观测值的相对大小(秩)或零假设下等可能的概率等和数据本身的具体总体分布无关的性质进行的检验都称为非参数检验。参数检验与非参数检验的比较:在总体分布形式已知时,非

12、参数检验不如传统方法效率高。这是因为非参数方法利用的信息要少些。往往在传统方法能够拒绝零假设的情况,非参数检验无法拒绝。但非参数统计在总体未知时效率要比传统方法要高,有时要高专门多。是否用非参数统计方法,要依照对总体分布的了解程度来确定。2. 单样本非参数检验的方法(1)卡方检验卡方拟合优度检验的原理与计算步骤原理:推断样本观看频数(Observed frequency)与理论(期望)频数(Expected frequency )之差是否由抽样误差所引起。计算步骤:(1) :样本的总体分布与该理论分布无区不 :样本与该理论分布有区不 (2)列出各组的实际频数与理论频数 (3) Pearson

13、统计量 自由度 v = k-1-(计算理论分布时所用参数的个数)(4) 确定概率并作出统计推论。拟合优度卡方检验的问题分组不同,拟合的结果可能不同。需要有足够的样本含量。关于连续型变量的拟合优度,卡方检验并不是理想的方法。 (2)二项分布检验(3)K-S检验查找最大距离(Distance),因此常简称为D法。适用于大样本。具体做法: 比较实际频数与理论频数的累积概率间的差距,找出最大距离D,依照D值来推断实际频数分布是否服从理论频数分布。2、单样本非参检验方法的比较:(1)卡方检验一般要求待检验样本有较大的样本容量,比较适合于分析实际频数与某理论频数是否相符。(2)二项分布检验只能作二项分布检

14、验。(3)单样本K-S检验比较适合于连续型数据的分析,其检验功效比较强。二、关于随机性的游程检验(run test) 游程检验方法是检验一个取两个值的变量的这两个值的出现是否是随机的。假定下面是由0和1组成的一个这种变量的样本:0 0 0 0 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0其中相同的0(或相同的1)在一起称为一个游程(单独的0或1也算)。那个数据中有4个0组成的游程和3个1组成的游程。一共是R=7个游程。其中0的个数为m=15,而1的个数为n=10。 3、两个独立样本的非参数检验:在对总体分布不了解的情况下,通过分析样本数据,推断样本来自的两

15、个独立总体的分布是否存在显著差异,一般推断两个独立总体的均值或中位数是否存在显著差异。方法:(1)Wilcoxon-Mann-Whitney U检验 (2)两独立样本的KS检验(3)两独立样本的游程检验(Wald-Wolfwitz Runs)(4)两独立样本的极端反应检验(Moses Extreme Reactions)4、多个独立样本的非参数检验:在对总体分布不了解的情况下,通过分析样本数据,推断样本来自的多个独立总体的分布是否存在显著差异,一般推断多个独立总体的均值或中位数是否存在显著差异。方法:(1)KW检验(2)中位数检验 (3)Jonkheere-Terpstra检验5、两配对样本的

16、非参数检验:在对总体分布不了解的情况下,通过分析样本数据,推断样本来自的两个相关配对总体的分布是否存在显著差异。方法:(1)McNcmar变化显著性检验:将研究对象自身作为对比者,检验其“前后”的变化是否显著。要求样本数据是二值。(2)符号检验(3)Wilcoxon符号平均秩检验列联表6、相关系数:22 列联表中数据的相关程度,绝对值在 01之间。列联相关系数:大于 22 列联表中数据的相关程度,0 C 1。V 相关系数:V 的取值范围为 0 V 1,V = 0 表明列联表的两个变量独立,V1 则表明两个变量完全相关。第五章 方差分析1、方差分析是通过对误差的分析,检验多个总体均值是否相等的一

17、种统计方法。它分为单因素方差分析和双因素方差分析。方差分析通过对数据误差来源的分析推断不同总体的均值是否相等。因此,进行方差分析时,需要考察数据误差的来源。2、两类误差:随机误差和系统误差。3、组内平方和:因素的同一水平下数据误差的平方和,只包含随机误差。组间平方和:因素的不同水平之间数据误差的平方和,既包括随机误差,也包括系统误差。均方:平方和除以相应的自由度。4、方差分析的差不多假定:(1)每个总体都应服从正态分布(2)各个总体的方差必须相同(3)观看值是独立的5、单因素方差分析步骤:(1)提出假设(2)构造检验统计量(3)统计决策6、构造统计量需要计算:水平的均值;全部观看值的总均值;误

18、差平方和;均方。7、变量间关系的强度用自变量平方和(SSA) 占总平方和(SST)的比例大小来反映,记为R2。其平方根R就能够用来测量两个变量之间的关系强度。8、多重比较(通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异)的步骤:(1)提出假设。(2)计算检验的统计量()。(3)计算LSD。(4)做成决策决策。9、双因素方差分析:按两个因素对试验结果的阻碍是否相互独立分为无交互作用的双因素方差分析或无重复双因素方差分析和有交互作用的双因素方差分析或可重复双因素方差分析。第七章 相关分析与回归分析1、变量之间的两类关系:确定性关系(函数关系)和非确定性关系(相关关系)。相关关系分

19、为:线性相关和非线性相关;完全相关和不相关。线性相关和完全相关又可分为正相关和负相关。2、在进行相关分析时,对总体有以下两个要紧假定:两个变量之间是线性关系和两个变量差不多上随机变量。3、相关系数(correlation coefficient):度量变量之间关系强度的一个统计量。对两个变量之间线性相关强度的度量称为简单相关系数。若相关系数是依照总体全部数据计算的,称为总体相关系数,记为。若相关系数是依照样本数据计算的,则称为样本相关系数,简称为相关系数,记为 r,也称为线性相关系数(linear correlation coefficient) 或称为Pearson相关系数 (Pearson

20、s correlation coefficient) 。4、相关系数的性质(1)r 的取值范围是 -1,1,|r|越趋于1表示关系越强;|r|越趋于0表示关系越弱,r = 0,不存在线性相关关系。(2)r具有对称性。即x与y之间的相关系数和y与x之间的相关系数相等,即rxy= ryx。(3)r数值大小与x和y原点及尺度无关,即改变x和y的数据原点及计量尺度,并不改变r数值大小。(4)仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。这意味着, r=0只表示两个变之间不存在线性相关关系,并不讲明变量之间没有任何关系。(5)r尽管是两个变量之间线性关系的一个度量,却不一定意味着x与y一

21、定有因果关系。5、相关系数的经验解释:|r|0.8时,可视为两个变量之间高度相关;0.5|r|0.8时,可视为中度相关;0.3|r|0.5时,视为低度相关;|r|t,拒绝H0;若tF ,拒绝H0;若FF ,不拒绝H0)。第九、十章 主成分分析和因子分析1、主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。基于相关系数矩阵依旧基于协方差矩阵做主成分分析。假如变量有不同的量纲,则必须基于相关系数矩阵进行主成分分析。不同的是计算得分时应采纳标准化后的数据。主成分应满足如下的条件:(1)每个主成分的系数平方和为1。(2)主成分之间相互独立,即无重叠的信息。(3)主成分的方差依次递减,重要性依次递减。主成分的性质一、均值二、方差为所有特征根之和 讲明主成分分析把P个随机变量的总方差分解成为P个不相关的随机变量的方差之和。 协方差矩阵的对角线上的元素之和等于特征根之和。2、主成分个数的选取:(1)累积贡献率达到85%以上(2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论