应用统计分析经典复习笔记(doc 10页).doc_第1页
应用统计分析经典复习笔记(doc 10页).doc_第2页
应用统计分析经典复习笔记(doc 10页).doc_第3页
应用统计分析经典复习笔记(doc 10页).doc_第4页
应用统计分析经典复习笔记(doc 10页).doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用统计分析复习笔记BY 东海 2009年12月1日星期二第一章 导论1、统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。内容:收集数据(取得数据);处理数据(整理与图表展示);分析数据(利用统计方法分析数据);数据解释(结果的说明);得到结论(从数据分析中得出客观结论)。2、统计研究的循环过程:实际问题收集数据处理数据分析数据数据解释实际问题。统计方法描述统计推断统计参数估计假设检验点估计区间估计4、描述统计:研究数据收集、整理和描述的统计学分支。内容:收集数据;整理数据;展示数据;描述性分析。目的:描述数据特征;找出数据的基本规律。5、推断统计:研究如何利用样本数据来推断总体特征的统计学分支。内容:参数估计;假设检验。目的:对总体特征做出推断。6、描述统计与推断统计的关系:反映客观现象的数据总体内在的数量规律性推断统计(利用样本信息和概率论对总体的数量特征进行估计和检验等)概率论(分布理论、大数定律和中心极限定理等)描述统计(数据的收集、整理、显示和分析等)总体数据样本数据7、统计数据的类型(1)按计量层次:分类数据、顺序数据、数值型数据(2)按收集方法:观测数据和实验数据(3)按时间状况:截面数据和时间序列数据8、总体:所研究的全部个体(数据) 的集合,其中的每一个个体也称为元素。分为有限总体和无限总体。样本:从总体中抽取的一部分元素的集合。构成样本的元素的数目称为样本容量或样本量。9、参数:描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值。所关心的参数主要有总体均值(m)、标准差(s)、总体比例(p)等。总体参数通常用希腊字母表示。10、统计量:用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数。所关心的样本统计量有样本均值()、样本标准差(s)、样本比例(p)等。样本统计量通常用小写英文字母来表示。变量:说明现象某种特征的概念,如商品销售额、受教育程度、产品的质量等级等。变量的具体表现称为变量值,即数据变量可以分为:(1)分类变量(说明事物类别的名称)、顺序变量(说明事物有序类别的名称)和数值型变量(说明事物数字特征的名称)。其中数值型变量又分离散变量(取有限个值)和连续变量(可以取无穷多个值)。(2)经验变量(所描述的是我们周围可以观察到的事物)和理论变量(由统计学家用数学方法所构造出来的一些变量,比如,z 统计量、t 统计量、c2统计量、F 统计量等)。(3)随机变量和非随机变量。11、随机现象的一个特点是:不确定性。随机现象也存在其固有的量的规律性,人们把这一规律性称为随机现象的统计规律性。 对随机现象的观察称为随机试验,并简称试验,用以研究随机现象的统计规律性。随机试验的特点:可重复性、可观察性和随机性。统计中的抽样过程其实就是一次随机试验。因而可以利用概率论的技巧来分析推断统计方法。而样本其实就是随机变量。12、常见分布:二项分布、几何分布、指数分布、正态分布。13、统计学中泛称统计量(或枢轴量)的分布为抽样分布。讨论抽样分布的途经有两种:1)精确地求出抽样分布,并称相应地统计推断为小样本统计推断;2) 让样本容量趋于无穷,并求出抽样分布的极限分布。以极限分布作为抽样分布的近似分布,来对未知参数进行统计推断,称相应的推断为大样本统计推断。14、典型的统计软件:SPSS、MINITAB、STATISTICA、Excel和SAS。第二章 参数估计1、估计量:用于估计总体参数的随机变量。如样本均值,样本比例、样本方差等。例如:样本均值就是总体均值的一个估计量。参数用q 表示,估计量用表示。估计值:估计参数时计算出来的统计量的具体值。如果样本均值=80,则80就是m的估计值。2、估计方法:点估计和区间估计。其中点估计的方法包括矩估计法、顺序统计量法、最大似然法、最小二乘法。3、点估计:用样本的估计量的某个取值直接作为总体参数的估计值,例如:用样本均值直接作为总体均值的估计。一个点估计量的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量。4、评价估计量的标准:无偏性(估计量抽样分布的数学期望等于被估计的总体参数)、有效性(对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效)和一致性(随着样本容量的增大,估计量的值越来越接近被估计的总体参数)。5、区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到。根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。7、置信水平:将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平。表示为) ,为是总体参数未在区间内的比例 ,常用的置信水平值有99%, 95%, 90%,相应的为0.01,0.05,0.10。8、置信区间:由样本统计量所构造的总体参数的估计区间称为置信区间。用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个。9、影响区间宽度的因素:(1)总体数据的离散程度,用s 来测度。(2)样本容量n,。(3)置信水平,影响 z 的大小。10总体均值的区间估计(大样本)1.假定条件 总体服从正态分布, 且方差(s) 已知 如果不是正态分布,可由正态分布来近似 (n 30)2. 使用正态分布统计量 z 3. 总体均值 m 在1-a 置信水平下的置信区间为总体均值的区间估计(正态总体、s未知、小样本)1.假定条件 总体服从正态分布,但方差(s) 未知 小样本 (n 30)2. 使用 t 分布统计量3. 总体均值m在1-a置信水平下的置信区间为11、t 分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布。待估参数均值比例方差大样本小样本大样本c2分布s2已知s2已知Z分布s2未知Z分布Z分布Z分布s2未知t分布估计总体均值时样本容量的确定1. 估计总体均值时样本容量n为其中:2. 样本容量n与总体方差s 2、边际误差E、可靠性系数Z或t之间的关系为 与总体方差成正比 与边际误差的平方成反比 与可靠性系数成正比3. 样本容量的圆整法则:当计算出的样本容量不是整数时,将小数点后面的数值一律进位成整数,如24.68取25,24.32也取25等等第三章 假设检验1、假设:对总体的统计特征所作的陈述。总体统计特征跟参数有关,称为参数假设检验,如:总体均值、比例、方差等;总体统计特征跟参数无关,称为非参数假设检验。假设检验:先对总体的统计特征提出某种假设,然后利用样本信息判断假设是否成立的过程。有参数检验和非参数检验。逻辑上运用反证法,统计上依据小概率原理。2、原假设:研究者想收集证据予以反对的假设,又称“0假设”,表示为H0。H0 :m =某一数值,指定为符号=, 或 。3、为什么叫 0 假设?之所以用零来修饰原假设,其原因是原假设的内容总是表示没有差异或没有改变,或变量间没有关系等等。零假设总是一个与总体参数有关的问题,所以总是用希腊字母表示。4、备择假设:研究者想收集证据予以支持的假设,也称“研究假设”。表示为 H1,总是有符号 ,。5、提出假设:一般的,原假设和备择假设是一个完备事件组,而且相互对立;先确定备择假设,再确定原假设;等号“=”总是放在原假设上;因研究目的不同,对同一问题可能提出不同的假设(也可能得出不同的结论)。6、备择假设没有特定的方向性,并含有符号“”的假设检验,称为双侧检验或双尾检验(two-tailed test) 。备择假设具有特定的方向性,并含有符号“”或“”的假设检验,称为单侧检验或单尾检验(one-tailed test)。备择假设的方向为“”,称为右侧检验。7、假设检验中的两类错误:第类错误(弃真错误),原假设为正确时拒绝原假设,第类错误的概率记为a;第类错误(取伪错误),原假设为错误时未拒绝原假设,第类错误的概率记为b 。a和b 的关系就像翘翘板,a小b 就大, a大b 就小,要同时减少两类错误的惟一办法是增加样本容量。由于犯第类错误的概率是可以由研究者控制的,因此在假设检验中,人们往往先控制第类错误的发生概率。8、影响 b 错误的因素:总体参数的真值;显著性水平a;总体标准差 s;样本容量 n。9、检验能力:正确拒绝一个错误的原假设的能力。b 是指没有拒绝一个错误的原假设的概率。这也就是说,1-b 则是指拒绝一个错误的原假设的概率,这个概率被称为检验能力,也被称为检验的势或检验的功效。10、显著性水平:表示总体中某一类数据出现的经常程度。是一个概率值,原假设为真时,拒绝原假设的概率,即抽样分布的拒绝域。表示为 a ,常用的 a 值有0.01, 0.05, 0.10,由研究者事先确定。11、拒绝原假设,表示这样的样本结果并不是偶然得到的;不拒绝原假设(拒绝原假设的证据不充分) ,则表示这样的样本结果只是偶然得到的。12、检验统计量:根据样本观测结果计算得到的,并据以对原假设和备择假设做出决策的某个样本统计量。13、P 值被称为观察到的(或实测的)显著性水平。决策规则:若p值a, 拒绝 H0。14、P 值决策与统计量的比较:用P值进行检验比根据统计量检验提供更多的信息;统计量检验是我们事先给出的一个显著性水平,以此为标准进行决策,无法知道实际的显著性水平究竟是多少。15、假设检验步骤:(1)陈述原假设和备择假设(2)从所研究的总体中抽出一个随机样本(3)确定一个适当的检验统计量,并利用样本数据算出其具体数值(4)确定一个适当的显著性水平,并计算出其临界值,指定拒绝域(5)将统计量的值与临界值进行比较,做出决策第四章 非参数检验1、无需假定总体分布的具体形式,仅仅依赖于数据观测值的相对大小(秩)或零假设下等可能的概率等和数据本身的具体总体分布无关的性质进行的检验都称为非参数检验。参数检验与非参数检验的比较: 在总体分布形式已知时,非参数检验不如传统方法效率高。这是因为非参数方法利用的信息要少些。往往在传统方法可以拒绝零假设的情况,非参数检验无法拒绝。 但非参数统计在总体未知时效率要比传统方法要高,有时要高很多。是否用非参数统计方法,要根据对总体分布的了解程度来确定。2. 单样本非参数检验的方法(1)卡方检验卡方拟合优度检验的原理与计算步骤原理:判断样本观察频数(Observed frequency)与理论(期望)频数(Expected frequency )之差是否由抽样误差所引起。计算步骤:(1) :样本的总体分布与该理论分布无区别 :样本与该理论分布有区别 (2)列出各组的实际频数与理论频数 (3) Pearson 统计量 自由度 v = k-1-(计算理论分布时所用参数的个数)(4) 确定概率并作出统计推论。l 拟合优度卡方检验的问题1. 分组不同,拟合的结果可能不同。2. 需要有足够的样本含量。对于连续型变量的拟合优度,卡方检验并不是理想的方法。 (2)二项分布检验(3)K-S检验 寻找最大距离(Distance),所以常简称为D法。 适用于大样本。具体做法: 比较实际频数与理论频数的累积概率间的差距,找出最大距离D,根据D值来判断实际频数分布是否服从理论频数分布。2、单样本非参检验方法的比较:(1)卡方检验一般要求待检验样本有较大的样本容量,比较适合于分析实际频数与某理论频数是否相符。(2)二项分布检验只能作二项分布检验。(3)单样本K-S检验比较适合于连续型数据的分析,其检验功效比较强。二、关于随机性的游程检验(run test) 游程检验方法是检验一个取两个值的变量的这两个值的出现是否是随机的。假定下面是由0和1组成的一个这种变量的样本: 0 0 0 0 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0 其中相同的0(或相同的1)在一起称为一个游程(单独的0或1也算)。 这个数据中有4个0组成的游程和3个1组成的游程。一共是R=7个游程。其中0的个数为m=15,而1的个数为n=10。 3、两个独立样本的非参数检验:在对总体分布不了解的情况下,通过分析样本数据,推断样本来自的两个独立总体的分布是否存在显著差异,一般推断两个独立总体的均值或中位数是否存在显著差异。方法:(1)Wilcoxon-Mann-Whitney U检验 (2)两独立样本的KS检验(3)两独立样本的游程检验(Wald-Wolfwitz Runs)(4)两独立样本的极端反应检验(Moses Extreme Reactions)4、多个独立样本的非参数检验:在对总体分布不了解的情况下,通过分析样本数据,推断样本来自的多个独立总体的分布是否存在显著差异,一般推断多个独立总体的均值或中位数是否存在显著差异。方法:(1)KW检验(2)中位数检验 (3)Jonkheere-Terpstra检验5、两配对样本的非参数检验:在对总体分布不了解的情况下,通过分析样本数据,推断样本来自的两个相关配对总体的分布是否存在显著差异。方法:(1)McNcmar变化显著性检验:将研究对象自身作为对照者,检验其“前后”的变化是否显著。要求样本数据是二值。(2)符号检验(3)Wilcoxon符号平均秩检验列联表6、相关系数j:22 列联表中数据的相关程度,绝对值在 01之间。列联相关系数:大于 22 列联表中数据的相关程度,0 C 1。V 相关系数:V 的取值范围为 0 V 1,V = 0 表明列联表的两个变量独立,V1 则表明两个变量完全相关。第五章 方差分析1、方差分析是通过对误差的分析,检验多个总体均值是否相等的一种统计方法。它分为单因素方差分析和双因素方差分析。方差分析通过对数据误差来源的分析判断不同总体的均值是否相等。因此,进行方差分析时,需要考察数据误差的来源。2、两类误差:随机误差和系统误差。3、组内平方和:因素的同一水平下数据误差的平方和,只包含随机误差。组间平方和:因素的不同水平之间数据误差的平方和,既包括随机误差,也包括系统误差。均方:平方和除以相应的自由度。4、方差分析的基本假定:(1)每个总体都应服从正态分布(2)各个总体的方差必须相同(3)观察值是独立的5、单因素方差分析步骤:(1)提出假设(2)构造检验统计量(3)统计决策6、构造统计量需要计算:水平的均值;全部观察值的总均值;误差平方和;均方。7、变量间关系的强度用自变量平方和(SSA) 占总平方和(SST)的比例大小来反映,记为R2。其平方根R就可以用来测量两个变量之间的关系强度。8、多重比较(通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异)的步骤:(1)提出假设。(2)计算检验的统计量()。(3)计算LSD。(4)做成决策决策。9、双因素方差分析:按两个因素对试验结果的影响是否相互独立分为无交互作用的双因素方差分析或无重复双因素方差分析和有交互作用的双因素方差分析或可重复双因素方差分析。第七章 相关分析与回归分析1、变量之间的两类关系:确定性关系(函数关系)和非确定性关系(相关关系)。相关关系分为:线性相关和非线性相关;完全相关和不相关。线性相关和完全相关又可分为正相关和负相关。2、在进行相关分析时,对总体有以下两个主要假定:两个变量之间是线性关系和两个变量都是随机变量。3、相关系数(correlation coefficient):度量变量之间关系强度的一个统计量。对两个变量之间线性相关强度的度量称为简单相关系数。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为r。若相关系数是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为 r,也称为线性相关系数(linear correlation coefficient) 或称为Pearson相关系数 (Pearsons correlation coefficient) 。4、相关系数的性质(1)r 的取值范围是 -1,1,|r|越趋于1表示关系越强;|r|越趋于0表示关系越弱,r = 0,不存在线性相关关系。(2)r具有对称性。即x与y之间的相关系数和y与x之间的相关系数相等,即rxy= ryx。(3)r数值大小与x和y原点及尺度无关,即改变x和y的数据原点及计量尺度,并不改变r数值大小。(4)仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。这意味着, r=0只表示两个变之间不存在线性相关关系,并不说明变量之间没有任何关系。(5)r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系。5、相关系数的经验解释:|r|0.8时,可视为两个变量之间高度相关;0.5|r|0.8时,可视为中度相关;0.3|r|0.5时,视为低度相关;|r|t2/a,拒绝H0;若|t|F a,拒绝H0;若FF a,不拒绝H0)。第九、十章 主成分分析和因子分析1、主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。基于相关系数矩阵还是基于协方差矩阵做主成分分析。如果变量有不同的量纲,则必须基于相关系数矩阵进行主成分分析。不同的是计算得分时应采用标准化后的数据。主成分应满足如下的条件:(1)每个主成分的系数平方和为1。(2)主成分之间相互独立,即无重叠的信息。(3)主成分的方差依次递减,重要性依次递减。主成分的性质一、均值二、方差为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论