统计学重点整理_第1页
统计学重点整理_第2页
统计学重点整理_第3页
统计学重点整理_第4页
统计学重点整理_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、参数(parameter):描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值。所关心的参数主要有总体均值、标准差、总体比例等。总体参数通常用希腊字母表示统计量(statistic):用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数。所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等。样本统计量通常用小写英文字母表示1、概率抽样:简单随机抽样(SRS、系统抽样(SYS、分层抽样(STS、整群抽样(STS、 多阶段抽(MSS)简单随机抽样(SRS特点:总体中每一个样本点均有相同机率被抽中、抽出某个样本后不影响另一个样本抽出的机率(

2、独立性)、经常先列样本名册后用计算机产生随机数或随机表抽选放回和不放回:放回(重复)抽样;无放回(不重复)抽样系统抽样(SYS等距抽样:将所有样本列册以序号排列, 先随机抽取第一个样本, 接着每隔K个样本抽取下 一个样本;间隔 K的求法:Population size/ Sample size; 常用于电话抽样 (类似于简单随 机抽样)分层抽样(STS将总体区分为数个层(strata):层之间互斥且周延、层内性质相近、层与层之间差异明显从每一层中简单随机抽取若干样本作为该层的代表,再将所有层总结集合整群抽样(STS将总体区分为多个群集clusters :群集间互斥且周延、群集与群集间差异小、群

3、集内类似总体随机抽取数个clusters将抽中的群集内每个样本均调查多阶段抽样(MSS)第一阶段:分群一一整群抽样第二阶段:分层一一分层抽样第三阶段,整群抽样的优点是实施方便、节省经费;整群抽样的缺点是往往由于不同群之间的差异较大,由此而引起的抽样误差往往大于简单随机抽样。2、抽样所产生的误差:抽样误差 (sampling error)和非抽样误差(non-sampling error)抽样误差(理论上不可避免):由于抽样的随机性所带来的误差(偶然性)所有样本可能的结果与总体真值之间的平均性差异影响抽样误差大小的因素:样本量的大小、总体的变异性普查无抽样误差,但是普查误差可能比抽样误差大非抽样

4、误差:除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异存在于所有的调查之中:概率抽样,非概率抽样,全面性调查包括:抽样框误差、回答误差、无回答误差、调查员误差、测量误差回答误差:理解误差、记忆误差、有意识误差无回答误差:应答率的问题:酒吧打架致死事件,90%是被打死的那个人先动手的?误差的控制抽样误差可计算和控制非抽样误差的控制:合理选择抽样框、改良问卷、调查过程控制(调查结果进行检验、评估; 现场调查人员进行奖惩的制度)茎叶图Stem-and-leaf plot for YEAR(结婚年龄)(唯一一个没有丢失原始数据的统计表)3、画表的一般原则:合理安排统计表的结构、总标

5、题内容应满足3W要求、数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明、表中的上下两条横线一般用粗线,其他线用细线、通常情况下,统计表的左右两边不封口、表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一、对于没有数字的表格单元,一般用“一” 表示、必要时可在表的下方加上注释4、集中趋势表示:均值、中位数、众数、几何平均数众数:出现次数最多的变量值不受极端值的影响、 一组数据可能没有众数或有几个众数、主要用于定性数据,也可用于定量数据未分组数据:无众数(原始数据:1 2 3 4 5 6 7 )、一个众数(原始数据:1 233 34 5 )、多

6、于一个众数(原始数据:1 23 3 44 5,此时众数为二者平均3.5)分组数据:先在次数表中找出次数最多的那一组,称为众数组 ,一般以Mo来表示。若 取众数组的组中点为众数,则称为粗众数。Czuber插补法中位数(median):将一组数字由大排至小,位居中间的数值为该组数字的中位数。一般以Me来表示各观察值与中位数差异的绝对值总和为最小。以下列公式求出中位数:均值(mean):集中趋势的最常用测度值、一组数据的均衡点所在事实上,各个观察值与平均数差的总和为0、各个观察值与平均数差的平方和为最小几何平均数(geometric mean) : n个变量值乘积的 n次方根数据必须为正值才能计算几

7、何平均数主要用于计算平均百分比(percentages)、比率(ratios)指数(indexes)成长率(growth rates)的计算分位数:除了将数据作半切割外,我们也可以将数据切成四等分、十等分、或一百等分切尾均值(trimmed Mean):去掉大小两端的若干数值后计算中间数据的均值离散趋势:极差(四分位距)、方差(总体方差样本方差)、标准差(总体标准差、样本标准差)、离散系数四分位距(Interquartile Range ):也称为内距。上四分位数与下四分位数之差( IQR = Q3 -Q1)反映了中间50%数据的离散程度。不受极端值的影响离散系数(coefficient of

8、 variation CV):标准差与其相应的均值之比分布偏度与峰度的测度偏度(skewness): Pearson于1895年首次提出。数据分布偏斜程度的测度:偏态系数=0为对称分布偏态系数 0为左偏分布偏态系数 0为右偏分布峰度(kurtosis) : Pearson于1905年首次提出。数据分布扁平程度的测度峰态系数=0扁平峰度适中峰态系数0为扁平分布峰态系数0为尖峰分布统计量的分布就是抽样分布标准误(error):统计量的标准差.样本均数的标准差。5、影响区间宽度的因素总体数据的离散程度,用 s来测度样本容量置信水平(1 - a),影响z的大小抽样组织形式抽样方法计算题6、如何正确理解

9、置信区间由样本估计量所构造的总体参数的估计区间称为置信区间。统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值。我们只能是希望这个区间是大量包含总体参数真值的区间中的一个, 但它也可能是少数几个不包含参数真值的区间中的一个。置信区间又称为估计区间,是用来估计参数的适用范围的。其值是一个变量本身所具有的真实值。置信区间展现的是这个参数真值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度。7、抽样n需要考虑的因素(1)研究对象的变化程度、(2

10、)所要求或允许的误差大小(即精度要求)、(3)要求推断的置信程度。也就是说,当所研究的现象越复杂,差异越大时,样本容量要求越大;当要求的精度越高,可推断性要求越高时,样本量越大。样本容量n与总体方差?2、边际误差E、可靠性系数Z或t之间的关系为8、第一类错误(弃真错误):原假设为真时拒绝原假设。第一类错误的概率为a a,即显著性水平;(1 5 a )则置信水平第二类错误(取伪错误),原假设为假时没有拒绝原假设。第二类错误的概率为3 b(Beta)在其他条件不变的情况下,减少犯第一类的可能性势必增加犯第二类错误的可能性,反之必然。=, =3:w 1, 原假设:研究者想收集证据予以反对的假设。总是

11、有等号 备择假设:研究者想收集证据予以支持的假设。总是有不等号9、P 值:如果原假设为真,P-值是抽样分布中大于或小于样本统计量的概率左侧检验时,P-值为曲线上方小于等于检验统计量部分的面积 右侧检验时,P-值为曲线上方大于等于检验统计量部分的面积 P值常常作为观察到额数据域原假设不一致程度的度量。统计量检验采用事先确定显著性水平a,来控制犯第一类错误的上限,P值可以有效的补充 a提供的关于检验可靠性的有限信息。P值检验的优点在于,他提供了更多的信息,让人们可以选择一定的水平来评估结果是否具 有统计上的显著性。如果P值越小,则我们可以拒绝原假设 计算题10、相关与回归的关系相关分析与回归分析区

12、别:(1)相关分析中,变量 x变量y处于平等的地位;回归分析中,变量y称为因变量,处在被解释白地位,x称为自变量,用于预测因变量的变化(2)相关分析中所涉及的变量 x和y都是随机变量;回归分析中,因变量y是随机变量, 自变量x可以是随机变量,也可以是非随机的确定变量回归分析不仅可以揭示变量(3)相关分析主要是描述两个变量之间线性关系的密切程度; 对变量y的影响大小,还可以由回归方程进行预测和控制 相关分析与回归分析联系(1)理论和方法具有相似性;(2)无相关就无回归,相关程度越高,回归越好(3)线性回归时,相关系数和回归系数方向一致,可以互相推算回归系数含义是说当其他因素不变时自变量的以单位变

13、化引起的因变量的变化程度计算题可决系数(coefficient of determination )可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,模型拟合优度越好。反之可决系数小,说明模型对样本观测值的拟合程度越差。可决系数是测定多个变量间相关关系密切程度的统计分析指标,它也是反映多个自变量对因变量的联合的影响程度。可决系数越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。判定系数为可解释变异量占总变异量的比例,表示X对Y的变异之解释能力。R2愈大,表示X对Y的解释能力愈强可决系数有如下特点:.可决系数是非负的统计量.可决系数的取值范围:0=E2=1.可

14、决系数是样本观测值的函数,可决系数RA2是随机抽样而变动的随机变量。为此,对可决系数的统计可靠性也应进行检验。未知数,可用样本 s代替,从而得到t分布t检验总体斜率时间数列的基本要素:时间和指标数值 发展速度:环比发展速度、定基发展速度关系:定期发展速度(总速度)=相应时期的环比发展速度之积。两个相邻的定基发展速度,用后者除以前者,等于相应的环比发展速度。增长速度:环比增长速度*比发展速度一1定基增长速度=定基发展速度一1平均增长速度=平均发展速度 一1平均发展速度的计算几何平均法(水平法)以 xi表示环比发展速度,根据环比发展速度与总速度的关系,计算 平均发展速度应该采用几何平均法:时间序列

15、及其的构成要素(1)长期趋势T (A图)现象在较长时期内持续发展变化的一种趋向或状态;由影响时间序列的基本因素作用形成;是时间序列中最基本的构成要素;可分为上升趋势、下降趋势、水平趋势(2)季节变动S (B图)是一种使现象以一定时期(如一年、一月、一周等)为一周期呈现较有规律的上升、下降交 替运动的影响因素。通常表现为现象在一年内随着自然季节的更替而发生的较有规律的增减变化,有旺季和淡季之分;是一种周期性的变化;周期长度小于一年;形成原因一一有自然因素,也有人为因素(3)循环变动C (C图)这种因素的影响使现象呈现出以若干年为一周期、涨落相间、扩张与紧缩、波峰与波谷相交替的波动。 不同于长期趋

16、势:表现为单一方向的持续变动、C表现为波浪式的涨落交替的变动。又不同于季节周期:周期长度不同、模型识别的难易程度不同、形成原因不同(4)不规则变动I包括随机变动和突然变动。随机变动一现象受到各种偶然因素影响而呈现出方向不定、时起时伏、时大时小的变动,突然变动一战争、自然灾害或其它社会因素等意外事件引起的变动。影响作用无法相互抵消, 影响幅度很大。一般只讨论有随机波动而不含突然异常变动的情况。测量长期趋势的几种方法:移动平均方式、指数平滑法、二次曲线、指数曲线11、测定季节变动的意义(1)分析与测定过去的季节变动规律(2)对未来现象季节变动作出预测(3)消除季节变动对时间序列的影响方法:原始资料平均法:计算各年同期(月或季)的平均数计算全部数据的总平均数计算季节比率季节比率特性:其总和等于季节周期L (=12或=4)12、同度量因素原理:(1)引入同度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论