《统计学》总复习_第1页
已阅读1页,还剩96页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关于期末考试考试内容:教材第1-7章+第11章(重点考察第三、四、五章)考试时间:1月13日13:30----15:30试题类型:

一、填空题(5个题,考察所有学过的内容)二、选择题(10题,单项选择)三、判断题(8题,正确的T,错误用F)四、简答题(4个题,主要来自第二、三、四、五章)五、计算题(6个题,主要来自第四章、第五章)

注意:考试时请携带计算器简答题可能范围统计数据可分为哪几种类型?不同类型的数据各有什么特点?比较概率抽样和非概率抽样特点。并说明什么时候使用概率抽样,什么时候适用非概率抽样?分类数据和顺序数据的整理和图示方法有哪些?直方图与条形图的区别。一组数据的分布特征可以从哪几个方面进行测度?简述众数、中位数、平均数的特点及应用场合。独立性、互斥性的关系。正态分布、泊松分布在实际生活中的例子。复习推断统计

(inferentialstatistics)研究如何利用样本数据来推断总体特征的统计方法内容参数估计假设检验目的对总体特征作出推断样本总体重点掌握的几个概念总体与样本总体:所研究的全部个体(数据)的集合,其中的每一个个体也称为元素样本:从总体中抽取的一部分元素的集合参数与统计量参数:描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值所关心的参数主要有总体均值(

)、标准差(

)、总体比例(

)等统计量:用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数所关心的样本统计量有样本均值(

x)、样本标准差(s)、样本比例(p)等第1章

导论复习要点统计数据的类型1.2统计数据的类型统计数据的分类按测量尺度分类数据顺序数据数值型数据按时间状况截面数据时间序列数据按收集方法观测数据实验数据1.2.1分类数据、顺序数据和数值型数据分类数据(categoricaldata)

只能归于某一类别的非数字型数据对事物进行分类的结果,数据表现为类别,用文字来表述例如,人口按性别分为男、女两类顺序数据(rankdata)只能归于某一有序类别的非数字型数据对事物类别顺序的测度,数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等数值型数据(metricdata)按数字尺度测量的观察值结果表现为具体的数值,对事物的精确测度例如:身高为175cm、168cm、183cm注意搞清楚不同数据类型下的图表展示方法(第三章)例如,分类数据通常用哪些图表展示;数值型数据通常用那些图表展示。搞清楚不同类型数据的集中趋势、分散程度等度量指标(第四章)例如,在度量数据的集中趋势时,分类数据通常用众数、顺序数据用中位数等。1.2.2观测数据和实验数据观测数据(observationaldata)通过调查或观测而收集到的数据在没有对事物人为控制的条件下而得到的有关社会经济现象的统计数据几乎都是观测数据实验数据(experimentaldata)在实验中控制实验对象而收集到的数据例如,对一种新药疗效的实验,对一种新的农作物品种的实验等自然科学领域的数据大多数都为实验数据1.2.3截面数据和时间序列数据截面数据(cross-sectionaldata)在相同或近似相同的时间点上收集的数据描述现象在某一时刻的变化情况例如,2011年我国各省区的国内生产总值数据时间序列数据(timeseriesdata)在不同时间上收集到的数据描述现象随时间变化的情况例如,1978-2011年中国国内生产总值数据面板数据(paneldata):截面数据与时间序列数据的结合,例如1978-2011年我国大陆31个省区的GDP数据第2章

数据的搜集复习要点概率抽样的类型非概率抽样的类型2.1搜集数据的基本方法2.2调查数据2.2.1概率抽样和非概率抽样1.概率抽样(probabilitysampling)也称随机抽样,遵循随机原则进行的抽样特点按一定的概率以随机原则抽取样本每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率注意:随机不等于随便。随机抽样时,每个单位都有一定的机会被抽中;而随便则有主观因素。概率抽样的类型简单随机抽样分层抽样整群抽样系统抽样(等距抽样)多阶段抽样概率抽样的类型(1)简单随机抽样(simplerandomsampling)从总体N个单位中随机地、一个个地抽取n个单位作为样本,每个单位入选的概率是相等的等价于非重复抽样抽选方式抽签通过随机数字表,或能产生随机数序列的计算机程序最基本的抽样方法,是其它抽样方法的基础概率抽样的类型(1)简单随机抽样(simplerandomsampling)特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其它辅助信息以提高估计的效率所以,在规模较大的调查中,很少直接采用简单随机抽样概率抽样的类型(2)分层抽样(stratifiedsampling)将总体中的各单位按照某种特征或某种规则划分成若干个不同的类型组,然后从各类型组中独立地、随机地抽取样本优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计概率抽样的类型分层抽样的应用:某服装厂有500名员工,其中35岁以下有125人,35-49岁的有280人,50岁以上的有95人。为了了解这个单位员工身体状况的某项指标,要从中抽取一个容量为100的样本,由于职工年龄与这项指标有关,决定采用分层抽样的方法。因为样本容量与总体容量的比为1:5,所以在各年龄段抽取的个数依次为125/5,280/5,95/5,即25、56和19。最后,依次在各年龄段独立地、随机抽取25人、56人和19人。概率抽样的类型(3)整群抽样(clustersampling)将总体各单位划分为若干群,然后以群为单位从中随机抽取一些群,对抽中群的所有单位都进行调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差整群抽样的应用:某中学为了调查中学生患近视眼的情况,从3个年级共36个班级中随机抽取1个班级,对该班级全部学生的视力状况进行调查。概率抽样的类型(4)系统抽样(systematicsampling)将总体中各单位按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按照一定的间隔抽取其它样本单位优点:使样本单位均匀分布在总体中,操作简便缺点:对估计量方差的估计比较困难概率抽样的类型系统抽样的应用:为了解某大学5000名学生的消费支出水平,现要从中抽取一个容量为100的样本。首先按照学号代码对总体进行排列,把总体划分为k=5000/100=50个相等的间隔;再从第1-50人中随机抽取一名,假设抽到第8名,则后面间隔依次抽取第58、108、158名等直到第4958名,共100名学生。概率抽样的类型(5)多阶段抽样(multi-stagesampling)将对总体单位的整个抽样过程分为两个或更多个阶段进行,先从总体中抽选若干个大的样本群,称为第一阶段单位,然后从被抽中的若干个大的单位群中,抽选较小的样本单位,以此类推。特点:每一阶段都等价于整群抽样具有整群抽样的优点,保证样本相对集中,节约调查费用需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开在大规模的抽样调查中,是经常被采用的方法概率抽样的类型多阶段抽样的应用:为了调查某品牌手机在我国的产品售后满意度,可以首先从全国各省份中抽取几个省,然后从抽中的省份中抽取若干个城市,从抽中的城市中,在抽取若干个县区,这种抽样方式就是多阶段抽样。2.2调查数据2.非概率抽样(non-probabilitysampling)相对于概率抽样而言抽取样本不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查包括:方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样等方式非概率抽样的类型(1)方便抽样调查过程中由调查员依据方便的原则,自行确定入选样本的单位调查员在街头、公园、商店等公共场所进行拦截调查厂家在出售产品柜台前对路过顾客进行的调查优点:容易实施,调查的成本低缺点:样本单位的确定带有随意性,样本无法代表有明确定义的总体,调查结果不宜推断总体非概率抽样的类型(2)判断抽样研究人员根据经验、判断和对研究对象的了解,有目的选择一些单位作为样本有重点抽样,典型抽样,代表抽样等方式判断抽样是主观的,样本选择的好坏取决于调研者的判断、经验、专业程度和创造性抽样成本比较低,容易操作样本是人为确定的,没有依据随机的原则,调查结果不能用于推断总体非概率抽样的类型(3)自愿样本被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息例如,参与报刊上和互联网上刊登的调查问卷活动,向某类节目拨打热线电话等,都属于自愿样本自愿样本与抽样的随机性无关样本是有偏的不能依据样本的信息推断总体非概率抽样的类型(4)滚雪球抽样先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。这个过程持续下去,就会形成滚雪球效应适合于对稀少群体和特定群体研究优点:容易找到那些属于特定群体的被调查者,调查的成本也比较低非概率抽样的类型(5)配额抽样先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位操作简单,可以保证总体中不同类别的单位都能包括在所抽的样本之中,使得样本的结构和总体的结构类似抽取具体样本单位时,不是依据随机原则,属于非概率抽样概率抽样V.S.非概率抽样概率抽样依据随机原则抽选样本样本统计量的理论分布存在可根据调查的结果推断总体非概率抽样不是依据随机原则抽选样本样本统计量的分布是不确定的无法使用样本的结果推断总体注意:教材后面章节中若为特别说明,样本均是通过概率抽样中的简单随机抽样方式获取的。第3章

数据的图表展示复习要点品质数据的整理与图示:表及图数值型数据的整理与图示:时间序列数据:线图多变量数据:雷达图、气泡图等分类数据的图示—条形图分类数据的图示—饼图环形图8%36%31%15%7%33%26%21%13%10%

非常不满意

不满意

一般

满意

非常满意

甲乙两城市家庭对住房状况的评价数值型数据---直方图140150210某电脑公司销售量分布的直方图我一眼就看出来了,销售量在170~180之间的天数最多!190200180160170频数(天)25201510530220230240数值型数据—茎叶图某电脑公司销售量分布的茎叶图数值型数据—箱线图最小值141最大值237中位数182下四分位数170.25上四分位数197140150160170180190200210220230240某电脑公司销售量数据的Median/Quart./Rang箱线图时间序列数据—线图两个变量间的关系—二维散点图

(2DScatterplots)三个变量间的关系—气泡图

(bubblechart)显示三个变量之间的关系图中数据点的大小依赖于第三个变量多变量数据—雷达图数据类型及图示第4章

数据的概括性度量复习要点数据分布特征集中趋势的度量:平均数、中位数、众数离散程度的度量:方差、标准差、离散系数偏态与峰态的度量数据分布的特征集中趋势(位置)偏态和峰态(形状)离中趋势

(分散程度)数据分布特征的刻画集中趋势:中心、位置测度指标:众数、中位数(四分位数)、平均数适用数据:分类、顺序、数值型离散程度:波动程度、远离中心的程度测度指标:异众比率、四分位差、方差(标准差)适用数据:分类、顺序、数值型特别注意:离散系数(变异系数)偏斜程度:形状测度指标:偏度、峰度众数

(不惟一性)无众数

原始数据:10591268一个众数

原始数据:65

9855多于一个众数

原始数据:252828

364242中位数

(位置和数值的确定)位置确定数值确定Me50%50%四分位数2.四分位数(quartile)四分位数、百分位数(percentile)四分位数是通过3个点将全部数据等分为4部分,其中每部分包含25%的数据QL为第一四分位数(下四分位数)QM为第二四分位数,也即中位数QU为第三四分位数(上四分位数)QLQMQU25%25%25%25%四分位数的计算四分位数的计算QL位置d=n/4QU位置d=3n/4若d是整数,四分位数就是该位置对应的值;若d不是整数,则取与d位置相邻的两项数据的加权平均数,即:Q=d左端的数据+(d右端的数据-d左端的数据)*d的小数部分例题【例】:10个家庭的人均月收入数据排序:660

75078085096010801250150016302000位置:1234

56

78910中位数位置=(10+1)/2=5.5中位数=(960+1080)/2=1020上四分位数位置=(10*3)/4=7.5上四分位数=(1250+1500)/2=1375下四分位数位置=(10*1)/4=2.5下四分位数=(750+780)/2=765简单平均数与加权平均数简单平均数:加权平均数(分组数据):

其中,Mi(i=1,2,…,k)表示各组的组中值,fi(i=1,2…,k)表示各组频数

小结:众数、中位数和平均数的特点及应用1、众数不受极端值影响具有不惟一性应用场合:偏态分布且有明显峰值时、分类数据2、中位数不受极端值影响应用场合:偏态分布、顺序数据3、平均数利用了全部数据信息,数学性质优良易受极端值影响数据对称分布或接近对称分布时应用小结:众数、中位数和平均数的特点及应用平均数由全部数据计算,包含了全部数据的信息,具有良好的数学性质,当数据接近对称分布时,具有较好的代表性;但容易受极端值的影响,所以对于偏态分布,其代表性较差中位数是一组数据中间位置上的代表值,不受数据极端值的影响,对于偏态分布的数据,其代表性要比均值好众数是数据集中出现频率最高的数值,具有不受极端值影响的特点,是品质型数据集中趋势的常用测度值样本方差和标准差

(samplevarianceandstandarddeviation)未分组数据组距分组数据未分组数据组距分组数据方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!4.23经验法则

经验法则表明:当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内4.2.4相对离散程度:离散系数方差和标准差易受到数据水平高低和计量单位的影响离散系数,也称为变异系数(coefficientofvariation),是一组数据的标准差与其相应的均值之比计算公式为:离散系数是测度数据的相对离散程度,主要用于比较不同样本的离散程度离散系数越大,说明数据的离散程度越大;反之,则越小离散系数(例题分析)某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)x1销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度离散系数(例题分析)结论:计算结果表明,v1<v2,说明产品销售额的离散程度小于销售利润的离散程度v1=536.25309.19=0.577v2=32.521523.09=0.7104.3偏态与峰态分布的形状扁平分布尖峰分布偏态峰态左偏分布右偏分布与标准正态分布比较!4.3偏态与峰态的度量4.3.1偏态及其测度偏态(skewness)是由统计学家Pearson于1895年首次提出,是对数据分布对称性的测度测度偏态的统计量是偏态系数偏态系数的计算公式:未分组数据分组数据4.3偏态与峰态的度量偏态系数与数据分布对称性:偏态系数 SK=0,为对称分布偏态系数SK>0,为右偏分布偏态系数SK<0,为左偏分布偏态系数大于1或小于-1,被称为高度偏态分布;偏态系数在0.5~1或-1~-0.5之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低4.3偏态与峰态的度量4.3.2峰态及其测度峰态(kurtosis)是由统计学家Pearson于1905年首次提出,是对数据分布平峰或尖峰程度的测度测度峰态的统计量是峰态系数峰态系数的计算公式:未分组数据分组数据4.3偏态与峰态的度量峰态通常是与标准正态分布相比较而言的峰态系数与数据分布扁平程度:峰态系数K=0,标准正态分布峰态系数K<0,为平峰分布峰态系数K>0,为尖峰分布数据分布特征的测度总结数据特征的测度众数中位数平均数离散系数方差和标准差峰态四分位差异众比率偏态分布的形状集中趋势离散程度习题例习题例2、习题4.1第五章概率与概率分布复习要点随机事件及其概率概率的性质及运算法则离散型随机变量及分布重点掌握两点分布、泊松分布连续型随机变量及分布重点掌握均匀分布、正态分布(包括期望、方差等)事件事件(event):随机试验的每一个可能结果(任何样本点集合),包括随机事件、必然事件、不可能事件。随机事件(randomevent):每次试验可能出现也可能不出现的事件,一般用大写字母A、B、C表示必然事件(certainevent):每次试验一定出现的事件。不可能事件(impossibleevent):每次试验一定不出现的事件,用表示事件的概率事件A的概率是对事件A在试验中出现的可能性大小的一种度量,表示为P(A);概率的性质:非负性:对任意事件A,有0

P(A)1规范性:必然事件的概率为1;不可能事件的概率为0。即P(

)=1;P(

)=0可加性若A与B互斥,则P(A∪B)=P(A)+P(B)推广到多个两两互斥事件A1,A2,…,An,有

P

(A1∪A2

∪…∪An)=P(A1

)+P(A2

)+…+P(An

)概率公式(重点)条件概率:乘法公式:独立性:全概率公式:贝叶斯公式:随机变量将样本空间数量化,即用数值来表示试验的结果一般用X、Y、Z来表示例如:投掷两枚硬币出现正面的数量根据取值情况的不同分为离散型随机变量和连续型随机变量离散型随机变量的概率分布X=xix1,x2

,…

,xnP(X=xi)=pip1,p2

,…

,pn

P(X=xi)=pi称为离散型随机变量的概率函数pi

0离散型随机变量分布两点分布二项分布泊松分布重点掌握各个分布的实际含义及对应的随机变量的期望、方差等连续型随机变量密度函数、分布函数概率与密度二者之间的关系期望、方差等定义:设X为一连续型随机变量,x

为任意实数,X的概率密度函数记为f(x),它满足条件概率密度函数

在平面直角坐标系中画出f(x)的图形,则对于任何实数x1

<x2,P(x1<X

x2)是该曲线下从x1

到x2的面积f(x)xab分布函数(distributionfunction)连续型随机变量的概率也可以用分布函数F(x)来表示分布函数定义为根据分布函数,P(a<X<b)可以写为连续型随机变量的期望和方差连续型随机变量的数学期望为方差为连续型随机变量分布均匀分布正态分布(其密度函数f(x)必须掌握!)切记:这两个分布一定重点掌握!多做书例5.19、例5.21、例5.22、书后练习5.8、5.9及5.16第6章

统计量及其抽样分布复习要点t分布

2分布F分布6.2抽样分布样本统计量是随机变量统计量的概率分布,称为抽样分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布统计量的结果来自容量相同的所有可能样本抽样分布是进行推断的理论基础,也是抽样推断科学性的重要依据6.3由正态分布导出的几个重要分布6.3.1

2分布6.3.2t分布6.3.3F分布6.3.1

2分布设随机变量X1,X2,…,Xn相互独立,且

则有:期望为:,方差为:

(n为自由度)可加性:若U和V为两个独立的分布随机变量,

,,则U+V这一随机变量服从自由度为(n1+n2)

的分布c2分布图示不同容量样本的抽样分布c2n=1n=4n=10n=206.3.2t分布设随机变量X与Y相互独立,且,

则有:t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散一个特定的t分布依赖于称之为自由度的参数随着自由度的增大,t分布也逐渐趋于正态分布t分布图示xt

分布与标准正态分布的比较t分布标准正态分布t不同自由度的t分布标准正态分布t(df=13)t(df=5)z第7章

参数估计复习要点点估计评价点估计量的标准第7章

参数估计点估计

7.1.3评价估计量的标准一个良好的估计量应满足无偏性、有效性和一致性1.无偏性(unbiasedness)设为总体参数,为的估计量,如果有则称是参数的无偏估计量无偏性的实际意义是指没有系统性的偏差2.有效性(efficiency)对同一总体参数的两个无偏点估计量,有更小标准误差的估计量更有效,是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论