第二章 描述统计:表格与图形方法_第1页
第二章 描述统计:表格与图形方法_第2页
第二章 描述统计:表格与图形方法_第3页
第二章 描述统计:表格与图形方法_第4页
第二章 描述统计:表格与图形方法_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、.第二章 描述统计:表格与图形方法第一节 数据的预处理一、数据审核1、准确性审核:审核的对象就登记性误差(非抽样误差)采取逻辑检查和计算检查方法 逻辑检查:主要看调查数据的内容是否合理,项目之间是否有矛盾的地方,以及与有关数据进行对照,或者检查数据的平衡关系,以暴露逻辑上的矛盾计算检查:主要是从数字上检查,如各分项之和是否等于总计,计量单位是否合适,计算方法上是否合理等等 2、全面性审核:核对应调查的单位是否有遗漏,应调查的内容是否齐全3、及时性审核:即是否按规定的时间获取数据资料 二、数据筛选1、当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选2、数

2、据筛选的内容(1)将某些不符合要求的数据或有明显错误的数据予以剔除(2)将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除3、数据筛选可借助计算机完成三、数据排序1、按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索2、排序有助于对数据检查纠错,以及为重新归类或分组等提供依据3、在某些场合,排序本身就是分析的目的之一4、排序可借助于计算机完成第二节 定性数据的图表分析一、频数分布:将统计数据分组后,各组数据出现的次数被称为频数(次数)。把各个组以及相应的频数依一定的次序全部列出来,就形成了频数分布(次数分布)1、频率:各组单位数占总体单位总数的比重定性数据本身就

3、是对事物的一种分类,在列出所分的类别的同时,再列出对应的频数或频率,就形成了分类数据的频数分布。2、顺序数据的整理(可计算的统计量)(1)累积频数:各类别频数的逐级累加。包括向上累积和向下累积两类。(2)累积频率:各类别频率(百分比)的逐级累加。包括向上累积和向下累积两类。&补充:1向上累计:从变量值低的组开始,将各组次数(频率)逐次向变量值高的组累计,说明某一组上限以下各组的累计次数(频率)。2向下累计:从变量值高的组开始,将各组次数(频率)逐次向变量值低的组累计,说明某一组下限以上各组的累计次数(频率)。3、比例:也称构成比,它是一个样本(或总体)中各类别的频数与全部频数之比,通常用于反映

4、样本(或总体)的构成或结构。(1)将比例乘以100得到的数值称为百分比,用%表示。(2)由比例和百分比我们可以编制相对频数分布表和百分数频数分布表。 二、定性数据的图形表示比较适用于定性数据的图形主要有:条形图、饼图、环形图等。 1、统计图条形图:用宽度相同的条形的高度或长短来表示各类别数据的图形(1)有单式条形图、复式条形图等形式(2)主要用于反映分类数据的频数分布(3)绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图2、分类数据的图示饼图:也称圆形图,用圆形及圆内扇形的面积来表示数值大小的图形(1)主要用于表示总体或样本中各组成部分所占的比例,适用于研究结构性问题 (2)

5、绘图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度,是按各部分数据百分比占360的相应比例确定的3、环形图:中间有一个“空洞”,总体中的每一部分数据用环中的一段表示环形图与圆形图类似,但又有区别(1)圆形图只能显示一个总体各部分所占的比例(2)环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环(3)环形图可用于结构比较研究 (4)环形图主要用于展示分类和顺序数据第三节 定量数据的图表分析一、 频数分布1、单变量值分组:将每一个变量值作为一组。适合于离散变量且变量值较少的情况2、组距分组:将全部变量值一次划分为若干个数值区间,每一个区间作为一组。适合于

6、连续变量或变量值较多的离散变量(1)组距分组的方法:将作为分组依据的数量标志的整个取值范围依次划分为若干个满足互斥性和包容性的区间,用这些数值区间作为组的名称。 (2)组距分组 的一些概念1组限:组距两端的数值分为上限U和下限L。上限是区间数值的最大值,下限是区间数值的最小值2组距:每一组的区间长度。组距d=上限U-下限L ,表示各组标志值的变动范围。3组中值X:每一组中点位置的数值。组中值=(上限+下限)2 4开口组:缺少上限数值或下限数值的组。开口组以相邻组的组距作为该组的组距,确定其下限或上限,再计算组中值。缺下限的开口组组中值:上限1/2临组组距缺上限的开口组组中值:下限+1/2临组组

7、距5等距分组:各组组距相等的分组6异距分组:各组组距不全相等的分组(3)组距变量数列的编制1确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时, 可以按 Sturges 提出的经验公式来确定组数K2确定组距:组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即组距d( 最大值 - 最小值) 组数 & 此办法适合等距分组,若遇变量值较分散的情况,不可用此方法。组距宜取整数,且是5或10的倍数较好3 .确定各组组限。第一组的的下限应小于或等于最小变量值;最后一组的上限应大于最大变量值;各组组限要取整数;第一组和最后组可取开口组;4. 统计各组的频

8、数并整理成频数分布表 。统计各组频数总原则:不重不漏;对于重叠设置的组限频数统计遵循上组限不在内原则上限不在内原则:当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组内(4)频数分布表的编制1确定组数:根据 Sturges 提出的经验公式得组数K为:2确定各组的组距:组距( 139 - 107) 74.6 53用Excel制作频数分布表 二、定量数据的图形表示1、直方图:用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布(1)在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(2)直方图下

9、的总面积等于1(3)直方图与条形图的区别直方图表示定量数据(定距、定比数据),条形图表示定性数据(定类、定序数据)条形图是用条形的长度表示各类别频数的多少,其宽度是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,高度与宽度均有意义直方图的各矩形通常是连续排列,条形图则是分开排列2、折线图 :也称频数多边形图,在直方图的基础上,把直方图中各矩形顶部的中点(即组中值)用直线连接起来,再把原来的直方图抹掉就是折线图。折线图的两个终点要与横轴相交,将第一个矩形的顶部中点通过竖边中点(即该组频数或频率一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边

10、中点连接到横轴。这样能使折线图下所围成的面积与直方图的面积相等,使二者表示的频数分布一致。第四节 探索性数据分析:茎叶图和箱线图一、茎叶图:又称“枝叶图”,能同时排列定量数据顺序并提供分布形态的深入信息 (1)茎叶图由两部分组成:茎与叶。茎:通常由每组数的高位数值形成,按组竖立在左边;叶:通常由每组数的低位数值形成,按组横排在“茎”的右边。(2)茎叶图制作1将每个数据的十位数作为茎,列在一条竖线的左边,在这条竖线的右边记录每个数据的最后一个数字作为叶。2将所有数据分别列示在竖线两侧 3对竖线右侧每一行数据进行大小排序4为更清楚地显示数据的分布状况,将每根茎右侧的叶子用矩形框住(3) 茎叶图的特

11、点1优点:比较容易手工绘制;没有原始数据信息的损失,所有数据信息都可以从图中得到;数据可以随时记录,随时添加,方便记录与表示。2.缺点:只便于表示两位有效数字的数据,且只方便记录两组数据,当样本数据较多时,每个数据都要占据空间,很不方便二、箱线图:由一组数据的最大值、最小值、中位数、上下四分位数绘制而成的统计图形,从未分组数据来显示并分析数据的分布特征。通过箱线图的形状可以看出数据分布的特征:短的一段分布密集,长的一段分布稀疏第五节 两个变量间关系的图形显示:散点图散点图:用二维坐标描述两个数值型变量之间关系的一种图形。1、它用坐标横轴代表变量x,纵轴代表变量y,每对数据(x,y)在坐标系中用

12、一个点(数据点)表示,n对数据点在坐标系中形成的图就称为散点图。 2、两变量散点图、添加趋势线的散点图、重叠散点图、矩阵散点图(同时显示比较多个变量两两之间的关系)第三章 描述统计:数值方法第一节 集中趋势的度量一、 均值1、均值:就是算术平均数,是集中趋势的最主要测度值。它是一组数据的均衡点所在,体现了数据的必然性特征,易受极端值的影响2、均值的算法(1)简单均值:未经分组整理的原始数据,其均值的计算就是直接将一组数据的各数值相加除以数值个数。设一组数据为: X1 ,X2 , ,Xn(2)加权均值:根据分组整理的数据计算均值,要以各组变量值出现的次数或频数为权数计算加权的均值。设原始数据被分

13、为k组,各组变量为 X1 ,X2 , ,Xn;相应的频数为f1 , f2 , ,fk &另:算术平均数的计算方法权数:指变量数列中各组标志值出现的次数,是变量值的承担者,反映了各组的标志值对平均数的影响程度均值的数学性质1 数值观测值与均值的离差之和为02 数值观测值与均值的离差平方和最小3 均值易受极端值影响二、 众数1、众数:一组数据中出现次数最多的变量值,用M0表示。适合于数据量较多时使用;不受极端值的影响;一组数据可能没有众数或有几个众数2、数值型分组数据的众数(1) 众数的值与相邻两组频数的分布有关(2)相邻两组的频数不相等时,众数采用下列近似公式计算上限公式 下限公式 (3)该公式

14、假定众数组的频数在该众数组内均匀分布三、中位数1、中位数:一组数据按从小到大排序后,处于中间位置上的值,用Me表示。它不受极端值的影响。各变量值与中位数的离差绝对值之和最小,即2、中位数的位置33、分组数据的中位数:用于数值型分组数据 ;根据位置公式确定中位数所在的组;下限与上限计算公式分别为: 且该公式假定中位数组的频数在该组内均匀分布四、分位数1、分位数的概念:将全部数据分为几个等份的分分位点,各分位点上的数2、四分位数:排序后处于25%和75%位置上的值,不受极端值的影响3、分位数的位置 五、众数、中位数和均值的关系当分布为适度偏态时,三者之间近似的数量关系是:众数与算术平均数的距离是中

15、位数与算术平均数距离的3倍,即:根据这一关系,可以得到以下三个关系式: 六、众数、中位数、均值的特点和应用1、众数:不受极端值影响、具有不惟一性、数据分布偏斜程度较大时应用2、中位数:不受极端值影响、数据分布偏斜程度较大时应用3、均值:易受极端值影响、数学性质优良、数据对称分布或接近对称分布时应用第二节 离散程度的度量1、离散程度:测度各变量值远离其中心值的程度,有以下的作用:(1)判断平均数对一组数据代表性的高低(2)离散程度的测度值可以对社会经济活动过程的节奏性 和均衡性进行评价(3)离散程度的测度值是统计推断理论中一个很重要的基础指标(4)离散程度的测度值是衡量风险大小的重要指标2、全距

16、:又称极差。一组数据的最大值与最小值之差,用R表示。它是离散程度的最简单测度值;易受极端值影响;未考虑数据的分布 计算公式 3、内距 :也称四分位差,即上四分位数与下四分位数之差,反映了中间50%数据的离散程度;不受极端值的影响;可用于衡量中位数的代表性内 距= QU QL4、方差与标准差(1)方差:各变量值与其均值离差平方的均值(2)标准差:方差的平方根&离散程度的测度值之一;最常用的测度值;反映了数据的分布;反映了各变量值与均值的平均差异;根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差;可用于衡量均值的代表性大小(3)总体方差和标准差 样本方差和标准差

17、(4)注解:样本方差自由度一组数据中可以自由取值的数据的个数当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值。例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量(5)方差的数学性质1变量的方差等于变量平方的平均数减去变量平均数的平方 2各变量值对算

18、术平均数的方差,小于等于对任意常数的方差 5、标准分数: 标准分也称标准化值或Z值,它对某一个值在一组数据中相对位置的度量,可用于判断一组数据是否有离群点;用于对变量的标准化处理计算公式 当一组数据对称分布时(1)约有68.27%的数据在平均数加减1个标准差的范围之内(2)约有95.00%的数据在平均数加减1.96个标准差的范围之内(3)约有95.45%的数据在平均数加减2个标准差的范围之内(4)约有99.73%的数据在平均数加减3个标准差的范围之内 6、离散系数(变异系数):标准差与其相应的均值之比,是对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的

19、比较,用V表示。 第三节 分布形态的度量1、 偏态:指数据分布的不对称性,是对数据分布偏斜程度的测度。2、 对数据分布不对称性的度量值称为偏态系数偏态系数SK=0为对称分布 偏态系数SK0为右偏分布或正偏分布,正偏离差值较大 偏态系数SK0为左偏分布或负偏分布,负离差数值较大|SK|数值越大,表示偏斜程度越大(1)根据原始数据计算 (2)根据分组数据计算 3、 峰度:指数据分布的平峰或尖峰程度。4、 对数据分布峰度的度量值称为峰度系数,记为K。峰度通常与标注正态分布相比较而言,若一组数据服从标准正态分布,K=0;如果K不为零,表明分布比标准正态分布更平或更尖,成平峰分布或尖峰分布。峰态系数K=

20、0为峰度适中 峰态系数K0为尖峰分布根据原始数据计算第四章 抽样与抽样分布第一节 抽样技术一、抽样技术中的基本概念(一)总体和样本1、总体:所研究的全部元素的集合 ,其中的每一个元素称为个体。分为有限总体和无限总体(1)有限总体的范围能够明确确定,且元素的数目是有限的(2)无限总体所包括的元素是无限的,不可数的2、样本:从总体中抽取的一部分元素的集合。构成样本的元素的数目称为样本容量 (1)样本容量:一个样本所包含的总体基本单元数 n30 的样本叫小样本 的样本叫大样本(2) 数理统计中,在用样本数量特征推断总体数量特征时,大小样本使用的推断方法有所不同.社会经济现象的抽样推断中,绝大多数采用

21、的是大样本(二)参数和统计量1、参数:研究者想要了解的总体的某种特征值。总体参数通常用希腊字母表示,所关心的参数主要有总体均值(m)、标准差(s)、总体比例()等。2、统计量:根据样本数据计算出来的一个量。样本统计量通常用小写英文字母来表示,所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等(三)抽样框与抽样单元1、抽样框:是包括全部总体单位的一个框架,用来代表总体,从中抽取样本单元。(1)抽样框的主要形式:名单抽样框;区域抽样框,比如地图;时间表抽样框(2)抽样框的意义:实施抽样的基础,抽样框的编制影响抽样的随机性和抽样效果的实现 (3)对抽样框的基本要求:一个理想的抽样

22、框应该与目标总体一致,不重不漏;应尽可能地提供抽样单元的名称和地理位置、联系方式等信息;还应尽可能多地提供与研究的目标量有关的辅助信息,以便调查人员利用这些辅助信息搞好抽样设计,提高抽样估计的效率,比如:对企业做调查,除了有企业名单目录外,还应该有企业的联系方式、法人代表、注册信息,甚至近期主要经济或财务指标的数据等2、抽样单元:构成抽样框的基本要素,它可以是自然形成的,也可以是人为划分的。抽样单元与总体基本单元(Base unit)的关系有两种:(1)抽样单元=总体基本单元。比如,简单随机抽样,分层抽样,系统抽样等(2)抽样单元=总体基本单元的集合。比如,整群抽样,多阶段抽样(四)抽样方法和

23、样本可能数目1、重置和不重置抽样(1)重置抽样:也叫重复抽样/回置抽样,是指从总体的个单位中抽取一个容量为n的样本,逐个抽取。每次抽出一个单位记录后,再将其放回总体中参加下一次抽取,这样连续抽n次即得到一个样本。同一总体单位有可能被重复抽中;每次都是从个总体单位中抽取;次抽取就是次相互独立的随机试验(2)不重置抽样:也叫不重复抽样/不回置抽样,指抽中单位不放回总体中,下一个样本单位只能从余下的总体单位中抽取。 也可以一次抽n个。每次抽取是在不同数目的总体单位中进行的;同一总体单位不可能被重复抽中;次抽取可看作是次互不独立的随机试验。2、样本可能数目M:按某抽样方案从总体中抽样,可能抽出的所有的

24、样本的个数(1)考虑顺序的重复抽样的样本可能数目(2)考虑顺序的不重复抽样的可能样本数目(独立事件乘法原理)(3)不考虑顺序的重复抽样的可能样本数目(组合) (4)不考虑顺序的不重复抽样的可能样本数目二、抽样技术(一)概率抽样:根据一个已知的概率来抽取样本单位,也称随机抽样特点:按一定的概率以随机原则抽取样本;抽取样本时使每个单位都有一定的机会被抽中;每个单位被抽中的概率是已知的,或是可以计算出来的;当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率1、简单随机抽样/纯随机抽样:从总体N个单元中随机地抽取n个单元作为样本,每个单元进入样本的概率是相等的。比如利用随机数表、抽签、摇

25、奖机等进行的抽样都是srs是最基本的抽样方法,是其它抽样方法的基础(1)、特点:适用于均匀总体;直接从抽样框中取样,简单、直观;用样本统计量对目标量进行估计比较方便(2)、局限性:当N很大时,不易构造抽样框;抽出的单位很分散,给实施调查增加了困难;没有利用其它辅助信息以提高估计的效率2、分层抽样(类型抽样) :抽样分两步完成,即先分层后各层内独立抽样。(1)、将抽样单元按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本单元构成样本(2)、优点:更能保证样本的结构与总体的结构相近,从而提高估计的精度;抽样方法灵活,组织实施调查方便;既可以对总体参数进行估计,也可以对各层的目

26、标量进行估计3、系统抽样:抽样分三步完成,先排序确定起始单元确定其他样本单元。将总体中的所有单元(抽样单元)按一定顺序排列,在规定的范围内随机地抽取一个单元作为初始单元,然后按事先规定好的规则确定其它样本单元。比如,等距抽样,先从数字1到k之间随机抽取一个数字r作为初始单元,以后依次取r+k,r+2k等单元(1)、优点:操作简便,可提高估计的精度(2)、 缺点:对估计量方差的估计比较困难4、整群抽样:抽样分两步完成,分群抽群。将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查(1)、特点:抽样时只需群的抽样框,可简化工作量;调查的地点相对集中,节省调查费用

27、,方便调查的实施(2)、缺点:估计的精度较差(样本单位过于集中,抽样误差大)。5、多阶段抽样/多级抽样:指分两个或两个以上的阶段来完成抽取样本单元的过程。如,我国的城市居民住户调查采用三或四阶段抽样 第一阶段:抽选调查城市 第二阶段:从抽中城市中抽选居委会(或抽街道办事处再抽居委会) 第三阶段:从抽中的居委会中抽取调查户多阶段抽样可根据需要和可能,将几种抽样方式结合运用,比如第一阶段用PPS抽样,第二阶段用分层抽样,第三阶段用简单随机抽样等6、不等概抽样:总体中各单元被抽中的概率不相等。这个概率通常与各单元的某个辅助变量大小成正比例(1)各单元被抽中的概率称为“入样概率”。设总体含有N个单元,

28、那么各单元入样概率用Zi(i=1,2,N)表示。在不等概抽样下,Zi是不完全相同的“Zi与某一辅助变量Xi大小成正比例”。如果某一单元的辅助变量越大,则该单元被抽中的概率越大。所以,辅助变量也称为入样指标ZiXi/Xi,(i=1,2,N) Zi=1&是否需要入样指标来确定入样概率,成为不等概率抽样和等概率抽样的本质区别(2)不等概抽样作用或适用性各抽样单元在总体中所占的地位不一致居民住户调查中,调查家庭的日常消费支出或娱乐/保健品等奢侈消费支出,会采用不同的抽样设计为估计一城市的商业销售总额,对各商业网点进行调查以船舶为抽样单元,对船舶运输量进行调查以个人储户为抽样单元,调查储户对银行服务的满

29、意度以个人用户为抽样单元,调查移动业务用户的满意度调查的总体单元与抽样总体的单元不一致的情况,比如:大型企业对职工家庭情况进行调查某小学对在校生家庭情况进行调查改善估计量. 不等概抽样还广泛应用于由于种种原因不能或不需要对基本单元直接抽样的情形,比如整群抽样(CL: cluster sampling) 中,若群大小(用群内包含的BU数Mi表示) 相差较大,常采用对群的不等概抽样;多阶段抽样(MS: Multi-Stage sampling)中,若初级单元大小(用所包含的次级单元数目表示)相差较大,则常采用对初级单元的不等概抽样比率估计中消除小样本比率估计量偏倚的方法水野法第二节 正态分布及几个

30、重要的统计分布一、连续型随机变量的概率分布(1)连续型随机变量可以取某一区间或整个实数轴上的任意一个值(2)它取任何一个特定的值的概率都等于0(3)不能列出每一个值及其相应的概率(4)通常研究它取某一区间值的概率(5)用概率密度函数的形式和分布函数的形式来描述1、正态分布:描述连续型随机变量的最重要的分布。许多现象都可以由正态分布来描述。可用于近似离散型随机变量的分布,例如: 二项分布。经典统计推断的基础(1)概率密度函数f(x) = 随机变量 X 的频数 m = 正态随机变量X的均值s 2= 正态随机变量X的方差 p = 3.1415926; e = 2.71828x = 随机变量的取值 (

31、- x 图形是关于x=m对称的钟形曲线,且峰值在x=m 处2均值m和标准差s一旦确定,分布的具体形式也惟一确定,不同参数正态分布构成一个完整的“正态分布族” 3均值m可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的“陡峭”或“扁平”程度。s越大,正态曲线扁平;s越小,正态曲线越高陡峭4当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交5正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1 2、标准正态分布:随机变量具有均值为0,标准差为1的正态分布。任何一个一般的正态分布,可通过下面的线性变换转化为标准正

32、态分布(1)标准正态分布的概率密度函数(2)标准正态分布的分布函数(3)常用区间的正态概率值(4)数据正态性的评估1对数据画出频数分布的直方图或茎叶图2若数据近似服从正态分布,则图形的形状与上面给出的正态曲线应该相似,绘制正态概率图。有时也称为分位数分位数图或称Q-Q图或称为P-P图用于考察观测数据是否符合某一理论分布,如正态分布、指数分布、t分布等等P-P图是根据观测数据的累积概率与理论分布(如正态分布)的累积概率的符合程度绘制的Q-Q图则是根据观测值的实际分位数与理论分布(如正态分布)的分位数绘制的 3使用非参数检验中的Kolmogorov-Smirnov检验(K-S检验) (5)正态概率

33、图的分析1实际应用中,只有样本数据较多时正态概率图的效果才比较好。当然也可以用于小样本,但此时可能会出现与正态性有较大偏差的情况2在分析正态概率图时,最好不要用严格的标准去衡量数据点是否在一条直线上,只要近似在一条直线上即可3对于样本点中数值最大或最小的点也可以不用太关注,除非这些点偏离直线特别远,因为这些点通常会与直线有偏离。如果某个点偏离直线特别远,而其他点又基本上在直线上时,这个点可能是离群点,可不必考虑3、t分布(1)定义:设随机变量XN(0,1),Yc2(n) ,且X与Y独立,则称是自由度为n的t分布,记为tt(n)。(2)与t分布相关的抽样分布:设总体,从中抽取容量为n的样本,则(

34、3)t分布(图示): t 分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布 4、c2分布设,则;令则 y 服从自由度为1的c2分布,即对于n个正态随机变量y1 ,y2 ,yn,则随机变量称为具有n个自由度的c2分布,记为(1)定义:设随机变量X1,X2,Xn 相互独立,且服从标准正态分布N(0,1),则Y=X12+X22+Xn2服从自由度为n的c2分布,记为Y c 2(n) 。 (2)与c 2分布相关的抽样分布:设总体服从参数为、2的正态分布,从中抽取容量为n的样本,则(3)性质和特点:1分布的变量

35、值始终为正 2分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称 3期望为:E(c2)=n,方差为:D(c2)=2n(n为自由度) 4可加性:若U和V为两个独立的c2分布随机变量,Uc2(n1),Vc2(n2),则U+V这一随机变量服从自由度为n1+n2的c2分布 (4)图示5、F分布(1) 设随机变量U与V相互独立,且U和V分别服从自由度为n1和n2的c2(n)分布,则称 服从第一自由度为n1,第二自由度为n2的F分布,记为FF(n1,n2)。(2)与F分布相关的抽样分布 设两个总体都为正态分布,两总体的方差分别为12,22,从两个总体中分别抽取容量为n1和n2的独立样本,样本方差分别为S12,S22则有(3)图示(不同自由度的F分布)第三节 样本统计量的抽样分布一、 抽样分布1、 定义:样本统计量的概率分布,是一种理论分布。在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 (1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论