版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章描述统计:表格与图形方法
第一节数据的预处理
一、数据审核
1、准确性审核的时象就登记性误差(非抽样误差)采取逻辑检查和计算检查方法
•逻辑检查:主要看调查数据的容是否合理,工程之间是否有矛盾的地方,以及与有关数据
进展对照,或者检查数据的平衡关系,以暴露逻辑上的矛盾
•计算检查:主要是从数字上检查,如各分项之和是否等于总计,计量单位是否适宜,计算
方法上是否合理等等
2、全面性核对应调查的单位是否有遗漏,应调杳的容是否齐全
3、及时性即是否按规定的时间获取数据资料
二、数据筛选
1、当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要
对数据进展筛选
2、数据筛选的容
(1)将*些不符合要求的数据或有明显错误的数据予以剔除
(2)将符合*种特定条件妁数据筛选出来,而不符合特定条件的数据子以剔除
3、数据筛选可借助计算机完成
三、数据排序
1、按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索
2、排序有助于对数据检查纠错,以及为重新归类或分组等提供依据
3、在*些场合,排序本身就是分析的目的之一
4、排序可借助于计算机完成
第二节定性数据的图表分析
一、频数分布:将统计数据分组后,各组数据出现的次数被称为频数(次数)。把各个组以
及相应的频数依一定的次序全部列出来,就形成了频数分布(次数分布)
1、频率:各组单位数占总体单位总数的比重
XX定性数据本身就是对事物的一种分类,在列出所分的类别的同时,再列出对应的频数或
频率,就形成了分类数据的频数分布。
2、顺序数据的整理(可计算的统计量)
(1)累积频数:各类别频数的逐级累加。包括向上累积和向下累枳两类。
(2)累积频率:各类别频率(百分比)的逐级累加。包括向上累积和向下累积两类。
&&补充:
D向上累计:从变量值低的组开场,将各组次数(频率〕逐次向变量值高的组累计,说明*
一组上限以下各组的累计次数(频率)。
2》向下累计:从变量值高的组开场,将各组次数(频率〕逐次向变量值低的组累计,说明*
一组下限以上各组的累计次数(频率)。
3、比例:也称构成比,它是一个样本(或总体)中各类别的频数与全部频数之比,通常用
于反映样木(或总体)的构成或构造。
(1)将比例乘以100得到的数值称为百分比,用先表示。
(2)由比例和百分比我们可以编制相对频数分布表和百分数频数分布表。
二、定性数据的图形表示
•比拟适用于定性数据的图形主要有:条形图、饼图、环形图等。
1、统计图一条形图:用宽度一样的条形的高度或长短来表示各类别数据的图形
(1)有单式条形图、复式条形图等形式
(2)主要用于反映分类数据的频数分布
(3)绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图
2、分类数据的图示一饼图:也称圆形图,用圆形及圆扇形的面积来表示数值大小的图形
(1)主要用于表示总体或样本中各组成局部所占的比例,适用于研究构造性问题
(2)绘图时,总体中各局部所占的百分比用圆的各个扇形面积表示,这些扇形的中心角度,
是按各局部数据百分比占360°的相应比例确定的
3、环形图:中间有一个“空洞",总体中的每一局部数据用环中的一段表示
•环形图与圆形图类似,但又有区别
(1)圆形图只能显示一个总体各局部所占的比例
(2)环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环
(3)环形图可用于构造比拟研究
(4)环形图主要用于展示分类和顺序数据
第三节定量数据的图表分析
一、频数分布
1、单变量值分组:将每一个变量值作为一组。适合于离散变量且变量值较少的情况
2、组距分组:将全部变量值一次划分为假设干个数值区间,每一个区间作为一组。适合于
连续变量或变量值较多的离散变量
(1)组距分组的方法:将作为分组依据的数显标志的整个取值围依次划分为假设干个满足
互斥性和包容性的区间,用这些数值区间作为组的名称。
(2)组距分组的一些概念
1>组限:组距两端的数值分为上限U和下限L。上限是区间数值的最大值,下限是区间数值
的最小值
2》组距:每一组的区间长度。组距d=上限U-下限L,表示各组标志值的变动国。
3>组中值*:每一组中点位置的数值。组中值二(上限+下限)4-2
4》开口组:缺少上限数值或下限数值的组。开口组以相邻组的组距作为该组的组距,确定其
下限或上限,再计算组中值。
•缺下限的开口组组中值:上限一1/2临组组距
•缺上限的开口组组中值:下限+1/2临组组距
5>等距分组:各组组距相等的分组
6〉异距分组:各组组距不全相等的分组
(3)组距变量数列的编制
1>确定组数:组数确实定应以能够显示数据的分布特征和规律为目的。在实际分组时,
可以按Sturges提出的经历公式来确定组数K
2》确定组距:组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的
组数来确定,即组距d=(最大值-最小值)彳组数
&&此方法适合等距分组,假设遇变量值较分散的情况,不可用此方法。组距宜取整数,
且是5或10的倍数较好
3>.确定各组组限。第一组的的下限应小于或等于最小变量值;最后一组的上限应大于最大
变量值;各组组限要取整数;第一组和最后组可取开口组;
4.〃统计各组的频数并整理成频数分布表。统计各组频数总原则:不重不漏;对于重叠设置
的组限频数统计遵循上组限不在原则
•上限不在原则:当相邻两组的上下限重叠时,恰好等于*一组上限的变量值不算在本组,
而计算在下一组
(4)频数分布表的编制
1》确定组数:根据Sturges提出的经历公式得组数K为:
2》确定各组的组距:组距=(139-107)4-7^4.65
3>用E*cel制作频数分布表
二、定量数据的图形表示
1、直方图:用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各
组的频数分布
(1)在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形
成了一个矩形,即直方图
(2)直方图下的总面积等于1
(3)直方图与条形图的区别
•直方图表示定量数据1定距、定比数据),条形图表示定性数据(定类、定序数据)
•条形图是用条形的长度表示各类别频数的多少,其宽度是固定的;直方图是用面枳表示各
组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,高
度与宽度均有意义
•直方图的各矩形通常是连续排列,条形图则是分开排列
2、折线图:也称频数多边形图,在直方图的根底上,把直方图中各矩形顶部的中点(即组
中值)用直线连接起来,再把原来的直方图抹掉就是折线图。
•折线图的两个终点要与横轴相交,将第一个矩形的顶部中点通过竖边中点(即该组频数或
频率一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。这
样能使折线图下所围成的面积与直方图的面积相等,使二者表示的频数分布一致。
第四节探索性数据分析:茎叶图和箱线图
一、茎叶图:又称〃枝叶图〃,能同时排列定量数据顺序并提供分布形态的深入信息
(1)茎叶图由两局部组成:茎与叶。茎:通常由每组数的高位数值形成,按组竖立在左边;
叶:通常由每组数的低位数值形成,按组横排在〃茎"的右边。
⑵茎叶图制作
1》将每个数据的十位数作为茎,列在一条竖线的左边,在这条竖线的右边记录每个数据的最
后一个数字作为叶。
2》将所有数据分别列示在鞋线两侧
3》对竖线右侧每一行数据进展大小排序
4>为更清楚地显示数据的分布状况,将每根茎右侧的叶子用矩形框住
(3)茎叶图的特点
1>优点:比拟容易手工绘制;没有原始数据信息的损失,所有数据信息都可以从图中得到;
数据可以随时记录,随时添加,方便记录与表示。
2>.缺点:只便于表示两位有效数字的数据,且只方便记录两组数据,当样本数据较多时,
每个数据都要占据空间,很不方便
二、箱线图:由一组数据的最大值、最小值、中位数、上下四分位数绘制而成的统计图形,
从未分组数据来显示并分析数据的分布特征。
通过箱线图的形状可以看出数据分布的特征:短的一段分布密集,长的一段分布稀疏
第五节两个变量间关系的图形显示:散点图
散点图:用二维坐标描述两个数值型变量之间关系的一种图形。
1、它用坐标横轴代表变量*,纵轴代表变量y,每对数据(*,y)在坐标系中用一个点(数
据点)表示,n对数据点在坐标系中形成的图就称为散点图。
2、两变量散点图、添加趋势线的散点图、重叠散点图、矩阵散点图(同时显示比拟多个变
量两两之间的关系)
第三章描述统计:数值方法
第一节集中趋势的度量
一、均值
1、均值:就是算术平均数,是集中趋势的最主要测度值。它是一组数据的均衡点所在,表
达了数据的必然性特征,易受极端值的影响
2、均值的算法
(1)简单均值:未经分组整理的原始数据,其均值的计算就是直接将一组数据的各数值相
加除以数值个数。
设一组数据为:*1,*2,*n
(2)加权均值:根据分组整理的数据计算均值,要以各组变量值出现的次数或频数为权数
计算加权的均值。设原始数据被分为k组,各组变量为*1,*2,*n;相应的
频数为fl,f2,…,fk
&&另:算术平均数的计算方法
权数:指变量数列中各组标志值出现的次数,是变量值的承当者,反映了各组的标志值对平
均数的影响程度
•均值的数学性质
^(X-X)=O或Z(x-元),二。
1>数值观测值与均值的离差之和为
2>数值观测值与均值的离差平方和最小
Z(X-五)2二min(最小)或2(%-元)27=min(最小)
3>均值易受极端值影响
二、众数
1、众数:一组数据中出现次数最多的变量值,用胸表示。适合于数据量较多时使用;不受
极端值的影响;一组数据可能没有众数或有几个众数
2、数值型分组数据的众数
(1)众数的值与相邻两组频数的分布有关
(2)相邻两组的频数不相等时,众数采用以下近似公式计算
上限公式下限公式
(3)该公式假定众数组的频数在该众数组均匀分布
三、中位数
1、中位数:一组数据按从小到大排序后,处于中间位置上的值,用Me表示。它不受极端值
的影响。各变量值与中位数的离差绝对值之和最小,即
2、中位数的位置
原始数据:中位数位置二等分组数据:中位数位置F
33
、分组数据的中位数:用于数值型分组数据:根据位置公式确定中位数所在的组:下限与
上限计算公式分别为:
且该公式假定中位数组的频数在该组均匀分布
四、分位数
1、分位数的概念:将全苗数据分为儿个等份的分分位点,各分位点上的数
2、四分位数:排序后处于25$和75与位置上的值,不受极端值的影响
3、分位数的位置
五、众数、中位数和均值的关系
当分布为适度偏态时,三者之间近似的数量关系是:众数与算术平均数的
距离是中位数与算术平均数距离的3倍,即:|X-M0|=3|X-M
根据这一关系,可以得到以下三个关系式:
六、众数、中位数、均值的特点和应用
1、众数:不受极端值影响、具有不惟一性、数据分布偏斜程度较大时应用
2、中位数:不受极端值影响、数据分布偏斜程度较大时应用
3、均值:易受极端值影响、数学性质优良、数据对•称分布或接近对称分布时应用
第二节离散程度的度量
1、离散程度:测度各变量值远离其中心值的程度,有以下的作用:
(1)判断平均数对一组数据代表性的上下
(2)离散程度的测度值可以对社会经济活动过程的节奏性和均衡性进展评价
(3)离散程度的测度值是统计推断理论中一个很重要的根底指标
(4)离散程度的测度值是衡量风险大小的重要指标
2、全距:又称极差。一组数据的最大值与最小值之差,用R表示。它是离散程度的最简单
测度值;易受极端值影响;未考虑数据的分布
计算公式;
3、距:也称四分位差,即上四分位数与下四分位数之差,反映了中间50%数据的离散程度;
不受极端值的影响;可用于衡量中位数的代表性
距=QU-QL
4、方差与标准差
(1)方差:各变量值与其均值离差平方的均值
(2)标准差:方差的平方根
&&离散程度的测度值之一;最常用的测度值;反映了数据的分布;反映了各变量值与均值的
平均差异;根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本
方差或标准差;可用于衡量均值的代表性大小
(3)总体方差和标准差样本方差和标准差
(4)注解:样本方差自由度
•一组数据中可以自由取值的数据的个数
•当样本数据的个数为n时,假设样本均值*确定后,只有n-1个数据可以自由取值,其
中必有一个数据则不能自由取值。例如,样本有3个数值,即*1=2,*2=4,*3=9,则*=
5。当*=5确定后,*1,*2和*3有两个数据可以自由取值,另一个则不能自由取值,
比方*1=6,*2=7,则*3则必然取2,而不能取其他值
•样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当
用样本方差去估计总体方差。2时,它是。2的无偏估计量
(5)方差的数学性质
1>变量的方差等于变量平方的平均数减去变量平均数的平方
2》各变量值对算术平均数的方差,小于等于对任意常数的方差
5、标准分数:标准分也称标准化值或Z值,它对*一个值在一组数据中相对位置的度量,
可用于判断一组数据是否有离群点;用于对变量的标准化处理
・计算公式
当一组数据对称分布时
(1)约有68.27%的数据在平均数加减1个标准差的围之
(2)约有95.00%的数据在平均数加减1.96个标准差的围之
(3)约有95.45%的数据在平均数加减2个标准差的围之
(4)约有99.73%的数据在平均数加减3个标准差的围之
6、离散系数(变异系数):标准差与其相应的均值之比,是对数据相对离散程度的测度,消
除了数据水平上下和计量单位的影响,用于对不同组别数据离散程度的比拟,用V表示。
第三节分布形态的度量
1、偏态:指数据分布的不对称性,是对■数据分布偏斜程度的测度。
2、对数据分布不对称性的度量值称为偏态系数
偏态系数SK=0为对称分布
偏态系数SK>0为右偏分布或正偏分布,正偏离差值较大
偏态系数SK<0为左偏分布或负偏分布,负离差数值较大
|SK|数值越大,表示偏斜程度越大
(1)根据原始数据计算(2)根据分组数据计算
3、峰度:指数据分布的平峰或尖峰程度。
4、对数据分布峰度的度量值称为峰度系数,记为K。峰度通常与标注正态分布相比拟而言,
假设一组数据服从标准正态分布,K=0:如果K不为零,说明分布比标准正态分布更平
或更尖,成平峰分布或尖峰分布。
峰态系数K=0为峰度适中
峰态系数K<0为扁平分布
峰态系数K>0为尖峰分布
•根据原始数据计算
第四章抽样与抽样分布
第一节抽样技术
一、抽样技术中的根本概念
(一)总体和样本
1、总体:所研究的全部元素的集合,其中的每一个元素称为个体。
分为有限总体和无限总体
(1)有限总体的围能够明确确定,且元素的数目是有限的
(2)无限总体所包括的元素是无限的,不可数的
2、样本:从总体中抽取的一局部元素的集合。构成样本的元素的数目称为样本容最
(1)样本容量:一个样木所包含的总体根木单元数
・n<30的样本叫小样本
•〃二30本叫大样本
(2)数理统计中,在用样本数量特征推断总体数量特征时,大小样本使用的推断方法有
所不同.社会经济现象的抽样推断中,绝大多数采用的是大样本
(二)参数和统计量
1、参数:研究者想要了解的总体的*种特征值。总体参数通常用希腊字母表示,所关心的参
数主要有总体均值()、标准差()、总体比例(冗)等.
2、统计量:根据样本数据计算出来的一个量。样本统计量通常用小写英文字母来表示,所
关心的样本统计量有样本均值(*)、样本标准差(s)、样本比例(p)等
(三)抽样框与抽样单元
1、抽样框:是包括全部总体单位的一个框架,用来代表总体,从中抽取样本单元。
(1)抽样框的主要形式:抽样框;区域抽样框,比方地图;时间表抽样框
(2)抽样框的意义:实施抽样的根底,抽样框的编制影响抽样的随机性和抽样效果的实现
(3)对抽样框的根本要求:一个理想的抽样框应该与目标总体一致,不重不漏;应尽可能
地提供抽样单元的名称和地理位置、联系方式等信息;还应尽可能多地提供与研究的目标量
有关的辅助信息,以便调查人员利用这些辅助信息搞好抽样设计,提高抽样估计的效率,比
方:对企业做调查,除了有企业目录外,还应该有企业的联系方式、法人代表、注册信息,
甚至近期主要经济或财务指标的数据等
2、抽样单元:构成抽样框的根本要素,它可以是自然形成的,也可以是人为划分的。
•抽样单元与总体根本单元(Baseunit)的关系有两种:
(1)抽样单元;总体根本单元。比方,简单随机抽样,分层抽样,系统抽样等
(2)抽样单元=总体根本单元的集合。比方,整群抽样,多阶段抽样
(四)抽样方法和样本可能数目
1、重置和不重置抽样
(1)重置抽样:也叫重复抽样/回置抽样,是指从总体的N个单位中抽取一个容量为n的样
本,逐个抽取。每次抽出一个单位记录后,再将其放回总体中参加下一次抽取,这样连续抽
n次即得到一个样本。同一总体单位有可能被重复抽中;每次都是从N个总体单位中抽取;
n次抽取就是n次相互独立的随机试验
(2)不重置抽样:也叫不重复抽样/不回置抽样,指抽中单位不放回总体中,下一个样本
单位只能从余下的总体单位中抽取。也可以一次抽n个。每次抽取是在不同数目的总体单
位中进展的;同一总体单位不可能被重夏抽中;n次抽取可看作是n次互不独立的随机试验。
2、样本可能数目M:按*抽样方案从总体中抽样,可能抽出的所有的样本的个数
(1)考虑顺序的重复抽样的样本可能数目M=N〃N!
(2)考虑顺序的不重复拍样的可能样本数目(独立事件乘法原理〕知=用=石匚标
(3)不考虑顺序的重复拍样的可能样本数目(组合)
(4)不考虑顺序的不重及抽样的可能样本数目
二、抽样技术
(一)概率抽样:根据一个的概率来抽取样本单位,也称随机抽样
•特点:按一定的概率以随机原则抽取样本;抽取样本时使每个单位都有一定的时机被抽中;
每个单位被抽中的概率是的,或是可以计算出来的:当用样本对总体目标量进展估计时,要
考虑到每个样本单位被抽中的概率
1、简单随机抽样/纯随机抽样:从总体N个单元中随机地抽取n个单元作为样本,每个单元
进入样本的概率是相等的,比方利用随机数表、抽签、摇奖机等进展的抽样都是srs
是最根木的抽样方法,是其它抽样方法的根底
(1)、特点:适用于均匀总体;直接从抽样框中取样,简单、直观;用样本统计量对目标量
进展估计比拟方便
(2)、局限性:当N很大时,不易构造抽样框;抽出的单位很分散,给实施调查增加了困难;
没有利用其它辅助信息以提高估计的效率
2、分层抽样(类型抽样):抽样分两步完成,即先分层一后各层独立抽样。
(1)、将抽样单元按*种特征或*种规则划分为不同的层,然后从不同的层中独立、随机地抽
取样本单元构成样本
(2)、优点:更能保证样本的构造与总体的构造相近,从而提高估计的精度;抽样方法灵活,
组织实施调查方便;既可以对总体参数进展估计,也可以对各层的目标量进展(占计
3、系统抽样:抽样分三步完成,先排序一确定起始单元一确定其他样本单元。将总体中的
所有单元(抽样单元)按一定顺序排列,在规定的围随机地抽取一个单元作为初始单元,然后
按事先规定好的规则确定其它样本单元。比方,等距抽样,先从数字1到k之间随机抽取一
个数字r作为初始单元,以后依次取r+k,r+2k…等单元
(1).优点:操作简便,可提高估计的精度
(2)、缺点:对估计量方差的估计比拟困难
4、整群抽样:抽样分两步完成,分群一抽群。将总体中假设干个单位合并为组(群),抽样
时直接抽取群,然后对中选群中的所有单位全部实施调查
⑴、特点:抽样时只需群的抽样框,可简化工作量;倜直的地点相对集中,节省倜查费用,
方便调查的实施
(2)、缺点:估计的精度较差(样本单位过于集中,抽样误差大)。
5、多阶段抽样/多级抽样:指分两个或两个以上的阶段来完成抽取样本单元的过程。如,我
国的城市居民住户调查采用三或四阶段抽样
一一第一阶段:抽选调查城市
——第二阶段:从抽中城市中抽选居委会(或抽街道办事处再抽居委会)
一一第三阶段:从抽中的居委会中抽取调查户
•多阶段抽样可根据需要和可能,将几种抽样方式结合运用,比方第一阶段用PPS抽样,第
二阶段用分层抽样,第三阶段用简单随机抽样等
6、不等概抽样:总体中各单元被抽中的概率不相等。这个概率通常与各单元的*个辅助变量
大小成正比例
(1)①各单元被抽中的概率称为〃入样概率"。设总体含有N个单元,则各单元入样概率用
Zi01,2,…,N)表示。在不等概抽样下,Zi是不完全一样的
②"i与*一辅助变量*i大小成正比例"。如果*一单元的辅助变量越大,则该单元被抽中的
概率越大。所以,辅助变量也称为入样指标
Zi=*i/£*i,(i=l,2,…:N)EZi=l
&&&是否需要入样指标来确定入样概率,成为不等概率抽样和等概率抽样的本质区别
(2)不等概抽样作用或适用性
①各抽样单元在总体中所占的地位不一致
居民住户调查中,调查家塞的口常消费支出或娱乐/保健品等奢侈消费支出,会采用不同的
抽样设计
为估计一城市的商业销售总额,对各商业网点进展调查
以船舶为抽样单元,为船舶运输量进展调杳
以个人储户为抽样单元,调查储户对银行效劳的满意度
以个人用户为抽样单元,调查移动业务用户的满意度
②调查的总体单元与抽样总体的单元不一致的情况,比方:
大型企业对职工家庭情况进展调查
*小学对在校生家庭情况进展调查
③改善估计量.不等概抽样还广泛应用于由于种种原因不能或不需要对根本单元直接抽样
的情形,比方整群抽样(CL:clustersampling)中,假设群大小(用群包含的BU数Mi表示)
相差较大,常采用对群的不等概抽样;多阶段抽样(MS:Multi-Stagesampling)中,假设初
级单元大小(用所包含的次级单元数目表示)相差较大,则常采用对初级单元的不等概抽样
比率估计中消除小样本比率估计最•偏倚的方法一一水野法
第二节正态分布及几个重要的统计分布
一、连续型随机变量的概率分布
(1)连续型随机变量可以取*•区间或整个实数轴上的任意•个值
(2)它取任何一个特定的值的概率都等于0
(3)不能列出每一个值及其相应的概率
(4)通常研究它取*一区面值的概率
(5)用概率密度函数的形式和分布函数的形式来描述
1、正态分布:描述连续型随机变量的最重要的分布。许多现象都可以由正态分布来描述。
可用于近似离散型随机变量的分布,例如:二项分布。经典统计推断的根底
(1)概率密度函数
f(x)=e2a,-oo<x<+oo
J2s2___________
f(*)=随机变量*的频数
=正态随机变量*的均值
=正态随机变量*的方差
=3.1415926;e=2.71828
*=随机变量的取值(-<*<+)
(2)正态分布函数的性质
1》图形是关于*=对称的钟形曲线,且峰值在*=处
2>均值和标准差一旦确定,分布的具体形式也惟一确定,不同参数正态分布构成一个完
整的”正态分布族〃
3>均值可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的〃陡峭"
或“扁平"程度。越大,正态曲线扁平;越小,正态曲线越高陡峭
4>当*的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永
远不会与之相交
5》正态随机变量在特定区旬上的取值概率由正态曲线下的面积给出,而同其曲线下的总面积
等于1
2、标准正态分布:随机变量具有均值为0,标准差为1的正态分布。任何一个一般的正态
分布,可通过下面的线性变换转化为标准正态分布
(1)标准正态分布的概率密度函数
(2)标准正态分布的分布函数
(3)常用区间的正态概率值
(4)数据正态性的评估
1>对数据画出频数分布的直方图或茎叶图
2>假设数据近似服从正态分布,则图形的形状与上面给出的正态曲线应该相似,绘制正态概
率图。有时也称为分位数一分位数图或称GQ图或称为P-P图
•用于考察观测数据是否符合*一理论分布,如正态分布、指数分布、t分布等等
•P-P图是根据观测数据的累积概率与理论分布(如正态分布)的累积概率的符合程度绘制的
•Q-Q图则是根据观测值的实际分位数与理论分布(如正态分布)的分位数绘制的
3》使用非参数检验中的Kclmogorov-Smirnov检验(K-S检验)
(5)正态概率图的分析
1〉实际应用中,只有样本数据较多时正态概率图的效果才比拟好。当然也可以用于小样本,
但此时可能会出现与正态性有较大偏差的情况
2》在分析正态概率图时,最好不要用严格的标准去衡量数据点是否在一条直线上,只要近似
在一条直线上即可
3》对于样本点中数值最大或最小的点也可以不用太关注,除非这些点偏离直线特别远,因为
这些点通常会与直线有偏离。如果*个点偏离直线特别远,而其他点又根本上在直线上时,
这个点可能是离群点,可不必考虑
3、I分布
(1)定义:设随机变量*〜N机,1),Y〜2(n),且*与Y独立,则称
是自由度为n的t分布,记为t〜t(n)。
(2)与t分布相关的抽样分布:设总体X从中抽取容量为n的样本,
(3Jt分布(图木〕:t分布是类似止态分布的一种对称分布,它通常要比止态分布平
坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋
于正态分布
4、2分布
X〜NO")z-—~~—〜NQ1)
则
令■则y服从自由度为1的2分布,即对于n个正态随机变量yl,y2,yn,
则随机变量
记为?〜幺
称为具有n个自由度的2分布,记为I
(1)定义:设随机变量*1,*2,…,*n相互独立,且服从标准正态分布N(0,1),则
丫=*12+*22+…+*n2服从自由度为n的2分布,记为Y〜2(n)0
(2)与2分布相关的抽样分布:设总体服从参数为U、。2的正态分布,从中抽取容量
(n-Y)s2
〜/(九一1)
为n的样本,则6
(3)性质和特点:
1》分布的变量值始终为正
2》分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐
渐趋于对称
3》期望为:E(2)=n,方差为;D(2)=2n(n为自由度)
4>可加性:假设U和V为两个独立的2分布随机变量,If2(nl),V"2(n2),则U+V这
一随机变量服从自由度为nl+n2的2分布
(4)图示
5、F分布
(1)设随机变量U与V相互独立,且U和V分别服从自由度为nl和n2的2(n)分布,则
称IVg服从第一自由度为nl,第一自由度为n2的F分布,记为F〜F(n1,n2).
(2)与F分布相关的抽样分布
设两个总体都为正态分布,两总体的方差分别为。12,c22,从两个总体中分别抽取容量为
nl和n2的独立样本,样本方差分别为S12,S22则有
(3)图示(不同自由度的F分布)
第三节样本统计量的抽样分布
一、抽样分布
1、定义:样本统计量的概率分布,是一种理论分布。在重复选取容量为n的样本时,
由该统计量的所有可能取值形成的相对频数分布
(1)随机变量是样本统计量.样本均值,样本比例,样本方差等
(2)结果来自容量一样的所有可能样本
(3)提供了样本统计最长远而稳定的信息,是进展推断的理论根底,也是抽样推断科学性
的重要依据
2、样本均值的抽样分布
(1)样本均值的抽样分布的概述:在重复选取容量为n的样本时,由样本均值的所有可能
取值形成的相对频数分布;•种理论概率分布;推断总体均值的理论根底
(2)例题
(3)总体分布为正态分布时的样本均值的分布
当总体服从正态分布N(u,。2)时,来自该总体的所有容豉为n的样本的均值*也服从正
态分布,*的数学期望为U,方差为。2/n。即*~N(u,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 八下第六单元《庄子与惠子游于濠梁之上》思辨阅读示范课教学设计
- DB5307T 5-2019 藜麦良种生产技术规程
- 某玻璃厂操作安全细则
- 某纸品厂环保管理规则
- 2026泰隆村镇银行顺昌支行招聘备考题库及一套完整答案详解
- 高温作业环境安全制度
- 兴文县事业单位2026年上半年公开考核招聘工作人员备考题库(7人)及参考答案详解1套
- 成都体育学院2026年6月公开招聘编制外助学助管员备考题库(68人)带答案详解
- 橡塑加工设备维护
- 2026浙江绍兴市北卫物业管理有限公司招聘1人备考题库带答案详解
- 2026年陕西高速铁路投资有限公司招聘(5人)考试备考题库及答案解析
- 2026年滁州市工安机动车辆技术检测有限公司面向社会招聘工作人员22名考试备考题库及答案解析
- 2026年安徽辉隆农资集团股份有限公司社会公开招聘6人笔试备考题库及答案解析
- 2026年村卫生室健康知识咨询记录
- 2026年重庆市八年级地理生物会考考试题库(含答案)
- 涉密合同线下审批制度
- 2026年八年级地理生物会考试题题库(答案+解析)
- 2026 年贝壳融合训(《预见未来 贝 + 精彩》)试题及答案
- 工程项目施工安全管理指导手册
- 2026年水利三类人员安全员b证考试题库及答案(完整版)
- 延长石油招聘真题及答案
评论
0/150
提交评论