上海财经大学应用统计学教材课程_第1页
上海财经大学应用统计学教材课程_第2页
上海财经大学应用统计学教材课程_第3页
上海财经大学应用统计学教材课程_第4页
上海财经大学应用统计学教材课程_第5页
已阅读5页,还剩218页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息管理与工程学院2应用统计学考试大纲考试要求:经济管理中常用的基本统计原理和方法熟悉统计计算方法和公式,并能正确地解释计算结果初步具有应用定量的统计模型以及科学的统计方法进行现代化管理和决策的能力信息管理与工程学院3应用统计学考试大纲(续)考试内容:数据的整理与图形常用随机变量的分布以及抽样分布参数估计假设检验回归分析时间序列分析考试时间:每年五月份第3个星期日下午信息管理与工程学院4应用统计学教学进度表日期教学内容教学方法3月3下午第一章数据的整理与图形课堂与上机3月4上午第二章常用随机变量的分布以及抽样分布课堂与上机3月17下午第二章常用随机变量的分布以及抽样分布(续)课堂与上机3月18上午第三章参数估计课堂与上机3月31下午第四章假设检验课堂与上机4月1上午第五章回归分析课堂与上机4月7下午第五章回归分析(续)课堂与上机4月8上午第六章时间序列分析课堂与上机4月14下午总复习模拟试卷AB5月12上午考试笔试2小时信息管理与工程学院5信息管理与工程学院应用统计学目录第二章随机变量以及抽样分布-----------------25第一节随机变量概念和随机变量的数字特征-------------------12一.随机变量的数学期望1819二.随机变量的方差和标准差·

第二节常用随机变量以及分布18一.0-1分布2二.二项分布226三.正态分布与标准正态分布·

第三节总体与样本一.总体二.样本三.联合分布函数和联合概率密度---------------------------306信息管理与工程学院应用统计学目录第二章常用随机变量的分布以及抽样分布-----------------2·

第四节抽样方法一.简单随机抽样二.分层抽样313三.整群抽样3四.系统抽样31第五节样本统计量的分布一.统计量36二.常用统计量三.三大分布(

卡方分布、t分布、F分)-----------------37四.正态总体的样本均值和样本方差分布------------------38五.独立同分布的中心极限定理------------------------------407信息管理与工程学院应用统计学目录第三章参数估计·

第一节参数的点估计一.参数点估计的一般提法二.参数点估计的求法424344三.点估计量的评价标准·

第二节参数的区间估计44一.参数区间估计的一般提法二.单侧置信区间

45三.关于一个正态总体均值和方差的区间估计------------46四.关于两个正态总体的均值差的区间估计---------------47五.关于比率p的区间估计488信息管理与工程学院应用统计学目录第四章假设检验·

第一节假设检验的原理一.假设检验的基本思想二.原假设和备选假设42434第二节假设检验的基本概念一.两类错误4二.显著性水平α的确定45三.原假设与备选假设的选择四.双侧检验与单侧检验4647五.假设检验的一般步骤489信息管理与工程学院应用统计学目录第四章假设检验第三节关于总体均值与方差的假设检验-------------------------52一.关于一个正态总体均值的假设检验----------------------52二.关于一个正态总体方差的假设检验----------------------53三.关于两个正态总体均值差的假设检验-------------------54四.关于比率p的假设检验

55五.关于两个总体比率差的假设检验-------------------------56第四节假设检验与区间估计的关系-------------------------------4410信息管理与工程学院应用统计学目录第五章回归分析第一节简单线性回归分析一.散点图二.简单线性回归模型及基本理论假设----------------------63三.简单线性回归模型的基本特征----------------------------66四.回归参数的最小二乘估计

67五.方差σ2的估计、可判定系数R2与相关系数R---------68六.回归效果的显著性检验与方差分析表-------------------69七.回归参数的假设检验与区间估计-------------------------70八.预测11信息管理与工程学院应用统计学目录第五章回归分析·

第二节多元线性回归分析一.多元线性回归模型及基本理论假设---------------------74二.回归参数的最小二乘估计

75三.方差σ2的估计、复可判定系数R2

----------------------76四.多元线性回归模型的假设检验---------------------------77五.估计与预测78六.多项式回归模型7912信息管理与工程学院应用统计学目录第五章回归分析第三节线性回归模型的适宜性评价------------------------------81一.非线性二.异方差性8三.序列相关性四.非正态性848五.多重共线性8613信息管理与工程学院应用统计学目录第六章时间序列分析·

第一节时间序列的组成因素9一.影响时间序列的四个因素9293二.时间序列的三个分解模型·

第二节长期趋势的测定一.长期趋势的测定——滑动平均法-------------------------97二.直线趋势的测定——最小二乘法-------------------------98三.曲线趋势的测定9914信息管理与工程学院应用统计学目录第六章时间序列分析10第三节季节变动因素的测定一.按月(季)平均法10102二.滑动平均趋势剔除法三.季节调整10第四节循环波动因素的测定一.剩余测定法1二.循环波动相关数图10515信息管理与工程学院16应用统计学希腊字母表大写小写读音主要用途和用法Ααalpha显著水平;分布参数Ββbeta分布参数;第二类错误的概率Γγgamma分布参数Δδdelta差分;误差Εεepsilon无穷小的总体误差及样本误差Ηηeta分布参数Θθtheta待估分布参数Λλlambda普阿松分布参数;待估分布参数Μμmu分布均值Ξξxi待估分布参数Ππpi圆周率Ρρrho相关系数;比率待估分布参数Σσsigma分布标准差Ττtau待估分布参数Φφphi待估分布参数Χχchi卡方分布Ψψpsi待估分布参数Ωωomega样本空间及样本点信息管理与工程学院17第一章数据的整理与图形第一节数据的整理与图形表示数据整理——一般来说数据整理的一项初步工作是对数据进行统 计分组。统计分组——一般按照数据的品质标志或数量标志分组。不同的分组标志反映总体的不同特征,因此,必须从统计研究任务的需要出发,选择能够反映现象本质特征的标志。品质标志——从事物的性质或属性特征上区分各种类型组。如性 别、颜色、产品等级、生产厂家等。数量标志——从事物的数量差异程度上来区分各种类型组。如温 度、产量、年龄、销售量等。频数——分配在某统计分组内的数据个数称为该组的频数。频率——某组频数与全部组的频数之和的比值称为该组的频率。频率分布——按数据的某种标志分组,把全部数据在各组中的分 配状况称为频率分布。频数频率分布表——将分组标志、各组频数及频率列成表格。反映总体的分布规律和性质,在定量统计分析中有广泛的用途。信息管理与工程学院18第一节数据的整理与图形表示频数频率分布表标准样式:按品质标志或数量标志频数频率(%)A1X1=X1/TA2X2=X2/T………AnXn=Xn/T总计T=X1+X2+…+Xn100.00信息管理与工程学院一.饼形图适用于分组数少用于描述和表现各成分或某一成分占全部的百分比各成分总和=100%

用圆代表全体,用扇形区域代表各成分,扇形区域面积占整个圆面积的百分比等于该成分占全部的百分比例1.1某公司工作人员的性别频数频率分布表如下:19按性别分组频数(人数)频率(%)男12060.00女8040.00总计200100.00信息管理与工程学院20二.组距分组法与频率直方图

数据标志取值个数较小(单项数列)——采用品质分组法。例如5分制的学生成绩。

数据标志取值个数较多或连续变量(组距数列)——采用组距分组法(等距数列和异距数列)。例如百分制的学生成绩。

异距数列——制作直方图时,要先计算出各组的频数密度=频数/组距,然后以组距为宽,以频数密度为高画直方图。组距分组法(等距数列)的操作步骤如下:例1.2从一批电阻中抽取30只,测得各只电阻的电阻值如下表。对这组数据适当分组,并建立频数频分布表和绘制频率直方图。4.34.64.73.73.83.24.04.42.83.43.73.24.12.64.64.94.13.43.82.73.54.43.63.24.03.83.54.24.63.9信息管理与工程学院21二.组距分组法与频率直方图(续)第一步:找出最大值L,最小值l,计算极差R=L-l。本例中L=4.9,l=2.6,R=4.9-2.6=2.3。

第二步:确定分组个数k,计算组距h。分组个数一般由下表确定(根据美国统计学家斯特吉斯提出的经验公式:组数=1+3.322LogN得出,其中N为数据个数)。本例选取k=5。则组距k=R/h=2.3/5=0.46,为计算方便可取h=0.5。样本容量N分组各数k50以下5~650~1006~10100~2507~12250以上10~20信息管理与工程学院22二.组距分组法与频率直方图(续)第三步:决定各组界限值,确定分点。第一组的下限值=l-h/2,上限值=l+h/2。本例中也可取第一组下限值为2.5,上限值为2.5+h=2.5+0.5=3;依此类推第五组下限值为4.5,上限值为5.0。

第四步:数出各组频数,计算频率,作出频数频率分布表如下。要特别注意:数据正好是界限值时,则该数据应被计数在以它为下限的组中。组序分组界限频数频率1[2.5,3.0)30.1002[3.0,3.5)50.1653[3.5,4.0)90.3004[4.0,4.5)80.2705[4.5,5.0)50.165合计301.000信息管理与工程学院二.组距分组法与频率直方图(续)第五步:由频数频率分布表可以画出频率直方图。在平面直角坐标系的横坐标X轴上标出各组界限值在各组下限值与上限值之间画出高为该组频率的矩形

直方图的特点:简单、直观,能够反映数据是否呈对称分布,数据的平均水平及散布情况。23信息管理与工程学院24三.条形图与柱状图

条形图与柱状图本质上没有太大区别,都是用来对各项信息进行比较。主要区别:数据是对事物在时间序列上的度量,一般用横坐标表示时间,这样可以直接地观察事物随时间变化的情况——采用柱状图。如果数据不是按时间排列的且各项信息的标识过长时——采用条形图。例1.3某电视机生产厂家2006年市场占有率及其主要竞争对手的市场占有率资料如下表所示。请分别用条形图和柱状图表示该组数据。该厂商竞争对手A竞争对手B竞争对手C竞争对手D15%10%14%12%8%信息管理与工程学院三.条形图与柱状图(续)25信息管理与工程学院26四.并列条形图或并列柱状图

并列条形图或并列柱状图有利于对两组或两组以上的并列数据进行对比。(还有一种堆积条形图)例1.4某电视机生产厂家2005和2006年市场占有率

及其主要竞争对手的市场占有率资料如下表所示。请用并列柱状图表示该组数据。该厂商竞争对手A竞争对手B竞争对手C竞争对手D200511%7%15%11%10%200615%10%14%12%8%信息管理与工程学院三.并列条形图或并列柱状图(续)27信息管理与工程学院28三.茎叶图

茎叶图——也是一种条形图,它是把每个数分成茎和叶两部分,同茎的数排成一列,然后按茎和叶的大小排列成图。一般取数据的最后一位数为叶,前几位数为茎。分为一般茎叶图和有序茎叶图。

茎叶图——它直观地显示了数据所在的范围以及数据的总体水平(集中或分散情况),它的优点是可以清楚地看到落在每一直方形中的具体数据,而且可以较容易地找出有用的分位数,如中位数等。例1.5某班级(40人)应用统计学期末考试成绩如下表所示。请画出茎叶图。67658575707275586983827396698583787480706584858170889086777886929385727670838875信息管理与工程学院29三.茎叶图(续)以十位数为茎,个位数为叶,画出的茎叶图如下:586759957502538400782605853253045186653896023信息管理与工程学院30三.茎叶图(续)还可以把各茎叶上的叶按大小排序,得到有序茎叶图如下:586557997000022345556788801233345555668890236信息管理与工程学院第二节数据的描述性指标

测定每个观察单位某项指标值的大小,所得的资料称为计量资料又称测量资料,这类资料一般具有计量单位。计量资料的统计指标分成两大类:

数据集中趋势的度量——表达计量资料集中位置的指标,用以描述观察值的平均水平,如算术均值、几何均值、调和均值、中位数、众数、百分位数。

数据离散趋势的度量——表达计量资料变异的指标,又称离散指标,用以描述观察值间参差别不齐的程度,即离散度或称变异度,如全距、标准差、方差、标准误差、变异系数、四分位数间距等。设原始观察值为第

组频数(有时可以是出现的频率)记为

,组中值记为31信息管理与工程学院一.数据集中趋势的度量

表示数据的集中点或中心点。根据不同的实际需要,可以采用下列指标之一来对数据的集中趋势进行度量:算术平均值简称为均值

总体均值用希腊字母

表示,样本均值用

表示。算术平均值的具体计算方法分为简单算术平均和加权算术平均两种:简单算术平均·

加权算术平均··算术平均值有两个重要的数学性质:①各个变量值与平均值离差之和等于零。②各个变量值与平均值的离差平方之和为最小值。32信息管理与工程学院33一.数据集中趋势的度量(续)中位数(或称中数)

中位数用M表示,它将总体或样本的全部观察值分成两部分,每部分各有50%个观察值,其计

算方法为:先将原始观察值按由小到大顺序排列后,位次处于中间的那个观察值为中位数。观察值为奇数时,处于中间的那个数为中位数。偶数时处于中间的两个数的均值为中位数。

中位数是位置平均值,它不受极端值的影响,在具有个别极大或极小值的分布数列中,中位数比算术平均值更具有代表性。信息管理与工程学院34一.数据集中趋势的度量(续)众数

频数最大的变量值称为众数,列为频数表的资料,频数最大的组的组中值为众数。当数据个

数较少时,众数就是出现次数最多的那个数据。

对于一组数据,众数可以不止一个,也可能没有众数。适用于粗略地表示呈单峰分布资料的集中趋势。信息管理与工程学院一.数据集中趋势的度量(续)百分位数

百分位数以

表示,它将总体或样本的全部观察值分成两个部分,其中有

个观察值小于

,(100-

)%个观察值大于

。如百分之25分位数或称第25百分位数,表示有25%个观察值小于

;75%个观察值大于

。中

位数就是百分之50分位数

。常用的有上四分位数

和下四分位数35信息管理与工程学院一.数据集中趋势的度量(续)上四分位数的计算将数据由小到大排列,记排列后的数据为令:·

其中

表示向上取整,如数就是

,即约有1/4的数据比。则上四分位大,3/4的数据比比

小。36信息管理与工程学院一.数据集中趋势的度量(续)下四分位数的计算将数据由小到大排列,记排列后的数据为令:·

其中

表示向上取整,如数就是

,即约有3/4的数据比。则下四分位大,1/4的数据比比

小。37信息管理与工程学院38一.数据集中趋势的度量(续)

例1.6某班30名MBA学生的年龄按上升顺序排列如下表。请计算这组数据的众数、中数、平均数、上四分位数和下四分位数。众数为27和28;分别出现5次中数为(27+28)/2=27.5平均数为27.67上四分位数为x23=30,下四分位数x8=26242425252525262626262727272727282828282829293030303031313132信息管理与工程学院39一.数据集中趋势的度量(续)■■■■5.

中位数、众数、平均数的运用比较中位数对极端值不像平均数那么敏感,因此对于有极端值的数据集来说,采用中位数描述其集中趋势一般比平均数更合适。众数的主要缺点是可能没有众数或不惟一,而平均数和中数都是存在并且惟一的。它的优点是反映了数据集中最常见的数值,即最普遍的数值,当数据多且有明显集中趋势时,计算众数既方便且有意义,并且它不仅对数量型数据有意义,对分类型数据集也有意义。平均数的优点在于它容易理解和计算。它的一个主要缺点是它对极端值特别敏感;它的另一个缺点是它不考虑数据在数据集中的重要性,一律平等对待。加权平均数克服了平均数不考虑数据在数据集中的重要性的缺陷,采用权重反映数据在数据集中的重要性,并且具有容易计算的优点。信息管理与工程学院40一.数据集中趋势的度量(续)运用中位数、众数、平均数的数量关系判别总体分布特征(*)

次数分布呈对称分布曲线时,算术平均数、众数、中位数三者完全相等。次数分布呈右偏态时,算术平均>中位数>众数。次数分布呈左偏态时,算术平均<中位数<众数。信息管理与工程学院一.数据集中趋势的度量(续)利用位置平均数与算术平均数的关系进行推算(*)

根据经验,在分布偏斜程度不大的情况下,不论右偏态还是左偏态,三者存在一定比例关系,中位数居中,众数Me与中位数Mo距离约为算术平均数

与中位数的2倍,即有公式:41信息管理与工程学院42一.数据集中趋势的度量(续)

例如:某城市住户家庭月收入的抽样调查资料计算资料计算得到众数为1040元,中位数为

1128.57,问算术平均数约为多少?其分布呈何形态?算术平均数=(3*1128.57-1040)/2=1172.86

所以有算术平均>中位数>众数,呈现右偏态分布,也说明收入分配中算术平均数偏向高端,多数居

民收入低于算术平均数。信息管理与工程学院43二.数据离散趋势的度量1.全距——也称极差是一种离散指标,是最大与最小观察值之差。用极差反映总体分布的离散程度虽然简便,但它只从两端数值考察,忽略了中间数据的变动情况,不能说明整体的差异程度,尤其是存在极端值情况下,使用极差往往会造成错误的结论。信息管理与工程学院二.数据离散趋势的度量(续)2.四分位差——即上四分位数与下四分位数的差数。它一般不受极端值的影响。2.方差——是一种常用的离散指标,样本的方差计算公式为:2.,,与数据具有相同4.标准差——的单位。44信息管理与工程学院二.数据离散趋势的度量(续)变异系数——是一种离散指标,简记为CV,它是标准差与均值之比,用百分数表示:

由于CV无量度单位,而且消除了原始资料的平均水平的影响,因此常用于比较量度单位不相同的指标或者平均水平相差悬殊的指标的变异程度。45信息管理与工程学院46二.数据离散趋势的度量(续)■■■■6.

各种离散趋势度量的适用场合比较分析极差——最简单、最直观、最容易计算。但特别容易受极端值的影响。四分布差——不像极差那么容易受极端值的影响,但仍然存在没有充分利用数据所有信息的缺陷。方差和标准差——最常用的度量数据离散程度的指标,它用数据自身与平均数之差的大小加权,因而区别对待了大小不同的数据,距离平均数远的数据权重比较大,距离平均数近的数据权重比较小,比较合理地反映了不同数据对离散度量的作用。缺点是计算比较繁琐,且方差的单位常常没有意义。变异系数——比较两组或两组以上数据集的离散趋势度量时,应采用无量度单位的变异系数CV。信息管理与工程学院47二.数据离散趋势的度量(续)数据离散趋势度量——方差的作用衡量数据的稳定性——例如:产品的质量评价事物的风险——例如:投资的风险数据的方差分析——例如:数据的挖掘信息管理与工程学院第二章随机变量以及抽样分布第一节随机变量概念和随机变量的数字特征随机变量是描述随机事件的数学模型。学习和掌握随机变量的概念是学习统计学的前提。随机试验的每一个可能结果称为样本点,用ω表示,样本点全体组成的集合称为样本空间,用Ω表示。随机事件是由若干个样本点组成的集合,或者说是样本空间的某个子集。随机变量是定义在样本空间上的函数,即对于随机试验的每一个可能结果ω,随机变量X取值X(ω)也不同,并且以确定的概率取这些不同的值。随机变量一般用X,Y,Z表示。按照随机变量的取值情况,把随机变量分成两类:离散型随机变量——用概率函数描述。连续型随机变量——用概率密度函数描述。对于任意实数x,随机变量X的分布函数为:即随机变量X的取值不大于x的概率。48信息管理与工程学院第一节随机变量概念和数字特征一.随机变量的数学期望E(X)· 一个随机变量的数学期望是对该随机变量分布中心的度量,它反映了随机变量的(加权)平均取值,因此数学期望也称为随机变量的均值。数学期望也常常用希腊字母μ表示,即μ=E(X)。离散型随机变量的数学期望设离散型随机变量X的概率函数为则根据概率函数的性质有离散型随机变量X的数学期望为49信息管理与工程学院第一节随机变量概念和数字特征一.随机变量的数学期望E(X)连续型随机变量的数学期望设连续型随机变量X的概率密度函数为则根据概率函数的性质有连续型随机变量X的数学期望为50信息管理与工程学院第一节随机变量概念和数字特征二.随机变量的方差D(X)和标准差σ离散型随机变量X的方差定义为连续型随机变量X的方差定义为方差的概念·

我们称

为随机变量X关于它期望的离差。由方差定义,方差就是离散平方的数学期望,即离散平方的平均值。因此,方差D(X)小,说明随机变量X的分布比较集中;方差D(X)大,说明随机变量X的分布比较分散。随机变量X的标准差的度量单位。随机变量的方差也可以记为。标准差和原随机变量具有相同,即

。51信息管理与工程学院52第一节随机变量概念和数字特征例2.1已知随机变量X的分布列为试求:随机变量的均值E(X)和方差D(X)解法1:·

E(X)=1×0.2+2×0.1+3×0.4+4×0.3=2.8·

D(X)=(1-2.8)2×0.2+(2-2.8)2×0.1

+(3-2.8)2×0.4

+(42.8)2×0.3=1.16X1234P0.20.10.40.3信息管理与工程学院第一节随机变量概念和数字特征解法2:·

E(X)=1×0.2+2×0.1+3×0.4+4×0.3=2.8·

E(X2)=1×0.2+4×0.1+9×0.4+16×0.3=9由于有证明:随机变量平方的数学期望不小于其数学期望的平方。·

D(X)=9-2.82=1.1653信息管理与工程学院第二节常用随机变量以及分布一.0-1分布只取两个不同数值的随机变量X称为0-1分布。定义:设0<p<1,如果X的概率函数为则称X服从参数为p的0-1分布,记为B(1,p)。0-1分布的概率函数也可以表示为X

0

1P

1-p

p54信息管理与工程学院第二节常用随机变量以及分布一.0-1分布0-1分布的数学期望为0-1分布的方差为·任何一个只有两种可能结果的随机试验,都可以用一个服从0-1分布的随机变量来描述。有时也称0-1分布为两点分布或贝努利分布。55信息管理与工程学院第二节常用随机变量以及分布二.二项分布定义:若随机变量X的所有可能取值为0,1,┄,n,且它的概率函数为则称X服从参数为n和p的二项分布。其中0<p<1。记为X~B(n,p)。当n=1时,二项分布就是0-1分布。n无限大时,趋向正态分布。二项分布的性质二项分布的数学期望二项分布的方差56信息管理与工程学院第二节常用随机变量以及分布二.二项分布应用:对产品有放回地做n次检验,每一次检验一个产品是否合格,n次检验中正好有k个产品合格的概率,其中每一次检验得到合格的概率为p。证明:由贝努利概型(在重复独立试验中,每次试验的结果只有两个可能)知,在指定k次检验中出现合格,而在其余n-k次检验中出现不合格的概率为

例如:在前k次检验中出现合格,而后面n-k次检验中出现不合格个概率

由于事件合格在n次检验中的任k次出现,共有种情况,而这么多种情况所对应的这么多个事件是不相容的。因此由概率的有限可加性得到:57信息管理与工程学院第二节常用随机变量以及分布三.正态分布与标准正态分布·

设连续型随机变量X的密度函数为·

正态分布的分布函数为·

其中

是正态分布随机变量的均值,是方差,我们称X服从均值为方差为

的正态分布,记为58信息管理与工程学院第二节常用随机变量以及分布三.正态分布与标准正态分布·

正态分布的概率密度函数曲线为59信息管理与工程学院60第二节常用随机变量以及分布三.正态分布与标准正态分布正态分布的密度函数性质p(x)与x轴之间的面积都是1。曲线关于x=μ对称,因此μ是正态分布的位置参数。方差σ2的大小决定了密度曲线的高矮胖瘦:σ2越大,曲线越矮越胖;σ2越小,曲线越高越瘦。标准正态分布期望值为0和标准差为1的正态分布N(0,1)称为标准正态分布,即μ=0,σ=1。常用U表示。信息管理与工程学院第二节常用随机变量以及分布三.正态分布与标准正态分布标准正态分布概率密度函数为分布函数为标准正态分布关于纵轴对称,对任意实数x,有61信息管理与工程学院第二节常用随机变量以及分布三.正态分布与标准正态分布正态变量的线性变换

标准化变换——把随机变量X减去自己的均值μ,再除以自己的标准差σ,所得到的新变量Z=(X-μ)/σ,称为原变量X的标准化变换,或简称标准化。一般正态分布与标准正态分布之间的关系是:若则

Z=(X-

μ)/

σ~N(0,1)分布函数之间的关系:62信息管理与工程学院第二节常用随机变量以及分布四.正态分布的计算设

,则,试求:·

例2.1设·

解:63信息管理与工程学院第二节常用随机变量以及分布四.正态分布的计算2.设

,则64信息管理与工程学院第二节常用随机变量以及分布四.正态分布的计算3.设

,若知,求c65信息管理与工程学院第三节总体与样本一.总体总体——研究对象的全体称为总体。通常我们研究对象某项数量指标,即总体就是研究对象的某项数量指标X的值的全体。

一般,X的取值在客观上有一定的分布F,故X是一个随机变量。因此,对总体的研究就是对相应的随机变量X的分布F(x)的研

究。X的分布函数和数字特征分别称为总体的分布函数F(x)和

数字特征。p维总体——在有些问题中,研究对象可能要观测两个或多个指标,则可用多维随机变量可用其联合分布函数去描述总体,也去描述总体。个体——组成总体的每一个基本元素称为个体。有限总体和无限总体——根据总体包含个体总数的多少分为有限总体和无限总体。当有限总体所包含的个体总数很大时,可以近似地将它看成是无限总体。66信息管理与工程学院第三节总体与样本二.样本样本——总体中抽取若干个体所组成的集合称为一个样本。样本容量——样本中所包含个体的个数称为样本容量。从总体中抽出的容量为n的样本记为

,这里每个Xi都看成是随机变量,因为第i个被抽到个体具有随机性,在观察前是不知其值的。样本的观察值记为

。n次不重复抽样——抽样时,每次从总体中抽取一个不放回去,再抽取第二个,连续抽取n次。重复抽样——抽样时,每次从总体中抽取一个进行观察后放回去,再抽取第二个,连续抽取n次。重复抽样的特例:

对于无限总体,抽取有限个n后不会影响总体的分布,在这种情况下,不重复抽样等价于重复抽样。

在实际应用时,如果总体所包含的个体个数很大,而样本容量很小,可认为总体是无限的,抽样时可以认为是重复抽样。67信息管理与工程学院第三节总体与样本二.样本·

简单随机样本——设X是具有分布函数F(x)的随机变量,若是具有同一分布函数F(x)的相互独立的随机变量,则称是来自总体X(或总体F(x))的容量为n的简单随机样本,简称样本。即抽取的样本满足以下要求:

代表性——每一个体都有同等机会被选入样本,这便意味着每一样品Xi与总体X有相同的分布。

独立性——样本中每一样品取什么值不受其它样品取值的影响,这意味着

相互独立。68信息管理与工程学院第三节总体与样本三.联合分布函数和联合概率密度·

若是来自总体F的一个容量为n的简单随机样本(独立同分布样本),则

的联合分布函数为·

若X具有概率密度f,则度为的联合概率密69信息管理与工程学院70第四节抽样方法

统计调查与整理——根据研究的目的和要求,有组织、有计划地搜集资料和对这些资料进行去伪存真、去粗取精的分类整理、浓缩简化的工作过程。统计调查的方式——按其组织方式可分为:统计报表制度专门组织的统计调查;专门组织的调查可分为:普查重点调查典型调查抽样调查其中抽样调查方法已经发展为现代统计科学的一个分支系列。

抽样的目的——我们抽取样本的目的是为了对总体进行推断。为了能从样本正确推断总体就要求所抽取的样本能很好地反映总体的信息,所以要有一个正确的抽取样本的方法。信息管理与工程学院71第四节抽样方法抽样调查方法的重要特点:随机原则(机会均等原则)——按照随机原则从总体中抽取样本单位。调查者不带任何主观倾向,完全凭偶然性抽取样本单位,使总体的每个单位有均等机会被抽中。推断总体——以样本的指标即统计量为依据推断总体的参数或检验总体的某种假设。抽样调查的目的就是要对总体的数量特征作出估计或作出某种判断,而且它是以概率论阐明的有关分布规律为依据的估计,可以计算其可靠性和精确度。误差事先控制——抽样调查方法的误差可以事先计算并加以控制。用样本指标推断总体,不可避免地会产生误差,即抽样误差。抽样误差也是随机变量,其分布具有一定的规律性,可以依据这种分布规律和具体的抽样条件计算抽样误差的大小。影响抽样误差大小的因素主要有三个方面:总体内部的差异程度;样本容量的大小;抽样的方式方法。信息管理与工程学院72第四节抽样方法进行抽样调查时,必须事前根据研究对象的特点和具体条件,对抽取样本的程序和具体方法进行周密的设计,选择最合

适的组织方式。基本的抽样组织方式有简单随机抽样、分层抽样、整群抽样和系统抽样。一.简单随机抽样简单随机抽样——也称完全随机抽样,对总体单位不作任何分类或排队,完全按随机原则逐个地抽取样本单位。它是在无限总体中进行的无放回独立抽样或在有限总体中进行的有放回随机抽样。随机抽样特点:理论上最易处理,但实施时较困难;可用样本平均数来估计总体均值;限于总体规模不大,内部差异也不很大的情况信息管理与工程学院73第四节抽样方法二.分层抽样分层抽样——也称类型抽样,它将总体的成员按某种原则划分成若干个子总体(类型组),每个子总体称为一个层。在每层中独立进行简单随机抽样或其他抽样。分层抽样特点:先对各层进行估计,然后再综合成总体参数估计;

因为子总体的差异必定小于总体差异,因此,分层抽样的抽样误差比简单随机抽样小,抽样推断的效果好。;适用于既需要对总体进行估计,也需要对局部进行估计的情况。

当层内成员差异较小,而层间成员差异较大时,分层抽样可以提高估计的精度。信息管理与工程学院74第四节抽样方法三.整群抽样整群抽样——它将总体的成员分成若干群(或组),从这些群(或组)中抽取部分群(或组),调查对象是被抽中的这些群(或组)中的所有成员。整群抽样特点:

优点是当被调查单位地理位置比较集中时,实施起来比较方便,可以节省人力和财力;

缺点是由于调查单位集中在若干群或组中,而不能均匀地分布在总体的各部分。因此,它的准确性较差;但可以通过适当地多抽取一些群来弥补。信息管理与工程学院75第四节抽样方法四.系统抽样系统抽样——又称为等距抽样或机械抽样,它将总体中的调查单位按某种次序排列,随机地选定初始单位,然后按相等的间距抽取其他样本单位。例如总体共有N个单位,从中抽取n个单位,N/n=k便是等距抽样的间隔距离,然后在第一组中先抽取一个单位,再每隔k个单位抽取一个,直到抽满n个单位。系统抽样特点:

优点是总体各部分都能在一定程度上被包含到样本中,实施方便。

缺点是当初始单位决定后,样本只有一种组合,不再具有随机性。当次序排列具有周期性时,容易产生严重的偏差。因此,必须对排列次序进行细致的研究。信息管理与工程学院第五节样本统计量的分布一.统计量·

统计量定义:设是来自总体X的一个样本,是的函数。若g是连续函数,且g中不含任何未知参数,则称

是一个统计量。统计量是样本的函数,它是一个随机变量。是相应于样本是的·

观察值定义:设的样本值,则称观察值·

抽样分布:统计量的分布称为抽样分布。76信息管理与工程学院第五节样本统计量的分布一.统计量例2.5.1

设总体

,其中

未知,

已知,设·为来自X的一个样本,则是统计量·是统计量·不是统计量(含有未知参数

)·是统计量·不是统计量77信息管理与工程学院第五节样本统计量的分布二.常用统计量设

是来自总体X的一个样本,是这一样本的观测值,则样本平均值:样本方差:样本标准差:样本k阶原点矩:样本k阶中心矩:样本观测值的计算将上面公式全部改写为小写即可。78信息管理与工程学院第五节样本统计量的分布三.三大分布(分布、t分布、F分布)1.

卡方分布2.

设是来自总体N(0,1)且相互独立的样本,则随机变量3.4.

服从自由度为n的分布,记为

。其中,自由度是指上式右端包含的独立变量的个数。79信息管理与工程学院第五节样本统计量的分布■卡方分布的概率密度为f(y)的图形如下所示:80信息管理与工程学院第五节样本统计量的分布卡方分布的性质·

可加性:设

,且它们相互独立,则,则数学期望和方差若α分位点对于给定的正数α,0<α

<1,称满足条件为的点例如:分布的上α分位点。,81信息管理与工程学院第五节样本统计量的分布■卡方分布的上α分位点如下图所示:82信息管理与工程学院第五节样本统计量的分布三.三大分布(分布、t分布、F分布),并且X和Y相互独立,2.t分布设则称随机变量服从自由度为n的t分布,记为。83信息管理与工程学院第五节样本统计量的分布t分布的概率密度为h(t)的图形如下所示:84信息管理与工程学院第五节样本统计量的分布t分布的性质t分布与正态分布比较:

t分布类似于标准正态分布,两者都是均值为0的对称的钟形曲线,取值范围也都在负无穷大到正无穷大。但t分布的方差大于1,与标准正态分布相比中心部分较低,两个尾部较高。自由度n越小,这些差别就越明显,随着自由度n不断增大,t分布越来越趋近于标准正态分布,并以其为极限。数学期望和方差α分位点对于给定的正数α,0<α

<1,称满足条件的点为分布的上α分位点。由对称性知:例如:,85信息管理与工程学院第五节样本统计量的分布t分布的上α分位点如下图所示:86信息管理与工程学院第五节样本统计量的分布三.三大分布(分布、t分布、F分布),并且U和V相互独立,3.F分布设则称随机变量服从自由度为的F分布,记为。87信息管理与工程学院第五节样本统计量的分布F分布的概率密度为ψ(t)的图形如下所示:88信息管理与工程学院第五节样本统计量的分布F分布的性质F分布的性质:由定义可知,若

,则数学期望:α分位点对于给定的正数α,0<α

<1,称满足条件的点为分布的上α分位点。重要性质:例如:,89信息管理与工程学院第五节样本统计量的分布F分布的上α分位点如下图所示:90信息管理与工程学院第五节样本统计量的分布四.正态总体的样本均值和样本方差分布

设总体的X的均值为μ,方差为σ2,是X的一个样本,则样本均值

有定理一:相互对立的正态分布的线性组合还是正态分布。推论:设

为来自总体

的一个样本,则有·

定理二:91信息管理与工程学院第五节样本统计量的分布四.正态总体的样本均值和样本方差分布定理三:设

为来自总体

的一个样本,则有92信息管理与工程学院第五节样本统计量的分布四.正态总体的样本均值和样本方差分布·

定理四:与分别是具有相同方差的的样本,且这两个样设两个正态总体本相互独立。则有其中93信息管理与工程学院第五节样本统计量的分布五.独立同分布的中心极限定理设随机变量

相互独立,服从同一分布,且具有相同的数学期望和方差:则标准化随机变量有·

的极限分布是标准正态分布——即n很大时,Yn近似地服从标准正态分布94信息管理与工程学院第五节样本统计量的分布五.独立同分布的中心极限定理即有这表明:当n较大时,可用正态分布近似计算与n个相互独立、同分布随机变量的算术平均值

有关事件的概率和各阶距,这在应用中是有重要意义的。95信息管理与工程学院第三章参数估计第一节参数的点估计·

一.参数点估计的一般提法设总体的分布函数的形式已知,θ是待估参数。是相应是X的一个样本,的一个样本观测值。点估计问题就是要构造一个适当的统计量来估计未知参数θ。用它的观测值称为θ

的估计量,称为θ

的估计值。估计量与估计值统称为估计,简记为

。96信息管理与工程学院97第一节参数的点估计二.参数点估计的求法矩估计法——用样本各阶原点矩的函数来估计总体各阶原点矩的同一个函数的方法称为矩估计法。这是参数点估计的最常用方法。矩估计法的优点——不要求知道总体的分布,因而矩估计获得广泛的应用。例3.1某灯炮厂某天生产了一批灯泡,从中随机地抽取10只,测得寿命(小时)如下:试用矩估计法估计该批灯泡的平均寿命及标准差。1050110010801120120012501040113013001200信息管理与工程学院第一节参数的点估计二.参数点估计的求法解:总体的k阶原点矩为:存在,则可以用样本的一阶矩当k=1时的一阶矩

,有去估计总体同样,当k=2时,总体二阶矩存在,总体的标准差为:,

样本一阶矩A1

估计

,因此它的矩

分别用样本二阶矩A2估计估计值为98信息管理与工程学院第一节参数的点估计三.点估计量的评价标准

对一个未知参数θ,人们可以构造多个估计量去估计它,从而产生一个问题:究竟用哪一个估计量去估计为好呢?为此需要有评价估计好坏的标准,标准不同答案也会有所不同。1.无偏性存在,且对于任意

,

若估计量

的数学期望这里

是θ

的参数空间,有,则称

是θ的无偏估计量。估计的系统误差——通常,称为以作为θ

估计的系统误差。无偏估计的实际意义就是无系统误差。样本均值的矩估计量是总体均值矩估计量的无偏估计量。样本方差的矩估计量是总体方差矩估计量有偏估计量。因为:因此,是

的无偏估计量。99信息管理与工程学院第一节参数的点估计三.点估计量的评价标准有效性设

与偏估计量,若有则称比有效。都是θ

的无

有效性的意义——在样本容量相同的情况下,的方差比的方差小,即的观察值比的观测值更集中在

真值θ

的附近。因此,我们认为,作为θ

的无偏估计,比更理想。100信息管理与工程学院第一节参数的点估计三.点估计量的评价标准2.有效性·

例3.2

为来自总体X的一个样本,试比较总

体均值

的两个无偏估计量谁更有效?·

解:·

因为n>3,故,因此

更有效。101信息管理与工程学院第一节参数的点估计三.点估计量的评价标准一致性设为参数θ

的估计量,若对于任意依概率收敛于于θ

,则称,当

时,为θ

的一致估计量。

例如,样本的K(>=1)阶矩是总体X的K阶矩的一致估计量。更进一步,若g是连续函数,总体参数估计量则样本参数估计量是θ

的一致估计量。102信息管理与工程学院第一节参数的点估计矩估计法例3.3设是来自均匀分布U(a,b)的一个样本,试求a,b的矩估计法。解:103信息管理与工程学院第一节参数的点估计矩估计法解:从上面两个方程可解得a与b,由得用,则得a与b矩估计法为104信息管理与工程学院第二节参数的区间估计

参数估计有两种形式:点估计和区间估计。点估计值能给出一个明确,未知参数θ

是多少,不能给出精度。而区间估计弥补了这种不足。所

以点估计与区间估计是互为补充、各有各的用途。一.参数区间估计的一般提法含有一个未知参数θ

。对于,若由样本

确定·

设总体X的分布函数给定的值的两个统计量·

满足是θ

的置信度为的置信区间,·

则称随机区间和分别称为置信度的双侧置信区间的置信下限和置信上限,

称为置信度。105信息管理与工程学院第二节参数的区间估计一.参数区间估计的一般提法求解未知参数θ的置信区间寻找一个样本

的函数它包含待估参数θ,但不包含其他未知参数。并且Z的分布已知且不依赖于任何未知参数(其中也包含待估参数)对于给定的置信度

,定出两个常数a,b,使3.若能从4.其中得到等价的不等式,就是θ

的一个置信度为的置信都是统计量,那么区间。106信息管理与工程学院第二节参数的区间估计一.参数区间估计的一般提法区间估计的含义置信度为

的置信区间不是惟一的。置信区间会随着样本观察值的不同而不同。当对X进行多次抽样(容量为n)。设抽样N次,每一个抽样都给出一个区间一共有N个不同的区间。根据大数定律,这N个区间中大约有··个区间包含真值θ个区间不包含真值θ107信息管理与工程学院第二节参数的区间估计二.单侧置信区间对于某些实际问题,例如设备、元件的寿命来说,一般只关心平均寿命的“下限”;而对于产品的废品率p来说,一般只关心p的上限。对于给定的值

,若由样本

确定的统计量满足的单侧置信区间,称为置是θ

的置信度的单侧置信下限。称随机区间信度为若统计量·

满足的单侧置信区间,称·称随机区间为置信度是θ

的置信度为的单侧置信上限。108信息管理与工程学院第二节参数的区间估计设为来自总体的一个样本,样本均值,样本方差为。给定的置信度为。三.关于一个正态总体均值和方差的区间估计1.均值

的置信区间①

为已知时,则有②③④因此,的置信度的置信区间是109信息管理与工程学院第二节参数的区间估计三.关于一个正态总体均值和方差的区间估计1.均值

的置信区间①总体方差

为已知时·

如果总体不是正态分布,但样本容量n充分大时,根据中心极渐近地服从正态分布。一般情况下,n>=30时,就限定理,可以认为②总体方差

未知时·

如果样本容量n充分大(n>=30)时,可用S代替行近似的区间估计。,对均值进·

注意:掌握样本容量与置信水平及区间长度之间的关系。能够在给定置信水平和区间长度下,求出所需要的最小样本容量。110信息管理与工程学院第二节参数的区间估计三.关于一个正态总体均值和方差的区间估计1.均值

的置信区间

例3.4

设一个物体的重量

未知,为估计其重量可用天平去称量。由于称量是有误差的,因而所得称量结果是一个随机变量,通常服从正态分布,当天平称量的误差标准差为0.1克时,可认为称量结果服从现对该物体称了五次,结果如下(单位克)

可将其看成来自该总体的一个容量n为5的样本观测值。试对作置信水平为0.95的区间估计。5.525.485.645.515.45111信息管理与工程学院第二节参数的区间估计三.关于一个正态总体均值和方差的区间估计1.均值

的置信区间■解:

=(5.52+5.48+5.64+5.51+5.45)/5=5.52 1-α=0.95,α=0.05,

α/2=0.025z0.025=1.96■■112信息管理与工程学院第二节参数的区间估计三.关于一个正态总体均值和方差的区间估计1.均值

的置信区间

例3.5

已知一批产品的长度指标

。问至少应抽取多大容量的样本,才能使样本均值与总体均值的绝对误差,在置信度不低于95%的条件下小于0.1?113信息管理与工程学院第二节参数的区间估计■三.关于一个正态总体均值和方差的区间估计解:根据题意,应有即应抽取容量至少为97的样本。114信息管理与工程学院第二节参数的区间估计设为来自总体的一个样本,样本均值,样本方差为。给定的置信度为。三.关于一个正态总体均值和方差的区间估计1.均值

的置信区间②

为未知时,则有因此,的置信度的置信区间是115信息管理与工程学院第二节参数的区间估计三.关于一个正态总体均值和方差的区间估计1.均值

的置信区间

例3.6

对某型号飞机的最大飞行速度进行15次试验,测得样本的平均最大飞行速度 ,

样本方差。根据长期经验可以认为最大飞行速度服从正态分布,试求平均最大飞行速度的95%的置信区间。在置信水平

条件下,飞机的平均最大飞行速度不低于多少?116信息管理与工程学院第二节参数的区间估计三.关于一个正态总体均值和方差的区间估计1.均值

的置信区间解:这是一个正态总体方差未知,求均值的置信区间的问题。根据题意有:即:有95%的把握认为飞机的平均最大飞行速度在420.3到429m/s之间。117信息管理与工程学院第二节参数的区间估计三.关于一个正态总体均值和方差的区间估计1.均值

的置信区间解:这是一个这是一个正态总体方差未知,对均值求的单侧置信下限的问题。即:有95%的把握认为飞机的平均最大飞行速度不低于421.1m/s。118信息管理与工程学院第二节参数的区间估计设为来自总体的一个样本,样本均值,样本方差为。给定的置信度为。三.关于一个正态总体均值和方差的区间估计2.

方差

的置信区间·

为未知时,则有因此,的置信度的置信区间是119信息管理与工程学院第二节参数的区间估计四.关于两个正态总体的均值差的区间估计设为来自总体为来自总体的样本,的样本,分别为它们的样本均值,并且这两个样本相互独立。设分别为它们的样本方差。1.■均为已知的情况由于

独立性,以及有或等价于因此的置信度为的置信区间是120信息管理与工程学院第二节参数的区间估计四.关于两个正态总体的均值差的区间估计设为来自总体为来自总体的样本,的样本,分别为它们的样本均值,并且这两个样本相互独立。设分别为它们的样本方差。2.均为未知的情况■但都很大,一般都大于50时,可用样本方差替代总体方差因此

的置信度为的近似的置信区间是121信息管理与工程学院第二节参数的区间估计四.关于两个正态总体的均值差的区间估计设为来自总体为来自总体的样本,的样本,分别为它们的样本均值,并且这两个样本相互独立。设分别为它们的样本方差。3.,但

未知的情况由于因此的置信度为的近似的置信区间是122信息管理与工程学院第二节参数的区间估计五.关于比率p的区间估计对单个总体比率的区间估计设X服从(0-1)分布,它的分布函数为■时,■其中,p为未知参数。我们有设

为来自总体X的一个样本。当说明这是一个大样本,可由中心极限定理知近似地服从N(0,1)分布。当n充分大时,。因此,对于充分大的n,p

置信度为

的近似的置信区间是123信息管理与工程学院124第二节参数的区间估计五.关于比率p的区间估计对单个总体比率的区间估计

例3.7设从一大批产品中抽取100个样品,得一级品60个,求这批产品一级品率p的置信度为

0.95的置信区间。信息管理与工程学院第二节参数的区间估计五.关于比率p的区间估计1.对单个总体比率的区间估计解:根据题意,有

。因为■故可以认为这是一个大样本。根据比率区间估计公式得

若关心一级品率的单侧置信下限,则有p的置信度为95%的置信下限即有95%的把握认为一级品率不低于51.9%125信息管理与工程学院第二节参数的区间估计五.关于比率p的区间估计2.

对两个总体比率差的区间估计■■设设设为来自总体X的一个样本,为来自总体Y的一个样本,■并且两个样本相互独立。对于充分大的n和m,即,说明这是一个大样本,可由中心极限定理知。■近似地服从N(0,1)分布。当n充分大时,因此,

置信度为

的近似的置信区间是126信息管理与工程学院第二节参数的区间估计五.关于比率p的区间估计3.

关于总体比率估计中样本容量的确定■

在估计总体

的参数p时,若给定估计的区间长度,则样本容量就不能太小。下例说明了如何根据给定的区间长度,估计样本容量。例3.8某手表厂零件车间新近购置了一台制造手表零件的机器,手表厂需要估计该机器生产零件的废品率,并且要求在置信度为95%估计的区间长度不超过0.04。问应当抽取容量多大的样本才能满足要求?127信息管理与工程学院第二节参数的区间估计五.关于比率p的区间估计3.

关于总体比率估计中样本容量的确定解:首先应当是大样本,所以不能少于30。根据比率区间估计公式,估计的区间长度为因此得到样本容量n与区间长度之间的关系为对于任意实数

。所以,由上式得到如果能够得到p的一个粗略估计,则可以根据下面公式来计算,计算结果一般会前面公式计算结果

由于采用了总体比率p的初步估计小很多。128信息管理与工程学院第四章假设检验第一节假设检验的原理统计推断的两个主要内容:参数估计假设检验统计假设——任何一个关于未知分布的假设称为统计假设或简称假设。参数假设——一个仅仅涉及随机变量分布中未知参数的假设称为参数假设。假设检验——通过一个样本来对“假设”合理与否进行考察的过程就是假设检验。参数检验——判别参数假设的检验称为参数检验。一.原假设和备选假设原假设——作为检验对象的假设称为待检假设或原假设。通常用H0表示。例如,对总体均值μ是否为某一确定值μ0原假设为备择假设——原假设的对立假设称为备择假设,通常用H1表示。·

例如,上面例子的备择假设为129信息管理与工程学院统计分析的过程130信息管理与工程学院131第一节假设检验的原理(续)二、假设检验的基本思想

从抽样误差的概念中我们可以理解,如果我们观察到两种不同的措施对目标结果有影响,可能有两种原因造成不同的影响:一是单纯由于抽样误差所致,二是除抽样误差外,这两种不同的措施确实对目标结果有所不同。

如何判断差别是由何种原因引起的呢?可用假设检验来鉴别。假设检验的基本思路是:

首先对总体参数作出某种假设H0

,如假设两种措施有相等的效率,在此假设前提下,对样本数据进行加工,计算出样本统计量,通常样本统计量的概率分布是数理统计理论已经研究出来的,再根据概率分布原理计算出样本统计量在这种已知分布中相应的概率p,对整个推导过程的前提假设条件进行判断,应该接受原来的假设条件还是拒绝接受原来的假设条件。信息管理与工程学院132第一节假设检验的原理(续)二、假设检验的基本思想接受还是拒绝的主要依据为,样本统计量在这种已知分布中是以大概率出现还是小概率出现。如果是以大概率出现,说明样本统计量在正常的范围内,由抽样误差引起的可能性很大,统计上称这种差异为“无显著性意义”,对原假设也只能接受(不能拒绝它们是相等的假设)。如果是以小概率出现,说明样本统计量太大或太小,超过了抽样误差所容许的正常范围,统计上称为“相差有显著性意义”,这时才能认为这两种措施对目标的影响差别不能仅由抽样误差来解释,因此拒绝原来相等的假设,即两种措施对目标的影响是有差别的。通常人们把大小概率的分界线定在5%或者10%,把或者情况称为

小概率。信息管理与工程学院133第一节假设检验的原理(续)二、假设检验的基本思想首先假定H0为真。考虑在H0成立的条件下,已经观测到的样本信息出现的概率。如何 观测到这个概率:将样本信息转换成某种已知分布的统计量计算这个统计量出现在这种已知分布中概率。如果这个概率很小,说明一个小概率事件在一次试验中发生了。小概率原理——认为概率很小的事件在一次试验中是几乎不可能发 生的。本次抽样的样本导出了一个违背小概率原理的不合理现象。在求解概 率的过程中我们都是正确的,没有任何推导和逻辑错误,唯一可能 情况是事先假定H0为真是不正确的。因此拒绝原假设H0为真。如果这个概率不是很小,说明这个事件在一次试验中发生是一件很 可能的事情。因此不能拒绝原假设H0为真。信息管理与工程学院134第一节假设检验的原理(续)二、假设检验的基本思想

例4.1某轻型飞机厂欲购买一批铝板共

10000张,铝板厂厂长称该批铝板的平均厚度为0.1cm。现随机抽取100张铝板,

计算出样本的平均厚度为0.1004cm。根

据历史资料该铝板厂所产铝板总体厚度的标准差是0.002cm,铝板厚度服从正态分布。问:这10000张铝板的平均厚度是否为0.01cm?信息管理与工程学院第一节假设检验的原理(续)二、假设检验的基本思想解:设铝板厚度为X,则根据题意有:还是

我们的问题是根据样本观测值判断此,我们提出原假设:。因以及它的备择假设:考虑统计量,在H0为真的情况下,这个统计量服从N(0,1)分布。135信息管理与工程学院第一节假设检验的原理(续)二、假设检验的基本思想如果H0为真,那么观测值

就不能偏离原点太多。

若观测太大,说明小概率事件发生,我们就有理由怀疑假设H0为的正确性,从而拒绝相信H0。

对于给定的显著水平

,事件发生的概率为0.05。

如果样本观测值满足上述不等式,说明小概率事件在一次试验中发生了,因此我们应当作出拒绝

的判断;否则不能拒绝H0。事实上本题为:故应拒绝称区域为拒绝域。136信息管理与工程学院第二节假设检验的基本概念一.两类错误由假设检验作出统计推断时,不论是拒绝,还是不拒绝,都有可能发生错误(或称误差)。根据所犯错误的性质,可以区分为两类错误:①我们也许会拒绝一个事实上是真的,这种错误称为第一类错误,把犯第一类错误的概率记为α,或称拒真概率(或称以真为假);②我们也许没有拒绝一个事实上是不真的,这种错误称为第二类错误,把犯第二类错误的概率记为β,或称受伪概率(或称以假为真)。为明确起见,用表4-1表示判断结果。表4-1 统计上的两类错误■137信息管理与工程学院138第二节假设检验的基本概念一.两类错误

用假设检验作为统计推断时,第一类错误α经常是已知的,第二类错误β经常是未知的。我们自然期望最理想的情况:犯两类错误的概率都能最小化。但是,事实上,当样本容量固定时,同时最小化两类错误是做不到的。解决此问题的经典方法已体现于尼曼(Neyman)和皮尔逊(Pearson)的工作中,把犯第一类错误的概率控制在一个相当低水平的条件下,尽量使犯第二类错误的概率达到最小;因为人们认为犯第一类错误比犯第二类错误可能更严重。

假设检验就是把α固定在诸如0.01或0.05的水平上,使得β最小化。实际上要达到这个目标非常困难,这种最优法则有时候根本找不到,因此只能降低要求。

显著性检验——在实践中,只是限定α的值,而不过多考虑β。即只考虑假设是否成立,不考虑不成立的后果(以假为真),这种检验称为显著性检验,α称为显著性水平。要同时降低α、β值的唯一办法是加大样本。信息管理与工程学院第二节假设检验的基本概念二.显著性水平α的确定在例4.1中,选择,即认为5%的概率对飞机厂来说已经足够小,并在这个基础上作出了拒绝原假设的判断。但是,α选择并没有统一的规定:

如果一旦判断错误将造成巨大经济损失——α取值就应定得小一些。(例如,拒绝原假设便丧失了便宜购料机会,造成巨大经济损失,设定

,那么

,将不能拒绝H0

如果一旦判断错误将带来产品质量的严重问题——α取值就应定得大一些(例如,可设定

)。例如:一个人很容易相信别人,那么他的α取值是偏大还偏小?一个人不太相信别人,那么他的α取值是偏大还偏小?139信息管理与工程学院第二节假设检验的基本概念三.原假设与备选假设的选择一般有以下3个原则,应根据实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论