版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第9章数理统计基础知识9.1基本概念9.2参数估计9.3假设检验9.4用MATLAB作数据处理 9.1基本概念
9.1.1总体和样本
在数理统计中,把所研究的对象的全体称为总体;组成总体的每个基本单位称为个体.例如,某灯泡厂一天生产一万只电灯泡,要考察这批灯泡的寿命,此时“该天生产的一万只灯泡的全体”构成一个总体,而每只灯泡就是总体中的一个个体.
从总体中按照一定的方式抽取一部分个体的过程称为抽样;从总体中抽出若干个个体而组成的集合称为样本;样本中所含个体的个数称为样本容量.在抽样时,样本的选取必须是随机的,即总体中每个个体都有同等的机会被选入样本.抽样有不重复抽样和重复抽样两种.如果总体个数是无限的,抽取有限个后不会影响总体的分布,这时,不重复抽样与重复抽样可看做是没有区别的.
实际中,如果总体所含的个体的数量很大,而样本容量又相对较小,例如不超过总体的5%,即可认为总体是无限的.
进行重复抽样所得到的随机样本称为简单随机样本.因此,有放回地随机抽取得到的是简单随机样本.在实际中,如果样本容量相对于总体来说是很小的,即使是无放回的抽取,也可以近似地看做是一个简单随机样本.以后我们所说的样本,都是简单随机样本,也简称为样本.简单随机样本具有以下两个性质:
(1)独立性:x1,x2,…,xn中各个随机变量的取值互不影响,即x1,x2,…,xn是相互独立的随机变量.
(2)代表性:x1,x2,…,xn中每一个都与总体X有相同的概率分布.9.1.2数据的整理
从实验或调查得到的一组实际数字叫做数据,亦称样本观察值.将数据列成的表称为原始数据表.为了对总体进行估计和推断,必须对数据进行整理.为了了解数据的分布情况,通常利用频率直方图和累积频率直方图.组频率是组频数除以观察数据的个数(总频数)所得的比值;而累积频率是将相应的一些组频率累加起来的和.
下面通过例题说明数据整理的主要步骤和方法.
例9-1
从某超市过去一年中每天商品零售额的统计资料中抽出120天的零售额,其结果数字(单位:万元)参见表9-1,试求该超市商品零售额的近似概率分布密度.表9-1
解
(1)找最值.当n不大时,可直接从样本观察值(x1,x2,…,xn)中找最值;当n较大时,可在数据表的左、右两侧分别加上每行的最小和最大值形成列,如表9-1所示,以便迅速、准确地找到整个数据的最大、最小值,以及数据的大致范围.这里max{x1,x2,…,x120}=226min{x1,x2,…,x120}=190样本的变化范围为[190,226].
(2)将数据分组.将数据的范围分成k个相等的小区间,每个小区间中至少有一个xi(i=1,2,…,n)落入.一般地,当n≤20时,取k=5~6;当n=40~60时,取k=6~8;当n=60~100时,取k=8~10;当n=100~500时,取k=10~20.本例可取k=13.
(3)定组距.设分点为t0<t1<…<tk-1<tk.t0和tk的选取应分别比最小值略小和比最大值略大,且必须比样本值多一位小数,这是为了避免样本值位于分组的分点上.其组距为关于t0和tk的选取,本例可按如下取法:因为所以取Δx=3,于是t0=189.5,tk=228.5.(4)列频数、频率表,如表9-2所示.
(5)画频率直方图.根据表9-2画出的频率直方图如图9-1所示,在横坐标轴上标出各组的分点,以每两点间线段为底作矩形,其高为该组的频率/组距.
画一条曲线,让它大致经过各小矩形上边的中点,便可得到随机变量X密度曲线的近似曲线.从图9-1中的曲线可以估计该超市商品的零售额X服从正态分布.图9-19.1.3统计量
为了对总体分布中的未知参数进行估计、推断,需要利用样本构造出某些函数作为推断的基础(X1,X2,…,Xn),这种由样本构造出来的函数称为统计量.
定义9.1
设(X1,X2,…,Xn)是来自总体X的一个样本,g(X1,…,Xn)是一个连续函数,且不包含任何未知参数,则称
g(X1,…,Xn)为样本(X1,…,Xn)的一个统计量.事实上,可以证明X是服从正态分布的随机变量.又因为所以
例9-4
求λ的值,使P(U>λ)=0.025.
解因为U~N(0,1),所以
P(U>λ)=1-P(U≤λ)
=1-Φ(λ)=0.025
于是,有
Φ(λ)=1-0.025=0.975
查正态分布表,得λ=1.96.
一般地,若已知α,查正态分布表求λ,使
P(|U|<λ)=1-α
则根据标准正态分布的对称性(参见图9-2),有反查正态分布表,即得λ.通常记,并称为临界值,即在实际问题中,常用的临界值有图9-2
2.χ2分布
如果总体X~N(μ,σ2),(X1,X2,…,Xn)为来自总体X的样本,样本方差为S2是n个随机变量的平方和,但这n个随机变量必须满足约束条件:即这n个随机变量中只有n-1个可以“自由”变化,因此只有n-1个独立的随机变量,n-1叫做S2的自由度,记作df=n-1.如果记图9-2
3.t分布
在统计量中,当总体X的方差σ2未知时,可用样本方差S2代替,从而得到统计量它的概率分布称为自由度为n-1的t分布,简记作
t分布的密度曲线如图9-5中的虚线所示,它关于y轴对称,比标准正态分布的密度曲线(图中实线)略偏一些,在中部处于其下,而在尾部处于其上.随着自由度的增加,t分布逐渐逼近标准正态分布.t分布的临界值参见附录八.图9-5
一般地,已知α和样本容量n,求λ使P(|t|<λ)=1-α
可根据自由度df=n-1及查t分布的临界值表即得λ(参见图9-6).临界值λ常记作
.图9-6
例如:若P(|t|>λ)=0.05.查t分布的临界值表求n=8时的λ值.
由P(|t|>λ)=0.05及t分布的对称性知
P(t>λ)=0.025
所以α=0.025.
当df=n-1=8-1=7时,查t分布的临界值表得λ=2.3646.当n>45时,可以用标准正态分布代替t分布查λ的值. 9.2参数估计
9.2.1点估计
1.点估计的概念
例9-6设某种类型灯泡的使用寿命X~N(μ,σ2),其中μ、σ2未知.今随机抽取5只灯泡,测得寿命(单位:h)为
1453,1652,1653,1435,1525
试估计μ及σ2的值.
在例9-6中,5只灯泡的寿命为总体X的样本X1,X2,X3,X4,X5,测得的5个数据是其一组样本观测值x1,x2,x3,x4,x5.该问题是要根据样本观测值x1,x2,x3,x4,x5来估计总体X的数学期望μ与方差σ2,这就是点估计问题.
2.点估计的评价
对一个参数可以做出不同的估计,如何判断估计的好坏就需要讨论估计量的评价问题.
一个估计量的取值不见得恰好等于被估计的参数值,但我们希望一个好的估计量的取值“平均”来说应等于被估计的参数,这就是所谓的“无偏性”.
定理9.3
设(X1,X2,…,Xn)是来自总体X的样本,且总体的均值E(X)与方差D(X)存在,则样本方差S2是总体方差D(X)的无偏估计,即E(S2)=D(X).
证明因为所以S2是D(X)的无偏估计.
注意:
统计量不是总体方差D(X)的无偏估计,事实上,根据定理9.3有因此,按照我们的评价标准来说,S2作为D(X)=σ2的点估计比S*2好.这也就是我们常采用S2作为D(X)的点估计的原因.但是所以称S*2为D(X)的渐近无偏估计.当样本容量n充分大时,可用渐近无偏估计代替无偏估计,而误差不会很大.
在总体的某一参数的无偏估计往往不止一个,例如,设(X1,X2,…,Xn)是来自总体X的样本,则容易验证下述统计量都是总体均值E(X)的无偏估计.那么这些估计中哪一个较好呢?我们的看法是,一个好的无偏估计应该在被估计的参数附近取值的概率较大,即它的方差较小,这就是所谓的“有效性”.9.2.2区间估计
1.区间估计的概念
当用点估计对总体的未知参数进行估计时,难免会有一些偏差.究竟估计量θ的值与真值θ相差多少,需要我们给出一个包含参数θ的范围和一定的可信程度,这个范围通常用区间形式表示.这就是参数的区间估计问题.∧的意义是:由样本统计量得到的随机区间(θ1,θ2)能以95%的可靠性包含θ的真值.具体地说,抽取100个随机样本,可以得到100个随机区间,则在这100个随机区间中,约有95个区间包含θ的真值.因此,置信区间提供了区间估计的精确度.∧∧表9-3U区间估计表
例9-8
从大批电子管中随机抽取100只,抽取的电子管的平均寿命为1000h,可以认为电子管寿命服从正态分布.已知均方差σ=40h,以置信度0.95求出整批电子管平均寿命的置信区间.
解设X表示电子管寿命.已知X~N(μ,402),因为总体方差σ2=402,且样本容量n=100,故总体均值μ的置信度为0.95的置信区间为
2)当方差未知时,均值的区间估计
在上面的讨论中,我们要事先假定正态总体的方差为已知,而在实际中,总体的方差通常是未知的,这样
上述区间就无法算出.一个很自然的想法,就是用样本方差S2估计总体方差σ2.因此,代替U统计量,我们可考虑统计量它服从自由度为n-1的t分布.给定置信度1-α,在t分布的临界值表中查自由度df=n-1对应的临界值
例9-10
从自动机床加工的同类零件中抽取10件,测得其长度(单位:mm)为12.15,12.12,12.01,12.28,12.09,12.03,12.01,12.11,12.06,12.14,
可以认为零件长度服从正态分布,求方差σ2的置信区间(α=0.05).
解因为μ未知,且n=10,故总体方差σ2的置信度为0.95的置信区间为 9.3假设检验
9.3.1假设检验的原理
例9-11
某厂有一批产品,共1000件,需经检验后方可出厂.按规定,次品率不得超过3%.今在其中任意选取40件产品进行检查,发现有2件次品,问这批产品能否出厂?
在例9-11中,人们事先对这批产品次品率的情况一无所知,从这次抽检的情况来看,次品的频率为2/40,显然2/40>3%,这批产品是不能出厂的.但作为该厂的销售部门有理由反对用这种方法进行检验.他们认为,
由于对产品的抽样是随机的,在这次抽样中,次品的频率超过了3%,不等于这批产品的次品率P(概率)超过了3%,作为该厂的销售部门和质量检验部门应共同确立一个合理的产品质量检验方法.对这类问题,通常就是采用假设检验的方法:首先对总体作一种“次品率不超过3%”的假设;然后用样本的次品率p来检验这一假设的合理性.
例9-12
某车间有一台包装机用于包装白糖,额定标准为每袋净重50kg,假定包装机称得白糖的重量服从正态分布,且根据经验知其标准差σ=0.35kg.某天开工后,为检验包装机工作是否正常,随机抽取它所包装的白糖9袋,称得的重量为(单位:kg):
49.65,48.35,50.25,49.15,49.75,51.05,50.25
这一天包装机工作得是否正确?
在这个例子中,我们所关心的问题是:包装机包装出的白糖平均每袋重量是否达到标准50kg.具体的做法:先假设总体的平均值μ=50kg,然后利用样本资料来推断这一假设的正确性.
在上面两个例子中,作为检验对象的假设称为原假设,通常用H0表示.例如,例9-12中的原假设为H0:μ=50.
用样本提供的信息来推断原假设是否成立的过程叫做假设检验.
假设检验的基本原理是:①假设H0为真;②在H0成立的条件下,构造一个小概率事件B;③通过样本提供的信息判断小概率事件B是否发生了,如果B发生了,而小概率原理认为,概率很小的事件在一次试验中是几乎不可能发生的,从而导出了一个违背小概率原理的不合理现象,
这表明假设H0为真是不正确的,因此应拒绝H0;否则应接受H0.
至于事件B的概率小到什么程度才能算是“小概率”,一般要根据实际问题的不同要求而定.小概率事件的概率用α表示,一般可取0.1、0.05、0.01等值.通常称α为显著性水平或检验水平.
当然,小概率事件并非绝对不会发生,因此在进行假设检验时,是冒着犯错误的风险的.当H0真实时,如果拒绝了它,则这种错误称为第一类错误;当H0虚假时,如果接受了它,则这种错误称为第二类错误.为了做出正确的决策,就要少犯错误,也就是要求这两类错误的概率值都较小才好.在实际中,通常总是先固定第一类错误的概率值,然后适当地选取样本容量去控制第二类错误的概率尽量小.9.3.2假设检验的方法
1.U检验法
例9-13
设某商场的日销售额服从正态分布,2005年的日均销售额为61.7万元,均方差为5万元.2006年随机抽查了10天的销售额,且这10天的平均销售额为66.3万元,据经验,方差没有变化.问2006年的日均销售额与2005年相比有无显著变化(α=0.05)?
解待检验的假设是H0:μ=61.7.在假设H0成立的条件下,统计量U服从标准正态分布,即由正态分布表可查得P{|U|>1.96}=0.05.故否定域为(-∞,-1.96)∪(1.96,+∞)由已知由于|U|=2.91>1.96,故否定原假设H0.也就是说,2006年的日均销售额与2005年相比有显著变化.
一般来说,总体X~N(μ,σ2),其中方差σ2=σ20为已知,检验原假设H0:μ=μ0(μ0已知),可用μ统计量作检验,这样的检验方法叫做μ检验法.其步骤如下:
(1)提出待检验的假设H0:μ=μ0.
(2)选出统计量,在假设H0成立的条件下,U~N(0,1).
(3)按给定的检验显著性水平α(0<α<1),查正态分布表得临界值,如图9-7所示.
从而确定拒绝域为图9-7
(4)计算统计量U.若,则拒绝H0,即拒绝接受H0.
2.
t检验法
在实际问题中,总体方差往往是不知道的,这时自然想到用S2代替σ2.那么对正态总体的均值μ=μ0是否成立进行检验就要用到t检验法.
例9-14
某班生活委员想对该班学生的伙食费用情况进行调查.现从全班学生中随机抽取12名学生进行调查,发现平均每人每星期伙食费X=69.8元,S2=9.752元.假定该班学生的伙食费支出X~N(μ,σ2)(μ、σ2均未知).试问“该班学生每星期伙食费为70元”是否成立(α=0.01)?图9-8
3.χ2检验法
上面介绍的U检验法和t检验法解决了正态总体的均值检验问题,但在许多实际问题中,往往需要对正态总体的方差进行检验,即设X~N(μ,σ2),检验原假设H0~σ2=σ20,
可以用统计量图9-9(4)根据样本值计算若
或 则拒绝H0;否则接受H0.
例9-15
电子产品厂生产的锂电池,其寿命服从方差σ2=900的正态分布.今生产一批这样的锂电池,从生产的情况看,寿命波动性较大,为判断这种想法是否合乎实际,随机取了26只锂电池,测得其寿命的样本方差S2=1100.问这批电池的寿命较以往有无显著性差异(α=0.05)?由于13.120<30.556<40.646,因此接受H0,即可以认为这批锂电池寿命的波动性与原来的无显著差异. 9.4用MATLAB作数据处理
1.用MATLAB作描述性统计分析
2.用MATLAB作正态分布的有关计算
1)正态分布的概率计算
正态分布的随机变量:X~N(μ,σ2).当μ=0、σ2=1时的正态分布为标准正态分布.正态分布的MATLAB命令如表9-5所示.表9-5
范例9-2
设随机变量X~N(1,22),求概率p(2<x<b).
分析:将概率p(2<x<b)表示为p(x≤6)-p(x≤2).
解程序如下:
>>mu=1;sigma=2;
>>x1=2;x2=6;
>>p=normpdf(x1,mu,sigma)-normpdf(x2,mu,sigma)
p=
0.1673
2)正态分布参数估计的计算
若已知一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025 高中信息技术数据与计算之算法的熊群优化算法课件
- 2025 高中信息技术数据与计算之数据安全的同态加密物联网应用课件
- 2026年及未来5年市场数据中国城市轻轨市场发展前景预测及投资战略咨询报告
- 2026年春季消防安全形势分析与防控策略
- 农产品贮藏保鲜技术:原理、应用与发展
- 畜禽养殖基础技术与实践指南
- 2026年细胞工厂基因编辑底盘细胞改造技术手册
- 2026年高油高产转基因大豆生物育种技术攻关实务
- 2026年海岛独立微网:风光氢储固态储氢系统设计
- 2026年乡村旅游重点村游客动线优化与节点景观提升指南
- EBSD入门简介姚宗勇课件
- 口内数字化印模
- 高考数学真题全刷-决胜800题
- GB/T 2007.7-1987散装矿产品取样、制样通则粒度测定方法手工筛分法
- 印刷及纸张基础知识培训课件
- 充分高效利用时间主题班会课件
- 皮带机安装检验批
- 利用导数证明数列不等式问题课件-高考数学二轮复习
- 教师礼仪规范全套课件完整版ppt教程最全
- 汽车可靠性教学课件汇总完整版电子教案全书整套课件幻灯片(最新)
- 五年级下册语文课件-第四单元《9 古诗三首》部编版 (共48张PPT)
评论
0/150
提交评论