数学建模讲义课件_第1页
数学建模讲义课件_第2页
数学建模讲义课件_第3页
数学建模讲义课件_第4页
数学建模讲义课件_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

假设检验与相关分析主讲:刘朝林数统学院316

Email:lcl@2023/7/241数学建模主要内容参数假设检验与非参数假设检验软件的介绍定性数据分析方差分析参数假设检验与非参数假设检验1.正态总体下参数的假设检验2.非正态总体下参数的假设检验3.非参数假设检验1.正态总体下参数的假设检验总体的分类:单总体与双总体参数的分类:期望与方差假设检验的原理:1.构造关于待检验参数的统计假设:

H0:θ∈Θ0;

H1:

θ∈Θ1.2.构造含有待检验参数的统计量,并确定分布:

g(θ)~F(x)3.确定拒绝域:由犯第一类错误的概率确定拒绝域。1.1单正态总体均值的假设检验设总体为X~N(μ,σ2),样本为X1,…,Xn,则统计假设为:

H0:μ=μ0;

H1:

μ≠μ0.

关于

μ的分布:

确定拒绝域为:例1、正常情况下,某炼铁炉的铁水含碳量X~N(4.55,σ2)。现在测试了5炉铁水,其含碳量分别为:4.28,4.40,4.42,4.35,4.37。如果方差没有改变,问总体的均值有无显著变化?(α=0.05)解:1)提出假设:

H0:μ=μ0;

H1:

μ≠μ0.2)拒绝域为:3)计算:4)判断:拒绝H0,接受H1,认为均值有显著变化,即认为铁水含碳量有显著变化。R程序:x=c(4.28,4.40,4.42,4.35,4.37)t.test(x,y=NULL,alternative="two.sided",mu=4.55,var.equal=0.108^2,conf.level=0.95)1.2两正态总体均值的假设检验设总体为X~N(μ1,σ12),样本为X1,…,Xn;

Y~N(μ2,σ22),样本为Y1,…,Yn,则两总体均值的统计假设,分布,拒绝域为:

其中:例2,从甲、乙两煤矿各取若干个样品,得其含灰率(%)为:甲:24.3,20.8,23.7,21.3,17.4,乙:18.2,16.9,20.2,16.7假定含灰率均服从正态分布且σ12=σ22

。问甲,乙两煤矿含灰率有无显著差异(α=0.05)?解:提出统计假设:

H0:μ1=μ2;H1:μ1≠μ2确定拒绝域为:3)计算得:4)判断:即样本不在拒绝域内,接受H0,故:含灰率无显著差异。R程序:>x=c(24.3,20.8,23.7,21.3,17.4)>y=c(18.2,16.9,20.2,16.7)>t.test(x,y,alternative="two.sided",var.equal=TRUE,conf.level=0.95)1.3两正态总体方差的假设检验设总体为X~N(μ1,σ12),样本为X1,…,Xn;

Y~N(μ2,σ22),样本为Y1,…,Yn,则两总体方差的统计假设,分布,拒绝域为:

例3、在漂白工艺中,要考察温度对某种针织品断裂强力的影响,在70oC与80oC下分别重复了8次试验,测得断裂强力数据如下所示:

问:在这两种温度下,断裂强力的方差有无显著差异?(α=0.05)假定断裂强力服从正态分布.解:提出假设:

H0:σ12=σ22;

H1:σ12≠σ22;70oC20.518.519.520.921.519.521.021.280oC17.720.320.018.819.020.120.219.1确定拒绝域为:计算:判断:接受H0,认为两个正态总体的方差相等。R程序:>x=c(20.5,18.5,19.5,20.9,21.5,19.5,21,21.2)>y=c(17.7,20.3,20,18.8,19,20.1,20.2,19.1)>var.test(x,y,ratio=1,alternative="two.sided",conf.level=0.95)参数假设检验与非参数假设检验1.正态总体下参数的假设检验2.非正态总体下参数的假设检验3.非参数假设检验2.非正态总体参数的假设检验非正态总体大样本小样本应用中心极限定理,用正态分布代替不能应用中心极限定理,寻找其他途径2.1非正态总体均值检验的大样本法对任一总体X,设E(X)=μ,D(X)=σ2,设样本为:X1,…,Xn

。对统计假设:H0:μ=μ0

;H1:μ≠μ0.由中心极限定理构造估下统计量:①D(X)=σ2已知

②D(X)=σ2未知以总体X~B(1,p)为例:统计假设:H0:p=p0

;H1:p

≠p0.(1)因在H0成立时,

D(X)=p0(1-p0),则

拒绝域为:(2)在H0成立,D(X)=σ2未知时,有则:拒绝域为:例4一项调查显示某市老年人口比例为14.7%,为了验证该结论,随机抽取400人,发现其中老年人57人。问抽检结果是否支持调查结论?例5某十字路口早上8点为交通高峰。以往测量数据显示,单位时间内通过路口的车辆服从强度为0.5辆/秒的Poisson分布。现测量某天8点后1分钟内车辆到达的时刻。问当前流量是否显著改变?(α=0.1)2.75.57.511.414.114.414.815.616.719.620.723.324.524.727.629.931.131.833.736.537.442.244.144.346.646.947.750.250.350.650.952.555.458.458.6解:设X为1秒内通过的车辆数,则X~P(λ)。样本为1秒内通过的车辆数,样本容量为60.其中样本值为0的样本有35个,样本值为1的样本有18个,2的5个,3的1个,4的1个。统计假设为:H0:λ=λ0(=0.5);H1:λ≠λ0.统计量为:拒绝域为:每区间到达车辆数01234小区间个数3518511计算得:接受(或)统计量为:拒绝域为:

计算得:接受2.1非正态总体均值检验的小样本法对总体X~Γ(λ),设E(X)=1/λ,D(X)=1/λ2,设样本为:X1,…,Xn

。对统计假设:H0:E(X)=1/λ0;H1:E(X)≠1/λ0.因:

在H0成立时:故拒绝域为:例6对例5,设相邻两辆车到达路口的时间间隔为X,且X~Γ(λ)(λ表示平均每秒的车流量)。由当天数据检验车流量是否为λ0=0.5辆/秒。解:因X~Γ(λ),由上述数据计算样本为:

样本容量为34,样本值如上所述。2.75.57.511.414.114.414.815.616.719.620.723.324.524.727.629.931.131.833.736.537.442.244.144.346.646.947.750.250.350.650.952.555.458.458.62.82.03.92.70.30.40.81.12.91.12.61.20.22.92.31.20.71.92.80.94.81.90.22.30.30.82.50.10.30.31.62.93.00.2对统计假设:H0:E(X)=1/λ0;H1:E(X)≠1/λ0.故拒绝域为:计算得:

样本不在拒绝域中,故不拒绝H0:。认为该路口的平均车流量是0.5辆/秒。参数假设检验与非参数假设检验1.正态总体下参数的假设检验2.非正态总体下参数的假设检验3.非参数假设检验3.非参数假设检验不是关心总体的参数问题,而是关心总体分布的类型或分布的性质,这就要用到非参数假设检验.例1消费者对啤酒品牌的爱好差异.例2家庭汽车拥有量与电话拥有量是否独立.例3两种不同灯泡的使用寿命有无明显差别.非参数假设检验的分类:1)总体分布函数的检验;2)两个总体独立性的检验;3)两个总体分布比较的检验.一.总体分布函数的假设检验设总体分布为F(x),已知类型的分布F0(x),,统计假设为

H0:F(x)=F0(x);H1:F(x)≠F0(x).拟合优度的卡方检验法事件组理论频数观测频数例7(离散型):按测量仪器的分度读数时,通常需要大致估计读数的最后数字,理论上最后这个数字可以是0,1,2,3,4,5,6,7,8,9中任何一个,并且每个数字的出现是等可能的,下表中列出200次读数的最后数字的统计分布。试检验这些数字是否服从均匀分布?(α=0.05)数字统计表数字xi012345频数vi351615171730数字xi6789频数vi11161924解:用X表示读出的最后数字,P{X=i}=pi,i=0,1,…,9,如果数字是服从均匀分布,则pi=1/10,i=0,1,…,9。故假设检验为:H0:pi=1/10计算χ2统计量的观察值,得:查表得<χ2=24.9故拒绝H0,认为最后的读数不均匀。拒绝域:x=c(35,16,15,17,17,30,11,16,19,24)chisq.test(x)例8、从某高校09级本科生中随机抽取了60名学生,其英语结业考试成绩见下表:试问09级本科生的英语结业成绩是否符合正态分布?(α=0.10)93

75

83

93

91

85

84

82

77

76

77

95

94

89

91

88

86

83

96

81

79

97

78

75

67

69

68

83

84

81

75

66

85

70

94

84

83

82

80

78

74

73

76

70

86

76

90

89

71

66

86

73

80

94

79

78

77

63

53

55

解:设X

表示09级任意一位本科生的英语结业成绩,分布函数为F(x),1)提出统计假设为:2)拒绝域为:3)将X

的取值划分为:4)在H0成立的条件下,计算参数μ,σ2的极大似然估计值。

通过计算得:5)又因:在H0成立的条件下,Ai

(i=1,2,3,4)的概率理论估计值为:样本值计算表Aini1{X<70}80.14928.9520.10122{70≤X<80}200.350821.0480.05223{80≤X<90}210.350821.0480.00014{90≤X}110.14928.9520.4685∑601.0000600.62206)故:接受H0,认为英语结业成绩符合正态分布。提出统计假设:

H0:X

与Y

独立;H1:X

与Y

不独立2、独立性假设检验设(X,Y)的联合分布函数为F(x,y),边缘分布函数为FX(x),FY(y),则统计假设也可写为:H0:F(x,y)=FX(x)FY(y);H0:F(x,y)≠FX(x)FY(y)

在χ2检验法中,上述统计假设可转化为:拒绝域:当pij已知时:当pij未知时,由极大似然估计代替,且:,则r

×s列联表XYni.b1b2…bsa1n11n12…n1sn1.a2n21n22…n2sn2.…………arnr1nr2…nrsn

r.n

.jn

.1n

.2…n

.sn当r=s=2时:拒绝域为:例9、为研究儿童智力发展与营养的关系,某研究机构调查了1436名儿童,得到如下表所示的数据,试在显著性水平α=0.05下判断智力发展与营养有无显著关系。儿童智力与营养的调查数据营养状态智商<8080~9090~99≥100合计营养良好3673422663291304营养不良56402016132合计4233822863451436解:提出假设:拒绝域:计算:故拒绝H0,认为儿童的营养状况对智商有显著影响。3、两总体分布比较的假设检验

设分别为连续型总体X,Y

的分布函数,为它们的密度函数,这些函数都未知。X1,…,X

n、Y1,…,Y

n是分别来自X

和Y

的样本,且相互独立,样本值分别为,。统计假设是:检验方法:符号检验法和秩和检验法符号检验法例用两种不同的饲料养猪,其增重情况如下表所示。试分析2中饲料养猪有无显著差异。主要内容参数假设检验与非参数假设检验软件的介绍定性数据分析方差分析软件的介绍R软件SPSS软件SAS软件统计(计算)软件编程的R

傻瓜的SPSSSAS根据经验,学习统计软件的最快和最好方法是在学习统计方法的过程中学会使用统计软件。当有无法解决的问题时,可以在各种网站或者介绍软件的书找到答案。软件的介绍R软件:美国统计研究生中最流行免费、十年历史,由志愿者管理、比计算器方便一小时学会基本知识,一天基本学会基本统计计算所需所有内容2023/7/2457R网站资源数量:上千个软件包(均包括程序和数据)最新:前两天的(更新速度无与伦比)软件包作者:世界著名统计学家统计方法齐全:包括数据挖掘等最新内容,包括各个领域应用透明:代码公开,自己可以个性化受到世界各国统计师生的欢迎,是用户量增加最快的统计软件。学习R的网站StatisticswithR:http://zoonek2.free.fr/UNIX/48_R/all.html2023/7/2458SPSS最傻瓜;容易操作,输出漂亮,功能较齐全(不包括数据挖掘)它也有程序语言,但一般用户主要使用对话框用鼠标选项来实现计算。它对于非专业统计工作者是很好的选择。虽然它也有编程语言,它是模块化软件,人们无法知道模块的代码。2023/7/2459SAS这是功能齐全的软件;尽管价格相当不菲(每年还要交租金),许多公司,特别是美国各制药公司都在使用,这多半因为其功能众多和美国食品和药品总署一些人的偏爱。尽管现在已经尽量“傻瓜化”,但仍然需要一定的训练才可以进入。也可以对它编程;它也是无法知道代码的模块化软件。它对于基本统计课程则不那么方便。

2023/7/2460其它通用的统计软件Minitab、Statistica、S-plus(和R一样,同样使用S语言,并且已经开始“傻瓜化”)、Gauss(类似R)、MATLAB(工科用得较多,和R很像)、SYSTAT等软件。还有些专门针对某一两种统计方法的软件。上述软件基本上是边计算边编译,速度不如把程序编译之后再计算的Fortran和C++等语言快。当然,学习Fortran和C++则比上述软件稍微多花一些时间;但完全可以弥补某些大计算量运算所耗费的时间。许多人把Excel也当成统计软件。其实,对于稍微复杂的统计问题,Excel需要VBA的知识。2023/7/2461x=seq(0,30,0.0001)y=rep(0,length(x))plot(c(0,30),c(0,0.2),col='white',xlab='x',ylab='f(x)')lines(x,dchisq(x,1),col='red')lines(x,dchisq(x,5),col='blue')lines(x,dchisq(x,8),col='black')x=seq(0,20,0.0001);y=rep(0,length(x))plot(c(0,20),c(0,0.2),col='white',xlab='x',ylab='f(x)')x1=seq(0,2,0.0001);y1=dchisq(x1,5)for(iin1:length(x1)){lines(c(x1[i],x1[i]),c(0,y1[i]),col='blue‘)}lines(x,dchisq(x,5),col=1)计算回归分析中最小二乘的解:程序运行与结果显示:1原理2案例3软件实现方差分析一、方差分析的基本原理1、问题的提出:两总体均值的比较通过参数检验可以解决;多个总体均值的检验如何操作?(如:北京、上海、广州周岁儿童平均身高的比较)可多次采用两样本t检验方法实现,但弃真概率会增大

如果t检验的显著性水平是0.05,则N

次t检验则为1-0.95N;可以利用方差分析的方法来实现

方差分析是从数据间的差异入手,分析哪些因素是影响数据差异的众多因素中的主要因素。2、分析目的:影响推销某种商品的推销额:不同的推销策略、价格、包装方式、推销人员的形象等。影响某农作物亩产量的因素:品种、施肥量、气候等;例如:试验指标:试验中所观测到的试验结果。3、涉及的概念:影响因素:控制因素(控制变量):试验中需要考察的、可以控制的条件称为因素或因子,因素的不同状态称为水平!随机因素:不可预知、不可控制的因素。亩产品施肥量XXXXX10公斤XXXXXX15公斤XXXXXX20公斤观测变量控制变量三个水平指标值1)从数据差异角度看:观测变量的数据差异=控制因素造成+随机因素造成4、主要问题:51150849010公斤61260760115公斤69871571020公斤51151250810公斤51350551015公斤51049952020公斤54851052110公斤51261153415公斤65455158020公斤2)方差分析是:分析观测变量的变动是否主要是由控制因素造成还是由随机因素造成的,以及控制变量的各个水平是如何对观测变量造成影响的。1、目的:检验某一个控制因素的改变是否会给观察变量带来显著影响。2、基本思路1)入手点:检验控制变量的不同水平下,各总体的分布是否存在显著差异,进而判断控制变量是否对观测变量产生了显著影响。2)前提:不同水平下各总体服从方差相等的正态分布。3)统计假设:

H0:不同水平下,各总体均值无显著差异。即:不同水平下控制因素的影响不显著.3、数学模型其中:控制因素为A,A1,A2,…,A

r为因素A的r

个水平,各水平A

i重复进行n

i次试验,可获得n

i个数据:统计假设:

为总体Y

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论