




已阅读5页,还剩6页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数学实验报告实验9 统计推断实验9 统计推断分1 黄浩 2011011743一、 实验目的1. 掌握数据的参数估计、假设检验的基本原理、算法,及用MATLAB 实现的方法2. 练习用这些方法解决实际问题二、 实验内容1.数学实验(第一版)习题2问题叙述:据说某地汽油的价格是115美分/gal,为了验证这种说法,一位司机开车随机选择了一些加油站,得到某年1月和2月的数据如下:1月 119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 1182月 118 119 115 122 118 121 120 122 128 116 120 123 121 119 117 119 128 126 118 1251)分别用两个月的数据验证这种说法的可靠性;2)分别给出1月和2月汽油价格的置信区间(=0.05);3)如何给出1月和2月汽油价格差的置信区间(=0.05)。实验过程:(1)(2)小问:第一问验证可靠性,既可以用1、2月的均值来比较,也可以用假设检验的方法来进行推断,当然后者对于问题的分析更有信度,因为假设检验不仅利用了均值,还利用了样本方差这一统计量。因此,可以将1、2小问合并,使用代码:x1=119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 118;x2=118 119 115 122 118 121 120 122 128 116 120 123 121 119 117 119 128 126 118 125;mu1 sigma1 muci1 sigmaci1=normfit(x1,0.05)mu2 sigma2 muci2 sigmaci2=normfit(x2,0.05)所得结果如下:(显著性水平为0.05)样本均值样本方差总体均值区间估计1月115.153.87113.34,116.962月120.753.712119.01,122.49对以上表格进行分析,得:1月数据对总体均值的点估计为115.15,而2月数据对总体均值的点估计为120.75,即1月的数据可以支持题中说法,而相对而言2月的数据不能支持该种说法。当然,仅仅从点估计不能很好的说明问题,因为它没有给出到底样本均值偏离多少的时候,就不能接受该说法,也无法了解1月份到底有多大程度支持该说法、2月份有多大程度不支持该说法。因此,这就要用到假设检验,记油价总体均值为,并设:H0:=115;H1:115使用代码:x1=119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 118;x2=118 119 115 122 118 121 120 122 128 116 120 123 121 119 117 119 128 126 118 125;h1 sig1 ci1=ttest(x1,115,0.05,0)h2 sig2 ci2=ttest(x2,115,0.05,0)结果如下:H0P值总体均值置信区间1月接受0.8642113.34,116.962月拒绝1.324*10-6119.01,122.49由上表可见,在显著性水平为0.05的条件下,1月份的数据支持原假设,而2月份的数据不支持原假设。而且,在原假设成立的条件下,1月份数据的P值为0.8642,很接近1,说明可信度比较高,而2月份的P值的数量级在10-6,这说明在H0成立的条件下,2月份的数据只可能是小概率事件,因而通过反证法可知,2月份的数据是反对原假设的。此外,使用假设检验给出的置信区间与用区间估计给出的区间是一致的,这是由于二者都是用了相同的统计量t=x-s/n和相同的分位数,实际上,在进行上一步的区间估计的时候,就已经能做出接受/拒绝的结论了。但是,在matlab的具体实现中,使用ttext函数进行假设检验还可以直接得到接受和拒绝的结论、以及相应的P值,既方便又全面,比使用normfit进行区间估计更强大。(3)小问:对于这一问,我首先想到的是将两行数据相减,然后进行区间估计,直接给出置信区间,使用代码:x1=119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 118;x2=118 119 115 122 118 121 120 122 128 116 120 123 121 119 117 119 128 126 118 125;mu sigma muci sigmaci=normfit(x1-x2,0.05)结果如下:样本均值样本方差总体均值区间估计价格差-5.65.471-8.161,-3.040通过这种方法得到的区间估计为:-8.161,-3.040当然,书中还有一种方法,即两总体均值的假设检验,设:H0:1-2=0;H1:1-20使用代码:x1=119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 118;x2=118 119 115 122 118 121 120 122 128 116 120 123 121 119 117 119 128 126 118 125;h sig ci=ttest2(x1,x2,0.05,0)结果如下:H0P值总体均值置信区间价格差拒绝3.695*10-5-8.027,-3.173因此,应当拒绝原假设,而且1、2月价格差的置信区间为-8.027,-3.173.在开始本小题的实验时,我并没有仔细考虑这两种方法的不同点,只是想到了可能存在不同,便试着执行了一下。在对实验结果进行分析之后,我才找到了这两种方法的不同点:我们看到,使用这两种方法所得到的置信区间近似但不相同,这是由于二者的出发点不同导致的。前者是对1、2月份相应项相减之后做的区间估计,因此可看做这些相应项是由同一个加油站采集的数据,这一对数据具有相关性,不是两个独立的样本。而后者则默认为这一对数据是独立的,是随机抽样的结果。在本题的题干中,由于没有对这一点做十分明确的解释,而且两种方法的置信区间近似,在这里我们对这两种方法均予以承认。得出结论:a) 在显著性水平为0.05时,1月的数据可以支持“某地汽油价格是115美分/gal”的说法,但2月份的数据不支持这一说法b) 在显著性水平为0.05时,1月数据给出的汽油价格的置信区间为113.34,116.96,而2月数据给出的汽油价格的置信区间为119.01,122.49c) 在显著性水平为0.05时,对于1、2月份汽油价格差的置信区间,若假设1、2月同一列的数据来自同一个加油站,则置信区间为-8.161,-3.040;若假设1、2月同一列的数据是随机抽样的结果,即无法确定是否来自同一个加油站,则置信区间为-8.027,-3.1732.数学实验(第一版)问题5问题叙述:甲方向乙方成批供货,甲方承诺合格率为90%,双方商定置信概率为95%。现从一批货中抽取50 件,43 件为合格品,问乙方应否接受这批货物?你能为乙方不接受它出谋划策吗?实验过程:这是一个0-1分布总体均值的假设检验问题。设X=1表示合格品,X=0表示不合格品,若将合格率为p,则X的期望为p,方差为p(1-p)。虽然X不呈正态分布,但根据中心极限定理,当样本容量充分大时,有:z=x-n=x-pp(1-p)nN(0,1)因此,若作假设检验:H0:pp0;H1:pp0则拒绝域为:W=zu虽然matlab中没有直接针对大样本0-1分布的假设检验,但因其能归结为正态分布检验问题,因此不必自行编写程序,代码如下:p0=0.9;sigma=sqrt(p0*(1-p0); %总体标准差a=0.05;x=ones(1,43) zeros(1,7);h sig ci zval=ztest(x,p0,sigma,a,-1)结果如下:H0P值总体均值置信区间合格率接受0.1729-,0.9298因此,在承诺合格率为90%,实际合格率为86%,置信概率为95%的情况下,乙方应当接受这批货物。同时,我们看到,这种情况下的P值较小,说明实际合格率已经有较大的偏离,不是一批理想的产品;而且,对于甲方产品合格率的区间估计,最大值达到了93%,这是过于乐观的估计。对于乙方而言,如果想推翻假设,不接受这批货物,应当改变假设检验的各个参数,可以通过提高样本量n、降低置信概率1-、提高承诺合格率p0来完成,下面分别对这三种情况进行实验,并试图求出这三个参数的临界值:(一) 提高样本量如果假设甲方生产的产品的总体合格率就是86%,那么提高样本量n会使统计量z=x-pp(1-p)n的绝对值增加,又因z为负值,因而使z更容易落入拒绝域中,从而达到最初目的。使用代码:p0=0.9;sigma=sqrt(p0*(1-p0);a=0.05;n=50;h=0;while h=0 n1=fix(n*0.86);n2=n-n1; %fix为取整(截尾)函数 x=ones(1,n1) zeros(1,n2); h sig ci zval=ztest(x,p0,sigma,a,-1); n=n+1;endn-1同时,我发现不同的取整方式(截尾、四舍五入、进位)对于临界n值都有影响(这是由于不同的取整方式会对合格产品数有1的影响,从而略微改变了实际合格率),在此我又使用了两种取整函数ceil和round,计算代码类似,直接给出结果:fix(截尾)ceil(进位)round(四舍五入)临界n108165133由上表可得,不同取整方式会影响到实际合格品的数量(统一规定p0=0.86),进而影响临界n值,而且变动较大。从准确度的角度考虑,round函数给出的临界n值应该更精确,因为代码执行的合格率与0.86更为接近;但从保险的角度考虑,ceil给出的结果更好,是一种稳健的估计。(二) 降低置信概率1-如果降低置信概率1-,则拒绝域会扩大,从而达到最初目的。使用代码:p0=0.9;sigma=sqrt(p0*(1-p0);a=0.05;h=0;x=ones(1,43) zeros(1,7);while h=0 a=a+0.001; h sig ci zval=ztest(x,p0,sigma,a,-1);end1-a结果为:1-=0.827,即当置信概率为0.827时,可以使乙方拒绝这批产品。(三) 提高承诺合格率p0如果提高p0,显然可以使样本数据更偏离中心,即更有可能被拒绝,代码如下:p0=0.9;sigma=sqrt(p0*(1-p0);a=0.05;h=0;x=ones(1,43) zeros(1,7);while h=0 p0=p0+0.001; sigma=sqrt(p0*(1-p0); h sig ci zval=ztest(x,p0,sigma,a,-1);endp0结果为:p0=0.923,即若重新签订合同,规定承诺合格率为92.3%,则乙方可以拒绝这批产品。得出结论:在原有合同下,虽然甲方的这批产品差强人意,但乙方仍然要按要求接受这批货物。如果乙方不接受这批货物,则可有如下几种方式,一是提高抽样量,将50个的样本增加为166个(这是稳健的估计,书后答案给出的“155个”可能是直接求解相应的分位数所得的,但那种方法的缺陷是,允许了非整数个产品的出现);二是重新签订合同,将置信概率由95%降低为82.7%,或者将承诺合格率由90%提高为92.3%。但从实际执行来看,重新签订合同显然难度很大,一会影响甲乙方的合作,二是要消耗很多公关资源,而增加抽样量虽然会增加检测成本,但对甲方而言却是一种既有说服力又“友好”的方式,乙方也可以趁此机会向甲方要求修改合同,以提高产品的质量,实现良性生产循环。3.数学实验(第一版)问题7问题叙述:为研究胃溃疡的病理,医院作了两组人胃液成分的试验,患胃溃疡的病人组与无胃溃疡的对照组各取30人,胃液中溶菌酶含量见下表。(1)根据这些数据判断患胃溃疡病人的溶菌酶含量与“正常人”有无显著差别;(2)若表中患胃溃疡病人组的最后5个数据有误,去掉后再作判断。胃溃疡病人与正常人(各30人)的溶菌酶含量病人0.210.40.30.410.911.31.1212.416.22.117.618.93.33.820.74.54.82425.44.940542.25.350607.59.845正常人0.25.40.35.70.45.80.77.51.28.71.58.81.59.11.910.3215.62.416.12.516.52.816.73.6204.820.74.833实验过程:(1)小题显然,因为病人组和正常人组的数据均为随机抽样,同一列的数据没有相关性,因此该问题为两总体均值的假设检验,即:H0:1=2;H1:12取显著性水平为0.05,代码如下:x1=0.2 10.4 0.3 0.4 10.9 11.3 1.1 2 12.4 16.2 2.1 17.6 18.9 3.3 3.8 20.7 4.5 4.8 24 25.4 4.9 40 5 42.2 5.3 50 60 7.5 9.8 45;x2=0.2 5.4 0.3 5.7 0.4 5.8 0.7 7.5 1.2 8.7 1.5 8.8 1.5 9.1 1.9 10.3 2 15.6 2.4 16.1 2.5 16.5 2.8 16.7 3.6 20 4.8 20.7 4.8 33;h sig ci=ttest2(x1,x2,0.05,0)结果为:H0P值总体均值置信区间溶菌酶拒绝0.025140.9886,14.311因此,不能认为胃溃疡病人的溶菌酶含量与正常人无显著差别,原假设被推翻,即二者的溶菌酶含量有一定差别。(2)小题如果去掉胃溃疡病人组的后五个数据,取显著性水平为0.05,则代码为:x1=0.2 10.4 0.3 0.4 10.9 11.3 1.1 2 12.4 16.2 2.1 17.6 18.9 3.3 3.8 20.7 4.5 4.8 24 25.4 4.9 40 5 42.2 5.3;x2=0.2 5.4 0.3 5.7 0.4 5.8 0.7 7.5 1.2 8.7 1.5 8.8 1.5 9.1 1.9 10.3 2 15.6 2.4 16.1 2.5 16.5 2.8 16.7 3.6 20 4.8 20.7 4.8 33;h sig ci=ttest2(x1,x2,0.05,0)结果如下:H0P值总体均值置信区间溶菌酶接受0.15581-1.503,9.153因此,当去掉这些数据后,假设被承认,即认为胃溃疡病人的溶菌酶含量与正常人无显著差别。得出结论:在完整数据的条件下,我们认为胃溃疡病人的溶菌酶含量与正常人含量有差别;在去掉胃溃疡病人组的后五个数据后,我们认为胃溃疡病人的溶菌酶含量与正常人无显著差别。这说明,一些关键数据(错误数据)会对假设检验产生较大影响,在实验前一定要保证数据的正确,这样才能得出可信的结论。三、 实验总结本次实验是对几个实际样本进行处理和分析,进行点估计、区间估计和假设推断,得出与总体参数相关的一些结论。对抽样进行估计和推断,是从局部信息了解总体信息的一种方法,在本实验的三道习题中,所涉及的样本、分布都比较简单,代码也相对容易,整个实验中几乎没有遇到什么困难。唯一复杂的地方是第二题,给乙方拒绝甲方的产品出谋划策,在编写代码的时候,出现了几个小差错,导致花了1个小时的时间来调试。当然,实际中的问题可能会更加复杂,样本中还包含其他的人为因素,不同样本之间也不是完全独立的,这就涉及到更复杂的数理统计知识。四、 程序清单1. 第一题(1)小题参数估计x1=119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 118;x2=118 119 115 122 118 121 120 122 128 116 120 123 121 119 117 119 128 126 118 125;mu1 sigma1 muci1 sigmaci1=normfit(x1,0.05)mu2 sigma2 muci2 sigmaci2=normfit(x2,0.05)2. 第一题(2)小题假设检验x1=119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 118;x2=118 119 115 122 118 121 120 122 128 116 120 123 121 119 117 119 128 126 118 125;h1 sig1 ci1=ttest(x1,115,0.05,0)h2 sig2 ci2=ttest(x2,115,0.05,0)3. 第一题(3)小题区间估计(同一个加油站)x1=119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 118;x2=118 119 115 122 118 121 120 122 128 116 120 123 121 119 117 119 128 126 118 125;mu sigma muci sigmaci=normfit(x1-x2,0.05)4. 第一题(3)小题区间估计(不同加油站)x1=119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 118;x2=118 119 115 122 118 121 120 122 128 116 120 123 121 119 117 119 128 126 118 125;h sig ci=ttest2(x1,x2,0.05,0)5. 第二题假设检验p0=0.9;sigma=sqrt(p0*(1-p0); %总体标准差a=0.05;x=ones(1,43) zeros(1,7);h sig ci zval=ztest(x,p0,sigma,a,-1)6. 第二题改变样本量np0=0.9;sigma=sqrt(p0*(1-p0);a=0.05;n=50;h=0;while h=0 n1=fix(n*0.86);n2=n-n1; %fix为取整(截尾)函数 x=ones(1,n1) zeros(1,n2); h sig ci zval=ztest(x,p0,sigma,a,-1); n=n+1;endn
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 部门级安全培训课件
- 部门安全日常培训内容课件
- 避免革命的改革课件
- 交通韧性评估国际标准对比-洞察及研究
- 基于循环经济的2-氨基-4-氯苯酚生产废料资源化利用模型
- 国际面粉切割标准与本土饮食习惯差异的适配性研究
- 国际标准对接中凹凸管流体力学性能测试方法与ISO认证路径探索
- 可变拓扑结构分装设备应对突发性订单波动的响应机制
- 双螺杆减速与柱塞泵协同传动的能量损耗耦合优化策略
- 双相钢热处理工艺参数与齿轮副接触应力场的动态匹配难题
- PS考试试题及答案
- 新都区文化产业发展建议报告
- 时代邻里4度°服务美学品质关怀体系
- 养老机构行政值班查房记录表格
- EPC合同条件(银皮书)-1999
- 外研版五年级上册英语(全册)单元教材分析
- 华为-计划、预算和核算
- 细胞凋亡和细胞自噬(课堂PPT)
- 第一章光的电磁理论ppt课件
- 粮油贮藏与加工技术ppt课件
- 纸板纸箱耐破、边压及抗压计算.xls
评论
0/150
提交评论