生物统计学:第6讲估计_第1页
生物统计学:第6讲估计_第2页
生物统计学:第6讲估计_第3页
生物统计学:第6讲估计_第4页
生物统计学:第6讲估计_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一种药有效率为一种药有效率为30%. 现给现给30个病人服用,问个病人服用,问有有11个人治愈的概率是多少?个人治愈的概率是多少?30个病人中有个病人中有X个人治愈个人治愈. 问题问题1(30,0.3)XB111130 1130(11)0.3 0.70.11P XC 问题问题2?p ?30%p (30, )XBp?110.3730一种新药现给一种新药现给30个病人服用,有个病人服用,有11个人治愈个人治愈. 该病传统用药痊愈率为该病传统用药痊愈率为30%. 问如何判定该药问如何判定该药是否有效?是否有效?问题问题2?p ?30%p (30, )XBp?110.3730眼见不为实眼见不为实概率论

2、概率论分布分布及其及其参数参数已知,求特定随机事件的概率、已知,求特定随机事件的概率、期望、方差等问题期望、方差等问题. .20.31.4(30,)()50)01(,XPNXBY一种药有效率为一种药有效率为30%. 现给现给30个病人服用,问个病人服用,问有有11个人治愈的概率是多少?个人治愈的概率是多少?111130 1130(30,0.3)(11)0.3 0.70.11XBP XC 统计学统计学分布类型已知,求未知的参数,对参数的性质分布类型已知,求未知的参数,对参数的性质作一些推断作一些推断确认未知分布确认未知分布?p ?30%p 一种新药现给一种新药现给30个病人服用,有个病人服用,有

3、11个人治愈个人治愈.该病传统用药痊愈率为该病传统用药痊愈率为30%. 问如何判定该药问如何判定该药是否有效?是否有效?研究问题:研究问题:北京市的社会经济特征北京市的社会经济特征疫苗的防疫能力疫苗的防疫能力交通流量、事故交通流量、事故大学生每月的消费大学生每月的消费分布未知分布未知平均水平未知平均水平未知变异性未知变异性未知统计学统计学通过通过数据数据进行探究进行探究统计研究的对象:数据统计研究的对象:数据1. 1. 数据搜集:试验设计取得数据搜集:试验设计取得数据数据2. 2. 数据分析:分析数据分析:分析数据数据 3. 3. 数据表述:图、表展示数据表述:图、表展示数据数据4. 4. 数

4、据解释:数据解释:数据数据的解释、说明、推断、结的解释、说明、推断、结 论、预测论、预测数据的不确定性数据的不确定性1.总体的随机性:总体的随机性:22.取样的随机性:取样的随机性:n 3.测量过程中的随机误差测量过程中的随机误差4.关心的性质确实发生了变化关心的性质确实发生了变化一种新药现给一种新药现给30个病人服用,有个病人服用,有11个人治愈个人治愈. 该病传统用药痊愈率为该病传统用药痊愈率为30%. 问如何判定该药问如何判定该药是否有效?是否有效?抽样误差抽样误差9第三章第三章 统计推断统计推断第一节第一节 描述性统计描述性统计第二节第二节 参数的估计参数的估计第三节第三节 假设检验假

5、设检验Base 抽样分布抽样分布(样本)统计量与参数(样本)统计量与参数11nixxn= = = ()iiE Xx p=221()11niisxxn= =- -=-=- 21()=()niiiE XpD Xx= =- - Median 中位数中位数 S0.5 Range 极差(全距)极差(全距)Mode 众数众数 峰值峰值 Qrange 上下四分位数之差上下四分位数之差Max 最大值最大值 Std 标准差标准差Min 最小值最小值 CV 变异系数变异系数Q3 上四分位数上四分位数 S0.75Q1 下四分位数下四分位数 S0.25(样本)统计量与参数(样本)统计量与参数参数参数:总体总体的数字特

6、征,如总体期望的数字特征,如总体期望 和总和总体方差体方差 2 2, ,是是常量常量,用希腊字母表示,用希腊字母表示. .样本统计量样本统计量:样本样本(数据)的数字特征(数据)的数字特征, , 如如样本均值样本均值 和样本方差和样本方差S2 2. 随抽得的样本而变随抽得的样本而变化,是化,是随机变量随机变量,用英文字母表示,用英文字母表示. .样本统计量样本统计量用于描述数据的特征,估计总体用于描述数据的特征,估计总体参参数数. .X参数估计问题:利用抽取的样本提供的信息和参数估计问题:利用抽取的样本提供的信息和已知分布类型提供的信息,对总体分布中某些已知分布类型提供的信息,对总体分布中某些

7、重要的未知参数进行估计重要的未知参数进行估计.点估计点估计用一个具体数值去估计一个未知参数用一个具体数值去估计一个未知参数.例,例,我国某地区农户的年均收入为我国某地区农户的年均收入为25502550元元. .区间估计区间估计把未知参数估计在两个界限之间把未知参数估计在两个界限之间.例,例,我国某地区农户的年均收入在我国某地区农户的年均收入在25002500到到26002600元之间元之间. .12第二节第二节 估计估计13一、点估计一、点估计例例1 1 从某批阿司匹林片中随机抽取从某批阿司匹林片中随机抽取5 5片,测定片,测定其溶解其溶解5050所需的时间所需的时间T5050,结果为:,结果

8、为:5.3 3.7 4.9 6.6 5.2.5.3 3.7 4.9 6.6 5.2.估计该批阿司匹林片溶解估计该批阿司匹林片溶解5050所需时间所需时间T5050的的均值和方差均值和方差. .m m2s s141.点估计定义点估计定义利用样本构造一个统计量(大白话:样本函利用样本构造一个统计量(大白话:样本函数),用它来作为总体参数的估计量数),用它来作为总体参数的估计量.当测定了一组样本值,代入统计量的公式中即当测定了一组样本值,代入统计量的公式中即可得到总体参数的估计值可得到总体参数的估计值.11niixxnm m= = 222221111()11nniiiisxxxnxnns s =骣骣

9、琪琪=-=-=-=-琪琪琪琪琪琪-桫桫邋邋15例例1a111(5.33.74.96.65.2)5.145niixxn= =+=+= 222111niisxnxn= =骣骣琪琪= =- -琪琪琪琪琪琪- -桫桫 ( () )22222215.33.74.96.65.25 5.14511.073=+-=+- -= =5.14xm m=221.073ss s =16例例1a样本均值作为总体均值样本均值作为总体均值E(X)的的估计量估计量样本方差作为总体方差样本方差作为总体方差D(X)的的估计量估计量22211()1niisxxns s = =-=- - 为为T5050的均值的均值的的估计值估计值 为

10、为T5050的方差的方差的的估计值估计值5.14x 21.073s 11niixxnm m= = 17问题问题1:如何估计一个参数:如何估计一个参数中位数?众数?中位数?众数?70百分位数?百分位数?如何给出点估计,即如何构造点估计量?如何给出点估计,即如何构造点估计量?矩法矩法 最小二乘法最小二乘法 Monte Carlo法法 极大似然法极大似然法18例例2 敏感性问题的调查敏感性问题的调查政治问题的民意调查人、公众意见调查员、社政治问题的民意调查人、公众意见调查员、社会科学家等需要精确地测定持有某种信念或经会科学家等需要精确地测定持有某种信念或经常介入某种具体行为的人所占的百分比常介入某种

11、具体行为的人所占的百分比.看不健康书刊看不健康书刊考试作弊考试作弊服用兴奋剂服用兴奋剂吸毒吸毒赌博赌博乘坐公共汽车逃票乘坐公共汽车逃票经营者的偷漏税户经营者的偷漏税户一夜情一夜情19敏感性问题的调查敏感性问题的调查这些问题属于个人隐私,常常因为怀疑调查者这些问题属于个人隐私,常常因为怀疑调查者是否能保密而不愿意如实回答是否能保密而不愿意如实回答. 对敏感性问题的调查方案,关键要使被调查者对敏感性问题的调查方案,关键要使被调查者确信能保守个人秘密而愿意做出真实回答确信能保守个人秘密而愿意做出真实回答. 一一旦调查方案设计有误,被调查者就会拒绝配合,旦调查方案设计有误,被调查者就会拒绝配合,所得调

12、查数据将会失去真实性所得调查数据将会失去真实性. 心理学家与统心理学家与统计学家为此设计了一种调查方法,一些统计分计学家为此设计了一种调查方法,一些统计分析方法也应运而生析方法也应运而生. 1965年年Stanley L.Warner发明了一种能消除人们发明了一种能消除人们抵触情绪的抵触情绪的“随机化应答随机化应答”方法方法.20“随机化问答随机化问答”法法被调查者从一个装有黑球和白球的箱子中随机抽取一被调查者从一个装有黑球和白球的箱子中随机抽取一个球个球.抽到白球,回答抽到白球,回答问题问题A:“生日是否在生日是否在7月月1日之前?日之前?”抽到黑球,回答抽到黑球,回答问题问题B:“是否看过

13、不健康的书刊?是否看过不健康的书刊?”被调查者无论回答被调查者无论回答A题或题或B,都只需在一张只有都只需在一张只有“是是”和和“否否”两个选项的答卷上作出选择,然后投入密封两个选项的答卷上作出选择,然后投入密封的投票箱内的投票箱内.上述过程在一间无人的房间内进行,任何人都不知道上述过程在一间无人的房间内进行,任何人都不知道被调查者抽到什么颜色的球以及他的回答被调查者抽到什么颜色的球以及他的回答.21假设假设在在“随机化问答随机化问答”方案下所有被调查者诚实回方案下所有被调查者诚实回答问题答问题.学校学生中看过不健康书刊的百分比为学校学生中看过不健康书刊的百分比为p.任选一人其生日在任选一人其

14、生日在7月月1日之前的概率为日之前的概率为0.5;箱中白球的比例是已知的箱中白球的比例是已知的.调查的调查的n份答卷中有份答卷中有k份回答份回答“是是”的的.是是抽到白球(抽到白球(A题),生日在题),生日在7月月1日之前日之前抽到黑球(抽到黑球(B题),看过不健康书刊题),看过不健康书刊22模型模型n()()PP 是是抽抽到到白白球球并并回回答答“是是”或或者者抽抽到到黑黑球球并并回回答答“是是”()() (|)() (|)PPPPP是是白白是是 白白黑黑是是 黑黑 1 1(1)2kpn0.5p21knp 是是抽到白球(抽到白球(A题),生日在题),生日在7月月1日之前日之前抽到黑球(抽到黑

15、球(B题),看过不健康书刊题),看过不健康书刊k23“随机化问答随机化问答”法法假设箱子中共有假设箱子中共有50个球,其中个球,其中30个黑球个黑球.如在一项调查大学生看过不健康书刊的调查时如在一项调查大学生看过不健康书刊的调查时共有全校共有全校1583名学生参加,最后统计答卷,全名学生参加,最后统计答卷,全部有效部有效.其中回答其中回答“是是”的有的有389张张.这表明全校这表明全校1583名学生中约有名学生中约有7.62%的学生看的学生看过不健康的书刊过不健康的书刊.20389502158320.0762201150knp 24统计学与概率论统计学与概率论1(1)2kpn21knp 25问

16、题问题2:如何评价一个估计量:如何评价一个估计量如何对不同的估计方法进行评价,即估计的好如何对不同的估计方法进行评价,即估计的好坏评判标准?坏评判标准?=Xm mm mm m中中位位截截尾尾均均值值262.估计量优劣的标准估计量优劣的标准(1)无偏性)无偏性E(估计量)所求的总体参数(估计量)所求的总体参数准确性好准确性好 1 2 27加权平均加权平均如果如果X1,X2,Xn是来自总体是来自总体X的样本的样本. .样本的加权均数样本的加权均数11 (1)nniiiiic Xc= =邋邋3X11122nXX+ +11, niiiicc XXn= = 28例例3如果如果X1,X2,Xn是来自总体是

17、来自总体X的样本的样本. .证明:样本的加权均数证明:样本的加权均数为总体均值为总体均值的无偏估计,其中的无偏估计,其中 . .1niiic X= = 11niic= = = 29例例3 证明证明1111()()()innnniiiiiiiiiiE XEc Xc E Xccm mmmmmmm= =邋邋邋邋30Your work22211(1)niisxxns s = =-=- - 为什么是为什么是n1而不是而不是n?模拟数据展示模拟数据展示理论证明理论证明31无偏性足够了么?无偏性足够了么?31. ()E Xm m= =1112. ()22nEXXm m+=+=5113. ()5iiEXm m

18、= = = 23()D Xs s= =2211(0.50.5)0.5()0.5()nnDXXD XD X+=+=+20.5s s= =25522211111()()55555iiiiDXD Xs ss s=邋邋32有效性精度高有效性精度高当样本量相同时,方差小的估计量更为有效当样本量相同时,方差小的估计量更为有效. . 1 2 33例例411niic= = = 222221111()()nnniiiiiiiDc XccD Xnns sssss=骣骣琪琪=琪琪琪琪琪琪桫桫邋邋标准误标准误:估计量的标准差:估计量的标准差.衡量估计量精度衡量估计量精度总体的变异总体的变异抽样:样本量抽样:样本量XS

19、Sn= =34感兴趣?感兴趣?“随机化应答随机化应答”模型估计的无偏性?精度(方模型估计的无偏性?精度(方差)?差)?敏感性调查新进展敏感性调查新进展3535估计的精度和可靠性估计的精度和可靠性例例 今年今年GDPGDP为为7.67.6 今年今年GDPGDP为为7 78 8 今年今年GDPGDP为为6 69.19.1例例 发病率发病率 n1 1=2;=2; n2 2=400;=400;12p= =3636二、区间估计二、区间估计1.正态总体正态总体均数均数的区间估计的区间估计2.正态总体正态总体方差方差2的区间估计的区间估计3.二项分布参数二项分布参数p的区间估计(自学)的区间估计(自学)4.

20、两个正态总体两个正态总体均值差均值差12的区间估计(自学)的区间估计(自学)统计学的小概率原则统计学的小概率原则小概率事件在一次研究观察中认为是不可能发小概率事件在一次研究观察中认为是不可能发生的生的.人为定义人为定义概率不超概率不超0.10、0.05、0.01的事件定义为的事件定义为“小概小概率事件率事件”.=0.10,0.05,0.011.正态分布均数正态分布均数的区间估计的区间估计总体方差总体方差 2 2已知已知总体方差总体方差 2 2未知未知 (1)Xt nSn 2( ,)(0,1)XXNNnn 正态总体方差已知的前提下总体均值置信区间正态总体方差已知的前提下总体均值置信区间2( ,)

21、XNn 121XPuna am ma as s- -骣骣- -琪琪琪琪=-=-琪琪琪琪琪琪桫桫If If 小概率事件小概率事件0.050.051.960.95XPnm ms s骣骣- -琪琪琪琪=琪琪琪琪琪琪桫桫1.961.960.95P XXnnssssm m骣骣琪琪-+=-+=琪琪琪琪桫桫4040模拟数据模拟数据1( ,90 4)XNn (,221.961.9699)xx-3.00-3.00-2.00-2.00-1.00-1.000.000.001.001.002.002.003.003.001 1 6 6 11 11 16 16 4141模拟数据模拟数据1(1.96,1.96)XXnns

22、sssm m-+-+(1.96,1.96)XXnnssssm m-+-+4242统计学的小概率原则统计学的小概率原则2( ,)XN 2( ,)XNn 0.951.961.()96P XXnnm mssss-+=-+=小概率事件小概率事件=0.05=0.05(1.96,1.96)0.95PXXnnssssm m-+=-+=(1.96,1.96)0.05PXXnnssssm m-+=-+=4343模拟数据模拟数据1( ,90 4)XNn (,221.961.9699)xx4444置信水平置信水平10.1.9965XPnm ms s骣骣- -琪琪琪琪=琪琪琪琪琪琪桫桫2( ,)XN 2( ,)XNn

23、 0.951.961.()96P XXnnm mssss-+=-+=10.05 212uua a-=1212()1P XuXunnaaaassssmama-+=-+=-小概率事件小概率事件=0.05=0.0510.051a a- -=- -45451-1-的的置信区间置信区间(confidence interval,CI)(confidence interval,CI)为:为:0.05,0.010.05,0.01或或0.10.0.10.1 1:置信水平(置信水平(confidence levelconfidence level)正态总体方差已知的前提下总体均值置信区间正态总体方差已知的前提下总

24、体均值置信区间1/2Xuna as s- -1212()1P XuXunnaaaassssmama-+=-+=-4646附表附表C.2c 标准正态分布分位数表标准正态分布分位数表1 0.1 20.951 0.05 20.9751 0.01 20.9950.11.640.051.960.012.58uuuuuu 12u 12u 12 2 4747设从正态总体设从正态总体XN( (,1),1)中随机抽取容量为中随机抽取容量为1616的样本,其样本均值为的样本,其样本均值为5.20. 5.20. 试求估计试求估计总体均总体均值值的的95%95%置信区间和置信区间和99%99%置信区间置信区间. .解

25、解: :总体均值的估计值为总体均值的估计值为5.205.20.例例55.20m m= =4848设从正态总体设从正态总体XN( (,1),1)中随机抽取容量为中随机抽取容量为1616的样本,其样本均值为的样本,其样本均值为5.20. 5.20. 试求估计试求估计总体均总体均值值的的95%95%置信区间和置信区间和99%99%置信区间置信区间. .解解: : 1-1-=0.95=0.95时,时,=0.05=0.05,u10.05/2 =1.96总体均值的总体均值的95%95%置信区间为置信区间为(4.71,5.69).例例51/2Xuna as s- -1=5.201.96165.200.49(

26、4.71 5.69)=,4949设从正态总体设从正态总体XN( (,1),1)中随机抽取容量为中随机抽取容量为1616的样本,其样本均值为的样本,其样本均值为5.20. 5.20. 试求估计试求估计总体均总体均值值的的95%95%置信区间和置信区间和99%99%置信区间置信区间. .解解: : 1-1-=0.99=0.99时,时,=0.01=0.01,u10.01/2 =2.58总体均值的总体均值的99%99%置信区间为置信区间为(4.56,5.85).例例51/2Xuna as s- -2.155. 01682=5.200.65(4.56 5.85)=,5050例例5 两个区间的比较两个区间

27、的比较设从正态总体设从正态总体XN( (,1),1)中随机抽取容量为中随机抽取容量为1616的样本,其样本均值为的样本,其样本均值为5.20.5.20.95%CI:95%CI:(4.71,5.69)99%CI:99%CI:(4.56,5.85)5.854.561.29D D = =- -= =5.694.710.98D D = =- -= =12121()P XuXunnaaaassssm ma a-+=-+=- - 5151区间估计的评价区间估计的评价1.1.可靠性:可靠性: 置信水平置信水平1 1 越大,区间估计越可靠;越大,区间估计越可靠;2.2.精度:精度: 区间的宽度反映估计的精确性

28、,区间的宽度反映估计的精确性, 区间的宽度越窄,估计的精确性越高区间的宽度越窄,估计的精确性越高. .1212()1P XuXunnaaaassssmama-+=-+=-5252可靠性与精度的关系可靠性与精度的关系95%的置信区间的置信区间 99的置信区间的置信区间(4.71,5.69) (4.56,5.85) 95% 95%可靠性可靠性 99%99%可靠性可靠性?置信水平(可靠性)置信水平(可靠性) 置信区间宽度置信区间宽度 精度精度 5.854.561.29D D = =- -= =5.694.710.98D D = =- -= =5353模拟数据模拟数据25454总体方差未知的前提下均值

29、的置信区间总体方差未知的前提下均值的置信区间1/2(1)SXtnna a- - (1)XTt nSnm m- -=-=-1212(1)(1)1SSP XtnXtnnnaaaam ma a-+-=-+-=-的的1-1-置信区间为:置信区间为:12(1)1XPtnSna am ma a- - -=-=-55例例1b1b从某批阿司匹林片中随机抽取从某批阿司匹林片中随机抽取5 5片,测定其溶片,测定其溶解解5050所需的时间所需的时间T5050,结果为:,结果为:5.3 3.7 4.9 6.6 5.2.5.3 3.7 4.9 6.6 5.2.估计该批阿司匹林片溶解估计该批阿司匹林片溶解5050所需时间

30、所需时间T5050的的均值的均值的95%95%置信区间置信区间. .分析:假设分析:假设T5050N(,2) 总体方差总体方差2未知未知问题:关于问题:关于的的CI5656例例1b 解:解:515222115.145151.07351iiiixxsxxm m= = = = = =轾轾犏犏= =- -= =犏犏- -臌臌 0.05a a= =.4 43010.05 2(51)2.78CPt- -=-=1/2(1)SXtnna a- -1.0735.142.7855.141.29(3.85,6.43)=贝=贝=5757Excel 公式模板公式模板5858Excel 描述性统计描述性统计/2(1)Stnna a- -59592.正态总体方差正态总体方差 2的区间估计的区间估计222(1)(1)nSns sc

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论