版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六章参数估计与假设检验
(ParameterEstimationandhypothesistest)
主要内容抽样分布与抽样误差t分布总体均数的估计假设检验统计推断(statisticalinference)参数估计(parameterestimation)假设检验(testofhypothesis)总体样本抽取部分观察单位
μ?
推断inference第一节
抽样分布与抽样误差抽样误差?μ=167.7cmσ=5.3cmX1,X2,…Xi…Sj167.41,2.74165.56,6.57168.20,5.36165.69,5.09nj=10100个1999年某市18岁男生身高N(167.7,5.32)的抽样示意图…表3-1N(167.7,5.32)总体中100个随机样本的、和95%CL(nj=10)样本号95%CL样本号95%CL1167.412.74165.45169.3751168.473.91165.67171.272165.566.57160.86170.2652165.953.76163.26168.643168.205.36164.37172.0353168.875.77164.74173.004166.674.81163.24170.11*54169.532.07168.05171.005164.895.41161.02168.7655166.105.58162.11170.106166.364.50163.14169.5856167.204.56163.94170.477166.164.04163.27169.0557170.507.66165.02175.988169.115.71165.02173.1958166.444.93162.91169.979167.178.26161.27173.0859168.684.52165.45171.9110166.135.24162.38169.8760168.406.95163.43173.3711167.716.42163.12172.3161171.216.30166.70175.7212168.685.93164.44172.9262170.334.34167.23173.4413166.833.69164.19169.4763169.037.38163.75174.3114169.624.81166.18173.0664167.634.58164.36170.9015166.953.64164.35169.5565168.663.33166.27171.0416170.294.91166.78173.8066168.842.78166.85170.8349167.723.82164.99170.4599169.405.57165.42173.3950170.394.15167.42173.35100165.695.09162.06169.33从正态分布总体N(167.7,5.32)随机抽样所得样本均数分布一、抽样误差在医学研究中,绝大多数情况是由样本信息研究总体。抽样误差(samplingerror):由抽样造成的样本统计量与总体参数的差异称为抽样误差。对于抽样研究,抽样误差不可避免。(一)抽样误差的分布
理论上可以证明:若从正态总体中,反复多次随机抽取样本含量固定为n的样本,那么这些样本均数也服从正态分布,即的总体均数仍为,样本均数的标准差为。抽样分布抽样分布示意图抽样分布抽样分布示意图
中心极限定理:
当样本含量很大的情况下,无论原始测量变量服从什么分布,的抽样分布均近似正态随着样本含量的增大,样本均数的变异范围也逐渐变窄(一)抽样误差的分布若Xi服从正态分布若Xi不服从正态分布n>=50n<50则服从正态分布则服从正态分布则不服从正态分布
(二)均数的标准误(StandardError,SE)
表示样本统计量抽样误差大小的统计指标。样本均数抽样误差的大小,即样本均数标准差称为标准误。
样本均数的变异越小说明估计越精确,因此可以用标准误表示抽样误差的大小。数理统计证明由标准误的计算公式可见,在样本含量一定的情况下,标准误与标准差成正比,标准误与样本含量的平方根成反比,说明在同一总体中随机抽样,样本含量n越大,标准误越小,从而降低抽样误差标准误反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异实际中总体标准差往往未知,故只能求得样本均数标准差的估计值:例4.1在某地随机抽查成年男子140人,计算得红细胞均数4.77×1012/L,标准差0.38×1012/L,试计算均数的标准误。
标准误是抽样分布的重要特征之一,可用于衡量抽样误差的大小,更重要的是可以用于参数的区间估计和对不同组之间的参数进行比较。(三)率的抽样误差由于抽样引起的样本率之间及样本率与总体率之间的误差,称为率的抽样误差。这个误差的大小我们用率的标准误来描述,用σp表示式中π为总体率,n为样本例数。率的标准误由于在实际中,总体率π往往未知,我们常用样本率P来近似代替总体率π,则上述公式变为:
式中Sp称为样本率的标准误,P为样本率,n为样本例数。
样本率的总体均数等于总体率,即
μp=π二、可信区间
参数估计点估计:不考虑抽样误差,如区间估计:考虑抽样误差一、可信区间的概念(ConfidenceInterval,CI)区间估计:指按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。这个区间即称为可信区间ConfidenceIntervalgivesanestimatedrangeofvalueswhichislikelytoincludeanunknownpopulationparameter,theestimatedrangebeingcalculatedfromagivensetofsampledata.事先给定的概率称为可信度(confidencelevel),通常取Itisoftenexpressedasapercentage.Forexample,say,thentheconfidencelevelisequalto(1-0.05)=0.95,i.e.a95%confidencelevel.可信区间(一)总体均数的可信区间的计算
1.已知:如果变量服从正态分布,则一般情况其中为标准正态分布的双侧界值。可信区间:标准正态分布规律,95%的z值在-1.96和1.96之间,即95%可信区间标准正态分布2.未知
通常未知,这时可以用其估计量S代替,但
已不再服从标准正态分布,而是服从著名的t分布。
图4-2不同自由度的t
分布图
t分布——t值与t分布的引入-1.961.960.0250.025X
0N(,2)N(0,1)样本均数正态分布观察值正态分布t分布标准正态分布S代替
t分布特征
不服从标准正态分布,小样本时服从自由度ν=n-1的t分布,记为:
Likestandardnormaldistribution,thetdistributionisunimodalandsymmetricarounditsmeanof0.t分布曲线是以0为中心的对称分布t分布特征自由度ν越小,t值越分散,t分布的峰部越矮而尾部翘得越高;
图4-2不同自由度的t
分布图
可信区间的计算:计算可信区间的原理与前完全相同,仅仅是两侧概率的界值有些差别。即可信区间:
需要注意:在小样本情况下,应用这一公式的条件是原始变量服从正态分布。在大样本情况下(如n>100),也可以用替换近似计算。
例4.2某医生测得25名动脉粥样硬化患者血浆纤维蛋白原含量的均数为3.32g/L,标准差为0.57g/L,试计算该种病人血浆纤维蛋白原含量总体均数的95%可信区间。下限:上限:Ifthepopulationstandarddeviationσhadbeenknownandhadbeenequaltothesamplevalueof0.57g/L,the95%confidenceintervalforμwouldhavebeenMostly,confidenceintervalsbasedonthetdistributionarelongerthanthecorrespondingintervalsbasedonthestandardnormaldistribution.例4.3试计算例4.1中该地成年男子红细胞总体均数的95%可信区间。本例属于大样本,可采用正态近似的方法计算可信区间。因为,则95%可信区间为:下限:上限:模拟实验模拟抽样成年男子红细胞数。设定:产生100个随机样本,分别计算其95%的可信区间,结果用图示的方法表示。从图可以看出:绝大多数可信区间包含总体参数,只有6个可信区间没有包含总体参数(用星号标记)。
图4-2模拟抽样成年男子红细胞数100次的95%可信区间示意图
******三、可信区间的确切含义如果能够进行重复抽样试验,平均有1-α(如95%)的可信区间包含了总体参数,而不是总体参数落在该范围的可能性是1-α在实际工作中,只能根据一次试验结果估计可信区间,就认为该区间包含了总体均数μ。根据小概率事件不太可能在一次试验中发生的原理,该结论错误的概率为0.05单侧可信区间单侧可信区间与双侧可信区间的计算公式基本相同,只需将公式中的双侧界值换成单侧界值,且只取下限或上限即可tα/2,υtα,υt0.05/2,υt0.05,υ单侧可信区间的估计例如:一般病人接受治疗后可以使舒张压下降10mmHg,现有100人接受了一种新的疗法,平均降压12.7mmHg,血压治疗前后变化的标准差为5.6mmHg,能否说明新疗法优于标准疗法?(α=0.05)新药降压的95%可信区间为:>=11.8,即95%的把握认为新药平均降压至少为11.8mmHg,优于标准疗法两总体均数差值的区间估计或其中两样本均数之差的标准误两样本的合并方差n1,n2均大于50时例评价复方缬沙坦胶囊对照治疗轻中度高血压的有效性,将102例患者随机分为两组,其中试验组和对照组分别为54例和48例,经6周治疗后测量收缩压,试验组平均下降了15.77mmHg,标准差为13.17mmHg;对照组平均下降了9.53mmHg,标准差为13.55mmHg。试估计两组收缩压平均下降差值的95%可信区间。95%CI:(-2.65,7.85mmHg)四、总体率的估计点估计区间估计
查表法(小样本)
实例计算为了解某药的疗效,对100名患者治疗的结果进行调查,结果为80人有效,有效率为80%。则样本率的抽样误差为:
样本率对于大量重复随机抽样而言,样本率p围绕着总体率π波动,当样本量n充分大时P的分布就近似于均数为π,标准差为的正态分布当总体率π=0.5时,样本率p的分布为对称分布当样本量n为定值时,总体率π越接近于0.5,样本率p近似正态分布的程度就越好大样本正态近似法总体率的区间估计查表法:样本较小,如n≤50,且当p非常接近0或100%时,可通过查附表6来直接确定总体概率π的95%或99%可信区间例7-6某疗法治疗某病28人,10人有效,估计该疗法有效率的95%可信区间。例7-7某疗法治疗某病10人,7人有效,求该疗法有效率的95%可信区间。总体率的区间估计例6-8为了解某医院剖腹产情况,在该医院随机抽查了106人,其中施行剖腹产者62人,试估计该医院剖腹产率。P=62/106=0.585下限:0.585-1.96×0.048=49.1%上限:0.585+1.96×0.048=67.9%该医院的总体剖腹产率的95%的可信区间为(49.1%,67.9%)两总体率差值的区间估计设两总体率分别为p1,p2,当n1,n2均较大,且p1,
1-p1,及p2,1-p2均不太小,如n1p1,n1(1-p1),n2p2,n2(1-p2)均大于5时,可采用正态近似法对两总体率差值进行可信区间估计,公式为:X1,X2为两组中发生例数如何判断可信区间估计的优劣可信度1-α,即区间包含总体均数的理论概率大小,愈接受于1越好,如99%的可信度比95%的可信度好区间的宽度:对双侧可信区间而言,区间愈窄愈好当样本含量为定值时,两者互相矛盾
第三节假设检验的意义和步骤
(HypothesisTest)
统计推断的另一个重要内容,目的是通过样本数据比较总体参数之间有无差别。
一、假设检验的基本思想首先对所需要比较的总体提出一个无差别的假设,然后通过样本数据去推断是否拒绝这一假设。例4.4使用黑加仑油软胶囊治疗高脂血症,30名高脂血症患者治疗前后血清甘油三酯检测结果的差值为1.38±0.76(g/L),问治疗后血清甘油三酯是否有所改善?
样本治疗前后甘油三酯的变化(差值)问题归纳:样本疗效药物作用+机遇对上面问题可以作如下考虑:
问题:究竟多大能够下“有效”的结论?
假定治疗前后血清甘油三酯检测结果的差值服从正态分布,若则服从t分布。
根据t
分布能够计算出有如此大差异的概率P,如果P值很小,即计算出的t值超出了给定的界限(说明H0为真时获得现有样本的概率很小),则倾向于拒绝H0,认为治疗前后有差别。图4-3
利用t分布进行假设检验原理示意图
假设检验的实质是判断观察到的“差别”是由抽样误差引起还是总体上的不同目的是评价两种不同处理引起效应不同的证据有多强证据的强度用概率P来度量和表示二、假设检验的基本步骤1.建立假设和确定检验水准无效假设H0(nullhypothesis)指需要检验的假设,备择假设H1(alternativehypothesis)指在H0成立证据不足的情况下而被接受的假设。例如建立治疗前后血清甘油三酯疗效的无效假设和备择假设分别为
备择假设双侧和单侧的选择
需根据研究目的和专业知识而定。
如治疗后血清甘油三酯下降的假设可表示为
一般情况下,双侧检验更为稳妥,因为对相同的样本,双侧检验得出有显著性差别的结论,单侧检验也一定是显著的。
检验水准检验水准,也称显著性水平(significantlevel),是预先规定的拒绝域的概率值实际中一般取2.选择检验方法和计算检验统计量
根据资料类型、研究设计方案和统计推断的目的,选择适当的检验方法,不同检验方法各有其相应的检验统计量及计算公式。许多假设检验方法是以检验统计量来命名的,如t检验、u检验、F检验和检验等。
3.确定P值并做出统计推断结论查表得到检验用的临界值,然后将算得的统计量与拒绝域的临界值作比较,确定P值。如对双侧t检验,则,按检验水准
拒绝H0。不拒绝H0不等于支持H0成立,仅表示现在样本信息不足以拒绝H0.P>0.05称为“差异无显著性”,0.01<P≤0.05称为“差异有显著性”,P≤0.01表示“差异非常显著”或“极显著”P值的含义P值是假设检验下结论的主要依据,其含义是指在原假设成立的条件下,观察到的样本差别是由于机遇所致的概率。因此P值越小越有理由拒绝无效假设,认为总体之间有差别的统计学证据越充分。Theprobabi
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 汽车覆盖件DFM设计方法:理论、技术与实践的深度剖析
- 汽车尾气净化关键:NOx传感器电化学泵功能单元设计与制备工艺解析
- 商品房过户配合义务补充协议
- 大气恶臭物质检测技师考试试卷及答案
- 橱窗陈列设计工程师考试试卷及答案
- 产品结构设计技师考试试卷及答案
- 湖南省、广西壮族自治区天一大联考2026年高三年级4月联考语文试卷
- 网架施工监理实施细则
- 2026年度“安康杯”火灾逃生知识竞赛试题(附答案)
- 2026年志愿服务管理考试真题及答案
- 2026年南阳工艺美术职业学院单招职业倾向性测试必刷测试卷及答案1套
- 杭州研学旅行活动方案
- 2025年工商银行信息科技岗笔试题及答案广东地区
- 中交集团测评试题及答案
- 云南体彩考试题目及答案
- 电吉他设计基础知识培训课件
- 搅拌摩擦焊基础知识培训课件
- 学堂在线 中国民俗文化赏析 章节测试答案
- 人民调解法法制课件
- 集成电路科学与工程导论 第2版 课件 第二章 集成电路关键材料
- 残疾儿童康复救助政策
评论
0/150
提交评论