版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
影像、法医、生物麻醉等)医学生(5年制、7年制、8年制等)必修课。WilliamOslerMedicineisascienceofuncertaintyandanartofprobability。在医学科研中,具有重要性观察性研究(observationalstudy)、实验性研究(experimentalstudy)。横断面研究(cross-sectionalstudy)、病例对照研究(case-controlstudy)、队列研究(cohort实验性研究分为:动物实验(animalexperiment)、临床试验(clinicaltrial)、社区干预试验(communityinterventiontrial)。统计分析(statisticalysis):统计描述(statisticaldescription);统计推断(statisticalinference)20072007300samplesize)数据或资料(data):是由具有若干变量值的观测单位所组成的。概率(probability,P不确定的,称为随机事件(randomevent),简称事件。01小概率事件(smallprobabilityevent):当某事件发生的概率小于或等于0.05时,称为小定量资料的统计描述(tative频数分布表(frequencytable)将组别和相应的频数列表---频数表。2.12005102完成次数频率累计频数2333745678491--连续型定量变量的频数20051209(L),求全距(range)/极差:R确定各组段的上限(upperlimit)(lower2.220051209(L)组段频率累计频数5557644--频数分布图:直方图(连续变量2.1?20051209集中趋势(centraltendency):指一组数据向某一个位置或集中的倾向正偏态(positiveskewness):负偏态(negativeskewness):图2.22004年我国麻疹患者的分图2.3某市219名患者术后康复期生存质量评分的分均数(mean):算术均数(arithmeticmean)的简称。2.21209法(weightmethod适用于单峰对称分布资料,特别是正态分布或近似正态分布的资料。易受值影响,几何均数(geometricmean):布,试求其平均密度。2.0不能取对数数据中若有0,可将观察值加常数k, x+k>0,计算结果再还原即-k3.观察值若同时有正、负值,可将观察值加常数k,使x+k>0,计算结果再还原,即中位数(median)M直接法:可用于各种分布的资料,在正态分布资料位数等于均数;在对数正态分布资料中不受值的影响,主要用于不对称分布类型的资料、两端无确切值或分布不明确的资某医学院用自编生存质量量表测得三组同、同中年的躯体功能维度得分,889111256818甲组R=12-8=4(分)R=15-5=10(R=19-1=18(百分位数(percentile,Px)xx%Px,有(100-x)%Px。P50=nx%=INT(nx%)时nx%>INT(nx%)INT(nx%):nx%222333333344444444444444445555555555555555555555555555555556666666666666666666666667777777777777788889n=102,102X80%=81.6,nx%>例2.12?用表2.4(见下)的资料求219名患者术后康复期生存质量评分的P25P75表2.4219名患者康复期生存质量评222437(inter-quartileP25,QL;P75,QU。四分位数间距=QU-QL例2.13求219名患者术后康复期生存质量评分的四分位数间距。(n-l)度(degreeof (standard2.152.21209三、变异系数(coefficientof例2.17某年某市城区120名5岁身高均数为110.10cm,标准差为5.90cm;体重均数17.71kg1.44kg,比较身高与体重的离散程度。可见,该市城区5岁体重的变异大于身高的变异第四节正态分布及其应用(一)连续型随量及其概率分随量X取各种值的概率的规律称为概率分布规律,简称分布正态分布(normaldistribution)是一种重要的连续型随量的分布类型(二)正态分布的图若变量X的频率曲 近数学上的正态分布曲线,则称该变量服从正态分布(三)正态分布的特正态分布有两个参数,即位置参 和形态参数。若固定,改变值,曲线沿着轴平行移动,其形态不变。若固定、越小,曲线越陡峭;反之曲线越低平,但中心在图2.5不同 的正态分布示意通常用记 ,表示均数为、标准差 的正态分布9X1.672L0.298LX~N(1.672,0.2982)1②以直线x 为对称轴 与 范围内曲线下的面积相等,各占 )内的面积为95.00%,区间( 的面积为99.00%。2.6正态曲线下面积的分布规律若X服从正态分布 分布N(0,1),称为标准正态分布(standardnormaldistribution)或Z分布。第四节正态分布及其应用服从正态分布(同同正常儿童的身高同健康成人的红细胞数)或对数正态分例2.21?已知120名9岁男孩的肺活量 =1.672L,S=0.298L,欲估计该市肺活量介于1.200~1.500L范围内的9岁男孩的比例。查附表2标准正态分布曲线下的面积 值得1.200~1.500L922.39%。(二)制定医学参考值范围(medicalreferencerange)包括绝大多数正常人的形态、功能和代谢产物等各种生理及生化指标观察值的波动范测定方法应、准采用公认的或机构的标准方法培训操作;分析仪器的灵敏度应较高;新仪器、新方法须经校正和验证、,样品、储藏和分析中要严格防止污染内和间通过测定已知浓度的、,RBC:分和成人、儿童制定参考值范围过高或过低均属异常(白细胞计数)仅过高为异常(血铅)—单侧参考值范围(上限);仅过低为异常(肺活量)(下限)正常人和患者的数据分布有交叉,若减少假率,假阳性率增加,二者应兼顾。用于确诊,旨在减少假阳性,应选99%;用于初筛,旨在减少假,可选90%图2.8正常人与患者观察值分布示意2.5参考值范围的制定正态分布 百分位数参考值范围
单 单只有下 只有上 只有下限只有上 P2.5-P97.5 P0.5-P99.5 例2.22某地正常成年男子200人的红细胞数95%参考值范围为:上限9554.52×1012/L~56.00×1012/L。2.23?20051209=1.672L,S=0.298L995%参考值范围。995%l.183L例2.24抽样测定某城市125名55~60岁组健康居民的低密度脂蛋白(LDL-C)含量(mmol/L),如表4.6所示,试制定该市55~60岁组健康居民的LDL-C的95%95%参考值范围:该市55~60岁组健康居民的LDL-C的95%参考值范围为1.49~4.58mmol/L。表2.6某市125名55~60岁健康居民LDL-C(mmol/L)频数分布累计频率55274542t检验、F检验及相关回归分析等要求分析的变量服从正态分布或近似正态分布。比例基数K:选100%、1000‰或100000/10万等,主要根据用法或使计算结果保史,吸烟的肺癌患者有166例,而同时期同段的1855名非肺癌患者中,吸烟的有速率(rate):例3.2在一项随访研究中,对125人追踪随访了2年,结果有2人,则用以说明事物各组成部分所占的3.320033.1构成比1100%②事物各组成部分之间此消彼长在构成中若比例增加则女性比例减少。数、相对度、比。分子和分母可以是绝对数、相对数或平均数。例3.4为了解新生儿的锌营养状况,分别测量某医院足月儿及早产儿的脐血锌含量,结果显示,足月儿及早产儿的脐血锌含量的均数分别为1.85mg/L和1.41mg/L,则该医院足月儿与早产儿的脐血锌含量之比为1.85/1.41=1.31,即该医院足月儿脐血1.31若用某种疗疗2例患者,1例有效,则有效率是50%;如果2例都有效,则有效率构成比说明事物各组成部分所占的,不能说明某现象发生的频率或强度大小。表3.3门诊慢性支气管炎患者的构成组患者构成比 表3.5两种疗疗某病的病死新疗 一般疗治疗人数人数病死率(%)治疗人数人数病死率普通 重 合 五、样本率或样本构成比的比较应设检抽样误差(samplingerror)1:m=4.5,s=0.25、10、20、50,各样本10004n=201004.14.2100111112335778833554.60-114.24.3二、均数的标准误 样本均数的标准差称为均数的标准误(standarderrorofmean,SEM),说明各样本均数围绕总体均数的离散程度,可样本均数的抽样误差大小。 随机抽取某地正常成年200名,测得其胆固醇的均数为3.64mmo1/L,标准差1.20mmol/L,试估计其抽样误差。tt分布的概 转化为标准正态布(Z分布)N(0,1)。正态变 服从正态分 ,Z变换 化为标准正态分布(Z分布)N(0,1)。实际工作中, 未知,用 代替,则( 再服从标准正态分布,而服从t分布(t-distribution),即:n:度(degreeoffreedom)度:指能取值的变量个数。X+Y+Z=15,n=2。n=n-kn t时,度n=n-1t分布主要用于总体均数的区间估计及t检验t分布最早由英计学家W.S.Gosset(K.Pearson的学生)于1908年用笔名Studentt分布(Student'st-distribution)t分布的特t分布只有一个参数:度νt分布是与度有关的一簇曲线图6.4度为1、5、∞时的t分布曲t以t=0为中心左右对称的单峰分布度的增大,t分布逐渐近标准正态分布;当度趋于∞时,t分布就是标准正态分t当度确定后,t分布曲线下,双侧尾部的面积或单侧尾部的面积为指定概率a时,横t界值是多少?tP439横标目:度;纵标目:概率(P或a)单侧/尾概率(one-tailedprobability):一侧尾部面积;双侧/尾概率(two-tailed~):两侧尾部面积之和。t界值(t-criticalvalue):表中数字。t界值:ta,n;与双侧概率对应的t界值:ta/2,nt分布以0为中心左右对称,表中只列出正t值,查表时,不管t值正负,只用绝对值。 t界值表可见:①在相同度时,∣t∣值越大,概率P越小②在相同∣t∣值时,同一度的双尾概率P为单尾概率P的两倍。t0.10/2,10t0.05,10=1.812参数估计(parameterestimation):指用样本统计量(statistic)来估计总体参数(parameter)。能反映抽样误差的影响,无法评价这种估计的程度20067ms1507=123.8cm,S=4.7cm123.8cmm7123.8cm;4.7cms的点估计值。区间估计(intervalestimation):是按一定的概率(1-a)个范围称为参数的置信区间(confidenceinterval,CI)。1-a)称为置信度(confidencelevel9599%,如果没有特别95%。置信区间(CL,CU(confidencelimit,CL置信下限(lowerconfidencelimit):CL置信上限(upperconfidencestm1-aν=n- n>100,t分布近标准正态分布,总体均数的双侧(1-a)置信区6.32572/min,标准差为8次/min.试估计该地成年脉率总体均数的95%置信区间.本例,n=25,a0.05,ν=25-1=24tt0.05/2,可推断该地成年脉率总体均数的95%置信区间为(68.7,75.3)次/min。6.420040 S=0.72mmol/L,试估计该地40岁以上正常人群空腹血糖值的总体均数本例 a0.05,从正态总体中重复100次抽样每次样本含量均为n,每个样本均按 计算95%而有5个置信区间未包含总体均数(估计错误),即犯错误的概率是5%。第一:准确度1精确度/精密度:反映为置信区间的宽度CL~CU。置信区间的宽度取决 a,tZ),精确度会下降,势必降低置信区间的实用价值。不能简单认为99%95%的置信区间。实际工作中为了较好地兼顾准确度和精确度,一般95%置信区间。区间估计属于统计推断(statisticalinference)的内容之一,假设检验(hypothesis7.1AB7.1。7.1ABB因此,这里不能立刻得出A治疗方法优于B治疗方法的结论。A组与B组有效率之差为12.7%,其产生的原因可能有两种:12.7%的有效率之差究竟是偶然性造成的,还是体现了两种疗法总体有效率的差异假设检验(hypothesistest)更的情况(大于12.7%)的可能性有多大?如果能够算出这个可能性(即概率P值)的大小,就可以下结论了在本例中,如果算出的概率P值小于等于5%,就可以“A疗法和B疗法的总体有效率如果P值大于5%,则还不能“A疗法和B疗法的总体有效率相等”的假设,目前尚不AB假设检验(HypothesisTest)患者进行4周的治疗,其疗效。评价疗效的一个指标是锻炼持续时间的增加量(min)。3min?,抽样误差造 零假设(nullhypothesis)H0,表示目前的差异由抽样误差备择假设(alternativehypothesis)H1H0:μ=μ03min;包括:μ>μ0μ<μ0Figure1.Definingareasofacceptanceandrejectioninhypothesistestingα=A:Two-tailedornondirectional.B:One-tailedordirectionallowertailC:One-tailedordirectionalupper如何确定概率PXN(μ,σ2),总体标准差σ在零假设成立的情况下,μ=μ0=3min,则基于t分布的知识,可以得查t界值表,度近似取50,可得到P<0.0013min”。1min值。若P小于等于检验水准(如%),结就是零假设,认为总体参数之间存在异。若P大于检验水准,就不能零假设,尚不能认为总体参数之间存在差异。确定P值,作出统计推140g/L60年进行检查,测得血红蛋白均数为155g/L,标准差为24g/L。可否认为高原地区成年居民的血红蛋白平均水平不同于一般正常成年男子H0:μ=μ0高原地区成年居民血红蛋白的总体均数等于140H1:μ≠μ0高原地区成年居民血红蛋白的总体均数不等于140α=0.05(levelofsignificance,levelofatest):事先规定的一个小的概率0.050.01。确定P值,作出统计推查t界值表,度近似取60,可得到双侧P<0.001H0,接受H1,认为高原地区成年的血红蛋白平均水平不等于140g/L。当P≤α时,H0,接受H1;当P>α时,不H0进行假设检验时,无论是零假设,还是不零假设,都有可能犯错误。Ⅰ型错误(typeIerror):指了实际上正确的零假设,这类弃真的错误如果将H0看作“无病”,H1看作“有病”,则Ⅰ型错误就是“误诊推断,如果P值小于等于α,则H0,推断差异具有统计学意义,此时犯Ⅰ型错误的概Ⅱ型错误(typeII指不实际上不成立的零假设,这类存伪的错误如果将H0看作事件,H1看作阳性事件,则Ⅱ型错误可看成假。如果将H0看作“无病”,H1看作“有病”,则Ⅱ型错误就是“漏诊”。当样本量确定时,α越小,β越大;反之,α越大,β越小两型错误示意图(以单侧t检验为例真实情 H0 不H0正Ⅰ型错误H0不正Ⅱ型错误poweroftest)H1:μ≠μ0使用假设检验方法能够发现这种差异的能力,记为(1-β)。H1的内容直接反映了检验的单双侧H1只是μ>μ0μ<μ0,则此检验为单侧检验(one-sidedtest),它不仅考虑有无差异,1μμ0(two-siddest)tt检验要求:两组资料相应的总体分别P值的含义前样本的越倾向于H0,当P值小于等于事先规定的检验水准时,就H0。P值的大小不仅与总体参数间的差别有关,而且与抽样误差等有关。不能认为P值越小,总体参数间的差别越大。P值越小,说明实际观测到的差异与H0之间不一致的程度就越大,犯I型错误;不H0,可能犯Ⅱ型错误。按α=0.05H0的情形。还有可能出现对同一份资料,双侧检验不H0而单侧检验H0的情况 P和α的大小接近时,下结论尤其要慎重统计学的结论:是否H0,差异是否有统计学意义4就同一份资料若假设检验的结果是P<αH0接受H1则1α)的置信间必0P利用前述资料,计算高原地区成年血红蛋白的总体均数的95%置信区间H0:μ=μ0=140g/L不在此区间内这与按照α=0.05水准H0的推断结论等价。说明置信区间可以回答假设检验的问题。置信区间能提供假设检验没有提供的信息置信区间的结果不仅说原地区成年男子的血红蛋白的平均水平不等于140g/L,而且高原地区成年男子的血红蛋白的平均水平为148.8~161.2g/L。图中的(d)与(e)均无统计学意义,但(d),(e):因此,学术期刊编辑建议在报告假设检验结论的同时,应该报告相应的区间估计结果:16t检验(ttest/Student’sttt检验)(onesamplet3.36kg403.27kg,0.44kg,问该地农村新生儿出生体重是否与该地新生儿平均出(1)建立检验假设,确定检验水准ν=n-1=40-(3)P根据度39和t=-1.294的绝对值查t界值表,得0.2<P<0.4,则按α=0.05的检验水准,不H0,差别无统计学意义,尚不能认为该地农村新生儿体重与该地新生儿平均出t检验)(pairedsamplest①配对的两个受试对象分别接受两种不同处理之后的数据,如把同、相近且相同配对t检验目的:推断两种处理(或方法)的结果有无差别对24名儿童接种卡介苗,按同、同配成12对,每对中的2名儿童分别接种两种结核菌素,一种为标准品,另一种为新制品,分别注射在儿童的前臂,72h1,问儿童皮肤对两种不同结核菌素的反应性有无差别?-123456789(1)H0:μd=0,儿童皮肤对不同结核菌素的反应性无差别H1:μd≠0,儿童皮肤对不同结核菌素的反应性有差别(3)P查t界值表,得t0.001/2,11=4.437,而4.520>4.437, P<0.001。按α=0.05水准H0,接受H1,差异具有统计学意义,可认为两种不同结核菌素对儿童皮肤反应性有差tt检验)(independentsamplesttest)(假定两样本所代表的总体分别服从正态分布N(μ1,s12),N(μ2,s22)若两总体方差相某医生研究白介素-6(IL-6)与银屑病的关系,收集了12例处于进行期的银屑病患者及12例正常人的标本进行IL-6检测,得到表2结果,问银屑病患者与正常人的IL-6表2银屑病组与正常对照组的IL-(1)?H0:μ1=μ2,银屑病患者与正常人的IL-6均数相等H1:μ1≠μ2,银屑病患者与正常人的IL-6均数不相等(3)P认为银屑病患者与正常人的IL-6均数不同,银屑病患者的IL-6较高。对大样本两组均数的Z检验(两组样本含量均大于50),χ2(chi-squareχ2检验是英计学家K.Pearson于1900年,以χ2分布(chi-squaredistribution)和拟合优度检验(goodness-of-fittest)为理论依据,是一种应用范围很广独立样本列联表资料的χ2例7.1某研究者欲比较甲、乙两药治疗小儿上消化道的效果,将90名患儿随机分为两儿上消化道的有效率是否有差别?表7.1甲、乙两药治疗小儿上消化道的效果甲药2718 乙药405 合计6723 上消化道的有效率有无差别的结论。χ27.212n(fourfoldtable)例7.1的效假设0π1=2两种药物治疗小儿上消化道的有效率相同两样本0π=π274.44%称为理论频数(theoreticalfrequecy),T;(actualfrequency)AH074.444574.44=33.5(1(rw)1(column)格子的理论频数为:越大,χ2就越大,相应的P值也就越小,当P≤α,则AT相差较大,有理由认为无效假设不成立,继而H0,作出统计推断。 的大小有关外,还与格子数(度)有关。n=k-1-s=(R-1)(C-3变动了,故能取值的格子数为1。按此Pearsonχ2公式算得的χ2值近似服从度为n的χ2分布χ2分布是一种连续型随量的概率分布。设有n个相互独立的标准正态分布随Z1,Z2,...,ZV,则Z12+Z22+...+ZV2的分布称为服从度为ν的χ2分布 Z12图7.13种度对应的χ2分布的概率密度曲时,χ2分布近正态分布。χ2α时的临界值记为χ2ανχ2χ2H0:π1=π2,即两种药物治疗小儿上消化道的有效率相同H1:π1≠π2,即两种药物治疗小儿上消化道的有效率不同α=0.05计算χ2值和ν=确 P值,作出统计推查χ2界值表,得P<0.005,按α=0.05水准,H0,接受H1,差异有统计学意义,可以认为两种药物治疗小儿上消化道的有效率不同,乙药的有效率高于甲药。四格表公式7.1为改善χ2统计量分布的连续性,英计学家F.Yates提出连续性校正(correctionforcontinuityYates(Yates’Scorrection)。1的χ2当n≥40,且T≥5时,用Pearsonχ2公式或公式计算χ2值当n≥40,且有1≤T<5时,用校正公式计算校正的χ2值,或用四格表的确切概率法n<40T<1用四格表的确切概率法例7.2某研究欲比较甲、乙两药治疗下呼吸道的疗效,将66例下呼吸道者随机等7.33233问两药治疗下呼吸道的有效率有无差异?表7.3两种药物治疗下呼吸道的效甲8乙2 故应计算校正的χ2值。查χ2界值表,得P>0.05,按α=0.05水准,不H0,差异无统计学意义,尚不能认为两种药物治疗下呼吸道的有效率不同。检验R×C列联表资料的χ2R×C列联表的形式2×2 R×2列联表,即多个样本率的比较2×C或R×Cn=k-1-s=(R-1)(C-例7.3某研究者欲比较A、B、C三种方案治疗轻、中度高血压的疗效,将在50~70岁的240例轻、中度高血压患者随机等分为3组,分别采用三种方案治疗。一个疗程后观察疗7.4。问三种方案治疗轻、中度高血压的有效率有无差别?7.4A6BC9H0:π1=π2=π3H1ν=(3-1)(2-P<0.005,按a=0.05水准,H0,接受H1,差异有统计学意义,可以认为三种方案治疗7.4的甲、乙两个国家级贫困县(其中甲县2006年已开展新型农村合作医疗;乙县2006年尚未开展)分别进行抽样,得到2006年应住院者未住院原因,见表7.5。问甲、乙两县应住经济甲乙:甲、乙两县应住院者未住院原因的总体构成比不同 =0.05水准,不 R×C列联 检验注意事计 值的大小与频数大小有关1 组可以合并,但不同血型就不能合并。Ridit甲乙 3 配对2×2列联表资料的 表7.8配对四格表形式甲乙+-+ab-cdn 配对设计四格表 检验公McNemarMcNemar’stestb+c40ad反映的是甲乙两种属性一致的情况由于ad两个格子差异因此当a、d比较、c比较小时,若得到差异有统计学意义,需结合两样本率差异的大小得出例7.6某研究者欲比较心电图和生化测定低钾血症的价值,分别采用两种方法对79名7.9。问两种方法的检测结果是否不同?表7.9两种方法低钾血症的结
+-459b+c=29<P<0.005,按 水准 ,接受,差异有统计学意义,可以认为两种方秩和检假设检验分为:参数检验(parametrictest)非参数检验 (nonparametrictest)t检验和方差分析均要求样本来自正态总体,属于参数检验。非参数检验不以特定的总体分布为前提,也不对总体参数作推断,故也称为任意分布检(distribution-freetest一端或两端,甚至分布未知,都能适用。样本中按大小所占的位次。的小样本数据,非参数检验在剔除这些数据前后所得结论显示出了较好的稳健性。非参数检验方法很多,有秩和检验(ranksumtest)、符号检验、游程检验、等级相关分析秩和检验在非参数检验中占有重要地位且检验功效相对较Wilcoxon符号秩和检1945年WilcoxonWilcoxon符号秩和检验(Wilcoxonsigned-ranktest),亦称符一、配对设计的两样本配对设计资料主要是对差值进行分通过检验配对样本的差值是否来自中位数为0即推断两种处理的效应是否不同。例8.1某研究用甲、乙两种方法对某地方性砷地区水源中砷含量(mg/L)进定,测10处,测量值如表8.1的(2)、(3)栏。问两种方法的测定结果有无差别?本例为定量数据配对设计的小样本资料,其配对差值经正态性检验得077=.01即差值从正态分布,故不宜选用配对t检验,而应使用Wilcoxon符号秩和检验。8.1?甲、乙两种方法测定某地区10中砷含量的结果
di正差值秩次负差值秩次 (2)(3)(4)=(2)- 1-—22-—33—4-—5——68—71—8-—49-—97—合 21.5(T+)23.5(T-建立检验假设,确定检验水H0:两种方法测定结果差值的总体中位数等于H1:两种方法测量结果差值的总体中位数不等于计算检验统计量T值(秩和求差值编秩:依差值的绝对值由小到差值为0次编秩或求平均秩次,并冠以原差值的正、负号。5定点不参与编秩,有效对子数为9。差0.0200.020次5、6,符号求正秩和(T+)、负秩和(TT++Tn(n+1)/2,T+大,T-小;T+小,T-大本例:T+=21.5,T-=23.5,TT9(9+1)/245,秩和计算无误确定P查表法n≤50n和TT界值表(配对比较的符号正态近似法:随着n的增大,T分布逐渐近均数为(+1)/4,方差为n(+1)(2+1)/24的正态分布。当>50时,近似程度较满意,用本法(见专业书籍)。查表法:n所在的行,用所得T值与相邻一栏的界值做比较,若T在界值内,确定P值大于相应的概率T等于界值P值等于相应概率;若T在界值外,P值小于相应概率,右移一栏,再做比较,直至较好地估计出P值。由T界值表可知,按照 水准,当n≤5时,配对符号秩和检验不能得出双侧概率,故n必须大于5。本例n=9,T=21.5或T=23.5,查表,得双侧P>0.10。按照 ?水准不H0,Wilcoxon配对符号秩和检验的基本思想在配对样本中,由于随机误差的存在,其对差值的影响不可避免。假定两种处理的效应相0的正秩和与负秩和应相差不大,均接近(n+1)/4;当正负秩和相差悬殊,超出抽样误差可解释的范围时,则有理由怀疑该假设,从而0。二、单一样本与总体中位数比(定值)有无差别,常用于不满足单样本t检验应用条件的资料。例8.2某医生从其接诊的不明原因患者中随机抽取14例,测得其发铜含(g/g)见表8.2。已知该地健康人铜含量的中位数为11.2g/g。问患者发铜含表8.214名不明原因患者发铜含量(g/g)测定结------------9--8--7--6--5--4--21-3--101(T-8.2第(2)体中位数的差值,对差值做正态性检验得W=0.861,P=0.031,不满足单样本t检验条件,故选用Wilcoxon符号秩和检验。H0:差值的总体中位数等于0,即患者发铜含量与该地健康人群相同H1:差值的总体中位数小于0,即患者发铜含量低于该地健康人群T+=4,T-=101,TT14(14+1)/2105,秩和计算无T=4查表,得单侧P<0.01。按照 水准,H0,接受H1,差异有统计学意义,可以认为患者发铜含量低于该地健康人群。成组设计两样本比较的秩和检Wilcoxon和检验(Wilcoxonranksumtest),目的是推断连续型变量资料或有序变量资一、原始数据(连续性变量资料)的两样本比例8.3某地职业病防治欲比较使用二巯基丙磺酸钠与二巯基丁二酸钠的驱效果。将例患者随机分配到两组,分别测定并计算出两组驱的排比值,并将结果列于8.3。试问两药驱效果有无差别?表8.3两种驱药物排效果比较丁二酸 丙磺酸排比排比3845679n1=10H0:两种药物排比值的总体分布位置相H1:两种药物排比值的总体分布位置不将两组数据由小到大编秩。编秩时,遇相同数值在同一组内,可顺次编秩;当相同值出现在不同组时,则必须求平均秩次++若n1≠n2,则T=T1;若n1=n2T=T1T=T2。本例n1≠n2,故T=T1=75.5查表,得双侧P<0.01。按照 水准,H0,接受H1,差异有统计学意义,可认为丙磺酸钠驱效果好于丁二酸钠。(前者平均秩次177.5/12=14.79较高)二、等级资料的两样本例8.4某医生欲比较中西医疗法与西医疗疗急性肾盂肾炎的临床疗效将患者随机分为两组分别给予中西医疗法或西医疗疗并观察疗效问两种疗法疗效是否有差别?表8.4两种疗疗急性肾盂肾炎的疗效患者秩疗疗合秩次范平均秩中西疗西医疗痊显进无48合——建立检验假设,确定检验水:两种疗疗急性肾盂肾炎的疗效总体分布位置相:两种疗疗急性肾盂肾炎的疗效总体分布位置不=计算检验统计量T编秩:将两组数据按等级顺序由小到大编秩计算各等级的合计、确定各等级秩次范围、计算各等级的平均秩次如,“痊愈”共54人,秩次范围:1~54,平均秩次:(1+54)/2=27.5,余仿此求各组秩和(T1,T2)以各疗效等级的平均秩次分别与各等级例数相乘,再求和得T1=6060,T2=6820确定检验统计量Tn168较小n),n292,取检验统计量T=6060确定P查表当n1≤10且n2n1≤10时T界值表(两样本比较的秩和检验用找到n1n2n1相交处对应的4行界值,将求得的T值与T界值表中逐若T值在界值范围内,P值大于相应概率;若T值等于界值,P值等于相应概率;若T值在界值范围外,P值小于相应概率,下移一行,再做比较,直至估计出P值。正态近似法(Z检验当n1>10或n2-n1>10时,超出T界值表(两样本比较的秩和检验用)的可查范围,根据中心极限定理,这时T1的分布已接近均数为,方差为正态分布,故可由公式(8.1Z值当相持(tie,指排序时出现相同秩次的现象)出现较258.1)计算的Z值偏小,可改用公式(8.2)进行校正:第j种相持的秩次个本例n168>10超出了T界值表(两样本比较的秩和检验用)范围Z检验。由于相持较多,每个等级的人数为相同秩次的个数tj,故需按式(8.1)和式(8.2)计算Zc。查t界值表 )得0.02<P<0.05,按=0.05水准 ,接受,差有统计学意义,可认为两种疗法疗效分布不同。中西医疗法组平均秩6820/92=74.1,西医疗法组平均秩次为6060/68=89.1(越小越好),可以认为中西医疗疗急性肾盂肾炎双变量关联性分双变量关联性:指两个随量之间在数量上存在某种协同变化的关系随着凝血酶的升高,凝血时间降低。关联性只反映变量间数量上的关系或关联,不表示专业上的因果关系双变量关联性分析用于:判断双变量间关联性是否存在?描述关联的方向与密切程度直线相关的概念与性9.1某医师测量15名正常成年人的体重(kgCT双肾体积(mL)大小,数据如表表9.115名正常成年重和双肾体积的测量值体重双肾体积体重双肾体积192345678图9.115名正常成年重和双肾体积的散点初步判断两变量间关系最直观有效的方法就是在平面直角坐标系中绘图,其中一个变量用x表示,另一变量用y表示,在平面直角坐标系中可绘制这些实测点的分布情况,称为散点图 (scatterplot)。统计学上,两个随量之间呈直线趋势的关系,称为直线相关(linearcorrelation)或简单相关(simplecorrelation)。9.2常见的散点直线相关的 正相关(positivecorrelation)两变量同时增大或减小,变化趋势同向。 负相关(negativecorrelation)其中一个变量随着另一个变量的增大而减小,变化趋势相反。完全相关:全部数据点恰好散布在一条直线上 无相关或零相关(zerocorrelation)在非直线相关。直线相关系数(linearcorrelationcoefficient)或PearsonPearsonproductmomentcoefficient):是定量描述两个变量间直线关系的方向和密切程度的指正相关0<r<1 负相关-1<r<0 零相关r=09.2计算例9.1体重与双肾体积之间的样本相关系说明两变量间呈正相关,双肾体积随体重增加而增大。需进行假设检验,以推断总体上相关系数的假设检用样本计算出来的相关系数r是一个样本统计量,存在抽样误差,需要对总体相关系数是否为0设检验。假定随量x和y均服从正态分布,可用t检验和查表法进行推断t检验样本相关系数r的标 成立时,tr服从度为 的t分布。 ,查相关系数界值表, 越大,P值越小; 越小,P值越以上两种方若得 , ,可认为两变量间存在直线相关关系 ,则不 ,尚不能认为两变量间存在直线相关关系。例9.3例9.2中算得r=0.875,试检验该相关系数是否具有统计学意义 建立检验假设,确定检,即体重和双肾体积之间无直线相关关系,即体重和双肾体积之间有直线相关关系计算检确定P值,作出统查t界值表, , 水准,,接受,相关系数有统计学意义,可认为体重和双肾体积之间有直线相关关系。查表直接查相关系数界值表法一致,,结果t检直线相关分析的步骤绘制散点图:若两变量间有直计算样本相关系相关系数的假设检验(t检验和查表说明两个变量之间相伴随而呈线性变化的趋势和关联强度。不能用其中一个变量来一个变量的值。回归分析用内脂肪含量。第一一、直线回归的概直线回归(linearregression)、简单回归(simpleregression)用于研究两个连续型变因变量(dependentvariable)、反应变量(responsevariable):y是回归分析中,估测的随量;自变量(independentvariable)、解释变量(explanatoryvariable):x是回归分析中,y所依存的变量。例14.1某研究欲探讨腰围与腹腔内脂肪面积的关系对20名志愿受试者测量其腰围(cm),并采用磁成像法测量其腹腔内脂肪面积(cm2),结果如表14.1所示。试建立腹腔内脂肪面积(y)和腰围(x)的直线回归方程表14.120 志愿受试者腰围和腹腔内脂肪面积的测量面积面面积面积123456789
腹腔内脂
腰围
腹腔内脂14.1两变量直线回归关系散点回归直线上各点的纵坐标是当x取某一值时因变量y的平均估计值直线回归方程/直线回归模型:(linearregressionequation)a回归直线的截距/常数项,表示x0y的平均估计值b回归直线的斜率/回归回归系数(regression表示x改变一个单位时y的平均改变量b>0,表示回归直线从左下方右上方,即y随x增大而增大;b<0,表示回归直线从左上方右下方,即y随x增大而减小;b=0,表示回归直线平行于x轴,即y与x无线性依存关系。(一)回归方程估计的最小二乘求解、b值i与这条“理想”的回归直线的估计值最接近。最小二乘eastsquaremethod):指 建立直线回归方程的步14.1),若二者存在直线趋势,进行直线回归分由样本数据计算如计算回归系 b及截距在x的实测值范围内任取相距较远且易读数的两个x值代人方程得到两个 本例x分别取值79和88,得到 分别为70.340和89.335,连接点(79,70.340)和(88,第二直线回归的统计推一、总体回归系 的假设检总体回归方和是a和b所对应的总体参数; 为对应于各x值的y的总体均数,即总体条件均数; 当总体回归系数为00变量是否存在回归关系,还需对总体回归系数是否等于0进行统计推断。(一)方差分14.2因变量的离均差平方和分解示意例14.2试用方差分析对例14.1的样本回归方程设检验建立检验假设,确定 ,即腹腔内脂肪面积与腰围之间无直线回归关 ,即腹腔内脂肪面积与腰围之间有直线回归关计算检验确定P查F界值表(附表4), ,得P<0.01。按水准H0,回归方程有统计学意义,可以认为腹腔内脂肪面积与腰围之间有直线回归关系l4.2vFP1(二)t检样本回归系数b的标剩余标准差(residualstandarddeviation)是指扣除x对y的影响后,y对于回归直线的离散程度。例14.3试用t检验对例14.1资料的样本回归方程设检验 ,查t界值表(附表3),得P<0.001, 水H0,回归方程有统计学意义对同一资料作总体回归系 是否为0的假设检验,方差分析和t检验是一致的 二、决定系数(coefficientofR2取值在01间,无单位R2反映回归贡献的相对程度,即在因变量y的总变异中用y与x的回归关系所例14.12=0.581说明的腰围信息可以解释其腹腔内脂肪面积变异的58.1%还有剩余41.9%的信息需通过腰围以外的其他因素加以解释。第三散点呈直线趋 直线回归分析离群点(outlier):图中明显远离主体数据的观测点不能简单剔除离群点来提高拟合效果。认真核对原始数据、查清原因,剔除或采用线回归等方法。二、用残差图模型假设条观测值独立等。残差图(residualplot):回归模型的假设条件。各点残 14.4图14.4(a):较理想的残差图如果数据符合模型的假设条件,残差与回归值的散点应均匀分布在直线两侧,此数据可用于拟合直线回归方程。图14.4(b):某厂工人的工龄x与全血胆碱酯酶活性y进行直线回归分析得到的残差图。一个离群点,残差较大。由样品溶血过差导致,删除或改用直线回归图14.4(c):1~3岁儿童x与其锡克反应阳性率y经直线回归得到的残差图。残图14.4(d):女童x与舒张压y之间直线回归的残差图。残差呈喇叭口形状,说图14.4(e)线回归方法。反映自变量对因变量数量上影响大小的统计量是回归系数,而不是假设检验的P值。P值越小只能说明越有理由认为变量间的直线回归关系存在,而不能说明影响越大或关系直线回归用于时,适用范围不应超出样本中自变量的取值范围内插(interpolation):在正常范围内求得的值;外推(extrapolation):超过自变的外推。 资料要求:直线相关分析要求x、y服从双变量正态分布,二者无主次之分;直线回归分析要求在给定某个x值时y服从正态分布,y的均数随x变化而变化,而x是可以精确测量和严格控制的变量。应用:直线相关分析用于说明两变量间的相互关系,关系是的;直线回归分析用于说明两变量的数量依存关系,表明yx而变化。意义:相关系r说明具有直线关系的两变量间相互关系的方向与密切程度;回归系b表示x每改变一个单位所引起的y的平均改变量。计算公取值范单位:r没有单位,b有单位。计算出的b与r正负号一致。相关系数与回归系数的假设检验等价,即对于同一样本,tb=tr由于相关系数的假设检验可以方便地查表得到P值,所以可用相关系数的假设检验来回对于服从双变量正态分布的同一组资料,其相关系数r和回归系数b算用回归可以解释相决定系数R2=SS回/SS总,为相关系数的平方。反映回归贡献的相对程度,即在y的总变异中能用 y与x的回归关系解释的比例。当SS总固定时,SS回的大小决定了相关的密切程度。SS回越接SS总,则相关系数和决定系数都越1,说明引入回归效果越好。常用统计表与统计一、常用统计表(statisticaltable)(一)统计表的意义简洁、有条理地罗列数据和统计量,方便阅读、比较和计(二)重点突出:一张表只表达一个中心 层次清楚:标目的安排及分组符合逻辑,便于分析比较。主语为横标目,宾语为纵标目,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 地球一小时日倡议书
- 孝为先的演讲稿
- 孝道的演讲稿
- 家长代表发言稿
- 投递员工作总结(合集10篇)
- 腹腔镜下胆囊切除护理查房
- 2026年房地产经纪人考前冲刺卷
- 山东2026年消防工程师《消防安全技术综合能力》真题解析版
- 2026年农贸市场经营户食品安全知识培训计划
- 公司信用风险管理办法
- 化妆色彩教程课件
- 防台风安全专项培训
- 2024年中国垃圾填埋场治理行业投资分析、市场运行态势、未来前景预测报告
- 《预应力混凝土管桩基础技术规程》DB42@489-2008
- 带式运输机传动系统中的一级圆柱齿轮减速器
- (正式版)JB∕T 7348-2024 钢丝缠绕式冷等静压机
- QC/T 629-2021 汽车遮阳板-PDF解密
- 国家生物安全
- 射流泵采油-资料课件
- 机械租赁合同电子版
- 北京农业职业学院自主招生考试综合素质测试面试试题答题技巧汇总
评论
0/150
提交评论