中医药统计学与软件应用笔记重点_第1页
中医药统计学与软件应用笔记重点_第2页
中医药统计学与软件应用笔记重点_第3页
中医药统计学与软件应用笔记重点_第4页
中医药统计学与软件应用笔记重点_第5页
已阅读5页,还剩39页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中医药统计学与软件应用笔记重点绪论统计学家 C.R.劳先生在统计与真理怎样运用偶然性中指出:在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的基础上,所有的判断都是统计学。一、 统计学的概念、发展简史及主要内容1.统计学 :是以概率论和数理统计为基础,对研究对象的数据进行搜集、整理和分析,揭示事物总体特征和规律的方法论科学。2.中医统计学 :是以概率论和数理统计的原理和方法为基础,以中医理论与实践为主体,通过对数据的搜集、整理和分析,达到探讨中医理论与方法内在规律的目的。3.统计学的发展趋势:依赖数学。与计算机技术结合。与实质性学科、统计软件、现代信息相结合,所发挥的

2、功效日益增强。从描述事物现状、反映事物规律,向抽样推断、预测未来变化方向发展。4.统计学的主要内容研究设计:专业设计、统计学设计统计描述:统计指标、统计图表统计学的基本概念、原理和思维方法统计推断:参数估计、假设检验二、统计工作的基本步骤和特点1.统计工作的基本步骤(1)统计学设计(2)搜集资料:常规保存的记录;现场调查记录;实验 / 试验记录;医学文献 / 网络信息。3)整理资料:检查;审核;计算机检查;分组。4)分析资料2.统计学认识现象的特点1)数量性:( 2)群体性:( 3)具体性:(4)概率性:三、统计学中常用的概念1总体 (population) :是根据研究目的确定的同质观察单位

3、的集合。例 河北省河北省18 岁男性的身高和体重分布某性红地18 岁身高在170-175cm 男性的体重分布2005 年健康成年男细胞数有限总体:指总体限定于特定的空间、时间范围内有限个观察单位。无限总体:指没有空间和时间范围限制的总体。2样本 (sample) :从总体中随机抽取的有代表性的一部分观察单位的集合。样本的可靠性:指总体确定后,样本中的每一个观察单位确属预先规定的同质总体。样本的代表性:即样本能够充分反映总体的真实情况。3随机 (random) :即在抽样、分组、安排试验顺序时,让总体中每个受试者或观察单位都有同等的机会被抽中、被分配或被安排, 而不受研究者的主观意愿驱使。不能将

4、随机理解为随便。4事件 (event) :指事物发生某种情况或在调查、观察和实验中获得的某种结果。确定性事件是可预言在一定条件下必然发生的事件,发生的概率为1。0 1随机事件:指一定条件下可能发生也可能不发生的不确定性事件,发生的概率介于之间。模糊事件:事物本身的含义不确定的现象。5频率 (frequency) : 对于随机事件,在相同的条件下进行了n 次实验,事件发生的次数为,比值 /n 为频率,记为 fn(A);概率 (probability) : 描述某随机事件发生的可能性大小,统计符号为,0 1,记为 P(A)。当 时,频率 fn(A) 概率 P(A)。P 0.05 或 P 0.01小

5、概率事件:表示某事件发生的可能性很小,在医学研究中,习惯上把的事件称为小概率事件。6变异 (variation) :总体中各个体之间的差异性。同质是相对的, 研究对象只是在某一方面是性质相同的,同类的观察对象之间往往也存在着变异。变异是绝对的、客观存在的。7误差( error ):指测量值与真值之差。过失误差:也叫粗差。观测者粗心大意造成的误差。系统误差:由于仪器未校准、试剂未标定、观测标准未统一等固定原因造成的误差。精品文库测量误差:由事先难于预料的实验或观察条件的随机波动造成的误差。抽样误差:由抽样引起的样本指标(统计量)与总体指标(参数)的差别。8统计量 (statistical) :是

6、反映样本特征的统计指标。统计符号为小写的英文字母。如样本均数x 、样本标准差 s 、样本率 p 等。9参数 (parameter) :是描述总体特征的统计指标。统计符号为小写的希腊字母。如总体均数 、总体标准差 、总体率 等。10.统计资料的类型根据研究目的,对研究对象的某些特征进行观测,将这些观测指标或项目称为变量 。变量的具体数值(变量值 )构成了统计数据或统计资料 。统计资料分为两类:值变量 (numerical variable) :亦称定量资料。是指对每个观察单位用计量方法测得某项数值大小所获得的资料。特点为其变量值大多有度量衡单位,其具体取值通常是正实数(零、正整数和小数)。如身高

7、 1.75m、体重 68kg、血压 9.6kPa、血糖 6.8mmol/L 。分类变量 (categoricalvariable) :又称定性资料。指对每个观察单位按某一方面的特征、性质或等级分组计数而得到的资料。特点是变量值表现为互不相容的属性或类别,无度量衡单位。分类变量又可分为两类:序分类变量:又称为名义资料。具体取值通常是具有某种属性或特征的个数。特点是可在非数字中取值,各类之间具有性质上的差异。可分为二分变量和多分变量。二分变量是按互不相容的属性分成两类的资料。多分变量是按某种属性或特征分成两类以上的资料。序分类变量:亦称等级资料或半定量资料。具体取值也是具有某种属性或特征的个数,但

8、不同取值之间有半定量的关系。特点是其各类别间有等级、程度或量的差异, 即可按数量的相对大小或程度的高低排出顺序。四、 学习中医统计学的目的1.顺应中医药学的发展趋势。2.强化中医科研的计划性和科学性。3.拓宽研究思路。4.学会正确地运用统计方法和合理地解释统计结果。五、 学习中医统计学的注意事项1理解和领会基本概念和原理,切忌死记硬背。2不追究公式的来源和推导,但要掌握其应用条件。 3重视分析问题和解决问题能力的培养。4学会使用统计软件。数值变量资料的统计描述统计描述概念:即利用原始数据, 选择适宜的统计指标及统计图表, 简明准确地探察数据的分布类型和数量特征的基本统计方法。目的:是根据样本中

9、所包含的信息,客观、正确地推论出其总体规律。第一节频数分布频数: 相同观察值或观察结果出现的次数。分布: 指随着随机变量取值的变化,其相应的概率变化的规律性。频数分布: 观察值 (变量值 )按大小分组,各个组段内观察值个数(频数 )的分布,是了解数据分布形态特征与规律的基础。一、 频数分布的特征1.集中趋势: 指一组变量值的集中倾向或中心位置。2.离散趋势: 即一组变量值的离散倾向。二、频数分布的类型1.对称分布: 指集中位置居中、左右两侧的2.非对称分布:亦称偏态分布,是集中位置频数分布基本对称的频数分布。偏倚、两侧频数的分布不对分为正态分布和非正态分布两称的频数分布,可分为正种类型。偏态和

10、负偏态分布。欢迎下载2精品文库三、频数分布表/ 图的作用1.直观地揭示数据的分布类型和特征。2.便于发现资料中某些远离群体的特大或特小的可疑值。3.描述频数分布的集中趋势与离散趋势。4.便于进一步计算统计指标。四、频数表概念: 频数分布表的简称。指观察值或某些类别及其相应的频数按一定顺序排列的表格。例题:随机抽取某地 120例正常人,测得血清铜的含量( mol/L) 如下表,试编制频数表。13.8412.5313.7014.8917.5313.1918.8214.7317.4413.9914.1012.2912.6114.7814.5914.7118.6219.0410.9513.8110.5

11、313.5611.4813.0716.8817.0417.9812.6711.039.2315.0414.0915.9011.4814.6413.6414.3915.7413.9911.3117.6116.2613.5311.6813.2511.8814.2115.2115.2913.7014.4511.2319.8413.1115.1511.70频数表的编制方法:1.找极值: Xmax 19.84, X min 9.232.求全距: XmaxX min , 19.84 9.23 10.613.定组数: K=8 15。4.求组距: i= / ( K 1)(i 为组距, k 为组段数, R 为全

12、距) i=10.61/(11-1)=1.061 15.确定各组段的上下限:6.归纳计数:某地 120 名正常成年人血清铜含量频数表组段频数频率 () ()9.0032.532.510.0043.375.811.001210.01915.812.001310.83226.613.001714.24940.814.002218.37159.115.001815.08974.116.001310.810284.917.00119.211394.118.0054.211898.319.0021.7120100.0合计120100.0五、频数图概念 :亦称直方图,是以直方的宽度代表组距,以直方的面积大小

13、表示频数的多少、以直方面积在总面积中的比例表示频率大小的图形。等距分组以横轴表示变量,以纵轴表示频数。不等距分组以横轴表示变量,但纵轴是频数除以组距。第二节数值变量资料集中趋势的描述集中趋势: 是度量变量值集中位置和平均水平的数量指标,其代表值为平均数。平均数: 是描述一组观测值平均水平的指标,是对同质基础上的样本或总体一般特征的表达指标。算术平均数、几何平均数、中位数、众数一、算术平均数1.定义: 算术平均数简称均数。是一组观察值的和与观察值个数之商。是数量上的平均。用于说明一组观测值的趋中位置或平均水平。表示样本均数,表示总体均数。2.适用条件: 正态或近似正态分布的资料。如生理指标。3.

14、计算方法: 直接法:有n 个观察值,分别为X1, X2, Xn,式中 是求和的符号。欢迎下载3精品文库例题: 10 名 12 岁男孩身高 (cm)分别为 125.5, 126.0, 127.0, 128.5, 147.0, 131.0, 132.0,141.5, 122.5,140.0。求平均数。加权法:用于观察值中相同数据较多或频数表资料。 1737.00/120 14.48( mol/L)二、几何均数1.定义: 个数值连乘积的次方根。是比例或倍数上的平均。统计符号。2.应用条件: 等比数列资料。如抗体滴度。3.计算方法:例题: 6 份血清抗体滴度为1:2, 1:4, 1:8, 1:8, 1

15、:16, 1:32,求平均数。平均滴度为1:8 。三、中位数1.定义:将一组观察值按由小到大的顺序排列,位次居中的数值即中位数。是位次上的平均。统计符号。2.应用条件: 不拘分布、 分布类型不明或一端无界的资料。如潜伏期、 治愈时间和发病年龄。3.计算方法:n 为奇数时n 为偶数时式中、及均为下标,表示有序数列中观察值的位次。例题: 某医院用大黄粉治疗胃热血瘀型血证病人9 例,其大便转阴天数分别为1、1、2、 2、3、 4、5、 7、 10,求其中位数。本例 n = 9, M = X5 = 3(天 )。如果本例n=10,第 10 个数值为16 天,则M=(3+4)/ 2=3.5(天)。数表法用

16、于观察值例数较多或频数表资料。为所在组段的下限;i 为该组段的组距;m 为该组段的;n 为总例数; fL 为小于的各组段的。例题: 905 例男性银屑病病人的发病年龄年龄频数 f累计频数 f累计频率 p ()1054545.9710252306( f )33.8120346(f )65272.043012878086.19408486495.47502989398.6760589899.23707905(n)100.00 20 (10/346)(905/2 306) 24.23(岁 )第三节数值变量资料的离散趋势描述离散趋势: 亦称变异性, 是描述一组同质观察值的变异程度大小的指标。不但反映研

17、究指标数值的稳定性和均匀性,而且反映集中性指标的代表性。欢迎下载4精品文库极差、四分位数间距、方差、标准差、变异系数。变异指标示意(两个学生五门成绩分布)学生科目变异指标SSCV78798081828042.51.581.9860708090100804025015.8119.76、两个学生五门课程成绩的均数都是80,但各科成绩分布情况却不相同。较集中,变异较小;较分散,变异较大。一、全距()概念: 亦称极差,是一组观察值中最小值与最大值之差,反映个体差异的范围。优点: 1.意义明确、计算简便。2.稳定性较差。 3.受 n 大小的影响。 4.可应用于任何分布。二、百分位数和四分位间距1.百分位

18、数: 是把一组观察值从小到大排列,分为100 等份,与位次所对的数值即为第百分之位数。以x 表示。一个 x 将全部观察值分为两部分,理论上有的观察值比它小,有(100 )的观察值比它大。是一种位置指标。M 即。2.四分位数间距:是上四分位数Q ( )与下四分位数Q ( )之差,符号为QR。是中间 50观察值的极差。QR Q Q用途: 常用来描述偏态分布资料分布以及分布的一端或两端无确切数值资料的离散程度。表示参考值范围百分位数的另一个重要用途是表示偏态分布资料的参考值范围。例题: 905 例男性银屑病病人的发病年龄(同前)计算方法:10 (10/252) (905 0.25 54) 16.84

19、(岁 ) 30 (10/128) (905 0.75 652) 32.09(岁 )QR32.09 16.84 15.25(岁 )三、方差概念: 方差即离均差平方和的均值。总体方差的符号为 ,样本方差符号为2。优点: 由于 2 利用了每个观察值的信息,反映一批数据变异程度的稳定性和精确性好。缺点: 但在运算时需将各个离均差平方,使原度量单位变成平方单位,不便于进行比较。应用条件: 要求资料服从正态或近似正态分布。四、标准差概念: 方差的平方根。除了具有方差的优点外,还克服了度量单位被平方的不足,运用较方便。总体标准差的符号为 ,样本标准差的符号为;英文缩写为SD。例题:学生: n=5, X78+

20、79+80+81+82=400 ; X2 782+792+802+812+822 32010学生: n=5, X =400; X2 33000用途: 表示正态或近似正态分布的离散程度。描述数值变量的频数分布特征()。制定医学参考值范围。 与均数结合计算变异系数。 与样本含量结合计算标准误。五、变异系数CV概念: 一组观察值的标准差与均数的百分比。是相对离散量,无单位。统计符号用途: 比较度量单位不同或均数相差悬殊时几组样本资料的离散性。欢迎下载5精品文库比较实验指标的稳定性及测定方法的精密度。例题:( 1)某单位测得 28 例成年脾虚病人的红细胞数为 3.10 土 0.86 1012L;血红蛋

21、白值为 87.2 土 33.3g L,试比较该两项指标的变异程度。CVRBC (0.86 3.10) 100 27.74; CVHb (33.3 87.2) 100 38.19可认为 Hb 的变异程度比 RBC大。2)某单位测得大鼠的血清谷丙转氨酶(ALT)为 29.4 土 1.4,家兔的 ALT为 52.8 土 1.5,试比较两种实验动物 ALT指标的实验稳定性。CV大鼠 (1.4 29.4) 100 4.76; CV家兔 (1.5 52.8)100 2.84可认为家兔 ALT的实验稳定性较好, 应优先考虑以家兔为实验对象进行ALT的有关研究。由该例可知, CV 对于改进实验方法,选择最佳实

22、验对象、指标等,都具有一定的实际意义。变异指标:1.极差较粗,适用于任何分布;2.标准差与均数单位相同,最常用,适用于正态及近似正态分布的统计描述;3.集中指标和离散指标分别反映资料的特征,常配套使用:正态分布:算术平均数 标准差 偏态分布:中位数 四分位数间距等比资料: G正态分布及其应用第一节正态分布某地 120 例正常人血清铜含量的直方图。设想观察人数逐渐增多组、距不断细分, 作直方图。 将各直方顶端的中点连接,形成一条光滑的曲线,该曲线即频数曲线或频率曲线,近似于数学上的正态分布曲线。一、正态分布: 又称 Gauss 分布或常态分布,是一种最重要的连续型分布。正态分布曲线: 是高峰位于

23、中央, 两侧逐渐下降, 左右对称, 永远不与横轴相交的曲线。二、正态分布的密度函数( x )f(x)为与x 对应的正态曲线的纵坐标高度;为总体均数; 为总体标准差; 为圆周率,即3.14159 ;e 为自然对数的底,即2.71828 。三、正态分布的特征1.在 X 轴上方,均数所在处最高。2.集中性、对称性和均匀变动性。3.正态分布有两个参数 和 。四、标准正态分布由于不同的正态分布有不同的 和 ,用公式计算的随机变量x 落在某个区间内的概率显得非常麻烦。为寻求一个通用的方法,进行标准正态变换(即 u 变换 ):u ( x - ) /。此变换实质上是作了一个坐标轴的平移和尺度变换,使原来的正态

24、分布变换为 0、欢迎下载6精品文库 1 的标准正态分布(亦称 u 分布 ),记为 (0, 1)。五、标准正态分布的密度函数( u )式中 (u)为标准正态分布的密度函数,即纵坐标高度。六、正态曲线下面积分布的规律:七、正态分布的应用1.统计分析方法的基础:很多抽样分布,如卡方分布、t 分布都是建立在正态分布的基础上。2.质量控制: 为了控制检测误差,常以 2作为上下警戒线; 3作为上下控制。3.估计医学参考值范围。4.进行参数估计和假设检验。第二节正态分布的应用一、可根据正态分布的规律估计观察值的频数分布范围。例题已知某地120 名正常人血浆铜含量( mol/L) 的均数 14.48、 2.2

25、7,估计该地120 名正常人血浆铜含量在14.20 15.60( mol/L) 范围内的人数。1.计算 u 值当 和 未知时, u (x)/s。x1 14.20, u1 (14.20 14.48)/ 2.27-0.12x2 15.60, u2 (15.60 14.48)/ 2.27 0.492.查表-0.12 左侧的面积就是0.12 右侧的面积。当 u 0.12 时,在表的左侧找到0.1,在表的上方找到0.02,二者相交处为0.5478, (-0.12) 1 0.5478 0.4522,即标准正态变量u 值小于 -0.12 的概率为0.4522;当 u 0.49 时, (0.49) 0.687

26、9,即 u 值小于 0.49 的概率为 0.6879。3.确定概率u 值在 -0.12 0.49 范围内的面积为: (0.49) (-0.12) 0.68790.4522 0.2357,即血浆铜含量在 14.20 15.60( mol/L) 范围内的概率为 23.57。4.估计区间内人数120 名正常人血清铜含量在14.20 15.60(mol/L) 范围的人数为12023.57 28 人二 、制定医学参考值范围1、医学参考值的意义1医学参考值:是指包括绝大多数正常人的解剖、生理、生化、免疫、组织或排泄物中成分的测量值。2医学参考值范围虑到变异的影响,提高参考值作为判定正常或异常的可靠性所确定

27、的绝大多数正常人医学参考值的波动范围。3使用“参考值范围”的目的:个体临床上划分正常人与异常人的参考。人群制订不同性别、年龄儿童某项发育指标的等级标准,用来评价儿童的发育水平等。2、制定参考值范围的步骤欢迎下载7精品文库选定健康人作为调查对象。2控制测量误差。3.确定样本含量。4根据实际意义分组。1、 90、 99等。决定取单侧还是双侧界限。6选定适当的百分界限。常用95、 805.制定医学参考值范围。73、制定参考值范围的常用方法正态分布法适用于正态或近似正态分布的资料。表达式为, 为正态1曲线下单侧或双侧尾部的面积,u为 相应的标准正态离差。双侧 95的界限值为:单侧 95的上限值为:单侧

28、 95的下限值为:例题:某地调查正常成年男子144 人的红细胞数, 得均数 5.38( 1012/L),标准差 0.44(1012/L),试估计该地成年男子红细胞数的95%参考值范围。因红细胞数过多或过少均为异常,用双侧界值。下限:- 1.96s=5.38-1.96 0.44 =4.52上限:+ 1.96s=5.38+1.96 0.44 =6.24该地成年男子红细胞数的95%参考值范围(4.526.24) 1012/L 。2百分位数法:是利用两个百分位数作为双侧参考值范围的上、 下限,或者用一个百分位数作为参考值的上限或下限。适用于非正态分布或分布未知的资料。1)双侧 95参考值范围:P2.5

29、P97.52)单侧 95参考值范围上限值:P953)单侧 95参考值范围下限值:P5总体均数的估计参数估计: 是通过样本信息估计其总体相应指标的数值及数值范围的统计分析方法,即用统计量估计总体参数的方法,是统计推断的一个重要方面。第一节抽样分布与抽样误差医学科研的常用方法是抽样研究 。由于个体差异的存在,测算的样本指标值很难恰好等于总体指标值。这种由个体差异和抽样造成的样本与总体、样本与样本相应统计指标之间的差异即抽样误差 。一、样本均数的抽样分布与标准误1.样本均数的抽样分布:指某种统计量的频数分布。用样本统计量作为该样本的代表值,这些个样本代表值的大小就形成了一个抽样分布。2.抽样分布的特

30、点: (1)各统计量间存在差异,统计量不一定等于参数。2)统计量的变异范围比原变量的变异范围大大缩小。3)随着 n 增加,样本均数的变异程度减小。4)如果原始变量服从正态分布,则统计量也服从正态分布。如果原始变量不服从正态分布, 若 n 较大,则统计量服从正态分布;若 n 较小,则统计量为非正态分布。3抽样误差:是因抽样产生的样本与样本、样本与总体相应统计指标之间的差异。由于存在个体差异,且样本又未包含总体的全部信息,因此抽样误差是无法避免的。抽样误差的大小主要取决于样本含量的多少和研究指标的变异程度。4.标准误: 表示样本指标值在抽样分布中的变异情况。 SE越小,说明抽样误差越小,用统计量来

31、估计参数时的可靠程度越大;反之,SE越大,说明抽样误差越大,用统计量来估计参数时越不可靠。均数的标准误:样本均数的标准差也称均数的标准误。反映样本均数间的离散程度,反映样本均数与相应总体均数间的差异,说明均数抽样误差的大小。估计标准误:由于 往往未知,常以S 替代,算得的标准误称估计标准误。其统计符号。由于标准误与抽样误差成正比,与样本均数的代表性成反比,故在实际工欢迎下载8精品文库作中可将标准误作为描述统计指标可靠性的依据。5.标准差与标准误的比较标准差均属标准误意义描述个体观察值之间的离散性 (变异程描述同一总体中随机抽出样本含量相度)同的多个样本均数间的离散性公式与 n 的关系随着 n

32、的增大逐渐趋于稳定随着 n 的增大逐渐减小,与n 的平方根成反比。用途表示观察值得变异大小;结合样本均数描述表示样本均数抽样误差的大小;描述样本均正态分布的特征;在正态分布时做参考值范数的可靠性; 结合样本均数估计总体均数的围的估计;计算变异系数和均数的标准误CI;进行均数间差别的假设检验例题: 已知某样本资料的2.27( mol/L) , 120,求其标准误。代入公式得:二、 t 分布及其应用1.t 分布: 若对正态分布总体多次重复抽取若干样本含量相同的样本,样本均数围绕总体均数 呈现正态分布。若将所有样本均数按公式进行数学变换,可得u 围绕 0 的标准正态分布。由于总体标准差未知,只能求出

33、标准误的估计值,变换公式求t 值,可得到若干t 值。将这些t 值绘成直方图,若样本无限多,可绘成一条光滑的曲线t 分布曲线,此时所得的 t 值围绕 0 呈现的就是t 分布。2.t 分布的特征:(1)是一簇单峰分布曲线,以0 为中心,左右对称。(2 )其形态变化与自由度 的大小有关 越小,则 t 值越分散, t 分布曲线越低平,t 分布的峰部越矮而尾部翘得越高; 越大, t 分布越逼近正态分布。(3) t 分布的单侧概率和双侧概率在 t 界值表中,横标目为自由度 ,纵标目为概率(或 )。一侧尾部面积称为单侧概率或单尾概率;两侧尾部面积之和称为双侧概率或双尾概率。表中数字表示当和 确定时,对应的t

34、 的界值,其中与单尾概率相对应的t 界值用表示,与双尾概率相对应的t 界值用表示。查 t 界值表注意: 由于 t 分布是以0 为中心的对称分布,故附表2 只列出正值,查表时,不管 t 值正负,均可用其绝对值t 查表得概率值。1相同自由度时,t值增大,概率减小;2在相同t 值时,双尾概率是单尾概率的两倍。如双尾单尾 1.8123.t 分布的用途:总体均数的区间估计;t 检验。第二节总体均数的估计欢迎下载9精品文库是根据样本分布的特点,由样本均数推测总体均数的大小及其范围。总体均数估计的方法有点估计和区间估计两种。一、总体均数的点估计点估计概念: 用样本确定的统计量的值来直接估计总体参数的数值。方

35、法: 以样本统计量及其标准误作为被估计参数的点估计值,一般是以统计量加减标准误的方式给出参数的点估计值。优点: 方法简单。缺点: 未考虑抽样误差的影响。二、区间估计根据抽样分布原理,按预先给定的概率水准,给出被估计参数可能的数值范围。统计学称这一范围为被估计参数的可信区间(CI)。称预先给定的概率水准为可信度或可信系数,符号为 1- ,常取 95或 99 。称按 95或 99水准确定的 CI 为 95CI 或99 CI。1大样本资料均数的可信区间样本例数足够大( 100)时,可按正态分布原理,用以下公式估计总体均数 的 CI。95 CI99 CI例题: 测得某地296 例成年男性发锌的均数为2

36、00.0ppm ,标准差为21.8ppm 。试估计该地成年男性发锌总体均数的95 CI。本例 296,200, 21.8, 1.27。95 CI 200.0 1.96 1.27 (197.51, 202.49)该地成年男性发锌总体均数的95 CI 为 197.51 202.4ppm 。2.小样本资料均数的可信区间当较小 ( 100)时,一般按t 分布原理,用以下公式估计总体均数的 CI。95 CI99CI式中 t0.05/2, 与 t 0.01/2, 为 t0.05 与 t0.01 的双侧界值。例题: 测得某地12 例肾虚失钠型哮喘病人甲皱微循环管袢长度的均数为208.33 ,标准差为67.0

37、7 。试估计该地肾虚失钠型哮喘病人甲皱微循环管袢长度总体均数的95 CI。本例 12,208.33, 67.07, 19.36 1 12 111。查 t 界值表得 t 0.05/2 ,112.201,按公式求得:95 CI 208.33 2.20119.36 (165.72 ,250.94)该地肾虚失钠型哮喘病人甲皱微循环管袢长度总体均数的95 CI 为 165.72250.94 3.可信区间的要素(1)准确度: 是 CI 包含总体参数的概率大小,用可信度的大小1-表示。 可信度越接近1,可信程度越高,准确度越高。如可信度99比 95可信程度高。(2)精密度: 是对总体参数的估计范围或长度的度

38、量,反映在CI 即长度愈小愈精密。每一次估计间的差异越小,CI 愈小,即 CI 的长度越小, 其估计的精密度越高。4.可信区间的特点1)当确定后, CI 范围的大小与可信度 1- 的高低呈正比, 与估计结果的精密度呈反比。2)当可信度 1-确定后, 的大小与 CI 范围的大小呈反比; 与估计结果的精密度呈正比。因为增加样本例数会减小标准误,使 CI 的范围缩小。 CI 的范围越小,真实值靠近点估计值的可能性越大,靠近 CI 边缘的可能性越小,估计的精确度也随之提高,其统计效力就越大。5.可信区间与可信限的关系CI 为某一整体内的一个分段,是以上、下可信限为界的开区间(不包含界值在内)。 CU与

39、 CL是 CI 的上下两个界值。 如 95 CI 为 (165.6,251.0) 。165.6 是 CI 的下限 (L),251.0为 CI 的上限 (U)。6.CI 与参考值范围的比较1)可信区间:是参数的估计范围,需用标准误(SE)计算,表示总体指标的可能范围。2)参考值范围:表示大多数正常人的解剖、生理、生化某项指标的波动范围,需用标准欢迎下载10精品文库差计算,用于判断观察对象的某项指标正常与否。假设检验一、假设检验的概念与分类(统计概念: 亦称显著性检验,是利用样本信息,根据一定的概率水准,推断样本指标量 ) 与总体指标 (参数 )、不同样本指标间的差别有无意义的统计分析方法。(一)

40、参数检验和非参数检验1.参数检验概念: 依赖总体分布的具体形式的统计方法,简称参数法。常用的参数法有 2 检验、 t 检验、检验等。使用条件是抽样总体的分布已知。优点: 能充分利用样本信息; 检验效率较高。缺点: 应用条件限制较多。2.非参数检验概念: 一类不依赖总体分布的具体形式的统计方法。如Ridit 分析、秩和检验、符号检验、中位数检验、序贯试验、等级相关分析等。优点: 对总体的分布形式不要求;可用于不能精确测量的资料;易于理解和掌握;计算简便。缺点: 不能充分利用资料所提供的信息,使检验效率降低。(二)单因素分析与多因素分析1.单因素分析 亦称一元分析,是在主要的非处理因素相同的条件下

41、,不管影响结果的处理因素 (如病人年龄、病情、辩证分型、病理类型、药物剂型、用药途径、疗程等 )有多少,每次仅分析一个处理因素与效应之间关系的统计方法。2.多因素分析亦称多变量分析或多元分析,是研究多因素和多指标之间的关系以及具有这些因素的个体之间关系的一种统计分析方法。二、假设检验的基本思想先假设差别由抽样造成, 即总体间本无差异, 在此假设成立的前提下做抽样研究, 如果该次抽样属小概率事件,则样本信息不支持原假设的成立,拒绝它。三、假设检验的基本步骤例题: 根据大量调查,已知健康成年男子的脉搏均数为72 次 / 分。某医生在某医院随机调查30 名脾虚男子,求得脉搏均数为 74.2 次 /

42、分,标准差为 7.5 次 / 分。脾虚病人的脉搏是正态分布,问脾虚男子的脉搏均数与一般成年男子的脉搏均数是否相等?分析:把一般成年男子的脉搏均数看作一个总体均数,脾虚男子的脉搏均数为样本均数。0 72, n30 , X 74.2, s 7.5 。 0 的原因:抽样误差所致。脾虚致两个均数间有本质性差异。1建立假设、确定检验水准无效假设:记为 ,即样本均数所代表的总体均数 与已知的总体均数 0 相等。样本均数与 0 的差异是由抽样误差引起,无统计学意义。备择假设:记为 ,即样本均数所代表的总体均数 与 0 不相等,样本均数与0 的差异是本质性差异,有统计学意义。假设检验有双侧检验和单侧检验H0:

43、 0, H1: 0若目的是推断两总体均数是否不等,应选用双侧检验。若从专业知识已知不会出现 0 (或 0)的情况,则选用单侧检验。H0: 0, H1: 0 (或 0)确定检验水准检验水准亦称显著性水准,符号为 ,是事先规定的对假设成立有否作出判断的根据。常取 0.05 或 0.01。2选择检验方法、计算统计量根据:研究目的,资料的类型和分布,设计方案,统计方法的应用条件,样本含量大小等;选择适宜的统计方法并计算出相应的统计量。3确定值、做出推论获得等于及大于 (和 / 或假设检验中的值是指在由无效假设所规定的总体作随机抽样,等于及小于 )现有统计量的概率。即各样本统计量的差异来自抽样误差的概率

44、,它是判断H成立与否的依据。确定值的方法主要有两种查表法 根据检验水准、样本自由度直接查相应的界值表求出值。计算法 用特定的公式直接求出值。推论: 若 ,就没有理由怀疑H0 的真实性,则结论为不拒绝H0,做出不否定此样本是来自于该总体的结论,也即差别无显著性意义;若 ,则拒绝H0,接受 H1,也就是说这些统计量来自不同的总体,其差别不能欢迎下载11精品文库由抽样误差来解释,下结论为差别有显著性意义。检验以 t 分布为理论基础,对一个或两个样本的数值变量资料进行假设检验常用的方法,属于参数检验。第二节单样本t 检验概念:亦称样本均数与总体均数比较的t 检验。用于从正态总体中获得含量为n 的样本,

45、算得均数和标准差,判断其总体均数 是否与某个已知总体均数 0 相同。已知总体均数一般为标准值、理论值或经大量观察得到的较稳定的指标值。一、适用条件:1.对正态分布的数值变量资料,需用检验。2.对于非正态分布的资料,若经过变量变换使成正态分布,可按检验处理;否则,用非参数检验的方法。二、正态性检验的方法检验假设 为总体分布是正态分布,当 P 时,不拒绝 ,认为样本所来自的总体服从正态分布;而 P 时,拒绝 ,认为样本所来自的总体不服从正态分布。1.W 检验Shapiro-Wilk 检验是基于次序统计量对它们期望值的回归而构成的。所用检验统计量为 W,又称为 W 检验。在样本量 3 n 50 时使

46、用。2.D 检验Kolmogorov-Smirnov 检验的统计量为D,所以也称D 检验,在样本量50 n 1000时使用。三、计算公式, 1式中为样本均数,为总体均数,为样本含量,为样本标准差, 为自由度。四、检验步骤1.建立假设、确定检验水准H0: 0, H1: 0, 0.052.选择检验方法、计算统计量3.确定值、做出推论=30-1 =29,查 t 值表, t0.05/2, 29=2.045,今 t =1.607 t0.05/2, 29, P 0.05。按 0.05 水准,不拒绝H0,根据现有样本信息,不能认为脾虚男子脉搏数与健康人不同第三节配对设计资料均数的t 检验配对设计 将观察单位

47、按照某些特征 (如性别、年龄、病情等可疑混杂因素 )配成条件相同或相似的对子,每对中的两个观察单位随机分配到两个组,给予不同的处理,观察指标的变化。 同一观察单位实验(或治疗 )前后的比较;同一样品用两种方法检验结果的比较; 配对的两个观察单位分别接受两种处理后的数据比较。配对检验配对检验 又称成对检验,是将对子差数d 看做变量, 先假设两种处理的效应相同,1 2 0,无显著性,推断两种处理因素的效果有无差别或某处理因素有无作用。由于此种设计使影响结果的非被试因素相似或相同,因而提高了研究效率。一、适用条件:1.设计类型是配对设计。2.数值变量的对子差值是正态分布。二、计算公式 1,式中为各个

48、对子数值的差数,为差数的平均数,为差数的标准差,欢迎下载12精品文库为差数的标准误,为对子数。三、检验步骤例题 :对 10 名患者分别用湿式热消化-双硫腙法和硝酸 -高锰酸钾冷消化法测定尿铅,问两法测得结果有无差别。用两种方法测定尿铅结果( mol/L)患者号冷消化法热消化法差值 dd212.412.80-0.390.1521212.0711. 240.830.688932.903.04-0.140.019641.641.83-0.190.036152.751.880.870.756961.061.45-0.390.152173.233.43-0.200.0480.770.92-0.150.0

49、22593.673.81-0.140.0196104.494.010.480.2304合计0.582.1181.建立假设、确定检验水准H0: 0, H1: 0, 0.05计算统计量 t 值先计算差值d 及 d 2(如表 ),得 d =0.58,d2=2.1182计算差值的标准误3.确定值、做出推论 =n 1=10 1=9,查界值表,得双侧t0.05/2,9 =2.262,本例t t0.05/2,9, P 0.05。按 0.05 水准,不拒绝H0,不能认为两法测定尿铅结果有差别。第四节独立样本t 检验与检验独立样本资料是在两个总体里分别随机抽样,或将同一总体里抽取的观察对象随机分为两组,采取不同

50、的处理得到的资料。独立样本 t 检验 亦称两样本 t 检验或成组 t 检验。与检验均适用于完全随机化设计两独立样本的比较, 目的是推断两独立样本均数所代表的未知总体均数 1 与 2 是否有差别。一、独立样本的方差齐性检验方差齐性 两个样本均数的假设检验,除了要求样本资料来自正态分布或近似正态分布,还要求两个样本的总体方差相等。(一)应用条件:两个样本均来自正态分布的总体。(二)计算公式:统计量 F 为较大的方差与较小的方差的比值。(三)检验步骤F=s12/s22, 1 n1 1, 2 n2 120 例例题: 某医师要观察自拟中药方“降脂胶囊”对高血脂症的疗效,将诊断为高血脂的病人随机分为两组,

51、一组用上述中药治疗,另一组用西药治疗,3 个月后测量血清胆固醇含量 (mmol/L 如下,已知两组血清胆固醇含量均服从正态分布,试比较两药降低欢迎下载13精品文库胆固醇的效果有无差别。1.建立检验假设、确定检验水准H0:两总体方差相等H1:两总体方差不相等 0.10( 较大以减少II 类错误)2.选择检验方法、计算统计量22中药组 S =0.580; 西药组 S =0.46622F=s1 /s2 =0.580/0.466 =1.2453.确定 P 值、做出推论1 n 1 1 101 9, 2n 2 1 101 9,查 F 界值表 (方差齐性检验用 ),得F0.05(9, 9) 4.03, F

52、F0.05(9,9) ,P 0.05。在 0.05 水准下不拒绝H0,认为中药组与西药组的血清胆固醇总体方差齐。二、独立样本t 检验(一)应用条件:1.样本个体测量值相互独立,即独立性 。2.两个样本所代表的总体均数服从正态分布,即正态性 。3.总体方差相等,即方差齐性 。(二)计算公式先求出合并方差,再求出两均数之差的标准误,最后算出统计量t 值。(三)检验步骤1.建立假设、确定检验水准0 : 1 2 1: 1 2 0.052.选择检验方法、计算统计量本例 1 10, 5.247, 1 0.762;2 10,5.537, 2 0.683=0.5243.确定值、做出推论 10 10-218,查

53、界值表, 得 0.05,18 2.101 , t 0.05,18, 0.05。按 0.05 水准,不拒绝0 。两药降低胆固醇效果的差别无统计学意义。三、检验成组样本均数的比较,若方差不齐,可以采取3 种方式处理:经过数据变换使方差齐,然后进行t 检验;采用近似t 检验检验;基于秩次的非参数检验方法。例题: 由 X 光片上测得两组病人肺门横径右侧距 R1 值( cm),结果如下,请先检验两组的总体方差是否相等,然后进行假设检验。欢迎下载14精品文库肺癌病人矽肺 0 期病人(一)方差齐性检验1.建立假设、确定检验水准。H1:两总体方差不相等H0:两总体方差相等 0.102.计算统计量 F 值222

54、2F =s1 (较大 )/s2( 较小) = 1.79 /0.56= 10.273.确定 P 值,作出统计推论查 F 界值表, 1 = n1 1 = 9, 2 = n2 1 = 49, F0.1(9,50)=2.07。今 F = 10.217 F0.1(9,50),故 P 0.1。按 0.10 水准,拒绝 H0,接受 H1 ,可认为两总体方差不齐。(二)检验的公式 1 = n1- 2 = n2-1(三)检验的步骤1.建立假设、确定检验水准。H0:两总体 R1 值相等H1:两总体 R1 值不相等 2.计算统计量查 t 值表得: t 0.05/2,9=2.262t 0.05/2,49=2.0093

55、.确定 P 值,作出统计推论 =3.272 0.05=2.257 , P 0.05。按 0.05 水准,拒绝 H0,接受 H1 ,可认为两组病人的R1 值不等。假设检验的两类错误和注意事项型错误 指拒绝了实际上成立的H0,即 “弃真” 的错误。在 H0 成立的前提下,由于抽样误差,得到的t t0.05( ),按 0.05水准拒绝 H0,则犯了型错误。确定以 t 为临界值时,犯型错误的概率就是 。型错误 指接受了实际上不成立的H0,即 “存伪” 的错误。t 值,若 t t0.05( ),则在实际上 H1 成立的前提下,由于抽样的偶然性得到了较小的按 0.05 的水准接受H0,这就犯了型错误,型错

56、误的概率用 表示。四、应用假设检验的注意事项1事先进行严密的研究设计。2预先确定单侧检验与双侧检验。3灵活确定 水准。4 选择正确的统计方法。5正确理解推断结论的意义。6 结论的描述应完整,不能绝对化。7 结合专业知识做出推论。欢迎下载15精品文库方差分析方差分析 又称F 检验或变异数分析。是在不增加第一类错误概率的情况下,用于检验多组样本均数差异有无显著性的统计分析方法。方差分析的应用:完全随机设计资料的单因素F 检验;随机区组设计资料的两因素F 检验;析因设计、拉丁方设计、嵌套设计、裂区设计、交叉设计资料的多因素方差分析; 单因素重复测量、双因素重复测量资料的F 检验; ANOVA与回归分

57、析相结合的协方差分析。第一节F 检验概述一、因素与水平(控制 )因素 也称为处理因素。即对试验指标有影响的名义分类变量,在研究中加以考虑的试验条件。水平 也称“处理组” 。是每个因素的不同状态,也就是质量上的或数量上的差别。因素是一个抽象的概念,而水平则是一个较为具体的概念。二、对多样本均数重复进行t 检验的风险性当有多个均数比较时,例如有k 组均数,采用多重t检验,会导致犯I 类错误的机率增大 。若要进行 k 个均数间差异的比较,将会使用k(k-1)/2 次 t检验。假定其检验的显著性概率水平为 ,则其实际上所执行的显著性概率水平为 1-(1- )m例题: 4 个均数 (k 4),完成所有4

58、 个均数间差异的显著性检验要进行 (4)(4-1) 2 6 次 t 检验。若在 0.05 的显著性水平上进行检验,其实际上犯I 类错误的概率 不是 0.05,而是 1-(1-0.05) 6 0.2649 。三、 F 检验的应用条件:1.各样本是相互 独立的 随机样本。2.各样本所来自的总体均服从正态分布 。 3.各样本所来自的总体方差相等,即方差齐 。此外,样本均数比较的F 检验方法与实验设计类型密切相关。四、F 检验的基本思想分析变异, 即将所有测量值间的总变异按照其变异的来源分解为多个部分,通过比较不同来源的变异推断各处理组间的差异有无统计学意义。实质上是关于观测值变异原因的数量分析。例题

59、: 将 40 只接种肿瘤的小白鼠随机分为4 组,给予不同剂量的三菱莪术注射液,半月后称量瘤重,其数据见下表。表中1 组为接种后不加任何处理,2、3、4 组分别为接种后注射0.5ml 、 1.0ml 和 1.5ml 三菱莪术液。试比较各组瘤重间有无差别?三菱莪术液抑癌实验的小鼠瘤重(g)实验号1 组2 组3 组4 组13.63.00.43.324.52.31.71.295.02.62.11.2104.51.32.52.1xi46.62524.618.7114.9( x)2226.3270.373.1447.03416.79(2xix)ni1010101040(N)4.662.502.461.87

60、2.87()Si1.010.931.181.161.总变异 将4 组综合起来看,40 只小鼠的瘤重有差异,称为总变异 ,用总的离均差平方和表示。2.组间变异从表中可见, 4 组小鼠瘤重的均数有差别,称为组间变异 ,用离均差平方和(SS组间 )表示。造成组间变异的原因是:处理差异: 即药物及其不同剂量对瘤重有影响造成了各组均数不同。个体差异:即小鼠的个体因素造成各组均数不同。欢迎下载16精品文库式中 i 表示组别。3.组内变异从各组内部看,同一种处理的10 只小鼠的瘤重仍有差异,称为组内变异 ,用组内离均差平方和 (SS组内 )表示。造成组内变异的原因只是个体因素。三种变异的关系:4.均方 (M

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论