




已阅读5页,还剩155页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十章数值变量资料的统计分析, 学习目标 :,(一)掌握:1、描述数值变量资料集中趋势和离散趋势的常用指标的意义、计算方法和适用条件;2、参考值范围的制定。(二)熟悉:1、数值变量资料的频数分布表编制方法和用途;2、正态分布的特征和曲线下面积分布规律。,假设检验,参数估计,统计描述:利用统计图、统计表、统计指标等来描述资料的规律性及特点。统计推断:用样本信息估计总体参数所在范围和用样本信息推断总体参数之间有无差别。 即参数估计和假设检验。参数估计:用样本指标(统计量)估计总体指标(参数)。假设检验:利用样本信息推断总体参数之间有无差别的方法。,数值变量资料的统计分析,对数值变量资料进行统计分析的一般步骤:1、先对观察测量得到的变量值(即观察值)进行统计描述。2、在统计描述的基础上进行深入的统计推断。,第一节 数值变量资料的统计描述,数值变量资料的统计描述:主要是在编制频数表的基础上描述资料的集中趋势和离散趋势。,一、数值变量资料的频数分布二、集中趋势的描述三、离散趋势的描述,(一) 频数表(frequency table)的编制(二)频数表的用途,一、数值变量资料的频数分布,(一)频数表的编制方法,1、找出最大值和最小值,求极差R2、确定组数、组段和组距3、列表:统计各组段的频数,1、找出最大值和最小值,求极差R(Range) R=最大值-最小值 R=6.55-2.10=4.45(mmol/L),2、确定组数、组段和组距:(1)确定组数K:根据研究目的和观察例数确定。(2)定组距 i: 组距即组与组间的距离,一般等距分组。 近似组距 i=R/K(极差/组数)=4.45/12=0.37 根据专业习惯和方便计算适当调整, 所以本例 i=0.40。(3)定组段的上下限: 每个组段的起点(最小值)称为该组的下限(low limit),终点(最大值)称为该组的上限(upper limit)。,3、列表划记:统计各组段的频数,(二)频数分布表的用途,1、揭示资料的分布类型: 资料分布类型可分为对称分布和偏态分布。 对称分布是指集中位置在中间,左右两侧频数大体对称。 偏态分布是指集中位置偏向一侧,频数分布不对称的。集中位置偏向左侧的,为正偏态,又叫左偏态;集中位置偏向右侧的,为负偏态,又叫右偏态。,2、揭示频数分布的集中趋势和离散趋势。集中趋势:大多数观察值趋向于同一数值的趋势,集中在4.00组段。离散趋势:所有观察值不会均为同一数值,而是或近或远地分散在集中位置的周围。,3、便于发现特大或特小的可疑值。4、便于进一步选择方法计算统计指标。,一、数值变量资料的频数分布二、集中趋势的描述三、离散趋势的描述,二、集中趋势的描述,平均数(average):描述一组观察值集中位置或平均水平的指标。常用的平均数:算术均数几何均数中位数,符号:总体均数用希腊字母,样本均数适用范围:对称分布,尤其正态或近似正态分布的资料。计算方法:直接法加权法,算术均数:简称均数 (mean),直接法(用于n30)加权法(用于n30),如表9-3第一组段的组中值是按均数的计算公式求得均数为:,几何均数G(geometric mean),一组观察值的乘积开n次方所得的根即为几何均数适用范围变量值呈倍数关系的资料对数正态分布资料,几何均数的计算方法:,1、直接法(用于小样本)式中:lg 对数符号,lg-1反对数符号例 见P290页例9-3,2、加权法(用于大样本),112名儿童接种疫苗后血清抗体平均滴度为1:48。,中位数(median,M),定义:是指一组观察值从小到大顺序排列后居于中间位置的数。即总数中有一半的数低于它,一半的数高于它。 适用范围 :偏态分布资料;开口资料;分布类型不清的资料,中位数的计算方法:,1、小样本计算法: 当n为奇数时 M=X(中间) 当n为偶数时 M=中间两位观察值的均数 按升序排列后的,2、百分位数法:大样本频数表资料 百分位数(percentile,Px):表示一组观察值按升序排列,并等分为100等份,位居第x%位置的数。 中位数M=P50,式中, Px:百分位数L:百分位数所在组下限; i:百分位数所在组的组距;fx:百分位数所在组的频数;fL:百分位数所在组之前的累计例数;n:样本例数。,本例怎样找中位数组段呢? 因为本例n=340是偶数,按照中位数的定义,中位数M所在组为340/2=170所在组, 可从累计频数一栏中找刚包括170的那一组,也可从累计频率一栏中找刚包括50%的那一组。 本例中位数所在组的下限为1.25-的组;i为0.25;f为55;fi为164,将其代入公式,求得M,案例1,2012年5月份,西南财经大学发布中国家庭金融调查报告,数据显示中国城市家庭资产平均247万元,遭到网友质疑。 报告负责人回应称,抽样“随机”且覆盖面广,可以代表全国;调查结果显示,在抽样调查的样本里,资产最多的10%的家庭占全部家庭总资产的比例高达84.6%。城市家庭资产的中位数仅为40.5万元,比较接近普通人的感觉。 针对上述资料,您认为应选择何种指标来正确评价中国城市家庭资产的平均水平,为什么?,三、离散趋势的描述,极差四分位数间距方差标准差变异系数,(一)极差(range) 1、计算 2、优缺点 简便 不全面 不稳定,(二)四分位数间距/Q 1、百分位数(percentile) X% 2、四分位数 LP25 UP75 3、四分位数间距Q=U-L,适用范围:与中位数联合描述偏态分布资料的分布特征。,(三)方差(variance) 标准差(standard deviation/SD) 离均差每一个观察值与均数之差,即X-,可以反映所有观察值的变异程度。 离均差平方和 方差离均差平方的平均值,数学上可以证明:,其中,n-1称为自由度(degree of freedom。,由于方差的度量单位是原度量单位的平方,为了方便实际使用,将方差公式开方,即得到标准差(standard deviation)。,用途反映个体观察值之间变异大小结合均数描述正态分布特征计算其他指标,如标准误等,(四)变异系数(coefficient of variation)/CV 1、意义 标准差与均数之比用百分数表示 2、计算 3、用途 比较度量衡单位不同资料的变异度 比较均数相差悬殊资料的变异度,第二节 正态分布及其应用,一、正态分布二、正态分布的特征和曲线下面 积分布的规律三、参考值范围的估计,正态分布曲线:高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的钟型曲线。该曲线的函数表达式f(x)称为正态分布密度函数,位置参数: 决定曲线的位置变异度参数: 决定曲线的形状,正态概率密度曲线的特点:(1)关于x=对称(2)在x=处取得最大值。(3)曲线下面积为1。(4)决定曲线在横轴上的位置, 增大,曲线沿横轴向右移;反之, 减小,曲线沿横轴向左移。(5)决定曲线的形状,当恒定时, 越大,数据越分散,曲线越“矮胖”; 越小,数据越集中,曲线越“瘦高”。 习惯上用N( , 2)表示均数为、标准差为的正态分布。,标准差相同、均数不同的四条正态曲线,均数相同、标准差不同的四条正态曲线,二、正态概率密度曲线下面积的分布规律正态曲线下面积的分布规律由和所决定。,-3 -2- + +2 +3,68.27%,95.44%,99.74%,F(X),一定区间的面积可以通过对密度曲线函数积分求得F(X)称为正态分布曲线的分布函数。它表示正态分布曲线下自到某定值X的左侧累计面积(概率)。,对于非标准正态分布N(,),求曲线下任意( )范围内的面积,可先作标准化变换,借助标准正态表估计任意( )范围内的频数比例。 u服从总体均数为0、总体标准差为1的正态分布,此分布称为标准正态分布。用 表示。,三、正态分布的应用,(一)估计变量值的频数分布例:某地1986年120名8岁男孩身高均数为123.02cm,标准差为4.79cm,试估计:(1)该地8岁身高在130cm以上者占该地8岁男孩总数的百分比。(2)身高在120-128cm者占该地8岁男孩总数的百分比。,(二)制定参考值范围,1、医学参考值:又称临床参考值或正常值,是指“正常”人体和动物的各种生理、生化、组织代谢物中各种成分含量及人体对各种试验的反应值。 广义的医学参考值还包括各类“卫生标准”。 应注意的是,医学参考值的不是一个单一的数值,而是许多数值的集合或全体,即是一个范围。,2、制定参考值范围的基本步骤,1) 从同质的总体中进行随机抽样 2) 对选定的正常人进行准确的测量3) 确定取单侧还是双侧4) 确定适当的百分范围5) 根据资料的分布类型选定适当的方法进 行参考值范围的估计,3、参考值范围的制定方法,(1) 正态分布法: 95%的参考值范围 双侧为: 1.96 S 单侧上限为: + 1.645 S 单侧下限为: 1.645 S,(2) 百分位数法: 对于偏态分布或未知分布的资料,参考值范围的确定常用百分位数法,95%的参考值范围双侧为P2.5P97.5单侧上限为P95单侧下限为P5,例9-11 用表9-1的资料,求该地成年男子血清BUN 含量95%的参考值范围。分析:1.血清BUN资料服从正态分布,采用正态分布法2.血清BUN过高和过低都不正常,所以应取双侧界值,例9-12 用表9-7的资料,计算7岁以下男童血铅95%的参考值范围。分析:1.血铅资料为偏态分布资料,采用百分位数法2.血铅过高不正常,所以应取单侧上限作为制定的界值,计算P95 P95=2.54umol/L该市7岁以下男童血铅含量95%的参考值范围的上限是2.54umol/L,(三)质量控制(四)正态分布是很多统计方法的基础,第三节 数值变量资料的统计推断,假设检验,参数估计,总体,样本,抽样,统计推断,统计描述:利用统计图、统计表、统计指标等来描述资料的规律性及特点。统计推断:用样本信息估计总体参数所在范围和用样本信息推断总体参数之间有无差别。 即参数估计和假设检验。参数估计:用样本指标(统计量)估计总体指标(参数)。假设检验:利用样本信息推断总体参数之间有无差别的方法。,一、均数的抽样误差与标准误二、 t 分布三、总体均数的置信区间估计四、假设检验的基本思想和步骤,一、均数的抽样误差与标准误,从正态总体中抽样得到的样本均数的分布情况?从偏态总体中抽样得到的样本均数的分布情况?,一、样本均数的抽样分布与抽样误差,从正态分布总体中抽样实验,N(155.4,5.32),表9-3 从正态总体N(155.4,5.30)中随机抽样求得的100个样本均数的频率分布( n=10),抽样误差:从某一总体中随机抽取样本,所得样本统计量与相应的总体参数往往不同,样本统计量之间也不尽相同,这种差异称为抽样误差。特点:不可避免,但有规律可循。,集中趋势:样本均数的均数=155.52cm离散趋势:样本均数的标准差=1.64cm,从偏态分布总体中抽样分布情况,中心极限定理:从均数为,标准差为的正态总体中随机抽取例数为n的样本,样本均数服从均数为,标准差为 的正态分布;从偏态分布总体中随机抽样,当样本含量足够大时,样本均数也服从均数为,标准差为 的正态分布 的正态分布。,样本均数的标准差,即均数的标准误为:实际应用中,总体标准差通常未知,需要用样本标准差S来估计,此时,均数标准误的估计值为,均数标准误的用途,衡量样本均数的可靠性与样本均数结合估计总计均数的置信区间。用于进行假设检验。,二、t 分布1、t分布的概念 从正态分布 抽得的样本均数服从正态分布 ,对样本均数做标准化变换。,英国统计学家W.S.Gosset证明t服从自由度 的t分布,即,二、t分布的图形和t分布表,t 分布曲线的特征单峰分布,以0为中心,左右对称,类似于标准正态分布。自由度越小,曲线的峰部越矮,尾部越粗。随着自由度逐渐增大, t 分布逐渐逼近标准正态分布;当 趋于时,t 分布就完全成为标准正态分布。故标准正态分布是t 分布的特例。,同标准正态分布曲线一样,统计应用中最为关心的是t分布曲线下的面积与横轴t值间的关系。 为方便使用,统计学家编制了不同自由度下t值与相应概率关系的t界值表。,表内数据为当自由度和概率确定时所对应的t值。从表中数字及图例可看出:在相同自由度时,t值增大,概率p减小。在相同t值时,双侧概率p为单侧概率p的两倍。在相同概率下,随着自由度的增加, t值变少,越来越接近u值,三、 总体均数的估计(一)点估计(point estimation):用样本统计量直接作为总体参数的估计值。优点:能够明确的估计总体参数缺点:该值一般不等于总体参数的真值,它与真值的误差以及估计可靠性如何,无法确定。,(二)区间估计(interval estimation)区间估计:以预先给定的概率(置信率)估计总体参数所在范围的估计方法称为区间估计。置信度(率):它表示置信区间估计正确的概率。置信度一般记为1-,常用的置信度为95%。置信区间:根据一定的置信度进行估计得到的区间称为总体参数的置信区间(confidence interval, CI)。,总体均数的置信区间估计方法 根据已知条件选用合适的方法(1)当总体标准差已知时,总体均数的95%置信区间为 (2)当未知但n足够大时,可按正态分布原理来估计,总体均数的双侧置信区间为,(3)当未知,且n较小时,可按t分布原理来估计,总体均数的双侧置信区间为,例10-13 用表10-1中资料, 求该地140名正常成年男子血清BUN浓度总体均数的95%CI。 测得该样本血清BUN浓度的均数为4.38mmol/L,标准差为1.05mmol/L 。分析:总体标准差未知,样本为大样本。,该地健康男子血清BUN的95%置信区间为(4.21,4.55)mmol/L,例 随机抽取某地健康男子20人,测得该样本的收缩压均数为118.4mmHg,标准差为10.8mmHg,试估计该地区男子收缩压总体均数的95%置信区间。分析:总体标准差未知,样本为小样本,因此用t分布法,该地健康男子收缩压总体均数的95%置信区间为(113.3,123.5)mmHg,该地健康男子收缩压总体均数的99%置信区间为(111.5,125.3)mmHg该地健康男子收缩压总体均数的95%置信区间为(113.3,123.5)mmHg,四、假设检验的基本思想和步骤,假设检验的基本思想,假设检验的基本思想是小概率反证法思想。小概率事件(P0.05)是指在一次试验中基本上不大会发生的事件。小概率事件原理:一个事件如果发生的概率很小,那么它在一次试验中是实际不会发生的。在数学上,我们称这个原理为小概率事件原理。,反证法思想是先提出假设,再用适当的统计方法确定假设成立的可能性大小,如可能性小于0.05,则认为假设是小概率事件,根据小概率事件原理,认为不成立,若可能性大于0.05 ,则假设不是小概率事件,还不能认为假设不成立。,例10-14 正常成年男子血小板计数的均数为2.25109/L,今测得20名男性铅作业工人的血小板计数值(109/L)220,188,162,230,145,160,238,188,247,113,126,245,164,231,256,183,190,158,224,175。问铅作业工人的血小板计数与正常成年男子有无差异?(已知资料服从正态分布),0= 2.25109/L,造成样本均数与总体均数差别的原因:一是由于抽样误差所造成,样本来自的总体和已知总体没有差别,但由于抽样误差的存在,从而造成该样本均数与已知总体均数的差别(抽样误差导致的差别)。二是样本来自的总体确实与已知总体有差别,即铅作业工人的血小板含量确实不同于一般健康成人,从而造成该样本均数与已知总体均数的差别(本质上的差别),假设检验的基本步骤,第一步:提出检验假设;建立检验水准第二步: 选定统计方法,计算出统计量 的值;第三步:确定P 值,作出推断结论。,1 建立检验假设,一种假设是“两总体均数相等,即该地区所有健康成年男性血红蛋白的总体均数等于一般健康成年男性的总体均数”简称为“原假设”(null hypothesis),又称为零假设,记为H0,表示目前的差异是由抽样误差引起。另一假设是“两总体均数不等,即该地区所有健康成年男性血红蛋白的总体均数不等于一般健康成年男性的总体均数” ,简称“对立假设”或“备择假设”(alternative hypothesis),记为H1,表示目前的差异不是由抽样误差所致,而是两者存在本质不同。,将样本对应的总体均数记为,已知的总体均数记为0,则两个假设可简单的表示为:,确定检验水准检验水准:决策者事先规定的一个小概率值,用表示,通常取0.05 或0.01。,2.选定检验方法和计算检验统计量,3.确定P值,作出推断结论P值(P-value) :在H0所规定的总体中进行随机抽样,获得等于及大于现有样本获得的检验统计量值的概率。在两个假设中进行二者取一的规则是: 如果P值小于或等于检验水准,拒绝零假设,接受备择假设。 如果P值大于检验水准,不拒绝零假设。,结论: P0.001,按=0.05的水准,拒绝零假设,接受备择假设。可以认为该地铅作业工人的血小板计数总体均数与一般健康成年男性血小板计数总体均数不同。,第四节 t 检验和u 检验,t 检验和u 检验就是统计量为 t, u 的假设检验,两者均是常见的假设检验方法,用于推断两总体参数之间有无差别。当样本含量n 较大时,样本均数符合正态分布,故可用u 检验进行分析。当样本含量n 较小,样本来自正态分布,两样本相应的总体方差相等,则用t 检验。,一、样本均数与总体均数的比较二、配对资料的比较三、两个样本均数的比较四、假设检验应注意的问题,一、样本均数与总体均数的比较(一)推断目的:推断样本来自的总体均数是否与某已知数值0相等。,(二)公式,二、配对资料比较,配对设计:包括异体配对和自身配对。异体配对:将某些重要特征相似的每两个受试对象配成一对,每对中的两个对象分别接受两种不同的处理。自身配对:同一受试对象处理前后的比较,同一受试对象的两个部位分别接受两种处理,或者是将受试对象一分为二,分别接受两种处理。,(一)推断目的:差值d的总体均数是否为0。(二)公式,例10-16 应用某药治疗8例高血压患者,观察患者治疗前后舒张压变化情况,如表10-11所示,问该药是否对高血压患者的舒张压有影响?,表10-11用某药治疗高血压患者的舒张压变化情况,1.建立假设2.确定检验水准3.计算统计量,4.确定P值,作出推断查t界值表,得P0.05,在=0.05的水准上拒绝H0,接受H1。认为该药有降压作用。,三、两个样本均数的比较,(一)推断目的:推断两样本来自的总体均数是否相等。,(二)公式1. 两小样本比较,例 两组雄性大鼠分别饲以高蛋白和低蛋白饲料,观察每只大鼠在实验第28天到84天之间所增加的体重,见表9-11,请分析用两种不同饲料喂养大鼠后,体重的增加有无差别?,表9-11 用两种不同蛋白质含量饲料喂养大鼠后体重增加,建立检验假设,确定检验水准计算统计量,3.确定P值,作出推断查t界值表知P0.10,在=0.05的水准上不拒绝H0,尚不能认为正常男女新生儿血中甘油三酯浓度均数不同。,假设检验应注意的问题,(1)资料必须合乎随机化抽样原则;(2)选用的假设检验方法应符合其应 用条件;(3)实际差别大小与统计意义的区别, 要正确理解假设检验的结论;,(4)根据专业及经验确定是选用单侧 检验还是双侧检验。(5)判断结论时不能绝对化,应注意 无论“接受”或拒绝检验假设,都 有判断错误的可能性。,假设检验应注意的问题,谢谢,第五节 方差分析,一、方差分析的基本思想二、方差分析的应用条件三、方差分析的主要内容四、多个样本均数的两两比较,方差分析的基本思想是把全部观察值之间的变异(即总变异),按设计和需要分为两个或多个部分,其自由度也分解为相应的部分。每一部分有一定意义,其中至少有一部分表示各组均数间的变异,另一部分表示误差。然后再计算变异间的比值F。若F 值接近 1,可认为处理因素无作用;若F 值远大于 1,且大于或等于F 界值表中的某界值时,可认为处理因素有作用。,方差分析的基本思想,方差分析的应用条件,(1)各样本是相互独立的随机样本(2)各样本都来自正态总体 (3)各个总体方差相等,方差分析的主要内容,根据资料设计类型的不同,有以下两种方差分析的方法:1.对成组设计的多个样本均数比较,应采用完全随机设计的方差分析,即单向方差分析。2.对随机区组设计的多个样本均数比较,应采用配伍组设计的方差分析,即双向方差分析。,多个样本均数的两两比较,经过方差分析若拒
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年恢复驾驶资格考试复习题及答案一
- 新疆维吾尔自治区铁路机车车辆驾驶人员资格考试(内燃机车专业知识)能力提高训练题及答案
- 2025年企业人力资源管理员(国家职业资格四级)考试题库及答案(云南省)
- 2025年一级企业人力资源管理师考试(专业能力)仿真试题及答案一
- 2025年企业人力资源管理师职业技能鉴定等级考试(理论知识)四级中级仿真试题及答案四
- 职业暴露防护知识培训考核题及答案
- 中国聚苯乙烯丁二烯共聚物项目创业投资方案
- 2025年混凝土试题及答案
- 2025年初级月嫂考试题及答案
- 2025年诸城小学数学真题及答案
- 2025年成人高考专升本生态学基础真题及答案
- 2025年肿瘤内科正高试题及答案
- 水务大数据分析与应用-洞察及研究
- 十八项电网重大反事故措施第一课培训课件
- 专利技术入股协议书标准范本
- 2025年及未来5年中国定制手机行业市场调查研究及投资前景预测报告
- 修理扫帚课件
- 2025年学法普法综合知识竞赛答题题库(附答案)
- 治边稳藏课件
- 北控水务集团2026届校园招聘120人笔试模拟试题及答案解析
- 树妈妈和树叶娃娃教学课件
评论
0/150
提交评论