




已阅读5页,还剩73页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
医学统计学方法及试题分析 第二单元 医学统计学方法 第一节 基本概念和基本步骤 一考什么 基本概念 1总体和样本 2同质和变异 3参数和统计量 4抽样误差 5概率 6变量和变量值 基本步骤 二最重点是什么 基本概念 三最难点的是什么 抽样误差 概率 一统计学中的几个基本概念 1总体根据研究目的确定的同质的全部研究对象严格地讲是某项观察值的集合 被称作总体 有限总体总体中的个体数有限如研究2008年中国60 岁以上的老人血清总胆固醇含 量测定值的全部构成了一个总体 无限总体总体中的个体数无限或假设总体或虚拟总体如研究糖尿病人的空腹血 糖测定值由于对时间和空间未加限制全部糖尿病人的空腹血糖测定值则是一个无限总体 2样本根据随机化的原则从总体中抽出的有代表性的一部分观察单位组成的子集称作 样本如从糖尿病患者中随机抽取的有代表性的一组患者构成样本 3同质严格地讲除了实验因素外影响被研究指标的非实验因素相同被称为同质 但在人群健康的研究中有些非实验因素是难以控制或未知的如遗传营养心理等 因此在实际研究工作中对被观测指标有影响的主要的可控制的非实验因素达到相同 或基本相同就可以认为是同质同质是研究的前提 4变异在同质的基础上被观察个体之间的差异被称作变异如同性别同年龄同地 区同体重儿童的肺活量有大有小我们称之为肺活量的变异这是统计数据的特性变异 性 5参数总体的统计指标称为参数一般用希腊字母表示如ms如通过普查 得到中国25 岁以上的成年人高血压患病率为参数 6统计量样本的统计指标称为统计量如 s p如用随机的方法抽出一部分地 区25 岁以上的人进行体检计算的患病率则为样本统计量 7误差观察值与实际值的差别为误差观察过程中由于不认真仔细造成错误地判断 记录或录入计算机所致的观察值与实际值之差为过失误差仪器若未经校准使观察值统一 间相同观察者的若干次观察值之间不完全相同则被称作随机测量误差从同一总体中抽 样得到某变量值的统计量和总体参数之间有差别被称为抽样误差 8概率描述随机事件如发病发生可能性大小的度量为概率常用P表示P值的 范围在0 和1之间P005的随机事件通常称作小概率事件即事件发生的可能性很小 统计学上可以认为在一次抽样是不可能发生的 9变量及变量值观察对象的特征或指标如身高称为变量测量的结果被称为变量 值如身高值 数值变量变量值是定量的表现为数值的大小有度量衡单位计量资料如身 高cm体重kg 分类变量变量值是定性的表现为互不相容的类别或属性计数资料 无序分类变量各类别间无程度上的差别如性别分男女两类 有序分类变量各类别间有程度上的差别如临床疗效可分为治愈显效好转 无效四级 二统计工作的基本步骤 医学统计工作基本步骤有四设计搜集资料整理和分析资料这四个步骤是相互联 系的 1设计统计工作最关键的一步整个研究工作的基础 2搜集资料指选择得到资料的最佳途径和获取完整准确可靠资料的过程 3整理资料资料整理的目的是将搜集到的原始资料系统化条理化便于进一步计算 统计指标和深入分析 4分析资料根据研究设计的目的要求资料的类型和分布特征选择正确的统计方法 进行分析常常从两个方面分析一是进行统计描述即计算平均值发病率等二是进行 统计推断即推断总体的特征如推断总体均数等 习题 1样本是总体的 A有价值的部分 B有意义的部分 C有代表性的部分 D任意一部分 E典型部分 答疑编号500744020101 正确答案C 2在统计学中数值变量构成 A等级资料 B计数资料 C计量资料 D分类变量 E定性因素 答疑编号500744020102 正确答案C 3统计学数据具有的特性 A稳定性 C主观性 D变异性 E可靠性 答疑编号500744020103 正确答案D 4统计工作的步骤不包括 A统计设计 B搜集资料 C分析资料 D整理资料 E题目的制定 答疑编号500744020104 正确答案E 5B1 型题 A获得原始资料 B统计设计 C统计归纳进行分组和汇总 D撰写文章 E计算统计指标选择合适的检验方法并作出恰当的结论 1收集资料是 答疑编号500744020105 正确答案A 2整理资料是 答疑编号500744020106 正确答案C 3分析资料是 答疑编号500744020107 正确答案E 第二节 数值变量数据的统计描述 一考什么 1集中趋势指标 2离散趋势指标 3正态分布的特点与面积分布规律 二最重点是什么 正态分布的集中趋势和离散趋势的指标 三最难点的是什么 正态分布的特点与面积分布规律 一集中趋势指标 平均数average是一类用于描述数值变量资料集中趋势或平均水平的指标常 用的平均数包括算术平均数几何平均数与中位数 希腊字母读作mu表示样本均数用 表示 适用条件资料呈正态或近似正态分布大多数正常生物的生理生化指标都宜用均数 表达集中趋势算术平均数的计算方法有直接法和加权法 2几何均数几何均数用G 表示是将n 个观察值x 的乘积再开n 次方的方根或各观 察值x 对数值均值的反对数 适用条件是当一组观察值为非对称分布其差距较大时用均数表示其平均水平会 受少数特大或特小值影响数值按大小顺序排列后各观察值呈倍数关系或近似倍数关系 如抗体的平均滴度药物的平均效价等 3中位数与百分位数 中位数M是把一组观察值按大小顺序排列位置居中的变量值n为奇数或位 置居中的两个变量值的均值n 为偶数中位数是一个位次上的平均指标以中位数为界 将观察值分为左右两半 适用情况有当资料呈明显的偏态分布资料一端或两端无确定数值如大于或小 于某数值资料的分布情况不清楚在这些情况下多选用中位数例如某些传染病或食 物中毒的潜伏期人体的某些特殊测定指标如发汞尿铅等其集中趋势多用中位数来 表示 百分位数percentilePx是把一组数据从小到大排列分成100 等份各等份含1 的观察值分割界限上的数值就是百分位数取任意一个百分位数Px可以把全部数值分为 左右两半中位数是第50百分位数用P50 表示第5第25第75第95 百分位数分 别记为P25P75P95是统计学上常用的指标四分位数间距 P25P75 用于确定非正态分布资料的医学参考值范围 习题 有8个某种传染病人他们的潜伏期分别为l211218125413其中位 数是 A12 com C10 D8 com 答疑编号500744020108 正确答案B 答案解析从小到大排列4 5 8 11 l2 12 13 21 位于中间位置的数是11和 l2中位数是115 二离散趋势指标 描述资料离散程度的指标 用于说明一组同质资料的离散度大小 1全距 用R 表示是一组资料的最大与最小值之差全距越大说明资料的离散程度越大 全距仅考虑两端数值之间的差异未考虑其他数据的变异情况且不稳定易受极端值大小的 影响不能全面反映一组资料的离散程度 2四分位数间距 用Q表示若将一组资料分为四等份上四分位数QuP75和下四分位数QLP25 之差就是 值越大说明资料的离散程度越大通常用于描述偏态分布资料的离散程度 反应资料的离散趋势 3方差 离均差平方和Xi 一2的均数总体方差用2表示样本方差用S2表示 度量单位如cmmmHg 等都变为单位的平方值公式分别为 4标准差 将方差开平方取平方根的正值就是标准差公式为 n一l和fi一1为自由度 方差和标准差都是说明资料的变异程度其值越大说明变异程度越大标准差与算术 均数一起使用描述正态分布资料的集中趋势和离散趋势标准差愈小说明观察值的离散 程度愈小从而也说明用均数反映平均水平的代表性愈好 标准差的用途较广概括起来有四个方面 反映一组观察值的离散程度标准差小离散程度小均数的代表性好 用于计算变异系数 计算标准误 结合均值与正态分布的规律估计医学参考值的范围 5变异系数用CV 表示CV 是将标准差转化为算术均数的倍数以百分数的形式表 示CV 常常用于比较度量单位不同或均数相差悬殊的两组或多组资料的变异程度公 式为 例1全面描述正态分布资料特征的两个指标是 A均数和中位数 B均数和标准差 C均数和极差 D中位数和方差 E几何均数和标准差 答疑编号500744020201 正确答案B 2 描述偏态分布资料特征的两个指标是 A均数和中位数 B均数和标准差 C均数和四分位数间距 D中位数和四分位数间距 E几何均数和标准差 答疑编号500744020202 正确答案D 3两组呈正态分布的数值变量资料但均数相差悬殊若比较离散趋势最好选用的指 标为 A全距 C方差 D标准差 E变异系数 答疑编号500744020203 正确答案E 三正态分布的特点与面积分布规律 1正态分布及其特点 正态分布是一种重要的连续型分布以均数为中心左右两侧基本对称靠近均数两侧 频数较多离均数愈远频数愈少形成一个中间多两侧逐渐减少基本对称的分布正 态分布曲线用N2表示 对于任何一个均数和标准差分别为与的正态分布都可以通过变量的标准正态变换 称作正态差使之成为标准正态分布用N01表示即值的均数为0标 准差为1 正态分布有以下五个特征 正态曲线在横轴上方且均数所在处最高 正态分布以均数为中心左右对称 正态分布有两个参数即均数与标准差与标准正态分布的均数和标准差分 别为0 和1 正态曲线在士l96标准正态分布在1处各有一个拐点 正态分布的面积分布有一定的规律性 2面积分布规律正态分布的面积规律见表9-3 表93 正态分布和标准正态分布曲线下面积分布规律 正态分布 标准正态分布 面积或概率 11 11 6827 196196 196196 9500 258258 258258 9900 例普查某市8 岁正常男孩体重发现95的人体重在18392945公斤其标准差 是 com com com com E无法计算 答疑编号500744020204 正确答案C 答案解析m-196sm196s m196s 2945 392s 1106 s 282公斤 第三节 数值变量数据的统计推断 一考什么 1均数的抽样误差和标准误 2总体均数可信区间的估计 3假设检验的基本步骤 4两均数的假设检验u 检验和t 检验 5分类变量资料的统计推断 二最重点是什么 1均数的抽样误差和标准误 3假设检验的基本步骤 3两均数的假设检验u 检验和t 检验 三最难点的是什么 1均数的抽样误差和标准误 2两均数的假设检验u 检验和t 检验 一均数的抽样误差 从同一总体中随机抽取若干个观察单位数相等的样本由于抽样引起样本均数与总体均 数及样本均数之间的差异称作均数的抽样误差其大小可用均数的标准差描述样本均数的 标准差称为标准误抽样误差在抽样研究中不可避免标准误越大均数的抽样误差就越大 说明样本均数与总体均数的差异越大 标准误计算公式为 公式12 公式中表示总体标准差n 为样本例数 为标准误实际研究中是未知的常以 样本标准差S 作为的估计值计算标准误记作为 公式13 由公式13可知当样本例数n一定时标准误与标准差呈正比当标准差一定时标 准误与样本含量n 的平方根呈反比增加样本含量才可减少抽样误差 标准误的用途一是用来衡量抽样误差大小标准误越小样本均数与总体均数越接近 即样本均数的可信度越高二是结合标准正态分布与t分布曲线下的面积规律估计总体均 数的置信区间三是用于假设检验 例1反映均数抽样误差大小的指标是 A标准误 B标准差 C变异系数 D均数 E全距 正确答案A 2从一个呈正态分布的总体中随机抽样 该差别被称为 A系统误差 B个体差异 C过失误差 D抽样误差 E测量误差 答疑编号500744020206 正确答案D 二总体均数可信区间及其估计方法 统计学的核心内容是用样本信息推断总体特征包括1参数估计和2假设检验 对总体参数估计有点值估计和区间估计两种方法 点值估计是用样本统计量如均数 作为对总体参数如均数的估计值 总体均数可信区间是根据选定的可信度或可靠度用概率表示估计的总体均数所 在区间即总体均数可能所在范围 在估计总体均数的可信区间时可能估计错误其概率用表示估计正确的概率为 1-也称为可信度常用95或99总体均数可信区间估计时根据以下三种情况选用公 式 1已知总体均数的95可信区间为 公式15 2未知但样本例数足够大总体均数95的可信区间 公式16 3未知样本例数较小按t 分布原理总体均数95的可信区间 公式17 例7随机抽取某地健康男子18 人测得空腹静脉血的甘油三酯均数 为1298mmol L标准差S为0663试估计该地男子空腹静脉血甘油三酯总体均数的 95可信区间 本例 l298S 为0663 自由度n-1 18-1 17 005查t 界值表双侧t005217 2110代入公式17 得1298-21101563129821101563 09681628 该地健康男子甘油三酯总体均数的95可信区间为09681628mmolL 总体均数 95可信区间的涵义是从总体中随机抽样理论上讲进行 100次抽样 可算得100个可信区间约有95个可信区间包含总体均数只有5 个可信区间未包含总体 均数实际工作中仅得到一个样本根据一个样本估计的总体均值的可信区间有 95的 可能性包含总体均值 三假设检验的基本步骤 假设检验亦称显著性检验是统计推断的另一重要内容其目的是比较总体参数之间有 无差别 具体步骤如下 1建立检验假设和设定检验水准 检验假设有两种一种是无效假设或称为零假设记作H0即假设差异是由于抽样 误差所致总体参数相同另一种是备择假设记作H1即差别不是由于抽样误差所致 如果根据专业知识既可能大于0也可能小于0则这种检验称为双侧检验 two-sided test若认为只可能大于或等于0而不可能小于0 时或相反情况称 这种检验为单侧检验如果根据专业知识不能确定单侧的情况时应采用双侧检验 检验水准亦称显著性水准用表示检验水准的含义就是指无效假设H0 实际上成立 但样本信息不支持H0统计上拒绝无效假设H0 的可能性大小的度量通常取005或 001 建立检验假设设定检验水准 双侧检验H00H10a005 单侧检验H00H10或0a005 例已知一般无肝肾疾患的健康人群尿素氮均值为4882mmolL16名脂肪肝患 者的尿素氮mmolL测定值为574575426624536868647524413 118557561437459518696问脂肪肝患者尿素氮测定值的均数是否高于 健康人 H0脂肪肝患者的尿素氮均值与一般无肝肾疾患的健康人群尿素氮总体均值相同 0 H1脂肪肝患者的尿素氮均值高于一般无肝肾疾患的健康人群尿素氮总体均值相同 0 检验水准005 2计算统计量 根据研究设计类型资料特征和各方法公式的适用条件选择和计算检验统计量 3确定概率和作出统计推断 算得的统计量与相应的界值比较确定P值P 值是从H0 所规定的总体进行随机抽样 获得等于及大于或等于及小于现有样本统计量的概率即在H0 成立的条件下观察到 的样本差别是由于机遇所致的概率因此P值越小越有理由拒绝无效假设认为总体之间 有差别的统计学证据越充分需要注意不拒绝H0 不等于支持H0 成立仅表示现有样本 信息不足以拒绝H0根据P值作出统计推断两个均数比较时常用的判断标准如下 U 检验单侧u1645双侧u196则P005差异无统计学意义不拒绝H0 单侧l645双侧196则P005差异有统计学意义拒绝H0 t检验单侧tt005双侧tt0052P005差异无统计学意义不拒绝H0 单侧tt005双侧tt0052则P005差异有统计学意义拒绝H0 习题 假设检验是为了 A研究总体指标的变化 B研究样本指标的变化 C排除主观因素对抽样的影响 D排除抽样误差的影响 E排除系统误差的影响 答疑编号500744020301 四u检验和t检验 1样本均数与总体均数的比较 总体均数是指大量观测所得到的稳定值或理论值记作0样本与总体均数比较的目 的是推断样本所代表的未知总体均数与已知总体均数0是否相同 1用上例问脂肪肝患者尿素氮测定值的均数是否高于健康人脂肪肝可能影响尿 素氮的代谢本例属于单侧检验 1建立假设确定检验水准 H0 0H10 005 2选定检验方法计算检验统计量t 值 本例于 5997S 1920n l6 3确定P 值判断结果 n-1 16-1 15查t 界值表单侧 t00515 1725t002515 2131t00115 2602 本例t00115t232 t0002515故001P0025按照 005的检验水准 拒绝H0接受H1认为脂肪肝患者的尿素氮测定值高于健康人 2u检验 若此例已知一般无肝肾疾患的健康人群尿素氮的标准差为l900mmolL问脂 肪肝患者尿素氮测定值的均数是否高于健康人 本例因提供了总体标准差可以进行u 检验 2两个样本均数的比较 目的比较推断两个样本均数所代表的两个总体均数1和2 有无差别 1建立假设确定检验水准 H0l 2 H1l2 或12 或12 005 2选择检验方法 两个大样本均数比较的u 检验 当两个样本含量较大均50时自由度足够大可用u 检验 公式19 两个小样本均数比较的t 检验 3确定P 值判断结果 条件 数值变量资料计量资料 资料服从正态分布 目的比较样本均数所代表的总体均数是否相同 习题 正态分布的数值变量两组资料的比较检验统计量的计算用 AX Cx一Sx Dd一Sd E xlx2Sx1x2 答疑编号500744020302 正确答案E 对l0 名25 岁以上的山区健康男子测量脉搏次数次分用t检验与全国正常男子 资料进行比较按 005的检验水准自由度为 Av 9 Bv 19 Cv 8 Dv 20 Ev 18 答疑编号500744020303 正确答案A 五假设检验的两类错误及注意事项 1两类错误 假设检验帮助回答H0 是否成立但它是建立在小概率事件原理上的判断无论拒绝还 是不拒绝H0都有可能犯错误 拒绝了实际正确的无效假设H0 称为犯了第1类错误type Ierror概率用表示通 常称之为检验水准1evel ofsignificance常取 005 不拒绝实际上错误的无效假设H0 称为犯了第类错误type IIerror概率用表示 1 一称为检验效能powerof test其意义是当两个总体存在差异时所使用的统计检 验按a 水准能够发现这种差异拒绝无效假设 H0的能力如1-b 09 的含义是若两总体 确有差别理论上平均每100 次抽样有90 次能得出有差别的结论 2正确理解假设检验的结论 检验水准是005当P005 时则拒绝H0接受H0差异统计学意义它的含义是 在随机抽样研究中由样本信息计算检验统计量时获得这样大或更大的统计量的可能性很 小因而拒绝H0但并不是H0 绝对不成立更不是两个均数相差很大 当P005时则不拒绝H0但并不是说H0 绝对成立 第四节 分类变量资料的统计描述 一考什么 1相对数常用指标及其意义 2应用相对数时应的注意事项 二最重点是什么 1相对数常用指标及其意义 三最难点的是什么 率和构成比的区别 一相对数常用指标及其意义 相对数是两个有关联的数值之比常用的指标有率rate构成比constituent ratio 1率 某现象在某时期实际发生数与可能发生某现象的总数之比用以说明某现象发生的频率 或强度又称频率指标常以百分率千分率万分率或十万分率表示计算公式为 如发病率患病率感染率有效率治愈率 2构成比 事物内部某一部分的观察单位数与事物内部各部分的观察单位数总和之比以百分数表 示说明事物内部各部分所占的比重或分布 计算公式为 构成比有两个特点 各部分构成比的合计等于100或l 事物内部某一部分的构成比发生变化其他部分的构成比也相应地发生变化 3相对比 两个联系指标之比常以百分数或倍数表示计算公式为 说明A 为B的若干倍或百分之几 AB 两个指标可以是绝对数也可以是相对数 可以性质相同也可以性质不同 可以是定性资料也可以是定量资料 如性别比CV 等都是相对比的指标 B1 题型 A表示某病发生严重程度 B反映两个指标的相对关系 C反映某病在各疾病中所占的位次 D反映同种病不同时间动态变化情况 E反映同种病不同地区的严重情况 1发病率 答疑编号500744020304 正确答案A 2构成比 答疑编号500744020305 正确答案C 3相对比 答疑编号500744020306 正确答案B 二相对数应用注意事项 1计算相对数时观察单位数应足够多 2分析时构成比和率不能混淆 分析时常见的错误是以构成比代替率来说明问题构成比说明事物内部各部分所占的比 重或分布不能说明某现象发生的强度或频率大小频率指标才能说明事物发生的严重程度 3观察单位数不等的几个率的平均率不能将这几个率直接相加求其均值 4相对数的相互比较应注意可比性 1所比较资料的内部构成要相同 2若内部构成不同则不能直接进行总率比较只能分性别分年龄别进行率的比较 或进行率的标准化后再作对比 5样本率或构成比的比较应做假设检验 样本率或构成比是由抽样得到的存在抽样误差进行比较时须进行假设检验 第五节 分类变量资料的统计推断 一考什么 1率的抽样误差 2总体率的估计 3率的u检验和x2检验 二最重点是什么 率的抽样误差 率的u 检验和x2 检验 三最难点的是什么 率的u 检验和x2 检验 一率的抽样误差总体率的可信区间及其估计方法 1率的抽样误差与标准误 从同一总体中随机抽取n 个观察单位的一组样本计算得到的各个样本率不一定都与 总体率完全相同这种由于抽样而引起的样本率与总体率之间的差别称为率的抽样误差 率的抽样误差用率的标准误表示计算公式如下 当总体率未知时则用样本率p 作为 的估计值率的标准误的估计值表示为 率的标准误越小说明率的抽样误差越小用样本推论总体时可信程度越高 2总体率的可信区间及其估计方法 1正态近似法当样本含量n 足够大样本率p或1-p均不太小时如np和n1 一p均大于5样本率的分布近似正态分布总体率可信区间的估计由下列公式估计 总体率95的可信区间p196Sp 公式28 总体率99的可信区间p258Sp 公式29 二U 检验和x2 检验 1率的检验 样本量n足够大样本率p或1-p 均不太小如 n p 和n 1-p 均大于5时 样本率的分布近似服从正态分布样本率与总体率之间两个样本率之间的差异可用率的u 检验 1样本率与总体率的比较 公式中P 样本率为总体率p为根据总体率计算的标准误 2两个样本率的比较 2X2 检验 X2 检验卡方检验是用途 可用于两个及多个样本率或构成比的比较 两分类变量间相关关系分析 X2 检验的基本思想假设比较样本所对应的总体率相等即两样本率来自总体率相同 的总体 若检验假设H0 成立根据X2 统计量值的大小结合自由度可确定概率 p并对 总体做出推断 例某医生用两种疗法治疗前列腺癌出院后随访3 年甲疗法治疗86 例存活52 例乙疗法治疗95 例存活45 例问两种疗法治疗前列腺癌患者的3 年生存率是否相同 表97 甲乙两种疗法治疗前列腺癌的3年生存率比较 处理 生存 死亡 合计 生存率 甲疗法 乙疗法 524609 455091 343991 504409 86 95 6047 4737 合计 97 84 181 5359 四个格子的数据 是基本数据发生与不发生的绝对数也称为实际数其余的数据都 是从这四个数据计算得来的因此该资料称四格表fourfold table资料 四格表资料X2 检验的基本步骤 1建立检验假设 H01 2 两种疗法治疗前列腺癌患者的3 年生存率相同 H112两种疗法治疗前列腺癌患者的3年生存率不同 005 2计算统计量X2 1基本公式 式中A 为实际频数四格表中的基本数据T为理论数是根据无效假设推算出来的 理论频数的计算公式为 公式34 公式中TRC为第R 行第C 列格子的理论数nR 为第R 行的合计数nC 为第C 列的合 计数n为总例数 2四格表资料专用公式四格表资料进行 X2 检验还可以选用专用公式省去计算理 论数的过程使计算简化 公式35 式中abcd分别为四格表中的四个实际频数n 为总例数 上述公式的适用条件n40 且T5 但当n40 且1 T 5用校正公式 校正X2 值的公式为 3确定P 值和判断结果 行数一1列数一1 2-12-1 1 根据自由度查X2界值表X20051 384本例X2 311384P005按 005 的水准不能拒绝无效假设H0故不能认为甲乙两种疗法治疗前列腺癌的3 年生存率有所不 同 行列表资料的X2 检验 用于多个样本率的比较两个或多个构成比的比较其基本数据有以下三种情况 多 个样本率比较时有R 行2 列称为R2 表 两组样本的构成比比较时有2 行C 列 称2C 表 多个样本的构成比比较有R 行C 列称RC 表 专用公式 公式40 公式中n 为总例数A 为每个格子里的实际频数nR 和nc 分别为与A 值相应的行和 列合计的例数 建立检验假设 H01 2 3 - k k 个总体率相等 H1 k 个总体率不等或不全相等 2行列表资料X2 检验的注意事项 A如假设检验的结果是拒绝无效假设只能认为各总体率或构成比之间总的来说有差 别但并不是说它们彼此之间都有差别如果想进一步了解彼此之间的差别需将行列表 分割再进行X2 检验详见统计学专著 B对行列表资料进行X2 检验要求不能有l5以上的格子理论数小于5或者不能 有一个格子的理论数小于1否则易导致分析偏性出现这些情况时可采取以下措施在 可能的情况下再增加样本含量从专业上如果允许可将太小的理论数所在的行或列的实 际数与性质相近的邻行或邻列中的实际数合并删去理论数太小的行和列 习题 1经过统计得到X2X2005结果正确的结论是 AP 005拒绝H0差异有统计学意义 BP005接受H0 的可能性较大 CP 005接受H0 差异无统计学意义 DP005拒绝H0 差异有统计学意义 EP005接受H0 差异无统计学意义 答疑编号500744020401 正确答案D 2某医院用国产呋喃硝胺治疗十二指肠球部溃疡用甲氰咪胍为对照观察6 周有如下 结论呋喃硝胺治疗62 人治愈44 人甲氰眯胍治疗78人治愈38人用什么样方法得 出两种药物疗效相同或不同的结论 A计算两药物的治愈率直接比较 B进行率的标准化处理 C用四格表的2检验 D 用四格表的校正2检验 E用配对资料的检验 正确答案C 第六节 直线相关和回归 一考什么 1直线相关分析的用途相关系数及其意义 2直线回归分析的作用回归系数及其意义 二最重点是什么 相关系数及其意义 回归系数及其意义 一直线相关分析的用途相关系数及其意义 1直线相关分析的用途 直线相关又称简单相关用于研究两个连续性随机变量和y 之间的线性关系如研究 血压和血糖之间的线性关系回答两者之间是否存在线性关系关系是否密切以及是正相关 还是负相关描述二者之间的线性关系统计指标相关系数r 2相关系数及其意义 相关系数又称积差相关系数用符号r 表示其计算公式为 公式41 r是反映两个变量线性关系的方向和密切程度的指标r没有单位其值为-1r1 相关方向用r 的正负号表示 r值为正说明变量z和Y之间为正相关关系即变量和y的变化趋势是同向的 r值为负说明变量和Y为负相关关系表明和y之间呈反方向变化 r的绝对值等于l为完全相关 r等于0和y 之间无线性关系 密切程度用r 的大小表示 r的绝对值越接近于l线性关系越密切 越接近于0线性关系越不密切 二直线回归分析的作用回归系数及其意义 1直线回归分析的作用 直线回归又称简单回归用于研究两个连续性变量和y之间的线性数量依存关系 为自变量y为依赖于的变量称作因变量也称反应变量两个变量之间有数量关系 直线回归分析的主要任务是找出最适合的直线回归方程以确定一条最接近于各实测点的 直线描述两个变量之间的线性回归关系 考察两个随机变量之间有无线性关系直观的方法是在普通方格纸上绘制散点图 2直线回归方程回归系数及其计算直线回归方程的一般表达式为 abk 是给定X 时Y的估计值 a 为回归直线在Y 轴上的截距 a0 表示直线与纵轴的交点在原点的上方a0则 交点在原点的下方a0则回归线通过原点 b为样本回归系数即回归直线的斜率表示当X 变动一个单位时Y 平均变化多少个 单位 b0表示Y 随X增大而减少 b0表示直线与X 轴平行即X与Y无直线关系 截距a 和斜率b的估计通常采用最小二乘原则即保证各实测点至回归直线的纵向距离 平方和为最小根据最小二乘原则导出b 和口的计算公式为 直线相关和回归的联系 相关系数与回归系数的正负号相同 相关系数与回归系数的假设检验是等价的 可以用回归解释相关 习题 1分析胎儿不同出生体重和围产儿死亡率之间是否有关可以选用的统计方法是 At检验 BF检验 CX2检验 D相关分析 E秩和检验 答疑编号500744020403 正确答案D 2两个正态双变量资料自变量记为X因变量记为Y进行回归分析回归系数为02 经统计学检验P 005则 AX增大一个单位Y 增大02个单位 BX增大一个单位Y 减少005个单位 CX增大一个单位Y 增大005个单位 DX增大一个单位Y 减少02个单位 EX 增大一个单位Y减少或增大02个单位都有可能 答疑编号500744020404 正确答案A 3同一批资料对回归系数b和相关系数r作假设检验其结论 A是相同的 B是不同的 C不一定相同 D肯定不同 E r为负b 为正 答疑编号500744020405 正确答案A 4在两变量XY 直线相关分析中相关系数的正负取决于 AX的取值 BY的取值 CLxx DLyy ELxy 答疑编号500744020406 正确答案E 第七节 统计表和统计图 一考什么 1统计表的基本结构和要求 2统
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论