




免费预览已结束,剩余6页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
-第一章 绪论统计学 是一门处理数据中变异性的科学和艺术 内容包括收集 分析 解释和表达数据 目的是求的可靠的结果Laplace 认为医疗是概率论应用的一个重要领域Louis 评价了当时流行的放血疗法Carl Pearson 是现代统计学之父 他将这门学科从描述性统计学改变为推断性统计学Major Greenwood 最早的医学统计学家(既懂医学又懂统计)减弱误差的三项原则 重复 随机化 对照实验设计三要素 受试对象 处理因素 实验效应实验设计三原则 对照原则 重复原则 随机化原则Hill爵士 现代临床试验的主要推动者第一项具有适当随机化对照组的临床试验 利用链霉素治疗肺结核医学统计学基本步骤 1研究设计(实验性研究或描述性研究)2收集资料3整理资料4分析资料(统计描述:统计表/图 统计推断:参数估计 假设检验)总体 是根据研究目的确定的同质观察单位的全体抽样 从研究总体中抽取少量有代表性的个体统计学的任务就是在变异的背景上描述同一总体的同质性 揭示不同总体的异质性变量的类型 定量变量(离散型变量 连续型变量) 定性变量(分类变量 有序变量)变量可以转换 但只能由高级向低级转换:定量有序分类二值参数 是总体的统计指标 往往是未知的统计量 是样本的统计指标由样本统计量估算总体参数 称为参数估计 第二章 定量资料的统计描述离散型定量变量的频率分布 组距=极差/组段数(一般取整) N100时 10-15组 如6- 8- 10- 12- 14- 16- 18-20频率分布表(图)的用途1 揭示资料的分布类型 2 描述分布的集中趋势和离散趋势3 便于发现某些特大或特小的可疑值 4 便于进一步计算指标和统计分析描述集中趋势的统计指标平均数 用于描述一组同质观察值的集中趋势 反映一组观察值的平均水平 有三种1 算数均数 适用于对称分布资料(特别是正态分布或近似正态分布)总体均数 样本均数X拔2 几何均数G 适用于原始观察资料不对称 但经对数转换后呈对称分布的资料3 中位数M 指将原始观察值从小到大或从大到小排序后 位次居中的那个数(排除前两种才能用 特别适合偏锋分布资料 对分布末端无确定值的资料 亦可使用)描述离散趋势的统计指标1 极差(Range)R2 四分位数间距(Quartile range)Q=P75-P25 即上四分位数下四分位数可用于各种分布的资料 特别对偏锋分布资料 常把中位数与四分位数间距结合起来描述3 方差 考虑到了每个观察值的离散程度 离均差平方和/N总体方差用Var(X)或2表示 样本方差用S2表示自由度是统计学中的常用术语 v=n-1 意义是当X拔给定时 随机变量X能自由取值的个数推而广之 任何统计量的自由度v=n-限制条件的个数4 标准差 单位与原变量单位一致 方差和标准差都适用于对称分布资料 常把均数和标准差结合起来5 变异系数 主要用于量纲不同的变量间或均数差别较大的变量间变异程度的比较(是对标准差的补充) CV=S/X拔*100% 变异系数无单位 消除了量纲的影响 第三章 定性资料的统计描述定性资料的基础数据是绝对数 描述一组定性资料的数据特征 常要计算相对数 其性质由分子和分母决定三类相对数1 频率分两种 一:多分类变量频率百分比 二:二分类变量频率频率2 强度型指标是指单位时间内某现象发生的频率(本质为频率强度)3 相对比型指标是指两个有关联的指标A与B之比应用相对数时注意事项1 理解相对数的含义不可望文生义2 频率型指标的解释要紧扣总体和属性3 计算相对数时分母应有足够数量 如果样本例数较少会使相对数波动较大4 正确计算合计率5 注意资料的可比性 6 样本相对数的统计推断粗率的标准化法 考概念如果两组个体的年龄 性别 工龄 病情等因素在构成上存在差异 则粗死亡率 粗发病率等不能直接进行比较 为消除两组个体其他因素构成不同的影响 需要首先对两组数据进行标准化处理标准化的关键 是选择一个“标准” 在这个共同平台上比较两组资料 如何选择标准1 选定两组之一 将其作为标准 2 两组合并 作为标准 3 在两组之外再选一个群体应用标准化法的注意事项1 标准化法的应用范围很广2 标准化后的标准化率 已不能反映当时当地的实际水平 它只是表示相互比较的资料间的相对水平3 标准化法的实质是找一个“标准” 使两组得以在一个共同的平台上进行比较4 两样本标准化率是样本值 存在抽样误差 第四章 统计表与统计图统计表的结构 标题 标目(横标目 纵标目)线条 数字 备注(必要时才有) 5部分组成1 标题 位于统计表上方中央 表达主要内容2 标目 用以说明表格内的项目 注意 标目有单位要注明纵标目(谓语) 说明各纵栏数字的含义 横标目 位于表的左侧 用来说明右边各横行数字的主语总标目 必要时 可在横标目和纵标目上冠以纵标目3 线条 不宜过多 常常仅包括三条基本线 顶线 底线 纵标目分隔线 故统计表又称三线表表格中若有合计常用横线隔开 统计表的左右两侧不应有边线 左上角不宜有斜线 表内不应有竖线4 数字 阿拉伯数字表示 表内不留空格 数字暂缺或未记录用表示 无数字用表示5 备注 不属于统计表固有部分 若需对某个数字或指标加以说明 在右上角用*标注 并在统计表下方用文字加以说明统计图 常用的有条图 百分条图 圆图 线图 散点图 直方图等绘制统计图基本要求1 各根据资料的性质和分析目的选择最适合的图形2 要有标题 位于图下方中央3 条图和直方图纵坐标从0开始 要标明0点位置 纵横坐标长度比例一般为5:7条图 条图用等宽直条的长短表示相互独立的各项指标数量的大小 适用于按性质分组的不连续性资料构成图 有百分条图和圆图两种 适用于定性资料 以面积大小表示各部分构成比大小线图 是用线段的升降表示统计指标的变化趋势 适用于连续型变量半对数线图 用于表示事物的发展速度(相对比) 横轴为算数尺度 竖轴为对数尺度 在比较几组数据的变化速度时 特别是两组数据相差悬殊时 选此直方图 用于表示连续型变量的频数或频率分布常用横轴表示被观察对象 纵轴表示频数或频率有时为了考察变量的频率分布特征 横轴表示被观察变量的分组 纵轴为频率密度 即频率/组距 于是每个直条的面积就是相应组段的频率 此类型直方图又称为频率密度直方图 第五章 常用概率分布离散型变量 二项分布(率的分布呈二项分布) 连续型变量 正态分布医学研究中很多现象观察结果是以两分类变量来表示的 如阳性 阴性 治愈 未愈 如果每个观察对象阳性结果的发生概率均为 阴性结果发生概率均为(1)而且每个观察对象的结果是相互独立的 那么 重复观察N个人 发生阳性结果的人数X的概率分布为二项分布记作B(n,) P(X)=二项分布的特征由和观察次数n决定二项分布的高峰在=n处或附近 =0.5时 图形对称 离0.5越远 对称性愈差 对同一 随着n增大 分布趋于对称 当n 只要不太靠近0或1(特别是当n和n(1)均大于5时)二项分布趋于对称 近似于正态分布事实上对于任何二项分布问题 如果每一次实验出现阳性结果的概率均为 进行n次独立重复试验 出现X次阳性结果 那么可以证明 X的总体均数为=n 方差2=n(1-)正态分布 一般来说 若影响某一数量指标的随机因素很多 而每个因素所起的作用均不太大 那么这个指标服从正态分布 如实验中的随机误差正态曲线是一条高峰位于中央 两侧逐渐下降并完全对称 曲线两端永远不与横轴相交的钟形曲线 其函数表达式f(x)=其中为总体均数(位置参数) 为总体标准差(形状参数)正态概率密度曲线的位置和形状具以下特点1 关于x=对称2 在x=处取得该概率密度函数的最大值 在+-处有拐点3 曲线下面积为14 决定曲线在横轴上的位置 增大 往右移5 决定曲线的形状越大 数据越分散(矮胖) 越小 越瘦高习惯上用N(,2)表示均数为 标准差为的正态分布 服从于N(,2)的x即为正态变量正态概率密度曲线下的面积(- ,+)区间内 面积为总面积的68.27%(-2,+2)区间内 面积为总面积的95.44%(-3,+3)区间内 面积为总面积的99.74%对任意一个服从正态分布N(,2)的随机变量 可作如下标准化变换 即Z变换Z=(x-)/ 变换后Z值仍服从正态分布 且其总体均数为0 总体标准差为1 我们称此正态分布为标准正态分布 N(0,1)注意 x取值在区间(- 1.96,+1.96)内的概率为0.95x取值在区间(- 2.58,+2.58)上的概率为0.99 这两个数要记住正态分布的应用 确定医学参考值范围 人们习惯用该人群95%的个体某项医学指标的取值范围作为该指标的医学参考值范围确定医学参考值范围的两种方法1 百分位数法 双侧95%医学参考值范围是(P2.5,P97.5)单侧范围是P95以下(人体有害物质如血铅 发汞)或P5以上(肺活量) 此方法适合于任何分布类型资料2 正态分布法 因为正态分布变量x在区间(- 1.96,+1.96)内的概率为0.95 所以正态分布资料双侧医学参考值范围一般近似估计为 X拔-+1.96S 第六章 参数估计基础统计学中通过抽样来估计总体参数 称为参数估计抽样误差 由于生物固有的个体变异的存在 从某一总体中随机抽取一个样本 所得的样本统计量与相应的总体参数往往是不同的 这种差异称为抽样误差样本均数的抽样分布和抽样误差样本均数的抽样分布具有以下特点 1样本均数恰好等于总体均数是极其罕见的 2 样本均数之间存在差异 3 样本均数围绕总体均数 中间多 两边少 左右基本对称 呈正态分布4 样本均数之间的变异(标准误)明显小于原始变量值之间的变异样本均数的标准差 通常称为均数的标准误(SE或SEM)可反映均数抽样误差的大小若随机变量的均数为 方差为2 则样本均数的均数仍为 均数的标准误实际应用中 总体标准差常位置 需要用样本标准差来估计 此时 均属标准误估计值为数理统计理论表明 对任意分布 在样本含量足够大时 其样本均属的分布近似于正态分布 且样本均数的均数等于原分布的均数 均数的标准误由上三行的公式计算 样本频率的抽样分布与抽样误差样本频率的抽样分布与样本均数的抽样分布类似 频率的标准误越小 则用样本频率估计总体概率的可靠性越好 在实际中 总体概率往往未知 常用样本频率p来近似的代替得到的标准误的估计值为 Sp= t分布 又称为student分布 记作tt(v) t分布是总体均数的区间估计和假设检验的理论基础 t值得分布与自由度v有关 t分布只有一个参数 即v t分布有如下特征1 单峰分布 以0为中心 左右对称 2 v越小 t值越分散 曲线的峰部越矮 尾部越高3 随着v值得增大 t分布逐渐接近标准正态分布 当v值趋向于时 t分布趋向于标准正态分布 故标准正态分布是t分布的特例用t,v表示对应于单侧概率的t临界值 t/2,v表示对应于双侧概率的t的临界值 总体均数与总体概率的估计参数估计分为点估计与区间估计点估计是直接利用样本统计量的一个数值来估计总体参数 如用X拔估计 p估计 s估计 区间估计 是将样本统计量与标准误结合起来 确定一个具有较大置信度的包含总体参数的范围 该范围称为总体参数的置信区间(CI) 置信度一般为1- 一般取0.1 0.05或 0.01常取0.05 较小的数值称为置信下限 较大的为置信上限 置信区间是一个开区间 不包括两个置信限的数值 在报告参数估计的结果时 应同时给出点估计和置信区间总体均数及总体概率的区间估计一般的 总体均数的95%置信区间的含义可以理解为 如果重复100次抽样 每次样本含量均为n 每个样本均按 构建置信区间 则在此100个置信区间中 平均有95个包括总体均数 5个不包括总体均数根据总体标准差是否已知和样本含量n的不同 总体均数的置信区间有两种估计方法 1 t分布法 条件 当未知且n较小(n50)时 t分布近似服从标准正态分布 公式为总体概率的置信区间对于服从二项分布的样本资料 可根据样本含量n和样本频率p的大小 选用查表法或正态近似法估计其总体概率的(1-)置信区间1 查表法 对于小样本资料 如n50 特别当p非常接近0或100%时 可用查表法2 正态近似法 当n足够大 且np及n(1-p)均大于5时 p的抽样分布近似正态分布 总体概率的双侧(1-)置信区间近似等于第七章 假设检验基础若对所估计的总体首先提出一个假设 然后通过样本数据去推断是否接受这一假设 称为假设检验 用假设检验来处理的问题一般具有两个特点1 需要从全局范围 即从总体上对问题作出判断2 不可能或不允许对研究对象的每一个个体均作观察假设检验的步骤1 建立假设检验 确定检验水准根据研究目的 研究设计的类型和资料特点等因素选择合适的检验方法 并且将需要推断的问题表述为关于总体特征的一对假设 两个检验假设应包括所有可能的判断H0(原假设)H1(对立假设) 注意 为稳妥起见 一般情况下均采用双侧检验怎样才算P值较小 还是P值较大 通常我们规定一个小的概率 若P值小于 就认为P值较小 反之 较大 通常取0.05或0.01以保证犯假阳性错误的概率不超过0.05或0.012 计算统计量3 确定p值 作出判断P值的定义:在零假设成立的条件下 出现统计量目前值及更不利于零假设数值的概率统计推断的两类错误及其概率实际情况 统计推断 H0成立,无差异 拒绝H0 有差异(假阳性) 不拒绝H0 无差异 第一类错误 概率= 正确 概率=1-H1成立,有差异 拒绝H0 有差异 不拒绝H0 无差异 正确 概率=1- 第二类错误 假阴性 概率=当做双侧t检验时 P值的大小等于t分布曲线下对应统计量的双侧尾部面积之和 切记啊t检验 以t分布为基础的检验 应用条件 1 随机样本 2来自正态分布总体 3均数比较时 要求两总体方差相等(方差齐性)有三种t检验 1 单样本资料的t检验 实际上是推断该样本来自的总体均数与已知的某一总体均数0有无差别 零假设为H0:=0 单样本资料t检验的统计量为2 配对设计资料的t检验配对设计 能很好的控制非实验因素对结果的影响 分异体配对和自身配对配对设计资料的分析着眼于每一对中两个观察值之差 这些差值构成一组资料 用t检验推断差值的总体均数是否为“0” 检验假设为H0:d=0 即差数的总体均数为“0”检验统计量为t=P值只能得到一个范围 通过它与的大小比较 来推断是否拒绝H03 两独立样本资料的t检验 将受试对象随机分配成两个处理组 每一组接受一种处理 一般把这样获得的两种资料视为代表两个不同总体的两个独立样本 据以推断他们的总体均数是否相等 分两种情况1 两样本所属总体方差相等 即具有方差齐性检验统计量t= 自由度v=n1+n2-22 两样本所属总体方差不等 用近似t检验 即t检验 思路与t检验同那么现在有个问题 如何判断两独立样本是否具有方差齐性呢 两独立样本资料的方差齐性检验(F检验)H0:12=22 即两独立样本资料的总体方差相等 H1统计量为 F= v1=n1-1 v2=n2-1不难看出 F统计量是方差之比 反映的是较大方差是较小方差的多少倍F分布有两个自由度 分子的自由度v1和分母的自由度v2 根据附表可查到相应的双侧检验的P值 F值越大 对应的P值越小如何检验呢 关键是找到F0.05/2,( v1, v2) 即P=0.05的F值 再将所求的F值与之相比较 若F值大于它 说明P0.05 同理 对检验水准为0.01的亦可推 大样本资料的Z检验 相应的统计量为Z 其他原理同假设检验与区间估计的关系1 置信区间具有假设检验的主要功能2 置信区间可提供假设检验没有提供的信息(置信区间在回答差别有无统计学意义的同时 还可以提示差别是否具有实际意义)3 假设检验比置信区间多提供的信息(有确切的P值)假设检验的功效第一类错误(假阳性) 第二类错误(假阴性) 对于某一具体的检验来说 当n一定时 越小越大 越大越小 在实际应用中 往往通过去控制 在样本量确定时 如果要减小 就把取大一点 要同时减小和 就增加样本数量假设检验的功效 即1- 其意义是 当所研究的总体与H0确实有差别时 按检验水平能够发现它(拒绝H0)的概率当样本所属总体方差不等时 有三种方法1 近似t检验 即t检验2 经过数据变换使方差齐 然后进行t检验3 非参数检验 即秩和检验应用假设检验需要注意的问题1 应用检验方法必须符合其使用条件 2权衡两类错误的危害以确定的大小3 正确理解P值得意义 不要把很小的P值误解为总体参数间差异很大 P值小只是说明犯1类错误的机会远小于 第八章 方差分析(ANOVA)又称F检验是通过对数据变异的分解来判断不同样本所代表的总体均值是否相同 用于比较三个或三个以上均数的差别(两样本均数的比较有t检验和Z检验 当然此方法2均数也可用)总变异 36只大白鼠喂养九周后体重差值xij大小各异 由图可得它围绕总均数X拔的变异 此种变异称为总变异 改变异既包括了处理的效应 又包括了随机误差SS总=(观察数据-总均数)2之和 公式: 总均方MS总=SS总/v总V总=N-1组间变异 三组含钙不同的饲料喂养大白鼠 其体重差值的样本均数xi拔各不相同 它与总均数x拔的差别 即为组间变异 它反映了三组含钙不同饲料的影响 同时也包括了随机误差SS组间=(组均数-总均数)2之和 公式: 组间均方MS组间=SS组间/v组间v组间=v1=k-1 (k为组数)组内变异 各组内大白鼠体重差值大小不同 这种变异称为组内变异 组内变异反映了随机变异即随机误差SS组内=(观察数据-组均数)2之和 公式: 组内均方MS组内= SS组内/v组内V组内=v2=N-k总变异=组间变异+组内变异 总自由度=组间自由度(分子的V1)+组内自由度零假设Ho=1=2=3=k 对立假设 至少有两个总体均数不相等比值MS组间/MS组内服从自由度为v1和v2的F分布 可查表求的F值 注意首先看检验水准然后去找出对应的F(v1,v2) 若所求的F值大于F(v1,v2) 说明P 那就该干嘛干嘛了 资料的方差分析表变异来源 SS df MS F总变异组间变异组内变异(误差)N为观察总例数 k为观察的组数 i代表列 j代表行完全随机设计资料的方差分析(以之前的大白鼠为例)是将同质的受试对象随机的分配到各处理组 再观察其实验效应 步骤1 建立假设检验 确定检验水准2 计算检验统计量 即求的F值3 确定P值并作出推断结论 若拒绝原假设 即多个总体均数中至少有两个总体均数不相等时 如要知道哪些均数不同 则需要多样本均数的两两比较我们很容易联想到 可否用前面所学的t检验来两两比较呢 答案是不能的 而应采用专用的两两比较的方法 即多重比较 有两种情形1 在研究设计阶段未预先考虑或预料到 经假设检验得出多个总体均数不全等的提示后 才决定进行多个均数的两两事后比较 此类情况常用于探索性研究 往往涉及每两个均数的比较 可采用SNK法2 在设计阶段就根据研究目的或专业知识而计划好的某些均数间的两两比较 它常用于事先有明确假设的证实性研究 可采用 Dunnett-t检验 和Bonferroni法 SNK法属多重极差检验 每两个组都要比 其检验统计量为q 故又称q检验 Dunnett-t法其检验统计量为tD 它适用于k-1个实验组与对照组均数的比较(试验组与对照组比) Bonferroni法Bonferroni不等式 若每次检验水准为 共进行m次比较 当H0为真时 犯第一类错误的累计概率不会超过m 故要使多次比较后犯第一类错误的累计概率不超过规定的 可利用Bonferroni不等式令=m 确定每次比较的检验水准=/m 本质上讲Bonferroni法是对检验水准进行调整 该法适用于所有的两两比较 多个均数与多个频数均适用方差分析的前提条件1 各样本是相互独立的随机样本 均服从正态分布2 各样本的总体方差相等 即方差齐性实际上只要各组样本含量相近或相当 即使方差不齐 方差分析仍然稳健且检验效能较高若较大方差组有较大的样本含量 则方差分析的结果容易拒绝H0若较大方差组有较小样本含量 则不容易拒绝H0 故有一部分统计学家不赞成进行方差齐性检验方差齐性检验Bartlett X2检验 资料服从正态分布的多个总体方差齐性检验法Levene检验 资料是任意分布时的方差齐性检验法 数据变换对于明显偏离正态性和方差齐性条件的资料 通常有三种处理方法1 通过某种形式的数据变换以改善其假定条件2 采用非参数统计分析方法 如秩和检验3 采用近似检验 如t检验数据变换虽然改变了资料分布形式 但未改变各族资料间的关系 常用数据变换方法1 对数变换 适用于对数正态分布资料 如抗体滴度资料2 平方根变换 3 平方根反正弦变换 第九章 2检验对于假设检验 我们都是先假定总体的分布类型是已知的 比如都认为总体服从正态分布或近似正态分布 然在实际中 事先并不知道总体的分布类型 此时首先需要根据样本对总体分布的种种假设进行检验 2检验就是其中一种检验方法2检验不仅可以推断单个样本的频率分布是否等于某种给定的理论分布 还可以检验两个样本的总体分布是否相同四格表卡方检验 独立样本资料的四格表组别 属性 合计 Y1 Y2甲 a(T11) b(T12) n1=a+b乙 c(T21) d(T22) n2=c+d合计 m1=a+c m2=b+d n=a+b+c+d(a b c d)为观察频数 (T11 T12 T21 T22)为理论频数2 =(A-T)2/T 自由度v=(行数-1)(列数-1)求出卡方值之后 确定P值与F检验类似 是一个范围 卡方值越大 P值越小注意 以上2X2列联表2检验要求:n不小于40 T不小于5 当n满足 但某一个格子出现5T1 需要做如下矫正2=(A-T-0.5)2/T如果样本例数不是很大 计算时首先应估计表中最小的T值 以确定是否需采用校正公式2x2列联表2检验注意事项1 2校正公式只适合v=1的四格表资料 对v2的多组样本分布 一般不做矫正2 当n40或T1时 校正卡方值也不恰当 这时可用Fisher确切检验3 注意 在两例中均强调了两组患者病情相似 这点很重要 只有在两组资料其他方面“同质”的前提下才能比较两个频率四格表只能对两个率作出比较 若要对多个率或多个频率分布做出比较 则需要RxC列联表2检验 原理与2x2列联表同2= nR为第R行合计数 nC为第C列合计数自由度仍为 v=(行数-1)(列数-1)对于多个率或多个率分布比较的2检验 结论为拒绝H0时 仅表示多组中至少有两组有差别 若要明确哪两组之间不同 还需进一步做多组间的两两比较 方差分析那会儿不可以 但这里是可以的 但要调整检验水准 =/两两比较的次数RxC列联表2检验注意事项 要求理论频数不宜太小 一般不宜有1/5以上格子的理论频数小于5或不宜有一个理论频数小于1 若不满足此要求1 增加样本含量(最佳办法)2 改用RxC列联表的Fisher确切概率法2x2列联表的确切概率法何时应用1 样本含量n40 2 理论频数T1 3 卡方检验后所的概率P接近检验水准 第十章 秩和检验 掌握优缺点 适用范围 即各种编秩方法凡是以特定的总体分布为前提 对未知的总体参数做推断的假设检验方法统称参数检验非参数检验不以特定的总体分布为前提 也不针对决定总体的几个参数做推断无论总体分布形式如何 一端或两端无界 甚至分布不清 都能适用 以等级做记录的资料 尤为适宜 在非参数检验中 一般不直接用样本观察值做分析 统计量的计算基于原数据在整个样本中按大小所占位次 所以丢弃了观察值的具体数值 只保留其大小次序的信息本章介绍在非参数检验中占重要地位的秩和检验单样本资料的秩和检验应用条件 常用于不满足t检验条件的单样本定量变量资料的比较目的 推断样本中位数与已知总体中位数是否相等步骤 1 建立检验假设 确定检验水准2 计算检验统计量T值(1)求差值 di=xi-总体中位数(2)编秩 依差值的绝对值由小到大编秩 遇差值为0 舍去不计 n随之减少 当差值绝对值相等时 若符号不同 求平均秩次 若符号相同 可顺序编秩 也可求平均秩次 并将各秩次冠以原差值的正负号(3)分别求正负秩和 正秩和为T+ 负秩和为T- 注意 负秩和最后的结果要转化为正数(4)确定检验统计量 T可任取正负秩和之一 通常以绝对值小的秩和去查表3 确定P值 做出推断(1)查表法 条件为当n50时 根据n和T查界值表 (2)正态近似法查表时 若T值在上下界值范围内 其P值大于上方相应的概率 若P值恰好等于界值 其P值小于或等于上方相应概率 若不在 则P值小于相应概率 右移一栏 再作比较两组独立样本比较的秩和检验1 定量变量两组独立样本的秩和检验编秩 将两组数据由小到大同一编秩 遇相同数值在同一组内 可顺序编秩 若在不同组内 则必须求平均秩次求个组秩和 以样本例数小这为n1 其秩和为T1 确定检验统计量T值 若n1n2 则T=T1 若相等 则都可取2 有序分类变量两组独立样本的秩和检验编秩 将两组数据按等级顺序由小到大编秩 先计算各等级合计数 并确定各等级秩次范围 求出各等级平均秩次 求各组秩和 各等级的平均秩次分别乘以各组各等级的例数 再求和即可得到各组秩和确定统计量T值 取T1(即样本含量小的那个)非参数检验优缺点有广泛的适应性和良好的稳定性 但若资料符合参数检验条件 用非参数检验会损失部分信息 降低检验功效非参数检验适用于1 有序变量资料 2 总体分布类型不明的资料3 分布不对称且无法转化为正态分布的资料 4对比组间方差不齐 又无适当变化方法达到方差齐性的资料 5 一端或两端观察值不确切的资料排序时 出现相同秩次的现象称为相持 有序分类变量资料选用非参数检验 可推断个等级强度的差别 而用RxC列联表卡方检验 只能比较频数分部之间的差别 故前者优 第十一章 两变量关联性分析(连续定量变量的关联性为本章重点)在大量的医学研究中需要研究两个随机变量X和Y之间相互关联的情况散点图可直观的说明两变量之间是否有线性相关两个随机变量X、Y之间呈线性趋势的关系称为线性相关线性相关系数是定量描述两变量间线性关系密切程度和相关方向的统计指标相关系数(pearson相关系数)=若右端为总体协方差和总体方差时 左端便是总体相关系数 记为 实际中往往未知若右端为样本协方差和样本方差时 左端为样本相关系数 记为r 相关系数无单位 取值范围为-1到1 它的正负值表示两变量之间线性相关的方向 大于0为正相关 小于0为负相关 等于0则不相关 它的绝对值大小表示两变量之间线性关系的强度 r越接近1 说明密切程度越高 r越接近0 说明密切程度越低 为1时即函数关系注意 样本相关系不为0 并不表示总体相关系数不为0 故要做假设检验相关分析步骤1 绘制散点图 2 计算相关系数 r=Lxy/ 3 假设检验 常用的对相关系数进行检验的方法有两种(1)直接查相关系数临界值表 根据自由度v=n-2 比较r与临界值 统计量绝对值越大 P值越小(2)采用t检验 公式:Sr为样本相关系数的标准误 当H0成立时 tr服从自由度为v=n-2的t分布相关分析应用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- IDCC销售管理制度
- 乡镇卫生制度管理制度
- 中职学校手机管理制度
- 义齿生产消毒管理制度
- 企业阳光家园管理制度
- 优化议事决策管理制度
- xx工程安全管理制度
- 个人安全风险管理制度
- 中国石化安全管理制度
- 非管制麻醉药品管理制度
- 个人车位租赁合同电子版 个人车位租赁合同
- 普惠性托育机构申请托育中心情况说明基本简介
- 外轮理货业务基础-理货单证的制作
- 《水火箭制作》课件
- 广西机动车辆牌证制作有限公司车牌标牌制作项目环评报告
- 铁总物资〔2015〕250号:中国铁路总公司物资采购异议处理办法
- 网络安全预防电信诈骗主题班会PPT
- 高级宏观经济学讲义(南开大学-刘晓峰教授-罗默的教材)【完整版】
- 贵阳市瑞鹏宠物医院有限公司贵开分公司项目环评报告
- 2023届北京市西城区数学五下期末质量检测试题含解析
- 唐山市乐亭县乐亭镇社区工作者考试真题2022
评论
0/150
提交评论