




已阅读5页,还剩65页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
描述性统计分析与t检验 流行病与卫生统计学系教研室研究生 周洋 1 教学目的 掌握各集中趋势指标与离散趋势指标的意义和应用 掌握在SPSS上对资料进行描述性统计分析 掌握在SPSS上对资料进行正态性检验和方差齐性检验 掌握t检验的应用条件及常用的检验方法 2 统计描述 统计学分析主要有两个方面 一方面是统计描述 另一方面是统计推断 统计描述是指用统计指标和适当的统计图表来描述资料的分布规律及其数量特征 通过描述性统计分析可以初步掌握数据的基本统计学特征 为采用其他统计学分析方法打下基础 为进一步进行统计学分析提供依据 统计学描述的基本方法有数据频数分布特征描述 集中趋势值和离散趋势值的计算等 3 那么 常见的资料类型有哪些呢 4 资料分类 计量资料 可分为连续型和离散型 是指对每个观察对象的观察指标用定量方法测定其数值大小所得 一般带有度量衡单位 例如 血压值 身高 体重等 计数资料 可分为二分类和多分类 是指将观察对象的观察指标按性质或类别进行分组 然后计数各组的数目所得 注意 二分类变量两个分类之间相互对立 互不相容 而多分类变量是互不相容的几个类别 例如 某种疾病在个体中 发病或者不发病 等级资料 是指按照观察对象的某种属性或者特征进行分类 但是这些分类之间本身具有强弱 轻重 大小程度的区分 例如 某治疗方法疗效 可以是治愈 显效 好转和无效 5 频率分布表与频率分布图 频率表和频率分布图是常用的综合描述样本资料的方式 频率分布图能够直观地以图形的方式显示样本数据的分布情况 对于计量资料 频率表可以提示资料的分布特征 描述资料的集中趋势和离散趋势 便于发现特大或特小的可疑值 对于计数资料 频率表可以清楚的显示各个分类的数量或频率 6 算术均数 Mean 几何均数 GeometricMean 中位数 Median 众数 Mode 7 极差 Range 四分位数间距 Quartilerange 方差 Variance 标准差 StandardDeviation 变异系数 Coefficientofvariation 8 spss操作过程 在spss中 统计学描述主要采用AnalyzeDescriptiveStatistic菜单完成 该菜单下的子菜单对应于不同的统计学描述过程 AnalyzeDescriptiveStatistic Descriptives Explore Frequencies 9 Frequencies操作过程 Frequencies 频数表过程的主要功能是编制频数表 计算描述统计量包含的百分位数 统计图 利用它能产生原始数据的详细频数 取值结果还能用于数据清理 10 Frequencies操作过程 实例1 某年抽样调查某地120名18 35岁健康男性居民血清铁含量 umol L 请大家利用spss软件进行统计性描述 11 Frequencies操作过程 统计量 统计图 输入格式 可选变量表 分析变量表 输出频数表 一种抽样填补缺失值的方法 暂时不用 12 Frequencies操作过程 Statistics 设定要分析的统计量 百分位数 集中趋势统计量 离散统计量 分布参数 13 Frequencies操作过程 Charts 设定要绘制的统计图 14 Frequencies结果分析 15 Frequencies结果分析 由偏度系数与峰度系数来判断资料是否属于正态分布 大家都知道 标准正态分布曲线下Z值在 1 96 1 96 之间的时候 曲线下面积为0 95 对于偏度系数 Z 偏度系数 偏态系数的标准误 峰度系数Z 峰度系数 峰度系数的标准误 由此结果得知 偏度系数 0 194 偏度系数标准误 0 221 Z 0 194 0 221 0 878 P 0 3788 峰度系数 0 018 峰度系数标准误 0 438 Z 0 018 0 438 0 041 P 0 968 结合两个结果 可以认为该资料服从正态分布 16 Frequencies结果分析 Frequency 频数Percent 百分比 当前频数 总数 包括缺失值 ValidPercent 有效百分比 当前频数 有效总数 不包括缺失值 CumulativePercent 累积百分比 累积频数 有效总数 不包括缺失值 17 Frequencies结果分析 18 Frequencies实战演练 试分析实例2资料中身高的频数分布情况 数据见练习1 sav 19 Descriptives操作过程 Descriptives 主要用于描述统计量计算和变量标准化 与Frequencies过程相比 其统计量不能计算百分位数 也不能绘制统计图 20 Descriptives操作过程 实例1 某年抽样调查某地120名18 35岁健康男性居民血清铁含量 umol L 请大家利用spss软件进行统计性描述 21 Descriptives操作过程 该界面类似于Frequencies的界面 其中Savestandardizedvaluesasvariables是指将标准化得分另存为变量 Z 22 Descriptives操作过程 23 Descriptives结果分析 该资料一共120个有效数据 无缺失值 血清含量的最小值为7 42 最大值为29 64 均数18 6136 标准差4 3432 方差为18 863 偏度系数 0 194 偏度系数标准误 0 221 Z 0 194 0 221 0 878 P 0 3788 峰度系数 0 018 峰度系数标准误 0 438 Z 0 018 0 438 0 041 P 0 968 结合两个结果 可以认为该资料服从正态分布 24 Descriptives实战演练 试分析实例2资料中身高的频数分布情况 数据见练习1 sav 25 Explore操作过程 Explore 探索性分析使用图形 描述统计量的方法来探索数据的分布特征 主要适用于连续性资料 主要功能有 分离特异值 离群值 绘制多种统计分布图 观察其分布特征 描述统计量的计算 包括文件统计量的估计 特定分布特征的假设检验 百分位数的估算 26 Explore操作过程 实例2 对照资料中不同性别 XB 的身高 SG 进行分别描述 27 Explore操作过程 要进行分析的应变量 身高 分类变量 性别 28 Explore操作过程 29 Explore操作过程 箱式图 以分组变量绘图 分析变量一起绘图 茎叶图 直方图 正态概率图和正态性检验 离散水平图 Levene方差齐性检验 不绘图 幂转换 不转换 用幂转换进行数据转换 30 Explore操作过程 缺失值设置 一般选择默认 按观察个体排除缺失值 将缺失值单独列成一组 成对排除缺失值 31 Explore结果分析 缺失值报告 本例没有缺失值 男性有效人数为29人 女性有效人数为77人 32 Explore结果分析 探索性分析的统计描述跟前面两种分析的统计描述相似 需要注意的是95 ConfidenceintervalforMean LowerRound UpperRound 指的是95 可信区间上限 下限 5 TrimmedMean指的是5 调整均数 去掉最大和最小各5 的数据后的均数 InterquartileRange指的是四分位数间距 33 Explore结果分析 极端值列表 分别列出男性女性的最高与最低的五组数据 其中CaseNumber指的是极端值所在的编码 Value指的是具体的数值 34 Explore结果分析 上图是按性别不同对身高进行的正态性检验 给出两种方法的结果 Kolmogorov Smirnov检验和Shapiro Wilk检验 其中 Statistic为统计量 df为自由度 sig 为P值 经检验 男组两组P值均小于0 05 所以拒绝正态分析的假设 尚不能认为男组呈正态分布 而女组Kolmogorov Smirnov检验中p值小于0 05 Shapiro Wilk检验p值大于0 05 应该再参考别的方法判定女组是否呈正态分布 35 Explore结果分析 上图是对按性别不同对身高进行的方差齐性检验 采用了四种方法计算统计量 BasedonMean 基于均数的统计量 BasedonMedian 基于中位数的统计量 BasedonMedianandwithadjusteddf 基于中位数并调整自由度的统计量 BasedontrimmedMean 基于调整均数的统计量 Df1是分子自由度 df2为分母自由度 经检验 上述四种方法的计算出的P值均大于0 05 不拒绝零假设 可以认为两组总体方差相同 36 Explore结果分析 由上直方图可以看出 男组明显不是正态分布 女组与正态分布相近 37 正态性检验图示法主要采用概率图 Probability probabilityPlot P P图 和分位数图 Quantile quantilePlot Q Q图 其中 P P图是以样本的累计频率作为横坐标 以按照正态分布计算的相应累计概率作为纵坐标 把样本值表现为直角坐标系中的散点 如果资料服从正态分布 则样本点应该围绕第一象限的对角线分布 Q Q图则是以样本的分位数作为横坐标 以按照正态分布计算的相应分位数作为纵坐标 把样本表现为直角坐标系的散点 如果资料服从正态分布 则样本点应该呈一条围绕第一象限对角线的直线 这两种方法中 以Q Q图法的效率较高 38 图中的直线是正态分布的标准参考线 散点越接近这条直线 则该变量的分布越接近正态分布 本例中可以看出女生的散点更接近标准参考线 说明女性更接近于正态分布 39 Explore结果分析 茎叶图 40 Explore结果分析 茎叶图结果分析 两茎叶图的茎宽 StemWidth 是10 茎叶图从左至右分别为频数 Frequency 茎 Stem 及叶 Leaf 茎表示变量值的整数部分 叶表示变量值的小数部分 每行的茎和每一个叶组成的数值相加后再乘以茎宽 就是茎叶所表示的实际数据的近似值 例如 性别为1的第三行 在这个变量值下频数为4 茎为11 这行叶的组成是6789 它表示在这一行的六个变量值大约是116 117 118 119 41 Explore结果分析 42 Explore结果分析 箱式图结果分析 男女生箱式图中中间长方形的底部与顶部分别表示下四分位数 p25 和上四分位数 p75 中间的横线代表它们各自的中位数 箱式图的上下柄分别代表最大值跟最小值 由上图结果可以看出 女生组的最大值 上四分位数和下四分位数分别大于男生组 而中位数与最小值均小于男生组 43 对练习实例3中危重病人的APACHE评分及其预后情况进行探索性分析 了解不同预后情况的APACHE评分情况 数据见练习 sav Explore实战演练 44 1 随机样本 2 来自正态分布总体 3 两小样本均数比较时 要求两总体方差相等 方差齐性 t检验应用条件 45 几种不同资料的t检验 1 单样本t检验2 配对样本t检验3 两独立样本t检验 46 单样本t检验 目的 推断该样本来自的总体均数与已知的某一总体均数有无差别 单样本资料t检验实例 根据大量调查 已知健康成年男子脉搏的均数为72次 分 某医生在山区随机调查了25名健康成年男子 其脉搏数分别为 73 76 71 64 68 69 66 73 72 71 70 70 72 66 69 67 67 70 72 71 73 74 73 72 76问该山区成年男子的脉搏均数是否高于一般成年男子的脉搏均数 47 单样本t检验 1 建立检验假设 确定检验水准 H0 0 即该山区成年男子的脉搏总体均数 与一般成年男子脉搏总体均数 0相等 H1 0 包括 0与 0 0 05 2 在SPSS中选择检验方法和计算检验统计量 48 单样本t检验 AnalyzeCompareMeansOne sampleTTest 49 单样本t检验 50 单样本t检验 One SampleStatistics 由上表知 样本量为25 样本均数为70 6000 标准差为3 06866 标准误为0 61373 51 单样本t检验 One SampleTest 由上表可知 已知检验值为72 t值 2 281 df 24 P 0 032 双侧 差异有统计学意义 可认为该山区成年男子的脉搏均数是否高于一般成年男子的脉搏均数 样本均数与总体均数之差为 1 4000 差值的95 可信区间为 2 6667 0 0 1333 不包含0 亦说明两者间差异有统计学意义 52 配对样本t检验 配对t检验适用于配对设计的计量资料 配对设计是将受试对象按照某些重要特征 可疑混杂因素 配成对子 每对的两个受试对象随机分配到两处理组 配对设计类型 两同质受试对象分别接受两种不同的处理 同一受试对象分别接受两种不同处理 同一受试对象 一种 处理前后的数据 53 配对样本t检验 例6 2为了研究孪生兄弟的出生体重是否与其出生顺序有关 共收集了15对孪生兄弟的出生顺序和出生体重 见表6 2 试问孪生兄弟中先出生者的出生体重与后出生者的出生体重是否相同 54 配对样本t检验 1 建立检验假设 确定检验水准 H0 d 0 即每对孪生兄弟体重差值d所对应的总体均数 d来自均数为0的正态总体 H1 d 0 包括 d 0与 d 0 0 05 2 在SPSS中选择检验方法和计算检验统计量 55 配对样本t检验 56 配对样本t检验 AnalyzeCompareMeansPaired SamplesTTest 57 配对样本t检验 58 配对样本t检验 PairedSamplesStatistics PairedSamplesCorrelations 59 配对样本t检验 PairedSamplesTest 先出生者与后出生者的体重有显著差异 t 2 327 df 14 P 0 035 其差值的均数为0 0627 标准差为0 10420 标准误为0 02693 60 两独立样本t检验 适用于完全随机设计两样本均数的比较 通过样本信息推断所属的两总体均数是否相等 两组完全随机设计是将同质的受试对象完全随机分配到两个不同处理组 当两样本含量较小时 且均来自正态总体时 要根据两总体方差是否相等而采用不同的检验方法 61 两独立样本t检验 两独立样本资料的t检验实例 采用完全随机设计的方法 将19只体重 出生日期等相仿的小白鼠随机分为两组 其中一组喂养高蛋白饲料 另一组喂养低蛋白饲料 然后观察喂养8周后各小白鼠所增加体重 mg 情况 问两组膳食对小白鼠增加体重有无不同 数据见两独立样本资料实例 62 两独立样本
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 国网继电保护技术培训体系
- 小学生语文写作培训课件
- 城市交通规划合同管理合同管理咨询重点基础知识点
- 我的童年音乐课件
- 试验检测单位安全培训课件
- 《当代少先队教育导论》课件-【第8章】 少先队仪式教育
- 跟单文员合同协议范本
- 浮苔打捞协议书
- 超市租赁协议合同协议
- 车合同补充协议模板
- 消防文职考试试题及答案
- 2024年甘肃兰州事业单位考试真题
- 《机械制造技术基础》期末考试试卷及答案
- 分布式光伏发电项目投标技术方案(纯方案)
- 高中语文《致大海》课件
- 后厨主管月度绩效考核表(KPI)
- 商品价格表模板
- 机械零部件过盈配合压入力与压出力计算
- 房屋建筑物构筑物检查表
- 房地产公司员工教育培训管理制度
- 《春酒》ppt课件(24页)
评论
0/150
提交评论