




已阅读5页,还剩115页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二讲 定量变量的统计描述 一 频数表与频数分布图 Frequencytable Frequencydistributionfigure 二 集中趋势的统计描述 Descriptionofcentraltendency 教学内容 三 离散趋势的统计描述 Descriptionoftendencyofdispersion 教学要求 了解频数分布表的编制方法及应用 掌握数值变量资料的集中趋势 离散趋势常用统计描述指标 及各自的应用 统计描述 总体估计 即参数估计 包括点值估计和区间估计 假设检验 t testu testx2 test 定量资料 离散趋势 集中趋势 定性资料 率 构成比 相对比等 统计图 统计推断 统计学指标 统计表 统计分析内容 例2 1某市100名8岁男童的身高资料 cm 目的 描述该组8岁男童身高的分布规律 问题1 该组男童平均身高多少 问题4 用表 图表示身高分布 问题2 身高范围 最高多少 最低多少 问题3 身高主要集中在哪个范围 一 数值变量资料的频数表与频数分布图 例2 1某市100名8岁男童的身高资料 cm 例2 1某妇产科医生观察1402名临产母亲的体重 kg 资料 频数 frequency 指在一个抽样资料中 某变量值出现的次数 一 基本概念 频数分布表 frequencydistributiontable 将各数值变量的值及其相应的频数列表 简称频数表 频率是表示频数出现机率的指标 可用百分数或小数表示 频率的和为100 或1 频数表作用 简化数据 方便阅读 显示数据的分布规律 二 连续型变量频数表的编制方法 步骤 求全距 Range 简记R 是一组资料中最大值 Xmax 与最小值 Xmin 之差 亦称极差 全距 R Xmax Xmin 143 3 116 2 27 1 cm 2 定组距 将全距分为若干段 称为组段 组与组之间的距离 称为组距 用小写i表示 原则 1 组段 数一般为10 15个 2 组距 一般为R 10取整 3 为计算方便根据组距采取取整数方法 本例题 组距 i 全距 预分组段 27 1 10 2 71 3 cm 3 写组段 即将全距分为若干段的过程 原则 1 第一组段要包括Xmin 最末组段包括Xmax 2 每组段均用下限值加 表示 最终组段同时注明上下限 注意 各组段不能重叠 每一组段均为半开半闭区间 4 列表划记 根据预定的组段和组距 用划记的方法整理原始资料 频数分布图 frequencydistributionfigure 根据频数分布表 以变量值为横坐标 频数为纵坐标 绘制的直方图 图3 1某市100名8岁男童身高 cm 的频数分布 身高 cm 频数 三 频数表的用途 1 揭示频数的分布特征 离散趋势 tendencyofdispersion 集中趋势与离散趋势结合能全面反映频数的分布特征 集中趋势 centraltendency 2 揭示频数的分布类型 频数分布 偏态分布 正偏 集中部位在中部 两端渐少 左右两侧的基本对称 为对称 正态 分布 对称分布 集中部位偏于较小值一侧 左侧 较大值方向渐减少 为正偏态分布 集中部位偏于较大值一侧 右侧 较小值方向渐减少 为负偏态分布 4 样本含量足够大时 以频率作为概率的估计值 3 便于发现某些特大或特小的可疑值 5 作为陈述资料的形式 图3 1某市100名8岁男童身高 cm 的频数分布 身高 cm 频数 二 数值变量资料的集中趋势指标 算术均数几何均数中位数 百分位数 集中趋势 用于描述一组计量资料的集中位置 说明这种变量值大小的平均水平 常用平均数 average 表示 注意 1 同质的事物或现象才能求平均数 包括 应根据资料分布状态选用适当的均数 一 算术平均数 arithmeticmean 简称 均数 mean 使用条件 数据分布比较均匀呈正态分布或近似正态分布 样本均数用符号 X表示 总体均数用符号 表示 计算方法有两种 直接法 小样本 和加权法 大样本 1 直接法 举例 某地10名18岁健康男大学生身高为 cm 168 7 178 4 170 0 170 4 172 1 167 6 172 4 170 7 177 3 169 7求平均身高 答 2 加权法 方法 计算各组段的组中值Xi与其频数fi的乘积和 fx 然后除以总频数 f 公式 适用范围 大样本含量的分组资料或频数表资料 举例 用加权法计算某市8岁男童身高平均数 表3 1 计算各组段的组中值xi fxi和 fx 答 组中值 第1组段 用加权法计算该组身高值的均值 总身高 总人数 数据加权的意义 加权用于表示某数据值在整个数据资料中的权重举例1 12 1 101 2举例2 杂拌糖例子设软糖5元 斤 硬糖8元 斤 酒心糖10 斤 问5斤软糖3斤硬糖 2斤酒心糖 应卖多少钱一斤答 5 5 3 8 2 10 10 6 9总钱数 总斤数举例3 食堂买菜例子举例4 评委打分和观众打分 均数的特性 1 各离均差的总和等于零 离均差是指变量值与均值之间的差异 即 说明均值位于全部观察值的中央 均值的特征 2 离均差的平方和小于各变量值X与任何数 之差的平方和 即 说明均值与全部观察值的总距离最小 即 对全部观察值的代表性最好 算术平均数的适用范围 它适用描述一组性质相同的 单峰 且对称分布的 特别是正态分布的 且观察值之间差异不大的定量资料 此时均数最能反映分布的集中趋势 位于分布的中心 给一组定量资料 如何判断是否适合选用算术均数来表达其平均水平呢 1 小样本采用目测法 将数据由小到大排列后 较小和较大的数据个数基本相等 关于最中间的数据基本对称 举例 9名正常成年人非蛋白氮 mg 100ml 含量 20 122 323 424 825 726 928 231 434 3 举例 某地100正常成年人非蛋白氮 mg 100ml 含量 大样本采用频数表法 将其按一定组距分组 比较各组段的频数 居中的组段内频数最大 该组前后的组段内的频数逐渐减少且基本对称 3计算机软件法使用统计软件SPSS SAS等的频数统计命令 练习 求120例正常人血浆125I T3树脂摄取比值的均数 答 一 编制频数分布表 全距 R Xmax Xmin 1 24 0 78 0 46 1 求全距 R 组距 i 全距 预分组段 0 46 10 0 05 3 定组段 3 划表列记 二 用加权法计算均值 均值 修正均数 也称截尾平均值 TrimmedMean 刪除最大及最小各2 5 或5 或任何研究者认为合理之比率 后计算余下数据之平均值 截尾平均值的能平衡 平均值 及 中位数 之优劣 缺点为样本数目因去除极端值后而减少 例子 评分中 去掉一个最高分 去掉一个最低分 对下列数据求均数合适吗 12481632641282565121024算术均数 1 2 4 8 11 186 09 二 几何均数 geometricmean G 概念 对一组观察值 先进行对数变换 按算术均数计算方法求其对数值的均数 该均数的反对数值即几何均数 G 使用条件 用于原始数据分布呈偏态分布 等比资料 倍数变化 或对数正态分布资料的平均数的计算 表示符号 G 计算方法 直接法和加权法 1 直接法 方法 将n个观察值 X1 X2 X3 Xn 直接相乘再开n次方 公式 适用范围 小样本资料 用对数形式表示为 当数值为负数时 可以加一个常数项再取对数lgY lg10 X K 几何均数 geometricmean 几何均数 变量对数值的算术均数的反对数 其他对数 如自然对数 变换获得相同的几何均数 举例 设有5份血清样品 滴度分别为 1 1 1 10 1 100 1 1000 1 10000求其平均滴度 答 G 或G lg 1 lg1 lg10 lg100 lg1000 lg10000 5 lg 1 0 1 2 3 4 5 lg 12 100102 即 平均滴度为1 100 较好地代表了观察值的平均水平 2 加权法 公式 适用范围 大样本含量的分组资料或频数表资料 G lg 1 flgX n 举例 有95名麻疹易感儿童 接种麻疹疫苗一个月后 血凝抑制抗体滴度见下表 试求平均滴度 例3 3 G lg 1 flgX f lg 1 145 0948 95 lg 1 1 53 101 53 33 68 答 即95名易感儿童接种疫苗一个月后 血凝抑制抗体的平均滴度为1 33 68 计算几何均数 G 注意事项 1 观察值不能为0 2 观察值不能同时有正有负 3 同一组资料求得的几何均数小于算术均数 课堂练习 1 有8份血清的抗体效价分别为 1 5 1 10 1 20 1 40 1 80 1 160 1 320 1 640求平均抗体效价 2 有50人的血清抗体效价 分别为 5人1 10 9人1 20 20人1 40 10人1 80 6人1 160求平均抗体效价 解答 1 有8份血清的抗体效价分别为 1 5 1 10 1 20 1 40 1 80 1 160 1 320 1 640求平均抗体效价 答 将各抗体效价的倒数代入公式 所以血清的抗体平均为1 56 57 解答 2 有50人的血清抗体效价 分别为 5人1 10 9人1 20 20人1 40 10人1 80 6人1 160求平均抗体效价 答 将各抗体效价的倒数代入公式 所以该50人的血清抗体效价为1 41 70 问题 下列数据用那种指标表示集中趋势更合适些 1991001011000000算术均数 200060 2几何均数 251 86显然都不合适2 国家统计局发布了2011年城镇居民人均总收入23979元 问了许多人感觉没有这么高 目前基尼指数用来表现一个国家和地区的财富分配状况 按照联合国有关组织规定 低于0 2收入绝对平均0 2 0 3收入比较平均0 3 0 4收入相对合理0 4 0 5收入差距较大0 5以上收入差距悬殊中国大陆基尼系数2011年超过0 55 已跨入收入差距悬殊行列 财富分配非常不均 两级分化严重 超过中国社会和国际社会的容忍度 中国基尼系数高于所有发达国家 如日本基尼系数仅为0 23 80 的财富20 的人掌握 三 中位数 Median M 概念 把一组变量值从小到大排列 位于中间位置的变量值叫中位数 用M表示 使用条件 当一组资料类型分布不清或明显偏态分布时的平均数的计算 表示符号 M 计算方法 直接法和加权法 百分位数 Percentile P 概念 为一种位置指标 表示位于全部观察值第X 位置处的数值 一个Px将总体或样本的全部观察值分为两部分 理论上有X 的观察值比它小 100 X 的观察值比它大 P50分位数即是中位数 表示符号 x 计算方法 频数表计算 P50 M 0255075100 小 大 M P0P25P50P75P100 百分位数示意图 百分位数 percentile 1 直接法由原始数据计算中位数 当n为奇数时 例 有7个人的血压 收缩压mmHg 测定值为 120 123 125 127 128 130 132求中位数 当n为偶数时 例 10名食物中毒者的潜伏期分别为1 2 2 3 5 10 15 16 24H试求中位数 数据很多 参与计算的较少 课堂练习 1 某病患者9名 发病潜伏期分别为顺序2 3 3 3 4 5 6 9 16d 求中位数 2 某病患者8名 发病潜伏期从小到大排分别为5 6 8 9 11 11 13 16d 求平均潜伏期 答案 2 用频数表计算中位数和百分位数 按所分组段 由小到大计算累计频数和累计频率 代入公式计算中位数及其它百分位数 注 fm fx为所在组的频数 i为该组段的组距 L为其下限 fL为小于L的各组段的累积频数 步骤 中位数计算公式 百分位数计算公式 计算中位数时 X 50 即M P50 百分位数在总观测值中顺序 其实是一个比例问题 i是组距 fx是需要计算的百分位数值 后面的就是需要计算的百分位数值在中位数所在组段应占的频数 ifx 例 求164例沙门菌食物中毒病人潜伏期的中位数和百分位数P5 P95 2 把L 24 i 12 fx 44 fL 79代入公式 求M 3 同样方法 可求P5 P95 练习 求238名正常人发汞值的中位数 和百分位数P25 P75 答案 1 中位数 常用于描述偏态分布资料的集中位置 反映位置居中的观察值的水平 它和均数 几何均数不同 不是由全部观察值的数量值综合计算出来的 只受居中变量值的影响 不受两端特大值和特小值的影响 因此 当分布的一端或两端无确定数值或资料的分布不清可以求中位数 应用 2 百分位数 A 用于描述数据某一百分位的位置 最常用的是P50 即中位数 也可用多个百分位数的结合来描述一组资料的分布特征 如用P25和P75合用时 反映中间50 观察值的分布情况 B 用于确定参考值范围 WBC的95 参考值范围 P2 5 P97 5过高过低均异常肺活量95 参考值范围 P5过低异常尿铅95 参考值范围 P95过高异常C 用一组PX可较全面地描述总体或样本的分布特征 注意 表达一组性质相同的定量资料的平均水平的指标共有4种 其中算术均数和几何均数要用到每一个数据的具体值才能计算出来 而中位数和百分位数只需知道数据的个数和相对大小就可确定 相对来说 它们对信息资料的利用率较低 因此 准确度不如前者 四 众数 mode 众数是一组观察值中出现频率最高的那个观察值 若为分组资料 众数则是出现频率最高的那个组段的组中值 适用于大样本 较粗糙 例有16例高血压病人的发病年龄 岁 为 42 45 48 51 52 54 55 55 58 58 58 58 61 61 62 62 试求众数 正态分布时 均数 中位数 众数正偏态分布时 均数 中位数 众数负偏态分布时 均数 中位数 众数 3 当资料呈负偏态分布时 中位数大于算术均数 中位数和算术均数的关系 1 当资料呈对称分布 特别是正态分布 时 中位数在理论上等于算术均数 2 当资料呈正偏态分布时 中位数小于算术均数 均数 中位数 均数 中位数 均数与观测值大小有关中位数与观测值所在位置有关众数与观测值频数大小有关 思考题 某医院对内科进行一周工作效率调查 第1天6h诊治患者42人 7人 h 第2天4h诊治患者32人 8人 h 第3天7h诊治患者35人 5人 h 第4天8h诊治患者72人 9人 h 第5天5h诊治患者50人 10人 h 问该科室5天平均每小时诊治多少患者 答案 四 数值变量资料的离散趋势指标 举例 有三组数据 甲 13579乙 14569丙 34567 集中 5 5 5 丙 乙 甲 X X X 说明集中趋势是数据分布的一个重要特征 但单有集中趋势指标还不能很好地描述数据的分布规律 而且还要看数据的变异程度 观察值的离散趋势 离散程度大说明均数代表性差离散程度小说明均数代表性好 离散趋势 用于描述一组数值变量观察值之间参差不齐的程度 即变异程度 包括 极差 Range R 四分位数间距 Quartile Q 方差 Variance 标准差 Standarddeviation S2 变异系数 Cofficientofvariation CV 一 极差 Range 简称R 计算 R 最大值 最小值 Xmax Xmin 意义 反映样本变量值的全范围 条件 对变量值的各种分布类型的资料都适用 优点 简单明了 容易理解 使用方便 缺点 仅考虑了极大值和极小值 未考虑其它变量的个体差异 建议 与其他离散指标共同使用 2 样本例数越多 抽到极大值和极小值的可能性越大 故样本例数悬殊时不易比较极差 极差的缺点 1 R只考虑最大值和最小值之差 不能反映组内其它观察值的变异度 3 即使样本例数不变 极差的抽样误差亦较大 即不够稳定 二 四分位数间距 uartile 简称 计算 P75 P25 意义 中间一半观察值的极差 条件 对变量值的各种分布类型的资料都适用 优点 类似 值但比其稳定 缺点 未考虑全部观察值的变异度 建议 与其他离散指标共同使用 四分位数间距 Quartile用Q表示 小 大 1255075100 P1P25P50P75P100 QL QU 下四分位数上四分位数 QU QL 四分位数间距 例 有164例沙门氏菌食物中毒病人的潜伏期 小时 求该潜伏期的四分位数间距 P25 L i f25 n 25 fL 12 12 58 164 25 21 16 14 小时 P75 L i f75 n 75 fL 24 12 44 164 75 79 36 小时 Q P75 P25 36 16 14 19 86 小时 即该潜伏期的四分位数间距为19 86小时 答 四 数值变量资料的离散趋势指标 离散趋势 用于描述一组数值变量观察值之间参差不齐的程度 即变异程度 包括 极差 Range R 四分位数间距 Quartile Q 方差 Variance 标准差 Standarddeviation S2 变异系数 Cofficientofvariation CV 三 方差 Variance 简称 公式及来源 极差和四分位间距未考虑全部观察值的变异度 应考虑总体中每个变量值x与总体均数 之差 x 称为离均差 分析 为解决这个问题 给每项离均差平方后再相加 称离均差平方和 即 x 2 甲 2628303234 证明 还有没有问题没考虑到 离均差平方和的大小 除与变异度有关外 还与变量值的个数 多少 有关 为在变量值个数不等时进行比较 还要除以变量值的个数 所得值即为总体方差 用 2表示 2 总体方差 公式中存在的问题 根据以上公式研究的结果表明求得的样本方差总是偏小 为解决此问题 英国统计学家通过实验 用n 1代替可消除误差 n 1称为自由度 degreeoffreedom 用希腊字母 nju 表示 表示随机变量能够自由取值的个数 n 1 自由度 是指当以样本的统计量来估计总体的参数时 样本中独立或能自由变化的数据的个数 这个定义可以从如下几个方面来理解 第一 统计量 如样本数据的平均数X 样本数据的标准差 理解 一共有10个座位坐10个人 前9个人都可以自由选取 最后一个没有办法自由了 因为只剩一个座位 当样本均数和标准差 确定了之后 因为 如数据123要求离均差之和为0 这组均数为2 数据离差1 1203 第三个数的离差是不能自由的只能是1 n 1 称为自由度 degreeoffreedom 用希腊字母 nju 表示 表示随机变量能够自由取值的个数 方差 分总体方差 样本方差S2 计算 意义 克服了 值的不足 考虑了每个变量值的离散情况并消除了 的影响 优点 全面地考虑每个变量值的离散情况 缺点 其单位是原度量单位的平方 总体方差 样本方差 四 标准差 Standarddeviation SD或S 方差的单位是原度量单位的平方 不便使用 将方差公式展开 并开方 即得到另一个重要的离散趋势的指标 即标准差 简写为S 公式来源 总体标准差 样本标准差 标准差的计算 利用 a b 2展开原理 直接法 加权法 1 直接法 用于小样本资料 举例现有一影像医生 测得10名患者的EA值分别为 0 47 0 60 0 86 0 96 1 01 1 13 1 27 1 58 1 72 2 88试计算其标准差 将 X X2代入公式 甲乙丙对谁变异大 甲 13579乙 14569丙 34567 举例计算100名8岁男孩身高的标准差 2 加权法 用于大样本资料或频数表资料 代入公式 标准差的意义和用途 说明资料的离散趋势 或变异程度 标准差的值越大 说明变异程度越大 均数的代表性越差 标准差与原始数据的单位一致 在科技论文报告中 均数与标准差经常被同时用来描述资料的集中趋势与离散趋势 用于计算变异系数用于计算标准误结合均值与正态分布的规律 估计参考值的范围 问题 某地7岁男孩身高的均数为123 10cm 标准差4 71cm 体重均数为22 29kg 标准差2 26kg 试比较其身高 体重的变异程度 单位不同 2011年城镇居民人均收入23979元 标准差1230农村居民人均收入6977 标准差120试比较变异程度均数相差较大 五 变异系数 简称CV 概念 是同一组资料的标准差与均数之比 又叫变异度或离散系数 计算 实际含义 标准差相对于同组均数的百分比 优点 CV消除了度量衡单位 用于比较1 单位不同的多组资料的变异度 2 均数相差悬殊的多组资料的变异度 变异度CV的数值越小 说明观察值的变异度越小 均数的代表性越好 举例1 某地7岁男孩身高的均数为123 10cm 标准差4 71cm 体重均数为22 29kg 标准差2 26kg 试比较其身高 体重的变异程度 说明其体重的变异度大于身高的 即身高比体重稳定 2011年城镇居民人均收入23979元 标准差1230农村居民人均收入6977 标准差120试比较变异程度城镇CV 2230 23979 100 9 30农村CV 120 6977 100 1 72说明城镇居民收入比农村居民收入变异大变异系数实
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度海洋工程劳务分包施工合同
- 2025保密协议签订与知识产权保护结合的法律实务指南
- 2025年度落户员工住房保障及补贴服务合同下载
- 2025年度高端装备包销合同技术参数与售后服务规范
- 2025年度股权代持与知识产权保护协议模板下载
- 2025版私人房产交易资金监管合同
- 2025版物流配送合同协议效率与成本优化管理制度
- 2025版高科技企业人力资源外包合作协议
- 2025版高性能水泥材料研发合作协议书
- 2025版汽车租赁承包合同书(含增值服务)
- 磐安县全域“无废城市”建设工作方案(2023-2025年)
- 达梦数据库管理系统技术白皮书
- 物料来料检验规范标准
- 辅警考试题库
- GB/T 19289-2019电工钢带(片)的电阻率、密度和叠装系数的测量方法
- 《中国特色社会主义政治经济学(第二版)》第一章导论
- 《安娜·卡列尼娜》-课件-
- 妇科疾病 痛经 (妇产科学课件)
- 《李将军列传》教学教案及同步练习 教案教学设计
- GMP基础知识培训(新员工入职培训)课件
- 基于Java的网上书城的设计与实现
评论
0/150
提交评论