




已阅读5页,还剩55页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第7章简化变量的分布 简化一个变量的分布简化两个变量的分布相关测量 1 简化一个变量的分布 数据的初步整理数据的特点离散性波动性 变异性 规律性数据的分类计数数据与测量数据离散型数据和连续型数据定类 定序 定距和定比数据 略 2 统计表与统计图 数据的统计分组和分类统计表频数表百分比表交互分类表统计图柱形图圆形图线形图散点图直方图 3 基本技术 定类层次1 频数如 抽取样本学生550人 简化有关他们父亲的职业情况表2 1甲校学生的父亲职业 4 基本技术 续 表2 2乙校学生的父亲职业 5 基本技术 续 2 比例 将每类的频数 f 除以总数 N 公式 P f N如 以表2 1和表2 2为例 来自工人家庭的学生与全体学生的比例分别是 甲校P 152 550 0 276乙校P 135 480 0 2813 比率 百分比 千分比 万分比4 对比值如 以表2 1为例 工人 干部的对比值为152 1105 图示法 6 基本技术 续 定序层次1 累加次数向上累加与向下累加2 累加百分率表2 3甲校学生父亲教育水平 7 基本技术 定距层次组限 每组的范围 包括上限和下限真实下限 标示下限 0 5真实上限 标示上限 0 5表2 4的真实组限应分别是 499 5 699 5 699 5 899 5 899 5 1099 5 1099 5 1299 5 1299 5 1499 5 1499 5 1699 5组距 组的真实上限与真实下限之差组中点 组的真实上限与真实下限的平均数表示 矩形图 曲线图 8 基本技术 续 表2 4甲校学生的家庭每月总收入 9 集中趋势测量法 众值所谓众值 就是次数 频数 最多的值 如表2 2中 农民 平均数平均数是指总体各单位数值之和除以总体单位数目之商 xX n单值分组 xfX nf 10 单值分组平均值 上限 下限组中值 2例表2 5某企业100名职工的收入分布 11 单值分组平均值 续 xf38000X n 100 380 元 组中值为小数时 通常采取四舍五入的办法将化为整数后计算 12 中位值的计算 中位值就是在一个序列中的中间之值 即高于此值有50 的个案 低于此值的也有50 n 1Md位置 2单值分组n2cfMd L fw其中 L 中位值组的真实下限 f 中位值组的次数 w 中位值的组距 cf 低于中位值组真实下限累加次数n 全部个案数目 13 例 中位值的计算 表2 6各乡育龄妇女节育情况 16 44岁 14 例 中位值的计算 续 将各组的次数向上累加起来 求出中位值位置 Md 212 2 106第106个位置的值应在25 至35 的组内 因此 L 25 5 f 30 w 35 5 25 5 10 cf 94 n 212Md 25 5 212 2 94 30 10 29 5即 212个乡中 有半数的育龄妇女节育率低于29 5 也有半数高于29 5 15 离散趋势测量法 离散趋势测量法 是要求出一个值来表示个案与个案之间的差异情况 常见的离散量数统计量有全距 离异比率 四分位差 标准差 离散系数等 1 全距 最简单的方法 即最大值与最小值之差 差值越大 离散趋势越大 2 离异比率 非众值的次数与全部个案数目的的比率n fmo公式 v n n是全部个案数目 fmo是众值的次数 以表2 1与表2 2资料为例 甲校v 550 288 550 0 476乙校v 480 295 480 0 385 16 3 四分位差计算方法 将个案由低至高排列 然后分为四等分 第一个四分位置的值 Q1 与第三个四分位置的值 Q3 的差异 就是四分位差 简写Q 公式 Q Q1 Q3Q1与Q3的差异愈大 表示有50 的个案的分布愈远离中位值 因而中位值的代表性就愈小 以之作为估计或预测的标准所犯的错误就愈大 公式 Q1位置 n 1 4Q3位置 3 n 1 4 17 4 标准差其定义是 一组数据对其平均数的偏差平方的算术平均数的平方根 它是用得最鑫也是最重要的离散量统计量 例1 某校三个系各选5名同学参加智力竞赛 成绩如下 中文系 7879808182X 80数学系 6572808895X 80英语系 35788998100X 80 18 标准差公式 S xi X 2 n将前面三系学生成绩资料代入公式后得 中文系 S 1 414 分 数学系 S 10 8 分 英语系 S 23 8 分 中文系代表的标准差最小 数学系队表其次 英语系代表队的最大 表明英语系代表队的成绩离散程度最高 19 单值分组的标准差计算公式S xi X 2f nF为xi所对应的频数 由组距分组资料计算标准差时 只需要计算出各组的组中值 然后按照单值分组资料计算标准左的公式和方法计算 20 5 离散系数 标准差与平均数的比值公式 CV S X 100 例2 一项调查得到下列结果 某市人均月收入为92元 标准差为17元 人均住房面积7 5平方米 标准差为1 8平方米 试比较该市人均收入和人均住房情况哪一个差异程度比较大 例3 对广州和武汉两地居民生活质量调查发现 广州居民平均收入为680元 标准差为120元 武汉居民平均收入为360元 标准差为80元 问广州居民相互之间在收入的差异程度与武汉居民相互之间在收入的差异程度上 哪一个更大些 21 正态分布与标准值 正态曲线1F x 2 e x x 2 2s2其中 x 变量的数值f x 该变量值的次数s 标准差 3 1416e 2 7183x 均值 22 正态分布具有单峰和对称的特质 因此众值 中位值和均值是相同的正态分布的另一项特质是 x值与均值 x 的差异愈大 其次数会愈少 但不会等于零 也就是说曲线两端逐渐减降 但不会接触底线 标准值 如果正态分布以标准差 s 为单位 则每个变量值就变为 Z x x sz即为标准值 表示 每个x值在标准正态分布上的数值 23 标准值的意义 在正态曲线下各部分面积所占的比例标准正态分布的均值是0 标准差是1 正态曲线面积表 表内的相应数值就是所占面积的比例 也就是该范围内的个案数目所占的比例 标准值是绝对值 只要数值相同 则无论是正值或负值 所表示的面积大小都相同标准值是正数时 所表示的面积是在均值右边 标准值为负数 则在左边 24 思考 大于某个标准值的面积有多少 也就是大于某个标准值的个案占多少比例 25 简化两个变量的分布 统计相关的性质相关 是指一个变量的值与另一个变量的值有连带性 相关的数学符号 多数统计法以0代表无相关 以1代表全相关 介于0与1间的数值如果越大 就表示相关的程度越强相关方向 正相关和负相关 正相关是指一个变量的值增加 另一变量的值也增加 负相关是指一个变量的值增加时 另一变量的值却减少相关方向的分析只限于定序或定距变量 26 交互分类与百分表 交互分类 就是同时依据两个变量的值 将所研究的个案分类 例 青年人教育水平对其志愿的影响 条件次数表 缺点 难于比较不同条件下的次数分布 因为作为基数的边缘次数的值各不相同 27 交互分类与百分表 基数标准化的方法 条件百分表 所有基数变成100 各个条件次数变为百分率例 青年人教育水平对其志愿的影响 条件百分表 28 制作条件百分表的准则 1 每个表的顶端要有表号和标题 如表3 2表示第三章的第二个表 2 绘表时所用的线条 要尽可能简洁 舍去不必要的线条可以节省绘制的功夫 也会令人对表中的数值一目了然 3 在表上层的自变项每个值之下的 号 表示下列的数值都是百分率 如果表内每个数值都附有 符号 就太繁复了 4 表下层括弧内的数值 表示在计算百分率时所提供的个案总数 在研究报告中 如果有条件百分表 便不需要有条件次数表 5 表内百分率数值的小数位要保留多少 视研究需要而定 但最好是有一致性6 根据自变量的方向来计算百分率 是社会科学研究的常规 29 简化相关与消减误差 相关测量法 以一个统计值表示变量与变量之间的关系 这个值通常称为相关系数 大多数相关测量法以0表示两个变量间没有关系 以1表示全相关 因此介于0与1之间的系数值愈大就表示相关程度愈高 若是定距或定序变量 通常是以 符号表示正相关 以 符号负相关 相关测量方法的选择 1 不同测量层次的变量要用不同的相关测量法 2 两个变量之间关系是对称的 还是不对称的 3 最好选用统计值有意义的相关测量法 统计值具有消减误差比例的意义 称PRE测量法 30 2019 12 30 31 消减误差比例 什么是消减误差比例 有一种社会现象是Y 我们就要预测或理解其变化的情况 预测或解释时难免会有误差 假设另一种现象X是与Y有关系的 如果我们根据X值来预测Y的值 理应可以减少若干误差 而且 X与Y的关系愈强 所能减少的预测误差就会愈多 换言之 所消减的误差有多少 可以反映X与Y的相关强弱程度 32 现假设不知道X值 我们在预测Y值时所产生的全部误差是E1 图3 1 如果知道X的值 我们可以根据X的每个值来预测Y值 假设误差的总数是E2 图3 2 则以X值来预测Y值时所减少的误差就是 E1 E2 图3 2重叠阴影部分 这个数值与原来的全部误差 E1 相关比 就是消减误差比例 公式 E1 E2PRE E1PRE的数值越大 就表示以X值预测Y值时能够减少的误差所占的比例越大 也就说 X与Y的关系越强 33 YYX图3 1图3 2 E1 E2 34 相关测量 两个定类变量两个定序变量两个定距变量定类与定距 定序变量 35 两个定类变量 Lambda tau y Lambda相关测量法 以众值作为预测的准则对称形式 mx my Mx My 2n Mx My 不对称形式 my My y n MyMy Y变量的众值次数 Mx X变量的众值次数 my X变量的每个值 类别 之下Y变量的众值次数 mx Y变量的每个值 类别 之下X变量的众值次数 n 全部个案数目 36 例1 要研究100名青年人的最大志愿是否男女有别 获得表4 1的次数资料 假定性别 X 是自变量 志愿 Y 是依变量 两个都是定类变量 故要用 y来简化相关情况表4 1100名青年人的性别与志愿 37 My 50 my 40 30 70 代入公式得 my My70 50 y n My 100 50 0 40例2 青年人的志愿与他们的知心朋友的志愿是否相关 表4 2是得到的次数资料 由于青年人的志愿 Y 与知心朋友的志愿 X 可能相互影响 难于区分何者是自变量或依变量 应用Lambda相关测量法的对称形式 38 表4 2青年人与知心朋友的志愿根据 系数公式和表中资料 可知My 50 Mx 54 my 28 41 7 76 mx 28 41 4 73 n 100 所以 73 76 54 50 2 100 54 50 0 47 39 练习与思考 职业背景对工作价值观是否有影响呢 表4 3职业背景与工作价值观 40 由于表中的众值都出现在同一行 即第一行中 Lambda相关测量法的敏感性有问题 my My 105 45 150 y n My 215 150 0因此 在一些社会科学研究中会用另一种相关测量法 就是古德曼和古鲁斯卡的tau y系数 41 tau y相关测量法 Tau y系数是属于不对称相关测量法 要求两个定类变量中有一个自变量 另一个是依变量 其系数值介于0与1之间 具有消减误差比例的意义 计算的步骤是 首先求出E1 不知X而预测Y时的全部误差 和E2 知道X预测Y时所犯的错误 然后计算消减误差的比例 n Fy Fy Fx f fE1 E2E1 nE2 Fxtau y E1其中 n 全部个案数目 f 某条件次数 Fy Y变量的某个边缘次数 Fx X变量的某个边缘次数 42 以表4 1为例 全部个案数目 n 是100 性别是自变量 X 边缘次数 Fx 分别是60和40 志愿是依变量 边缘次数 Fy 分别是40 50和10 表内有6个条件次数 每者都代表同属于某项Y值与某项X值的个案数目 f 将这些数值代入tau y公式 结果如下 E1 10 100 40 50 100 50 10 100 10 100 58E2 10 60 10 40 60 40 10 60 10 60 30 40 30 10 40 10 0 40 0 40 45tau y 58 45 58 0 224 43 上述计算数值表明 1 性别与志愿的相关程度为0 224 2 以性别来预测或估计志愿的话 能够消减22 4 的误差 从上面公式可见 tau y的预测准则包括全部边缘次数和条件次数 Tau y测量法是考虑全部的次数 故其敏感高高于Lambada测量法 如果是不对称关系 最好选用tau y来简化两个变量的相关情况 44 两个定序变量 Gamma dy Gamma系数适用于分析对称的关系 dy适用于分析不对称关系 两者的取值均在 1至 1之间 它们既表示相关的程度 也表示相关的方向 且都有消减误差比例的意义 Gamma系数计算公式 对称相关测量法Ns NdG Ns Nd其中 Ns是同序对总数 Nd是异序对总数 如果某对个案在两个变项上的相对等级是相同的 则称为同序对 若不相同则称为异序对 45 例 表4 4四名学生的成绩等级四名学生有6对个案 A与C B与C是同序对 因为A的数学 英语成绩等级均低于C B也是如此 A与B是异序对 因为A的数学成绩等级低于B 但其英语成绩高于B 同理A与D B与D C与D是异序对 故表4 4中有2个同序对 4个异序对 46 Gamma系数与dy系数根据Ns Nd两数值来计算两个定序变量的相关程度和相关方向 如Ns与Nd的相差越大 就表示两个变量的相关越强 如果Ns大于Nd表示两变量成正比 反之 成反比 依表4 4数据 计算G系数G 2 4 2 4 0 33该统计值表示四名学生的数学等级与英语等级成反比 相关程度是0 33 47 萨默斯dy相关测量法 不对称相关测量法dy系数公式 Ns Nddy Ns Nd Ty其中 Ns 同序对总数 Nd 异序对总数 Ty 在因变量上同分的对数 48 例 表4 5五个工厂的工人积极性与产量 49 Ns 4 Nd 3 Ty 2dy 4 3 4 3 2 0 11表明工人积极性与产量呈正相关 用工人积极性的高低来预测或估计工厂产量的高代 可以消减11 的误差 50 两个定距变量 简单线性回归与积矩相关 简单线性回归 根据一个直线方程式 以一个自变量 X 的数值来预测一个因变量 Y 的数值 公式 Y bX aY bX a 51 例 表4 69名女青年的上学年期与家务劳动 52 斜率与截距的计算 斜率 X X Y Y n X Y X Yb X X 2 n X2 X 2b值表示回归系数 即自变量对依变量的影响大小和方向 截距 Y b X a Y bX n 53 从表4 6可知 X 36 Y 18 XY 47 X2 174 Y2 68 n 99 47 36 18 b 9 174 36 2 0 8318 0 83 36 a 9 5 32直线方程是 Y 0 83X 5 32 54 积矩相关测量法 皮尔逊相关系数 r X X Y Y r X X 2 Y Y 2R系数与b系数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025广东广州市公安局越秀区分局招聘辅警50人模拟试卷及答案详解(新)
- 2025届中铁一局高校毕业生春季招聘正式启动笔试题库历年考点版附带答案详解
- 2025江苏泰州市中西医结合医院招聘高层次卫生专业技术人才5人考前自测高频考点模拟试题附答案详解(考试直接用)
- 2025年山东省标准化研究院公开招聘人员考前自测高频考点模拟试题完整参考答案详解
- 2025湖北省通山县高层次紧缺专业人才引进60人模拟试卷有完整答案详解
- 2025昆明市五华人民医院招聘派遣制工作人员(1人)考前自测高频考点模拟试题附答案详解(典型题)
- 2025吉林四平市悦萍水利管理有限公司面向社会公开招聘3人笔试题库历年考点版附带答案详解
- 2025中国铁塔股份有限公司社招+校招开启笔试题库历年考点版附带答案详解
- 2025花卉种植专业户发展协议
- 福建排污权核定课件
- 2025年入团知识考试题库(含答案)
- 职业培训项目实施方案
- 破产重整程序中金融债权人保护问题研究
- 设备预防维护培训课件
- (2025秋新版)人教版九年级物理上册全册教案
- 2024csco前列腺癌诊疗指南
- 楼宇入驻管理办法
- 结肠息肉患者健康教育
- 核电运营数字化转型探索-中核集团 核电运行研究(上海)有限公司 2025
- Unit2RainorShine词汇与语法特训鲁教版七年级英语上册
- 学堂在线 如何写好科研论文 章节测试答案
评论
0/150
提交评论