




已阅读5页,还剩623页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
社会统计学SocialStatistics 尹海洁 李树林 社会统计学 M 北京 中国人民大学出版社 2013年 社会统计学SocialStatistics 尹海洁 李树林 社会统计学 M 北京 中国人民大学出版社 2013年 绪论单变量的描述统计分析两个类别变量关系的描述统计两个尺度变量关系的描述统计类别变量与尺度变量关系的描述统计概率与随机变量的概率分布大数定律 中心极限定理与抽样分布参数估计假设检验的基本原理总体均值与方差的假设检验两个类别变量关系的假设检验两个尺度变量关系的假设检验类别变量与尺度变量关系的假设检验非参数检验抽样时间序列 目录 W J Conover著 崔恒建译 实用非参数统计 第三版 人民邮电出版社 2006年4月 卢淑华 社会统计学 第三版 北京大学出版社 2005年5月 戴维 K 希尔德布兰德 加德曼 R 爱沃森 约翰 H 奥尔德里奇等著 社会统计方法与技术 社会科学文献出版社 2005年6月 浙江大学数学系高等数学教研组编 概率论与数理统计 人民教育出版社1979年3月尹海洁 刘耳著 社会统计软件SPSS15 0forWindows简明教程 2008年12月 何书元 概率论与数理统计 高等教育出版社 2006年6月 贾俊平何晓群金勇进编著 统计学 第五版 中国人民大学出版社 2012年6月 同济大学概率统计教研组编著 概率统计 第二版 同济大学出版社 2000年5月 易丹辉编著 时间序列分析 方法与应用 中国人民大学出版社 2011年3月 美 JamesD Hamilton著 刘明志译 时间序列分析 中国社会科学出版社 1999年 中国统计年鉴 参考文献 第一章绪论 社会学研究的过程及统计学的应用 统计分析方法在社会学研究中的作用 抽样方法与统计分析方法的选择 变量的层次及统计分析方法的选择 本章习题 第一章绪论第一节社会学研究的过程及统计学的应用 研究结束 第一章绪论第二节统计分析方法在社会学研究中的作用 一 统计分析方法应用水平是社会学研究科学性的重要标志保尔 拉法格在 忆马克思 中谈到 马克思认为 一种科学只有在成功地运用数学时 才算达到了真正完善的地步 二 统计分析方法应用的目的是要发现和描述社会现象的统计规律 一 社会调查资料的特点1 随机性客观现象可分为确定性现象和非确定性现象 随机现象 2 统计规律性 通过对大量个体特征的统计分析来描述和分析社会现象的统计规律 二 统计学是发现和彰显统计规律的有效工具三 统计学在社会学研究中的地位 第一章绪论第三节抽样方法与统计分析方法的选择 社会调查从研究的范围来分类可以分为全面调查与非全面调查 抽样调查是非全面调查的重要方式 一 总体 个体与样本 一 总体 population 与个体 case 总体是研究对象的全体 个体也称个案 是构成总体的最小单位 是具体调查分析对象 二 样本 Sample 是从总体中抽出的用于实施调查研究的对象集合 二 抽样方法与统计分析方法的选择应用随机原则获得的样本称为随机样本 否则是非随机样本 社会统计学的内容可分为两大部分 描述统计与推论统计 全面调查 只使用描述统计即可 应用推论统计的必要前提是样本必须是随机样本 第一章绪论第四节变量的层次及统计分析方法的选择 一 变量的层次按照变量的取值特征和统计分析时方法应用的特征 变量的层次可以划分为类别变量和尺度变量等两大类 一 类别变量1 无序类别变量 NominalVariable 也称为定类变量 是测量层次最低的变量 如职业 家庭类型 婚姻状况 专业 人际关系类型 地区类别等等 2 有序类别变量 OrdinalVariable 也称为定序变量或序列变量 如职称 职务级别 学生的年级等等 如用1 2 3 4 5 6 7分别表示文盲 小学 初中 高中 大专 大学 研究生 第一章绪论第四节变量的层次及统计分析方法的选择 二 尺度变量 ScaleVariable 若测量工具有单位 则测量结果就不仅能够比较大小 而且能够比较出大多少或小多少 此种测量就是尺度测量 得到的变量就是尺度变量 尺度变量根据测量工具是否具有绝对零分为定距变量和定比变量 1 定距变量无绝对零 若存在零 则这个零是个相对零 如使用摄氏温度计测量的温度便是定距变量 2 定比变量定比测量是最高层次的测量 它不仅有相等的单位可以比较被测事物间的数量差异 而且有了绝对0 这样就可以对被测事物间的倍数进行比较 在社会学研究中 常用的有年龄 收入 住房面积等等属于定比变量 第一章绪论第四节变量的层次及统计分析方法的选择 三 不同层次变量的功能及转换由于对某一事物进行测量时可以使用不同层次的测量工具 因此对同一事物进行测量可能出现多种测量结果 设计问卷时 要尽可能多地设计测量层次高的变量 第一章绪论第四节变量的层次及统计分析方法的选择 二 变量层次与统计分析方法的选择 一 不同层次单变量统计分析方法的选择对于类别变量 可以使用频次分布表 条形图 圆形图 线形图等来描述变量的分布状态 可以用众数和异众比率描述其集中趋势和离散趋势 对于有序类别变量 还可以用中位数和四分位差或全距描述其集中趋势和离散趋势 对于尺度变量 可以使用频次分布表 直方图 线形图等来描述变量的分布状态 用算术平均数和方差或标准差描述变量的集中趋势和离散趋势 二 不同层次两个变量关系的统计分析方法的选择分析两个变量间的关系 明确两个变量是否有关系 如果有关系 相关的强度如何 相关的方向怎样等等 两个变量的测量层次不同 应用的统计分析方法也不同 第一章绪论本章习题 1 1结合社会学研究的过程谈谈统计学在其中所起的作用是什么 1 2社会调查资料具有哪些特点 1 3解释总体 个体 样本这几个概念 1 4变量可以分为哪些类型 1 5类别变量与尺度变量的区别是什么 1 6简要陈述不同层次变量的功能 1 7举例说明统计学在社会学研究中的应用 第二章单变量的描述统计分析 单变量的分布及其描述方法 集中趋势 离散趋势 本章习题 第二章单变量的描述统计分析第一节单变量的分布及其描述方法 单变量的描述统计就是用统计表 统计图和统计特征值将变量的状态 水平和分布特征表现出来的方法 一 变量及其分布 一 变量的特征1 变量的含义 研究对象的每个个体都具有很多属性和特征 比如每个人都有身高 体重 年龄 学历等特征 这些在不同个体上具有不同表现的特征就称为变量 统计学中的变量在个体上是相对稳定的 在不同个体上表现出变化 这类变量也称为随机变量 2 变量取值的两个特征完备性 完备性是指变量的取值必须涵盖全部的个案 互斥性 互斥性是指变量的取值之间不能互相包容 第二章单变量的描述统计分析第一节单变量的分布及其描述方法 一 变量及其分布 二 变量的分布变量分布指个体在变量取值上的分布 对一组观察值 一般用频次分布 频率分布和累积频率分布三种方法描述变量分布 1 频次分布 变量取值与取值上拥有的个体数的集合称为频次分布 若变量有m个取值 则该变量的频次分布可表示为 例如 调查1000户家庭 7种家庭类型户数的频次分布为 核心家庭 707户 直系家庭 182户 大家庭 7户 断代家庭 9户 单亲家庭 37户 单身家庭 15户 第二章单变量的描述统计分析第一节单变量的分布及其描述方法 一 变量及其分布 二 变量的分布2 频率分布 变量取值与取值上拥有的个体数的频率的集合称为频率分布 将频率分布的频率乘以100 即是百分比 频率分布可以表示为 例如 调查1000户家庭 7种家庭类型户数的频率分布为 核心家庭 0 707 直系家庭 0 182 大家庭 0 007 断代家庭 0 009 单亲家庭 0 037 单身家庭 0 015 其它家庭 0 043 第二章单变量的描述统计分析第一节单变量的分布及其描述方法 一 变量及其分布 二 变量的分布3 累计频率分布 将上述频率分布中的频率按变量的取值排列顺序逐项累加就形成累积频率分布 分布可以表示为 例如 调查1000户家庭 7种家庭类型户数的累计频率分布为 核心家庭 0 707 直系家庭 0 889 大家庭 0 896 断代家庭 0 905 单亲家庭 0 942 单身家庭 0 957 其它家庭 1 第二章单变量的描述统计分析第一节单变量的分布及其描述方法 一 变量及其分布 二 变量的分布关于频次分布 频率分布和累计频率分布的总结可以清楚地表现数据的分布特征和统计规律 但只适用于类别变量 例如文化程度 职业 职称等 对取值很多的尺度变量 通常将变量的取值划分成段 如年龄段 收入段 再累计该段中的人数 来表示变量的分布 尺度变量取值的数据有两种 离散性数据 如年龄 通常取整数 在相邻的两个数之间不存在其它的数据 连续性数据 如身高 如果测量的单位可以达到无穷小的话 理论上 任何两个数之间都有无穷多个数 尺度变量的分布在统计表中予以详细说明 第二章单变量的描述统计分析第一节单变量的分布及其描述方法 二 统计表表现数据分布的最常用方法是统计表 将数据按照一定的顺序排列在由横行 纵列交叉结合而成的表格上 一 统计表的结构统计表可分为横表与竖表 应用较多的是竖表 教材表2 1 表号 标题 表头 表身 主词 宾词 第二章单变量的描述统计分析第一节单变量的分布及其描述方法 二 描述类别变量分布特征的统计表 简单表简单表 主词按变量的取值一一列出 适用于表现类别变量的分布 主词是类别变量的取值 宾词是各个取值出现的频次 频率或百分比及累计频率或累计百分比等 教材表2 2 1 表的正上方须有标题 简明 扼要 准确地说明表的内容 2 表的左上方应有表的编号 3 数字部分横行间不必标划线条 两侧不画纵线 呈开口式 4 数字书写要工整 小数点上下对位 5 当某项数字缺少时用 表示 6 如有对表的其它说明可在表的下面写出表注 制作原则 第二章单变量的描述统计分析第一节单变量的分布及其描述方法 二 统计表 三 描述尺度变量分布特征的统计表 分组表1 分组表的特点 尺度变量取值很多 可以采用分组表来表现尺度变量的分布特征 分组表的主词是将变量的取值按一定的标准分组或分段的统计表 主词中每个组的最大值称为组上限 最小值称为组下限 教材表2 3 第二章单变量的描述统计分析第一节单变量的分布及其描述方法 二 统计表 三 描述尺度变量分布特征的统计表 分组表1 分组表的制作步骤 1 确定全距 全距就是变量观察值的最大值与最小值之差 2 确定组距与组数 一般是2 3 5 10或它们的倍数 3 确定各组的上下限 最低组的下限要小于最小的观察值 最高组的上限要大于最大的观察值 连续型数据的一组的下限与下一组的上限为同一值 习惯上以组的上限为实 下限为虚 即 下组限不包括在内 的原则 4 登记各组中个案的频次 计算频率 将个案按照变量取值大小划分到各组中 按需要统计出频次 频率及累计频率等 并将统计出的数据置于相应单元格内 绘制成分组表 二 统计表 三 描述尺度变量分布特征的统计表 分组表1 分组表的制作步骤 确定全距 确定组距与组数 确定各组的上下限 登记各组中个案的频次 计算频率 第二章单变量的描述统计分析第一节单变量的分布及其描述方法 二 统计图统计图就是用图的形式来表示变量的分布特征 比统计表更直观 生动 易记忆 缺点是不如统计表精确 变量的测量层次不同 使用的图形也不尽相同 不同类型的图形表示数据大小的方式不同 用图形表现数据的分布特征时有一定的规范和要求 每个图的左下方都要有图的编号 图的正下方要有图的名称 用以简明扼要地说明图的内容 如有其它的说明可以在图的下面写出图注 如果图中有多种绘图元素 可以用图例的形式予以说明 第二章单变量的描述统计分析第一节单变量的分布及其描述方法 二 统计图 一 描述类别变量分布特征的统计图1 简单条形图 条形的长短或高低来表示数据大小 以类别变量的取值为横轴的分类标志 以纵轴表示频次或频率 教材图2 1 二 统计图 一 描述类别变量分布特征的统计图2 圆形图 也称饼图 一般用于描述类别变量中各类别所占的比例 是以一个圆为整体 以每一部分所占的比例来分割圆心角 圆心角所对应的扇形即表示每一部分所占的比例 第二章单变量的描述统计分析第一节单变量的分布及其描述方法 二 统计图 一 描述类别变量分布特征的统计图3 线形图 线形图是在坐标系内用折线或连续曲线表示事物的分布或变化的图 第二章单变量的描述统计分析第一节单变量的分布及其描述方法 图2 32000年全国家庭户主受教育程度分布 二 统计图 二 描述尺度变量分布特征的统计图1 直方图 描述尺度变量分布 用条形长短或高低来表现数据大小 与简单条形图不同的是 条的宽度表示分组的组距 条与条之间不分离 直方图以尺度变量为横轴 以分组的组限为横轴的数据标志 以纵轴表示频次或频率 分组表的数据就可以用直方图来表示 用表2 4的频率分布数据制作的直方图如图2 4所示 第二章单变量的描述统计分析第一节单变量的分布及其描述方法 图2 4住房使用面积分布直方图 简单条形图用于描述类别变量的分布 直方图用于描述尺度变量的分布 直方图的典型应用是人口金字塔 是一种横的直方图 纵轴是以5岁为组距的分段的年龄 横轴是人数 由男性年龄分布和女性年龄分布两个直方图合并而成 图2 5是中国2008年的人口金字塔 图2 52008年中国人口金字塔资料来源 根据 中国人口与就业统计年鉴2009 相关数据绘制 二 统计图 二 描述尺度变量分布特征的统计图2 累积频率直方图 以尺度变量为横轴 以分组的组限为横轴的数据标志 以纵轴表示累积频率 制作的直方图就是累积频率直方图 用表2 4的累积频率分布数据制作的累积频率直方图如图2 6所示 图2 6住房使用面积累积频率直方图 二 统计图 二 描述尺度变量分布特征的统计图3 线形图 将直方图或累计频率直方图每条顶部的中点用直线连接即构成描述尺度变量分布的线形图 图2 8住房使用面积累积频率线形图 图2 7住房使用面积分布线形图 二 描述尺度变量分布特征的统计图4 点状分布图 直方图虽能较好表现尺度变量的分布特征 但它通过分组将尺度变量转化成了顺序变量 组内数据值无法表现 若数据量足够大 可用点状分布图来详细地表现变量的分布特征 点状分布图以尺度变量为横轴 用点的累积表现变量取值上的个体数 图2 9居民住房使用面积的点状分布图 第二章单变量的描述统计分析第二节集中趋势 用图和表的形式虽然能够很好地表现变量的分布状况 但是不够简洁 尤其是将不同的总体或样本进行比较时 使用表或图难以得出清晰的结论 很多情况下 我们不需要对所有的数据都有详尽的了解 在对不同总体进行比较时 也不可能一一地使用每一个数据 这就需要对变量的全部取值进行概括 找出一个典型的统计特征值来代表全体数据 集中趋势 和离散趋势 就是概括地说明变量的状态或水平的统计特征值 由于测量层次不同 变量取值的数据特征不同 用于概括变量状态的集中趋势也不同 常用的集中趋势统计量 众数 中位数 算数平均数 常用的离散趋势统计量 异众比率 极差 全距 四分位差 方差与标准差 第二章单变量的描述统计分析第二节集中趋势 一 众数M0众数 mode 根据频次来确定的集中趋势量值 在一个变量的取值中 出现频次最多的变量值就是众数 表2 1中 初中 是我国家庭户主文化程度的众数 第二章单变量的描述统计分析第二节集中趋势 一 众数M0关于众数的几点注意事项 1 众数适用于任何层次的变量 只要是知道了频次分布就可以找到众数 但主要用于概括和描述类别变量 2 对于分组的尺度变量 出现频次最高的组称为众数组 可以用众数组的组中值 组上限和组下限的平均值 近似地代替众数 分组数据的众数可以精确计算 可进一步参见李金昌 苏为华 统计学 机械工业出版社 2007年2月出版 72页 但计算出来的众数只是理论众数 并非实际上取值最多的数据 3 众数较适用于单峰分布的情况 多峰分布的众数可能不唯一 所以通常不使用众数来概括变量分布的状态 第二章单变量的描述统计分析第二节集中趋势 二 中位数Md中位数 median 是位于数列中点的数值 它恰好把全部数据分为两半 比它大的数据个数与比它小的数据个数正好相等 因为确定中位数需要比较数据的大小 因此定序以上的变量才可以使用 但如果一个序列变量的取值很少 也不适合用中位数作为集中趋势来概括全部数据 实际上 中位数适用于取值很多的序列变量和尺度变量 二 中位数Md 一 未分组数据中位数的计算对于原始的数据 只要将数据按大小顺序排成数列即可以找到中位数 如在2 4 6 8 10 12 14 16这个数列中 中位数是9 当数据总数为奇数个时中位数是第 N 1 2个数 如数列2 4 6 8 10 12 14有7个数 7 1 2 4第4个数是8 即中位数 当数据总数为偶数个时在 N 1 2的地方没有数值 则中位数为 式2 1 二 中位数Md 二 分组数据中位数的计算在分组数据中 因为没有了数据的原始值 无法直接寻找中位数 需要先找到中位数组 第N 2个数据所在的组为中位数组 确定中位数组以后利用式 2 2 计算中位数 式2 2 式中 L是中位数组的下限 h是组距 n是中位数组的频次 N为数据总个数 Cf 是L以下的累积频次 第二章单变量的描述统计分析第二节集中趋势 分组数据的中位数计算举例 883 2 441 5中位数所在组 即 住房面积的中位数为54 3平方米 三 算数平均数算术平均值简称平均值 是全部数据的平均水平 算术平均值主要适用于尺度变量 一 未分组数据算数平均值的计算1 根据原始数据计算对于变量的一组观察值 可以用原始数据来直接计算算数平均值 计算公式为 第二章单变量的描述统计分析第二节集中趋势 式2 3 三 算数平均数 一 未分组数据算数平均值的计算1 根据原始数据计算 例2 2 已知5名女性身高分别为 1 581 601 641 561 52 单位 米 5名男性身高分别为 1 681 721 761 641 60 单位 米 分别计算他们的平均身高 三 算数平均数 一 未分组数据算数平均值的计算2 根据频次数据计算 式2 4 计算得平均年龄为18岁 三 算数平均数 二 分组数据的算数平均数计算如果数据存在于分组表中 则以组中值来代替原始值计算分组数据的平均值 设数据被分为k组 每组的组中值 组上限和组下限的平均值 为bi 每组的频次为ni 则分组数据的平均值的计算公式为 式 2 5 请根据表2 4的数据 计算被调查者住房面积的平均值 第二章单变量的描述统计分析第二节集中趋势 该统计表中的最低组没有组下限 为计算方便可以设最低组下限为0 四 众数 中位数和平均值的比较 二 分组数据的算数平均数计算 第二章单变量的描述统计分析第二节集中趋势 相同点 都通过一个数值来描述数据的整体特征以便简化资料 不同点 一般地说来 均值适用于尺度变量 中位数适用于定序以上变量 而众数适用于所有的变量 注意 对于测量层次一定的变量应选择代表性最好的特征值 例如 对于尺度变量 有众数 中位数和算术平均数三个集中趋势量值可以使用 由于众数和中位数都是用变量的一个值来概括全部数据 其代表性要差 而求平均值时所有数据的值都参与了计算 所以平均值是概括性最好 代表性最强的集中趋势量值 而且 由于尺度变量大都取值很多 有时可能呈现多峰分布 一般不用众数 也很少用中位数来描述尺度变量 对于定序变量 有众数和中位数两个集中趋势量值可以使用 由于中位数体现了数据能够比较大小的功能 一般情况下 认为中位数的代表性要好于众数 而无序类别变量只能使用众数来描述 第二章单变量的描述统计分析第三节离散趋势 仅描述观察值的集中趋势远远不够 还需要找到一些表示数据分散程度的统计特征值 主要原因有二 原因1 变量的取值范围不同 集中趋势的代表性不同 例如 中国职工年平均工资 1978年为615元 2009年则是29229元 1978年职工年工资的分布是在216元到3600元之间 2009年职工年工资的分布是在6900元到数万元之间 因此 有理由认为 1978年的615元对当年职工工资总体的代表性高于2009年的29229元 第二章单变量的描述统计分析第三节离散趋势 仅描述观察值的集中趋势远远不够 主要原因有二 原因1 变量的取值范围不同 集中趋势的代表性不同 原因2 变量取值范围即便相同 但变量分布特征不同时 集中趋势的代表性也不同 例如 两个班级的数学成绩均值均为82 64分 变量值的分布范围均为从60分到100分 取值分布见教材图20 10 由图2 10可见 二班的均值更有代表性 第二章单变量的描述统计分析第三节离散趋势 一 异众比率 一 含义 非众数在数据总数N中所占的比例 二 作用 衡量众值的代表性 非众数的频次占的比例越小 众数的代表性就越好 第二章单变量的描述统计分析第三节离散趋势 二 极差 全距 一 含义 极差是变量取值的范围 极差一般用R Range 来表示 R 最大值 最小值 二 作用 主要配合中位数或平均值说明数据的离散程度的统计特征值 极差小表示数据分布集中 极差大表示数据分布的分散 三 缺点 极差的值是由两个端点决定的 因此个别远离群体的奇异值会极大地改变极差 以至于有时极差不能真正反映全布数据的离散程度 第二章单变量的描述统计分析第三节离散趋势 三 四分位差 四分互差 一 含义 对于定序以上变量 将数据按大小排成数列以后 从下向上数第25 的数据所在位置的值称为下四分位数 用Q25表示 从下向上数第75 的数据所在位置的值称为上四分位数 用Q75表示 上下四分位数之差即为四分位差 一般用Q quartiles 来表示 Q Q75 Q25式 2 7 二 作用 四分位差反映了中间50 数据的分散程度 它既比较好地说明了数据的离散状况 又减少了极端数据所造成的影响 由于中位数处于中间位置 四分位差在一定程度上说明了中位数的代表性 第二章单变量的描述统计分析第三节离散趋势 三 四分位差 三 未分组数据四分位差的计算 计算四分位差要先计算上下四分位数 为此 需要先确定上下两个四分位数的位置 找到两个分位值后相减即得四分位差 根据四分位数的定义可得 如果四分位数所在位置是整数 四分位数就是该位置对应的值 如果是小数 且小数位是0 5 则取该位置两侧值的平均数 如果是在0 25或0 75的位置上 则四分位数等于该位置下侧值加上按比例分摊位置两侧数值的差值 具体计算方法见教材53页举例及以下例题 例 一组数据是某单位49名职工的住房面积 计算住房面积分布的四分位差 某单位职工的住房面积 单位 平方米 33 42 42 48 48 52 55 58 62 65 65 65 66 66 66 66 68 68 68 68 68 70 70 70 72 72 72 72 75 75 75 76 76 78 85 87 90 92 95 98 103 109 110 112 118 125 130 178 179解 n 49Q25的位置 n 4 49 4 12 25 第12 25个数据两侧的数据是65和66 因此 下四分位数为 Q25 65 0 25 66 65 65 25同理 Q75的位置 3n 4 3 49 4 36 75 第36 75个数据两侧的数据是87和90 因此 上四分位数为 Q75 87 0 75 90 87 89 25因此 四分位差为 Q Q75 Q25 89 25 65 25 25即 员工住房使用面积中间50 的数据的离散范围为25平方米 第二章单变量的描述统计分析第三节离散趋势 四 方差与标准差极差和四分位差能较好地表明数据离散情况 但只给出了数据的分布范围 只利用了数据的部分信息 极差和四分位差相等的两组数据其分布情况可能差异很大 对于尺度变量概括其离散程度最好的特征值是方差和标准差 一 平均差1 离差 变量的一个观察值与变量平均值之间的差 2 平均离差 把所有离差加在一起再平均 能反映平均离散情况 平均差则是离差绝对值的平均值 也称平均离差 第二章单变量的描述统计分析第三节离散趋势 四 方差与标准差 二 方差 标准差方差和标准差是用平方的方法消除了离差中的绝对值后形成的统计特征值 方差是离差平方的平均值 标准差是方差的平方根 方差 式 2 13 标准差 式 2 14 四 方差与标准差 二 方差 标准差1 用原始数据计算方差 标准差直接使用式 2 13 和 2 14 例2 8 五名学生数学成绩分别为72 81 86 69 57 计算这五名学生数学成绩分布的方差和标准差 四 方差与标准差 二 方差 标准差2 用频次分布数据计算方差和标准差设变量有k个取值 每个取值出现的频次为ni 则利用频次分布数据计算方差和标准差的公式为 方差 式 2 15 标准差 式 2 16 例2 9 计算 例2 3 中志愿者年龄分布的方差和标准差 四 方差与标准差 二 方差 标准差3 用分组数据计算方差和标准差用每一组的组中值来代替该组的变量值计算方差和标准差 用分组数据计算方差和标准差的公式为 方差 式 2 17 标准差 式 2 18 例2 10 根据表2 4数据 计算居民住房面积的方差与标准差 如果是用样本而不是总体数据计算方差或标准差 则要考虑自由度的问题 自由度是指数据个数与附加给独立的观测值的约束或限制的个数之差从字面涵义来看 自由度是指一组数据中可以自由取值的个数当样本数据的个数为n时 若样本平均数确定后 则附加给n个观测值的约束个数就是1个 因此只有n 1个数据可以自由取值 其中必有一个数据不能自由取值按着这一逻辑 如果对n个观测值附加的约束个数为k个 自由度则为n k 样本方差的自由度是n 1 因为在计算离差平方和时 必须先求出样本均值 x 而 x则是附加给离差平方和的一个约束 因此 计算离差平方和时只有n 1个独立的观测值 而不是n个 样本方差用自由度去除 其原因可从多方面解释 从实际应用角度看 在抽样估计中 当用样本方差s2去估计总体方差 2时 它是 2的无偏估计量 第二章单变量的描述统计分析第三节离散趋势 第二章单变量的描述统计分析第三节离散趋势 第三章两个类别变量关系的描述统计 列联表分析 分类图 列联相关系数 等级相关系数 本章习题 第三章两个类别变量关系的描述统计 社会学研究中不仅要对单个变量的分布进行描述 更多的是要分析变量之间的关系 比如 分析性别与体育爱好的关系 职业与政治参与的关系 文化程度与生育子女数量的关系 收入与住房面积的关系等等 对测量层次不同的变量之间的关系 其分析方法也不同 分析两个类别变量的关系 如性别与职业的关系 性别与文化程度的关系 文化程度与生活满意度之间的关系等等 可采用三种方法 交叉列表 从两个变量的交叉分布来分析两者关系 分类图 直观地表现变量间的关系 相关系数 精确地描述变量之间关系的强度 第三章两个类别变量关系的描述统计第一节列联表分析 一 两个类别变量相关的概念如果有两个类别变量 在一个变量取不同类别时 另一个变量的分布有显著差异 则认为两个类别变量相关 如果一个变量取不同类别时 另一个变量的分布没有显著差异 就认为这两个变量不相关 两个类别变量之间的关系要通过两个变量的交叉分布来描述 这种分析方法称为交叉列表分析 构成的表格称为交叉表或列联表 两个类别变量之间的相关也称为列联相关 第三章两个类别变量关系的描述统计第一节列联表分析 二 列联表的结构列联表也是统计表的一种 它与简单表和分组表不同的是 在一个表中表现了两个不同变量的分布 因此也被称为复合表 表的主词和表头分别是两个变量的取值 表身中单元格的数据是两个变量交叉后的频次或频率分布 三 列联表的种类设x与y是两个类别变量 x分为x1 x2 xr共r类 y分为y1 y2 yc共c类 数据总个数为n 根据列联表中单元格数据的不同 列联表可分为频次分布的列联表和频率分布的列联表 第三章两个类别变量关系的描述统计第一节列联表分析 三 列联表的种类 一 频次分布的列联表 第三章两个类别变量关系的描述统计第一节列联表分析 三 列联表的种类 二 频率分布的列联表 四 列联表中的分布 一 联合分布 即列联表中间部分的数据nij或pij 它们都是由两个变量共同决定的 二 边缘分布 列联表中最下面一行n j或p j是变量y的分布 最右面一列ni 或pi 是变量x的分布 三 条件分布 如果将一个变量取固定值 另一个变量的分布就是条件分布 使用条件分布的目的是要看当一个变量取不同类别时另一个变量的分布是否有差异 这种差异通过频次分布难以表现 所以条件分布大都是采用频率分布 用单元格的频次除以对应列的总频次 即nij n j构成的分布称为关于x的条件分布 也就是当y取固定值时x的分布 同理 nij ni 构成的分布称为关于y条件分布 五 列联表中变量的相互独立性在列联表中 可以通过比较条件分布来研究类别变量之间的关系 当一个变量取不同类别时 另一个变量的分布有差异 即说明两个变量是相关的 从频率分布看 两个变量相互独立的表现形式是条件分布等于边缘分布 推导见教材式3 1到3 4 一般化 等号左侧分子分母同乘于n 移项 一 分类条形图以一个变量的取值作为横轴的标记 用另一个变量的取值来分类 以不同标志点上分类变量的频次或频率作为条的长度绘制条形图 如果在每个标志点上分类变量各个条长基本相等 则说明两个变量基本不相关 第三章两个类别变量关系的描述统计第二节分类图 图3 1不同性别的残疾人文化程度分布的条形图 二 分类圆形图描述变量各取值上的个案数在总数中所占的比例 多个圆形可以分开画 也可以从大到小叠在一起 如果在不同的圆形中各个扇形所占的比例基本相同 就可以认为两个变量不相关 第三章两个类别变量关系的描述统计第二节分类图 图3 2不同性别的残疾人文化程度分布的圆形图 三 多线图在坐标系内绘制分类变量取不同值时 另一个变量分布的多条折线 如果这些折线基本重合 或者相差不大 则认为两个变量不相关 第三章两个类别变量关系的描述统计第二节分类图 图3 3不同性别的残疾人文化程度分布的线形图 图表法只能粗略说明两个变量间是否相关 为精确度量变量之间关系的强度和方向 统计学家根据不同测量层次的变量建构了一系列的统计指标 这就是相关系数 两个无序类别变量之间的关系可以用列联相关系数来描述 在多年的统计实践过程中 统计学家建构了多个列联相关系数 概括起来 基于两种方法 一是基于消减误差比例的方法来建构 二是基于卡方值来建构 后者将在卡方检验中予以介绍 本节只介绍基于消减误差比例的方法建构的列联相关系数 列联相关系数是描述两个类别变量关系的特征值 由于有更好的特征值来描述两个有序类别变量之间的关系强度 因此 列联相关系数主要用于描述两个无序类别变量 或是一个无序类别变量与一个有序类别变量之间的关系 第三章两个类别变量关系的描述统计第三节列联相关系数 一 消减误差比例的统计思想 一 引例比如有4名学生 某次考试成绩的平均分是80分 如果猜测每名学生的考分 唯一可以参考的信息就是平均成绩 只能猜测每人都得80分 实际上 这4名学生的成绩是90 85 75 70 猜测所产生的总误差是 第三章两个类别变量关系的描述统计第三节列联相关系数 假设前两名学生是女性 知道两名女生的平均成绩是87 5 后两名学生是男性 知道两名男生的平均成绩是72 5 现在再来猜测这4名学生的成绩时就可以以性别为参考 女生的成绩都猜测为87 5分 男生的成绩都猜测为72 5分 猜测所产生的总误差是 一 消减误差比例的统计思想 一 引例知道性别与考试分数之间的关系后 预测减少的误差比例是 第三章两个类别变量关系的描述统计第三节列联相关系数 可见 借助性别来猜测学生的成绩可以消减掉67 的误差 也说明性别与学习成绩有较强的相关 一 消减误差比例的统计思想 二 消减误差比例的一般思想在没有任何可参考的信息下猜测一个事物时会有很大的盲目性 而借助一个与被猜测的事物有关的事物来进行猜测 就会减少盲目性 提高猜测的准确性 如果两个变量相关 借助一个变量去猜测另一个变量时会消减掉猜测误差 消减掉的误差大 说明两个变量之间的密切程度高 消减掉的误差小 说明两个变量之间的密切程度低 这样 消减掉误差的大小就可以成为测量两个变量之间关系密切程度的指标 第三章两个类别变量关系的描述统计第三节列联相关系数 一 消减误差比例的统计思想 三 消减误差比例的计算公式设有两个变量x和y 观察的个案数为n 直接猜测每个个体在y变量上的取值 是一种盲目猜测 必然产生误差 猜测n个个案所产生的总误差为E1 如果每个个体在x变量上的取值是已知的 可以借助个体在x变量上的取值来猜测其在y变量上的取值 此时所产生的总误差为E2 消减误差比例 Percentreduceerror 为 第三章两个类别变量关系的描述统计第三节列联相关系数 PRE是取值范围在0和1之间的一个相对数 其值越接近于1 说明两个变量的相关性越强 其值越接近于0 说明两个变量的相关性越弱 二 系数 系数就是基于消减误差比例的思想建构的列联相关系数 利用PRE原理计算相关系数的关键是如何确定E1和E2 一 引例在某城市社区随机抽取了60岁以上的老年人 男 女各100人 他们是否愿意去老年公寓养老的态度分布如表3 10所示 从表3 10中可以看出老年人是否愿意去老年公寓养老的态度与性别是相关的 要计算这两个变量的相关系数要先定义E1和E2 第三章两个类别变量关系的描述统计第三节列联相关系数 表3 10不同性别老年人对去公寓养老的态度 表3 10不同性别老年人对去公寓养老的态度 假设只知道样本中有90人愿意去老年公寓养老 110人则不愿意 此时要猜测每一个人的态度 可猜测所有人都不愿意去公寓养老 这样能猜对110人 猜错90人 此时形成的误差 二 系数 一 引例 第三章两个类别变量关系的描述统计第三节列联相关系数 表3 10不同性别老年人对去公寓养老的态度 若知道不同性别的老年人的态度分布 猜测的方法是 所有的男性均猜测为不愿意 所有的女性均猜测为愿意 这样能猜对130人 猜错70人 此时形成的误差 消减误差比例为 即 0 22 利用性别来猜测老年人对去老年公寓养老的态度 可以消减掉22 的误差 二 系数 二 系数的计算公式假设只知道类别变量x的分布 即y的边缘分布已知 要猜测每个个案y的取值 唯一可参考的就是变量y的分布 此时用众数来猜测所有个案要比用其它值来猜测产生的误差小 设y变量众数的频次为max n j 猜测误差E1为 E1 n max n j 3 6 假设已知道x与y有关 就可以根据x取不同值时y分布的众数来猜测每个个案的y 即根据条件分布的众数来猜测y 设每一行的众数分别为max n1j max n2j max nrj r 1 c 猜测误差E2为 第三章两个类别变量关系的描述统计第三节列联相关系数 3 7 二 系数 二 系数的计算公式E1 n max n j 第三章两个类别变量关系的描述统计第三节列联相关系数 此时 用变量x来预测y 消减误差比例为 3 8 二 系数 三 系数的几个注意事项1 系数的取值范围是0到1 2 系数具有不对称性 借助y来猜测x时 定义的E1 E2是不同的 此时公式为 第三章两个类别变量关系的描述统计第三节列联相关系数 3 9 二 系数 三 系数的几个注意事项3 如果两个变量之间具有明确意义上的因果关系 习惯上将设为自变量 将设为因变量 当两个变量之间的因果关系不太明确的情况下可以计算 y和 x的加权平均数来作为两个变量的列联相关系数 计算方法如下 第三章两个类别变量关系的描述统计第三节列联相关系数 3 10 二 系数 四 系数的算例 例3 2 计算表3 1中残疾人的文化程度与性别的 系数 第三章两个类别变量关系的描述统计第三节列联相关系数 解 设性别为x 文化程度为y 则 三 Goodman KruskalTau 古德曼 克鲁斯卡尔 系数 系数的E1 E2的定义简洁 明确 计算简单 有较多的应用 其缺点是只使用了各行或各列的众数 没有充分利用数据的信息 系数也是基于消减误差比例的思想建构的列联相关系数 但是对于E1 E2的定义与 系数有所不同 一 引例以表3 10中不同性别老年人对去公寓养老的态度为例 说明系数计算中E1 E2的定义方法 第三章两个类别变量关系的描述统计第三节列联相关系数 不知道x与y有关时 猜测每个个案的y值时 只能参考y的边缘分布 为更多地利用y变量边缘分布的信息 不再用众数对y进行猜测 而是用y边缘分布的比例进行猜测 具体做法是 将表3 10中的200人随机地分为90人和110人两组 将110人这一组的个案都猜测为愿意去老年公寓养老 对于这组人猜错的人数为 此时 猜测产生的误差E1为 将90人这一组的个案都猜测为不愿意去老年公寓养老 对于这组人猜错的人数为 一 引例 知道x与y有关时 将男性的100人随机分为30人和70人两组 将30人这一组的个案都猜测为愿意去老年公寓养老 而将70人这一组的个案都猜测为不愿意去老年公寓养老 男性猜错的人数为 同理 将100名女性随机分为60人和40人两组 将60人这一组的个案都猜测为愿意去老年公寓养老 而将40人这一组的个案都猜测为不愿意去老年公寓养老 对于女性猜错的人数为 此时 猜测产生的误差E2为 最终 求得PRE为 三 Goodman KruskalTau 古德曼 克鲁斯卡尔 系数 二 系数的计算公式 第三章两个类别变量关系的描述统计第三节列联相关系数 三 Goodman KruskalTau 古德曼 克鲁斯卡尔 系数 三 系数的算例 例3 4 计算表3 1中残疾人文化程度与性别的系数 第三章两个类别变量关系的描述统计第三节列联相关系数 解 设文化程度为x 性别为y 一 等级相关的概念 一 含义 等级相关指的是两个有序类别变量之间的相关 如果有两个有序类别变量 在一个变量取不同等级时 另一个变量的分布有较大差异 则认为两个有序类别变量存在等级相关 二 适用条件 用于刻画两个有序类别变量的关系 两个有序类别变量之间的关系 尽管也可以用分类条形图 分类圆形图和多线图进行描述 但变量间的关系强度则需要用等级相关系数来描述 由于有序类别变量的取值具有了比较大小的意义 变量的变化具有了方向性 因此相关系数也具有了方向性 如果两个变量的变化方向一致则说明两个变量是正相关 如果两个变量的变化方向相反则说明两个变量是负相关 等级相关系数的正负号表明的就是相关的方向 第三章两个类别变量关系的描述统计第四节等级相关系数 二 Spearman 斯皮尔曼 等级相关系数 一 建构斯皮尔曼等级相关系数的统计思想根据个案在两个变量上的等级差值的大小来测量相关度 将两个变量的两组数据分别排序以后 每个个案在两个变量上分别获得了一个等级 如果两个变量有比较强的正相关 个案的两个等级差就会比较小 所有个案的两个等级差值的平方和也会比较小 反之 如果两个变量有比较强的负相关 个案的两个等级差就会比较大 所有个案的两个等级差值的平方和也会比较大 因此 个案的两个等级差值的平方和可以用来测量两个变量的等级相关 第三章两个类别变量关系的描述统计第四节等级相关系数 二 斯皮尔曼等级相关系数的计算1 无相同等级时的斯皮尔曼等级相关系数的计算设变量x与y均为有序类别变量 且不含有相同等级 也就是说在任何一个变量上不存在两个个案取值相同的情况 每个个案占有一个等级 斯皮尔曼等级相关系数的计算公式为 3 15 其中 di是第i个个案在两个变量上的等级差 n是个案总数 也是等级总数 斯皮尔曼等级相关系数的取值范围 1 1 当两个变量完全正相关时 任意个案在两个变量上的等级差值d为零 等级差的平方也为零 rs 1 当两个变量完全负相关时 rs 1 1 无相同等级时的斯皮尔曼等级相关系数的计算 例3 5 表3 12是14名学生的数学成绩与物理成绩 计算学生的数学成绩与物理成绩的斯皮尔曼等级相关系数 这说明表3 12中学生的数学成绩与物理成绩正相关程度很高 假设检验参见例11 4 二 Spearman 斯皮尔曼 等级相关系数 二 斯皮尔曼等级相关系数的计算2 有相同等级时的斯皮尔曼等级相关系数的计算如果在一个变量中两个个案的取值相等 就会出现相同等级 在统计学中 相同等级也被称为 结 Tie 对于结 一般采用具有相同等级的个案所应占有的平均等级作为它们的共同等级 以保证个案数与等级数基本一致 由于斯皮尔曼等级相关系数要求没有相同等级 因此当变量的取值不是很多 但个案数很多时 这个要求是难以满足的 当相同等级不太多时 也可以计算斯皮尔曼等级相关系数 太多则应用Gamma等级相关系数 例3 6 表3 13也是14名学生的数学成绩与物理成绩 但其中含有相同等级 计算学生的数学成绩与物理成绩的斯皮尔曼等级相关系数 注意表中结的处理 这说明表3 13中学生的数学成绩与物理成绩正相关程度很高 三 Gamma等级相关系数数据中存在大量的相同等级时 可以用Gamma等级相关系数来描述两个有序类别变量之间的相关程度 Gamma等级相关系数是用同序对与异序对的数量差来测量两个变量相关程度的 一 同序对与异序对 1 实例同序对 序号为1与3 1与4 1与5 1与6 1与7的个案异序对 序号为1与2 5与6的个案同分对 序号为3与4 5与7的个案 三 Gamma等级相关系数 一 同序对与异序对 第三章两个类别变量关系的描述统计第四节等级相关系数 2 含义设两个变量x和y 则 同序对 若xi xi时 yi yj 则称i与j两个个案为同序对 异序对 xi xi时 yi yj 则称i与j两个个案为异序对 同分对 Xi xi时 yi yj 则称i与j两个个案为同分对 三 Gamma等级相关系数 一 同序对与异序对 第三章两个类别变量关系的描述统计第四节等级相关系数 3 计算方法以3 3交叉列表为例进行说明 设列联表3 15中两个定序变量和的取值情况为x3 x2 x1 且y3 y2 y1 同序对与异序对的计算 同分对 n11 n12和n13的个案在变量x上的取值均为x1 属于同分对 n11 n21和n23的个案在变量y上的取值均为y1 属于同分对 可见 在列联表中同一行或同一列的个案均构成同分对 同序对 n22 n32n23和n33的个案在变量y上的取值均大于n11对应的取值 因此 它们与n11的个案构成同序对 同理 n21与n32n33的个案构成同序对 n12与n23 n33的个案构成同序对 n22与n33的个案构成同序对 因此 设ns为同序对数目 则3 3列联表中同序对的数量为 同序对与异序对的计算 同序对数量的计算公式 异序对数量的计算公式 三 Gamma等级相关系数 二 Gamma等级相关系数的计算1 公式 如果同序对多异序对少 则表明两个变量之间有正相关 如果异序对多同序对少 则表明两个变量之间有负相关 第三章两个类别变量关系的描述统计第四节等级相关系数 3 18 Gamma等级相关系数的取值范围 1 1 2 算例 例3 7 表3 16是882名不同文化程度的城市居民环境满意度调查结果 计算文化程度与对环境满意度的Gamma等级相关系数 Gamma等级相关系数的算例 解 由Gamma等级相关系数的计算公式可知 Ns 99X 199 31 91 14 203X 31 14 111X 91 14 199X14 56741Nd 40X 111 199 94 91 203X 111 94 31X 94
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 地质勘探与矿产资源评价试题
- 艺术设计基础理论与创作实践题集
- 2025年应急管理专业资格考试试题及答案
- 2025年信息公开与政府透明度考试试题及答案
- 2025年网络工程与信息安全的实务能力测试题及答案
- 2025年老龄化社会与养老服务考试试卷及答案
- 2025年金融风险管理与金融科技考试试卷及答案
- 2025年健康教育与促进能力评估题及答案
- 2025年创新管理与企业发展考试试卷及答案
- 2025年产品设计与市场匹配考试试卷及答案
- 公安院校及专业招生政审表
- 史上最全区块链详解课件
- (完整版)杭州电子科技大学数字电路期末考试试卷及答案
- 建筑装饰装修工程质量验收规范试题
- 能源计量器具配备和管理
- 《食品经营许可证》申请报告书空白模板
- 试卷交接签字单
- 有限空间作业及应急物资清单
- DB13(J)∕T 8060-2019 城镇供热管道及设备安装工程施工质量验收标准
- 《国际商务》课程
- 压力容器设计管理制度
评论
0/150
提交评论