资料审核与初步统计PPT课件_第1页
资料审核与初步统计PPT课件_第2页
资料审核与初步统计PPT课件_第3页
资料审核与初步统计PPT课件_第4页
资料审核与初步统计PPT课件_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十二章调查资料的审核与整理 资料的审核资料的整理统计表 第一节资料的审核 资料的审核资料的审核是资料处理的第一步工作 它是指研究者对所收集的原始资料 主要是问卷 进行初步的审阅 校正错填 误填的答案 剔出乱填 空白和严重缺答的废卷 其目的是使得原始资料具有较好的准确性 完整性和真实性 从而为后续资料整理录人与统计分析工作打下较好的基础 资料的审核工作包含两方面的内容 一是检查出问卷资料中的问题 二是重新向被调查者核实 资料的审核工作有两种不同的做法 边收集边审核集中审核 第二节资料的整理 一 资料整理资料整理是根据研究目的将经过审核的资料进行分类汇总 使资料更加条理化和系统化 为进一步深入分析提供条件 二 定性资料的整理整理笔记与建立档案资料的编码编码类型 开放式编码 轴心式编码选择式编码 三 定量资料的整理资料的编码 见下表一 资料的录入 见下表二 数据清理有效范围清理逻辑一致性清理数据质量抽查 表一 06 表二 第三节统计表 一 统计表的结构从外表形式上看 统计表由总标题 横行标题 纵栏标题 指标数值四部分组成 总标题是表的名称 横行标题在表的左端 它代表所说明的对象 纵栏标题在表的上方 它代表统计指标的名称 它们分别对横行或纵栏内的统计值作出说明 二 统计表的种类 1 简单表某村历年人均收入 2 简单分组表是总体仅按一个标志进行分组 即运用简单分组形成的表格 某村各户年人均收入统计表 3 复合分组表是总体按两个以上标志进行层叠分组的统计表 它又称为交互分类表 它能表现两个分组标志之间的关系 某村家庭规模和经济情况统计表 第十三章资料的统计分析 统计分析方法是一种定量分析 它是进行科学预测的重要方法 统计分析的特点 1 统计分析要以定性分析为基础 2 统计分析方法必须和其他分析结合运用 统计分析有一套专门的方法和技术 观察 调查 实验 12229986489 如何使用各种统计表与统计图来描述一组数据的分组与分布情况 如何通过一组数据计算一些特征数 简缩数据 进一步显示与描述一组数据的全貌 集中情况 分散情况 分布特征 数据如何分组 收集方法 原始数据 表达形式 作用 分析过程 图示 主要内容 单变量描述统计单变量推论统计相关与回归分析双变量统计分析多变量统计分析 第一节 单变量描述统计 由一种变量的全部分数或观察值组成的一组或一批数据称为一个分布 单变量数据的描述统计就是对其分布情况进行说明 单变量描述统计包括集中量数分析 离散量数分析 一 频数分布与频率分布 频数分布 FrequencyDistribution 就是指一组数据中取不同值的个案的次数分布情况 它一般以频数分布表的形式表达 频率分布 percentagesdistribution 是一组数据中不同取值的频数相对于总数的比率分布情况 常以百分比的形式来表达 编制频数分布表 画出频数分布图 某中学初三甲班60人期中英语考试分数 案例 某中学初三甲班60人英语期中考试成绩累积频数 频率 分布表 二 集中量数分析 集中量数就是代表数据分布集中趋势的量数 集中量数分析指的是用一个典型值或代表值来反映一组数据的一般水平 或者说反映这组数据向这个典型值集中的情况 最常见的集中量数有算术平均数 简称平均数 也称为均值 众数和中位数三种 中位数 Md 中位数 Md 又称中数 是频数分布上50 处的数值 即将观察总数一分为二的变量值 在这个值的两边各有相同个数的数据 当数据的个数为偶数时 取分布50 最中心 处的两个数据的平均数作为中数 中位数 Md 中位数 Md 又称中数 是频数分布上50 处的数值 即将观察总数一分为二的变量值 在这个值的两边各有相同个数的数据 当数据的个数为偶数时 取分布50 最中心 处的两个数据的平均数作为中数 几何平均数 Mg 是n个数据的连乘积开n次方的根 常用作速率的集中量数 如学龄儿童人数的增加率 学校经费的增加率 阅读能力的进步率等 Mg 算术平均数 通常称平均数 又称均数或均值 英文为Mean 故以M表示 如果是由变量X计算得来的就记为 读X杠 现在一般都以表示样本的平均数 以U表示总体的平均数 算术平均数就是各个变量值相加求和再除以变量的总次数 算术平均数的计算方法 1 用原始数据计算平均数 当一组数据个数不多时 可直接用原始数据来计算 如某实验小组10人的实验成绩为11 13 15 16 16 16 17 18 18 20 其平均数为 16 2 用频数分布表求平均数 如果样本的数据很多 达到数十个或数百个 则需编制频数分布表 用频数分布表求平均数 Xc为各组的组中值 f为各组的频数 N为总次数 某中学初三甲班60人英语期中考试成绩平均数 标准差计算表 73 5 73 5 73 5 73 5 73 5 中位术与平均数的比较 1 平均数要求计算所有的数值 而中位数只用到数值的相对位置 一般说来平均数利用了更多的信息 更全面和准确 2 平均数容易受到极端值的影响 中位数则不会受到这种影响 平均数是一种比中位数更为稳定的量度 它随样本的变化比较少 3 当资料是定序 定类测量或者是有开口组的定居测量时 中位数能够拟补不足 三 离散量数分析 离散 中 量数分析指的是用一个特别的数值来反映一组数据相互之间的离散 中 程度 即各组数据相对于平均数的差异程度 离中程度 差异程度小 平均数的代表性高 差异程度大 代表性低 它与集中量数一起分别从两个不同的侧面描述和揭示一组数据的分布情况 共同反映出资料分布的全面特征 同时它还对现各集中量数的代表性做出补充说明 常见的离散量数统计量有全距 标准差 异众比率 和四分位差 示例 某三个班各选5名同学参加测试 他们的成绩分别如下中文系 78 79 80 81 82X 80数学系 65 72 80 88 95X 80外语系 35 78 89 98 100X 80如果仅以集中量数来衡量 这三个队的水平一样高 但是很明显 这80分对中文系队的同学代表性最高 而对外语系的同学代表性最低 1 全距 R 全距也叫极差 它是一组数据中 最大值与最小值之差 它是表示数据分布离散程度最简单的方式 即一组数据中最大数与最小数差 故称两极差 R Xmax Xmin 当数据较多时 应用频数分布表求全距 其方法为 最大组与最小组的组中值之差或最大组上限与最小组下限之差 R Xcmax Xcmin R Umax Lmin R 98 最大值 43 最小值 55 1 求全距 步骤 视数据资料的性质和数据多少而定 组数不宜太多 如太多不能明显表示出分布的主要趋势 但也不宜太少 太少则把很多不同事实归于一组 其分配的主要特征将因此而被蒙蔽 2 定组数 分组参考表 组距就是每一组的间距 即每组所包含的单位 组距以 i 表示 3 求组距 组距i 9 3 i 本例组数为6 组距 一般地 为计算方便 组距取10为宜 组限是分组的界限 其底数为下限 L 其顶数为上限 U 组限的写法有很多 有的用上下限表示 有的用组中值表示 如以 10 为组距 一般多用首尾相接 间隔为10的形式表示 即60 70 70 80 80 90 其中每组上限即为下一组的下限 通常将组下限包含在本组中 而不包含在上限所在的组 因为分组的实际界限应是这一组的精确界限 如 80 90 这一组的精确界限为 79 5 89 4999 4 定组限 5 求组中值 组中值XC 精确下限L 如以10为组距 则 80 90 一组的组中值为 组中值 79 5 84 5 某中学初三甲班60人英语期中考试成绩频数分布表 6 归类划记 2 标准差 标准差 一组数据对其平均数的偏差平方的算术平均数的平方根 一般以S 或来表示 式中S 样本统计值 为标准差 X为各学生的成绩分数 为学生成绩的平均数 x为各学生成绩分数的离差 n为学生 数据 数 S 例1 某校三个系各选5名同学 参加智力竞赛 他们的成绩分别如下 中文系 7879808182数学系 6572808895英语系 35788998100平均成绩 80标准差 一组数据对其平均数的偏差平方的算术平均数的平方根 S 中文系 1 414 分 S 数学系 10 8 分 S 英语系 23 8 分 S 例2 例 有某生三次数学考试的成绩分别为70 57 45 三次考试的班平均为70 55 42 标准差分别为8 4 5 如何看待该生的三次考试成绩的地位 如果仅从原始分数看 肯定认为第一次最好 其实不然 要计算出各次的标准分数 才能说明问题 Z1 70 70 8 0Z2 57 55 4 0 5Z3 45 42 5 0 6这说明 原始分数为70 其位置正在平均线上 而原始分数为57的 其位置在平均线上0 5处 而原始分数为45的 其位置在平均线上0 6处 3 异从比率是指非众数的次数与总体内全部总体单位的比率 异众比率越小 众数的代表性越大 4 四分位差把一组数据按大小排列成序列 然后分成四个数据数目相等的段落 各段落分界点上的数 叫四分位数 即每组占25 舍去资料中数值最高的25 和最低的25 仅就中间50 数据求其量数作为离中量数 就是四分位差 四分位差之间的间距越小 中位数的代表性越大 1 对定序类资料计算四分位差 Q Q3 Q1 2 对定距类资料计算四分位差 使用说明 众数与异众比率配合 中位数与四分位差配合 平均数与标准差配合 四 相对差异 离散或离中 量数 1 离散系数离散系数是一种相对的离散量数统计量 它使我们能够对同一总体中的两种不同的离散量数进行比较 或者对两个不同总体中的同一离散量数进行比较 离散系数的定义是 标准差与平均数的比值 用百分比表示 CV S XCV 100CV 100 例1 一项调查得到下列结果 某市人均平均收入为92元 标准差为17元 人均住房面积7 5平方米 标准差为1 8平方米 试比较该市人均收入和人均住房情况哪一个差异程度比较大 解 人均收入的离散系数为CV S 100 18 5 人均住房面积的离散系数为CV 1 8 7 5 100 24 例2 对广州和武汉两地居民生活质量调查发现 广州居民平均收入为680元 标准差为120元 武汉居民平均收入为360元 标准差为80元 问广州居民相互之间的差异程度 与武汉居民相互之间在收入上的差异程度哪一个更大一些 解 广州居民收入的离散系数为CV 120 680 100 17 6 武汉居民收入的离散系数为CV 80 360 100 22 2 五 标准分数 是用来描述变量分布中某一分数在整个分布中所处的位置 它是以标准差为单位的相对量数 其计算公式为 z 从公式可以得知标准分数是一个分数与其平均数之差除以标准差所得的商 平均数以上各点的分数为正值 平均数以下各点的分数为负值 平均数的分数为零 例如 某班语文平均考试成绩为75分 标准差为8 5分 甲生得92分 乙生得70分 问甲乙二生的分数各为多少 Z甲 Z乙 2 59 据正态分布理论可知的取值范围在 3到 3之间 为了使标准分数变成正值并减少小数位数 以便于比较 我们可将标准分数进一步经线性转换成标准分数 其计算公式为 T 10Z 50 目前 我国各类学校招考新生和对学生进行学习成绩考查评定的主要手段是考试 而对考试成绩的评分一般是用百分制来表示 并用各科成绩相加按总分来决定被试者的优劣取舍 这种做法开来似乎公平 实际上很不合理 因为各科试题的难易程度不同 造成评分标准的宽严不一 因此各科考试成绩的统计量数 如平均数 标准差也不相等 我们不能说语文的考分80分等价于数学的考分的80分 也不能说英语考分75分等价于物理的考分75分 在这种情况下 把考生的各科考分等量齐观地相加起来 凭个考生的总分来决定优劣取舍 显然是十分不合理的 科学的方法 就是把考生是各科分数 经过一个标准化的转化过程 把每个考生的各科分数变成标准分数 然后再进行相加和比较 甲乙两位考生七科分数的标准化表 练习 1 根据各小组调查的问卷 先进行数据清理工作 然后对某些问题进行单变量的统计描述 绘制频数分布表 2 在一个社区诊所 10天内来排队看病的人数分别是52 68 39 47 57 32 75 25 31和93 求算术平均数和中位数 以及标准差 第二节单变量统计推论 统计推断 是指根据样本所提供的详细 运用概率的理论进行分析 论证 在一定的可靠程度上 对总体分布的特征进行估计 推测 具体内容包括 一 总体参数的估计 二 假设检验 一 区间估计 以样本统计量的抽样分布为理论依据 按一定概率要求 由样本统计量的值来估计总体参数的值所在的范围 叫做总体参数的区间估计 1 平均数抽样分布与总体均数的区间估计 从正态分布中随机抽取容量为的一切可能样本的平均数抽样分布是以总体平均数为中心的正态分布 当总体标准差已知时 一切可能样本平均数与总体平均数的离差统计量呈标准正态分布 区间估计 区间估计的实质就是在一定的可信度 置信度 下 用样本统计值的某个范围 置信区间 来估价总体的参数值 范围的大小反映的是这种估计的精确性问题 而可信度高低反映的则是这种估计的可靠性或把握性的问题 其中 表示样本平均数的标准分数 表示样本平均数 表示总体平均数 表示平均数标准误 课堂练习题例 调查某厂职工的工资状况 随机抽取900名工人做样本 调查得到他们的月平均工资为186元 标准差为42元 求95 的置信度下 全厂职工的月平均工资的置信取间是多少 解 将调查资料代入总体均值的区间估计公式得总体均值的置信区间为183 26 188 74当将置信度提高到99 总体的置信区间为182 39 189 61元 随着可靠性的提高 所估计的区间扩大了 但估计的精确性就相应地降低了 例 从某工厂随机抽取400名工人进行调查 结果表明女工的比例为20 现在要求在90 的置信度下 估计全厂工人中女工比例的置信区间 解 带入总体百分数的区间估计公式得16 7 23 小结 要对总体均数进行区间估计 即在一定的可靠程度上求出总体均数的置信区间的上下限 首先 要知道与所要估计的参数相对应的样本统计量的值 以及样本统计量的抽样分布 其次 要求出该统计量的标准误 最后 要明确在多大的可靠度上对总体均数作估计 再通过查抽样分布概率分布表 找出与该可靠度所对应的该分布在横轴上记分的临界值 从而计算出总体均数的置信区间 二 假设检验 利用样本信息 根据一定的概率 对总体参数或分布的某一假设作出拒绝或保留的决断 称为假设检验 当对某一总体参数进行假设检验时 首先从该总体中随机抽取一个样本 然后计算统计量的值 并根据经验对相应的总体参数提出一个假设值 这个假设是说这个样本统计量的值是由这个假设总体参数值的一个随机样本 即这个样本来源于这个总体 而样本统计量的值与总体参数值之间的差异是由抽样误差所致 根据这一假设 可以认为像这样的一切可能样本统计量的值应当以总体参数值 假设的 为中心形成该统计量的一个抽样分布 如果这个随机样本统计量的值在其抽样分布上出现的概率较大时 就得保留这个假设 即承认这个样本来自这个总体 而样本统计量的值与总体参数值之间的差异是由抽样误差所致 此时称样本统计量的总体参数与假设的总体参数差异不显著 否则就拒绝这个假设 否认这个样本来自这个总体 样本统计量的总体参数与总体参数值之间有显著差异 假设检验先对总体的某一参数作出假设 然后用样本的统计量去进行验证 以决定假设是否为总体做接受 依据的概率论中的小概率原理 即 小概率事件在一次观察中不可能出现 的原理 步骤 1 建立虚无假设和研究假设 通常是将原假设作为虚无假设 2 根据需要选择适当的显著性水平 即概率的大小 通常有 0 01等 3 根据样本数据计算出统计值 并根据显著性水平查出对应的临界值 4 将临界值与统计值进行比较 若临界值大于统计值的绝对值 则接受虚无假设 反之 则接受研究假设 例 某单位职工上月平均收入为210元 标准差为15元 问该单位职工本月平均收入与上月相比是否有变化 解 建立虚无假设 H0 和研究假设H1H0 210H1 210选择显著性水平a 0 05 带入样本数据计算统计值Z 得 6 67 1 96所以拒绝虚无假设 接受研究假设 即从总体上来说 该单位职工月平均收入与上月相比有变化 Z检验 Z检验是用正态分布的理论差异发生的概率 误差发生的概率 从而比较两个平均数 样本平均数与总体平均数或两个样本平均数 的差异是否显著 Z检验适用于大样本 n 30 Z检验可分为单总体检验和双总体检验 单总体的检验 t检验 单总体的检验单总体的检验是检验一个样本平均数与一已知的总体平均数的差异是否显著 其检验统计量的计算公式为 式中t为检验的样本平均数与已知总体平均数的标准离差分数 df为t分布的自由度 例如 某校初中三年级学生期中英语考试成绩平均数为73分 标准差为17分 期终考试后 从该年级学生中随机抽取20人的英语成绩 其平均数为79 4分 问该年级学生的英语成绩是否真有进步 第三节相关与回归分析 对两变量间关系进行描述 最常用的是相关量 相关就是指二列变量之间的相互关系 如身高和体重 学习成绩与思想品德等的相互关系 类型 单相关 一元回归与多元相关 多元回归 回归又分为线性与非线性回归 一种是两列变量的变动方向相同 即一种变量变动时 另一种变量也发生或大或小的相同方向的变动 如身高与体重的关系 一般来说 身高越高 体重越重 这叫正相关 另一种相关情况是当一种变量变动时另一种变量是或大或小地向相反方向变动 如身体健康状况与患病率的关系 身体越好 患病率越小 这叫负相关 第三种是零相关 即两列变量变化方向无一定规律 一个变量变动时 另一变量的变动方向可能与其相同 也可能与其相反 且相同与相反的机会趋于相等 如人的相貌与其思想品德之间是毫无关系的零相关 第三节相关与回归分析 相关系数回归分析及测定方法 一 相关系数 相关系数是用来表示相关程度的量的指标 用r表示 其数值范围在 1至 1之间 r的正负号表示变化的方向 正号表示变化的方向相同 是正相关 负号表示变化的方向相反 是负相关 r的绝对值表示两变量之间的密切程度 强度 绝对值越接近1 表示两变量之间的关系越密切 越接近0 表示两变量之间的关系越不密切 如r 1表示完全正相关 r 1表示完全负相关 r 0表示零相关 计算相关系数时 要求二列变量必须成对 而且变量的性质不同亦应计算不同的相关系数 即不同的相关系数适用于不同的变量类型 如皮尔逊积差相关系数适用于两列等距变量 斯皮尔曼等级相关系数适用于两列等级变量 点二列相关系数适用于反映一等距变量与另一真正二分变量间相关程度 二列相关系数适用于反映一等距变量与另一人为二分变量间相关程度 积差相关系数 式中 n为成对变量的数目 SX为X变量的标准差 SY为Y变量的标准差 若用原始分数直接求r 其计算公式为 若用标准分数计算r 其公式为 5名大学生身高提高相关系数计算表 不同层次变量的相关测量与检验1 定类变量与定类变量消减误差比例 指的就是知道X的值时所减少的误差 E1 E2 与总误差的比 2 定序变量与定序变量3 定类变量 或定序变量 与定距变量4 定距变量和定距变量 二 回归分析及测定方法 相关系数是一种广泛使用的描述统计量 用以描述两个变量间的关系 除此以外 它还具有预测功能 即根据一个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论