《管理定量分析》课件.ppt_第1页
《管理定量分析》课件.ppt_第2页
《管理定量分析》课件.ppt_第3页
《管理定量分析》课件.ppt_第4页
《管理定量分析》课件.ppt_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

管理定量分析 主讲人 赵丽政治与公共事务管理学院zyz 第二章调查与统计分析 第一节搜集资料第二节数列的频率分析第三节频率分布的概率度量法第四节变量的特性分析 教学目标与要求 掌握搜集资料的基本方法学会基本的数据分析方法认识中心趋势分析以及离散分析 第一节搜集资料 量化分析的过程就是从搜集信息开始 进行信息加工处理 整理 分类 分析 最后得到结论的过程 一 搜集信息的方法调查是搜集信息的主要手段 分全面调查和非全面调查 普查和抽样调查 两大类 1 全面调查 普查根据要求 对所涉及的全部对象一个不漏地进行调查 遵循 统一 原则 统一调查目的 要求 调查对象 统一调查时间 统一编号 所涉及的各个项目及其可能的选择给予互不相同的编号 统一调查项目并给予正确的解释 制定栏目 格式完全一致的调查问卷 统一调查方式 如 人口普查 中派 调查员 入户询问 等级问卷 按统一标准培训 统一数据汇总原则和方式 统一数据处理方法 如采用同一软件 统一调查结果的汇总 上报方式和时间 统一解释权归属 其他需要统一的内容 2 非全面调查典型调查 根据调查目的 选择在同类对象中最具典型性的单位或个人进行调查 重点调查 根据调查目的 选择最具代表性的对象进行调查 随机抽样调查 根据调查目的 在调查对象中随机抽取调查对象 获取资料 进行分析 普查 抽样调查的比较 二 调查误差1 误差的类型工作误差 由调查工作本身造成的 代表性误差 用样本推断总体而引起的 2 误差产生的原因调查方案设计的问题 如指标含义不清 调查口径不一致 调查方法不完善 资料重复或者遗漏 被调查对象提供的信息不准确 故意 无意 记忆差错等 调查员工作疏忽大意 个别参与调查的人员弄虚作假 测量工具不准确 输入汇总资料时产生差错 其他 3 如何控制误差调查方案设计力求完善 涉及的术语有唯一准确的定义 计算方法要简洁 组建具有一定权威的调查机构 选用责任心强 专业 训练有素的调查员 做好被调查对象的宣传 解释工作 小范围 小规模的模拟调查 事先发现问题 尽早纠正差错 这对普查尤其重要 严格采样 汇总 处理数据的方法和步骤 及时抽查 及时纠正问题 必要的奖惩措施 4 注意事项目标明确 概念界定清楚 程序和日程安排明白无误 组织严谨 参与调查的人员训练有素 在保证目标的基础上 问卷设计简洁合理 设问有内在联系 可相互佐证 搜集 整理 加工信息的方法科学 实用 调查误差虽然不可避免 但可以通过努力降至最小 三 调查步骤以问卷调查为例 大致需要经过如下步骤 1 首先 确定问题 明确调查的主题 围绕什么中心搜集资料 2 其次 列出大纲 将主题 细化 设计好问卷 内容包括 基本调查项目 这类项目在资料分析时往往作 自变量 被调查对象是单位 名称 性质 成立时间 地理位置 职工人数 被调查对象是个人 姓名 若属匿名调查 则不登记姓名 性别 年龄 职业 文化程度 态度 看法 行为取向 理由 采取某种行为 态度的理由或动机 其他需要说明的问题 3 确定样本 问卷发放 数量 范围 被调查对象的条件 选择被调查对象的原则 4 有指导地发放 填写问卷 5 回收问卷 6 初步分析整理问卷 在整理数据之前 对资料 数据 的有效性进行初步分析 1 资料来源是否存在偏见 由这些资料得出的结论是否比别的资料更有价值 2 资料的论据是否充分 与实际情况是否一致 有没有出乎意料的矛盾 3 调查 观察 的对象和数量是否具有代表性 4 整理后的资料是否合乎逻辑 初步结论是否可信 相近结论是否相互印证 7 资料归类 初步数据整理 8 清点样本总数 输入事先设计的计算机表格 第二节数列的频率分析 原始资料是未经处理输入计算机的数据表格 输入汇总的资料 数据 怎样排列与直觉判断关系密切 通常在排序前先要选定数据归类法 从而确定统计的 标志列 及相应变量 例如被调查对象的职业 被调查对象的年龄 被调查单位的性质 国营企业 集体企业 民营企业 个体工商户 等都可以作标志列 在做统计分析时 标志列的元素常被当作 自变量 使用 一 数据 观察值 整理排序法升序 由小到大 降序 由大到小 二 频率法频率法 就是计算出观察数据落在各数据段中的频数或频率 按照下列步骤编制 定距数列 的频率分布表 第一步 确定分组标志和分组数目 需要明确每一个的上限和下限 可以按等距离分组 也可以采取不等距离分组 个别组可以是开口组 通常分组数由分组间隔大小和数据总数决定 如果先决定分组数 再采取等距离分段 用下列公式计算组间距 组距 最大值 最小值 1 分组数其中的 1 表示一个观察值单位如将1 100分成10组 组距 100 1 1 10 10 第二步 把数据归入各组 计算各组的观察值的个数 并填入相应方格 如果采用频率法 可用下列公式计算每组观察值的频率 频率 该组数据数 数据总数第三步 制作统计表格 第四步 需要时绘制曲线图 第三节频率分布的概率度量法 一 算术平均需要推断几个样本是否取自同一个总体 要使用算术平均值 1 n个数a1 a2 an的算术平均值 a ai n i 1 n EXCEL中的计算函数是AVERAGE为了计算各个反映中心趋势的量 对分段统计的数据先要计算 组中值 每一个分段数据的 中值 计算公式 组中值 本组下限 本组上限 2对于用定距法分段统计数据的资料 可利用相应的组中值计算算术平均值 关于切尾均值 TRIMMEAN 切尾均值是从全部数据中去掉指定比率的较大与较小数值 然后再计算算术平均数 如果算术平均数和切尾均值差异不十分明显 表明算术平均数没有受到极端值的显著影响 可以粗略地认为数据中不存在显著的极端值 例如 比赛或者评委打分的去掉一个最高分 去掉一个最低分 2 优点第一 通俗 直观 易懂 第二 是一个可计算的 单值量 任何一组数据都有且仅有一个相应的算术平均数 如平均收入 人均GDP等 第三 在计算算术平均数时 所有的数据都要参加运算 不能用概率推算 因此它是一个可靠的 具有代表性的度量中心趋势的量 3 缺点第一 算术平均数会受到资料中那些没有代表性的 特殊的数据影响 对于这类观察值 算术平均值并不具备代表性 第二 存在无下限或无上限的 开口组 时 无法计算组中值 也就无法计算平均值 二 加权平均值在数理统计中 加权平均值又称数学期望 算术平均法只考虑参与平均的数 而没有考虑每个数的频率 加权平均法考虑了频率分布的情况 使数量大的数据在计算平均值时占比较大的比重 数量小的数据在计算平均值时占比较小的比重 衡量数量多少的标准取决于有关数据在总体资料中所占比重的大小 即频率 一般情况下 用频率作为权重 也可以直接使用观察值的个数 加权算术平均值计算公式 权重总和为1 权重总和不为1 直接用每段数据作为权重 a ai n i 1 i a n i 1 ai n ki 三 几何平均值计算公式 几何平均值和算术平均值很接近 前者往往更接近实际情况 EXCEL中的计算函数是GEOMEAN 四 中位数1 中位数Me 一个位于一组观察值的中心位置的参数 大于它和小于它的参数相等 对于按序排列的奇数个观察值中位数就是最中间的那个数 偶数个观察值的数列的中位数是中间两位数的平均值 中位数对应的足标 第 n 1 2项EXCEL中的计算函数是MEDIAN 奇数 591113192533偶数 1591113192533足标 8 1 2 4 5中位数 11 13 2 122 优点 1 不会受到特殊数据的影响 2 无论是分组资料还是不分组资料都可以计算中位数 且直观 易懂 组中值 闭口组 上限 下限 2组中值 只有上限 上限 相邻组的组距 2组中值 只有下限 下限 相邻组的组距 2组距 最大值 最小值 组数组距 全距 组数 五 众数众数Mo 资料中重复出现次数最多的数 即频率最高的数 71561379237438632对于一个定序数列 EXCEL中的计算函数是MODE 定距数列的众数计算方法 Mo L d1 d1 d2 L为众数组的下限 d1为众数组的频率与下邻组的频率差 d2为众数组的频率与上邻组的频率差 为众数组的组距宽 众数可以用来测定品质资料的中心位置 六 平均数 中位数 众数的适用性比较1 比较 2 平均数 中位数 众数三者的关系三个参数大小关系不同 反映观察值的分布特点 三个参数关系与分布特点 三种典型的分布图 单峰值情况 对称分布 向左倾斜 向右倾斜 观察值对称分布 平均数 中位数 众数是同一个数 观察值向左倾斜 平均数在最左边 中位数居中 众数在最右边 观察值向右倾斜 众数在最左边 中位数居中 平均数在最右边 结论 当总体分布是向右倾斜或向左倾斜时 以中位数度量中心为好 具有双峰的分布曲线 第四节变量的特性分析 观察值的分布不仅取决于 中心趋势 还取决于 离心趋势 描述观察值与中心趋势之间存在什么样的关系 也叫 离散趋势 离中趋势 离散趋势 观察值关于中心的分散程度 可以帮助我们了解中心趋势的可靠性 描述离散趋势的量有极差 平均偏差 四分位内标准差等 一 极差极差 又称全距 是一组观察值中最大值与最小值的差 极差 最大观察值 最小观察值用途 衡量一组观察值的极端差距 极差并不能反映一组观察值内在的特性 离散程度差别很大的两组观察资料 可能有相同的极差 即使从同一组观察值抽取两组不同的样本 可能极差相去甚远 一般样本数越大 得到异常值的机会也越大 极差也越大 因此 极差对样本数过于敏感 存在极端值问题当有开口组时 无法计算极差MAX MIN 二 四分位数反映中间50 数据的离散程度 测度中位数的代表程度中位数是二分位数 四分位内距 四分位差 将一组数据四等分 得到三个数 设Q1为其第一分位数 Q2为中分位数 Q3为第三分位数 第三和第一分位点之间的距离为四分位内距 计算公式 R Q3 Q1 四分位点的离差 DR Q3 Q1 2四分位差小 中间部分数据分布集中 中位数代表程度较高四分位差大 中间部分数据离散程度大 中位数代表程度较低EXCEL中的QUARTILE函数四分位内距在定性分析的德尔斐法中得到广泛应用 三 平均偏差反映平均偏差的指标有两个 方差和标准差 了解这二者之前首先认识一下绝对偏差 计算函数 AVEDEV平均绝对偏差 适用于总体 平均绝对偏差 适用于样本 其中 x为观察值 N n分别为总体和样本的容量 为总体平均值 x为样本平均值 N x n x x 均值 平均绝对偏差可作图检查观察值落入均值 平均绝对偏差所夹区域的点数和落在区域外的点数 进而判断观察值偏离中心 平均值 的程度 四 方差和标准差刻画离散趋势常用指标标准差越大 数据距均值的平均离散程度就越高方差是标准差的平方方差和标准差都能衡量观察值的分散程度 EXCEL中的计算函数 方差VARP 标准差STDEVP对正态分布 用标准差能精确地确定落在平均数两侧某个范围内的频率分布是多大 五 变异系数和偏态系数1 变异系数有两组观察值的平均值相同 从平均差或标准差的计算结果可以看出这两组值的变动差异程度 两个平均值不相等 就难以比较它们之间的变动差异程度 为此引进计算变动度的指标 变异系数 变异系数 反映数列变动的相对程度 是标准差与平均值的比 V s x由于变异系数反映了数组的相对离散程度 从而可以比较平均值不同的两组数列的离散程度 计算AVERAGE 再计算STDEVP 最后计算二者比值 标准差 均值 即为变异系数 在EXCEL中 2 偏态系数 Skewness 平均值描述了频率分布的集中趋势和离散趋势 偏态系数SK描述频率分布的偏斜方向 SK 偏态系数测度数据分布的偏斜方向和程度 系数绝对值越大 分布的偏斜程度就越大 s 3 x Me SK 0 分布向右倾斜 存在偏大的极端值 有一条长尾拖在右边 SK 0 分布向左倾斜 存在偏小的极端值 有一条长尾拖在左边 SK 0 分布是对称的 EXCEL中的SKEW函数 3 峰度系数 Kurtosis 测度数据分布是陡峭或平缓的指标KU 0与正态分布相同KU 0尖峰分布 比正态分布陡KU 0平峰分布 比正态分布缓EXCEL中的KURT函数 如果测度数据分布比标准正态分布更瘦 更高 更陡峭 则称为尖峰分布 如果测度数据分布比标准正态分布更扁平 则称为平峰分布 峰度系数用来度量数据在中心聚集程度 正的峰度系数说明观察量更集中 有比正态分布更长的尾部 负的峰度系数说明观测量不那么集中 有比正态分布更短的尾部 类似于矩形的均匀分布 俄国数学家契比雪夫证明 无论是什么形状的分布 至少有75 的数据落在平均数加减2个标准差的范围内 至少有89 的数据落在加减3个标准差的范围内 对于正态分布的曲线 有68 的观察值落在平均数 加减1个 的范围内 95 的观察值落在平均值 加减2个 的范围内 99 的观察值落在平均值 加减3个 的范围内 按年龄分组 不等距 0 6岁7 12岁13 18岁19 28岁29 55岁55 开口组 假设有A

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论