数据模型与决策ppt课件.ppt_第1页
数据模型与决策ppt课件.ppt_第2页
数据模型与决策ppt课件.ppt_第3页
数据模型与决策ppt课件.ppt_第4页
数据模型与决策ppt课件.ppt_第5页
已阅读5页,还剩377页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据 模型与决策Data ModelsandDecisions 1 主要讲授课程 计量经济学 运筹学 经济预测与决策技术2 主要研究方向 多元统计半参数统计中估计问题因果效应推断 本课程的主要内容 数据分析的基本内容计量模型的基本方法预测与决策的基本技术软件的简单应用 本课程的特点数据 模型与决策流程 数据 模型与决策的目的是在科学 符合逻辑和合理的基础上制定决策 特点 以数据为基础 将数据作为基本的信息来源 以对实际问题的了解为基本结构 以数据对结构的吻合程度为标准 以模型为手段 以数学理论与方法为工具定量研究社会经济现象之间的关系 形成较严密的研究特色 具有较好的可试验性 决策是目的且具有量的特征 定量可以对问题的描述较精确 能对问题的本质进行深入 广泛的推断 为科学决策提供依据 是一门多学科交叉的科学 数理统计学与运筹学 管理学是其基础计算机技术是必不可少的工具 实际问题1 资源分配问题 潘得罗索工业公司生产胶合板 根据厚度和所用木材的质量而有所不同 因为产品在一个竞争的环境中进行销售 产品的价格由市场决定 所以每个月管理层面临的一个关键问题是选择产品组合以获取尽可能多的利润 需要考虑当前生产产品必须的各种资源的可得数量 六项最重要的资源为 1 四种类型的原木 根据原木的质量区分 和 2 生产胶合板的两项关键作业的生产能力 模压作业和刨光作业 你们公司有这样的经历吗 实际问题2 销售量评估 某食品公司生产各种系列的冷饮食品 冷饮食品生产是季节性 需要提前组织生产 一般是每年四月就要制订接下去的五个月生产计划 包括生产的冷饮品种 等级 规格与原料组合 因此要制订采购计划和工厂生产能力计划 以满足市场的需要 如何来预测客户的需求量呢 预测对生产计划有多重要 案例1 有兄弟姐妹一起成长 不仅增添亲情 而且有预防疾病的好处一项来自澳大利亚的研究表明 兄弟姐妹在6岁之前的相互传染病毒可以增强免疫功能 并预防多发性硬化症 塔斯马尼亚州研究者观察了136名多发性硬化症患者 并与272名健康者进行了对比 有兄弟姐妹的人得病少 科学家发现 在幼儿时期与兄弟姐妹有五年以上密切生活的人患多发性硬化症的几率下降了88 而与兄弟姐妹接触1 3年的人可降低43 案例2 科学家最近发现了保持苗条身材的奥妙 如果一个人平时闲不住 小动作很多 日常消耗的热量就多 就能保持苗条的身材 美国梅欧医院请来了20位志愿者 进行了为期一年的研究 志愿者分为两组 一组较瘦 另一组轻度微胖 所有志愿者都穿上一种带有传感器的特制内衣 内衣里的装置每隔半秒钟记录一次人体的姿态与活动 坐立不安 让人苗条 志愿者照常进行他们的日常工作与活动 所有食物由研究人员提供研究人员发现 轻度微胖者更喜欢坐着 而身材苗条组的人闲不住 瘦人组的平均 坐立不安 的时间比胖人组多2个小时 相当于多消耗350卡热量如果胖人组也这么不 消停 的话 一年下来完全可以减轻14 18磅的体重此外 研究人员还发现 一个人爱动还是喜静是天生的 与体重无关 在研究的第二阶段 让瘦人多吃1000卡 热量 胖人少吃1000卡热量 他们的生活习惯没有改变 这项研究为肥胖者提供了新的希望 以上几个问题说明在现实生活中 不管是进行决策还是进行研究发现新结果 都离不开数据 第一章 数据与数据展示 1 数据概述 可分为科学数据 社会数据 商业数据 依来源与用途 分类 数值型与属性型静态数据与动态数据时间序列数据 截面数据 面板数据定类数据 定序数据 定距数据与定比数据 一 数据的来源 1 已存在的数据 包括存在于组织中的一些个人信息资料 一些专门收集与维护数据的公司所拥有的商务数据 政府机构2 调查研究获得的数据 可分为实验性研究与观察性研究 二 数据收集的道德准则与行为规范 基本准则 数据的客观性与可重复性行为规范 1 尽可能收集原始数据或第一手数据 2 引用数据时 要辨别是否侵犯知识产权 合法引用要注明数据的来源 3 原始数据有异常时 要分析异常的原因 不得随意删除 篡改数据 4 要说明数据处理的工具 方法及处理过程 5 通过问卷调查的数据 要说明调查内容 调查表的设计等 三 数据图表表示 数据收集好了 那我们就来看看从数据中能挖到什么宝藏了 3 1类别数据的表格表示例3 1交通事故的驾驶因素分析造成交通事故的驾驶因素有判断失误 察觉得晚 驾驶错误 偏离规定的行驶路线和酒后或疲劳驾驶等 某地区交通管理部门对某段时间中的50起交通事故进行驾驶因素分析 得到的原始数据如下 从例3 1的数据 你能看出些什么 也许你看出了 察觉得晚 判断失误 等因素比较多 偏离规定的行驶路线 酒后或疲劳驾驶 等因素比较少 很好 其实 只要借助一些简单的图表 就能对数据加以整理并进行初步的定量分析 一些常用的软件如Excel 几乎能完美地为你完成这些图表 我们从表1很容易看出 哪些因素是比较主要的因素 各因素之间频率的差异有多大 等等 有时 累积频率也需要在频数频率分布表中列出 每一类的累积频率是指 从第一类开始累积到该类的频率总和 即将该类及其之前的所有类的频率相加 譬如 为了分析驾驶因素中的主要因素 我们可以进一步改进表1 按照频数或频率从大到小的顺序 将各因素排序后列出来 并加上累积频率一项 结果列于表2中 表2分析驾驶因素中主要因素的频数频率分布表 用Excel制作定性数据频数频率分布表 累积频率更常用于有序数据的分析中 我们来看一个例子 例3 2博客调查 http PerseusDevelopment公司在其网页上发布了一项关于博客的调查报告 该调查根据8个博客服务商提供的博客用户资料 得到了各年龄段的人创建的博客数 频数频率分布表3显示了调查结果 表3各年龄段的博客创建情况 数据的图形表示用于数据描述的图形比较多 譬如常用的饼状图 柱状图 直方图 以及在统计学中常用的茎叶图 排列图等等 当我们在考虑各种图的时候 把变量稍加分类会有帮助 有的变量具备有意义的数值尺度 如身高几厘米 考试成绩几分等 而有的变量只是把个体分到不同类别而已 如性别 职业或教育程度 类别变量只记录所属类别 譬如 例1的变量就是类别变量 它包含5个类 个体的数据就是指个体属于其中某个类 要表示类别变量的分布 可以用饼图 也可用柱状图或条形图 等等 以下是例3 1的图形表示 柱形图与条形图作法垂直柱状组成的图形称为柱形图 水平条状组成的图形称为条形图 例 创建我国2001 2004年第一 第二和第三产业产值数量的变化的柱形图 打开Excel表 单击 插入图标 工具图标 选择图表类型 柱形图和子图标类型 点击 下一步 2 选择目标数据 用鼠标选定B4 D8 单击 系列 卡片 点击 下一步 3 输入系列名称 用鼠标选定 分类 X 轴标志 A5 A8 单击 下一步 4 输入或修改 标题 坐标轴 网格线 图例 数据标志 数据表 等属性 单击 下一步 5 选择图表位置 单击 完成 6 图表完成 如果需要 可以双击图表中任何一部分进行修改 图表区 分类轴 分类轴标题 数值轴 图例 图表标题 系列 第一产业 绘图区 数值轴主要网格线 数值轴标题 系列 第二产业 系列 第三产业 直方图 因为类别变量的可能值相对来说不多 所以我们可以用饼状图或柱状图来呈现类别变量的分布 那么像月收入这种数量变量要如何呈现呢 因为数量变量的可能值太多 所以不太可能用饼状图或柱状图来呈现 若将数量变量的数据进行适当的分组 再画出分布图 那么将会比较清楚 这就是本节中我们将重点介绍的图形 直方图 histogram 它是描述数量变量分布最常用的图 在平面直角坐标系中 用横轴表示各类观察值 纵轴表示频数或频率 所绘制的由若干个长方形所组成的图形 就叫做频数分布直方图 简称直方图 通过直方图 我们可以比较快速 直观地把握整体的分布情况 直方图作法 步骤 1 确定直方图的区间个数 填入每个组界值 2 打开 工具 菜单 3 选择 数据分析 4 选择 直方图 5 在 直方图 对话框中填入数据 用Excel制作定量数据频数频率分布表和直方图见例1 14 四 数据集中与分散属性的度量 某两个班 DMD 考试成绩如下 808576786793889075666577748381708364966079868071798987747865978991617977858978728684888466697874778981如何评价这两个班的学习成绩呢 描述数据的分布属性是描述统计的主要内容 数据的分布属性包括 数据的频数分布和直方图数据集中属性的指标 平均数 中位数 众数 比例 数据离散属性的指标 极差 方差 标准差 数据分布形态的指标 偏度 峰度 数据的计数和求和数据之间的相关程度的指标 相关系数 Excel中的统计功能有以下三种实现方法使用Excel的菜单统计工具使用Excel统计函数使用Excel统计插件 例如PHStat等 数据集中趋势的测度均值 一组数据的平均值 中位数 数据序列中位于中间的值 众数 发生次数最多的值 不同年龄段每周上网时间的平均值 AVERAGE B23 B158 AVERAGE C23 C279 AVERAGE D23 D186 AVERAGE E23 E133 AVERAGE F23 F86 一组数据按大小顺序排列以后 处于中间位置的数据 对于奇数组 中位数是中间的一个 对于偶数组 中位数是中间的两个的平均值 MEDIAN B23 B158 MEDIAN C23 C279 MEDIAN D23 D186 MEDIAN E23 E133 MEDIAN F23 F86 众数是一组数据出现次数最多的数值 如果一组数据各不相同 则这组数据不存在众数 不同年龄段上网时间均值的区间估计 xls 数据的如下 MODE B23 B158 MODE C23 C279 MODE D23 D186 MODE E23 E133 MODE F23 F86 标准差 反映数据的离散程度 方差 是标准差的平方 极差 最大与最小之差 标准误 通常只针对抽样均值而言 标准差的重要性切比雪夫定理 任何一组数据 设它的平均数为 标准差为 这组数据落在范围内的数据个数占数据总数的比例 至少是 这个定理说明了标准差是数据分散程度的一个普遍性的指标 在工业生产中 产品的指标总会出现波动 一般都把产品指标的变动控制在指标平均值加减3个标准差的范围内 认为这是生产正常的标志 如果产品指标波动超出这个范围 说明生产系统不正常 在投资风险分析中 评价投资收益有两个指标 一个是收益期望值 平均值 另一个是收益的标准差 投资收益的标准差表示投资风险的大小 标准差越大 风险越大 低收益低风险 低收益高风险 高收益低风险 高收益高风险 变异系数标准差是测定数据离散程度的标志 但由于不同的数据数值大小不同 相同的离散程度 数值比较大的标准差也会比较大 以下是不同年龄组每周上网时间的统计数据 为了比较大小不同的几组数据的离散程度 定义如下的变异系数 CoefficientofVariation 五 数据频数分布形态 描述数据频数分布形态的指标有两个峰度 设数据个数为N个 峰度计算公式为峰度系数是描述数据分布陡峭或平坦的指标 正态分布的峰度为0 比正态分布平坦的峰度为负值 偏度 描述数据分布对称性指标 公式为正态分布偏度为0 数据频数右偏 偏度系数为负 左偏为正 六 数据的统计相关性 1 因果相关性 指变量X与变量Y之间存在因果关系 因果关系可以通过理论或实验证实 2 统计相关性 指变量X的数值与变量Y的数值之间可以找出统计关系 统计关系是一种数量关系 不需要 还没有或不可能解释二者之间的相关的原因 因果相关的变量不一定有统计相关性 有统计相关的也不一定有因果关系 线性相关系数 反映两个变量之间线性统计关系的指标 分总体相关系数与样本相关系数 设有两个变量X Y 其均值与方差分别为则总体相关相关系数为 其中称为X Y的协方差 样本相关系数的计算公式为 用R表示总体相关系数 r表示样本相关系数 相关系数反映了数据之间的线性相关程度 即便数据存在非线性相关 R与r可能为0 以后一般指线性相关 相关系数没有单位 其值为 1r1 r值为正表示正相关 r值为负表示负相关 r绝对值反应两变量间相关关系的密切程度 绝对值越大说明相关关系越密切 r的绝对值等于1为完全相关 r 0为零相关 第二章 概率论与统计学基础 一 随机事件 随机变量与频数事件分类 确定性与随机性 随机变量 表示随机事件各种可能结果的变量 每一个随机变量都有确定的可能取值 随机变量分类 离散型与连续型 随机事件的运算随机事件的交 Intersection 事件A和事件B同时发生的事件称为事件A和事件B的交 记为A B或AandB随机事件的并 Union 事件A和事件B至少一个发生的事件称为事件A和事件B的并 记为A B或AorB 如果两个事件不可能同时发生 则这两个事件是互斥 Mutuallyexclusive 的 随机事件的差 事件A发生而事件B不发生 则称这个事件是A与B的差事件 A B 样本数 频数 对随机变量 我们感兴趣的是它的各种可能结果发生几率有多大 可以通过记录随机变量发生的次数 称为样本数 观察它的各种可能结果出现的次数 称之为随机变量频数 假设随机变量X可能取这m个结果 记取的次数为称为随机变量取值的频数 那么 当样本数为N时 有 相对频数 随机变量可能结果的频数与样本数之比 记为 显然 所有相对频数之和为1 即例 见教材P50例 二 离散随机变量及分布 当样本量不断增加时 离散随机变量相对频数趋向于一个稳定的值 称之为随机变量的概率 记随机变量X取某一个值的概率为即有几个概率法则法则1 概率值都在0 1之间 法则2 所有可能性的概率之和等于1法则3 如果事件A和事件B互斥 那么两个事件的并发生的概率等于两事件发生的概率之和 即P A B P A P B 法则4 如果两事件不是互斥的 那么两个事件的并发生的概率等于两事件发生的概率之和 减去两事件的交发生的概率 即 P A B P A P B P A B 离散随机变量分布律 离散随机变量可以用分布律表示其取值的概率 分布函数 对给定的一个实数 随机变量不超过这个值的概率 也称累积概率 记分布函数为F x 则表达式为很显然 分布函数是一个分段右连续函数 2 几个重要的离散分布贝努利分布 如果一个随机变量X只有两个结果 而且两个结果发生概率是不变的 则称这个随机变量服从贝努利 记X的两个取值分别为0与1 取0的概率为p 则X的概率分布律为 二项分布 重复了n次的贝努利分布试验 设成功的概率为P 则在n次试验中成功了x次的概率为记为 二项分布的均值为np 方差为np 1 p 泊松分布 在排队系统中 比如到公交站的人数 到银行的人数 常常假定单位时间内到达的客人数满足如下条件 1 单位时间内到达的顾客数的均值与到达时间无关 这称为随机变量的平稳性 2 任何两个到达的顾客之间是独立的 称为普遍性 3 前面到达顾客人数不影响后面到达顾客人数 称为无后效性 4 所有有限时间内到达的顾客总数是有限的 称为有限性 可以得出有k个顾客到达的概率为其中 为单位时间到达的顾客数量的均值 三 连续型随机变量及概率分布 例 略 对连续型随机变量X 概率曲线记为f x 即随机变量X的概率密度函数 简称密度函数 累积概率曲线记为F x 即随机变量X的累积概率分布函数 简称分布函数 命题1 设连续型随机变量X的取值范围为 a b 密度函数为f x 分布函数为F x 则有 1 随机变量X落在区间中的概率为 2 密度函数在随机变量所有取值范围内的积分为1 3 4 5 几个重要的连续随机变量分布 1 正态分布 若随机变量的密度函数为 其中 为正态分布的均值与标准差 分布函数为 正态分布 x O f x 标准正态分布 当时 正态分布称为标准正态分布 一般正态分布做变换即可化为标准正态分布 标准正态分布密度函数 x 的曲线有以下特征 是偶函数 关于y轴对称 即当x 0时 取得最大值x取值离原点越远 x 值越小 在x 1有两个拐点 曲线与x轴间所夹面积为1对分布函数有 如果 则X的分布函数例设X N 0 1 求P X x 并计算P X 1 28 设某种产品的重量X服从N 100 16 如果产品的重量在95 105之间属于合格品 求产品是合格品的概率 已知小麦穗长服从N 9 978 1 4412 求下列概率 1 穗长小于6 536cm 2 穗长大于12 128cm 3 穗长在8 573cm与9 978cm之间 从甲到乙地有两条路线 走第一条路所需时间服从N 50 100 走第二条路时间服从N 60 16 问 1 若有70分钟可用 走哪条路好 2 若只有65分钟呢 指数分布 若一个随机变量X的密度函数为则称随机变量服X从指数分布 记为其分布函数为 指数分布有许多性质 略 均匀分布 如果随机变量落在某一区域的上的点的概率相等 则称这个随机变量服从均匀分布 三角分布 超几何分布 伽马分布F 分布t 分布 随机变量的期望值和方差 离散随机变量的期望值对于离散随机变量X 期望值是这个随机变量的所有可能结果 用每一个结果发生的概率作为权重的加权平均 设随机变量X有n个取值 第i个取值等于xi的概率为f xi 则随机变量X的期望值E X 等于离散随机变量的方差 Variance 方差度量随机变量的不确定性 方差越大 结果的不确定越大 由于方差的单位和变量的单位不同 因此常用标准差 Standarddeviation 表示随机变量的波动的大小 由于标准差的单位和变量相同 因此它比方差更有意义 标准差是对风险的一种测度 因此它在金融模型中是一个关键的概念 例 风险投资问题有一项风险投资 每次投资成功和失败的概率都是50 投入1元资本 如果成功 连本带利资本增值为2 2元 如果失败 投入的资金全部损失 资本变为0 为了避免所有的资本全部损失 每次只投入当前资本的一半 假设最初的资本为100万元 而这项投资的次数没有限制 问题 这项投资的前景如何 是一本万利 还是血本无归 解1设初始资本A 100万元 投资成功的资本增值率为K 2 2第一次投资成功后的资本为 A 2 KA 2 K 1 A 2第一次投资失败后的资本为 A 2第一次投资后的资本的期望值为 0 5 K 1 A 2 0 5A 2 0 5 K 2 A 2 0 5 K 2 1 A 第二次投资成功后的资本为 0 5 K 2 A 4 0 5 K 2 KA 4 0 5 K 2 K 1 A 4第二次投资失败后的资本为 0 5 K 2 A 4第二次投资以后的资本期望值为 0 5 0 5 K 2 K 1 A 4 0 5 0 5 K 2 A 4 0 52 K 2 2A 4 0 5 K 2 1 2A 第n次投资以后的资本期望值为 0 5 K 2 1 nA 0 5 1 1 1 nA 1 05 nA当n无限增大时 资本会无限增加 即投资是一本万利的 解2设投资2n次 当n很大时 其中大约有n次成功 n次失败 其中对投资者最有利的是前n次都成功 后n次全失败 第1次成功后的资本为A 2 KA 2 K 1 A 2第2次成功后的资本为 K 1 A 4 K K 1 A 4 K 1 2A 4 K 2 1 2 2A 第n次成功后的资本为 K 2 1 2 nA 第1次失败后的资本为 K 2 1 2 nA 2第2次失败后的资本为 K 2 1 2 nA 22 第n次失败后的资本为 K 2 1 2 nA 2n K 4 1 4 nA 0 8 nA当n无限增大时 2n次投资以后的资本趋向于0 即投资将会血本无归 解法1和解法2的结果显然是矛盾的 至少有一个是错的 哪一个是错的 错在哪里 连续随机变量的期望值设连续随机变量X的概率分布密度函数为f x 它的期望值为 a b 是随机变量所在的变化范围 a可以是 b可以是 随机变量X的方差为随机变量X的标准差为 联合分布 边际分布与条件概率 在描述一些事物的运行规律 比如蚂蚁爬行所处的位置 飞机在空中的位置这样一些随机事件 就必须考虑多个随机变量构成的变量组 设是一随机变量组 则X的分布称为联合分布 设其密度函数为则分布函数为 例 假定某种疾病的发病人数与年龄及某个化验指标有关 现有1898名患者资料见P72例2 15 将表中的统计人数除以总人数1898人 得到患病人数关于年龄和化验指标的联合概率分布 由表中的数据可以看出 如果某个患者的年龄在55 64岁之间 化验指标在6 0 7 9之间 他患病的概率为11 2 设年龄为随机变量X 化验指标为随机变量Y 表中的数值记为f x y 称为随机变量X和Y的联合概率分布 第一行数值表示不考虑年龄 x 时 化验指标 y 的概率函数 第一列数值表示不考虑化验指标 y 时 年龄 x 的概率函数 第一行和第一列称为边际概率 Marginalprobability 如果离散型随机变量x与y的联合概率为f x y 则变量x与y的边际概率为 如果连续型随机变量x与y的联合密度函数为f x y 则变量x与y的边际概率密度为 相互独立的随机变量 例 已知随机变量 X Y 的联合分布如下表 1 12 1 12 1 6 1 2 1 48 1 48 1 24 0 1 12 1 12 1 6 1 1 16 1 16 1 8 2 3 1 1 2 xy 经过简单的计算 可以发现对 X Y 的任意取值 x y 有f x y f x f y 但前述某疾病例子不存在这个情况 随机变量独立 对二元随机变量 X 如果其联合分布函数可以表示为两个边缘分布函数的乘积 则称随机变量 与 相互独立 充分必要条件 离散型 连续型 f x y f x f y 分别表示联合密度函数与边缘密度函数 条件概率 在一个随机事件 Y 已经发生的条件下 某一个随机事件 X 发生的概率 称为条件概率 记为f x y 由下表看出 55 64岁的患者人数为606人 其中化验指标的6 0 7 9之间的患者人数为213人 所求的条件概率为 213 606 0 351 年龄在55 64岁之间的人数为606人 化验指标在6 0 7 9之间 年龄在55 64岁之间的人数为213人 以上的计算表明 条件概率f x y 等于联合分布概率f x y 除以边际概率f y 由此得到 联合分布概率等于条件概率乘以边际概率 联合分布概率f x y 边际概率f y 统计学概述 统计学是处理统计数据的科学 统计学在科学研究 社会经济分析 商业决策和日常生活中有广泛的应用 根据处理统计数据的目的和方法的不同 统计学可以分为描述统计 推断统计和预测统计 下面简要介绍这三类统计的主要内容 描述统计统计数据有不同的特征 例如 哈尔滨市和三亚市的年气温变化显然有很大差别 哈尔滨的年温差 一年中最高气温和最低气温之差 较大而三亚的年温差较小 两地的年平均气温 全年每小时气温的平均值 也相差很大 描述统计就是计算和分析统计数据的一些统计指标 用来表示统计数据的特点 这些统计指标包括前面介绍过的均值 方差 标准差 中位数 极差以及峰度 偏度 相关系数等 研究分析和表示统计数据的统计特征 就是描述统计的主要内容 推断统计我们经常需要通过数据的研究 来确定某一个统计结论有效的范围 或者用统计数据证实或否定一些统计结论 例如 通过抽样检测得出 某件产品的合格率为97 通过市场调查确定 某商品的市场份额为12 根据民意调查得知 某候选人在未来的选举中得票的比例为59 由于这些统计数据是根据抽样得到的 重复进行抽样 这些数据会有所不同 因此 在得出这些统计数据的同时 还需要了解它们在多大范围内 在多大程度上是可信的 这些例子都是为了确定统计结论的有效范围 预测统计在日常生活和经济活动中 经常需要对已经观察到的统计数据进行分析研究 以便估计将要发生的数据 例如 通过对某一城市历年气温的分析 预测明年夏季这个城市的最高气温 通过对以往股市行情的分析 预测股市今后的走势 根据一些父母的身高统计数据 来预测未成年子女未来的身高等等 第三章 抽样与估计 什么是抽样为什么要抽样商业调查中需要研究的总体 由于数量太大 或者调查具有破坏性 往往无法进行 例如要调查全部电视观众每天看电视的频道和收看时间 显然是不可能的 要测定生产的每一个灯泡的寿命 由于是破坏性的 也不可能全部进行测试 抽样是商业调查的一个必要和可行的方法 抽样的目的是从样本得到尽可能充足的信息 用来有效推断总体的状况 抽样方法抽样方法可以从不同的角度来划分 从样本是否随机获取分 可以分为 主观抽样判断抽样 根据专家的判断选取样本 例如选择特征典型的顾客方便抽样 用容易获得的方法获取样本 例如选取某一天到达的顾客概率抽样简单随机抽样 每个样本都有相同的机会被抽中分群抽样 具有相同统计属性的群 随机抽取若干群进行统计 例如 在杭州市重点中学中随机抽取两所 统计高考平均成绩 其他抽样方式系统抽样 从总体中按照一定的规律间隔性抽取样本 例如根据电话号码顺序每间隔100个抽取1个 分层抽样 具有不同统计属性的层 根据各层总体的比例 进行抽样 例如 根据发达 欠发达 不发达地区人数 按比例抽样统计农民人均收入 整群抽样 将不同生产批号的产品作为一群 抽取其中某一个批号的产品作为样本连续过程的抽样 例如连续生产线上每间隔一定时间或间隔一定数量的产品作为样本 抽样误差分析 例1谁先动手 有人调查研究酒吧里的打架致死事件 发现其中90 都是死掉的那个人先动手 真是这样吗 如果你跟人打架把对方给揍死了 警察问你谁先动手的时候你怎么回答 例2美国的种族效应1989年 纽约市选出第一位黑人市长 维吉尼亚选出第一位黑人州长 这两个事件 在投票所访问投完票的选民后所预测到的胜负差距 都比实际开票的差距大 因此 调查机构相当确定 有些受访选民因为不愿承认没投票给黑人候选人而说了谎 例3权威人物的意见有两个内容相同的问题 问题A 陆军部和海军部应当合并为统一的作战部 您同意么 问题B 艾森豪威尔将军说 陆军部和海军部应当合并为统一的作战部 您同意么 结果对问题A表示同意的比例为29 而对问题B表示同意的比例为49 两者相距甚远 无疑 权威人物艾森豪威尔将军的意见影响了被调查者的意见 例4总统选举预测1936年民主党人罗斯福任美国总统第一任满 共和党人兰登与他竞选总统 文学摘要 杂志根据有约二百四十万人参加的民意测验 预测兰登会以57 对43 的优势获胜 自1916年以来的五届总统选举中 文学摘要 杂志都正确地预测出获胜的一方 其影响力很大 那时盖洛普刚刚设立起他的调查机构 他根据一个约五万人的样本 预测罗斯福会以56 对44 的优势获胜 实际结果是 罗斯福以62 对38 的优势胜出 当时有人说 这次选举的最大赢家不是罗斯福 而是盖洛普 自这之后 盖洛普的调查机构得到迅速的发展 国内外闻名 而 文学摘要 杂志不久就垮了 文学摘要 杂志的调查方法有什么问题 实际的抽样调查是很复杂的 即使采用了好的随机抽样方法 准确地计算了误差界限 调查结果也不一定可靠 就拿例3 1来说 本来应该是对打架双方都进行调查 但已经死去的被调查者无法回答 而剩下的被调查者又可能为保全自己而不如实地回答 那么 这样的调查结果会可靠吗 下面 我们来看看抽样调查中的基本概念 抽样的误差来源 以及抽样调查者应如何与之奋斗 1 抽样的基本概念 a 总体和样本b 抽样c 抽样目标d 抽样误差e 抽样方法f 抽样方案设计 2 抽样误差分析 统计调查的目的是取得能准确反映客观状况的统计数据 在许多时候 调查结果并不能准确地表现事实 总会有误差出现 在调查的各个阶段 误差都有可能出现 如果其中一个阶段出现了较大误差 可能会把其他阶段都进行得很好的一次调查毁掉 因此必须认真细致地实施调查的每一个阶段 严格控制误差 为了保证统计数据的质量 了解误差的来源与减小误差的措施很有必要 继续例4从常理来看 应该调查数据越多 结论越可靠 罗斯福的实际得票率为62 文学摘要 杂志的预测为43 误差达到19 误差之大令人惊异 这样大的误差是怎么得来的呢 经过研究发现 原因在于 文学摘要 杂志选取样本有偏性 杂志是根据电话簿和俱乐部会员的名册 将问卷邮寄给一千万人 当时美国四个家庭中仅有一家装电话 他选取的样本有排斥穷人的选择偏性 这样的民意测验非常不利于民主党人罗斯福 此外 文学摘要 杂志调查的一千万人中只有二百四十万人回答了问卷 不回答者可能非常有别于回答者 这二百四十万人代表不了被邮寄问卷的一千万人 譬如 1936年 文学摘要 杂志的一次专门的调查 给在芝加哥的选民每三人寄去一张问卷 约20 的被调查者作了回答 其中支持兰登的超过半数 但是在选举中 兰登在芝加哥的得票率只有三分之一 所以当出现高不回答率时 谨防不回答偏性 心理研究表明 低收入和高收入的人倾向于不回答问卷 因此中等收入的人在回答者中的比例过高 为此现代调查机构更喜欢采用亲自询问来代替邮寄问卷 即使亲自询问 也有不回答偏性的问题 访问员来访时 不在家的人与在家接受访问的人可能在工作时间 家庭关系和社会背景等方面有比较大的差异 从而看法也不一样 例如有一项关于快餐的市场调查 抽取500户家庭进行调查 白天访问时 有150户家庭没人 能不能仅用白天有人的350户家庭的数据 不能 这里有不回答偏性 白天不在家的150户可能是吃快餐比较多的家庭 误差按其性质可以分为两类 一类是抽样误差 它是由于抽选样本的随机性而产生的误差 只有采用概率抽样的方式才可能估计抽样误差 另一类是非抽样误差 它是指除抽样误差以外的 由于各种原因而引起的误差 在概率抽样 非概率抽样和全面调查中 非抽样误差都有可能存在 若采用了概率抽样方法 那么我们可以估计出抽样误差的大小 还可以通过选择样本量的大小来控制抽样误差 在谨慎执行的抽样调查中 抽样误差通常不大 而非抽样误差相对比较难以估计和控制 提高抽样技术是非常重要的 若采用了随机抽样方法 那么我们可以估计出抽样误差的大小 还可以通过选择样本量的大小来控制抽样误差 样本数太大 浪费人力 物力与财力 太少常常结论不准确 样本大小必须保证抽样误差不超过允许的范围为前提 在单纯随机重复抽样条件下 估计总体均值所需样本数可按以下公式计算在单纯随机不重复抽样的条件下 估计总体的平均数所需样本为其中 n 抽取的样本数 t 标准正态概率分布下置信区间的临界值 总体标准差 允许误差范围N 总体中个体总数 样本数据的统计分析 样本均值 方差 标准差和标准误抽样是随机进行的 因此样本数据的属性 如样本数据的均值 方差 标准差 标准误等也是随机变量 这些随机变量具有怎样的统计特性 是我们关注的问题 首先来研究样本均值 方差 标准差与样本数n的关系 用函数RAND产生1000个随机变量作为总体 样本数分别为50 100和200 三个样本的均值 方差和标准差如图3 7所示 样本数据的统计分析 样本均值 方差 标准差和标准误抽样是随机进行的 因此样本数据的属性 如样本数据的均值 方差 标准差 标准误等也是随机变量 这些随机变量具有怎样的统计特性 是我们关注的问题 首先来研究样本均值 方差 标准差与样本数n的关系 用函数RAND产生1000个随机变量作为总体 样本数分别为50 100和200 三个样本的均值 方差和标准差如下表所示 从上表可以看出 样本数量越大 样本的均值 方差 标准差越接近总体相应的数值 如果抽样是随机的 样本的均值也是一个随机变量 下面我们来研究 样本均值这个随机变量服从什么样的分布 概率论中有一个非常重要的定理称为中心极限定理 该定理的内容是 无论总体服从何种分布 只要样本数越来越大 样本均值就会逐渐接近正态分布 这个正态分布的均值为总体均值 标准差为其中 为总体标准差 因此 当样本数n很大时 样本均值的标准差将会逐步接近零 也就是说 当样本数量足够大时 样本均值和总体均值 将会非常接近 Excel抽样工具Excel 工具 数据分析 抽样 提供了周期抽样和随机抽样两种功能 Excel表 研究所员工资料 xls 提供了115名员工的信息 如果希望从该数据中每间隔7个样本抽取1个员工 操作如下 打开 工具 数据分析 抽样 输入区域 选择A1 A116 抽样方法 选择 周期 周期 输入7 输出选项 选择 输出区域 并选择M2 得到M2 M17共16个员工的样本 由于周期抽是按样本编号从小到大抽取的 无论抽到的样本放回还是不放回 任何样本不可能被重复抽中 如果 抽样方法 选择 随机 就需要输入 样本数 例如样本数为15 点估计 案例 德军有多少辆坦克二战中 盟军非常希望知道德军总共制造了多少辆坦克 德国人在制造坦克时总是墨守成规的 他们把坦克从1开始连续地进行编号 在战争过程中 盟军缴获了了一些坦克 并记录了他们的生产编号 那么怎样利用这些号码来估计坦克总数 在这个问题中 总体参数是未知的坦克总数N 而缴获坦克的编号就是样本 假设我们是盟军中负责解决这个问题的统计人员 可以肯定 制造出来的坦克数大于等于最大坦克编号 为了找到坦克数比最大编号大多少 可以先找到缴获坦克的平均数 并认为这个数是全部编号的中点 那么总的坦克数就是这个数的两倍 这就需要特别假设缴获的坦克代表了所有坦克的一个随机样本 这种估计 的方法缺点是 不能保证均值的 倍一定大于记录的中的最大值 的另一个点估计公式是 用观测到的最大编号乘以 n 其中n表示缴获坦克数 从战后发现的德军记录来看 盟军的估计值非常接近所生产坦克的真实值 记录而且表明统计估计比通常通过其他情报方式作出估计要大大接近于真实数统计学家比谍报人员做得更漂亮 估计 Estimation 是运用样本的数据来测量总体参数的值 估计有点估计和区间估计 点估计 Pointestimation 是用样本测定总体的单一参数 区间估计 Intervalestimation 给出总体参数的取值范围 同时给出一个计算标准误的方法 不同的样本对总体参数的估计是不相同的 如果所有可能的点估计的均值等于总体参数 这样的估计称为 无偏的 否则是 有偏的 无偏估计的图解 总体参数无偏估计并不能根据一次抽样的样本就能得到总体参数的精确值 理论上说 只有当抽样次数越来越多 这些抽样估计的均值 才会逐步靠近总体参数 点估计点估计就是用抽样得到的一个样本的统计参数 样本均值 样本方差 样本标准差等 来估计总体相应的统计参数 总体均值 总体方差 总体标准差等 点估计包括 统计学理论可以证明 以上四个点估计都是无偏的 样本参数总体参数统计学理论可以证明 数量为n的样本 它们的方差s2和标准差s的分母为n 1时 它们对总体方差和总体标准差的估计才是无偏的 如果分母是n 对总体方差和标准差的估计会偏小 样本均值 总体均值 样本方差 总体方差 运用无偏的点估计 只有在样本数据足够大时 点估计才有把握可以代表总体的统计指标 但是 点估计无法了解估计值和真实总体参数之间的误差 即样本数量要大到什么程度 有多大的把握 可以保证所估计的总体参数落在事先确定的范围内 要解决这个问题 需要用区间估计 区间估计置信区间 区间估计 Intervalestimates 解决真实的总体参数以什么概率 落入哪一个区间范围的问题 这个概率称为置信水平 Levelofconfidence 这个区间称为置信区间 Confidenceinterval CI 例如 在90 的置信水平下 总体参数的置信区间是10 2 其中10是根据样本计算得到的点估计 2是边际误差 即这个区间为 8 12 这个区间 8 12 可能包括也可能不包括总体均值 置信水平为90 表示如果进行100次抽样 得到到100个不同的区间估计 那么其中90 的区间估计包括真实的总体均值 置信区间的宽度 即总体参数估计的精确性 和两个因素有关 样本数量n和置信水平 在一定的置信水平下 例如90 样本数量越多 置信区间宽度越小 也就是对总体参数的估计越精确 样本数量n不变的情况下 置信水平要求越高 例如90 95 99 等 置信区间宽度越大 即对总体参数的估计范围越大 在一般情况下 置信水平为90 就可以了 在要求比较高的情况下 置信水平可以提高到95 在极少数要求非常高的情况下 置信水平可以设为99 均值的置信区间 为了用样本的均值求出总体均值的置信区间 首先需要研究样本均值的分布 设总体均值为 标准差为 反复抽取样本数为n的样本 由于抽样的随机性 每次抽取的样本都不相同 样本的均值也不相同 因此 样本的均值是一个随机变量 统计学的理论分析可以证明 无论总体服从什么分布 当样本数n很大时 样本的均值这个随机变量服从正态分布 它的均值等于总体均值 标准差等于总体标准差 除以n的平方根 即 称为样本的标准误 计算总体均值置信区间的三种方法 1 先计算标准正态分布的置信区间 再进行区间变换 NORMSINV B 4 B8 SQRT B19 B11 B12 B7 B13 B7 B13 2 用NORMINV函数直接计算正态分布的置信区间抽取样本数为n的一个样本计算样本均值 并将作为总体均值的点估计计算样本的标准差s 并将s作为总体标准差的点估计计算样本的标准误用NORMINV 2 和NORMINV 1 2 分别计算正态分布的置信区间的左端点和右端点 NORMINV B 4 B7 B8 SQRT B16 NORMINV B 3 B7 B8 SQRT B16 3 用函数CONFIDENCE计算区间值 置信区间的半径 抽取样本数为n的一个样本计算样本均值 并将作为总体均值的点估计计算样本的标准差s 并将s作为总体标准差的点估计用CONFIDENCE s n 计算正态分布的置信区间的区间值 区间半径 用 CONFIDENCE s n 作为置信区间的左端点用 CONFIDENCE s n 作为置信区间的右端点 注意 用函数CONFIDENCE构造置信区间时 不需要计算 2 1 2 和标准误 函数会根据 样本标准差s和样本数n自动计算 例3 5计算 不同年龄段上网时间统计 xls 中6个年龄组看电视时间均值的95 置信区间 CONFIDENCE B 2 B7 B14 B6 B8 B6 B8 影响置信区间宽度的因素分析 数据量最大 数据标准差最小 置信区间宽度最小 数据量最小 数据标准差最大 置信区间宽度最大 由此可见 用样本估计总体均值时 样本数量越大 样本标准差越小 区间估计精度就越高 比例的置信区间 在很多情况下 抽样是为了估计总体中具有两种不同性质的个体的比例 例如人口统计抽样中男性和女性分别占总人口的比例 选举调查中投某位候选人票和不投他票的选民比例 商品市场占有率调查中某种商品市场份额和其他商品的市场份额 设x是具有某种特征样本的数量 n为样本量 p x n为样本比例 比例的100 1 置信区间是 市场份额调查中 样本为2000件商品抽样中 A商品为95件 样本中A商品的份额为p 95 2000 4 75 要求计算99 置信水平A商品的市场份额置信区间 99 置信区间为 即有99 的把握 A商品的市场份额在3 52 到5 98 之间 样本为500人的抽样中 男性人数为253人 样本中男性的比例为p 253 500 50 6 要求计算95 置信水平男性比例的置信区间 95 置信区间为 即有95 的把握 男性人数的比例在46 2 到55 0 之间 选举中只有A B两位候选人 对10000名选民的民意调查结果显示 明确支持候选人A的选民为4939人 明确支持候选人B的选民为4863人 还没有决定是否参加投票和支持哪一位候选人的选民为198人 要求在95 的置信水平下 分别计算赞成选民和反对选民比例的置信区间 在以前的例子中 调查的对象都具有非此即彼的特点 例如性别比的调查中 关注的对象为总体中的男性 总体中其他的对象就是非男性 即女性 又如市场占有率调查中 关注的对象是此类商品中品牌为A的商品 总体中其他的对象就是这类商品中品牌不是A的商品 比例区间估计中的对象必须满足这样的特性 而在选举民意调查中 出现了支持选民 反对选民和还没有决定的选民三种类型 如果对支持选民比例进行区间估计时 必须假定还没有决定的选民全部是反对选民 如果对反对选民比例进行区间估计时 必须假定还没有决定的选民全部是支持选民 这样才符合总体比例区间估计的要求 两样本均值之差的置信区间 在现实中常常要考虑两总体的差异有多大 如做广告后 商品销量的变化 两学校教学质量的差异等 涉及到样本均值之差的区间估计问题 两样本统计参数均值标准差均值点估计样本数 总体1 总体2 需要估计的总体参数为 其点估计为 1 方差不相等的独立样本 设两总体方差不相等 且样本独立 样本方差分别为 则样本置信区间为其中 是置信水平为 自由度为df的双尾t分布值 自由度计算公式为 计算结果向下取整 等方差的独立总体 令方差相等的两总体均值之差的置信区间置信水平为 两比例之差的置信区间 样本数为的两样本 在两样本中特征个体分别为 特征个体的比例分别为 当样本数和特征个体数都比较大 两比例之差的分布近似服从正态分布 则置信水平为的置信区间为 其中是标准正态分布的的临界值 例 为了研究男性和女性患某种疾病的比例是否有差异 抽样人数为115人 其中女性 男性 其中男 女患病人数分别为11 6 根据条件 女 男患病人数的比例分别为取置信水平为95 则有则有即95 的置信水平下 置信区间为 0 134 0 140 可以说 在当前置信水平与样本数的前提下 男女患病比例高低还不能确定 方差的置信区间 设总体数量为N 总体方差为 样本数位n 样本为 样本均值为样本方差为 用样本方差作为总体方差的点估计 与前面样本均值 样本比例等统计量不同 样本方差的抽样分布是非对称的自由度为n 1的分布 此时置信水平为的置信区间为 置信水平 置信区间宽度和样本数量 对于给定的样本量和置信水平 就可以求出相应的置信区间 有些情况下 需要事先确定置信水平和置信区间 根据置信水平和置信区间的大小 来确定抽样样本量 设均值单边的置信区间宽度不能超过E 即 求解n 得到 这样 就可以根据置信水平和置信区间的宽度来确定样本量 对于比例置信区间 设置信区间宽度为E 则 求解n 得到 市场份额调查中 样本为2000件商品抽样中 A商品为95件 样本中A商品的份额为p 95 2000 4 75 A商品的99 置信水平的市场份额在3 53 到5 94 之间 如果要求99 置信区间单边误差在0 01即1 以内 则需要抽取的样本数为 即至少需要抽取3003件样本 第四章 假设检验 1 假设检验的基本概念和基本原理 假设检验 Hypothesistesting 是关于一个总体参数的两个相反的命题 在假定其中一个是正确时作出的推断和检验 在进行假设检验时 力图找到证据 确定所提出的假设是否被拒绝 如果没有被拒绝 那么只能假设它是正确的 例如 统计论断A为 做广告以后 所推销商品的销售量大于做广告以前的销售量 如果销售量统计数据拒绝了论断A 就证明了与这个论断对立的论断B 做这个广告以后 所推销商品的销售量小于或等于于做广告以前的销售量 是正确的 称为 接受论断B 即广告对产品没有促销效果 为什么一定要通过拒绝论断A来接受论断B的正确性呢 难道不能直接用统计数据来证实并接受论断B吗 我们必须了解 要用数据证实一个事实要比用数据否定一个事实困难得多 这是因为任何数据都只是一个特例 是许多个特例中的一个 如果

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论