




已阅读5页,还剩267页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本资料来源 统计推断 抽样与分布估计与检验方差分析回归分析时间序列列联分析 第四章抽样与抽样分布第一节常用的抽样方法 基本概念总体和样本概率抽样和非概率抽样抽样误差概率抽样的组织方式简单随机抽样分层抽样等距抽样整群抽样 一 总体与样本 总体总体 根据研究目的确定的所要研究的同类事物的全体 是所要说明其数量特征的研究对象 总体单位 个体 构成总体的个别事物 基本单元 总体容量 总体单位的数量 总体指标 总体参数 在抽样估计中 用来反映总体数量特征的指标 总体平均数 总体比例P 总体标准差 总体方差 2样本样本 从总体中抽取的部分总体单位所构成的整体 样本容量 样本所包含的总体单位个数 在实际工作中 通常把n 30的样本称为大样本 把n 30的样本称为小样本 样本指标 样本统计量 估计量 根据样本资料计算的 用以估计和推断相应总体指标的综合指标 样本平均数 样本比例p 样本标准差s 样本方差s2总体参数是唯一的 往往未知的 样本统计量是不唯一的 随着抽取的样本的不同而不尽相同 二 概率抽样与非概率抽样 概率抽样 随机抽样定义 按照随机原则抽取样本的抽样方法 组织方式 简单随机抽样 分层抽样 等距抽样 整群抽样特点 抽样推断必须遵循抽样调查的随机原则抽样推断是以样本指标数值去推断总体指标数值抽样推断中产生的误差可以事先计算加以控制 作用 对于不可能进行全面调查的总体数量特征的推断对于某些不必要进行全面调查的总体数量特征的推断对于全面调查的资料进行评价和修正非概率抽样定义 从研究目的出发 根据调查者的经验或判断 从总体中有意识地抽取若干单位构成样本的抽样方法 组织方式 典型调查 重点调查 配额抽样 方便抽样等 三 抽样误差 登记性误差 在调查和汇总过程中由于观察 测量 登记 计算等方面的差错或被调查者提供虚假资料而造成的误差 代表性误差 用样本指标推断总体指标时 由于样本结构与总体结构不一致 样本不能完全代表总体而产生的误差 系统误差 由于非随机因素引起的样本代表性不足而产生的误差 随机误差 偶然性误差 由于随机因素 偶然性因素 引起的代表性误差 抽样估计中的抽样误差 即这种误差 二 概率抽样的组织方式 简单随机抽样 纯随机抽样在从总体抽取n个单位作为样本时 要使得每个总体单位都有相同的机会被抽中的抽样方式 重复抽样和不重复抽样分层抽样 分类抽样在抽样之前先将总体的单位划分为若干层 类 然后从各个层中抽取一定数量的单位组成一个样本 这样的抽样方式称为分层抽样 在分层或分类时 应使层内各单位的差异尽可能小 而使层与层之间的差异尽可能大 等距抽样 系统抽样 机械抽样在抽样中 先将总体各单位按某种顺序排列 并按某种规则确定一个随机起点 然后 每个一定的间隔抽取一个单位 直至抽取n个单位形成一个样本 样本在总体中的分布一般较均匀 整群抽样调查时先将总体划分成若干群 然后在以群作为调查单位从中抽取部分群 进而对抽中的各个群中所包含的所有个体单位进行调查或观察 这样的抽样方式称为整群抽样 群内结构特征与总体越接近 抽样推断效果越好 第二节抽样分布 一 抽样分布的概念由样本统计量的全部可能取值和与之相应的概率 频率 组成的分配数列 在实际应用中 统计量的抽样分布是通过教学推导或在计算机上利用程序进行模拟而得到的 分析 总体是什么 总体均值等于多少 总体是4个学生 总计均值即4名学生的平均成绩 1 2 3 4 4 2 5总体容量 样本容量 样本个数 总体容量 4 样本容量 2样本个数 42 16计算各个样本的均值 总体均值与样本均值的区别 总体均值是唯一的 样本均值是随机的 样本均值的概率分布 样本均值的抽样分布的特点 抽样分布的形式与原有总体的分布和样本容量n的大小有关 如果原有总体是正态分布 那么 无论样本容量的大小 样本均值的抽样分布都服从正态分布 如果原有总体分布是非正态分布 而样本容量n 30 则随着样本容量的增大 样本均值的抽样分布将趋于正态分布 如果原有总体分布是非正态分布 而样本容量n 30 则样本均值的抽样分布不是正态分布 第五章参数估计第一节参数估计的一般问题 估计量与估计值抽样估计 参数估计 用样本统计量估计总体参数的特征值 估计量 用来估计总体参数的统计量的名称 估计值 用来估计总体参数是计算出来的估计量的具体数值 点估计与区间估计点估计 用样本估计量的值直接作为总体参数的估计值 区间估计 在点估计的基础上 给出总体参数估计的一个范围 置信区间置信区间 在区间估计中 用样本统计量所构成的总体参数的估计区间 置信下限 置信区间的最小值 置信上限 置信区间的最大值 评价估计量的标准无偏性 样本统计量的均值等于被估计总体参数的真值 即有效性 作为优良的估计量 除了满足无偏性外 其方差应比较小 设 都是 参数的无偏估计量 若 则称是较有效的估计量一致性 相合性 指当n 时 估计量依概率收敛于总体参数的真实值 设是 参数的估计量 对于任意的 0 当n 时 则称是 的一致估计量 点估计的方法 点估计是直接以样本统计量作为相应总体参数的估计量 因此我们希望样本统计量应尽可能满足优良估计量的标准 经数学证明 样本平均数是总体平均数的优良估计量 样本成数是总体成数的优良估计量 样本方差是总体方差的无偏估计量 点估计完全正确的概率通常为0 因此 我们更多的是考虑用样本统计量去估计总体参数的范围区间估计 第二节一个总体参数的区间估计 参数区间估计的含义 估计总体参数的区间范围 并给出区间估计成立的概率值 其中 1 0 1 称为置信度 置信水平 称为区间估计的显著性水平 其取值大小由实际问题确定 经常取1 5 和10 注意 对置信度的理解 区间估计的内容 总体均值的区间估计总体成数P的区间估计总体方差 2的区间估计区间估计的计算步骤计算样本指标计算抽样平均误差查表得统计量临界值计算抽样极限误差计算置信区间总体均值区间估计的要素 总体分布是否正态 总体方差是否已知 大样本还是小样本 要素影响抽样分布 例1 某企业从长期实践得知 其产品直径x是一随机变量 服从方差为0 05的正态分布 从某日产品中随机抽取6个 测得其直径分别为14 8 15 3 15 1 15 14 7 15 1 单位 厘米 在0 95的置信度下 试求该产品直径的均值的置信区间 计算样本指标计算抽样平均误差查表得统计量计算抽样极限误差计算置信区间 解 正态总体 方差已知 小样本 计算样本指标计算抽样平均误差查表得统计量计算抽样极限误差计算置信区间 例2 对某型号的电子元件进行耐用性能检查 抽查资料分组如下表 要求估计该批电子元件的平均耐用时数的置信区间 置信度95 计算样本指标计算抽样平均误差查表得统计量计算抽样极限误差计算置信区间 解 正态总体 方差未知 大样本 计算样本指标计算抽样平均误差查表得统计量计算抽样极限误差计算置信区间 例3 某商场从一批袋装食品中随机抽取10袋 测得每袋重量 单位 克 分别为 789 780 794 762 802 813 770 785 810 806 要求以95 的把握程度 估计这批食品的平均每袋重量的区间范围 计算样本指标计算抽样平均误差查表得统计量计算抽样极限误差计算置信区间 解 正态总体 方差未知 小样本 计算样本指标计算抽样平均误差查表得统计量计算抽样极限误差计算置信区间 总体成数的区间估计 由于总体的分布是 0 1 分布 只有在大样本的情况下 样本成数才服从正态分布 总体成数可以看成是一种特殊的平均数 类似于总体平均数的区间估计 总体成数的区间估计的上下限是 注意 在实践中 由于总体成数常常未知 这时 抽样平均误差公式中的总体成数用样本成数代替 大样本的条件 np 5且n 1 p 5 例 某厂对一批产品的质量进行抽样检验 采用重复抽样抽取样品200只 样本优质品率为85 试计算当把握程度为90 时优质品率的区间范围 计算样本指标计算抽样平均误差查表得统计量计算抽样极限误差计算置信区间 解 计算样本指标计算抽样平均误差查表得统计量计算抽样极限误差计算置信区间 总体方差的区间估计 大样本情况下 样本标准差s的分布近似服从正态分布N 2 2n 所以 总体标准差的置信度为1 的置信区间近似为小样本情况下 若总体呈正态分布而其均值和方差未知 则总体方差的置信区间由如下的统计量的分布确定 所以 总体方差 2的置信度为1 的置信区间为 例 从某车间加工的同类零件中抽取了16件 测得零件的平均长度为12 8厘米 方差为0 0023 假定零件的长度服从正态分布 试求方差的置信区间 置信度为95 解 所以 总体方差 2的置信区间为 四 抽样样本容量确定 问题的提出确定样本容量公式 四 抽样样本容量确定 确定样本容量应注意的问题1 计算样本容量时 一般总体的方差与成数都是未知的 可用有关资料替代 一是用历史资料已有的方差与成数代替 二是在进行正式抽样调查前进行几次试验性调查 用试验中方差的最大值代替总体方差 三是成数方差在完全缺乏资料的情况下 就用成数方差的最大值0 25代替 2 如果进行一次抽样调查 同时估计总体均值与成数 用上面的公式同时计算出两个样本容量 可取一个最大的结果 同时满足两方面的需要 3 上面的公式计算结果如果带小数 这时样本容量不按四舍五入法则取整数 取比这个数大的最小整数代替 例 对某批木材进行检验 根据以往经验 木材长度的标准差为0 4米 而合格率为90 现采用重复抽样方式 要求在95 45 的概率保证程度下 木材平均长度的极限误差不超过0 08米 抽样合格率的极限误差不超过5 问必要的样本单位数应该是多少 解 样本平均数的单位数 样本成数的单位数 根据计算结果 取样本数较大者 即n 144棵 第六章假设检验第一节假设检验的基本问题 假设检验 显著性检验事先对总体参数或总体分布形式作出一个假设 然后利用样本信息来判断原假设是否合理 即判断样本信息与原假设是否有显著差异 从而决定应接受或否定原假设 假设检验分为两类 参数检验 非参数检验 自由分布检验假设检验的基本思想假设检验所采用的逻辑推理方法是带有概率性质的反证法 假设检验中的合理与否 所依据的是 小概率事件实际不可能发生的原理 第一节假设检验的基本问题 假设检验的步骤提出原假设和备择假设 选择适当的统计量 并确定其分布形式 选择显著性水平 确定临界值 作出结论假设检验的两类错误第一类错误 拒真错误 当原假设为真 但由于样本的随机性使样本统计量落入了拒绝区域 第二类错误 取伪错误 当原假设为不真 但由于样本的随机性使样本统计量落入了接受区域 第二节一个总体参数的检验 例 消费者协会接到消费者投诉 指控品牌纸包装饮料存在容量不足 有欺骗消费者之嫌 包装上标明的容量为250毫升 消费者协会从市场上随机抽取50盒该品牌纸包装饮品 测试发现平均含量为248毫升 小于250毫升 这是生产中正常的波动 还是厂商的有意行为 消费者协会能否根据该样本数据 判定饮料厂商欺骗了消费者呢 另根据历史资料 该品牌饮料容量总体的标准差是4毫升 我们通过检验总体均值是否小于250毫升 来判断饮料厂商是否欺骗了消费者 第一步 确定原假设与备择假设 250 250 原假设H0 通常是研究者想收集证据予以反对的假设 也称为零假设 备择假设H1 通常是研究者想收集证据予以支持的假设 也称为研究假设 原假设和备择假设是一个完备事件组 而且相互对立 在假设检验中 等号 总是放在原假设上 例2 一种罐装饮料采用自动生产线生产 每罐的容量是255ml 标准差为5ml 为检验每罐容量是否符合要求 质检人员在某天生产的饮料中随意抽取了40罐进行检验 测得每罐平均容量为255 8ml 检验该天生产的饮料容量是否符合标准要求 H0 255H1 255 例3 根据过去大量资料 某厂生产的产品的使用寿命服从正态分布N 1020 1002 现从最近生产的一批产品中随机抽取16件 测得样本平均寿命为1080小时 试在0 05的显著性水平下判断这批产品的使用寿命是否有显著提高 H0 1020H1 1020 单侧检验与双侧检验 用单侧检验还是双侧检验 使用左侧检验还是右侧检验 决定于备选假设中的不等式形式与方向 与 不相等 对应的是双侧检验 与 小于 相对应的是左侧检验 与 大于 相对应的是右侧检验 双侧检验 左侧检验 右侧检验 继续 总体均值的参数检验 例2 一种罐装饮料采用自动生产线生产 每罐的容量是255ml 标准差为5ml 为检验每罐容量是否符合要求 质检人员在某天生产的饮料中随意抽取了40罐进行检验 测得每罐平均容量为255 8ml 检验该天生产的饮料容量是否符合标准要求 H0 255H1 255 第二步 选择适当的统计量 并确定其分布形式 正常情况下 饮料的容量服从正态分布若正态总体的方差已知 则其样本平均数也服从正态分布 即 可用z作为检验统计量 第三步 选择显著性水平 确定临界值 通常显著性水平由实际问题确定 我们这里取 0 05 双侧检验 拒绝域在左右两边 查标准正态分布表得临界值 Z 2 Z0 025 1 96拒绝域是 Z 1 96 第四步 判断 作出结论 Z 1 01 Z 2 1 96 样本统计量的取值落入接受域 接受原假设 拒绝备选假设 即认为没有足够的证据证明该天的生产不符合标准要求 例1 消费者协会接到消费者投诉 指控品牌纸包装饮料存在容量不足 有欺骗消费者之嫌 包装上标明的容量为250毫升 消费者协会从市场上随机抽取50盒该品牌纸包装饮品 测试发现平均含量为248毫升 小于250毫升 这是生产中正常的波动 还是厂商的有意行为 消费者协会能否根据该样本数据 判定饮料厂商欺骗了消费者呢 另根据历史资料 该品牌饮料容量总体的标准差是4毫升 我们通过检验总体均值是否等于250毫升 来判断饮料厂商是否欺骗了消费者 H0 250H1 250 第二步 选择适当的统计量 并确定其分布形式 正态总体 方差已知可用z作为检验统计量 第三步 选择显著性水平 确定临界值 通常显著性水平由实际问题确定 我们这里取 0 05 左侧检验 拒绝域安排在左边 查标准正态分布表得临界值 1 645 拒绝域是z 1 645 第四步 判断 作出结论 Z 3 54 Z 1 65 样本统计量的取值落入拒绝域 拒绝原假设 接受备选假设 即认为有足够的证据说明该种纸包饮料的平均容量小于包装盒上注明的250毫升 厂商有欺诈之嫌 例3 根据过去大量资料 某厂生产的产品的使用寿命服从正态分布N 1020 1002 现从最近生产的一批产品中随机抽取16件 测得样本平均寿命为1080小时 试在0 05的显著性水平下判断这批产品的使用寿命是否有显著提高 H0 1020H1 1020 第二步 选择适当的统计量 并确定其分布形式 正态总体 方差已知 可用z作为检验统计量 第三步 选择显著性水平 确定临界值 通常显著性水平由实际问题确定 我们这里取 0 05 右侧检验 拒绝域安排在右边 查标准正态分布表得临界值 Z 1 645 拒绝域是Z 1 645 第四步 判断 作出结论 Z 2 4 Z 1 65 样本统计量的取值落入拒绝域 拒绝原假设 接受备选假设 即认为有足够的证据证明这批产品的使用寿命确有显著提高 注意 总体方差未知时用t统计量 但是 在大样本场合 t 统计量与标准正态分布统计量近似 通常用Z检验代替t检验 例4 某厂采用自动包装机分装产品 假定每包产品的重量服从正态分布 每包标准重量为1000克 某日随机抽查9包 测得样本平均重量为986克 样本标准差为24克 试问在0 05的显著性水平上 能否认为这天自动包装机工作正常 解 正态分布 方差未知 小样本H0 1000H1 1000 0 05查表得t 2 n 1 t0 025 8 2 306 t 1 75 t 2 n 1 2 306 接受原假设 拒绝备选假设 即可认为这天自动包装机工作正常 总体成数的假设检验 例 某企业声明有30 以上的消费者对其产品质量满意 如果随机调查600名消费者 表示对该企业产品满意的有220人 试在显著性水平 0 05下 检验调查结果是否支持企业的自我声明 第一步 作出假设 30 30 以上的备选假设是企业自我声明的结论 我们希望该企业说的是实话 因此使用右侧检验 第二步 构造z检验统计量 当样本容量较大时 下列统计量服从标准正态分布 上式中 代表总体的成数 p代表样本的成数 第三步 确定拒绝域 显著水平 0 05 查标准正态分布表得临界值 1 645 拒绝域是z 1 645 第四步 计算检验统计量的数值样本成数p 220 600 0 37 总体假设的成数 0 3 代入z检验统计量得 第五步 判断 检验统计量的样本取值z 3 5 1 645 落入拒绝域 拒绝原假设 接受备选假设 认为样本数据证明该企业声明属实 总体方差的假设检验 例 根据长期正常生产的资料可知 某厂所产维尼纶的纤维服从正态分布 其方差为0 0025 现从某日产品中随机抽出20根 测得样本方差为0 0042 试判断该日纤度的波动与平时有无显著差异 取 0 10 解 P 值检验 p 值检验就是通过计算p 值 再将它与显著性水平 作比较 决定拒绝还是接受原假设 所谓p 值就是拒绝原假设所需的最低显著性水平 p 值判断的原则是 如果p 值小于给定的显著性水平 则拒绝原假设 否则 接受原假设 或者 更直观来说就是 如果p 值很小 拒绝原假设 p 值很大 接受原假设 z检验的p 值的计算公式 第三节非参数检验 非参数检验是对总体的分布不作任何限制的统计检验 故非参数检验又称为自由分布检验 自由分布检验概述符号检验秩和检验 一 自由分布检验概述 自由分布检验的优点 首先 检验条件比较宽松 适应性强 其次 自由分布检验的方法比较灵活 用途广泛 再次 自由分布检验的计算相对简单 自由分布检验的缺点 由于它对原始数据中包含的信息利用得不够充分 检验的功效相对较弱 二 符号检验 符号检验是建立在以正 负号表示样本数据与假设参数值差异关系基础上的检验 该方法既适用于单样本场合 也适用于配对样本场合 1 单样本场合的符号检验 在单样本的场合 可以用符号检验方法 检验总体的中位数是否在某一指定的位置 原理 假设总体中位数的真值是A 即 再从样本观测结果 x1 x2 xn样本每个数据都减去A 只记录其差数的符号 即当xi A时 记正号 当xi A时 记负号 当xi A时 将此数据删除 不记录 n 与n 分别是正 负符号的个数 当原假设为真时 n 与n 应该很接近 若两者相差太远 就有充分理由拒绝原假设 例 设有20个工人 他们一天生产的产品件数 抽样结果如下 168 163 160 172 162 168 152 153 167 165 164 142 173 166 160 165 171 186 167 170 试以 0 10的检验水平 判定总体中位数是否是160 解 第一步 作出假设第二步 计数 0 0 的个数是n 15 的个数n 3 剔除数据2个 最后有效的样本个数为n n n 18 第三步 确定拒绝域 0 10 查二项分布临界值表 得到拒绝域的临界值是13 第四步 比较15 13 第五步 判断样本落入拒绝域 所以拒绝原假设 认为样本数据不能证明总体中位数等于160件 第七章方差分析第一节方差分析的基本问题 问题 消费者与供应厂商间经常出现纠纷 纠纷发生后 消费者经常会向消费者协会投诉 消协对以下几个行业分别抽取几家企业 统计最近一年中投诉次数 以确定这几个行业的服务质量是否有显著的差异 结果如右表 方差分析 是对多于2个总体的均值是否相等进行检验的一种统计方法 它是通过检验各总体的均值是否相等来判断分类型自变量对数值型变量是否有显著影响 H0 H1 不全等 术语 因素和水平在方差分析中 所要研究的对象称为因素 因素的不同表现 成为水平 单因素方差分析和双因素分析方差分析只针对一个因素称为单因素分析 方差分析同时针对多个因素称为多因素分析 交互影响和无交互影响在方差分析中 如果因子间存在相互影响 称之为 交互影响 如果因子间是相互独立的 则称为无交互影响 交互影响有时也称为交互作用 是对实验结果产生作用的一个新因素 分析过程中 有必要将它的影响作用也单独分离开来 方差分析的原理 观测值之间若存在差异 差异的产生来自两个方面 一个方面是由因素的不同水平造成的 成为系统性差异 另一个方面是由抽选样本的随机性而产生的差异 前者差异可以用水平间的方差计量 差异的原因包括系统性原因和随机性原因 后者差异可以用水平内部的方差计量 差异的原因尽包括随机型原因 所以 可以用两种方差的比值来判断观测值的差异是否包括系统性因素 如果比值接近1 说明差异的主要原因是随机因素 如果比值显著大于1 说明因素的不同水平对观测值产生显著影响 方差分析的原理 两种方差组间方差反映出不同的因子对样本波动的影响 组内方差则是不考虑组间方差的纯随机影响 两种方差的比值数理证明 两种方差之比服从F分布 F统计量越大 越说明组间方差是主要方差来源 因子影响越显著 F越小 越说明随机方差是主要的方差来源 因子的影响越不显著 第二节单因素方差分析 例1 不同行业对顾客投诉的影响 分析步骤 1 提出假设2 构造检验统计量3 统计决策 0 F x y 接受区 拒绝区 解 1 提出假设2 构造检验统计量 行业因素对顾客投诉没有显著影响 行业因素对顾客投诉有显著影响 1 计算各样本的均值 2 计算全部观测值的总均值 3 计算离差平方和SSA SSE SST 4 计算统计量F 2 构造检验统计量 1 计算各样本的均值 2 构造检验统计量 2 计算全部观测值的总均值 2 构造检验统计量 3 计算离差平方和SSA SSE SST SSA 1456 6089SSE 2708SST 4164 6087 2 构造检验统计量 4 计算统计量F SSA 1456 6089SSE 2708SST 4164 6087 F 3 406643 3 统计决策 0 05 0 3 13 x y 接受区 拒绝区 注意 方差分析需满足以下的假设条件 样本是独立的随机样本 各样本皆来自正态总体 总体方差具有齐性 即各总体方差相等 各总体的样本容量可相等也可以不相等 方差分析只能检验各总体的均值是否相等 如果认为不相等 不能求出那个总体的均值大 哪个均值小 例2 某饮料企业研制出一种新型饮料 饮料的颜色共有四种 分别为橘黄色 粉色 绿色和无色透明 随机从五家超市上收集了前一期改种饮料的销售量 如下表所示 问饮料的颜色是否对销售量产生影响 a 0 05 解 1 提出假设2 构造检验统计量 1 计算各样本的均值 2 计算全部观测值的总均值 3 计算离差平方和SSA SSE SSTSST 115 9295SSE 39 084SSA 76 8455 4 计算统计量FF 10 4863 统计决策 第八章相关与回归分析第一节基本概念 一 函数关系与相关关系函数关系 当一个或几个变量取一定的值时 另一个变量有确定值与之相对应 称为确定性的函数关系 函数关系的特点是一一对应的确定关系设有两个变量x和y 变量y随变量x一起变化 并完全依赖于x 当变量x取某个数值时 y依确定的关系取相应的值 则称y是x的函数 记为y f x 其中x称为自变量 y称为因变量相关关系 当一个或几个相互联系的变量取一定数值时 与之相对应的另一变量的值虽然不确定 但它仍按某种规律在一定的范围内变化 变量之间的这种关系称为相关关系 相关关系的特点变量间关系不能用函数关系精确表达 一个变量的取值不能由另一个变量唯一确定 当变量x取某个值时 变量y的取值可能有几个 二 相关关系的种类 按相关关系的程度划分完全相关 当一个现象的数量变化完全由另一个现象的数量变化所确定时 称这两种现象间的关系为完全相关 不相关 当两种现象彼此互不影响 其数量变化各自独立时 称为不相关现象 不完全相关 两个现象之间的关系介于相关和不相关之间 称为不完全相关 按相关形式划分线性相关 当两种相关现象之间的关系大致呈现为线性关系时 称之为线性关关 非线性相关 如果两种相关现象之间 并不表现为直线的关系 而是近似于某种曲线方程的关系 则这种相关关系称为非线性相关 按相关的方向划分正相关 两个相关现象间 当一个变量的数值增加 或减少 时 另一个变量的数值也随之增加 或减少 即同方向变化 负相关 当一个变量的数值增加 或减少 时 而另一个变量的数值相反地呈减少 或增加 趋势变化 即反方向变化 按研究的变量划分单相关 两个变量之间的相关 称为单相关复相关 当所研究的是一个变量对两个或两个以上其他变量的相关关系时 称为复相关 偏相关 在某一现象与多种现象相关的场合 假定其他变量不变 专门考察其中两个变量的相关关系称为偏相关 二 相关关系的种类 三 相关分析与回归分析 一 概念 相关分析 就是用一个指标来表明现象间相互依存关系的密切程度 回归分析 是指对具有相关关系的现象 根据其相关关系的具体形态 选择一个合适的数学模型 称为回归方程式 用来近似地表达变量间的平均变化关系的一种统计分析方法 二 相关分析与回归分析的区别在相关分析中 不必确定自变量和因变量 而在回归分析中 必须事先确定哪个为自变量 哪个为因变量 而且只能从自变量去推测因变量 而不能从因变量去推断自变量 相关分析不能指出变量间相互关系的具体形式 而回归分析能确切的指出变量之间相互关系的具体形式 它可根据回归模型从已知量估计和预测未知量 相关分析所涉及的变量一般都是随机变量 而回归分析中因变量是随机的 自变量则作为研究时给定的非随机变量 三 相关分析与回归分析的联系相关分析和回归分析有着密切的联系 它们不仅具有共同的研究对象 而且在具体应用时 常常必须互相补充 相关分析需要依靠回归分析来表明现象数量相关的具体形式 而回归分析则需要依靠相关分析来表明现象数量变化的相关程度 只有当变量之间存在着高度相关时 进行回归分析寻求其相关的具体形式才有意义 简单说 1 相关分析是回归分析的基础和前提 2 回归分析是相关分析的深入和继续 四 相关关系的判断 定性分析依据研究者的理论知识和实践经验 对客观现象之间是否存在相关关系 以及何种关系作出判断 定量分析在定性分析的基础上 通过编制相关表 绘制相关图 计算相关系数等方法 来判断现象之间相关的方向 形态及密切程度 第二节简单线性相关与回归分析 一 相关系数及其检验 一 相关系数的定义 在线性条件下说明两个变量之间相关关系密切程度的统计分析指标 简称相关系数 总体相关系数 相关系数是根据总体全部数据计算的 记为 样本相关系数 根据样本数据计算的 记为r样本相关系数是根据样本观测值计算的 抽取的样本不同 其具体的数值也会有所差异 容易证明 样本相关系数是总体相关系数的一致估计量 二 相关系数的特点 的取值介于 与 之间 在大多数情况下 即 与 的样本观测值之间存在着一定的线性关系 当 时 与 为正相关 当 时 与 为负相关 的数值愈接近于1 表示x与y直线相关程度愈高 反之 的数值愈接近于0 表示x与y直线相关程度愈低 通常判断的标准是 0 3称为微弱相关 0 3 0 5称为低度相关 0 5 0 8称为显著相关 0 8 1称为高度相关或强相关 如果 1 则表明 与 完全线性相关 当 1时 称为完全正相关 而 1时 称为完全负相关 是对变量之间线性相关关系的度量 0只是表明两个变量之间不存在线性关系 它并不意味着 与 之间不存在其他类型的关系 三 相关系数的计算 四 相关系数的显著性检验 检验两个变量之间是否存在线性相关关系采用t检验检验的步骤为提出假设 H0 H1 0 计算检验的统计量 确定显著性水平 并作出决策若 t t 拒绝H0若 t t 接受H0 二 一元线性回归模型 一 总体回归函数 1 总体回归函数 t 0 1 t utut是随机误差项 又称随机干扰项 它是一个特殊的随机变量 反映未列入方程式的其他各种因素对 的影响 二 样本回归函数2 样本回归函数 t称为残差 在概念上 t与总体误差项ut相互对应 是样本的容量 三 样本回归函数与总体回归函数区别 总体回归线是未知的 只有一条 样本回归线是根据样本数据拟合的 每抽取一组样本 便可以拟合一条样本回归线 总体回归函数中的 1和 2是未知的参数 表现为常数 而样本回归函数中的是随机变量 其具体数值随所抽取的样本观测值不同而变动 总体回归函数中的ut是 t与未知的总体回归线之间的纵向距离 它是不可直接观测的 而样本回归函数中的 t是 t与样本回归线之间的纵向距离 当根据样本观测值拟合出样本回归线之后 可以计算出 t的具体数值 综上所述 样本回归函数是对总体回归函数的近似反应 回归分析的主要任务就是要采用适当的方法 充分利用样本所提供的信息 使得样本回归函数尽可能地接近于真实的总体回归函数 三 模型参数的估计 一 回归系数的点估计 原理 使残差平方和最小加以整理后有 以上方程称为正规方程或标准方程组 式中的n是样本容量 求解这一方程组可得 三 回归参数的区间估计 回归系数区间估计的公式 例 根据前例对回归系数作区间估计 查t分布表可知 四 一元线性回归模型的检验 一 回归模型检验的种类 回归模型的检验包括理论意义检验 一级检验和二级检验 理论意义检验主要涉及参数估计值的符号和取值区间 如果它们与实质性科学的理论以及人们的实践经验不相符 就说明模型不能很好的解释现实的现象 一级检验 统计学检验 它是利用统计学中的抽样理论来检验样本回归方程的可靠性 具体又分为拟合程度评价和显著性检验 二级检验 经济计量学检验 它是对标准线性回归模型的假定条件能否得到满足进行检验 具体包括序列相关检验 异方差性检验 多重共线性检验等 二 回归模型的拟合程度的评价 所谓拟合程度 是指样本观测值聚集在样本回归线周围的紧密程度 因变量y的取值是不同的 y取值的这种波动称为离差 变差来源于两个方面 由于自变量x的取值不同造成的 除x以外的其他因素 如x对y的非线性影响 测量误差等 的影响 对一个具体的观测值来说 变差的大小可以通过该实际观测值与其均值之差来表示 三个平方和的关系 2 两端平方后求和有 从图上看有 SST SSR SSE 三个平方和的意义 总平方和 SST 反映因变量的n个观察值与其均值的总离差回归平方和 SSR 反映自变量x的变化对因变量y取值变化的影响 或者说 是由于x与y之间的线性关系引起的y的取值变化 也称为可解释的平方和 残差平方和 SSE 反映除x以外的其他因素对y取值的影响 也称为不可解释的平方和或剩余平方和 样本决定系数 判定系数r2 将上式两边同除以SST 得 显而易见 各个样本观测点与样本回归直线靠得越紧 SSR在SST中所占的比例就越大 因此 可定义这一比例为判定系数 即有 判定系数r2的特征 判定系数r2具有非负性 判定系数取值范围0 r2 1 判定系数是样本观测值的函数 它也是一个统计量 在一元线性回归模型中 决定系数是单相关系数的平方 例 利用前例资料计算 三 显著性检验 显著性检验的内容 对各回归系数的显著性检验 对整个回归方程的显著性检验 回归系数的显著性检验 根据样本估计的结果对总体回归系数的有关假设进行检验 检验的步骤 t 检验 提出假设H0 b1 0H1 b1 0计算回归系数的t值 根据显著性水平 确定临界值 做出判断 例 对前例的回归系数进行显著性检验 0 05 提出假设H0 b1 0人口增长与年均需求量之间无线性关系H1 b1 0人口增长与年均需求量之间有线性关系计算检验的统计量 t 36 0072 t 2 201 拒绝H0 表明人口增长与年均需求量之间有线性关系 2 回归方程的显著性检验 一元线性回归方程的检验主要是检验自变量X和因变量Y之间的线性关系是否显著 检验的具体的步骤如下 第一步 提出假设第二步 计算检验统计量F第三步 做出判断 例 根据前例的计算结果 检验该食品需求量对地区人口增加量回归的方程的显著性 0 05 第一步 提出假设 第三步 判断查F分布表 得临界值 拒绝原假设 表明所建立的回归方程是显著的 即该食品需求量与地区人口增长量之间的线性关系是显著的 第二步 计算检验统计量F 五 一元线性回归模型预测 点预测预测误差区间预测 置信区间 一 点预测 点预测的基本公式 回归预测是一种有条件的预测 在进行回归预测时 必须先给出x的具体数值 当给出的x属于样本内的数值时 利用上式计算 称为内插检验或事后预测 当给出的x属于样本外的数值时 利用上式计算 称为外推检验或事前预测 例 前例中 当人口增长量为400千人时 可预测该食品的年需求量为 二 预测误差 发生预测误差的原因可以概括为以下几点 1 模型本身的误差因素所造成的误差 2 回归系数的估计值同其真值不一致所造成的误差 3 自变量X的设定值同其实际值的偏离所造成的误差 4 未来时期总体回归系数发生变化所造成的误差 以上误差中 第3 4两项不属于回归方程本身问题 且难以估计与预测 三 区间预测 置信区间 Y的置信区间为 例 假定已知人口增长量为200千人 要求利用上例中拟合的样本回归方程与有关数据 计算置信度为95 的该食品年需求量的预测区间 解 将有关数据代入拟好的样本回归方程 可得 已知 查t分布表可知 显著性水平为5 自由度为13的双侧t检验的临界值是2 16 因此 当人口增长量为200千人时 置信度为95 的该食品年需求量的预测区间如下 当人口增长量为200千人时 有95 的概率保证该食品的年需求量在1142 2到1430吨之间 第五章时间序列分析 第一节时间序列分析的基本问题第二节时间数列的水平指标和比较指标第三节时间数列的平均指标第四节时间序列的长期趋势分析第五节季节变动与循环波动分析 第一节时间序列分析的基本问题 一 时间数列的概念时间序列又称动态数列或时间数列 就是把各个不同时间的社会经济统计指标数值 按时间先后顺序排列起来所形成的统计数列 二 时间数列的构成要素现象所属的时间 不同时间的具体指标数值 例如 三 时间序列的作用 1 计算水平指标和速度指标 分析社会经济现象发展过程与结果 并进行动态分析 2 利用数学模型揭示社会经济现象发展变化的规律性并预测现象的未来的发展趋势 3 揭示现象之间的相互联系程度及其动态演变关系 四 动态数列的种类 绝对数动态数列时期数列 时点数列相对数动态数列由两个时期数列对比构成由两个时点数列对比构成由一个时期数列和一个时点数列对比构成平均数动态数列静态平均数动态数烈 动态平均数动态数列 一 绝对数动态数列 即绝对数排列组成的动态数列 它反映社会经济现象在各期达到的绝对水平及其发展变化的过程 绝对数动态数列按总量指标时间性质不同 又可分为时期数列 时点数列 1 时期数列 2 时点数列 时期数列与时点数列的区别 二 相对数动态数列 即相对指标组成的动态数列叫相对数动态数列 反映社会经济现象对比关系发展变化情况 相对数动态数列可以分解为两个绝对数动态数列 根据这两个绝对数动态数列性质不同 有以下三种分解 由两个时期数列对比构成由两个时点数列对比构成由一个时期数列和一个时点数列对比构成 1 由两个时期动态数列对比构成的相对数动态数列 2 由两个时点动态数列对比构成的相对数动态数列 3 由一个时期数列和一个时点数列对比构成的相对数动态数列 三 平均数动态数列 把反映某一现象的一系列平均指标按时间先后顺序排列而形成的动态数列 叫平均数动态数列 它反映社会经济现象一般水平的发展变化过程 静态平均数动态数列 动态平均数动态数列 练习 判断下列动态数列的种类 五 编制动态数列的原则 1 同一时间序列 指标所属时间应当统一2 总体范围应一致3 经济内容应一致4 计算方法应一致 第二节动态数列的水平指标和比较指标 发展水平增长量逐期增长量 累计增长量发展速度环比发展速度 定基发展速度增长速度环比增长速度 定基增长速度增长1 的绝对值 一 发展水平 发展量 1 概念 它反映社会经济现象在各个时期所达到的规模或水平 发展水平也就是动态数列中的每一项具体数值 2 最初水平 最末水平 中间水平3 报告期水平 基期水平 二 增减量 增长量 1 概念 是一种将两个时期指标相减得到的一种动态分析指标 反映两个时期发展水平增减的绝对水平2 公式 增减量 报告期水平 基期水平增长量 0 说明发展趋势上升增长量 0 说明发展趋势下降 根据所选择的基期不同 逐期增减量 报告期水平 前一期水平 a a a a a a 累计增减量 报告期水平 某一固定时期水平 a a a a a a 为消除季节变动的影响年距增减量 本期发展水平 上一年同期发展水平 逐期增减量与累计增减量之间的数量推导关系 各个逐期增减量之和等于最后时期的累计增减量 a a a a a a 1 a a 相邻两个时期累计增减量之差等于相应时期的逐期增减量 a a a a a a 三 发展速度 是一种将两个时期指标相对比得到的一种动态分析指标 用来说明报告期水平已发展到基期水平的百分之几或若干倍 发展速度 报告期水平 基期水平发展速度 1 说明发展趋势上升发展速度 1 说明发展趋势下降 根据所选择的基期的不同 定基发展速度 报告期水平 某一固定时期水平 a a a a a a 表明被研究现象在一定时间内总的发展变化程度环比发展速度 报告期水平 前一期水平 a a a a a a 表明被研究现象逐期发展变化的情况 两指标之间的关系 1 各个环比发展速度的连乘积等于最后时期的定基发展速度 两指标之间的关系 2 两相邻时期的定基发展速度的商等于相应时期的环比发展速度为消除季节变动影响年距发展速度 本期发展水平 去年同期发展水平 四 增减速度 增长速度 是一种反映现象变化增减程度方向的动态分析指标 用来说明报告期水平比基水平增长或下降了几倍或百分之几 反映两个时期增减的相对水平增减速度 增减量 基期水平 报告期水平 基期水平 基期水平 报告期水平 基期水平 发展速度 增减速度 0 说明报告期比基期水平有所增长增减速度 0 说明报告期比基期水平有所下降 1 定基增减速度 2 环比增减速度 例 中国的国内生产总值指标比较 3 两指标之间的关系 定基增减速度 1定基发展速度 环比增减速度 1 1环比发展速度4 为消除季节变动的影响年距增减速度 年距发展速度 五 增减1 的绝对值 增减量指标说明现象在一定时期内增减变化的绝对程度 增减速度指标说明现象在一定时期内增减的相对程度 绝对值基础上的相对水平 增减 的绝对值说明相对增减程度的绝对水平 相对值基础上的绝对水平 增减1 的绝对值 逐期增减量 环比增减速度 100 前一期水平 公式 第三节动态数列的平均指标一 平均增减量 是逐期增减量的算术平均数 它说明现象在一定时期内平均每个时间间隔增减的绝对量 二 平均发展速度和平均增减速度 平均发展速度 表明被研究现象在一个较大时间内逐年平均发展变化的程度 平均增长速度 说明被研究现象逐年平均增长变化的程度 平均增长速度 平均发展速度 1 水平法求平均发展速度 2 累计法求平均发展速度 水平法与累计法的比较 1 水平法主要考虑最后一年所达到的水平 侧重于最后水平 累计法主要考虑整个时期中各期发展水平的总和 侧重于各期发展水平的累计总和 一般地 对于某些经济现象 如各种产品产量 主要关心一段时期后最后达到的水平 适宜采用水平法计算平均发展速度 有些经济现象 如固定资产 干部培训等主要关心一段时期完成的总量 适宜采用累计法计算平均发展速度 水平法与累计法的比较 2 当现象在一段时期内波动较大时 用水平法反映不出中间各期水平的变化 用累计法就可以考虑中间水平的波动 为此可用两种方法结合运用进行分析研究 在研究一段较大时期现象平均发展变化的程度时 除用总平均速度外 最好计算分段平均速度补充说明平均速度 用个别突出的速度补充平均速度 这对于水平法计算的平均发展速度尤为必要 三 平均发展水平 序时平均数 序时平均数是对动态数列中各期发展水平求平均数序时平均数将指标在各时间上表现的差异加以抽象 以一个数值来代表现象在这一段时间上的一般发展水平序时平均数 要根据不同数列总量指标数列 具体又分为时期数列 时点数列 相对指标数列和平均指标采用不同的计算公式计算 1 根据绝对数动态数列计算 1 根据时期数列计算 简单算术平均数 2 根据时点数列计算 为保证动态数列时间完整性 要求开始时刻数值和结束时刻数值均已知 假设数值在两个间隔期内变动是均匀的 某单位五天库存现金数如下表 现金平均库存额 A 特例2 已知一段时期内期初和期末时点资料 并假定期初期末间 时点指标均匀变动 则该指标这一时期内平均数 期初水平 期末水平 2例如 某企业一月份月初人数为400人 月末人数为420人 一月份内人员均匀增加则该企业一月份平均人数 400 420 2 410 人 B 当时点数列各指标间隔期相等 首末折半法 例 某企业第三季度的职工人数如下 C 当时点数列各指标间隔不相等且间隔期内数值发生变动 以间隔期为权数的 平均加权算术平均数 法 例 某工厂成品仓库某产品库存量资料如下 1985年 1997年我国第三产业从业人数 年底数 我国第三产业平均从业人数 单位 万人 D 当时点数列各指标间隔不相等且间隔期内数值没有变动 以间隔期为权数的 加权算术平均数 例 某工厂成品仓库某产品在某年库存量资料如下 2 根据相对数动态数列计算序时平均数 先将相对数或平均数动态数列分解为两个绝对数动态数列 然后分别计算两个绝对数动态数列的序时平均数 再将两个序时平均数对比 得到的比率就是相对数或平均数动态数列的序时平均数 例1 求平均产值计划完成率 例2 求平均设备完好率 例3 求平均全员劳动生产率 3 根据平均数动态数列求序时平均数 静态平均数动态数列 由于一般静态平均数也可以分解成两个绝对数对比 即 所以它计算平均发展水平可以与相对数动态数列计算平均发展水平方法完全一样 2 动态平均数动态数列 时期相等时 简单算术平均法计算 例 某一企业第一季度各月平均工人数分别为90人 95人 100人则第一季度平均工人人数为 90 95 100 人 时期不相等时 第四节长期趋势分析 一 时间序列的构成因素和分析模型二 时距扩大法三 移动平均法四 趋势模型法五 趋势外推预测 一 构成因素和分析模型 一 时间序列的构成因素长期趋势 趋势变动时间序列在较长持续期内表现出来的总态势 是由现象内在的根本性的 本质因素决定的 支配着现象沿着一个方向持续上升 下降或在原有水平上起伏波动 季节变动由于自然季节因素 气候条件 或人文习惯季节因素 节假日 更替的影响 时间序列随季节更替而呈现的周期性变动 循环变动时间序列中以若干年为周期 上升与下降交替出现的循环往复的运动 不规则变动由于偶然性因素的影响而表现出的不规则波动 二 时间序列分析模型 1 加法模型 假定四种变动因素相互独立 数列各时期发展水平是各构成因素之总和 2 乘法模型 假定四种变动因素之间存在着交互作用 数列各时期发展水平是各构成因素之乘积 三 时间序列的分解分析 时间序列的分解分析就是按照时间序列的分析模型 测定出各种变动的具体数值 其分析取决于时间序列的构成因素 时间序列分解分析的作用1 测定各构成因素的数量表现 认识和掌握现象发展的规律 2 将某一构成因素从数列中分离出来 便于分析其它因素的变动规律 3 为时间序列的预测奠定基础 二 长期趋势的测定方法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第1节 功教学设计-2025-2026学年初中物理人教版八年级下册-人教版2012
- 现代传媒广告投放策略
- 交通违章罚款单填报指南及范例
- 高校校园疫情防控工作实施方案
- 3.17 明朝的灭亡 说课稿 2025-2026学年统编版七年级历史下册
- 月子会所培训课件
- 智慧景区建设方案:2025年智慧景区智慧旅游项目投资分析
- 2025年CCS项目在能源结构调整中的经济性优化策略探讨
- 第十单元实验活动7 溶液酸碱性的检验说课稿-2023-2024学年九年级化学人教版下册
- 2025年工业互联网平台安全多方计算在智能工厂生产设备远程升级中的应用报告
- 住宅楼弱电系统的故障诊断与维护
- 广东省地质灾害危险性评估实施细则(2023年修订版)
- 学前儿童家庭教育(高职)全套教学课件
- 皮肤科护理中的营养与饮食指导
- 小学班主任要有“三心”-浅谈小学班主任的师爱
- 仓库制度管理
- 三年级语文数学期末试卷
- 三年级请假条练习
- 流动人口信息登记表模板doc
- 公司员工福利薪酬管理制度
- 智能网联汽车计算平台测试装调完整全套教学课件
评论
0/150
提交评论