市场调查分析师 《调查数据分析》 概念.doc_第1页
市场调查分析师 《调查数据分析》 概念.doc_第2页
市场调查分析师 《调查数据分析》 概念.doc_第3页
市场调查分析师 《调查数据分析》 概念.doc_第4页
市场调查分析师 《调查数据分析》 概念.doc_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

调查数据分析 概念 调查数据分析张海波 主编,中国统计出版社出版。自学考试以及调查分析师考试指定教材 调查数据分析张海波 主编,中国统计出版社出版。自学考试以及调查分析师考试指定教材 目录第一章调查数据分析的基本问题第二章 调查数据的整理第三章 调查数据的描述分析第四章 调查数据的推断分析第五章 调查数据的相关分析第六章 调查数据的回归分析第七章 调查数据的多元统计分析第八章 调查数据的预测分析第九章 调查数据的理论分析第十章 调查分析报告调查数据分析第一章 调查数据分析的基本问题 (一)调查数据分析的意义 1, 调查数据分析 调查数据分析是根据研究的目的和要求,运用科学的方法和手段,对调查数据进行定性和定量分析, 揭示现象的本质和规律,为决策和管理提供咨询服务的过程. 2, 调查数据分析是调查研究过程中的一个十分重要的环节.调查数据分析具有自身的内在规律和特点, 主要表现在以下几个方面:数据分析过程要定性分析和定量分析相结合;数据的定量分析以统计分析 主要表现在以下几个方面 方法为主;数据分析不能孤立于被调查研究的现象独立地进行;数据分析过程是一次认识上的质的飞跃. 3, 调查数据分析在整个调查研究过程中占有十分重要的地位,其重要性 重要性主要表现在以下几个方面: 重要性 数据分析是调查研究不可缺少的重要环节;数据分析是充分发挥调查研究作用的重要保证;数据分析 在检验调查研究其他环节的工作质量中有着特殊的作用;通过数据分析还可以促进调查数据分析方法的研 究. (二)调查数据分析的原则与方法 1,调查数据分析作为调查研究的一个重要阶段,有其自身的规律和要求.在进行调查数据分析时,应该 遵循的原则主要有: 遵循的原则 .科学性原则.科学性原则是指在数据分析中,应该根据调查数据的属性和特点,调查数据的来源渠道, 调查研究的任务和目的,选择科学合理的分析方法进行分析 .客观性原则.客观性原则是指在数据分析中,必须遵守实事求是原则,充分了解研究对象的各种实际 情况,尊重调查数据事实,保证分析结果的公正与客观 .目的性原则.目的性原则是指数据分析必须围绕调查研究的任务和目的来进行,其分析的结果必须能 够满足调查研究的需要; .系统性原则.系统性原则是指数据分析要将所的现象进行分解,然后对各种复杂的联系进行分析和综 合. 2,调查数据的分析方法有多种,但从方法论的角度来看,有定性分析方法和定量分析方法两大类. 定性分析方法是人们根据事实,运用经验和判断能力,逻辑思维方法,哲学方法和相关专业理论,对 定性分析方法 现象进行判断,归纳,推理和概括,得出对事物的本质和规律性的认识的方法体系.具体包括归纳分析法, 演绎分析法,比较分析法,因果分析法,结构与功能分析方法等. 定量分析方法是对调查数据进行数学和统计处理分析的方法体系的总称. 定量分析方法 调查数据分析中所运用的定量分析方法主要是统计分析方法.统计分析方法分为描述统计分析方法和 推断统计分析方法.描述统计分析方法是指对调查数据进行综合整理和计算综合指标等加工处理,用来描 述总体特征的统计方法;推断统计分析方法是指根据调查的样本数据去推断总体数量特征的方法. 3,在调查数据分析过程中,应该正确地选择分析方法.调查数据分析方法的选择,主要是定量分析方法 的选择,而定量分析方法主要是统计分析方法.选择统计分析方法 选择统计分析方法,主要是依据研究假设,调查方式,变 选择统计分析方法 量多少,数据类型来确定. (三) 调查数据分析的程序和要求 1,调查数据的分析过程包括分析计划的制订,原始数据的整理,分析方法的选择,数据的定量分析, ,调查数据的分析过程 数据的定性分析,调查报告的撰写等环节. 2 调查数据分析 2,调查数据的分析不是一项简单的工作,也不是一项孤立的工作,要作好这项工作,必须具备一定的 条件:1.对调查数据质量的要求.包括真实性要求,准确性要求和完整性要求;2.对分析方案的完备性 要求,即要求在数据分析开始之前,必须充分考虑各方面因素,制订出详细,可行的分析方案;3.对分 析人员素质的要求.要求分析人员具有系统的统计学功底,具有熟练的计算机操作能力,具有广泛的专业 理论知识,具有较高的认识水平,具有良好的表达能力. 3 调查数据分析 第二章 调查数据的整理 (一)数据整理的概念与作用 1,数据整理,就是根据调查研究的目的与任务,对搜集到的各种数据,采用科学的方法,进行审核汇总 ,数据整理 与初步加工,使之条理化,系统化,并以图表的方式显示数据特征,以符合数据分析需要的工作过程. 2,其作用 作用有:数据整理能全面检查数据的质量,保证了数据的有用性;数据整理是数据分析的 作用 基础;数据整理是积累及保存资料的客观要求. 3,数据整理应遵循以下原则 数据整理应遵循以下原则:真实性原则.即一方面要认真审核原始数据的真实性,又应注意在 数据整理应遵循以下原则 整理的各个环节,合理地选择整理方法和技术,保障原始数据的真实性不受损害;准确性原则;科学 性原则;目的性原则. 4,数据整理的一般步骤是 数据整理的一般步骤是:数据的审核;数据的编码;数据的分组;数据的汇总;数据 数据整理的一般步骤是 的显示. (二) 编码 编码,是将问卷的问题及答案转化为计算机可以识别的数字或符号. 1,通过编码,方便录入,适宜电脑进行处理.有事前编码与事后编码.事前编码 事前编码是指在设计问卷时 事前编码 就给予每一个变量和可能答案分配代码,适用于封闭性问卷.事后编码 事后编码是在数据收集完成以后正式整理开 事后编码 始之初,对调查问题的可能答案所进行的编码.对开放型问题,只能采取事后编码的方式. 2,常用的几种编码方法有: ,常用的几种编码方法有 顺序编码法:是用一个标准对数据进行分类,并按一定的顺序用连续数字或字母进行编码的方式; 分组编码法: 是根据调查数据的属性特点和处理要求, 将具有一定位数的代码单元分成若干组 (或区间) , 每一个组的数字均代表一定的意义;信息组码编码法:是把调查数据区分不同的组,给每一个组以一定 组码来进行编码的方法;表义式文字编码法:是用数字符号等表明编码对象属性,并依此方式对调查数据 进行编码的方法. 3,编码是一项细致的工作,为方便使用,需要编制统一的编码手册.编码手册包括四个主要项目 编码手册包括四个主要项目, 编码手册包括四个主要项目 即问题顺序号,每个项目的预留代码位置,项目名称和内容说明. 4,编码时应注意以下问题 编码时应注意以下问题:编码符号绝大多数情况下都必须用数字,个别时也可以采用英文字母; 编码时应注意以下问题 可以对某些数字赋予特殊的意义,便于整理资料时识别;编码位数应根据具体情况予以确定. 5,编码完成以后,就可进行数据录入.数据的录入 数据的录入是指将问卷或调查表或登录卡上的编码数字读到 数据的录入 磁盘,磁带中,或通过键盘直接输入到计算机的工作过程.有手工录入和光电录入两种方式. 6,对收集到的数据是否真实可靠,还应进行审核.一般从准确性,完整性两方面进行. 审核准确性是关键, 主要是检查数据是否存在差错, 有无异常值. 检查的方法有逻辑检查与计算检查. 审核数据的完整性是检查应调查的个体是否存在遗漏,所要求调查的项目是否齐全,有无缺项等.对不符 合调查要求的数据,则应进行筛选.筛选有两方面的内容,一是对不符合要求或确认有错误的数据予以剔 除,保留可靠性的数据.二是过滤,将符合某种特定条件的数据选取出来,而不符合条件的数据予以剔除. 7,为合理安排数据,应首先对数据进行排序.排序是按一定顺序排列数据,便于观察数据的分布范 围及特征.能为重新归类或分组等作准备,方便数据检索.对分类数据,一般按其英文字母或汉语拼音字 母进行升序排列,也可按首个汉字的笔画数目由少到多的顺序排列.对数值型数据,可采用递增与递减两 种方式排列.递增排序是由小到大排列,递减排序是由大到小排列. 4 调查数据分析 8,分组是将原始数据按照某种标准划分为不同组别,以满足研究的需要.对数值型数据由各组的表 示方法不同分为单变量值分组和组距分组.单变量值分组中的每一组用一个变量值来表示.组距分组中每 一组用一定变动范围的两个变量值表示.有等距组距分组和异距组距分组.组距分组的基本步骤是:通 过排序的数据观察其极大值与极小值,找出变动的总范围;确定组数.一组数据分成多少组是分组中首 K =1+ lg N lg 2 ;确定各组组距.组距与组数成反比; 先需要确定的.通常可根据下列公式计算出建议组数 确定组限的表示方法,编制成频数分布表. 9,频数 频数是指落入各类或组中数据的个数,当我们把各组及相应频数按顺序全部加以排列,并用表格 频数 的形式表现出来,就是频数分布.它可以显示数据的分布状况,用于研究事物的内部结构. 将各组频数逐级累加得到的频数,称为累积频数 累积频数. 累积频数 10,为更好地表现数据特点.需要展示数据.其中图形表现,就是一种有效方法. 常用的统计图有下列几种:条形图,直方图.条形图和直方图大都是用来表现频数分布的.但两者 常用的统计图有下列几种 适用的数据类型不同.条形图是使用等宽条形的长短或高度来表示数据的多少的图形.直方图是用一定宽 度与长度所围成的矩形面积来表示数据大小的图形.矩形的宽度与高度均有意义.此外,还可根据累积频 数或累积频率,绘制累积频数及累积频率分布图. 饼型图,环形图.饼型图及环型图是来描述各种比例的图形.饼型图是用圆内扇形的面积表示数值 大小的图形.以圆为整体,形象的说明各部分在总体中所占的份额.环形图是用圆内各环中每一段的面积 来表示数值的大小的图形.能够同时显示多个总体的内部结构. 茎叶图,箱线图.对未经分组的数值型数据,适合用茎叶图,箱线图来显示.茎叶图是由茎和 叶两部分组成, 茎代表分组,表示高位数值; 叶代表频数,列示个位数值.箱线图是用一组数 据的五个特征值来描述该组数据的分布状况.既可显示单组数据,也可显示多组数据.其五个特征值分别 是一组数据的最小值,最大值,中位数,下四分位数,上四分位数. 线图.线图,是反映时间序列数据的图形,即在平面坐标上标注各数据点并连接成折线,表现数量 变化规律及特点的统计图.其横轴上列示时间的先后次序,纵轴上列示变量值. 雷达图.雷达图,反映多个变量多个观察样本数据的图形.在一个平面上绘有多个数轴,每个轴上 显示一个变量的取值,每个样本的各观察值分别在各轴上标出. 11,统计表 统计表是表现调查数据的另一个重要形式.是指将一系列说明现象特性的经加工整理后的调查数 统计表 据,按一定次序和格式排列形成的专用表格.其作用不仅能有效表现数据,更有利于资料的贮存保管,还 是积累资料的有效手段.为下一步分析提供基础,为进一步挖掘数据提供便利. 统计表由两端不封口的纵横交错的直线围成各区域.从外形看,由总标题,行标题,列标题和具体数 值及表外附加组成. 从内容看,统计表分为主词与宾词两部分.主词是指统计表要说明的主体,也即研究的对象,通常是各 个总体单位的名称或总体经分类(分组)形成的各个组.宾词是统计表要说明研究对象的某些方面状况, 事实.根据主词是否分组及分组的状况,可将统计表分为简单表,分组表,复合分组表. 为更好地表现调查数据,就需要精心设计统计表,设计时须注意以下几点:合理安排表的内容, 设计统计表, 计时须注意以下几点 设计统计表 简明扼要,集中醒目,根据表的内容决定行标题与列标题的摆放位置,确定合适的长宽比例.采用适当 的排列顺序,置于顶端的总标题要确切,明确表明统计表要反映的内容,时间与空间范围.各项标题也要 5 调查数据分析 简单明了.表的上下两条横线要用粗线标出,中间各行一般不画线,有特殊要求需标横线的则用细线. 使观看效果清楚醒目.当统计表的栏次较多时,一般会进行编号.统计表中的数字应填写清楚,排列 有序,并采用统一的精确度,按位置对齐. 第三章 调查数据的描述分析 本章讲述的是如何用指标的形式来认识调查数据数量特征的理论和方法.内容包括相对指标,平均指标和 变异程度指标的设计思想,计算方法及运用原则. 调查数据分析中常用的相对指标,有无名数和名数两种表现形式,按功能不同,相对指标分为:结构相对 指标,比例相对指标,比较相对指标,动态相对指标及计划完成程度相对指标.学习时应注意掌握各种相 对指标的计算方法.在计算相对指标时首先应注意分子与分母的可比性,同时还应注意各类指标的应用条 件.在运用相对指标时应遵循相对指标与绝对指标相结合的原则. 平均指标是表明一组数据值一般水平的指标,是一个代表性的数值.当不计较数据中极端值对均值水平的 影响时,平均指标可用数值平均法计算;否则,采用位置平均法计算.学习时应理解平均的实质,熟练掌 握各种平均值的计算方法,要深刻理解权数的意义并明白算术平均是最基本的,使用面最广的平均方法. 此外还应了解算术平均值,调和平均值,几何平均值的关系以及数值平均值与位置平均值的关系. 变异指标是描述一组数据值间具体差异程度大小的统计指标,其数值的大小一方面反映数据值变异程度的 大小;另一方面反映均值的代表性好坏.学习时应熟练掌握各种变异指标的涵义和计算方法,特别是标准 差的计算和运用. 第四章 调查数据的推断分析 基本内容概述 本章讲述的是如何用样本数据认识总体数量特征的理论和方法.内容包括参数估计,参数的假设检验 和方差分析的统计思想,计算方法及运用原则. 参数估计是基本统计推断方法之一.未知参数 的点估计,就是构造一个统计量 ( X 1 , X 2 , , X n ) 作为 参数 的估计.其方法有:矩法,似然函数法和最小二乘法.评价估计量的优良标准一般有:无偏性,有 效 性 和 一 致 性 . 未 知 参 数 的 区 间 估 计 , 就 是 在 给 定 的 概 率 (1 ) 下 , 估 计 参 数 的 变 化 范 围 ( X , X , X ), ( X , X , X ).其中: (1 ) 称为置信水平, , 分别称为置信下限及置信上限, 区间 ( X , X , X ), ( X , X , X )称为置信水平为 (1 ) 的置信区间.学习时应注意掌握统计量的 L 1 2 n U 1 2 n L U L 1 2 n U 1 2 n 抽样分布理论,这是统计推断的基础,重中之重.要熟练掌握各种情况下参数均值( ) ,方差( )和 2 成数(P)的区间估计方法. 参数的假设检验是另一类重要的统计推断方法,它利用样本统计量并按一定的决策规则对零假设 H0 作出接受或拒绝的推断.假设检验的依据是样本信息,判断规则是小概率原理,推断方法是概率反证 法.学习时应理解假设检验的统计思想,明白假设检验作出的推断结论(决策)不能保证绝对正确,可能 会犯两类错误.要熟练掌握 Z 检验法, t 检验法, 检验法和 F 检验法的原理,记住假设检验的操作过 2 6 调查数据分析 程. 方差分析是多个总体的方差都相等的条件下,其均值是否也全都相等的判断方法,同时也是实验数据 中是否存在系统因素影响的判断方法.学习时应掌握方差分析的统计思想及假定条件,熟练掌握单因素方 差分析的操作过程. 第五章 调查数据的相关分析 基本内容概述 (一)相关分析概述 在自然界与人类社会中,许多现象之间存在着相互联系,相互制约的关系.现象之间的关系可以概括 为两种不同的类型,即函数关系和相关关系.函数关系是指现象之间客观存在的,在数量变化上按一定法 则严格确定的相互依存关系.相关关系是指现象之间客观存在的,在数量变化上受随机因素影响的,不确 定的相互依存关系.在相关关系中,现象之间在数量变化上也存在着一定依存关系,但这种依存关系并 不是确定的.由于受随机因素的影响,当某一现象在数量上发生变化时,另一现象并不按某一确定法则 发生变化,而是在一定的范围内发生波动.但通过大量观察,仍然可以发现现象之间具有内在的变化规 律.相关关系与因果关系有着较密切的联系.在相关关系中,有许多相关现象之间存在单向因果关系. 单向因果关系有直接单向因果关系与间接单向因果关系之分.在相关关系中,有许多相关现象之间存在双 向因果关系.双向因果关系也有直接双向因果关系和间接双向因果关系.对双向因果关系的现象进行统计 分析时,常常根据分析研究的目的来确定自变量和因变量. 相关关系多种多样.从相关关系涉及的变量多少看,相关关系可分为单相关与复相关.单相关是指 两个变量之间存在的相关关系.复相关是指三个及三个以上的因素之间所存在的相关关系. 从相关关系 的不同形式来看,相关关系可分为线性相关与非线性相关.线性相关也称为直线相关,它是指相关的变量 中,如果自变量变动时,因变量大致地围绕一条直线发生变动.非线性相关也称为曲线相关,它是指相关 的变量中,如果自变量变动时,因变量大致地围绕一条曲线发生变动.从相关关系的密切程度来看,相关 关系可分为不相关,完全相关和不完全相关三种.如果各变量彼此的变化相互独立,这种关系为不相关; 如果一个变量的变化由另一个变量所唯一确定,这时两个变量之间的关系称为完全相关. 从相关关系的 方向来看,相关关系可分为正相关与负相关.如果相关自变量和因变量的变化方向一致,则自变量和因 变量之间就存在着正相关;如果相关的自变量和因变量的变化方向相反,则自变量和因变量之间就存在着 负相关. 相关分析是指对变量之间的相关关系的表现形式,密切程度和变化方向进行分析和研究.相关分析主 要内容包括三个方面:确定变量之间有无关系;确定相关关系的表现形式;判断关系的密切程度和方向. 相关分析作为一种认识现象之间数量变化关系的一种方法,它对数据的采集具有一定的要求.在进行 相关分析时,由于条件的限制,在大多数场合下,我们只能根据样本数据进行相关分析.那么,足够的样 本观察点是进行相关分析的重要条件. 对于不同类型的数据,进行相关分析时所选择的方法是不同的.定性数据中,定类数据一般采用交互 列表方法,x2 检验方法,品质相关系数分析方法进行分析;定序数据则采用等级相关系数分析方法进行分 析.对于定量数据则采用相关表,相关图,简单相关系数,复相关系数,偏相关系数等进行分析. 7 调查数据分析 (二)定性数据的相关分析 在实际进行的大量社会经济调查中,我们所搜集到的数据许多是定性数据,个别一些数据如收入,年 龄等也主要分析它们的层次差异与其他定性变量之间的关联结构关系.对于定性数据进行相关分析,主要 采用交互列表方法,x2 检验方法,品质相关系数和等级相关系数分析方法进行分析. 交互列表分析方法是以交互列表(也称为列联表)为工具,同时将两个或两个以上具有有限类目和确 定值的变量按照一定顺序对应排列在一张表中, 从中分析变量之间的相关关系, 得出科学结论的分析技术. 交互列表分析方法有双变量交互列表分析和三变量交互列表分析两种方法.其中,双变量交互列表分析是 最基本的交互列表分析方法.双变量交互列表分析因为涉及的变量较少,在揭示变量之间的关系时可能不 太深入或产生虚假的结果.为了克服这一缺陷,在许多场合我们要在双变量交互列表分析的基础上,引入 第三个变量作深入分析,即进行所谓的三变量交互列表分析.三变量交互列表分析法主要有三个方面的作 用: (1)更精确地反映原有双变量之间的关系; (2)检验双变量交互列表分析结果的真伪; (3)揭示新的 变量关系. x2 检验分析是运用 x2 统计量对定类或定序变量之间是否具有相关关系进行统计检验的分析方法.x2 检 验是对交互列表中变量的相关关系进行检验,是交互列表分析的深入.所以,在进行 x2 检验之前,必须编 制出交互列表.x2 检验分析的基本步骤是:建立两个变量间无关系的假设;计算 x2 统计量; 规定 显著性水平; 根据自由度和规定的显著性水平,查 x2 分布表,得到临界值;作出统计决策. x2 检验分析,研究的是两个变量之间是否存在相关关系的问题.而两个变量之间的相关关系的强弱, 还需通过品质相关系数来反映.常用的品质相关系数是 系数, v 系数, c 系数和 系数. 等级相关系数是用来描述两个定序变量即等级序列之间的相关程度的指标.在等级相关系数中,尤以 斯皮尔曼(C.Spearman)等级相关系数的运用最为普遍.等级相关系数 rs 只是就样本而言的,它所表明的 变量之间的相关程度是否在总体范围内显著地存在,还要对 rs 进行显著性检验. (三) 定量数据的相关分析 对于定量数据进行相关分析,常采用的方法是简单相关系数,复相关系数,净相关系数等方法. 简单相关系数是用来测度两个变量之间线性相关程度的统计指标,也叫线性相关系数,一般情况下简 称为相关系数.简单相关系数 r 测定的是变量 x 和 y 之间的线性相关程度.其取值范围是-1,1.若 0 r 1,表明 x 与 y 之间存在正相关;若-1 r 0,表明 x 与 y 之间存在负相关;若 r =1,表明 x 与 y 之间存在完全正相关;若 r =-1,表明 x 与 y 之间存在完全负相关;若 r =0,说明 x 与 y 之间不存在线性 相关关系.但要注意,这种判断只在样本范围内有效.那么,样本相关系数所描述的变量之间的相关程度 是否也在总体范围内显著地存在,还必须通过相关系数的显著性检验来回答.对样本相关系数进行显著性 检验的步骤是:建立假设;确定显著性水平;建立检验的统计量;查 t 分布表,得到临界值 作出统计决策. 简单相关系数只能说明两个变量之间的线性相关程度.然而现象之间的关系往往是多元的,复杂的, 一个现象的变动常常要受许多因素的影响,而且这些因素之间还存在相互交错的关系.如果研究的目的涉 及多个变量,需要揭示一个自变量与多个因变量之间的相关关系的程度,就需要计算复相关系数.复相 关系数是反映一个因变量与多个自变量之间数量变化关系密切程度的指标.复相关系数的具体计算方法依 8 t 2 ; 调查数据分析 自变量的个数不同而异.复相关系数总取正值,越接近于 1,表明因变量与多个自变量之间的线性关系越 显著. 复相关系数揭示了多个自变量同时对一个因变量发生作用时,这个因变量与这些自变量之间的相关程 度.如果相关分析的任务是要揭示对因变量有影响作用的多个自变量中,某一个特定变量与因变量之间数 量变化上的相关程度,就需要计算偏相关系数.偏相关系数是在多变量观测数据中分析两个特定变量之间 数量变化关系密切程度的指标. 单纯的相关分析只能揭示变量之间是否存在相关关系,存在何种相关关系,关系的密切程度如何,还 不能测度变量之间的数量变动关系.要分析变量之间的数量变动关系,则要进行回归分析. 第六章 调查数据的回归分析 (一) 一元线性回归分析 回归分析是一种运用十分广泛的统计分析方法.回归分析按照涉及的自变量的多少,可分为一元回归 分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析. 如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分 析称为一元线性回归分析.如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性 关系,则称为多元线性回归分析.本章重点介绍线性回归分析. 回归分析的内容和步骤有: (1)确立预测目标和影响因素; (2)绘制散点图; (3)求回归系数,并建 立回归模型; (4)对回归模型进行检验; (5)进行估计和预测. 一元回归分析法是回归分析法中最基本的方法,也是应用最为广泛的一种方法.一元回归分析法技术 简单,它可以帮助我们理解多元回归分析法. 一元线性回归分析的基本模型为: y = a + bx + 为便于模型中参数的估计,我们常常假定模型中的 误差项 满足若干经典假设.在误差项 满足若干经典假设的条件下, 模型中的参数估计方法是普通最小二 乘估计法.在估计出参数的估计值 a 和 b 后,可获得经验回归方程 y = a + b x 对于获得的经验回归方程 y = a + b x ,还需进行统计检验. 检验分为拟合优度检验和回归系数的显著性 检验.拟合优度检验主要是运用判定系数和回归标准差,检验模型对样本观测值的拟合程度.回归系数的 显著性检验有 t 检验和 F 检验两种方法. t 检验是对各回归系数的显著性所进行的检验, F 检验是对全部 回归系数进行一次性显著性检验, 其目的是检验回归方程在整体上是否显著成立. 在一元线性回归分析中, 由于只存在一个解释变量,所以上述两种检验是等价的. 如果回归模型通过了统计检验,则可运用模型进行回归估计和回归预测.回归估计和预测主要是确定 估计值或预测值的置信区间. (二)多元线性回归分析 如果因变量与多个自变量之间相关,且为线性关系,则需运用多元线性回归分析方法来研究其数量上的依 存关系. 在多元回归模型中, 关于误差项 多元线性回归分析法的基本模型为 y = b0 + b1 x1 + b2 x2 + + bk xk + . 的假定与一元线性回归模型的那些假定相似.在误差项 满足若干经典假设的条件下,模型中的参数估计 9 调查数据分析 方法是普通最小二乘估计法.在估计出参数的估计值 b j ( j = 1,2, k ) 后 , 可 获 得 经 验 回 归 方 程 y = b0 + b1 x1 + b2 x2 + + bk xk .本章主要介绍了多元线性回归分析中的二元线性回归分析方法. 二元线性回归分析法的回归方程为: y = b0 + b1 x1 + b2 x2 .二元线性回归模型中的参数,同样运用普通 最小二乘方法进行估计.在获得了回归参数的估计值 b0,b1,b2 后,还需对模型进行显著性检验.检验分 为拟合优度检验和回归系数的显著性检验.拟合优度检验主要是运用判定系数和回归标准差,检验模型对 样本观测值的拟合程度.回归系数的显著性检验有 t 检验和 F 检验两种方法. t 检验是对各回归系数的显 著性所进行的检验, F 检验是对全部回归系数进行一次性显著性检验,其目的是检验回归方程在整体上是 否显著成立.通过检验的模型就可用于回归估计和回归预测. 不论是进行一元线性回归分析,还是多元线性回归分析,如果模型中的误差项不能满足经典假设,存 在异方差或自相关,多重共线性等现象时,则我们不能直接用普通最小二乘估计法估计模型中的参数,而 是先要对原有模型进行变换,或对数据进行某种处理,然后再用普通最小二乘估计法估计模型中的参数. (三)非线性回归 在实际工作中,有时变量之间相关关系并非存在线性关系,而呈诸如抛物线,指数曲线,双曲线等各 种各样的非线性关系.这时,如果仍然直接用线性回归方程进行分析,将不能正确反映客观现象之间的相 互联系.因此,需要应用适当形式的曲线回归方程来描述它们之间的关系.这种为观察数据拟合曲线回 归方程所进行的分析,称为非线性回归分析. 非线性回归方程的形式多种多样,本章主要介绍了抛物线,指数曲线,双曲线,幂函数曲线,对数曲 线和 S 型曲线模型的形式及其参数的估计方法. 非线性回归分析的一般步骤是: 首先是对所研究的两个现象进行理论分析,分析两者之间 是否存在相关关系,以及是什么形式的相关,并结合观察散点图的分布,确定拟合哪种形式的曲线较为合 适.其次是确定好曲线形式后,列表计算其有关参数,从而确定所拟合的回归方程形式,并利用有关资 料计算相关系数,以观察所研究的两个现象之间相互关系的紧密程度.最后根据所确定的回归方程进行预 测. 第七章 调查数据的多元统计分析 (一) 聚类分析 聚类分析是一种分类的方法,主要用于辨认具有相似性的事物,并根据彼此不同的特性加以聚类 使同一类的事物具有高度的相同性,而类与类之间却有着显著的差异.聚类分析可以对变量进行聚类,即 R 型聚类,也可以对样本进行聚类,即 Q 型聚类. 为了得到比较合理的分类,首先要采用适当的指标来定量地描述研究对象(样品或变量)之间的联系 的紧密程度.主要有以下三种(1)距离测度. (2)相关测度. (3)关联测度.其中相关测度和距离测度 适用于间距测度等级及以上的数据,关联测度适用于名义测度和顺序测度. 距离测度包括欧氏距离,绝对值距离,明科夫斯基距离,马氏距离等方法;相关测度主要运用相似系 数; 关联测度有多种关联测度系数, 其中得到了广泛应用的分别是简单匹配系数, 雅可比系数和果瓦系数. 聚类分析内容非常丰富,有系统聚类,有序样品聚类法,动态聚类法,模糊聚类法,图论聚类法.本 10 调查数据分析 章主要介绍常用的系统聚类法.系统聚类法的具体很多,应用最广泛的有层次聚类法和迭代聚类法. 层次聚类法包括最短距离法,最长距离法,平均联结法,重心法,离差平方和法. 聚类分析的步骤是: (1)确定待研究问题并选择变量; (2)选择聚类用的相似性测度方法; (3)选择 聚类的方法; (4)确定类别的个数; (5)描述与解释各个类别; (6)评价聚类的有效性与准确性. (二)判别分析 判别分析是一种统计辨别和分组技术.它是根据一定数量样本的一个分组变量和相应的其他多元变量 的已知信息,确定分组与其他多元变量之间的数量关系,建立辨别函数,对未知分组类型所属的样本进行 判别分组.聚类分析和判别分析都是分类的方法,其主要差别在于:在判别分析中,用于推导分类规则的 样品的所属类别必须是事先已知的;而在聚类分析中,所有样品或个体的所属类别是未知的,而且类别的 个数一般也是未知的,分析的依据就是原始数据. 进行判别分析有一些基本要求和假设条件: (1)分组类型在两种以上,且组间样本在判别值上差别比 较明显; (2)组内样本数不得少于两个,且样本数量比变量数量起码多 2 个; (3)所确定的判别变量不能 是其他判别变量的线性组合; (4)各组样本的协方差矩阵相等; (5)各判别变量之间具有多元正态分布. 判别分析的基本模型也称判别函数, 用数学形式表示为 yi = b1 x1i + b2 x2i + + b j x ji . 根据所收集样本的数 据,可以计算出一个判别临界值 yc ,作为判定某个个体归属到哪一个类别的基准. 两总体情况下判别分析主要有以下几个步骤: (1)确定研究问题; (2)确定分析样本和验证样本; (3) 估计判别函数或后验概率; (4)评价判别模型的效果; (5)检验模型的显著性; (6)解释分析的结果; (7) 检验判别效果.多总体判别分析的步骤与两总体的情况类似,但也有不同之处. (三)主成分分析 主成分分析就是设法将原来的 p 个指标重新组合成一组相互无关的新指标的过程.通常数学上的处理 就是将原来的 p 个指标做线性组合,为了使第一个线性组合 F1 能够尽可能多地反映原指标的信息,通常的 做法就是使 F1 的方差达到最大.F1 的方差越大,表示其所包含的信息越多.由于 F1 在所有线性组合中方 差最大,包含的信息最多,因此 F1 称为第一主成分.如果 F1 还不能反映原指标的全部信息,再考虑选取 第二主成分 F2,使 F2 在剩余的线性组合中方差最大,并且与 F1 不相关.依次类推,可以求出全部 p 个主 成分,它们的方差是递减的.在实际工作中,就是要选取前几个最大主成分来进行分析,以达到简化数据 的目的.这样做就可以使我们抓住问题的主要矛盾,有利于问题的分析和解决. 求解主成分的主要数学工具是特征方程.通过求解观测变量相关矩阵的特征方程,得到 k 个特征值和 对应的 k 个单位特征向量.把 k 个特征值从大到小的顺序排列,它们分别代表 k 个主成分所解释的观测变 量的方差.主成分是观测变量的线性组合,线性组合的权数即为相应单位的特征向量的元素.主成分的性 质有: (1)各主成分的均值都为 0; (2)X 的第 i 个主成分 Fi 的系数向量就是第 i 个特征值 i 所对应的正交 化特征向量 ai; (3)第 i 个主成分 Fi 的方差为第 i 个特征值 i ,每两个不相同主成分间的协方差为 0; (4) PFi , x j = a ji i 全部主成分的方差之和等于全部原始变量的方差之和; (5)主成分 Fi 与 xi 的相关系数为 jj . 各主成分的方差即相应的特征根 i 表明了该主成分 Fi 的方差在全部方差中的比值, 所以通常定义方差 11 调查数据分析 i 为第 i 个主成分 Fi 的贡献率,方差 i 的值越大,表明主成分 Fi 综合原始变量 x1 , x2 , x p 的能力越强. 主成分分析的基本步骤是: (1)将原始数据标准化; (2)建立变量的相关系数阵; (3)求 R 的特征 根 1 2 p 0 及相应的单位特征向量; (4)写出主成分. (四)因子分析 因子分析是一种数据简化的技术,即用相对很少量的几个因子,去表示许多相互有关联的变量之间的 关系.因子分析的基本思想是,将观测变量分类,将相关性较高的即联系比较紧密的变量放在同一类中, 每一类的变量实际上隐含着一个因子; 而不同类的变量之间则相关性较弱, 即各个因子之间又是不相关的. 因子分析就是要找到这些具有本质意义的少量因子,并用一定的结构或模型,去表达或解释大量可观测的 变量. 因子分析模型可以表示为,每个观测变量由一组因子的线性组合来表示,设有 k 个观测变量,分别为 X 1 , X 2 , , X k ,其中 Xi 为具有零均值,单位方差的标准化变量.则因子模型的一般表达形式为: X i = ai1 F1 + ai 2 F2 + + aim Fm + i 因子分析中要确定多个统计量,即因子载荷,因子方差贡献率公因子方差及特殊方差,因子个数,因 子旋转, 因子命名,因子得分. 在探测性因子分析中,求解初始因子的主要目的是确定能够解释测评变量之间相关关系的最少因子个 数.根据所依据的准则不同,有很多种求因子解的方法,主要可以分为两类:一类是基于主成分分析模型 的主成分分析法;另一类是基于公因子模型的公因子分析法,包括主轴因子法,最大似然法,最小二乘法 和 a. 第八章 调查数据的预测分析 基本内容概述 (一)预测分析的概述 经济预测是把预测的理论和方法应用于经济领域,对经济现象的未来进行判断和预测.经济预测 既是科学又是艺术. 预测分析的分类:按经济预测的空间范围分为:宏观经济预测,中观经济预测和微观经济预测; 按经济预测的时间长短不同分为:近期经济预测,短期经济预测,中期经济预测和长期经济预测;按经 济预测的方法不同分为:定性经济预测和定量经济预测. 预测分析的基本原理:惯性原理:通过研究经济现象的过去和现在的状态,找出其变化的规律,向 未来延续,从而预测其未来状态的原理,称为惯性原理 ;相关原理.通过深入分析研究预测对象与 相关现象的依存关系和影响程度,揭示其变化规律和特征,以此预测经济现象未来状态的原理,称为相 关原理 ;类推原理.通过寻找并分析与预测对象类似事物的规律,根据已知事物的变化规律及特征, 推断预测对象未来的状态或特征的原理;概率推断原理.所谓概率推断原理就是根据小概率原理做出合 理的推断的原理. 预测分析的基本程序:确定经济预测的目的;调查,收集,整理经济预测所需资料(历史资料和 现实资料) ;对资料进行分析,选择适当的预测方法;建立预测模型;根据经济预测模型计算预测 12 调查数据分析 值,并测定预测误差;评价预测值,得出预测结论. 预测分析的精确度分析:经济预测误差及其产生的原因.经济预测误差,是指预测结果与实际值之 间的偏差.产生经济预测误差的原因主要有:经济预测资料的限制; 经济预测对象影响因素的复杂性; 预测方法不合适.经济预测误差的测定.常用的测定指标有:单个预测误差 et;单个相对误差 st;平均 绝对误差 MAE;预测误差的方差 MSE;预测误差的标准差 RMSE.经济预测误差的利用.根据模拟误差 ; 最小可以选择最佳预测方法;根据模拟误差最小可以选择预测模型的参数;修正预测值;根据预测误差绘 制控制图,用来判断预测模型是否适用. 预测分析的方法及其选择:预测分析方法的种类:定性预测法;相关回归分析预测法;时间序列预 测法.预测分析方法的选择. (二)定性预测分析法 德尔菲预测法:又称专家判断预测法,它是以匿名方式通过逐轮函询,征求专家们的预测意见,然后 汇总整理得出预测结论的一种方法.德尔菲预测法的主要过程:准备阶段;逐轮征询阶段;数据处理 阶段.德尔菲预测法具有匿名性,反馈性,收敛性的特点. 主观概率预测法:主观概率预测法是指利用主观概率对各种预测意见进行集中整理,得出综合性预测 结论的一种预测方法.常用的主观概率预测法包括:主观概率加权平均法和累计概率中位数法.主观概率 加权平均预测法是以主观概率为权数,对各种预测意见进行加权平均,综合求得预测结论的方法.累计概 率中位数法是根据累计概率,确定专家预测意见的中位数,对经济现象的未来进行点估计和区间估计的方 法. PERT 预测法:PERT 预测法是向具有预测判断能力的销售人员和管理人员进行调查,获取每一个被调 查者对销售量的三个估计值,然后,进行综合整理计算出销售量的期望值和标准差,作出点预测或区间预 测. (三)时间序列平滑预测法 时间序列,是将预测对象的历史资料按时间先后顺序排列而形成的一列数. 时间序列分析预测法的假定前提是:假定预测对象存在着惯性 ,它的发展是依时间序列所反映出 来的变化规律发展变化的,未来同过去一样,发展变化规律保持不变;假设预测对象的变化仅与时间有 关.但实际上包含了所有因素的作用,可以理解为它是把所有影响因素综合地归结为一个因素时间. 时间序列的因素分析: 从影响因素发生作用的效果看, 通常可以把时间序列的变动分为四种类型, 即: 长期趋势,它是指时间序列观察值,即经济现象,在较长一段时期内持续存在的变化趋势;季节变动, 一般是经济现象以年为周期,随着季节的更替,每年都重复出现的有规律的周期性变动.广义的季节变动 还包括以季度,月份甚至更短时间为周期的有规律的变动;循环变动,是指以数年为周期的一种波浪起 伏式的变动;不规则变动,是指由于随机因素和突发事件的作用而引起的变动.时间序列数据的结构模 式有乘法模式,加法模式,混合模式. 移动平均预测法:移动平均预测法是根据时间序列资料,逐项移动,依次计算包含一定项数的序时平 均数,以反映长期趋势的方法. 一次移动平均预测法:一次移动平均预测法是在原始时间序列的基础上,计算移动平均数,根据移动 平均数序列,进行趋势分析和预测的方法.一次移动平均预测法的关键是移动平均的时期长度 n 的选择. 13 调查数据分析 简单移动平均预测法:根据时间序列中最近 n 期数据计算简单算术平均数作为下一期预测值的方法. 加权移动平均法:根据时间序列的最近 n 期数据计算出加权算术平均数作为下一期预测值的方法.利 用加权移动平均法进行预测时,不仅要选择好移动平均的时间段长度 n,而且还要选择好权数 wi.确定权 数 wi 的一般原则是:离预测期愈近权数愈大,离预测期愈远权数愈小.通常取 wi=n-i+1,i=1,2,n. 二次移动平均预测法:二次移动平均预测法是指在经过一次移动平均形成的新序列基础上,再做一次 移动平均,利用移动平均滞后偏差的规律建立直线趋势预测模型进行预测的方法.二次移动平均预测法的 特点:二次移动平均预测法最适宜对呈直线升降趋势的经济现象进行预测;利用最新数据能够及时地 计算出新的系数 at 和 bt,从而能及时改变直线的斜率,调整预测对象的变化趋势,做出比较准确的预测; 由于预测模型中 at 和 bt 的值并不是长久不变的,因此,它仅仅适宜作短期预测. 一次指数平滑预测法:一次指数平滑法是以预测对象的本期实际值和本期预测值为基数,分别给两者 不同的权数,计算出指数平滑值,作为下期预测值的一种方法.一次指数平滑法的特点:指数平滑法所 要存贮的数据达到了最低限度,有时只需两个数据; 指数平滑值的实质是全部观察值的线性组合,并 且,近期数据给予较大权数,远期数据给予较小权数,反映了近期数据比远期数据对未来更重要. 确定平滑系数 的原则:如果时间序列波动不大,比较平稳,且呈水平趋势时, 的值应取小一 些; 如果时间序列具有迅速且明显的(升降)变动倾向,则 的值应取大一些;如果时间序列波动 很大,呈水平趋势时,为了削弱不规则波动的影响, 的值应尽量地取小一些; 不便确定时,可同时取几个值进行计算,然后比较预测误差,选取预测误差最小的 值. 二次指数平滑预测法:在一次指数平滑的基础上,再作二次指数平滑,利用滞后偏差的规律来建立直 线趋势模型进行预测的方法.二次指数平滑法很重视近期数据,当得到了一个新的实际数据,就能很快地 计算出直线趋势方程中 at 和 bt 的值,及时调整趋势直线的截距和斜率,使得趋势方程比较接近实际. (四)时间序列趋势线模型预测法 常用趋势线模型有:直线模型, 二次抛物线模型,三次抛物线模型, 双曲线模型 ,指数曲线模型 , 对数直线模型 ,修正指数曲线模型,龚珀兹曲线模型,逻辑曲线模型. 趋势线模型的选择方法:目估法;数量特征法; 残差平方和最小法. 模型参数的估计方法:最小平方法. 最小平方法也称最小二乘法,它是以各期观测值与模型的估 计值之间的离差平方和作为目标函数,寻求并确定使得此目标函数达到最小值时预测模型中各参数值,并 由这些参数建立起较为理想的趋势线模型的方法;三和法.三和法又称三段和法,它是把时间序列平均 分成三等段,每段含有 m 个数据,假定每期数据均在所求趋势线上,分段求和建立方程组,求得模型参数 估计值. 直线模型预测法的应用:预测模型是 y t = a + b t ;数量特征是:一阶差分为一常数;用最小平方法估计参数. 2 二次抛物线模型预测法的应用:预测模型是: y t = a + b t + c t ;数量特征是:二阶差分为 一常数;用最小平方法估计参数. 2 3 三次抛物线模型预测法的应用:预测模型 y t = a + b t + c t + d t ;数量特征:三阶差分为 一常数;用最小平方法估计参数. 14 调查数据分析 指数曲线模型与对数直线模型预测法的应用:指数曲线预测模型是: y t = a b ;指数曲线预测 t 模 型 的 数 量 特 征 : 环 比 发 展 速 度 为 一 常 数 ; 对 数 直 线 预 测 模 型 是 : lg y t = lg a + t lg b 或 lg y t = A + B t ;对数直线预测模型的数量特征是:对数的一阶差分为一常数;这两种模型均用最小平方法估计参数. t 修正指数曲线模型预测法的应用:预测模型: y t = k + ab ;数量特征:一阶差分的环比为一 常数;用三和法估计参数. 龚珀兹曲线模型预测法的应用:预测模型: y t = ka ;模型的特征:对数的一阶差分的环比为一 bt 常数.因此,当经济变量由开始增长缓慢,随后增长加快,达到一定程度后,增长

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论