第八章数据处理_第1页
第八章数据处理_第2页
第八章数据处理_第3页
第八章数据处理_第4页
第八章数据处理_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章数据处理第1页,共46页,2023年,2月20日,星期三§8.1数据处理及前期准备一、数据处理的概念三、数据处理的前期准备二、数据处理的意义第2页,共46页,2023年,2月20日,星期三数据处理及前期准备数据处理就是根据调查研究的目的与任务,对搜集到的各种数据进行审核与汇总,使之条理化、系统化,以符合数据分析的需要。1.数据处理的概念2.数据处理的意义数据处理有利于发现工作中的不足。有利于提高信息资料的价值。3.数据处理的前期准备选择高效率的数据处理人员。建立完善的工作制度。制定科学的工作标准。第3页,共46页,2023年,2月20日,星期三§8.2一般数据处理流程一、数据审核二、后编码三、数据录入四、数据文档的转换五、数据库清理六、数据库储存第4页,共46页,2023年,2月20日,星期三一般数据处理流程图是否需要加入新变量是否是否(1)数据审核数据是否可用剔除或返还纠错(3)数据录入(4)数据文档转换(5)数据库清理(6)数据库储存加入新变量(2)后编码第5页,共46页,2023年,2月20日,星期三1.数据审核数据资料的审核是数据资料处理的第一步工作。审核方式审核的一般方法

资料收集过程中的审核。资料回收后的审核。

文字资料的审核方法。数字资料的审核方法。一般数据处理流程图第6页,共46页,2023年,2月20日,星期三常见需审核的问题:问卷的某些部分填写不完整或记录字迹不清楚;调查对象回答差异不大;返回的调查问卷本身丢失几页;问卷的回收超过时限;问卷的填写人员不符合调查要求;问卷存在明显不一致的答案;处理方式:对于样本量较少而调查对象又比较容易确认的不合格问卷,通常采用退回现场重新调查的方式;对于无法退回现场,缺失值较少且缺失值不是关键变量的少数问卷,进行填补确实值的处理;其他情况采用丢弃不合格问卷。第7页,共46页,2023年,2月20日,星期三2.后编码编码指将问卷(或调查表)中的文字信息转化为计算机能识别的数字符号的过程,即给问卷或调查表的每一个题目的每一个备选答案分配一个符码,符码通常是一个数字。指将问卷或编码表中的每一题目或变量对应的代码读到磁盘等储存介质上,或通过键盘直接敲入计算机中。3.数据录入第8页,共46页,2023年,2月20日,星期三数据编码与录入的处理方式:(1)单项选择题录入----根据题项附值,题内若有其他选项则转化为开放式问题模式录入。(2)多项选择题录入

A多选项二分法----每个变量只有0或1取值;B多选项分类法----为多个答案分设变量。(3)开放式问题录入A列出答案;B合并答案;C设置编码;D选定编码。第9页,共46页,2023年,2月20日,星期三

你为什么喜欢喝A品牌的啤酒?1因为它口味好;2它具有最好的味道;3我喜欢他的口味;4我不喜欢其他啤酒太重的口味;5它最便宜;6它经常打折;7其他牌子酒使我胃不舒服;8喝这种酒头不疼;9我总是选择这个牌子的;10我已经喝了10多年了;11它是大多数朋友喝的品牌;12我的朋友基本都喝它;13我没想过;14不知道;15没有特殊的原因。第10页,共46页,2023年,2月20日,星期三你为什么喜欢喝A品牌的啤酒?1因为它口味好;2它具有最好的味道;3我喜欢他的口味;4我不喜欢其他啤酒太重的口味;5他最便宜;6他经常打折;7其他牌子酒使我胃不舒服;8喝这种酒头不疼;9我总是选择这个牌子的;10我已经喝了10多年了;11他是大多数朋友喝的品牌;12我的朋友基本都喝它;13我没想过;14不知道;15没有特殊的原因。回答类别描述回答编码口味好/喜欢味道1,2,3,41低/较低价格5,62不会引起头痛,胃痛7,83长期喝,习惯9,104朋友喝/受朋友影响11,125不知道13,14,156第11页,共46页,2023年,2月20日,星期三4.数据文档的转换数据文档的初始形态统计分析软件:如SAS、SPSS、MINITAB、SYSTAT、EVIEWS

数据库管理软件:如:MicrosoftExcel、Lotus1-2-3和QuatroPro

第12页,共46页,2023年,2月20日,星期三5.数据库清理目的:不让有错误的数据进入统计分析过程。数据库清理是对数据库文件做以下检查:编码检查一致性检查缺失值检查一致性检查---为了找出超出正常范围、逻辑上不合理或极端的数值。如一般备选答案1~5,9为缺失值,若出现8则错。缺失值检查---是存在明显错误、不合理数据、漏填数据项。处理方式:均值代替、估计值代替、问卷删除、结对删除。注:不同处理方式分析结果将有所不同。第13页,共46页,2023年,2月20日,星期三6.数据库储存是否需要给数据库加入新的变量。数据库文档通常储存在磁盘等储存介质上,另外再用一张磁盘或其他储存介质作为备份以保证安全。第14页,共46页,2023年,2月20日,星期三第9章数据分析方法§9.1统计分析方法Ⅰ—描述统计§9.2统计分析方法Ⅱ—推断统计第15页,共46页,2023年,2月20日,星期三§9.1统计分析方法Ⅰ—描述统计一、频数分布表和统计图法三、多变量描述统计二、单变量描述统计第16页,共46页,2023年,2月20日,星期三统计分析方法的选择:1、调研问题的性质描述性问题----如对某电视广告接触状况的反应;对某产品性能的评价;不同人对某品牌偏好差异等。采用频数分析和描述统计。关系性问题----如相关关系和因果关系。采用相关分析、回归分析、方差分析等。2、数据资料的性质品质变量----如性别、职业等。采用列联分析、非参数检验等。数量变量----如年龄、收入、销售量、知名度等,即等距、等比量表,或次序量表进行数学转换后。可采用各种方法。第17页,共46页,2023年,2月20日,星期三一、频数分布和统计图表1.频数分布指把总体按某一标志分组,并按一定顺序列出每个组的单位数,所形成的总体单位在各组间的分布;也称为次数分布或分布数列。2.频数分布表把总体中各个类别及其相应的频数、频率及累计频率等指标用汇总表格的形式展示出来所形成表格。3.编制频数分布表的一般步骤找出数据的变动范围;确定组数和组距;确定组限(上限、下限)和组中值;计算调查数据落入各组的频数和频率。第18页,共46页,2023年,2月20日,星期三4.统计图是一种以点、线条、面积等方法描述和显示数据的形式,具有直观、醒目、易于理解等特点,一般由坐标系、图形和图例三部分组成。5.常用的统计图有:条形图、直方图、饼图、折线图、趋势图、态度对比图、轮廓形象图等。一、频数分布和统计图表第19页,共46页,2023年,2月20日,星期三编制频数分布表及绘制统计图时应注意的问题编制频数分布表和绘制统计图只是对调查数据进行处理的初级阶段;编制频数分布表时,需要注意组数、组距及组限的确定问题;不同的统计图一般都有其特定的适用范围,在实际应用时,应根据数据性质及所反映问题的需要选择适宜的统计图。第20页,共46页,2023年,2月20日,星期三1.集中趋势二、单变量描述统计指调查数据的频数分布从两边向中间集中的趋势,也称作趋中性。2.离散趋势指调查数据远离其分布中心值的程度。集中趋势指标反映调查数据的共性和集中性,离散趋势指标反映调查数据的个性和分散性。调查数据的离散程度越高,用于描述数据集中趋势指标的代表性越差,使用这些代表性指标进行统计分析的效果越差。第21页,共46页,2023年,2月20日,星期三简单算术平均数——根据原始数据计算3.集中趋势的常用测度指标平均数

又称均值,主要有算术平均数、调和平均数和几何平均数等计算方法,其中以算术平均数最为常用。加权算术平均数——根据分组数据计算二、单变量描述统计第22页,共46页,2023年,2月20日,星期三3.集中趋势的常用测度指标中位数指把一组数据按照从小到大的顺序排列后,位置居中的变量值,记为。计算原始数据的中位数:计算分组数据的众数:众数

指数据中出现次数最多的变量值,记为。当为奇数时:当为偶数时:

为众数所在组的下限,为众数所在组组距,和分别为众数所在组变量值的次数与下一组和上一组变量值的次数之差。二、单变量描述统计第23页,共46页,2023年,2月20日,星期三标准差指调查数据中各变量值与其算术平均数离差平方的算术平均数的平方根,记为。4.离散趋势的常用测度指标方差指标准差的平方,记为。对方差进行开方,即可得到标准差。依据原始数据计算方差:依据分组数据计算方差:二、单变量描述统计第24页,共46页,2023年,2月20日,星期三4.离散趋势的常用测度指标四分位差把调查数据按照从小到大的顺序排列后,用三个四分位数点()将其分为四个相等部分,高四分位数点与低四分位数点之间的距离即为四分位差。变异系数指调查数据的标准差与其算术平均数的比值,也称为离散系数,主要用于比较不同类别数据的离散程度。二、单变量描述统计第25页,共46页,2023年,2月20日,星期三对数据的集中趋势进行描述,应结合统计数据的实际分布状况,选用恰当的指标形式,以克服不同形式的测度指标在使用范围上的局限性。比较不同类别数据的离散程度时,应使用变异系数指标,而不宜使用标准差、方差等反映数据离散程度的绝对量指标。应用单变量描述统计方法时应注意的问题第26页,共46页,2023年,2月20日,星期三1.列联表三、多变量描述统计是对两个或两个以上的分类变量进行交叉分类所形成的复合频数分布表。2.二维列联表的一般形式第27页,共46页,2023年,2月20日,星期三3.相关分析是研究变量之间相关关系密切程度的统计方法。按表现形式不同,可以分为线性相关和非线性相关;按相关的方向不同,可以分为正相关和负相关。

散点图以直角坐标系的横轴代表自变量x,以纵轴代表因变量y,将两个变量间相对应的变量值用坐标点的形式描绘在坐标平面上所形成的图形。相关系数在直线相关的条件下,衡量两变量之间线性相关程度的统计指标。三、多变量描述统计第28页,共46页,2023年,2月20日,星期三4.回归分析是研究因变量对自变量依赖关系的一种统计分析方法,目的是通过自变量的给定值来估计或预测因变量的均值。一元线性回归多元线性回归

绘出散点图→建立一般模型→估计方程参数→检验回归方程的拟合优度→检验参数的显著性→检验回归方程的显著性→分析回归方程的残差→预测一般实现步骤非线性回归三、多变量描述统计第29页,共46页,2023年,2月20日,星期三应用相关与回归分析方法时应注意的问题相关分析的目的是测定变量之间相关关系的方向和程度,回归分析的目的是利用回归模型进行预测和控制。进行相关分析时,不能仅凭相关系数的大小来解释变量之间的相关程度,否则有可能会得出不切实际的结论。在实际操作中,建立回归模型的过程非常复杂,应用时必须结合具体情况进行探讨和分析。三、多变量描述统计第30页,共46页,2023年,2月20日,星期三例题

下表是一份数据,其中的y是保险公司职员一周平均加班时数,x是一周新签保单数,这里希望能确立一个模型来研究新签保单和员工加班时数之间的关系。实例数据周序号

新签保单(X)加班时数(Y)1

825

3.5

2

215

1

3

1070

4

4

550

2

5

480

1

6

920

3

7

1350

4.5

8

352

1.5

9

670

3

10

1215

5

第31页,共46页,2023年,2月20日,星期三

表计算一元回归的中间变量

周序号

新签保单(X)加班时数(Y)X2Y2XY

1

825

3.5

680625

12.25

2887.5

2

215

1

46225

1

215

3

1070

4

1144900

16

4280

4

550

2

302500

4

1100

5

480

1

230400

1

480

6

920

3

846400

9

2760

7

1350

4.5

1822500

20.25

6075

8

352

1.5

123904

2.25

528

9

670

3

448900

9

2010

10

1215

5

1476225

25

6075

第32页,共46页,2023年,2月20日,星期三查表求F的临界值,将F值与其比较,判断模型(回归方程)是否可用。查表知,当即置信度为0.95或95%时,分子自由度为1,分母自由度为8的F临界值为11.26,F值远远大于F临界值,所以模型的可信度不低于95%,在此标准水平上模型是完全可用的,因为在此标准水平上因变量与自变量之间确实存在线性相关关系。

一元回归方差分析表

平方和

自由度

平均平方和

F值回归

16.882

1

16.682

72.396

残差

1.843

8

0.230

总和

18.525

9

72.360.23016.682====平均残差平方和平均回归平方和MSEMSRF第33页,共46页,2023年,2月20日,星期三§9.2统计分析方法Ⅱ——推断统计一、参数估计三、方差分析二、假设检验第34页,共46页,2023年,2月20日,星期三一、参数估计参数估计指在满足一定精度和把握程度的条件下,利用样本信息来估计总体特征的统计分析方法。1.基本原理2.基本形式点估计指直接用样本估计量作为总体未知参数的估计量;该方法简便、直观,但无法提供误差程度的准确信息。区间估计指以区间的形式给出总体参数的取值范围和推断的把握程度;该方法弥补了点估计不能给出推断把握程度的不足。第35页,共46页,2023年,2月20日,星期三3.常用的置信区间的形式

(1)对于正态总体,当总体方差已知时,总体均值的置信度为的置信区间为:(2)对于正态总体,当总体方差未知时,总体均值的置信度为的置信区间为:一、参数估计第36页,共46页,2023年,2月20日,星期三应用参数估计方法时应注意的问题进行参数估计时,应根据所研究对象的变异程度及分析任务的要求,确定一个合理的误差范围;估计误差不能超过一定的限度,但也不是越小越好。

进行参数估计时,应根据所研究问题的性质和工作需要,确定一个可以接受的估计置信度;估计的可信度不能太低,也不宜过高。

第37页,共46页,2023年,2月20日,星期三二、假设估计1.基本原理假设检验是利用样本信息判断对总体参数的假设是否成立的统计推断方法,有参数假设检验和非参数假设检验两种形式;其基本理论依据是“小概率事件原理”。2.总体参数假设检验的基本步骤根据待检验的问题,提出原假设和备择假设;选取适当的显著性水平;确定检验用的统计量和拒绝域的形式;求出拒绝域;根据样本观测值;判断接受或是拒绝原假设。第38页,共46页,2023年,2月20日,星期三应用假设检验方法时应注意的问题应根据研究目的和数据资料的性质选用恰当的检验方法。资料性质不同,样本大小不同,所适用的检验统计量及假设检验方法也会有所不同。结论不能绝对化。是否拒绝,要根据值与水平的关系来判断,而值又往往需要根据所研究问题的特点来灵活确定。

第39页,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论