数据处理与分析课件_第1页
数据处理与分析课件_第2页
数据处理与分析课件_第3页
数据处理与分析课件_第4页
数据处理与分析课件_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据处理是将调查中收集的数据转换成适合汇总制表和数据分析的形式。在数据收集之后,估计在处理数据之前的所有活动:主要包括数据编码、输入、审计、插值、异常检测和处理等。最后,生成用于进一步分析的数据库。1,PPT学习与交流,1。编码,编码是给一个问题的每个答案一个数字代码的过程,以便于数据输入和进一步的处理。有许多具体的编码方法,包括:问卷中的预编码;数据收集后手动编码;由文本识别软件自动编码(即通过软件给一串字符分配一个代码)。2,PPT学习和交流,2)数据录入,数据录入是将答案转换成机器可读的形式。当采用基于纸张的数据收集方法时,数据输入是在数据收集完成之后进行的(通常是在对问卷进行一些“梳理

2、”和初步检查之后)。采用计算机辅助数据采集方法时,数据录入是在数据采集的同时完成的。以下方法可以提高数据录入的效率:使用计算机辅助数据采集方法;纸质问卷的光电扫描;对纸质问卷进行预编码。4,PPT学习与交流,3。审核,审核是应用各种检查规则来识别丢失、无效或不一致的条目,这将导致数据记录中的潜在错误。审核的目的是确保从调查中获得的最终数据的完整性、一致性和有效性(包括逻辑性)。审计可以分为三类:有效性审计、一致性审计和分布审计。有效性审计和一致性审计是对单一问卷的审计;分布式审计是将全部或部分问卷数据一起审计。5、PPT学习与沟通,通常,审计规则的确定是基于以下几个方面:关于调查对象的专业知识

3、;问卷和问题的结构;其他相关调查或数据;统计理论(如离群点检测方法)。6、PPT的学习和交流,数据收集完成后,审核无效,通常按以下方法进行:删除它;进行插值;设置特殊代码。7、PPT的学习和沟通,有时,一个记录(或整个问卷)不符合多个审核规则的要求,或不符合几个关键审核规则的要求,这使得后续的处理毫无意义。在这种情况下,由于没有答案,这些记录通常可以被删除,并且可以调整被调查的每个单元的权重。8,PPT学会沟通,大多数审计失败应该标记为插值。对于某些项目,我们可以使用特殊代码来标记被确认为审计无效的不可接受的值或无效空白。9、PPT学习交流,选择性审计,选择性审计是基于这样的理念,即只有那些“

4、关键”审计失败,而不是所有的审计都失败,那么就需要采取相应的措施。选择性审计通常适用于定量数据。在审计失败的选择性审计中,除了需要进一步处理和插值的记录的审计失败之外,受访者可能需要重新访问。10,PPT学习交流,审计准则,审计目标是:-更好地理解数据和数据处理过程;-检查问卷;-对受访者的回访;-检测错误或缺失的数据;-删除无效记录;-需要插入的单独记录。11,PPT学习交流,审核标准:审核不仅有助于整理数据,而且有助于检查失败率,这对衡量当前调查的质量和改进未来调查非常有用。它可以在调查中提供有关数据处理的信息;每当你开始一项调查,你总是要对数据做一些假设,你可以在审计期间检查这些假设的合

5、理性。例如,很明显,某些领域的审计规则过于严格,或者某些类型的审计失败过于频繁,这表明审计规则可能不合适(或者问卷可能有问题);12、PPT学习交流、审核应分阶段进行;审计工作应由对本次调查的主题、问卷设计和数据分析具有专业知识并具有类似调查经验的人员进行;各阶段的审核不得与其他阶段的审核相冲突;应告知数据用户经审计的信息以及审计工作对调查数据的影响。13,PPT学习与交流,4。插值,插值是解决审计过程中发现的数据缺失、无效和不一致等问题的过程。插值是对审计过程中发现的所有缺失信息的记录进行补充或替换,以确保内部记录的一致性。14,PPT学习和交流,插值方法可分为两种:随机插值和确定性插值。确

6、定性插值,对于研究中的特定数据,只有一个可能的插值值。随机插值包含随机因素,因此插值值每次都可能不同。15,PPT学习和交流,几种确定性插值方法如下:-推理插值;-平均插值;-比率(比率)/回归插值;-顺序热平台插值;-顺序冷平台插值;-最近邻插值。每一种确定性插值方法都对应于一种随机插值方法。当插值定量数据时,插值通过确定性方法获得,并且来自适当分布或模型的残余误差被作为最终插值,其变成随机插值。16、PPT学习和交流中,随机插值比确定性插值方法能更好地保持数据集的频率结构并保持更真实的可变性。除了供应商插值方法外,以下方法可以逐项插值。所谓的供应商插值方法是使用供应商来插值接收方所有缺失或

7、不一致的数据。4.1推理和插值:缺失或不一致的数据可以通过推理来确定。通常,这种推理基于问卷中其他答案的模式。以下是一些常用的插值方法。对于所有这些插值方法,最好将类似的记录分组到一个组中,这称为插值类,就像调整未回答的权重一样。18、PPT学习和交流,4.2均值插值,均值插值,缺失或不一致的值可以用插值类的均值代替。对于缺失数据,使用平均值插值相当于使用相同的未回答权重调整同一插值类中的所有受访者。均值插值可以得到更好的点估计,但由于插值类均值形成的人工“峰”,破坏了分布状态与变量之间的关系。因此,如果使用传统的抽样方差公式进行计算,最终的方差将被低估。当没有辅助信息或只有少数记录需要插值时

8、,通常采用平均插值。19、PPT学习与交流,4.3比率(rate)或回归插值,比率或回归插值是通过使用辅助信息和其他记录中的有效答案来建立比率或回归模型,从而显示两个或多个变量之间的关系。例如,用于比率插值的模型是:其中:yi是变量y的第I个单位值;Xi是与变量y相关的变量x的第I个单位值;r是直线的斜率(即每单位变化的平均值);是模型的随机误差项,平均值为0,方差为0。20,PPT学习通信,此时,的插值根据以下公式计算:其中:它是变量y的第I条记录的插值;是插值类中记录的x值的平均值;是插值类中记录的y值的平均值。这里,我们假设适合内插类中有效数据的比率或回归模型(即,它已经通过了所有审核)

9、也适用于该内插类中审核失败的数据。21,PPT学习和交流,由比率和回归估计产生的插值比由用以前的数据插值,也称为正向插值,是比率或回归插值的一种特殊情况,只使用以前调查的数据直接作为当前调查缺失数据的插值值。22,PPT学习和交流,4.4热平台插值,它使用供应商在同一插值类中记录的信息来替换类似接收方记录中缺失或不一致的数据。为了找到与接收方记录相似的供应商记录,有必要确定与需要插值的变量相关的变量,并建立插值类。然后,插补类中通过所有审核的记录集就是供应商记录集,用于插补接收方的缺失数据。热平台插值可用于插值定量数据和定性数据,但通常仅使用定性变量来建立插值类。23,PPT学习与交流,样本号

10、。性别、年龄、婚姻状况、收入:汽车有1名未婚青年男子70人,2名已婚青年男子100人,3名未婚青年女子50人,4名已婚青年男子70人,5名未婚青年男子90人,6名丧偶青年女子30人,7名已婚青年男子-8名离婚青年女子45人,9名已婚青年男子。婚姻-10女中老年人丧偶20-11男青年未婚50,12男中老年人已婚-24,PPT学习与交流,插补情况:受助人收入,车主,7 70,4 9 90 5 10,6 12 70,4 25,PPT学习与交流,在顺序热平台插补方法中,数据在插补类中按一定顺序处理。插值是用有效答案单元中的数据替换缺失的值,位于该序列中插值数据的前面。如果每次都使用相同的排序和选择方法

11、,则顺序热平台方法是一种确定性插值方法。对于随机热平台插值,供应商是从插值类中随机选择的,因此这是一种随机插值方法。26、PPT学习交流中,供应商插值方法(仅限于热点平台插值和最近邻插值)的优势在于,因为类似的供应商(如公司和家族等。)具有相似的特性,插值应该相当精确。使用供应商插值可以保持数据的原始分布形式。27,PPT研究与交流,4.5冷平台插值,这与热平台插值相似,但不同的是,热平台插值使用目前调查的供应商,而冷平台插值使用其他数据中的供应商。冷平台插值通常使用以前调查或人口普查的历史数据。28,PPT学习和交流,4.6最近邻插值,最近邻插值,就像热门平台插值一样,也根据匹配变量选择供应

12、商记录。然而,使用这种方法,目的不一定是在匹配变量中找到与接收方记录完全相同的供应商记录,而是根据匹配变量在插值类中找到与接收方记录最接近的供应商记录,即找到最接近的值。“最近”由两个观察对象之间的距离定义,两个观察对象之间的距离由辅助数据计算。29,PPT学习和交流,4.7随机插值,用于定量数据的任何确定性插值都可以通过添加随机残差而变得不确定。例如,我们可以使用平均值加上随机残差进行插值:其中Y变量的第I条记录的插值是多少;是插值类的平均值;是从被调查者身上提取的残差还是某种分布的随机模型。30,PPT学会交流,哪些值需要插值,以及由于无答案或无效答案而检测到的审核无效记录通常需要插值。然

13、而,并非所有审计失败的数据都需要插值。对于记录,要插入的项目应该尽可能地有限。为了确定哪些字段需要内插,我们应该遵循以下三个标准:我们应该尽可能少地更改数据项(字段),以使每个记录满足审计规则的要求;尽可能保持数据文档的原始频率结构;插值规则的确定源自相应的审计规则,而不是参考任何其他特定的规则。,31,以PPT研究和交流为例,假设调查问卷中被调查者的背景信息是:受教育程度(大学)、婚姻状况(已婚)、性别(女性)和年龄(10岁)。显然,在这份记录中,年龄-婚姻状况、年龄和教育水平不符合审计规则。为了纠正审计失败,我们可以同时调整婚姻状况和教育水平,或者我们可以只调整年龄,而一般倾向于采用后者。

14、32、PPT学习与交流、插值数据的方差估计,上述所有插值方法都可以为每个缺失或不一致的值生成单个插值,这些方法会在一定程度上扭曲插值变量的原始分布,并导致使用标准方差估计公式进行不正确的方差估计。分布失真的程度很大程度上取决于插值的数量和所使用的插值方法。PPT学习交流和插值的原理。虽然插值可以提高最终数据的质量,但我们应该谨慎选择合适的插值方法。插值方法是否合适取决于类型、目的、可用的辅助信息和误差的性质。审计和估算带来的风险是,它们将销毁报告的数据,并产生符合预期模型的记录,这在以后可能会被证明是不正确的。34,PPT研究和交流,以下是插值的几个标准:插值获得的记录应该与审计失败的记录非常

15、相似。这通常可以通过插入尽可能少的变量和尽可能多的原始答案数据来实现。基本假设(在实际工作中并不总是如此)是,被调查者更有可能只犯一两次错误,但不太可能犯多次错误;良好的插补将为评估留下线索,并确保插补记录的内部一致性。插值过程应该是自动的、客观的、可再现的和有效的。35、PPT学习和交流,以及通过插值获得的记录应满足所有审核规则;-应标记插值,插值方法和用于插值的数据也应清晰标记。应保存记录中变量的插值和非插值,以评估插值的程度和影响;-仔细选择插值方法,考虑每种插值方法的优缺点和要插值的数据类型;36、PPT学习和交流,-插值方法应减少未回答的偏差并尽可能保持不同变量之间的关系(即数据的多

16、元结构不应被破坏);-插补系统应提前考虑、提出、编程和调试;-插值系统应该能够处理各种缺失或不一致的字段;37,PPT学习和交流,-对于供应商插值方法,插值获得的记录应尽可能与所选供应商相似。这有利于保证插值记录中插值和非插值的组合不仅符合审计规则,而且具有多样性。38,PPT学习和沟通,5)异常值检测和处理,异常值检测可视为一种审计类型,主要用于发现和确认可疑记录。应区分极值和影响值。如果记录值和采样权重的组合对估计有很大的影响,我们将这种观察值称为影响值。但极值不一定是影响值。在学习和交流过程中,我们应该区分单变量异常值和多变量异常值。如果一个异常值对应于一个变量,那么观察值就是一个单变量异常值。如果一个异常值对应于两个或多个变量,我们说观察值是一个多元异常值。例如,一个人的身高为2米或体重为45公斤,这可能并不罕见,但一个身高为2米、体重仅为45公斤的人就是一个多元异常值的例子。40、PPT学习和交流中,有许多原因会导致离群值:数据中有错误(如数据录入错误);异常值可能来自另一个模型或分布,例如,大多数数据服从正态分布,但假定的异常值可能来自指数分布;异常值的出现可能是由于数据固有的可变性。看似可疑的可能仅仅是由于数据集固有的可变性。41、PPT学习交流、离群点检测,传统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论