第1讲数据的编码、录入与整理.ppt

上传人：3*** IP属地：湖北上传时间：2020-05-29 格式：PPT 页数：50 大小：1.83MB 积分：25 举报 版权申诉

已阅读5页，还剩45页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第1讲数据的编码、录入与整理,一、数据的编码概念,原理是研究者利用SPSS进行统计分析的必要前提。就是把通过问卷调查获得的资料转变为SPSS能够识别的数据文件，为各种统计分析做好准备。数据编码概念数据编码是指把需要加工处理的数据库信息，用特定的数字来表示的一种技术。根据一定数据结构和目标的定性特征，将数据转换为代码或编码字符，在数据传输中表示数据的组成，并作为传送、接受和处理的一组规则和约定。,二、数据问卷与编码（举例）,问卷量表,二、数据问卷与编码（举例）,问卷编码方案,三、编码类型,数值型数据的编码数值型数据的编码就是根据调查问卷的评分标准对变量赋予分值。通常采用三点计分、四点计分和五点计分等方式进行评分如选项A、B、C计分为1、2、3如选项A、B、C、D计分为1、2、3、4编码示例中的第5、6题就是属于数值型编码第5题是正向数值型(被选项的程度越高，分值越大)第6题是反向数值型(被选项的程度越高，分值越小),三、编码类型,非数值型数据的编码非数值型数据的编码，首先要确定编码规则，然后根据规则对变量赋予分值。双值型变量的编码多采用“0、1”或“1、2”来赋值；如编码示例中的第1题多值型变量的编码采用“1、2、3、”来赋值；如编码示例中的第2题通常对非数值型数据编码，主要起到分组的作用，不能进行各种算术运算,三、编码类型,多项选择题多项选择题就是题目答案的选项是多选项，标准定义有两种：二分法和多重分类法任意多项二分法表示每一次可以任选几个选项；编码方法把每一个被选项作为一个变量来定义，每个变量只能选择“1或0”；如编码示例中的第4题,三、编码类型,多项选择题多项选择题就是题目答案的选项是多选项，标准定义有两种：二分法和多重分类法多选项多重分类法限定了一次最多可以选择项目的个数；不能直接对题目进行编码，必须先确定最多选择，并给每个选项建立一个变量；如编码示例中的第3题,多重分类定义变量集,四、缺失值的处理,概念缺失值是指在数据采集与整理过程中丢失的内容，往往会给统计分析带来一些麻烦和误差。类型用户缺失值在问卷调查中把不回答的选项当作缺失值来处理缺失值可用研究者能识别的数字来表示如“0、9、99”系统缺失值指计算机默认的缺失方式，如输入数据空缺、输入非法字符等通常把缺失值标记为“.”,四、缺失值的处理,缺失值处理方法替代法：采用统计命令或在相关统计功能中利用参数替代TransformReplaceMissingValues剔除法：剔除有缺失值的题目或剔除有缺失值的整份问卷,五、数据处理中的操作术语,个案(Cases)一个研究对象就是一个个案；一个个案就是一条记录；在数据表格中表示为“一行”每一个个案记录的是一个研究对象各个属性的具体数值，如学生信息(姓名、性别、年龄等)个案,每一行为一条记录每一列为一个字段每个记录只能对应一个对象且仅为一个,字段,学生表,五、数据处理中的操作术语,样本(Sample)是指具有共同属性的所有研究对象，如学生的所有信息样本包含多个个案，在数据表格中表示为“n行”变量(Variable)是指问卷中每一个问题，数据库里字段，数据表格中表示为“一列”量值(Value)是指问卷中的答案，也称为观测值，在SPSS系统里，单元格中的数值就是变量值,六、定义变量,启动SPSS后进入数据编辑窗口，显示为一个空文件，输入数据前首先要定义变量。,六、定义变量,定义变量所包含的内容：变量名(Name)：变量的名称变量类型(Type)：变量的类型宽度(Width)：存储变量值的最大值（1可存储1个字节的字符，2可存储1个汉字）小数位数(Decimals)：变量为数值类型时，小数后的位数变量标签(Label)：对变量名的注释。光标在变量名上时，会显示该标签变量值标签(Values)：变量标签的取值缺失值(MissingValues)：定义缺失的值，例如，当定义99为缺失值时，当该变量的值为99时，把它认为是缺失值显示数据的列宽(Colums)：与上面“宽度”不同，它只管显示对齐方式(Align)：左对齐、右对齐、居中量度类型(Measure)：定比变量（Scale）、定序变量（Ordinal）、定类变量（Nominal）。只用于统计制图时坐标轴变量的区分和SPSS决策树模块的变量定义。,六、定义变量,单击数据编辑窗口左下方的“VariableView”标签或双击列的题头(Var)，打开变量定义窗口，进行变量定义。,六、定义变量,定义变量名在定义变量窗口中Name下的单元格中输入变量名变量名必须以字母开头，长度不超过8个SPSS保留的关键词不能作为变量名AND、OR、NOT、WITH、TO、BY、GT、GE、LT、LE、EQ、NE、ALL等SPSS中允许使用中文变量名，但尽量不要使用，以免出现兼容性问题,六、定义变量,定义变量类型、宽度及小数位数在Type下单击单元格，打开变量类型窗口，选择变量类型常用变量类型有：数值型(Numeric)日期型(Date)货币型(Dollar)字符型(String)在Width、Decimal下单元格，选择宽度和小数位数，系统默认为“8”和“2”；或者在变量类型窗口中设置,六、定义变量,定义变量标签在Label下单击单元格，输入变量标签SPSS允许变量标签长度为255字节定义变量值标签变量值标签是对变量的每一可能取值进一步描述，当变量是定类或定序变量时，非常有用。变量值标签系统默认为None在Values下单击单元格，打开变量值标签窗口，输入变量值标签：“1”代表男，“2”代表女。选中显示值标签按钮，可以通过下拉框录入性别。,六、定义变量,定义缺失值在Missing下单击单元格，打开缺失值窗口，输入缺失值Nomissingvalues：没有缺失值Discretemissingvalues：定义13个单一数为缺失值Rangeplusoneoptionaldiscretemissingvalues：定义指定范围为缺失值，同时指定另外一个不在这一范围的单一数为缺失值,六、定义变量,变量定义的信息复制如果有多个变量的类型相同，可以先定义一个变量，然后把该变量定义的信息复制给新变量操作步骤：先定义一个变量在该变量行号上单击右键，在快捷菜单中选择“Copy”选择同类型新变量所在行，单击右键，在快捷菜单中选择“Paste”,七、数据的录入,定义完所有变量后，单击“DataView”标签，在数据编辑窗口输入数据。数据录入如果按逐行进行，按Tab键改变行数据录入如果按逐列进行，按Enter键改变列系统默认的数据文件保存类型为“.sav”,八、数据的导入,SPSS具有强大的与其他软件共享数据文件的功能，所以能够导入多种格式的数据：,八、数据的导入-Excel文件,例一(1):数据的导入将EXCEL文件2-recode.xls导入到SPSS中启动SPSS;步骤：FileOpenData.数据导入后，查看“VariableView”标签中的字段名、类型、宽度等。把导入后的数据文件保存为2-recode.sav,八、数据的导入,例一(2):把Access中shift-MIS.accdb中的“学生表”信息导入到SPSS中.方法1：a）.打开shift-MIS.accdb文件，选中“表”对象，再选中“学生表”。,八、数据的导入,例一(1):把Access中shift-MIS.accdb中的“学生表”信息导入到SPSS中.b）.菜单上，文件导出,“保存类型”选择“MicrosoftExcel”,文件名自动为“学生表”“导出”,八、数据的导入,例一(1):把Access中shift-MIS.accdb中的“学生表”信息导入到SPSS中.c）.启动SPSS，FileOpenData，“文件类型”选择“Excel(*.xls)”，找到“学生表.xls”文件后“打开”d）.保存为：学生表.sav,八、数据的导入,例一(1):把Access中shift-MIS.accdb中的“学生表”信息导入到SPSS中.方法2：直接打开数据源文件打开数据库新查询（按照向导完成）,九、数据的整理,概念数据整理是对录入的数据进行转换、检测、量表统分、个案选择、文件拆分与合并等操作，使原始数据生成后续研究所需要的数据。包含：,文件级数据整理,变量级数据整理,其他数据整理,九、数据的整理,操作SPSS实现数据整理的功能主要集中在“Data”和“Transform”两个菜单,九、数据的整理-Recode,例二:数据分值的转换数据分值的转换是通过对数据进行重新编码来实现的。在SPSS中主要通过Recode命令来实现,九、数据的整理,例二：数据分值的转换IntoSameVariables:编码后数据存放在原变量中，覆盖原数据IntoDifferentVariables:编码后数据存放在新定义的变量中，保留原数据,九、数据的整理,例二：数据分值的转换假设一套量表共10题，每题有A、B、C三个选项，现有10个被试作答。要求根据评分规则，将被试的原始数据选择转换为量表分数注意：1、2、4、7、8、10：正向题3、5、6、9：反向题,九、数据的整理,例二：数据分值的转换,原数据,转换后数据,九、数据的整理,例二:数据分值的转换数据输入：打开数据文件(2-recode.sav)TransformRecodeIntoDifferentVariables打开“Recode”对话框，定义新变量名打开“OldandNewValue”对话框，定义转换规则,九、数据的整理-Compute,例三:量表的统分在数据录入过程中，输入的是最原始、最稳定的反应选项，但在后续的统计分析中通常需要对量表的总分进行推断统计。量表的统分工作包括分量表的统分和总量表的统分，SPSS中通常用“Compute”命令实现量表的统分工作注：变量计算的目的分为1.数据的转换处理，新变量更具有直观有效的特点，如：根据顾客的消费总金额和消费时间计算平均消费以预测理想客户；根据购房客户的贷款总额和按揭方案计算指标来评价客户的风险大小。2.对数据原有分布状态进行转换。如：利用对数或多项式转换对非正态或非线性数据进行处理；对时间序列进行平稳化处理等。,九、数据的整理,例三：量表的统分以分值转化后的数据文件2-recode.sav为例。假定该量表由2个分量表构成，其中1个量表由第1、2、5、8、9题组成，另一个量表由第3、4、6、7、10题组成。计算出每一个被试的分量表分和总量表分。,九、数据的整理,例三:量表的统分打开数据文件2-recode.sav。TransformCompute(计算分量表分flb1、flb2和总量表分zlb)统分结果保存为2-lb.sav,九、数据的整理-SortCases,例四:数据的排序分为：个案排序和变量排序在SPSS中，主要通过DataSortCases、DataSortVariables来实现。注：排序使我们初步了解数据的离散程度，发现数据的异常值。,九、数据的整理,例四：数据的排序以数据文件2-lb.sav为例，找出变量zlb的高低分组的分组一般以总个案的40%为界限确定高低分,九、数据的整理,例四：数据的排序打开数据文件2-lb.savDataSortCases将分数排序，确定高分组和低分组的起点分数值将变量zlb转换为变量zlb1（重新编码）;将高分组和低分组进行分组。因为以总个案的40%为界限确定高低分,所以高分组和低分组各取4个个案10*40%=4(4个个案)根据排序可以确定高分组和低分组的起点分数值分别为22和20,九、数据的整理-SlecteCases,例五：数据的限选例：以SPSS系统随带数据文件Anxiety.sav为例要求限选前20个个案进行后续统计分析。注：数据限选目的1.提高数据分析效率2.检验模型的需要,九、数据的整理,选择所有个案按指定条件选择个案对个案进行随机抽样按比例大概抽样精确抽样按范围选择个案,例五:数据的限选,多余数据保留在原表中,多余数据被删除,九、数据的整理,例五：数据的限选打开数据文件Anxiety.sav。DataSelectCases设置前20个个案。,九、数据的整理WeightCases,例六：数据加权打开数据文件蔬菜销售.sav。例：统计该菜场当天平均菜价。,九、数据的整理Count,例七：数据的计数SPSS有一项特定变量计数功能，可以计数一个观测变量中满足特定要求的那些变量值

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第1讲数据的编码、录入与整理.ppt

文档简介

温馨提示

最新文档

评论

第1讲 数据的编码、录入与整理.ppt

文档简介

温馨提示

最新文档

评论

相关文档

第1讲数据的编码、录入与整理.ppt