DM_Chap5_数据变换_第1页
DM_Chap5_数据变换_第2页
DM_Chap5_数据变换_第3页
DM_Chap5_数据变换_第4页
DM_Chap5_数据变换_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章 数据变换第五章 数据变换5.1 变量值的重新计算5.2 变量类别值的调整5.3 变量派生变量值的重新计算o变量值的重新计算,是对变量原有值的重新计算,将其变换为符合分析需求的更有意义的取值。o将Filler节点添加到流中o选择“设置(Setting)”nFill in Fields:指定一个或多个需要重新计算的变量名nReplace:提供了几种变量值重新计算的条件nReplace with:指定重新计算的方法第五章 数据变换5.1 变量值的重新计算5.2 变量类别值的调整5.3 变量派生变量类别值的调整o在实际数据分析中,分类型变量的类别取值有时也需要调整o将Reclassify节点添

2、加到流中,选择“设置(Setting)”nModeoSingle仅调整一个变量的类别值oMultiple同时调整多个变量的类别值nReclassify intooNew field:将调整结果保存到新变量中,可以指定新变量名,或统一在原变量名后加指定的后缀oExisting Field:将调整结果保存到原变量中nReclassify Field:在下拉列表中选择需要调整的变量nReclassify valuesnFor unspecified values use:oOriginal value:保持原值不变oDefault Value:默认为undef,即系统缺失值$null$,也可在后面的

3、文本框指定为一个特定值第五章 数据变换5.1 变量值的重新计算5.2 变量类别值的调整5.3 变量派生5.3 变量派生o变量派生是指在原有变量的基础上,根据需要计算出一系列新变量n派生新变量o 根据算术表达式派生新变量o 二分组派生新变量o 多分组派生新变量o 根据条件派生新变量n派生服从正态分布的新变量n派生哑变量根据算术表达式派生新变量o将Derive节点添加到数据流中oSetting节点的设置nModeoSingle:只派生一个变量oMultiple:根据一个运算规则同时派生多个变量nDerive Field:新派生的变量名,如果同时派生多个变量,需要给出新变量名的前缀或后缀nDeriv

4、e as:在下拉列表中选择Formula,根据算术表达式计算派生新变量nField type:指定派生变量的计量类型,默认为Default,实例化后会自动转为具体的计量类型nFormula:输入算术表达式二分组派生新变量oSetting节点的设置nMode中选择MultiplenDerive from:选择参与计算的变量名nField name extension:对派生的新变量名,指定统一的扩展名,作为原变量名的前缀或后缀n在Derive as中选择Flagn在Field type中指定先变量的计量类型为Flagn在True Value和False Value框中分别输入“合格”和“不合格”

5、nTrue when:输入评定依据Field=60,表示对任一变量,判断其取值是否大约等于60分多分组派生新变量oSetting节点的设置nMode中选择MultiplenDerive from:选择参与计算的变量名nField name extension:对派生的新变量名,指定统一的扩展名,作为原变量名的前缀或后缀n在Derive as中选择Setn在Field type中指定先变量的计量类型为Setn在列表中依次给出多级评定的依据o在Set Field to列中给出分组后的取值o在if this condition is true列中给出分组标准o对不满足任何一个条件表达式的变量值,其分

6、组后的默认值为Default,即系统缺失值$null$根据条件派生新变量o假设思想品德评定等级为A,总成绩上浮1%。oSetting节点的设置n由于只需要计算总成绩一个变量,Mode中选择SinglenDerive field:输入新派生的变量名n在Derive as中选择Conditional,表示根据条件计算派生新变量n在Field type:通常默认为Default,实例化后会自动转为具体的计量类型n在if框中输入具体的条件表达式,它是分数调整的依据n在then框中输入条件表达式为真时的计算方法,在else框中输入条件表达式不为真时的计算方法。派生服从正态分布的新变量o将Transfor

7、m节点连接到数据流中oFields选项卡的设置:通过选择变量对话框,选择数值型变量到Fields中oOption选项卡:nAll Formula:采用内置的所有变换方法nSelect Formula:自行指定变化方法,可在Offset框中给出恰当的指定值,以避免除0.0或负数取对数问题oTransform的执行结果o为派生出服从正态分布的新变量,选择执行结果窗口主菜单Generate下的Derive Node节点nNon-standardized transformation:派生的新变量是有量纲的非标准化值nstandardized transformation(z-score):派生的新变

8、量是经过标准化处理的z分数派生哑变量o对于有k个类别的分多分类型变量,它的哑变量形式是:派生k个取值为1或0的二分类型变量,分别对应k个类别。取值为1表示属于相应类别,取值为0表示不属于相应类别o例如,职称是一个多分类型变量,设有A、B、C、D四个类别,则职称的哑变量形式为o对具有k个类编的分类型变量,通常哑变量只设置k-1个,即在k个类别中只认选k-1个到 create flag fields框中支撑支撑X1X1X2X2X3X3X4X4A1000B0100C0010D0001派生哑变量(续)o将SetToFlag链接到数据流中oSetting选项的设置nSet Fields:指定将哪个变量变换成哑变量的形式。指定

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论