




已阅读5页,还剩15页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Clementine 变量管理流3(3.1,3.2,3.3).str,流3(3.4).str,流3(3.5,3.6).str第3章 Clementine变量的管理 数据挖掘的数据通常以变量为列、样本为行的二维表形式组织,所以,Clementine数据的基本管理包括变量管理和样本管理两大方面。变量管理和样本管理是数据准备的重要方面,是建立数据模型的前提和基础。本章将集中讨论变量管理。 变量管理以变量为基本单位,实现变量说明、变量值的重新计算、变量类别值的调整、生成新变量、变量值的离散化处理、生成样本集分割变量等目标。变量管理的节点工具放置在节点工具箱的字段选项(Field Ops)卡中,具体节点如图3-1所示。图3-1 字段选项( Field Ops)卡中的节点工具3.1 变量说明 变量说明是对读入数据流中变量取值的有效性进行限定、检查和修正,同时指明各个变量在未来建模中的角色。一方面,变量说明是确保高质量数据的有效手段,另一方面也是明确变量建模地位的重要途径。变量说明应通过字段选项( Field Ops)卡中的类型(Type)节点实现。 这里,以学生参加某次社会公益活动的数据(文件名为Students.xls)为例,讲解变量说明的具体操作方法。 首先,按照读入Excel电子表格数据的操作方法建立Excel节点读入Students.xls数据。浏览数据发现:家庭人均年收入变量中有部分样本取$null$,为系统缺失值;还有一个由于不明原因而明显错误的数据999999。应对它们进行恰当修正。 是否无偿献血变量值填写不规范,规范值应为Yes和No,但出现了l(表示Yes)和0(表示No)。应将l替换为Yes,0替换为No。 为处理上述问题,选择字段选项( Field Ops)卡中的类型(Type)节点并将其连接到数据流的相应位置上,右击鼠标,选择弹出菜单中的编辑(Edit)选项,所显示的参数设置窗口如图3-2所示。图3-2 类型节点的参数设置窗口这里,从缺失值(Missing)、变量取值有效性检查和修正(Check)、变量方向(Direction)三个方面进行说明。3.1.1 取值范围和缺失值的说明 取值范围即指变量正常值的区间。缺失值通常包括两类:一类是系统缺失值,Clementine用$null$表示,还包括空格或空白等。另一类是用户缺失值,主要指那些取值明显不合理的数据。 这里,首先,添加变量值标签以规范是否无偿献血的取值,指定用户缺失值;其次,说明家庭人均年收入的合理取值范围。为此,应分别选择是否无偿献血和家庭人均年收入变量,鼠标选择图3-2中的缺失(Missing)列。其中有三个选项。 开(*)On(*):表示允许相应变量取用户缺失值,不进行修正,但用户缺失值并 不等同于正常值。 关(Off): 表示不允许相应变量取用户缺失值。指定(Specify):定义变量值取值范围、用户缺失值等信息。这里,选择该项,窗口 如图3-3和图3-4所示。 图3-3 集(Set)类型的指定(Specify)窗口 图3-4 范围(Range)类型的指定(Specify) 窗口 不同类型变量的指定(Specify)窗口略有差别,但含义大体一致。 类型(Type)选项:显示当前变量的类型和存储类型。 值(Values)选项:指定决定变量取值范围的方法。其中,读取数据(Read from data)表示取决于所读的外部数据;传递(Pass)表示忽略所读的外部数据;指定值和标签(Specify values and labels)表示人为指定变量取值和变量值标签。用户可根据当前变量的实际意义,手工指定其合理的取值,并在标签(Label)框中输入关于变量值含义的简短说明文字。 这里,为指示是否无偿献血的合理取值,分别在Yes和No行对应的标签(Labels)列中输入变量值标签“无偿献血”、“未无偿献血”;家庭人均年收入的取值范围不能直接由外部数据决定,否则Clementine将视999999(用户缺失值)为正常值。可手工输入合理的取值区间为7333.0至74460.0。 检查值(Check values)选项:指定对变量值的修正方法,该功能同图3-2中的 检查(Check)列。 定义空白(Define blanks)选项:选中该选项,表示视下列值为空白。其中,缺 失值( Missing values )框:在此处输入的离散值都当空白处理;范围到 ( Range to)框:在此处输入的连续区间中的值都当作空白处理;无效值(Null) 和空白(White space):系统缺失值$null$或空格都当作空白处理。 (type节点) 需要注意的是:Clementine不对空白进行替补处理,因此定义空白(Define blanks)的目的仅是将那些无需修正和替代的用户缺失值与正常 值区分开,以便于后续建模。所以,当选择了定义空白(Define blanks)并返回图3-2窗口后,相应变量的缺失(Missing)列上将自动显示*,表示允许相应变量取用户缺失值。 这里,无偿献血中的l和0虽然是不合理取值,但自动修正是无意义的,因此在定义空白(Define blanks)中说明;家庭人均年收入中的999999和$null$值需要修正和替补,所以不应在定义空白(Define blanks)中说明,仅视999999为超出取值范围的不合理取值。返回图3-2窗口后,无偿献血的缺失(Missing)列上显示*,家庭人均年收入的缺失(Missing)列上没有显示。3.1.2 变量取值有效性检查和修正 当指定了变量值取值范围后,通常还需利用图3-2中的检查(Check)列,对超出取值范围的不合理数据或系统缺失值进行修正。例如,需对家庭人均年收入中的999999和$null$值进行修正和替补,如图3-5所示。 图3-5 类型(Type)节点中的检查(Check)处理 通常的修正处理方式如下。 无(None):不进行修正。 无效(Nullify):用系统缺失值$null$替代。 强制(Coerce):用一指定值替代。Clementine默认,二分(Flag)型变量用False 对应的值替代;多分类型(Set)变量用第一个变量值替代;数值型变量,大于上限的用 上限值替代,小于下限的用下限值替代,其余值用(最大值+最小值)/2替代。 这里,对家庭人均年收入中的系统缺失值$null$和999999进行了替换和修正处理。 对于是否无偿献血中的不合理取值(1或0),根据替换规则将全部替换为No,显然不符合实际要求,利用类型(Type)节点无法处理。其具体处理见3.3节。 丢弃(Discard):剔除相应样本数据。 警告(Warm):给出警告信息。 中止(Abort):终止流执行。3.1.3 变量角色的说明 所谓变量角色是指变量在模型建立时的角色。角色不同,变量的作用也不同。 通常建模中,有的变量是用于解释其他变量的,被称为解释变量或自变量。Clementine形象地称之为输入变量。有的变量则需被其他变量所解释,被称为被解释变量或因变量,Clementine称之为输出变量。例如,在分析客户收入对其消费的影响时,收入就是输入变量,消费就是输出变量。变量角色的说明也称变量方向的说明,可通过图3-2中的方向(Direction)列指定,如图3-6所示。 图3-6 类型(Type)节点中的方向(Direction)说明 Clementine将变量角色进行了拓展。 输入(In):变量将作为输入变量。 输出(Out):变量将作为输出变量。 两者(Both):某些模型中,有的变量既可作为输入角色,也可作为输出角色。例如, 在根据客户的收入和消费数据,将客户划分成不同客户群的分析中,收入和消费既 是输入变量也是输出变量,担当着两者(Both)角色。 分区(Partition):是数据挖掘中的特有角色,用于模型建立过程中样本子集的分割。 作为样本集分割角色的变量应是一个多分类型变量,且只能有两个或三个变量值。其 中,第一个变量值作为训练样本集标记,第二个作为检验样本集标记;第三个作为诊 断样本集标记。关于样本集分割将在3.6节中讲解。 无(None):如果某变量不参与数据建模,则可指定它为无(None)角色。Typeless 类型变量自动默认为无(None)角色。 这里,为分析学生是否参加某次社会公益活动受哪些因素的影响,指定学生的编号为无(None)角色,是否参与为输出变量,其他变量为输入变量。 3.2 变量值的重新计算 通过变量说明和浏览,会发现变量取值中可能存在的问题。例如,学生参加某次社会公益活动的数据中,在校综合评价指数本身很难直观反映学生的水平,因为不知道该变量取值的理论上限;再如,数据中很有可能出现空白数据,但Clementine的类型(Type)节点不对空白进行修正,这在一定程度上会影响分析,等等。因此,对变量值的重新计算是必要的,应通过字段选项(Field Ops)卡中的填充(Filler)节点实现。 变最值重新计算的核心是描述计算方法。通常需利用Clementine的CLEM表达式表述计算规则。3.2.1 CLEM表达式 CLEM(Clementine Language for Expression Manipulation)是Clementine专门用于表述运算操作的语言。CLEM所描述的算术表达式是由常量、变量、运算符、函数等组成的式子。 常量:运算过程中值不发生变化的量。不同类型常量的具体表现形式不同,如整 型(Integer)或实型(Real)常量表现为具体的数字,如150、265.87等;字符 串型( String)常量表现为具体的字符,如“Beijing”等,应用双引号括起来。 变量:运算过程中其值可以发生变化的量,用于反映事物的某个特征。 运算符:包括算术运算符和逻辑运算符。 算术运算符有:+(加)、一(减)、*(乘)、/(除)、*(乘方)、div(整除)和rem(取余数)。另外,还有专用于字符串的操作符号(大于)、=(大于等于)、(小于)、=60,是一个逻辑运算式 子,表示对任一变量,判断其取值是否大于等于60分。 在真值(True value)和假值(False value)框中分别输入合格和不合格,表示上 述逻辑运算值为真,则结果为合格;否则为不合格。 可通过输出(Output)选项卡中的表(Table)节点浏览各门课程的评定结果。 任务三:对每个学生的每门成绩按A、B、C、D、E进行多级评定计算 参数设置窗口如图3-13所示。 因需对每门成绩进行评定,所以将计算生成多个变量,因此模式(Mode)中选择多个 (Mutiple)选项。 在导出自(Derived from)框中手工输入参与计算的原始变量名,或按右边下拉钮通 过鼠标选择原始变量名。 指定新生成变量的变量名,这里统一在原变量名上加前缀Grade_,也可加后缀。 由于评定有多种结果,因此在导出为(Derive as)框中选择集(Set)选项,在字段 类型(Field type)框中指定新变量的类型为集(Set)型。 依次给出多级评定的依据。 可通过输出(Output)卡中的表(Table)节点浏览各门课程的评定结果。 任务四:为了强调学生的德育教育,根据思想品德课程的得分对每个学生的总成绩进行调整 调整的依据是,如果思想品德评定等级为A,则总成绩上浮l%。该问题是一个条件计算问题,参数设置窗口如图3-14所示。 图3-13 成绩的多级评定 图3-14 条件计算 因只需计算调整后的总成绩一个变量,所以模式(Mode)中选择单个(Single)选项。 新生成的变量名为调整后的总成绩,输入导出字段(Derived field)框中。 因为调整后的总成绩有不同的计算方法,所以在导出为(Derive as)框中选择条件 (Conditional)选项,表示按条件计算。 调整后的总成绩的类型默认为默认(Default),实例化后会自动转为其他具体的类型。 在如果(If)框中输入条件,它是分数调整的依据;在则(Then)框中输入满足如果 (If)条件的计算方法;在其他(Else)框中输入不满足如果(If)条件的计算方法。 可通过输出(Output)卡中的表(Table)节点浏览总成绩。 通过上面的例子可以看出,导出(Derive)节点不仅可以根据算术表达式计算生成新变量,对不同样本进行条件计算,还可以实现变量值的重新分组。本例所建立的数据流如图3-15所示。此外,导出(Derive)节点还可以生成状态变量和计数变量。计数变量可用在时间序列数据的管理中。说明:按照下图顺序也可。 3.5 变量值的离散化处理 为提高数据挖掘中海量数据的处理效率,通常要对连续数值型变量进行离散化处理,减少变量取值个数以实现样本量的缩减;有的数据挖掘方法不支持对数值型变量的分析,也需要进行离散化处理。离散化处理统计主要采用变量值分组方法,数据挖掘中称其为分箱,应通过字段选项(Field Ops)卡中的分箱(Binning)节点实现分箱。3.5.2 变量值的离散化处理示例 这里,仍以学生参加某次社会公益活动的数据(文件名为Students.xls)为例,对家庭年收入变量做离散化处理。 首先,选择字段选项(Field Ops)卡中的分箱(Binning)节点并将其连接到数据流的相应位置上,鼠标右击分箱(Binning)节点,选择弹出菜单中的编辑(Edit)选项,参数设置窗口如图3-16所示。 具体参数设置如下。 分箱字段(Bin fields):输入或选择一个或多个需分箱处理的变量。这里,选 择家庭人均年收入。 名称扩展(Name extension):指定存放分箱处理结果的变量名,默认在原变量 前或后添加指定的前缀或后缀。 分箱方法(Binning method):提供了多种分箱方法。 固定宽度(Fix-width):表示固定组距,应在分箱宽度(Bin width)框中指 定组距;或者,在分箱数量(No. of bins)框中指定组数。分位数(同等计数)Tiles(equal count):分位数分组,相应的参数窗口如图3-17所示图3-16 分箱(Binning)节点参数设置窗口图3-17 分位数(同等计数)Tiles (equal count)分组参数设置窗口 可按照Clementine提供的系统分位数做4分位、5分位、10分位、20分位、100分位分组 。也可在自定义N( Custom N )框中随意指定用户分位数;分别在分位数名称扩展( Tile name extension)和自定义分位数扩展(Custom tile extension)框中输入变量名的前缀或后缀,前者存放按系统分位数分组的结果,后者存放按用户分位数分组的结果;分位方法(Tile methods)选项:记录计数(record count)表示采用最常见的分位数分组方法,值总数(Sum of values)表示采用前文的拓展分位数分组方法。 等级(Ranks):单变量值分组,相应的参数窗口如图3-18所示。 选择单变量值分组的输出结果和相应变量名的后缀。等级(Rank)表示输出各个样本的秩;分数排序(Fractional rank)表示输出各样本秩有效样本数的结果;百分比分数排序(Percentage fractional rank)表示输出各样本秩有效样本数100的结果。 平均值/标准差(Mean/standard deviation):均值一标准差分组,相应的参数窗 口如图3-19所示。指定存放分组结果的变量名的前缀或后缀。选择1个或2个或3个标准差分组。图3-18 等级(Ranks)分组参数设置窗口图3-19 平均值/标准差(Mean/standard deviation)分组参数设置窗口 最优(Optimal):基于MDLP分组,相应的参数窗口如图3-20所示。名称扩展(Name extension):指定存放分组结果的变量名的前缀或后缀;主管字段(Supervisor field):选择输出变量;对字段进行预分箱以使用大数据集改进性能(Merge bins that have relatively small case counts with a larger neighbor):选中表示当一个样本量较小的组与一个较大组相邻时,将小组合并到大组中;剪切点设置(Cut point settings)按钮用来指定分组中的细节问题,包括组限重叠和开口组的处理方法,如图3-21所示。图3-20 最优(Optimal)分组参数设置窗口图3-21 剪切点设置(Cut point settings)设置窗口 这里,采用4分位数分组方法,各分组组限可单击图3-16中的分箱值(Bin value)按钮查看,显示如图3-22所示。可通过输出(Output)卡中的表(Table)节点浏览具体的分组结果。 图3-22 家庭人均年收入4分位分组情况(说明:数据有出入,不影响学习) 3.6 生成样本集分割变量 样本集分割是将所得到的样本数据按一定比例随机分割为两个或三个子样本集。样本集分割变量的作用是标识哪些样本属于哪个样本子集。生成样本集分割变量应通过字段选项(Field Ops)卡中的分区(Partition)节点实现。3.6.2 生成样本集分割变量的示例 这里,仍以学生参加某次社会公益活动的数据(文件名为Students.xls)为例,讲解生成样本集分割变量的具体操作。 首先,按照读入Excel电子表格数据的操作方法建立Excel节点读入Students.xls 数据;然后,选择字段选项(Field Ops)卡中的分区(Partition)节点并连接到数据流中,右击鼠标,选择弹出菜单中的编辑(Edit)选项,参数设置窗口如图3-23所示。 图3-23 分区(Partition) 节点的参数设置窗口 具体参数设置如下。 分区字段(Partition field):输入所生成变量的变量名,默认为分区(Partition)。 分区(Partitions)选项:训练和测试(Train and test)表示将样本随机分割成训 练样本集和检验样本集;训练、测试和验证(Train, test and validation)表示将 样本随机分割成训练样本集、检验样本集和验证样本集。这里,选择训练和测试(Train and test)选项。 训
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 南宁代建合同范本
- 简短个人租房合同范本
- 门窗采购合同范本
- 路面硬化劳务合同范本
- 成人交友活动合同
- 合肥装潢公司合同范本
- 保险销售的合同范本
- 电缆敷设合同范本
- 工程小活合同范本
- 农具机械购销合同范本
- 2024年中考数学真题分类汇编(全国版)专题12一次函数及其应用(39题)含答案及解析
- 2024城市轨道交通节能改造EMC合作合同
- 全国职业院校技能大赛中职(大数据应用与服务赛项)考试题及答案
- 实验室检验结果及报告管理制度
- 新能源汽车动力系统优化
- 2022年版 义务教育《数学》课程标准
- 《电力行业职业技能标准 农网配电营业工》
- JTG∕T F30-2014 公路水泥混凝土路面施工技术细则
- 第四章 休克病人的护理课件
- 委托合同解除协议书
- 植物生理学课件(王小菁-第8版)-第五章-植物同化物的运输
评论
0/150
提交评论