SPSS Clementine节点_第1页
SPSS Clementine节点_第2页
SPSS Clementine节点_第3页
SPSS Clementine节点_第4页
SPSS Clementine节点_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SPSSClementine节点,刘喜平江西财经大学,数据挖掘技术讲座之,Page2,目录,源选项卡,01,记录选项卡,02,图形选项卡,04,输出选项卡,05,导出选项卡,06,字段选项卡,03,Page3,源选项卡,Clementine提供了简单有效的获取不同数据来源的方法,Page4,资料来源选项板包含以下节点:数据库用于通过ODBC导入资料。可变文件用于无限制字段的ASC资料。固定文件用于固定字段的ASC资料。SPSS文件用于导入SPSS文件。SAS文件用于导入SAS格式的文件。Excel用于导入Excel电子表格用户输入用于替代已存在的来源节点,也可通过在已存在节点上点击鼠标右键的方式使用该节点。企业视图Dimensions,Page5,可变文件,特点:通常一行数据为一个样本每行数据有相同的列,分别依次对应不同的变量列之间以逗号等分隔符分隔变量名一般存储在第一行,Page6,节点参数设置文件,指定所读入数据的基本格式,Page7,节点参数设置数据,指定所读入数据的基本类型等,覆盖:查看目前储存类型和是否需要重新储存。存储:可修改每一字段存储类型的列表。Clementine中其他的存储类型有:实数型、字符型、时间型、日期型。,Page8,节点参数设置过滤,指定读数据时不读哪些变量,并可重新修改变量名,Page9,节点参数设置类型,指定所读数据的变量类型对变量的缺省值和取值合理性等进行检查,实例化后的窗口,实例化前的窗口,Page10,节点参数设置类型,Clementine中变量的类型范围型:如年龄离散型:如家庭人口数标志型:如性别集合型:如职业有序集型:如学历和收入水平缺省型:未明确的变量类型无类型:不属于上述类型,Page11,节点参数设置注解,给节点命名和添加注释性的文字,Page12,读取Excel电子表格,Page13,读取Excel电子表格,Page14,读取SPSS格式文件,数据文件扩展名为.sav,Page15,读取数据库文件,Clementine支持ODBC方式访问数据库两个步骤:建立数据源通过该数据源访问数据库,Page16,读取数据库文件,选择相应的数据源和数据库中的表,Page17,固定格式文件,使用固定文件节点从固定字段的文本文件中读入数据(字段未被分隔,但是始于相同的位置,并有固定长度)。将数据导入Clementine,并指定列的位置和记录长度。,Page18,用户输入数据,Page19,变量的说明,变量说明是对读入数据流中变量取值的有效性进行限定、检查和修正,同时指明各个变量在未来建模中的角色,Page20,记录选项卡,记录操作节点用于在记录层次修改资料集。这些操作在数据挖掘的数据理解和数据准备阶段很重要。记录选项卡包括以下节点:选择(select)样本(sample)平衡(balance)汇总(aggregate)RFM汇总排序(sort)合并(merge)追加(append)区分(distinct),Page21,选择节点,用户可以使用选择节点根据具体条件从数据流中选择或排除某一记录子集,如符合ClassDrink条件的记录子集。选择节点也用于选择一定比例的记录,用户可以使用选择节点来创建自己的条件。例如,用户可以创建如下条件:Class=Drinkandrandom(10)=4这一条件将从Class为“Drink”的记录中,选择大约40,并向流程的下游传递这些记录以用于进一步分析,Page22,Page23,样本节点,用户可以使用样本节点来选取一定比例的记录。其作用是:提高数据挖掘工具的性能。大量削减一个大型的数据集,比如拥有上百万记录的数据集。使用抽样节点,使用者可以通过随机抽样来生成模型,该模型通常和从整个数据集中导出的模型一样精确。训练类神经网络。使用者应该为训练和测试各保留一个样本。,Page24,Page25,平衡节点,用户可以使用平衡节点来修正数据集中的不均匀性,以便能够符合特定的测试原则。如:某次健康调查的数据中1%为病患儿童,99%为健康儿童,Page26,汇总节点,可以使用汇总节点,把一系列输入记录变换成总括性的、聚合的输出记录,Page27,排序节点,可以使用排序节点根据一个或多个字段值对记录进行升序或降序排列。排序节点经常用于浏览和选择带有最常见资料值的记录,有助于探索分析资料并作出决策,比如选择前十名最好的顾客的记录。,Page28,合并节点,合并节点的功能是接受多重输入记录,并生成包含部分或全部输入字段的单一输出记录,这一操作在合并来自不同资料来源的资料时很有用。,Page29,Page30,追加节点,追加节点是在数据尾部不断追加样本的过程追加节点用于合并有相似结构而数据不同的数据集,假定它们具有同样的数据结构(同样的字段,同样的顺序),追加节点将会它们合并成一个大的数据集,Page31,Page32,区分节点,可以使用区分节点来清除重复性记录。如果想在数据集中每一项对应一个单一记录,如客户、帐号、产品等,则这项操作将很有用的。,Page33,字段选项卡,字段选项卡实现对字段的说明、重新计算、类别调整等目标字段选项卡包含以下节点:,类型过滤导出整体填充匿名化重新分类分箱分区,设置成标记(SettoFlag)重新结构化转置时间区间历史SPSS变换字段重排,Page34,类型节点,用于指定字段的一系列重要属性,Page35,类型节点,“缺失”选项开:表示允许相应变量取用户缺失值关:不允许相应变量取用户缺失值指定:定义变量取值范围、用户缺失值等信息,指定对变量值的修正方法,视下列值为空白,此处输入的离散值当空白处理,此处输入的范围值当空白处理,系统缺失值$null$和空格当空白处理,Page36,类型节点,“检查”项对超出取值范围的不合理取值或系统缺失值进行修正修正方式:无:不进行修正无效:用系统缺失值($null$)替代强制:根据下述规则被转化为一个该种类型的合法值:对于标志型,用“假”值替代对于集类型,用集值的第一个元素替代对于数值型,超过区间上限的数字用上限替代,低于区间下限的数字用下限替代,其余值用该区间的中位数代替丢弃:剔除相应样本数据警告:给出警告信息中止:中止流的执行,Page37,过滤节点,三个功能:(1)从记录中过滤或剔除字段(2)重命名字段(3)把字段从一个来源节点映像到另一个,Page38,导出节点,从原始字段中导出新字段,Page39,导出节点,选项模式:“单个”还是“多个”,取决于使用者是否想导出多重字段。导出为:选择导出节点的类型。公式:其新字段是任一个CLEM表达式的结果。标志:其新字段是一个标记,显示了指定的条件。集:其新字段是一个集,即它的元素是一组指定值。状态:其新字段是两种状态的一种。在两种状态之间的转换是根据指定的条件来决定的。计数:其新字段是基于条件正确的次数。条件:其新字段是两种表达式之一的值,取决于条件的值。字段类型:新导出字段的类型,Page40,填充节点,填充节点用来替换字段值以及改变存储。用户可以用一个指定的CLEM条件,比如BLANK(FIELD),来替换字段值。也可以用一个指定的值替换所有的空缺和无效值。填充节点通常与类型节点结合起来替换遗漏值。,Page41,Page42,设为标记节点,根据一个类型为集合的字段创建若干个标志类型的字段,Page43,重新分类节点,用于对类别值进行调整,Page44,分箱节点,用于将数据离散化分箱方法:固定宽度分位数(同等计数):每个箱的计数相同等级:数据样本的等级平均值/标准差:根据均值的若干个标准差范围分组最优:根据最短描述长度原则分组,Page45,Page46,分区节点,将样本集分割为训练、检验和验证集,Page47,分区节点,分区后,Page48,重新结构化,调整数据集的组织,Page49,图形选项卡,数据挖掘过程的某些阶段使用图形来对数据作探索性分析。图形的另一个常见用途是检查新导出字段的分布和关联。图形选项卡包括以下节点图(散点图)分布图(条形图)直方图(柱形图)集合多重散点图网络图时间散点图评估图,Page50,散点图,散点图节点显示出了数值型字段之间的关系,观察这一变量的取值情况,Page51,从图中可以看出什么信息?,Page52,多重散点图,多点图是一种特殊类型的散点图,它显示的是一个单独的X字段对应多个Y字段的情况,Page53,Page54,分布节点,展现在一个数据集中,两个分类变量值的发生情况,Page55,Page56,使用分布图,用户可以使用弹出菜单上的选项来选择数据的一个子集,导出一个标记字段,或对比平衡数据。,Page57,生成的选择节点,对应的选择条件,Page58,生成的导出节点,对应的设置,Page59,直方图节点,直方图节点显示的是数值型字段变量值,Page60,Page61,集合节点,集合图显示的是一个数值型字段变量值与另一个字段变量值相对比结果的分布,而不是显示一个单独字段变量值的发生率;此外,堆积图与直方图是很相似的。一个集合图对于阐明变量值随时间变化的变量或字段来说是十分有用的收集(Collect):选择一个字段,其变量值被聚集,并显示在下面给定字段的变量值范围中。超出(在上,Over):选择一个字段,其变量值将被用来显示上面指定的收集字段。操作(Operation):选择堆积图中的每个条柱都分别代表什么。,Page62,Page63,网络图节点,网络图节点显示的是两个或两个以上分类字段之间关系的强弱程度。这种图像通过使用各种不同类型的线条指示联系的强度来显示关系,Page64,Page65,评估图节点,评估图节点提供了一种能够很轻松地评估和比较模型、并从中选择最有利于应用的模型的方法。多个模型在图中被表示为多条相互独立的线。一共有五种评估图表,其中每一个都强调了一个不同的评估准则。增益:响应:提升:利润投资回报率将结合模型讲解,Page66,输出选项卡,输出选项卡提供各种方式获得关于数据和模型的信息。包含的节点:表矩阵分析数据审核变换统计量均值报告SPSS输出,Page67,表节点,以表格的形式显示数据内容,Page68,矩阵节点,矩阵节点允许用户建立一个显示字段之间关系的表。最常见的使用方式是被用来显示两个分类字段之间的关系,但是它也能够被用来显示标志字段之间或者数值型字段之间的关系。,Page69,分析节点,分析节点允许用户分析预测模型来评估它们产生精确预测值的能力。对一个或更多个产生的模型节点,分析节点可以进行各种各样的在预测值和实际值之间的比较。分析节点也可以被用来比较不同的预测模型。,Page70,数据审核节点,数据审核节点可以用于对数据的探索和数据质量的审核,Page71,Page72,Page73,数据质量控制操作:对离群值和极值的处理强制:用距离离群点或极值最近的正常值替代丢弃:剔除离群值或者极值无效:用系统缺失值$null$替代强制替换离群值/剔除极值强制替换离群值/用系统缺失值替代极值缺失插补:对缺失值的替补处理空值:对空白进行替补无效值:对系统缺失值$null$进行替补空值与无效值:条件:对满足指定条件的变量值进行替补指定:与条件类似,Page74,统计量节点,统计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论