数据管理教学资料.ppt_第1页
数据管理教学资料.ppt_第2页
数据管理教学资料.ppt_第3页
数据管理教学资料.ppt_第4页
数据管理教学资料.ppt_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,数据挖掘原理与SPSSClementine应用宝典元昌安主编邓松李文敬刘海涛编著电子工业出版社,第19章SpssClementine数据管理,本章主要内容,数据源节点记录选项节点字段选项节点,19.1数据源节点,包括:数据库变项文件固定文件SPSS文件DimensionsSAS文件Excel用户输入,图19-1数据源节点选项板,19.1.1从开放数据库中导入数据,从数据库中获取数据的步骤:(1)在数据库节点对话框中,使用“表”模型和“SQL查询”模型连接数据库。(2)从数据库中选择表。(3)使用数据库节点对话框中的各个页签,用户可以更改使用类型和过滤数据字段。,用户可以使用数据库节点对话框中“数据”页签来进入数据库和从选定的表中读取数据。,图19-2从所选表中加载数据,19.1.1.1数据库连接的添加,图19-3数据库连接对话框,在“数据”页签中,从数据源的下拉列表中选择“添加新的数据库连接”,打开如图19-3所示的数据库连接对话框。,图19-3参数说明:数据源:列出可用的数据源。点击“连接”按钮进行连接。点击“刷新”按钮会更新菜单。用户名:如果数据源被密码保护,键入用户的用户名。密码:如果数据源被密码保护,输入用户的密码。连接:显示目前连接的数据库。若要删除连接,可从菜单中选定一个连接,点击“删除”按钮。,19.1.1.2选择表或视图,图19-4从连接的数据库中选择表,用户可以在表名输入框处输入表名或者点击“选择”按钮打开对话框,列出可用的表/视图,如图19-4所示。,部分参数说明:显示:列出用户目前连接的数据源的列。(1)选择“用户表”浏览由数据库用户建立的普通数据库表。(2)选择“系统表”来浏览数据库的系统表(包含数据库信息、索引的描述等)。该选项在浏览用于Excel的数据库时是非常必要的。(3)选择“视图”来查看视图,通常这是对一个或者多个普通表进行某个查询后,其生成记录组成的一个虚拟表。(4)选择“同义名”查看在数据库中对任意现存的表建立的表名相似的同义名。,19.1.1.3SQL查询,图19-5查询编辑窗口,从“数据”页签中选择“SQL查询”单选按钮作为连接模式,这将在对话框中增加查询编辑窗口,如图19-5所示。,参数说明:载入查询:点击“载入查询”按钮后打开文件浏览器,用户可以载入先前保存的查询,如图19-6所示为使用SQL查询载入数据对话框。保存查询:点击“保存查询”按钮后打开保存查询对话框,用户可以用来保存目前查询,如图19-7所示使用SQL查询保存数据对话框。导入默认值:点击“导入默认值”按钮后选择一个SQLSELECT语句的例子,它是使用对话框中的表格和项目自动建立的。清除:“清除”按钮清除工作区域的内容。如果用户想重新编辑时,使用这个选项。,图19-6使用SQL查询载入数据对话框,图19-7使用SQL查询保存数据对话框,19.1.1.4查询表的实例,其步骤如下:在数据库节点对话框“数据”页签中,选择“表”模式,从数据源的下拉列表中选择“添加新的数据库连接”,如图19-8所示。打开数据库连接对话框。,例19-1:利用数据源节点连接test1数据库,并选择表名为dbo.sysoledbusers的表,同时使用导入默认值的方式导入数据库查询并将该查询保存,再清除该查询后通过载入查询的方式载入已保存查询。,图19-8添加新的数据库连接,在数据库连接对话框中选择test1数据源,输入用户名和密码(如果没有用户名就可不输),点击“连接”按钮,即可显示目前连接的数据库test1,如图19-3所示。点击“确定”按钮返回到主对话框中。点击“选择”按钮从test1选择表/视图对话框中选择表dbo.sysoledbusers。点击“确定”按钮返回到主对话框,如图19-2所示。选择“SQL查询”模式,并点击“导入默认值”按钮导入数据库查询。点击“保存查询”按钮保存该查询。点击“清除”按钮,清除该查询内容。点击“载入查询”按钮,载入已保存的查询。,19.1.2从无格式文本文件中读取数据,数据存储和数据类型:数据存储:描述字段中数据的存储方式。存储类型有:实数型、字符型、时间型、日期型和时间戳。数据类型:是用来描述给定字段内容的一种方式,也就是常称的类型。数据类型有:默认型、连续型、离散型、标志型、集合型和有序集合型等。,使用“存储类型”来获取每一个字段存储类型的列表或从列表中选择存储类型来重置现有的存储类型(这时必须要勾选“覆盖”列的复选框),如图19-9所示。,图19-9重置一个数据字段的存储类型,19.1.3从固定字段的文本文件中读取数据,图19-10固定文件节点文件页签,从固定字段的文本文件中读入数据可以使用固定文件节点。其“文件”页签如图19-11所示,可以很容易的指定数据库中数据列的位置和长度。,19.1.4导入SPSS文件,图19-11SPSS文件节点数据页签,输入一个保存过的缓冲区文件,就应该使用SPSS文件节点。如图19-11是其对话框,导入SPSS文件相应的步骤如下:(1)输入文件名或者用自定义()按钮选择文件。文件选定后,路径会显示在文本框中,如图19-12所示。(2)选择“变量名称”或“值”。变量名称:如果在.sav文件中想使用描述性变量标签而不是简短的字段名,可选择这一选项。这个选项缺省为取消选定,意味着.sav文件中的长名称将不能从SPSS文件读入Clementine中,也不能输出。值:在.sav文件中如果想使用变量值标签而不是用表示变量值的抽象符号和数字就选择这一选项。例如,用1和2来分别表示性别“男”和“女”的数据中,就可以使用这个选项,该字段将会转换为字符型,并导入“男”和“女”为真实值。,19.1.5元数据和个例数据的导入,Dimensions节点来导入元数据或个例数据集,如图19-12所示。,图19-12元数据导入对话框,19.1.5.1元数据设置,元数据源:元数据属性:,图19-13元数据属性对话框,19.1.5.2个例数据设置,个例数据源:个例数据类型:。个例数据项目:,19.1.6SAS格式数据的设置,SAS文件节点对话框数据页签如图19-13所示。,图19-14导入一个SAS文件,参数设置如下:导入:选择传送何种类型的SAS文件。用户可以以下列四种文件类型导入:(1)适用于Windows/OS2(.sd2)的SAS(.sd2)。(2)适用于UNIX的SAS(.ssd)。(3)SAS传输文件(.tpt)。(4)SAS版本7/8/9(.sas7bdat)。导入文件:指定文件名。可以键入文件名或者点击自定义()按钮来浏览文件的位置。成员:从上面选定的SAS传输文件中选定一个成员来导入。从SAS数据文件中读用户格式:读取用户格式,SAS文件以不同的方式储存数据和数据格式格式化文件:如果需要一个格式化文件,勾选复选框可被激活。变量名称:选择处理变量名称和标签的方式。,19.1.7导入Excel格式的数据,图19-15导入一个Excel文件,Excel节点可以从MicrosoftExcel文本中导入数据,Excel节点对话框如图19-15所示。,相关参数的说明如下:导入文件:指定输入电子表格文件的名称或点击自定义()按钮来浏览文件的位置。使用指定范围:指定一个已经命名的单元范畴设为Excel工作表。点击自定义按钮可从可用的范畴列表中选择。工作表:指定输入的工作表,是按“索引”还是按“名称”输入。数据范围:输入的数据的开始可以是第一行无空格或带有外在范围的单元。可以选择“第一个非空行”或者指定“显示范围”。第一行包含字段名:表示Excel文件的第一行是字段的名称。,19.1.8用户手动创建数据,图19-16用户输入节点对话框输入节点,19.1.8.1从无到有创立数据,其步骤是:(1)点击节点选项板的数据源项目。(2)拖放或者双击用户输入节点,将其添加到流程区域。(3)双击该节点,在打开的对话框中指定字段和变量值,如图19-16所示。,19.1.8.2从已存数据源中产生数据,用户可以从数据流中的任何非终端节点中产生用户输入节点,其步骤是:(1)确定在流程的哪一点输入一节点。(2)在节点上单击鼠标右键,此节点的数据将进入用户输入节点中,并且从内容菜单中选择“生成用户输入节点(P)”。(3)用户输入节点上负载了该数据流下游的所有过程,在流的某点处代替已存在的节点。当产生后,节点从原数据中继承了(如果可以被继承)所有的数据结构和字段类型信息。,19.2记录选项节点,记录选项节点选项板包括以下节点:选择抽样平衡汇总排序合并附加区分,图19-17记录选项节点选项板,19.2.1选择节点,图19-18选择节点对话框设置页签,选择节点来设置对数据集的初步筛选工作,也可以通过编写特定的CLEM表达式来实现筛选。选择节点对话框如图19-18所示,相关的参数设置:模式:指定满足条件的记录是包含在流程中还是被排除在流程外。(1)包含:选择以便在流程中包含符合选择条件的记录。(2)丢弃:选择以便将符合选择条件的记录排除出流程。条件:用于检验每一条记录的选择条件,选择条件通过CLEM表达式指定。用户可以在窗口中输入表达式,也可以点击窗口右边“表达式构建器”按钮来构造条件。,用户可以使用选择节点根据具体条件从数据流程中选择或排除某一记录子集,如符合以下条件的记录子集:Class=“Drink”选择节点也用于选择一定比例的记录,用户可以使用选择节点来创建自己的条件。例如,用户可以创建如下条件:Class=“Drink”andrandom(10)=4这一条件将从Class为“Drink”的记录中,选择大约40,并向流程的下游下传这些记录以用于进一步分析。,19.2.2对数据的抽样,图19-19抽样节点的设置,抽样节点来明确限制通过流的记录数或排除一定比例的记录,进入到抽样对话框,如图19-19所示。,19.2.2抽样节点,模式:模式选择是否通过(包含)或丢弃(排除)记录。样本:通过以下选项选择抽样方法:(1)从第一条记录开始连续抽取:选择使用连续数据抽样法。例如,如果最大样本量设为10,000,则前10,000个记录将通过流(如果模式为“包含”)或被丢弃(如果模式为“丢弃”)。(2)n中取1:选择数据抽样法为每n个通过或丢弃一个记录。例如,如果n设置为5,则每五个记录将有一个记录根据上述模式通过或丢弃。(3)随机:选择随机抽取数据集一定百分比的样本。例如,如果把百分比设置为20,那么数据集有20的记录将会根据上述模式设置通过流或丢弃。最大样本量:确定通过流程的最大样本量。如果想在选择“n中取1”选项或“随机”抽样选项中不使用该选项,可将最大样本量数目设置为超出数据集容量。设置随机数种子:设置随机种子值,用于生成随机数。,19.2.3修正数据集中的不均匀性,图19-20平衡节点的设置,平衡节点可以用来修正数据集中的不均匀性,以便能够符合特定的测试原则,如图19-20所示为平衡对话框。,相关参数的说明如下:记录平衡指令:列出目前的平衡指令。每一指令都包括一个因子和一个条件,使软件在条件为真时,根据指定的因子,提高记录的比率。添加指令:通过点击文本区域右边的“生成新字段”按钮,会插入一行空行以便输入新的条件。如果要为此条件生成CLEM表达式,可点击“表达式构建器”按钮。删除指令:使用红色的删除按钮。对指令排序:使用上下箭头按钮。,19.2.4统计汇总,图19-21一个汇总节点实例,汇总节点可以把一系列输入记录变换成总括性的、汇总的输出记录,汇总对话框如图19-21所示。,分组字段:列出可用于汇总的分组字段。数值型字段和字符型字段都可以用作分组字段。如果所选组合字段不止一个,则所有值将组合起来生成汇总记录的组合字段。各个不同的分组字段会产生一条集成记录。例如,如果Sex和Region是组合字段,则M与F和地区N与S的各个不同组合(一共四个不同的组合)将会有一条汇总记录。要添加一个组合字段,使用窗口右边的“字段选取器”按钮。数据已按分组字段排序:若分组字段值出现在相邻记录中,该选项按相同值处理。汇总字段:列出将按照所选汇总模式汇总的数值型字段。若要添加字段到列表中,可使用窗口右边的“字段选取器”按钮。默认模式:指定对新添加的字段所使用的默认汇总模式、如果频繁使用同样的汇总方式,此处可选择一个或以上的模式,使用右边的“所有默认操作”按钮将所选模式应用于以上列出的所有字段。在Clementine中可以使用以下汇总模式:(1)合计(2)平均值(3)最小值(4)最大值(5)标准差新的字段名扩展:选择添加“后缀”或“前缀”,以复制汇总字段。比如,如果选择了后缀选项,并规定“1为扩展名,则对字段Age的最小值汇总结果会产生成名为Age_Min_1的字段名。在字段中包括记录计数:选择在每个输出记录中包括一个名为“记录记数”的额外默认字段。这一字段表明有多少输入记录被用于形成每一汇总字段。,19.2.5对节点数据的排序,排序节点根据一个或多个字段值对记录进行升序或降序排列。一般做法是:首先使用汇总节点汇总数据,然后使用排序节点将汇总数据按照记录数目降序排序。将这些结果显示在一个表中,会有助于探索分析数据并作出决策。,19.2.6合并节点,图19-22合并节点的设置,合并节点的功能是接受多重输入记录,并生成包含部分或全部输入字段的单一输出记录,这一操作在合并来自不同数据数据源的数据时很有用。如图19-22所示,相关的参数设置如下:合并方法:(1)按照顺序合并:按照输入顺序连接来自所有数据库的对应记录,直至最小的数据源输入完毕。(2)按照关键字段合并:使用诸如用户ID号等作为关键字段,以指定来自某一数据库的数据在合并时如何与来自其它数据库的数据匹配。可能的键值:列出所有输入数据源中的所有字段。用于合并的键值:列出用于合并所有输入数据源的记录的关键字段。,合并重复关键字段:当选择了不止一个关键字段时,这一选项确保一个关键字段名只有一个输出字段。只包含匹配记录(内部连接):选择只合并完整的记录。包含匹配的和不匹配记录(完整的外部连接):表示如果某一关键字段存在于其中的一个数据源,而在其它的数据源中不存在,则不完整的记录仍然保留着包含匹配的和选定的未匹配记录(部分外部连接):要求指定一个用于保留在合并过程中不完整的记录。包含第一个数据集中的且不与任何其他记录相匹配的记录(反连接):仅保留第一个数据集和其他数据集的不匹配记录。,19.2.7追加节点数据,图19-23追加节点的设置,追加节点读取并下传来自同一数据源的所有记录直至该数据源不再有记录为止,然后使用与读取首个输入数据源记录相同的数据结构(记录和字段数目等)读取下一个数据源的记录。如图19-23所示,相关参数的说明如下:字段匹配依据:选择附加匹配字段的方法,又两种设置,分别为:(1)位置(2)名称输出字段:列出连接到追加节点的数据源节点。包含字段数据源:选择“仅主数据集”以生成基于主数据集字段的输出字段。选择“所有数据集”以生成所有数据集中所有字段的输出字段而不考虑是否有匹配所有输入数据集的字段。生成新字段,显示记录的数据源数据集:选择在输出文件中添加一个附加字段,该字段表明每个记录的数据源数据集。,19.2.8区分节点来清除重复记录,图19-24区分节点的设置,区分节点可以用来清除重复性记录,其对话框如图19-24所示,19.2.9对数据的统计输出实例,【例19-2】利用Clementine系统提供的数据集snapshottestn.db,分析不同性别不同区域未生育人员的平均年龄和平均收入,并按平均收入降序排列输出到表格中。其分析和步骤如下:(1)在数据流程区域中加入一个变项文件节点以便读取数据集snapshottestn.db,一个选择节点用于筛选出未生育的人员,一个汇总节点对不同性别不同区域人员的平均年龄和平均收入汇总,一个排序节点对汇总出的平均收入进行降序排列,一个表节点以显示分析结果。并将这些节点依次连接,如图19-25所示。,图19-25一个记录选项节点实例,图19-26在“打开”对话框中选择snapshottestn.db文件,(2)双击变项文件节点,打开其对话框,并点击自定义()按钮,在弹出的“打开”对话框中选择snapshottestn.db,如图19-26所示。,(3)点击“打开”按钮,读取数据集snapshottestn.db,如图19-27所示。,图19-27读取数据集snapshottestn.db,(4)双击选择节点,打开其对话框,并在“条件”框中输入“children=0”,如图19-28所示。,图19-28键入未生育人员的条件,(5)双击汇总节点,打开其对话框,选择Sex和Region字段作为分组字段,Age和Income作为汇总字段,并选择这两个字段的“平均值”复选框求平均年龄和平均收入,如图19-29所示。,图19-29求不同性别不同区域未生育人员的平均年龄和平均收入,(6)双击排序节点,打开其对话框,选择income_mean作为排序字段,其顺序为降序,如图19-30所示。(7)双击表节点,打开其对话框,并点击“执行”按钮,得到如图19-31所示的结果。,图19-30按平均收入降序排列,图19-31显示分析结果,19.3对字段数据的进一步处理,字段选项节点选项板包含以下节点:过滤导出填充重新分类分级分区,设为标志从新结构化转置时间区间历史字段重排,图19-32字段选项节点选项板,19.3.1类型节点,图19-33类型节点的设置,类型节点指定字段的一系列重要属性。我们可以实现对类型节点进行特征描述、实例化、对缺失数据的处理等等。,19.3.1.1类型节点数据类型,在Clementine中数据使用下列类型:连续型:用于描述数值。离散型:用于当一个具体值的精确数量未知时描述字符串。标志型:用于只取两个具体值的数据,如T或F,Y或N,0或1。集合型:用于描述带有多个具体值的数据,每个值作为集合中的一个元素,如高、中、低。有序集合型:用于描述带有多个具体值且有内部顺序的数据。如工作类别无类型:用于不符合上述任一种类型的数据或者含有太多元素的集合类型数据。这对于类型是含有众多元素的情况很有用。,数据类型以下列两种方式中的任意一种存在或得到:(1)从类型节点或者数据源节点手动设置类型。(2)自动定类,或者让软件读取数据并基于其所读取的值来确定类型。下列方法用于使软件决定数据字段的使用类型:(1)在流程中插入类型节点,并将“值”栏设置为或者。(2)使用数据源节点的类型标记,对于所有字段,都把“值”栏设置为。(3)在一个流程中把一个终端节点附加到类型节点上。,手工设定字段类型的步骤:(1)选择表格中的一个字段。(2)从类型栏的下拉菜单中为字段选择一个类型。(3)在使用下拉菜单选择一种类型之前,用户也可以采用Ctrl+A或者Ctrl+Click方法选择多个字段。,图19-34手工设置字段类型,19.3.1.2实例化,定义:实例化是读取或详细说明信息的过程。数据的执行有3种方式:(1)为实例化(2)部分实例化(3)完全实例化在以下情况时,类型节点上的实例化是有用的:(1)数据集较大,而且流在类型节点前就过滤了子集。(2)数据在流程中被过滤。(3)数据在流程中被合并或附加。(4)在处理过程中导出新的数据字段。,19.3.1.3设置字段方向,指定一个字段的方向可以为建模节点提供有用信息,它们可以告诉建模引擎,字段可用于哪个方向。设置类型节点的定位选择如图19-35所示。,图19-35设置字段方向,19.3.1.4复制类属性,步骤如下:(1)在要复制属性的字段上单击鼠标右键,选择“复制”。(2)在要改变属性的字段上单击鼠标右键,选择“选择性粘贴”。(3)选择欲贴上的属性栏。当用户想要粘贴上时,一个新对话框(类型节点粘贴选项对话框,如图19-36所示)就会打开,从中可以选择具体属性进行粘贴。,类型节点粘贴选项对话,19.3.2对节点数据的过滤,用户可以用过滤节点对话框中的选项重命名或过滤掉重复的或下游操作不必要的字段。过滤节点对话框如图19-37所示。,图19-37过滤节点对话框,相关参数的说明如下:字段:显示目前连接的数据源字段。过滤:显示所有输入字段的过滤状态。已过滤字段包括此栏中的一个红色,指出该字段在下游不会通过。字段:当字段离开过滤节点时显示这些字段。重复的名字会以红色显示。用户可以通过单击该栏并输入一个新的名称来编辑字段名,或者通过点击“过滤”栏取消重复字段来剔除它们。查看当前字段:选择观察与过滤节点连接的数据集的字段。查看未使用的字段设置:选择曾经观察但现已不再连接到过滤节点的数据集的字段。,19.3.3导出节点数据,图19-38导出节点的参数设置,19.3.3.1多重字段的导出,图19-39导出多重字段对话框设置页签,当用户选择“多重”模式时,下列选项会添加到对话框设置页签中:导出自:用字段选取器选择字段来导出新字段。对于每一个选中字段都会产生一个输出字段。字段名扩展:键入用户想要增加到新字段的扩展名。例如,对于一个含有变量K,Na对数化的新字段,用户可以增加扩展名_derive2到原字段名,即K_derive2。,19.3.3.2公式节点数据,图19-40导出公式节点对话框,19.3.3.3标志节点的导出,图19-41导出标志节点对话框,19.3.3.4导出集合节点,图19-42导出集合节点对话框,19.3.3.5导出状态节点,图19-43导出状态节点对话框,19.3.3.6导出条件节点,图19-44导出条件节点对话框,其参数说明如下:If:指定一个CLEM条件表达式,在执行时为每个字段进行评估。如果条件为真(或者在数值的条件下非假),则新字段赋的值在下面的Then表达式中。Then:在前面定义的If语句为真(或者非假)时,给新字段赋一个值或者CLEM表达式。Else:在前面定义的If语句为假时,给新字段赋一个值或CLEM表达式。,19.3.4对节点数据的填充,图19-45填充节点对话框设置页签,选择“字段选项”“填充”菜单,可以进入填充设置界面,如图19-45所示。,用户可以选择使用以下方法替换选中字段的值:根据以下条件:此选项激活“条件”字段和“表达式构建器”图标按钮,创建一个表达式,以此作为用指定值作替换的条件。始终:替换所有被选中的字段的值。比如,用此选项通过CLEM表达式(to_string(income))把income的存储值转换成字符串。定义缺失值:替换被选中的字段中所有用户指定的空值。标准条件BLANK(FIELD)用来选择空缺。数值型空值:替换被选中字段中的所有系统无效值。标准条件NULL(FIELD)用来选择无效值。空白值和数值型空值:替换被选中的字段中的空值和无效值。,19.3.5为节点数据设置标志,图19-46设为标志节点的设置,设为标志节的设置包括以下几个方面:集合字段:列出数据中已经设置了的类型的所有字段。字段名扩展:选择来启动设置扩展名的控件,这些扩展名将作为新的标志字段的前缀或后缀。可用的集合:此项用于显示上面操作中从数据集选中的域值。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论