DM-Chap3-数据读入和数据集成_第1页
DM-Chap3-数据读入和数据集成_第2页
DM-Chap3-数据读入和数据集成_第3页
DM-Chap3-数据读入和数据集成_第4页
DM-Chap3-数据读入和数据集成_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

DM_Chap3_数据读入和数据集成第一页,共33页。第三章读入和数据集成3.1为什么要预处理数据3.2变量类型3.3数据读入3.4数据集成第二页,共33页。3.1为什么要预处理数据现实世界的数据是不完整的,含噪声的、不一致的,并且这是大型的、现实世界数据库或数据仓库的共同特点。数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。由于高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。检查异常数据、尽早地调整数据,并规约待分析的数据,将在决策过程得到高回报。第三页,共33页。数据预处理的形式第四页,共33页。第三章读入和数据集成3.1为什么要预处理数据3.2变量类型3.3数据读入3.4数据集成第五页,共33页。3.2变量类型明确变量类型是数据挖掘的第一步,是实现数据正确加工和挖掘分析的基础第六页,共33页。从计算机存储角度看数据类型整数型实数型字符串型日期型时间型:用来存储持续时间数据时间戳型:用来存储时间点数据时间型和时间戳型的数据表现形式形同,如01:25:30,但含义却不同。时间型表示所持续的时间,而时间戳型则表示某个时刻。第七页,共33页。从数据挖掘的角度看数据类型连续数值型二分类型多分类型定序型无类型:学号等编号变量或长文字等复杂数据变量,往往是无类型变量,无类型变量通常不参与数据建模。离散型:是一个变量的半实例化状态,一旦实例化后,会最终转化为二分类型或多分类型缺省型:是一种尚未明确的变量类型,对于仅指定了变量名而尚未读入变量值的变量,Clementine无法确定其具体数据类型,默认为缺省型,这样的状态为非实例化状态。一旦读入变量值,会根据输入数据的所有详细信息,自动将缺省型转化为除离散型之外的其他类型,此时称变量已被实例化,处于实例化状态。第八页,共33页。变量的非实例化、半实例化、实例化状态非实例化:存储类型和取值都未知半实例化:仅知道变量的存储类型,但取值范围未知实例化:变量的存储类型和取值均已确定第九页,共33页。需要说明的问题在数据挖掘的实际问题中,更多考虑的是计量类型,因为不同计量类型变量所适合的分析方法是不同的。在涉及复杂计算需要编写程序时,为保证程序语法的合理性,应关注变量的存储类型第十页,共33页。第三章读入和数据集成3.1为什么要预处理数据3.2变量类型3.3数据读入3.4数据集成第十一页,共33页。3.3数据读入读自由格式的文本文件读Excel电子表格文件读SPSS格式文件读数据库文件用户输入节点第十二页,共33页。读自由格式的文本文件选择Source选项卡中的Var.File节点第十三页,共33页。File选项卡文件:指定文件名,可以输入文件名或单击省略按钮(…)来选择文件。读取文件中的字段名。此选项将数据文件的第一行看作是列的标签。如果第一行不是标题,则取消选中此选项。指定字段数。指定每个记录中的字段数。只要记录以新行结束,就可以自动检测字段数。跳过前面的N个字符。指定要忽略第一个记录的开头处的多少个字符。EOL注解字符。指定字符(例如#或!)以表示数据中的注解。无论这些字符之一出现在数据文件的何处,从该字符起直到下一个新行字符(不包括)之前的所有字符都将被忽略。去除开头和结尾的空格。选中选项以丢弃导入字符串中开头和结尾的空格。无效字符。无效字符为空字符或指定的编码方法中不存在的任何字符。丢弃为不读入无效字符,替换为用指定的符号(仅含一个字符)替换无效字符。编码。指定使用的文本编码方法。可以选择系统默认值、流默认值或UTF-8。系统默认值在Windows控制面板中指定,如果以分布模式运行,则在服务器计算机上指定;

流默认值在“流属性”对话框中指定。第十四页,共33页。File选项卡(续.)小数符号。选择在数据源中使用的小数分隔符类型。流默认值是从流属性对话框的“选项”选项卡中选择的字符。否则,在此对话框中选择句号(.)或逗号(,)作为小数分隔符读取所有的数据。定界符。指定使用哪些字符(例如逗号(,))定义文件中的字段边界。选择允许使用多个空白定界符可将多个相邻的空白定界符字符看作一个定界符。如果也将逗号定义为小数分隔符,则此处的默认设置将不起作用。类型的扫描行数。指定对于指定的数据类型要扫描的行数。自动识别日期和时间。要启用自动将数据条目尝试识别为日期或时间,选择此选项。例如,07-11-1965这样的输入会被识别为日期,02:35:58会被识别为时间;但模糊的输入如07111965或023558会显示为整数,因为在数字之间没有分隔符。为避免当使用来自先前SPSSModeler版本的数据文件时出现潜在的数据问题,默认情况下对13之前版本保存的信息不选中此复选框。引号。通过使用下拉列表,可以指定导入时如何处理单引号和双引号。可以选择丢弃所有引号,选择包含为文本将这些引号包括在字段值内,或选择成对丢弃匹配成对引号然后删除它们。如果引号不匹配,则将收到错误消息。选择丢弃和成对丢弃都会将字段值(不带引号)按一个字符串存储。在此对话框中操作的任何时刻,都可单击刷新以从数据源重新载入字段。在更改到源节点的数据连接时,或在对话框的选项卡之间进行操作时,此操作都非常有用。第十五页,共33页。Data选项卡Data选项卡用于指定所读变量的存储类型和输入格式字段:使用

Field

列以查看和选择当前数据集中的字段覆盖:选中

Override

列中的复选框以激活

Storage

列和

InputFormat

列中的选项数据存储:描述数据在某个字段中的存储方式字段输入格式(仅固定文件、变量文件和用户输入节点):对于除字符串和整数以外的所有存储类型,都可以使用下拉列表为选定的字段指定格式选项。例如,从不同的环境中合并数据时,可能需要为一个字段指定句号(.)作为小数分隔符,而为另一个字段指定逗号分隔符。其他选项:使用“数据”选项卡可指定其他几个选项:要查看不再通过当前节点连接的数据的存储设置,可选择查看未使用的字段设置。可通过单击清除清除遗产字段。在此对话框中操作的任何时刻,都可单击刷新以从数据源重新载入字段。在更改到源节点的数据连接时,或在对话框的选项卡之间进行操作时,此操作都非常有用。第十六页,共33页。Filter选项卡可以在流中的任意时间点上重命名或排除字段。不希望读入某个变量,只需要单击相应行的Filter项可以在Field列的相应行上修改变量名第十七页,共33页。类型选项卡通过各种源节点和类型节点,可以指定对于建模其他工作极为重要的字段元数据和属性。这些属性包括:为数据集中的每个字段指定用法类型,如范围、集合、有序集合或标志。设置处理缺失值和系统Null值的选项。设置用于建模的字段的角色。第十八页,共33页。注解选项卡名称:选择自定义可调整自动生成的名称,或为流工作区中显示的节点创建唯一名称。工具提示文字:(仅适用于节点和模型块)输入用作流工作区上工具提示的文本。使用大量相似节点时,此功能特别有用。关键字:指定要在工程报告中以及在搜索流中节点时或跟踪存储在存储库中的对象时使用的关键字。可使用分号分隔多个关键字-例如

income;croptype;claimvalue。主文本窗口可用于输入有关节点操作或节点中所做决策的详细注解。ID:显示唯一的ID,该ID可用于引用节点以编写脚本或实现自动化。此值将在创建节点时自动生成,且不会更改。第十九页,共33页。读Excel电子表格文件文件类型:选择要导入的Excel文件类型。导入文件:指定要导入的电子表格文件的名称和位置。使用指定范围:选中此选项可以指定在Excel工作表中定义的单元格的指定范围。单击省略按钮(...)从可用范围列表中进行选择。如果使用指定范围,则其他工作表和数据范围设置将不再可用并最终被禁用。选择工作表:按索引或者按名称指定要导入的工作表。按索引:指定要导入的工作表的索引值,开头的0表示第一个工作表按名称:指定要导入的工作表的名称。工作表上的范围:范围从第一个非空行开始:找到第一个非空单元格,并将此单元格作为数据范围的左上角单元格。单元格的显式范围:选中此选项可按行和列指定显式范围。例如,要指定Excel范围

A1:D5,可以在第一个字段中输入

A1,在第二个字段中输入

D5。指定范围内的所有行都将返回,包括空行。空行:如果遇到多个空行,则可选择停止读取,或选择返回空行以继续读取所有数据(包括空行)直到工作表的末尾。第一行包含列名。表示指定范围中的第一行应作为字段(列)名使用。如果未选中此选项,则将自动生成字段名。第二十页,共33页。读SPSS格式文件导入文件:指定文件名变量名称:读取名称和标签:将变量名称和标签同时读入SPSSModeler。变量名称将显示在类型节点中,根据流属性对话框中指定的选项,标签将显示在图表、模型浏览器和其他类型的输出中。读取用作名称的标签:选择从sav文件中读取说明性的变量标签作为变量值:读取数据和标签:将实际值和值标签同时读入SPSSModeler,这些值本身将显示在类型节点中,根据流属性对话框中指定的选项,值标签将显示在表达式构建器、图表、模型浏览器和其他类型的输出中。读取标签作为数据:使用sav文件中的值标签而不是用于表示值的数字或符号代码作为数据值。选中此选项前考虑SPSS数据中的缺失值,例如,如果数值字段仅对缺失值使用标签(0=NoAnswer,99=Unknown),则选中上述选项将仅导入值标签NoAnswer和Unknown,并会将字段转换为字符串。在这种情况下,应在类型节点中导入值本身并设置缺失值第二十一页,共33页。读SPSS格式文件(续一)使用字段格式信息确定存储:如果选中此复选框,在.sav文件中格式化为整数的字段值将使用整数存储导入。除字符串以外的所有其他字段值作为实数导入。如果未选中此复选框(默认),则除字符串以外的所有字段值作为实数导入,不论是否在sav文件中格式化为整数。第二十二页,共33页。读数据库文件建立ODBC数据源通过数据源访问数据库模式:选择表通过对话框控件连接到表。选择SQL查询以查询下面的使用SQL选择的数据库。数据源:指定数据源名称表名:指定表名给表名和列名加上引号:指定是否要将表名和列名括入引号内选中需要时选项将仅在表名和字段名包括非标准字符时引用它们。非标准字符包括非ASCII字符、空格字符和除全角句点(.)以外的所有非字母数字字符。如果从不想给表名和字段名加引号,则选中从不。如果想给所有表名和字段名加引号,则选中始终。去除开头和结尾的空格:选中选项以丢弃字符串中开头和结尾的空格第二十三页,共33页。用户输入节点添加行:在Field列中输入变量名,在Storage列中输入存储类型,在Value中输入因素水平值。生成数据:通过此选项可指定运行流时生成记录的方式。所有组合:生成包含字段值的各种可能组合的记录,此时每个字段值将出现在几个记录中。选中此选项有时可使生成的数据比希望生成的更多,所以通常可能要在此节点后附加一个抽样节点。依照顺序:按指定的数据字段值的顺序生成记录。每个字段值仅出现在一个记录中。记录的总数与单个字段值的最大数相等。如果字段包含的记录数小于最大记录数,则插入未定义的($null$)值。第二十四页,共33页。第三章读入和数据集成3.1为什么要预处理数据3.2变量类型3.3数据读入3.4数据集成第二十五页,共33页。3.4数据集成数据的纵向合并数据的横向合并第二十六页,共33页。数据的纵向合并两份或多份数据依次头尾连接起来,称为数据的纵向合并,是在数据的尾部不断追加样本的过程输入选项卡:可以指定输入数据源的顺序,还可以对每个源的标记名称进行任意更改。输入数据集的标记和顺序。标记:列出每个输入数据源的当前标记名称,通过在标记列中输入新名称,可以更改默认标记。源节点:显示要合并其数据的源节点。已连接的节点:显示与合并节点或追加节点连接的节点名称。复杂的数据挖掘经常需要若干可能包括同一个源节点的合并操作;连接的节点名称提供了一种区分这些内容的方法。字段:列出每个数据源中的字段数。查看当前标记:选择此选项可查看正在由合并节点或追加节点使用的活动标记。用管道比喻一下,当前标记就相当于现在有水流过的管道。查看未使用的标记设置:选择此选项可查看以前用于连接合并节点或追加节点、但当前未连接数据源的标记(或链接),这就相当于排水系统中仍然存在的空管道。第二十七页,共33页。数据的纵向合并(续.)追加选项卡字段匹配依据:选择匹配要追加的字段时使用的方法。位置:根据字段在主数据源中的位置追加数据集。使用此方法时,数据应该进行排序,以确保正确的追加。名称:根据字段在输入数据集中的名称追加数据集。同样,选择匹配大小写可在匹配字段名称时启用大小写的区分。输出字段:列出与追加节点相邻的源节点,列表上的第一个节点为主输入源。可以单击列标题,对显示中的字段进行排序,此排序并不真正对数据集中的字段进行重新排序。包含字段来源:仅主数据集可根据主数据集中的字段生成输出字段所有数据集可为所有数据集中的所有字段生成输出字段,而不管在所有输入数据集中是否存在匹配字段。生成新字段,显示记录的来源数据集。选择此选项可向输出文件添加一个附加字段,该字段的值将表明每个记录的源数据集。在文本字段中指定一个名称。该默认字段名为输入。第二十八页,共33页。数据的横向合并合并选项卡合并方法。排序:按照顺序合并记录,将每个输入中的第n个记录合并在一起,从而生成第n个输出记录。当任何记录用完匹配输入记录时,则不会再生成任何输出记录。这就意味着,所创建记录的数量是最小数据集中的记录数。如果使用此选项,务必确保已使用排序节点完成了对数据的排序。键:使用关键字段合并关键字段中具有相同值的记录。此选项等同于数据库的“相等连接”。如果关键值出现多次,则会返回所有可能的组合。例如,如果具有相同关键字段值A的记录的其他字段中包含有不同的值:B、C和D,则合并后的字段将对于A与值B、A与值C以及A与值D的每个组合都生成一个单独的记录。注意:在按关键字合并方法中,Null值不会视为相同的值,因此不会连接。第二十九页,共33页。数据的横向合并(续一)合并选项卡可能的关键字段。仅列出那些在所有输入数据源中字段名完全匹配的字段。从此列表中选择一个字段,并使用箭头按钮将其添加为用于合并记录的关键字段。可以使用多个关键字段。可以通过“过滤”节点或源节点上的“过滤”选项卡来重命名不匹配的输入字段。用于合并的关键字。基于关键字段值,列出所有用于从所有输入数据源中合并记录的字段。要从列表中删除关键字段,请选择一个关键字段,然后使用箭头按钮将其返回到“可能的关键字段”列表中。如果选择了多个关键字段,下面的选项将启用。合并重复的关键字段。如果上面选择了多个关键字段,此选项则会确保只有一个具有该名称的输出字段。如果禁用此选项,则必须使用合并节点对话框中的“过滤器”选项卡重命名或排除重复的关键字段。第三十页,共33页。数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论