版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Clementine数据的读入 Clementine数据挖掘是通过数据流方式实现的 数据流的核心是数据 数据流都是从数据的读入开始,然后是数据的加工管理,继而是数据的建模,最后以模型评价结束。第1页/共80页2.1 变量的类型 变量是数据读入和分析的基本单位 明确变量的类型是数据管理和挖掘的第一步,是实现数据正确加工和分析的前提 变量类型可以从数据挖掘和数据存储两个角度划分第2页/共80页2.1.1 从数据挖掘角度看变量类型 从数据挖掘角度看,变量类型反映了其代表事物的某种特征的类型。 从计量层次方面归纳,变量通常包括以下类型,即数值型变量、定类型变量和定序型变量,后两个类型也统称为分类型变量
2、。 例如 表示客户年龄、家庭人口数的变量是数值型变量 表示性别、职业的变量是定类型变量 表示学历和收入水平的变量是定序型变量第3页/共80页2.1.1 从数据挖掘角度看变量类型 为更细致地反映事物类型,Clementine将变量类型进一步细分为: 连续数值型(Range),如年龄 离散数值型( Discrete),如家庭人口数 二分类型( Flag),如性别 多分类型( 集合,Set),如职业 定序型( Ordered Sets),如学历和收入水平 缺省型( Default):缺省型是一种尚未明确的变量类型第4页/共80页2.1.1 从数据挖掘角度看变量类型 缺省型:用户定义变量时,如仅指定了
3、变量名称而没有输入或读入具体的变量值,此时系统并不能确定该变量的具体类型,于是默认其为缺省型。 系统称这样的变量为非实例化变量。 当用户输入或读入变量值后,系统将根据所输入数据自动将缺省型改为上述其他类型,此时称变量已被实例化。第5页/共80页2.1.1 从数据挖掘角度看变量类型 无类型型( Typeless):对变量值为文字等复杂数据的变量,系统无法将其归到上述前五种类型中,所以指定为无类型型。 无类型型变量通常不参与数据建模。第6页/共80页2.1.2从数据存储角度看变量类型 从数据存储角度看,变量类型反映了数据在计算机中的存储方式。 从存储所占用字节上归纳,变量通常包括以下类型 整数型(
4、Interger) 实数型( Real) 字符串型(String) 时间型(Time) 日期型(Date) 时间戳型(Time Stamp)第7页/共80页2.1.2从数据存储角度看变量类型 时间型和时间戳型的数据表示形式相同,如01:25:30,但含义不同。 时间型表示所持续的时间,如时间持续了1小时25分30秒 时间戳型则表示某个时刻,如某人登录服务器的时间是1点25分30秒。第8页/共80页2.2读入数据 数据挖掘中数据量通常较为庞大,一般存储在数据库中,或者以文本或其他类型的文件形式存储。 数据流都是以从外部读入数据开始的,数据读入的节点放置在节点工具箱的数据源选项卡中,支持 自由格式
5、的文本文件 固定格式的文本文件 SPSS数据文件、SAS数据集 Excel电子表格 数据库文件第9页/共80页读自由格式的文本文件 自由格式 通常一行数据为一个样本 每行数据有相同的列,分别依次对应不同的变量 列之间以逗号等分隔符分隔 变量名一般存储在文件的第一行上 读自由格式的文本文件应通过源选项卡中的可变文件节点实现第10页/共80页读自由格式的文本文件 下面以药物研究数据为例,该数据是自由格式的文本,文件名为DRUG.txt。 首先,选择源选项卡中的可变文件选项节点并将其放置到数据流编辑区域中,右击鼠标,选择弹出菜单中的编辑选项,显示的参数设置窗口如下图所示第11页/共80页第12页/共
6、80页读自由格式的文本文件 可变文件节点的参数设置窗口包含文件、数据、筛选、类型和注释五个选项卡。 文件选项卡:指定所读入数据的基本格式。主要参数的含义如下。 文件:指定读入文本文件所在的文件夹和文件名第13页/共80页读自由格式的文本文件 文件选项卡:指定所读入数据的基本格式。其中主要参数的含义如下。 读取文件中的字段名:如果文件中的第一行是变量名,则选择该项;否则不选。 指定字段数:指定文件中包含几个变量列。由于文件中的列是以分隔符分隔的,系统可依此自动判断列数,该选项通常忽略。第14页/共80页读自由格式的文本文件 文件选项卡:指定所读入数据的基本格式。 在定界符中指定文件中的列分隔符(
7、一般为逗号)和行分隔符(通常为新行)。第15页/共80页读自由格式的文本文件 其余参数包括 指定文件中数据开始前是否有几个说明性的字符,读入数据时应跳过 指定压缩各列的前置空格和后置空格 对无效数据是忽略处理还是替换为指定的数值等第16页/共80页数据选项卡 指定所读入数据的基本类型等。第17页/共80页数据选项卡 显示将读入数据的变量名,以及系统根据数据判断出的变量存储类型。 如需修改,先在某变量行的覆盖项上画勾,然后下拉存储框,选择所需的存储类型。第18页/共80页过滤选项卡 过滤选项卡:指定读数据时不读哪些变量并可重新修改变量名。 如不希望读入某变量,只需单击相应行的过滤项,打即可。第1
8、9页/共80页类型选项卡 指定所读数据的变量类型、变量取值范围等信息 允许指定变量缺省值,对取值合理性进行检查,以及指定变量角色等第20页/共80页类型选项卡 数据尚未读入时,系统粗略的判读变量的计量类型 通过读取值按钮读入数据,得到变量的准确类型和变量取值范围,称为对节点进行实例化处理第21页/共80页实例化与重新实例化 实例化后,如用户重新修改文本文件中的数据,类型选项卡窗口中的变量值范围并不随之动态更新 后续节点处理的数据并非更新后的新数据 系统称实例化后的数据是静态数据 为保持数据流中的数据与文本文件相一致,需重新从头执行数据流。 此时流中的数据已更新,但用户仍无法在类型选项卡的窗口中
9、看到正确的变量取值范围,无疑会影响用户对变量值合理性检查的操作。第22页/共80页实例化与重新实例化 解决方法是重新实例化 第一步,按清除值或清除所有值钮取消当前的实例化,所有变量的值项自动改为读取 第二步,按读取值钮再次实例化第23页/共80页实例化与重新实例化 如果文件中数据的更新只集中在某个变量上,只要对某个变量重新实例化即可。 操作时应略去上述第一步,只在相应变量行的值下拉框中手工选择Read或Read+,执行读取 值下拉框中的当前表示保持当前的实例化不变,此时按读取值钮无效;Pass表示取消当前变量的实例化(中文版中翻译为传递)。第24页/共80页实例化与重新实例化第25页/共80页
10、注解选项卡 给节点命名和添加注释性文字 名称:自动,自定义第26页/共80页注解选项卡 工具提示文本 当鼠标指到数据流编辑区中的某个节点时,如希望随之显示关于该节点的简短说明信息,可在此处输入相关说明文字 大段说明应在窗口中间的空白区域中输入第27页/共80页注解选项卡 注解选项卡几乎出现在Clementine的所有节点中,含义相同,以后不再赘述。 注意:可变文件节点只是一个数据读入节点,没有数据展示功能。 若希望浏览数据内容,应选择输出选项卡中的表节点并与该节点连接。执行数据流,系统生成数据表格,自动打开数据表,并将表名列在流管理器的输出选项卡中。第28页/共80页2.2.2读Excel电子
11、表格数据 以一份学生参与某次社会公益活动的样本数据为例 数据文件名为Students.xls,变量包括 学生编号 是否无偿献血 家庭人均年收入 在校综合评价指数 家长是否鼓励学生参与社会公益活动 学生是否参与某活动第29页/共80页2.2.2读Excel电子表格数据 选择源选项卡中的Excel节点并将其放置到数据流编辑区域中,打开节点的参数设置页面第30页/共80页2.2.2读Excel电子表格数据 在导入文件中输入Excel电子表格文件所在的路径 如果Excel中有多张工作表,要读其中某张表的数据,应在工作表的索引框中输入工作表编号(从0开始)或在名称框中输入工作表名第31页/共80页2.2
12、.2读Excel电子表格数据 如只读工作表中某特定区域,如A1:B10中的数据,应在数据范围的明确范围后的两个框中分别输入A1和B10,字母应大写。 Excel节点的参数设置窗口中还包括过滤选项卡和类型选项卡,含义同前。第32页/共80页2.2.3读SPSS格式文件 SPSS数据文件扩展名为.sav,通过源卡中的SPSS 文件节点实现SPSS格式数据的读入。 虚拟的电信客户数据,Telephone.sav,变量包括 居住地、年龄、婚姻状况、家庭月收入(百元) 受教育水平、性别、家庭人口 基本服务累计开通月数、是否申请无线转移服务、上月基本费用、上月限制性免费服务项目的费用、无线服务费用 是否电
13、子支付、客户所申请的服务套餐类型、是否流失(共15个变量)第33页/共80页2.2.3读SPSS格式文件 选择源选项卡中的SPSS文件节点并将其放置到数据流编辑区域中,在SPSS文件节点的界面上的导入文件中输入SPSS文件的路径第34页/共80页2.2.3读SPSS格式文件 变量名称选项: 读取名称和标签表示同时读入SPSS文件的变量名和变量名标签 读取标签作为名称表示以SPSS文件中的变量名标签作为Clementine数据的变量名 SPSS文件中的变量名标签是对字段的说明文字第35页/共80页2.2.3读SPSS格式文件 值选项 读取数据和标签表示同时读入SPSS文件的变量值和变量值标签 读
14、取标签作为数据表示以SPSS文件中的变量值标签作为系统的变量值。 SPSS文件中的变量值标签类似于用“男”、“女”解释实际的0、1取值的文本第36页/共80页2.2.4读数据库文件 商业数据库种类繁多,但不同数据库产品都遵循了开放式数据互联( ODBC ,Open DataBase Connectivity)标准,并通过ODBC实现数据库的互访。 Clementine通过ODBC方式访问数据库,需经过两个步骤完成: 第一步,建立数据源 第二步,通过数据源访问数据库第37页/共80页2.2.4读数据库文件 以一份记录客户浏览网页的历史记录的Access数据库文件WebData.mdb为例。 包括
15、三张数据表:Custmer1、Customer2、ClickPath。 Custerm1:记录客户基本信息,包括客户编号、年龄、性别、婚姻状况、受教育水平、平均每天在线时间、居住区域第38页/共80页2.2.4读数据库文件 Custerm2:记录客户上网的基本情况,包括客户编号、平均日在线时间、平均夜在线时间、浏览器类型、平均收发邮件时间、平均网聊时间等: ClickPath:记录客户浏览网页类型的数据。第39页/共80页2.2.4读数据库文件 第一步,在利用Clementine读数据库之前,应首先通过Windows“控制面板”,依次选择“管理工具”和“数据源ODBC”,添加一个关于客户访问网
16、页的数据源。 注意,本例的数据源驱动是Microsoft Access Driver(*.mdb),数据源命名为“网页访问数据”。第40页/共80页第41页/共80页第42页/共80页第43页/共80页2.2.4读数据库文件 第二步,选择源选项卡中的数据库节点并将其放置到数据流编辑区域中,打开参数设置窗口如图。第44页/共80页第45页/共80页2.2.4读数据库文件 在数据源框中,在已添加的数据源中选择“网页访问数据”,并通过选择钮选择数据库中数据表第46页/共80页2.4.1 数据的纵向合并 数据的纵向合并是在数据尾部不断追加样本的过程 通过记录选项卡中的追加节点实现 以学生参与某次社会公
17、益活动的数据Students.xls为例,文件中包含两张工作表,分别是老生和新生的数据 由于分析是针对所有学生的,需要向合并成一份新数据。建立的数据流如后图所示第47页/共80页第48页/共80页2.4.1 数据的纵向合并 首先建立两个Excel节点,读入两张工作表数据 然后,选择源选项卡中的追加节点并将其连接到Excel节点的后面,右击鼠标,选择弹出菜单中的编辑选项,所显示的参数设置窗口如后图所示第49页/共80页第50页/共80页2.4.1 数据的纵向合并 下图显示了两个数据源节点的标记、名称以及所包含的字段个数。第51页/共80页2.4.1 数据的纵向合并 合并后样本的排列顺序将依据标记
18、值,标记值最小的表其数据排在最前,标记值最大的表其数据排在最后。可通过右边的上下按钮调控这个顺序。 系统默认标记值为1的表为主数据集,意味着如果两份数据中的变量名不同或变量个数不一致,则默认合并后新数据的变量名与主数据集相同。第52页/共80页追加选项卡第53页/共80页追加选项卡 包含字段来源选项中,仅主数据集表示合并后新数据的变量名只来自主数据集;所有数据集则表示来自所有表,是各表变量名的并集。 字段匹配依据选项中,位置表示按两张表列的顺序依次头尾连接样本,名称表示按变量名对接。 如果不能够保证两份数据的变量排列顺序完全一致,应选择名称顼。第54页/共80页追加选项卡 通过在字段中包含源数
19、据集来标志记录表示在新数据中自动增加一个变量名默认为输入的变量,存储标记值以说明样本来自哪个数据源。第55页/共80页追加选项卡 注意:数据的纵向合,应确保两份或多份数据的合并是有实际意义的,相同含义的变量应取相同的变量名,且变量的类型要一致。 为方便数据流的管理和浏览,可将纵向合并过程做成一个超节点。第56页/共80页第57页/共80页2.4.2数据的横向合并 数据的横向合并是在数据的右侧不断添加变量的过程。实现该功能的节点是记录选项卡中的合并节点 以客户浏览网页的历史记录数据WebData.mdb为例,说明数据的纵向合并方法第58页/共80页2.4.2数据的横向合并 WebData.mdb
20、 Custmerl1表(客户编号、年龄、性别、婚姻状况、受教育水平、平均每天在线时间、居住区域) Custmer2表(客户编号、平均日在线时间、平均夜在线时间、浏览器类型、平均收发邮件时间、平均网聊时间) 将这两张表横向合并在一起,为分析诸如不同受教育水平的客户的平均收发邮件时间是否有差异,网聊时间是否与性别、婚姻状况相关等问题做准备。第59页/共80页2.4.2数据的横向合并 首先按读入数据库的操作方法建立两个数据库源节点,分别读入两张数据库表 选择记录选项卡中的合并节点并将其连接到数据库节点的后面第60页/共80页2.4.2数据的横向合并 右击鼠标,选择弹出菜单中的编辑选项,显示参数设置窗
21、口如图所示第61页/共80页2.4.2数据的横向合并 图中显示源节点的标记、名称及所包含的字段个数 合并后样本的排列顺序将依据标记值,标记值最小的表其数据排在最左,标记值最大的表其数据排在最右。可通过右边的上下按钮调整这个顺序。 系统默认标记值为1的表为主数据集。第62页/共80页合并选项卡第63页/共80页合并选项卡 合并方法:顺序表示两份数据按样本的前后顺序一一左右对接,关键字表示按关键字合并。 如两份数据样本排列顺不一致,应选择关键字项。 可能的关键字区域显示了两份数据中的同名变量,本例中为CustomerGud和 GeoLocation,这些变量名可能成为横向合并的关键字。第64页/共
22、80页合并选项卡 用于合并的关键字区域显示用户指定的关键字,即如果依据关键字合并,则只有该关键字取值相同的样本才可左右对接。 本例指定CustomerGuid为关键字。第65页/共80页合并选项卡 指定按关键字合并后,还需指定新表数据的来源,包括内部连接、全外连接、局部外连接、相反连接四种。 内部连接:表示如果对表A、B、C进行内连接,则合并结果是那些关键字值在表A、B、C中均出现样本,即各表的交集第66页/共80页合并选项卡 指定按关键字合并后,还需指定新表数据的来源,包括内部连接、全外连接、局部外连接、相反连接四种。 完全外部连接:表示如果对表A、B、C全外连接,则合并结果是表A、B、C的
23、并集第67页/共80页合并选项卡 部分外部连接:表示如果表A和B与表C局部外连接,则合并结果一定包含表A、B中的所有样本,同时还包括C表中那些关键字值也出现在A、B中的样本,表C中的样本通常不能全部进入新表。 可通过选择按钮,选择样本不能全部进入新表的表,如图所示。第68页/共80页合并选项卡 可通过选择按钮,选择样本不能全部进入新表的表,如图所示。第69页/共80页 A partial outer join includes all records matched using the key field as well as unmatched records from specified
24、tables. (Or, to put it another way, all records from some tables and only matching records from others.) Tables (such as A and B shown here) can be selected for inclusion in the outer join using the Select button on the Merge tab. Partial joins are also called left or right outer joins when only two
25、 tables are being merged. Since Clementine allows the merging of more than two tables, we refer to this as a partial outer join. 第70页/共80页合并选项卡 反连接:如果表A与表B、C反连接,则合并结果是表A中与其余表关键字值不相同的样本。(A对于B与C的差集)第71页/共80页合并选项卡 两份数据中均有CustomerGuid和GeoLocation变量,而合并结果中只能保留一个CustomerGuid和一个GeoLocation变量。 由于已指定CustomerGuid为关键
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年健康管理服务与保险结合
- 2026年游戏界面设计原则与实战技巧
- 2026年氧气传感器定期校验与更换周期
- 2026年在建工程脚手架安全搭设规范
- 上海立达学院《安全管理与法规》2025-2026学年第一学期期末试卷(A卷)
- 2026年企业年度培训预算编制与管理指南
- 上海立达学院《Android 移动应用开发课程设计》2025-2026学年第一学期期末试卷(B卷)
- 上海立信会计金融学院《阿拉伯国情》2025-2026学年第一学期期末试卷(A卷)
- 2026年化工企业生产过程危化品安全控制培训
- 上海立信会计金融学院《安全工程专业概论》2025-2026学年第一学期期末试卷(B卷)
- 《电子商务视觉设计》课件(共11章)第6章高点击率推广图片视觉设计
- 放射性职业健康培训课件
- 公路安全韧性提升技术指南(试行)
- 《精细化工企业安全管理规范AQ 3062-2025》解读
- 高层建筑消防安全教育培训课件(香港大埔区宏福苑1126火灾事故警示教育)
- 空气栓塞的识别与处理
- 2023年政府采购评审专家考试真题及参考答案
- 高性能存储系统总结
- 纺织仓库安全培训计划课件
- IPC7711C7721C-2017(CN)电子组件的返工修改和维修(完整版)
- 战备基础知识培训课件
评论
0/150
提交评论