版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘原理与SPSSClementine元昌安主编邓松李文敬刘海涛编著电子工业出版社2023/3/9
2023/3/92本章包括:数据挖掘项目实施步骤123数据挖掘项目周期单击此处添加段落文字内容单击此处添加段落文字内容单击此处添加段落文字内容单击此处添加段落文字内容单击此处添加段落文字内容单击此处添加段落文字内容建立项目和报告处理缺失值导入和导出PMML模型3452023/3/9323.1.2企业解决方案23.1.2.1SEMMA模式2023/3/9
23.1.2.2SPSS-5A模型
2023/3/923.1.3标准过程模型
商业理解数据理解数据准备建立模型模型评估模型发布2023/3/9723.3建立项目和报告23.3.1项目概述表面上,Clementine项目只是一种组织输出的简单方式,但实际上它能做更多的工作,主要包括以下工作:(1)注释项目文件中的每个对象。(2)使用CRISP-DM方法指导数据挖掘工作。项目还包含CRISP-DM帮助系统,该系统针对使用CRISP-DM进行的数据挖掘提供详细信息以及现实示例。(3)将非Clementine项目添加到Clementine项目,如用于展现数据挖掘目标的PowerPoint幻灯片或与计划使用的算法相关的文档等。(4)根据注解生成全面更新报告和简单更新报告。为了便于在局域网上发布,可以用HTML的形式生成这些报告。2023/3/923.3.1.1CRISP-DM视图2023/3/923.3.1.2类视图2023/3/9
23.3.2.2添加到项目
创建或打开项目后,便可以使用多种方法来添加对象,如数据流、节点和报告等。(1)用管理器添加对象使用Clementine窗口右上角的管理器,可以添加流或输出。从其中一个管理器选项卡中选择一个对象(如表或流)。右键单击,然后选择“添加到工程”命令。如果以前保存过该对象,则会自动将它添加到适当的对象文件夹(在类视图中)或默认的阶段文件夹(在CRISP-DM视图中)。或者,可以将对象从管理器拖放到项目工作区中。将项目添加到项目工程中,如图23-7从项目管理器中加入项目项到工程中所示。2023/3/9(2)从工作区添加节点可以使用“保存”对话框从流工作区添加单个节点。在工作区中选择一个节点。单击右键,然后选择“保存节点”命令;或者,从菜单中选择“编辑”→“节点”→“保存节点...”命令。在“保存”对话框中,选中“将文件添加到工程”命令。为节点创建名称,然后单击“保存”命令。从流工作区中加入节点的主要操作对话框如图23-8从流工作区中加入节点所示,这样会保存文件并将其添加到项目中,同时节点会被添加到类视图中的Nodes文件夹以及CRISP-DM视图中的默认阶段文件夹。2023/3/9(3)添加外部文件将外部文件添加到项目的一般步骤如下:Step1.将文件从桌面上直接拖到项目中;或右键单击CRISP-DM视图或类视图中的目标文件夹。Step2.从菜单中,选择“添加到文件夹”命令。Step3.在对话框中选择一个文件,然后单击“打开”命令。这将会在Clementine项目内添加对所选对象的引用。2023/3/9
在工程选项卡中包含下列信息,如图23-9工程选项卡对话框所示。创建时间:显示项目的创建时间(此项内容不可编辑)。摘要:可以输入将在项目报告中显示的数据挖掘项目的摘要。内容:列出项目文件引用的组成文件的类型和数量(此项内容不可编辑)。将未保存的对象保另存为单选项:指定是应将未保存的对象保存到本地文件系统还是存储在PredictiveEnterpriseRepository中。载入项目时更新对象引用复选框:选中此选项可更新项目对其组成文件的引用。2023/3/9
23.3.2.4注解项目
项目工具提供了多种方式来注解数据挖掘工作。项目级注解常用于跟踪宏观目标和决策,而文件夹或节点注解提供其他详细信息。“注解”选项卡提供了足够空间记录项目级详细信息,比如具有不可恢复丢失数据的数据排除、数据探索过程中形成的可能假设等。2023/3/923.3.2.5对象属性可以查看对象属性并选择是否在项目报告中纳入单个对象。要访问对象属性,需要执行以下操作:Step1.右键单击项目窗口中的对象。Step2.从菜单中,选择“对象属性”命令。对象属性的设置,如图23-12对象属性对话框所示。
2023/3/9
23.3.3建立报告
项目最有用的一项功能是能够根据项目项和注解生成报告。可以直接生成若干种文件类型的报告,也可以直接输出到屏幕窗口以便立即查看。从输出窗口中,可以打印、保存或查看Web浏览器中的报告。还可以将保存的报告分发给组织中的其他人。2023/3/9
23.3.3.1设置报告选项
2023/3/9
23.3.3.2生成报告
2023/3/9
23.4处理缺失值
23.4.1指定缺失值用户可以用类型节点或者来源节点的类型选项卡来指定某个特定的值为缺失值,也可以决定是否把系统的缺失值或空白看作空格。在“缺失”栏上,从下拉菜单中选择“指定…”来打开一个对话框,然后确定缺失值选项。如图23-16确定连续变量的缺失值所示。2023/3/9图23-16确定连续变量的缺失值2023/3/923.4.2.2处理带缺失值的字段如大部分缺失值都集中在少量字段中,可通过字段而不是记录查找这些缺失值。确定要采用的方法时,还应考虑带有缺失值的字段类型。数值字段对于数值字段类型(如范围),应在构建模型前清除所有非数字值,因为如果数值字段中包含空值,很多模型将无效。分类字段对于分类字段(如集合和标志),虽然不必更改缺失值,但更改后可以提高模型的精度。2023/3/9要筛选或删除带有大量缺失值的字段,可以采用以下几种方法:使用数据审核节点根据质量过滤字段。可以使用特征选择节点来筛选缺失值超过指定百分比的字段,并根据相对于特定目标的重要性来对字段进行排序。除删除字段以外,还可以使用类型节点将字段方向设置为无。此操作可将字段保留在数据集中,但不会对其进行建模操作。2023/3/9
23.4.2.3归因或填充缺失值
在仅有少量缺失值的情况下,可以用插入值来替换空值。下列方法可用于输入缺失值:替换为固定值(可以选用字段平均值、范围中间值或者指定的常数)。替换为基于正态分布或均匀分布产生的随机值。用于指定定制表达式。例如,可以使用设置全局量节点创建的全局变量进行替换。基于C&RT算法替换为模型预测的值。对于使用此方法输入的每个字段,都会有一个单独的C&RT模型,还有一个填充节点会使用该模型预测的值替换空白值和Null值。然后使用过滤节点删除该模型生成的预测字段。如果还要为特定字段强制赋值,则可以使用类型节点来确保字段类型仅包含合法值,然后将需要替换空值字段的检查列设置为强制。2023/3/9
23.4.3用CLEM函数处理缺失值
表达式操作语言CLEM全名为ClementineLanguageforExpressionManipulation,是在Clementine中执行函数运算时的专用语法,用于分析和操纵在Clementine流中流动的数据,是一个功能强大的语言。2023/3/9有多个CLEM函数可用于处理缺失值。选择节点和填充节点中经常会用以下函数来删除或填充缺失值:count_nulls(LIST)@BLANK(FIELD)@NULL(FIELD)undef@函数可以与@FIELD函数一起使用,来识别一个或多个字段中是否存在空值或非Null值。当出现空值或非Null值时,一般会对此类字段进行标记,也可以用替换值填充或者在各种其他操作中使用此类字段。如下所示,可以计算字段列表中的非Null值的数量:count_nulls([‘cardtenure’‘card2tenure’‘card3tenure'])如果要使用接受输入类型的字段列表的函数,则可以使用特定的@FIELDS_BETWEEN和@FIELDS_MATCHING函数,如下所示:count_nulls(@FIELDS_MATCHING(‘card*'))在选择字段中用填充节点把缺失值替换成0,如图23-18用填充节点将选定字段中的非Null值替换为0所示。
2023/3/9
23.5导入和导出PMML模型
PMML(predictivemodelmarkuplanguage,称为预测模型标记语言)是一个XML基础的标准,以XML文件类型定义DTD形式,用于描述数据挖掘和统计模型,包括模型的输入、用于为数据挖掘准备数据的变换、以及定义模型自身的参数。Clementine可导入和导出PMML模型,使其能够与其他支持此格式的应用程序(例如,SPSS、SPSSCategorize)共享模型。2023/3/923.5.1支持PMML的模型类型23.5.1.1PMML3.1导入Clementine可以导入并评分由SPSS所有产品生成的PMML3.1模型,包括从Clementine导出的模型和由SPSS15.0生成的模型或变换PMML模型。实质上,这包括了SPSSSmartscore组件可以评分的所有PMML模型,但以下几种情况例外:(1)无法导入Apriori、CARMA及异常检测模型。(2)将PMML模型导入到Clementine后,虽然可以对其进行评分,但不能进行浏览。(3)不能导入无法评分的模型。(4)以PMML格式导出的IBMIntelligentMiner模型,无法重新导入到Clementine中。2023/3/9
23.5.1.2导入PMML的较早版本
对于从Clementine较早版本(11.0之前版本)中导出的遗存模型,只有某些模型类型(而不是所有类型)支持PMML导入,模型支持PMML导入关系如表23-1所示:模型类型PMML导入(2.1或3.0)神经网络不可用C&R树是CHAID树是QUEST树是C5.0树不可用规则集不可用Kohonen网络不可用K-Means不可用两步是线性回归是Logistic回归是因子/主成分分析不可用序列不可用CARMA不可用Apriori不可用文本提取不可用特征选择不可用异常检测不可用非精练(GRI,CEMI)不可用2023/3/923.5.1.3Clementine模型PMML导出Clementine中的所有模型,除了CHAID、Anomaly、GRI、Factor/PCA、特征选择等少数几个模型以外,都可以用PMML编码的XML文件的方式输出。对于PMML模型输出,应该选择一个XML文件名。Clementine中的模型是否支持PMML输出类型,模型支持PMML输出关系如表23-2所示.模型类型支持PMML输出类型神经网络是建立C5.0是Kohonen是线性回归是GRI否Apriori是K-Means是逻辑回归是两步是分类和回归(C&R)树是序列探测是QUEST是CHAID否Anomaly否Carma是特征选择否因子分析/主成分分析否文本提取否2023/3/9
23.5.1.4数据库本地模型PMML导出
对于使用数据库本地算法生成的模型,仅在IBMIntelligentMiner模型中可使用PMML导出,无法导出使用Microsoft的AnalysisServices或OracleDataMiner创建的模型。此外,以PMML格式导出的IBM模型无法重新导入到Clementine中2023/3/9
23.5.2导入PMML模型
2023/3/9
23.5.3导出PMML模型
在Clementine中生成模型后,可按以下的步骤用PMML代码输出:Step1.在管理窗口中的“模型”选项卡,用右键点单击一个模型。Step2.从内容菜单中,选择“导出PM
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医院培训工作计划
- 2026年交通培训云资源租赁合同
- 2026年化工服务区块链应用开发协议
- 2026年大数据分销物业服务协议
- 生物(南通卷)-江苏省2026年中考考前最后一卷(含答案)
- 村小精准扶贫工作制度
- 村拆迁指挥部工作制度
- 预防接种工作制度流程
- 领导外出招商工作制度
- 领导班子三项工作制度
- 中电联 2024年社会责任报告
- 2026新疆喀什地区地直机关遴选公务员、事业单位选聘31人笔试模拟试题及答案解析
- 重庆市2026年普通高等学校招生全国统一考试康德调研(三)历史+答案
- 2026年四川省遂宁市中考数学一模试卷(含答案)
- 2025-2026统编版二年级语文下册第三单元综合素养评价卷(含答案)
- 2026青海省公务员真题及答案
- 燃油供应商与运输车队合作协议合同协议
- 大班绘本阅读现状研究-以Y幼儿园为例
- T/CHES 89-2022河湖生态流量保障实施方案编制技术导则
- 盾构司机试题
- 巩膜炎幻灯片
评论
0/150
提交评论