有关数据挖掘结果的整体输出_第1页
有关数据挖掘结果的整体输出_第2页
有关数据挖掘结果的整体输出_第3页
有关数据挖掘结果的整体输出_第4页
有关数据挖掘结果的整体输出_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、有关数据挖掘结果的整体输 出 有关数据挖掘结果的整体 输出 有关数据挖掘结果的整体 输出 2 第第2222章章 数据挖掘结果的输出数据挖掘结果的输出 本章包括 结果输出的概述 表节点的输出 通过矩阵方式建立关系表 评估预测值的输出 数据审核报告 统计量输出 均值的输出 数据的质量报告 格式化的报告输出 全局量的输出 SPSS导出结果 有关数据挖掘结果的整体 输出 22.1 结果输出的概述 输出节点选项板包含16种输出节点:表格、矩阵、 分析、数据审核、统计量、均值、质量、报告、 设置全局量、Publisher 、数据库、平面文件、 SPSS导出、SAS导出、Excel、SPSS程序。 有关数据

2、挖掘结果的整体 输出 图图22-1输出节点选项板输出节点选项板 Clementine 系统窗口的右边包含着管理工具,它 可以帮助用户浏览目前的输出对象,如图22-2所 示。 有关数据挖掘结果的整体 输出 图图22-2 管理工具的输出管理工具的输出 从图22-2可以看出,用户可以: 打开目前的输出对象,如直方图、评估图和表。 保存输出对象。 添加输出文件到目前的项目中。 从目前的会话中删除未保存的输出对象。 为输出对象更改名称。 有关数据挖掘结果的整体 输出 22.2 表节点的输出 有关数据挖掘结果的整体 输出 图图22-3 表节点的设置表节点的设置 22.2.1 表节点格式设置 有关数据挖掘结

3、果的整体 输出 图图22-4 表格节点对话框格式页签表格节点对话框格式页签 参数说明: 字段:显示了被选字段的名称。 格式:设置字段格式。 调整:指定怎样在表格列中调整字段值。默认设置是“自动”,符号 型值左对齐,数值型右对齐。用户可以不考虑默认设置通过选择左、 右或中间对齐。 宽度:默认列的宽度是根据字段的值被自动计算出来。不考虑“自动” 宽度计算,则取消“自动”宽度,并且在下一个列中输入“手控”的 宽度。 查看当前字段:默认对话框将显示一系列目前使用的字段。为了显示 一系列没被使用的字段,则选择“查看未使用的字段设置”单选按钮。 内容菜单:这个页签的内容菜单提供了各种各样的选项和更新选项设

4、 置,且还有下一级子菜单。 有关数据挖掘结果的整体 输出 22.2.2 通过表浏览器来操作 有关数据挖掘结果的整体 输出 图图22-5 表浏览器窗口表浏览器窗口 相关参数设置如下: 选择单元格:选择单个的单元格只需点击那个单元格。为 了选择一个矩形范围的单元格点击所要范围的一个角,拖 拉鼠标到另一个角,然后松开鼠标按钮。为了选择一个完 整的列,点击那一列的标题。在列的标题上按住 shift+Click或按住Ctrl+Click选择多个列。 重排列:用户可以移动表中的列,通过点击用户想要移动 的列的标题,拖拉它到目的位置。当用户拖拉这一列时, 表更新显示新列的次序。 搜索表格:在主工具栏搜索按钮

5、激活搜索工具栏,允许用 户搜索指定值。用户可以在表中向前或向后搜索, 用户 可以指定一个区分大小写搜索( Aa按钮), 并且用户可以通 过使用中断搜索按钮中断一个搜索过程。如图22-6所示。 有关数据挖掘结果的整体 输出 有关数据挖掘结果的整体 输出 图图22-6 搜索控制被启动的表搜索控制被启动的表 生成:这个生成菜单包含节点生成操作。如图22-5所示。 (1)选择节点(“记录”):生成一个选择节点,它选择表中被选择的 单元格的记录。 (2)选择节点(“与”):生成一个选择节点,它选择包含表中被选择 的所有值的记录。 (3)选择节点(“或”):生成一个选择节点,它选择包含表中被选择 的任一值

6、的记录。 (4)导出节点(“记录”):生成一个导出节点来建立一个新的标记字 段。 (5)导出节点(“与”):生成一个导出节点来建立一个新的标记字段。 (6)导出节点(“或”):生成一个来源节点来建立一个新的标记字段。 有关数据挖掘结果的整体 输出 22.3 通过矩阵方式建立关系表 有关数据挖掘结果的整体 输出 图图22-7 矩阵输出的设置矩阵输出的设置 相关参数的设置如下: 使用:使用的字段,从下列选项中选择一个字段的选择类型: (1)选择:这个选项允许用户为矩阵的行和列选择一个符号型字段。矩 阵的行和列通过一系列被选择的符号型字段的值来定义。这个矩阵的 单元格包含了下面被选择的汇总统计量。

7、(2)所有标志字段(真值):这个选项要求对数据中每个标志字段生成 一个仅有一行和一列的一个矩阵。矩阵中的单元格对于每个标志生成 变量组合都为真的计数。 (3)所有数值字段:这个选项要求这样的一个矩阵,这个矩阵对于每个 数值型字段都是只有一行一列的。这个矩阵中的单元格代表了对于相 应的一对字段的交叉积的总和。 有关数据挖掘结果的整体 输出 单元格内容:如果用户已经选择了“选择”字段, 用户可以指定被用在矩阵单元格的统计量,选择 一个基于计数的统计量,或者选择一个负载字段 来概括一个数值型字段,这个概括是基于行和列 字段的值的。 (1)交叉列表:单元格的值是计数和/或百分数, 这个百分数是代表有多

8、少记录是有相应结合的值 的。 (2)函数:如果用户选择了一个汇总函数,单元值 是一个被选择的负载字段值的函数,这个负载字 段值是对于有适当的行和列的值的个案的。 有关数据挖掘结果的整体 输出 22.4 评估预测值的输出 有关数据挖掘结果的整体 输出 图图22-8 分析节点的分析设置分析节点的分析设置 相关的参数说明: 一致性矩阵(用于字符型目标字段):显示对于符号型目 标变量的每个被生成的(被预测的)字段和它的目标字段 之间匹配的模式。用一个表格来显示,它的行被定义为实 际值,列被定义为预测值,每一个单元格里是模式的记录 数。 绩效评价:对符号型输出的模型显示表现评估统计量。这 些统计量报告输

9、出字段的每一类别,是一种平均信息量的 度量,这些平均信息量是对于属于那种类别的预测记录的 模型中的。 有关数据挖掘结果的整体 输出 置信度图表(如果可用):对于生成一个置信度字段的模型,这个选 项报告在置信值上的统计量和它们的关系来预测。 对于这个选项有两个设置: (1)阈值用于:报告在指定为百分数的精确度以上的置信度水准。 (2)改善精确性:报告这样的置信度水准,在此水准之上的精度是由指 定的因子提高的。 按分区分割:如果定义了分割数据集,则分别显示各个数据集的分析 结果。 按用户定义的分析:用户可以指定自己的分析计算用来评估模型。使 用CLEM表达式来指定对每个记录应该计算什么和怎样把记录

10、水平得 分合并到一个全面的得分。使用函数TARGET和PREDICTED 分 别表示目标值(实际输出)和预测值。如图22-9所示为定义用于分析 的用户测量标准对话框。 有关数据挖掘结果的整体 输出 参数说明: (1)If:如果用户需要使用依据某些条件而得到不同的计算结果,指定一个条件表达语句。 (2)Then:如果If条件是真,指定一个计算。 (3)Else:如果If条件是假,指定一个结果。 (4)计算得分为:选择一个统计量从个别的得分中计算出一个全面的得分。 按字段分解分析:显示可用于中止分析的符号型字段。除了全面分析之外,对每个分解 字段的每个类别的一个单独的分析将被报告。 有关数据挖掘结

11、果的整体 输出 图图22-9定义用于分析的用户测量标准对话框定义用于分析的用户测量标准对话框 有关数据挖掘结果的整体 输出 图图22-10分析输出浏览器分析输出浏览器 相关的参数说明: 输出字段结果:这个分析输出对每个输出字段而言包含一 个项,这个输出字段相应于由一生成模型建立的预测字段。 比较:在输出字段里,对于每个和那个输出字段有关联的 预测字段来说,“项”是一个子部分。对于符号型输出字 段,这个“项”的最高层包含一个表,这个表显示了正确 和不正确的数目和百分数以及在流中记录的总数。对于符 号型输出字段,这个“项”显示了下列信息,如表22-1所 示。 有关数据挖掘结果的整体 输出 有关数据

12、挖掘结果的整体 输出 一致性矩阵:对于符号型输出字段,如果用户需要在分析 选项中的一个一致性矩阵,则一个包含此矩阵的子部分就 会出现在这里。它的行代表了实际观察值,而列代表了预 测值。在表中的单元格则代表了每一个结合了预测值和实 际值的记录的数。 表现评估:对于符号型输出字段,如果用户要求在分析选 项中的表现评估的统计量,则这个表现评估的结果将显示 在这里。每一个输出类别及它的表现评估统计量都被列在 这里。 置信度报告:对于符号型输出字段,如果用户要求在分析 选项中的置信度,则即为此值。以下的统计量是为模型的 置信度而报告的信息,如表22-2所示。 有关数据挖掘结果的整体 输出 有关数据挖掘结

13、果的整体 输出 两者协议: 如果两个或者更多的预测相同输出字段的生 成模型被包括在一个流中,用户会看到由模型生成的预测 值之间的一致性统计量。 这里包括对于预测值一致 (对 于符号型输出字段) 或者错误的汇总统计量 (对于数值 型输出字段)的记录的数目和百分数。对于符号型的字段, 它包括一个将预测值同实际值对比的分析,是对模型一致 (生成相同预测值)的记录的子集的分析。 有关数据挖掘结果的整体 输出 22.5 数据审核报告 有关数据挖掘结果的整体 输出 图图22-11 数据审核节点对话框设置数据审核节点对话框设置 相关参数的设置如下: 默认:使用系统默认的字段。 使用定制字段:为了能初步认识数

14、据,用户可根据自己感 兴趣的数据进行分析,点击“字段选取器”图标按钮选择 需要的字段。 字段:要进行数据审核的字段列表。 交叠:此选项在审核报告中经常用于极小图像之中,在数 值型数据中,方差和协方差可以算出。 显示:数据审核提供了3显示方式:图形、基本统计量、 中位数和众数 有关数据挖掘结果的整体 输出 有关数据挖掘结果的整体 输出 图图22-12 数据审核输出浏览器数据审核输出浏览器 相关参数说明如下: 审查结果:审查报告列出了所有的字段,并以图像、统计量等形式展 现出来,使用户对数据有一个大概的了解。 选择单元格:选择单个的单元格只需点击那个单元格。为了选择一个 矩形范围的单元格点击所要范

15、围的一个角,拖拉鼠标到另一个角,然 后松开鼠标按钮。 排序:用户可以直接通过点击列表中的列标题对列表排序,有三种排 序方式:自动、升序、降序。 生成菜单:生成菜单包含生成节点的操作: (1)过滤节点 (2)重新分类阶段 (3)分级节点 (4)导出节点 (5)图形输出 (6)图形节点 有关数据挖掘结果的整体 输出 输出浏览器显示数据分析的结果和允许用户进行操作,包括悬着字段、 基于选择、生成新的节点、存储和打印结果等。保存、输出和打印的 选项都可以从“文件”菜单中获得,并且通常的编辑选项也可从“编 辑”菜单中获得。 审查结果:审查报告列出了所有的字段,并以图像、统计量等形式展 现出来,使用户对数

16、据有一个大概的了解。 选择单元格:选择单个的单元格只需点击那个单元格。为了选择一个 矩形范围的单元格点击所要范围的一个角,拖拉鼠标到另一个角,然 后松开鼠标按钮。 当用户想要一个新的选择,则旧的选择被取消。在选择时,按住Ctrl键, 用户可以增添新的选择到任何目前存在的选择上,而不用取消旧的选 择。用户可以使用这个方法来选择多个,不邻近的表中区域。这些选 择选项也可在编辑菜单中获得。 排序:用户可以直接通过点击列表中的列标题对列表排序,有三种排 序方式:自动、升序、降序。列表排序随着点击列标题而变化。 有关数据挖掘结果的整体 输出 生成菜单:生成菜单包含生成节点的操作: (1)过滤节点:生成一

17、个过滤节点,它是基于审核分析的结果来过滤字 段的。 (2)重新分类阶段:生成一个分类节点,它是基于审核分析的结果来分 类的。 (3)分级节点:生成一个分级节点,它是基于审核分析的结果来生成的。 (4)导出节点:导出一个节点。 (5)图形输出:输出相应的图形。 (6)图形节点:生成一个图形节点,它是基于审核分析的结果来生成的。 有关数据挖掘结果的整体 输出 22.6 统计量输出 有关数据挖掘结果的整体 输出 图图22-13 统计量输出的设置参数统计量输出的设置参数 相关参数的设置如下: 检查:选择字段或者选择用户想要个别汇总统计的字段。用户可以选 择多个字段。 统计量:选择统计量来报告。可获得的

18、选项包括“计数”、“平均 值”、“合计”、“最小值”、“最大值”、“全距”、“方差”、 “标准差”、“均值标准误差”、“中位数”等。 相关:选择字段或者用户想要关联的字段。用户可以选择多个字段。 当相关的字段被选择时。每个检查字段和相关字段的相关性将被列在 输出中。 相关设置:用户可以定制描述性的设置附在输出中的相关值上。 有关数据挖掘结果的整体 输出 有关数据挖掘结果的整体 输出 图图22-14 统计量节点相关设置参数统计量节点相关设置参数 22.6.1 统计量输出浏览器 有关数据挖掘结果的整体 输出 图图22-15统计量输出浏览器窗口统计量输出浏览器窗口 每个被检查字段输出包含一个部分,此

19、部分包含一 张所要求的统计量的表。 计数:字段的有效记录数。 平均值:所有记录的字段的平均值。 合计:所有记录的字段值的和。 最小值:字段的最小值。 最大值:字段的最大值。 全距:最小和最大值之间的差。 有关数据挖掘结果的整体 输出 方差:对字段值变化的一种度量。它是通过得到每个值同 整个平均数的差,再将其平方,然后将得到所有值加起来, 再除以记录个数得到。 标准差:字段值变化的另一种度量,是变异数的平方根。 均值标准误:如果设想把均值用在新数据中,则对字段均 值估计里的不确定性的一种度量方法。 中位数:字段中“中间”的数值。那就是说,这个值将字 段中上半部分数据和下半部分数据分开。(这是基于

20、字段 中的数值而言)。 众数:数据中最常出现的单个数据值。 有关数据挖掘结果的整体 输出 22.6.2 从统计量中生成过滤节点 模式:决定怎样选择相关性。“包括”使出现在被指定的相关性的字段被保留。“排除” 使字段被过滤。 包括/排除在以下位置出现的字段:对被选中的相关性定义准则。 (1)相关性的最大编号:选择相关性的指定数并包括/排除显示在此相关性中的字段。 (2)相关性的最高百分比:选择相关性的指定的百分数(n)并包括/排除出现在这些相 关性中的字段。 (3)相关性大于:选择绝对值大于指定阈值的相关系数。 有关数据挖掘结果的整体 输出 图图22-16由统计量生成过滤对话框由统计量生成过滤对

21、话框 22.7 均值的输出 有关数据挖掘结果的整体 输出 图图22-17 均值节点对话框设置页签均值节点对话框设置页签 (字段中的组之间)(字段中的组之间) 图图22-18均值节点对话框设置页签均值节点对话框设置页签 (字段对之间)(字段对之间) 比较均值:根据数据的不同,用户可以选择两种不同的方 法进行均值的比较。 (1)字段中的组之间 (2)字段对之间 相关设置:选择显示相关程度标签,则在结果中会显示两 者之间的相关程度。在均值节点中提供两者表示相关程度 的方法,一是利用重要性程度来表示,选择此项时,需要 设置强(strong)、中等(medium)、弱(weak)三种相 关程度指标的临界

22、值。如图22-19所示。 有关数据挖掘结果的整体 输出 图图22-19 相关设置对话框相关设置对话框 有关数据挖掘结果的整体 输出 图图22-20均值节点输出浏览器窗口均值节点输出浏览器窗口 22.8 数据的质量报告 有关数据挖掘结果的整体 输出 图图22-21 质量输出参数设置质量输出参数设置 相关参数设置如下: 选择字段:如果分析所有数据的质量,选择“评估所有字段”单选按 钮,若只分析某些确定的字段,选择“评估选定字段”单选按钮和选 择所感兴趣字段。 看作无效值:选择用户想要考虑的作为无效值的数据特征。包括: (1)数值型空值(未定义):考虑系统 (空)值作为无效值。 (2)定义缺失值:考

23、虑由一个上游类型节点定义的缺失值为无效值。 (3)空白:考虑只包含空格(空格、制表符或新行)的值为无效值。 (4)字符型空值:将空字符串作为无效值。 计算:对质量报告选择计算选项。 有关数据挖掘结果的整体 输出 有关数据挖掘结果的整体 输出 图图22-22 质量节点输出浏览器窗口质量节点输出浏览器窗口 相关的参数说明: 质量结果:数据质量报告列出完全按降序排列的字段。最 高数据质量的字段(在选项中被定义的无效值的最低的部 分)被列在顶端,那些最低质量数据的字段(无效值最高 的部分)被列在底部。 选择字段:用户可以通过直接点击列表中的字段来选择字 段。多个字段的选择可以通过在点击时按住Shift

24、 键(增 加邻近的字段)或Ctrl键(增加非邻近的字段)。 生成菜单:生成菜单包含生成节点的操作。 有关数据挖掘结果的整体 输出 22.8.1 从质量中生成过滤节点 模式:对指定的字段选择所要的操作,或者“包括”或者“排除”。 选定字段:过滤节点将包括或排除在质量输出表中的选定字段。如果在表中没 有字段被选定,则将没有字段被用于这个操作。 质量百分比高于%的字段:过滤节点 将包括或排除全部记录的百分比大于指定的阈值的字段,这里默认的阈值为 50%。 有关数据挖掘结果的整体 输出 图图22-23由质量生成过滤对话框由质量生成过滤对话框 22.8.2 从质量中生成选择节点 记录选择条件:指定是否记录应该被保留当它们是“有效”的或是 “无效”的时候。 在以下位置查找无效值:指定在哪些条件下检查无效值。 (1)所有字段 (2)表中选定的字段 (3)质量百分比高于%的字段 若在以下位置发现无效值,则认为记录无效:指定条件以确定一条记 录是无效的。 (1)以上任意字段 (2)以上所有字段 有关数据挖掘结果的整体 输出 图图22-24选择节点对话框选择节点对话框 22.9 格式化的报告

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论