DMChap数据理解PPT课件.ppt_第1页
DMChap数据理解PPT课件.ppt_第2页
DMChap数据理解PPT课件.ppt_第3页
DMChap数据理解PPT课件.ppt_第4页
DMChap数据理解PPT课件.ppt_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章数据理解 1 第四章数据理解 4 1数据理解的主要作用4 2变量说明4 3数据质量的评估和调整4 4数据的排序4 5数据的分类汇总 2 4 1数据理解的主要作用 依据数据挖掘方法论 数据理解在数据挖掘过程中起着举足轻重的作用 其目的是把握数据的总体质量 了解数据的大致范围 数据理解主要包括数据质量评估和调整 数据的有序浏览和多维度汇总等 3 第四章数据理解 4 1数据理解的主要作用4 2变量说明4 3数据质量的评估和调整4 4数据的排序4 5数据的分类汇总 4 4 2变量说明 变量说明是确保高质量数据的有效途径变量说明主要包括两个方面对数据流中变量取值的有效性进行限定 检查和调整对各个变量在未来数据建模中的角色进行说明可通过记录选项卡中的Type节点进行变量说明 5 数据浏览 将Output选项卡中的Table节点连接到数据流中浏览数据 发现存在的问题利用Type节点解决数据存在的问题将字段选项卡中的Type节点连接到数据流中 6 变量的重新实例化 数据读入时变量需要进行实例化 当数据源节点中的数据有更新 或数据流派生出一些新的变量 或进行了数据集成操作 或原有变量的类型有了新的调整时 变量需要实例化 ClearValues或ClearAllValues 强制所有变量变为非实例化状态 所有变量Values项自动取值为ReadValues列的取值Read 读入数据进行重新实例化Read 读入数据且新数据自动追加到原有数据的后面Pass 不读入变量值Current 保持变量的当前值 不重新实例化ReadValues进行变量的重新实例化 Values列将显示各变量值的取值范围 7 有效变量值和无效值调整 有效值是正常取值范围内的值无效值是变量有效取值之外的值 通常称为缺失值 Clementine中的缺失值通常包括两类系统缺失值 用 Null 表示 还包括空串和空格等用户缺失值 主要指那些取值明显不合理的数据 8 变量有效值范围和缺失值的说明 变量有效取值范围和缺失值的说明 应通过Missing列的选项来实现On 允许相应变量取用户缺失值和系统缺失值 且不进行调整Off 不允许相应变量取用户缺失值Specify 说明变量的有效取值范围等 并制定数据调整方法 9 对变量是否无偿献血的说明 类型 显示当前变量的计量类型和存储类型值 用来指定确定变量取值范围的方法Readfromdata 取决于所读的外部数据Pass 忽略所读的外部数据Specify 指定变量取值和变量值标签Checkvalues 选择对变量不合理值的调整方法None 不进行调整Nullify 将用户缺失值调整为系统缺失值 null Coerce 调整为指定值 Clementine默认 Flag型变量调整为False类对应的值 Set型变量调整为第一个变量值 数值型变量 大于上限的调整为上限值 小于下限的调整为下限值 其余值调整为 最大值 最小值 2Discard 剔除相应数据Warn 遇到不合理取值时给出警告信息Abort 遇到不合理取值时终止数据流的执行 10 对变量是否无偿献血的说明 续 Defineblanks 选中该选项 表示视MissingValues表所列值 及某区间内的连续值 Null 空格 Whitespace 为空 Blanks 指定为空的目的是将无须或无法调整的用户缺失值和系统缺失值 与变量的正常值区分开 便于后续的数据分析说明 用于输入变量名标签 是变量含义的简短说明文字 11 对变量家庭人均年收入的说明 家庭人均年收入的取值范围不能直接由外部数据决定 否则系统将视999999 用户缺失值 为正常值 应在Lower和Upper框中手工输入合理的取值区间为6617 503308由于希望对家庭人均年收入中的999999和 null 值进行调整 不应选中Defineblanks项 系统将自动视999999和 null 为超出取值范围的不合理取值 并按用户指定的Coerce方法进行调整返回后 家庭人均年收入的Missing列上为空 表示该变量不存在用户缺失值 12 变量角色的说明 变量角色是指变量在模型建立时的角色变量角色的说明也称为变量方向的说明In 作为输入变量Out 作为输出变量Both 某些模型中 有的变量即可作为输入变量 又可作为输出变量Partition 样本集分割角色None 无角色 13 第四章数据理解 4 1数据理解的主要作用4 2变量说明4 3数据质量的评估和调整4 4数据的排序4 5数据的分类汇总 14 数据的基本特征与数据质量报告 数据质量评估和调整 是对现有数据的取值异常程度以及缺失情况等进行综合评价 并借助统计分析方法对其进行适当调整和填补数据的基本特征与质量评价报告 对数据的缺失 离群点和极端值等情况进行评估完整变量比例的计算完整样本比例的计算其他评价指标的计算利用Output选项卡中的DataAudit节点进行数据质量考察 15 DataAudit节点的设置 设置选项卡 使用 设置 选项卡 可指定用于审核的基本参数默认值 如果没有 类型 节点设置 则报告中包括所有字段 如果有 类型 设置 则显示中包括所有输入 目标和双向字段 如果有一个目标字段 使用它作为 交叠 字段 如果指定了多个目标字段 则不指定默认交叠 使用自定义字段 选择此选项可手动选择字段交叠字段 交叠字段用于绘制审核报告中显示的缩略图图形 如果是连续字段 则还计算二元统计量 协方差和相关系数 如果单个目标字段根据 类型 节点设置显示 则使用它作为默认交叠字段 或者 选择使用自定义字段以指定交叠 显示 图形 显示每个选定字段的图形 根据数据的情况显示为分布 条形 图 直方图或散点图 基本 高级统计量 指定默认显示在输出中的统计量的级别 中位数和众数 计算报告中所有字段的中位数和众数 16 DataAudit节点的设置 质量选项卡 用于反映数据质量的评价指标 以及数据离群点的诊断标准等缺失值含有效值的记录的计数 选择此选项可为每个评估字段显示含有效值的记录数 请注意 数值型空 未定义的 值 空值 空白和空字符串总是被视为无效值 含无效值的记录的分类计数 为每个字段显示含每类无效值的记录数 离群值和极值与平均值的标准差 根据与平均值的标准差的个数检测离群值和极值 四分位数间距 根据四分位数间距检测离群值和极值 17 变量值的调整 Clementine的变量值调整 是在DataAudit节点执行结果的基础上 针对数据中的离群点 极端值 缺失值 根据用户选择的方法进行调整和修正主要包括 离群点和极端值的调整缺失值的调整 18 离群点和极端值的调整 选中某个变量行下拉相应行的Action框选择调整方法Coerce 离群点或极端值调整为距它们最近的正常值Discard 剔除离群点和极端值Nullify 用系统缺失值 null 替代离群点或极端值Coerceoutliers discardextremes 按照Coerce方法修正离群点 并剔除极端值Coerceoutliers nullifyextremes 按照Coerce方法修正离群点 并将极端值调整为系统缺失值 null 选择窗口菜单的Generate下的Outlier ExtremeSuperNodeClementine将自动生成一个超节点 用于根据用户指定的调整方法 调整离群点和极端值将所自动生成的超节点连接到数据流的恰当位置上 即可查看变量值调整的效果 19 缺失值的调整 选中某个变量行下拉相应行的ImputeMissing框选择调整对象Never 表示不做调整BlankValues 对空做调整NullValues 对系统缺失值 null 做调整Null NullValue 对空和系统缺失值做调整Condition 对满足指定条件的变量值做调整选择需要调整的变量行 选择窗口菜单Generate下的MissingValuesSuperNode项 20 数据质量管理 数据质量管理是指 当数据质量评估后 可以将质量不高的变量或样本剔除 仅保留高质量的变量和样本 21 保留高质量的变量 高质量变量的标准 在该变量上取有效值的样本个数占总样本量的比例 完整比例 Complete 高于某个指定值在质量审核窗口中 选择窗口菜单Generate下的FilterNode项 设置相应的参数 自动生成一个Filter节点将生成的Filter节点连接到数据流中 可以看到变量保留或删除的情况 22 找出无效样本 有效样本是指那些在指定变量上未取无效值的样本 无效样本是指那些在指定变量上取了有效值的样本在质量审核窗口中 选择Generate下的SelectNode项Selectwhenrecordis Valid或Invalid表示选出有效样本或无效样本Lookforinvalidvaluein 指定无效样本的界定变量 即样本在哪些变量上取了无效值Allfields 在节点的所有变量Fieldsselectedintable 表示已选择的变量Fieldswithqualitypercentagehighthan 表示质量高于指定百分比的变量Considerarecordinvalidifaninvalidvalueisfoundin 指定如何确定无效样本Anyoftheabovefields 如果样本在上述三种界定依据中的任何一种中取无效值Alloftheabovefields 如果样本在上述三种界定依据中都取无效值 23 第四章数据理解 4 1数据理解的主要作用4 2变量说明4 3数据质量的评估和调整4 4数据的排序4 5数据的分类汇总 24 4 4数据排序 数据排序功能虽然简单 却有广泛的应用 是把握数据取值状态的最简洁的途径排序的作用便于浏览数据 了解变量值的大致范围有助于发现数据可能存在的问题 如离群点或极端值等将RecordOps选项卡中的Sort节点连接到数据流中单变量排序多变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论