SPSS-Modeler培训(3).pptx_第1页
SPSS-Modeler培训(3).pptx_第2页
SPSS-Modeler培训(3).pptx_第3页
SPSS-Modeler培训(3).pptx_第4页
SPSS-Modeler培训(3).pptx_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SPSSModeler培训 3 培训内容 第一章关联分析技术介绍第二章模型评估技术第三章SPSSModeler自动建模技术第四章SPSSModeler脚本自动化简介 2 2020 1 27 3 关联分析内容 回顾三个关联规则节点 Apriori GRI和Carma 的选项如何应用这些选项详细讨论这些算法如何产生关联规则 2020 1 27 4 算法简介 Apriori和GRI 广义规则归纳 运用 产生 检验 的方法去寻找规则产生简单的规则 并被数据集证实是有效的好的规则被存储 所有规则都受到支持和置信度准则的制约然后被专门化 一个将条件加入规则的过程 这些新规则接着被数据证实是有效的Carma 连续关联规则挖掘算法 只通过两次数据首先识别数据中频繁发生的元素集然后计算元素集的精确频率 保留达到支持和置信度准则的元素集 2020 1 27 5 关联规则和规则归纳 关联规则算法的优势在于 关联可存在于数据的任何属性中规则归纳算法只能构建单个结论的规则关联规则算法试图寻找出多条规则 每条规则都可得出一个相应的结论关联规则算法的缺点在于 它试图在一个可能庞大的搜索空间中寻找模型 因此会比规则归纳算法花费更多的时间关联规则所产生的规则并不能直接用于预测 2020 1 27 6 关联规则 结论 条件1 条件2 条件n条件也就是规则的前提 结论就是规则的结果评估关联规则的三个准则 支持度 记录中符合前提的比例规则支持度 记录中同时符合前提和结果的比例置信度 符合前提的记录中符合结果所占的比例使用大数据集时 推荐使用一个代表性的样本来决定合适的支持度和置信度Carma算法除外 2020 1 27 7 Apriori GRI和Carma比较 Apriori只能标记和集合字段对于同样的数据集 比GRI快速和有效最小支持度 最小规则置信度和最大规则前提数默认值分别为10 80 和5GRI允许连续字段作为前提 结论只能为离散型比Apriori使用范围广泛最小支持度 最小规则置信度 最大规则前提数和最大规则数默认值分别为0 50 3和100Carma只能使用字符 标记 最小规则支持度 最小规则置信度和最大规则规模默认值分别为20 20 和10允许有多重结果 2020 1 27 8 是否重要规则 怀孕 女性 100 置信度顾客购买奶酪比例40 购买水果 购买奶酪 43 置信度没有重要影响购买水果 购买奶酪 15 置信度零售商感兴趣 替代品购买水果 购买奶酪 20 置信度购买水果 不购买奶酪 80 置信度负关联其它评估度量 置信度差 置信度比率 信息差和标准化卡方 2020 1 27 9 置信度差 置信度差 置信度与先验置信度之间绝对差先验置信度 空规则的置信度 也就是结果的频率规则选择条件 置信度差 评估度量下界评估度量下界默认10 先验置信度低时使用可以发现负规则购买奶酪先验置信度40 购买水果 购买奶酪 20 置信度 2020 1 27 10 置信度率 置信度比率 1减去置信度与先验置信度的比率 如果比率 1 则取其倒数 规则选择条件 置信度比率 比率下界置信度 先验置信度 1 评估度量下界 先验置信度 置信度 1 评估度量下界 能够发现稀有规则和负规则对于低先验置信度的规则和高先验置信度的负规则是有偏的 2020 1 27 11 信息差和标准化卡方 信息差 与先验信息之间的差给定前提条件后的信息增益与只给定先验置信度时的信息增益之间的差值基于C5 0算法中使用的信息增益度量标准化卡方 前提与结果相关性的统计指数卡方检验分类变量相关性标准化减少记录数的影响优点 考虑到支持度缺点 不直观 可能需要试验不同的度量下界以找到满意规则 2020 1 27 12 注意 评估度量中的支持度和置信度支持度和置信度阙值仍然有用只使用评估度量时设置阙值为0取消选择对标记只分析真值发现负规则数据格式 表格型数据交易型数据 2020 1 27 13 GRI 广义规则归纳 J度量 统计学 在置信度或概率的基础上潜在规则形式Y y X xJ定义为连续前提专门化 C c A 35和B bC c A 35和B b和A 26对于有支持度的规则有偏 2020 1 27 14 Carma 连续关联规则挖掘算法 只能使用字符存储类型字段使用表格型数据时 使用字段只能是标记型字段的方向是不相关的 不认可输入 输出和两者方向 忽略无方向所有使用的字段都看成两者方向允许规则有多重结果第一步发现频繁元素集并创建父子元素集网格X 牛奶 奶酪 面包 Y 牛奶 奶酪 Z 牛奶 奶酪 面包 糖 周期性修剪元素集网格 移除低支持度的小元素集第二步计算精确频率并生成规则 2020 1 27 15 高级选项 排除具有多重结果规则为了节约内存 Carma算法周期性移除或修剪很少发生的元素集设定修剪值 默认500减少降低内存需求 潜在增加训练时间对规则结果影响很小改变支持度提高效率支持度大于用户提供值时减少到设定 2020 1 27 16 关联规则模型比较 2020 1 27 17 选择一个模式或高级选项 数据集中有数值字段时使用GRI数据转化为交易型后 Carma可以使用集合类型字段Carma比其它两个模型更加有效 但除非特别大的数据集 速度并不是主要问题如果希望对规则产生模式有更多控制 使用Apriori关注规则的一般性 Carma可以直接控制这个设定关注前提的频率 某几个前提或结果 假值的规则时使用Apriori或GRI 2020 1 27 18 设定支持度和置信度的考虑 是否希望突出稀有集合 是否只对具有高置信度和 或高支持度的规则感兴趣 是否只对具有很多或很少前提的规则感兴趣 是否希望找到具有大的绝对或相对置信度差的规则 2020 1 27 19 关联规则中的缺失数据 AprioriGRICarma使用交易型数据时没有定义空白时 缺失数据作为有效信息产生规则定义空白后直接进入模型将会忽略这些记录规则和统计信息会出现问题 2020 1 27 第二章预测分类的模型评估 预测模型评估的业务依据模型评估方法 20 2020 1 27 预测模型评估的业务依据 企业发展策略直接影响预测模型的评估方式在有效的资源下 获得尽可能多的目标客户 在利润最大化的前提下 适度寻找目标客户 对整体预测结果进行评估 使模型对整体客户群的判断准确性达到最高 21 2020 1 27 评估表 分类变量预测 22 准确率模型预测结果的整体准确性查全度预测准确的目标客户占实际目标客户的占比纯度预测准确的目标客户占预测目标客户的占比 2020 1 27 评估表 分类变量预测 绩效评价 模型预测结果若等于随机结果 则性能评估置信度图 反映置信评分和预测结果准确性之间的关系 23 2020 1 27 评估图 分类变量预测 24 增益图 响应图 提升图 利润图 投资回报图 2020 1 27 其他评估方式 K S评分 25 反映模型最大程度区分目标客户的能力 通常认为30分以上可以接受 50分以上模型有明显的判别能力 60分以上模型判断效果非常良好 2020 1 27 2020 1 27 26 评估表 连续型预测变量 27 2020 1 27 其他评估方式 连续型预测变量 28 2020 1 27 第三章SPSSModeler自动建模技术 模型整合方法自动建模节点自动分类自动数值自动聚类 29 2020 1 27 模型整合节点 模型整合方法 标志和集合字段均支持下列方法 投票 只凭投票数表决模型预测结果置信度加权投票 对所有模型预测结果的置信度作为权重和预测结果结合 评估最后的模型结果赢得最高置信度 选择最高置信度的预测结果仅限标志字段支持以下多种基于倾向的方法 最初倾向加权投票调整倾向加权投票平均原始倾向平均调整倾向备注 原始倾向得分是二元分类预测原始行为倾向评分仅限连续值段支持以下方法 所有模型预测值均值 30 2020 1 27 31 自动建模节点 新名称旧名称自动聚类新加的模块自动分类器二元分类器自动数据数值预测器 2020 1 27 32 增强的自动建模 优点 自动建模可用于刷新模型和编写脚本预测模型名称一致的评分 输出N种合适的模型可以浏览模型报告模型包括 优选模型 整合节点 2020 1 27 33 自动建模节点和设置 指定自动创建的模型个数默认是3个能够自动计算各模型的筛选标准 2020 1 27 34 自动聚类节点 类似的自动分类器和数据预测器评分仅仅一个模块可以用作评分评价字段 挑选最好的聚类可以设置剔除模型中的某些类 2020 1 27 35 分类预测器筛选模型的标准 总准确性 根据整体准确性对模型进行排序 ROC曲线下方区域 ROC曲线提供一个模型性能指标 曲线位置距参考线越远 则检验准确度越高 利润 累积 根据指定的成本 收入和权重标准计算出的累积百分位数 按预测值置信度排序 的利润总和 提升 累积 相对于整个样本 其分位数按预测置信度排序 的累积分位数匹配率 字段数 根据所使用的字段数对模型进行排序 ROC图 2020 1 27 36 数值预测器筛选模型的标准 相关 每条记录的观测值和模型预测的值之间的Pearson相关性 相关性是两种变量之间的线性关联尺度 值越接近1说明变量之间的关系越强 字段数 模型中用作预测变量的字段的数量 在某些情况下 选择使用较少字段的模型可简化数据准备过程并提高性能 相对错误 相对错误是模型预测值的观测值的方差与平均值的观测值方差的比率 在实际应用的角度 它对比模型相对于空或截距模型 仅返回目标字段的平均值作为预测值 的性能 2020 1 27 37 自动聚类器筛选模型的标准 Silhouette聚类数最小聚类的大小最大聚类的大小最小 最大聚类重要性 基于聚类分类结果和评估字段重要性的强弱评价模型 2020 1 27 38 输出自动建模的结果 可以浏览所有的模型 更改任何设置删除模型按钮 永久删除给评分选项增加设置 原始倾向 整体选项 2020 1 27 39 时间序列算法 主要应用于话务量预测等 了解未来一段时间内业务的发展趋势包括标准模型 ARIMA和ExponentialSmoothing包括ExpertModeler 自动拟合历史上的发展趋势 找出最好的模型或多个模型 2020 1 27 时间序列预测简介 关键词介绍 预测变量 Dependent输入因子 Predictor重复性事件 Event偶发性事件 Intervention 40 2020 1 27 时间序列预测简介 需要考虑的因素 拥有较长历史周期的汇总数据偶发性事件 例如 系统崩溃 政策干预等 重复性事件 例如 节日 固定市场活动等 周期性因素其他预测因素 例如 广告投入 折扣率 优惠活动等 备注 平滑指数模型只能对单变量进行预测 不能解释其他因素对预测指标的影响 41 2020 1 27 时间序列预测的分析思路 42 2020 1 27 第四章SPSSModeler脚本自动化简介 脚本简介脚本类型调用方式 43 2020 1 27 SPSSModeler脚本简介 SPSSModeler中的脚本编写是用于在用户界面上实现过程自动化的强大工具 您使用鼠标或键盘进行的操作 借助脚本同样可以完成 而且使用脚本可以自动化那些手动执行将造成大量重复操作且高耗时的任务 脚本作用包括 限制在流中执行节点的特定顺序 设置节点属性并使用CLEM 表达式操作控制语言 的子集来执行派生 指定通常包含用户交互的操作的自动执行顺序 例如您可以构建一个模型 然后对其进行测试 设置需要实际用户交互的复杂过程 例如需要重复模型生成和测试的交叉验证步骤 设置流操纵过程 例如 您可以提取一个模型训练流 运行它 然后自动生成相应的模型测试流 44 2020 1 27 SPSSModeler脚本类型 流脚本存储为流属性然后和指定流一起保存和载入 例如 可以编写自动化训练和应用模型块流程的流脚本 还可以指定何时执行特定流 脚本应代替流工作区内容运行 脚本和保存在外部文本文件中的所有特定流关联 例如 可以使用独立脚本同时操作多个流 超节点脚本存储为超节点流属性 超节点只在终端超节点中可用 可以使用超节点脚本控制超节点内容的执行序列 对于非终端 源或过程 超节点 可以为超节点定义属性或定义这种超节点直接在流脚本中包含的节点 45 2020 1 27 SPSSModeler流脚本示例 SPSSModeler脚本示例 executeDrug neuralnetnodecreateanalysisnodeat700200setDRUG1n variablefilenode full filename CLEO DEMOS DRUG2n insertmodelDrugconnectedbetween typenodeand analysisnodeexecute analysisnode 46 2020 1 27 SPSSModeler独立脚本示例 SPSSModeler独立脚本示例 openstream CLEO DEMOS Classification Module DRUGlearn str execute c50nodesavemodelDrugasrule gmcleargeneratedpaletteopenstream CLEO DEMOS Base Module DRUGplot str loadmodelrule gmdisconnect plotnodeinsertmodelDrugconnectedbetween deriveand plotset plotnode color field C Drug execute plotnode 47 2020 1 27 SPSSModeler超节点脚本示例 SPSSModeler超节点脚本示例 execute SetGlobals execute gains execute

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论