SPSS Modeler培训(3)_第1页
SPSS Modeler培训(3)_第2页
SPSS Modeler培训(3)_第3页
SPSS Modeler培训(3)_第4页
SPSS Modeler培训(3)_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SPSS Modeler培训培训(3)(3)培训内容培训内容 第一章第一章 关联分析技术介绍关联分析技术介绍第二章第二章 模型评估技术模型评估技术第三章第三章 SPSS Modeler自动建模技术自动建模技术第四章第四章 SPSS Modeler脚本自动化简介脚本自动化简介23关联分析内容关联分析内容回顾三个关联规则节点(回顾三个关联规则节点( Apriori,GRI 和和 Carma)的选项)的选项如何应用这些选项如何应用这些选项详细讨论这些算法如何产生关联规则详细讨论这些算法如何产生关联规则4算法简介算法简介Apriori 和和 GRI(广义规则归纳)运用(广义规则归纳)运用“产生产生-检

2、验检验”的方法去的方法去寻找规则寻找规则产生简单的规则,并被数据集证实是有效的好的规则被存储,所有规则都受到支持和置信度准则的制约然后被专门化(一个将条件加入规则的过程)这些新规则接着被数据证实是有效的Carma(连续关联规则挖掘算法)只通过两次数据(连续关联规则挖掘算法)只通过两次数据首先识别数据中频繁发生的元素集然后计算元素集的精确频率,保留达到支持和置信度准则的元素集5关联规则和规则归纳关联规则和规则归纳关联规则算法的优势在于,关联可存在于数据的任何属性中关联规则算法的优势在于,关联可存在于数据的任何属性中规则归纳算法只能构建单个结论的规则关联规则算法试图寻找出多条规则,每条规则都可得出

3、一个相应的结论关联规则算法的缺点在于,它试图在一个可能庞大的搜索空关联规则算法的缺点在于,它试图在一个可能庞大的搜索空间中寻找模型,因此会比规则归纳算法花费更多的时间间中寻找模型,因此会比规则归纳算法花费更多的时间关联规则所产生的规则并不能直接用于预测关联规则所产生的规则并不能直接用于预测6关联规则关联规则结论结论 条件条件1 & 条件条件2 & & 条件条件n条件也就是规则的前提,结论就是规则的结果评估关联规则的三个准则:评估关联规则的三个准则:支持度,记录中符合前提的比例规则支持度,记录中同时符合前提和结果的比例置信度,符合前提的记录中符合结果所占的比例使用大数据集

4、时,推荐使用一个代表性的样本来决定合适的使用大数据集时,推荐使用一个代表性的样本来决定合适的支持度和置信度支持度和置信度Carma 算法除外7Apriori 、GRI 和和 Carma 比较比较Apriori 只能标记和集合字段只能标记和集合字段对于同样的数据集,比 GRI 快速和有效最小支持度,最小规则置信度和最大规则前提数默认值分别为 10%,80% 和 5GRI 允许连续字段作为前提,结论只能为离散型允许连续字段作为前提,结论只能为离散型比 Apriori 使用范围广泛最小支持度,最小规则置信度,最大规则前提数和最大规则数默认值分别为 0%,50% ,3 和 100Carma 只能使用字

5、符(标记)只能使用字符(标记)最小规则支持度,最小规则置信度和最大规则规模默认值分别为 20%,20% 和 10允许有多重结果8是否重要规则?是否重要规则?怀孕女性,100% 置信度顾客购买奶酪比例40%购买水果购买奶酪,43%置信度没有重要影响购买水果购买奶酪,15%置信度零售商感兴趣,替代品购买水果购买奶酪,20%置信度购买水果不购买奶酪, 80%置信度负关联其它评估度量:置信度差,置信度比率,信息差和标准化卡方9置信度差置信度差置信度差:置信度与先验置信度之间绝对差先验置信度:空规则的置信度,也就是结果的频率规则选择条件:置信度差评估度量下界评估度量下界默认10%先验置信度低时使用可以发

6、现负规则购买奶酪先验置信度 40%购买水果购买奶酪,20% 置信度10置信度率置信度率置信度比率:1 减去置信度与先验置信度的比率(如果比率1,则取其倒数)规则选择条件:置信度比率比率下界置信度先验置信度(1评估度量下界)先验置信度置信度(1评估度量下界)能够发现稀有规则和负规则对于低先验置信度的规则和高先验置信度的负规则是有偏的11信息差和标准化卡方信息差和标准化卡方信息差:与先验信息之间的差给定前提条件后的信息增益与只给定先验置信度时的信息增益之间的差值基于 C5.0 算法中使用的信息增益度量标准化卡方:前提与结果相关性的统计指数卡方检验分类变量相关性标准化减少记录数的影响优点:考虑到支持

7、度缺点:不直观,可能需要试验不同的度量下界以找到满意规则12注意注意评估度量中的支持度和置信度支持度和置信度阙值仍然有用只使用评估度量时设置阙值为0取消选择对标记只分析真值发现负规则数据格式:表格型数据交易型数据13GRI(广义规则归纳)(广义规则归纳)J 度量:统计学,在置信度或概率的基础上潜在规则形式 Y=y X=x J 定义为连续前提专门化:C=c A35 和B=bC=c A35 和 B=b 和 A26对于有支持度的规则有偏)(1 ()|(1 (log)|(1 ()()|(log)|()( = Jypxypxypypxypxypxp14Carma(连续关联规则挖掘算法)(连续关联规则挖掘

8、算法)只能使用字符存储类型字段使用表格型数据时,使用字段只能是标记型字段的方向是不相关的:不认可输入、输出和两者方向,忽略无方向所有使用的字段都看成两者方向允许规则有多重结果第一步发现频繁元素集并创建父子元素集网格X = 牛奶,奶酪,面包 Y = 牛奶,奶酪 Z = 牛奶,奶酪,面包,糖周期性修剪元素集网格,移除低支持度的小元素集第二步计算精确频率并生成规则15高级选项高级选项排除具有多重结果规则为了节约内存,Carma 算法周期性移除或修剪很少发生的元素集设定修剪值,默认 500减少降低内存需求,潜在增加训练时间对规则结果影响很小改变支持度提高效率支持度大于用户提供值时减少到设定16关联规则

9、模型比较关联规则模型比较设定Apriori GRICarma 规则选择方式五种可选类型J 度量频繁元素集考虑字段方向是是否规则数没有最大最大一百万没有最大前提支持数0 到 100%0 到 100%无限制规则支持度无限制无限制0 到 100%规则置信度0 到 100%0 到 100%0 到 100%最大前提数3210无限制最大规则规模无限制无限制10标记只分析真值 可选可选强制17选择一个模式或高级选项选择一个模式或高级选项数据集中有数值字段时使用 GRI数据转化为交易型后,Carma 可以使用集合类型字段Carma 比其它两个模型更加有效,但除非特别大的数据集,速度并不是主要问题如果希望对规则

10、产生模式有更多控制,使用 Apriori 关注规则的一般性, Carma 可以直接控制这个设定关注前提的频率,某几个前提或结果,假值的规则时使用 Apriori 或 GRI18设定支持度和置信度的考虑设定支持度和置信度的考虑是否希望突出稀有集合?是否只对具有高置信度和/或高支持度的规则感兴趣?是否只对具有很多或很少前提的规则感兴趣?是否希望找到具有大的绝对或相对置信度差的规则?19关联规则中的缺失数据关联规则中的缺失数据Apriori GRI Carma 使用交易型数据时没有定义空白时,缺失数据作为有效信息产生规则定义空白后直接进入模型将会忽略这些记录规则和统计信息会出现问题第二章第二章 预测

11、分类的模型评估预测分类的模型评估预测模型评估的业务依据模型评估方法20预测模型评估的业务依据预测模型评估的业务依据企业发展策略直接影响预测模型的评估方式企业发展策略直接影响预测模型的评估方式在有效的资源下,获得尽可能多的目标客户;在利润最大化的前提下,适度寻找目标客户;对整体预测结果进行评估,使模型对整体客户群的判断准确性达到最高21评估表评估表分类变量预测分类变量预测22l准确率准确率模型预测结果的整体准确性l查全度查全度预测准确的目标客户占实际目标客户的占比l纯度纯度预测准确的目标客户占预测目标客户的占比评估表评估表分类变量预测分类变量预测绩效评价绩效评价模型预测结果若等于随机结果,则性能

12、评估置信度图置信度图反映置信评分和预测结果准确性之间的关系23评估图评估图分类变量预测分类变量预测24增益图增益图响应图响应图提升图提升图利润图利润图投资回报图投资回报图其他评估方式其他评估方式K-S评分评分25 反映模型最大程度区分目标客户的能力,通常认为反映模型最大程度区分目标客户的能力,通常认为30分以上可分以上可以接受,以接受,50分以上模型有明显的判别能力,分以上模型有明显的判别能力,60分以上模型判断效果分以上模型判断效果非常良好。非常良好。评估表评估表连续型预测变量连续型预测变量26其他评估方式其他评估方式连续型预测变量连续型预测变量27第三章第三章 SPSS Modeler自动

13、建模技术自动建模技术模型整合方法模型整合方法自动建模节点自动建模节点自动分类自动分类自动数值自动数值自动聚类自动聚类28模型整合节点模型整合节点模型整合方法模型整合方法标志和集合字段均支持下列方法:标志和集合字段均支持下列方法:投票只凭投票数表决模型预测结果置信度加权投票对所有模型预测结果的置信度作为权重和预测结果结合,评估最后的模型结果赢得最高置信度选择最高置信度的预测结果仅限标志字段支持以下多种基于倾向的方法:仅限标志字段支持以下多种基于倾向的方法: 最初倾向加权投票调整倾向加权投票平均原始倾向平均调整倾向备注:备注:原始倾向得分是二元分类预测原始行为倾向评分仅限连续值段支持以下方法:仅限

14、连续值段支持以下方法: 所有模型预测值均值2930自动自动建模节点建模节点新名称 旧名称自动聚类 新加的模块自动分类器二元分类器自动数据 数值预测器31增强的自动建模增强的自动建模优点优点:自动建模自动建模可用可用于刷新模型和于刷新模型和编写脚本编写脚本预测模型名称预测模型名称一致的评分一致的评分输出输出N种合适的模型种合适的模型可以浏览模型报告可以浏览模型报告模型模型包括包括:优选模型:优选模型 & 整合节点整合节点32自动建模节点和设置自动建模节点和设置指定自动创建的模型个数指定自动创建的模型个数默认是默认是 3个个能够自动计算各模型能够自动计算各模型的的筛选筛选标准标准33自动聚

15、类节点自动聚类节点类似的自动分类器和数据预测器评分仅仅一个模块可以用作评分评价字段,挑选最好的聚类可以设置剔除模型中的某些类34分类预测器筛选模型分类预测器筛选模型的的标准标准l总准确性总准确性.:根据整体准确性对模型进行排序。lROC 曲线下方区域曲线下方区域.:ROC 曲线提供一个模型性能指标。曲线位置距参考线越远,则检验准确度越高。 l利润(累积):利润(累积):根据指定的成本、收入和权重标准计算出的累积百分位数(按预测值置信度排序)的利润总和。l提升(累积):提升(累积):相对于整个样本(其分位数按预测置信度排序)的累积分位数匹配率。l字段数:字段数:根据所使用的字段数对模型进行排序。

16、 ROC图图35数值预测器筛选模型数值预测器筛选模型的的标准标准l相关:相关:每条记录的观测值和模型预测的值之间的 Pearson 相关性。相关性是两种变量之间的线性关联尺度,值越接近 1 说明变量之间的关系越强。l字段数:字段数:模型中用作预测变量的字段的数量。在某些情况下,选择使用较少字段的模型可简化数据准备过程并提高性能。l相对错误:相对错误:相对错误是模型预测值的观测值的方差与平均值的观测值方差的比率。在实际应用的角度,它对比模型相对于空或截距模型(仅返回目标字段的平均值作为预测值)的性能。36自动聚类器筛选模型自动聚类器筛选模型的的标准标准lSilhouettel聚类数聚类数l最小聚

17、类的大小最小聚类的大小l最大聚类的大小最大聚类的大小l最小最小/最大聚类最大聚类l重要性:重要性:基于聚类分类结果和评估字段重要性的强弱评价模型37输出自动建模的结果输出自动建模的结果可以浏览所有的模型,更改任何设置可以浏览所有的模型,更改任何设置删除模型按钮删除模型按钮- 永久删除永久删除 给评分选项增加设置给评分选项增加设置 原始倾向原始倾向, 整体选项整体选项38时间序列算法时间序列算法主要应用于话务量预测等,了解未来一段时间内业务的发展趋势主要应用于话务量预测等,了解未来一段时间内业务的发展趋势包括标准模型包括标准模型 ARIMA 和和 Exponential Smoothing包括包

18、括Expert Modeler 自动拟合历史上的发展趋势,找出最好的模型或自动拟合历史上的发展趋势,找出最好的模型或多个模型多个模型时间序列预测简介时间序列预测简介关键词介绍关键词介绍预测变量Dependent输入因子Predictor重复性事件Event偶发性事件Intervention39时间序列预测简介时间序列预测简介需要考虑的因素需要考虑的因素拥有较长历史周期的汇总数据偶发性事件(例如:系统崩溃、政策干预等)重复性事件(例如:节日、固定市场活动等)周期性因素其他预测因素(例如:广告投入、折扣率、优惠活动等) 备注:平滑指数模型只能对单变量进行预测,不能解释其他因素对预测指标的影响。40

19、时间序列预测的分析思路时间序列预测的分析思路41第四章第四章 SPSS Modeler脚本自动化简介脚本自动化简介脚本简介脚本简介脚本类型脚本类型调用方式调用方式42SPSS Modeler脚本简介脚本简介 SPSS Modeler 中的脚本编写是用于在用户界面上实现过程自动化的强大工具。您使用鼠标或键盘进行的操作您使用鼠标或键盘进行的操作,借助脚本同样可以借助脚本同样可以完成,而且使用脚本可以自动化那些手动执行将造成大量重复操作完成,而且使用脚本可以自动化那些手动执行将造成大量重复操作且高耗时的任务且高耗时的任务。 脚本作用包括:限制在流中执行节点的特定顺序。设置节点属性并使用 CLEM (

20、表达式操作控制语言)的子集来执行派生。指定通常包含用户交互的操作的自动执行顺序,例如您可以构建一个模型,然后对其进行测试。设置需要实际用户交互的复杂过程,例如需要重复模型生成和测试的交叉验证步骤。设置流操纵过程例如,您可以提取一个模型训练流,运行它,然后自动生成相应的模型测试流。43SPSS Modeler脚本类型脚本类型流脚本存储为流属性然后和指定流一起保存和载入。流脚本存储为流属性然后和指定流一起保存和载入。例如,可以编写自动化训练和应用模型块流程的流脚本。还可以指定何时执行特定流,脚本应代替流工作区内容运行。脚本和保存在外部文本文件中的所有特定流关联。脚本和保存在外部文本文件中的所有特定

21、流关联。例如,可以使用独立脚本同时操作多个流。超节点脚本存储为超节点流属性。超节点脚本存储为超节点流属性。超节点只在终端超节点中可用。可以使用超节点脚本控制超节点内容的执行序列。对于非终端(源或过程)超节点,可以为超节点定义属性或定义这种超节点直接在流脚本中包含的节点。 44SPSS Modeler流脚本示例流脚本示例SPSS Modeler脚本示例:脚本示例:execute Drug:neuralnetnode create analysisnode at 700 200 set DRUG1n:variablefilenode.full_filename = $CLEO_DEMOS/DRUG

22、2n insert model Drug connected between :typenode and :analysisnodeexecute :analysisnode45SPSS Modeler独立脚本示例独立脚本示例SPSS Modeler独立脚本示例:独立脚本示例:open stream $CLEO_DEMOS/Classification_Module/DRUGlearn.str execute :c50nodesave model Drug as rule.gm clear generated palette open stream $CLEO_DEMOS/Base_Module/DRUGplot.strload model rule.gm disconnect :plotnode insert model Drug connected between :derive and :plot set :plotnode.color_field = $C-Drug execute :plotnode46S

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论