




已阅读5页,还剩75页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,1,第二讲:消费者响应预测模型,主讲:梁满发,.,2,数据挖掘工作意图,数学挖掘工作意图是揭示海量数据中的隐蔽规律,以预测目标顾客、风险控制、欺诈模式识别等工作为主要目的。,做好数据挖掘工作需要准备好三件事:()定义好问题谁是目标消费者?()高质量的历史数据几年的客户购买记录()一个强大的建模工具数据挖掘软件,.,3,数据挖掘工作流程,抽样,定义问题,数据探测,数据清冼,定义数据属性,建模,模型评估,预测或计算得分,分析报告,.,4,问题背景,假如你为一个邮购公司工作。公司为了配合销售活动,希望每月发送家具和家用器品产品目录给潜在消费者,内容包括厨房用具、碗碟和餐具产品的目录。假如向全部消费者寄送费用太贵,必须选择购买该类产品概率较大消费者邮寄。现在如何确定一份待邮寄名册?我们将通过建立消费倾向模型,使用数据挖掘工具来确定邮寄名单和分析活动效益情况。,假如你有一个珍贵的顾客购买记录数据。这个数据包括能显示顾客过去两年是否购买过厨房用具、碗碟和餐具等信息。数据文件名为CUSTDET1,它包括了如下49个变量和标签:,PurchaseDollarsSpentYearlyIncomeHomeValueOrderFrequencyRecencyMarriedNamePrefixAgeSexTelemarketInd.RentsApartmentOccupied0,则DINBEIN1;当Dining0,则DINBEIN0;,.,18,TransformVariablesToolbox,TransformVariables使用软件提供的变换公式创建一个新变量,CreateVariable使用CreateVariableswindow创建自定义变换,DeleteVariables删除变换后的新变量,但不能删除原变量。,.,19,原数据变量窗口,数值键板,运算符面板,自定义变换公式,函数窗,.,20,Training用来拟合模型的数据集.Validation用来评估模型和模型调整的数据集。Test用来获得最终模型误差的无偏估计。Score得分数据集,可以包括目标变量,也可以不包括。,.,21,分割,分位数(Quantile)用来划分频数相同的组。分割(Bucket)为等间隔区间,每组间的样本数不一定等。OptimalBinningforRelationshiptoTarget:把变量分成n组,使分组后变量与目标变量相关系数最大。适合在二值变量与输入变量之间存在非线性关系的情况。,MaximizenormalityPowerTransformation:变换后变量最接近正态分布。MaximizeCorrelationwithTargetPowerTransformation:变换后变量与目标变量线性相关系数最大,适合区间目标变量。EqualizeSpreadwithTargetLevelsPowerTransformation:变换后变量与目标变量具有方差稳定性。选择x、log(x)、x1/4、sqrt(x)、x2、x4、ex中之一作为变换式,.,22,在建模前,我们除了要定义变量模型角色、数据类型外,还必需定义决策成本、收益信息,即决策函数。在商业智能中,分析模式都是商业决策模型。例如,消费响应预测、信用等级评估和商品关联描述等模型。在本问题中,我们要定义DINBEIN为目标变量,是二值变量;放弃与它共线性的四个变量。依据邮送成本收益和原总体响应比例情况,定义决策矩阵和先验概率。数据集属性节点能完成上述任务。,.,23,设置数据集属性,它能修改数据属性。例如,数据集名、描述、角色。也能修改样本信息,例如,变量角色、测度水平。在变量表中可以定义目标变量框架。,预测模型需要定义唯一的目标变量和多个输入变量,模型评价需要定义目标变量的决策矩阵和样本权重,预测需要定义DI变量。,.,24,变量表,决定变量是输出还是不输出,修改变量角色,修改变量测度,本次数据挖掘工作:()把Dining、Kitch、dish、flat四个变量角色改为Rejected,DINBEIN变量角色改为Target。()把DINBEIN变量测度改为binary。,.,25,定义目标变量框架,成本收益假设:()制作、印刷和邮寄一份产品目录成本10元;()若正确预测,即邮寄一份,顾客将来购物,每顾客平均花费90元,即赢得利润80元;若预测不正确,即邮寄一份,但顾客未来购物,此时亏本10元。,编辑目标框架,.,26,评估信息,即定义决策目标函数,先验概率定义,注:由于目标变量值较少,仅在总体中占12,但为了有足够训练目标值,在数据库中对样本进行了重抽样,产生了足够多的目标值,占样本中的54左右,为此建模需要加权处理。,.,27,数据分割,DataPartition节点将输入数据分割为下列互斥数据:Training用来拟合模型的数据集.Validation用来评估模型和模型调整的数据集。Test用来获得最终模型误差的无偏估计。,为了拟合模型需要定义一个训练数据集;为了保证模型的稳健性,需要定义效验数据集评估模型,决策稳建模型;为得到模型参数的一致最小无偏估计,需要定义测试数据集。它们均来自样本的随机抽样的互斥数据集。,.,28,前面过程输入的数据,只有观察数据的角色、测度等信息,不能改变。,.,29,简单随机抽样,分层抽样,自定义数集,将总体分成若干个层,指定每层样本数,在每层中进行简单随机抽样,得到的总样本,这种抽样方式称为分层抽样。,自定义数集就是指定具有标志的分割数据集变量作为分割变量,依据此变量将输入数据分为训练集、效验集、或测试集。,.,30,观察结果,.,31,缺失值处理,Replacement节点用来处理缺失值。缺失值是不能用来回归建模和神精网络建模。若用放弃所有的缺失值的样本来估计,可能会得有偏估计模型。使用适当的缺失值处理方法有利得到更准确的预测。,本例中DINBEIN没有缺失数据,可以省掉此过程。,.,32,现实调查、观察和记录难免产生缺失数据,可是缺失数据经常会影响模型的精度。例如,不回答者可能就是不赞成者,若你把他们全排除,你的模型结论可能出现严重偏差。因此,在建前应该仔细研究缺失数据的情况和原因,采取全适的方法处理,尽量减少缺失数据可能对模型影响的程度。Replacement节点专门处理缺失数据的功能模块,但处理缺失数据的方法很多,要选择合适的方法,不仅需要专业统计知识,更需要熟习数据采集情况,要了解产生缺失数据的原因。在本例中没有缺失数据,因此,可以不要此过程。回归模型建模之前需要处理缺失数据,决策树模型不需要,自动把缺失数据归于一类。,.,33,选择具备一定角色的数据集,随机抽样补缺,.,34,使用Defaults栏指定方法:在处理缺失值之前指定缺失值代替方法。用得分集代替不清楚类变量的值。对每一个变量创建带有标志的处理变量来处理观察值。,类变量统计处理方法:最大频率法基于分布法树支处理法树支首规则处理法常数法无处理,对区间变量处理缺失值统计方法:Mean均值法Median中位数法Midrange极值的中间值法Distributionbased基于分布法Treeimputation树支处理法Treeimputationwithsurrogates树支首规则处理法Mid-minimumspacing中间平均值估计法TukeysbiweightTukey加权法HubersHuber加权法AndrewsWaveAndrew波动法Defaultconstant常数法None不处理,.,35,树模型,一个完整的树是指通过一系列简单规则分割数据。每一个规则就是根据某变量值将样本分给一个数据块,在数据块内一个规则接一个规则应用,将数据块分为更细的数据块。层次称为树,每块数据称为节。原始数据称为根,具有多个后续节的节称为支,最终节称为叶。每一个叶为对全部样本的一个决策结果,它依赖上下文,这种预测模型称为决策树模型。,.,36,分支标准设置,显著性水平,不宜太高,.,37,节中保证的最少观察数,在每节中替补值个数,.,38,树节点支持下列模型评价标准:区间目标变量:Profitorloss平均利润最大,或平均损失最小。ASE最小平均误差。Average,profit,orlossinthetop10,25,or50%-对n顶部样本最大平均利润,或最小平均损失。顺序目标变量:Proportionmisclassified最小错判率。Ordinal-proportioncorrect,profit,orloss最好的秩序正判率。Proportionofevent,profit,orlossintop10,25,or50%-在数据n的顶部最大利润或最小损失。TotalLeafImpurity(GiniIndex)最大叶内纯度(最小Gini指数)。二值或名义目标变量:Proportionmisclassified误判比例最小。ProfitorLoss最大平均利润或最小平均损失。Proportionofevent,profit,orlossintop10,25,or50%-对n顶部样本最大平均利润,或最小平均损失。TotalLeafImpurity(GiniIndex)-最大叶内纯度(最小Gini指数)。,.,39,分支法则:最好的评估值最多叶最少有n叶的最大支,足够样本分裂,全部样本分裂,给定P值,即显著性水平,给出树的最多层次,给出有效变量数,避免过多的自变量,.,40,本例设置,.,41,运行结果,.,42,.,43,.,44,例如,得分前10的样本中有19左右的响应,高于12;在得分前20中有20左右的响应。,例如,得分前10的样本中有捕获了全部响应的16左右;在得分前20中捕获了全部响应的32左右。,.,45,若提取得分前10样本,则比不使用模型捕获率提高1.58倍。,若对得分前20的消费者邮寄产品册,这项活动则获得每个样本的平均利润7.5元左右。,.,46,若对得分前20的消费者邮寄产品册,这项活动则获得投资回报率0.75。,.,47,回归模型,Regression节点能建立线性模型和logistic模型。线性回归模型是用一个或几个输入变量的线性函数预测连续型的目标变量的值;Logistic回归模型是用一个或几个输入变量函数预测分类目标变量有利事件发生的概率。,.,48,回归模型的类型:()线性模型()Logistic模型,Logistic回归函数:()Logit:()CLOGLOG:()PROBIT:,.,49,回归方法:()Backward后退法()Forward前进法()Stepwise逐步回归法,交互作用,.,50,.,51,.,52,模型评估,Assessment节点提供了决策树模型、神精网络模型、回归模型、组合模型和自定义模型的比较和预测的平台。模型和预测工具的共同标准是比较从模型结果中得到的期望利润或损失。它能比较多个模型节点产生的模型。,.,53,不同的模型是由不同变量组成,所以对响应是用不同数据信息预测,因此,对同一对象预测值不相同。这样我们应用模型预测时就要选择模型,也就要对模型进行评价。评价模型好坏的唯一标准是决策目标函数平均误差最小(有时是利润、有时是误判率)。可是不同的模型,对不同数据集的预测效果是不一样的,就同一模型给定不同阀值,也使误判不一样,因此,对阀值的选择就有优化决策。,.,54,.,55,.,56,.,57,特性曲线,敏感性:正判数除于响应数,特异性:误判数除于非响应数,Reg模型好,Tree模型好,.,58,报告,Reporter节点把数据挖掘流程产生的结果集成为HTML格式报告,以便网页浏览。报告内容包括报告描述、流程图和每个节点的子报告。一般报告放在数据挖掘流程最后。,.,59,.,60,结果浏览,.,61,.,62,.,63,得分或预测,Score节点管理、编辑、输出、执行由训练模型产生的得分代码。对一个没有目标值的数据集进行预测,它是数据挖掘工作的最终结果。,训练和测试模型后,对目标用Logistic回归,选择10得分高的客户邮寄产品目录。现在需要对客户数据预测目标值,使用Score节点完成工作。,.,64,我们只有提取的前面模型运算程序代码,将来才能离开SASEnterpriseMiner环境运行。Score节点就是用来提取代码的,以便用在BASESAS环境下运行。为了产生邮寄名册,我们需要应用前面模型来预测更广泛的客户数据库,即运用提取的代码在BASESAS上运行,得到目标变量的响应预测值,依据判断阀值,选择得分值高于阀值的客户,从而产生了邮寄名册。在本例中,我们以原数据集作为预测数据集。,.,65,选择前断节点输入的数据,.,66,操作设置:Inactive输出最近数据集产生的模型计算代码。Applytrainingdatascorecodetoscoredataset从训练数据集到得分数据集应用模型计算代码。Accumulatedatasetsbytype复制和输出前续节点输入的数据集。Mergedatasetsbytype合并前续节点输入的数据集。,.,67,Currentimports列出前续节点输入当前得分代码。Accumulatedruns列出最近运行路径(训练操作)前续节点输出的得分代码。Saved列出已保存或合并的代码项。All列出由节点管理的代码项。,.,68,把代码文件输出保存为:REGRESSION。在BASESAS中显示并编辑。,.,69,编辑代码,/*-*/*ENTERPRISEMINER:BEGINSCORECODE*/*-*/%macroDMNORLEN;32%mendDMNORLEN;%macroDMNORMCP(in,out);,运行代码创造_PREDICT数据集由后来的得分代码创建。,.,70,%macroDMNORMIP(in);,为了高分列在前列要进行观察值排序和观察得分情况,在代码结束前要增加下列代码:procsortdata=,.,71,.,72,.,73,预测,.,74,对预测集应用训练集得到的得分代码预测。,.,75,浏览预测结果,.,76,例如,我们要取得分前10的客户邮寄,则依据预测数据集选出名单。,.,77,信用评分模型寅示,使用数据挖
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年部队食堂智能化改造与运营维护服务合同
- 2024阳江市阳东区雅韶镇社区工作者招聘考试试题
- 2026届福建省连城县一中化学高三上期中调研模拟试题含解析
- 2026届上海闵行区化学高一上期末达标测试试题含解析
- 转变作风服务群众课件
- 北师大学附中2026届化学高一第一学期期中经典试题含解析
- 2026届湖北省重点高中协作体高三上化学期中预测试题含解析
- 基孔肯雅热防控技术指南(2025年版)测试题及参考答案
- 2025年村官笔试题目及答案
- 电大行政管理试题及答案
- 人教PEP版(一起)(2024)一年级上册英语全册教案(单元整体教学设计)
- 护士职业防护
- 酒店公共卫生事件应急预案
- 2024-2025学年小学劳动一年级上册人教版《劳动教育》教学设计合集
- 五年级开学第一课
- DL∕T 1664-2016 电能计量装置现场检验规程
- DL∕T 1455-2015 电力系统控制类软件安全性及其测评技术要求
- 临床护理“三基”应知应会汇编
- 家委会给老师的感谢信
- OpenStack私有云基础架构与运维(openEuler版)全套教学课件
- 眼鼻美容造型艺术设计
评论
0/150
提交评论