




免费预览已结束,剩余13页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Clementine使用经典实例下面使用Adventure Works数据库中的Target Mail作例子,通过建立分类树和神经网络模型,决策树用来预测哪些人会响应促销,神经网络用来预测年收入。Target Mail数据在SQL Server样本数据库AdventureWorksDW中的dbo.vTargetMail视图,关于Target Mail详见:/zh-cn/library/ms124623.aspx#DataMining1.定义数据源将一个Datebase源组件加入到数据流设计区,双击组件,设置数据源为dbo.vTargetMail视图。在Types栏中点“Read Values”,会自动读取数据个字段的Type、Values等信息。Values是字段包含的值,比如在数据集中NumberCardsOwned字段的值是从0到4的数,HouseOwnerFlag只有1和0两种值。Type是依据Values判断字段的类型,Flag类型只包含两种值,类似于boolean;Set是指包含有限个值,类似于enumeration;Ragnge是连续性数值,类似于float。通过了解字段的类型和值,我们可以确定哪些字段能用来作为预测因子,像AddressLine、Phone、DateFirstPurchase等字段是无用的,因为这些字段的值是无序和无意义的。Direction表明字段的用法,“In”在SQL Server中叫做“Input”,“Out”在SQL Server中叫做“PredictOnly”,“Both”在SQL Server中叫做“Predict”,“Partition”用于对数据分组。2.理解数据在建模之前,我们需要了解数据集中都有哪些字段,这些字段如何分布,它们之间是否隐含着相关性等信息。只有了解这些信息后才能决定使用哪些字段,应用何种挖掘算法和算法参数。在除了在建立数据源时Clementine能告诉我们值类型外,还能使用输出和图形组件对数据进行探索。例如先将一个统计组件和一个条形图组件拖入数据流设计区,跟数据源组件连在一起,配置好这些组件后,点上方绿色的箭头。等一会,然后这两个组件就会输出统计报告和条形图,这些输出会保存在管理区中(因为条形图是高级可视化组件,其输出不会出现在管理区),以后只要在管理区双击输出就可以看打开报告。3.准备数据将之前的输出和图形工具从数据流涉及区中删除。将Field Ops中的Filter组件加入数据流,在Filter中可以去除不需要的字段。我们只需要使用MaritalStatus、Gender、YearlyIncome、TatalChildren、NumberChildrenAtHome、EnglishEducation、EnglishOccupation、HouseOwnerFlag、NumberCarsOwned、CommuteDistance、Region、Age、BikeBuyer这些字段。加入Sample组件做随机抽样,从源数据中抽取70%的数据作为训练集,剩下30%作为检验集。注意为种子指定一个值,学过统计和计算机的应该知道只要种子不变,计算机产生的伪随机序列是不变的。因为要使用两个挖掘模型,模型的输入和预测字段是不同的,需要加入两个Type组件,将数据分流。决策树模型用于预测甚麽人会响应促销而购买自行车,要将BikeBuyer字段作为预测列。神经网络用于预测年收入,需要将YearlyIncome设置为预测字段。有时候用于预测的输入字段太多,会耗费大量训练时间,可以使用Feature Selection组件筛选对预测字段影响较大的字段。从Modeling中将Feature Selection字段拖出来,连接到神经网络模型的组件后面,然后点击上方的Execute Selection。Feature Selection模型训练后在管理区出现模型,右击模型,选Browse可查看模型内容。模型从12个字段中选出了11个字段,认为这11个字段对年收入的影响比较大,所以我们只要用这11个字段作为输入列即可。将模型从管理区拖入数据流设计区,替换原来的Feature Selection组件。4.建模加入Nearal Net和CHAID模型组件,在CHAID组件设置中,将Mode项设为”Launch interactive session”。然后点上方的绿色箭头执行整个数据流。Clementine在训练CHAID树时,会开启交互式会话窗口,在交互会话中可以控制树生长和对树剪枝,避免过拟合。如果确定模型后点上方黄色的图标。完成后,在管理区又多了两个模型。把它们拖入数据流设计区,开始评估模型。5.模型评估修改抽样组件,将Mode改成“Discard Sample”,意思是抛弃之前用于训练模型的那70%数据,将剩下30%数据用于检验。注意种子不要更改。我这里只检验CHAID决策树模型。将各种组件跟CHAID模型关联。执行后,得到提升图、预测准确率表6.部署模型Export组件都可以使用Publish发布数据流,这里会产生两个文件,一个是pim文件,一个是par文件。pim文件保存流的所有信息,par文件保存参数。有了这两个文件就可以使用clemrun.exe来执行流,clemrun.exe是Clementine Solution Publisher的执行程序。Clementine Solution Publisher是需要单独授权的。在SSIS中pim和par类似于一个d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 3D打印轮胎工艺-洞察与解读
- 2025年及未来5年中国花草茶行业市场调研分析及投资战略咨询报告
- 2025湖南湘潭市市直学校人才引进45人模拟试卷(含答案详解)
- 2025湖南红花园投资开发有限公司招聘10人考前自测高频考点模拟试题及答案详解(全优)
- 2025辽宁抚顺高新热电有限责任公司招聘专业技术人员18人考前自测高频考点模拟试题及参考答案详解1套
- 2025广东深圳市优才人力资源有限公司招聘聘员(派遣至深圳市龙岗区审计局)1人考前自测高频考点模拟试题及答案详解(名校卷)
- 绿电消纳策略-洞察与解读
- 2025河北保定市雄安新区雄县事业单位招聘89人考前自测高频考点模拟试题及一套答案详解
- 2025年甘肃农业大学招聘工作人员考前自测高频考点模拟试题及答案详解(易错题)
- 2025河北承德市消防救援支队招聘政府专职消防队员模拟试卷及答案详解(有一套)
- 化验员职业技能培训考试题库及答案(含各题型)
- 2025年广东省中考历史试题卷(含答案详解)
- 阴挺的中医护理
- 中药熏洗法试题及答案
- 施工现场环境保护管理标准化图册
- 2023梅毒螺旋体血清学试验生物学假阳性处理专家共识
- 医院装修项目中的安全措施与难点处理
- 消化内科护理进修汇报
- 人类辅助生殖技术质量监测与评价规范
- 让剪影动起来(教学设计)-2024-2025学年人教版(2012)美术六年级上册
- MBA硕士论文案例研究范文分享
评论
0/150
提交评论