




已阅读5页,还剩18页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,1,数据挖掘原理与SPSSClementine应用宝典,.,2,本章包括:市场购物篮分析利用决策树模型挖掘商业信息利用神经网络对数据进行欺诈探测,.,3,24.1市场购物篮分析,本节的例子采用Clementine系统自带的数据集BASKETS1n。该数据集是超市的“购物篮”(一次购物内容的集合)数据和购买者个人的背景数据,目标是发现购买物品之间的关联分析。,.,4,24.1.1定义数据源,.,5,24.1.2理解数据,在建模之前,我们需要了解数据集中都有哪些字段,这些字段如何分布,它们之间是否隐含着某种相关性等信息。只有了解这些信息后才能决定使用哪些字段,应用何种挖掘算法和算法参数。这个过程就是一个理解数据的过程。,.,6,24.1.3准备数据,在这18个字段中,有一些对于挖掘知识来说是没有用的,如cardid等,这时我们就可以把这些暂时没有用到的字段剔除出挖掘过程。这样可以节约挖掘时间和效率。,.,7,24.1.4建模,对字段设置完毕之后,下一步就是选择挖掘所需要的模型,在这里我们会选择使用三种不同的模型来挖掘该数据集。1.“Apriori”模型节点2.GRI模型3.“网络”节点,.,8,24.2利用决策树模型挖掘商业信息,过程如下:Step1:添加一个“变项文件”节点。Step2:加入一个“导出”节点。Step3:对“导出”节点进行设置。Step4:加入“Healthfood”字段之后,在“导出”节点后再加入一个“类型”节点,用来选择哪些字段用来进行数据挖掘。根据挖掘的目标,可以设置个人信息为“输入”,“Healthfood”设置为“输出”Step5:加入“C5.0”节点。Step6:点选“执行(E)”Step7:从“查看器”中查看该结果,.,9,输出类型除了选用“决策树”之外,还可以选择“规则集”来显示结果。用“规则集”表示的结果很多时候比“决策树”更加直观、易懂。,.,10,一般生成的决策树都是经过剪枝的。下面看看剪枝程度的高低对挖掘结果的影响。选中“模式”中的“专家”,把“修剪严重性”的值改为“0”,这意味着在挖掘过程中,进行的剪枝程度将很小。模型名称改为“nocut”。,.,11,选择“执行(E)”。在右面管理器窗口中选中“模型(S)”,在“nocut”上右击,选择“浏览(B)”,查看生成模型结果。,.,12,利用剪枝程度较高的决策树、剪枝程度低的决策树、规则集生成的结果,可以通过Clementine系统提供的很多模型来进行精度测试。在这儿选用“分析”节点。生成的结果显示剪枝程度高的模型正确率为93.8。同样的原理,测试“nocut”。剪枝程度低的精度为94.7。,.,13,24.3利用神经网络对数据进行欺诈探测,背景是关于农业发展贷款的申请。使用虚构的数据来说明如何使用神经网络来检测偏离常态的行为,重点为标识那些异常和需要更深一步调查的记录。要解决的问题是找出那些就农场类型和大小来说申请贷款过多的农场主。,.,14,24.3.1定义数据源,使用一个“变项文件”节点连接到数据集grantfraudN.db。在“变项文件”节点之后增加一个“类型”节点到数据流中。,.,15,24.3.2理解数据,在建模之前,需要了解数据集中都有哪些字段,这些字段如何分布,它们之间是否隐含着某种相关性等信息。只有了解这些信息后才能决定使用哪些字段,应用何种挖掘算法和算法参数。这个过程就是一个理解数据的过程。,.,16,24.3.3准备数据,首先考虑数据集中可能存在的欺诈类型。在该数据流中连接一个“条形图”节点并选定字段名为“name”的字段。选中“name”字段之后,点击“执行”。,.,17,在数据流区域中添加一个“选择”节点,对该节点进行设置。以农场大小、主要作物类型、土壤质量等为自变量建立一个回归模型来估计一个农场的收入是多少。,.,18,为了发现那些偏离估计值的农场,先生成一个字段diff,代表估计值与实际值偏离的百分数。在数据流中再增加一个“导出”节点进行设置。在数据流中增加一个“直方图”节点。对“直方图”节点进行设置。,.,19,24.3.4建模,将一个“类型”节点添加到当前数据流中。对数据集中的数据进行设置。,.,20,在数据流上添加一个“神经网络”节点。执行此数据流。神经网络经过训练后,会产生一个模型。将产生的模型加入到数据流流中。然后在数据流中再增加一个“散点图”节点,对“散点图”节点进行设置。设置完成之后,执行。,.,21,进行深一步的分析。在该数据流中增加一个“导出”节点,对该节点进行设置。为了说明真实值和估计值之间的差距,可以参考claimdiff的直方图。主要对那些由神经网络得出的申请超出预期的人感兴趣。在数据流中再添加一个“直方图”节点。双击打开该节点,在“字段”下拉列表中选择“claimdiff”,单击“执行(E)”。增加一个分割带到直方图中,右击带区生成一个选择节点,进一步查看那些claimdiff值较大的数据。,.,22,最后,在数据流中增加一个“条形图”节点。双击该节点,在“字段”下拉列表中选择“name”字段,点击“执行(E)”,得出结果如图所示。在图中所显示的就是我们要重点关注的数据。,.,23,24.4小结,本章通过使用Apriori模型、GRI模型、可视化网络图、决策树、神经网络等来说明如何使用Clementine在数据库中发现知识。Clem
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025福建三明清流县金星园建设发展有限公司招聘消防员2人模拟试卷及完整答案详解
- 2025年甘肃庆阳西峰数字服务就业中心招聘100人模拟试卷及一套完整答案详解
- 2025广西桂林工程职业学院人才招聘考前自测高频考点模拟试题及答案详解(名师系列)
- 2025年蒲江县公开招聘事业单位工作人员(14人)考前自测高频考点模拟试题有完整答案详解
- 2025航空工业沈阳兴华航空电器有限责任公司招聘9人(辽宁)考前自测高频考点模拟试题(含答案详解)
- 2025年绥化市明水县人民医院招聘中医医生模拟试卷及答案详解一套
- 双刃剑的困惑说课稿-2025-2026学年初中综合实践活动八年级第二学期沪科版(贵州专用)
- 第2章 生物与环境说课稿-2025-2026学年初中生物学苏科版七年级上册-苏科版
- 2025年一级注册消防工程师考试模拟题及答案(消防安全技术综合能力)(陕西)
- 2025年电子脉冲治疗仪项目提案报告模板
- 热镀锌钢管技术标准
- 周三多管理学第03章管理的基本原理
- 基础生态学第4章种群及其基本特征课件
- 虚拟现实与增强现实头戴显示关键技术及应用项目
- 《电力工业企业档案分类规则0大类》(1992年修订版)
- (人教版三年级上册)数学时间的计算课件
- GB∕T 26520-2021 工业氯化钙-行业标准
- 温州医科大学《儿科学》支气管肺炎
- 常见传染病预防知识ppt-共47页课件
- 路灯基础开挖报验申请表
- 建筑材料送检指南(广东省2018完整版)
评论
0/150
提交评论