商务智能实验报告_第1页
商务智能实验报告_第2页
商务智能实验报告_第3页
商务智能实验报告_第4页
商务智能实验报告_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、商务智能综合性、设计性实验成绩单 开设时间:2014-2015学年第二学期班级学号姓名实验题目实验三 数据挖掘实验成绩教师签名评分标准 A B C D E 比重%内容完成情况 25%系统分析设计 30%系统设计水平 20%实验报告撰写 10%总结 5%其他(功能) 10%总评一、实验目的1掌握数据挖掘的建模方法,理解数据挖掘的原理;2学习使用SPSS CLEMENTINE11.1中基本的数据挖掘建模工具;3了解数据挖掘建模的机制,实现数据挖掘的建模。二、实验内容1. 以数据挖掘建模工具依据,在SPSS CLEMENTINE11.1环境下创建一个数据挖掘模型,在该模型中实现数据挖掘的目标邮件、预

2、测、购物篮分析以及顺序分析和聚类分析其中的一个基本功能;2. 在任选题目中选三个完成相关实验步骤并提交实验报告。三、实验步骤与结果题目1:欺诈屏蔽(异常检测/神经网络)1. 目的:熟悉各种聚类分析方法 ,了解神经网络分析方法与过程。并掌握异常检测的方法。2.实验内容:(1)聚类分析。(2)神经网络建模。(3)异常检测。(4)此实验显示了 Clementine 在检测诈欺行为方面的应用。这一领域涉及农业发展财政补贴申请。有两种财政补贴类型在考虑之列:耕地开发财政补贴和退役田地财政补贴。3模型建立与分析:在这次给出的题目中,我们需要建立两个模型,进行进一步的分析。模型一:1.模型建立过程按照给出的

3、教程一步一步操作,可以得出以下模型一,过程比较简单,遇到的一个小问题是找不到黄色的anomaly,在基本操作中没有指出黄色的anomaly是运行后生成的,我们只在下面列表中选择查找,做了无用功。在询问同学后,才解决了这个简单的问题。2.结果分析如您所期望的那样,将标志出金额最高的申请。不过,还标志出了许多其他金额的申请,其中包括某些金额最低的申请。要弄清事情缘由,有必要进一步观察数据模型二:1.建立过程要继续分析诈欺数据,可以使用勘察表来调查数据。此操作可帮您设立对建模很有用的假设条件,根据教程给出的步骤建模,可得到以下模型:2.结果分析在导出节点后再连接一个导出节点在公式中输入:(abs(f

4、armincome)garmincome)*100),然后在节点后添加直方图节点。双击直方图图标,字段选择diff,颜色选择claimtype,点击执行生成直方图,从图中可以看出大偏差都发在财政补贴。添加神经网络节点并执行。一旦神经网络训练结束,可以将已生成模型添加到流,然后绘制一张预期申请金额与实际申请金额的比较图。可知道大多数案例的预期申请金额与实际申请金额都基本相符为了说明实际申请金额与预估申请金额之间的差异,请使用 claimdiff 直方图。我们主要想了解申请金额比预估金额(由神经网络判断)高的人。4总结1.本例演示了两种筛选潜在诈欺案例的方法 - “异常检测”和基于“神经网络”的建

5、模方法。2.使用“异常检测”进行预筛选后,您可以创建一个模型,将模型预测值与数据集中的现有值(关于田地收入字段)进行比较。从比较结果看出,偏差主要出现在某类财政补贴申请(耕地开发)中,然后选择相应记录进行进一步调查。通过训练神经网络模型,申请金额与田地大小、评估收入、主要农作物等之间建立了关系。与网络模型预估金额相差较大(大于 50%)的申请将检测出来并有待进一步调查。当然,有可能所有这些申请都是有效的,但他们与标准数据存在偏差的事实值得引起人们的注意。3.为了进行比较,将再次使用异常检测节点,但此次只针对“神经网络”分析中包含的耕地开发财政补贴使用该节点。除存在些微差别之外,此方法得到的结果

6、与“神经网络”方法几乎相同。由于两种方法均为勘察方法,这也在情理之中。 题目7:预测产品分类销售情况(时间序列)1.背景:本实验的数据是来自于Clementine软件中自带的Catalog_seasfac.sav数据源。该数据是一个产品分类销售公司过去10年的销售数据,时间跨度是19901999年。2.实验目的:根据这些数据预测其男装生产线的月销售情况。3.实验过程:实验步骤严格按照软件应用程序示例中所说的进行。按照示例中所说的进行过程中,一共建立了5个流,输出图表5张。除了第一个流在表现上不同于后4个流,其他的流在外表上没有什么区别,如图所示: 第一个流建立的目的是探寻该序列是什么类型的模型

7、。确定类型后,在时间序列方法中分别选择指数平滑、指数平滑中的Holts线性趋势、指数平滑中的Winters乘法、Expert Modeler中的仅ARIMA模型和Expert Modeler考虑季节模型来建立模型,最后通过时间散点图节点输出图表。特别说明的是,在前4个流中,数据源类型中,只有men字段的方向为输出,其他均为无。在最后一个流中,men字段的方向为输出,mail、page、phone、print、service字段的方向为输入,其余为无。结果分析从结果来看,该序列整体呈上升趋势,序列值随时间的增加而增加,上升趋势持续,故判断序列为线性趋势。细看可以发现每年的12月是所在年份中的最大

8、值,具有明显的季节特征。且季节变化显示随上升序列而增长的趋势,说明该序列是乘法季节模型。1第一个流的输出结果从第一个流的输出结果知道该序列具有明显的季节特征。虽然此输出结果显示出较为平稳的上升趋势,但并没有考虑季节这一因素。所以拒绝此模型。 2第二个流的输出结果本次的输出结果与上次的输出结果非常类似,只是上升趋势更为平滑,但仍然未显示出季节特征,故拒绝次模型。3第三个流的输出结果这个模型与前两个模型相比已经明显好了很多。在显示数据上升趋势的同时也表现出了明显的季节特征。10个预测的季节最高峰值与实际数据相吻合,但对于每年的最低值却没有很好的显示出来。表现了这个模型的局限性。4第四个流的输出结果

9、这个模型弥补了上个模型的缺陷。很好地捕捉了波峰波谷,并且保持为当前最恰当的值。5第五个流的输出结果题目10:电信客户分类(使用判别分析)1.背景:假设某个电信提供商根据服务使用模式对它的客户群进行了分段,将这些客户分为了四个组。如果人口统计数据可用于预测组成员,则您可以为不同的准客户定制产品。2.实验目的:创建一个判别式模型,用以基于每个用户的人口统计学信息将用户分类到四个预定义的“服务使用”组之一。利用结构矩阵和区域图,能够鉴别出那些最有助于分割客户群的变量。3.实验步骤:(1)创建流:添加 telco.sav 的 SPSS 文件源节点、类型节点、过滤节点、判别节点(2)检查生成的模型:运行

10、节点以生成模型,该模型会添加到右上角的模型选项板中。建立的模型如下:结果分析:1.逐步判别式分析在最后一个步骤中保留在分析之外的变量具有的 F to Enter 值都小于 3.84,因此不再向分析中添加其他变量。此表显示了每个步骤中包括在分析中的变量的统计信息。容差指该变量的方差中不能由方程式的其他自变量解释的部分所占比例。容差很小的变量可以向模型提供的信息很少,并且可导致计算问题。F to Remove 值有助于说明从当前模型中删除某个变量(假设其他变量仍保留)时可能发生的情况。输入变量的 F to Remove 与上述步骤中的 F to Enter 相同(显示于“不包括在分析中的变量”表)

11、。2.检查模型拟合 几乎所有由模型解释的方差都源于前两个判别函数。 三个函数可自动拟合,但由于第三个函数特征值极小,可以完全忽视此函数而不用担心安全性。Wilks' lambda 认同仅有前两个函数是有用的。对于每一个函数集合,该判别式检验各组所列函数的均值相等的假设。对函数 3 的检验具有的显著性值大于 0.10,因此该函数对模型而言意义甚微。3.结构矩阵 当存在多个判别式函数时,用星号来标记每个变量与某典范函数的最大绝对相关度。在每个函数内部,这些标记星号 (*) 的变量将按相关度大小排序。 教育程度与第一个函数具有最强相关度,并且它是与该函数具有最强相关度的唯一变量。工作时间、年

12、龄、家庭收入(以千计)、现住址居住时间、是否退休、以及性别与第二个函数具有最强相关度,而性别和是否退休与该函数的相关度比其他变量要弱许多。其他变量将该函数标记为“稳定”函数。家庭成员数和婚姻状况与第三个函数具有最强相关度,但该函数是无用函数,因此这些变量是几乎无用的预测变量。 4.区域图区域图有助于研究组与判别式函数之间的关系。结合结构矩阵的结果,区域图能够对预测变量和组之间的关系提供图形化的解释。总体而言,标记有星号 (*) 的组的矩心靠近区域边界时,则表明所有组间的分隔不是非常强。区域图仅绘制了前两个判别式函数,但由于第三个函数无关紧要,因此区域图提供了判别式模型的全面视图。5. 分类结果但分类结果显示模型对电子服务用户进行分类时表现欠佳。需要进一步研究来确定另一个预测变量,以便更好地对这些用户进行分类4、 结论与讨论在本次实验中,我们小组选择了题目1诈欺屏蔽(异常检测/神经网络),题目7预测产品分类销售情况(时间序列)和题目10电信客户分类(使用判别分析),这3个题目各自建立的模型实现了数据挖掘的聚类分析、预测、判别分析的基本功能。在数据建模的过程中,实验步骤是严格按照软件应用程序示例中所

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论