




已阅读5页,还剩22页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘技术与应用实 验 报 告专业:_班级:_学号:_姓名:_2012-2013学年 第二学期经济与管理学院实验名称:SPSS Clementine 软件安装、功能演练指导教师: 实验日期: 成绩: 实验目的1、熟悉SPSS Clementine 软件安装、功能和操作特点。2、了解SPSS Clementine 软件的各选项面板和操作方法。3、熟练掌握SPSS Clementine 工作流程。实验内容1、打开SPSS Clementine 软件,逐一操作各选项,熟悉软件功能。2、打开一有数据库、或新建数据文件,读入SPSS Clementine,并使用各种输出节点,熟悉数据输入输出。(要求:至少做access数据库文件、excel文件、txt文件、可变文件的导入、导出)实验步骤一 实验前准备:1.下载SPSS Clementine 软件安装包和一个虚拟光驱。2.选择任意盘区安装虚拟光驱,并把下载的安装包的文件(后缀名bin)添加到虚拟光驱上,然后双击运行。3.运行安装完成后,把虚拟光驱中CYGiSO文件中的lservrc文件和PlatformSPSSLic7.dll文件复制替换到安装完成后的bin文件中,完成破解,获得永久免费使用权。4.运行中文破解程序,对SPSS Clementine 软件进行汉化。二 实验操作:1、启动 Clementine:从 Windows 的“开始”菜单中选择:所有程序/SPSS Clementine 12.0/SPSS Clementine client 12.02、Clementine窗口当第一次启动 Clementine 时,工作区将以默认视图打开。中间的区域称作流工作区。在 Clementine 中,这将是用来工作的主要区域。Clementine 中绝大部分的数据和建模工具都在选项板中,该区域位于流工作区的下方。每个选项卡都包含一组以图形表示数据挖掘任务的节点,例如访问和过滤数据,创建图形和构建模型。Clementine 中绝大部分的数据和建模工具都在选项板中,该区域位于流工作区的下方。每个选项卡都包含一组以图形表示数据挖掘任务的节点,例如访问和过滤数据,创建图形和构建模型。要将节点添加到工组区,可在节点选项板中双击图标或将其拖拽至工作区后释放。随后可将各个图标连接以创建一个表示数据流动的流。创建一个简单的数据流操作:编辑“数据源”选择一种数据文件(数据库文件、excle文件或可变文件等),双击文件类型,即可添加到数据流编辑区注:导入数据库文件需要通过ODBC方式访问数据库。步骤:第一步:打开windows“控制面板”,依次选择“管理工具”和“数据源ODBC”。添加一个所要访问的数据源驱动(如:microsoft access driver(*.mdb)。 第二步:点击“选择”,选择相应的数据源和相应的表/视图。在“输出”模型中选择一种输出模型(表或自定义表格)。按快捷键F2把数据源与输出模型链接起来。双击数据源对其进行编辑,导入相应的文件,然后单击“执行”,就可以看到输出的表。实验总结:实验评价(教师):实验名称:SPSS Clementine 数据可视化指导教师: 实验日期: 成绩: 实验目的1、熟悉SPSS Clementine 绘图。2、了解SPSS Clementine 图形选项面板各节点的使用方法。3、熟练掌握SPSS Clementine 数据可视化流程。实验内容1、打开SPSS Clementine 软件,逐一操作各图形选项面板,熟悉软件功能。2、打开一有数据库、或新建数据文件,读入SPSS Clementine,并使用各种输出节点,熟悉数据输入输出。(要求:至少做分布图、直方图、收集图、多重散点图、时间散点图)实验步骤1、启动 Clementine:请从 Windows 的“开始”菜单中选择: 所有程序SPSS Clementine 12.0SPSS Clementine client 12.02、建立一个流、导入相关数据,打开图形选项面板。数据源文件类型为“可变文件”,导入相应文件“drug_long_name”,双击选择分布图、直方图、收集图、多重散点图、时间散点图等节点,按住F2键连接好个节点建立好数据流图。源数据字段包括:Sex、 BP 、NA 、K、 Age、 cholesterol、Drug。3.分布图编辑“分布图“,选定字段”sex”,交叠字段颜色“drug”,按计数排序。标题“药品种类分布图“。执行数据流,生成相应的分布图。图形分析结果见下表。药品比例计数 drugA0.111111drugB0.06969drugC0.103103drugX0.27270drugY0.4474474.直方图编辑直方图”,选定字段”na”,交叠字段颜色“drug”,分箱按数量30,标题“钠含量与药品种类直方图”。执行数据流生成相应直方图。从图中可以看出drugY的na含量最高,明显高于其他药品。5.收集图编辑“收集图”,收集字段“na”,超出字段“k”,由:“cholesterol”(三维图)。交叠字段颜色:“cholesterol”。标题“na超出age由cholesterol收集图”。执行数据流生成相应的收集图。从图中可以看出,在相同k含量的基础上,Normal level of cholesterol水平的na含量大部分比High level of cholesterol水平的na含量低。6.多重散点图编辑“多重散点图”,X字段:age。Y字段:“k“、”na“。交叠字段颜色:”cholesterol“。执行数据流,生成相应的”标准化“或非“标准化”的多重散点图。从图中可以看出,同一年龄的人,na含量明显比k含量高;na含量随年龄的变化波动比较大,而k含量随年龄的变化波动不明显。7.冒泡图编辑“图形板”,“详细信息”中选择图形“冒泡图”,X:age。Y:na。大小:drug。颜色:drug;单击“应用“,执行数据流,生成相应冒泡图。从图中可以看出冒泡图中清楚地显示一个阈值,在此阈值上方,对症药品始终是 Y,在此阈值下方,对症药品均不是 Y。此阈值是一个比率,即钠(Na)和钾(K)的比率。实验总结:实验评价(教师):实验名称:决策树C5.0 建模指导教师: 实验日期: 成绩: 实验目的1、熟悉SPSS Clementine建模方法。2、掌握SPSS Clementine分布图、散点图、网络图的创建方法。3、掌握决策树C5.0决策方法。实验内容1、创建散点图。2、创建分布图。3、创建网络图。假设你是一位正在汇总研究数据的医学研究员。已收集了一组患有同一疾病的患者的数据。在治疗过程中,每位患者均对五种药物中的一种有明显反应。的任务就是通过数据挖掘找出适合治疗此疾病的药物。此实验使用名为 druglearn.str 的流,此流引用名为 DRUG1n 的数据文件。可以从任何 Clementine Client 安装软件的 Demos 目录下找到这些文件,也可以通过从 Windows 的“开始”菜单选择 Start All Programs SPSS Clementine 11.1 Demos访问这些文件。文件 druglearn.str 位于 Classification_Module 目录中。此 demo 中使用的数据字段包括: 年龄(数值)性别M 或 FBP血压:高、正常或低胆固醇血液中的胆固醇含量:正常或高Na血液中钠的浓度K血液中钾的浓度药品对患者有效的处方药实验步骤1、读取文本数据新建数据源可变文件”。然后,双击新添加的节点以打开相应的对话框。单击紧挨“文件”框右边以省略号“.”标记的按钮,浏览到系统中的 Clementine 安装目录。打开 demos 目录,然后选择名为 DRUG1n 的文件。选择从文件读取字段名,并注意已载入此对话框中的字段和值。源数据字段包括:Sex、 BP 、NA 、K、 Age、 cholesterol、Drug。2、添加表。现在已载入数据文件,可以浏览一下某些记录的值。将表节点添加到流中,可双击选项板中的表节点图标或将其拖放到工作区。查看表,请单击工具栏上的绿色箭头按钮执行流,或者右键单击表节点,然后选择执行。表中显示的是Sex、 BP 、NA 、K、 Age、 cholesterol、Drug这些字段的数据。3、创建分布图将分布节点添加到流,并将其与源节点相连接,然后双击该节点以编辑要显示的选项。目标字段:Drug。交叠字段:Sex。然后,在对话框中单击执行,就可以看到各种药品在不同性别上的分布图。图形分析结果见下表。所以,药品 Y 的对症患者最多,而药品 B 和药品 C 的对症患者最少。药品比例计数 drugA0.111111drugB0.06969drugC0.103103drugX0.27270drugY0.4474474、创建散点图为了了解哪些因素会对药品(目标变量)产生影响,我们需要创建一个关于钠和钾的散点图。将散点图节点放在工作区中,并将其与源节点相连接,然后双击该节点对其进行编辑在“散点图”选项卡中,选择 Na 作为 X 字段,选择 K 作为 Y 字段,并选择Drug作为交叠字段。然后单击执行。通过散点图可以看出:在同等钠含量的药品中,Y药品的的钾含量明显低于其他药品。5、创建网络图双击选择“网络节点”,在“网络节点”对话框中,选择 BP(血压)和药品。然后单击执行。通过网络图可以看出:药品 Y 与三种级别的血压均相关(连接数为245,连接数最大)。Y 是最佳药品。实验总结:实验评价(教师):实验名称:关联规则挖掘指导教师: 实验日期: 成绩: 实验目的1、熟悉C5.0 规则归纳2、掌握购物篮分析的方法。实验内容1、字段和记录的筛选。2、规则归纳 (C5.0)分类。3、购物篮分析。4、本实验处理描述超级市场购物篮内容(即,所购买的全部商品的集合)的虚构数据,以及购买者的相关个人数据(可通过忠诚卡方案获得)。目的是寻找购买相似产品并且可按人口统计学方式(如按年龄、收入等)刻画其特征的客户群。实验步骤1、访问数据使用“变量文件”节点连接到数据集 BASKETS1n,选择要从该文件读取的字段名称。将“类型”节点连接到数据源,然后将该节点连接到“表”节点。将字段卡 ID 的类型设置为无类型(因为每个忠诚卡 ID 在数据集中只出现一次,因此对于建模没有用处)。选择集作为字段性别的类型(这是为了确保 GRI 建模算法不会将性别视为标志)。执行流以将“类型”节点实例化并显示表。数据集包含 18 个字段,其中每条记录表示一个购物篮。表输出结果中显示 18 个字段及其数据。分别是: l cardid.购买此篮商品的客户的忠诚卡标识符。l value.购物篮的总购买价格。l pmethod.购物篮的支付方法。卡持有者的个人详细信息: l sex 性别l homeown.卡持有者是否拥有住房。l income 收入 l age 年龄购物篮内容产品类别的出现标志: l fruitveg l freshmeat l dairy l cannedveg l cannedmeat l frozenmeal l beer l wine l softdrink l fish l confectionery 2、关联分析双击选择GRI规则模型节点,和类型节点相连接。编辑“类型”节点,将所有产品类别的方向设置为双向,并将所有其他方向设置为无。(双向表示该字段可以是结果模型的输入或输出。)双击编辑GRI节点,字段选项设置为“使用类型节点设置”;模型参数中选择“只显示值为真的标志变量”,最低支持度为10%,最小置信度为50%,最大前项数为3,最大规则数20,然后执行 GRI 节点,可直接查看非精制GRI模型生成的关联规则(见下表)。后项前项 支持度 %置信度 %frozenmeal = Tcannedveg = T and beer = T16.787.43cannedveg = Tfrozenmeal = T and beer = T17.085.88beer = Tcannedveg = T and frozenmeal = T17.384.39frozenmeal = Tbeer = T29.358.02beer = Tfrozenmeal = T30.256.29cannedveg = Tfrozenmeal = T30.257.28frozenmeal = Tcannedveg = T30.357.1beer = Tcannedveg = T30.355.12wine = Tconfectionery = T27.652.17confectionery = Twine = T28.750.17这些规则显示冻肉、罐装蔬菜和啤酒之间存在多种关联;酒和糖果也具有关联。出现双向关联规则(如:frozenmeal beer beer frozenmeal)将 Web 节点附加到“类型”节点,编辑 Web 节点,选择所有购物篮内容字段,选择仅显示 true 标志,然后执行 Web 节点。因为大多数产品类别组合都会出现在多个购物篮中,所以此 Web 上的强链接太多,无法显示 GRI 模型表示的客户群。要提高临界值以便只显示最强的链接,使用工具栏上的滑块来实现最多只显示 50 个连接。要指定弱连接和强连接,请单击工具栏上的黄色双箭头按钮。这会展开显示 Web 输出摘要和控件的对话框。选择大小表示强/正常/弱。将弱链接设置为低于 90。将强链接设置为高于 100。在最终显示中,会有三个客户群突出显示:l 购买鱼和果蔬的客户,可将这类客户称为“健康食客”l 购买酒和粮果的客户l 购买啤酒、冻肉和罐装蔬菜(“啤酒、豆类和比萨”)的客户请注意,GRI 仅标识这些客户群中的最后两个;健康食客未形成足够强的模式,GRI 无法发现它。3、描绘客户群的特征现在,已经根据客户购买的产品类型标识了三个客户群,但是还要知道这些客户是谁,即他们的人口统计学特征。通过为每个群中的每名客户添加标志,并使用规则归纳 (C5.0) 来基于规则描绘这些标志的特征,可以实现这一点。首先,必须获取每个群的标志。使用刚刚创建的 Web 显示,可以自动生成每个群的标志。使用鼠标右键,单击fruitveg和fish之间的链接,并选择为链接生成“派生”节点。编辑最终的“派生”节点以将“派生”字段名称更改为healthy。使用从wine到confectionery的链接重复该练习,并将最终的“派生”字段命名为 wine_chocs。对于第三个群(涉及三个链接),首先要确保未选择任何链接。然后,在按住 shift 键的同时单击鼠标左键,从而选择cannedveg、beer和frozenmeal中的全部三个链接。(一定要处于“交互”模式而不是“编辑”模式。)然后,从 Web 显示菜单中选择:生成:导出节点(“和”)将最终“派生”字段的名称更改为 beer_beans_pizza。要描绘这些客户群的特征,请连续将现有的类型节点连接到这三个导出节点,然后附加另一个类型节点。在新类型节点中,请将除以下字段外的所有字段的方向都设置为无:value、pmethod、sex、homeown、income和age(这些字段的方向应该设置为输入),以及相关的客户群(例如,beer_beans_pizza,它们的方向应该设置为输出)。附加 C5.0 模型节点,将输出类型设置为规则集,然后执行它。最终模型(用于 beer_beans_pizza)包含此客户群的明确人口统计学特征:income F (173; 0.988)sex in M 模式: T = T (165; 0.842)income 16,950 模式: F = F (662; 0.992)4、规则归纳 (C5.0)分类双击选择CS5.0模型节点,并与类型节点相连接。将类型节点中非食品字段设为“无”,beer字段设为输出,其余字段设为输入。在类型节点与CS5.0节点间添加分区节点,训练集设为80%,测试集设置为20%。默认CS5.0的参数设置,执行该节点,查看节点输出结果。模型:frozenmeal = T 模式: T (302)cannedveg = T 模式: T = T (173; 0.844)cannedveg = F 模式: F = F (129; 0.814)frozenmeal = F 模式: F = F (698; 0.824)在“模型”选项可以看到cannedveg(0.50719)和frozenmea(0.49218)重要性最高。实验总结:实验评价(教师):实验名称:欺诈屏蔽/异常检测/神经网络指导教师: 实验日期: 成绩: 实验目的1、 熟悉各种聚类分析方法2、 了解神经网络分析方法与过程3、 掌握异常检测的方法。实验内容1、聚类分析。2、神经网络建模。3、异常检测。4、此实验显示了 Clementine 在检测诈欺行为方面的应用。这一领域涉及农业发展财政补贴申请。有两种财政补贴类型在考虑之列:耕地开发财政补贴和退役田地财政补贴。实验使用虚拟数据演示如何通过分析方法来发现与标准数据的偏差,同时突出了有必要进一步调查的异常记录。实验步骤1.新建数据源。编辑数据源:从Clementine Client 安装软件的 Demos 目录找到grantfraudN.db 的数据文件。此数据包含 9 个字段: ID。唯一标识符。 姓名。申请人姓名。 区域。地理位置(中部北部西南部东南部)。 田地质量。以整数为计量单位 - 农户申报的田地质量。 降雨量。以整数为计量单位 - 田地年降雨量。 田地收入。以实数为计量单位 - 申报的田地年收入。 主要农作物。主产农作物(玉米小麦马铃薯油菜籽)。 申请类型。申请的财政补贴类型 (decommission_land/arable_dev)。 申请金额。以实数为计量单位 - 申请的财政补贴额。2、异常检测双击选择异常检测节点使用变量文件节点连接到数据集 grantfraudN.db。此数据集包含字段名称,因此可以将表节点添加到流并执行以检查其构成。在类型选项卡中,单击读取值读取数据,然后将姓名和 ID 字段的方向设置为无,因为建模过程中不使用这些字段。所有其他字段的方向应设置为输入,这样他们将作为输入内容包含在异常检测模型中。在异常检测节点的“模型”选项卡中,选择训练数据中大多数异常记录的数目,然后输入值 10。然后执行此节点,并将生成的节点添加到流。在已生成模型的“设置”选项卡中,可以查看异常记录。添加表节点并执行,以查看得分数据。模型生成的 $0-Anomaly 字段表明哪些记录为潜在异常记录。由于在“设置”选项卡中选中了放弃记录选项,所以仅列出标记为潜在异常的记录。还列出了每条记录的整体异常指数值,同时给出了对等组和最有可能造成记录异常的三个字段。下表为异常检测模型中检测的10个异常记录。异常指数对等组异常字段1平均指数1异常字段2平均指数2异常字段3平均指数31.60 2.00 claimvalue0.36 farmincome0.28 maincrop0.09 1.40 2.00 farmincome0.33 claimvalue0.16 maincrop0.11 1.50 2.00 rainfall0.32 maincrop0.18 region0.17 1.36 1.00 rainfall0.23 region0.22 landquality0.19 1.43 2.00 farmincome0.29 maincrop0.19 claimvalue0.16 1.68 2.00 claimvalue0.40 farmincome0.23 maincrop0.09 1.77 2.00 claimvalue0.39 farmincome0.15 region0.13 1.39 1.00 maincrop0.24 rainfall0.16 farmsize0.16 1.64 1.00 region0.18 landquality0.16 maincrop0.16 1.35 2.00 region0.19 maincrop0.17 claimvalue0.17 表中数据表明,所有样本数据聚成了两个对等组,异常指数截断为1.35,表中的异常指数都大于1.35,所以表中的记录都是离散点。4、 训练神经网络首先将claimvalue字段方向设为输出双击选择神经网络节点,默认参数设置。根据目标变量或相关变量来进行预测。通过这些预测变量,您可以查明偏差的记录或记录组。在最初的数据调查中,在考虑各种因素的情况下将实际申请金额与期望金额进行比较很有用。这就是神经网络的意义所在。在数据中使用变量,神经网络可以根据目标变量或相关变量来进行预测。通过这些预测变量,您可以查明偏差的记录或记录组。 将神经网络节点与类型字段连接并执行。在流管理窗口中双击神经网络模型生成的节点,将生成节点与类型节点相连接,在添加一个输出表节点,在表中查看字段 claimvalue 的预测结果。在神经网络的生成节点后再添加一个分析节点,来评价神经网络模型的预测情况(见下表)。比较 $N-claimvalue 与 claimvalue最小误差-50461.312最大误差122411.083平均误差115.882绝对平均误差16459.69标准差23293.863线性相关0.975发生率121从表中可以看出,模型的平均误差为115.882,说明总体的预测误差较小,但最大误差较大,可能是由于异常值得影响。一旦神经网络训练结束,可以将已生成模型添加到流,然后绘制一张预期申请金额与实际申请金额的比较图。从散点图可以看出预期申请金额与实际申请金额都基本相符。导出另一个 claimdiff 字段(与之前导出的“收入差额”字段类似)。此导出节点使用 CLEM 表达式(abs(claimvalue - $N-claimvalue) / claimvalue) * 100为了说明实际申请金额与预估申请金额之间的差异,使用 claimdiff 直方图,了解申请金额比预估金额(由神经网络判断)高的人。通过在直方图可以看出实际申请金额与预估申请金额之间的差异的比重在50%以下的人数较多,而50%以上的人数很少。5、聚类分析 在类型字段后添加“K-means“节点,进行进行聚类分析。类型节点中将Id和Name字段的方向设为无,其余字段的方向都为输入。 双击编辑节点参数:将聚类数目设为4,其他参数不变。 执行数据流,输出聚类分析模型的结果,并用表节点浏览。一共生成了5个聚类,从图表可以看出聚类一、聚类二和聚类三具有比较明显的特征,申请的财政补贴类型为decommission_land且主要农作物为小麦的是聚类一(73个样本),申请的财政补贴类型为decommission_land且地域为西南地区的是聚类二(38个样本),申请的财政补贴类型为arable_dev且地域为西南地区的是聚类三(55个样本)。实验总结:实验评价(教师):实验名称:分类和回归树节点(C&RT)指导教师: 实验日期: 成绩: 实验目的1、掌握C&RT分类算法。2、掌握决策树的建立和修剪3、了解C&RT分类算法在管理决策中的应用实验内容1、C&RT分类算法建立决策树2、分类和回归树节点 (C&RT) 是一种基于树的分类和预测方法,此方法使用递归分区将训练记录分割为多个具有相似的输出字段值的段。在本实验中,将 C&RT 应用于某市场研究,其中的目标字段为有意预订有线电视交互服务。预测变量字段包括年龄、性别、教育、收入类别、每天看电视的时间和子女数(按有序集合编码,因为值 8 表示 8 个或更多)。实验步骤1、C&RT树新建数据流,在 Demos 文件夹中添加指向 NewsChan.sav 的 SPSS 文件源节点。源数据文件包括8个字段:EDUCATE、GENDER、AGE、TVDAY、ORGS、CHILDS、INC、NEWSCHAN、。为流添加类型节点。在类型节点中选择读取值以实例化字段。选择 NEWSCHAN 并将其类型设置为标志,将其方向设置为输出。其他所有字段用作预测变量(输入)。将 C&RT 节点连接到类型节点。在“模型”选项卡上,选择启动交互会话作为构建选项。这样,在执行节点时将启动“交互树”窗口,通过该窗口可以在生成模型之前生成并编辑树。在“专家”选项卡上选择专家模式并选择修剪树和使用标准误规则。将最小杂质改变值设置为 0.003。增加此值可避免进行改进意义十分微小的分割,从而倾向于生成较简单的树。要指定停止标准,可在“专家”选项卡上单击停止。在“停止标准”对话框中选择使用绝对值。将最小绝对临界值更改为 25 和 10,然后单击确定。最初,仅显示根节点。在“查看器”选项卡上,单击根节点以选中它并从菜单中选择以下项:生成树、生成树和修剪、生成分支等;最后生成合适的决策树模型。决策树规则如下:生成的树具有五层和五个终端节点。(要查看整个树,可使用缩放工具或单击工具栏右侧的图窗口工具按钮。) 2、生成模型和节点以便评分使用决策树时,共有几个选项可用于生成或导出会话结果。其中两个常用的选项为根据当前树生成模型或根据当前树生成选择节点。这些选项会在下面各节中进行说明。(1)根据当前树生成模型可使用此流生成模型,该模型可根据分配到节点的记录的积极响应率对这些记录进行评分。在交互树窗口的“查看器”选项卡上,从“生成”菜单中选择生成模型。此时将出现“生成新模型”对话框。 在“生成新模型”对话框中,输入新模型的名称(可选),然后单击确定。 该模型位于流工作区中。在流工作区中,将生成的 NEWSCHAN1 模型连接到类型节点。在生成的 NEWSCHAN1 模型中,单击设置选项卡,选择计算置信度和规则 ID,然后单击确定。连接表节点并执行流。已执行的表中显示了可能接受有线电视服务预订的用户的记录。$R-NEWSCHAN 列显示了对这些记录的预测结果。如果某记录显示的值为 1,则可以预测该用户对预订的响应为是。如果需要,可将此生成的模型保存到模型选项板上以备将来的数据使用。右键单击流中的 NEWSCHAN1 模型并选择添加到模型选项板。然后单击模型选项板上的模型并选择保存模型。(2)生成选择节点还可以生成选择节点,该节点包括所有落在节点 2 和 13 中的记录。然后,可以使用具有新数据的选择节点确定哪些用户最有可能对预订做出积极的响应。 在交互树窗口中,使用按住 Ctrl 键并单击的方法选中节点 2 和 13。 从“生成”菜单中,选择选择节点。生成的选择节点位于流工作区中。该生成的选择节点可根据在交互树窗口中为节点 2 和 13 选择的标准来构建表达式。 将生成的选择节点连接到流中的类型节点上。 将表连接到选择节点并执行该表以查看记录。注意,此次仅选中 226 个记录而不是原来的 442 个记录。(3)模型分析在模型的生成节点后再添加一个分析节点,双击编辑分析节点,勾选重合矩阵和置信图,其他参数不变,单击执行。分析结果见下输出字段 NEWSCHAN 的结果比较 $R-NEWSCHAN 与 NEWSCHAN正确8383%错误1717%总计100$R-NEWSCHAN 的重合矩阵(行表示实际值)1017183从表中可以看出样本值为0且预测值为1的样本数为17,实际值为1且预测值也为1的样本数为83.$RC-NEWSCHAN 的置信度值报告范围0.704-0.875平均正确性0.822平均不正确性0.789正确性始终高于0.875(观测值的0%)不正确性始终低于0.704(观测值的0%)90%以上的准确性从未达到需求等级2.0以上的折叠正确性从未达到需求等级从表中可以看出预测值正确的概率高于不正确的概率。实验总结:实验评价(教师):实验名称:多项 Logistic 回归指导教师: 实验日期: 成绩: 实验目的1、熟悉Logistic 回归。2、掌握Clementine 中Logistic 回归建模方法。实验内容1、在Clementine 中建立多项Logistic 回归2、Logistic 回归是一种统计方法,它可根据输入字段的值对记录进行分类。这种统计方法类似于线性回归,但是它使用的是分类目标字段而非数值目标字段。例如,假设某个电信服务提供商已按照服务使用模式对其客户群进行了划分,将这些客户分类到四个组中。如果可使用人口数据预测组成员,则可以为单个预期客户定制服务使用模式。3、本实验将焦点集中于使用人口数据预测使用模式。目标字段 custcat 有四个可能的值对应于四个客户组,如下所示:值标签1基本服务2电子服务3附加服务4全套服务因为目标含有多个类别,因此将使用多项模型。如果目标含有两个截然不同的分类,例如是/否,真/假,或流失/保持,则会转而创建二项模型。 实验步骤1.此示例使用名为 telco_custcat.str 的流,此流引用名为 telco.sav 的数据文件。可以从任何 Clementine Client 安装软件的 Demos 目录下找到这些文件,也可以通过从 Windows 的“开始”菜单下选择 Start All Programs SPSS Clementine 11.1 Demos 来访问这些文件。文件 telco_custcat.str 位于 Classification_Module 目录下。本示例将焦点集中于使用人口数据预测使用模式。目标字段 custcat 有四个可能的值对应于四个客户组,如下所示:值标签1基本服务2电子服务3附加服务4全套服务因为目标含有多个类别,因此将使用多项模型。如果目标含有两个截然不同的分类,例如是/否,真/假,或流失/保持,则会转而创建二项模型。 1、构建流(1)新建数据源节点(spss文件)。编辑数据源,在 Demos 文件夹中添加指向 telco.sav 的 SPSS 文件源节点。数据源包括11个字段:region、age、marital、address、income、ed、e
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 国际咨询方案
- 西部环保工程施工方案(3篇)
- 园林工程打围施工方案(3篇)
- 工程项目的技术方案要点(3篇)
- 广东防排烟消防工程方案(3篇)
- 工程施工粉刷施工方案(3篇)
- 建安工程招投标实施方案(3篇)
- 图书馆开馆课件
- 2025年远程医疗助力偏远地区医疗服务中的远程医疗设备市场潜力分析报告
- 2025年废弃矿井资源再利用技术人才培养与产业需求研究报告
- 医院疼痛科建设与管理的标准化经验
- 认知功能障碍的饮食调理及保健指南
- 2024年中邮保险公司招聘笔试参考题库含答案解析
- 第3章 Word 2016文字处理软件
- 工业机器人的发展现状和未来趋势
- 公司司库管理系统执行管理办法
- 22J603-1 铝合金门窗1正式版
- 新企业会计准则讲解
- 供货方案及保证措施供货服务方案
- 2023年人教版初中英语八年级Unit 4 教案
- CQI-8分层过程审核
评论
0/150
提交评论