




已阅读5页,还剩10页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘原理及其应用实验报告学 号: 班 级: 姓 名: 专 业:指导教师: 2009年2月实验一、 Clementine数据流操作 实验成绩: 实验时间: 实验目的:使用Clementine系统进行数据挖掘时,应着重关注通过一系列节点来执行数据的过程,被称作数据流。这一系列的节点代表了将对数据进行的操作而这些节点之间的联系表明了数据流的方向。本实验要求我们学会使用一个数据流将数据读进Clementine系统,通过一系列操作来执行它,再将它发送到一个目的地。 实验仪器: Clementine11.0系统实验内容: Clementine系统独特的接口可以通过数据流的图标可视化方式挖掘数据。最基本的,可以使用以下步骤建立一个数据流:向数据流区域中增加节点连接节点形成一个数据流指明任一节点或数据流的选项执行这个数据流由于每个实验内容比较多,不能简单陈述,而要对内容进行精要概述。实验步骤:在Clementine系统窗口底部的选项板中建立数据流的所有可能的节点。2、通过鼠标来增加、删除和连接节点3、在当前的连接中增加数据流节点4、在数据流区域中,启用一个缓冲区5、在数据流区域上的节点单击鼠标右键编辑一个节点6、数据流的操作:在Clementine 系统,每次可以使用并且修改不止一个的数据流。Clementine 系统窗口的右边包含工具管理器,可以帮助浏览目前打开的数据流。为了显示工具管理器,从视图菜单中选择Manager,然后点击Stream实验记录:在Clementine 系统窗口底部的选项板(palette)中包含了用来建立数据流的所有可能的节点。1、 在选项板上双击节点建立一个数据流通过鼠标中间键点击和拖放来完成,如图:3、在两个节点中插入一个新节点,如图:2、 带有缓冲区的节点能够以一个小的文件图标被显示在右上角。当资料在节点处被暂存时,这个文件图标是绿色的,如图:4、注释对话框,如图:心得与体会:实验中在手工连接节点的时候可以绕开那个节点,从那个节点上撤销这个新的连接来恢复原来的样子。可以使用两种方法来删除节点间的连接。实验二、数据源节点操作实验目的:学习并了解Clementine提供简单有效的获取不同资料来源的方法,掌握那些可以通过ODBC数据源与关系数据库系统进行连接的节点以及用于输入各种普通文件内容的节点。实验仪器:Clementine11.0系统实验内容:使用变量文件节点从无格式文本文件中读资料;使用固定档节点从固定字段元的文本文件中读入资料;为文本区设置资料存储;设置数据库节点选项;选择资料表;在来源节点中设置数据类型;在来源节点中设置数据类型;实验步骤:1、使用变量文件节点从无格式文本文件中读资料。2、对固定文件和变量文件来源节点而言,可以利用资料表中的选项,改变读入Clementine 系统的数据文件的存储类型。3、在数据库节点对话框中,使用Table 模型和SQL Query 模型连接数据库。从数据库中选择表。使用数据库节点对话框中的各个项目,使用者可以更改使用类型和过滤数据域位。4、可以使用SAS for Windows/OS2 (.sd2)、SAS for UNIX (.ssd)、SAS Transport (.tpt)、SAS version 7/8 (.sas7bdat)类型导入档。当导入资料时,会保存所有的变量,而且不会改变变量类型。5、通过点击相对应的项目为所有的来源节点指定选项。实验记录:1、来源选项板:2、变量文件选项:3、重置一个数据域位的存储类型;4、导入一个SPSS 文件:5、从源中过滤字段心得体会:确定在流程的哪一点输入一节点。在节点上单击鼠标右键,此节点的资料将进入使用者输入节点中,并且从菜单中选择Generate User Input Node。输入节点上负载了该数据流下游的所有过程,在流的某点处代替已存在的节点。当产生后,节点从原资料中继承了(如果可以被继承)所有的数据结构和字段类型信息。注意:如果数据没有从流程的所有节点通过,则节点不会被充分实例化,意味着在利用使用者输入节点进行替代时,存储和资料值不是全部可用的。实验三 记录操作节点实验目的:记录操作节点用于在记录层次修改资料集。这些操作在资料采矿的资料理解和资料准备阶段很重要。因为通过这些操作,可以使数据满足特定的商业要求所以本实验要求我们了解和掌握记录操作中的各个选项的作用以及用途。实验仪器:Clementine11.0系统实验内容:记录操作节点用于在记录层次修改资料集选择节点抽样节点均衡节点聚合节点排序节点合并节点附加节点区分节点实验步骤:1、使用选择节点根据具体条件从资料流程中选择或排除某一记录子集。2、使用抽样节点来明确限制通过流的记录数或排除一定比例的记录。3、使用均衡节点来修正资料集中的不均匀性,以便能够符合特定的测试原则。4、使用聚合节点,把一系列输入记录变换成总括性的、聚合的输出记录。5、使用排序节点根据一个或多个字段值对记录进行升序或降序排列。6、使用合并节点和附加节点对话框的inputs,可以规定输入资料来源的顺序,并可任意修改每一资料来源的卷标。7、使用附加节点将记录集串联起来,附加节点读取并下传(downstream)来自同一资料来源的所有记录直至该资料来源不再有记录为止,然后使用与读取首个输入资料来源记录相同的数据结构数目读取下一个资料来源的记录。8使用区分节点来清除重复性记录。实验记录:1、选择节点设置:2、抽样节点设置:3、均衡节点设置:4、聚合节点设置:5、排序节点设置:6、合并节点设置:7、附加节点设置选项:8、区分节点设置:心得体会:均衡是根据指定的条件复制记录后丢弃记录。不受任何条件限制的记录会一直通过流程。由于这一过程通过复制并且/或者丢弃记录,因而资料的原始顺序将在资料下传(downstream)过程中流失。一定要在将均衡节点加到流程之前导出一个和顺序有关的值。注意:均衡节点可以从资料分布图和直方图中自动生成。实验四、字段操作节点实验目的:了解和掌握字段操作节点的用途和功能,在CRISP-DM方法的数据准备阶段中,我们通常需要选择、清理和建构资料。字段操作节点能够帮助我们为建模和其它下游流程的操作准备数据。实验仪器:Clementine11.0系统实验内容:字段操作节点能够帮助使用者为建模和其它下游流程的操作准备数据。字段操作选项板包含以下节点类型节点数据类型设定过滤节点选项导出节点填充节点设置标记节点调整节点实验步骤:1、使用自动定类:使用Read Values 按钮来立刻读取资料来源中的值。指定连续值,连续型用于数值型字段。连续型类型节点有以下三种存储类型:(1)实数 (2)整数 (3)日期/时间。在使用类型节点窗口时,还可以制定一些其它选项。1、 数据类型从本质上而言是关于某一字段的元数据,而且它描述了Clementine中该数据值得使用方式。元数据不能自动得到。数据类型以下列两种方式中的任一种存在或可得:(1)从类型节点或者来源节点手动设置类型(2)自动类型,或者让软件读取数据并基于其所读取得值来确定类型2、 设置过滤节点:(1)从通过的记录中过滤或剔除字段(2)重命名字段(3)把字段从一个来源节点映像到另一个3、 选择Single 还是Multiple,取决于使用者是否想导出多重字段。当选中Multiple 时,对话框会变为包含有多重源字段的选项。4、 填充节点用来替换字段值以及改变存储。可以用一个指定的CLEM 条件,来替换字段值。使用者也可以用一个指定的值替换所有的空缺和无效值。填充节点通常与类型节点结合起来替换遗漏值。5、 先有一个从一个设置标记节点开始,在其上游的并且指定了一个或多个字段类型为资料集类型的类型节点7、调整节点可以在一个集或标记字段值的基础上产生多个字段,新字段包含了其他的字段或数据标记的值。这个节点的功能类似于设置标记节点。实验记录:1、 字段操作2、 资料使用类型3、 指定连续值4、 设置导出节点的基本选项5、 设置填充节点选项6、设置标记节点心得体会:填充节点用来替换字段值以及改变存储。使用者可以用一个指定的CLEM 条件,来替换字段值。使用者也可以用一个指定的值替换所有的空缺和无效值。填充节点通常与类型节点结合起来替换遗漏值。注意:当用使用者定义的值来替换已选中的多个字段时,字段类型必须相似(都为数值型或者字符型),这点很重要。实验五、建立CLEM表达式实验目的:熟悉并掌握CLEM的功能。实验仪器:Clementine11.0系统实验内容:CLEM是一种功能强大的语言用来分析Clementine流程的数据。数据挖掘人员将CLEM广泛的应用到数据流的操作中去执行任务,简单的例如成本和税收数据中发现利润,复杂的例如把web日志数据转换为一系列有可用信息的字段和记录。使用表达式编辑器选择函数选择字段、参数以及全局变量选择变量值CLEM的常见用法实验步骤:1、使用表达式建构器:E-Builder 的设置可以在Clementine 的节点上迅速建立CLEM表达式,不必记住确切的字段名称和CLEM语言,操作上更为轻松简易。2、CLEM 的常见用法:(1)对字符串的操作(2)处理空缺和遗漏值,在填充节点最常会使用到(3)处理数值,Clementine 中有大量对于数值型变量值的标准操作(4)处理时间和日期实验记录:1、 获取表达式建构器 2、CLEM 的常见用法心得体会:E-Builder 的设置使得使用者可以在Clementine 的节点上迅速建立CLEM表达式,不必记住确切的字段名称和CLEM语言,操作上更为轻松简易。不论选择(select)、平衡(balance)、导出(derive)、填充(filler)、制图(plot)、分析(analysis)、报告(report)或是表 (table)节点, 都可使用。注意:在脚本编程或参数的设立中不支持实验六、图节点实验目的:了解并掌握图节点的作用和使用方法,学会使用图来对资料作探索性分析实验仪器:Clementine11.0系统实验内容:数据挖掘过程的某些阶段使用图来对数据作探索性分析,可以将一个制图或分布节点连接到一个资料来源上,从而对数据类型和分布有更深刻的认识。然后使用者可以对记录和字段进行处理以准备下游模型操作所需资料。图表的另一个常见用途是检查新导出字段的分布和关联。图表选项板(graphs platte)包括以下节点:点图分布图(条形图)柱形图(直方图)堆积图多点图(折线图)Web 图评估图。实验步骤:1、层跌图:有大量的各种各样的层叠图被用来从不同角度探索资料。2、3-D 图像Clementine 中的点图和堆积图能够在一个三维空间中显示信息。有两种创建3-D 图像的方法:(1)将信息绘制在三维坐标轴上(真正的3-D 图像)(2)将图像用3-D 效果显示。3、动画效果点图、折线图和直方图可以被设计为动画形式。点击PLAY 项目快速移过所有类型的图表。4、建立图一旦被加入一个流程中,每个图节点都可以通过双击来打开一个标记过的对话框以指定选项如下:(1)为图表设定输出选项(2)设置图外观选项5、使用图表:(1)使用鼠标来选择一个图表区域以便进行更深入的操作(2)使用菜单栏中可用的选项(3)不同的图表可能有不同类型的可用菜单和选项。6、点图节点显示出了数值型字段之间的关系.。可以使用点(也被称做散点)或线来创建一个点图,可以通过在对话框中设定一个X Mode 来生成三种类型的折线(LINE PLOT)图。7、多点图是一种特殊类型的点图,它显示的是一个单独的X 字段对应多个Y 字段的情况。点图和多点图是Y 对X 的二维显示,一个区域就是由X 和Y 的最大和最小值描述的图像范围。由于多点图主要是属于点图的一种,因此图像窗口显示的选项与点图节点中的选项相同。6、 分布节点:可以使用弹出菜单上的选项来选择资料的一个子集,导出一个标记字段,或对比权衡资料7、 直方图节点显示的是数值型字段变量值。在操作和建立模型之前经常用它探索资料。与分布节点相似,直方图被频繁地用来揭示资料中的不均衡性。9、堆积图与直方图非常相似,因此图像窗口显示的是同样的选项一旦使用者已经创建了一个堆积图节点,图像窗口中的一些选项就可用了实验记录:1、 图表选项板2、 以颜色为层次的图像3、 设置图外观选项4、 设置分布节点选项5、 直方图心得体会:点和条形的颜色设置是在使用者选项对话框中给定的。 从Clementine 窗口菜单中进入对话框,选择: Tools UserOptions 然后点击Display 项目。注:用于点、线和条的颜色必须在图表创建之前给定,以 使这种改变生效。一个分布图像表现的是,在一个资料集中,符号型(非数值型)变量值的发生情况,比如抵押类型或者性别。分布节点的一个典型用途是展示出资料中的不平衡。注:为了显示出数值型变量值的出现,使用者应该使用直方图节点实验七、建模节点实验目的:神经网络节点用来创建并训练神经网络本实验要求了解并掌握神经网络如何使用神经网络节点实验仪器:Clementine11.0系统实验内容:神经网络节点用于创建并训练类神经网络。类神经网络,有时也称作多层感知器,本质上是人脑处理信息方式的简化模型。它通过模拟大量相互连接的简单处理单元工作,这些处理单元好象神经元的抽象化版本。这些处理单元是按层排列的。在神经网络中通常有三部分:一个输入层,其单元代表输入字段;一个或者更多的隐藏层;以及一个输出层,其单元代表输出字段。这些单元通过不断变化的连接强度或权值连接。神经网络学习包括:检查单个记录、为每个记录生成预测、一旦发现生成错误的预测便对权值进行调整。这一进程多次重复,神经网络不断提高预测效果,直到满足一个或者多个终止准则。要求是:对字段类型没有限制神经网络可以处理数值型、字符型以及卷标型输入输出字段。神经网络要求一个或更多字段有“IN”方向,以及一个或更多字段有“OUT”方向。设置为both或none的字段将被忽略。在执行点是,字段类型必须被充分实例化。优点是:神经网络在执行一般估计功能时非常强大。他们一般能够和其它方法一样执行预测任务,有时甚至执行得更好。同时,训练和应用神经网络需要使用者掌握的统计和数学知识很少。Clementine 中包含几项特有的功能,用以避免运用神经网络时的一些常见问题,包括:敏感度分析以辅助解释神经网络结果,修剪和验证以避免过度训练,动态网络以自动找出合适的网络结构设计。实验步骤:1、建模节点字段选项,在建模前,需要指定使用哪些字段元作为目标字段和输入字段。在预设状态下,除了序列节点(Sequence Node),所有的建模节点都从上游的Type 节点获取字段信息。如果使用Type 节点选择输入字段和目标字段,无须在这一表上修改任何东西。对于序列检测模型,必须具体设定建模节点字段表上的字段。要了解更详细的内容,请看“序列节点字段选项”。2、类神经网络节点,类神经网络学习包括:检查单个记录、为每个记录生成预测、一旦发现生成错误的预测便对权值
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 外出招商活动策划方案(3篇)
- led射灯施工方案(3篇)
- 美睫活动策划方案(3篇)
- 镇江活动策划方案价格评估(3篇)
- 湘乡水井施工方案(3篇)
- 江西室内活动会议策划方案(3篇)
- 田径少儿考试题库及答案
- 北京市门头沟区2023-2024学年八年级下学期期末考试英语考题及答案
- 北京市门头沟区2023-2024学年八年级上学期期末考试数学题目及答案
- 心理扭曲测试题目及答案
- 2025年少儿英语教师职业资格考试试卷:英语教学互动式学习
- 2024年护理综合管理能力考试试题(附答案)
- 培训师必要知识课件
- 新学期-启航出发-2025-2026学年初一上学期新生开学第一课主题班会
- 人教版新教材小学二年级《数学》上册新教材解读课件
- 节假日值班人员安排管理制度
- 2025年新版《食品安全法》知识竞赛试题(附答案)
- 学堂在线 高职实综合英语 章节测试答案
- 2025年秋数学(新)人教版三年级上课件:第1课时 观察物体
- 社区健康服务与管理教案
- GB-T 1040.2-2022 塑料 拉伸性能的测定 第2部分:模塑和挤塑塑料的试验条件
评论
0/150
提交评论