版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第9章数据挖掘的工具数据挖掘工具的选用如何选择数据挖掘系统不同的数据挖掘系统相似性较小不同的功能模块和方法处理的数据集不同如何选择数据挖掘系统数据类型(关系、文本、事务、时间序列、空间)系统问题(运行的操作系统)数据源(ODBC、多关系数据源)数据挖掘的功能和方法数据挖掘系统和数据库或数据仓库系统的结合可伸缩性(数据库的大小和维度)可视化工具数据挖掘查询语言和图形用户接口数据挖掘常用工具SPSSSASWeka怀卡托智能分析环境,开放源码的数据挖掘软件;Matlab矩阵实验室美国MathWorks公司的商业数学软件。MicrosoftSSAS(SQLSERVERAnalysisService)数据挖掘常用工具目前,世界上比较有影响的典型数据挖掘系统有:社会科学统计软件包,适用非专业人士IBM公司的SPSS
Clementine/Modeler统计分析软件,适用专业统计分析人员SAS公司的EnterpriseMiner基于DB2数据库系统IBM公司的IntelligentMiner怀卡托智能分析环境,开放源码的数据挖掘软件新西兰怀卡托大学的WEKASGI软件SGI公司的SetMinerSybase软件Sybase公司的WarehouseStudioSPSSModelerSPSS(StatisticalPackagefortheSocialScience)软件是世界上著名的统计分析软件之一2000年SPSS公司由于产品升级及业务拓展的需要,将其产品正式更名为SPSS(StatisticalProductandServiceSolutions),即统计产品与服务解决方案2009年,SPSS公司被IBM收购,SPSS产品也称为了IBM公司众多软件产品中最为耀眼的一员IBMSPSS功能强大,应用广泛,在社会科学,自然科学的各个领域都能发挥巨大作用6SPSSModelerSPSS易学易用,通过具有丰富菜单和对话框的用户图形界面(GUI),引导用户进行操作和设置各类分析选项,提供了非常友好的用户界面SPSS的数据挖掘产品是SPSSModeler直观的操作界面自动化的数据准备和成熟的预测分析模型完全支持SPSS所推出的CRISP-DM标准,针对各个阶段都开发了与之相对应的结点7SPSSModeler8SPSSModeler9业界领先的数据挖掘平台强大的数据挖掘功能将复杂的统计方法和机器学习技术应用到数据当中,帮助客户揭示隐藏在交易系统、ERP系统、结构数据库或普通文件中的模式和趋势,帮助客户始终站在行业发展的前端使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。显著的投资回报率使得SPSSModeler在业界久负盛誉。SPSSModeler102017年,IBM正式推出了IBMSPSSModeler18.1最新产品较以前版本在与开源技术的集成上得到了进一步地增强和扩展融入了Python和R语言的编写、接入和运行节点还集成了Spark2.0,直接利用其技术优势加速计算运行效率最新版本的Modeler产品为与Hadoop系统集成,在处理算法性能和分布式系统数据源连接上进行了加强。SPSSModeler11SPSSModeler12特点支持图形化界面,进行菜单驱动,支持拖拉式操作。提供丰富的接口函数,便于二次开发提供了丰富的数据挖掘模型和灵活多变的数据挖掘算法数据挖掘流程易于管理、可再利用、可充分共享。支持访问异构数据库,具有多模型的整合能力,是的生成的模型稳定和高效。提供模型评估的方法。挖掘结果可以集成于其他的应用中。能够转化为主流格式的适当图形具有并行的处理能力,能够满足大数据量的处理要求。能够对数据挖掘的过程进行监控,及时处理异常情况SASEnterpriseMinerSAS(STATISTICALANALYSISSYSTEM)是由美国NORTHCAROLINA州立大学1966年开发的统计分析软件。SAS(StatisticalAnalysisSystem)是一个模块化、集成化的大型应用软件系统。它由数十个专用模块构成,功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、计量经济学与预测等等。13SASEnterpriseMinerSAS系统基本上可以分为四大部分:SAS数据库SAS分析核心SAS开发呈现工具SAS对分布处理模式的支持及其数据仓库设计SAS系统主要完成以数据为中心的四大任务:数据访问、数据管理、数据呈现、数据分析SAS持续良好的统计分析功能,得到了业界广泛好评,这为它在国际专业统计分析软件领域获得头把交椅奠定了基础。14SASEnterpriseMinerSASEnterpriseMiner是SAS软件系统中的一个集成的数据挖掘系统,允许使用和比较不同的技术,同时还集成了复杂的数据库管理软件SASEnterpriseMiner把统计分析系统和图形用户界面(GUI)集成在一起,并与SAS协会定义的数据挖掘方法——SEMMA方法,即抽样(Sample)、探索(Explore)、修改(Modify)建模(Model)、评价(Assess)紧密结合,对用户友好、直观、灵活、适用方便,使对统计学无经验的用户也可以理解和使用。15SASEnterpriseMiner16SASEnterpriseMinerEnterpriseMiner的运行方式是通过在一个工作空间(workspace)中按照一定的顺序添加各种可以实现不同功能的节点,然后对不同节点进行相应的设置,最后运行整个工作流程(workflow),便可以得到相应的结果。17SASEnterpriseMinerEnterpriseMiner中工具分为七类:18SampleInputDataSource、Sampling、DataPartitionExploreDistributionExplorer、Multiplot、Insight、Association、VariableSelection、LinkAnalysisModifyDataSetAttribute、TransformVariable、FilterOutliers、Replacement、Clustering、SOM/Kohonen、TimeSeriesMedelRegression、Tree、NeuralNetwork、Princomp/Dmneural、UserDefinedModel、Ensemble、Memory-BasedReasoning、TwoStageModelAssessAssessment、ReporterScoringScore、C*ScoreUtilityGroupProcessing、DataMiningDatabase、SASCode、Controlpoint、SubdiagramSASEnterpriseMiner19WEKAWEKA的全名是怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis),是新西兰怀卡托大学WEKA小组用Java开发的机器学习/数据挖掘开源软件。WEKA是一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。20WEKA其主要主要特点是集数据预处理、学习算法(分类、回归、聚类、关联分析)和评估方法等为一体的,一个综合性数据挖掘工具,且具有交互式可视化界面,还能够提供算法学习比较环境,通过其接口,可实现自己的数据挖掘算法。这是本书要用于数据挖掘的工具,将在第十章
WEKA数据挖掘应用中进行详细介绍,并利用这个工具展示几个数据挖掘的实例和算法的应用。21MATLABMATLAB是MatrixLaboratory的简称,是一种广泛应用于工程计算及数值分析领域的新型高级语言自1984年由美国MathWorks公司推出以来,历经发展与竞争,现已成为国际公认的最优秀的工程应用开发环境和科技应用软件之一22MATLABMATLAB被广泛用于数据分析、数值与符号计算、工程与科学计算、绘图、控制系统设计、航天工业、汽车工业、生物医学工程、语言处理、图像与数字信号处理、财务、金融分析、建模、仿真及样机开发、算法研究开发、图形图像处理等领域。MATLAB以强大的科学计算与可视化功能、简单易用、开放式可扩展环境,特别是所附带的多种面向不同领域的工具箱支持,使其在许多科学领域中成为计算机辅助设计和分析、算法研究和应用开发的基本工具和首选平台。23MATLABMATLAB具有其独特的优势,提供了丰富齐全的命令和多个接口,能够非常方便地与其他平台进行交互和融合集成了丰富的数学模型库,能够灵活方便和高效地进行数据处理具有强大的绘图功能,便于数据与结果的可视化处理24MATLAB25MATLAB该软件已经在国外的许多大学普及,在国内大学中的应用也日趋普遍近年来MATLAB的应用领域已经扩展到各个行业的很多学科,在各大公司、科研机构和高校里日益普及,得到了广泛应用,其自身也因此得到了迅速发展,功能不断扩充,现已发展至MATLABR2018a版本。26MATLAB最新版本除了新增了实时编辑器、AppDesigner、图形、团队开发和硬件支持的新功能,在性能上较以往版本有了较大提升,还强化了数据分析功能的数据导入、数据清理、数据筛选和数据分组等功能,让使用MATLAB来进行数据挖掘更加方便快捷新增大数据模块,在处理海量数据时,虽然数据过大无法装入内存,但可借助tall数组,使用惯常的开发模式,在已有的存储系统上(传统文件系统、SQL/NoSQL数据库或Hadoop/HDFS)完成数据的分析和挖掘工作。27MATLAB经过30多年的发展,MATLAB已经开发和集成了大量的专业工具箱。能够在工具箱的各模块的基础上,经过配置或修改,非常便利地进行数据挖掘。28RR是用于统计分析和图形化的计算机语言和操作环境。R定义了一种脚本语言--R语言用户可以利用R语言,结合调用R软件提供的大量的、功能齐全的数学和统计计算的函数,自由灵活地进行编写脚本程序来进行统计计算、数据分析和数据挖掘,或者创建符合特定需要的数学计算和统计计算的新的方法和函数。29R30RR也是属于GNU
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中山市2025广东中山市档案馆招聘雇员1人笔试历年参考题库典型考点附带答案详解
- 上饶市2025年江西上饶市部分事业单位赴上海招聘高层次人才52人笔试历年参考题库典型考点附带答案详解
- 上海市2025上海电力大学财务处岗位招聘2人笔试历年参考题库典型考点附带答案详解
- 2027中广核联合山东大学培养招聘笔试历年难易错考点试卷带答案解析
- 2026年仲裁案件申报材料
- 2026辽宁沈阳现代城市公共服务集团有限公司及子公司招聘3人笔试历年难易错考点试卷带答案解析
- 2025屏山县瑞智人力资源有限公司宜宾市瑞衡工程管理有限责任公司招聘6名劳务派遣员工笔试历年难易错考点试卷带答案解析
- 2026年度保密基本知识必考试题库含答案解析
- 2025年宜宾市叙州区事业单位真题
- 非结构化道路虚拟边线识别技术研究
- 2025年10月自考13658工业设计史论试题及答案
- 消防安全标准化建设协议书
- 白居易长恨歌
- 如何进行有效的授权
- 年产10万吨液态奶生产厂的设计-本科生毕业论文(设计)
- JJG 808-2014标准测力杠杆
- GB/T 17614.1-2015工业过程控制系统用变送器第1部分:性能评定方法
- 《大学信息技术》教学课件-大学信息技术第一章
- 肝性脑病的疾病查房课件
- 超声科晋升副高(正高)职称病例分析专题报告(超声诊断胎儿隔离肺病例分析)
- 参观监狱心得体会(10篇)精选
评论
0/150
提交评论