版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘方法与应用数据挖掘方法与应用浙江工商大学统计与数学学院浙江工商大学统计与数学学院徐雪琪第2章 数据挖掘工具2.1 Weka2.2 IBM SPSS Modeler2.3 R语言2.4 Python语言2.1 Weka2.1.1 Weka简述Weka(Waikato environment for knowledge analysis,怀卡托智能分析环境)是由新西兰怀卡托大学用Java开发的数据挖掘开源软件。2005年8月,在第11届ACM SIGKDD国际会议上,该团队荣获了数据挖掘和知识探索领域的最高服务奖,Weka系统得到了广泛的认可,被被誉为数据挖掘和机器学习历史上的里程碑誉为数
2、据挖掘和机器学习历史上的里程碑,也是现今最完备的数据挖掘工具之一。http:/www.cs.waikato.ac.nz/ml/weka图图2.1 Weka主界面主界面2.1.2 Weka运行界面Weka系统有五种界面可供用户选择,包括探索者界面(Explorer)、实验者界面(Experimenter)、知识流界面(KnowledgeFlow)、工作台界面(Workbench)和简单命令行界面(Simple CLI)。1. 探索者界面探索者界面是Weka系统提供的最容易使用的图形用户界面(GUI),但它要求将所需数据一次性读进内存,因此,这种方式仅适合处理中小规模的数据。图图2.2 Weka探
3、索者界面探索者界面2. 实验者界面图图2.3 Weka实验者界面实验者界面实验者界面允许使用多种算法对多个数据集进行操作,突破了时间的限制,包含了一些分布式计算的功能。通过实验者界面,用户更加容易使用不同参数的设置,实现分析过程自动化。实验者界面有两种模式:简单和高级。3. 知识流界面知识流界面允许用户从设计面板中选择数据源、预处理工具、学习算法、评估方法和可视化等Weka组件,放置在布局区域,并将它们连接起来形成“知识流”,进行数据处理和分析。图图2.4 Weka知识流界面知识流界面4. 工作台界面从Weka 3.8.0版本开始,新增了工作台界面。工作台界面如图2.5所示,集成了原有的四个界
4、面,方便操作。图图2.5 Weka工作台界面工作台界面5. 简单命令行界面简单命令行界面是为不具有命令行界面的操作系统提供的,通过该界面,用户可以直接执行Weka命令。图图2.6 Weka简单命令行界面简单命令行界面2.2 IBM SPSS Modeler2.2.1 IBM SPSS Modeler简述1992 年起,英国ISL软件公司(Integral Solutions Limited)与英国萨塞克斯大学的人工智能研究者合作,进行数据挖掘工具的开发。开发者将该软件命名为 Clementine,并于 1994 年6月9日发布了Clementine的第一个正式版本。Clementine是世界上
5、首款采用图形用户界面的数据挖掘工具。1998年,SPSS公司收购了ISL公司并继续对Clementine进行开发,收购后软件改名为SPSS Clementine。2008年,SPSS公司将该软件命名为SPSS PASW Modeler。2009年,IBM公司收购了SPSS公司后,将该软件重新命名为IBM SPSS Modeler,并持续开发完善,不断推出新版本。https:/ products/spss-modeler可提交试用申请,享受30天的免费试用期。2.2.2 IBM SPSS Modeler主界面及功能图图2.7 IBM SPSS Modeler主界面主界面IBM SPSS Mode
6、ler的主界面如图2.7所示,分为4个区域:数据流构建区、节点区、流管理区和项目管理区。1. 数据流构建区数据流构建区又被称为画布,是数据挖掘分析人员的主要工作区域。图图2.8 数据流构建区数据流构建区2.节点区节点区包含了分析需要的所有节点,按功能分成11类,分别为:收藏夹、源、记录选项、字段选项、图形、建模、输出、导出、Python、Spark和Text Analytics。存放常用的功能节点导入不同格式数据对记录(行)进行预处理对字段(列)进行预处理图形功能节点建模节点获取数据和模型信息数据结果导出到各种格式的文件中进行保存使用Python算法的节点使用Spark原生算法的节点用于文本分
7、析的节点3.流管理区流管理区包含“流”“输出”和“模型”选项卡4. 项目管理区项目管理区包含CRISP-DM和“类”选项卡2.3 R语言2.3.1 R语言简述R语言是一套完整的数据处理、计算和图形展示系统,可以运行在多种平台上,包括Windows、UNIX和Mac OS。可通过/下载。本书编写时,R的最新版本是3.6.1。 R 3.6.1在Windows系统下的启动界面如图2.25所示。图图2.25 R 3.6.1启动界面启动界面2.3.2 RStudioRStudio是R的首选集成开发环境(integrated development env
8、ironment,IDE),专门用于R 语言,旨在帮助使用者提高R的工作效率。开源版本可以从其官网https:/ RStudio启动界面启动界面RStudio有两种格式:RStudio Desktop和RStudio Server。桌面开源版启动界面如图2.26所示。2.3.3 R语言与数据挖掘从数据挖掘的整个过程(数据加载、预处理、模型建立、模型评估)来看,R语言提供了丰富的软件包。截至目前(本书编写时),CRAN(the comprehensive R archive network)已经收录的各类软件包有14 763个,按功能分为40个主题。 资料来源:资料来源:https:/cran.
9、MachineLearning主题还包含RWeka软件包和Rattle软件包。R能够通过RWeka软件包搭建同Weka的连接,直接调用Weka算法。Rattle软件包是一个可用于数据挖掘常见问题的图形交互界面,如图2.28所示。图图2.28 Rattle启动界面启动界面R所有的计算都是基于内存进行的,计算效率高、速度快,但能处理的数据规模受到限制。现在这个问题已得到了一定的解决,可以利用并行工具包parallel (snow、multicores),Rmpi和foreach提升R的数据处理能力,或者利用R结合Hadoop的方式进行大数据挖掘。RHadoop是由Revo
10、lution Analytics发起的一个开源项目,它将R与Hadoop 结合起来,用于在R环境中对大数据进行操作。目前该项目有五个R软件包,其中主要的三个R软件包为rmr2、rhdfs和rhbase。这三个软件包的下载地址为:https:/ Python语言2.4.1 Python语言简述Python语言由荷兰人Guido van Rossum创建,经过长时间的发展,Python有两个版本Python 2.X和Python 3.X。截至目前,Python 3稳定的最新版本为Python 3.8.1,Python 2稳定的最新版本为Python 2.7.16,可以在https:/www.pyt
11、/下载。但Python 2的开发团队已宣布于2020年1月1日起不再更新和维护Python 2,Python 2将逐渐退出历史舞台。Windows环境下,Python 3.8.1 Shell交互式界面如图2.29所示。图图2.29 Python 3.8.1 Shell交互式界面交互式界面 2.4.2 Python与数据分析项目Python库功能数据预处理NumPy科学计算基础库,提供快速高效的多维数组对象ndarray,针对数组运算提供大量的数学函数库,可实现线性代数运算、傅立叶变换以及随机数生成SciPy构建于NumPy之上,包含的模块有最优化、线性代数、积分、差值、特殊函数、
12、快速傅里叶变换、信号处理和图像处理、常微分方程求解等Pandas数据结构和数据分析库,包含高级数据结构和类SQL语句,提供快速便捷处理结构化数据的大量函数,可实现大型数据集的切分、多方式索引及子集构造,支持数据集的聚合、灵活转换、智能的数据分组和缺失值处理等数据可视化Matplotlib数据可视化库,提供大量创建各种图形的工具,包括散点图、直方图、频谱图等常用统计图像,还提供了丰富的附加工具,如可以绘制地图的basemap和cartopy,绘制3D图的mplot3d,以及更加高级的绘图接口,如seaborn、holoviews、ggplot等数据建模Scikit-learn基于NumPy、Sc
13、iPy和Matplotlib构建的机器学习库,提供各种分类、回归和聚类算法,简单高效地实现数据挖掘和数据分析Statsmodels统计分析库,提供一系列描述统计学参数和非参数检验、回归分析、时间序列分析等功能,可以与NumPy、Pandas等有效结合,提高工作效率Spark ML分布式机器学习算法库,提供建立在DataFrame的机器学习API,实现开发和管理机器学习管道的功能,可以用来进行特征提取、转换及选择和各种机器学习算法,如分类、回归和聚类等TensorFlow采用数据流图(data flow graphs),用于数值计算的开源软件库,是深度学习最流行的算法库之一,支持CNN、RNN和LSTM算法等2.4.3 AnacondaAnaconda是最流行的Python/R数据科学平台,分为发行版和企业版两种,支持Linux、Windows和Mac OS系统。发行版仅支持单机运行,是免费的,其下载地址为:https:/ Notebook、Orange 3、Spyder、VS Code和RStudio,高级用户还可以构建自己的Navigator应用程序,如图2.32所示。图图2.32 Anaconda Navigator Home选项卡选项卡在Environments选项卡,可以管理已安装的环境、软件包和通道,如图2.33所示。图图2.33 Anaconda Navi
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广州减电费通知书
- 广工提前返校通知书
- 店铺关门整改通知书
- 康宁府延期交房通知书
- 延吉暂缓返校通知书
- 开发区停电堵车通知书
- 开学通知班主任通知书
- 彭水划片区停电通知书
- 徐州未来城上房通知书
- 2024年奉节县辅警协警招聘考试备考题库及一套答案详解
- 多媒体教室设备维护与管理操作手册
- 2025人教版九年级全一册Unit1-Unit7期中作文复习专项范文及练习
- 安全生产法律法规汇编(2025版)
- 《煤矿重大事故隐患判定标准》宣贯讲义PPT课件(条文讲解、典型事故案例解析)
- 全文解读国家水网建设规划纲要内容课件
- 专科护士培训基地临床教学质量检查标准评分表
- 生产设备台账参考模板范本
- 煤化工技术专业设置可行性报告
- 教学课件 国际结算(第七版)苏宗祥
- 2023年河南郑州航空港兴港投资集团有限公司招聘笔试题库及答案解析
- GB 15745-1995小型民用爆破器材仓库安全标准
评论
0/150
提交评论