【大学】数据挖掘软件与工具_第1页
【大学】数据挖掘软件与工具_第2页
【大学】数据挖掘软件与工具_第3页
【大学】数据挖掘软件与工具_第4页
【大学】数据挖掘软件与工具_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘软件与工具2023/4/141编辑ppt数据挖掘是多学科知识的综合,涵盖了数据库技术、统计学、可视化技术、信息科学、机器学习等多方面知识。数据挖掘的重要作用已为人们了解,为了实现有效的数据挖掘,绝大多数用户必须借助于合适的数据挖掘软件,所以,数据挖掘软件的研究是数据挖掘的一个重要研究方向。一、数据挖掘软件—重要研究方向2023/4/142编辑ppt二、数据挖掘软件的发展代次特征DM算法支持集成性分布计算数据模型可视化功能1作为一个独立的应用和移动数据/各种计算设备的数据联合独立的系统单个机器向量数据无2和数据库以及数据仓库集成多个算法:能够挖掘一次不能放进内存的数据数据管理系统,包括数据库和数据仓库同质、局部区域的计算机群集有些系统支持对象,文本和连续的媒体数据基本图表3和预测模型系统集成多个算法数据管理和预言模型系统intranet/extranet网络计算支持半结构化数据和web数据较复杂多维图形及动画4和移动数据/各种计算设备的数据联合多个算法数据管理、预言模型、移动系统移动和各种计算设备普遍存在的计算模型交互式可视化挖掘流程设计和结果展示功能2023/4/143编辑ppt数据挖掘功能数据挖掘估计Estimation分类Classification预测Prediction关联规则AssociationRules描述与可视化DescriptionandVisualization聚类Cluster2023/4/144编辑ppt数据挖掘模型的分类数据描述和汇总(Datadescriptionandsummarization)细分(Segmentation)概念描述(Conceptdescriptions)分类(Classification)预测(Prediction)相关分析(Dependencyanalysis)2023/4/145编辑ppt数据挖掘技术的分类数据挖掘描述预测统计回归关联规则决策树可视化聚类顺序关联汇总神经网络分类时间序列预测2023/4/146编辑ppt数据挖掘的典型结果——金融

问题描述:预测信用水平是好还是差,银行据此决定是否向客户发放贷款,发放多少结果描述:(决策树)收入大于5万元/年是否有无储蓄帐户是否房主否是是否批准不批准批准2023/4/147编辑ppt数据挖掘的典型结果——电信

问题描述:根据客户信息,预测客户流失可能性结果描述:(神经网络)输入流失概率(0.87)输出男293000元/月套餐A130元/月…………2023/4/148编辑ppt数据挖掘的典型结果——零售问题描述:如何决定超市中商品的摆放来增加销售额结果描述:(Web图)2023/4/149编辑ppt数据挖掘的典型结果——制造业

问题描述:如何对市场进行细分,使产品满足最有价值客户结果描述:(Koholen聚类)2023/4/1410编辑ppt数据挖掘的典型结果——政府

问题描述:如何从众多申请经费或者纳税中发现欺诈结果描述:(回归、神经网络)2023/4/1411编辑pptBusinessUnderstanding商业理解过程理解商业目标熟悉业务流程统一业务术语成本/收益分析当前系统评估主要用户使用者结果的输出形式挖掘任务的结果和现有系统的集成任务分解挖掘目标分解为子任务将商业目标转化为数据挖掘任务约束条件确认资源数据保护制度等制定项目计划1商业目标的确认数据挖掘目标的确定数据挖掘成功的标准2023/4/1412编辑pptDataUnderstanding数据理解过程数据源情况数据处理范围数据源访问情况数据描述数据质量描述基本统计值/汇总值数据探索数据分布相关性分析缺失值处理空值处理奇异值处理2收集数据数据描述数据探索数据质量检查2023/4/1413编辑pptDataPreparation数据准备过程数据整合多个数据表的数据联合数据的汇总和聚合数据选择记录的选择和排除数据集合构成:测试集,检验集数据转换函数转换标准化处理离散化处理数据清洗数据缺失值处理数据派生新变量的生成3数据合并和清洗数据选择数据转换2023/4/1414编辑pptModeling数据建模过程选择合适的建模技术数据预处理的情况依赖于数据挖掘问题类型和输出形式构建模型训练环境训练样本的构建模型建立选择初始化参数设置模型估计考虑过训练的情况误差分布的调查模型参数修正及其原因4依据目标选择模型构建模型训练环境模型建立和评估2023/4/1415编辑pptEvaluation模型评估过程模型评估根据专家的知识和经验进行人工评估从商业角度来评价结果的有效性定义参照对象计算升益曲线(LiftCurve)期望的投资回报率(ROI)对整个数据挖掘过程进行回顾决定下一步骤模型发布的时机发布框架结构进一步改进模型5依据测试集模型评估不同模型的检验标准技术标准和商业准则2023/4/1416编辑pptDeployment模型发布过程数据挖掘结果的发布方式模型的结果输出到数据库形成简单的报表结果转化为可解释的业务规则在线实时地模型评分过程数据的输入输出与原有业务系统的集成实时数据的来源和结果反馈模型运用的模式实时处理批处理自动化问题(周期)6结果的发布方式数据挖掘结果的运用数字到业务知识转化2023/4/1417编辑pptClementine的软件构成ClementineClient;ClementineServer;ClementineBatch;SPSSDataAccessPack;ClementineSolutionPublisher(Optional)。2023/4/1418编辑pptClementine的两种运行方式单机版运行以下情况必须使用单机版运行:数据存储在本机,且不能在网络上共享;机器不联网;无ClementineServer可供使用。以下情况可以使用单机版运行:要处理的数据量很小(比如:小于2M)并且数据存储在单机或可到达局域网处;单机内存、硬盘相对要处理的数据量来说足够大,并且速度也满足要求。C/S结构运行以下情况必须使用C/S结构运行:单机内存或者硬盘不够大,难以运行大量数据;单机上没有或者无法配置数据连结,无法从数据库中获取数据;组织规则不允许下载大量数据到单机。以下情况可以使用C/S结构运行:要处理的数据量很大,并且存储在可以通过SPSSDataAccess技术可到达的数据库处;单机速度慢,ClementineServer运行的机器配置高。2023/4/1419编辑pptClementine的系统结构Clementine的三层结构:1、数据库层;通过ClementineServer进行调度,把那些可以通过SQL语句执行的数据操作过程以SQL语句的形式导入数据库并在其中进行;2、服务器端;进行调度,不能在数据库层面进行的操作在服务器端进行(比如数据挖掘模型计算过程)3、客户端。在三层结构下通过ClementineServer进行调度,由客户端向服务器端发送数据挖掘指令,并接受和展示数据挖掘结果。ClementineClient和ClementineServer通过SDL(StreamDescriptionLanguage

)之间进行信息交换,ClementineServer和Database通过SQL语句进行信息交换。2023/4/1420编辑pptClementine运行的两种方式图形界面方式适用操作系统Windows系列特点:图形化界面与客户直接交互适合交互式分析过程命令行方式使用操作系统Windows系列Unix系列特点:命令行操作不能生成图形,所有结果保存在文件里或者数据库中适合于以下情况使用:运行耗时较长的建模过程希望在后台运行一些耗时较长的数据准备过程希望按照一定的时间定期运行(比如每周、每月等)希望把Clementine(数据挖掘过程)运行过程嵌入应用系统中2023/4/1421编辑pptClementine的界面和设计思路可视化界面四个区域分别是建模区、结点区、模型描述区、项目管理区通过连接结点构成数据流建立模型Clementine通过7类结点的连接完成数据挖掘工作,它们是:Source(源结点):Database、Var.Files等RecordOps(记录处理结点):Select、Sample等`FieldOps(字段处理结点):Type、Filter等Graphs(图形结点):Plot、Distribute等Modeling(模型结点):NeuralNet、C5.0等Output(输出结点):Table、Matrix等2023/4/1422编辑ppt七大类节点按功能分为七大类节点数据源节点记录处理节点变量处理节点图形节点模型节点输出节点导出节点2023/4/1423编辑ppt图形基本版产生图形种类2023/4/1424编辑ppt记录和变量的处理对于记录的处理对于变量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论