数据挖掘软件—重要研究方向-知识管理与数据分析试验室ppt课件_第1页
数据挖掘软件—重要研究方向-知识管理与数据分析试验室ppt课件_第2页
数据挖掘软件—重要研究方向-知识管理与数据分析试验室ppt课件_第3页
数据挖掘软件—重要研究方向-知识管理与数据分析试验室ppt课件_第4页
数据挖掘软件—重要研究方向-知识管理与数据分析试验室ppt课件_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2020/5/12,.,1,数据挖掘软件与工具,2020/5/12,.,2,数据挖掘是多学科知识的综合,涵盖了数据库技术、统计学、可视化技术、信息科学、机器学习等多方面知识。数据挖掘的重要作用已为人们了解,为了实现有效的数据挖掘,绝大多数用户必须借助于合适的数据挖掘软件,所以,数据挖掘软件的研究是数据挖掘的一个重要研究方向。,一、数据挖掘软件重要研究方向,.,3,二、数据挖掘软件的发展,.,数据挖掘功能,数据挖掘,估计Estimation,分类Classification,预测Prediction,关联规则AssociationRules,描述与可视化DescriptionandVisualization,聚类Cluster,.,5,数据挖掘模型的分类,数据描述和汇总(Datadescriptionandsummarization)细分(Segmentation)概念描述(Conceptdescriptions)分类(Classification)预测(Prediction)相关分析(Dependencyanalysis),.,6,数据挖掘技术的分类,数据挖掘,描述,预测,统计回归,关联规则,决策树,可视化,聚类,顺序关联,汇总,神经网络,分类,时间序列预测,.,7,数据挖掘的典型结果金融,问题描述:预测信用水平是好还是差,银行据此决定是否向客户发放贷款,发放多少结果描述:(决策树),收入大于5万元/年,是,否,有无储蓄帐户,是否房主,否,是,是,否,批准,不批准,批准,.,8,数据挖掘的典型结果电信,问题描述:根据客户信息,预测客户流失可能性结果描述:(神经网络),输入,流失概率(0.87),输出,男,29,3000元/月,套餐A,130元/月,.,9,数据挖掘的典型结果零售,问题描述:如何决定超市中商品的摆放来增加销售额结果描述:(Web图),.,10,数据挖掘的典型结果制造业,问题描述:如何对市场进行细分,使产品满足最有价值客户结果描述:(Koholen聚类),.,11,数据挖掘的典型结果政府,问题描述:如何从众多申请经费或者纳税中发现欺诈结果描述:(回归、神经网络),.,BusinessUnderstanding,商业理解过程理解商业目标熟悉业务流程统一业务术语成本/收益分析当前系统评估主要用户使用者结果的输出形式挖掘任务的结果和现有系统的集成任务分解挖掘目标分解为子任务将商业目标转化为数据挖掘任务约束条件确认资源数据保护制度等制定项目计划,.,DataUnderstanding,数据理解过程数据源情况数据处理范围数据源访问情况数据描述数据质量描述基本统计值/汇总值数据探索数据分布相关性分析缺失值处理空值处理奇异值处理,.,DataPreparation,数据准备过程数据整合多个数据表的数据联合数据的汇总和聚合数据选择记录的选择和排除数据集合构成:测试集,检验集数据转换函数转换标准化处理离散化处理数据清洗数据缺失值处理数据派生新变量的生成,.,Modeling,数据建模过程选择合适的建模技术数据预处理的情况依赖于数据挖掘问题类型和输出形式构建模型训练环境训练样本的构建模型建立选择初始化参数设置模型估计考虑过训练的情况误差分布的调查模型参数修正及其原因,.,Evaluation,模型评估过程模型评估根据专家的知识和经验进行人工评估从商业角度来评价结果的有效性定义参照对象计算升益曲线(LiftCurve)期望的投资回报率(ROI)对整个数据挖掘过程进行回顾决定下一步骤模型发布的时机发布框架结构进一步改进模型,.,Deployment,模型发布过程数据挖掘结果的发布方式模型的结果输出到数据库形成简单的报表结果转化为可解释的业务规则在线实时地模型评分过程数据的输入输出与原有业务系统的集成实时数据的来源和结果反馈模型运用的模式实时处理批处理自动化问题(周期),.,18,Clementine的软件构成,ClementineClient;ClementineServer;ClementineBatch;SPSSDataAccessPack;ClementineSolutionPublisher(Optional)。,.,19,Clementine的两种运行方式,单机版运行以下情况必须使用单机版运行:数据存储在本机,且不能在网络上共享;机器不联网;无ClementineServer可供使用。以下情况可以使用单机版运行:要处理的数据量很小(比如:小于2M)并且数据存储在单机或可到达局域网处;单机内存、硬盘相对要处理的数据量来说足够大,并且速度也满足要求。,C/S结构运行以下情况必须使用C/S结构运行:单机内存或者硬盘不够大,难以运行大量数据;单机上没有或者无法配置数据连结,无法从数据库中获取数据;组织规则不允许下载大量数据到单机。以下情况可以使用C/S结构运行:要处理的数据量很大,并且存储在可以通过SPSSDataAccess技术可到达的数据库处;单机速度慢,ClementineServer运行的机器配置高。,.,20,Clementine的系统结构,Clementine的三层结构:1、数据库层;通过ClementineServer进行调度,把那些可以通过SQL语句执行的数据操作过程以SQL语句的形式导入数据库并在其中进行;2、服务器端;进行调度,不能在数据库层面进行的操作在服务器端进行(比如数据挖掘模型计算过程)3、客户端。在三层结构下通过ClementineServer进行调度,由客户端向服务器端发送数据挖掘指令,并接受和展示数据挖掘结果。,ClementineClient和ClementineServer通过SDL(StreamDescriptionLanguage)之间进行信息交换,ClementineServer和Database通过SQL语句进行信息交换。,.,21,Clementine运行的两种方式,图形界面方式适用操作系统Windows系列特点:图形化界面与客户直接交互适合交互式分析过程,命令行方式使用操作系统Windows系列Unix系列特点:命令行操作不能生成图形,所有结果保存在文件里或者数据库中适合于以下情况使用:运行耗时较长的建模过程希望在后台运行一些耗时较长的数据准备过程希望按照一定的时间定期运行(比如每周、每月等)希望把Clementine(数据挖掘过程)运行过程嵌入应用系统中,.,22,Clementine的界面和设计思路,可视化界面四个区域分别是建模区、结点区、模型描述区、项目管理区通过连接结点构成数据流建立模型Clementine通过7类结点的连接完成数据挖掘工作,它们是:Source(源结点):Database、Var.Files等RecordOps(记录处理结点):Select、Sample等FieldOps(字段处理结点):Type、Filter等Graphs(图形结点):Plot、Distribute等Modeling(模型结点):NeuralNet、C5.0等Output(输出结点):Table、Matrix等,.,七大类节点,按

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论