




已阅读5页,还剩80页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘,数据仓库与数据挖掘,MyzhonglinTELQ:149587061,电子商务09级专业课程,数据挖掘,关于本课程,数控挖掘是电子商务专业的专业选修课程。数据挖掘融合了数据库、人工智能、机器学习、统计分析、模式发现、可视化技术、信息检索等多个学科领域的知识。本课程系统地介绍了数据挖掘的概念、理论及其发展、重点介绍了数据挖掘技术及其在实践中的应用。,数据挖掘,课程目标,通过本课程的学习,掌握数据挖掘的基本概念、数据挖掘过程、数据仓库的概念、OLAP与数据挖掘的关系。掌握数据挖掘的常用技术:决策树、神经网络、关联规则、聚类分析、统计学习等。熟悉数据挖掘技术在典型行业的应用方法,具有运用数据挖掘技术解决问题的能力。,数据挖掘,课程体系,数据挖掘概述数据仓库与OLAP技术数据挖掘技术数据挖掘应用数据挖掘工具数据挖掘实例,数据挖掘,学习方法,课堂讲授及自学理解数据挖掘的基本概念和原理。充分利用因特网,查阅相关资料进一步拓展知识面熟悉常用的数据挖掘软件,提高数据挖掘的基本处理能力和动手能力。,数据挖掘,成绩考核,考试成绩由平时考勤及作业(10%)+实验(20%)期末笔试(70%)构成。,数据挖掘,参考资料,张公让,商务智能与数据挖掘,北京大学出版社别荣芳译,MichaelJ.A.Berry(美),数据挖掘技术市场营销、销售与客户关系管理领域应用,机械工业出版社王欣等,SQLServer2005数据挖掘实例分析,中国水利水电出版社纪希禹等,数据挖掘技术应用实例,机械工业出版社张俊妮,数据挖掘与应用,清华大学出版社元昌安,数据挖掘原理与SPSSClementine应用宝典,电子工业出版社韩家炜,数据挖掘:概念与技术(第二版),中文版,机械工业出版社DavidHand等著,张银奎等译,数据挖掘原理,机械工业出版社RichardJ.Roiger(美),翁敬农译,数据挖掘教程,清华大学出版社,数据挖掘,参考网站,数据挖掘,需要使用的部分软件,SPSSclementineSASSQLServer2005标准版Excel,数据挖掘,第1章数据挖掘概述,数据挖掘,教学目标,掌握数据挖掘的概念和过程掌握数据挖掘所使用的方法和技术了解从数据中可挖掘的知识类型及知识表示。,数据挖掘,教学要求,数据挖掘,引例:啤酒与尿布,超市中啤酒和尿布能陈列在一起吗?沃尔玛(WalMart)是怎样做的?,数据挖掘,引例:啤酒与尿布,沃尔玛超市建立数据仓库,按周期统计产品的销售信息,经过科学建模后提炼决策层数据。发现每逢周末,位于某地区的沃尔玛超市连锁店的啤酒和尿布的销售量很大,而且单张发票中同时购买尿布和啤酒的记录非常普遍。分析人员认为这并非偶然,经过深入分析得知,通常周末购买尿布的是男士,他们在完成了太太交给的任务后,经常会顺便买一些啤酒。得出这样的结果后,沃尔玛超市的工作人员尝试着将啤酒和尿布摆放在一起销售,结果尿布与啤酒的销售额双双增长。从上面的例子不难看出,数据管理的主要目的是获取信息和分析信息以指导我们的行动或帮助我们作决策。,数据挖掘,引言,从大量数据中提取出隐藏在其中的有用信息数据挖掘,也可以称为数据库中的知识发现(KnowledgeDiscoverDatabase,KDD),是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。,数据挖掘,本章内容,一、数据挖掘技术的由来二、数据挖掘的定义三、数据挖掘发现的知识类型四、数据挖掘对象五、数据挖掘任务六、数据挖掘分类七、数据挖掘模型八、数据挖掘过程,数据挖掘,一、数据挖掘技术的由来,信息爆炸但知识贫乏纽约时报一周报道的信息总量,比十八世纪一个人一生接触的信息总量还多“我们正在被信息所淹没,但我们却由于缺乏知识而感到饥饿。”,数据挖掘,一、数据挖掘技术的由来,数据挖掘是八十年代投资AI研究项目失败后,AI转入实际应用时提出的。它是一个新兴的,面向商业应用的AI研究。(AI(ArtificialIntelligence,人工智能)1989年8月,在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上首次出现数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD)这一术语。随后,在1991年、1993年和1994年都举行KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。最初,数据挖掘是作为KDD中利用算法处理数据的一个步骤,其后逐渐演变成KDD的同义词。,数据挖掘,一、数据挖掘技术的由来,现在,人们往往不加区别地使用两者。KDD常常被称为数据挖掘(DataMining),实际两者是有区别的。一般将KDD中进行知识学习的阶段称为数据挖掘(DataMining),数据挖掘是KDD中一个非常重要的处理步骤。数据挖掘是近年来出现的客户关系管理(CustomerRelationshipManagement,CRM)、商业智能(BusinessIntelligence,BI)等热点领域的核心技术之一。,数据挖掘,一、数据挖掘技术的由来,支持数据挖掘技术的基础海量数据搜索强大的多处理器计算机数据挖掘算法,数据挖掘,二、数据挖掘的定义,技术角度的定义数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。该定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。,数据挖掘,二、数据挖掘的定义,关于知识的解释从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。,数据挖掘,二、数据挖掘的定义,模式:它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。模式按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。,数据挖掘,二、数据挖掘的定义,“从数据中发现有用模式”历来有很多称法,如:数据挖掘(datamining)知识提取(knowledgeextraction)信息发现(informationdiscovery)信息收获(informationharvesting)数据考古(dataarchaeology)数据模式处理(datapatternprocessing)“数据挖掘”的称法大部分是由统计学家,数据分析学家和MIS团体使用的,在数据库领域也得到了广泛接受。,数据挖掘,二、数据挖掘的定义,商业角度的含义数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘对于企业的价值简言之,数据挖掘其实是一类深层次的数据分析方法。因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。,数据挖掘,二、数据挖掘的定义,从商业数据到商业信息的进化,数据挖掘,数据挖掘与其他科学的关系,数据挖掘作为一门新兴的交叉学科,涉及数据库系统、数据仓库、统计学、机器学习、可视化、信息检索和高性能计算等诸多领域。此外,还与神经网络、模式识别、空间数据分析、图像处理、信号处理、概率论、图论和归纳逻辑等等领域关系密切。,数据挖掘,数据挖掘与其他科学的关系,数据挖掘受多学科的影响,数据挖掘,数据挖掘与传统数据分析,数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是:在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知,有效和可用三个特征。(传统是假设驱动、数据挖掘是发现驱动),数据挖掘,数据挖掘和数据仓库,数据仓库和数据集市是数据挖掘的一种数据源数据挖掘是数据仓库的一个应用对于数据挖掘,数据仓库不是必需的。,数据挖掘,数据挖掘和在线分析处理(OLAP),OLAP分析是建立一系列的假设,然后通过OLAP来证实或推翻这些假设来最终得到自己的结论。OLAP分析过程在本质上是一个演绎推理的过程。数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。数据挖掘和OLAP具有一定的互补性。,数据挖掘,数据挖掘、机器学习和统计,数据挖掘利用了人工智能(AI)和统计分析的进步所带来的好处。数据挖掘不是为了替代传统的统计分析技术。相反,他是统计分析方法学的延伸和扩展。数据挖掘就是利用了统计和人工智能技术的应用程序,他把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题,数据挖掘,数据挖掘的本质,一种深层次的数据分析方法。数据分析本身已有多年的历史,只不过在过去数据收集和分析的一般目的是用于科学研究;另外,由于当时计算能力的限制,很难实现大量数据的复杂分析。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据并不是为了分析的目的而收集的,而是在商业运作过程中由于业务需要而自然产生的。,数据挖掘,实施数据挖掘的目的,不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润。所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此需要从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也由此而得名。,数据挖掘,三、数据挖掘发现的知识类型,广义知识关联知识分类知识预测知识偏差知识。,数据挖掘,广义知识,广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质。广义知识就是对大量数据的归纳、概括,提炼出带有普遍性的、概括性的描述统计知识。描述统计是数据挖掘最基本的应用之一,经常和统计图(如直方图,柱形图,折线图,散点图等)配合使用。如当月公司利润总额、比较不同区域的销售量等。广义知识的发现方法和实现技术有很多,如概念描述、多维数据分析、面向属性的归约、概念分层等。,数据挖掘,关联知识,数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联知识可分为简单关联规则、多层关联规则、多维关联规则、量化关联规则和基于约束的关联规则。典型例子是购物篮分析发现关联规则的算法主要有Apriori算法和频繁模式树(FP-树),数据挖掘,案例:某超市的数据挖掘应用,美国的超市有这样的系统:当你采购了一车商品结账时,售货员小姐扫描完了你的产品后,计算机上会显示出一些信息,然后售货员会友好地问你:我们有一种一次性纸杯正在促销,位于F6货架上,您要购买吗?这句话决不是一般的促销。因为计算机系统早就算好了,如果你的购物车中有餐巾纸、大瓶可乐和沙拉,则86%的可能性你要买一次性纸杯。结果是,你说,啊,谢谢你,我刚才一直没找到纸杯。这不是什么神奇的科学算命,而是利用数据挖掘中的关联规则算法实现的系统。,数据挖掘,分类知识,分类知识是反映同类事物共同性的特征型知识和不同事物之间的差异型特征知识。典型应用:客户细分。例如,银行根据客户的存款额、信用额和消费金额把客户分成不同的类别,分别办理不同类型的银行卡。算法有决策树分类、贝叶斯分类、人工神经网络法、粗糙集法和遗传算法等。,数据挖掘,预测知识,预测型知识指的是预测连续值,是根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。一个典型的例子是市场预测问题,数据挖掘从过去有关促销的数据中寻找在未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能做出反应的群体。基于统计学习的回归分析法,还有基于现代智能计算的神经网络、遗传算法等各类时间序列分析法。,数据挖掘,偏差知识,偏差型知识是对差异和极端特例的描述,揭示事物偏离常规的异常现象。偏差即异常,在数据挖掘中有时也称之为“孤立点”,可以用来发现“小的模式”偏差知识挖掘的一个典型应用是检测信用卡欺诈。基于统计的方法、基于距离的方法和基于偏离的方法,数据挖掘,案例:国内某电信公司利用数据挖掘预测客户知识,2004年,某电信公司邀请国际某著名咨询公司进行市场营销再造项目,将数据挖掘用于它的三个业务领域:客户管理、网络/产品/服务管理、市场/财务管理;公司将数据挖掘的重点放在了客户管理。在电信市场竞争越来越激烈的今天,即使在扩大其客户群的时候,电信运营商和其它代理商也必须密切监视他们的现有客户,并采用各种营销方法来留住这些客户。电信公司期望通过数据仓库的实施和数据挖掘的应用,能够利用经营分析系统进行客户分群、客户获取、客户行为分析、客户流失分析等。如今,电信公司已经能够利用现有的客户数据来总结客户行为的特点,并预测客户的下一步行为。例如,为了对付日益严重的客户流失或业务流失状况,电信公司采用基于决策树的方法来分析客户的流失特性,以便采取针对性的营销措施,挽留有价值的客户、减少客户流失。,数据挖掘,四、数据挖掘对象,1.关系数据库数据库中数据的特点如下:1)数据动态性、2)数据的不完全性、3)噪声数据、4)数据类型不一致、5)异构性、6)数据冗余性、7)数据稀疏性由于数据库中的数据具有以上特点,使其在挖掘过程中难以直接使用,因此在进行数据挖掘以前必须对数据进行预处理。,数据挖掘,四、数据挖掘对象,2.数据仓库数据仓库的特点如下:1)面向主题、2)集成的数据、3)不可更新、4)随时间不断变化高质量的挖掘结果依赖于高质量的数据,数据仓库为数据挖掘准备了良好的数据源,因此,数据仓库是数据挖掘的最佳环境。,数据挖掘,四、数据挖掘对象,3文本文本是非结构化或半结构化的数据。文本分析包括:1)关键词或特征提取2)相似检索3)文本聚类4)文本分类,数据挖掘,四、数据挖掘对象,4多媒体数据图像、音频、视频数据是典型的多媒体数据。多媒体数据广泛存在于生活、医学、军事、娱乐等领域,目前,对于多媒体数据的挖掘主要有特征提取、基于内容的相似检索等。,数据挖掘,四、数据挖掘对象,5Web数据Web使用模式挖掘:在Web环境中,文档和对象一般都是通过链接来便于用户访问。捕捉用户的存取模式或发现一个Web网站最频繁的访问路径称为Web使用模式挖掘或Web路径挖掘。Web结构挖掘:是挖掘Web的链接结构,并找出关于某一主题的权威网站。Web内容挖掘:是指在大量训练样本的基础上,得到数据对象之间的内在特征,并以此为依据进行有目的的信息筛选,从而获得指定内容的信息。,数据挖掘,四、数据挖掘对象,6复杂类型的数据1)空间数据库如地理信息数据、卫星图像数据、地下管道、下水道、及各类地下建筑分布数据等。对空间数据的挖掘可以为城市规划、生态规划、道路修建提供决策支持。2)时间序列数据主要用于存放与时间相关的数据,它可用来反映随时间变化的即时数据或不同时间发生的不同事件。例如,连续存放即时的股票交易信息、卫星轨道信息等。对时间序列数据的挖掘可以发现事件的发展趋势、演变过程和隐藏特征,这些信息对制定计划、决策和预警是非常有用的。,数据挖掘,五、数据挖掘任务,概念描述关联分析分类与估值聚类孤立点分析时间序列分析预测,数据挖掘,概念描述,概念描述就是通过对某类数据对象进行汇总、分析和比较,获得对此类对象内涵的描述,并概括这类对象的有关特征。概念描述可以通过下述方法得到:数据特征化和数据区分数据特征化的输出可以采用饼图、柱状图、曲线、多维数据立方体、含交叉表的多维表等形式,描述结果也可以用概化关系或规则形式表示数据区分的输出类似于数据特征化,但它应该包括比较度量,以帮助区分目标类和比较类。,数据挖掘,概念描述,例1:我们收集移动电话费月消费额超出1000元的客户资料,然后利用数据挖掘进行分析,获得这类客户的总体性描述:3550岁,有工作,月收入5000元以上,拥有良好的信用度;例2:对比移动电话费月消费额超出1000元的客户群与移动电话费月消费额低于100元的客户群。利用数据挖掘可作出如下描述:移动电话月消费额超出1000元的客户80以上年龄在3550岁之间,且月收入5000元以上;而移动电话月消费额低于100元的客户60以上要么年龄过大要么年龄过小,且月收入2000元以下。,数据挖掘,关联分析,关联分析就是从大量的数据中发现项集之间有趣的联系、相关关系或因果结构,以及项集的频繁模式。例如,购买计算机也趋向于同时购买财务管理软件可以用以下关联规则表示:support=2%,confidence=60%,数据挖掘,分类与估值,分类指通过分析一个类别已知的数据集的特征来建立一组模型,该模型可用以预测类别未知的数据项的类别。类的内涵描述分为:特征描述和辨别性描述。特征描述是对类中对象的共同特征的描述。辨别性描述是对两个或多个类之间区别的描述。分类过程分两步:第一步,建立一个模型,描述预定的数据类或概念集。第二步,使用模型对未分类的对象进行分类。分类挖掘主要技术有决策树、贝叶斯学习方法和神经网络方法等。,数据挖掘,分类与估值,估值与分类类似,只不过它要预测的不是类别,而是一个连续的数值。,数据挖掘,聚类,聚类是根据类内事物的相似性最大、类间事物的相似性最小的原则把数据对象进行聚类或分组。聚类与分类不同,它们的区别如下:第一,分类需要训练数据集,属于有监督的学习;而聚类不需要训练数据集,属于无监督的学习。第二,在进行分类以前,已知道数据的分类情况;而进行聚类以前,对目标数据的分类情况一无所知。常用的聚类方法包括统计分析方法、机器学习方法、神经网络方法等。,数据挖掘,孤立点分析,数据库中可能包含一些数据对象,它们与集合中其它数据的一般行为或模型不一致,这些数据对象称为孤立点。孤立点可以使用统计试验检测。它假定一个数据的分布或概率模型,并使用距离度量,到其它数据对象的距离很远的对象被视为孤立点。基于偏差的方法通过考察一群对象主要特征上的差别识别孤立点,而不是使用统计或距离度量。孤立点分析通常可以作为聚类分析的副产品,根据聚类分析结果,含有对象个数少于设定阈值的聚类中的事物看作是孤立点。,数据挖掘,时间序列分析,时间序列分析是描述行为随时间变化的对象的规律或趋势,并对其建模。包括与时间相关数据的特征、区分、关联、分类或聚类,根据分析的不同特点分为时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。如股票市场的每日波动、动态产品加工过程、科学实验、医学治疗等。,数据挖掘,预测,预测是从历史数据找出变化规律,建立模型,并用此模型预测未来数据种类、特征等。用分类预测离散数据用回归分析预测连续数据。典型的回归分析是利用大量的历史数据,建立线性或非线性回归方程。根据回归模型,只要输入自变量的值,就可以求出因变量的值,达到对因变量的预测。,数据挖掘,六、数据挖掘分类,1.按数据库类型分类根据数据模型分类,有关系的、事务的、面向对象的、对象-关系的、或数据仓库的数据挖掘系统。根据所处理的数据的特定类型分类,有空间的、时间序列的、文本的、或多媒体的数据挖掘系统,或WWW数据挖掘系统。,数据挖掘,六、数据挖掘分类,2.按数据挖掘对象分类对数据库进行挖掘文本数据挖掘多媒体数据挖掘Web数据挖掘。,数据挖掘,六、数据挖掘分类,3.根据挖掘的知识类型分类概念描述关联分析分类预测聚类分析孤立点分析,数据挖掘,六、数据挖掘分类,4按挖掘方法和技术分类归纳学习类仿生计算类公式发现类统计分析类模糊数学类可视化技术类,数据挖掘,数据挖掘技术分类,数据挖掘,七、数据挖掘模型,为了使数据挖掘技术在产业界得到更好的应用,欧洲委员会联合一些数据挖掘软件厂商开发了CRISP-DM(CrossIndustryStandardProcessforDataMining)模型,目的是把数据挖掘的过程标准化,使数据挖掘项目的实施速度更快、成本更低、更可靠并且更容易管理。CRISP-DM模型最先在1996年被提出,当前的白皮书版本是1.0。,数据挖掘,CRISP-DM(CrossIndustryStandardProcessforDataMining)模型,数据挖掘,七、数据挖掘模型,CRISP-DM模型中,数据挖掘包括六个步骤:1.业务理解(BusinessUnderstanding)阶段具体地,包括:确定业务目标项目可行性分析确定数据挖掘目标提出初步的项目计划,数据挖掘,七、数据挖掘模型,确定业务目标:分析项目的背景,从业务视点分析项目的目标和需求,确定业务角度的成功标准;项目可行性分析:分析拥有的资源,条件和限制,风险估计,成本和效益估计;确定数据挖掘目标:明确确定数据挖掘的目标和成功标准,数据挖掘的目标和业务目标是不一样的,前者指技术上的,例如生成一棵决策树等;提出项目计划:对整个项目做一个计划,初步估计用到的工具和技术。,数据挖掘,七、数据挖掘模型,2数据理解(DataUnderstanding)阶段具体地,包括:收集原始数据:收集本项目所涉及到的数据,如有必要,把数据装入数据处理工具,并作一些初步的数据集成的工作,生成相应报告;描述数据:对数据做一些大致的描述,例如记录数、属性数等,给出相应报告;探索数据:对数据做简单的统计分析,例如关键属性的分布等;检查数据质量:包括数据是否完整、数据是否有错、是否有缺失值等问题。,数据挖掘,七、数据挖掘模型,3数据准备(DataPreparation)阶段具体地,包括:数据选择:根据数据挖掘目标和数据质量选择合适的数据,包括表的选择、记录选择和属性选择;数据清洁:提高选择好的数据的质量,例如去除噪音,估计缺失值等;数据创建:在原有数据的基础上是生成新的属性或记录;,数据挖掘,七、数据挖掘模型,数据合并:利用表连接等方式将几个数据集合并在一起;数据格式化:把数据转换成适合数据挖掘处理的格式。,数据挖掘,七、数据挖掘模型,4建立模型(Modeling)阶段具体地,包括:选择建模技术:确定数据挖掘算法和参数,可能会利用多个算法;测试方案设计:设计某种测试模型的质量和有效性的机制;模型训练:在准备好的数据集上运行数据挖掘算法,得出一个或者多个模型;模型测试评估:根据测试方案进行测试,从数据挖掘技术的角度确定数据挖掘目标是否成功。,数据挖掘,七、数据挖掘模型,5模型评估(Evaluation)阶段具体地,包括:结果评估:从商业角度评估得到的模型,甚至实际试用该模型测试其效果;过程回顾:回顾项目的所有流程,确定每一个阶段都没有失误;确定下一步工作:根据结果评估和过程回顾得出的结论,确定是部署该挖掘模型还是从某个阶段开始重新开始。,数据挖掘,七、数据挖掘模型,6部署(Deployment)阶段具体地,包括:部署计划:对在业务运作中部署模型作出计划;监控和维护计划:如何监控模型在实际业务中的使用情况,如何维护该模型;作出最终报告:项目总结,项目经验和项目结果;项目回顾:回顾项目的实施过程,总结经验教训;对数据挖掘的运行效果做一个预测。,数据挖掘,七、数据挖掘模型,为保证项目的可靠性和可管理性,CRISP-DM规定一个数据挖掘项目应该产生11个报告:业务理解报告原始数据收集报告数据描述报告数据探索报告数据质量报告数据集描述报告模型训练报告模型评估报告部署计划监控和维护计划总结报告通过这些报告,可以有效地控制数据挖掘项目进程,减少开发风险。,数据挖掘,八、数据挖掘过程,数据挖掘是一个反复迭代的人机交互处理过程。该过程需要经历多个步骤,并且很多决策需要由用户提供。从宏观上看,数据挖掘过程主要由三个部分组成,即数据整理、数据挖掘和结果的解释评估。,数据挖掘,八、数据挖掘过程,数据挖掘,八、数据挖掘过程,1确定主题在理解数据和实际业务问题的基础上,提出数据挖掘要解决的问题,定义挖掘的目标,确定挖掘要发现的知识类型。2数据筛选搜索与业务数据有关的内部和外部数据信息,从中选择出适用于挖掘主题的目标数据集。3数据清洗来源于业务数据库的目标数据集中可能存在噪声数据、空缺数据、过时数据、冗余数据等,为提高挖掘质量,需要合理处理噪声数据、删除过时数据和冗余数据、填补空缺数据等清洗操作。,数据挖掘,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年大学人文教育专业题库- 大学人文教育专业的学术论文
- 2025年大学国内安全保卫专业题库- 安全保卫专业的课程设置与发展方向
- 2025年统计学专业期末考试:分析与决策制定应用案例分析试题型
- 2025年医保知识考试题库及答案:医保定点医疗机构管理实务试题
- 2025年消防安全演练考试题库:消防隐患排查与应急响应试题型
- 2025年大学科学教育专业题库- 科学知识的跨学科整合与应用
- 2025年大学人文教育专业题库- 职业道德与人文教育
- 2025年大学人文教育专业题库- 大学人文教育与学术研究
- 2025年大学劳动教育专业题库- 劳动教育对学生团队协作能力的培养
- 2025年大学工会学专业题库- 工会与全球化挑战解析
- 食品食材配送项目投标书范本
- 第五讲铸牢中华民族共同体意识-2024年形势与政策
- 高中数学正弦函数图像课件新人教版必修
- 2025届高考数学一轮复习建议-函数与导数专题讲座课件
- 《中华民族一家亲-同心共筑中国梦》队会课件
- 资产负债管理与精算风险控制
- 膜结构车棚施工施工方案
- 骨科医疗行业市场前景及投资研究报告:全面集采骨科高值耗材
- FZT 34002-2016 亚麻印染布行业标准
- 晚期卵巢癌肿瘤细胞减灭术手术技巧讲义
- 支气管扩张症的自我管理策略
评论
0/150
提交评论