数据挖掘软件发展分析_第1页
数据挖掘软件发展分析_第2页
数据挖掘软件发展分析_第3页
数据挖掘软件发展分析_第4页
数据挖掘软件发展分析_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、发表者朱扬勇、数据挖掘软件的发展分析、2,1、数据挖掘概念-定义、数据挖掘-从大量数据中查找其规律的技术是统计学、数据库技术和人工智能技术的综合。 数据挖掘和统计学数据挖掘和人工智能数据挖掘和数据库技术数据挖掘和KDD,3,1,数据挖掘概念-原因,国民经济和社会信息化,社会信息化,社会运行是软件社会信息化,社会历史是数据历史政府“信息化”和“软件产业的发展”,4,1,数据挖掘的概念-有原由价值的知识,可怕的数据,5,1,数据挖掘的概念-原因,数据爆炸,知识匮乏,苦恼:埋藏在数据中无法做出适当的决策! 数据,知识,决策,6,1,数据挖掘概念发展,1989 IJCAI会议:数据库中的知识发现讨论主

2、题knowledgediscoveryindatabases (g.piaatetsky-Shapiro andw.fraw 1991-1994 KDD是专题advancesinknowledgediscoveryanddatamining (u.fayad,G. Piatetsky-Shapiro,P. Smyth, and r.uthurusamy 1996 ) 1995-1998 KDD国际会议(KDD95-98 ) journalofdataminingandknowledgediscovery (1997 ) 1998 acmsigkdd, 关于SIG KDD1999-2002会议S

3、IGKDD Explorations的数据挖掘的国际会议PAKDD、PKDD、Siam -数据挖掘、(IEEE) ICDM、DaWaK、SPIE-DM、etc .7,一, 数据挖掘概念-技术分类预言:历史预测未来描述:理解数据中的潜在规律数据挖掘技术相关分析序列模式分类(预言)异常检测,8,2,数据挖掘软件的发展, Robert Grossman nationalcenterfordatamininguniversityofillinoisatchicago的见解,9,2,数据挖掘软件的发展,第一代数据挖掘软件特征, 一种或少量数据挖掘算法支持挖掘向量数据的数据,通常,一次调用存储器并使用典型

4、的系统,例如,Salford Systems的早期CART系统(www 一旦数据足够大、频繁变化,就需要利用数据库或数据仓库技术进行管理,第一代系统显然无法满足需求。 10、2、数据挖掘软件的发展,第一代数据挖掘软件CBA新加坡国立大学。 基于关联规则的分类算法可从关系数据或交易数据中挖掘关联规则,使用关联规则进行分类和预测;11,2,数据挖掘软件的发展,第二代数据挖掘软件,特征数据库管理系统(d 可以与集成,支持数据库和数据仓库,可以挖掘具有高性能接口的高可扩展性的大数据集,更复杂的数据集通过支持数据挖掘模式和数据挖掘查询语言来实现系统化例如DBMiner用DMQL挖掘语言进行挖掘操作的缺陷

5、只能重视模型的生成,如何与预言模型系统集成导致了第三代数据挖掘系统的开发,12二、数据挖掘软件的发展, 第二代数据挖掘软件DBMiner,13,2,数据挖掘软件的发展,第二代软件SAS Enterprise Miner,14,2,数据挖掘软件的发展,第三代数据挖掘软件, 特征和预言模型系统的无缝集成数据挖掘软件使模型的变化,预言模型系统的数据挖掘软件使预言模型自动被操作型系统吸收,与操作型系统的预言模型结合提供决策支持的功能可以挖掘网络环境下(Internet/Extranet )的分散和高度异质的数据,并且能够有效地与操作型系统集成的缺陷不能支持移动环境,15,2,数据挖掘软件的发展, 第三

6、代软件SPSS Clementine以PMML的形式提供了与预言模型系统的接口,16,2,数据挖掘软件的发展,第四代数据挖掘软件现在的移动计算变得越来越重要,数据挖掘和移动计算目前还没有报告第四代数据挖掘的原型和业务系统,第四代软件可以挖掘来自嵌入式系统、移动系统和泛在计算设备的各种类型的数据。 PKDD2001上Kargupta发表了在移动环境下挖掘决策树的论文,Kargupta是马里兰州巴尔的摩州立大学开发中的职业数据挖掘项目的负责人,从2001年4月到2006年4月,挖掘分散和异质数据的第17、2、数据挖掘软件的发展,第一代系统与第二代相比,与数据管理系统之间没有有效的接口,因此,第三代

7、数据预处理有一定的缺陷, 第四代系统在预言模型的使用和操作型环境下的第二代系统的引入提供了数据管理系统和数据挖掘系统之间的有效接口第三代系统和数据挖掘系统和预言模型系统之间的有效接口现在, 随着新的挖掘算法的研究和开发,第一代数据挖掘系统仍然出现,第二代系统是商业软件的主流,一些第二代系统开发者是IBM智能软件服务等第三代数据挖掘系统第4代数据挖掘的原型和商业系统还没有报告,18、2、数据挖掘软件发展、数据挖掘软件发展三个阶段独立数据挖掘软件旁边数据挖掘工具集的纵向数据挖掘Gregory Piatetsky-Shapiro的见解,19,2,数据挖掘软件的发展,独立的数据挖掘软件(95年前)特征

8、独立的数据挖掘软件对应第一代系统,数据挖掘技术此类软件必须允许用户理解具体算法和数据挖掘技术,并负责大量的数据预处理。 例如C4.5决策树、平行坐标可视化(parallel-coordination visualization )。20,2、数据挖掘软件的发展、横向数据挖掘工具集(从95年开始)、发展原因被认为随着数据挖掘应用的发展,数据挖掘软件的需求与以下三个方面紧密结合:1)数据随着数据量的增加,需要利用数据库和数据仓库技术进行管理,因此数据挖掘系统将数据库与数据仓库相结合是自然的发展。现实领域的问题多种多样,一种或少数数据挖掘算法难以解决挖掘的数据通常不满足算法的要求,并且可能获得需要诸

9、如数据清洗、变换之类的数据预处理的合作的有价值的模型21、2、数据横向数据挖掘工具集(从95年开始),发展过程随着这些需求,在1995年左右,软件开发者开始提供被称为“工具集”的数据挖掘软件的特征。 这种工具集的特征有可能被称为横向数据挖掘工具,其提供包括数据变换和可视化的各种数据挖掘算法,而不是针对特定应用。 由于是通用算法的集合,所以被称为横向数据挖掘工具的典型横向工具是IBM智能挖掘工具、SPSS客户端、SAS企业挖掘工具、SGI mineset、Oracle d 数据挖掘软件的发展,横向数据挖掘工具集(从95年开始) IBM智能迷你SPSS的Clementine SAS的Enterpr

10、ise Miner SGI的MineSet Oracle Darwin,23 数据挖掘软件的发展、纵向数据挖掘解决方案(从99年开始)的发展原因随着横向数据挖掘工具的使用而变得广泛的这种工具,也发现只有精通数值挖掘算法的专家才能熟练使用。 如果不了解算法,就无法获得好的模型是从1999年开始的,大量数据挖掘工具的开发人员开始提供纵向数据挖掘解决方案。 换言之,为特定应用程序提供完整的数据挖掘解决方案的是纵向解决方案,其中许多数据挖掘技术应用集成在应用系统中,24,2,数据挖掘软件的发展, 纵向数据挖掘解决方案(从99年开始)在证券系统中嵌入神经网络预测功能在欺诈检查系统中嵌入欺诈行为的分类/识

11、别模型在客户关系管理系统中嵌入客户集群/分类功能或客户行为分析功能在机械维护系统中监视/在嵌入了检测或识别困难设备故障功能的数据库市场营销中嵌入了最有可能购买产品的顾客功能的机场管理系统中嵌入了旅客数预测,在货物输送优化功能基因分析系统中嵌入了DNA识别功能的制造/生产系统中嵌入了质量管理功能等,25、2, 数据挖掘软件的发展,纵向数据挖掘解决方案(从99年开始),KD1 (主要用于零售业) OptionsChoice (主要用于保险行业) HNC (主要用于欺诈行为检测) Unica Model 1(主要用于营销) 26,二,数据全面的数据挖掘解决方案(复旦工作),27,3,数据挖掘软件现状

12、,情况概要2002年9月,亚马逊有251本关于数据挖掘软件的书。 ()现在有数百种数据挖掘软件产品。 ()数据挖掘应用程序比较广泛,28,3,数据挖掘软件现状2001/5/142001/5/24 (实际值),2001/11/262001/12/9 (预测值),29,3,数据马30,3、数据挖掘软件的现状(国内情况)大部分是处于科学研究阶段的各大学和科研机构从事数据挖掘算法研究的国内着作的关于数据挖掘的书很少(被翻译)数据挖掘讨论组() 某公司根据海外产品开发的特定应用ibmintelligentminersasenterpriseminer拥有自主知识产权数据挖掘软件复旦德门()等31,4、数

13、据挖掘的应用,调查报告(2002.6.3-6.16 ) 数据挖掘的应用,银行美国银行家协会(ABA )预测数据仓库和数据挖掘技术在美国商业银行的应用增长率为14.9%。 建立分析客户使用流通渠道的状况和流通渠道的容量的利益评价模型建立客户关系的优化风险控制等电子商务网上的商品推荐个性化网页适应网站生物制药、基因研究DNA序列的检索和匹配识别基因序列的共发生性顾客流失保险零售。 的双曲正切值。 的双曲正切值。的双曲馀弦值。 的双曲馀弦值。 的双曲馀弦值。 33、四、数据挖掘的应用、数据挖掘、保险客户、证券客户、银行客户、电信客户、零售客户、人基因、植物基因、动物基因、特殊集团基因、基因序列基因表

14、达谱基因功能基因制药。 数据挖掘的中国本土市场规模在今后五年内达到了百亿、34、4、数据挖掘的应用,为什么不被广泛使用? 数据挖掘迅速发展的技术研究和开发已经站在最前线的地方数据挖掘的应用方面已经得到了很多扩展,但为什么还没有希望的高度,想在几年内达到几十亿元的利益? 因为一种附加值服务(Not bread-and-butter )不被认为很高,所以不听是年轻的技术,需要解决现实问题,35,4,数据挖掘的应用,国内的应用问题,数据积累不充分,构筑不完全的业务模式很困难,有经验数据挖掘的应用探索业务构建神经网络Neural Networks、聚类分析Clustering、openaccnt、Ad

15、d New Product、Decrease Usage? Time、序列分析Sequence Analysis、决策树诊断树、倾向性分析、客户保持客户生命周期管理目标市场价格的灵活性分析、客户细分市场分类、倾向分析客户保持目标市场欺诈检测, 关联分析关联市场组合分析集产品分析目录设计交叉销售,37,4,数据挖掘应用-业务构建触摸,集群聚合将整个数据库分成不同的组。 其目的是组和组的差异很明显,同一组间的数据尽可能相似。 常用技术:神经网络,k平均,最近邻居,38,4,数据挖掘应用-业务构建,异常检测立即发现疑似欺诈的异常行为,对欺诈问题进行正确评价,对欺诈者实施控制和强制措施。 技术:决策树、神经元网络、异常因子LOF检查、客户消费异常行为分析模型、39、4、数据挖掘应用-业务构建接触、客户分析业务模型交叉销售客户响应客户流失客户利益信用卡分析业务模型客户信用等级评价客户消费行为分析客户消费异常行为分析、 40四、数据挖掘应用-业务构建触摸,41,4,数据挖掘应用-业务构建触摸,客户响应模型-基本概念,响应率分析:分析客户对新服务和新产品感兴趣的情况。 为什么响应率分析:可以通过响应率分析有效地降低营销费用,同时可以将更多目标对准目

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论