数据挖掘(偶然看到比较好的)讲解_第1页
数据挖掘(偶然看到比较好的)讲解_第2页
数据挖掘(偶然看到比较好的)讲解_第3页
数据挖掘(偶然看到比较好的)讲解_第4页
数据挖掘(偶然看到比较好的)讲解_第5页
已阅读5页,还剩173页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 Copyright by Song ZhihuanCopyright by Song Zhihuan 数据分析论坛 工业控制技术研究所 坛主:cuit Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 控制科学与工程学系 研究生课程研究生课程 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song Z

2、hihuanCopyright by Song Zhihuan 工业控制技术研究所 - Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 国民经济和社会的信息化国民经济和社会的信息化 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 数据挖掘数据挖掘 数据库越来越大数据库越来越大 有价值的知识有价值的知识 可怕的数据可怕的数据 Co

3、pyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 苦恼: 淹没在数据中 ; 不能制定合适的决策! n模式模式 n趋势趋势 n事实事实 n关系关系 n模型模型 n关联规则关联规则 n序列序列 n目标市场目标市场 n资金分配资金分配 n贸易选择贸易选择 n在哪儿做广告在哪儿做广告 n销售的地理位置销售的地理位置 n金融金融 n经济经济 n政府政府 nPOS. n人口统计人口统计 n生命周期生命周期 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 l1989

4、IJCAI会议: 数据库中的知识发现讨论专题 Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991) l1991-1994 KDD讨论专题 Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996) l1995-1998 KDD国际会议 (KDD95-98) Journal of Data Mining and Knowled

5、ge Discovery (1997) l1998 ACM SIGKDD, SIGKDD1999-2002 会议,以及SIGKDD Explorations l数据挖掘方面更多的国际会议 PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, DaWaK, SPIE-DM, etc. Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 l技术分类 预言(Predication):用历史预测未来 描述(Description):了解数据中潜在的规律 l数据挖掘技术 关联分析 序列模式 分类(预言

6、) 聚集 异常检测 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 矿山(数据)挖掘工具(算法)金子(知识) Copyright by Song Zhihuan

7、Copyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 分类条件1 分类条件2 分类条件3 类1

8、 类2 类3类4 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 代代特征特征数据挖掘算法数据挖掘算法 集成集成 分布计算分布计算 模型模型 数据模型数据模型 第一代第一代 数据挖掘作为数据挖掘作为 一个独立的应一个独立的应 用用 支持一个或者支持一个或者 多个算法多个算法 独立的

9、系独立的系 统统 单个机单个机 器器 向量数据向量数据 第二代第二代 和数据库以及和数据库以及 数据仓库集成数据仓库集成 多个算法:能够多个算法:能够 挖掘一次不能放挖掘一次不能放 进内存的数据进内存的数据 数据管理系数据管理系 统,包括数统,包括数 据库和数据据库和数据 仓库仓库 同质同质/ /局局 部区域部区域 的计算的计算 机群集机群集 有些系统支有些系统支 持对象、文持对象、文 本、和连续本、和连续 的媒体数据的媒体数据 第三代第三代和预言模型和预言模型 系统集成系统集成 多个算法多个算法 数据管理和数据管理和 预言模型系预言模型系 统统 intranet/e xtranet网网 络计

10、算络计算 支持半结构支持半结构 化 数 据 和化 数 据 和 webweb数据数据 第四代第四代和移动数据和移动数据/ / 各种计算数各种计算数 据联合据联合 多个算法多个算法 数据管理、数据管理、 预言模型、预言模型、 移动系统移动系统 移动和各移动和各 种计算设种计算设 备备 普 遍 存 在普 遍 存 在 的 计 算 模的 计 算 模 型型 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copy

11、right by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所

12、 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制

13、技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan

14、 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zh

15、ihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by So

16、ng Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 训练数 据集 NAME RANKYEARS TENURED MikeAssistant Prof3no MaryAssistant Prof7yes Bill Professor2yes JimAssociate Prof7yes DaveAssistant Prof6no AnneAssociate Prof3no 分类算法 IF rank = professor OR years 6 THEN tenured = yes 分类规

17、则 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 分类规则 测试集 NAMERANKYEARS TENURED TomAssistant Prof2no Merlisa Associate Prof7no George Professor5yes Joseph Assistant Prof7yes 未知数据 (Jeff, Professor, 4) Tenured? Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Son

18、g ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 )( )()|( )|( DP hPhDP DhP Copyright by Song ZhihuanCopyright by Song Zhi

19、huan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 线性回归和多元回归 非线性回归 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 2 1 1 )( )( S i i i S i i xx yyxx xy Copyright by Song ZhihuanCopyright by Song Zhihua

20、n 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Z

21、hihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 np x. nf x. n1 x . ip x. if x. i1 x . 1

22、p x. 1f x. 11 x 0.)2 ,()1 ,( : )2 , 3() .ndnd 0dd(3,1 0d(2,1) 0 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 .). 21 1 nffff xx(x n m |)|.|(| 1 21fnffffff mxmxmx n

23、 s f fif ifs mx z Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 q q pp qq j x i x j x i x j x i xjid)|.|(|),( 2211 |.|), ( 2211ppj x i x j x i x j x i xjid Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 )|.|(|),( 22 22 2 11ppj x i x j x i x j x i xjid Copyright by Song Z

24、hihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 1 1 f if if M r z ,.,1 fif Mr Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 )( 1 )()( 1 ),( f ij p f f ij f ij p f d jid

25、Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 1 1 f if M r z if Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by

26、Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 交易ID购买的商品 2000A,B,C 1000A,C 4000A,D 5000B,E,F 买尿布的客买尿布的客 户户 二者都买二者都买 的客户的客户 买啤酒的客户买啤酒的客户 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 交易ID购

27、买商品 2000A,B,C 1000A,C 4000A,D 5000B,E,F 频繁项集支持度 A75% B50% C50% A,C50% 最小值尺度 50% 最小可信度 50% Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 食品 面包牛奶 脱脂奶 光明统一 酸奶白黄 TID Items T1111, 121, 211, 221 T2111, 211, 222, 323 T3112, 122, 22

28、1, 411 T4111, 121 T5111, 122, 211, 221, 413 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 牛奶牛奶 support = 10% 酸奶酸奶 support = 6% 脱脂奶脱脂奶 support = 4% 层层 1 min_sup = 5

29、% 层层 2 min_sup = 5% Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 酸奶酸奶 support = 6% 脱脂奶脱脂奶 support = 4% 层层 1 min_sup = 5% 层层 2 min_sup = 3% 牛奶牛奶 support = 10% Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copy

30、right by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 n空间关系的层次: n“g_close_to”: 邻近, 接触, 交叉, 包含 n先搜索粗糙的关系然后再精化 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyr

31、ight by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 (income)(age) () (buys) (age, income)(age,buys) (income,buys) (age,income,buys) Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 age(X,”30-34”) income(X,”24K - 48K”) buys(

32、X,”high resolution TV”) Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 价格($) 等宽 ( 宽度$10) 等深 (深度 2)基于距离 70,107,207,7 2011,2022,5020,22 2221,3051,5350,53 5031,40 5141

33、,50 5351,60 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 ) 1( ),( )( 11 NN XtXtdist XSd ji N i N j X Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 X dCdX0)( 0sCX Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 关联规则可视化关联规则可视化Using Plane Graph Copyright by S

34、ong ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 关联规则可视化关联规则可视化Using Rule Graph Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by S

35、ong Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 l序列序列是序列是序列的子序列的子序列 l序列序列是长度为是长度为3的序列模式的序列模式 Copyright by Song ZhihuanCopyright by Song Zhihuan

36、 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 代代 特征特征数据挖掘算法数据挖掘算法集成集成分布计算分布计算 模型模型 数据模型数据模型

37、 第一第一 代代 作为一个独作为一个独 立的应用立的应用 支持一个或者支持一个或者 多个算法多个算法 独立的系统独立的系统单个机器单个机器向量数据向量数据 第二第二 代代 和数据库以和数据库以 及数据仓库及数据仓库 集成集成 多个算法:能多个算法:能 够挖掘一次不够挖掘一次不 能放进内存的能放进内存的 数据数据 数据管理系数据管理系 统,包括数统,包括数 据库和数据据库和数据 仓库仓库 同质、局同质、局 部区域的部区域的 计算机群计算机群 集集 有些系统支持有些系统支持 对象对象, ,文本和文本和 连续的媒体数连续的媒体数 据据 第三第三 代代 和预言模型和预言模型 系统集成系统集成 多个算法

38、多个算法数据管理和数据管理和 预言模型系预言模型系 统统 intranet/e xtranet网网 络计算络计算 支持半结构化支持半结构化 数据和数据和webweb数数 据据 第四第四 代代 和移动数据和移动数据/ / 各种计算设各种计算设 备的数据联备的数据联 合合 多个算法多个算法数据管理、数据管理、 预言模型、预言模型、 移动系统移动系统 移动和各移动和各 种计算设种计算设 备备 普遍存在的计普遍存在的计 算模型算模型 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 第一代数据挖掘软件 l特点 支持一个或少数几个数

39、据挖掘算法 挖掘向量数据(vector-valued data) 数据一般一次性调进内存进行处理 典型的系统如Salford Systems公司早期的CART系统 (www.salford-) l缺陷 如果数据足够大,并且频繁的变化,这就需要利用数据库 或者数据仓库技术进行管理,第一代系统显然不能满足需 求。 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 第一代数据挖掘软件第一代数据挖掘软件CBA 新加坡国 立大学。基于 关联规则的分 类算法,能从 关系数据或者 交易数据中挖 掘关联规则, 使用关联规则 进行分类和预

40、测 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 第二代数据挖掘软件第二代数据挖掘软件 l特点 与数据库管理系统(DBMS)集成 支持数据库和数据仓库,和它们具有高性能的接口,具有高的 可扩展性 能够挖掘大数据集、以及更复杂的数据集 通过支持数据挖掘模式(data mining schema)和数据挖掘查 询语言增加系统的灵活性 典型的系统如DBMiner,能通过DMQL挖掘语言进行挖掘操作 l缺陷 只注重模型的生成,如何和预言模型系统集成导致了第三代数 据挖掘系统的开发 Copyright by Song Zhihu

41、anCopyright by Song Zhihuan 工业控制技术研究所 第二代数据挖掘软件第二代数据挖掘软件 DBMiner Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 第二代软件第二代软件 SAS Enterprise Miner Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 第三代数据挖掘软件第三代数据挖掘软件 l特点 和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产 生的模型的变化能够及时反映到预言模型系统中 由数据挖掘软件产

42、生的预言模型能够自动地被操作型系统吸收, 从而与操作型系统中的预言模型相联合提供决策支持的功能 能够挖掘网络环境下(Internet/Extranet)的分布式和高度异 质的数据,并且能够有效地和操作型系统集成 l缺陷 不能支持移动环境 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 第三代软件第三代软件 SPSS Clementine Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 第四代数据挖掘软件第四代数据挖掘软件 l特点 目前移动计算越发显

43、得重要,将数据挖掘和移动计算相结合是 当前的一个研究领域。 第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在 (ubiquitous)计算设备产生的各种类型的数据 第四代数据挖掘原型或商业系统尚未见报导,PKDD2001上 Kargupta发表了一篇在移动环境下挖掘决策树的论文, Kargupta是马里兰巴尔的摩州立大学(University of Maryland Baltimore County)正在研制的CAREER数据挖掘项目的负责人, 该项目研究期限是2001年4月到2006年4月,目的是开发挖掘分 布式和异质数据(Ubiquitous设备)的第四代数据挖掘系统。 Copyrigh

44、t by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 l 第一代系统与第二代相比因为不具有和数据管理系统之间 有效的接口,所以在数据预处理方面有一定缺陷 l 第三、四代系统强调预测模型的使用和操作型环境的部署 l 第二代系统提供数据管理系统和数据挖掘系统之间的有效 接口 l 第三代系统另外还提供数据挖掘系统和预言模型系统之间 的有效的接口 l 目前,随着新的挖掘算法的研究和开发,第一代数据挖掘 系统仍然会出现,第二代系统是商业软件的主流,部分第 二代系统开发商开始研制相应的第三代数据挖掘系统,比 如 IBM Intelligent Score

45、 Service。第四代数据挖掘原 型或商业系统尚未见报导 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 l 独立的数据挖掘软件 l 横向的数据挖掘工具集 l 纵向的数据挖掘解决方案 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 独立的数据挖掘软件(独立的数据挖掘软件(95年以前)年以前) l特点 独立的数据挖掘软件对应第一代系统,出现在数据挖掘技 术发展早期,研究人员开发出一种新型的数据挖掘算法, 就形成一个软件。 这类软件要求用户对具体的算

46、法和数据挖掘技术有相当的 了解,还要负责大量的数据预处理工作。比如C4.5决策树, 平行坐标可视化(parallel-coordinate visualization)。 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 横向的数据挖掘工具集(横向的数据挖掘工具集(95年开始)年开始) l发展原因 随着数据挖掘应用的发展,人们逐渐认识到数据挖掘软件 需要和以下三个方面紧密结合:1)数据库和数据仓库;2) 多种类型的数据挖掘算法;3)数据清洗、转换等预处理 工作。 随着数据量的增加,需要利用数据库或者数据仓库技术进 行管理,

47、所以数据挖掘系统与数据库和数据仓库结合是自 然的发展。 现实领域的问题是多种多样的,一种或少数数据挖掘算法 难以解决 挖掘的数据通常不符合算法的要求,需要有数据清洗、转 换等数据预处理的配合,才能得出有价值的模型 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 横向的数据挖掘工具集(横向的数据挖掘工具集(95年开始)年开始) l发展过程 随着这些需求的出现,1995年左右软件开发商开始提供称 之为“工具集”的数据挖掘软件 l特点 此类工具集的特点是提供多种数据挖掘算法 包括数据的转换和可视化 由于此类工具并非面向特定的应

48、用,是通用的算法集合, 可以称之为横向的数据挖掘工具(Horizontal Data Mining Tools) 由于此类工具并非面向特定的应用,是通用的算法集合, 所以称之为横向的数据挖掘工具 典型的横向工具有IBM Intelligent Miner、SPSS的 Clementine、SAS的Enterprise Miner、SGI的MineSet、 Oracle Darwin等 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 横向的数据挖掘工具集(横向的数据挖掘工具集(95年开始)年开始) IBM Intellig

49、ent Miner SPSS的的Clementine SAS的的Enterprise Miner SGI的的MineSet Oracle Darwin Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 纵向的数据挖掘解决方案(纵向的数据挖掘解决方案(99年开始)年开始) l发展原因 随着横向的数据挖掘工具的使用日渐广泛,人们也发现这 类工具只有精通数数据挖掘算法的专家才能熟练使用,如 果对算法不了解,难以得出好的模型 从1999年开始,大量的数据挖掘工具研制者开始提供纵向 的数据挖掘解决方案(Vertical Soluti

50、on),即针对特 定的应用提供完整的数据挖掘方案 对于纵向的解决方案,数据挖掘技术的应用多数还是为了 解决某些特定的难题,而嵌入在应用系统中 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 纵向的数据挖掘解决方案(纵向的数据挖掘解决方案(99年开始)年开始) 在证券系统中嵌入神经网络预测功能 在欺诈检测系统中嵌入欺诈行为的分类/识别模型 在客户关系管理系统中嵌入客户成簇/分类功能或客户行 为分析功能 在机器维护系统中嵌入监/检测或识别难以定性的设备故 障功能 在数据库营销中嵌入选择最可能购买产品的客户功能 在机场管理系统

51、中嵌入旅客人数预测、货运优化功能 在基因分析系统中嵌入DNA识别功能 在制造/生产系统中嵌入质量控制功能等 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 纵向的数据挖掘解决方案(纵向的数据挖掘解决方案(99年开始)年开始) KD1(主要用于零售业)(主要用于零售业) Options&Choice(主要用于保险业主要用于保险业) HNC(欺诈行为侦测)(欺诈行为侦测) Unica Model 1(主要用于市场营销主要用于市场营销) Copyright by Song ZhihuanCopyright by Song Zh

52、ihuan 工业控制技术研究所 各行业电子商务网站各行业电子商务网站 算算 法法 层层 商商 业业 逻逻 辑辑 层层 行行 业业 应应 用用 层层 商业应用商业应用 商业模型商业模型 挖掘算法挖掘算法 CRM 产品推荐产品推荐 客户细分客户细分 客户流失客户流失 客户利润客户利润 客户响应客户响应 关联规则、序列模式、分类、聚集、神经元网络、偏差分析关联规则、序列模式、分类、聚集、神经元网络、偏差分析 WEB挖掘挖掘 网站结构优化网站结构优化 网页推荐网页推荐 商品推荐商品推荐 。 基因挖掘基因挖掘 基因表达路径分析基因表达路径分析 基因表达相似性分析基因表达相似性分析 基因表达共发生分析基因

53、表达共发生分析 。 银行银行 电信电信 零售零售 保险保险 制药制药 生物信息生物信息 科学研究科学研究 。 相关行业相关行业 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 情况概览 2002年9月,Amazon上关于数据挖掘的书有251本 () 目前有数百个数据挖掘软件产品 () 数据挖掘应用相对广泛 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 l国内大部分处于科研阶段 各大学和科研机构从事数据挖掘算法的研究 国内著作的数据挖掘方面的书较少

54、(翻译的有) 数据挖掘讨论组() l有一些公司在国外产品基础上开发的特定的应用 IBM Intelligent Miner SAS Enterprise Miner l自主知识产权的数据挖掘软件 复旦德门()等 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 l银行 美国银行家协会

55、(ABA)预测数据仓库和数据挖掘技术在美 国商业银行的应用增长率是14.9。 分析客户使用分销渠道的情况和分销渠道的容量 ;建立 利润评测模型;客户关系优化;风险控制等 l电子商务 网上商品推荐;个性化网页;自适应网站 l生物制药、基因研究 DNA序列查询和匹配;识别基因序列的共发生性 l电信 欺诈甄别;客户流失 l保险、零售。 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 数据数据 挖掘挖掘 客 户 分 析 析 基 分 因 其他其他 保险客户保险客户 证券客户证券客户 银行客户银行客户 电信客户电信客户 零售客户零售

56、客户 信用卡信用卡 储蓄卡储蓄卡 存折存折 按揭按揭 借贷借贷 人类基因 植物基因 动物基因 特殊群体基因 基因序列基因序列 基因表达谱基因表达谱 基因功能基因功能 基因制药基因制药 . Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 为什么没有广泛使用? l数据挖掘正在快速的发展 技术的研究和开发已经走在很前沿的地方 数据挖掘应用面已经扩充了很多 l但是仍然没有希望的高,为什么? 希望在多少年内达到数十亿元的盈利? 是一种增值服务(Not bread-and-butter) 不能认为高不可攀,所以不去过问 是一门年轻的

57、技术,需要和实际结合,解决现实问题 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 国内应用存在的问题 l 数据积累不充分、不全面 l 业务模型构建困难 l 缺少有经验的实施者 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 Debt$40K Q Q Q Q Q Q Q Q I II I1 1 2 2 3 34 4 5 56 6 factor 1 factor 2 factor n 神经网络神经网络 Neural NetworksNeural Ne

58、tworks 聚类分析聚类分析 ClusteringClustering Open Accnt Add New Product Decrease Usage ? Time 序列分析序列分析 Sequence AnalysisSequence Analysis决策树决策树 Decision TreesDecision Trees 倾向性分析 客户保留 客户生命周期管理 目标市场 价格弹性分析 客户细分 市场细分 倾向性分析 客户保留 目标市场 欺诈检测 关联分析关联分析 AssociationAssociation 市场组合分析 套装产品分析 目录设计 交叉销售 Copyright by Son

59、g ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 聚集(聚集(Cluster) 聚集是把整个数据库分成不同的群组。它的目的是聚集是把整个数据库分成不同的群组。它的目的是 要群与群之间差别很明显,而同一个群之间的数据要群与群之间差别很明显,而同一个群之间的数据 尽量相似。尽量相似。 常用技术:神经元网络、常用技术:神经元网络、K均值、最近邻均值、最近邻 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 客户消费异常行为分析模型 Copyright by Song ZhihuanCopy

60、right by Song Zhihuan 工业控制技术研究所 l客户分析业务模型 交叉销售 客户响应 客户流失 客户利润 l信用卡分析业务模型 客户信用等级评估 客户透支分析 客户利润分析 客户消费行为分析 客户消费异常行为分析 Copyright by Song ZhihuanCopyright by Song Zhihuan 工业控制技术研究所 MIS ERP CRM E_Business CDW 客户数据仓库 数据挖掘 算法库 模型库 组件库组件库 产品推荐 客户细分 客户流失 客户利润 客户响应 行业应用 知识 CIASCIASCIASCIASCIASCIAS应用服务器应用服务器应用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论