




已阅读5页,还剩31页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第 1 章 数据挖掘,ERP实验中心 程春明 Tel2010.3,数据挖掘课件,内容提要,1.1 引言 1.2 数据挖掘成功的例子 1.3 当前研究成果 1.4 新的应用 1.5 影响数据挖掘的趋势 1.6 研究挑战 1.7 实验平台和基础设施,1.1 引言,什么激发了数据挖掘 需要是发明之母 数据爆炸问题 计算机技术快速发展 数据库技术的发展 Internet快速发展 自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。 每年约160TB 1 PB=1024 TB=1024*1024 GB 我们数据丰富,但信息贫乏 “数据坟墓”,数据挖掘和知识发现,知识发现(Knowledge Discover in Database,KDD ) 从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。(M.Goebel and L.Gruenwald 1999) KDD的出现 基于数据库的知识发现(KDD)一词首次出现在1989年举行的国际人工智能联合大会IJCAI-89 Workshop。 1995年在加拿大蒙特利尔召开了第一届KDD国际学术会议(KDD95)。 由Kluwers Publishers出版,1997年创刊的Knowledge Discovery and Data Mining是该领域中的第一本学术刊物。,数据挖掘视为知识发现(KDD)的一个步聚,数据挖掘知识发现的核心,数据清理,数据集成,数据库,数据仓库,Knowledge,预处理及变换,选择,数据挖掘,模式评估,KDD的步骤,从KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识 确定和逐步理解应用领域 选择所研究的数据集 选择补充数据集。集成这些数据数据集成 数据编码、清理重复和错误数据、变换数据。 开发模型、构建假设。(确定要发现的知识类型) 选择适当的数据挖掘算法(找到感兴趣的模式) 解释结果(可视化) 检验结果 管理发现的知识,数据挖掘定义,数据挖掘(Data Mining,DM) 定义:从大量的数据中提取或“挖掘”感兴趣的知识(规则,规律,模式,约束)。 知识提炼 数据/模式分析 数据考古 数据捕捞、信息收获等等。,课本中的定义,数据挖掘被定义为找出数据中的模式的过程。 这个过程必须是自动的或(通常)半自动的。数据的总量总是相当可观的,但从中发现的模式必须是有意义的,并能产生出一些效益,通常是经济上的效益。 如何表示数据模式? 有价值的模式能够让我们在新数据上做出非凡的预测。表示一个模式有两种极端方法:一种是内部结构很难被理解的黑匣子;一种是展示模式结构的透明的匣子,它的结构揭示了模式的结构。 我们假设两种方法都能做出好的预测,它们的区别在于挖掘出的模式能否以结构的形式表现,这个结构是否能够经得起分析,理由是否充分,能否用来形成未来的决策。如果模式能够以显而易见的方法获得决策结构,我们就称它们为结构模式,换句话说,它们能帮助解释有关数据的一些现象。 这本书是有关寻找、描述存在于数据里结构模式的技术。,描述结构模式,给出隐形眼镜的一组数据。这组数据是验光师针对病人的情况做出的诊断:使用软的隐形眼镜,硬的隐形眼镜,或不能佩戴隐形眼镜。,1.2 数据挖掘的研究领域和方向,数据库、数据仓库与数据分析 统计学 机器学习,数据挖掘与数据分析,数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 数据分析与数据挖掘密切相关,但数据挖掘往往倾向于关注较大型的数据集,较少侧重于推理,且常常采用的是最初为另外一种不同目的而采集的数据。 基于数据库和数据仓库 数据挖掘是一个动态过程,比数据分析更智能的使用数据仓库。它将数据宽度、深度和体积作为重要的三个方面来考虑。 宽度(width),数据记录的属性。 深度(width),数据库实体的实例。 体积(width),数据库实体。,数据立方体,A(month) 40个值,B,29,30,31,32,1,2,3,4,5,9,13,14,15,16,64,63,62,61,48,47,46,45,a1,a0,c3,c2,c1,c 0,b3,b2,b1,b0,a2,a3,C(item) 4000个值,B(city) 400个值,44,28,56,40,24,52,36,20,60,数据挖掘与统计学,统计学分析系统规划的实验,回答完全以公式方式表达的科学问题。 数据少、质量高、可得到数据收集和分析的最佳方法,并可证明。 现实数据:规模大(观测值、变量),其他活动的副产品,数据噪声。 区别: 形式的统计学推断是假设驱动的,即形成假定并在数据上验证它。 DM是发现驱动的,即自动地从数据中提取模式和假设。 DM是数据驱动,统计学是人驱动的。 DM的目标是提取可以容易转换成逻辑规则或可视化表示的定性模型,以人为中心,与人机界面结合,数据挖掘与机器学习,机器学习( Machine Learning)研究构建由经验学习的系统。是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演译。 机器学习跟统计学有着重要的关系,因为这两个领域都是研究数据分析,但是又不像统计学,机器学习关注的是计算实现的算法复杂度。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。 零售商想知道把哪个顾客群或个人作为广告宣传对象 图像识别 科学家想知道导致癌症在家族中蔓延的基因 机器学习为数据挖掘提供了技术基础(模式发现引擎),1.2 数据挖掘简单的例子,所用的例子简单、理想化 数据挖掘真实的应用数据量大,并且是私有的属性。,1.2.1 天气问题,关联规则,1.2.2 隐形眼镜:一个理想化的问题,1.2.3 鸢尾花:一个经典数值型数据集,1.2.4 CPU:介绍数值预测,1.2.5 劳资协商:一个更真实的例子,1.2.6 大豆分类:一个经典的机器学习的成功例子,They gave the correct disease top ranking 97.5% of the time compared with only 72% for the expert-derived rules.,1.3 应用领域,决策包含评判 图像筛选 负载预测 诊断 市场和销售,1.4 数据挖掘成功的例子,1.贝尔大西洋公司 当一个客户反映电话通讯故障后,电话公司必须做出决定派什么技师解决问题。贝尔大西洋公司(Bell Atlantic)在1991年开发了用来做出这个决策的一个专家系统已经在1999年被一组由机器学习得到的规则所替代,这一举措降低了错误决策的数量,因此每年为公司节约1000多万美元。,1.4 数据挖掘成功的例子,2.英国石油分司 成熟的生产制造过程通常涉及调整控制参数。从天然气中分离出原油是对石油进行提炼的一个必不可少的过程,而分离过程的控制是一个比较难的工作。英国石油公司使用机器学习为设置参数建立规则。现在这个过程只需要10分钟,而以往同样的工作,专家们需要花一天多的时间完成。,1.4 数据挖掘成功的例子,3.学习过程控制 西屋公司(Westinghouse)在制造核燃料芯块的过程中,使用机器学习建立规则以控制生产过程。据报道因此他们每年节约超过1000万美元(1984年)。,1.4 数据挖掘其它成功的例子,R.R.Donnelly(一家美国大型印刷分司) 飞行模拟和学习 机器人学习 计算机控制道路车辆 学习赢得十五指棋游戏 试管婴儿 养牛 分子生物学(DNA) 药物发现 制药 天文学 医学 地球物理学 欺诈检测 入侵检测,1.5 当前研究成果,神经网络:是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。也称为“人工神经网络”或“类神经网络”。 神经网络是一种运算模型,由大量的节点(或称神经元,或单元)和之间相互联接构成。 每个节点代表一种特定的输出函数,称为激励函数(activation function)。 每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重(weight),这相当于人工神经网络的记忆。 网络的输出则依网络的连接方式,权重值和激励函数的不同而不通。 网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。,支持向量机:一种新算法,最近才出现的数据挖掘实践者的使用工具,是新一代基于统计学习理论的学习系统。 持向量方法从训练集中选择一组特征子集,使得对特征子集的划分等价于对整个数据集的划分,这组特征子集就被称为支持向量(SV)。,基于树的分类方法:树是一种将大数据集分割成小数据集的便捷方式。 应用:信息论、统计学、模式识别、机器学习。,A Decision Tree for “buys_computer”,1.6 新的应用,数据挖掘学科在一定程度上是由新的应用驱动的。这些应用需要新的、不能被今天的技术所支持的能力。 商业和电子商务数据 企业资源计划(ERP)、客户关系系统(CRM)、网络应用 科学、工程和卫生保健数据 复杂的科学数据、模拟系统、专家领域系统 Web数据 非结构化,1.7 影响数据挖掘的趋势,数据发展趋势 数据的爆炸式增长、数据分析人员数量稳定,要求数据挖掘技术能更自动,更智能 硬件发展趋势 SMP(Symmetrical Multi-Processing、对称多处理) ,高性能工作站,能解决原先不能解决的问题 网络发展趋势 高速网络的发展,要求有新的协议、算法、语言,更便于在当前和下一代网络进行分布式挖掘 科学计算发展趋势 实验、模拟 商业发展趋势 高质量服务、高利润、低成本、把握机遇、规避风险,1.8 研究挑战(1),数据挖掘算法的可伸缩性 记录或观测数据的增加 每个观测数据的属性数目增加 用于分析观测数据集的预测模型或规则集的数目增加 交互和实时响应要求的增加 提出要求:开发当前DM算法的分布式、并行和非内存版本,真正的新算法 扩展数据挖掘算法到新的数据类型 时间序列和过程数据、非结构数据、半结构数据、多媒体和协同数据、层次和多标度数据、集合数据,1.8 研究挑战(2),开发分布式数据挖掘算法 数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 车间生产计划考试题
- 2025农业发展银行保安服务承包合同
- 玻璃厂退火工艺安全培训考试题
- 锅炉操作工初级考试试题
- 钢琴等级考试理论知识试题
- 纺织工人人员面试题及答案
- 赛事合同(标准版)
- 危险化学品储存环境要求考试题
- 康养法律顾问咨询创新创业项目商业计划书
- 专利转让受让合同(标准版)
- 幼儿园红色小故事PPT:抗日小英雄王二小的故事
- 如何理解欧盟MDR临床评价要求
- 监理业务手册(范本)
- 2022年国家公务员考试申论真题及答案解析(地市级)
- 名师成长的路径与修炼(教师版)课件
- 案外人执行异议之诉课件
- T-CSCS 015-2021 钢结构深化设计制图标准-(高清版)
- 西方经济学导论全套课件
- “基础教育精品课”PPT课件模板
- 第8部分消防设施标识可视化
- 简约医院医疗工作汇报工作总结PPT模板
评论
0/150
提交评论