版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1.4数据挖掘综述1.4.1数据挖掘的发展动力1.4.2什么是数据挖掘?1.4.3数据挖掘的应用1.4.4知识挖掘1.4.5数据挖掘的体系结构1.4.6在什么样的数据上进行挖掘聂永红1.4数据挖掘综述1.4.7数据挖掘的方法1.4.8数据挖掘的模式1.4.9数据挖掘系统的分类数据挖掘的主要研究的热点问题和研究方向1.4数据挖掘综述从大量的数据中挖掘出有用的信息、有用的模式,本身就是一个统计分析、计算的过程,是目前DM一个热门的研究方向。还需要学习人工智能的知识,理解起来困难些
从60年代数据库技术发展以来,世界上每天收集、处理到的数据越来越多,到了一定程度之后,就产生一个问题:怎么处理这些数据,怎么从这些数据中挖掘出有用的信息。就产生了一门新的学科:数据挖掘。当前的研究有3个方向:1、从数据库的角度出发(参考书:数据挖掘概念与技术)2、从统计学角度出发(参考书:数据挖掘原理)3、从机器学习的角度出发1.4.1数据挖掘的发展动力
----需要是发明之母[1]数据爆炸问题大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。2、我们拥有丰富的数据,但却缺乏有用的信息3、解决方法:数据仓库技术和数据挖掘技术(1)数据仓库(DW)和在线分析处理(OLAP)(2)数据挖掘:在大量的数据中挖掘感兴趣的知识(规则、规律、模式、约束)数据库技术的演化[2]
1960s和以前:文件系统1970s:层次数据库和网状数据库1980s早期:关系数据模型,关系数据管理系统(RDBS)的实现1980s晚期:各种高级数据库系统(扩展的关系数据库,面向对象数据库等等)面向应用的数据库系统(spatial数据库,时序数据库,多媒体数据库等等)1990s早期:数据挖掘,数据仓库,多媒体数据库和网络数据库2000s:流数据管理和挖掘基于各种应用的数据挖掘XML数据库和整合的信息系统数据挖掘的发展数据挖掘是与数据仓库密切相关的一个信息技术新领域,它是信息技术自然演化的结果。随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多,但缺乏挖掘数据中隐藏的知识的手段,导致了“数据爆炸但知识贫乏的”现象。自80年代后期以来,联机分析处理(OLAP)和数据挖掘技术应运而生。数据挖掘的发展数据挖掘(DataMining,简记为DM)是从关系数据库、数据仓库、WEB数据库以及其他文件系统中发现重要的数据模式、规律的过程,因此又称为数据库中的知识发现(KnowledgeDiscoveryinDatabase,简记为KDD),它是OLAP的高级阶段。自20世纪80年代起,开始了数据挖掘技术的研究。1989年在美国召开的国际学术会议上包含了“从数据库中知识发现”的主题;1995年在加拿大召开了第一届知识发现与数据挖掘国际学术会议。1.4.2什么是数据挖掘?(书上)数据挖掘的定义从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用的信息和知识的过程。从商业应用角度看,数据挖掘是一种崭新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识。1.4.2什么是数据挖掘?[3]数据挖掘(从数据中发现知识)(1)从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前求知的和可能有用的模式或知识(2)挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词)数据挖掘的替换词数据库中的知识挖掘(KDD)、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获等等。并非所有东西都可是“数据挖掘”(1)查询处理(2)专家系统或小型的数学计算/统计程序1.4.3数据挖掘的应用数据分析和决策支持(得到了广泛的应用)(1)市场分析和管理目标市场,客户关系管理(CRM),市场占有量分析,交叉销售,市场分割(2)风险分析和管理风险预测,客户保持,保险业的改良,质量控制,竟争分析(3)欺骗检测和异常模式的监测(孤立点)其它的应用(处于研究的阶段,并没有进入非常实用的范围)(1)文本挖掘(新闻组,电子邮件,文档)和WEB挖掘(2)流数据挖掘(3)DNA和生物数据分析
那么当前数据挖掘的范围包括哪些方面呢?数据挖掘现阶段主要应用于数据分析和决策支持,这个在市场分析和管理得到了广泛的应用。比如说目标市场管理,客房关系管理,市场占有量分析,交叉销售,市场分割,这些都可以用数据挖掘的知识来得到。第2个是风险分析和管理,如风险预测,客户保持,保险业的改良,质量控制,竟争分析等等,第3个比较新兴的应用是欺骗检测和异常模式的监测。其它应用,如文本挖掘(新闻组,电子邮件,文档)和WEB挖掘,流数据挖掘,DNA和生物数据分析,这些挖掘大部分还处于研究的阶段,并没有进入非常实用的范围。数据挖掘的应用----市场分析和管理(1)[4]数据从哪里来?信用卡交易,会员卡,商家的优惠卷,消费者投诉电话,公众生活方式研究目标市场(1)构建一系列的“客户群模型”,这些顾客具有相同特征:兴趣爱好,收入水平,消费习惯等等(2)确定顾客的购买模式交叉市场分析货物销售之间的相互联系和相关性,以及基于这种联系上的预测数据挖掘的应用----市场分析和管理(2)[5]顾客分析哪类顾客购买哪种商品(聚类分析和分类预测)客户需求分析(1)确定适合不同顾客的最佳商品(2)预测何种因素能够吸引新顾客提供概要信息(1)多维度的综合报告(2)统计概要信息(数据的集中趋势和变化)数据挖掘的应用----公司分析和风险管理[6]财务计划(1)现金流转分析和预测(2)交叉区域分析和时间序列分析(财务资金比率,趋势分析等)资源计划总结和比较资源和花费(2)预测何种因素能够吸引新顾客竟争(1)对竟争者和市场趋势的监控(2)将顾客按等级分组和基于等级的定价过程(3)将定价策略应用于竟争更激烈的市场中数据挖掘的应用----欺诈行为检测和异常模式的发现[7]方法对欺骗行为进行聚类和建模,并进行孤立点分析应用卫生保健、零售业、信用卡服务、电信等。(1)汽车保险:相撞事件的分析(2)洗钱:发现可疑的货币交易行为(3)医疗保险1)职业病人,医生及相关数据分析2)不必要的或相关的测试数据挖掘的应用----欺诈行为检测和异常模式的发现[7]电信:电话呼叫欺骗行为电话呼叫模型:呼叫目的地,持续时间,日或周呼叫次数。分析该模型发现与期待标准的偏差零售产业:分析师估计有38%的零售额下降是由于雇员的不诚实行为造成的反恐怖主义:其他应用[8]体育竟赛美国NBA的29个球队中,有25个球队使用了IBM分析机构的数据挖掘工具,通过分析每个对手的数据(盖帽、助攻、犯规等数据)来获得比赛时的对抗优势。天文学:JPL实验室和Palomar天文台就曾经在数据挖掘工具的帮助下发现了22颗新的恒星。网上冲浪:通过将数据挖掘算法应用于网络访问日志,从与市场相关的网页中发现消费者的偏爱和行为,分析网络行销的有效性,改善网络站点组织。这就是新兴的WEB挖掘研究。1.4.4数据挖掘在理论上的一个应用[9]知识挖掘的步骤[10]了解应用领域
了解应用领域的知识和应用的目标创建目标数据集:选择数据数据清理和预处理(这个可能要占全过程60%的工作量)数据缩减和变换
找到有用的特征,维数缩减/变量缩减,不变量的表示选择数据挖掘的功能数据总结,分类模型数据挖掘,回归分析,关联规则挖掘,聚类分析等。知识挖掘的步骤[10]选择挖掘算法数据挖掘:寻找感兴趣的模式模式评估和知识表示
可视化,转换,消除冗余模式等等运用发现的知识
数据挖掘和商业智能[11]1.4.5体系结构:典型的数据挖掘系统[12]1.4.6在何种数据上进行数据挖掘[13](四类)一、关系数据库二、数据仓库1.4.6在何种数据上进行数据挖掘[13]三、事务数据库四、高级数据库系统和信息库(1)空间数据库(2)时间数据库和时间序列数据库(3)流数据(4)多媒体数据库(5)面向对象数据库和对象-关系数据库(6)异种数据库和遗产(legacy)数据库(7)文本数据库和万维网(WWW)空间数据库[14]空间数据库是指在关系型数据库(DBMS)内部对地理信息进行物理存储。空间数据库中存储的的海量信息包括对象的空间拓朴特征、非空间属性特征以及对象在时间上的状态变化。
常见空间数据库数据类型
1、地理信息系统(GIS)2、遥感图像数据3、医学图像数据数据挖掘技术的应用:通过空间分类和空间趋势分析,引入机器学习算法,对有用模式进行智能检索时间数据库和时间序列数据库[15]时间数据库和时间序列数据库都存放与时间有关的数据。时间数据库通常存放包含时间相关属性的时间。时间序列数据库存放随时间变化的值序列。对时间数据库和时间序列数据库的数据挖掘,可以通过研究事物发生发展的过程,有助于提示事物发展的本质规律,可以发现数据对象的演变特征或对象变化趋势。流数据[16]与传统的数据库技术中的静态数据不同,流数据是连续的、有序的、变化的、快速的、大量的数据输入的数据。主要应用场合(1)网络监控(2)网页点击流(3)股票市场(4)流媒体…等等与传统数据库技术相比,流数据在存储、查询、访问、实时性的要求等方面都有很大区别。多媒体数据库[17]多媒体数据库实现用计算机管理庞大复杂的多媒体数据,主要包括图形(graphics)、图像(image)、声音(audio)、视频(video)等等,现代数据库技术一般将这些多媒体数据以二进制大对象的形式进行存储。对于多媒体数据库的数据挖掘,需要将存储和检索技术相结合。目前的主要方法包括构造多媒体数据立方体、多媒体数据库的多特征提取和基于相似性的模式匹配。面向对象数据库和对象—关系数据库[18]面向对象数据库是面向对象技术和数据库技术结合的产物,该技术对数据以对象的形式进行存储,并在这个基础上实现了传统数据库的功能,包括持久性、并发控制、可恢复性、一致性和查询数据库的能力等。对象—关系数据库基于对象—关系模型构造,该模型通过处理复杂对象的丰富数据类型和对象定位等功能,扩充关系模型。面向对象数据库和对象—关系数据库中的数据挖掘会涉及一些新的技术,比如处理复杂对象结构、复杂数据类型、类和子类层次结构、构造继承以及方法和过程等等。异构数据库和历史(legacy)数据库[19]历史数据库是一系列的异构数据库系统的集合,包括各同种类的数据库系统,像关系数据库、网络数据、文件系统等等。有效利用历史数据库的关键在于实现不同数据库之间的数据信息资源、硬件设备资源和人力资源的合并和共享。对于异构数据库系统,实现共享数据共享应当达到两点:一是实现数据库转换;二是实现数据的透明访问。WEBSERVICE技术的出现有利于历史数据库数据的重新利用。文本数据库和万维网(WWW)[20]文本数据库存储的是对对象的文字性描述文本数据库的分类(1)无结构类型(大部分的文本资料和网页)(2)半结构类型(XML数据)(3)结构类型(图书馆数据)万维网(WWW)可以被看成最大的文本数据库数据挖掘内容(1)内容检索(2)WEB访问模式检索1.4.7数据挖掘的主要方法[21]一、概念/类描述:特性化和区分归纳,总结和对比数据的特性。比如:对每个月来网站购物超过5000元的顾客的描述:40-50岁,有正常职业,信用程度良好。二、关联分析(1)发现数据之间的关联规则,这些规则展示属性—值频繁的在给定的数据中所一起出现的条件。(2)广泛的用于购物篮或事务数据分析。1.4.7数据挖掘的主要方法[22]三、分类和预测(1)通过构造模型(或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。比如:按气候将国家分类,按汽油消耗定额将汽车分类(2)导出模型的表示:判定树、分类规则、神经网络(3)可以用来预报某些未知的或丢失的数字值四、聚类分析(1)将类似的数据归类到一起,形成一个新的类别进行分析(2)最大化类内的相似性和最小化类间的相似性1.4.7数据挖掘的主要方法[23]五、孤立点分析(1)孤立点:一些与数据的一般行为或模型不一致的孤立数据(2)通常孤立点为“噪音”或异常被丢失,但在欺诈检测中却可以通过对罕见事件进行孤立点分析而得到结论。六、趋势和演变分析描述行为随时间变化的对象的发展规律或趋势(1)趋势和偏差:回归分析(2)序列模式匹配:周期性分析(3)基于类似性的分析七、其他定向模式或统计分析1.4.8数据挖掘的模式[24]
问题一:所有模式都是有趣的吗?一、数据挖掘可能产生数据以千计的模式或规则,但并不是所有的模式或规则都是令人感兴趣的二、模式兴趣度的度量一个模式是有趣的,如果:(1)它易于被人理解;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设。1.4.8数据挖掘的模式[25]
问题一:所有模式都是有趣的吗?三、模式兴趣度的客观和主观度量(1)客观度量:基于所发现模式的结构和关于它们的统计。
比如:支持度、置信度等等(2)主观度量:基于用户对数据的判断。比如:出乎意料的、新颖的,可行动的等等1.4.8数据挖掘的模式[26]
问题二:能够产生所有有趣模式并且仅产生有趣模式?一、找出所有有趣的模式:数据挖掘算法的完全性问题(1)数据挖掘系统能够产生所有有趣的模式吗?(2)试探搜索,穷举搜索(3)关联分析,分类分析,聚类分析1.4.8数据挖掘的模式[27]
问题二:能够产生所有有趣模式并且仅产生有趣模式?二、只搜索有趣的模式:数据挖掘算法的最优化问题(1)数据挖掘系统可以仅仅发现有趣的模式吗?(2)方法首先生成所有模式然后过滤那些无趣的仅仅生成有趣的模式—挖掘查询优化
数据挖掘:多个学科的融合[28]
1.4.9数据挖掘系统的分类[29]
一、一般功能(1)描述性的数据挖掘(2)预测性的数据挖掘二、不同的视角,不同的分类(1)根据所挖掘的数据库类型分类(2)根据挖掘的知识类型分类(3)根据挖掘所用的技术分类(4)根据数据挖掘的应用分类多种数据挖掘的视角[30]
(1)根据所挖掘的数据库分类关系数据库,事务数据库,流式数据,面向对象数据库
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 珠宝行业智能零售管理平台开发方案
- 协商采购价格达成共识函6篇
- 高级行政管理人员文件守秘管理指导书
- 重庆市江北区2026届初三下学期模拟检测试题语文试题含解析
- 财务预算编制与执行报告模板成本控制型
- 浙江省上杭县2025-2026学年初三入学调研物理试题(2)试卷含解析
- 凝心聚力共促发展承诺书8篇范文
- 2026届四川省遂宁市射洪中学初三(语文试题文)4月第一次综合练习试卷含解析
- 建筑行业安全生产操作指南手册
- (正式版)DB32∕T 2641-2014 《靖江香沙芋生产技术规程》
- 人教版(PEP)五年级英语下册第一单元测试卷-Unit 1 My day 含答案
- ASTM-D3359-(附著力测试标准)-中文版
- 部编版三年级语文下册1-8单元主题阅读附答案
- 团队建设与管理 课件 第1章 团队概述
- DBJ15-22-2021-T 锤击式预应力混凝土管桩工程技术规程(广东省)
- 【铁路信号设计中的计算机联锁系统探究13000字(论文)】
- 狱内案件立案表
- 《设计公司各专业负责人岗位职责》
- 泥水平衡机械顶管操作规程范本
- 江苏建筑职业技术学院单招职业技能测试参考试题库(含答案)
- 动车组牵引传动系统-牵引变流器
评论
0/150
提交评论