序论数据挖掘_第1页
序论数据挖掘_第2页
序论数据挖掘_第3页
序论数据挖掘_第4页
序论数据挖掘_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘和知识发现,讲座教师:王玲,教科书和参考书,教科书数据挖掘:概念和技术,JiaweiHan和MichelineKamber,机械工业出版社(2001)参考书数据挖掘原理,DavidHand,heikikiWitten,EideFrank这本书是与开源数据挖掘工具WEKA一起编写的,它是用Java语言开发的,并说明了如何基于WEKA进行第二次开发。机器学习(英文版)作者:TomM。Mitchell、中文版本、英语复制版、数据挖掘的发展动力-需要由发明之母、数据爆炸问题自动数据收集工具和已证实的数据库技术收集大量数据,并存储在数据库、数据仓库或其他存储库中以供分析。拥有丰富的数据,但缺少有用的信息解决方案。数据仓库技术和数据挖掘技术数据仓库(DataWarehouse)和在线分析处理(OLAP)数据挖掘:大量数据中感兴趣的知识(规则、规则、模式、约束)、数据库技术的演变(1)、1960s和以前的:文件系统1960 多媒体数据库等)1990s:数据挖掘、数据仓库、多媒体数据库和网络数据库2000s流数据管理和挖掘基于多种应用程序的数据挖掘XML数据库和集成信息系统是什么?数据挖掘(从数据中发现知识)数据挖掘的替代词数据库中提取知识挖掘(KDD)知识,数据/模式分析数据考古数据捕获,信息收获等,以前未知且可能有用的模式或知识挖掘。并不是所有的东西都是数据挖掘。基于数据仓库的OLAP系统OLAP系统侧重于数据聚合,数据挖掘系统可能会对数据进行多种复杂的处理。机器学习系统、数据统计分析系统这些系统处理的数据容量往往非常有限。信息系统侧重于数据查询处理。数据挖掘系统比上述系统的范围更广,重点是多方面的集成、数据挖掘应用的应用领域、市场分析和管理百货、超市、银行、电子商务风险分析和管理通信、保险欺诈检测和异常模式监控信用卡、警察机关、税务部门的其他应用文本挖掘流数据挖掘DNA和生物数据分析、数据挖掘应用程序市场分析和管理(1)信用卡交易、会员卡、营销商的优待券、消费者投诉电话、公共生活方式研究对象市场构建了具有:利益、收入水平、消费习惯等相同特征的一系列“基于客户的模式”,客户的购买模式交叉市场分析商品销售之间的相互联系和关联,根据这些联系进行预测,数据挖掘应用程序市场分析和关联。 客户分析哪些类型的客户购买哪些类型的商品(集群分析或分类预测)客户需求分析适合不同客户的最佳商品预测通过哪些因素为新客户提供配置文件多维(数据的集中趋势和变化)的综合报告统计汇总信息、数据挖掘应用程序公司分析和风险管理、财务计划现金流量分析和预测交叉区域分析和时间序列分析(财务资金比率、 趋势分析等)资源计划概要和比较,以及消费竞争竞争竞争产品和市场趋势监控按等级分组和基于等级的定价流程,将价格政策应用于竞争激烈的市场,数据挖掘应用程序欺诈行为检测和例外模式发现,方法:欺骗行为群集和建模,隔离点分析应用程序3360健康管理,零售,信用卡服务, 通信等汽车保险:碰撞事故分析洗钱:可疑货币交易行为发现医疗保险专业患者、医生及相关数据分析不需要或相关测试通信:电话通话欺诈行为电话模型:呼叫对象,期间、日或周通话数。 分析了该模型后,与期待标准的偏差零售产业分析师的预计袖子减少了38%,这是由于员工作弊引起的反恐,其他应用程序,体育比赛美国NBA的29个队中,25个队使用IBM分析机构的数据挖掘工具分析了每个对手的数据(帽、助攻、犯规等数据),从而获得了比赛时的对抗优势。天文JPL研究所和帕洛玛天文台在数据挖掘工具的帮助下,通过22个新星web冲浪,将数据挖掘算法应用到web访问日志,在市场相关网页上发现消费者的偏好和行为,分析网络营销的效果,改善网站组织。这是新的web挖掘研究、数据挖掘:数据库的知识挖掘(KDD)、数据挖掘知识挖掘的核心、数据整理、数据集成、数据库、数据仓库、 关系数据库数据仓库事务数据库高级数据库系统和存储空间数据库时间数据库和时间系列数据库流数据多媒体数据库面向对象的数据库和对象关系数据库异构数据库和历史(legacy)数据库文本数据库和万维网(WWW)、空间数据库、空间数据库是关系数据库(DBMS-database management ager) 储存在空间资料库中的批量资料包括物件的空间拓朴图征、非空间性质图征和随时间变更物件状态。典型空间数据库数据类型地理信息系统(GIS)遥感图像数据医学图像数据挖掘技术的应用:通过空间分类和空间趋势分析引入机器学习算法,智能搜索有用模式,时间数据库和计时数据库,时间数据库和计时数据库都保留与时间相关的数据。时间数据库通常包含包含与时间相关的属性的数据。计时数据库存储随时间变化的值序列。时间数据库和时间数据库的数据挖掘通过研究事物发展的过程揭示事物发展的本质规律,可以发现数据对象的进化特性或对象变化趋势。与流数据,传统数据库技术中的静态数据不同,流数据是连续的、有序的、变化的、快速的、大量的数据输入的数据。主要应用领域网络监控web点击流股市流媒体.等流数据与传统数据库技术相比,在存储、查询、访问、实时要求等方面有很大差异。多媒体数据库,可以用计算机管理复杂的多媒体数据(如、图形、图像、声音、视频等),最新的数据库技术通常将这些多媒体数据存储为二进制大容量对象。对于多媒体数据库的数据挖掘,需要结合存储和检索技术。当前的主要方法有多媒体数据立方体构造、多媒体数据库的多要素提取和基于相似性的模式匹配。面向对象数据库和面向对象数据库-面向对象数据库和数据库技术的组合,以对象形式存储数据,并在此基础上实现现有数据库的功能,如持久性、并发控制、可恢复性、一致性和数据库查询功能。对象-关系数据库基于对象-关系模型构建,该模型通过处理复杂对象的丰富数据类型和对象定位等功能扩展关系模型。面向对象的数据库和对象-关系数据库的数据挖掘包括一些新技术,例如复杂对象结构、复杂数据类型、类和子类层次结构、配置继承、方法和流程等。异构数据库和历史数据库,这是包括多种数据库系统(关系数据库、网络数据库、文件系统等)的多种异构数据库系统的集合。有效地利用历史数据库的关键在于在不同的数据库之间整合和共享数据信息资源、硬件设备资源和人力资源。对于异构数据库系统,要实施数据共享,必须满足以下两个方面:一个是实现数据库转换。二是实现对数据的透明访问。web服务技术的出现有助于重复使用历史数据库数据。文本数据库和万维网(WWW)和文本数据库存储对象的文本说明。文本数据库的分类非结构化类型(大多数文本数据和网页)半结构类型(XML数据)结构类型(库数据)万维网(WWW)是最大的文本数据库数据挖掘内容检索WEB访问模式搜索、数据挖掘的主要功能可以挖掘哪些模式?一般功能说明数据挖掘预测数据挖掘一般用户不知道在数据挖掘中可以挖掘什么。这里,将一般数据挖掘功能应用于数据挖掘,指定概念/类描述:特性、相关分析分类和预测聚类分析孤立点分析趋势和演化分析、概念/类描述:特性和区分、概念描述:指定数据表征和比较的描述(如果所述概念是类对象,则也称为类描述)特性:指定数据集的简要摘要。例如:AllElectronic company的“大客户”(年消费额超过1000美元)的特殊说明:40-50岁,有固定经历,信誉好等区别:提供两个或多个数据集的比较说明。示例:关联、关联规则挖掘:在事务数据库、关系数据库和其他信息存储库中大量数据的项目集之间发现了有趣且频繁发生的模式、关联和关联。广泛用于购物车或事务数据分析。示例:分类和预测,构建根据培训数据集和类标签属性对现有数据进行分类的模型,以及预测类型标志未知的对象类(预测)的新数据(分类)分类。例如:按气候对国家进行分类,按汽油消费定额对汽车分类诱导模型的表示:决策树、分类规则、神经网络是if age=40 和credit _ rating= excellent then busy _ coment 集群分析:将物理或抽象对象集合分组到由相似对象组成的多个类中的过程类中的最大化相似性和最小化类之间的相似性示例:将web日志中的数据聚集在一起,以获得与相同用户访问模式、孤岛分析、孤岛分析孤立点:数据的一般行为或模型不匹配的某些孤立数据通常被丢弃为“噪声”或异常,但在欺骗检测中,通过对罕见事件的孤立点分析可以得出结论。 应用信用卡欺诈检测移动电话欺诈检测客户包括医疗分析(例外)、趋势和进化分析、随时间变化的行为变化对象的发展规则或趋势(时序数据库)趋势和偏差:回归分析序列模式匹配:定期分析基于相似性分析的所有模式是否有趣?数据挖掘可以生成数千个模式或规则,但不是所有的模式或规则都感兴趣。模式兴趣度测定的模式(1)容易理解,就很有趣。(2)在一定程度上对新数据或测试数据有效;(3)潜在的用处;(4)新颖;(5)符合用户确信的假设模式兴趣度的客观和主观测量客观测量:基于发现的模式结构和对它们的统计(例如,支持、可信度等主观测量:基于用户对数据的判断)。意想不到的、新的、可移动的等能产生所有有趣的模式,只产生有趣的模式吗?查找所有有趣的模式:数据挖掘算法的完整性问题数据挖掘系统能生成所有有趣的模式吗?搜索到全局搜索相关性到分类到群集仅搜索有趣的模式:数据挖掘算法的优化问题数据挖掘系统能否仅发现有趣的模式?这种方法的第一位教师执行所有的模式,然后过滤那些无趣的模式。查询优化、数据挖掘:多个领域的集成、数据挖掘、数据库系统、统计、其他领域、算法、机器学习、可视化、可视化、分类(1)、数据挖掘的多学科集成特性、数据挖掘研究中的各种数据根据挖掘的数据库,分析关系数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论