




已阅读5页,还剩20页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘概念与技术,第一章引论,.,第一章引论,1.1为什么进行数据挖掘1.2什么是数据挖掘1.3可以挖掘什么类型的数据1.4可以挖掘什么类型的模式1.5使用什么技术1.6面向什么类型的应用1.7数据挖掘的主要问题1.8小结,.,1.1为什么进行数据挖掘,数据爆炸海量数据,爆炸式增长来源:网络,电子商务,个人类型:图像,文本数据利用数据淹没,但却缺乏知识信息技术的进化数据挖掘的自动化分析的海量数据集文件处理-数据库管理系统-高级数据库:系统高级数据分析,.,定义:从大量的数据中提取有趣的(非平凡的,隐含的,以前未知的和潜在有用的)模式或知识。“数据中发现知识”(KDD),1.2什么是数据挖掘,.,清理和集成,数据仓库,知识,选择和变换,数据挖掘,模式,数据库,评估和表示,.,数据库数据数据库管理系统(DBMS):数据+软件关系数据库:表组成,1.3可以挖掘什么类型的数据,元组,属性,关键字,customer表,.,数据仓库从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。,1.3可以挖掘什么类型的数据,数据仓库,数据源1,数据源2,数据源3,数据源4,.,数据立方体,联机分析处理OLAP(On-LineAnalyticalProcessing),.,事物数据数据库事务(DatabaseTransaction),是指作为单个逻辑工作单元执行的一系列操作,要么完全地执行,要么完全地不执行。设想网上购物的一次交易,其付款过程至少包括以下几步数据库操作:一、更新客户所购商品的库存信息二、保存客户付款信息-可能包括与银行系统的交互三、生成订单并且保存到数据库中四、更新用户相关信息,例如购物数量等等,1.3可以挖掘什么类型的数据,.,其他类型的数据股票交易数据文本图像音频视频未知的,1.3可以挖掘什么类型的数据,.,1.4.1类/概念描述:特征化与区分数据特征化目标数据的一般特性或特征汇总类/概念数据区分将目标类数据对象的一般性与一个或多个对比类对象的一般特性进行比较特征化和区分,1.4可以挖掘什么类型的模式,.,1.4.2挖掘频繁模式、关联和相关性频繁模式是在数据中频繁出现的模式1.频繁项集、频繁子序列、频繁子结构2.挖掘频繁模式可以发现数据中的关联和相关性例如:单维与多维关联,1.4可以挖掘什么类型的模式,支持度,置信度,.,1.4.3用于预测分析的分类与回归分类和预测找出描述和识别类或概念的模型(函数),用于将来的预测例如根据气候对国家分类,或根据单位里程的耗油量对汽车分类表示:决策树(decision-tree),分类规则,神经网络回归建立连续值函数模型一般线性回归,logistic回归,1.4可以挖掘什么类型的模式,.,1.4.4聚类分析分析数据对象,不考虑类标号聚类原则:最大化类内的相似性,最小化类间的相似性,1.4可以挖掘什么类型的模式,.,1.4.5离群点分析离群点:与数据的的一般行为或模型不一致孤立点可以被视为例外,但对于欺骗检测和罕见事件分析,它是相当有用的,1.4可以挖掘什么类型的模式,.,1.4.6所有模式都是有趣的吗一个数据挖掘系统/查询可以挖掘出数以千计的模式,并非所有的模式都是有趣的建议的方法:以人为中心,基于查询的,聚焦的挖掘兴趣度度量:一个模式是有趣的如果它是易于被人理解的,在某种程度上在新的或测试数据上是有效的,潜在有用的,新颖的,或验证了用户希望证实的某种假设客观与主观的兴趣度度量:客观:基于模式的统计和结构,例如,支持度,置信度,等.主观:基于用户对数据的确信,例如,出乎意料,新颖性,可行动性(actionability),等.,1.4可以挖掘什么类型的模式,.,1.4.6所有模式都是有趣的吗发现所有有趣的模式:完全性数据挖掘系统能够发现所有有趣的模式吗?关联vs.分类vs.聚类仅搜索有趣的模式:优化数据挖掘系统能够仅发现有趣的模式吗?方法首先找出所有模式,然后过滤掉不是有趣的那些.仅产生有趣的模式挖掘查询优化,1.4可以挖掘什么类型的模式,.,1.5使用什么技术,.,1.6.1商务智能例如:挖掘潜在客户商务决策1.6.2Web搜索引擎Google的流感趋势,1.6面向什么类型的应用,.,挖掘方法挖掘各种新的知识类型挖掘多维空间中的知识数据挖掘跨学科的努力提升网络环境下的发现能力处理不确定性、噪声或不完全数据模式评估和模式或约束指导的挖掘用户界面交互挖掘结合背景知识特定的数据挖掘和数据挖掘查询语言数据挖掘结果的表示和可视化,1.7数据挖掘的主要问题,.,有效性和可伸缩性数据挖掘算法的有效性和可伸缩性并行、分布式和增量挖掘算法数据库类型的多样性处理复杂的数据类型挖掘动态的、网络的、全球的数据库数据挖掘与社会数据挖掘的社会影响保护隐私的数据挖掘无形的数据挖掘,1.7数据挖掘的主要问题,.,数据挖掘:从大量数据中发现有趣的模式数据库技术的自然进化,具有巨大需求和广泛应用KDD过程包括数据清理,数据集成,数据选择,变换,数据挖掘,模式评估,和知识表示挖掘可以在各种数据存储上进行数据挖掘功能:特征,区分,关联,分类,聚类,孤立点和趋势分析,等.数据挖掘系统的分类数据挖掘的主要问题,1.8小结,.,U.M.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy.AdvancesinKnowledgeDiscoveryandDataMining.AAAI/MITPress,1996.J.HanandM.Kamber.DataMining:ConceptsandTechniques.MorganKaufmann,2000.T.ImielinskiandH.Mannila.Adatabaseperspectiveonknowledgediscovery.CommunicationsofACM,39:58-64,1996.G.Piatetsky-Shapiro,U.Fayyad,andP.Smith.Fromdataminingtoknowledgediscovery:Anoverview.InU.M.Fayyad,etal.(eds.),AdvancesinKnowledgeDiscoveryandDataMining,1-35.AAAI/MITPress,1996.G.Piatets
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论