数据挖掘技术-第2章 数据挖掘的功能、过程与方法_第1页
数据挖掘技术-第2章 数据挖掘的功能、过程与方法_第2页
数据挖掘技术-第2章 数据挖掘的功能、过程与方法_第3页
数据挖掘技术-第2章 数据挖掘的功能、过程与方法_第4页
数据挖掘技术-第2章 数据挖掘的功能、过程与方法_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章数据挖掘的功能、过程与方法,杨建林,主要内容,数据挖掘的功能数据挖掘过程数据挖掘方法,数据挖掘的功能,数据挖掘是指从大型数据集中提取人们感兴趣的知识,这些知识是隐含的、具有一定可信度的、对用户而言是新颖的且有潜在价值的知识,提取的知识表示为概念、规则、模式等多种形式,数据挖掘的功能,概念描述关联分析分类与聚类偏差检测时序演变分析信息摘要信息抽取元数据挖掘,概念描述,概念描述(conceptdescription)就是通过对与某类对象关联数据的汇总、分析和比较,对此类对象的内涵进行描述,并概括这类对象的有关特征。这种描述是汇总的、简洁的和精确的知识。概念描述分为特征性描述和区别性描述。前者描述某类对象的共同特征后者描述不同类对象之间的区别,概念描述,概念描述,教授的特征刻画,概念描述,教授的特征刻画南京大学大部分教授是男性且年龄大于45;少部分教授年龄小于等于35,这部分教师主要属于理科院系,表1商品销售情况表(明细),图1计算机销售额饼状图,关联分析,关联若两个或多个变量的取值之间存在某种规律性,就称为关联。关联分析(associationanalysis)关联分析就是从大量的数据中发现项集之间有趣的关联或因果结构。,关联分析,关联分析的应用:尿布和啤酒美国加州某个超级连锁店通过数据挖掘,从记录着每天销售和顾客基本情况的数据库中发现:在下班后前来购买婴儿尿布的顾客多数是男性他们往往也同时购买啤酒措施结果,关联分析,关联规则反映了物品之间的表面联系,不一定是现实世界的因果关系。规则是死的,人是活的,关联分析,关联分析的应用:设某超市销售系统记录了如下顾客的购物单。如表1:,关联分析,经过分析,得出下列三条规则(其中s是支持度,c是置信度)R1:烤鸭面饼、面酱。s=40%,c=2/3=66.6%R2:面饼烤鸭、面酱。s=40%,c=2/3=66.6%R3:面酱面饼、烤鸭。s=40%,c为2/4=50%,关联分析,用R1,烤鸭降价以促销面饼面酱,可能会破产用R2面饼降价,以促销烤鸭,可能会赢利;用R3,引不起顾客的热情。,分类与聚类,分类与聚类的差异分类:类别已知(决策树分类等)聚类:类别未知(关联分析、层次聚类等)举例:购买高清数字电视人群的分类分类规则预测,偏差检测,数据库中的数据常有一些异常记录,它们与其它数据的一般行为或模型不一致。这些数据记录就是偏差(deviation),也叫孤立点。例:信用卡消费开户时存入1000元,短期透支消费10000元以上可能是恶意透支,属于一种欺诈行为偏差的产生可能是某种数据错误造成的,也可能是数据变异所固有的结果。,偏差检测,偏差检测(deviationdetection)就是对数据库中的偏差数据进行检测和分析。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。,时序演变分析,数据的时序演变分析是分析事件或对象行为随时间变化的规律或趋势。例,对股票市场交易数据进行时序演变分析,则可能得到这样的规则:若AT美国kansas大学开发的lers等。,数据挖掘的功能,概念描述/泛化-汇总-描述关联分析/泛化-关联规则挖掘分类与聚类/泛化-分类规则挖掘?偏差检测/泛化-遗传算法、统计方法等等时序演变分析/泛化-考虑时间因素关联分析信息摘要/统计方法、语法分析信息抽取/统计方法、语法分析元数据挖掘/统计方法、语法分析等等,数据挖掘:多个学科的融合,数据挖掘,数据库系统,统计学,其他学科,算法,机器学习,可视化,几个误区,使用数据挖掘技术一定能从数据集中挖掘出不同于传统分析技术所能得到的结论数据挖掘算法的性能受行业影响,有趣的模式,数据挖掘可能产生数以千计的模式或规则,但并非所有的模式或规则都令人感兴趣模式兴趣度的度量一个模式是有趣的,如果(1)它易于被人理解;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设模式兴趣度的客观和主观度量客观度量,基于所发现模式的结构和关于它们的统计,如支持度、可信度,等等主观度量,基于用户对数据的判断,如出乎意料的、新颖的、可行的,等等,找出所有有趣的模式,找出所有有趣的模式:数据挖掘算法的完全性问题试探搜索vs.穷举搜索关联vs.分类vs.聚类只搜索有趣的模式:数据挖掘算法的最优化问题方法首先生成所有模式然后过滤那些无趣的.仅仅生成有趣的模式挖掘查询优化,数据质量,数据错误的不可避免性数据输入和获得过程数据集成所表现出来的错误据统计,有错误的数据占总数据的5%左右,数据质量问题的分类,数据错误的危害性,高昂的操作费用糟糕的决策制定组织的不信任,合理的解决方案,探测数据集找出可能的问题并尽可能地纠正错误手工进行费时、费力、费钱并且还会产生新的错误在大数据集中进行自动的数据清理可能是达到合理质量水平唯一的、在实践中和经济上都切实可行的方法,思考题,1、阅读情报学领域有关数据挖掘方面的文章,分析这些文章的特点以及对你的启发;2、阅读英文期刊中有关数据挖掘应用的论文,从中挑选一篇你最满意的论文,总结出该论文的主要内容以及你在阅读该文后的感想;3、寻找你能得到的可进行数据挖掘的数据库,分析可能的潜在应用;4、如何对数据进行处理才能适

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论