数据挖掘简介.ppt_第1页
数据挖掘简介.ppt_第2页
数据挖掘简介.ppt_第3页
数据挖掘简介.ppt_第4页
数据挖掘简介.ppt_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘能做些什么,主要内容,概念描述关联规则分类与预测聚类分析方法,概念描述,概念描述(conceptdescription)概念:对一个包含大量数据的数据集合总体情况的概述。概念描述(conceptdescription):对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述。,关联规则,关联规则(AssociationRule)关联规则挖掘就是发现大量数据中项集之间有趣的关联关联规则挖掘的典型案例:购物篮问题在商场中拥有大量的商品(项目),如:牛奶、面包等,客户将所购买的商品放入到自己的购物篮中。通过发现顾客放入购物篮中的不同商品之间的联系,分析顾客的购买习惯。哪些物品经常被顾客购买?同一次购买中,哪些商品经常会被一起购买?一般用户的购买过程中是否存在一定的购买时间序列?,关联规则,基本表示形式:前提条件结论支持度,置信度buys(x,“diapers”)buys(x,“beers”)0.5%,66%major(x,“CS”)takes(x,“DB”)grade(x,“A”)1%,75%具体应用:利润最大化商品货架设计:更加适合客户的购物路径货存安排:实现超市的零库存管理用户分类:提供个性化的服务,分类与预测,分类与预测(ClassificationandPrediction)研究已分类资料的特征,分析对象属性,据此建立一个分类函数或分类模型,然后运用该模型计算总结出的数据特征,将其他未经分类或新的数据分派到不同的组中。预测是根据对象属性、过去的观察值和有关资料对该属性的未来值进行预测,预测使用的技巧主要是回归分析、神经网络方法等。,分类与预测,常用方法决策树(decisiontree)贝叶斯分类(bayesclassification)人工神经网络(ANN)K最近邻分类法(k-nearestneighborclassifier)基于事例的推理(case-basedreasoning)遗传算法(geneticalgorithm)粗糙集方法(roughsetapproach)模糊集方法(fuzzysetapproach)回归分析(regressionanalysis),聚类,聚类分析(ClusteringAnalysis)把数据对象的集合分组到不同的聚类中聚类原则同一类内的数据尽可能相似不同类数据尽可能不相似聚类实际上是一个无导师分类:没有预先给定类别信息,聚类,常用方法基于划分的聚类分析方法基于层次的聚类分析方法基于密度的聚类分析方法基于网格的聚类分析方法基于模型的聚类分析方法,分析方法,特异点分析(OutlierAnalysis)与数据的一般行为或模式不一致。多数为噪声或异常数据,常被剔除。在某些应用中,孤立点数据更有趣,如:银行诈骗,洗黑钱、恐怖行为。有专门进行孤立点研究的方法与技术。统计方法是占主流,考察数据的分布,用距离来度量。,分析方法,演化分析(timeseriesanalysis)对随时间变化的数据对象的变化规律和演化趋势进行建模分析。(时序数据库)如对主要股票的交易数据进行建模分析。方法趋势和偏差:回归分析序列模式匹配:周期性分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论