数据挖掘导论_第1页
数据挖掘导论_第2页
数据挖掘导论_第3页
数据挖掘导论_第4页
数据挖掘导论_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1

数据挖掘导论数据和信息概念2公司会产生海量数据数据是一种宝贵的资源我们需要一些技术来自动分析数据并提取信息/知识。数据=事实信息=数据中的模型/模式数据挖掘(DMM)3数据挖掘/知识发现或数据模型创建大量数据中知识的过程。人类学习到的知识98%都来自模式识别[Kurzwell]什么是数据挖掘?

4数据探索,也称为数据挖掘、数据钻探、数据勘探、数据挖掘或从数据中提取知识,旨在利用自动或半自动方法从大量数据中提取知识或信息。数据挖掘是指从存储在数据库或数据仓库中的大量数据中搜索和提取信息(包括有用信息和未知信息)。数据挖掘的近期发展(自20世纪90年代初以来)与以下几个因素有关:台式电脑甚至家用电脑都具备了强大的计算能力;数据库的容量正在急剧增长;随着带宽的不断提升,全球网络的接入使得分布式计算和全球信息分发成为可能;人们也意识到优化制造、销售、管理和物流流程的商业价值;数据挖掘在当今具有重要的经济意义,因为它能够优化资源管理(人力和物力)。定义5数据挖掘一套数据挖掘技术,用于提取知识(深层含义),并以模型的形式呈现给知情用户以供审查。数据仓库数据矿业知识发现模型理解预言数据库中提取知识

6提取隐性知识并非易事,此前未知,有趣,有用数据库中存储的信息哪些类型的知识?多学科研究领域数据库(DB)统计数据统计/符号学习可视化FDD的范围7我们拥有结构化数据。对象由记录(或描述)表示,记录由一组字段(或属性)组成,这些字段的值取自某个领域。我们可以重点关注各种问题。由于不同学科使用的术语可能有所不同(有时甚至在同一学科内,也会因应用领域而异),我们使用相关的任务描述来定义我们的词汇表。分类:包括检查对象的特征并为其分配一个类别;类别是一个具有离散值的特定字段。分类任务的示例包括:决定是否向客户发放贷款,为了确立诊断,接受或拒绝从自动取款机取款为新闻报道确定一个主题,……估算是指根据对象的特征确定某个字段的值。待估算的字段是一个连续值字段。估算可用于分类。估算会将特定类别分配给估算字段中的一系列值。估算任务的示例包括:对贷款申请人进行评级;该估算可用于分配贷款(分类),例如,通过设置分配阈值;以及估算客户的收入。FDD的范围8预测:这涉及估计未来的值。通常,已知值会以历史数据的形式存储。目标是预测某个字段的未来值。这项任务与之前的任务类似。分类和估计方法都可以用于预测。预测任务的示例包括:预测股票的未来价值。关联规则(购物篮分析):这涉及确定哪些值之间存在关联。一个典型的例子是识别在同一张超市收据上同时出现的商品(例如鱼和白葡萄酒;法棍面包、卡门贝尔奶酪和红葡萄酒等)。这项任务可用于识别交叉销售机会并设计吸引人的产品组合。它需要非常大的数据集才能有效。这项任务催生了以下例子(轶事),在许多数据挖掘文章中都有提及:在美国超市,人们发现周末前啤酒和尿布的购买量之间存在关联!这一观察结果可以用美国年轻父亲的行为来解释,他们会在周末囤积啤酒一边看电视一边购买婴儿用品。不管这是玩笑还是现实,我从未听说过在超市里把啤酒放在尿布旁边就能取得任何成效!细分:这涉及在总体中形成同质群体(聚类)。对于这项任务,没有预定义的类别需要解释,也没有预定义的值需要预测;目标是在总体(记录集)内创建同质群体。接下来,由领域专家确定这些群体的相关性和重要性。这项任务通常在构建用于分类或评估任务的群体之前执行。发现与利用9挖掘模型DM引擎DM引擎预测数据训练数据挖掘模型挖掘模型用于预测的数据FDD系统流程10为什么现在要发布FDD?11更强大的机器数据挖掘算法是可用的。改进数据收集和备份应用领域广泛:数据库、统计学、人工智能、可视化、并行计算……多学科领域一个快速扩张的数据宇宙,却鲜有知识数量众多、规模越来越大的数据库通过互联网连接数据库迫切需要决策支持工具来解读数据学习技巧的发展自动的12为什么会出现这种情况?13描述性方法能够组织、简化大型数据集,并帮助理解其底层信息。它们允许我们处理一组数据,这些数据被组织成变量实例,其中个体的任何解释变量与其他变量相比都没有特别的重要性。预测方法能够解释或预测一种或多种可观察和实际测量的现象。在预测性数据挖掘中,根据所解释变量的类型,有两种操作:判别或分类,以及回归或预测。判别侧重于类别变量,而回归侧重于连续变量。14定义I(机器学习的数据挖掘)15分类按类别、按分类进行分配的行为此行动的结果班级一群具有共同特征的个人或物体分类分成班级分类按分类排序定义二16

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论