数据挖掘PPTPPT课件.ppt_第1页
数据挖掘PPTPPT课件.ppt_第2页
数据挖掘PPTPPT课件.ppt_第3页
数据挖掘PPTPPT课件.ppt_第4页
数据挖掘PPTPPT课件.ppt_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘概述 姓名 XX学号 xx指导老师 XX 1 数据挖掘的概念及过程 数据挖掘的算法 数据挖掘的应用 数据挖掘面临的挑战 4 1 2 3 目录 2 前言 随着科学技术 网络技术的迅猛发展 人类正在步入信息社会 面对今天浩如烟海的信息 以及数据背后隐藏的许多重要的信息 如何帮助人们有效地收集和选择所感兴趣的信息 更关键的是如何帮助用户在日益增多的信息中自动发现新的概念并自动分析它们之间的关系 使之能够真正地做到信息处理的自动化 这已成为信息技术领域的热点问题 数据挖掘就是为满足这种要求而产生并迅速发展起来的 可用于开发信息资源的一种新的数据处理技术 3 数据挖掘一词起源于KDD KnowledgeDiscoveryinDatabase 数据库中的知识发现 可以追溯到20世纪80年代末 KDD这个名词的正式形成是在1989年美国底特律市召开的第一届KDD国际学术会议上 而第一届知识发现和数据挖掘 DataMining DM 国际学术会议是在1995年加拿大召开的 会议上将数据库里存放的数据生动地比拟成矿床 从而 数据挖掘 这个名词很快就流传开来 4 数据挖掘的概念 数据挖掘就是利用一系列相关算法和技术从大型数据库中的数据中提取人们感兴趣的知识 它们隐藏在数据中 之前不为人们所知但却是人们确实需要的有价值的潜在知识 所提取到的知识表示形式可以为概念 模式 规律和规则等 它可以通过对历史数据和当前数据的分析 帮助决策人员提取隐藏在数据中的潜在关系与模式等 进而协助其预测未来可能出现的状况和即将产生的结果 数据挖掘任务最常见的两种类型是 描述和预测 描述型数据挖掘的任务是寻找数据集中数据的一般特性 并对数据中存在的规则进行描述 或根据数据的相似性把数据分组 预测型数据挖掘的任务是根据当前数据进行推断和预测 进而由数据项的值来确定某种模式 5 数据挖掘是一个从不完整的 不明确的 大量的并且包含噪声 具有很大随机性的实际应用数据中 提取出隐含其中 事先未被人们获知 却潜在有用的知识或模式的过程 此定义包含了多个含义 1 数据源必须为大量的 真实的并且包含噪声的 2 挖掘到的新知识必须为用户需求的 感兴趣的 3 挖掘到的知识为易理解的 可接受的 有效并且可运用的 4 挖掘出的知识并不要求适用于所有领域 可以仅支持某个特定的应用发现问题 6 数据挖掘是一门综合型学科 涉及数据库技术 人工智能 机器学习 统计分析 可视化技术 信息检索等很多学科领域 7 Textinhere 解释并评估结果 可视化 多次循环反复操作 所得知识集成到业务系统中去 2 数据准备 3 数据挖掘 4 结果分析 数据挖掘的过程 5 知识的同化 1 确定业务对象 数据选择 预处理 转换 探索有预见性的问题 不盲目 选择合适的挖掘算法 8 9 数据挖掘主要模型与算法 数据挖掘技术主要涉及神经网络 决策树 遗传算法 数理统计分析 关联规则和聚类分析等方法和学科 1 神经网络方法神经网络由于本身良好的鲁棒性 自组织自适应性 并行处理 分布存储和高度容错等特性 为解决大复杂度问题提供了一种相对来说比较有效的简单方法 因此近年来越来越受到人们的关注 其工作机理是通过学习改变神经元之间的连接强度 神经网络有前向神经网络 反馈神经网络 自组织神经网络等 在神经网络中 由权重和网络的拓扑结构决定了它所能识别的模式类型 它是一种通过训练来学习的非线性预测模型 可以完成分类 聚类 特征挖掘等多种数据挖掘任务 10 2 决策树决策树学习着眼于从一组无次序 无规则的事例中推理出决策树表示形式的分类规则 它采用自顶向下的递归方式 在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支 在决策树的叶结点得到结论 所以 从根到叶结点的一条路径就对应着一条合取规则 整棵决策树就对应着一组析取表达式规则 通过将大量数据有目的分类 从中找到一些有价值的 潜在的信息 它的主要优点是描述简单 分类速度快 特别适合大规模的数据处理 最有影响和最早的决策树方法是由Quinlan提出的著名的基于信息熵的ID3算法 11 3 遗传算法遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法 是一种仿生全局优化方法 遗传算法己在优化计算 分类 机器学习等方面发挥了显著作用 在数据挖掘中 它还可以用于评估其它算法的适合度 在处理组合优化问题方面有一定的优势 可用于聚类分析等 遗传算法的最大特点在于演算简单 但其用于数据挖掘也存在一些问题 算法较复杂还有收敛于局部极小的过早收敛等难题未得到彻底解决 12 4 数理统计分析此类技术建立在传统的数理统计的基础上 在数据库字段项之间存在两种关系 函数关系 能用函数公式表示的确定性关系 和相关关系 不能用函数公式表示 但仍是相关确定性关系 对它们的分析可采用统计学方法 即利用统计学原理对数据库中的信息进行分析 可进行常用统计 回归分析 相关分析 差异分析 多元回归分析及偏最小二乘回归方法等 传统统计分析可用于分类挖掘和聚类挖掘 SAS SPSS和BMDP是目前国际上最具影响力的3大统计分析软件 13 5 聚类分析聚类分析指将物理或者抽象数据对象集合分组成由相似的数据对象组成的多个类的分析过程 它的目的就是在相似的基础上收集数据来进行分类 聚类分析就是依据数据彼此之间的相似性将其分类到不同的类或簇 Cluster 这样的一个过程 在同一个类中的对象彼此之间非常相似 而不同类间的对象之间具有较高的相异性 聚类分析是一个不断探索的分析过程 分类时根据数据本身进行分类而无需预先确定分类标准 采用不同的方法进行聚类分析得到的结果往往不尽相同 14 聚类方法五大类 划分法 层次法 基于密度的方法 基于网格的方法与基于模型的方法等 15 数据挖掘的应用 16 数据挖掘的应用领域 金融 信用卡分析业务模型客户信用等级评估客户透支分析客户利润分析客户消费行为分析客户消费异常行为分析 17 数据挖掘在反洗钱系统中的应用 18 数据挖掘的应用领域 营销 关联分析 市场篮子分析 用于了解顾客的购买习惯和偏好 有助于决定市场商品的摆放和产品的捆绑销售策略 序列模式与市场篮子分析相似 不过是用某时间点发现的产品购买或其他行为模式来预测将来购买产品或服务类别的概率 聚类用于市场细分 将顾客按其行为或特征模式的相似性划分为若干细分市场 以采取有针对性的营销策略 分类用于预测哪些人会对邮寄广告和产品目录 赠券等促销手段有反应 还可用于顾客定级 破产预测等 19 数据挖掘在营销中的应用流程 20 数据挖掘的应用领域 电信 数据挖掘技术在电信CRM系中的应用有以下几个方面 客户获得交叉销售客户保持一对一营销 21 数据挖掘的应用领域 工业生产 在生产工业领域 大部分工厂都积累了大量的实际生产数据 这些数据大多以数据库 数据文件 生产记录等形式存在 它们蕴涵了与生产设备 生产过程相关的许多规律性知识和生产决策 操作人员的操作决策和控制经验 应用方法 1 建立过程输入输出模型 以此模型为指导寻求最优的操作和控制条件 2 构造数据样本后 根据某种评估分类方法选出优选样本 根据优选样本的分布确定可探最优区 确定优化方向 22 数据挖掘在工业生产中的应用示意图 23 数据挖掘的应用领域 生物医学 DNA序列相似搜索和比对基因组特征及基因序列的分析路径分析生物数据可视化和数据挖掘生物文献的挖掘基于隐私保护的数据挖掘 24 数据挖掘面临的挑战和局限性 处理不同种类的数据数据挖掘算法的效率及扩展性数据挖掘结果的可用性 确定性及可表达性各种数据挖掘结果的表达多抽象层交互挖掘知识从不同的数据源中挖掘信息隐私保护及数据安全 25 数据挖掘的发展趋势 WEB挖掘 Web数据的收集 结构转换等预处理技术的研究 现有的数据挖掘方法在适应性和时效性方面的研究基于Web挖掘和信息检索的智能搜索引擎及相关技术的研究 Web挖掘在特定领域如电子商务领域的应用研

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论