基于云计算的数据挖掘_第1页
基于云计算的数据挖掘_第2页
基于云计算的数据挖掘_第3页
基于云计算的数据挖掘_第4页
基于云计算的数据挖掘_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 基于云计算的数据挖掘 学生:孙越 基于云计算的数据挖掘 前言 基于云计算的数据挖掘策略 数据挖掘平台云架构 基于云计算数据挖掘的关键技术 K-means 算法 朴素贝叶斯算法 前言 随着云计算时代的到来,传统数据挖掘系统在海量数据的分 析挖掘方面存在性能瓶颈。基于云计算的数据挖掘平台,该平台 与传统的数据挖掘系统架构相比有高可扩展性、海量数据处理能 力、面向服务、硬件成本低廉等优越性,可以支持大范围分布式 数据挖掘的设计和应用。 云计算 云计算具有的特点? (1) 虚拟化 (2) 通用性 (3) 高可扩展性及超大规模 (4) 可靠性高 (5) 经济性好 数据挖掘:数据挖掘是一个从大量的、不完

2、全的、有噪声的、 模糊的、随机的实际数据中提取隐含在其中的但具有潜在实 用信息和知识的过程。 数据挖掘的意义:海量数据本身具有噪声、异构、算法 复杂、技术复杂等问题,而现在的云计算开发平台并没 有提供数据规约等功能。 数据挖掘步骤 数据挖掘云架构 云计算 支撑平台层 数据挖掘 云服务层 数据挖掘 能力层 传统的数据挖掘技术在云时代的海量数据中的不足? (1)挖掘效率,传统的基于单机的挖掘算法或基于数据 库、数据仓库的挖掘技术及并行挖掘已经很难高效地完成 海量数据的分析; (2)高昂的软硬件成本也阻止了云时代数据挖掘系统 的发展; (3)传统的体系架构不能完成挖掘算法能力的提供, 基本是在以单个

3、算法为整体模块,用户只能使用已有 的算法或重新编写算法完成自己独特的业务。 第三,云计算的数据挖掘开发方便。 基于云计算的数据挖掘的优势 第一,数据挖掘处理的数据是海量的,云计算可方便的进行大 规模的数据挖掘。 第二,成本低。 基于云计算数据挖掘面临的问题和挑战 2) 不确定性 。 1) 基于云计算数据挖掘算法的并行性存在一些挑战 。 3) 数据挖掘的方法和结果具有不确定性 。 4) 挖掘结果的评价也是不确定的 。 5) 软件 、服务可信方面的问题与挑战 。 K-means 算法的基本思想是初始随机给定K个簇中心,按照最 邻近原则把待分类样本点分到各个簇。然后按平均法重新计算 各个簇的质心,从

4、而确定新的簇心。一直迭代,直到簇心的移 动距离小于某个给定的值。 K-means 算法 K-means 算法步骤 K-means 算法流程图 (a) 下面几幅图展示了对n个样本点进行K-means聚类的效果的实例,这里k取2 (b) (c) (d) (e) (f) 2 1 | i k icp mpE i E 是数据集中所有对象的平方误差和 p 是空间中的点,表示给定的对象 是簇 的均值 定义为: i m i c 贝叶斯算法处理流程 朴素贝叶斯算法 贝叶斯定理:假设训练样本集共分为 k 类,记为 C= , , ;每个类 的先验概率记P( ), i=1,2,,k,则 1 C 2 C k C i C

5、 i C n C CP 训练集总样本数 类的样本数目训练集中属于 i i) ( 新样本 d 属于 类的条件概率为记为 P(d| ),则 i C i C 类的样本数目 类的数目在样本 i i i d )C | d ( C C P (1) (2) 根据贝叶斯定 理, 的后验概率如公式(3): P ( | d ) = i C i C )( )()P C | d P( ii dP C 取后验概率最高的类别作为样本 d 所属类别,设样本 d 最可能 的类标记为 c(d),由于 P(d)为一个不依赖于 的常量,故去掉 P(d)可得到 c(x)为: (4) )()C |(maxarg)( c ii CPdPd cci (3) i C 由于每个实例 d 均由若干属性值组成,故可用若干属性的组合 表示一个实例,例如实例 d 可由表示,则公 式(4) 可表示为公式 (5): )()C | ,.,(maxarg)(c ii21 CPaaaPd mcci 1 a 2 a m a 因为贝叶斯算法中样本实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论