免费预览已结束,剩余3页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于云计算的数据处理及数据挖掘方法 摘要:介绍云计算的概念及应用,探讨传统数据挖掘方法分类和聚集方法的基本原理、特点、优缺点及应用范围。根据云计算的并行分布式计算特点,提出与之适应的数据处理方法。借助Google云计算中的分布式数据处理平台,评价云计算下复杂数据形式的数据挖掘方法。 关键词:云计算;并行分布式数据挖掘;Map Reduce数据处理 中图分类号:TP391 文献标识码:A 文章编号:1672-7800(2015)003-0148-02 0 引言 近年来,云计算作为一种新兴技术正以前所未有的速度在人们的生活中普及。随着云技术的出现,大数据的概念也随即提出。在数据爆炸式增长的今天,如何从蕴含大量数据或资源的“云”中挖掘出可用的知识,成为数据挖掘领域的一大挑战。本文列举几种常用的传统数据挖掘方法,即分类和聚集分析,提出适应云计算环境下的数据挖掘算法,并进行分析与评价。 1 云计算 关于云计算尚没有明确统一的定义。清华大学张德丰2认为云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其它设备。“云”其实是网络、互联网的另一种说法。云计算是一种利用互联网,通过虚拟化技术向用户提供软硬件资源和信息共享的服务模式。云计算的核心思想是将大量用网络连接的计算资源进行统一管理和调度,构成一个计算资源池,按需向用户提供服务。按服务类型划分,云计算大致可分为3大类: IaaS、PaaS、SaaS。当今企业越来越重视从数据中发现商机,云计算将为用户提供数据深度分析与挖掘功能,本文称其为 DaaS(数据即服务)。本文从提供服务的角度,认为云计算包含3个层次和 4 个服务模式,如图 1 所示。 云计算拥有的超大规模计算能力、海量数据资源及其高可靠性特征,为数据挖掘提供了良好基础。 2 传统数据挖掘方法 2.1 数据挖掘基本概念 随着数据库技术的成熟和数据应用的普及,数据量正在以指数速度增长。数据和信息之间的鸿沟客观上需要系统的数据挖掘工具,将数据转换成有用的知识。从数据库中发现知识(KDD)及其核心技术数据采掘(DM) 便应运而生了。 采用数据挖掘工具进行数据分析, 可以发现重要的数据模式,对商务决策、知识库、科学和医学研究意义重大。数据挖掘(Data Mining,简称DM)是从海量数据中发现有趣模式的过程1。DM 通常又称数据库中的知识发现( Knowledge Discovery in Databases, KDD),是自动的提取模式,代表隐藏在大型数据库、数据仓库或其它大量信息存储中的知识。数据挖掘是数据库研究、开发和应用中最活跃的分支之一。一般来说,数据挖掘可以在任何类型的信息存储上进行,包括关系数据库、数据仓库、事务数据库、高级数据库系统、展开文件和WWW。 2.2 常用数据挖掘方法 2.2.1 分类 分类是一项重要的数据分析技术,用于提取并描述重要数据类,可以预测数据趋势。传统的分类算法大部分是内存驻留算法,假定的数量很小1。数据分类通常分为两个阶段,即学习阶段(构建分类模型)和分类阶段(使用模型预测给定数据的类标号)。分类是一种监督学习,它与无监督学习或聚类不同,利用分类规则,可以更好地对未来的数据元祖进行分类,也可使数据内容得到更好的理解,并且提供数据压缩表示。常用分类方法如下: (1)判定树归纳分类。判定树是一个类似于流程图的树结构, 它从一组无序、无规则的事例中推理出判定树表示形式的分类规则,其中每个内部节点表示一个属性上的测试, 分支用这个属性的所有可能值标记,每个分支代表一个测试输出,而每个树叶节点代表所要学习划分的类或类分布。 (2)朴素贝叶斯分类。朴素贝叶斯分类可以与判定树和神经网络分类算法相媲美。其步骤如下:建立模型,描述预先的数据集或概念集;指导学习,即假定每个样本都有一个预先定义的类。朴素贝叶斯模型(NBC)通过对象的先验概率,计算出其后验概率(即对象属于哪一类的概率),选择具有最大后验概率的类作为该对象的所属类。设x=a1,a2,aam为一个待分类项,而每一个a 为x的一个特征属性,有类别集合c=y1,y2,y3yn,计算p(y1/x), p(y2/x), p(y3/x), p(y4/x), p(yn/x)各个条件概率。如果P(yk/x)=max p(y1/x), p(y2/x), p(y3/x), p(y4/x), p(yn/x)则属于x中某个类。P(yi/x)=p(x/yi) p(yi)/p(x),朴素贝叶斯分类在应用于大型数据库时,已表现出高准确率与高速度。贝叶斯网络可以处理不完整和带有噪音的数据集,从而解决数据间不一致,甚至相互独立的问题。 此外,还有基于规则的分类、后向传播分类神经网络和遗传算法分类等方法。 2.2.2 聚类 聚类(clustering) 根据某种相似程度的度量,将数据对象分为多个类或簇(cluster),同一簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。相异度根据描述对象的属性来计算,距离是经常采用的度量方式。基本聚类算法有k- 平均算法、k- 中心点算法。 3 云计算数据处理与数据挖掘方法 根据云计算的特点,为适应各种数据类型,Google公司提出了基于Hadoop的分布式数据处理 MapReduce。分布式数据挖掘旨在解决分散的同构和异构数据库挖掘问题。同时,数据的分布性带来处理的并行性,可解决海量数据挖掘的可伸缩性(Scalability)瓶颈。MapReduce云计算模型采用“分而治之”的思想,将大规模数据集的操作分发给一个主节点管理下的各分节点共同完成,然后整合各分节点的中间结果,得到最终结果2,从而很好地解决了云计算环境下数据结构复杂的问题。各种数据形式,如文本型、关系型、面向对象型、空间型、时间型以及多媒体型的数据,都可以找到与之相对应的分布于“云”中的硬件或软件来进行处理。在MapReduce计算模型中,有两个关键函数:映像函数Map和聚焦函数Reduce,这两个函数对应一组输入的键值对( key/value)进行计算,得出一组输出键值对,即Map:(k1,v1) list(k2,v2); Reduce(k2,list(v2) list(k3,v3)。运行于Hadoop平台下的MapReduce 应用程序由一个mapper类、reduce类和一个创建jobconf的驱动函数组成。 除Hadoop内置的数据类型外,通过MapReduce还可以根据用户需要自定义数据类型。自定义数据类型首先要实现writable 接口,以便使数据被序列化后完成网络传输 、文件输入/输出。其次,如果该数据需要作为主键key使用或比较数值大小,需要实现writablecomparable接口。使用该技术可以很好地对云计算下的数据进行处理。 传统的数据挖掘方法无法适应海量且数据类型复杂的数据,如时间序列、符号序列、文本数据以及多媒体数据。针对这些数据可采用以下挖掘方法: (1)时间序列数据集包含了不同时间点重复测量得到的数值序列。采用相似性搜索,通常要先对时间序列数据进行数据或维度归约和变换,典型的归约技术有离散傅里叶变换(DFT)、离散小波变换(DWT)、基于主成分分析(PCA)的奇异值分解(SAD)等。 (2)符号序列由元素或事件的有序集组成,记录或未记录具体时间,通常相应地采用基于约束的序列模式挖掘方法。 (3)多媒体数据库一般存储图像、视频、音频等数据。一般采用基于内容的检索和相似性搜索、泛化和多维分析的方法解决多媒体数据挖掘问题4。 (4)文本挖掘是一个交叉学科领域,涉及信息检索、数据挖掘、机器学习、统计学和及计算机语言学等5。典型的文本挖掘任务包括文本分类、文档聚类、概念/实体提取、文档摘要、分类系统的产生、观点分析、实体关系建模等。文本挖掘常使用WordNet、Sematic Web、Wikipedia和其它信息源,以增强文本数据的理解和挖掘。 4 结语 根据数据模式与应用范畴不同,数据挖掘所采用的方法各异。如何将数据挖掘与Web服务、数据库、数据仓库和云计算系统集成,也是数据挖掘发展的趋势。 参考文献: 1 JIAWEI HAN,MICHELINE KAMBER.数据挖掘:概念与技术M.范明,孟小峰,译.北京:机械工业出版社,2012. 2 张德丰.云计算实
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 货物受理环节验视登记制度
- 课程审议制度
- 矿山鸿蒙与数智技术在智能化矿山建设中的应用与实践
- 2025年-绍兴教师编招聘笔试及答案
- 2025年合肥省人事考试及答案
- 2025年鹤岗下半年事业编考试及答案
- 2025年湖南国开行笔试及答案
- 2025年酒店公开招聘笔试题库及答案
- 2025年牡丹江人事考试及答案
- 落实全面合理检查的质量管理与改进制度
- 医保违规行为分类培训课件
- 依法行医教学课件
- 讲课学生数学学习成就
- 医疗器械法规对互联网销售的限制
- 西葫芦栽培技术要点
- 系杆拱桥系杆预应力施工控制要点
- 高中学生学籍表模板(范本)
- 三亚市海棠湾椰子洲岛土地价格咨询报告样本及三洲工程造价咨询有限公司管理制度
- 常见磁性矿物的比磁化系数一览表
- 高中心理健康教育-给自己点个赞教学课件设计
- 薪酬管理论文参考文献,参考文献
评论
0/150
提交评论