版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于Hadoop的数据挖掘研究成员:樊威,马悦,王晓晨数据挖掘“数据挖掘”一词对于大家来说应该并不陌生,自上世纪80年代走入人们的视线以来,作为数据库研究、开发和应用最活跃的分支之一,在短短的不到三十年的时间里得到了迅猛地发展,已成为信息科学界的热点研究课题[[1]。数据挖掘,也称数据库中知识发现,就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的非平凡过程。确切的说,数据挖掘是一种知识发现过程,它利用各种分析工具和基于数据库、人工智能、数理统计、机器学习等技术,高度自动化地分析数据,做出归纳性推理,从海量数据中挖掘出潜在的、有价值的知识、模型,这些知识和模型可用来对未知实例和数据进行预测,用以给决策者评估风险,提供决策支持,做出正确的决策。Hadoop概况Hadoop的源头是ApacheNutch,该项目始于2002年,是ApacheLucene的子项目之一。2004年,Google“OperatingSystemDesignandImplementation"会议上公开发表题为“MapReduce:SimplifiedDataProcessingonLargeCluster"的论文,之后,受到启发的DougCutting等人开始尝试实现MapReduce计算框架,并将它与NDFS结合,以支持Nutch引擎的主要算法。由于NDFS和MapReduce在Nutch引擎中有着良好的应用,所以它们于2006年2月被分离出,成为一套完整而独立的项目,名为Hadoop。HDFS机制
HDFS(HadoopDistributedFileSystem)是Hadoop项目的核心子项目,是Hadoop主要应用的一个分布式文件系统,下面将分以下几个方面介绍它。HDFS特点及局限性,总的来说,HDFS的主要特点主要有以下几点:1)处理超大文件这里的超大文件通常是指数百MB、甚至数百TB大小的文件。2)流式地访问数据HDFS的设计建立在更多地响应“一次写入、多次读取”任务的基础上。这意味着一个数据集一旦由数据源生成,就会被复制分发到不同的存储节点中,然后响应各种各样的数据分析任务请求。3)运行于廉价的商用机器集群上Hadoop设计对硬件要求比较低,只需运行在廉价的商用硬件集群上,而无须昂贵的高可用性机器上。聚类算法
大体上,可以将聚类算法划分为如下几个方面1)划分法:给定一个由n个元组或记录组成的数据集,划分法将会构造k个划分,每一个划分代表一个聚类,k<n。而且这k个划分满足以下条件:①每个划分至少要包含一个数据对象;②每个数据记录属于且仅属于一个划分。对于给定的参数k,算法首先给出一个初始划分方法,然后通过反复迭代改变划分,使得每次改进之后的划分方案都比前一次好。典型算法有K-Means算法、K-Medoids算法等。2)层次法:这种方法层次分解所给定的数据集,直到满足某种条件为止。具体又可以分成“自下而上”的凝聚法和“自上向下,,的分裂法两种方案。典型算法包括:BIRCH算法、CURE算法、CHAMELEON算法等。3)基于密度的方法:该方法与其他方法的一个根本区别是:不是基于各种各样的距离,而是基于密度。这样就能克服基于距离的算法只能发现“类圆形”聚类的缺点。这个方法中,只要有一个区域中点的密度大于某一个阀值,就把它加入到与之相近的聚类中去。典型算法有:DB-SCAN算法、OPTICS算法等。
聚类算法(续)4)基于网格的方法:这种方法首先把数据空间划分成有限个单元的网格结构,所有的处理都把单个单元作为对象。突出优点就是处理速度很快,通常与目标数据集中记录个数无关,只与把数据空间分为多少个单元有关。典型算法有:STING算法、Wave-Cluster算法等。5)基于模型的方法:基于模型的方法是给每一个聚类假定一个模型,然后去寻找数据对给定模型进行最佳拟合。给定模型可能是数据点在空间中的密度分布函数或其他。通常包括统计的方案和神经网络的方案。实验环境软件
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理环境与患者康复计划
- 护理团队危机管理
- 护理安全沟通:促进团队合作与沟通
- 快消品行业客户服务流程介绍
- 《税法》(第八版)习题及答案 6.3.1契税法
- 快消品企业文化专员面试要点及回答指南
- 零售业财务总监招聘面试全攻略
- 护理带教中的跨文化沟通
- 基于用户反馈的文档质量改进方案
- 旅游行业采购专员的面试宝典
- (2025年)政工师考试试题(附答案)
- 中国专家共识解读:颅脑损伤院前与急诊诊治(2025版)
- 小儿惊厥的应急预案演练脚本(2篇)
- 广东省初级注册安全工程师题库及答案解析
- 《嵌入式系统原理及应用》课件第3章ARM指令系统
- 《电力工程 第3版》课件 鞠平 第1-7章 绪论、输电设备-电力系统潮流
- 患者术中体温管理课件
- 【课件】美术的曙光-史前与早期文明的美术+课件-2024-2025学年高中美术人教版(2019)必修美术鉴赏
- 口腔癌前病变
- 2025年高考数学全国一卷试题真题及答案详解(精校打印)
- GB/T 42230-2022钢板卷道路运输捆绑固定要求
评论
0/150
提交评论