




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、云计算与数据挖掘,Agenda,云计算概念 为什么要云计算 虚拟化技术 分布式技术 云计算与数据挖掘,什么是云计算,云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务,云计算的起源,分布式计算、并行计算和网格服务于科学领域,云计算服务于企业和个人,是这些科学计算的商业实现 虚拟化引发资源利用率讨论,软件行业需要按需付费 使用普通的PC机构建超级计算机,冲破CPU摩尔定律 云计算的向服务化发展,云计算的七种应用,SaaS软件即服务 公用/效用计算 云计算领域的Web服务 PaaS平台即服务 管理服务供应商(MSP)
2、服务商用平台 云计算集成,云计算的架构和分类,分布式技术,虚拟化技术,Agenda,云计算概念 为什么要云计算 虚拟化技术 分布式技术 云计算与数据挖掘,IT应用所面临的问题,性能压力数据超出想象的爆炸性增长 高可用要求信息系统建立在相对不可靠的硬件设备基础上 需求增加需求频繁变化、应用复杂多样 维护难度管理压力增加、维护成本成为新的关注点,需要一种全新的IT架构以支撑IT应用的高速发展,云计算的目标,最具现实意义的定义:在不增加硬件基础设施投资,无须训练新员工或不购买新软件的前提下,来增加资源容量或提升计算性能的一种方法 一个清晰的共识:云计算向服务化的方向在发展,无论是软件、数据、存储、安
3、全,将来都可以通过服务的方式得以实现 平台战胜产品:云计算提供一个服务平台。云计算平台加快需求实现的速度,细化服务粒度,提高系统伸缩性和可靠性 电信应用领域:从IT支撑系统到移动互联,移动互联将引爆云计算,为什么要云计算?,web 2.0的启示,1. 长尾:细分市场构成了互联网的大部分可能的应用程序,利用客户的自服务和算法上的数据管理来延伸到整个互联网,到达长尾而不仅仅是头部。 2. 数据是下一个Intel Inside:应用程序越来越多地由数据驱动。因此:为获得竞争优势,应设法拥有一个独特的难于再造的数据资源。 3. 用户增添价值:web 2.0优势的关键在于用户多大程度上会在你提供的数据中
4、添加他们自己的数据。,4. 集体智慧:web 2.0的优势来自于集体智慧,应确认采用的门槛要低。 5. 永远的测试版:程序已经不是软件作品了,它们是正在展开的服务。因此,不要将各种新特性都打包到集大成的发布版本中,而应作为普通用户体验的一部分来经常添加这些特性。吸引你的用户来充当实时的测试者,并且记录这些服务以便了解人们是如何使用这些新特性的。 6. 合作,而非控制:Web 2.0的程序是建立在合作性的数据服务网络之上的。因此:提供网络服务界面和内容聚合,并重用其它人的数据服务。 7. 软件超越单一设备:PC不再是互联网应用程序的唯一访问设备。因此:从一开始就设计你的应用程序,使其集成跨越手持
5、设备,PC机,和互联网服务器的多种服务。,Agenda,云计算概念 为什么要云计算 虚拟化技术 分布式技术 云计算与数据挖掘,在服务器中实现物理分区 小型机专用,技术成熟 高可靠性,故障隔离 高可扩充性 支持多种OS 代表产品如HP的nPar,虚拟化,硬件级虚拟化,操作系统级虚拟化 (虚拟机),应用级虚拟化,在服务器或物理分区内实现多个逻辑分区 支持多种OS OS与硬件隔离 能支持虚拟机的在线迁移 灵活的资源控制 代表产品如IBM的lPar/Xen/VMware,隔离性,灵活性,在统一操作系统中为应用划分资源 解决应用的兼容性问题 应用环境隔离 低系统损耗 精细资源控制 代表产品如SUN的Co
6、ntainers,虚拟化技术,虚拟机 动态迁移,实时迁移虚拟机到其他服务器 有效利用主机资源,虚拟机 克隆,虚拟化 常用技术,虚拟机 快照,保存虚拟机某一时刻的状态 备份硬盘、内存、CPU、BIOS信息 应用于测试、备份以及安全领域,关键技术:服务器整合、冗余备份、灾难恢复、动态负载均衡、安全可信系统,虚拟机-虚拟机克隆 物理机-虚拟机克隆 简化数据中心的安装和配置 提高运维管理效率,虚拟化技术应用,企业数据中心整合,IaaS云服务,IDC整合,降低IDC 的运营成本,包括管理、硬件、基础架构、电力、软件方面; 提升现有基础架构的价值; 提升IT 基础设施的灵活性,以应用为单位实现资源的动态分
7、配; 提高IDC 的服务保障质量,提供快速容灾/恢复,集群配置等; 提供更为轻松的自动化和管理功能。,把计算、网络、存储等IT基础设置通过虚拟化后通过互联网提供服务;,将多台服务器整合到一台或者少数几台服务器上,减少服务器数量; 在单一服务器平台上运行多个应用,极大提升资源的利用率; 实现数据中心资源的集中和自动化管理,降低IT 运维成本; 避免了旧系统的兼容问题,免除了系统维护和升级等一系列问题。,虚拟化的误区,整合服务器很简单,虚拟化会自动降低能耗使用,虚拟化更加安全,桌面虚拟化能立竿见影节省成本,虚拟化和云计算一样,虚拟化 的误区,虚拟化使工作更轻松,虚拟化只和技术有关,Agenda,云
8、计算概念 为什么要云计算 虚拟化技术 分布式技术 云计算与数据挖掘,云计算的挑战,Google的云计算平台,Google云计算平台采用分布式技术 分布式计算是技术层面上的云计算,Yahoo的Hadoop平台 Apache的Hadoop开源项目是当前云计算开源技术的主流 MapReduce Hbase(BigTable) Zookeeper(Chubby) HDFS(GFS) 基于Hadoop云计算开源技术已有商业应用 Yahoo在000节点集群上搭建Hadoop平台运行商业应用,包括Yahoo ! One Search,Google的云计算平台 并行数据处理 MapReduce 结构化海量存储
9、BigTable 分布式锁Chubby 分布式文件系统GFS,MapReduce,GFS,GFS,X,GFS的关键:数据高可靠性,多点存储:GFS设置一个数据复制因子n,当n大于1时,每份数据都会保存n-1份副本 自动恢复:当一个节点失效导致其上的数据副本丢失时,GFS从其它的副本克隆一个新的副本出来,保证每份数据有n个拷贝 存储节点选择:GFS根据每个节点的磁盘空间利用率选择新的副本的存储节点,平衡各个节点的空间利用率 新加入节点:当有新的节点加入时,GFS会逐步的将数据存储在新节点上,而不是在马上将数据迁移过来,Google BigTable,定义 结构化的分布式存储系统 稀疏的,多维的,
10、排序的Map,索引:行关键字、列关键字、时间戳 存储:按列族存储 列族必须先创建(后期可增加) 列可以随意写入 时间戳允许存取多个版本,可以指定保留版本数,分布式锁Chubby,针对松散耦合分布式系统的锁服务; 本身也是分布式系统; 一个锁就是一个文件,创建文件就是加锁操作,创建成功即加锁成功,通过打开、关闭和读取文件来获取共享锁或独占锁; 基本设计目标:高可用性、可靠性,Agenda,云计算概念 为什么要云计算 虚拟化技术 分布式技术 云计算与数据挖掘,Kmeans聚类算法,Kmeans处理流图,转换数据,文本文件,向量数据,引擎,Cluster Centers,相似度测量 Enclidea
11、nDistanceMeasure,收敛阈值 convergenceThreshold,迭代次数,reducers,向量数据,向量数据,读取输出聚类信息,向量数据模型,DenseVector RandomAccessSparseVector Hash-Map 适合很多有0的多维数据,只存储非零的维数,提高内存利用率;访问dimension的值比DenseVector要稍微慢点;顺序访问维非常慢。 SequentialAccessSparseVector,分布式数据挖掘模型,引擎,调度器,算法,mapper,mapper,mapper,reducer,reducer,reducer,输入数据,演示案例
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO 21043-5:2025 EN Forensic sciences - Part 5: Reporting
- 【正版授权】 ISO 23645:2025 EN Child care articles - Baby walking frames - Safety requirements and test methods
- 【正版授权】 ISO 21001:2018/Amd 1:2024 EN Educational organizations - Management systems for educational organizations - Requirements with guidance for use - Amendment 1: Climate action
- 【怀化】2025年湖南省怀化市溆浦县招聘事业单位工作人员65人笔试历年典型考题及考点剖析附带答案详解
- 《我的路》教学课件
- 【无锡】2025年江苏省无锡职业技术学院公开招聘专职辅导员4人笔试历年典型考题及考点剖析附带答案详解
- 定量分析概述12课件
- 【成都】2025年上半年四川成都市城市运行和政务服务管理办公室所属事业单位招聘工作人员7人笔试历年典型考题及考点剖析附带答案详解
- 第三章防火防爆技术40课件
- Brand KPIs for milk:Tirol in Brazil-英文培训课件2025
- VTE防控管理相关制度(VTE患者管理与随访的相关管理制度)
- 职业技能竞赛-网络与信息安全管理员理论题库(附参考答案)
- 2023年山东青岛局属高中自主招生物理试卷真题(含答案详解)
- 2024年中华全国律师协会招聘5人历年(高频重点复习提升训练)共500题附带答案详解
- 房地产 -2024年第二季度大连写字楼和零售物业市场报告
- 档案管理借阅制度
- 《电机与变压器》教案
- 质量目标及实施计划制定
- 重力式(仰斜、俯斜)挡土墙计算软件
- 财务年终总结报告
- 2023年江苏财经职业技术学院单招考试职业适应性测试试题及答案解析
评论
0/150
提交评论