数据分析历程_第1页
数据分析历程_第2页
数据分析历程_第3页
数据分析历程_第4页
数据分析历程_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析数据分析历程历程 目录目录 数据分析计算 1 1 并发 2 2 并行 3 2 1 概念 3 2 2 并发 VS 并行 4 3 分布式计算 5 3 1 特点 5 3 2 优点 6 3 3 分布式 VS 并行 7 3 3 1 相似点 7 3 3 2 区别 7 4 集群计算 Cluster Computing 10 5 网格计算 Grid Computing 12 5 1 集群计算与网格计算的区别 12 6 云计算 Cloud Computing 15 6 1 云计算与并行 分布式 网格和集群计算的区别 15 1 并发并发 并发 在操作系统中 是指一个时间段中有几个程序都处于已启动 运行到运行完毕之间 且这几个程序都是在同一个处理机上运行 但 任一个时刻点上只有一个程序在处理机上运行 在网络服务器上 并发是指同一时刻能处理的连接数 比如 服务 器能建立 1000 个 TCP 连接 即服务器同时维护了 1000 个 socket 这个服务器的并发量就是 1000 但是服务器可能只有单核或者 8 核 16 核等 总之对这 1000 个 socket 连接的处理也是分时来做的 每个 socket 服务器处理的时间如果是 1s 那么该服务器 1s 内可以处理完 1000 个请求 如果每个 socket 处理 100ms 的话 那么该服务器 1s 内可以处理 10000 个请求 2 并行并行 并行是指 并排行走 或 同时实行或实施 在操作系统中是指 一组程序按独立异步的速度执行 不等于时间上的重叠 同一个时刻 发生 2 1 概念概念 并行计算或称平行计算是相对于串行计算来说的 并行计算 Parallel Computing 是指同时使用多种计算资源解决计算问题的 过程 为执行并行计算 计算资源应包括一台配有多处理机 并行处 理 的计算机 一个与网络相连的计算机专有编号 或者两者结合使 用 并行计算的主要目的是快速解决大型且复杂的计算问题 并行计算可以划分成时间并行和空间并行 时间并行即流水线技术 空间并行使用多个处理器执行并发计算 当前研究的主要是空间的并 行问题 以程序和算法设计人员的角度看 并行计算又可分为数据并 行和任务并行 数据并行把大的任务化解成若干个相同的子任务 处 理起来比任务并行简单 并发可以理解为服务器最多维护多少个会话数 并行则不一样 它 关系的是有多少个会话是在同时进行 假如有两台服务器 进程 可 能并行的数量是 2 而并发的数量是 1000 我们还可以对比下吞吐量 和带宽的概念 2 2 并发并发 VS 并行并行 并发的实质是一个物理 CPU 也可以多个物理 CPU 在若干道程序 之间多路复用 并发性是对有限物理资源强制行使多用户共享以提高 效率 并行性指两个或两个以上事件或活动在同一时刻发生 在多道程序 环境下 并行性使多个程序同一时刻可在不同 CPU 上同时执行 并发 是在同一个 cpu 上同时 不是真正的同时 而是看来是同时 因为 cpu 要在多个程序间切换 运行多个程序 并行 是每个 cpu 运行一个程序 3 分布式计算分布式计算 所谓分布式计算就是在两个或多个软件互相共享信息 这些软件既 可以在同一台计算机上运行 也可以在通过网络连接起来的多台计算 机上运行 分布式计算这个研究领域 主要研究分散系统 Distributed system 如何进行计算 分散系统是一组计算机 通过计算机网络相 互链接与通信后形成的系统 把需要进行大量计算的工程数据分区成 小块 由多台计算机分别计算 在上传运算结果后 将结果统一合并 得出数据结论的科学 目前常见的分布式计算项目通常使用世界各地上千万志愿者计算 机的闲置计算能力 通过互联网进行数据传输 如分析计算蛋白质的 内部结构和相关药物的 Folding home 项目 该项目结构庞大 需要惊 人的计算量 由一台电脑计算是不可能完成的 即使现在有了计算能 力超强的超级电脑 但是一些科研机构的经费却又十分有限 3 1 特点特点 分布式计算是一门计算机科学 它研究如何把一个需要非常巨大的 计算能力才能解决的问题分成许多小的部分 然后把这些部分分配给 许多计算机进行处理 最后把这些计算结果综合起来得到最终的结果 首先 要发现一个需要非常巨大的计算能力才能解决的问题 这类 问题一般是跨学科的 极富挑战性的 人类急待解决的科研课题 其 中较为著名的是 1 解决较为复杂的数学问题 例如 GIMPS 寻找最大的梅森素数 2 研究寻找最为安全的密码系统 例如 RC 72 密码破解 3 生物病理研究 例如 Folding home 研究蛋白质折叠 误解 聚 合及由此引起的相关疾病 4 各种各样疾病的药物研究 例如 United Devices 寻找对抗癌症 的有效的药物 5 信号处理 例如 SETI Home 在家寻找地外文明 3 2 优点优点 分布式计算比起其它算法具有以下几个优点 1 稀有资源可以共享 2 通过分布式计算可以在多台计算机上平衡计算负载 3 可以把程序放在最适合运行它的计算机上 其中 共享稀有资源和平衡负载是计算机分布式计算的核心思想之一 3 3 分布式分布式 VS 并行并行 3 3 1 相似点相似点 都是为了实现比较复杂的任务 将大的任务分解成小的任务 在多 台计算机上同时计算 3 3 2 区别区别 1 区分 并行计算与分布式计算都是运用并行来获得更高性能 化大任务为 小任务 简单说来 如果处理单元共享内存 就称为并行计算 反之 就是分布式计算 也有人认为分布式计算是并行计算的一种特例 2 应用的场合和解决的问题不一样 分布式的任务包互相之间有独立性 上一个任务包的结果未返回或 者是结果处理错误 对下一个任务包的处理几乎没有什么影响 因此 分布式的实时性要求不高 而且允许存在计算错误 因为每个计算任 务给好几个参与者计算 上传结果到服务器后要比较结果 然后对结 果差异大的进行验证 并行程序并行处理的任务包之间有很大的联系 而且并行计算的每 一个任务块都是必要的 没有浪费的分割的 就是每个任务包都要处 理 而且计算结果相互影响 就要求每个的计算结果要绝对正确 而 且在时间上要尽量做到同步 而分布式的很多任务块可以根本就不处 理 有大量的无用数据块 所以说分布式计算的速度尽管很快 但是 真正的 效率 是低之再低的 可能一直在寻找 但是永远都找不到 也可能一开始就找到了 而并行处理不同 它的任务包个数相对有限 在一个有限的时间应该是可能完成的 分布式计算提出了一个让工作站端能够在后台持许工作的方法 而用户完全不需关心任何东西 这种实现基于两个原则 其一是任务 连续分配和空闲优先权 其二是写一个屏幕保护程序 现在的调度程 序已经不错了 而空闲优先任务将在人们完全不用关心任何东西的情 况下自动执行 利用屏幕保护程序可以利用计算机闲置的时间计算工 作任务 分布式要处理的问题一般是基于 寻找 模式的 所谓的 寻找 就相当于穷举法 为了尝试到每一个可能存在的结果 一般从 0 N 某一数值 被一个一个的测试 直到我们找到所要求的结果 事实上 为了易于一次性探测到正确的结果 我们假设结果是以某个特殊形式 开始的 在这种类型的搜索里 我们也许幸运的一开始就找到答案 也许不够走运以至于到最后才找到答案 这都很公平 并行计算则比较倾向于一些海量数据进行分析处理的场合 每个 节点的每一个任务块都是必要的 计算的结果相互影响 要求每个节 点的计算结果要绝对正确 并且在时间上做到同步 举例来说 像 MD5 破解 就比较适合使用大规模的分布式计算来 穷举 但对海量日志数据进行处理来分析用户行为就比较适合并行计 算处理 3 实现方式区别比较大 分布式计算会是一个比较松散的结构 并行计算则是各节点之间通 过高速网络或其它总线之类的东西连接 因此并行计算一般在企业内 部进行 而分布式计算可能会跨越局域网 或者直接部署在互联网上 节点之间几乎不互相通信 很多公益性的项目 就是的使用分布式计 算的方式在互联网上实现 比如以寻找外星人为目的的 SETI 项目 4 集群计算集群计算 Cluster Computing 计算机集群将一组松散集成的计算机软件或硬件连接起来高度紧 密地协作完成计算工作 在某种意义上 他们可以被看作是一台计算 机 集群系统中的单个计算机通常称为节点 通常通过局域网连接 但也有其它的可能连接方式 集群计算机通常用来改进单个计算机的 计算速度和 或可靠性 一般情况下集群计算机比单个计算机 比如工 作站或超级计算机性价比要高得多 根据组成集群系统的计算机之间体系结构是否相同 集群可分为 同构与异构两种 集群计算机按功能和结构可以分为 高可用性集群高可用性集群 High availabilityHigh availability HA HA clustersclusters 负载均衡集群 负载均衡集群 LoadbalancingLoadbalancing clustersclusters 高性能计算集群 高性能计算集群 High performanceHigh performance HPC clusters HPC clusters 网格计算 网格计算 GridGrid computingcomputing 1 高可用性集群 高可用性集群 一般是指当集群中有某个节点失效的情况下 其上 的任务会自动转移到其他正常的节点上 还指可以将集群中的某节 点进行离线维护再上线 该过程并不影响整个集群的运行 2 负载均衡集群 负载均衡集群 负载均衡集群运行时 一般通过一个或者多个前端 负载均衡器 将工作负载分发到后端的一组服务器上 从而达到整 个系统的高性能和高可用性 这样的计算机集群有时也被称为服务 器群 Server Farm 一般高可用性集群和负载均衡集群会使用类 似的技术 或同时具有高可用性与负载均衡的特点 Linux 虚拟服 务器 LVS 项目在 Linux 操作系统上提供了最常用的负载均衡软 件 3 高性能计算集群 高性能计算集群 高性能计算集群采用将计算任务分配到集群的不 同计算节点提高计算能力 因而主要应用在科学计算领域 比较流 行的 HPC 采用 Linux 操作系统和其它一些免费软件来完成并行运算 这一集群配置通常被称为 Beowulf 集群 这类集群通常运行特定的 程序以发挥 HPC cluster 的并行能力 这类程序一般应用特定的运 行库 比如专为科学计算设计的 MPI 库 HPC 集群特别适合于在计 算中各计算节点之间发生大量数据通讯的计算作业 比如一个节点 的中间结果或影响到其它节点计算结果的情况 5 网格计算 网格计算 Grid Computing 网格计算是分布式计算的一种 也是一种与集群计算非常相关的 技术 如果我们说某项工作是分布式的 那么 参与这项工作的一定 不只是一台计算机 而是一个计算机网络 显然这种 蚂蚁搬山 的 方式将具有很强的数据处理能力 网格计算的实质就是组合与共享资 源并确保系统安全 网格计算通过利用大量异构计算机的未用资源 CPU 周期和磁盘存 储 将其作为嵌入在分布式电信基础设施中的一个虚拟的计算机集群 为解决大规模的计算问题提供一个模型 网格计算的焦点放在支持跨 管理域计算的能力 这使它与传统的计算机集群或传统的分布式计算 相区别 网格计算的目标是解决对于任何单一的超级计算机来说仍然 大得难以解决的问题 并同时保持解决 多个较小的问题的灵活性 这 样 网格计算就提供了一个多用户环境 5 1 集群计算与网格计算的区别集群计算与网格计算的区别 1 简单地 网格与传统集群的主要差别是网格是连接一组相关 并不信任的计算机 它的运作更像一个计算公共设施而不是一个独立 的计算机 网格通常比集群支持更多不同类型的计算机集合 2 网格本质上就是动态的 集群包含的处理器和资源的数量通 常都是静态的 在网格上 资源则可以动态出现 资源可以根据需要 添加到网格中或从网格中删除 3 网格天生就是在本地网 城域网或广域网上进行分布的 网 格可以分布在任何地方 而集群物理上都包含在一个位置的相同地方 通常只是局域网互连 集群互连技 术可以产生非常低的网络延时 如 果集群距离很远 这可能会导致产生很多问题 物理临近和网络延时 限制了集群地域分布的能力 而网格由于动态特性 可以提供 很好的 高可扩展性 4 集群仅仅通过增加服务器满足增长的需求 然而 集群的服 务器数量 以及由此导致的集群性能是有限的 互连网络容量 也就 是说如果一味地想通过扩大规模来提高集群计算机的性能 它的性价 比会相应下降 这意味着我们不可能无限制地扩大集群的规模 而网 格虚拟出空前的超级计算机 不受规模的限制 成为下一代 Internet 的发展方向 5 集群和网格计算是相互补充的 很多网格都在自己管理的资 源中采用了集群 实际上 网格用户可能并不清楚他的工作负载是在 一个远程的集群上执行的 尽管网格与集群之间存在很多区别 但是 这些区别使它们构成了一个非常重要的关系 因为集群在网格中总有 一席之地 特定的问题通常都需要一些紧耦合的处理器来解决 然 而 随着网络功能和带宽的发展 以前采用集群计算很难解决的问题 现在可以使用网格计算技术解决了 理解网格固有的可扩展性和集群 提供的紧耦合互连机制所带来的性能优势之间的平衡是非常重要的 6 云计算 云计算 Cloud Computing 云计算是最新开始的新概念 它不只是计算等计算机概念 还有 运营服务等概念了 它是分布式计算 并行计算和网格计算的发展 或者说是这些概念的商业实现 云计算不但包括分布式计算还包括分 布式存储和分布式缓存 分布式存储又包括分布式文件存储和分布式 数据存储 6 1 云计算与并行 分布式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论