




已阅读5页,还剩22页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 数据的价值 审视现有技术 不难发现 所有技术都是以数据为核心 作为用户 我们对富媒体的欲望与日俱增 比如观看的电影和创建并上传到网络的照片和视频 我们也常常在日常生活中 不经意地在网上留下一串数据 不仅数据总量迅速增加 同时数据的生成速率也在不断增加 从电子邮件到各类型论坛留言 从网上购网记录到网站链接 到处都是不断增长的大数据集 在此背景下 最大的挑战在于 如何从这些数据中提取出有价值的信息 有时是提取特点的数据元素 有时是分析数据间的关系或是判断一种趋势 数据的使用方式变得越来越有意义 一段时间以来 大型公司已经注意到了数据的价值 并且使用它来提升服务质量 如 google在用户正在访问的网页上显示内容相关的广告 淘宝购买商品时的推荐商品 如果不会带来有价值的回报或者明显的竞争优势 这些大型企业是不会投资发展大数据处理技术的 2 如何认识大数据 只有在数据足够大的时候 某些问题才变得有意义 例如 在其他影响因素缺少的情况下 基于一个第三人的喜好电影推荐是不可能有意义的 因为没有参考数据 然而当我们的参考样本增加到100时 推荐成功的几率略有上升 而使用1000万人的观看记录 可以大幅提升获得推荐模型的可能性 我们希望数据的处理工具能够有较低的成本大规模数据的处理时间能够在我们可以接受的范围内 如果一个系统处理所有到达数据 但是其处理时间以周为计量单位 那么该系统也是不可用的 3 大数据的发展状况 前面讨论的从大数据中提取有价值信息用于改进服务质量的例子 往往属于大型搜索引擎和在线公司的创新模式 这是因为在早期的发展过程中 大数据处理不仅成本高而且实现困难 超出了中小企业的能力范围 同样 比大数据处理技术应用更为广泛的数据挖掘方法已经存在了很长的一段时间 但是在大型企业和政府部门之外却从来没有真正得到推广使用 但在过去 对于大多数小公司来讲却无关紧要 因为它们的数据量并不多 不需要投入大量的资金来处理这些数据 然而 到如今 数据量的增加已经不再局限于大型公司 许多中小型企业甚至一些个人收集到的数据也越来越多 他们也意识到这些数据中可能包含在正待发掘的价值 3 1如何应对越来越多的数据 造成大数据挖掘系统稀有并且昂贵的根本原因是 将现在小型计算机系统扩展我大数据处理系统时非常困难的 正如我们所见 一直以来 数据处理系统的处理能力一直受限于单台计算机的极限计算能力 随着数据规模的增长 早期出现了两种常用的扩展系统的方法 通常称之为 向上扩展 和 向外扩展 向上扩展在大多数企业 数据处理任务通常由相当昂贵的大型机来执行 随着数据规模的增长 向上扩展的方法就是将数据处理任务迁移到更大的服务器或者存储矩阵 即便以今天的视角来看 这种架构确实有效 但其所增加的成本非常大 优点 在一定的数据条件下 系统的架构不会随着数据量的增大而发生显著变化 尽管采用了更大型的部件 但部件之间的基本关系却不会变缺点 单台计算机的处理能力受到现实条件的约束 单一架构的数据处理器规模不可能无限扩大 数据规模大到一定程度时 可能需要定制特殊的处理方式 向外扩展向外扩展不通过升级系统的硬件来获得更强的处理能力 而是将数据处理任务分发给越来越多的机器 如果数据集的规模翻倍了 那就使用两台机器来处理 而不是一台有着2倍处理能力的机器 优点 采购成本低 大型机的采购成本随着处理能力的增长而程指数上涨 如果一台主机的采购成本为5000元 那么一台10被处理能力的主机可能需要100倍的钱 缺点 向外扩展系统的不足之处需要确定一种策略来把数据处理任务分发给不同的机器 而经验证明具有上述用途的策略异常复杂 制约因素除大型企业 政府 学术研究机构外 上面的两种方法并没有得到广泛应用 因为系统的采购成本很高 研发和维护这些系统的成本同样很高 所以很难被小型企业所接受 此外这些方法本身的缺陷也随着时间的推移逐步明显 随着2种系统的扩展 系统并发所带来的系统复杂性问题日益明显 如何有效利用多台主机或多个cpu是一个难题 要想在整个数据处理任务执行期间保持高效运作 需要付出极大的努力 通常硬件性能的提升在不同的硬件上表现有很大的差异 如cpu的性能提升远远大于内存和硬盘的性能 所以存储系统提供的数据传输随着时间的推移无法满足cpu所需数据的工作需要 4 如何选择正确的方式 在某些情况下 工作程度的增量可能会超出现有单台服务器整体向上扩展的能力 这个时候必须使用向外扩展 使用更多的服务器 所以 在极端的情况下 向上扩展架构必然趋势是加入向外扩展 这个时候我们不得不面对的是手工开发跨集群逻辑优点 减少昂贵的开销 以及单一向外扩展的复杂集群逻辑 2 2 1融合架构的正确处理 尽量不共享内容数据共享会造成多个主机会访问同一块数据导致系统延迟 如多个主机访问的是同一个主机的数据 那么整个系统的性能就会受限于这台关键主机的处理能力 更可怕的是如果这台主机数据失效会导致整个系统瘫痪 所以一个系统的各个组成部分尽可能保持独立 在这种情况下 该系统的运行就不用理会其他系统是否处于故障状态缺点 消耗更多的硬件 故障预期系统可靠性 如果完成某个功能需要多个主机共同协作完成 那么如果一台主机的可靠性为99 那么5台主机协作的可靠性即为0 99 0 99 0 99 0 99 0 99即整个系统的可靠性为95 如果单台主机的可靠性为95 那么整个系统的可靠性仅为76 所以 系统的设计尽量保证在任意时刻 多台主机中有1台主机正常工作 系统即运行正常智能软件管理硬件在这种模式下 硬件被视为资源的集合 由软件层向硬件分配工作 使硬件成为通用的 价格低廉 从而更容易获得 同时 如何有效的利用硬件功能转移到了软件 移动处理程序 而非移动数据假如现在我们需要对1000tb 1pb 的数据执行4项操作 可以这样设计 采用1000台主机组成的集群 这1000台主机被分成4个象限 对应4个操作 每个主机都存在1tb的数据并负责执行4个操作的一个操作 集群管理软件会协作数据在集群间流转 确保每块数据都经过了4个操作 其数据在自身主机上进行一次操作后 会被传送到其他3个象限 因此 所有数据处理实际消耗了3pb的网络带宽 数据在本台机器的流转带宽可以忽略不计传输速度远远大于不同主机的数据传输 正确的处理方式 1000台主机集群 每台主机处理全部操作 我们需要做的是记录每台主机的处理结果 即我们在网络上传输的数据将是二进制程序和状态报告 将大大增加系统的可用性 在基础框架 如hadoop 的基础上构建应用程序透明处理集群的大部分结构问题 让开发者专注于思考业务方面的问题 基于明确定义的系统接口 开发者可以创建特定业务领域的应用程序 提供此类接口的框架将是开发者和系统效率的最佳组合 5 云计算 云计算到底是什么 最近互联网上云计算到处在飞 什么是云计算 云计算到底是什么 关于云计算方面的问题接连不断 这里我们就为大家详细介绍下云计算是什么 通过互联网数据显示云计算到底是什么 各家回答都云里雾里 各说不一 这里我们就详细说下专业人员的定义和云计算的个人理解 专业人员的定义1 狭义云计算狭义云计算是指it基础设施的交付和使用模式 指通过网络以按需 易扩展的方式获得所需的资源 硬件 平台 软件 提供资源的网络被称为 云 云 中的资源在使用者看来是可以无限扩展的 并且可以随时获取 按需使用 随时扩展 按使用付费 这种特性经常被称为像水电一样使用it基础设施 2 广义云计算广义云计算是指服务的交付和使用模式 指通过网络以按需 易扩展的方式获得所需的服务 这种服务可以是it和软件 互联网相关的 也可以是任意其他的服务 解释 这种资源池称为 云 云 是一些可以自我维护和管理的虚拟计算资源 通常为一些大型服务器集群 包括计算服务器 存储服务器 宽带资源等等 云计算将所有的计算资源集中起来 并由软件实现自动管理 无需人为参与 这使得应用提供者无需为繁琐的细节而烦恼 能够更加专注于自己的业务 有利于创新和降低成本 有人打了个比方 这就好比是从古老的单台发电机模式转向了电厂集中供电的模式 它意味着计算能力也可以作为一种商品进行流通 就像煤气 水电一样 取用方便 费用低廉 最大的不同在于 它是通过互联网进行传输的 云计算是并行计算 parallelcomputing 分布式计算 distributedcomputing 和网格计算 gridcomputing 的发展 或者说是这些计算机科学概念的商业实现 云计算是虚拟化 virtualization 效用计算 utilitycomputing iaas 基础设施即服务 paas 平台即服务 saas 软件即服务 等概念混合演进并跃升的结果 总的来说 云计算可以算作是网格计算的一个商业演化版 早在2002年 我国刘鹏就针对传统网格计算思路存在不实用问题 提出计算池的概念 把分散在各地的高性能计算机用高速网络连接起来 用专门设计的中间件软件有机地粘合在一起 以web界面接受各地科学工作者提出的计算请求 并将之分配到合适的结点上运行 计算池能大大提高资源的服务质量和利用率 同时避免跨结点划分应用程序所带来的低效性和复杂性 能够在目前条件下达到实用化要求 如果将文中的 高性能计算机 换成 服务器集群 将 科学工作者 换成 商业用户 就与当前的云计算非常接近了 最简单的云计算技术在网络服务中已经随处可见 例如搜寻引擎 网络信箱等 使用者只要输入简单指令即能得到大量信息 未来如手机 gps等行动装置都可以透过云计算技术 发展出更多的应用服务 云计算到底是什么 云计算也就是说将我们的基础设施也就是数据存储都集成到云端 可以提高数据的安全性和降低使用者的成本 云计算的安全性很高 被划分为 私有云 公有云 混合云以及社区云等 由于云计算还有很多内容 不能一一解说 希望大家常常关注我们 大数据和云计算云计算和大数据是一个硬币的两面 大数据正在引发全球范围内深刻的技术和商业变革 如同云计算的出现 大数据也不是一个突然而至的新概念 云计算和大数据是一个硬币的两面 云计算是大数据的it基础 而大数据是云计算的一个杀手级应用 张亚勤说 云计算是大数据成长的驱动力 而另一方面 由于数据越来越多 越来越复杂 越来越实时 这就更加需要云计算去处理 所以二者之间是相辅相成的 30年前 存储1tb也就是约1000gb数据的成本大约是16亿美元 如今存储到云上只需不到100美元但存储下来的数据 如果不以云计算进行挖掘和分析 就只是僵死的数据 没有太大价值 目前 云计算已经普及并成为it行业主流技术 其实质是在计算量越来越大 数据越来越多 越来越动态 越来越实时的需求背景下被催生出来的一种基础架构和商业模式 个人用户将文档 照片 视频 游戏存档记录上传至 云 中永久保存 企业客户根据自身需求 可以搭建自己的 私有云 或托管 或租用 公有云 上的it资源与服务 这些都已不是新鲜事 可以说 云是一棵挂满了大数据的苹果树 大数据的出现 正在引发全球范围内深刻的技术与商业变革 在技术上 大数据使从数据当中提取信息的常规方式发生了变化 在技术领域 以往更多是依靠模型的方法 现在我们可以借用规模庞大的数据 用基于统计的方法 有望使语音识别 机器翻译这些技术领域在大数据时代取得新的进展 在搜索引擎和在线广告中发挥重要作用的机器学习 被认为是大数据发挥真正价值的领域在海量的数据中统计分析出人的行为 习惯等方式 计算机可以更好地学习模拟人类智能 随着包括语音 视觉 手势和多点触控等在内的自然用户界面越来越普及 计算系统正在具备与人类相仿的感知能力 其看见 听懂和理解人类用户的能力不断提高 这种计算系统不断增强的感知能力 与大数据以及机器学习领域的进展相结合 已使得目前的计算系统开始能够理解人类用户的意图和语境 这使得计算机能够真正帮助我们 甚至代表我们去工作 在商业模式上 张亚勤认为 对商业竞争的参与者来说 大数据意味着激动人心的业务与服务创新机会 零售连锁企业 电商业巨头都已在大数据挖掘与营销创新方面有着很多的成功案例 它们都是商业嗅觉极其敏锐 敢于投资未来的公司 也因此获得了丰厚的回报 it产业链分工 主导权也因为大数据产生了巨大影响 以往 移动运营商和互联网服务运营商等拥有着大量的用户行为习惯的各种数据 在it产业链中具有举足轻重的地位 而在大数据时代 移动运营商如果不能挖掘出数据的价值 可能彻彻底底被管道化 运营商和更懂用户需求的第三方开发者互利共赢的模式 已取得一定共识 云计算与大数据的关系 本质上 云计算与大数据的关系是静与动的关系 云计算强调的是计算 这是动的概念 而数据则是计算的对象 是静的概念 如果结合实际的应用 前者强调的是计算能力 或者看重的存储能力 但是这样说 并不意味着两个概念就如此泾渭分明 大数据需要处理大数据的能力 数据获取 清洁 转换 统计等能力 其实就是强大的计算能力 另一方面 云计算的动也是相对而言 比如基础设施即服务中的存储设备提供的主要是数据存储能力 所以可谓是动中有静 如果数据是财富 那么大数据就是宝藏 而云计算就是挖掘和利用宝藏的利器 云计算能为大数据带来哪些变化呢 首先云计算为大数据提供了可以弹性扩展 相对便宜的存储空间和计算资源 使得中小企业也可以像亚马逊一样通过云计算来完成大数据分析 其次 云计算it资源庞大 分布较为广泛 是异构系统较多的企业及时准确处理数据的有力方式 甚至是唯一方式 当然大数据要走向云计算还有赖于数据通信带宽的提高和云资源的建设 需要确保原始数据能迁移到云环境以及资源池可以随需弹性扩展 数据分析集逐步扩大 企业级数据仓库将成为主流 未来还将逐步纳入行业数据 政府公开数据等多来源数据 当人们从大数据分析中尝到甜头后 数据分析集就会逐步扩大 目前大部分的企业所分析的数据量一般以tb为单位 按照目前数据的发展速度 很快将会进入pb时代 特别是目前在100 500tb和500 tb范围的分析数据集的数量呈3倍或4倍的增长 随着数据分析集的扩大 以前部门层级的数据集市将不能满足大数据分析的需求 他们将成为企业及数据库 edw 的一个子集 根据tdwi的调查 如今大概有2 3的用户已经在使用企业级数据仓库 未来这一比例将会更高 传统分析数据库可以正常持续 但是会有一些变化 一方面 数据集市和操作性数据存储 ods 的数量会减少 另一方面 传统的数据库厂商会提升他们产品的数据容量 细目数据和数据类型 以满足大数据分析的需要 大数据技术与云计算的发展密切相关大数据技术是云计算技术的延伸 大数据技术涵盖了从数据的海量存储 处理到应用多方面的技术 包括海量分布式文件系统 并行计算框架 nosql数据库 实时流数据处理以及智能分析技术如模式识别 自然语言理解 应用知识库等等 对电信运营商而言 在当前智能手机 智能设备快速增长 移动互联网流量迅猛增加的情况下 大数据技术可以为运营商带来新的机会 大数据在运营商中的应用可以涵盖多个方面 包括企业管理分析如战略分析 竞争分析 运营分析如用户分析 业务分析 流量经营分析 网络管理维护优化如网络信令监测 网络运行质量分析 营销分析如精准营销 个性化推荐等 大数据逐步 云 化纵观历史 过去的数据中心无论应用层次还是规模大小 都仅仅是停留在过去有限的基础架构之上 采用的是传统精简指令集计算机和传统大型机 各个基础架构之间都相互孤立 没有形成一个统一的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四川省绵阳市东辰学校2025-2026学年高二上学期开学分班检测地理试卷(含答案)
- 宁夏固原市泾源县2024-2025学年九年级上学期期末考试道德与法治试题(含答案)
- 二维材料荧光成像-洞察及研究
- 2025年江苏省无锡市中考数学真题(无答案)
- 部门安全培训授课人职责课件
- 达州摩托车安全驾驶培训课件
- 车队防春困安全培训课件
- 城市密集区反光路障与自动驾驶车辆的协同适应性研究
- 国际税收协定本地化应用中的软件规则库迭代周期
- 反冲洗二次滤网智能控制系统的多参数耦合建模研究
- 水工闸门操作培训
- 医师临床“三基”训练综合试卷(含答案)
- 2025至2030年中国综合能源服务市场竞争策略及行业投资潜力预测报告
- 土地要素保障课件教学
- 广东省深圳市福田区2024-2025学年八年级上学期语文期中考试试卷(含答案)
- 福建省泉州市2025届高三上学期质量监测(一)历史试卷(含答案)
- 《西门子S7-1200PLC编程及应用教程》全套教学课件
- 《鸿蒙应用开发项目教程》全套教学课件
- 肠道准备课件
- 精神运动康复
- 660MW机组引风机变频改造:经济双维度剖析
评论
0/150
提交评论