




已阅读5页,还剩8页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Hadoop之父与英特尔研究院院长分享大数据心得 作者:IT 专家网出处:IT 专家网 2014-12-12 13:42 “数据铸就价值,激情源于碰撞”来自英特尔中国研究院院长吴甘沙与 Hadoop 之父 Doug Cutting 在 12 月 11 日分享了大数据的一系列心得体会。 首先进行分享的是英特尔中国研究院院长吴甘沙先生。 “大数据不是一个人在战斗!”这是吴院长分享的开始。大数据有没有摩尔 定律?指数过滤的滚滚铁轮下,会如何发展?更多精彩内容,不要走开,道长 马上更新 “大家可以看到这条曲线,前面经过长时间的缓慢增长,一旦过了临界点 以后,大家可以看到爆发式的增长,如果在这么一个时间点 T,它是 X 的话, 下一个时间点就是 X 的平方,如果 X 是一个大数的话,这样一个指数规律使得 在任何一个周期里面,它的新的值将远远把前一个周期的值抛在后面。” “ 大家经常听说在我们 IT 这个产业有这样一种指数的规律,而这样一种规 律如果应用到传统的产业来说是不得了的事情。比尔盖茨曾经有一个比喻,如 果汽车产业像 IT 产业这么发展的话,到现在我们一辆汽车是 25 美金,一加仑 汽油能够跑一千英里,这就是指数带来的威力。“ “这张泛黄的纸片来自英特尔的创始人之一摩尔曾经写就的这么一个规律, 在这个规律下面,每 18 个月晶体管数会翻番,带来一系列指数式的连锁反应。 ” “我们的处理器性能会翻番,内存的容量会翻番,成本折半,而功耗也是 折半,而且这样一种指数的效应同样影响了 IT 的其他领域,比如说以氧化铁为 主要技术的存储,每 18 个月翻番,成本减半,带宽甚至是每 8 个月能够翻番, 甚至是我们数字影像的芯片每美元的像素数也是每 18 个月翻番,所有的聚合 效应放在一起就带来数据的摩尔定律,带来数据的极大增长。” “ 大数据要说人话,它要提取人能够理解的价值,怎么能够让数据的工具跟 我们的人,跟数据科学家,跟领域专家,跟我们的终端用户天人合一,降低数 据分析的门槛,这又是一个挑战。“ “ 基于这些挑战,英特尔推出了大数据的分析框架,在最底层是基础设施, 计算存储互联成为软件可定义,我们把它做成开放式、模块化的这些标准的模 块,使得我们行业能够降低门槛,更多的创新者能够进来。“ 上面一层是数据平台,我们跟 Cloudera 一起推动基于 Apache Hadoop 开放、可信的数据处理平台,推动整个生态基础创新,上面是分析应用,我们 希望能够把高级的分析功能平民化,使得它能够迈入主流的应用,使得它能够 实现规模的经济。最上面是解决方案,我们跟生态系统伙伴一起构建示范性的 解决方案,把它变成可扩展的参考架构,使得在示范的领域成功能够被复制到 每一个行业、每一个企业上面去。 同时英特尔的产品部门和研究院一起跟生态系统的伙伴进行合作的研发, 这是我们传统的一个研发布局。但是针对大数据的话,我们认为这样一条时间 线未必合理。 大家可以想像,从现在往前推五年的话,“大数据”这个名词还没有火起 来,在这样高度变化,不可预测的环境里面,我们把这个研发周期进一步的缩 短,我们跟大学的合作研究也希望尽快的能够把这个技术推向市场。 在我们开放式的协作创新框架下,我们也加入数据的安全流通以及定价的 这样一种研究。这就是我们一个研究平台,我们把它叫做“数据咖啡馆”,正 如咖啡馆是让不同领域的人聚在一起,让他们的思想进行碰撞,产生新的想法, 我们的数据咖啡馆就是希望能够让不同领域、不同公司的数据能够凑在一起产 生新的价值。 比如说两个电商,他们对于客户的画像是非常片面的,如果我们能够把他 们的数据在数据咖啡馆里进行融合,他们能够获得对客户完整的刻画,这里面 很重要的一点是叫做相逢但不相识 。 这两家电商愿意把数据融合,但是不愿意对方能够看到自己的数据,如何 能够在不相识的这样一种前提下让他们相逢,让他们能够做数据的分析,这一 定程度上解决了刚才讲到的数据隐私安全的问题。 就在昨天,Cloudera 中国也成立了,这意味着我们跟 Cloudera 的合作可 以从世界范围来到中国。 我们希望能够携手一起去为我们中国的用户提供满足他们需求的大数据的 技术和解决方案。我们也期待能够一起为推动大数据的黄金时代在中国发生尽 绵薄之力。 接过吴院长话筒的是 Cloudera 公司副总裁苗凯翔先生。 Cloudera 来中国了! Cloudera2008 年成立,是由四个非常重要的互联网 公司和搞数据公司,到现在有六年时间。 虽然公司人数只有 800 多人,但它在全球有 1200 个合作伙伴,由于它的 技术领先地位,有 1200 个合作伙伴,已经带头形成全球最大的大数据的生态 链 每天, 美国 70%智能手机的数据后端处理都从 Cloudera 平台有一定的 处理,每天都有数百亿的事件在后端处理,对美国经济也好、商业也好,还是 很重要的一个公司。不光是产品的领先,从服务来讲、培训来讲也是非常领先 的,在全球已经培训了很多的 Hadoop 专家,都成为 Hadoop 方面很有能力 的人。 中国是一个很天然的大数据环境,人口众多。因为这个,它的终端也好、 网络数据也好、交易数据也好,都是非常多的。 因为大数据不光是技术创新, 也是应用创新的环节,在中国搞大数据前景巨大。 大数据的概念在中国虽然已经不陌生,但是它的部署和应用状态,真正能 应用起来,可能要比美国滞后两年的时间。其中原因之一就是在中国本土还没 有一个公司能够把大数据去普及,真正架起来和跑起来,应用案例能够真正搞 清楚。中国对于 Cloudera 来讲是非常重要的一个环境,我们要帮助中国在大 数据上面去发展,要借助于 Cloudera 在全球,特别是在美国的应用案例,一 些技术拿过来帮助中国的企业在这个领域去发展。 Cloudera 在解决方案上,在软件上,在应用场景上是最领先的,而英特尔 在全球它的服务器的占有率是 90%多,这样大数据底层架构和英特尔一起能够 合力,帮助中国的产业去发展。 我们是今年 3 月份公布了英特尔和 Cloudera 的合作。合作之后,两家合 作非常紧密,第一是把英特尔过去的经验,特别是在中国的经验,通过 Cloudera 的合作,把 IDH 的功能和 Cloudera 的 CDH 和 EDH 功能融合在一 块去研发更强的产品。很高兴的讲,当时在 3 月份开始的想法,在 5 月份开始 的计划已经全部实现,充分把 IDH 所有的功能和 CDH 功能结合在一起。 Cloudera5.3 会在本月推出。 Doug Cutting 来啦( 看见真身道长也是很激动,) 很高兴能够到这里来和大家分享。 英特尔的同事刚刚已经提到了,中国市场的机会不仅仅是来自硬件,我们 看到了指数级的增长已经持续了大概 15 年,这也就是说,我们现在的数据和 计算能力比过去 15 年的能力超越了已经是成数百万倍,我们的内存、联网的 带宽和各种数据的级数都已经出现了指数性的增长。 这些增长持续了这么长的时间,给我们所有的事情带来了根本性的变化。 在其他的领域我们没有看到如此剧烈的变化,比如说刚刚提到的汽车、航空和 房地产业,他们都没有如此巨大的变化。 我们所做的事情是在根本上改变了这个社会,可以称之为革命性的、阶段 性的变化。我们现在不能够再看到这些单独的数据,而是把所有的数据放在一 起来考虑。这后面的驱动因素是什么呢? 现在使用计算机的人和正在使用这些设备的人,还有像英特尔的这些用户 们,他们都正在推进整个进程的发展。我们可以稍微想一想现在使用电脑的人, 不光是我们的台式计算机,还包括所使用的手腕上的设备、我们的汽车、各种 传感器、摄像头等等,使用计算能力的这些设备无处不在。 而且这个趋势会持续继续下去,我们会看到越来越多的设备他们需要去使 用计算能力,他们也会同时产生更多的数据,我们知道数据是有价值的,能够 让我们了解到底这些设备让我们处理什么样的业务,能够帮助我们完成什么工 作,如果把数据收集起来,我们可以把数据进行整合,然后就可以创造出来一 个高清晰度的图像,就是关于各种设备它们运作的情况,而且也会了解到我们 在这一块,我们的企业、我们的业务到底是怎么样进行的,这可以帮助我们的 企业进一步改善和优化流程,扩展发展。我们可以不断地去创造一些人们能够 负担得起的、性价比较高的设备,而这些设备会不断产生新的数据。 我们看到越来越多的行业,它们已经通过利用分析数据的方式进行业绩的 提升,不光是在高科技产业,包括在一些其他的行业,比如说采矿业、交通行 业等等,这些行业它们都开始使用数据。因为他们认识到通过使用数据可以获 得更快的提升。因为数据的收集可以帮助他们更好的进行业绩的评估和衡量。 我们需要有软件来支撑,我们要找到一种可以更好的创造软件的方式。在 过去的 20 多年当中,我们看到现在有越来越大的趋势,就是开源的趋势。我 们第一个非常成功的社区开源的项目就是 Linux, Linux 可以说在全球使用率最 高的操作系统,是在手机、服务器等各种设备上都得到了使用。 其实在它刚刚开始发明和使用的时候,Linux 可能并不是最好的选择。但 是因为在开源的平台之上,越来越多的开发者们参与进来,让 Linux 不断地完 善,不断地提升。人们也非常喜欢开源平台,因为在平台之上,他们互相信任, 他们不用担心要付费,他们可以进行一些修改,根据自己的需求来进行修改。 英特尔给我们提供了一些其他的技术,经过我们不断地尝试,不断地试验, 我们发现在这一块,这个平台有了一些颠覆式或者重大的突破。 我们可以在这个平台上一起做事情,所以看到这样的一个行业的趋势得到 了大家的认可。我们把它叫做企业的数据中心,企业数据中心可以支持不同的, 刚刚提到的这些风格,而且现在使用的人数也越来越多,他们可以在上面使用 自己新的应用程序,可以把它作为默认的平台。 我的同事,他用智能手机来做了比喻,我们的智能手机既是手机,也是计 算器,是摄像机,也可以帮我们来追踪活动,可以帮我们记录日历,有很多种 功能,而且所有的功能都不一定是最佳的功能,肯定不是你能买到最好的照相 机,但是我们今天 90%的照片都是用智能手机拍摄的,因为智能手机在那儿, 你知道怎么样来用它,而且它里面也集成了所有的生活当中用到的工具,可以 发送照片、可以分享照片、可以用手机来做很多的事情。 相似的事情是当我们提到企业数据中心的时候,它的作用也是类似的。我 们并不是使用独立的系统。大家会越来越多的使用数据中心的,因为我们所有 的工具都是集成在一起的,这样的话我们就可以通过 Cloudera 和英特尔的合 作,为大家来集成更多的工具,实现这些功能,弥补我们各个项目之间的空缺,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 培训班开讲介绍
- 电话销售个人工作总结模版
- 第三课时《认识锐角和钝角》教学设计
- 脉管炎的临床护理
- 非性病性梅毒的临床护理
- 采购员试用期工作总结
- 消防安全培训动态
- 浴室消防安全试题及答案
- 幼儿园教师基本功考试试题及答案
- 英语b和计算机考试试题及答案
- 多彩的非洲文化 - 人教版课件
- 2025年年中考物理综合复习(压轴特训100题55大考点)(原卷版+解析)
- -《经济法学》1234形考任务答案-国开2024年秋
- 2025上海房屋租赁合同模板
- T-SCSTA001-2025《四川省好住房评价标准》
- 2025-2030全球及中国可持续飞机能源行业市场现状供需分析及市场深度研究发展前景及规划可行性分析研究报告
- TCGIA0012017石墨烯材料的术语定义及代号
- 西红门镇生活垃圾转运站及环卫停车场工程报告表
- 2025年信息系统监理师考试题(附答案)
- 农村留守儿童教育支持体系构建研究
- 车场管理考试试题及答案
评论
0/150
提交评论