高性能网的背景和需求.ppt_第1页
高性能网的背景和需求.ppt_第2页
高性能网的背景和需求.ppt_第3页
高性能网的背景和需求.ppt_第4页
高性能网的背景和需求.ppt_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、高性能网的背景和需求,郝卫东,人力计算-Human Computing,路易斯.凡.安(Luis Von Ahn),卡耐基梅隆(CMU)的研究者,28岁那年,获得麦克阿瑟(MacArthur)天才奖金,或许大家并不熟悉,但他的发明机会所有的网站所有的网民都要引用得到。 2000年还是学生的他在导师的指导下,发明了验证码(CAPTCHA)使用机制,就是我们在网站登录时,需要添加的校验码。,人力计算-Human Computing,当初的发明初衷,是防止密码被盗用或者反垃圾邮件(anti-spamming),这项技术发明后短短五年内,每天就有2亿个检验码在被使用,十年之后的今天,几乎所有的网站都采

2、用这个技术来校验用户身份,保证信息安全。,然而Luis Von Ahn并没有在安全认证领域止步,一方面将校验码的模式与程序公布在自己的网站上,供更多的网站使用,另外,Luis进一步拓展这个发明背后的实际上是一门新的学科,叫做“Human Computation”或者“Human-based Computation”。有人称之为“人本计算”或者“人计算”。,即利用网络的分众性和协同性,可以轻易完成很多计算机不可能完成的事情。这门学科正是研究如何把人的这个优势发挥出来,与计算机互动,达到一个最佳结果。 当所有的人都在思考如果是计算机替代人的时候,Luis Von Ahn却在想利用互联网,利用社会化

3、的协同工作模式,实现计算机根本不可能完成的事情,以达成群体智能的效果。,例子一,纽约时报创刊与1851年,158年的历史,作为传统传媒业的需求是简单的,就是想把所有的报纸电子化,对于电子化出版之后的工作相对简单,但过往故纸堆上的文字就显得十分困难,传统OCR的技术不能实现百分之百的准确,如果如果人工录入的方式,整个工作耗时耗力不说,一个字一个字的打印录入,校对,短期内基本上是不可完成的任务。,Luis Von Ahn的校验码2005年已经得到了广泛的使用,两者之间有什么联系吗?Luis给出的解决方案,当时互联网上每天有2亿个校验码被使用,虽然每个用户在录入校验码的时候只需要10秒钟,但如果把这

4、些时间全部利用起来,就是20亿秒,相当于50多万个小时。,Luis Von Ahn把这些事件利用起来,实现不可想象的伟大实践。 现在看来,方法很简单,把扫描的纽约时报通过简单的分词形成片段,然后入库编码,作为校验码的素材提供给用户,用户每一次填注校验码的过程就是对文字的一次录入, 通过众多用户的协同,当两个人都对一个图片给出相同的单词结果时,就认为这个结果就是正确的。 无数的用户输入的内容整合链接起来,就是一个完整的数字化的纽约时报。,Game With A Purpose,Luis Von Ahn的脚步依然没有停止,他利用人的群体智慧和集体计算的模式,做了很多开创性的事情。 他最常用的实现模

5、式就是利用SNS的互动游戏的模式,来实现传统模式识别与计算科学中。 他的主要应用成果在上可以体验获得(Game With A Purpose)。,例子二,基于内容的图像识别与搜索中,样本的标注是一个很繁琐的问题,为了让计算机识别图片里的内容,必须要用到许多标注好的图像样本来训练识别核,传统的方式只能通过人工进行大量的手工标注。,2006年,Luis推出了一个著名的游戏,叫ESP Game。 这一游戏的玩法其实很简单:进入游戏,网站会给你随机配一个伙伴,两人同时看一张图,让你在两分钟内给图片写出关键词,如天空、鸟、足球、奔跑等等。 如果你们两人写的关键词一样,就可以得分。,通过积分的方式激发用户

6、参与的积极性,网站每天公布得分最高的游戏者,Luis通知这种方式收集的关键字超过了5000万。 这个发明已经被谷歌所采用,在谷歌推出的产品Google Image Labeler中,使用的方式就是通过游戏互动的方式来实现图像标注,之后用于谷歌的图片检索引擎。人们在游戏中,已经为科学与商业过程做出来贡献,例子三,当我们都在考虑云计算的时候,基于人的互动协同计算其实离我们很近, 每天的校验码的登录填注, 百度知道、百度百科与维基百科的点击阅读 我们可能都在不知不觉中,贡献了自己的力量,网络背景(1),考虑一种新的基础设施 它用高性能通信网络把人,计算机,传感器和数据连在一起,使社会中的各种不同群体

7、,如研究者,教育工作者,商人和普通消费者从中受益. 历史上的其它基础设施 电力网 铁路网 电话和电报网 银行,网络背景(2),历史上的其它基础设施的发展经验 每一种基础设施的发展都具有巨大的复杂性 参与的角色复杂:发明家研究者标准化工作者的力量,自由市场的力量,政府的力量 发展历程的复杂:从局部到全局,不平坦的时间表 整个基础设施上承载能力的分布性 物流配送:本地仓库,地区仓库,国家级仓库等 地区”缓存” 基础设施发展后新鲜事物的出现 新城市:芝加哥城, Urbana-Champaign 新产业:世界级零售中心,世界级航空中心,世界级总部基地,电力网和网格组成对比,电力网和网格组成对比,指数增

8、长的世界,网络 vs. 计算机性能 处理器速度每18个月翻一番 存储密度 每12个月翻一番 网络速度 每9个月翻一番 1986 to 2000 计算机: x 500 网络: x 340,000 2001 to 2010 计算机: x 60 网络: x 4000,引用,网格和云计算的用户,虽然计算机的性能有如此惊人的提高,那是不是所有的计算需求都已经得到满足了呢?遗憾的是,还远远没有。 计算科学家和工程师 实验科学家 企业 自然环境 教育与培训 国家-政府 世界 消费者,Rotating Turbulent Gas Ball Model of the Sun Nine Day Run on NC

9、SA Origin (128-processors) Generated 2 Terabytes of Data, LCSE Visualized in 3 Days,Dave Porter, Paul Woodward, et al., LCSE, Univ of Minnesota,Computational Scientists,Experimental Scientists,Rachael Brady, NCSA I-WAY 95,Virtual Manufacturing,Customer,Manufacturing Facility,Supplier,Designer,ATM Ne

10、twork,Source: Kem Ahlers, Caterpillar,CAD/CAM,对性能的需求,生命科学,数字生物学,数据密集型科学,LHC(强子对撞机) 瑞典日内瓦欧洲原子能研究中心(CERN)高能粒子物理实验 CMS(紧凑介子螺线管)用于记录最高能量质子对撞事件所产生的数据 CMS每年将产生PB(1015字节)数量级的试验数据 用于寻找希格斯介子微粒和宇宙中物质的可能起源的研究;一种新的自然界基本对称(称为超对称)的存在性以及可能发现新的空间维数. 处理和分析数据的机构 美国NSF网格物理网 美国能源部粒子物理数据网格 欧盟数据网格工程 。,LHC Experiments,The

11、 Constraints,Taken from: LHC Computing Review, CERN/LHCC/2001-004,World Wide Collaboration distributed computing 按需计算或效用计算的商业模式是pay as you use,无须购买,按次使用(租车,对分布式计算有益,如跨地域租车).,IT的技术演变(8),IT技术演变的挑战 挑战6:电子商务的高成本 企业常常被迫大批量购买信息技术服务,如签订合同购买能运转3-10年的设备 由于信息技术的不断升级,企业过一段时间仍需购买大批量的设备 企业为了保证数据中心的可靠性,必须大量购买数据备份以及物理镜像/冗余设备 应答:按需服务(Service On Demand) 采用开放的网络协议和Web Service标准、云

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论