版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、谷歌与大数据谷歌与大数据(shj)时代时代第一页,共25页。第二页,共25页。流感(li n)预测1.1.谷歌搜索谷歌搜索(su su)(su su)与与流感预测流感预测各国都要求医生在发现新型流感病例时告知疾病控各国都要求医生在发现新型流感病例时告知疾病控制与预防中心。制与预防中心。但由于人们可能患病多日实在受不了了才会去医院但由于人们可能患病多日实在受不了了才会去医院,同时这个信息传达回疾控中心也需要时间,因此,同时这个信息传达回疾控中心也需要时间,因此,通告新流感病例时往往会有一两周的延迟。而且,通告新流感病例时往往会有一两周的延迟。而且,疾控中心每周只进行一次数据汇总,疾控中心每周只进
2、行一次数据汇总(huzng)(huzng)。然而,对于一种飞速传播的疾病,信息滞后两周的然而,对于一种飞速传播的疾病,信息滞后两周的后果将是致命的。这种滞后导致公共卫生机构在疫后果将是致命的。这种滞后导致公共卫生机构在疫情爆发的关键时期反而无所适从。情爆发的关键时期反而无所适从。第三页,共25页。1.1.谷歌搜索与流感谷歌搜索与流感(li (li n)n)预测预测然而在甲型然而在甲型H1N1H1N1流感爆发的几周前,谷歌公司流感爆发的几周前,谷歌公司便已预测便已预测(yc)(yc)到冬季流感传播的具体情况。到冬季流感传播的具体情况。谷歌通过观察人们在网上的搜索记录来完成谷歌通过观察人们在网上的
3、搜索记录来完成这个预测,而这种方法以前这个预测,而这种方法以前(yqin)(yqin)一直是被忽略的。一直是被忽略的。第四页,共25页。1.1.谷歌搜索与流感谷歌搜索与流感(li (li n)n)预测预测谷歌公司把谷歌公司把50005000万条美国人最频繁检索的词条万条美国人最频繁检索的词条(c tio)(c tio)和美国疾控中和美国疾控中心在心在20032003年至年至20082008年间季节性流感传播时期的数据进行了比较。他们通年间季节性流感传播时期的数据进行了比较。他们通过分析人们的搜索记录来判断这些人是否患上了流感。过分析人们的搜索记录来判断这些人是否患上了流感。其他公司也曾试图确定
4、这些相关的词条其他公司也曾试图确定这些相关的词条(c tio)(c tio),但是他们缺乏像谷,但是他们缺乏像谷歌公司一样庞大的数据资源、处理能力和统计技术。歌公司一样庞大的数据资源、处理能力和统计技术。更关键的是,他们建立的系统并不依赖于这样的语义理解。更关键的是,他们建立的系统并不依赖于这样的语义理解。他们设立的这个系统唯一关注的就是特定检索词条的使用频率与流感他们设立的这个系统唯一关注的就是特定检索词条的使用频率与流感在时间和空间上的传播之间的联系。在时间和空间上的传播之间的联系。谷歌公司为了测试这些检索词条,总共处理了谷歌公司为了测试这些检索词条,总共处理了4.54.5亿个不同的数学模
5、型亿个不同的数学模型。他们的预测与官方。他们的预测与官方(gunfng)(gunfng)数据的相关性高达数据的相关性高达97%97%,并且及时判断,并且及时判断出流感是从哪里传播出来的,不会像疾控中心一样要在流感爆发一两出流感是从哪里传播出来的,不会像疾控中心一样要在流感爆发一两周之后才可以做到。周之后才可以做到。第五页,共25页。1.1.谷歌搜索与流感谷歌搜索与流感(li (li n)n)预测预测 所以,所以,20092009年甲型年甲型H1N1H1N1流感爆发的时候,与习流感爆发的时候,与习惯性滞后的官方数据相比,谷歌成为了一个更有效惯性滞后的官方数据相比,谷歌成为了一个更有效、更及时的指
6、示、更及时的指示(zhsh)(zhsh)标。标。公共卫生机构的官员获得了非常有价值的数据信息公共卫生机构的官员获得了非常有价值的数据信息。 更惊人的是,谷歌公司甚至不需要分发口腔试纸更惊人的是,谷歌公司甚至不需要分发口腔试纸和联系医生和联系医生它是建立在大数据它是建立在大数据(shj)(shj)的基础之上的。的基础之上的。第六页,共25页。1.1.谷歌搜索与流感谷歌搜索与流感(li (li n)n)预测预测这是大数据时代所独有的一种新型能力:这是大数据时代所独有的一种新型能力: 以一种前以一种前所未有的方式,通过对海量数据进行分析,获得有所未有的方式,通过对海量数据进行分析,获得有巨大价值的产
7、品和服务,或深刻的洞见。巨大价值的产品和服务,或深刻的洞见。 有巨大价有巨大价值的产品和服务,或深刻的洞见。值的产品和服务,或深刻的洞见。 基于这样的技术理念基于这样的技术理念(l nin)(l nin)和数据储备,下一次和数据储备,下一次流感来袭的时候,世界将会拥有一种更好的预测工流感来袭的时候,世界将会拥有一种更好的预测工具,以预防流感的传播。具,以预防流感的传播。第七页,共25页。2.无所不包的谷歌翻译无所不包的谷歌翻译(fny)系系统统20062006年,谷歌公司也开始涉足机器翻译。这被当作实现年,谷歌公司也开始涉足机器翻译。这被当作实现“收集全世界的数据资源,并让人人都可享受这些资源
8、收集全世界的数据资源,并让人人都可享受这些资源”这这个目标的一个步骤。谷歌翻译开始利用一个更大更繁杂的个目标的一个步骤。谷歌翻译开始利用一个更大更繁杂的数据库,也就是全球的互联网,而不再数据库,也就是全球的互联网,而不再(b zi)(b zi)只利用两只利用两种语言之间的文本翻译。种语言之间的文本翻译。第八页,共25页。2.无所不包的谷歌翻译无所不包的谷歌翻译(fny)系系统统谷歌翻译系统谷歌翻译系统(xtng)(xtng)为了训练计算机,会吸收它能找到的为了训练计算机,会吸收它能找到的所有翻译。它会从各种各样语言的公司网站上寻找对译文档所有翻译。它会从各种各样语言的公司网站上寻找对译文档,还
9、会去寻找联合国和欧盟这些国际组织发布的官方文件和,还会去寻找联合国和欧盟这些国际组织发布的官方文件和报告的译本,甚至会吸收速读项目中的书籍翻译。报告的译本,甚至会吸收速读项目中的书籍翻译。谷歌的翻译系统会掌握用不同语言翻译的质量谷歌的翻译系统会掌握用不同语言翻译的质量(zhling)(zhling)参参差不齐的数十亿页的文档。差不齐的数十亿页的文档。不考虑翻译质量不考虑翻译质量(zhling)(zhling)的话,上万亿的语料库就相当于的话,上万亿的语料库就相当于950950亿句英语。亿句英语。第九页,共25页。2.无所不包的谷歌翻译无所不包的谷歌翻译(fny)系系统统尽管其输入尽管其输入(s
10、hr)(shr)源很混乱,但较其他翻译系统源很混乱,但较其他翻译系统而言,谷歌的翻译质量相对而言还是最好的,而且而言,谷歌的翻译质量相对而言还是最好的,而且可翻译的内容更多。可翻译的内容更多。到到20122012年年中,谷歌数据库涵盖了年年中,谷歌数据库涵盖了6060多种语言多种语言,甚至能够接受,甚至能够接受(jishu)14(jishu)14种语言的语音输入种语言的语音输入,并有很流利的对等翻译。,并有很流利的对等翻译。第十页,共25页。2.无所不包无所不包(w su b bo)的谷歌翻译系统的谷歌翻译系统之所以能做到这些,是因为它将语言视为能够判别可能性的数之所以能做到这些,是因为它将语
11、言视为能够判别可能性的数据,而不是语言本身。据,而不是语言本身。因为在翻译的时候它能适当增减词汇因为在翻译的时候它能适当增减词汇(chu)(chu),所以谷歌的翻,所以谷歌的翻译比其他系统的翻译灵活很多。译比其他系统的翻译灵活很多。谷歌的翻译之所以更好是因为谷歌翻译增加谷歌的翻译之所以更好是因为谷歌翻译增加了很多各种各样了很多各种各样( zhn yn)( zhn yn)的数据的数据,是因为它接受了有错误的数据。,是因为它接受了有错误的数据。第十一页,共25页。2.无所不包无所不包(w su b bo)的谷歌翻译系统的谷歌翻译系统20062006年,谷歌发布的上万亿的语料库,就是来自于互联年,谷
12、歌发布的上万亿的语料库,就是来自于互联网的一些废弃内容网的一些废弃内容(nirng)(nirng)。这就是。这就是“训练集训练集”,可,可以正确地推算出英语词汇搭配在一起的可能性。以正确地推算出英语词汇搭配在一起的可能性。如今谷歌语料库则是一个质的突破,它使用庞大的数据库使如今谷歌语料库则是一个质的突破,它使用庞大的数据库使得自然语言处理这一方向取得了飞跃得自然语言处理这一方向取得了飞跃(fiyu)(fiyu)式的发展。式的发展。自然语言处理能力是语音识别系统和计算机翻译的自然语言处理能力是语音识别系统和计算机翻译的基础。基础。互联网上最火的网址都表明,它们欣赏互联网上最火的网址都表明,它们欣
13、赏不精确而不会假装精确。不精确而不会假装精确。第十二页,共25页。3.谷歌的数字谷歌的数字(shz)图书馆图书馆20042004年,谷歌发布年,谷歌发布(fb)(fb)了一个野心勃勃的计划:它试图把了一个野心勃勃的计划:它试图把所有版权条例允许的书本内容进行数字化,让世界上所有的所有版权条例允许的书本内容进行数字化,让世界上所有的人都能通过网络免费阅读这些书籍。为了完成这个伟大的计人都能通过网络免费阅读这些书籍。为了完成这个伟大的计划,谷歌与全球最大和最著名的图书馆进行了合作,并且还划,谷歌与全球最大和最著名的图书馆进行了合作,并且还发明了一个能自动翻页的扫描仪,这样对上百万书籍的扫描发明了一
14、个能自动翻页的扫描仪,这样对上百万书籍的扫描工作才切实可行且不至于太过昂贵。工作才切实可行且不至于太过昂贵。第十三页,共25页。3.谷歌的数字谷歌的数字(shz)图书图书馆馆虽然(surn)这是一个现代的、数字化的亚历山大图书馆,比历史上任何一个图书馆都要强大,但谷歌依然希望它能做得更多。谷歌知道,这些信息只有被数据化,它的巨大潜在价值才会被释放出来。因此谷歌使用了能识别数字图像的光学字符识别软件来识别文本的字、词、句和段落,如此一来,书页的数字化图像就转化成了数据化文本。第十四页,共25页。3.谷歌的数字谷歌的数字(shz)图书馆图书馆如今,不仅人类可以使用这些文本信息,计算机也可以处如今,
15、不仅人类可以使用这些文本信息,计算机也可以处理和分析这些文本数据了。通过检索和查询,我们可以对理和分析这些文本数据了。通过检索和查询,我们可以对它进行它进行(jnxng)(jnxng)无穷无尽的文本分析。无穷无尽的文本分析。数据化的实现让抄袭学术作品的行为越来越无处藏身数据化的实现让抄袭学术作品的行为越来越无处藏身,因此,因此(ync)(ync),很多欧洲政客的抄袭行为被曝光,最,很多欧洲政客的抄袭行为被曝光,最终不得不引咎辞职。终不得不引咎辞职。第十五页,共25页。4.谷歌街景谷歌街景(ji jn)与与GPS采集采集如今,如今,GPSGPS已经只是众多定位系统中的一种了。这些已经只是众多定位
16、系统中的一种了。这些(zhxi)(zhxi)新系统通过对电塔和无线路由器的信号强度进新系统通过对电塔和无线路由器的信号强度进行三角测量来定位地理位置,从而弥补了行三角测量来定位地理位置,从而弥补了GPSGPS无法在室内无法在室内和高楼之间进行定位的缺陷。和高楼之间进行定位的缺陷。谷歌的街景车边拍照边收集无线路由器信息正是如此。谷歌的街景车边拍照边收集无线路由器信息正是如此。第十六页,共25页。4.谷歌街景谷歌街景(ji jn)与与GPS采集采集除了除了(ch le)(ch le)人以外,谷歌也可以跟踪事物的地理位人以外,谷歌也可以跟踪事物的地理位置信息。置信息。随着汽车装上了无线传感器,地理位
17、置信息的数随着汽车装上了无线传感器,地理位置信息的数据化深刻变革了保险的概念。这些数据提供了关据化深刻变革了保险的概念。这些数据提供了关于时间、地点于时间、地点(ddin)(ddin)和实际行驶路程的详细信和实际行驶路程的详细信息,使保险公司能更好地为车险定价。息,使保险公司能更好地为车险定价。第十七页,共25页。4.谷歌街景谷歌街景(ji jn)与与GPS采集采集通过汽车定位每个人的地理方位也改变通过汽车定位每个人的地理方位也改变(gibin)(gibin)了一些固定资产投入的模式,比方说了一些固定资产投入的模式,比方说公路和其他基础设施可以让使用这些资源的司公路和其他基础设施可以让使用这些
18、资源的司机和其他人分担一部分投入。机和其他人分担一部分投入。第十八页,共25页。4.谷歌街景谷歌街景(ji jn)与与GPS采集采集 “谷歌街景(ji jn)”服务只是谷歌地图服务的补充。 谷歌公司希望用户将它和之前发布的“谷歌地球”结合起来,从而充分的了解地球上的每一个地区。 不过之前“谷歌地球”就曾遭受猛烈的批评,因为它通过卫星从高空拍摄,并向用户提供此类的地球照片。 这些照片大大流行,因为可以让人们看到地球上每一处角落。但是也有人认为卫星照片的精确程度太高,让人们感到仿佛受到了监视。第十九页,共25页。5.谷歌的拼写谷歌的拼写(pnxi)检检查查在过去的20多年中,微软为其Word软件开
19、发出了一个强大的拼写检查程序,通过与频繁更的字典正确拼写相比较来对用户键入的字符流进行判断。字典囊括所有已知词汇,系统将拼写相似但字典中没有的词汇判断为拼写错误,并对其进行纠正。由于需要不断(bdun)编译和更新字,微软Word的拼写检查仅适用于最常用的语言,且每年需要花费数百万美元的创建和维护费用。微软的拼写(pnxi)检查第二十页,共25页。5.谷歌的拼写谷歌的拼写(pnxi)检查检查谷歌拥有世界上最完整的拼写检查器,基本上涵盖了世界谷歌拥有世界上最完整的拼写检查器,基本上涵盖了世界上的每一种语言。这个系统一直在不断地完善上的每一种语言。这个系统一直在不断地完善(wnshn)(wnshn)和和增加新的词汇,这是人们每天使用搜索引擎的附加结果。增加新的词汇,这是人们每天使用搜索引擎的附加结果。第二十一页,共25页。5.谷歌的拼写谷歌的拼写(pnx
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 外研八下英语Unit 6 Starting out-Understanding ideas《合作探究三》课件
- 人教 八年级 语文 下册 第1单元《1. 教材习题课件》课件
- 2025 高中信息技术数据结构在视频会议画面清晰度增强的新算法课件
- 2026年自由行旅游合同(1篇)
- 2026年药品品种咨询合同(1篇)
- 心理评估的方法和工具应用
- 2026年及未来5年市场数据中国榆黄菇行业市场深度分析及投资潜力预测报告
- 2026届浙江宁波十校高三下学期二模地理试题+答案
- 春季工厂消防设施巡检与维护全流程指南
- 农业风险防控管理全流程体系构建与实践
- 4.2依法履行义务 课 件 2024-2025学年统编版道德与法治八年级下册
- 2025年中山中考物理试题及答案
- 2024年贵州省普通高中学业水平选择性考试地理试题(原卷版+解析版)
- 办公室安全知识培训
- 《GNSS定位测量》考试复习题库(含答案)
- 塑料搅拌机安全操作规程
- 2024年皖西卫生职业学院单招职业适应性测试题库及答案解析
- 《爱鸟惜花守家园·考察身边的生物资源》课件 2023-2024学年辽海版《综合实践活动》七年级下册
- GB/T 6553-2024严酷环境条件下使用的电气绝缘材料评定耐电痕化和蚀损的试验方法
- 《家用电冰箱与空调器维修》课件
- GB/T 14048.11-2024低压开关设备和控制设备第6-1部分:多功能电器转换开关电器
评论
0/150
提交评论