大数据思维与决策--范文慧.pptx_第1页
大数据思维与决策--范文慧.pptx_第2页
大数据思维与决策--范文慧.pptx_第3页
大数据思维与决策--范文慧.pptx_第4页
大数据思维与决策--范文慧.pptx_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2016.04.272016.04.27 范文慧范文慧 清华大学自动化系清华大学自动化系 大数据思维与决策 个人简介个人简介 清华大学自动化清华大学自动化系系教教授授/ /博导博导 中中国仿国仿真学会真学会副理事长副理事长 中中国仿国仿真学会组织工作委员会真学会组织工作委员会主任委主任委员员 中中国仿国仿真学真学会复杂系统建模与仿真专业委员会会复杂系统建模与仿真专业委员会主任委员主任委员 中中国仿国仿真学会仿真技术应用专业委员真学会仿真技术应用专业委员会会副主任委员副主任委员 中中国仿国仿真学会仿真科普与教育工作委员会真学会仿真科普与教育工作委员会副主任委员副主任委员 中中国自动化国自动化学会系统仿真专业委员会学会系统仿真专业委员会副主任委员副主任委员 北京市复杂产品先进制造系统工程技术研究中心北京市复杂产品先进制造系统工程技术研究中心专家委委员专家委委员 中国标准化研究院科学技中国标准化研究院科学技术术专家委委员专家委委员 中中国智慧城市发展研究中心西北分中心(克拉玛依)国智慧城市发展研究中心西北分中心(克拉玛依)特邀研究员特邀研究员 联系方式: 地址:北京市海淀区清华大学中央主楼601室 邮编:100084 电话手机传真Email: 提提 纲纲 一一、大数据时代、大数据时代 二、大二、大数数据内涵据内涵 三、大数据思维三、大数据思维 四、大数据技术四、大数据技术 五、五、结结束语束语 大数据订外卖披萨的案例大数据订外卖披萨的案例 一、大数据时代一、大数据时代 请看视频请看视频01-301-3分钟分钟 4 1 1、数据定义数据定义 一一、大数据时代大数据时代 5 宇宙构成的元素:宇宙构成的元素:物质、物质、能量、信息能量、信息 2 2、信息革命、信息革命 一、大数据时代一、大数据时代 6 3 3、能源革命能源革命 一一、大数据时代大数据时代 7 杰里米杰里米 里夫金里夫金 新的通信技术(ICT )和新的能源系统结 合将再次出现 互联网技术和可再生 能源融合 美国华盛顿特区经济趋势基美国华盛顿特区经济趋势基 金会总裁,享有国际声誉的金会总裁,享有国际声誉的 社会批评家和畅销书作家社会批评家和畅销书作家 一、大数据时代一、大数据时代 4 4、数据爆炸(、数据爆炸(1 1) 8 一、大数据时代一、大数据时代 9 4 4、数据爆炸(、数据爆炸(2 2) 最早提出最早提出“大数据时代大数据时代”到来的是到来的是麦肯锡麦肯锡:“数据,已经渗透数据,已经渗透 到当今每一个行业和业务职能领域,成为重要的生产因素。到当今每一个行业和业务职能领域,成为重要的生产因素。 纽约时报纽约时报20122012年年2 2月的一篇专栏中称月的一篇专栏中称“大数据时代大数据时代”已经降已经降 临,在商业、经济及其他领域中决策将日益临,在商业、经济及其他领域中决策将日益基于数据和分析而作基于数据和分析而作 出而并非基于经验和直觉出而并非基于经验和直觉。 一、大数据时代一、大数据时代 5 5、大数据时大数据时代(代(1 1) 2012 2012年年3 3月月奥巴马政府奥巴马政府发布了发布了“大数据研究和发展倡议大数据研究和发展倡议”拟投拟投 资资2 2亿美元亿美元启动启动“大数据发展计划大数据发展计划”以期在科学研究、环境、生物以期在科学研究、环境、生物 医学等领域利用大数据技术进行突破医学等领域利用大数据技术进行突破。 2012 2012年年5 5月联合国发表月联合国发表大数据促发展挑战与机遇大数据促发展挑战与机遇政务白皮政务白皮 书,指出书,指出大数据对于世界各国是一个历史机遇大数据对于世界各国是一个历史机遇,探讨如何利用包,探讨如何利用包 括社交网络在内的大数据资源造福人括社交网络在内的大数据资源造福人类。类。 10 pp 20142014年年1010月月2929日日,国务院常国务院常 务会议务会议特别强调了要扩大移特别强调了要扩大移 动互联网、物联网等信息消动互联网、物联网等信息消 费,提升宽带速度,支持网费,提升宽带速度,支持网 购发展和农村电商配送。加购发展和农村电商配送。加 快健康医疗、企业监管等快健康医疗、企业监管等大大 数据应用数据应用。 pp 20152015年年的的政府工作报告政府工作报告 也强调,要制定也强调,要制定“互联网互联网 + +”行动计划,推动移动互行动计划,推动移动互 联网、联网、云计算、大数据、云计算、大数据、物物 联网等与现代制造业结合,联网等与现代制造业结合, 促进电子商务、工业互联网促进电子商务、工业互联网 和互联网金融健康发展。和互联网金融健康发展。 一、大数据时代一、大数据时代 5 5、大数据时代(大数据时代(2 2) 11 如果一如果一个个个个人拒人拒绝大数据时代,绝大数据时代, 可能会失去生可能会失去生命命; 如果一如果一个国个国家拒家拒绝大数据时绝大数据时代,代, 可能会失可能会失去这个国家的未去这个国家的未来!来! 一、大数据时代一、大数据时代 6 6、小结、小结 12 无论你知道与不知道,无论你接受与不接受无论你知道与不知道,无论你接受与不接受 大数据时代已经来临!大数据时代已经来临! 1 1、大数据的定义、大数据的定义 二、什么是大数据二、什么是大数据 pp 麦麦肯锡全球研究所:肯锡全球研究所:一种规模大到在获取、存储、管理、分析方一种规模大到在获取、存储、管理、分析方 面大大面大大超出了传统数据库软件工具能力范围的数据集合超出了传统数据库软件工具能力范围的数据集合。 pp GartnerGartner定义:定义:是需要新处理模式才能具有更强的决策力、洞察发是需要新处理模式才能具有更强的决策力、洞察发 现力和流程优化能力的现力和流程优化能力的海量、高增长率和多样化的信息资海量、高增长率和多样化的信息资产产 1 Byte =8 1 Byte =8 bitbit进进率率10241024(2 2的的1010次次方方)计)计算算 Mega Mega 兆兆 MM. . 10031003 GigaGiga 吉吉 GG. . 10061006 TeraTera 太太 T T. . 1009 1009 P Petaeta 拍拍 P P. . 1012 1012 E Exaxa 艾艾 E E. . 1015 1015 ZettaZetta 泽泽 Z Z. . 10181018 YottaYotta 尧尧 Y Y. . 1021 1021 进制单位全称及译音进制单位全称及译音 13 涂子沛数据之巅大数据 2 2、大数据的、大数据的特征特征 二、什么是大数据二、什么是大数据 Volume Volume 大量大量 14 Velocity Velocity 高高速速 pp 60006000万万用户登录用户登录/ /天天 pp 2020亿次亿次 页面访问页面访问/ /天天 pp 每天每天1.21.2亿次亿次网站访问网站访问 响应时间小于响应时间小于100100毫秒毫秒 pp 由于输入速度加快,所以要求输出速度也要加由于输入速度加快,所以要求输出速度也要加快快 大大数据的惊人不止是在数量上,同时数据还是数据的惊人不止是在数量上,同时数据还是 巨量具有巨量具有动态分析价值动态分析价值的数据的数据。 访访问问响应时间的加快响应时间的加快,数据库读写速度的加快,数据库读写速度的加快 ,对电商企业来说就等于多成交。,对电商企业来说就等于多成交。 对对于很多情况下,于很多情况下,动态的数据价值动态的数据价值远大于静态远大于静态 数据,比如气象预测,灾难预测,数据,比如气象预测,灾难预测,快快销销行业行业 等。等。 2 2、大数据的、大数据的特征特征 二、什么是大数据二、什么是大数据 15 2 2、大数据的、大数据的特征特征 二、什么是大数据二、什么是大数据 16 Veracity Veracity 真实真实 pp 数据的重要性就在于对决策的支数据的重要性就在于对决策的支持持 ; pp 数数据的真实性和质量据的真实性和质量才是获得真知才是获得真知 和思路最重要的因素,是制定成功和思路最重要的因素,是制定成功 决策最坚实的基决策最坚实的基础;础; pp 准准确源自于对全部数据的处理分确源自于对全部数据的处理分析析 ; pp 大数据的核心思想之大数据的核心思想之一一。 2 2、大数据的、大数据的特征特征 二、什么是大数据二、什么是大数据 17 pp 大数据能做一个预言大数据能做一个预言家家 pp 谷谷歌和推特都曾用大数据,提前歌和推特都曾用大数据,提前7 7天到一个月,在天到一个月,在 20092009年准确预测当年的流感趋年准确预测当年的流感趋势势 pp 一小时的视频,在不间断的监控过程中,可能有一小时的视频,在不间断的监控过程中,可能有 用的数据仅仅只有一两用的数据仅仅只有一两秒秒 pp 大大数据分析犹如数据分析犹如“大海捞针大海捞针” Value Value 价值价值 2 2、大数据的、大数据的特特征征 二、什么是大数据二、什么是大数据 18 2 2、大数据的、大数据的特征特征 二、什么是大数据二、什么是大数据 5V 规模性( Volume) 价值性( Value) 真实性( Veracity) 高速性( Velocity) 多样性( Variety) 19 3 3、大数据的应用(大数据的应用(1 1) 二、什么是大数据二、什么是大数据 20 21 丹丹麦麦风轮机制造商维斯塔风轮机制造商维斯塔斯,在斯,在世界上最大的超级世界上最大的超级 计算机上部署计算机上部署IBMIBM大数据大数据解决方解决方案,通案,通过分析包括过分析包括PBPB量量 级级气象报气象报告、潮告、潮汐相位、地理空间、卫星图像等汐相位、地理空间、卫星图像等结构化结构化 及非结构化的海量数及非结构化的海量数据据 优优化风力涡轮机布局,有效提高风力涡轮机的性能化风力涡轮机布局,有效提高风力涡轮机的性能, 为客户提供精确和优化的风力涡轮机配置方为客户提供精确和优化的风力涡轮机配置方案;案; 帮帮助助客户客户降低降低每千瓦时的每千瓦时的成成本本; 提高提高客客户投资回报估计的户投资回报估计的准确准确度度; 将将业务用户请求的业务用户请求的响应时间响应时间从几星期从几星期缩短缩短到几小时。到几小时。 3 3、大数据的应用(大数据的应用(2 2) 二、什么是大数据二、什么是大数据 电力大数据 22 l l 数据即能量(数据即能量(EnergyEnergy):):电力大数据电力大数据 使用过程中不断精炼而增值使用过程中不断精炼而增值 l l 数据即交互(数据即交互(ExchangeExchange):电力数据电力数据 同行业外数据的交互融合同行业外数据的交互融合 l l 数据即共情(数据即共情(EmpathyEmpathy):):挖掘和满挖掘和满 足电力用户,建立情感联系,提供足电力用户,建立情感联系,提供 电力服务电力服务 3 3、大数据的应用(大数据的应用(3 3) 二、什么是大数据二、什么是大数据 3 3、大数据的应用(大数据的应用(3 3) 二、什么是大数据二、什么是大数据 23 电力大数据 5 5、大数据大数据的好处的好处 二、什么是大数据二、什么是大数据 请看视频请看视频03-1503-15分钟分钟 24 肯尼肯尼斯斯库克耶库克耶 给给我们展现了由大我们展现了由大 数据给机器学习和数据给机器学习和 人类知识带来的翻人类知识带来的翻 天覆地的天覆地的变化。变化。 我们我们可以可以从我们能从我们能 收集的信息中来收集的信息中来了了 解这个世界解这个世界以及以及人人 类类在这个世界中所在这个世界中所 处的处的地位地位。 大数据即将改变我大数据即将改变我 们的们的生活、工作和生活、工作和 思考思考方式方式,可以,可以帮帮 助我们管理助我们管理事业、事业、 过过想要想要的的充满充满希望希望 幸福和健康幸福和健康的生活的生活 大大数数据核心据核心 是预测是预测 什么大什么大数数据思维据思维 三、大数据思维三、大数据思维 大大数据思维,是数据思维,是 指一种意识,认指一种意识,认 为公开的数据一为公开的数据一 旦处理得当就能旦处理得当就能 为千百万人急为千百万人急需需 解决解决的问的问题提题提供供 答答案。案。 25 1 1、不、不是随机样本,而是全体数是随机样本,而是全体数据据 三、大数据思维三、大数据思维 大数据时代 26 pp 小数据的随机采样,小数据的随机采样, 统计学用尽可能少的数据来证实统计学用尽可能少的数据来证实 尽可能重大的发现;尽可能重大的发现; 统计学本身存在许多固有的缺统计学本身存在许多固有的缺 陷。陷。 pp 全数据模式,样本全数据模式,样本 = = 总体总体 数据深度探讨,抽样几乎无法;数据深度探讨,抽样几乎无法; 用所有数据,抽样会淹没掉的信息用所有数据,抽样会淹没掉的信息 ; 所有数据的方法,非随机分析法。所有数据的方法,非随机分析法。 诺贝尔奖自诺贝尔奖自19011901年创办至年创办至20162016年共年共110110届的诺贝尔数据,排除届的诺贝尔数据,排除4848次空缺或无次空缺或无 生辰资料及生辰资料及2323个机构获奖外个机构获奖外,提,提供了供了877877份科学家的案份科学家的案例,例,统计如下:统计如下: 三、大数据思维三、大数据思维 大数据大数据诺贝诺贝尔奖尔奖案例案例 27 三、大数据思维三、大数据思维 大数据大数据诺贝诺贝尔奖尔奖案例案例 诺贝尔奖大数据告诉你:最聪明的星座是谁? 28 腾腾讯科技讯讯科技讯 2 2月月8 8日,猴年除日,猴年除夕红包:夕红包: 红红包收发总量:微信包收发总量:微信80.880.8亿亿个;个;QQQQ:4242亿亿个个 ,双双创下历史新高,双双创下历史新高。 微信:共微信:共有有4.24.2亿亿人收发红包人收发红包, QQQQ:在:在“刷一刷刷一刷”抢红抢红包中吸引包中吸引3.083.08亿亿人。人。 微信,微信,广东人广东人发送的红包最多,收到的也发送的红包最多,收到的也最最 多;除夕多;除夕当天,有人收到当天,有人收到52795279个个红包,也有红包,也有 人发出人发出7919379193个个红包。红包。 “年度最值钱年度最值钱”的红包照片,共收到的红包照片,共收到597597个红个红 包包;来自河南的;来自河南的2929岁女性岁女性用户,为了看照片用户,为了看照片 共发出了共发出了219219个红包个红包,当日最多。,当日最多。 三、大数据思维三、大数据思维 大数据红包案例大数据红包案例 29 pp 允许不精确允许不精确 “ “ 小数据小数据 ” ” 最最基本、最重要基本、最重要的是的是减少错误,保证质减少错误,保证质量;量; pp 大大数据的简单算法比小数据的复杂算法更有数据的简单算法比小数据的复杂算法更有效效 数数据多比少好,更多数据比算法系统更智能还要重据多比少好,更多数据比算法系统更智能还要重要;要; 2 2、不、不是精确性,而是混杂是精确性,而是混杂性性 三、大数据思维三、大数据思维 谷歌翻谷歌翻译好译好不是因为它拥有一个更好的算法机不是因为它拥有一个更好的算法机制制,利利用用 成千上万数据,它接受了有错误的数据。成千上万数据,它接受了有错误的数据。 大数据时代 30 pp 纷繁的数据越多越好纷繁的数据越多越好 大数据大数据用用概率说话概率说话,要,要学会拥抱混乱。学会拥抱混乱。 掌握了大量新型数据时,精确性就不那么重要;掌握了大量新型数据时,精确性就不那么重要; 错误并不是大数据固有的特性,而是现实问题。错误并不是大数据固有的特性,而是现实问题。 大大数数据与葡萄酒品质预测据与葡萄酒品质预测 三、大数据思维三、大数据思维 pp 小数据专家(直觉与经验):小数据专家(直觉与经验):罗伯特罗伯特帕克帕克 使使用传统的用传统的“品咂并吐掉品咂并吐掉”的方法。的方法。 葡萄酒在装瓶之前盛放在橡木桶里发酵葡萄酒在装瓶之前盛放在橡木桶里发酵18-2418-24个月个月,评,评 酒家在酒家在4 4个月后才能第一次品尝个月后才能第一次品尝,很难,很难得出酒品质的准得出酒品质的准 确信息确信息。 pp 大数据专家:大数据专家:奥利奥利阿什菲尔特阿什菲尔特 在品酒师第一次尝酒的在品酒师第一次尝酒的数月之前数月之前,是在卖出的,是在卖出的数年数年之之 前,前,葡萄葡萄收获时收获时就能预测出葡萄酒的就能预测出葡萄酒的未来未来品质。品质。奥奥 利预测:利预测: 19891989年年法国法国波尔多酒(波尔多酒(仅仅在仅仅在木桶放了木桶放了3 3个月)个月)将将 成为成为“世纪佳酿世纪佳酿”; ; 如果如果19611961年评级为年评级为100100,那,那么么19891989年将会达到年将会达到149149; “19891989年年能够能够卖出卖出3535年中所生产的葡萄酒的最高价年中所生产的葡萄酒的最高价 ” 事实证明,奥利是对事实证明,奥利是对的。的。 大数据思维与实践31 正确正确的观点不一定总是受欢迎的观点不一定总是受欢迎的!的! 大大数数据与葡萄酒品质预测据与葡萄酒品质预测 遭遭到讥讽和鄙视:到讥讽和鄙视: “这个公式显然是可笑的,我们无法重视它这个公式显然是可笑的,我们无法重视它” “介入极端和滑稽可笑之间介入极端和滑稽可笑之间” “一个彻头彻尾的骗子一个彻头彻尾的骗子” “其实是在用其实是在用尼安德特人尼安德特人的思维来看待葡萄酒,这是非常荒的思维来看待葡萄酒,这是非常荒 谬甚至非常可笑谬甚至非常可笑的的” “如果他邀请我去他家喝酒,我会感到恶如果他邀请我去他家喝酒,我会感到恶心心” “就像某些影评一样,根据演员和导演来告诉你电影有多好就像某些影评一样,根据演员和导演来告诉你电影有多好 ,实际上却从来没有看过那部电,实际上却从来没有看过那部电影影” “愚蠢可笑愚蠢可笑” “既愤怒又恐惧,他确实让人感到恐慌。既愤怒又恐惧,他确实让人感到恐慌。” 当当他在酒行演讲时,后面嘘声一他在酒行演讲时,后面嘘声一片片 三、大数据思维三、大数据思维 大数据思维与实践 32 大大数数据与葡萄酒品质预测据与葡萄酒品质预测 l l 根根据据19521952年年19801980年期间年期间6 6家家波尔多名庄(白马、拉图、拉菲、爱波尔多名庄(白马、拉图、拉菲、爱 士图尔、蒙特罗斯、碧尚女爵)士图尔、蒙特罗斯、碧尚女爵)1010个年份的个年份的6060款葡萄酒款葡萄酒在在19901990年年 19991999年期间的伦敦市场拍卖年期间的伦敦市场拍卖价格价格曲线,曲线,推导出一条葡萄酒价格推导出一条葡萄酒价格 公式公式: 超级大数据分析的崛起,并超级大数据分析的崛起,并不意味着直觉判断的消亡不意味着直觉判断的消亡,也不是,也不是 说工作中累计的经验不重要。最优秀、最聪明的人对于运用统计与说工作中累计的经验不重要。最优秀、最聪明的人对于运用统计与 直觉都游刃有余。直觉都游刃有余。 葡萄酒价格被解释变量葡萄酒价格被解释变量=0.0240AGE=0.0240AGE(酒龄)(酒龄)+0.608TEMP+0.608TEMP (葡萄生长期平均气温(葡萄生长期平均气温)-0.0038RAIN-0.0038RAIN(8 8月至月至9 9月的降水量月的降水量 )+0.00115WRAIN+0.00115WRAIN(上年(上年1010月至本年月至本年3 3月的降水量)月的降水量) 三、三、大数据思维大数据思维 大数据思维与实践 33 pp “ “ 是什么是什么 ” ” 而而不是不是 “ “ 为什么为什么 ” 相相关关关关系系核核心是量化两个数据值之间的数理关心是量化两个数据值之间的数理关系系 相相关关系通过识别有用的关关系通过识别有用的关联物关联物来帮助我们分析一个现来帮助我们分析一个现象,象, 捕捕捉现在和预测未捉现在和预测未来;来;而而不不是揭是揭示其内部的运作机制示其内部的运作机制 相关关系帮助更好地了解这个世界相关关系帮助更好地了解这个世界 3 3、不、不是因果关系,而是相关关是因果关系,而是相关关系系 三、大数据思维三、大数据思维 大数据时代 34 pp 人类通过因果关系与相关关系分析而了解世界人类通过因果关系与相关关系分析而了解世界 pp 在在小数据中,相关关系也是有用小数据中,相关关系也是有用的的 大数据折扣零售商与怀孕预测案例大数据折扣零售商与怀孕预测案例 三、大数据思维三、大数据思维 美国折扣零售商塔吉特与怀孕预测 大数据时代 35 大大数数据流感传播预测案例据流感传播预测案例 5000 5000 万万条美国人最频繁检索的条美国人最频繁检索的词条词条 4.5 4.5 亿亿个不同的数学模型个不同的数学模型 与实际流感病例对比后,与实际流感病例对比后,软软件发件发现现45 45 条检条检 索词条的组索词条的组合合 用用于一个特定的数学模型后于一个特定的数学模型后,预,预测与官方数测与官方数 据的相关性据的相关性高达高达 97% 97% 唯唯一关一关注:注:特特定检索词条的使用频率与流感定检索词条的使用频率与流感 在时间和空间上的传播之间的在时间和空间上的传播之间的联联系。系。 大数据时代-一场生活、工作与思维的大变革 36 pp 小数据专家(直觉与经验)专家:小数据专家(直觉与经验)专家:流感爆发流感爆发 一两周之后才可以做到。一两周之后才可以做到。 pp 大数据专家:大数据专家:谷歌公司在谷歌公司在2009 2009 年甲型年甲型 H1N1 H1N1 流感爆发的几周前,预测流感是从哪里传播流感爆发的几周前,预测流感是从哪里传播 出来的,判断非常及时。出来的,判断非常及时。 三、大数据思维三、大数据思维 大大数数据与机票价格预测据与机票价格预测 建立在建立在 12000 12000 个价格样本基础之上,而这个价格样本基础之上,而这 些数据都是从一个旅游网站上爬取过来的些数据都是从一个旅游网站上爬取过来的 到到 2012 2012 年为止,年为止, 用用了将近了将近十万亿十万亿条价格条价格 记录来帮助预测美国国内航班的票记录来帮助预测美国国内航班的票价,准价,准 确度已经高确度已经高达达 75 75 ,平,平均每均每张机张机票可节票可节 省省 50 50 美美元元 不需要不需要去去解解开机票开机票价格差异的奥秘价格差异的奥秘,只推只推 测会发生什么测会发生什么,未来时间内上涨还是下,未来时间内上涨还是下降降 世世界就是一系列的界就是一系列的 大数据问题,而且大数据问题,而且 他认为自己有能力他认为自己有能力 解决这些问解决这些问题题 37 pp 小数据专家(直觉与经验):小数据专家(直觉与经验):无法完成无法完成 pp 大数据专家:大数据专家:埃齐奥尼,埃齐奥尼,20032003年创立机票价年创立机票价 格预测系统格预测系统 FarecastFarecast ,微软公司以,微软公司以 1.1 1.1 亿亿美美 元收购元收购 三、大数据思维三、大数据思维 4 4、小结、小结 三、大数据思维三、大数据思维 大数据的精髓在大数据的精髓在于三个思维转于三个思维转变变 (认识世界与改造世界的方法认识世界与改造世界的方法) 第一个转第一个转变:变:分析样本分析样本=分析全集分析全集 第二第二个个转变转变:追:追求精求精确确=接受混接受混杂杂 第三第三个转变:寻个转变:寻找因找因果果=探求相关探求相关 大数据时代 38 39 ETL (Extract- Transform-Load ) 数据众包 CrowdSouring 结构化、非结构化结构化、非结构化 和半结构化数据和半结构化数据 分布式文件系统分布式文件系统 关系数据库关系数据库 非关系数据库非关系数据库 (NoSQLNoSQL) 数据仓库数据仓库 云计算和云存储云计算和云存储 实时流处理实时流处理 MapReduceMapReduce R R语言语言 关联规则分析关联规则分析 分类分类 聚类聚类 遗传算法遗传算法 神经网络神经网络 预测模型预测模型 模式识别模式识别 时间序列分析时间序列分析 回归分析回归分析 系统仿真系统仿真 机器学习机器学习 社会网络分析社会网络分析 标签云 Tag Cloud 聚类图 Clustergram 空间信息流 Spatial information flow 热图 (Heatmap) 四、大数据技术四、大数据技术 1 1、大数据技术、大数据技术 40 四、大数据技术四、大数据技术 2 2、大数据工具、大数据工具 41 四、大数据技术四、大数据技术 2 2、大数据工具、大数据工具 AutoGridAutoGrid由前斯坦福大学智能电网研究室负责人由前斯坦福大学智能电网研究室负责人AmitNarayanAmitNarayan创办的服创办的服 务于电力、能源行业的大数据公司务于电力、能源行业的大数据公司。通。通过建立能源数据平台,收集并处理其过建立能源数据平台,收集并处理其 客户接入智能电网的智能仪表等设备的数据,面向其客户或合作方提供需求客户接入智能电网的智能仪表等设备的数据,面向其客户或合作方提供需求 响应优化及管理系统,实现实时响应优化及管理系统,实现实时资源预测、资源优化、自动需求响应、客户资源预测、资源优化、自动需求响应、客户 通知引擎和事后分析等通知引擎和事后分析等功能功能。 单个单个DROMSDROMS集群每天可以产生数集群每天可以产生数以亿计的能源消费的预测数据以亿计的能源消费的预测数据。 42 四、大数据技术四、大数据技术 3 3、能、能源大数据软件平台源大数据软件平台 OOpowerpowerOOpowerpower公司是于公司是于20072007年创办的一家家庭能源数据分年创办的一家家庭能源数据分 析公司。析公司。OpowerOpower与电力公司合作,抢占家庭消费者与电力公司合作,抢占家庭消费者“入口入口”,获取,获取 家庭消费者的能源使用数据,家庭消费者的能源使用数据,进行消费者用电行为分析进行消费者用电行为分析,并为其提,并为其提 供节能减耗的方案,推动节能的互联网应用。供节能减耗的方案,推动节能的互联网应用。 43 3 3、能、能源大数据软件平台源大数据软件平台 四、大数据技术四、大数据技术 法法国电力公司国电力公司(EDF)(EDF)基于大数据的分析预测基于大数据的分析预测:目目前全法已经安装前全法已经安装 35003500万智能电表,电表产生的数据量将在万智能电表,电表产生的数据量将在5-105-10年内达到年内达到PBPB级。级。 智能电表采集的主要是个体家庭的用电负荷数据。以每个电表每智能电表采集的主要是个体家庭的用电负荷数据。以每个电表每 1010分钟抄表分钟抄表1 1次次计算计算, 35003500万智能电表每万智能电表每年产生年产生1.81.8万亿次万亿次抄表记录和抄表记录和600TB600TB压缩前数据压缩前数据 ; 35003500万智能电表每万智能电表每天产生天产生5 5亿次亿次抄表记录和大约抄表记录和大约2TB2TB的抄表数的抄表数 据据。 这这些电表数据,结合气象数据、用电合同信息及电网数据,构成些电表数据,结合气象数据、用电合同信息及电网数据,构成 了法国电力的大数了法国电力的大数据,用据,用于生成于生成用户用电负荷曲线及其关联数据用户用电负荷曲线及其关联数据。 44 3 3、能、能源大数据软件平台源大数据软件平台 四、大数据技术四、大数据技术 C3 C3 IoTIoT Platform Platform Powering DataPowering Data:电电网实时监测和即时数据分网实时监测和即时数据分析析 45 3 3、能、能源大数据软件平台源大数据软件平台 四、大数据技术四、大数据技术 A A complete complete platform-as-a-serviceplatform-as-a-service solution solution that that enables enables the the rapid rapid design, design, development, development, deployment, deployment, and and operation operation of of enterprise-scale enterprise-scale software software applicationsapplications With With an an elastic elastic cloud, cloud, distributed-distributed- computingcomputing architecture architecture capable capable of of handling handling data data sets sets growing growing by by hundreds hundreds of of T Terabytes erabytes per per day day and and millions millions of of MMessages essages per secondper second, , the the platform has platform has 70 million 70 million smart smart devices and sensors devices and sensors under under management at management at more than 20 more than 20 production deployments production deployments worldwideworldwide 数数据就像一个神奇据就像一个神奇的钻石矿的钻石矿,当它的首要价值被发掘后仍,当它的首要价值被发掘后仍 能不断给予。它的能不断给予。它的真实价值就真实价值就像漂像漂浮在海洋中的冰山浮在海洋中的冰山,第,第 一眼只能看到冰山的一角,而绝大部分都隐藏在表面之一眼只能看到冰山的一角,而绝大部分都隐藏在表面之 下。下。 一一旦世界被数据化旦世界被数据化,只有想,只有想不不到的,没到的,没有信息做不有信息做不到的到的 数据数据“无所不有无所不有” 五、结束语五、结束语 我的思考我的思考 46 数据数据“无所不说无所不说” 第一个转第一个转变:变:分析样本分析样本=分析全分析全集;集;不拒绝样本不拒绝样本 第二第二个个转变转变:追:追求精求精确确=接受混

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论