




已阅读5页,还剩32页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据的介绍及案例分享 1 目录 大数据的概念 大数据与传统数据的区别? 大数据的典型特征(3V) 广义的大数据 大数据应用案例 2 大数据的概念 大数据(Big Data)是指无法用现有的软件工具提取、存储、搜索、共享、分析和处 理的海量的、复杂的数据集合 简单一点的说,就是用现有一般技术难以管理的数据。 3 大数据与传统数据的区别? 小明去了一百次书店 传统数据:要回答的问题是他第一百零一次买不买书,即业绩和经营指标的问题; 大数据:要回答的是他第一百零一次买什么书,需要将什么样的内容推荐给他。 群体和个体的区别 传统定义上,更多关注的是一类人群,用同一类规则制订套餐给他们; 互联网时代,要把每个人都精准刻画出来,进行精准匹配。 4 大数据的典型特征(3V) Volume(容量) 现在基本上是指从几十TB到几PB这样的数量级,未来,可能只有几EB数量级的 数据量才能称得上是大数据了。 Variety(多样性) 结构化和非结构化数据 Velocity(速度) 数据产生和更新的频率 5 广义的大数据 所谓大数据,是一个综合性概念,它包括: (1)因具备3V特征而难以进行管理的数据 (2)对这些数据进行存储、处理、分析的技术 (3)以及能够通过分析这些数据获得实用意义和观点的人才和组织 6 大数据的应用案例 7 穿孔卡片与美国人口普查 美国在1880年进行的人口普查,耗时8年才完成数据汇总。因此,他们获得的很多 数据都是过时的。 1890年进行的人口普查,预计要花费13年的时间来汇总数据。 后来,美国人口普查局通过用赫尔曼-霍尔瑞斯发明的穿孔卡片制表机来进行1890年 的人口普查,耗时一年。 8 麻省理工与通货紧缩预测软件 美国劳工统计局的人员每个月都要公布消费物价指数(CPI),这是用来测试通货膨 胀率的。 政府通过人工采集价格信息数据每年大概需要花费两亿五千万美元。这些数据是精 确的也是有序的,但是数据往往会有几周的滞后。 麻省理工学院(MIT)的两位经济学家,通过一个软件在互联网上每天可以收集到50 万种商品的价格,他们能比官方数据提前发现通货紧缩趋势。 9 沃尔玛,请把蛋挞与飓风用品摆在一起 通过对历史交易记录这个庞大数据库进行观察,沃尔玛注意到,每当季节性飓风来 临之前,不仅手电筒销量增加,而且美式早餐含糖零食蛋挞销量也增加了。 因此每当季节性飓风来临时,沃尔玛就会把蛋挞与飓风用品摆放在一起,从而增加 销量。 10 沃尔玛:东海岸中海岸西海岸 在美国,东海岸、中海岸、西海岸之间有两小时时差。 东海岸的沃尔玛营业两小时后之后,中海岸才开始营业,沃尔玛就会把东海岸当天 这两小时的营业情况、相关数据传给中海岸。 中海岸就会根据这个数据知道了这天人们的购物喜好,决定货品怎么摆放,哪些货 物摆放在一起会比较好。 这种方式给沃尔玛带来了很大的利润。 11 美国折扣零售商塔吉特与怀孕预测 塔吉特公司能在不被清楚告知的情况下预测出一个女性的怀孕情况 该公司找出了大概20多种与怀孕的关联物,给顾客进行“怀孕趋势”评分 这些数据甚至使得零售商能够比较准确地预测预产期,这样就能够在孕期的每个阶 段给客户寄送相应的优惠券 12 Hitwise,通过流量判断消费者喜好 数据创新再利用的一个典型例子是搜索关键词。 消费者和搜索引擎之间的瞬时交互形成了一个网站和广告的列表,实现了那一刻的 特定功能。这些信息除了实现基本用途之外,它还可以变得非常有价值。 如数据代理益百利旗下的网页流量测量公司Hitwise,让客户采集搜索流量来揭示消 费者的喜好。 13 物联网 物联网(Internet of Things,缩写IOT)是一个基于互联网、传统电信网等信息承载 体,让所有能够被独立寻址的普通物理对象实现互联互通的网络。 在物联网上,每个人都可以应用电子标签将真实的物体上网联结,在物联网上都可 以查找出它们的具体位置。 通过物联网可以用中心计算机对机器、设备、人员进行集中管理、控制,也可以对 家庭设备、汽车进行遥控,以及搜寻位置、防止物品被盗等各种应用。 14 RFID技术 RFID是Radio Frequency Identification的缩写,即射频识别,俗称电子标签。 RFID是一种简单的无线系统,由一个询问器(或阅读器)和很多应答器(或标签)组成。 该系统用于控制、检测和跟踪物体。 RFID技术在超市和图书馆中的应用 15 车联网 未来车联网技术将重新定义汽车DNA。借助无线通讯,城市内车与车之间,车与建 筑之间,车与人之间都将建立更加智能紧密的互联。 通过装载在车辆上的电子标签利用无线射频等识别技术,实现在信息网络平台上对 所有车辆的属性信息和静、动态信息进行提取和有效利用,并根据不同的功能需求 对所有车辆的运行状态进行有效的监管和提供综合服务。 16 无人驾驶 无人驾驶被人认为是车联网的终极目标 无人驾驶车依赖的技术很多,比如导航、雷达、庞大数据计算等,要实现这些技术 需要和物联网紧密结合起来。 无人驾驶是通过车载传感系统感知道路环境,自动规划行车路线并控制车辆到达预 定目标的智能汽车。 17 自动泊车系统 自动泊车系统,顾名思义驾驶者双手可以离开方向盘,在车辆停好之前要做的只是 等待。 自动泊车系统主要由两部分组成:控制单元和位于前后保险杠以及两侧的超声波雷 达探头。 按动自动泊车辅助系统激活按钮之后,雷达探头可在车辆行驶时对车辆两侧进行扫 描。 控制单元对雷达反馈的信息进行分析,从而估算出车位是否足以容纳车辆停放。 自动泊车系统随后将通过助力转向系统对车辆行驶方向进行干预,并以控制单元规 划好的路径将车辆停入车位。 18 日本先进工业技术研究院的坐姿研究与汽车 防盗系统 该研究所教授把每个驾车者的坐姿量化为精确的数据,使其对司机识别的正确率高 达98%。 这项技术作为汽车防盗系统,一旦识别驾车者不是车主,就会自动熄火。 这一技术还可汇集事故发生前驾车者的姿势变化数据,分析坐姿与行驶安全的关系 ,在司机疲劳驾驶时发出警示或自动刹车。 19 UPS快递大数据技术下的最佳行车路径 UPS快递多效地利用了地理定位数据。为了使总部能在车辆出现晚点的时候跟踪到 车辆的位置和预防引擎故障,它的货车上装有传感器、无线适配器和GPS。同时, 这些设备也方便了公司监督管理员工并优化行车线路。 UPS为货车定制的最佳行车路径是根据过去的行车经验总结而来的。2011年,UPS 的驾驶员少跑了近4828万公里的路程,节省了300万加仑的燃料并且减少了3万公吨 的二氧化碳排放量。 20 UPS与汽车修理预测 UPS国际快递公司从2000年就开始使用预测性分析来监测自己全美60000辆车规模 的车队,这样就能及时地进行防御性的修理。 通过监测车辆的各个部位,UPS只需要更换需要更换的零件,从而节省了好几百万 美元。 21 谷歌与甲型H1N1流感 2009年出现的甲型H1N1流感,当时还没有研发出对抗这种新型流感病毒的疫苗, 公共卫生专家能做的只是减慢它传播的速度。但要做到这一点,他们必须先知道这 种流感出现在哪里。 疾控中心得到流感方面的信息往往会有一两周的滞后,这种滞后导致公共卫生机构 在疫情爆发的关键时期反而无所适从。 谷歌通过观察人们在网上的搜索记录来预测流感的传播,得到的信息是非常准确和 及时的。 22 “量化自我” 通过一种非干预的手段,把一些所谓的医疗传感器放到我们的身边,比如我们戴一 个腕表、一枚戒指、一个耳塞、一副眼镜等,通过这些设备我们可以了解自己的心 跳、血压情况,甚至包括我们体表的健康状况,从而对一些大病(如癫痫等)进行 早期预测。 美国Fitbit公司近期就推出了一款免费的苹果手机应用,用户可用于记录食物和液体 摄入量,从而跟踪其活动水平和营养摄入情况,通过分析这些数据可以很好的控制 体重。 23 小儿床垫 通过床垫上的压力与湿度传感器分析,来判断小孩子有没有比较严重的打鼾或者睡 姿不正确等问题。 24 在线教育 如著名的在线教育公司Coursera,已经和普林斯顿、伯克利、宾夕法尼亚大学等30 多所大学合作,在互联网上免费开放大学课程 分布在世界各地的学习者不仅可以在同一时间实时听取同一位老师的授课,还和在 校生一样,做同样的作业、接受同样的评分和考试。 在线教育是一个“行为评价和诱导”的智能平台 25 在线教育服务Knewton 在线教育服务Knewton是大数据应用于教育行业的典型,通过数据分析区分出每个 学生的优缺点,从而给学生有效的指导。 美国最大的公立大学亚利桑那州公立大学曾运用这一系统来提高学生的数学水平, 全校2000名学生使用该系统两学期之后,该大学的辍学率下降了56%,毕业率从 64%升高到75%。 26 购买飞机票 同一架飞机上的座位,票价却千差万别,个中原因,只有航空公司知道。 奥伦-埃齐奥尼开发了一个系统,用来推测当前网页上的机票价格是否合理,预测当 前的机票价格在未来一段时间内会上涨还是下降,从而帮助乘客明智购票。 这个预测系统建立在41天内价格波动产生的12000个价格样本基础之上。 27 航班延误之候机经济学 美国建立了一个统一的数据开放门户网站Data.Gov。 Data.Gov上线以后, 美国交通部开放了全美航班起飞、到达、延误的数据。 航班延误时间的分析系统(Flyontime.us):帮助消费者找到表现最佳,最符合自 己需要的航班。 该系统向全社会免费开放,任何人都可以通过它查询分析全国各次航班的延误率及 机场等候时间。 28 The-N与电影票房预测 The-N在好莱坞电影上映之前,就能利用海量数据和特定算法预测出 一部电影的票房。 该公司拥有一个包括了过去几十年美国所有商业电影大约3000万条记录的数据库; 数据库里有所有关于预算、电影流派、拍摄、阵容、获得奖项和收入等数据。 29 VISAMasterCard与商户推荐 像VISA和MasterCard这样的信用卡发行商,它们能够从自己的服务网获取更多的 交易信息和顾客的消费信息 它们的商业模式从单纯的处理支付行为转变成了收集数据 一个称为MasterCard Advisors的部门收集和分析了来自210个国家的15亿信用卡 用户的650亿条交易记录,用来预测商业发展和客户的消费趋势。然后,它把这些分 析结果卖给其他公司 30 FICO,“我们知道你明天会做什么” 2011年,FICO提出了“遵从医嘱评分”它分析一系列的变量来确定这个人是否 会按时吃药,包括一些看起来有点怪异的变量。 比方说,一个人在某地居住了多久,这个人结婚了没有,他多久换一个工作以及他 是否有私家车。 这个评分会帮助医疗机构节省开支,因为它们会知道哪些人需要得到它们的用药提 醒。有私家车和使用抗生素并没有因果关系,这只是一种相关关系。 31 中英人寿保险有限公司(Aviva) 中英人寿保险有限公司(Aviva)是一家大型保险公司,他们想利用信用报告和顾 客市场分析数据来作为部分申请人的血液和尿液分析的关联物。 这些分析结果被用来找出更有可能患高血压、糖尿病和抑郁症的人。其中用来分析 的数据包括好几百种生活方式的数据,比如爱好、常浏览的网站、常看的节目、收 入估计等。 通过利用相关关系,保险公司可以在每人身上节省125美元,然而这个纯数据分析法 只需要花费5美元。 32 Xoom与跨境汇款异常交易报警 Xoom是一个专门从事跨境汇款业务的公司,它会分析一笔交易的所有相关数据, 一旦发现用“发现卡”从新泽西州汇款的交易比平常多的话,系统就会报警。 33 无所不包的谷歌翻译系统 2006年,谷歌公司开始涉足机器翻译。这被当作实现“收集全世界的数据资源,并 让人人都可享受这些资源”这个目标的一个步骤。 谷歌翻译利用一个更大更繁杂的数据库,也就是全球的互联网。 谷歌翻译系统为了训练计算机,会吸收它能找到的所有翻译。它增加了很多各种各 样的数据,还接受了有错误的数据。 谷歌语料库的内容来自于未经过滤的网页内容,所以会包含各种错误。但谷歌语料 库是其他语料库的好几百万倍大,这样的优势完全压倒了缺点 34 谷歌,从大的“噪音”数据中受益 谷歌知道人们在搜索时点击的是第1页的第8个链接还是第8页的第1个链接
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 粮食储备的社区粮食安全计划考核试卷
- 酿酒行业节能减排措施考核试卷
- 道路工程测绘技术考核试卷
- 遥感技术在应急管理与救援中的应用考核试卷
- 组织结构优化与流程再造考核试卷
- 常见心脏疾病手术方式
- 新生儿NICU出科报告
- 麻醉专业就业分析研究
- Quadrilineatin-生命科学试剂-MCE
- 9-Heptadecanone-Heptadecan-9-one-生命科学试剂-MCE
- 杭州市西湖区部分校教科版六年级下册期末考试科学试卷(原卷版)
- 双液注浆施工方案
- 民兵训练管理规定
- 2025年国家公务员考试行测常识题库及答案(共300题)
- 2024冀少版七年级下册生物期末复习知识点提纲(详细版)
- 2025年《义务教育小学体育课程标准测试卷2022版》测试题库及答案
- 全国卫生健康系统职业技能竞赛(传染病防治监督)参考试题(附答案)
- 人工智能算法与市场营销的融合研究
- DBJ50-T-157-2022房屋建筑和市政基础设施工程施工现场从业人员配备标准
- 国家开放大学专本科《经济法学》期末纸质考试总题库2025春期版
- 显示屏幕抗反光技术研究-洞察分析
评论
0/150
提交评论