




已阅读5页,还剩15页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 大数据时代的思维变革 1 大数据时代的思维变革 更好 更好 不是因果关系 而是相关关系 知道 是什么 就够了 没必要知道 为什么 在大数据时代 我们不必非得知道现象背后的原因 而是要让数据自己 发声 关联物 预测的关键 是什么 而不是 为什么 改变 从操作方式开始大数据 改变人类探索世界的方法 林登与亚马逊推荐系统 1997年 林登 亚马逊 推荐书籍1998年 item to item 协同过滤技术书评团队被解散评论家所创造的销售业绩计算机生成内容所产生的销售业绩海明威作品与菲茨杰拉德的书知道是什么就够了 没必要知道为什么据说亚马逊销售额的三分之一都是来自于它的个性化推荐系统 关联物 预测的关键 相关关系 相关关系的核心是量化两个数据值之间的数理关系 强和弱通过给我们找到一个现象的良好的关联物 相关关系可以帮助我们捕捉现在和预测未来 实例 沃尔玛 蛋挞与飓风生活中的相关关系身高与前臂的长度小数据时代的相关关系 大数据时代的相关关系谷歌流感预测 5亿个数学模型建立在相关关系分析法基础上的预测是大数据的核心 数据驱动的关于大数据的相关关系分析法 取代了基于假想的易出错的方法 大数据的相关关系分析法更准确 更快 而且不易受偏见的影响 实例 FICO提出 遵从医嘱评分 一系列变量 是否按时吃药益百利预测个人收入信用卡交易记录 预测个人收入1 证明一个人的收入状况10 中英人寿保险公司申请人的健康隐患信用报告 市场分析报告 高血压 糖尿病和抑郁症5 血液尿液样本130 美国折扣零售商塔吉特怀孕预测 预测分析法一个能发现可能的流行歌曲的算法系统防止机器失效和建筑倒塌异常情况与正常情况通过找出一个关联物并监控它 我们就能预测未来 实例 UPS与汽车维修预测2000年 60000辆收集和分析数据的花费比出现停产的损失小得多 当收集 存储和分析数据的成本较高的时候 应该适当地丢弃一些数据 医疗设备获取病人的数据安大略理工大学IBM医院卡罗琳 麦格雷戈检测处理即时的病人信息早产儿病情诊断16个数据点1260 秒在明显感染症状出现的24小时之前 可发现早产儿的稳定是病情感染前的准备 是什么 而不是为什么 在小数据时代 相关关系分析和因果分析都不容易 都耗费巨大 都要从建立假设开始 非线性关系小数据时代 计算机能力的不足限制了非线性关系的研究实例 幸福的非线性关系因果关系是否存在不费力的快速思维费力的慢性思维实例 感冒 狂犬疫苗 我们的直接愿望就是了解因果关系 即使无因果联系存在 我们也还是会假定其存在 研究证明 这只是我们的认知方式 与每个人的文化背景 生长环境以及教育水平是无关的 当我们看到两件事情接连发生的时候 我们会习惯性地从因果关系的角度来看待它们 看看下面的三句话 弗雷德的父母迟到了 供应商快到了 弗雷德生气了 弗雷德为什么生气 快速思维模式使人们偏向用因果联系来看待周围的一切 即使这种关系并不存在 冬天不戴帽子和感冒 狂犬疫苗这个例子来说 1885年7月6日 法国化学家路易 巴斯德 LouisPasteur 接诊了一个9岁的小孩约瑟夫 梅斯特 JosephMeister 他被带有狂犬病毒的狗咬了 巴斯德刚刚研发出狂犬疫苗 也实验验证过效果了 梅斯特的父母就恳求巴斯德给他们的儿子注射一针 巴斯德做了 梅斯特活了下来 发布会上 巴斯德因为把一个小男孩从死神手中救出而大受褒奖 一般来说 人被狂犬病狗咬后患上狂犬病的概率只有七分之一 相关关系很有用 不仅仅是因为它能为我们提供新的视角 而且提供的视角都是很清晰的 而我们一旦把因果关系考虑进去 这些视角就有可能被蒙蔽掉 实例 kaggle二手车质量竞赛橙色的车因果是相关关系的一种 相关关系分析通常情况下能取代因果关系起作用 即使不可取代的情况下 它也能指导因果关系起作用 实例 曼哈顿沙井盖的爆炸 改变 从操作开始 实例 曼哈顿沙井盖爆炸每年 因沙井盖内部失火 纽约每年有很多沙井盖会发生爆炸 联合爱迪生电力公司 ConEdison 每年都会对沙井盖进行常规检查和维修 2007年 联合爱迪生电力公司向哥伦比亚大学的统计学家求助 希望他们通过对一些历史数据的研究 预测出可能会出现问题并且需要维修的沙井盖 改变 从操作开始 这是一个复杂的大数据问题 仅纽约 地下电缆就有15万公里 曼哈顿有大约51000个沙井盖和服务设施 很多设施都是在爱迪生那个时代建成的有二十分之一的电缆在1930年之前就铺好了 1880以来的数据都保存着 却很杂乱 改变 从操作开始 这是一个复杂的大数据问题 仅纽约 地下电缆就有15万公里 曼哈顿有大约51000个沙井盖和服务设施 很多设施都是在爱迪生那个时代建成的有二十分之一的电缆在1930年之前就铺好了 1880以来的数据都保存着 却很杂乱 负责这个项目的统计学家辛西亚 鲁丁 CynthiaRudin 将杂乱的数据整理好给机器处理发现了大型沙井盖爆炸的106种预警情况 在布朗克斯 Bronx 的电网测试中 他们对2008年中期之前的数据都进行了分析 并利用这些数据预测了2009年会出现问题的沙井盖 预测效果非常好 在他们列出的前10 的高危沙井盖名单里 有44 的沙井盖都发生了严重的事故 最重要的因素是这些电缆的使用年限和有没有出现过问题 大数据 改变人类探索世界的方法 大量的数据从某种程度上意味着 理论的终结 2008年 连线 主编克里斯 安德森大数据是在理论的基础上形成的 理论贯穿于大数据的整个过程 数据的收集 分析 结果解读 大数据带来的思维方式的变化 处理的对象往往是全部数据 而不是部分数据的采样采样的不合理会导致预测结果的偏差 在大数据时代 依靠强大的数据处理能力 应该去处理全部的数据 不再执迷于精确性精确的 规范化的 可以被传统数据库处理的数据只占全部数据的5 必须接受不精确性才能处
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年网络游戏设计与管理专项考核试卷及答案
- 2025年耐温隔热纸项目建议书
- 七上 七下八上数学试卷
- 千里马初一数学试卷
- 七下广西桂林数学试卷
- 农业土地利用分析报告
- 宁夏银川高三数学试卷
- 衢州北京中考数学试卷
- 临沂高二统考数学试卷
- 2025年谷糙分离设备项目建议书
- 企业资产收购尽职调查操作手册
- 2025年陕西省综合评标评审专家库考试历年参考题库含答案详解(5套)
- 软件开发项目进展汇报
- 六安市辅警真题2024
- 2025贵州航空产业城集团股份有限公司旗下子公司贵州安立航空材料有限公司面向社会招聘61人笔试参考题库附带答案详解
- 摄影提成管理办法
- 人工智能赋能基础教育应用蓝皮书 2025
- 2025广东南粤银行资金运营中心招聘考前自测高频考点模拟试题带答案详解
- 磷石膏砌块项目可行性研究报告
- 现场调试合同协议书模板
- 钢结构门头专项施工方案
评论
0/150
提交评论