大数据分析与挖掘课件.ppt_第1页
大数据分析与挖掘课件.ppt_第2页
大数据分析与挖掘课件.ppt_第3页
大数据分析与挖掘课件.ppt_第4页
大数据分析与挖掘课件.ppt_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据分析与挖掘 大数据与数据挖掘 课程的背景 2 中国大数据发展调查报告 2018年 2017年中国大数据产业总体规模为4700亿元人民币 同比增长30 预计2018 2020年增速将保持在30 以上 大部分企业均已意识到数据分析对企业发展的重要性 近四成的企业已经应用了大数据 与2016年相比上升4 5 金融等领域大数据应用增加趋势较为明显 企业应用大数据所带来的主要效果包括实现智能决策 提升运营效率和改善风险管理 3 我们身边的大数据 4 百度地图的定位数据 对大数据的初步认识 1 除夕夜哈尔滨迁徙地图 三十多年来 我国春运大军从1亿多人次到36亿人次春运的最热现象是逆向过年 即老人们到孩子工作的地方过年 6 对大数据的初步认识 2 大数据与交通拥堵 7 一卡通大量使用 乘客出行的海量数据预埋传感器 收集车流量 客流量信息卫星地图数据对道路交通情况进行分析出租车提供实时数据 了解主要道路的路况智能手机使用地图应用 分析出实时的道路交通拥堵状况 出行流动趋势或特定区域的人员聚集程度 对大数据的初步认识 3 大数据分析电信诈骗 根据2015年的统计数据 我国公民个人信息泄露数量已经达到40亿条左右 刚取了通知书就有助学金诈骗电话刚买了房就有无数装修公司的电话 8 大数据的基本特征 9 用4个V来总结 Volume Variety Value和Velocity数据体量大 从TB级别 跃升到PB数据多样性 多为非结构型数据 如网络日志 视频 图片 地理位置信息价值密度低 以视频为例 连续不间断监控过程中 可能有用的数据仅仅有一两秒速度快 产生了大量的高速动态数据流 对数据流的实时分析与处理要求不断增加 数据处理的越及时 产生的价值越大 10 大数据基本特征的第五个V Veracity数据的不确定性 数据挖掘 DataMining 11 概念从大量数据中抽取出 隐含的 有潜在用途的 未知的 人们可以理解的 有价值的信息和模式的过程 这些新发现的规律 模式 信息和概念具有潜在使用价值 数据挖掘背后的大数据思维 寻找特效药 科学家们通常需要分析疾病产生的原因 寻找能够消除这些原因的物质 然后合成新药 是一个非常漫长的过程 而且费用非常高 有了大数据 寻找特效药的方法就和过去有所不同了 斯坦福大学医学院发现 原来用于治疗心脏病的某种药物对治疗某种胃病特别有效 这种方法 实际上依靠的并非因果关系 而是一种强关联关系 即A药对B病有效 至于为什么有效 接下来3年的研究工作实际上就是在反过来寻找原因 这种先有结果再反推原因的做法 和过去通过因果关系推导出结果的做法截然相反 无疑 这样的做法会比较快 当然 前提是有足够多的数据支持 12 在大数据时代 我们能够得益于一种新的思维方法 从大量的数据中直接找到答案 即使不知道原因 数据挖掘背后的大数据思维 在数据挖掘的思想中 知识的学习是不需要通过具体问题的专业知识建模 这其实是模拟了人的原始学习过程 比如你要预测一个人跑100米要多久时间 可以根据之前了解的他这样体型的人跑100米用的多少时间做一个估计 而不会使用牛顿定律来算 13 数据挖掘 DataMining一般流程 14 数据挖掘 DataMining功能 关联规则分类与预测聚类分析 15 数据挖掘 DataMining关联规则 16 关联规则 零售业应用 几十年来 大型零售商塔吉特收集了海量的数据 记录了每一位经常光顾其各分店的顾客数据 发现女客户会在怀孕四个月左右 大量购买无香味乳液 由此挖掘出25项与怀孕高度相关的商品 制作 怀孕预测 指数 推算出预产期后 就能抢先一步 将孕妇装 婴儿床等折扣券寄给客户 在接下来的几年中会根据婴儿的生长周期定期给这些顾客推送相关产品 使这些客户形成长期的忠诚度 17 数据挖掘 DataMining分类与预测 18 数据挖掘分类与预测金融创新产品设计 19 数据挖掘 DataMining时间序列分析 20 数据挖掘 DataMining时间序列分析 时间序列预测即以时间序列所能反映的社会经济现象的发展过程和规律性 进行引伸外推 预测其发展趋势的方法 简单来说就是从已知事件测定未知事件 时间序列数据的趋势变动可分为以下四点 趋势性 周期性 随机性 综合性预测时一般设法过滤除去不规则变动 突出反映趋势性和周期性变动 21 数据挖掘 DataMining聚类分析 22 数据挖掘 DataMining社交网络 舆情分析 23 社交网络的分析 社交网络中社区圈子的识别社交网络中人物影响力的计算信息在社交网络上的传播模型虚假信息和机器人账号的识别基于社交网络信息对股市 大选以及传染病的预测社交网络的分析和研究是一个交叉领域的学科通常会利用社会学 心理学甚至是医学上的基本结论和原理作为指导通过人工智能领域中使用的机器学习 图论等算法对社交网络中的群体行为和未来的趋势进行模拟和预测 24 大数据带给数据挖掘的 25 神经网络在几十年前就有了因为他们需要大量的 训练 对早期研究者来说 想要获得不错效果的最小量训练都远远超过计算能力和能提供的数据的大小团队通过在网络围棋对战平台上最强人类对手 百万级的对弈落子去训练 数据挖掘 DataMining大数据管理与挖掘案例 随着我们通过电话 信用卡 电子商务 互联网和电子邮件留下更多的生活痕迹 大数据不断增长的商业影响也在如下时刻表现出来 你搜索飞往哈尔滨的航班 然后便看到网站上出现了当地宾馆的打折信息你光顾的商店在对顾客行为进行数据挖掘的基础上获取最大化的利润用算法预测人们购票需求 航空公司以不可预知的方式调整价格智能手机的应用识别到你的位置 因此你收到附近餐厅的服务信息 26 数据挖掘 DataMining大数据管理与挖掘案例 27 麻省理工学院创建了一个计算机模型来分析心脏病病患丢弃的心电图数据他们利用数据挖掘在海量的数据中筛选 发现心电图中出现三类异常者一年内死于第二次心脏病发作的机率比未出现者高一至二倍这种新方法能够识别出更多的 无法通过现有的风险筛查被探查出的高危病人 数据挖掘 DataMining大数据管理与挖掘案例 大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件AdvancedScout系统来优化他们的战术组合系统分析显示两个后卫哈德卫和伯兰 绍在前两场中被评为 17分但当哈德卫与替补后卫阿姆斯创组合时 魔术队得分为正14分魔术队增加了阿姆斯创的上场时间 此着果然见效 AdvancedScout是一个数据分析工具 每一场比赛的事件都被统计分类 按得分 助攻 失误等等 时间标记让教练非常容易地通过搜索NBA比赛的录像来理解统计发现的含义 28 数据挖掘 DataMining大数据管理与挖掘案例 头脑里的大数据 人类连接组项目是一项雄心勃勃地试图绘制出不同脑区之间相互作用的计划 项目使用三种磁共振造影观察脑的结构 功能和连接 数据收集工作完成之时 连接组获得大约100万G数据 如果区域A和区域B自发地以每秒18个周期的频率产生脑波 说明它们处于同一网络中 将利用整个大脑中的这些关联数据创建一个表现出脑中的每一个点如何与其他每一个点关联的矩阵 29 大数据挖掘风险个人隐私泄露 通

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论