大数据的处理和分析ppt课件.ppt

上传人：鹏*** IP属地：广东上传时间：2020-04-05 格式：PPT 页数：48 大小：829.50KB 积分：25 举报 版权申诉

已阅读5页，还剩43页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据的处理和分析 1 课程内容课程内容本次讲座与下述内容关系不大围绕学科理论体系中的模型理论程序理论和计算理论1 模型理论关心的问题给定模型M 哪些问题可以由模型M解决如何比较模型的表达能力2 程序理论关心的问题给定模型M 如何用模型M解决问题包括程序设计范型程序设计语言程序设计形式语义类型论程序验证程序分析等3 计算理论关心的问题给定模型M和一类问题解决该类问题需多少资源 2 讲座提纲大数据的魅力数据挖掘大数据大数据案例大数据的特点大数据时代的思维变革样本和全体精确性和混杂性因果关系和相关关系大数据的处理几种主要处理方式 MapReduce编程模型大数据的分析关键技术概述 PageRank初步 3 数据挖掘数据挖掘的定义1 从数据中提取出隐含的过去未知的有价值的潜在信息2 从大量数据或者数据库中提取有用信息的科学相关概念知识发现1 数据挖掘是知识发现过程中的一步2 粗略看数据预处理数据挖掘数据后处理预处理将未加工输入数据转换为适合处理的形式后处理如可视化便于从不同视角探查挖掘结果大数据的魅力 4 数据挖掘典型事例购物篮分析顾客一次购买商品1面包黄油尿布牛奶2咖啡糖小甜饼鲑鱼3面包黄油咖啡尿布牛奶鸡蛋4面包黄油鲑鱼鸡5鸡蛋面包黄油6鲑鱼尿布牛奶7面包茶叶糖鸡蛋8咖啡糖鸡鸡蛋9面包尿布牛奶盐10茶叶鸡蛋小甜饼尿布牛奶经关联分析可发现顾客经常同时购买的商品尿布牛奶大数据的魅力 5 大数据大数据或称海量数据指所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取管理处理并整理成为人类所能解读的信息在总数据量相同的情况下与个别分析独立的小型数据集相比将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性可用来察觉商业趋势避免疾病扩散打击犯罪测定实时交通路况或判定研究质量等这样的用途正是大型数据集盛行的原因数据挖掘则是探讨用以解析大数据的方法大数据的魅力 6 大数据案例谷歌预测冬季流感的传播2009年出现了一种称为甲型H1N1的新流感病毒在短短几周内迅速传播开来全球的公共卫生机构都担心一场致命的流行病即将来袭美国也要求医生在发现甲型H1N1病例时告知疾病控制与预防中心但人们从患病到求医会滞后信息传到疾控中心也需要时间因此通告新病例往往有一两周的延迟而且疾控中心每周只进行一次数据汇总信息滞后两周对一种飞速传播的疾病是致命的它使得公共卫生机构在疫情爆发的关键时期难以有效发挥作用大数据的魅力 7 大数据案例谷歌预测冬季流感的传播在这种流感爆发的几周前谷歌的工程师在自然杂志发表引人注目的论文令公共卫生官员和计算机科学家感到震惊因为文章不仅预测了流感在全美的传播而且具体到特定的地区和州谷歌是通过观察人们在网上的搜索记录来完成这个预测的这种方法以前一直是被忽略的谷歌保存了多年来所有的搜索记录每天有来自全球30亿条搜索指令仅谷歌有这样的数据资源如此庞大数据资源足以支撑和帮助它完成这项工作大数据的魅力 8 大数据的魅力大数据案例谷歌预测冬季流感的传播原理十分简单现在大家都有上网搜索信息的习惯连头痛感冒也上网搜索谷歌流感趋势项目通过记录搜索有关流感词条的地区和频率并分析其与流感在时间和空间上的传播之间的联系追踪到流感广泛传播的地区进而预测流感可能爆发的高危地区即当某地区在网上搜寻与流感有关信息的人日益增多很可能意味着该地区有许多人患上流感类疾病因为流感趋势项目能够近乎实时地估计流感活动情况故它比其他系统能够更早地发现流感疫情 9 大数据的魅力大数据案例谷歌预测冬季流感的传播谷歌把5000万条美国人最频繁检索的词条与疾控中心在2003年到2008年间季节性流感传播期间的数据进行比较以确定相关检索词条并总共处理了4 5亿个不同的数学模型在把得出的预测与2007年和2008年美国疾控中心记录的实际流感病例进行对比后筛选了45条检索词条的组合并把它们用于一个特定的数学模型后其预测与官方数据相关性高达97 因此当2009年甲型H1N1流感爆发时与滞后的官方数据相比谷歌成为一个更有效及时的指示者 10 大数据的魅力大数据案例谷歌预测冬季流感的传播这是当今社会所独有的一种新型能力以一种前所未有的方式通过对海量数据的分析获得巨大价值的产品和服务或深刻的洞见大数据不仅会变革公共卫生也会变革商业变革思维改变政府与民众关系的方法开启重大的时代转型 11 大数据的魅力大数据的特点体量巨大 Volume 数据集合的规模不断扩大已从GB 1024MB 到TB 1024GB 再到PB级甚至已经开始以EB和ZB来计数至今人类生产的所有印刷材料的数据量是200PB 未来10年全球大数据将增加50倍管理数据仓库的服务器的数量将增加10倍类型繁多 Variety 数据种类繁多并且被分为结构化半结构化和非结构化的数据半结构化和非结构化数据包括传感器数据网络日志音频视频图片地理位置信息等占有量越来越大已远远超过结构化数据 12 大数据的魅力大数据的特点价值密度低 Value 数据总体的价值巨大但价值密度很低以视频为例在长达数小时连续不断的视频监控中有用数据可能仅一二秒另一极端是各数据都有贡献但单个数据价值很低速度快 Velocity 数据往往以数据流的形式动态快速地产生具有很强的时效性用户只有把握好对数据流的掌控才能有效利用这些数据例如一天之内需要审查500万起潜在的贸易欺诈案件需要分析5亿条日实时呼叫的详细记录以预测客户的流失率 13 大数据时代的思维变革数据采集和数据处理技术已经发生了翻天覆地的变化人们的思维和方法要跟得上这个变化大数据时代的精髓在于人们分析信息时的三个转变这些转变将改变人们决策的制定和对表象的理解 14 大数据时代的思维变革变革一更多不是随机样本而是全体数据1 随机抽样用最少的数据获得最多的信息过去由于获取和分析全体数据的困难抽样调查是一种常用统计分析方法它根据随机原则从总体中抽取部分实际数据进行调查并运用概率估计方法根据样本数据推算总体相应的数量指标抽样分析的精确性随抽样随机性的增加而提高与样本数量的增加关系不大抽样随机性高时分析的精度能达到把全体作为样本调查时的97 样本选择的随机性比样本数量更重要 15 大数据时代的思维变革变革一更多不是随机样本而是全体数据1 随机抽样用最少的数据获得最多的信息抽样分析的成功依赖于抽样的随机性但实现抽样的随机性非常困难当想了解更深层次的细分领域的情况时随机抽样方法不一定有效即在宏观领域起作用的方法在微观领域可能失去了作用随机抽样需要严密的安排和执行人们只能从抽样数据中得出事先设计好的问题的结果 16 大数据时代的思维变革变革一更多不是随机样本而是全体数据2 全体数据用全体数据可对数据进行深度探讨流感趋势预测分析了整个美国几十亿条互联网检索记录使得它能提高微观层面分析的准确性甚至能够推测某个特定城市的流感状况信用卡诈骗需通过观察异常情况来识别这只有在掌握所有的数据时才能做到社会科学是被样本全体撼动得最厉害的一门学科这门学科过去非常依赖于样本分析研究和调查问卷当记录下人们的平常状态就不用担心在做研究和调查问卷时存在的偏见了 17 大数据时代的思维变革变革二更杂不是精确性而是混杂性对小数据而言最基本和最重要的要求就是减少错误保证质量因为收集的数据较少应确保每个数据尽量精确以保证分析结果的准确性允许不精确数据是大数据的一个亮点而非缺点因为放松了容错的标准就可以掌握更多数据而掌握大量新型数据时精确性就不那么重要了例如与服务器处理投诉时的数据进行比较用语音识别系统识别呼叫中心接到的投诉会产生不太准确的结果但它有助于把握事情的大致情况不精确的大量新型数据能帮助掌握事情发展趋势 18 大数据时代的思维变革变革二更杂不是精确性而是混杂性执迷于精确性是信息缺乏时代的产物大数据时代要求重新审视精确性的优劣如果将传统的思维模式运用于数字化网络化的21世纪就会错过重要信息失去做更多事情创造出更好结果的机会另一方面需要与数据增加引起的各种混乱数据格式不一致数据错误率增加等做斗争错误并不是大数据的固有特性但可能是长期存在并需要去处理的现实问题 19 大数据时代的思维变革变革三更好不是因果关系而是相关关系1 因果关系与相关关系因果关系是指一个事件是另一个事件的结果相关关系是指两个事件的发生存在某个规律与通过逻辑推理研究因果关系不同大数据研究通过统计性的搜索比较聚类分析和归纳寻找事件或数据之间的相关性一般来说统计学无法检验逻辑上的因果关系也许正因为统计方法不致力于寻找真正的原因才促进数据挖掘和大数据技术在商业领域广泛应用 20 大数据时代的思维变革变革三更好不是因果关系而是相关关系2 相关关系帮助捕捉现在和预测未来如果A和B经常一起发生则只需注意到B发生了就可以预测A也发生了故障经常是慢慢出现的通过收集所有数据可预先捕捉到事物要出故障的信号如将发动机的嗡嗡声引擎过热等异常情况与正常情况对比就能知道什么地方将出毛病及时更换或修复过去需先有想法然后收集数据来测试想法的可行性现在可以对大数据进行相关关系分析知道机票是否会飞涨哪些词条最能显示流感的传播 21 大数据时代的思维变革变革三更好不是因果关系而是相关关系3 大数据改变人类探索世界的方法越来越多的事物不断地数据化将拓展人类的视野使得人们可从大量的数据中发现隐藏在其中的自然规律社会规律和经济规律当网页变成数据谷歌具备了令人大跌眼球的全文搜索能力在几个毫秒之内就能让人们检索世界上几乎所有的网页当方位变成数据每个人都能借助GPS快速到达目的地 22 大数据时代的思维变革变革三更好不是因果关系而是相关关系3 大数据改变人类探索世界的方法当情绪变成数据人们甚至根据大家快乐与否判断股市的涨跌上述这些不同的数据可归结为几类相似的数学模型从而使得数据科学应用数据学习知识的学科成为一门具备普遍适用的学科生物信息学计算社会学天体信息学电子工程金融学经济学等学科都依赖数据科学的发展 23 大数据的处理大数据处理的几种主要方式海量数据的处理对于当前的技术来说是一种极大的挑战目前大数据的主要处理形式如下静态数据的批量处理数据体量巨大精确度高价值密度低挖掘合适模式得出具体含义制定明智决策用于社交网络电子商务搜索引擎等在线数据的实时流式处理日志数据传感器数据 Web数据等数据连续不断来源众多格式复杂等流式挖掘实时分析应用于智能交通环境监控金融银行等还有在线数据的交互处理图数据处理 24 大数据的处理 MapReduce编程模型是批量数据处理的一个常用编程模型源于函数式语言的两个高阶函数 map和reducemap f1 x1 xn f1 x1 f1 xn f1作用于n个变元的计算可以并行reduce f2 y1 yn f2 f2 f2 y1 y2 y3 yn 若二元函数f2是有交换律和结合率的运算则f2作用于n个变元的计算也可以适当并行两者的复合 reduce f2 map f1 x1 xn MapReduce源于此但更加一般 25 MapReduce编程模型MapReduce是一种比较专用的并行编程模型面向大数据集上的可并行化的问题Map完成过滤或分类例如它把数据集中所有的人按姓氏分成若干队列每个姓氏一个队列 Reduce完成概括总结操作例如计算各姓氏队列中的人数产生按姓氏的人口比例MapReduce可以在并行计算机计算机集群和计算机网格上实现大数据的处理 26 MapReduce编程模型计算过程如图所示程序员只需编写Map和Reduce函数1 Map任务执行Map函数的多个任务并行执行每个Map任务把文件块转换成键值 key value 对序列大数据的处理 27 MapReduce编程模型2 按键组合其处理方式与两个函数无关把键值对序列组成键值表对序列把各键值表对分发给Reduce任务按键组合由主控程序完成大数据的处理 28 MapReduce编程模型3 Reduce任务执行Reduce函数的多个任务并行执行每个Reduce任务把键值表对中的值以某种方式组合转换成键值对输出大数据的处理 29 当矩阵很大时可用MapReduce实现矩阵运算对于分块乘 1 Map任务计算两块的乘用结果在Z中的位置作为键2 Reduce任务按键值来分别累加Map任务的结果大数据的处理 Z 30 当矩阵很大时可用MapReduce实现矩阵运算对于分块乘 1 Map任务计算两块的乘用结果在Z中的位置作为键2 Reduce任务按键值来分别累加Map任务的结果大数据的处理 Z 31 大数据的处理 Z 当矩阵很大时可用MapReduce实现矩阵运算对于分块乘 1 Map任务计算两块的乘用结果在Z中的位置作为键2 Reduce任务按键值来分别累加Map任务的结果 32 大数据的处理 Z 当矩阵很大时可用MapReduce实现矩阵运算对于分块乘 1 Map任务计算两块的乘用结果在Z中的位置作为键2 Reduce任务按键值来分别累加Map任务的结果 33 当矩阵很大时可用MapReduce实现矩阵运算对于分块乘 1 Map任务计算两块的乘用结果在Z中的位置作为键2 Reduce任务按键值来分别累加Map任务的结果大数据的处理 Z 34 大数据的处理 Z 当矩阵很大时可用MapReduce实现矩阵运算对于分块乘 1 Map任务计算两块的乘用结果在Z中的位置作为键2 Reduce任务按键值来分别累加Map任务的结果 35 大数据的处理 Z 当矩阵很大时可用MapReduce实现矩阵运算对于分块乘 1 Map任务计算两块的乘用结果在Z中的位置作为键2 Reduce任务按键值来分别累加Map任务的结果 36 大数据分析的关键技术要挖掘大数据的大价值必须对大数据进行内容上的分析与计算深度学习大数据的出现提供了使用复杂而不是简单或浅层的模型来有效地表征和解释数据的机会深度学习就是利用层次化的架构学习出对象在不同层次上的表达例降低语音识别错误率知识计算要对大数据进行高端分析就需要从大数据中抽取出有价值的知识并将其构建成可支持查询分析和计算的知识库涉及知识库的构建多源知识的融合和知识库的更新大数据的分析 37 大数据的分析大数据分析的关键技术社会计算是现代计算技术与社会科学之间的交叉学科它是指面向社会活动社会过程社会结构社会组织和社会功能的计算理论和方法在线社会计算包括在线社会网络的结构分析信息传播模型以及信息内容的分析建模与挖掘等可视化不同于传统的信息可视化大数据可视化的最大挑战源自其数据规模如何提出新的可视化方法它能够帮助人们分析大规模高维度多来源动态演化的信息并辅助作出实时的决策 38 大数据的分析 PageRank初步PageRank 网页排名通过对网络浩瀚的超链接关系的分析来确定一个页面的等级Google把从A页面到B页面的链接解释为A页面给B页面投票 B页面从A页面的投票能得多少分还与A页面的等级有关一个页面的PageRank 由所有给它投票的页面的数量和重要性经过迭代计算得到这项技术使得Google成为第一个能够战胜作弊者的搜索引擎当然与作弊者之间的斗争永远不会停止 39 大数据的分析 PageRank初步1 早期搜索引擎与词项作弊搜索引擎词项出现在网页头部比在普通正文的得分高词项在网页中出现的次数越多得分越高作弊者在自己的网页上增加热门词项如movie 并重复很多次以提高与movie的相关性词项movie在该网页上的颜色与背景色一样以掩盖作弊者的不道德行为 40 大数据的分析 PageRank初步2 Google的对策使用PageRank技术来模拟Web漫游者的行为他们从随机页面出发每次从当前网页随机地选择出链前行该过程可以迭代多次最终较多漫游者访问的网页则重要性较高在决定查询应答顺序时 Google把重要页面放在前面在判断网页内容时不仅考虑网页上出现的词项还考虑有链接指向该网页的网页中所使用的词项 41 大数据的分析 PageRank初步3 最简单的PageRank举例PageRank 网页集实数值越大则网页越重要定义网页的Web迁移矩阵M来描述随机漫游者的下一步访问行为例从A出发以1 3的概率访问B C和D 访问A的概率为0 42 大数据的分析 PageRank初步3 最简单的PageRank举例

人人文库> 全部分类> 教育资料 > 作文作品

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据的处理和分析ppt课件.ppt

文档简介

温馨提示

最新文档

评论

大数据的处理和分析ppt课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档