版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据调研汇报第1页大数据与机器学习大数据处理系统大数据系统框架CONTENTS PAGE目录页大数据概念与特征第2页大数据概念与特征01大数据概念大数据四个特征大数据与传统数据比较第3页“大数据”概念最早由维克托迈尔舍恩伯格和肯尼斯库克耶在编写大数据时代中提出,指不用随机分析法(抽样调查)捷径,而是采取全部数据进行分析处理。大数据(Big Data)又称为巨量资料,指需要新处理模式才能含有更强决议力、洞察力和流程优化能力海量、高增加率和多样化信息资产。大数据概念第4页4速度快(Velocity)第四个特征是数据处理速度快,数据产生快,假如海量数据未能实时处理,将失去其应有价值。1.数据量大(
2、Volume)第一个特征是数据量大。大数据起始计量单位最少是P(1000个T)、E(100万个T)或Z(10亿个T)。特征2.数据类型多(Variety)第二个特征是数据类型繁多。包含网络日志、音频、视频、图片、地理位置信息等等,多类型数据对数据处理能力提出了更高要求。3价值密度低,商业价值高(Value)第三个特征是数据价值密度相对较低。以视频为例,连续不间断监控过程中,可能有用数据仅有一两秒大数据特征5数据真实性(Veracity)高质量数据是大数据发挥效能前提和基础。之后专业数据分析工具才能从海量数据中提取出隐含、准确、有用信息。第5页大数据与传统数据比较第6页大数据处理系统02处理数据
3、理念大数据处理形式静态数据批处理在线数据实时处理图数据综合处理第7页要全体不要抽样要效率不要绝对准确要相关不要结果0103处理数据理念处理数据理念第8页批量数据处理系统流式数据处理系统在线数据实时处理静态数据批处理大数据处理与系统处理形式交互式数据处理系统图数据综合处理第9页1.数据体量巨大(从TB跃升到PB级别)2.数据准确度高(企业应用中沉淀下来数据)3.数据价值密度低(比如视频数据)批量数据处理系统互联网领域:社交网络(Facebook):文本、图片、音视频电子商务(淘宝):购置历史统计搜索引擎(Google)公共服务领域:能源、医疗保健特征:经典应用: Hadoop 是经典大数据批量处
4、理架构,由 HDFS 负责静态数据存放,并经过MapReduce 将计算逻辑分配到各数据节点进行数据计算和价值发觉. MapReduce采取无共享大规模集群系统,集群系统含有良好性价比和可伸缩性;MapReduce模型简单、易于了解、易于使用;MapReduce能够提供良好数据处理性能。特征:高可靠性、高扩展性、高效性、高容错性、低成本代表性处理系统:第10页数据连续不停、起源众多、格式复杂、物理次序不一、数据价值密度低.实时数据处理之流式处理系统(a)数据采集应用:数据采集应用经过主动获取海量实时数据,及时地挖掘出有价值信息。(b)金融银行业应用:发觉隐含数据内在特征,能够帮助金融银行进行实
5、时决议。流式数据特征:经典应用:Twitter Storm:一套分布式、可靠、可容错用于处理流式数据系统,其流式处理作业被分发至不一样类型组件,每个组件负责一项简单、特定处理任务。代表性处理系统:第11页批处理和流处理比较第12页实时数据处理之交互式处理系统特征:交互式数据处理灵活、直观、便于控制. 操作人员提出请求,数据以对话方式输入,系统便提供对应数据或提醒信息,引导操作人员逐步完成所需操作,直至取得最终处理结果.(a)在信息处理系统领域中,主要表达了人机间交互. 比如,网络日志分析(b) 互联网领域. 主要表达了人际间交互. 如搜索引擎、电子邮件、即时通讯工具等经典应用:代表性处理系统:
6、 Berkeley Spark 系统Spark 是一个基于内存计算可扩展开源集群计算系统,是专为大规模数据处理而设计快速通用计算引擎。 Spark拥有MapReduce所含有优点,针对 MapReduce 不足,即大量网络传输和磁盘 I/O 使得效率低效, Spark 使用内存进行数据计算方便快速处理查询,实时返回分析结果,能更加好地适合用于数据挖掘与机器学习等需要迭代MapReduce算法第13页图数据中主要包含图中节点以及连接节点边,通常含有 3 个特征.第一,节点之间关联性.第二,图数据种类繁多. 第三,图数据计算强耦合性.图数据综合处理特征:经典应用:(a) 互联网领域应用:搜索引擎中
7、,能够用图表示网页之间相互超链接关系,从而计算一个网页PageRank 得分;图表示如 E-mail 中人与人之间通信关系,从而能够研究社会群体关系等问题;在微博中,经过图研究信息传输与影响力最大化等问题.(b) 自然科学领域应用:图能够用来在化学分子式中查找分子,在蛋白质网络中查找化合物,在 DNA 中查找特定序列等.(c) 交通领域应用:图可用来在动态网络交通中查找最短路径,在邮政快递领域进行邮路规划等.第14页实时数据处理之交互式处理系统代表性处理系统:Google Pregel 系统Pregel 是 Google 提出基于BSP(Bulk synchronous parallel)模型
8、分布式图计算框架,主要用于图遍历(BFS)、最短路径(SSSP)、PageRank 计算等. 特征:采取主/从(Master/Slave)结构来实现整体功效有很好容错机制。使用 GFS 或 BigTable 作为持久性存放。BSP 模型是并行计算模型中经典模型,采取是“计算-通信-同时”模式.它将计算分成一系列超步(superstep)迭代.从纵向上看,它是一个串行模式,而从横向上看.它是一个并行模式,每两个超步之间设置一个栅栏,即整体同时点,确定全部并行计算都完成后再开启下一轮超步第15页大数据系统框架03数据生成数据采集数据存放数据分析第16页数据生成数据获取数据存放数据分析大数据可深入细
9、分为大数据科学 (big data science) 和大数据框架 (big data frameworks). 大数据科学是涵盖大数据获取、调整和评定技术研究,大数据框架是在计算单元集群间处理大数据问题分布式处理和分析软件库及算法 . 一个或多个大数据框架实例化即为大数据基础设施。大数据系统框架第17页社交网络应用Facebook 则天天需存放、访问和分析超出 30 PB 用户创造数据 ; Twitter 每个月会处理超出 3200 亿搜索 日益增加需要使用高效实时分析工具挖掘其价值 . 比如 , Amazon 天天要处理几百万后端操作和来自第三方销售超出 50 万查询请求 . 沃尔玛每小时
10、要处理上百万客户事务 ,这些事务被导入数据库 , 约有超出 2.5 PB 数据量光学观察和监控、计算生物学 、天文学、高能物理等。这些领域不但要产生海量数据 , 还需要分布在世界各地科学家们协作分析数据数据生成商业数据网络数据科学研究数据第18页数据采集数据传输数据预处理数据获取数据获取阶段任务是以数字形式将信息聚合 , 以待存放和分析处理获取信息过程步骤第19页数据获取之数据采集数据采集是指从特定数据生产环境取得原始数据专用数据采集技术爬虫传感器日志数据采集方法爬虫是指为搜索引擎下载并存放网页程序Web 传感器惯用于测量物理环境变量并将其转化为可读数字信号以待处理 日志是广泛使用数据采集方法
11、之一 , 由数据源系统产生 , 以特殊文件格式统计系统活动第20页三种数据采集方式比较第21页数据获取之数据传输(1) IP 骨干网传输IP 骨干网提供高容量主干线路将大数据从数据源传递到数据中心 . 传输速率和容量取决于物理媒体和链路管理方法 .(2) 数据中心传输数据传递到数据中心后 , 将在数据中心内部进行存放位置调整和其它处理 , 这个过程称为数据中心传输 , 包括到数据中心体系架构和传输协议原始数据采集后必须将其传送到数据存放基础设施如数据中心等候深入处理.数据传输两个阶段:第22页数据获取之数据预处理数据预处理方法数据清洗数据集成冗余消除数据清洗是指在数据集中发觉不准确、不完整或不
12、合理数据 , 并对这些数据进行修补或移除以提升数据质量过程 数据集成技术在逻辑上和物理上把来自不一样数据源数据进行集中 , 为用户提供一个统一视图数据冗余是指数据重复或过剩 , 这是数据集常见问题 . 数据冗余会增加传输开销 ,浪费存放空间 , 造成数据不一致 , 降低可靠性 . 第23页数据存放数据管理框架:数据管理框架处理是怎样以适当方式组织信息以待有效地处理 。 从层次上划分为三层:1.文件系统2.数据库技术3.编程模型数据管理软件:硬件基础设施:硬件基础设施实现信息物理存放 , 能够从不一样角度了解存放基础设施,经典存放技术:1.随机存取存放器(RAM)2.磁盘和磁盘阵列3.存放级存放
13、器数据存放处理是大规模数据持久存放和管理,数据采集完成后 , 需要高速数据传输机制将数据传输到适当存放系统 , 供不一样类型分析应用使用。第24页数据管理框架 文件系统:Google 为大型分布式数据密集型应用设计和实现了一个可扩展分布式文件系统 GFS. GFS运行在廉价商用服务器上 , 为大量用户提供容错和高性能服务 . GFS 适合用于大文件存放和读操作远多于写操作应用 . 不过GFS 含有单点失效和处理小文件效率低下缺点。淘宝则设计了两种类似小文件分布式文件系统 : TFS 和FastFS数据库技术:NoSQL 数据库有模式自由、易于复制、提供简单 API 、最终一致性和支持海量数据特
14、征 , 逐步成为处理大数据标准。三种主流 NoSQL 数据库 : 键值 (key-value) 存放数据库、列式存放数据库和文档存放数据库 编程模型:NoSQL数据库没有插入操作申明性表述 , 对查询和分析支持也不够,编程模型能够有效提升NoSQL数据库性能 , 缩小了NoSQL和关系型数据库性能差距 。主要有三种编程模型 : 通用处理模型、图处理模型以及流处理模型 。第25页数据分析目标: 推测或解释数据并确定怎样使用数据 ; 检验数据是否正当 ; 给决议制订合理提议 ; 诊疗或推断错误原因 ; 预测未来将要发生事情 .依据数据分析深度将数据分析分为三个层次 : 描述性 (descripti
15、ve) 分析 预测性分析规则性 (prescriptive) 分析 第26页数据分析描述性分析 :基于历史数据描述发生了什么 . 比如 , 利用回归技术从数据集中发觉简单趋势 , 可视化技术用于更有意义地表示数据 , 数据建模则以更有效方式搜集、存放和删减数据 . 描述性分析通常应用在商业智能和可见性系统预测性分析:预测性分析 : 用于预测未来概率和趋势 . 比如 , 预测性模型使用线性和对数回归等统计技术发觉数据趋势 , 预测未来输出结果 , 并使用数据挖掘技术提取数据模式 (pattern) 给出预见规则性分析 : 处理决议制订和提升分析效率 . 比如 , 仿真用于分析复杂系统以了解系统行
16、为并发觉问题 , 而优化技术则在给定约束条件下给出最优处理方案第27页数据分析惯用方法数据可视化 : 与信息绘图学和信息可视化相关 . 数据可视化目标是以图形方式清楚有效地展示信息Tabusvis 则是一个轻型可视化系统 , 提供对多维数据灵活、可定制数据可视化 统计分析 : 基于统计理论 , 是应用数学一个分支 . 在统计理论中 , 随机性和不确定性由概率理论建模 . 统计分析技术能够分为描述性统计和推断性统计 . 描述性统计技术对数据集进行摘要 (summa-rization) 或描述 , 而推断性统计则能够对过程进行推断 . 更多多元统计分析包含回归、因子分析、聚类和判别分析数据挖掘 :
17、 是发觉大数据集中数据模式计算过程 . 许多数据挖掘算法已经在人工智能、机器学习、模式识别、统计和数据库领域得到了应用包含 k-means(k均值聚类), SVM(支持向量机), EM(最大期望), AdaBoost, kNN, PageRank,朴素贝叶斯和CART, 覆盖了分类、聚类、回归和统计学习第28页数据分析分类1.结构化数据分析2.文本分析3.web 数据分析4.多媒体数据分析5.社交网络数据分析6.移动数据分析文本分析又称为文本挖掘 , 是指从无结构文本中提取有用信息或知识过程 . 文本挖掘是一个跨学科领域 , 包括信息检索、机器学习、统计、计算语言和数据挖掘 .大部分文本挖掘系
18、统建立在文本表示和自然语言处理 (NLP) 基础上。文本分析:第29页数据分析分类Web 数据分析: Web 数据分析目标是从 web 文档和服务中自动检索、提取和评定信息以发觉知识 , 包括数据库、信息检索、NLP 和文本挖掘 , 可分为 web 内容挖掘、 web 结构挖掘和 web 使用方法挖掘 (web usage mining)。Web 结构挖掘是指发觉基于 web 链接结构模型 。 链接结构表示站点内或站点之间链接关系图 , 模型反应了不一样站点之间相同度和关系 , 并能用于对网站分类。Web 内容挖掘是从网站内容中获取有用信息或知识 . web 内容包含文本、图像、音频、视频、符
19、号、元数据和超链接等不一样类型数据。Web 使用方法挖掘则是对 web 会话或行为产生次要数据进行分析。Web 使用方法数据包含 web 服务器访问日志 , 代理服务器日志 , 浏览器日志 , 用户信息、注册数据 , 用户会话或事务 , cookies, 用户查询、书签数据 , 鼠标点击及滚动数据 , 以及用户与 web 交互所产生其它数据。 第30页数据分析分类多媒体数据分析:多媒体数据分析是指从多媒体数据中提取有趣知识 , 了解多媒体数据中包含语义信息。多媒体分析研究覆盖范围较广 , 包含多媒体摘要、多媒体标注、多媒体索引和检索、多媒体推荐和多媒体事件检测。音频摘要能够简单地从原始数据中提
20、取突出词语或语句 , 合成为新数据表示 ; 视频摘要则将视频中最主要或最具代表性序列进行动态或静态合成 .。多媒体标注是指给图像和视频分配一些标签 , 能够在语法或语义级别上描述它们内容多媒体索引和检索处理是多媒体信息描述、存放和组织 , 并帮助人们快速方便地发觉多媒体资源. 一个通用视频检索框架包含 4 个步骤 : 结构分析 , 特征提取 , 数据挖掘、分类和标注 , 以及查询和检索多媒体推荐目标是依据用户偏好推荐特定多媒体内容多媒体事件检测是在事件库视频片段中检测事件是否发生技术多媒体推荐多媒体标注多媒体索引和检索多媒体摘要多媒体事件检测第31页大数据与机器学习03神经网络回归算法机器学习
21、方法机器学习定义与过程机器学习范围无监督学习算法监督学习算法推荐算法第32页机器学习定义与过程机器学习定义从广义上来说,机器学习是一个能够赋予机器学习能力以此让它完成直接编程无法完成功效方法。但从实践意义上来说,机器学习是一个经过利用数据,训练出模型,然后使用模型预测一个方法。定义:机器学习仅仅是大数据分析中一个而已。尽管机器学习一些结果含有很大魔力,在某种场所下是大数据价值最好说明。但这并不代表机器学习是大数据下唯一分析方法。过程:机器学习是大数据分析中一个且机器学习不是大数据下唯一分析方法。第33页机器学习范围模式识别=机器学习数据挖掘=机器学习+数据库统计学习机器学习计算机视觉=图像处理
22、+机器学习语音识别=语音处理+机器学习自然语言处理=文本处理+机器学习机器学习跟模式识别,统计学习,数据挖掘,计算机视觉,语音识别,自然语言处理等领域有着很深联络。从范围上来说,机器学习跟模式识别,统计学习,数据挖掘是类似,同时,机器学习与其它领域处理技术结合,形成了计算机视觉、语音识别、自然语言处理等交叉学科。所以,普通说数据挖掘时,能够等同于说机器学习。同时,我们日常所说机器学习应用,应该是通用,不但仅局限在结构化数据,还有图像,音频等应用。第34页机器学习方法1.回归算法2.神经网络3.支持向量机(SVM)4.聚类算法5.降维算法6.推荐算法7.梯度下降法8.牛顿法9.BP算法10.SM
23、O算法除了以上算法之外,机器学习界还有其它如高斯判别,朴素贝叶斯,决议树等等算法。不过上面列10个算法是使用最多,影响最广,种类最全经典。机器学习界一个特色就是算法众多,发展百花齐放。第35页机器学习方法除了这些算法以外,有一些算法名字在机器学习领域中也经常出现。但他们本身并不算是一个机器学习算法,而是为了处理某个子问题而诞生。能够了解他们为以上算法子算法,用于大幅度提升训练过程。其中代表有:梯度下降法,主要利用在线型回归,逻辑回归,神经网络,推荐算法中;牛顿法,主要利用在线型回归中;BP算法,主要利用在神经网络中;SMO算法,主要利用在SVM中。监督学习算法:线性回归,逻辑回归,神经网络,S
24、VM无监督学习算法:聚类算法,降维算法特殊算法:推荐算法按照训练数据有没有标签,能够将上面算法分为监督学习算法和无监督学习算法,但推荐算法较为特殊,既不属于监督学习,也不属于非监督学习,是单独一类。第36页监督学习算法之回归算法线性回归就是常见直线函数。经过拟合出一条直线最正确匹配全部数据,普通使用“最小二乘法”来求解。“最小二乘法”思想:假设拟合出直线代表数据真实值,而观察到数据代表拥有误差值。为了尽可能减小误差影响,需要求解一条直线使全部误差平方和最小。最小二乘法将最优问题转化为求函数极值问题。逻辑回归是一个与线性回归非常类似算法,不过,从本质上讲,线型回归处理问题类型与逻辑回归不一致。线性回归处理是数值问题,即最终预测出结果是数字,比如房价。而逻辑回归属于分类算法,逻辑回归预测结果是离散分类,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 酒包材质创新与消费者偏好-洞察及研究
- 面向未来的应用-高特异性酶联免疫吸附测定技术在糖尿病管理中的作用-洞察及研究
- 基层医疗机构药品质量自查报告
- 工贸企业新员工事故报告与处理流程考核(2024年6月)
- 钢结构预制柱施工工艺流程解析
- 高校大学生心理健康教育课程大纲
- 小学英语单词记忆技巧与方法
- 餐饮行业食品安全控制要点及规范
- 化妆品原料安全评估报告
- 餐饮行业食品安全内控制度解析
- 2026年动物检疫检验员考试试题题库及答案
- 中国淋巴瘤治疗指南(2025年版)
- 2025年云南省人民检察院聘用制书记员招聘(22人)考试笔试模拟试题及答案解析
- 疗伤旅馆商业计划书
- 桥下空间施工方案
- 临床肿瘤诊疗核心技巧
- 2025年广西公需科目答案6卷
- 国开电大《人文英语4》一平台机考总题库珍藏版
- 人教部编版语文七年级上册1-5单元测试卷含答案
- 风电机安装安全管理规定
- 北京林业大学 研究生 学位考 科技论文写作 案例-2023修改整理
评论
0/150
提交评论