版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据技术体系及人才需求,主讲:刘军辉,1,经李克强总理签批,2015年9月,国务院印发促进大数据发展行动纲要系统部署大数据发展工作。 纲要部署三方面主要任务: 一要加快政府数据开放共享,推动资源整合,提升治理能力。 二要推动产业创新发展,培育新兴业态,助力经济转型。 三要强化安全保障,提高管理水平,促进健康发展,大数据国家战略,2,1.政府数据将成为地方政府最重要的资产。 2.大数据四要素是预警、预测、决策、智能。 3.中国大数据70%的需求集中在政府和金融应用。 4.大数据产业与传统产业深度融合。 5.数据源服务商构建大数据生态圈。 6.大数据智能会逐步取代搜索引擎,大数据行业趋势,3,1
2、.物联网:为大数据分析提供数据源 2.云计算:为大数据分析提供计算平台 3.虚拟现实:为大数据分析提供应用场景 5.人工智能:模型训练需要依赖大量数据,大数据与其他技术的关系,4,1.趋势分析 2.行为分析 3.关系分析 4.异常检测,大数据应用场景,5,一、医疗大数据 看病更高效 二、生物大数据 改良基因 三、金融大数据 理财利器 四、零售大数据 最懂消费者 五、电商大数据 精准营销法宝 六、农牧大数据 量化生产 七、交通大数据 畅通出行 八、教育大数据 因材施教 九、舆情监控大数据 名探柯南 十、环保大数据 对抗PM2.5,大数据行业应用,6,1.数据科学家 2.大数据算法工程师 3.数据
3、规划师 4.数据分析师 5.大数据系统架构师 6.大数据开发工程师 7.大数据运维工程师,大数据岗位需求,7,一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。 大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性,什么是大数据,8,大数据处理之一:采集数据 大数据处理之二:导入数据并进行预处理 大数据处理之三:进行统计与分析 大数据处理之四:对数据进行挖掘 大数据处理之五:可视化分析结果,大数据分
4、析过程,9,10,HDFS:分布式文件系统,解决大数据存储问题。 MapReduce:分布式计算框架,解决大数据计算问题。 HBase: 列存储数据库,解决数据检索问题。 Hive:数据仓库工具,解决数据挖掘问题,Hadoop技术体系,11,Spark Core: 包括任务调度、内存管理、错误恢复、与存储系统交互,RDD的API定义。 Spark SQL: 用来操作结构化数据。 Spark Streaming: 用来操作实时的流数据。 Mllib:提供机器学习算法库。 GraphX: 用来操作图形,可以进行并行图计算,Spark技术体系,12,更快的速度:内存计算下,Spark 比 Hadoo
5、p 快100倍。 易用性:Spark 提供了80多个高级运算符。 通用性:Spark 提供了大量的库,包括SQL、DataFrames、MLlib、GraphX、Spark Streaming。 多语言:Spark 支持Scala、python、java、R 等多种开发语言。 多集群: Spark 支持 Hadoop YARN,Apache Mesos,及其自带的独立集群管理器,Spark VS Hadoop,13,map :返回一个新的分布式数据集,由每个原元素经过func函数转换后组成 filter: 返回一个新的数据集,由经过func函数后返回值为true的原元素组成flatMap: 类
6、似于map,但是每一个输入元素,会被映射为0到多个输出元素sample(withReplacement, frac, seed) :根据给定的随机种子seed,随机抽样出数量为frac的数据 union: 返回一个新的数据集,由原数据集和参数联合而成 groupByKey:在一个由(K,V)对组成的数据集上调用,返回一个(K,SeqV)对的数据集。 reduceByKey : 在一个(K,V)对的数据集上使用,返回一个(K,V)对的数据集, Join:在类型为(K,V)和(K,W)类型的数据集上调用,返回一个(K,(V,W)对,每个key中的所有元素都在一起的数据集 groupWith: 在类
7、型为(K,V)和(K,W)类型的数据集上调用,返回一个数据集。 cartesian: 笛卡尔积。但在数据集T和U上调用时,返回一个(T,U)对的数据集,所有元素交互进行笛卡尔积,RDD 转化操作,14,reduce(func):通过函数func先聚集各分区的数据集,再聚集分区之间的数据,func接收两个参数,返回一个新值,新值再做为参数继续传递给函数func,直到最后一个元素 collect():以数据的形式返回数据集中的所有元素给Driver程序,为防止Driver程序内存溢出,一般要控制返回的数据集大小 count():返回数据集元素个数 first():返回数据集的第一个元素 take(
8、n):以数组的形式返回数据集上的前n个元素 top(n):按默认或者指定的排序规则返回前n个元素,默认按降序输出 takeOrdered(n,ordering):按自然顺序或者指定的排序规则返回前n个元素,RDD 行动操作,15,MLlib 是Spark的可以扩展的机器学习库,由以下部分组成:通用的学习算法和工具类,包括分类,回归,聚类,协同过滤,降维等。 使用Mllib 的步骤: 1.用字符串RDD表示 信息。 2.运行特征提取算法,返回向量RDD。 3.对向量RDD调用分类算法 。 4.使用评函数 在测试集上评估模型,Mllib算法库,16,summary statistics 概括统计
9、correlations 相关性 stratified sampling 分层取样 hypothesis testing 假设检验 random data generation 随机数生成,基本统计,17,主要用来从数据中提取特征 TF-IDF:词频逆文档频率 HashintDF:从一个文档中计算出给定大小的词频向量,特征提取,18,分类回归的应用是根据 对象的特征预测结果 linear models 线性模型(支持向量机,逻辑回归,线性回归) naive Bayes贝叶斯算法 decision trees 决策树 ensembles of trees(Random Forests and G
10、radient-Boosted Trees) 多种树(随机森林和梯度增强树,分类回归,19,聚类主要用于数据探索和异常检测 Clustering 聚类k-means k均值算法,聚类,20,协同过滤是一种根据用户对各种产品的交互与评分来推荐系统的技术 alternating least squares (ALS)(交替最小二乘法(ALS),协同过滤与推荐,21,减少特征的数量 使模型训练更加高效,忽略一些无用的维度。 singular value decomposition (SVD)奇异值分解 principal component analysis (PCA)主成分分析,降维,22,1.熟悉数据分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年极地特种车辆高寒环境动力系统设计规范
- 2026年“人工智能”深海科技数据集应用:妈祖大模型海底三维高精度智能模型
- 江西省上犹县重点名校2026年中考第七次适应性训练化学试题含解析
- 黑龙江铁力市第四中学2026届初三九月摸底考试文综试题含解析
- 2026年长江口杭州湾重点海域河口海湾协同治理指南
- 浙江省金华市义乌市宾王中学2026届初三3月份测试化学试题含解析
- 福建省(南平厦门福州漳州市)市级名校2025-2026学年中考生物试题仿真卷:生物试题试卷(2)含解析
- 广东省深圳市光明新区市级名校2026年初三第一次教学质量检测试题生物试题含解析
- 2026年湖南省东安县初三第三次统一检测试题生物试题含解析
- 山东省昌乐县达标名校2026届下学期初三期末质量检测试题生物试题含解析
- 2026年春人音版(简谱)(新教材)小学音乐二年级下册教学计划及进度表
- 【四年级】【数学】【春季下】开学家长会:与数同行共话梦想【课件】
- 2026年陕西航空职业技术学院单招职业技能测试模拟测试卷学生专用
- 2026年及未来5年中国面粉加工行业市场发展现状及投资方向研究报告
- 2026年春季统编版小学道德与法治四年级下册教学计划
- 2026年春季北师大版(2024)小学数学二年级下册教学计划
- 2026年内蒙古建筑职业技术学院单招职业技能考试题库及参考答案详解(新)
- 互联网企业网络安全管理制度(标准版)
- 1.1时代为我搭舞台(课件)-中职思想政治《心理健康与职业生涯》高教版2023基础模块
- 打击诈骗犯罪 警民同心发力 (课件)
- (新教材)2026年春期人教版二年级下册数学教学计划+教学进度表
评论
0/150
提交评论