大数据技术信息复习资料集_第1页
大数据技术信息复习资料集_第2页
大数据技术信息复习资料集_第3页
大数据技术信息复习资料集_第4页
大数据技术信息复习资料集_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据技术信息复习资料集一、大数据基础认知(一)定义与核心特征大数据并非单纯“规模大的数据”,而是数据量、多样性、处理时效、价值密度四个维度的综合体现:规模(Volume):从GB到PB级爆发式增长,如电商平台日均日志量超TB级;多样性(Variety):结构化(数据库表)、半结构化(JSON/XML)、非结构化(图片/视频)数据并存;时效(Velocity):需实时/准实时处理(如金融交易反欺诈),或离线挖掘(如用户画像);价值(Value):通过关联分析、预测建模等手段,从海量数据中提炼商业或社会价值(如疫情传播趋势预测)。(二)发展脉络与行业驱动1.技术演进:萌芽期(2000s前):传统数据库(Oracle、MySQL)主导,难以应对超大规模数据;爆发期(____):Hadoop生态(HDFS、MapReduce)成熟,Spark、Flink等计算框架涌现;融合期(2015至今):流批一体(Flink)、云原生(Kubernetes+大数据)、AI与大数据结合(TensorFlowonSpark)成为趋势。2.行业驱动:数字化转型:企业业务线上化(如电商、金融)产生海量日志与交易数据;IoT普及:全球超百亿传感器(如智能电表、工业设备)实时产生时序数据;二、核心技术模块(一)数据采集与预处理1.采集方式日志采集:Flume(分布式、高可靠,支持多源聚合)、Logstash(ELK栈核心,适配多种日志格式);IoT与传感器:MQTT协议(轻量级、发布-订阅模式)、CoAP协议(受限设备通信),结合Kafka做消息中转;业务系统对接:JDBC(关系型数据库)、Canal(MySQLbinlog实时同步)、RestfulAPI(微服务数据采集)。2.预处理离线清洗:Kettle(可视化ETL)、DataX(异构数据源同步);实时清洗:FlinkSQL(SQL化处理)、SparkStreaming(微批清洗);数据治理:去重(基于哈希/主键)、归一化(如日期格式统一)、缺失值填充(均值/模型预测)。(二)存储与管理1.分布式文件系统HDFS:主从架构(NameNode管理元数据,DataNode存储数据块),副本机制(默认3份)保障容错,支持异构存储(冷数据存HDD,热数据存SSD)。2.数据库体系NoSQL:文档型(MongoDB):存储非结构化数据(如用户画像JSON),支持嵌套查询;键值型(Redis):高并发缓存(如会话存储)、计数器(如点赞数);列族型(HBase):面向列存储,适合时序数据(如监控指标、设备日志)。NewSQL:TiDB(HTAP,兼容MySQL语法,支持分布式事务)、CockroachDB(多活架构,容灾性强)。(三)计算与分析1.批处理MapReduce:Hadoop核心,分“Map(数据分片)-Shuffle(数据重分布)-Reduce(结果聚合)”三阶段,适合TB级离线计算(如日志统计);SparkBatch:基于RDD(弹性分布式数据集),DAG调度优化(减少Shuffle),内存计算提速100x,支持Python/Scala/Java多语言。2.流处理Flink:事件时间语义(精准处理时序数据)、状态管理(支持窗口聚合、会话分析),Exactly-Once语义保障数据一致性;SparkStreaming:微批处理(默认5s一批),适合准实时场景(如电商实时销量统计);KafkaStreams:轻量级流处理,嵌入Kafka生态(无需额外集群),适合业务逻辑简单的场景(如日志过滤)。3.实时分析与挖掘OLAP引擎:Druid(预聚合,亚秒级查询)、ClickHouse(列式存储,PB级数据分析);机器学习:算法:分类(LR、XGBoost)、聚类(K-means)、关联规则(Apriori);工具:Scikit-learn(单机)、MLlib(Spark,分布式)、TensorFlowonSpark(AI与大数据融合)。三、工具与框架实践(一)Hadoop生态HDFS:存储层,适合PB级冷数据(如历史日志归档);YARN:资源调度,支持多框架(MapReduce、Spark)共享集群资源;MapReduce:离线计算入门(如WordCount案例),理解“分而治之”思想。(二)Spark生态SparkCore:RDD编程(Transformation:map/filter;Action:count/collect),掌握DAG优化逻辑;SparkSQL:DataFrame/DataSetAPI,支持SQL与代码混合开发(如`df.filter("age>18").groupBy("city").count()`);StructuredStreaming:基于DataFrame的流处理,支持事件时间窗口(如“近1小时用户活跃统计”)。(三)Flink生态流处理核心:ProcessFunction(自定义状态、定时器,如“30分钟无操作则会话超时”)、Window(滚动/滑动/会话窗口);TableAPI&SQL:统一批流SQL,支持UDF扩展(如自定义脱敏函数);连接器:Kafka(实时数据管道)、HBase(状态存储)、JDBC(结果落地)。(四)消息与中间件Kafka:高吞吐消息队列,分区(并行消费)+副本(容错)机制,用于实时数据管道(如电商订单→推荐系统);Zookeeper:分布式协调(如Kafka分区选举、Hadoop主节点选举),保障集群一致性。四、应用场景与行业案例(一)金融风控实时反欺诈:Flink+规则引擎,分析交易行为时序特征(如“1分钟内跨3城交易”触发预警);信用评分:SparkMLlib训练XGBoost模型,融合多维度数据(消费记录、社交行为、设备指纹)。(二)电商推荐实时推荐:Flink处理用户行为(点击、加购),实时更新推荐列表(如“猜你喜欢”模块);离线画像:Hive+SparkETL,构建用户标签(RFM模型、品类偏好),支撑精准营销。(三)智慧城市交通流量:IoT传感器(地磁、摄像头)+Flink实时分析,动态调整信号灯时长;能耗管理:HBase存储楼宇能耗时序数据,Druid分析“峰谷时段”,优化供电策略。(四)医疗健康病历分析:MongoDB存储非结构化病历(PDF/文本),SparkNLP提取实体(如疾病、药物);疾病预测:TensorFlow训练LSTM模型,分析电子健康档案(EHR),预测慢性病恶化趋势。五、学习与进阶路径(一)资源推荐书籍:《Hadoop权威指南》(基础架构)、《Spark快速大数据分析》(实践)、《Flink原理与实践》(流处理进阶);课程:Coursera《BigDataSpecialization》(体系化)、极客时间《Flink核心技术与实战》(实战导向);社区:Apache官方邮件列表(技术前沿)、StackOverflow(标签:hadoop、spark、flink)。(二)技能栈构建基础层:Linux(Shell脚本)、SQL(Hive/SparkSQL)、Python/Scala(数据处理与算法);工具层:精通Hadoop生态,掌握至少一个流批框架(Spark/Flink);领域层:行业知识(如金融风控、推荐系统)+算法基础(机器学习/深度学习)。(三)项目实践入门:搭建Hadoop集群,完成Wo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论