版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据技术期末考试复习提纲一、大数据基础理论模块(一)核心概念与特征大数据是无法通过常规工具在可接受时间内完成捕捉、管理与处理的海量数据集合,核心特征常以4V(部分研究拓展为5V)概括:规模性(Volume):数据体量从TB级向PB、EB级跨越,典型场景如互联网用户行为日志、物联网传感器数据。多样性(Variety):数据类型涵盖结构化(数据库表)、半结构化(XML、JSON)、非结构化(文本、图像、音频),需关注多源异构数据的整合逻辑。高速性(Velocity):数据生成与处理需实时或准实时响应,典型场景如金融交易、工业物联网的流式数据。价值性(Value):数据蕴含商业、科研价值,但需通过挖掘算法提取,且价值密度低(如监控视频中有效事件占比极低)。*补充:真实性(Veracity)*:数据存在噪声、偏差,需通过清洗、校验保证质量,常见于社交网络、传感器数据。(二)关键技术体系大数据技术围绕“存、通、算、用”四个环节展开:存储技术:分布式文件系统(HDFS)、NoSQL数据库(Redis、MongoDB、HBase)、云存储(对象存储、块存储)。传输与管理:数据采集(Flume、Kafka)、数据治理(元数据管理、质量管控、安全审计)、数据集成(ETL/ELT工具)。计算框架:批处理(MapReduce、SparkBatch)、流处理(Flink、SparkStreaming)、图计算(Neo4j、GraphX)。分析与挖掘:统计分析(描述性、推断性)、机器学习(分类、聚类、回归、深度学习)、可视化(Tableau、ECharts)。二、大数据处理技术栈(一)分布式存储系统1.HDFS架构与原理核心组件:NameNode(元数据管理)、DataNode(数据存储)、SecondaryNameNode(元数据备份)。关键机制:副本策略(默认3份,机架感知策略)、数据块(Block,默认128MB,可配置)、写流程(Pipeline机制)、读流程(就近读取)。应用场景:离线批处理(如Hadoop生态)、冷数据存储。2.NoSQL数据库分类与选型键值型(Key-Value):Redis(缓存、高并发)、Memcached(纯缓存),特点:读写快,无复杂查询。文档型(Document):MongoDB(JSON格式,灵活schema),适合社交、内容管理。列族型(Column-Family):HBase(列式存储,高扩展性),适合时序、日志数据(如监控、金融交易)。图数据库(Graph):Neo4j(节点-关系模型),适合社交网络、知识图谱。(二)计算框架与引擎1.MapReduce核心思想编程模型:Map(映射)→Shuffle(洗牌)→Reduce(归约),需掌握WordCount等经典案例的执行流程。局限性:延迟高(适合离线)、编程繁琐,需对比Spark/Flink的优化点。2.Spark生态与优化核心抽象:RDD(弹性分布式数据集),特性:不可变、分区、并行计算,支持转换(map、filter)与行动(count、collect)操作。扩展组件:SparkSQL(结构化数据查询)、SparkStreaming(微批处理)、MLlib(机器学习)、GraphX(图计算)。优化点:内存计算(比MapReduce快一个数量级)、DAG调度、lineage容错。3.Flink流处理范式核心概念:流(Stream)是根本,批是流的特例,支持事件时间(EventTime)与处理时间(ProcessingTime)。关键特性:低延迟(毫秒级)、Exactly-Once语义、状态管理(适合复杂业务逻辑,如金融风控)。三、大数据分析方法(一)统计分析基础描述性统计:均值、中位数、方差、分位数,需结合实际场景选择(如收入分布用中位数更合理)。推断性统计:假设检验(t检验、卡方检验)、回归分析(线性/逻辑回归),用于数据规律验证。(二)机器学习算法分类算法:决策树(ID3、C4.5、CART)、随机森林、SVM(支持向量机)、朴素贝叶斯(文本分类)。聚类算法:K-Means(需指定K值)、DBSCAN(密度聚类,无需指定K)、层次聚类。回归分析:线性回归(连续值预测)、逻辑回归(二分类)、梯度提升树(GBDT)。深度学习:CNN(图像)、RNN/LSTM(时序数据)、Transformer(自然语言处理),需理解与传统机器学习的区别(特征自动提取)。(三)数据可视化原则图表选型:折线图(趋势)、柱状图(对比)、散点图(关联)、热力图(密度)、词云(文本权重)。工具实践:Tableau(拖拽式分析)、PowerBI(企业级)、ECharts(开源可视化库,适合Web端)。四、工具与平台实践(一)Hadoop生态组件HDFS:存储层,需掌握命令行操作(`hdfsdfs-ls`、`-put`、`-get`)。YARN:资源调度,角色:ResourceManager(全局调度)、NodeManager(节点资源管理)。MapReduce:批处理引擎,需会编写WordCount的Map/Reduce代码(Java/Python)。Hive:数据仓库,基于HDFS,用HQL(类SQL)查询,需区分内部表/外部表、分区表/分桶表。(二)Spark编程实践RDD编程:创建(`parallelize`、`textFile`)、转换(`map`、`flatMap`、`reduceByKey`)、行动(`collect`、`saveAsTextFile`)。SparkSQL:DataFrame/Dataset操作,如读取JSON/CSV文件、执行`groupby`/`join`。部署模式:Local(本地)、Standalone(独立集群)、YARN(资源共享)、Mesos(多框架调度)。(三)Flink流处理实战流处理API:DataStream(基础流)、ProcessFunction(自定义逻辑,如定时器)、Window(滚动、滑动、会话窗口)。连接器(Connector):Kafka(实时数据接入)、JDBC(数据库输出)、File(文件系统)。状态管理:KeyedState(按Key隔离)、OperatorState(算子级状态),需理解容错机制(Checkpoint)。五、典型应用与案例分析(一)行业场景金融风控:实时反欺诈(Flink+规则引擎)、信用评分(机器学习模型)、交易监控(图分析识别团伙)。电商推荐:用户画像(标签体系)、协同过滤(基于用户/物品)、实时推荐(SparkStreaming+ALS)。智慧城市:交通流量预测(LSTM)、环境监测(物联网+时序数据库)、公共安全(视频分析+目标检测)。(二)案例拆解以“电商用户行为分析”为例:1.数据采集:埋点日志(Flume)+交易数据(Kafka)→统一接入HDFS。2.数据处理:Spark清洗(去重、补全)→Hive构建维度表(用户、商品、时间)。3.分析挖掘:统计分析:活跃用户数、客单价、复购率。机器学习:基于用户行为的商品推荐(ALS算法)。4.可视化:Tableau展示销售趋势、用户地域分布、转化漏斗。六、考试题型与应对策略(一)选择题/判断题考点:概念辨析(如HDFS副本数、Spark与Flink的区别)、技术特征(NoSQL类型、4V特征)。技巧:抓关键词(如“实时性”对应Flink,“内存计算”对应Spark),排除法(如HBase是列族型,非文档型)。(二)简答题考点:技术原理(HDFS写流程、MapReduce执行步骤)、技术选型(NoSQL适用场景)、概念对比(批处理vs流处理)。技巧:分点作答(如HDFS写流程分“客户端请求→NameNode分配→Pipeline写入→确认”四步),结合教材定义+实践理解。(三)应用题/分析题考点:系统设计(如设计一个实时推荐系统的技术栈)、案例分析(给定场景选工具、写流程)、代码片段(如Spark的RDD转换)。技巧:结合“存-通-算-用”逻辑拆解问题,代码题关注语法(如Spark的`reduceByKey`需传函数),设计题需说明技术选型的理由(如选Flink因为低延迟,选Redis做缓存因为快)。复习建议1.抓核心原理:HDFS副本、SparkRDD、Flink流处理是高频考点,需理解“是什么、为什么、怎么用”。2.对比记忆:如HBasevsMongoDB、M
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 丰裕医疗产业有限公司基地建设项目施工组织设计
- 2021年C1驾照考试满分模拟题套卷 附逐题解析答案
- 2026广西学业考考前最后一卷模拟题及官方审定答案
- 2024年312心理学考研真题答案带考点溯源
- 2021年大一机械基础网络教育统考真题及答案
- 2021年城南旧日事阅读单元测试题目及标准参考答案
- 2026PSCR考试核心考点考题+速记答案 不用死记硬背也能记牢
- 滑雪五级2022年理论考试易混考点专项习题及答案
- 第三章解不等式的解法(第1课时)一元一次不等式的解法(1)湘教版2025-2026下学年
- 协议书转让摩托车图案
- 小学信息技术四年级下册《制作校园生活短视频》教学设计
- 睿信咨询:2026年中国能源行业高质量发展白皮书
- 新疆喀什地区事业单位笔试真题2025年(附答案)
- 2024-2025学年度南京特殊教育师范学院单招《语文》测试卷(历年真题)附答案详解
- 理科综合-2026年新疆普通高考三月适应性检测试卷(含答案)
- (正式版)JBT 14581-2024 阀门用弹簧蓄能密封圈
- 肌力评定 膝关节屈伸肌力评定
- 初中生物各章节概念知识框架图
- 北京工业大学:大学物理
- GA 1167-2014探火管式灭火装置
- 领导干部个人有关事项报告填报和核查问题课件
评论
0/150
提交评论