(2025年)国家开放大学期末统一考试大数据技术概论试题及答案_第1页
(2025年)国家开放大学期末统一考试大数据技术概论试题及答案_第2页
(2025年)国家开放大学期末统一考试大数据技术概论试题及答案_第3页
(2025年)国家开放大学期末统一考试大数据技术概论试题及答案_第4页
(2025年)国家开放大学期末统一考试大数据技术概论试题及答案_第5页
已阅读5页,还剩8页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(2025年)国家开放大学期末统一考试大数据技术概论试题及答案一、单项选择题(每题2分,共30分)1.下列关于大数据5V特征的描述中,错误的是()A.Volume(海量性):数据规模通常达到PB级以上B.Velocity(高速性):数据产生和处理速度快,需实时分析C.Variety(多样性):仅包括结构化数据D.Value(低价值密度):需通过挖掘提取有效信息2.以下不属于分布式文件系统的是()A.HDFSB.GFSC.NTFSD.Ceph3.Spark中用于缓存数据的核心抽象是()A.DataFrameB.DatasetC.RDDD.DStream4.数据清洗过程中,处理“年龄字段出现-5”的问题属于()A.缺失值处理B.异常值处理C.重复值处理D.格式标准化5.下列技术中,主要用于实时流数据处理的是()A.HadoopMapReduceB.ApacheFlinkC.HiveD.Pig6.数据湖(DataLake)与数据仓库(DataWarehouse)的核心区别在于()A.数据湖仅存储结构化数据,数据仓库存储非结构化数据B.数据湖在存储时不定义模式(Schema-on-Read),数据仓库在存储前定义模式(Schema-on-Write)C.数据湖用于历史数据分析,数据仓库用于实时分析D.数据湖的存储成本高于数据仓库7.以下不属于NoSQL数据库类型的是()A.键值存储(如Redis)B.列族存储(如HBase)C.关系型数据库(如MySQL)D.文档存储(如MongoDB)8.大数据分析中,用于发现数据中隐含关联规则的算法是()A.K-meansB.AprioriC.SVMD.决策树9.分布式计算框架中,HadoopYARN的核心功能是()A.资源管理与任务调度B.分布式存储C.实时流处理D.数据清洗10.隐私计算技术中,联邦学习(FederatedLearning)的主要目标是()A.在不共享原始数据的前提下联合训练模型B.加密所有数据传输过程C.完全隔离不同机构的数据存储D.提高数据压缩率11.以下关于HDFS的描述,错误的是()A.适合存储大文件(GB级以上)B.默认块大小为128MBC.支持低延迟的大量小文件随机访问D.采用主从架构(NameNode+DataNode)12.数据可视化工具Tableau的主要特点是()A.适合编程实现复杂可视化B.支持拖拽式操作,易用性高C.仅用于实时流数据展示D.依赖Hadoop集群运行13.大数据平台架构中,位于最底层的是()A.数据存储层B.数据处理层C.数据采集层D.应用服务层14.下列指标中,用于衡量分类模型准确率的是()A.均方误差(MSE)B.精确率(Precision)C.余弦相似度D.困惑度(Perplexity)15.边缘计算(EdgeComputing)在大数据场景中的主要作用是()A.将所有数据集中到云端处理B.减少数据传输延迟,降低云端压力C.替代传统分布式计算框架D.仅处理结构化数据二、填空题(每空2分,共20分)1.大数据技术的核心是通过______、存储、处理和分析技术,从海量数据中提取价值。2.Hadoop生态中,用于结构化数据查询的工具是______(填英文缩写)。3.Spark的计算模式是基于内存的______计算,相比HadoopMapReduce更适合迭代计算。4.数据仓库的典型架构包括操作型数据存储(ODS)、______、数据集市(DataMart)等层次。5.NoSQL数据库中,HBase基于______模型存储数据(填“列族”“键值”或“文档”)。6.流数据处理的两种模式是______(如SparkStreaming)和严格一次处理(如Flink)。7.数据挖掘的主要任务包括分类、聚类、关联规则挖掘、______等。8.分布式系统中,CAP定理指的是一致性(Consistency)、可用性(Availability)和______三者不可兼得。9.隐私计算的常见技术包括联邦学习、安全多方计算(MPC)和______(如差分隐私)。10.大数据平台的可扩展性分为水平扩展(ScaleOut)和______(ScaleUp)两种方式。三、简答题(每题8分,共40分)1.简述HadoopHDFS的读写流程,并说明其适合处理的场景。2.对比分析批处理(BatchProcessing)与流处理(StreamProcessing)的差异,各举一个典型技术框架。3.数据清洗的主要步骤有哪些?请结合具体案例说明异常值处理的方法。4.什么是数据湖?它与传统数据仓库的主要区别体现在哪些方面?5.大数据安全面临的主要挑战有哪些?可采取哪些应对措施?四、综合分析题(每题15分,共30分)1.某电商企业计划构建用户行为分析系统,需处理来自APP端的点击、购买、加购等实时流数据(日均数据量约500GB),并支持历史数据的离线分析(如用户画像、销售趋势预测)。请设计该系统的大数据处理架构,要求包含数据采集、存储、处理、分析四个层次,并说明各层次的技术选型及原因。2.某金融机构需联合多家医院在不共享患者原始数据的前提下,共同训练一个“糖尿病并发症预测模型”。请结合隐私计算技术,设计具体的实现方案,说明关键步骤及所需技术(如联邦学习的类型、数据预处理要求、模型评估方法等)。参考答案一、单项选择题1.C2.C3.C4.B5.B6.B7.C8.B9.A10.A11.C12.B13.C14.B15.B二、填空题1.采集2.Hive3.迭代式4.数据仓库(DW)5.列族6.微批处理7.预测8.分区容错性(PartitionTolerance)9.同态加密10.垂直扩展三、简答题1.HDFS读写流程:-写流程:客户端向NameNode请求创建文件,NameNode验证权限并分配DataNode块位置;客户端将数据分块(默认128MB),通过Pipeline依次写入目标DataNode,完成后通知NameNode更新元数据。-读流程:客户端向NameNode请求文件元数据(块位置),根据就近原则连接DataNode读取数据块,合并后返回。适合场景:大文件存储(GB-TB级)、一次写入多次读取、高吞吐量(如日志存储、海量数据备份)。2.批处理与流处理差异:-数据处理方式:批处理将数据划分为固定大小的批次(如每天处理一次),流处理实时处理连续数据流(如每秒处理)。-延迟:批处理延迟较高(分钟级以上),流处理延迟低(毫秒级)。-典型场景:批处理用于历史报表提供(如HadoopMapReduce),流处理用于实时推荐、监控告警(如ApacheFlink)。3.数据清洗步骤:缺失值处理、异常值处理、重复值处理、格式标准化、不一致数据修正。案例:某用户年龄字段出现“150岁”,属于异常值。处理方法:①检查数据录入错误(如多输一个0),修正为“50岁”;②若无法确认,用字段均值(如该群体平均年龄35岁)填充;③或标记为缺失值,后续建模时排除。4.数据湖是存储结构化、半结构化、非结构化数据的集中式存储库,支持Schema-on-Read(读取时定义模式)。与数据仓库的区别:-数据类型:数据湖支持全类型数据,数据仓库仅结构化;-模式定义:数据湖存储时无固定模式,数据仓库需提前定义(Schema-on-Write);-应用场景:数据湖支持探索性分析、机器学习,数据仓库支持确定性业务查询(如OLAP);-成本:数据湖存储成本更低(使用对象存储),数据仓库需ETL预处理,成本较高。5.安全挑战:-数据泄露风险(如敏感信息存储、传输未加密);-分布式系统的脆弱性(如NameNode单点故障、集群权限管理复杂);-隐私保护需求(如GDPR、个人信息保护法要求);-恶意攻击(如DDoS攻击、数据篡改)。应对措施:-加密技术(传输层TLS、存储层AES加密);-访问控制(RBAC角色权限管理、细粒度数据脱敏);-联邦学习、差分隐私等隐私计算技术;-监控与审计(实时日志分析、异常操作预警)。四、综合分析题1.电商用户行为分析系统架构设计:-数据采集层:使用Flume(日志文件)+Kafka(实时流数据)。Flume适合从服务器收集APP日志(如点击事件),Kafka作为消息队列缓冲实时数据流(如购买事件),支持高吞吐和削峰填谷。-数据存储层:实时数据存储于HBase(列式存储,支持快速随机读写),历史数据存储于HDFS(海量存储)+Hive(结构化数据仓库)。冷数据归档至对象存储(如Ceph)降低成本。-数据处理层:实时处理用Flink(低延迟、精确一次处理)计算实时指标(如当前小时转化率);离线处理用Spark(内存计算,适合用户画像等复杂迭代任务)。-分析应用层:Tableau/QuickBI做可视化报表(如销售趋势),机器学习平台(如SparkMLlib)训练预测模型(如用户复购率预测),结果输出至APP推荐系统。2.金融-医院联合建模方案(基于联邦学习):-技术选型:选择横向联邦学习(各参与方特征相同,样本不同,如医院的患者特征字段一致)。-关键步骤:①数据预处理:各医院对患者数据脱敏(去除姓名、身份证号),标准化特征(如年龄分桶、血糖值归一化),确保特征空间一致。②模型初始化:中心服务器发布初始模型(如逻辑回归或XGBoost),各医院用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论