版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年大数据与人工智能应用考试试题及答案一、单项选择题(每题2分,共20分)1.在Hadoop生态中,负责资源管理与任务调度的组件是A.HDFS B.YARN C.MapReduce D.Hive答案:B2.下列哪种激活函数在x=0处不可导A.Sigmoid B.Tanh C.ReLU D.LeakyReLU答案:C3.在Spark中,RDD的默认分区器是A.HashPartitioner B.RangePartitioner C.GridPartitioner D.None答案:A4.联邦学习框架FATE采用的安全聚合协议是A.DiffieHellman B.Paillier同态加密 C.RSA D.AES答案:B5.若某GBDT模型共训练500棵树,学习率0.05,则其最终预测值为A.初始预测值+0.05×500棵树输出累加 B.初始预测值+单棵树输出×0.05 C.初始预测值+0.05×每棵树输出累加 D.500棵树输出直接平均答案:C6.在Transformer中,ScaledDotProductAttention的缩放因子为A.1/d_k B.sqrt(d_k) C.d_k D.1/sqrt(d_k)答案:D7.下列哪项不是Kafka的核心概念A.Topic B.Partition C.Segment D.Container答案:D8.使用LSTM进行时间序列预测时,若输入序列长度大于预设time_step,合理的处理方式是A.直接截断尾部 B.直接截断头部 C.滑动窗口切分 D.补零至固定长度答案:C9.在Python的Pandas中,对DataFramedf按列col升序排序并返回索引的语句是A.df.sort_values('col').index B.df.sort_index('col') C.df.argsort('col') D.df['col'].reindex()答案:A10.若某深度学习模型在训练集准确率达99.9%,验证集仅70%,首要应考虑的策略是A.增加网络深度 B.减小学习率 C.加入Dropout D.增大BatchSize答案:C二、多项选择题(每题3分,共15分;多选少选均不得分)11.下列属于HDFS写数据流程中客户端行为的有A.向NameNode申请Block位置 B.直接与DataNode建立Pipeline C.对每个Packet进行校验和计算 D.在NameNode上写入真实数据答案:A、B、C12.关于BERT模型,下列说法正确的有A.采用双向Transformer编码器 B.预训练任务包含NSP C.使用LayerNorm在注意力之后 D.位置编码为可学习参数答案:A、B、D13.在构建实时推荐系统时,以下哪些技术组合可用于解决冷启动A.内容标签+TFIDF B.知识图谱嵌入 C.强化学习探索 D.批量矩阵分解答案:A、B、C14.下列哪些指标可用于评估二分类模型在样本不平衡场景下的性能A.F1score B.AUCROC C.Cohen’sKappa D.准确率答案:A、B、C15.关于Flink的Checkpoint机制,正确的有A.基于ChandyLamport算法 B.对齐型屏障会阻塞部分数据 C.ExactlyOnce需依赖状态后端 D.开启Checkpoint后一定保证毫秒级延迟答案:A、B、C三、填空题(每空2分,共20分)16.在PythonSklearn中,使用StandardScaler对特征X做标准化后,其均值≈____,方差≈____。答案:0;117.若某决策树采用C4.5算法,其划分标准为____。答案:信息增益率18.在深度卷积网络中,若输入为224×224×3,卷积核大小3×3,步长2,填充1,输出通道64,则输出特征图尺寸为____×____×____。答案:112;112;6419.Kafka中,消费者组再均衡的触发条件之一是____发生变化。答案:分区数或消费者实例数20.在PyTorch中,若模型参数冻结,需设置requires_grad=____。答案:False21.使用PageRank算法时,阻尼系数通常取值为____。答案:0.8522.在HBase中,RowKey设计需避免____热点,常用的散列策略有____哈希。答案:Region;反转或前缀23.若某Spark任务提交参数为executormemory4gnumexecutors20,则集群为该任务分配的最大堆内存为____GB。答案:8024.联邦学习中,参与方本地更新后上传____参数,而非原始数据。答案:梯度或模型权重25.在深度强化学习DDPG算法中,负责策略输出的是____网络。答案:Actor四、判断题(每题1分,共10分;正确打“√”,错误打“×”)26.使用KMeans时,聚类中心数量k越大,SSE一定越小。答案:√27.在梯度提升树中,学习率越大模型越不容易过拟合。答案:×28.Flink的EventTime需依赖Watermark机制处理乱序数据。答案:√29.在Word2Vec中,SkipGram模型比CBOW更适合小规模语料。答案:×30.使用Dropout时,测试阶段仍需以概率p随机丢弃神经元。答案:×31.HDFS的NameNode单点故障问题可通过HAQJM方案解决。答案:√32.在Python中,NumPy数组的切片返回的是原数据的视图而非复制。答案:√33.当GPU显存不足时,减小BatchSize必然导致训练时间缩短。答案:×34.ARIMA模型中的I表示差分阶数,用于将非平稳序列转化为平稳序列。答案:√35.在Kafka中,Partition数量一旦创建便不可修改。答案:×五、简答题(封闭型,每题6分,共18分)36.简述MapReduce中Shuffle阶段的数据本地性优化策略。答案:(1)Map端将中间结果写入本地磁盘而非HDFS,减少网络传输;(2)Combiner在Map端本地聚合,降低溢写到磁盘的数据量;(3)Reduce端通过心跳向AM请求尽量调度到存有Map输出副本的节点;(4)NodeManager在分配Container时优先选择本地或机架本地节点;(5)通过shortcircuitread让Reduce直接拉取本地磁盘数据,跳过网络栈。37.写出使用PyTorch实现自定义Dataset时必须重写的两个方法及其作用。答案:__len__:返回数据集大小,供DataLoader计算迭代次数;__getitem__:接收索引idx,返回样本特征与标签,实现按需加载与数据增强。38.说明在深度学习训练过程中使用混合精度(FP16+FP32)的三项收益与两项注意事项。答案:收益:1.显存占用减半,可增大BatchSize;2.计算吞吐量提升,尤其TensorCore加速;3.通信带宽需求降低,分布式训练提速。注意事项:1.需使用LossScaling防止梯度下溢;2.在模型权重更新阶段需保持FP32主副本以保证精度。六、简答题(开放型,每题8分,共16分)39.某电商公司“618”大促期间,实时订单流达每秒80万条,需在大促开始后30分钟内动态检测异常品牌(销量突降>30%)。请给出技术选型、数据链路、核心算法与扩展性方案,并说明如何评估检测效果。答案:技术选型:Kafka→Flink→Redis→Grafana告警;数据链路:订单日志→Canal→KafkaTopicorder_event(80partitions)→FlinkJob并行度80→滑动窗口5min,步长1min→品牌粒度聚合→对比前一周同期基线(存储于Redis,使用品牌日级别销量×时段系数)→突降>30%触发告警写入RedisList→APIServer推送给运营;核心算法:指数加权移动平均(EWMA)维护基线,动态阈值=基线×(10.3ε),ε为置信区间;扩展性:Kafka分区可动态扩容;Flink使用RockDBStateBackend+增量Checkpoint;评估:离线回放大促数据,计算Precision@Alert、Recall@Brand、平均检测延迟;人工标注异常品牌作为GroundTruth;通过调整窗口长度与阈值获得F1最优。40.某市政府计划构建“城市级联邦学习平台”整合医院、交通、运营商数据,实现跨域疫情风险预测。请阐述平台架构、隐私合规、模型聚合、激励机制及潜在风险。答案:架构:边缘节点(医院/交通/运营商)部署FATE本地训练容器→通过政务外网TLS双向认证→中心协调节点(市大数据局)管理元数据与模型生命周期→使用FATEFlow调度训练任务;隐私合规:遵循《个人信息保护法》,采用差分隐私ε=1、同态加密Paillier、安全多方求交PSI;模型聚合:横向联邦(医院间症状预测)与纵向联邦(医院+运营商轨迹)混合,采用SecureBoost与SplitNN;中心节点仅收集加密梯度,使用FedAvg聚合;激励机制:按数据质量(缺失率<5%)、样本量、模型贡献度(ShapleyValue)分配政务云资源抵扣券;潜在风险:节点搭便车(上传虚假小梯度)→引入梯度一致性检验与声誉机制;成员推理攻击→限制模型参数访问,仅返回加密预测;法规变动→设置数据可撤销通道,支持“遗忘权”一键删除。七、计算题(共25分)41.(8分)给定二维数据集X={(1,2),(2,3),(3,3),(6,8),(7,9),(8,9)},使用KMeans初始化质心为(1,2)、(6,8),请手写计算第一次迭代后的质心坐标(欧氏距离,使用Mat公式)。答案:步骤1:计算距离(1,2)到c1=0,到c2=sqrt[(61)^2+(82)^2]=sqrt(25+36)=sqrt(61)≈7.81→簇1(2,3)到c1=sqrt(1+1)=sqrt(2)≈1.41,到c2=sqrt(16+25)=sqrt(41)≈6.40→簇1(3,3)到c1=sqrt(4+1)=sqrt(5)≈2.24,到c2=sqrt(9+25)=sqrt(34)≈5.83→簇1(6,8)到c1=sqrt(61),到c2=0→簇2(7,9)到c1=sqrt(36+49)=sqrt(85)≈9.22,到c2=sqrt(1+1)=sqrt(2)≈1.41→簇2(8,9)到c1=sqrt(49+49)=sqrt(98)≈9.90,到c2=sqrt(4+1)=sqrt(5)≈2.24→簇2步骤2:更新质心簇1均值x=(1+2+3)/3=2,y=(2+3+3)/3=8/3≈2.67→新质心(2,8/3)簇2均值x=(6+7+8)/3=7,y=(8+9+9)/3=26/3≈8.67→新质心(7,26/3)42.(8分)某GBDT二分类任务使用Logloss,当前第m棵树拟合的负梯度为残差r_i=y_ip_i,其中p_i为前m1棵树输出的概率。已知样本3个:真实标签y=[1,0,1],当前p=[0.8,0.3,0.7],请计算第m棵树拟合的目标值(即残差),并写出Mat公式。答案:残差r_i=y_ip_ir1=10.8=0.2r2=00.3=0.3r3=10.7=0.3目标向量r=[0.2,0.3,0.3]43.(9分)某卷积神经网络层参数如下:输入特征图14×14×256,卷积核3×3,步长1,填充1,输出通道512,使用分组卷积group=32。(1)计算输出特征图尺寸(Mat公式);(2)计算该层FLOPs(乘加次数,给出Mat推导);(3)若采用深度可分离卷积(先depthwise再pointwise),求FLOPs下降比例。答案:(1)输出高=输出宽=(14+2×13)/1+1=14→14×14×512(2)分组卷积每group输入通道=256/32=8,输出通道=512/32=16每group计算量:14×14×3×3×8×16=14×14×9×128=317520总FLOPs=317520×32=10160640(3)深度可分离:depthwise:14×14×3×3×256=14×14×9×256=451584pointwise:14×14×1×1×256×512=14×14×256×512=26013440总FLOPs=451584+26013440=26465024下降比例=126465024/(10160640+14×14×256×512)原普通卷积FLOPs=14×14×3×3×256×512=926969856下降比例=126465024/926969856≈97.1%八、综合分析题(共26分)44.(12分)某短视频平台每日新增视频千万级,需构建实时个性化推荐系统。给定场景:用户平均刷视频时长30min,刷新间隔1.5s,峰值QPS80k,特征维度5k(稀疏),模型为深度双塔(DSSM)。请回答:(1)给出在线推断服务架构图(文字描述即可),并说明如何做到P99延迟<120ms;(2)说明负采样策略与实时修正方案;(3)给出模型增量训练的数据管道与参数更新机制;(4)若新视频在30min内无曝光,如何快速冷启动?答案:(1)架构:用户行为→Kafka→FlinkCEP提取实时特征→写入RedisCluster(分片2k)→推荐服务Go+Gin,接收用户请求→并行召回(FaissIVF4096,GPU版)→粗排(轻量FM,CPU5ms)→精排(TensorRTFP16,GPUbatch=512,P9980ms)→重排(多样性规则+业务策略)→返回Top20;延迟优化:本地Cache用户近50次曝光过滤→减少Faiss查询;GPU批处理动态攒批最大2ms;使用gRPCHTTP/2+连接池;RedisPipeline批量取特征;CDN预热热门视频封面。(2)负采样:全局随机负例+同标签热门负例+hard负例(精排打分接近正例但非点击)比例4:3:3;实时修正:Flink滑动窗口5min统计点击率,若某视频CTR<0.5×同档位均值,则加入hard负例池。(3)增量训练:KafkaTopicuser_feedback→Flink清洗→每小时生成增量样本Parquet→S3→启动增量训练(TF2.x,learning_rate=0.001,warmup)→只更新UserTower参数,ItemTower参数冻结→通过TensorFlowServing热加载;参数服务器使用PS+Worker,异步更新,一致性协议为BSP,步长1000。(4)冷启动:内容侧使用视频帧ResNet50提取512维向量→文本BERT提取256维→拼接后PCA降维到128→写入Faiss临时索引;利用探索流量5%随机曝光,收集点击后再进入正常召回;若30min内仍无点击,则降低探索权重,转入长尾池。45.(14分)某市交通信号灯优化项目需融合浮动车GPS、路口摄像头、天气、节假日四类数据源,预测未来15min各路口平均车速,进而动态调整信号灯周期。数据规模:GPS每秒100万条、摄像头每秒30万帧结构化识别结果。请完成:(1)给出数据治理与特征工程方案;(2)设计时空预测模型(需含网络结构、损失函数、评价指标),并说明为何优于传统ARIMA;(3)给出在线推断与信号控制闭环流程,要求控制延迟<120s;(4)说明如何评估对真实交通效率的提升,并给出统计检验方法。答案:(1)数据治理:GPS过滤速度>180km/h、精度>15m异
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年高职物流管理(物流市场分析)试题及答案
- 2025年高职政治(排除)试题及答案
- 2025年大学体育管理学(体育场馆运营)试题及答案
- 2025年中职(会展实务)会展管理综合测试试题及答案
- 禁毒知识家长会课件
- 污水处理厂准地表Ⅲ类水提标改造项目可行性研究报告模板立项申批备案
- 年产500万件高端汽车零配件智能制造项目可行性研究报告模板-申批备案
- 搭配种草话术
- 2025 小学二年级科学上册运动安全的科学知识课件
- 2026年购房者行为分析对营销的启示
- 食品加工厂乳制品设备安装方案
- 2025至2030中国芳纶纤维行业发展分析及市场发展趋势分析与未来投资战略咨询研究报告
- 尾牙宴活动策划方案(3篇)
- 鲁教版(2024)五四制英语七年级上册全册综合复习默写 (含答案)
- 生蚝课件教学课件
- 组塔架线安全培训
- 化疗神经毒性反应护理
- 2025年度运营数据支及决策对工作总结
- 2025年《外科学基础》知识考试题库及答案解析
- 2025年湖南省公务员录用考试《申论》真题(县乡卷)及答案解析
- 粉尘清扫安全管理制度完整版
评论
0/150
提交评论