2025年大数据与人工智能考试试卷及答案_第1页
2025年大数据与人工智能考试试卷及答案_第2页
2025年大数据与人工智能考试试卷及答案_第3页
2025年大数据与人工智能考试试卷及答案_第4页
2025年大数据与人工智能考试试卷及答案_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年大数据与人工智能考试试卷及答案1单项选择(每题2分,共20分)1.1在HDFS中,默认一个数据块副本数为A1 B2 C3 D5答案:C1.2下列哪种激活函数在x=0处不可导ASigmoid BTanh CReLU DSoftmax答案:C1.3SparkCore默认的序列化框架是AJavaSerializable BKryo CProtocolBuffers DAvro答案:B1.4若某FPGrowth算法的最小支持度计数为100,事务数据库总条数为10000,则对应的最小支持度百分比为A0.5% B1% C2% D5%答案:B1.5在GBDT中,每棵树拟合的是A原始标签 B残差 C特征 D学习率答案:B1.6下列关于LSTM描述正确的是A输入门决定丢弃哪些细胞状态信息B遗忘门决定更新哪些细胞状态信息C输出门决定当前隐藏层输出D细胞状态直接参与反向传播权重更新答案:C1.7在Flink中,用于描述无限数据流的核心抽象是ADataSet BDataStream CTable DSQL答案:B1.8若某卷积层输入尺寸为32×32×3,卷积核尺寸5×5,步长1,padding2,输出通道数为64,则输出特征图尺寸为A30×30×64 B32×32×64 C34×34×64 D28×28×64答案:B1.9下列哪项不是Hadoop3.x的新特性A纠删码存储策略 BYARN联邦 CMapReduce自动内存调优 D支持GPU资源调度答案:C1.10在BERT预训练阶段,MaskedLM的掩码比例约为A5% B10% C15% D20%答案:C2多项选择(每题3分,共15分,多选少选均不得分)2.1下列属于数据倾斜解决策略的有A两阶段聚合 B加盐重分区 C广播变量 D动态资源分配答案:ABC2.2关于Transformer自注意力机制,正确的有A查询Q、键K、值V维度必须相同B缩放点积防止梯度消失C多头允许模型关注不同子空间信息D自注意力计算复杂度与序列长度呈线性关系答案:BC2.3以下哪些指标可用于不平衡分类评估AF1score BAUCROC CCohen’sKappa DAccuracy答案:ABC2.4在Kubernetes中,负责维护Pod副本数的控制器包括ADeployment BStatefulSet CDaemonSet DJob答案:AB2.5关于差分隐私,正确的有A添加噪声量与隐私预算ε成反比B同一查询多次执行隐私预算可累加CLaplace机制适用于数值型查询D高隐私要求对应大ε值答案:ABC3填空题(每空2分,共20分)3.1在PageRank公式中,阻尼系数d通常取________。答案:0.853.2若某决策树使用基尼系数作为划分标准,则节点基尼系数越小表示________。答案:纯度越高3.3在Kafka中,保证同一分区内消息顺序性的单位是________。答案:Partition3.4当学习率为0.01,动量因子为0.9时,若上一次梯度更新量为Δw(t1)=0.02,当前梯度为0.04,则使用Nesterov动量后的更新量约为________。答案:0.01×0.04+0.9×0.02=0.0223.5在SQL中,窗口函数row_number()over(partitionbyuser_idorderbyts)的作用是________。答案:为每个user_id按ts升序赋予唯一行号3.6若某深度网络采用He正态初始化,则权重方差与输入维度fan_in的关系为________。答案:2/fan_in3.7在HBase中,用于实现多版本数据存储的时间戳类型为________。答案:long3.8若某PCA保留95%方差,则累计解释方差比大于等于________。答案:0.953.9在A/B测试里,第一类错误率α通常设为________。答案:0.053.10当使用余弦相似度衡量两个向量时,若点积为0.5,模长分别为1和2,则余弦相似度为________。答案:0.254判断题(每题1分,共10分,正确写“T”,错误写“F”)4.1在KMeans中,随机初始中心点不同可能导致最终SSE不同。答案:T4.2使用BatchNorm后,网络对学习率不再敏感。答案:F4.3HiveonTez执行引擎比MapReduce延迟更低。答案:T4.4在随机森林中,树之间共享部分训练样本可降低方差。答案:F4.5Word2Vec使用负采样时,负样本数量固定为5。答案:F4.6在FlinkCheckpoint中,Barrier对齐会导致反压。答案:T4.7使用1×1卷积只能降维不能升维。答案:F4.8在ElasticSearch中,一个索引只能有一个分片。答案:F4.9在GAN训练中,判别器损失越低代表生成器性能越差。答案:T4.10在Pythonmultiprocessing中,由于GIL存在,多进程无法利用多核。答案:F5简答题(封闭型,每题6分,共18分)5.1描述MapReduce中“Shuffle”阶段的具体流程,并指出其性能瓶颈。答案:Map端将输出按分区函数写入环形缓冲区,当缓冲区80%满时触发Spill,溢写文件经过分区、排序、可选合并(Combiner),最终形成多个溢写文件并合并为一个分区有序文件;Reduce端通过HTTP拉取对应分区数据,进行归并排序。瓶颈:磁盘IO、网络传输、排序耗时。5.2写出BatchNormalization的前向推理公式(训练阶段),并解释其如何缓解内部协变量偏移。答案:μ_B=(1/m)Σx_i,σ^2_B=(1/m)Σ(x_iμ_B)^2,x̂_i=(x_iμ_B)/sqrt(σ^2_B+ε),y_i=γx̂_i+β。通过标准化使每层输入分布稳定,降低对参数初值和学习率敏感程度,缓解内部协变量偏移。5.3列举三种常见的数据采样偏差,并给出各自的一种纠正方法。答案:1.选择偏差:使用倾向得分加权。2.时间偏差:采用时间加权采样。3.曝光偏差:引入逆倾向评分(IPS)加权损失。6简答题(开放型,每题8分,共16分)6.1某电商推荐系统日活1亿,候选商品池2000万,请设计一套基于两阶段召回+排序的实时架构,要求支持分钟级新品冷启动,并说明关键技术选型理由。答案:召回阶段:1.实时行为Kafka流→FlinkCEP提取5分钟短序列→Item2Vec增量训练→FaissANN召回500候选;2.新品冷启动:商品文本图像多模态特征离线写入HBase,Flink异步IO调用BERT+ResNet提取特征,在线向量检索。排序阶段:Wide&Deep模型参数存储在ParameterServer,TensorFlowServing提供100ms级预估;特征实时拼接Redis+用户画像HBase;采用多目标(CTR、CVR、GMV)联合loss。理由:Flink低延迟保证分钟级更新;FaissGPU加速支持大候选;ParameterServer支持千亿参数稀疏模型;多模态特征解决冷启动。6.2讨论联邦学习在跨机构医疗影像诊断中的隐私与精度权衡,并提出一种改进方案。答案:隐私风险:梯度泄露可反推患者影像;精度挑战:数据异构(设备、协议)导致NonIID。权衡:强差分隐私噪声降低泄露但损害精度。改进:采用分段式联邦+知识蒸馏:机构内训练本地UNet,上传分割逻辑回归层输出logits而非梯度;中央服务器聚合logits蒸馏轻量级学生网络,引入(ε,δ)差分隐私对logits加自适应噪声,隐私预算按样本量分配;同时用FedProx约束本地模型与全局模型距离,缓解NonIID。实验表明在ε=3时Dice仅下降1.2%,优于传统FedAvg。7应用题(计算类,10分)7.1给定如下训练集,使用ID3算法构建决策树,信息增益采用熵度量。数据集:Outlook={Sunny,Sunny,Overcast,Rain,Rain,Rain,Overcast,Sunny}Temperature={Hot,Hot,Hot,Mild,Cool,Cool,Mild,Cool}Play={No,No,Yes,Yes,Yes,No,Yes,No}计算根节点划分属性并画出第一层分支,给出详细计算过程。答案:总熵E(D)=(5/8log2(5/8)+3/8log2(3/8))=0.9544Gain(Outlook)=0.9544[2/8×0+2/8×1+4/8×0.8113]=0.95440.4056=0.5488Gain(Temperature)=0.9544[3/8×0.9183+3/8×0.9183+2/8×1]=0.95440.9387=0.0157取信息增益最大属性Outlook为根节点,第一层分支:Outlook=Sunny:2样本,Play全No,叶节点NoOutlook=Overcast:2样本,Play全Yes,叶节点YesOutlook=Rain:4样本,需继续划分。8应用题(分析类,12分)8.1某市出租车GPS数据表trip(gps_time,lon,lat,car_id,status)每日增量500GB,需实时检测异常轨迹(绕路、长时间停留)。请给出基于SparkStructuredStreaming的完整处理链路,包括输入源、解析、异常判定指标、输出存储、可视化,并评估方案延迟与吞吐。答案:输入:KafkaTopicgps,分区200,单条约120字节,峰值200k条/秒。解析:流式DataFrame,使用from_json将value转为结构化字段,watermark=5分钟。指标:1.绕路比:实际里程/直线里程>1.8且里程>5km;2.停留:连续5分钟速度<1m/s且里程<50m。实现:滑动窗口10分钟,步长1分钟,groupBycar_id,window;UDF计算Haversine距离,状态存储HBase,checkpointHDFS。输出:异常事件写入Elasticsearch索引abnormal_trip,Kibana仪表盘展示热力图。性能:集群20节点(32核128GB),每节点处理10k条/秒,总吞吐200k条/秒,端到端延迟<2分钟,满足业务需求。9应用题(综合类,15分)9.1某短视频平台需构建实时内容审核系统,识别色情、暴力、政治敏感。给定数据:日新增视频800万条,平均时长45秒,峰值上传3万条/秒。要求:1.色情识别召回≥98%,误杀≤2%;2.整体处理成本≤0.01元/条;3.延迟≤30秒。请设计端到端技术方案,包括采集、特征抽取、模型选型、推理部署、成本估算,并说明如何持续迭代优化。答案:采集:客户端上传mp4→CDN→KafkaTopicvideo,分区600,单条约8MB,先存对象存储OSS,消息仅含URL与meta。特征抽取:Flink异步IO调用FFmpeg抽帧5fps,Resize224×224,写入Kafka帧队列frame,压缩JPEG30KB/帧。模型:两阶段。1.快速过滤:MobileNetV3Small分类色情/正常,量化int8,GPUT4推理,batch=32,吞吐900帧/秒,单卡成本0.003元/千帧;2.高精度复核:EfficientNetB4微调,使用知识蒸馏,召回98.5%,误杀1.5%,GPUV100batch=16,成本0.008元/千帧。部署:Kubernetes+KFServing,HPA按GPU利用率70%弹性,冷启动<10秒;帧级结果聚合视频级,采用时序投票,阈值调优。成本:平均45秒视频225帧,快速过滤0.0675元,复核比例10%,合计0.00135元,远低于0.01元。延迟:抽帧5秒+推理10秒+聚合5秒+队列10秒,总≤30秒。迭代:主动学习:高置信错误样本人工标注,周更训练集;难例挖掘:误杀样本回注训练,采用FocalLoss;半监督:利用BERT+ASR文本敏感词高置信伪标签,多模态融合提升政治敏感召回。监控:Prometheus+Grafana跟踪GPU利用率、延迟、成本,每月复盘。10编程题(12分)10.1使用PySpark实现分布式SMOTE算法,解决二分类样本不平衡(正:负=1:99)。要求:1.输入Parquet格式,字段(features:array<float>,label:int);2.对少数类生成合成样本,使正负比例1:3;3.输出Parquet并保证与输入schema一致;4.避免collect导致Driver内存溢出;5.给出核心代码及注释。答案:```pythonfrompyspark.sqlimportSparkSessionfrompyspark.sql.functionsimportcol,rand,udf,array,sqrt,litfrompyspark.ml.linalgimportVectors,VectorUDTimportnumpyasnpspark=SparkSession.builder.appName("DistSMOTE").getOrCreate()defsmote_partition(iterator,k=5,minority_label=1,ratio=3.0):importpandasaspdfromsklearn.neighborsimportNearestNeighborsdata=list(iterator)iflen(data)==0:returniter([])df=pd.DataFrame(data,columns=["features","label"])minority=df[df.label==minority_label]n_syn=int(len(minority)(ratio1))ifn_syn<=0:returniter([])X=np.array(minority.features.tolist())nn=NearestNeighbors(n_neighbors=k,metric='euclidean')nn.fit(X)syn_samples=[]for_inrange(n_syn):idx=np.random.randint(0,len(X))neigh=nn.kneighbors([X[idx]],k,return_distance=False)[0]nn_idx=np.random.choice(neigh[1:])diff=X[nn_idx]X[idx]gap=np.random.rand()syn=X[idx]+gapdiffsyn_samples.append((Vectors.dense(syn),minority_label))returniter(syn_samples)df=spark.read.parquet("input.parquet")minority_rdd=df.filter(col("label")==1).rdd.map(lambdar:(r.features,r.label))syn_rdd=minority_rdd.mapPartitions(lambdap:smote_partition(p,k=5,minority_label=1,ratio=3.0))syn_df=syn_rdd.toDF(["features","label"])final_df=df.union(syn

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论