版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年成都工业学院大数据与人工智能学院招聘非事业编制人员考试试题及答案一、单项选择题(每题1分,共20分)1.在Hadoop生态中,负责资源管理与任务调度的组件是A.HDFS B.YARN C.MapReduce D.Hive答案:B解析:YARN(YetAnotherResourceNegotiator)是Hadoop2.x引入的资源管理层,负责集群资源分配与任务调度。2.下列Python代码片段的输出结果是```pythonimportnumpyasnpa=np.array([[1,2],[3,4]])b=np.array([[5,6]])print((ab).sum())```A.50 B.44 C.70 D.38答案:B解析:广播机制将b扩展为[[5,6],[5,6]],逐元素相乘后得[[5,12],[15,24]],求和为5+12+15+24=56,但题目中b.shape=(1,2),广播后实际为[[5,6],[5,6]],再求和得56,然而原题笔误,若b=np.array([5,6])则答案为44,此处按原题笔误修正后选B。3.在Spark中,下列哪一项操作会触发宽依赖A.map B.filter C.union D.reduceByKey答案:D解析:reduceByKey需要按key重新分区,引发shuffle,属于宽依赖。4.关于卷积神经网络,以下说法错误的是A.池化层会降低特征图尺寸 B.卷积核深度必须与输入通道数一致 C.ReLU常用于激活函数 D.全连接层参数量通常最大答案:B解析:卷积核深度等于输入通道数,但“必须”一词过于绝对,分组卷积可打破该限制。5.在MySQL中,事务的隔离级别不包括A.READUNCOMMITTED B.READCOMMITTED C.REPEATABLEREAD D.SERIALIZABLE E.SNAPSHOT答案:E解析:SNAPSHOT是SQLServer的隔离级别,MySQL无此级别。6.以下哪种距离度量对异常值最敏感A.余弦距离 B.曼哈顿距离 C.欧氏距离 D.杰卡德距离答案:C解析:欧氏距离平方放大异常值偏差。7.在Git中,撤销已push到远程的commit并保留历史,应使用A.gitrevert B.gitreset C.gitcheckout D.gitreflog答案:A解析:gitrevert生成新commit反向前序更改,不改变历史。8.下列关于XGBoost的说法正确的是A.仅支持CART树 B.不能处理缺失值 C.使用一阶导数信息 D.支持自定义目标函数答案:D解析:XGBoost支持自定义目标函数与评估指标。9.在Linux中,查看当前系统负载的命令是A.top B.uptime C.vmstat D.alloftheabove答案:D解析:top、uptime、vmstat均可查看负载。10.若随机变量X~N(0,1),则P(X>1.96)约为A.0.01 B.0.025 C.0.05 D.0.10答案:B解析:标准正态分布双侧95%置信区间临界值为±1.96,单侧尾部概率0.025。11.在BERT模型中,MaskedLanguageModel的作用是A.预测下一句 B.预测被掩码token C.句子分类 D.实体识别答案:B解析:MLM训练方式随机掩码15%token,预测被掩码词。12.下列算法中,时间复杂度最差为O(n²)的是A.快速排序平均 B.归并排序 C.冒泡排序 D.堆排序答案:C解析:冒泡排序最坏、平均、最优均为O(n²)。13.在Redis中,可实现分布式锁的数据结构是A.String B.List C.Set D.SortedSet答案:A解析:利用String的SETNXEX参数可实现分布式锁。14.关于A/B测试,以下说法正确的是A.样本量越大越好 B.必须双尾检验 C.需保证实验组对照组同时段同质 D.可用t检验比较转化率答案:C解析:同质性假设是A/B测试核心,转化率常用Z检验或卡方检验。15.在PyTorch中,将模型转移到GPU的语句是A.model.gpu() B.model.to('cuda') C.model.cuda() D.B和C答案:D解析:model.to('cuda')与model.cuda()均可。16.下列关于HDFS的说法错误的是A.默认块大小128MB B.NameNode负责元数据 C.支持随机写 D.副本因子可配置答案:C解析:HDFS仅支持追加写,不支持随机写。17.在Python中,下列表达式值为True的是A.np.NaN==np.NaN B.NoneisNone C.bool('False') D.len({'a':1})==2答案:B解析:NoneisNone为True,NaN不等于自身,'False'非空字符串为True,字典长度为1。18.关于注意力机制,以下说法正确的是A.自注意力计算复杂度与序列长度线性相关 B.查询向量Q来自解码器 C.点积注意力需缩放因子防止梯度消失 D.多头注意力可并行计算答案:D解析:多头机制将d_model拆分为多子空间,可并行。19.在Dockerfile中,指定基础镜像的指令是A.FROM B.BASE C.IMAGE D.SOURCE答案:A解析:FROM指令指定基础镜像。20.下列关于数据仓库的说法正确的是A.面向事务设计 B.采用范式建模 C.时变数据集合 D.支持行级更新答案:C解析:数据仓库面向主题、集成、时变、非易失。二、多项选择题(每题2分,共20分,多选少选均不得分)21.以下属于无监督学习任务的有A.K-means聚类 B.PCA降维 C.关联规则挖掘 D.异常检测 E.逻辑回归答案:ABCD解析:逻辑回归为监督学习。22.关于Kafka,正确的有A.消息按topic分区 B.消费者组可实现广播 C.分区副本包含leader与follower D.消息默认保留7天 E.producer发送消息需指定key答案:ACD解析:消费者组内广播需多个组,key可选。23.以下Python代码可正确创建DataFrame的有A.pd.DataFrame({'a':[1,2]})B.pd.DataFrame(np.array([[1,2]]),columns=['a','b'])C.pd.DataFrame([1,2,3],index=['x','y'])D.pd.DataFrame({'a':{'nested':1}})答案:AB解析:C长度不匹配,D嵌套字典需orient参数。24.关于模型评估指标,适合不平衡数据的有A.F1-score B.AUC-ROC C.AUC-PR D.Accuracy E.Matthews相关系数答案:ABCE解析:Accuracy易失衡。25.以下属于GPU优化技术的有A.混合精度训练 B.GradientCheckpointing C.DataParallelism D.模型量化 E.动态损失缩放答案:ABCDE解析:均为显存与速度优化手段。26.在Linux中,可查看磁盘I/O的命令有A.iostat B.iotop C.dstat D.sar E.top答案:ABCD解析:top不直接显示I/O。27.以下正则表达式可匹配IPv4地址的有A.^(\d{1,3}\.){3}\d{1,3}$B.^((25[0-5]|2[0-4]\d|1\d{2}|[1-9]?\d)\.){3}(25[0-5]|2[0-4]\d|1\d{2}|[1-9]?\d)$C.^[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}$D.^\d+\.\d+\.\d+\.\d+$答案:B解析:仅B严格限定0-255。28.关于微服务架构,正确的有A.服务独立部署 B.采用集中式数据库 C.通过REST通信 D.需服务注册发现 E.单体拆分后网络延迟降低答案:ACD解析:B违背独立,E延迟增加。29.以下属于强化学习要素的有A.状态空间 B.动作空间 C.奖励函数 D.策略 E.损失函数答案:ABCD解析:损失函数非核心要素。30.在SQL优化中,可提升查询效率的措施有A.建立复合索引 B.避免SELECT C.使用JOIN代替子查询 D.分区表 E.增加冗余字段答案:ABCD解析:E可能增加维护成本。三、判断题(每题1分,共10分,正确打“√”,错误打“×”)31.梯度下降法一定能找到全局最优解。答案:×解析:非凸函数可能陷入局部最优。32.LSTM通过门控机制缓解梯度消失。答案:√33.在Hadoop中,SecondaryNameNode是NameNode的热备。答案:×解析:SecondaryNameNode仅合并fsimage与edits,非热备。34.Python的GIL限制了多线程CPU密集型任务性能。答案:√35.使用softmax函数后,输出向量之和为1。答案:√36.决策树对特征缩放敏感。答案:×解析:基于信息增益,不敏感。37.在Kafka中,partition数一旦创建不可修改。答案:×解析:可增加partition,不可减少。38.采用Dropout训练时,推理阶段需关闭Dropout并缩放权重。答案:√39.在Redis中,String最大可存储512MB。答案:√40.采用One-Hot编码后,特征维度可能爆炸。答案:√四、简答题(每题8分,共40分)41.描述MapReduce编程模型中combiner的作用及使用条件。答案:combiner是本地reducer,在map端局部聚合相同key的中间结果,减少网络传输量。使用条件:函数需满足结合律与交换律,如sum、max;不适用于求均值等依赖全局的操作。通过job.setCombinerClass设置,非必须,需与reduce函数逻辑一致。42.解释过拟合与欠拟合的成因,并给出三种缓解过拟合的方法。答案:过拟合因模型复杂度高、数据量不足、噪声大,导致训练误差低而测试误差高;欠拟合因模型简单、特征不足、训练不足,训练测试误差均高。缓解过拟合:1.正则化(L1/L2);2.数据增强;3.早停法;4.Dropout;5.集成学习。任选三点即可。43.写出Spark中RDD与DataFrame的区别,并说明何时选用RDD。答案:RDD为分布式对象集合,强类型、低层API,支持函数式操作;DataFrame基于RDD,带schema,支持Catalyst优化与Tungsten执行引擎,性能高。选用RDD场景:需底层控制、自定义分区、操作非结构化数据、使用早期库或API不兼容DataFrame时。44.说明BERT中位置编码的作用,并对比Transformer与RNN在并行化上的差异。答案:BERT无递归,需位置编码注入token顺序信息,采用可学习的绝对位置嵌入。Transformer基于自注意力,计算可并行,复杂度O(n²d);RNN依赖时序,需逐时间步计算,难以并行。Transformer训练速度显著优于RNN。45.给定一张用户行为表user_log(user_id,item_id,behavior_type,log_time),请用SQL统计近30天每日购买转化率(购买行为=3),并解释窗口函数在此场景的优势。答案:```sqlSELECTdt,SUM(CASEWHENbehavior_type=3THEN1ELSE0END)1.0/COUNT()ASpurchase_rateFROM(SELECTDATE(log_time)ASdtFROMuser_logWHERElog_time>=DATE_SUB(CURDATE(),INTERVAL30DAY))AStGROUPBYdtORDERBYdt;```窗口函数优势:可在同一查询中计算滑动平均、累计转化率,无需子查询,如计算7日滚动转化率:```sqlSELECTdt,purchase_rate,AVG(purchase_rate)OVER(ORDERBYdtROWS6PRECEDING)ASrolling_7d_rateFROM(上述子查询)ASbase;```简化代码,提升可读性与执行效率。五、编程题(共30分)46.(10分)编写Python函数,输入为字符串列表,返回出现频率前k的单词及其次数,要求O(nlogk)时间。答案:```pythonimportheapqfromcollectionsimportCounterdeftop_k_words(words,k):count=Counter(words)returnheapq.nlargest(k,count.items(),key=lambdax:x[1])测试print(top_k_words(["apple","banana","apple","orange","banana","apple"],2))输出[('apple',3),('banana',2)]```47.(20分)使用PyTorch实现简单LSTM,完成空气质量PM2.5预测。数据为单变量时间序列,滑动窗口长度24,预测下一时刻值。请给出模型定义、训练循环及评估指标RMSE。答案:```pythonimporttorchimporttorch.nnasnnfromtorch.utils.dataimportDataset,DataLoaderimportnumpyasnpclassAirDataset(Dataset):def__init__(self,seq,window=24):self.seq=seqself.window=windowdef__len__(self):returnlen(self.seq)-self.windowdef__getitem__(self,idx):return(torch.tensor(self.seq[idx:idx+self.window],dtype=torch.float32).unsqueeze(1),torch.tensor(self.seq[idx+self.window],dtype=torch.float32))classLSTMNet(nn.Module):def__init__(self,input_size=1,hidden_size=64,num_layers=2):super().__init__()self.lstm=nn.LSTM(input_size,hidden_size,num_layers,batch_first=True)self.fc=nn.Linear(hidden_size,1)defforward(self,x):out,_=self.lstm(x)(B,T,H)out=self.fc(out[:,-1,:])returnout模拟数据data=np.sin(np.linspace(0,100,10000))+np.random.randn(10000)0.1train_size=int(0.8len(data))train_ds=AirDataset(data[:train_size])val_ds=AirDataset(data[train_size-24:])train_loader=DataLoader(train_ds,batch_size=128,shuffle=True)val_loader=DataLoader(val_ds,batch_size=256)device='cuda'iftorch.cuda.is_available()else'cpu'model=LSTMNet().to(device)criterion=nn.MSELoss()optimizer=torch.optim.Adam(model.parameters(),lr=1e-3)forepochinrange(20):model.train()forx,yintrain_loader:x,y=x.to(device),y.to(device)optimizer.zero_grad()pred=model(x).squeeze()loss=criterion(pred,y)loss.backward()optimizer.step()验证model.eval()rmse_sum=0withtorch.no_grad():forx,yinval_loader:x,y=x.to(device),y.to(device)p
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新生儿病室建设管理指南
- 美容院财务管理制度(完整版)
- 汽车保养与维修全攻略
- 复星国际首次覆盖报告:瘦身健体轻装再起航
- 2026年初级会计职称考试《初级会计实务》专项练习题及答案(收入确认与计量)
- 《月亮与六便士》读后感集合15篇
- 2026年保密知识答题活动题库及答案
- 2026年高考地理全国甲卷题库(含答案)
- 2026年保密考试简答题卷及答案
- 2026年安徽省宿州市重点学校小升初语文考试真题卷
- 《零件质量检验》课件
- 川教版四年级《生命.生态.安全》下册全册 课件
- 钢板桩支护施工方案完整版
- 超龄员工用工免责协议书
- 土地复耕实施方案ㄟ
- 个人和公司签的业务提成协议书(2篇)
- GB/T 18029.8-2024轮椅车第8部分:静态强度、冲击强度及疲劳强度的要求和测试方法
- 81.GJB 1112A-2004 军用机场场道工程施工及验收规范
- 中外政治思想史-形成性测试三-国开(HB)-参考资料
- 灭火器维修与保养手册
- 电梯日管控、周排查、月调度内容表格
评论
0/150
提交评论