2026年大学大数据技术(数据挖掘)阶段测试试题及答案_第1页
2026年大学大数据技术(数据挖掘)阶段测试试题及答案_第2页
2026年大学大数据技术(数据挖掘)阶段测试试题及答案_第3页
2026年大学大数据技术(数据挖掘)阶段测试试题及答案_第4页
2026年大学大数据技术(数据挖掘)阶段测试试题及答案_第5页
已阅读5页,还剩8页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年大学大数据技术(数据挖掘)阶段测试试题及答案一、单项选择题(每题2分,共20分)1.在Apriori算法中,若最小支持度阈值为0.3,事务数据库总条目为1000,则频繁1项集必须满足的支持计数至少为A.100  B.200  C.300  D.400答案:C2.下列关于信息增益的描述,正确的是A.信息增益越大,划分后熵越大B.信息增益等于父节点熵减去所有子节点熵的加权平均C.信息增益可用于回归树的分裂准则D.信息增益对可取值数目较少的属性有天然偏好答案:B3.在Kmeans聚类中,若初始簇中心选择不当,最可能导致的后果是A.收敛速度加快  B.聚类轮廓系数降低C.簇内平方和单调递减  D.算法无法终止答案:B4.使用MapReduce实现PageRank时,每次迭代中“贡献值”分发的数据格式为A.<节点ID,PageRank值>B.<源节点ID,<目标节点ID,贡献值>>C.<目标节点ID,贡献值>D.<源节点ID,目标节点ID>答案:B5.在FPGrowth算法中,头表(HeaderTable)的作用是A.存储事务数据库的压缩表示B.快速定位相同项的条件模式基C.记录项的支持度降序排名D.缓存已发现的频繁项集答案:B6.若某数据集中正负样本比例为1:99,直接采用准确率作为评价指标的主要风险是A.模型容易过拟合  B.将多数类预测错误C.将少数类预测为多数类即可达99%准确率D.精确率与召回率必然相等答案:C7.在随机森林中,关于OutofBag(OOB)误差的叙述,错误的是A.无需额外验证集即可估计泛化误差B.每棵树的OOB样本用于计算该树的预测误差C.OOB误差是偏差与方差之和D.OOB估计可用来进行特征重要性评分答案:C8.下列哪种技术最适合处理高维稀疏文本数据的聚类A.DBSCAN  B.谱聚类 C.BIRCH D.MiniBatchKmeans答案:B9.在HadoopYARN中,负责资源隔离与容器生命周期的组件是A.ResourceManager B.NodeManager C.ApplicationMaster D.ContainerExecutor答案:B10.当使用梯度提升树(GBDT)时,若学习率设置过大,最可能出现的异常是A.模型无法收敛到局部最优 B.树的数量必须减少C.训练集损失单调递增 D.特征重要性全为0答案:A二、多项选择题(每题3分,共15分;多选少选均不得分)11.下列属于密度聚类算法的有A.DBSCAN B.OPTICS C.DENCLUE D.CLARA答案:A、B、C12.关于L1正则化与L2正则化的比较,正确的有A.L1更易产生稀疏解 B.L2对异常值更鲁棒C.L1的优化目标不可导 D.L2的解析解总是存在答案:A、B13.在SparkMLlib中,属于Transformer的组件有A.Tokenizer B.LogisticRegression C.StandardScaler D.PCA答案:A、C、D14.以下措施可以缓解决策树过拟合的有A.预剪枝 B.后剪枝 C.增加最大深度 D.限制叶节点最小样本数答案:A、B、D15.关于HDFS写入流程,正确的有A.客户端将数据流式写入第一个DataNode,后者流水线转发B.每个数据块默认存3份 C.NameNode负责存储实际数据块D.写入期间客户端持续持有租约答案:A、B、D三、填空题(每空2分,共20分)16.在ID3算法中,分裂属性的选择依据是________最大。答案:信息增益17.若某事务数据库包含5个项{a,b,c,d,e},则所有可能的关联规则数为________。答案:3^5−2^{5+1}+1=18018.在协同过滤中,用户物品评分矩阵的稀疏度定义为________与________的比值。答案:未评分项数;总项数19.使用MapReduce实现共现矩阵时,Map阶段输出的中间键值对格式为________。答案:<(word_i,word_j),1>20.在PageRank幂迭代中,阻尼系数d通常取________。答案:0.8521.若某聚类结果的兰德指数(RI)为0.8,则调整兰德指数(ARI)的最大可能值为________。答案:122.在HBase中,用于实现Region自动分裂的参数为________。答案:hbase.hregion.max.filesize23.当使用TFIDF加权时,若某词在所有文档中均出现,则其IDF值为________。答案:024.在GBDT中,第m棵树拟合的是前m1棵树预测的________。答案:负梯度(残差)25.在Kafka中,保证同一分区内消息顺序性的机制是________。答案:分区内部单消费者线程四、判断题(每题1分,共10分;正确打“√”,错误打“×”)26.Kmeans算法对噪声点不敏感。  答案:×27.Apriori性质表明:频繁项集的所有非空子集一定是频繁的。  答案:√28.在HDFS中,SecondaryNameNode是NameNode的热备份。  答案:×29.逻辑回归使用Sigmoid函数主要是为了实现非线性可分。  答案:×30.当DBSCAN的参数Eps设置过大时,所有对象可能合并为一个簇。  答案:√31.在Spark中,RDD的lineage信息在Action操作后会被清空。  答案:×32.使用Word2Vec训练得到的词向量维度越高,语义信息一定越丰富。  答案:×33.在协同过滤中,基于物品的方法比基于用户的方法更适合用户量远大于物品量的场景。  答案:√34.若某属性与类别完全独立,则其信息增益必为0。  答案:√35.在YARN中,Container只能运行一个Task。  答案:×五、简答题(每题8分,共24分)36.(封闭型)简述FPGrowth算法为何不需要生成候选集,并说明其性能优势。答案:FPGrowth通过构造FPTree压缩事务数据库,将挖掘频繁模式的问题转化为递归挖掘条件FPTree的问题,避免了Apriori的“生成测试”候选集开销;优势:1.只需两次扫描数据库;2.内存中操作,减少I/O;3.无需候选集,搜索空间显著减小;4.对稠密数据集效率更高。37.(开放型)某电商公司欲构建实时异常订单检测系统,请给出基于SparkStreaming的技术方案,包括数据源、流处理、特征工程、模型选择与结果输出。答案:数据源:KafkaTopic“order_stream”,JSON格式包含订单ID、用户ID、商品列表、金额、收货地址、时间戳。流处理:SparkStreaming2s批间隔,Direct方式接入Kafka。特征工程:1.解析JSON,过滤无效字段;2.滑动窗口统计近10分钟用户下单频次、金额均值;3.将收货地址与历史地址库做Jaccard相似度;4.对商品列表做哈希向量化;5.组合成特征向量并标准化。模型选择:初期采用IsolationForest离线训练,模型广播到Executor,在线预测;后期切换为在线Loda(LightweightOnlineDetectorofAnomalies)增量更新。结果输出:若异常得分>阈值,写入Kafka“alert_stream”,同时更新Redis缓存用于前端弹窗;每日离线批量评估,更新模型。38.(封闭型)说明为什么在高维空间中,基于距离的聚类算法效果下降,并给出两种缓解方法。答案:高维带来“维度灾难”,距离度量趋于集中,区分度下降;缓解:1.特征选择或降维(PCA、tSNE预处理);2.使用子空间聚类(CLIQUE)或基于密度的DBSCAN结合降维后的距离。六、计算与分析题(共31分)39.(计算类,10分)给定如下事务数据库,最小支持度计数为2,写出Apriori算法生成频繁2项集的全过程。T1:{a,b,c} T2:{a,c,d} T3:{b,c,d} T4:{a,b,d} T5:{a,b,c,d}答案:Step1:扫描得候选1项集C1={a:4,b:4,c:4,d:4},均满足,L1={a,b,c,d}。Step2:连接得C2={ab,ac,ad,bc,bd,cd},扫描计数:ab:3,ac:3,ad:3,bc:3,bd:3,cd:3,均≥2,L2={ab,ac,ad,bc,bd,cd}。故频繁2项集为{ab,ac,ad,bc,bd,cd}。40.(分析类,10分)某二分类数据集经10折交叉验证后得到如下混淆矩阵平均值:TP=80,FN=20,TN=850,FP=50。计算精确率、召回率、F1、特异度、ROC曲线下面积AUC(已知TPR=0.8,FPR=0.055)。答案:精确率P=TP/(TP+FP)=80/130=0.615召回率R=TP/(TP+FN)=80/100=0.8F1=2PR/(P+R)=0.702特异度Sp=TN/(TN+FP)=850/900=0.944AUC≈0.5+(TPRFPR)/2=0.5+(0.80.055)/2=0.872541.(综合类,11分)某物流公司有3年GPS轨迹数据(HDFS,Parquet格式,每日增量20GB),需挖掘常驻点(司机每日停留≥2小时、半径≤200米的区域)。请给出基于Spark的完整实现思路,包括数据清洗、停留点检测、DBSCAN聚类、常驻点判定的伪代码,并估算集群资源。答案:1.数据清洗:df=spark.read.parquet("gps/").filter($"speed"<5&&$"acc"<2)//静止状态.select($"driverID",$"lat",$"lon",$"ts").dropDuplicates()2.停留点检测:按driverID与日期分区,窗口函数lead计算下条记录时间差;累加连续静止段,若累计时长≥7200秒且最大球面距离≤200m,则标记为stayPoint。3.DBSCAN聚类:伪代码:eps=0.2/6371//弧度minPts=20model=DBSCAN.train(rddStay.map(p=>Vectors.dense(p.lon,p.lat)),eps,minPts)clusters=model.clusterCenters4.常驻点判定:按driverID+clusterID统计出现天数,若≥总工作日0.8,则输出常驻点。5.资源估算:每日20GB,3年≈22TB,Parquet压缩比5:1,扫描约4.4TB;128GB16节点,每节点8核,总内存2TB,可缓存全量数据,预计2小时完成。七、设计题(共30分)42.(系统架构设计,15分)某城域银行拟构建实时反欺诈系统,要求毫秒级响应、日均1亿笔交易、峰值5万TPS。请给出基于Flink的Lambda架构方案,包括数据流图、状态管理、特征计算、模型推理、容灾机制,并说明如何满足CAP理论中的可用性与一致性权衡。答案:数据流图:KafkaSource→FlinkCEP→AsyncI/O(外部画像)→KeyedProcessFunction(特征窗口)→ModelInference→KafkaSink(决策)。状态管理:使用RocksDBStateBackend,开启增量checkpoint,3秒一次,HDFS存储;特征计算:滑动窗口1分钟,统计卡号维度近5分钟交易次数、金额均值、异地登录标记;模型推理:TensorFlowSavedModel热加载,通过FlinkTensorFlowInferenceAPI,批量预测延迟<10ms;容灾:双机房部署,checkpoint跨机房复制,作业级别设置最大恢复时间30s;CAP权衡:牺牲强一致性,采用最终一致性,决策结果异步同步到MySQL,允许秒级延迟,保证高可用。43.(算法优化设计,15分)传统协同过滤在十亿级用户×千万级商品场景下面临稀疏与扩展性双重挑战。请提出一种基于双塔模型与负采样策略的深度召回算法,给出模型结构、损失函数、采样策略、在线服务方案,并证明其时间复杂度由O(UV)降至O(U+V)。答案:模型结构:用户塔为多层DNN,输入用户画像、行为序列,输出128维向量u;商品塔为DNN,输入商品属性、文本,输出128维向

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论