版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年大数据数学考试题及答案一、单项选择题(每题4分,共40分。每题只有一个正确答案,请将正确选项字母填入括号内)1.设矩阵A=[[2,1],[1,3]],则A的迹为A.2 B.3 C.5 D.6答案:C2.给定随机变量X~N(0,1),则P(|X|≤1.96)的近似值为A.0.90 B.0.95 C.0.975 D.0.99答案:B3.在Hadoop分布式文件系统HDFS中,默认块大小为A.32MB B.64MB C.128MB D.256MB答案:C4.设向量v=[1,2,3],则其L2范数为A.3 B.6 C.sqrt(14) D.14答案:C5.若逻辑回归模型使用sigmoid函数,则其输出范围是A.(∞,+∞) B.[0,1] C.[1,1] D.[0,+∞)答案:B6.在Spark中,RDD的transformation操作的特点是A.立即执行 B.惰性求值 C.触发磁盘写入 D.触发网络传输答案:B7.给定样本{x1,x2,...,xn},其样本方差的无偏估计公式中分母为A.n B.n1 C.n+1 D.2n答案:B8.若关联规则的支持度为5%,置信度为60%,则下列说法正确的是A.规则在5%的事务中同时出现前件和后件B.规则在60%的事务中出现前件C.规则在5%的事务中出现后件D.规则在60%的事务中同时出现前件和后件答案:A9.在PageRank算法中,阻尼系数d通常取A.0.5 B.0.65 C.0.85 D.0.95答案:C10.若时间序列模型ARIMA(1,1,1)中AR系数为0.6,MA系数为0.4,则其特征方程的常数项为A.0.6 B.0.4 C.1 D.0答案:D二、多项选择题(每题5分,共30分。每题有两个或两个以上正确答案,请将所有正确选项字母填入括号内,漏选、错选均不得分)11.下列属于Hadoop生态圈的组件有A.Hive B.HBase C.Kafka D.ZooKeeper E.Spring答案:ABCD12.关于主成分分析PCA,下列说法正确的有A.主成分方向是协方差矩阵的特征向量B.主成分方差按降序排列C.主成分之间一定正交D.主成分数量可以大于原始变量数E.主成分分析可用于降噪答案:ABCE13.在梯度下降优化中,以下方法可以加速收敛的有A.动量法 B.AdaGrad C.Adam D.随机梯度下降 E.批量梯度下降答案:ABC14.下列属于NoSQL数据库的有A.MongoDB B.Redis C.Neo4j D.PostgreSQL E.Cassandra答案:ABCE15.关于kmeans聚类,下列说法正确的有A.需要预先指定簇数kB.对初始中心点敏感C.使用欧氏距离度量D.对异常值鲁棒E.可能收敛到局部最优答案:ABCE16.在深度学习卷积神经网络中,以下操作可以减小特征图尺寸的有A.卷积 B.池化 C.填充 D.步长大于1的卷积 E.反卷积答案:BD三、填空题(每题5分,共30分。请将最终答案填入横线,无需给出中间过程)17.若矩阵B=[[4,2],[2,1]],则其行列式det(B)=______。答案:018.给定样本均值x̄=10,样本标准差s=2,样本量n=100,则其均值标准误为______。答案:0.219.在Spark中,通过代码行valrdd2=rdd1.map(x=>xx)得到的rdd2的分区数与rdd1的分区数关系为______(填“相等”或“不相等”)。答案:相等20.若逻辑回归的似然函数为L(θ),则通常取其对数并最大化,等价于最小化负对数似然,该负对数似然常被称为______损失。答案:交叉熵21.设随机森林由500棵决策树组成,对某样本分类时,有400棵树预测为类别A,100棵预测为类别B,则随机森林最终预测概率P(A)=______。答案:0.822.在HiveQL中,将表employee按字段dept分区并创建外部表的语句中,关键字PARTITIONEDBY后应写______。答案:deptstring四、简答题(封闭型,每题10分,共40分。请给出关键步骤与最终答案)23.给定二维数据集D={(1,2),(2,3),(3,5),(4,4),(5,6)},试用最小二乘法求线性回归方程y=a+bx的系数a与b。答案:n=5,Σx=15,Σy=20,Σx²=55,Σxy=73x̄=3,ȳ=4b=(Σxynx̄ȳ)/(Σx²nx̄²)=(7360)/(5545)=13/10=1.3a=ȳbx̄=41.33=0.1故回归方程为y=0.1+1.3x24.说明MapReduce中combiner的作用,并指出其使用的前提条件。答案:combiner本质为本地reducer,在map端局部聚合数据,减少shuffle数据量;前提:聚合函数需满足交换律与结合律,如sum、max,不适用于求均值。25.某电商用户行为日志包含字段(user_id,item_id,behavior_type,timestamp),其中behavior_type含pv、buy、crt三类。请写出HiveQL统计最近7天每个用户的购买转化率(购买次数/页面浏览次数),要求过滤掉浏览次数小于10的用户。答案:selectuser_id,sum(casewhenbehavior_type='buy'then1else0end)/sum(casewhenbehavior_type='pv'then1else0end)asbuy_ratefromuser_logwheretimestamp>=unix_timestamp(date_sub(current_date,7),'yyyyMMdd')groupbyuser_idhavingsum(casewhenbehavior_type='pv'then1else0end)>=10;26.设时间序列{x_t}满足x_t=0.7x_{t1}+ε_t,其中ε_t~N(0,σ²)为白噪声。求该AR(1)过程的自相关函数ρ(k)。答案:ρ(k)=0.7^|k|五、应用题(计算类,每题15分,共45分。请给出详细步骤、关键公式与最终数值结果)27.某社交平台拥有1亿用户,好友关系存储为无向图,边数50亿。现采用SparkGraphX计算每个用户的二度邻居数(即距离恰好为2的节点数)。已知集群400核,内存充足,GraphX采用边分割。(1)写出核心代码片段;(2)估算迭代中shuffle数据量(以边数为单位);(3)若每轮shuffle耗时3分钟,迭代2轮,计算总耗时。答案:(1)importorg.apache.spark.graphx._valgraph:Graph[Int,Int]=GraphLoader.edgeListFile(sc,"hdfs://path/edges")valtwoHop=graph.aggregateMessages[Int](triplet=>{triplet.sendToDst(triplet.srcAttr);triplet.sendToSrc(triplet.dstAttr)},(a,b)=>a+b)valcounts=twoHop.join(graph.vertices).map{case(id,(twoHopCount,_))=>(id,twoHopCount)}(2)每点平均度d=25e9/1e8=100。二度邻居上限d²=1e4,实际由于重叠约0.6d²=6000条消息/点,总消息量1e86000=6e11条,即6000亿条消息,每条8字节,约4.8TB。(3)两轮shuffle耗时23=6分钟。28.某城市出租车GPS数据每秒记录一次,包含(taxi_id,timestamp,lon,lat,载客状态)。给定20250601全天数据2TB,存储于HDFS,块大小128MB,共16384块。需计算每辆车的日运营里程(载客状态=1的轨迹点间距之和)。(1)说明map与reduce的输入输出key/value设计;(2)给出map阶段计算相邻点距离的公式(使用Haversine,地球半径R=6371km);(3)若采用512个reduce槽,预测reduce阶段耗时(假设每处理1GB数据耗时1分钟,reduce输入压缩比2:1)。答案:(1)map输入:偏移量,行文本;输出key:taxi_id,value:(timestamp,lon,lat,载客状态)。reduce输入:taxi_id,列表[(ts,lon,lat,状态)];输出:taxi_id,总里程。(2)对同一taxi_id按ts排序后,相邻点(lat1,lon1),(lat2,lon2)距离d=2Rasin(sqrt(sin²((lat2lat1)/2)+cos(lat1)cos(lat2)sin²((lon2lon1)/2)))其中lat、lon取弧度。(3)map输出未压缩约2TB,压缩后reduce输入1TB,512并发,每reduce处理1TB/512≈1.95GB,耗时1.95分钟,总耗时约2分钟。29.某推荐系统使用隐语义模型ALS预测评分,已知用户因子矩阵U∈R^{m×k},物品因子矩阵V∈R^{n×k},正则化参数λ=0.1,迭代中需更新用户因子u_i。给定观测评分r_ij∈{1,2,3,4,5},损失函数L=Σ_{(i,j)∈K}(r_iju_i·v_j)^2+λ||u_i||²求u_i的解析更新公式,并给出当k=2,λ=0.1,用户i有3条记录:(j=10,r=4,v_10=[1,1]),(j=20,r=5,v_20=[2,0]),(j=30,r=3,v_30=[0,2])时,更新后的u_i数值结果(保留3位小数)。答案:令V_i∈R^{k×|K_i|}为物品因子矩阵,R_i为评分向量,则u_i=(V_iV_i^T+λI)^{1}V_iR_i代入数据:V_i=[[1,2,0],[1,0,2]],R_i=[4,5,3]^TV_iV_i^T=[[5,1],[1,5]]加正则:[[5.1,1],[1,5.1]]逆矩阵:1/(5.1²1)[[5.1,1],[1,5.1]]≈0.0406[[5.1,1],[1,5.1]]V_iR_i=[14,10]^Tu_i=0.0406[[5.11410],[14+5.110]]=0.0406[61.4,37]≈[2.493,1.502]故更新后u_i≈[2.493,1.502]六、应用题(分析类,每题15分,共45分。请给出分析思路、关键图表说明与结论)30.某视频平台每日新增50TB播放日志,字段含(user_id,video_id,play_duration,total_duration,dt)。运营方欲识别“刷量”行为,定义为:同一用户单日对同一视频播放次数≥100且平均播放完成度≤10%。(1)给出基于SQL的检测逻辑;(2)说明如何在SparkSQL中避免数据倾斜;(3)若20250610检测到异常记录120万条,涉及用户3万,视频1万,估算这些异常记录占当日总日志的比例(保留4位小数)。答案:(1)selectuser_id,video_id,dtfromlogsgroupbyuser_id,video_id,dthavingcount()>=100andavg(play_duration/total_duration)<=0.1;(2)加盐:对(user_id,video_id)拼接随机后缀[0,9]作为临时键,先局部聚合,再去盐二次聚合;或开启SparkSQL的adaptivequeryexecution,自动拆分倾斜分区。(3)50TB≈5e10条记录(假设每条1KB),异常1.2e6条,占比1.2e6/5e10=0.000024,即0.0024%。31.某市政府开放2025年公交IC卡数据,字段(card_id,line_id,bus_id,swipe_time,station_id)。试设计一套大数据方案,估算任意两站点间早高峰(7:009:00)平均旅行时间,要求:(1)给出数据清洗规则;(2)说明如何利用滑动窗口匹配同一卡号的上下车记录;(3)给出最终输出表schema与分区策略。答案:(1)清洗:过滤swipe_time非法格式;剔除station_id为null;按line_id、bus_id、swipe_time排序,去除重复记录;剔除单次刷卡记录(无法配对)。(2)对同一card_id按swipe_time排序,使用90分钟滑动窗口,若相邻记录line_id相同且方向相反(上车→下车),则视为一对;计算时间差作为旅行时间。(3)输出表schema:travel_time_fact(start_station_idstring,end_station_idstring,line_idstring,periodstring,'morning'avg_travel_mindouble,sample_sizebigint)分区:按line_id、period二级分区,桶按start_station_id分128桶,便于查询。32.某金融机构使用XGBoost训练信用卡欺诈检测模型,正负样本比例1:99,训练集1亿条,特征500维。(1)说明如何调整scale_pos_weight以处理类别不平衡;(2)给出基于Spark分布式训练的参数设置(executor内存、核心数、树深度、节点数);(3)若模型在测试集上AUC=0.97,但精确率仅5%,分析可能原因并提出改进措施。答案:(1)scale_pos_weight=负样本数/正样本数=99。(2)参数:executor内存16GB,核心4,树深度6,最大节点数2^6=64,使用200executors,subsample=0.8,colsample_bytree=0.8,learning_rate=0.1,rounds=200。(3)原因:阈值默认0.5导致极低的precision;改进:调整阈值使precisionrecall曲线上recall=80%处取阈值,或采用代价敏感学习,将欺诈误判代价权重设为99,或使用FocalLoss重训,或采用集成代价矩阵的自定义评估指标earlystopping。七、综合设计题(25分)33.某跨国电商计划构
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 鞋类设计师操作规范知识考核试卷含答案
- 自来水笔制造工安全培训效果模拟考核试卷含答案
- 巷道掘砌工岗前决策判断考核试卷含答案
- 自然水域救生员岗前工作标准化考核试卷含答案
- 炼焦工安全宣贯模拟考核试卷含答案
- 玻璃及玻璃制品成型工创新意识竞赛考核试卷含答案
- 2024年郑州升达经贸管理学院辅导员考试参考题库附答案
- 氧化扩散工安全宣贯评优考核试卷含答案
- 2025呼和浩特托克托县招聘社区工作者及储备人员笔试通知备考题库附答案
- 烧结球团原料工岗前基础实战考核试卷含答案
- 2026年重庆市江津区社区专职人员招聘(642人)笔试备考试题及答案解析
- 2026年思明区公开招聘社区工作者考试备考题库及完整答案详解1套
- 【四年级】【数学】【秋季上】期末家长会:数海引航爱伴成长【课件】
- 小学音乐教师年度述职报告范本
- 设备设施风险分级管控清单
- 河南交通职业技术学院教师招聘考试历年真题
- 污水管网工程监理规划修改
- (机构动态仿真设计)adams
- 北京市社保信息化发展评估研究报告
- GB/T 8336-2011气瓶专用螺纹量规
- GB/T 1048-2019管道元件公称压力的定义和选用
评论
0/150
提交评论