版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年大学生数据分析科普竞赛题库及答案一、单选题(每题2分,共40分)1.某高校2024级新生共录取8000人,其中女生占比52%。若随机抽取一人,其性别为男且来自农村的概率为0.21,则农村新生中男生人数约为A.840 B.1008 C.1176 D.1344答案:B解析:男生总数=8000×48%=3840;农村男生=8000×0.21=1680;农村男生占男生比例=1680/3840≈43.75%,与题干无矛盾,故选B。2.在Pythonpandas中,对DataFramedf执行df.groupby('major')['score'].agg(['mean','std'])后返回的对象类型是A.Series B.DataFrame C.GroupBy D.MultiIndex答案:B解析:agg列表返回二维表,故为DataFrame。3.某电商日订单量服从λ=1200的泊松分布,若用正态近似,则P(X>1250)的Z值最接近A.1.44 B.1.53 C.1.62 D.1.71答案:A解析:μ=σ²=1200,Z=(1250.5−1200)/√1200≈1.44。4.在SQL中,下列语句能正确筛选出“2025年2月29日”之后注册用户的写法是(MySQL8.0)A.WHEREreg_date>'20250229'B.WHEREreg_date>='20250230'C.WHEREDATEDIFF(reg_date,'20250228')>0D.WHEREreg_date>DATE'20250228'+INTERVAL1DAY答案:D解析:2025非闰年,2月仅28天,A、B非法日期;C含边界;D合法且精确。5.对数值变量x做MinMax缩放至[0,1],原最小值a,最大值b,则原值x_i映射后公式为A.(x_i−a)/(b−a) B.(x_i−a)/b C.x_i/(b−a) D.(x_i−b)/(a−b)答案:A6.在Kmeans聚类中,若样本量n=10000,k=5,迭代次数t=50,则每次迭代距离计算复杂度的大O为A.O(kt) B.O(nk) C.O(nkt) D.O(n²)答案:C7.某回归模型R²=0.82,调整R²=0.81,则模型新增变量对调整R²的影响是A.提升 B.降低 C.不变 D.无法判断答案:A解析:调整R²下降幅度小于R²,说明新增变量贡献大于惩罚。8.在Excel365中,动态数组公式=FILTER(A2:B100,(B2:B100>90)(A2:A100="女"))返回结果溢出至相邻单元格,若需统计溢出行数,应使用A.COUNT B.COUNTA C.ROWS D.SPILLCOUNT答案:C9.某A/B测试对照组转化率8%,实验组9%,样本量各10000,合并转化率8.5%,则Z检验统计量约为A.2.15 B.2.45 C.2.75 D.3.05答案:B解析:p=0.085,SE=√[0.085×0.915×(1/10000+1/10000)]≈0.00408,Z=0.01/0.00408≈2.45。10.在PCA中,若原始变量协方差矩阵特征值λ₁=5.2,λ₂=1.3,λ₃=0.5,则第一主成分方差贡献率为A.72.2% B.76.5% C.80.0% D.83.3%答案:B解析:5.2/(5.2+1.3+0.5)=5.2/7=74.3%,最接近B(四舍五入)。11.使用Pythonseaborn绘制箱线图时,设置参数whis=[5,95]的含义是A.箱体上下界为5%与95%分位 B.须延伸至5%与95%分位 C.异常值阈值为5%与95% D.箱体宽度为5%~95%答案:B12.在时间序列分解additive模型中,若观测值O_t=120,趋势T_t=100,季节S_t=15,则残差为A.5 B.−5 C.235 D.105答案:A解析:O=T+S+R⇒R=120−100−15=5。13.某随机森林模型共500棵树,对样本x预测分类概率平均为0.78,若用“概率≥0.5为正类”规则,则x的预测标签为A.正类 B.负类 C.不确定 D.需OOB验证答案:A14.在HiveSQL中,将字符串'20250301'转为时间戳的正确函数是A.unix_timestamp('20250301','yyyyMMdd')B.to_unixtime('20250301')C.str_to_map('20250301')D.from_utc_timestamp('20250301','UTC')答案:A15.若逻辑回归系数β₁=0.8,则对应优势比OR为A.0.45 B.1.23 C.2.23 D.2.72答案:C解析:OR=e^0.8≈2.23。16.在matplotlib中,设置全局中文字体避免乱码的代码片段是A.plt.rcParams['font.family']='SimHei'B.plt.rc('font',family='Arial')C.plt.use('SimHei')D.plt.set_font('SimHei')答案:A17.某模型F1score=0.72,precision=0.8,则recall约为A.0.65 B.0.72 C.0.78 D.0.82答案:A解析:F1=2PR/(P+R)⇒0.72=2×0.8×R/(0.8+R)⇒R≈0.65。18.在PowerBI中,创建“度量值”使用的公式语言是A.M B.DAX C.SQL D.Python答案:B19.若X~N(μ,σ²),则E[e^X]等于A.e^{μ+σ²/2} B.e^{μ−σ²/2} C.e^{μ} D.e^{σ²}答案:A20.在Git版本控制中,查看某次commit修改了哪些文件的命令是A.gitlog B.gitdiffnameonly<commit>C.gitstatus D.gitshowstat<commit>答案:D二、多选题(每题3分,共30分,多选少选均不得分)21.下列属于无监督学习方法的有A.DBSCAN B.Apriori C.XGBoost D.tSNE E.Kmedoids答案:A,B,D,E22.关于Pythonnumpy广播机制,正确的有A.(3,1)与(1,4)相加得(3,4)B.(5,)与(5,1)相加需显式reshapeC.(2,3,1)与(1,3,4)相加得(2,3,4)D.广播过程复制数据节省内存E.广播规则先右对齐维度答案:A,C,E23.在SQL优化中,可能引起索引失效的写法有A.WHEREyear(create_time)=2025B.WHEREuser_idLIKE'987%'C.WHEREstatus=1ANDcreate_time>'20250101'D.WHEREABS(price100)<5E.WHEREnameCOLLATEutf8mb4_unicode_ci='Alice'答案:A,D24.下列关于PythonGIL(全局解释器锁)描述正确的有A.限制多线程并行CPU计算B.对I/O密集型任务影响小C.multiprocessing可绕过GILD.PyPy无GILE.在Jython中无GIL答案:A,B,C,E25.建立线性回归模型时,多重共线性诊断常用指标有A.VIF B.条件数 C.DW统计量 D.特征根 E.Pearsonr答案:A,B,D26.以下属于时间序列平稳性检验方法的有A.ADF B.KPSS C.LjungBox D.PP E.JB答案:A,B,D27.在Pythonsklearn中,可用于处理类别不平衡的策略有A.class_weight='balanced'B.SMOTEC.RandomUnderSamplerD.GridSearchCVE.BalancedBaggingClassifier答案:A,B,C,E28.下列Excel函数中,返回数组结果需Ctrl+Shift+Enter(非365版本)的有A.TRANSPOSE B.MMULT C.INDEX+SMALL+IF D.FILTER E.UNIQUE答案:A,B,C29.关于Hadoop生态组件,描述正确的有A.HDFS默认块大小128MBB.MapReduceshuffle阶段排序键C.YARN负责资源调度D.Hive支持事务更新(ORC+ACID)E.HBase是列式分布式数据库答案:A,B,C,D,E30.在深度学习中,防止过拟合的技术有A.Dropout B.L2正则 C.BatchNormalization D.EarlyStopping E.DataAugmentation答案:A,B,D,E三、判断题(每题1分,共10分,正确打“√”,错误打“×”)31.在Python中,列表推导式[x2forxinrange(5)ifx%2]生成[1,9]。答案:√32.若两变量相关系数r=0,则必然独立。答案:×33.使用交叉验证时,k越大一定导致方差减小偏差增大。答案:×34.在Excel中,函数XLOOKUP支持横向查找。答案:√35.泊松分布的期望与方差相等。答案:√36.在SQL的LEFTJOIN中,左表记录一定全部出现。答案:√37.逻辑回归使用sigmoid函数主要因为可导且值域(0,1)。答案:√38.随机森林中,树越深越容易降低偏差但增加方差。答案:√39.在Python中,isinstance(3,bool)返回True。答案:×40.使用PCA降维后,原始变量单位不影响主成分方向。答案:×四、填空题(每题3分,共30分)41.在Python中,使用______库中的______函数可快速计算两个向量的皮尔逊相关系数。答案:scipy.stats,pearsonr42.若时间序列模型ARIMA(1,1,1)的系数为φ₁=0.6,θ₁=−0.4,则其特征方程AR根的绝对值为______。答案:1/0.6≈1.6743.某数据集含缺失值,采用均值填补后,变量方差会______(增大/减小/不变)。答案:减小44.在SQL中,窗口函数RANK()与DENSE_RANK()的区别在于______。答案:RANK跳号,DENSE_RANK不跳号45.若随机变量X~Binomial(n=100,p=0.2),用正态近似计算P(X≤25)时需做连续性校正,校正后计算概率的边界为______。答案:25.546.在Pythonpandas中,将字符串列date转为datetime并提取季度,代码为df['quarter']=pd.to_datetime(df['date']).______。答案:dt.quarter47.梯度下降法中,若损失函数为凸函数,学习率过大会导致______。答案:震荡或发散48.在Excel365中,动态数组公式=SEQUENCE(3,2,10,5)溢出结果第二行第二列值为______。答案:2049.若逻辑回归使用L1正则,且某特征系数被压缩至0,说明该特征______。答案:被剔除/不重要50.在Git中,撤销已push至远程的某次commit并保留历史,应使用命令______。答案:gitrevert<commit>五、简答题(每题10分,共40分)51.描述Kmeans算法步骤,并指出其两个主要缺点及改进方案。答案:步骤:1.随机选k个初始中心;2.分配样本到最近中心;3.重新计算中心;4.重复23至收敛。缺点:1.对初值敏感,改进用kmeans++;2.对噪声和离群点敏感,改进用kmedoids或密度聚类。52.解释“数据泄露”含义,并给出三种常见场景及预防措施。答案:含义:训练集信息在测试集泄漏,导致高估性能。场景:1.用未来特征预测过去;2.全局标准化后再划分训练测试;3.特征选择用全数据集。预防:1.时间分割严格按时间轴;2.管道式建模,训练集内做标准化;3.特征选择仅基于训练集。53.简述A/B测试最小样本量计算原理,并给出Python代码片段。答案:原理:基于两独立比例Z检验,设定α、power、基线转化率p、最小可检测提升Δ,用正态近似公式:n=[Z_{1−α/2}√(2p(1−p))+Z_{power}√(p(1−p)+(p+Δ)(1−p−Δ))]²/Δ²代码:```pythonimportscipy.statsasstdefsample_size(p,delta,alpha=0.05,power=0.8):z_a=st.norm.ppf(1alpha/2)z_b=st.norm.ppf(power)returnint(((z_anp.sqrt(2p(1p))+z_bnp.sqrt(p(1p)+(p+delta)(1pdelta)))2)/(delta2))```54.说明ROC曲线与PR曲线的适用场景差异,并给出绘制PR曲线的Python代码。答案:差异:ROC适合正负样本均衡,PR适合极不平衡。代码:```pythonfromsklearn.metricsimportprecision_recall_curve,aucimportmatplotlib.pyplotaspltprecision,recall,_=precision_recall_curve(y_true,y_score)pr_auc=auc(recall,precision)plt.plot(recall,precision,label=f'PRAUC={pr_auc:.2f}')plt.xlabel('Recall');plt.ylabel('Precision');plt.legend();plt.show()```六、综合应用题(共50分)55.某高校2024级学生数据表student(id,gender,province,score,major,grant)共8000条。(1)用SQL统计各省获得助学金比例最高的前5省及比例。(10分)(2)用Pythonpandas绘制不同性别score核密度图,并检验均值差异是否显著(α=0.05)。(15分)(3)建立逻辑回归模型预测grant,使用province、gender、score作特征,进行哑变量处理,评估AUC并解释province系数。(15分)(4)若数据量增至800万,简述SparkSQL实现(1)的代码框架。(10分)答案:(1)```sqlSELECTprovince,SUM(grant)/COUNT()ASgrant_ratioFROMstudentGROUPBYprovinceORDERBYgrant_ratioDESCLIMIT5;```(2)```pythonimportseabornassns,scipy.statsasstsns.kdeplot(data=df,x='score',hue='gender',common_norm=False)male=df.loc[df.gender=='男','score']female=df.loc[df.gender=='女','score']t,p=st.ttest_ind(male,female,equal_var=False)print('t=',t,'p=',p)```(3)```pythonfromsklearn.model_selectionimporttrain_test_splitfromsklearn.preprocessingimportOneHotEncoderfromposeimportColumnTransformerfromsklearn.linear_modelimportLogisticRegressionfromsklearn.pipelineimportPipelinefromsklearn.metricsimportroc_auc_scoreX=df[['province','gender','score']]y=df['grant']cat_cols=['province'
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年光伏组件清洗员面试题及答案
- 2026年政府机关公务员招录考试常见问题及答案解析
- 2026年市场分析师考试题集及答案解析
- 2025-2030中国基金公司金融行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030中国合肥建筑行业市场现状竞争分析及投资评估发展报告
- 2025-2030中国化工染料行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030中国化工产品市场发展形势分析及投资机会规划研究报告
- 2025-2030中国化学纤维行业市场竞争态势供需评估及投资前景规划分析研究报告
- 2025-2030中国化妆品营销行业市场供需分析及投资评估规划分析研究报告
- 2025-2030中国化妆品市场空间与行业发展趋势研究报告
- 2024智慧矿山自动驾驶标杆企业案例研究
- 三年级上册数学母题解题技巧(共27类)
- 汽车构造与拆装课件 第一篇 安全与素养
- 天水村文书考试题及答案
- 夜视仪基础知识培训课件
- 网吧安全生产工作方案
- 2025年警察招聘考试公安基础知识考试试题及参考答案
- 2025年贵州省贵阳市辅警(协警)招聘考试题库及答案
- 海南自贸港课件
- 北京市通州区2024-2025学年八年级上学期期末语文试题(含答案)
- 医院药学药学信息服务
评论
0/150
提交评论