2025统计数据分析题常考题型总结覆盖95%考试重点

上传人：1*** IP属地：北京上传时间：2026-04-06 格式：DOC 页数：6 大小：24.69KB 积分：6 举报 版权申诉

已阅读5页，还剩1页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2025统计数据分析题常考题型总结覆盖95%考试重点

一、单项选择题（每题2分，共20分）1.在构建95%置信区间时，若样本量从100增至400，区间宽度理论上会A.扩大为原来2倍B.缩小为原来1/2C.缩小为原来1/4D.基本不变2.对同一组数据分别做线性回归与对数回归，若残差平方和分别为SSE1与SSE2，则调整R²的比较必须依据A.原始SSEB.对数似然C.自由度修正后的R²D.残差标准误3.某时间序列经ADF检验得p=0.038，则下列结论最严谨的是A.序列平稳B.存在单位根C.拒绝存在单位根的原假设D.需再做KPSS检验4.在聚类分析中，若采用Ward法，合并两类后组内平方和的增加量称为A.轮廓系数B.半偏R²C.Cophenetic系数D.伪F值5.对高维数据做主成分分析，第一主成分方差贡献率40%，第二主成分30%，则前两个主成分的累计贡献率为A.12%B.70%C.90%D.无法确定6.在贝叶斯框架下，若先验为Beta(2,2)，似然为二项分布Bin(n=20,k=8)，则后验均值为A.8/20B.10/24C.9/22D.8/227.对分类变量做卡方拟合优度检验，若理论频数有2个格子小于5，正确做法是A.直接计算B.合并相邻类别C.改用Fisher精确检验D.增加样本量8.在生存分析中，若某对象的Kaplan-Meier曲线出现水平线段，说明A.该时段无删失B.该时段无死亡事件C.风险率为0D.中位生存期已达9.对面板数据固定效应模型，组内估计量消除的是A.个体异质性B.时间趋势C.随机误差D.解释变量内生性10.若随机森林中某变量的PermutationImportance显著为负，表明A.该变量无用B.该变量对预测有反向贡献C.需增大树深D.存在多重共线二、填空题（每题2分，共20分）11.若X~N(μ,σ²)，则样本均值的标准误为________。12.在假设检验中，同时控制α=0.05且β=0.10时，所需样本量公式中的效应量称为________。13.对p维正态数据做HotellingT²检验，统计量服从________分布。14.若逻辑回归的似然比统计量G²=38.5，自由度为5，则其p值________0.005（填>或<）。15.在指数平滑中，平滑参数α越接近1，近期权重________。16.对二分类问题，若AUC=0.83，则随机抽一个正类样本其得分高于负类的概率为________。17.若Lasso回归的λ取最大值时，非零系数个数为________。18.在Bootstrap估计标准误时，重复抽样次数B一般至少为________。19.对偏态数据采用Box-Cox变换，若λ=0，实际采用的变换是________。20.在Meta分析中，衡量研究间异质性的指标I²=62%，表示________%的变异来自真实差异。三、判断题（每题2分，共20分，正确打“√”，错误打“×”）21.当VIF>10时，可严格判定回归模型存在严重多重共线。22.对同一数据，若AIC与BIC选择的模型不同，通常BIC惩罚更重。23.在K均值聚类中，初始中心不同可能导致最终聚类结果不同。24.若两变量相关系数r=0，则它们一定独立。25.对泊松回归，若离散参数φ远大于1，应考虑负二项回归。26.在生存分析中，比例风险假定失效时，应改用Cox时变系数模型。27.若时间序列的PACF在滞后2期后截尾，可识别为MA(2)过程。28.对高维数据，PCA能自动完成变量选择。29.在交叉验证中，k值越大，偏差越小但方差可能增大。30.若Bagging中每棵树用全样本训练，则无法降低方差。四、简答题（每题5分，共20分）31.简述在多元线性回归中诊断异方差的三类常用方法及各自核心思想。32.说明使用K-fold交叉验证估计预测误差的步骤，并指出分层抽样的意义。33.写出构建Bonferroni同时置信区间的公式，并指出其保守性的原因。34.比较主成分分析(PCA)与因子分析(FA)在目标、数学模型及解释性上的主要区别。五、讨论题（每题5分，共20分）35.某电商欲用upliftmodeling评估优惠券对复购的因果效应，讨论如何构建训练集、选择模型及验证增量收益，并指出与传统响应模型的差异。36.在高维回归中，Lasso、Ridge、ElasticNet三种惩罚方法各自适用于何种数据情境？请结合偏差-方差权衡与变量选择需求进行系统比较。37.若某城市地铁刷卡数据存在大量缺失与异常，讨论如何基于时空特征进行数据清洗，并说明清洗后对后续客流预测模型可能带来的三方面影响。38.当使用深度生存模型(如DeepSurv)替代传统Cox模型时，需考虑哪些额外假设与验证步骤？请从可解释性、计算复杂度及小样本表现角度展开论述。答案与解析单选：1B2C3C4B5B6B7B8B9A10B填空：11σ/√n12Cohen’sd13F(p,n-p)14<15越大160.8317018100019对数变换2062判断：21×22√23√24×25√26√27×28×29√30×简答31：残差图法观察漏斗形；Breusch-Pagan检验用辅助回归得LM统计量；White检验加入平方项与交叉项，更一般。核心皆在检验残差与预测变量是否相关。简答32：将数据均分K份；每次用K-1份训练，余下1份验证；循环K次取平均误差。分层抽样保证每折中目标变量比例与总体一致，避免类别失衡。简答33：区间=估计值±tα/(2m),df·SE；因将族错误率α分割给m次比较，惩罚倍数m，故保守，易漏真差异。简答34：PCA求线性组合最大化方差，模型X=ZT+ε，成分可观测；FA求潜变量解释共变，模型X=ΛF+ε，因子不可观测，需因子旋转得解释性。讨论35：训练集需随机实验或倾向得分分层，构造treatment与control；模型用双模型或类概率uplift树；验证用Qini曲线、AUUC；区别于响应模型仅预测购买概率，uplift预测“因优惠券而购买”的增量。讨论36：Lasso在稀疏真模型下变量选择一致，偏差稍大；Ridge对多重共线稳健，无变量选择，偏差小方差小；ElasticNet兼顾两者，适合p>n且变量成群情境；权衡需交叉验证调α与λ。讨论37：时空清洗用相邻时段与相邻站点插值，结合节假日模式识别异常；清洗后缺失率降低，模

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025统计数据分析题常考题型总结覆盖95%考试重点

文档简介

温馨提示

最新文档

评论

2025统计数据分析题常考题型总结 覆盖95%考试重点

文档简介

温馨提示

最新文档

评论

相关文档

2025统计数据分析题常考题型总结覆盖95%考试重点