版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年统计与数据分析基础期末考试题及答案一、单项选择题(每题2分,共20分)1.某电商平台随机抽取1000名用户,记录其过去30天的消费金额,发现平均值为580元,标准差为120元。若将消费金额按升序排列后取第25%与第75%位置的数据,下列说法正确的是A.第25%位置的数据一定小于580元B.第75%位置的数据一定大于580元C.若分布右偏,则第75%位置的数据与580元的差距大于第25%位置的数据与580元的差距D.若分布左偏,则第25%位置的数据与580元的差距大于第75%位置的数据与580元的差距答案:C解析:右偏分布中,右尾拉长,上四分位数与均值差距更大;左偏则相反。A、B错在“一定”,极端对称分布可能相等。2.对同一组数据分别计算样本方差s²与总体方差σ²,若样本量n=50,则A.s²=σ²B.s²<σ²C.s²>σ²D.无法确定大小关系答案:B解析:样本方差分母为n-1,总体方差分母为n,故s²是σ²的无偏估计,数值上s²略大,但题目问的是“计算值”,实际计算时若用同一组数据且把其视为样本,则s²>σ²;若把其视为总体,则σ²较小。严格说,s²是σ²的估计,计算值s²>σ²。3.在简单线性回归y=β₀+β₁x+ε中,若决定系数R²=0.81,则下列必然成立的是A.相关系数r=0.9B.回归系数β₁>0C.残差平方和占总平方和的19%D.解释变量x与误差ε独立答案:C解析:R²=SSR/SST=0.81,则SSE/SST=0.19。A错在r可为±0.9;B错在β₁符号未知;D错在ε与x独立是假设而非必然。4.设X~N(μ,σ²),抽取n=16的样本,检验H₀:μ=μ₀vsH₁:μ≠μ₀,显著性水平α=0.05。若真实均值为μ₁=μ₀+0.8σ,则该检验的功效约为A.0.30B.0.50C.0.70D.0.90答案:C解析:非中心参数δ=0.8σ/(σ/√16)=3.2,查t分布功效表,双侧α=0.05,df=15,δ=3.2对应功效约0.70。5.对某时间序列{yt}建立ARIMA(1,1,1)模型,(1−ϕB)(1−B)yt=(1+θB)εt,若样本PACF在滞后1阶后截尾,样本ACF呈指数衰减,则初步判断A.ϕ>0,θ<0B.ϕ<0,θ>0C.仅适合AR(1)D.需差分后再看答案:A解析:差分后ARMA(1,1)的PACF截尾于1阶,ACF指数衰减,符合ARMA(1,1)特征,通常ϕ>0,θ<0。6.使用K-means聚类时,若初始中心点选择不当,可能导致A.轮廓系数一定为负B.簇内平方和增大C.算法不收敛D.类簇个数自动减少答案:B解析:局部最优使簇内平方和增大;轮廓系数可能仍为正;算法必收敛;k固定。7.在贝叶斯估计中,若先验为Beta(2,2),似然为二项分布Bin(n=10,k=7),则后验均值为A.7/10B.8/12C.9/14D.7/12答案:C解析:Beta先验共轭,后验Beta(2+7,2+3)=Beta(9,5),均值9/14。8.对高维数据p>n,使用Lasso回归而非岭回归的主要原因是A.Lasso可降维B.Lasso计算更快C.Lasso无偏D.Lasso对共线性更稳健答案:A解析:L₁正则使部分系数精确为0,实现变量选择,达到降维。9.若随机变量X的矩母函数MX(t)=(1−θt)^(−k),则X的变异系数为A.1/√kB.√kC.1/kD.k答案:A解析:Gamma分布MGF,均值kθ,方差kθ²,变异系数√(kθ²)/(kθ)=1/√k。10.在Bootstrap置信区间构造中,采用BCa方法的主要目的是修正A.偏差与偏度B.峰度C.序列相关D.异方差答案:A解析:BCa即Bias-correctedandaccelerated,修正偏差与偏度。二、多项选择题(每题3分,共15分,多选少选均不得分)11.下列关于主成分分析(PCA)的描述正确的有A.主成分方向是协方差矩阵特征向量B.第一主成分解释方差最大C.主成分得分间样本协方差为0D.标准化后再做PCA,结果与未标准化相同E.PCA可用于可视化高维数据答案:ABCE解析:D错,标准化后量纲统一,结果通常不同。12.在分类问题中,若类别极度不平衡,可行的策略有A.采用F1-score评估B.使用SMOTE过采样C.调整分类阈值D.直接采用准确率E.代价敏感学习答案:ABCE解析:D错,准确率在不平衡时误导。13.关于时间序列的平稳性,正确的有A.严平稳⇒弱平稳B.弱平稳要求均值恒定C.弱平稳要求方差有限D.协方差仅与时间间隔有关E.高斯过程弱平稳即严平稳答案:BCDE解析:A错,严平稳要求分布不变,弱平稳只要求二阶矩存在且不变,严平稳⇒弱平稳需二阶矩存在。14.下列属于非参数检验的有A.Mann-WhitneyUB.Kruskal-WallisC.Wilcoxon符号秩D.符号检验E.Anderson-Darling答案:ABCD解析:E属于拟合优度检验,虽非参数,但常用于分布检验,与位置检验不同。15.若线性模型y=Xβ+ε,ε~N(0,σ²I),则下列服从χ²分布的有A.(n−p)s²/σ²B.β̂ᵀXᵀXβ̂/σ²C.(y−ȳ)ᵀ(y−ȳ)/σ²D.ε̂ᵀε̂/σ²E.(β̂−β)ᵀXᵀX(β̂−β)/σ²答案:ADE解析:A为残差平方和,df=n−p;D同A;E为二次型,df=p。B、C未中心化,非χ²。三、计算与证明题(共65分)16.(10分)设X₁,…,Xₙ独立同分布于Exp(λ),即f(x)=λe^(−λx),x≥0。(1)求λ的矩估计λ̃;(2)求λ的最大似然估计λ̂;(3)证明λ̂是λ的相合估计;(4)构造λ的近似95%置信区间。答案与解析:(1)总体均值E[X]=1/λ,令样本均值X̄=1/λ̃,得λ̃=1/X̄。(2)似然函数L(λ)=λⁿexp(−λ∑Xᵢ),对数似然l(λ)=nlnλ−λ∑Xᵢ,令导数为0得λ̂=n/∑Xᵢ=1/X̄。(3)由大数定律X̄→1/λa.s.,故λ̂=1/X̄→λa.s.,即相合。(4)由中心极限定理√n(X̄−1/λ)→N(0,1/λ²),用Delta法,令g(x)=1/x,g′(x)=−1/x²,故√n(λ̂−λ)≈N(0,λ²)。以λ̂代λ,得95%置信区间λ̂±1.96λ̂/√n。17.(8分)某校欲评估在线学习平台效果,随机抽取50名学生,记录使用时长x(小时)与期末成绩y(分),得∑xᵢ=1000,∑yᵢ=3750,∑xᵢ²=22000,∑yᵢ²=285000,∑xᵢyᵢ=77000。(1)求回归方程ŷ=β̂₀+β̂₁x;(2)检验H₀:β₁=0vsH₁:β₁≠0(α=0.05);(3)若某生使用36小时,求其平均成绩的95%置信区间。答案:(1)n=50,x̄=20,ȳ=75,Sxx=22000−50×20²=2000,Sxy=77000−50×20×75=2000,β̂₁=1,β̂₀=75−1×20=55,回归方程ŷ=55+x。(2)SSE=∑y²−β̂₀∑y−β̂₁∑xy=285000−55×3750−1×77000=285000−206250−77000=1750,s²=SSE/(n−2)=1750/48=36.46,sβ̂₁=√(s²/Sxx)=√(36.46/2000)=0.135,t=1/0.135=7.41>2.01(t₀.₀₂₅,48),拒绝H₀。(3)对x₀=36,ŷ₀=91,区间ŷ₀±t₀.₀₂₅,48·s√(1/n+(x₀−x̄)²/Sxx)=91±2.01×√36.46×√(0.02+0.128)=91±2.01×6.04×0.385≈91±4.7,即(86.3,95.7)。18.(9分)某城市连续60个月记录交通事故数,得样本均值λ̂=12.3,方差s²=18.5。鉴于方差明显大于均值,拟合负二项分布NB(r,p)。(1)用矩估计求r,p;(2)写出对数似然函数;(3)基于(1)的估计,求下个月事故数>15的概率。答案:(1)矩方程:E[X]=r(1−p)/p=12.3,Var[X]=r(1−p)/p²=18.5,两式相除得p=12.3/18.5=0.665,代回得r=12.3×0.665/(1−0.665)=24.4。(2)对数似然l(r,p)=∑[lnΓ(xᵢ+r)−lnΓ(r)−lnΓ(xᵢ+1)+rlnp+xᵢln(1−p)]。(3)P(X>15)=1−P(X≤15)=1−∑_{k=0}^{15}C(r+k−1,k)p^r(1−p)^k≈0.28(用软件计算)。19.(10分)设随机向量Z=(X,Y)ᵀ服从二维正态,均值μ=(0,0)ᵀ,协方差Σ=[[1,ρ],[ρ,1]]。(1)求条件分布X|Y=y;(2)求E[X²|Y=y];(3)设ρ=0.6,生成n=1000样本,写出R代码绘制X与Y的散点图并叠加回归线;(4)证明Cov(X²,Y²)=2ρ²。答案:(1)X|Y=y~N(ρy,1−ρ²)。(2)E[X²|Y=y]=Var(X|Y=y)+[E(X|Y=y)]²=1−ρ²+ρ²y²。(3)代码:```rlibrary(ggplot2)rho<0.6n<1000Sigma<matrix(c(1,rho,rho,1),2,2)Z<MASS::mvrnorm(n,c(0,0),Sigma)df<data.frame(X=Z[,1],Y=Z[,2])ggplot(df,aes(X,Y))+geom_point(alpha=0.3)+geom_smooth(method="lm",se=FALSE)```(4)对标准二维正态,用矩公式E[X²Y²]=1+2ρ²,E[X²]=1,故Cov(X²,Y²)=E[X²Y²]−E[X²]E[Y²]=2ρ²。20.(8分)某工厂生产精密零件,要求长度μ=10mm,标准差σ≤0.05mm。现抽取n=9件,测得x̄=10.02,s=0.07。(1)检验H₀:σ²=0.0025vsH₁:σ²>0.0025(α=0.05);(2)若真实σ=0.08,求检验功效;(3)若要功效在σ=0.08时达到0.90,求所需样本量。答案:(1)检验统计量χ²=(n−1)s²/σ₀²=8×0.0049/0.0025=15.68,临界值χ²₀.₀₅,8=15.51,15.68>15.51,拒绝H₀,认为标准差超标。(2)真实σ₁=0.08,非中心参数λ=(n−1)σ₁²/σ₀²=8×0.0064/0.0025=20.48,查表得功效≈0.78。(3)设功效0.90,λ需约28,即n−1=28×0.0025/0.0064≈10.9,取n=12。21.(10分)考虑贝叶斯线性回归y|β~N(Xβ,σ²I),β的先验为N(0,τ²I),σ²已知。(1)求β的后验分布;(2)证明后验均值可视为岭回归估计;(3)设p=2,X=[[1,1],[1,−1],[1,0]]ᵀ,y=[3,1,2]ᵀ,σ=1,τ=1,计算后验均值;(4)讨论τ→∞的极限。答案:(1)后验∝likelihood×prior∝exp(−1/(2σ²)||y−Xβ||²−1/(2τ²)||β||²),故β|y~N(μₙ,Σₙ),其中Σₙ=(XᵀX/σ²+I/τ²)^(−1),μₙ=ΣₙXᵀy/σ²。(2)岭回归估计β̂=(XᵀX+λI)^(−1)Xᵀy,令λ=σ²/τ²,则μₙ=β̂。(3)XᵀX=[[3,0],[0,2]],Xᵀy=[6,2]ᵀ,Σₙ=diag(1/(3+1),1/(2+1))=diag(0.25,0.333),μₙ=[1.5,0.667]ᵀ。(4)τ→∞,λ→0,先验无信息,后验均值趋于最小二乘估计β̂_LS=[2,1]ᵀ。22.(10分)某航空公司记录旅客满意度评分(1~10),同时收集航班延误分钟数d、舱位等级c(F/B/E)、航线距离s。建立有序Logit模型:logit[P(Y≤j)]=α_j−(β₁d+β₂s+β₃I(c=B)+β₄I(c=E)),j=1,…,9。R输出部分结果:α̂=(−3.1,−1.4,−0.2,0.8,1.9,3.0,4.2,5.5,7.1),β̂₁=−0.05,β̂₂=0.003,β̂₃=−1.2,β̂₄=−2.0。(1)解释β̂₁含义;(2)计算舱位E相比F,满意度≥7的OR;(3)若d=60,s=1000,c=B,求P(Y≥8);(4)检验H₀:β₃=β₄(α=0.05),已知协方差矩阵中Cov(β̂₃,β̂₄)=0.2,Var(β̂₃)=0.09,Var(β̂₄)=0.16。答案:(1)延误每增加1分钟,满意度≤j的对数优势减少0.05,即延误降低满意度。(2)OR=exp(−β̂₄)=exp(2.0)=7.39,即E舱满意度≥7的优势是F舱的1/7.39。(3)η=−0.05×60+0.003×1000−1.2=−3+3−1.2=−1.2,P(Y≥8)=1−P(Y≤7)=1−logistic(α₇−η)=1−logistic(5.5+1.2)=1−0.999=0.001。(4)设θ=β₃−β₄,θ̂=0.8,Var(θ̂)=0.09+0.16−2×0.2=0.05,z=0.8/√0.05=3.58>1.96,拒绝H₀。四、数据分析综合题(共20分)23.附件“retail.csv”包含2022−2025年某连锁零售商每日销售额、促销标识、节假日、天气评分、COVID指数。任务:(1)缺失值处理策略与实施代码;(2)建立预测模型,评估下月销售额,要求给出MAPE;(3)用SHAP解释促销对销售额的边际效应;(4)讨论COVID指数突变对模型稳健性的影响及改进方案;(5)写出生产部署的Pipeline伪代码。答案与解析:(1)策略:销售额缺失<0.5%用线性插值;天气评分缺失用KNN(k=5)基于地理位置、日期特征填补;COVID指数缺失用向前填充。代码:```pythonimportpandasaspd,numpyasnpfromsklearn.imputeimportKNNImputerdf=pd.read_csv('retail.csv')df['sales']=df['sales'].interpolate()im
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年西安长安博雅小学教师招聘笔试参考题库及答案解析
- 2026年轻松迎新年淡蓝国潮故事
- 2026年电气设备维护中的六西格玛方法
- 2025年南昌留置看护笔试及答案
- 2025年太原师范教资笔试及答案
- 2025年湖北事业单位公务员考试及答案
- 2025年曹县人事考试及答案
- 2025年湖北铁路开发有限公司笔试及答案
- 2025年临江市事业编考试题及答案
- 2025年人事助理招聘考试及答案
- 安装吊扇施工方案
- 分红、年金、万能保险测试题附答案
- GB/T 46456.3-2025信息技术设备互连智能家居互联互通第3部分:局域互联通用要求
- 家具拆单操作标准及流程指南
- 国家基层高血压防治管理指南 2025版图文解读
- 小学数学长度单位换算练习200题及答案
- 机器人工程技术人员笔试试题及答案
- GB/T 18344-2025汽车维护、检测、诊断技术规范
- crm系统使用管理办法
- 肝癌晚期护理常规课件
- 神经外科VTE的预防及护理
评论
0/150
提交评论