版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年大学《应用统计学》专业题库(附答案)一、描述统计与数据可视化1.【单选】某高校2024级应用统计学专业新生体检,测得身高(cm)的茎叶图如下,其中茎单位为10cm、叶单位为1cm。若将数据四舍五入到整数后重新绘制箱线图,则箱线图的“箱体”长度(IQR)约为茎|叶15|01123445678916|00122334556678917|012234567A.7cm B.9cm C.11cm D.13cm答案:B解析:把叶还原为原始数据共35个观测。Q1位置=⌈35×0.25⌉=9,第9个数据=154cm;Q3位置=⌈35×0.75⌉=27,第27个数据=163cm;IQR=163−154=9cm。2.【多选】关于雷达图与平行坐标图,下列说法正确的有A.雷达图适用于样本量>1000的多维数据B.平行坐标图可直观展示高维离群点C.雷达图面积与变量排序无关D.平行坐标图纵轴一般需标准化到[0,1]答案:B、D解析:A错误,雷达图样本多时会严重重叠;C错误,雷达图面积随变量顺序改变而改变,存在“排序陷阱”。3.【计算】某城市2023年PM2.5日均值(μg/m³)的直方图呈右偏,已知中位数=38,均值=45,标准差=18。若用对数正态分布拟合,求λ=ln(PM2.5)的均值与方差。答案:E[λ]=3.637,Var(λ)=0.158解析:对数正态分布有E[X]=exp(μ+σ²/2)=45,Median=exp(μ)=38,解得μ=ln38=3.637,σ²=2(ln45−ln38)=0.158。4.【综合】下表为2022年某电商平台“双十一”部分品类销售额(亿元)。品类|销售额|退货额家电|1200|96美妆|800|120服饰|1000|200(1)绘制退货率的复式条形图;(2)计算各类别退货率的95%置信区间(用WilsonScore);(3)指出哪一类退货率显著高于平台平均退货率(α=0.05)。答案:(2)家电0.074–0.086,美妆0.135–0.165,服饰0.181–0.219;(3)服饰显著高。解析:Wilson区间p̂=z²/(2n+z²)+…,z=1.96;平台平均退货率=416/3000=0.139,服饰下限0.181>0.139,单侧检验p<0.001。二、概率基础与分布5.【单选】设X~Poisson(λ),已知P(X=2)=3P(X=4),则λ=A.1 B.2 C.3 D.6答案:B解析:由e^{λ}λ²/2!=3e^{λ}λ⁴/4!⇒λ²=3λ⁴/12⇒λ²=4⇒λ=2。6.【证明】若连续随机变量X的矩母函数M_X(t)=(1−βt)^{−α},t<1/β,证明X服从Gamma(α,β),并求变异系数CV。答案:CV=1/√α解析:M_X(t)与Gamma(α,β)的MGF一致;E[X]=αβ,Var=αβ²,CV=√Var/E=1/√α。7.【应用】某疫苗冷链运输记录显示,箱内温度超标次数N~Poisson(0.8/千箱)。若一批次共发运5千箱,求(1)至少出现1次超标的概率;(2)在已知至少1次超标下,超标次数不超过3的概率。答案:(1)0.9817;(2)0.885解析:(1)1−e^{−4}=0.9817;(2)P(N≤3|N≥1)=P(1≤N≤3)/P(N≥1)=[e^{−4}(4+8+32/3)]/0.9817=0.885。三、抽样与抽样分布8.【单选】从N=2000的总体中无放回抽取n=50,已知总体比例P=0.15,则样本比例p̂的标准误为A.0.050 B.0.049 C.0.044 D.0.039答案:C解析:σ_p̂=√[P(1−P)/n×(N−n)/(N−1)]=√[0.15×0.85/50×1950/1999]=0.044。9.【计算】某质检部门采用两阶段抽样:第一阶段从10000件产品中随机抽10箱(每箱100件);第二阶段每箱抽10件。若箱内不合格率服从Beta(2,18),求(1)样本不合格率p̂的期望;(2)设计效应DEff。答案:(1)E[p̂]=0.1;(2)DEff=1+(m−1)ICC=1+9×0.05=1.45解析:Beta(2,18)均值=2/20=0.1;ICC=Var(P)/[E(P)(1−E(P))]=0.00255/0.09=0.05。四、参数估计10.【单选】设X_1,…,X_ni.i.d.Uniform(0,θ),则θ的MLE为A.X̄ B.max(X_i) C.2X̄ D.min(X_i)答案:B解析:似然函数L(θ)=θ^{−n}I_{θ≥maxX_i},在maxX_i处取最大。11.【综合】为估计某短视频平均播放时长μ(秒),平台采集n=100的样本,得x̄=68,s²=400。若认为时长服从对称分布但未知类型,(1)求μ的95%置信区间(t近似);(2)若要求估计误差≤3秒,求在95%置信水平下的最小样本量;(3)若采用bootstrapn=1000,得到区间[62.1,73.9],与(1)比较并解释差异。答案:(1)[64.0,72.0];(2)n≥171;(3)bootstrap区间略宽,提示数据可能存在轻尾或异常值。解析:(1)t_{0.025,99}≈1.984,68±1.984×20/10=64.0–72.0;(2)n≥(1.96×20/3)²=170.7→171;(3)bootstrap无需正态假设,区间不对称,右尾略长。五、假设检验12.【单选】对H0:μ=50vsH1:μ>50,若样本n=25,x̄=53,s=10,则p值约为A.0.0668 B.0.1336 C.0.0334 D.0.2743答案:A解析:t=(53−50)/(10/5)=1.5,df=24,单侧p=T.DIST.RT(1.5,24)=0.0668。13.【综合】某外卖平台A/B测试:对照组下单转化率15.2%(n=2000),实验组16.8%(n=2100)。(1)检验实验组是否显著优(α=0.05,双尾);(2)计算实验所需最小提升(power=0.8);(3)若采用Fisher精确检验,p值多少?答案:(1)z=2.12,p=0.034,拒绝H0;(2)最小提升1.4个百分点;(3)p=0.036。解析:(1)合并率p̂=0.160,z=(0.168−0.152)/√[p̂(1−p̂)(1/2000+1/2100)]=2.12;(2)effectsizeh=2arcsin√0.168−2arcsin√0.152=0.035,n=2×(z_{0.975}+z_{0.8})²/h²≈4100每组,反推最小提升1.4%;(3)fisher.test返回p=0.036。六、方差分析与实验设计14.【计算】某农科院研究三种肥料对小麦产量(kg/亩)的影响,采用完全随机设计,各重复6次,得方差分析表部分:来源|SS|df|MS|F肥料|468|2|234|9.36误差|375|15|25(1)完成表并给出结论(α=0.05);(2)若采用LSD多重比较,求临界差值;(3)假设区组设计,每区组3小区,重新计算误差df。答案:(1)F_{0.05}(2,15)=3.68,9.36>3.68,显著;(2)LSD=t_{0.025,15}×√(25×2/6)=2.131×2.89=6.15kg;(3)误差df=(3−1)(5−1)=8。15.【综合】某互联网公司研究“按钮颜色+文案”对点击率的两因素实验,颜色{红,绿},文案{A,B},每组合5个用户,结果如下:红A:8%,红B:12%,绿A:10%,绿B:15%。(1)写出固定效应模型;(2)作方差分析表;(3)检验交互效应(α=0.05);(4)若发现交互显著,给出简单效应分析步骤。答案:(2)交互SS=10,MS=10,F=5,p=0.038,显著。解析:总SS=120,颜色SS=45,文案SS=25,交互SS=10,误差SS=40,df各1/1/1/16;F_{0.05}(1,16)=4.49,5>4.49,故交互显著;步骤:分别在红、绿水平下用t检验比较A、B文案。七、回归与相关16.【单选】若简单线性回归中r=0.6,则解释变量X每增加1个标准差,响应变量Y平均增加A.0.6个标准差 B.0.36个标准差 C.0.6个原始单位 D.无法确定答案:A解析:标准化回归系数即Pearsonr。17.【计算】某城市2020–2023年季度房租Y(元/㎡)与季度编号t(2020Q1=1)数据拟合得Ŷ=35+2.5t−0.06t²。(1)求房租最高季度及对应租金;(2)若2024Q1预测值及95%置信区间(s²=4,n=16,t_{0.025,13}=2.16);(3)讨论模型残差自相关可能的后果。答案:(1)t=20.8→2025Q1,租金=61元;(2)2024Q1t=17,Ŷ=66.55,CI=[65.1,68.0];(3)若残差自相关,标准误被低估,置信带偏窄,I类错误增加。18.【综合】多元回归研究大学生月均消费Y(元)与自变量:X1性别(1=男)、X2月生活费(百元)、X3网购频次、X4社团数量。拟合结果:系数|Estimate|SE|t|p截距|210|50|4.2|0.000X1|60|25|2.4|0.018X2|15|3|5.0|0.000X3|8|4|2.0|0.047X4|−5|2|−2.5|0.014(1)检验整体显著性;(2)计算调整R²(R²=0.42,n=120,p=4);(3)若X2与X3相关系数0.65,判断多重共线性是否严重;(4)给出缓解共线性的两种方案。答案:(2)R²_adj=0.40;(3)VIF_X2=1/(1−0.65²)=1.73<5,不严重;(4)①中心化或标准化;②岭回归。八、非参数与稳健方法19.【单选】两独立样本n1=n2=15,用MannWhitney检验,若秩和W=180,则双侧p值(正态近似)约为A.0.035 B.0.070 C.0.140 D.0.280答案:B解析:μ_W=15×(15+15+1)/2=232.5,σ_W²=15×15×31/12=581.25,z=(180−232.5)/√581.25=−2.18,双侧p=0.070。20.【计算】某股票2023年日收益率的MAD(中位数绝对离差)=0.8%,若假设对称分布,求一致性估计的尺度参数σ̂,并与样本标准差1.2%比较。答案:σ̂=MAD/Φ^{−1}(0.75)=0.8%/0.6745=1.19%,与1.2%接近,提示尾部近似正态。九、时间序列与预测21.【综合】某机场2020–2023年月旅客吞吐量(万人)建立SARIMA(0,1,1)(0,1,1)₁₂模型,得θ=0.6,Θ=0.4,残差LjungBoxQ(12)=14.5。(1)写出模型方程;(2)检验残差白噪声(α=0.05);(3)预测2024年1月吞吐量,已知2023年12月实际420万人,11月400万人,2023年1月380万人。答案:(2)χ²_{0.05}(12)=21.03,14.5<21.03,残差白噪声;(3)预测值=420+0.4×(420−400)+0.6×(420−380)=442万人。解析:SARIMA方程(1−B)(1−B¹²)X_t=(1−0.6B)(1−0.4B¹²)ε_t;预测用最优线性投影。十、多元统计与数据挖掘22.【单选】对n=150、p=6的数据做主成分分析,若前两个特征值分别为3.5、1.2,则累计贡献率为A.58% B.68% C.78% D.88%答案:C解析:(3.5+1.2)/6=0.783。23.【计算】给定协方差矩阵Σ=[[4,2],[2,9]],求第一主成分方向及方差。答案:方向向量[0.383,0.924],方差9.472。解析:特征方程|Σ−λI|=0⇒λ₁=9.472,对应特征向量归一化得[0.383,0.924]。24.【综合】某银行信用卡违约预测,采用Logistic回归+LASSO,十折交叉验证选λ_min,得混淆矩阵:预测\实际|不违约|违约不违约|8500|300违约|500|700(1)计算准确率、召回率、F1;(2)若业务要求召回≥0.75,应如何调整阈值?(3)比较ROC下面积AUC=0.84与随机森林AUC=0.87,选哪个模型?答案:(1)准确率=0.92,召回=0.70,F1=0.78;(2)降低阈值至0.3,召回升至0.76,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 办公楼茶水间防滑合同(企业福利2025)
- XB企业应收账款管理存在的问题与对策
- 建筑防水概述
- 2025年物业设备设施试卷及答案
- 2025年德阳统考英语真题及答案
- 2025年大庆初中考试题目及答案
- 外墙保温补修合同范本
- 内江中考政治试卷及答案
- 陕西省榆林市七校联考2024-2025学年高二上学期11月期中考试化学试题+答案
- 中铁入职合同范本
- 冶炼厂拆迁施工方案
- 谷物烘干机结构设计
- 钢轨探伤工劳动安全培训课件
- 新疆交通投资责任有限公司 笔试内容
- 检修安全培训内容课件
- 公路养护培训课件
- 2025年6月浙江省高考化学试卷真题(含答案及解析)
- 天车安全培训教学课件
- 2025年丹栀逍遥丸行业研究报告及未来行业发展趋势预测
- 医院清洁消毒培训
- 安全事故三要素培训总结课件
评论
0/150
提交评论