版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学试题和答案1.单选题(每题4分,共40分)1.1某市交通部门连续30天记录早高峰时段某路口的车流量(单位:辆/分钟),数据经箱线图检验后发现上须外仅出现一个点。下列说法正确的是A.该点一定是异常值,必须删除B.该点可能是极端值,但删除需结合业务背景C.箱线图的异常值判定标准对样本量不敏感D.若改用99%的Z分数阈值,则该点一定被保留答案:B解析:箱线图默认用1.5×IQR规则标记“潜在异常值”,但“异常”仅相对于样本分布形态而言,未必代表数据错误;是否剔除需结合产生机制。Z分数阈值随置信水平变化,99%对应约±2.58,未必保留该点,故D错。1.2设随机变量X服从参数为λ的泊松分布,若E(X²)=6,则λ=A.1B.2C.3D.4答案:B解析:泊松分布E(X)=λ,Var(X)=λ,故E(X²)=Var(X)+[E(X)]²=λ+λ²=6,解得λ=2。1.3对同一总体进行两次独立抽样,样本容量分别为n₁=100,n₂=400,样本均值分别为x̄₁=50,x̄₂=52。若总体方差已知为σ²=100,则合并两样本后,x̄的抽样分布标准误为A.0.5B.0.4C.0.447D.0.316答案:C解析:合并均值x̄=(n₁x̄₁+n₂x̄₂)/(n₁+n₂)=51.6,但其标准误只与总样本量有关,σ/√(n₁+n₂)=10/√500≈0.447。1.4在线性回归y=β₀+β₁x+ε中,若解释变量x的样本方差增大,其他条件不变,则β₁的OLS估计量的方差将A.增大B.减小C.不变D.先增后减答案:B解析:Var(β̂₁)=σ²/Σ(xi−x̄)²,分母随x方差增大而增大,故方差减小。1.5某假设检验的p值为0.03,若显著性水平α=0.05,则下列说法正确的是A.原假设错误的概率为3%B.拒绝原假设后犯第一类错误的概率为3%C.若重复实验100次,大约3次会得到|t|≥观测值D.检验功效等于97%答案:C解析:p值指“在原假设成立时,得到当前或更极端结果”的概率频率解释,C正确。A、B把p值当成“假设为真的概率”或“错误概率”,属常见误解。功效与备择分布有关,无法由p值直接推出。1.6对一组右偏数据取自然对数后,新数据的偏度A.一定为负B.一定为正C.更接近0D.不变答案:C解析:对数变换可压缩右尾,降低偏度,但未必改变方向,故“更接近0”最严谨。1.7在单因素方差分析中,若组间均方MSB=120,组内均方MSE=30,则F统计量的值为A.3B.4C.5D.6答案:B解析:F=MSB/MSE=120/30=4。1.8设X~N(0,1),Y~N(0,4)且独立,令Z=X/Y,则Z的分布为A.标准正态B.柯西C.t(1)D.F(1,1)答案:B解析:柯西分布定义为两个独立正态变量之比,其中分母均值为0,故Z~Cauchy(0,1)。1.9对某二项分布B(n,p)进行极大似然估计,若观测到k次成功,则p的MLE为A.k/nB.(k+1)/(n+1)C.(k+1)/(n+2)D.(k+2)/(n+4)答案:A解析:似然函数L(p)=C(n,k)p^k(1−p)^(n−k),对数求导得p̂=k/n。1.10若事件A、B满足P(A∪B)=0.7,P(A)=0.4,P(B)=0.5,则P(A∩B)=A.0.1B.0.2C.0.3D.0.4答案:B解析:由加法公式P(A∩B)=P(A)+P(B)−P(A∪B)=0.4+0.5−0.7=0.2。2.多选题(每题5分,共30分,每题至少有两个正确答案,多选少选均不得分)2.1下列关于中心极限定理(CLT)的描述正确的有A.样本量足够大时,样本均值的分布趋近正态B.总体必须为正态分布CLT才成立C.若总体高度偏斜,所需样本量更大D.样本量固定时,增大总体方差会减缓收敛速度E.CLT可推广到样本方差的分布答案:A、C、D解析:B错,CLT核心在于“总体不必正态”;E错,CLT针对样本均值,样本方差收敛到卡方分布需另依Delta方法或Slutsky定理。2.2在多元线性回归中,若出现多重共线性,可能导致A.OLS估计量不再无偏B.个别系数显著性下降C.系数符号与理论相反D.模型R²大幅降低E.方差膨胀因子VIF增大答案:B、C、E解析:多重共线性不破坏无偏性,A错;R²可能仍高,D错;VIF增大、标准误膨胀导致t值下降,符号可能反转。2.3关于Bootstrap置信区间,下列说法正确的有A.无需对总体分布作假设B.基本思想是“用样本分布模拟抽样分布”C.百分位法区间总是对称D.样本量很小时,覆盖率可能低于名义水平E.平滑Bootstrap可改善离散数据下的表现答案:A、B、D、E解析:C错,百分位法区间形状完全由重抽样经验分布决定,可不对称。2.4以下哪些图适合展示两个数值型变量的相关性A.散点图B.Q-Q图C.热力图D.平行坐标图E.气泡图答案:A、C、E解析:Q-Q图用于分布比较;平行坐标图适合高维,非专用于两变量相关性。2.5贝叶斯推断中,若先验分布为共轭先验,则A.后验分布与先验属于同一族B.计算后验期望更简单C.必须采用无信息先验D.随着样本量增加,先验影响减弱E.后验分布的方差一定小于先验方差答案:A、B、D解析:C错,共轭先验可信息丰富;E错,若数据极离散,后验方差可能暂时更大。2.6下列属于非参数检验的方法有A.Wilcoxon符号秩检验B.Kruskal-Wallis检验C.Mann-WhitneyU检验D.符号检验E.卡方拟合优度检验答案:A、B、C、D解析:卡方检验虽无严格分布假设,但针对列联表或分类数据,通常归为“分布自由”而非“非参数秩检验”。3.填空题(每空3分,共30分)3.1设X~N(μ,9),抽取n=25的样本,得x̄=12,则μ的95%双侧置信区间为(11.824,____)。答案:12.176解析:σ=3,标准误=3/5=0.6,z₀.₀₂₅=1.96,区间=12±1.96×0.6。3.2若随机变量X的矩母函数为M_X(t)=exp(2t+3t²),则E(X)=____,Var(X)=____。答案:2;6解析:MGF形式对应N(2,6),因MGF正态为exp(μt+σ²t²/2),对比得σ²=6。3.3在线性回归中,若决定系数R²=0.81,则解释变量与响应变量的样本相关系数r=____。答案:0.9或−0.9解析:简单线性回归R²=r²,r符号与回归系数一致。3.4对某时间序列拟合ARIMA(1,1,1)模型,若经差分后序列的自相关图在滞后1阶后截尾,则模型中的MA部分阶数q=____。答案:1解析:ACF滞后1截尾提示MA(1)。3.5若X₁,…,X_n独立同分布于Exp(λ),则λ的矩估计量为____。答案:1/x̄解析:E(X)=1/λ,令样本均值等于期望得λ̃=1/x̄。3.6设X~Bin(10,0.2),则P(X≥2)=____(保留三位小数)。答案:0.624解析:1−P(X=0)−P(X=1)=1−0.8¹⁰−10×0.2×0.8⁹≈0.624。3.7在假设检验中,若检验统计量t=2.5,自由度df=20,双侧p值约为____(t分布表查得P(|T|≥2.5)=0.021)。答案:0.021解析:直接查表。3.8对某总体进行分层抽样,总样本量n=100,两层权重分别为W₁=0.4,W₂=0.6,若两层样本量按内曼分配,且层标准差S₁=5,S₂=10,则n₁=____。答案:25解析:n₁=n×(W₁S₁)/(W₁S₁+W₂S₂)=100×2/(2+6)=25。3.9若X~Geo(p),则P(X>k)=____。答案:(1−p)^k解析:几何分布无记忆性,尾部概率直接为(1−p)^k。3.10给定5个数据点:3,5,7,9,11,其样本中位数为____,四分位距IQR=____。答案:7;4解析:排序后中位数即第3点;Q₁=4,Q₃=8,IQR=8−4=4。4.计算与证明题(共100分)4.1(15分)设X₁,…,X_n独立同分布于U(0,θ),θ>0未知。(1)求θ的矩估计量θ̃_M;(2)求θ的极大似然估计量θ̂_ML;(3)比较两者的均方误差MSE(提示:先求E(θ̂_ML)与Var(θ̂_ML))。答案与解析:(1)E(X)=θ/2,令x̄=θ/2,得θ̃_M=2x̄。(2)似然函数L(θ)=θ^(−n)I_{x_(n)≤θ},其中x_(n)=max{X_i},显然L在θ=x_(n)处取最大,故θ̂_ML=x_(n)。(3)先求θ̂_ML分布:P(x_(n)≤t)=(t/θ)^n,0<t<θ,密度f(t)=nt^(n−1)/θ^n。于是E(x_(n))=∫₀^θt·nt^(n−1)/θ^ndt=nθ/(n+1),E(x_(n)²)=∫₀^θt²·nt^(n−1)/θ^ndt=nθ²/(n+2),Var(x_(n))=nθ²/(n+2)−[nθ/(n+1)]²=nθ²/[(n+2)(n+1)²]。MSE(θ̂_ML)=Var+(Bias)²=nθ²/[(n+2)(n+1)²]+[θ−nθ/(n+1)]²=2θ²/[(n+1)(n+2)]。对矩估计:E(θ̃_M)=2E(x̄)=θ,无偏;Var(θ̃_M)=4Var(x̄)=4θ²/(12n)=θ²/(3n)。故MSE(θ̃_M)=θ²/(3n)。比较:当n≥2时,2/[(n+1)(n+2)]<1/(3n)恒成立,因此θ̂_ML的MSE更小,效率更高。4.2(15分)某电商平台想评估新版页面(B)是否提升转化率。随机抽取1000名用户,其中600名进入A组(旧版),400名进入B组(新版)。结果A组成交90单,B组成交84单。(1)建立假设检验,判断B是否显著优于A(α=0.05);(2)计算检验p值,并给出业务建议;(3)若希望检出比例提升2个百分点的功效达到80%,试估算所需样本量(两组等量分配)。答案与解析:(1)设p_A、p_B为两组真实转化率,H₀:p_B≤p_A,H₁:p_B>p_A(单侧)。样本转化率p̂_A=90/600=0.15,p̂_B=84/400=0.21。合并比例p̂=(90+84)/1000=0.174。Z=(p̂_B−p̂_A)/√[p̂(1−p̂)(1/n_A+1/n_B)]=(0.06)/√[0.174×0.826×(1/600+1/400)]≈0.06/0.024≈2.50。临界值z₀.₀₅=1.645,2.50>1.645,拒绝H₀,认为B显著优于A。(2)p值=P(Z≥2.50)=0.0062,远小于0.05,证据强。业务建议:新版页面显著提升转化,可推广全量,但需持续监控长期效应及用户体验副作用。(3)功效计算:设p_A=0.15,p_B=0.17,Δ=0.02,α=0.05(单侧),功效=0.8。用Lehr公式近似:n=[z_{1−α}√(2p̄(1−p̄))+z_{1−β}√(p_A(1−p_A)+p_B(1−p_B))]²/Δ²,其中p̄=(0.15+0.17)/2=0.16,z₀.₉₅=1.645,z₀.₈=0.84,n≈[1.645√(2×0.16×0.84)+0.84√(0.15×0.85+0.17×0.83)]²/0.0004≈(1.645×0.519+0.84×0.522)²/0.0004≈(1.62)²/0.0004≈6560每组,总13120。结论:若要检测2%小幅提升,需约1.3万样本,远高于当前1000,说明小改进需大流量。4.3(20分)某工厂生产钢丝,其抗拉强度X~N(μ,σ²)。现抽取n=25的样本,得x̄=260MPa,s=10MPa。(1)求μ的95%单侧置信下限;(2)检验σ是否显著小于12MPa(α=0.05);(3)若实际σ=8MPa,求(2)中检验的功效;(4)画出σ的似然函数曲线(示意),并标出MLE。答案与解析:(1)用t分布:μ_L=x̄−t₀.₀₅,₂₄·s/√n=260−1.711×10/5=260−3.422=256.578MPa。(2)H₀:σ≥12,H₁:σ<12,检验统计量χ²=(n−1)s²/σ₀²=24×100/144=16.67,临界值χ²₀.₉₅,₂₄=13.848,16.67>13.848,不拒绝H₀,无充分证据表明σ<12。(3)功效=P(χ²<13.848|σ=8),非中心参数无,直接计算:新统计量分布为(24×64)/144=10.67,功效=P(χ²<13.848|df=24,scale=64/144)=F_χ²(13.848;24)=约0.30(查表或软件),即功效仅30%,检验灵敏度低。(4)似然L(σ)∝σ^(−n)exp(−(n−1)s²/(2σ²)),在σ²=s²=100处取最大,MLE=10MPa。曲线在σ=10处峰最高,两侧快速下降,图略。4.4(20分)考虑随机向量X=(X₁,X₂)ᵀ服从二维正态,均值μ=(0,0)ᵀ,协方差Σ=[[1,ρ],[ρ,1]],|ρ|<1。(1)求条件分布X₂|X₁=x₁;(2)证明偏相关ρ_{12·3}在二维情况下等于ρ;(3)设ρ=0.8,生成1000组样本,写出估计ρ的两种方法及R代码片段;(4)若实际观测到样本相关系数r=0.75,求Fisherz变换后的95%置信区间。答案与解析:(1)多元正态条件分布公式:X₂|X₁=x₁~N(μ₂+Σ₂₁Σ₁₁^(−1)(x₁−μ₁),Σ₂₂−Σ₂₁Σ₁₁^(−1)Σ₁₂),代入得X₂|X₁=x₁~N(ρx₁,1−ρ²)。(2)二维情况下无第三个变量,偏相关即简单相关,故ρ_{12·3}=ρ。(3)方法一:直接样本相关系数cor(x1,x2);方法二:基于MLE解方程r=ρ(数值优化)。R代码:```rlibrary(MASS)rho<0.8;Sigma<matrix(c(1,rho,rho,1),2,2)dat<mvrnorm(1000,c(0,0),Sigma)cor(dat)[1,2]#方法1方法2:MLE等价于样本cor,故数值相同```(4)z=0.5·ln((1+r)/(1−r))≈0.973,标准误=1/√(n−3)=1/√997≈0.0317,95%区间:z±1.96×0.0317→(0.911,1.035),反变换:r=(e^(2z)−1)/(e^(2z)+1),得(0.723,0.776)。4.5(15分)某城市出租车公司想预测日均订单量Y(千单),收集连续30天的数据,建立线性模型:Y=β₀+β₁X₁+β₂X₂+ε,其中X₁为平均气温(°C),X₂为节假日dummy(1=节假日)。输出如下表:|系数|估计|标准误|t值|Pr(>|t|)||----|----|----|----|----||β₀|10.2|1.1|9.27|<0.001||β₁|0.40|0.08|5.00|<0.001||β₂|3.5|0.9|3.89|<0.001|残差标准误=2.1,R²=0.72,F检验p<0.001。(1)写出回归方程,并解释系数含义;(2)预测气温30°C且为节假日时的订单量及95%置信区间;(3)检验β₁是否显著大于0.25(α=0.05,单侧);(4)若发现残差呈现“周末效应”波动,提出改进模型方案。答案与解析:(1)Ŷ=10.2+0.40X₁+3.5X₂。β₁:气温每升高1°C,订单量平均增加0.4千单;β₂:节假日比工作日多3.5千单。(2)点预测=10.2+0.4×30+3.5=25.7千单。标准误:se_pred=√[σ̂²·(1+n^(−1)+(x−x̄)ᵀ(XᵀX)^(−1)(x−x̄))],假设x̄₁≈20,Var(β₁)≈0.08²,Cov忽略,近似se_pred≈2.1×√(1+1/30+(30−20)²·0.08²/0.4²)≈2.1×1.12≈2.35,95%区间:25.7±1.96×2.35→(21.1,30.3)千单。(3)t=(0.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 黑龙江2025年黑龙江省科学院智能制造研究所招聘博士科研人员笔试历年参考题库附带答案详解
- 职业健康与员工职业发展:医疗组织健康绩效
- 菏泽2025年山东菏泽巨野县中医医院招聘急需专业技术人员26人笔试历年参考题库附带答案详解
- 秦皇岛2025年河北秦皇岛市体育局招聘事业单位工作人员2人笔试历年参考题库附带答案详解
- 湛江广东湛江市坡头区财政局招聘三类编外人员笔试历年参考题库附带答案详解
- 海南2025年海南省第二卫生学校招聘20人笔试历年参考题库附带答案详解
- 杭州浙江杭州市东润外国语学校编外人员招聘4人笔试历年参考题库附带答案详解
- 成都2025年四川成都青羊区招聘社区工作者和党建服务专员117人笔试历年参考题库附带答案详解
- 广州广东广州市越秀区东山街招聘辅助人员笔试历年参考题库附带答案详解
- 天津2025年天津市市场监督管理委员会所属事业单位招聘13人笔试历年参考题库附带答案详解
- 部编版一年级语文下册无纸化闯关测试 课件
- 医院后勤采购集中采购计划
- DB63∕T 2270-2024 公路建设项目智慧工地技术指南
- 施工现场临时用电:配电箱一级二级三级定义及管理规范
- 汽车电子控制技术课件
- 2024年度高速公路机电设备维护合同:某机电公司负责某段高速公路的机电设备维护2篇
- 《城镇液化石油气加臭技术规程》
- 2024-2025学年上学期南京初中语文九年级期末试卷
- 新高考数学之圆锥曲线综合讲义第26讲外接圆问题(原卷版+解析)
- 中药汤剂煎煮技术规范-公示稿
- 新版出口报关单模板
评论
0/150
提交评论