统计学基础试题和答案_第1页
统计学基础试题和答案_第2页
统计学基础试题和答案_第3页
统计学基础试题和答案_第4页
统计学基础试题和答案_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学基础试题和答案1.单选题(每题4分,共40分)1.1某城市连续30天的日最高气温(℃)记录如下:28,29,31,32,30,29,28,27,26,25,24,23,22,21,20,19,18,17,16,15,14,13,12,11,10,9,8,7,6,5。若用箱线图描述该组数据,则上四分位数Q3的值为A.25.5 B.26.5 C.27.5 D.28.5答案:C解析:将数据升序排列后,n=30,Q3位置=(30+1)×0.75=23.25,即第23与第24个数据的加权平均。第23个值为27,第24个值为28,故Q3=27+0.25×(28−27)=27.25,四舍五入保留一位小数得27.5。1.2设随机变量X服从参数为λ的泊松分布,若P(X=2)=P(X=3),则λ等于A.2 B.3 C.4 D.5答案:B解析:泊松分布概率质量函数P(X=k)=e^{−λ}λ^{k}/k!。令k=2与k=3概率相等,则e^{−λ}λ^{2}/2!=e^{−λ}λ^{3}/6,化简得λ^{2}/2=λ^{3}/6,解得λ=3。1.3在简单随机抽样中,样本均值x̄的抽样分布标准差与总体标准差σ的关系为A.σ/√n B.σ/n C.σ^{2}/n D.σ^{2}/√n答案:A解析:由中心极限定理,样本均值的标准差(即标准误)为σ/√n,与样本量平方根成反比。1.4对同一总体进行两次独立抽样,样本量分别为n₁=100与n₂=400,若两次样本均值相同,则两次估计量的标准误之比为A.1:1 B.2:1 C.4:1 D.1:2答案:D解析:标准误与√n成反比,故SE₁/SE₂=√(n₂/n₁)=√4=2,即SE₁:SE₂=2:1,反比即为1:2。1.5在线性回归模型y=β₀+β₁x+ε中,若解释变量x的样本方差增大而其余条件不变,则β₁的最小二乘估计量的方差将A.增大 B.减小 C.不变 D.先增后减答案:B解析:Var(β̂₁)=σ²/Σ(xᵢ−x̄)²,x的样本方差增大意味着分母Σ(xᵢ−x̄)²增大,从而Var(β̂₁)减小。1.6设X~N(μ,σ²),则E|X−μ|等于A.σ B.σ√(2/π) C.σ√(π/2) D.2σ/√π答案:B解析:对正态分布而言,E|X−μ|=σ√(2/π)为已知结论,可通过积分∫_{−∞}^{∞}|x−μ|φ(x)dx计算验证。1.7在假设检验中,若显著性水平α从0.05降至0.01,则A.第一类错误概率减小,检验功效增大B.第一类错误概率减小,检验功效减小C.第一类错误概率增大,检验功效减小D.第一类错误概率增大,检验功效增大答案:B解析:α即第一类错误概率,其减小导致拒绝域缩小,从而β(第二类错误概率)增大,检验功效1−β减小。1.8对同一组数据分别建立线性模型y=β₀+β₁x+ε与对数线性模型lny=α₀+α₁x+ε,若两模型的R²分别为0.81与0.84,则A.线性模型更好 B.对数线性模型更好 C.无法直接比较 D.两模型等价答案:C解析:R²衡量的是模型对因变量变异的解释比例,因两模型因变量单位不同(y与lny),R²不可直接比较,应借助信息准则或交叉验证。1.9在列联表卡方检验中,若期望频数小于5的单元格比例超过20%,则恰当的处理是A.直接计算卡方统计量 B.合并相邻行列 C.使用Fisher精确检验 D.增大样本量答案:B解析:传统卡方检验要求期望频数不小于5,若不足可合并行列或采用精确方法,但选项中“合并相邻行列”是最常用且可直接操作的方案。1.10设随机变量X的矩母函数为M_X(t)=exp(μt+σ²t²/2),则X的偏度为A.0 B.1 C.3 D.σ³答案:A解析:该矩母函数对应正态分布N(μ,σ²),正态分布偏度恒为0。2.多选题(每题5分,共30分,每题至少有两个正确答案,多选少选均不得分)2.1下列关于样本中位数的说法正确的有A.对异常值比均值更稳健 B.一定是样本中的一个观测值 C.在样本量为偶数时是中间两数的平均 D.其抽样分布比均值更接近正态 E.可用于连续型与顺序型数据答案:A、C、E解析:中位数将数据一分为二,对极端值不敏感;偶数样本量时取中间两数平均;顺序型数据可排序故可计算中位数。B错在偶数情形中位数可能非样本值;D错,中位数抽样分布收敛到正态的速度通常慢于均值。2.2关于置信区间,下列说法正确的有A.95%置信区间指参数有95%概率落入该区间 B.区间宽度与样本量平方根成反比 C.在σ已知时,构建正态总体均值的置信区间用z分布 D.置信水平越高区间越宽 E.重复抽样下,95%的区间会包含真值答案:B、C、D、E解析:A为常见误解,置信区间频率解释是“重复构造区间,95%包含真值”,而非参数随机。B正确,宽度∝1/√n;C正确;D正确;E为频率学派定义。2.3下列统计量中,其抽样分布服从t分布的有A.正态总体、方差未知、小样本均值标准化 B.两独立正态总体方差未知但相等时,两样本均值差的标准化 C.回归系数β̂₁在误差正态假设下的标准化 D.样本方差S²的(n−1)倍除以σ² E.配对差值均值标准化答案:A、B、C、E解析:D项统计量服从χ²分布而非t分布,其余在经典假设下均服从t分布。2.4下列方法可用于检验数据正态性的有A.Q-Q图 B.Shapiro-Wilk检验 C.Kolmogorov-Smirnov检验 D.Anderson-Darling检验 E.Jarque-Bera检验答案:A、B、C、D、E解析:五种均为常用正态性检验或图示方法,其中Q-Q图直观,Shapiro-Wilk对小样本功效高,Jarque-Bera基于偏度与峰度。2.5在多元线性回归中,若出现多重共线性,则可能产生的后果有A.系数估计标准误膨胀 B.t检验容易不显著 C.模型R²大幅下降 D.系数符号反转 E.预测精度一定下降答案:A、B、D解析:多重共线性使信息矩阵接近奇异,导致标准误增大、t值减小,系数不稳定甚至符号反转;但R²可能依旧很高,预测精度未必下降,故C、E不选。2.6下列关于Bootstrap的说法正确的有A.属于非参数蒙特卡洛方法 B.可用于构造置信区间 C.要求数据必须来自正态总体 D.重复采样次数B越大,估计越稳定 E.可用于偏差修正答案:A、B、D、E解析:Bootstrap通过有放回重抽样估计分布,不依赖正态假设,C错误;其余均正确。3.填空题(每题5分,共30分)3.1设X~B(n=10,p=0.3),则P(X≥7)=________(保留三位小数)。答案:0.010解析:P(X≥7)=1−P(X≤6)=1−0.989=0.010(查二项分布累积表或用软件计算)。3.2若随机变量X的密度函数为f(x)=2x,0<x<1,则E(X²)=________。答案:2/4=0.5解析:E(X²)=∫₀¹x²·2xdx=2∫₀¹x³dx=2·[x⁴/4]₀¹=1/2。3.3对某正态总体N(μ,σ²)抽取n=25的样本,得x̄=102,s=8,则μ的95%置信区间长度为________(保留两位小数)。答案:6.59解析:t_{0.025,24}=2.064,长度=2×2.064×8/√25=2×2.064×1.6=6.59。3.4在单因素方差分析中,组间自由度为3,组内自由度为20,则总自由度为________。答案:23解析:总自由度=组间+组内=3+20=23。3.5若X与Y的相关系数ρ=0.6,σ_X=5,σ_Y=2,则Cov(X,Y)=________。答案:6解析:Cov=ρσ_Xσ_Y=0.6×5×2=6。3.6设随机变量T服从自由度为12的t分布,则P(T>2.18)=________(保留三位小数)。答案:0.025解析:查t分布表,双侧97.5%分位数为2.18,故右侧尾部概率0.025。4.计算与证明题(共100分)4.1(15分)某工厂生产螺丝,历史数据表明长度X~N(μ,0.36)。现随机抽取9只,测得平均长度x̄=5.02cm。(1)求μ的99%置信区间;(2)若要求估计误差不超过0.1cm,置信水平99%,求所需最小样本量。答案与解析:(1)σ=0.6,n=9,z_{0.005}=2.576,置信区间:5.02±2.576×0.6/√9=5.02±0.515→(4.505,5.535)cm。(2)误差E=z_{α/2}·σ/√n≤0.1,解得n≥(2.576×0.6/0.1)²=239.7→240只。4.2(15分)设X₁,…,X_n独立同分布于U(0,θ),令X_{(n)}=max{X₁,…,X_n}。(1)求X_{(n)}的密度函数;(2)证明T=(n+1)X_{(n)}/n是θ的无偏估计;(3)比较T与矩估计θ̂₁=2X̄的方差大小(n≥2)。答案与解析:(1)P(X_{(n)}≤x)=(x/θ)^n,0<x<θ,求导得f_{X_{(n)}}(x)=nx^{n−1}/θ^n。(2)E[X_{(n)}]=∫₀^θx·nx^{n−1}/θ^ndx=nθ/(n+1),故E[T]=(n+1)/n·E[X_{(n)}]=θ,无偏。(3)Var(T)=((n+1)/n)²Var(X_{(n)}),而Var(X_{(n)})=E[X_{(n)}²]−(E[X_{(n)}])²=∫₀^θx²·nx^{n−1}/θ^ndx−(nθ/(n+1))²=nθ²/(n+2)−n²θ²/(n+1)²=nθ²/[(n+2)(n+1)²],故Var(T)=θ²/[n(n+2)]。矩估计θ̂₁=2X̄,Var(θ̂₁)=4Var(X̄)=4θ²/(12n)=θ²/(3n)。比较:θ²/[n(n+2)]vsθ²/(3n),当n≥2时n+2>3,故Var(T)<Var(θ̂₁),T更有效。4.3(15分)为比较两种橡胶配方对轮胎耐磨性影响,随机抽取各8只轮胎进行路试,得磨损量(mg)如下:配方A:145,142,148,150,154,144,147,151配方B:152,149,155,157,158,153,150,156假设两总体独立且服从正态分布,方差相等,试在α=0.05下检验两种配方平均磨损量是否显著差异。答案与解析:计算得x̄_A=147.625,s_A²=13.125;x̄_B=153.75,s_B²=11.786。合并方差s_p²=[(8−1)(13.125+11.786)]/(8+8−2)=12.455。t=(147.625−153.75)/√[12.455(1/8+1/8)]=−6.125/√3.114=−3.47,df=14。查表得t_{0.025,14}=2.145,|t|>2.145,拒绝原假设,认为两配方磨损量差异显著。4.4(15分)设(Y,X)服从二元正态,已知σ_Y=5,σ_X=2,ρ=0.8。现得样本n=20,x̄=10,ȳ=25,且回归方程ŷ=β̂₀+β̂₁x已拟合。(1)求β̂₁与β̂₀;(2)求x=12时Y的预测值及95%预测区间;(3)若实际观测到x=12时y=30,计算其学生化残差并判断是否为异常值(α=0.05)。答案与解析:(1)β̂₁=ρσ_Y/σ_X=0.8×5/2=2;β̂₀=ȳ−β̂₁x̄=25−2×10=5。(2)ŷ=5+2×12=29。预测区间需标准误:σ̂²=σ_Y²(1−ρ²)=5²(1−0.64)=9,故σ̂=3。预测标准误=σ̂√[1+1/n+(x−x̄)²/Σ(xᵢ−x̄)²],近似取Σ(xᵢ−x̄)²≈(n−1)σ_X²=19×4=76,则SE_pred=3√[1+1/20+(12−10)²/76]=3√1.1026≈3.15。t_{0.025,18}=2.101,区间:29±2.101×3.15→(22.4,35.6)。(3)残差e=30−29=1,学生化残差r=e/SE_pred=1/3.15=0.32,小于临界值2.101,非异常值。4.5(20分)某电商想分析广告投入x(万元)对销售额y(万元)影响,收集12个月数据,得回归结果:ŷ=12.3+2.15x,R²=0.86,残差标准误s=4.2,Σ(xᵢ−x̄)²=120。(1)检验H₀:β₁=0(α=0.05);(2)求β₁的95%置信区间;(3)若下月计划投入x=15,求销售额的95%预测区间;(4)已知广告投入每增加1万元,运营成本增加0.5万元,若净利润z=y−0.5x−固定成本8万元,求使期望净利润最大的投入水平x*,并计算最大期望净利润。答案与解析:(1)t=β̂₁/se(β̂₁),se(β̂₁)=s/√Σ(xᵢ−x̄)²=4.2/√120=0.383,t=2.15/0.383=5.61,df=10,t_{0.025,10}=2.228,5.61>2.228,拒绝H₀。(2)区间:2.15±2.228×0.383→(1.30,3.00)。(3)x=15,ŷ=12.3+2.15×15=44.55,SE_pred=s√[1+1/n+(15−x̄)²/120],设x̄≈Σx/12,缺x̄值,近似用x̄≈10,则(15−10)²/120=0.208,SE_pred=4.2√1.292=4.77,区间:44.55±2.228×4.77→(33.9,55.2)。(4)E[z]=E[y]−0.5x−8=12.3+2.15x−0.5x−8=4.3+1.65x,为线性增函数,但需考虑x增加时预测不确定性上升,实际应引入二次惩罚或预算约束。若仅考虑期望,则x越大越好,但题目未给上限,故理论上无有限x;若考虑预测区间下限,可令下限≥0,解不等式,此处略。实际决策需结合边际收益与风险,给出x=15为当前计划,对应E[z]=4.3+1.65×15=29.05万元。4.6(20分)设总体X的密度函数为f(x;θ)=θx^{θ−1},0<x<1,θ>0。(1)求θ的矩估计θ̂_M;(2)求θ的最大似然估计θ̂_{MLE};(3)计算θ̂_{MLE}的Fisher信息量I(θ);(4)证明θ̂_{MLE}为有效估计,并求其Cramér-Rao下界;(5)现得样本:0.2,0.4,0.5,0.7,0.8,计算θ̂_{MLE}与θ̂_M,并比较效率。答案与解析:(1)E[X]=∫₀¹xθx^{θ−1}dx=θ/(θ+1),令样本均值x̄=θ/(θ+1),解得θ̂_M=x̄/(1−x̄)。(2)似然函数L=θ^nΠxᵢ^{θ−1},lnL=nlnθ+(θ−1)Σlnxᵢ,令导数为0得n/θ+Σlnxᵢ=0,θ̂_{MLE}=−n/Σlnxᵢ。(3)对数似然二阶导:∂²lnL/∂θ²=−n/θ²,故I(θ)=−E[∂²lnL/∂θ²]=n/θ²。(4)Cramér-Rao下界=1/I(θ)=θ²/n。Var(θ̂_{MLE})≈θ²/n(渐近),故达到下界,为有效估计。(5)样本x̄=0.52,Σlnxᵢ=ln0.2+…+ln0.8=−2.9957,n=5,θ̂_M=0.52/(1−0.52)=1.083,θ̂_{MLE}=−5/(−2.9957)=1.669。比较:θ̂_{MLE}渐近方差θ²/n≈1.669²/5=0.557,θ̂_M为矩估计,其方差需Delta方法:Var(θ̂_M)≈[1/(1−μ)²]²Var(x̄)=[1/(1−μ)⁴]·σ²/n,其中σ²=Var(X)=θ/[(θ+1)²(θ+2)],代入θ=1.669,μ=0.625,算得Var(θ̂_M)≈0.89>0.557,故MLE更有效。5.综合应用题(共100分)5.1(30分)某高校欲评估在线教学平台对学生成绩影响,随机抽取100名学生,随机分为两组:传统组50人,在线组50人。期末成绩如下(已汇总):传统组:x̄₁=72.4,s₁=8.2;在线组:x̄₂=75.1,s₂=7.5。(1)检验两组方差是否相等(α=0.1);(2)在适当假设下检验在线教学是否显著提高平均成绩(α=0.05);(3)计算在线组平均成绩较传统组提升的95%置信区间;(4)若定义“显著提升”为至少提升3分,试在α=0.05下检验该假设;(5)已知学校想推广在线教学,但仅接受错误推广风险不超过5%,请结合检验结果给出统计建议。答案与解析:(1)F检验:F=s₁²/s₂²=8.2²/7.5²=1.195,df₁=df₂=49,双侧临界值F_{0.05,49,49}≈1.76,1.195<1.76,不拒绝方差齐性。(2)合并方差s_p²=[(49×8.2²+49×7.5²)/98]=61.645,t=(75.1−72.4)/√[61.645(1/50+1/50)]=2.7/√2.4658=1.72,df=98,t_{0.05,98}=1.66,1.72>1.66,拒绝H₀,认为在线教学显著提高成绩。(3)差值置信区间:2.7±1.984×√2.4658→2.7±3.11→(−0.41,5.81)分。(4)单侧检验H₀:μ₂−μ₁≤3,H₁:>3,t=(2.7−3)/√2.4658=−0.19,t_{0.05,98}=1.66,−0.19<1.66,不拒绝,无充分证据认为提升超过3分。(5)尽管(2)显示显著提升,但(4)表明提升幅度未必达3分,且区间含负值,建议扩大样本量进一步验证,或结合成本效益分析再决策。5.2(35分)某连锁咖啡店收集每日温度x(℃)与热咖啡销量y(杯)数据30天,得部分结果:Σx=840,Σy=2700,Σx²=25128,Σy²=256500,Σxy=73800。(1)建立线性回归模型并求回归方程;(2)检验温度对销量线性关系是否显著(α=0.05);(3)计算温度每升高1℃,销量平均变化多少杯的95%置信区间;(4)预测温度为5℃时销量,并给出95%预测区间;(5)若咖啡店每日固定成本800元,每杯咖啡毛利4元,求使期望利润最大的温度区间,并计算该区间内的预期日利润。答案与解析:(1)x̄=28,ȳ=90,S_xx=25128−840²/30=25128−23520=1608,S_xy=73800−840×2700/30=73800−75600=−1800,β̂₁=−1800/1608=−1.119,β̂₀=90−(−1.119)×28=121.3,方程:ŷ=121.3−1.119x。(2)SSE=S_yy−β̂₁S_xy=(256500−2700²/30)−(−1.119)(−1800)=13500−2014.2=11485.8,s²=11485.8/28=410.2,s=20.25,se(β̂₁)=s/√S_xx=20.25/√1608=0.505,t=−1.119/0.505=−2.22,|t|>t_{0.025,28}=2.048,显著。(3)区间:−1.119±2.048×0.505→(−2.15,−0.09)杯/℃。(4)x=5,ŷ=121.3−1.119×5=115.7,SE_pred=20.25√[1+1/30+(5−28)²/1608]=20.25√1.46=24.5,区间:115.7±2.048×24.5→(65.5,165.9)杯。(5)期望销量随温度降低而增加,故温度越低利润越高,但温度低于0℃时模型外推不可靠;实际运营需考虑最低温度限制,若取x∈[0,10],则销量区间[111,121],预期日销量116杯,日利润=116×4−800=−336元,仍亏损;需提高单价或降低成本,或仅在高需求时段营业。5.3(35分)某医学研究比较三种治疗方案对血压降低效果,招募45名患者随机均分三组,治疗4周后收缩压降低值(mmHg)如下:A组:10,8,12

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论