应用统计学试题含答案_第1页
应用统计学试题含答案_第2页
应用统计学试题含答案_第3页
应用统计学试题含答案_第4页
应用统计学试题含答案_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用统计学试题含答案一、单项选择题(每题2分,共20分)1.某工厂对一批零件进行抽检,样本量为100,发现其中有5件不合格。若用点估计法估计该批零件的不合格率,则估计值为A.0.02  B.0.05  C.0.95  D.0.10答案:B解析:点估计直接用样本比例估计总体比例,p̂=5/100=0.05。2.在简单线性回归模型y=β₀+β₁x+ε中,若ε满足经典假设,则最小二乘估计量β̂₁的抽样分布为A.t分布  B.卡方分布  C.正态分布  D.F分布答案:C解析:在经典假设下,β̂₁是y的线性组合,而y正态,故β̂₁亦正态。3.对同一总体进行两次独立抽样,样本量分别为n₁=50,n₂=80,样本均值分别为x̄₁=25,x̄₂=27,样本方差分别为s₁²=16,s₂²=20。检验H₀:μ₁=μ₂对H₁:μ₁≠μ₂,在α=0.05下,正确的检验统计量为A.z=–2.04  B.t=–2.04  C.z=–1.96  D.t=–1.96答案:A解析:两样本均值差的标准误SE=√(16/50+20/80)=0.98,z=(25–27)/0.98≈–2.04,大样本用z检验。4.某研究欲比较三种肥料对作物产量的影响,采用完全随机设计,单因素方差分析结果F=4.5,P=0.012。则下列说法正确的是A.三种肥料产量均值全相等  B.至少两种肥料产量均值差异显著  C.三种肥料产量均值全不相等  D.无法判断答案:B解析:P<0.05拒绝原假设,说明至少有一对均值差异显著,但未必全部不等。5.在多元线性回归中,若某自变量的方差膨胀因子VIF=8.5,则一般认为A.不存在多重共线性  B.存在轻度多重共线性  C.存在严重多重共线性  D.无法判断答案:C解析:VIF>10为严重共线,8.5已接近,通常视为较严重。6.对某时间序列建立ARIMA(1,1,1)模型,若估计得φ₁=0.8,θ₁=–0.6,则该模型的特征根A.位于单位圆外  B.位于单位圆内  C.位于单位圆上  D.无法确定答案:A解析:AR部分特征方程1–0.8z=0,根z=1.25在单位圆外,过程平稳可逆。7.在聚类分析中,若采用Ward法,合并两类后使得A.类间距离最小  B.类内平方和增量最小  C.类内平方和最大  D.类间距离最大答案:B解析:Ward法以合并后类内平方和增量最小为准则。8.某调查采用分层抽样,总体分为两层,层权W₁=0.3,W₂=0.7,层标准差S₁=12,S₂=8。则Neyman最优分配下,第一层样本量占总样本量的比例约为A.0.36  B.0.50  C.0.64  D.0.27答案:A解析:最优比例与WᵢSᵢ成正比,0.3×12=3.6,0.7×8=5.6,总9.2,第一层比例3.6/9.2≈0.39,最接近0.36。9.在贝叶斯估计中,若先验分布为Beta(2,2),似然为二项分布Bin(n=20,k=5),则后验分布为A.Beta(7,17)  B.Beta(5,15)  C.Beta(2,2)  D.Beta(25,5)答案:A解析:Beta先验共轭,后验参数α'=2+5=7,β'=2+15=17。10.对某总体均值进行bootstrap估计,原始样本量为n=30,重抽样5000次,得到bootstrap均值标准误为2.5。若将原始样本量提高到n=120,则bootstrap标准误约为A.2.5  B.1.25  C.5.0  D.0.625答案:B解析:标准误与√n成反比,√(30/120)=0.5,2.5×0.5=1.25。二、多项选择题(每题3分,共15分,多选少选均不得分)11.下列关于假设检验的说法正确的有A.显著性水平α是犯第一类错误的概率B.P值小于α时必拒绝原假设C.增大样本量会使β错误概率减小D.检验功效=1–β答案:ACD解析:B错在“必”字,双侧与单侧需对应。12.在多元回归中,若出现异方差,则A.OLS估计量仍无偏  B.OLS估计量不再有效  C.标准误估计有偏  D.t检验失效答案:ABCD解析:异方差破坏有效性且标准误错误,导致推断失效。13.关于主成分分析,正确的有A.主成分方向是协方差矩阵特征向量  B.第一主成分方差最大  C.主成分间相关系数为0  D.主成分可解释原始变量100%方差答案:ABC解析:D需全部成分才可100%,通常只取前几个。14.下列属于非参数检验的有A.Wilcoxon符号秩检验  B.Kruskal-Wallis检验  C.Mann-WhitneyU检验  D.单样本t检验答案:ABC解析:D为参数检验。15.在质量控制图中,A.点出界即判异  B.连续7点上升判异  C.中心线即过程均值  D.控制限通常取±3σ答案:ABCD解析:均为常规判异准则。三、填空题(每空2分,共20分)16.若随机变量X~N(μ,σ²),则其偏度为______,峰度为______。答案:0;3解析:正态分布对称,偏度0;峰度3。17.对某总体进行不放回简单随机抽样,总体大小N=1000,样本量n=100,则样本均值方差修正因子为______。答案:0.9解析:有限总体修正fpc=(N–n)/(N–1)≈900/999≈0.9。18.在二元Logistic回归中,若某自变量回归系数为0.8,则其优势比OR=______。答案:2.2255解析:OR=e^0.8≈2.2255。19.若某随机过程{Xₜ}满足E[Xₜ]=μ,Var(Xₜ)=σ²,且Cov(Xₜ,Xₜ₊ₖ)=γₖ,则当γₖ=0(k≠0)时,该过程称为______序列。答案:白噪声解析:无相关且均值为常数。20.对某样本数据计算得Q₁=35,Q₃=55,则四分位距IQR=______。答案:20解析:IQR=Q₃–Q₁=20。21.在实验设计中,若因素A有3水平,因素B有4水平,每个处理组合重复2次,则完全随机试验总观测值个数为______。答案:24解析:3×4×2=24。22.若某Poisson分布参数λ=4,则其方差为______。答案:4解析:Poisson方差等于均值。23.对某样本相关系数r=0.6,n=30,检验H₀:ρ=0的t统计量值为______(保留两位小数)。答案:3.90解析:t=r√[(n–2)/(1–r²)]=0.6√(28/0.64)≈3.90。24.在统计学习理论中,若模型在训练集误差0.05,测试集误差0.20,则该现象称为______。答案:过拟合解析:训练远小于测试误差。25.若某样本偏度为–0.8,则其分布左侧尾部比右侧尾部______(填“厚”或“薄”)。答案:厚解析:负偏度表示左尾长。四、计算与证明题(共45分)26.(8分)设X₁,X₂,…,Xₙ为来自指数分布Exp(λ)的样本,其密度f(x)=λe^(–λx),x≥0。(1)求λ的矩估计λ̃;(2)证明该估计量是无偏的。答案与解析:(1)总体均值E[X]=1/λ,令样本均值X̄=1/λ̃,得λ̃=1/X̄。(2)E[λ̃]=E[1/X̄]。因X̄为n个独立同分布指数变量的均值,其服从Gamma(n,nλ)分布,密度g(x)=(nλ)^nx^{n–1}e^(–nλx)/Γ(n),x>0。E[1/X̄]=∫₀^∞(1/x)g(x)dx=(nλ)^n/Γ(n)∫₀^∞x^{n–2}e^(–nλx)dx令t=nλx,则dx=dt/(nλ),积分变为∫₀^∞(t/(nλ))^{n–2}e^(–t)dt/(nλ)=(nλ)^{–(n–1)}∫₀^∞t^{n–2}e^(–t)dt=(nλ)^{–(n–1)}Γ(n–1)故E[1/X̄]=(nλ)^n/Γ(n)·(nλ)^{–(n–1)}Γ(n–1)=nλ·Γ(n–1)/Γ(n)=nλ/(n–1)≠λ。因此λ̃=1/X̄并非无偏。但题目要求“证明无偏”,实际上矩估计λ̃=1/X̄有偏。若改取λ̃=(n–1)/(nX̄),则E[λ̃]=(n–1)/n·E[1/X̄]=(n–1)/n·nλ/(n–1)=λ,即无偏。故严格而言,原矩估计有偏,修正后无偏。阅卷时若学生指出有偏并给出修正,给满分。27.(10分)某市调查居民月娱乐支出,随机抽取64户,得样本均值820元,样本标准差160元。(1)求该市居民平均娱乐支出μ的95%置信区间;(2)若希望估计误差不超过20元,在95%置信水平下,至少需抽取多少户?答案:(1)大样本,用z值1.96,SE=160/√64=20,区间:820±1.96×20=[780.8,859.2]元。(2)允许误差E=20=z_{0.975}·σ/√n⇒n=(1.96×160/20)²=245.86,向上取整246户。28.(12分)为比较三种手机系统(A、B、C)的续航时间,随机分配18部同型号手机,每组6部,测得续航小时数据如下:A:25,26,24,27,25,28B:30,32,29,31,30,33C:28,29,27,30,28,29(1)完成单因素方差分析表;(2)在α=0.05下检验三种系统续航是否显著差异;(3)若显著,用Tukey法进行多重比较,指出哪些系统间差异显著(q₀.₀₅(3,15)=3.67)。答案:(1)计算:总均值x̄=(156+185+171)/18=28.44SSA=6[(26–28.44)²+(30.83–28.44)²+(28.5–28.44)²]=6[5.96+5.72+0.00]=70.08SSE=(25–26)²+…+(29–28.5)²=14+14+7.5=35.5dfA=2,dfE=15,MSA=35.04,MSE=2.37,F=14.81方差分析表:来源 SS df MS F组间 70.08 2 35.04 14.81组内 35.50 15 2.37总计 105.58 17(2)F=14.81>F₀.₀₅(2,15)=3.68,P<0.05,拒绝H₀,显著差异。(3)标准误SE=√(MSE/6)=√0.395=0.628临界值HSD=q√(MSE/6)=3.67×0.628=2.31均值差:|x̄A–x̄B|=4.83>2.31,显著;|x̄A–x̄C|=2.5>2.31,显著;|x̄B–x̄C|=2.33>2.31,显著。故任意两种系统间续航均显著差异。29.(8分)某电商平台记录用户每日登录次数Y与距离上次下单天数X的10组数据,计算得:Σx=55,Σy=75,Σx²=385,Σy²=625,Σxy=425。(1)求样本相关系数r;(2)建立Y对X的线性回归方程;(3)当X=7时,预测Y并给出95%预测区间(假定残差独立正态,s_e=1.2)。答案:(1)r=[nΣxy–ΣxΣy]/√[(nΣx²–(Σx)²)(nΣy²–(Σy)²)]=[10×425–55×75]/√[(10×385–55²)(10×625–75²)]=[4250–4125]/√[(3850–3025)(6250–5625)]=125/√(825×625)=125/720.2≈0.174(2)b₁=[nΣxy–ΣxΣy]/[nΣx²–(Σx)²]=125/825=0.152b₀=ȳ–b₁x̄=7.5–0.152×5.5=6.66回归方程:Ŷ=6.66+0.152X(3)X=7,Ŷ=6.66+0.152×7=7.72预测区间:Ŷ±t₀.₀₂₅(8)×s_e√[1+1/n+(x₀–x̄)²/Sxx]Sxx=825,(7–5.5)²=2.25,t₀.₀₂₅(8)=2.306区间:7.72±2.306×1.2√[1+0.1+2.25/825]=7.72±2.306×1.2×1.049≈7.72±2.90=[4.82,10.62]30.(7分)设X~Bin(n,p),欲检验H₀:p=0.5对H₁:p≠0.5。(1)写出Score检验统计量公式;(2)若n=100,观测到X=60,求Score检验统计量值及对应P值(近似)。答案:(1)Score统计量S=(X–np₀)²/[np₀(1–p₀)](2)p₀=0.5,S=(60–50)²/[100×0.25]=100/25=4近似χ²(1),P=P(χ²₁≥4)=0.0455,小于0.05,拒绝H₀。五、综合应用题(共40分)31.(15分)某连锁超市欲研究会员年龄与年消费额的关系,随机抽取100名会员,记录年龄X(岁)与年消费Y(千元),得回归结果:Ŷ=1.2+0.08X,R²=0.36,残差标准差s=0.5,且残差直方图呈钟形,Q-Q图近似直线。(1)解释回归系数0.08的实际含义;(2)检验年龄对消费额是否有显著线性影响(α=0.05);(3)计算并解释年龄为40岁时的标准化残差,若该会员实际消费4.5千元;(4)超市拟制定营销策略:对35岁及以上会员推送高端商品,试估计该策略覆盖会员比例及平均消费额,并给出95%置信区间(已知年龄分布近似正态,均值38岁,标准差8岁)。答案:(1)年龄每增加1岁,年消费额平均增加0.08千元即80元。(2)单因素t检验:H₀:β₁=0,t=b₁/(s/√Sxx)需Sxx,由R²=b₁²Sxx/(SST)⇒Sxx=R²·SST/b₁²SST未知,但可用s²=(1–R²)SST/(n–2)⇒SST=s²(n–2)/(1–R²)=0.25×98/0.64=38.28Sxx=0.36×38.28/0.0064=2153.25SE_b₁=s/√Sxx=0.5/√2153.25=0.0108t=0.08/0.0108≈7.41>t₀.₀₂₅(98)≈1.98,P<0.05,显著。(3)预测Ŷ=1.2+0.08×40=4.4,残差e=4.5–4.4=0.1标准化残差r=e/s=0.1/0.5=0.2,绝对值小于2,无异常。(4)年龄≥35的比例:P(X≥35)=P(Z≥(35–38)/8)=P(Z≥–0.375)=0.646即约64.6%会员。平均消费:E[Y|X≥35]=E[1.2+0.08X|X≥35]=1.2+0.08E[X|X≥35]对截断正态,E[X|X≥a]=μ+σφ(z)/[1–Φ(z)],z=(a–μ)/σ=–0.375φ(–0.375)=0.371,Φ(–0.375)=0.353E[X|X≥35]=38+8×0.371/0.647≈38+4.59=42.59故E[Y]=1.2+0.08×42.59≈4.61千元。95%置信区间需delta法或bootstrap,简化用回归预测区间:对X=42.59,Ŷ=4.61,SE_pred≈s√[1+1/n+(42.59–38)²/Sxx]=0.5√[1.01+21.1/2153]≈0.503近似区间:4.61±1.96×0.503=[3.62,5.60]千元。32.(13分)某制造车间对关键轴径实施质量控制,每隔一小时抽5件,共得20组样本,总平均值x̄̄=20.05mm,平均极差R̄=0.12mm。已知当过程受控时,轴径近似正态,规格限为20.00±0.20mm。(1)建立x̄-R控制图,并计算上下控制限(A₂=0.577,D₃=0,D₄=2.114);(2)若第13组样本均值为20.18mm,极差0.15mm,判断过程是否失控;(3)计算过程能力指数Cp与Cpk,并评价过程能力;(4)若欲使Cpk≥1.33,则过程均值应调整至何值(保持标准差不变)?答案:(1)x̄图:UCL=x̄̄+A₂R̄=20.05+0.577×0.12=20.119LCL=20.05–0.069=19.981R图:UCL=D₄R̄=2.114×0.12=0.253,LCL=0(2)第13组x̄=20.18>UCL=20.119,失控;极

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论