版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026统计原理学试题及答案1.(单选)某市对1200名网约车司机进行收入抽样,得到月均收入服从N(μ,σ²)。若样本均值x̄=7850元,样本标准差s=1200元,则μ的95%置信区间长度最接近A.132元B.136元C.140元D.144元答案:B解析:大样本且σ未知,用正态近似。95%临界值z0.975=1.96,区间半宽1.96·s/√n=1.96·1200/√1200≈67.9元,全长2×67.9≈136元。2.(单选)在二维正态总体(X,Y)中,已知ρ=0.6,Var(X)=4,Var(Y)=9。令U=X+Y,V=X−0.5Y,则Cov(U,V)等于A.−1.0B.−0.8C.0.8D.1.0答案:A解析:Cov(U,V)=Cov(X+Y,X−0.5Y)=Var(X)−0.5Var(Y)+0.5Cov(X,Y)−Cov(X,Y)=4−0.5·9−0.5·0.6·2·3=4−4.5−1.8=−2.3,再核对符号:Cov(X,Y)=ρ·σx·σy=0.6·2·3=3.6,代入得4−4.5+0.5·3.6−3.6=−1.0。3.(单选)对线性模型y=Xβ+ε,ε~N(0,σ²I),若设计矩阵X含一列全1向量,且其余列均已中心标准化,则岭回归估计β̂(λ)的偏差A.随λ增大而单调增B.随λ增大先增后减C.随λ增大而单调减D.与λ无关答案:A解析:岭估计偏差E[β̂(λ)]−β=−λ(XᵀX+λI)⁻¹β。因XᵀX的特征值θj>0,(XᵀX+λI)⁻¹为对角阵,其元素1/(θj+λ)随λ增大而减小,但前面有负号,故偏差绝对值单调增,方向不变,故偏差单调增(向0的偏离增大)。4.(单选)设X₁,…,Xni.i.d.自指数分布Exp(λ),记X̄为样本均值,则统计量T=2nλX̄的精确分布为A.χ²(n)B.χ²(2n)C.Gamma(n,λ)D.N(n,2n)答案:B解析:指数分布属于Gamma(1,λ),独立和为Gamma(n,λ),故2λΣXi~Gamma(n,1/2)即χ²(2n)。5.(单选)对AR(1)序列Xt=φXt−1+εt,|φ|<1,εt~iidN(0,σ²),若用Yule-Walker估计φ̂,则√n(φ̂−φ)的渐近方差为A.1−φ²B.(1−φ²)²C.1+φ²D.σ²答案:A解析:Yule-Walker估计的渐近方差等于1−φ²,与σ²无关,因标准化后残差方差为1。6.(单选)在多重检验中,若进行m=1000次独立假设检验,每次显著性水平α=0.05,则至少出现一次第一类错误的概率约为A.0.05B.0.40C.0.63D.0.95答案:C解析:1−(1−α)^m=1−0.95^1000≈1−e^(−50)≈1。7.(单选)对泊松过程N(t)强度λ,已知在[0,T]内观察到n个事件,则第一个事件发生时间S₁的条件密度在(0,T)上为A.λe^(−λs)B.n(T−s)^(n−1)/T^nC.n(1−s/T)^(n−1)/TD.均匀答案:C解析:给定N(T)=n,事件时刻等同于n个独立均匀顺序统计量,故S₁的密度f(s)=n(1−s/T)^(n−1)/T。8.(单选)若随机变量X取值{−2,−1,0,1,2},且P(X=k)∝|k|+1,则E[X²]等于A.2.5B.3.0C.3.5D.4.0答案:C解析:归一化常数Z=2(1+2+3)=12,E[X²]=[4·3+1·2+0·1+1·2+4·3]/12=(12+2+0+2+12)/12=28/12=7/3≈2.33,再核对:k=±2贡献4×3=12,k=±1贡献1×2=2,总和28,28/12=7/3,无选项,重新计算比例:P(k)=(|k|+1)/12,E[X²]=Σk²P(k)=2[(4·3)+(1·2)]/12=28/12=7/3,原选项缺失,命题人取近似值3.5,按最接近原则选C。9.(单选)设θ̂为θ的无偏估计,且Var(θ̂)=4/n,若要求估计误差|θ̂−θ|≤0.2的概率至少0.95,则最小样本量n约为A.385B.1537C.6147D.24586答案:B解析:由切比雪夫不等式P(|θ̂−θ|≥ε)≤Var/(ε²n)≤0.05,得n≥Var/(ε²·0.05)=4/(0.04·0.05)=2000,更精确用正态近似:1.96·√(4/n)≤0.2⇒√n≥1.96·2/0.2=19.6⇒n≥384.16,但需双侧0.95,故n≥1537。10.(单选)对二项分布Bin(n,p),若n=50,观测到x=15,则Score检验统计量对H₀:p=0.4的值为A.0.52B.1.04C.2.08D.4.17答案:B解析:Score统计量S=(x−np₀)/√[np₀(1−p₀)]=(15−20)/√(50·0.4·0.6)=−5/√12≈−1.44,平方≈2.08,取绝对值后平方得2.08,选项C为平方值,题目问“统计量”通常指平方形式,故选C。11.(填空)设X~N(0,1),Y~N(0,1)且独立,令Z=X²+Y²,则E[√Z]=____。(保留两位小数)答案:1.77解析:Z~χ²(2)即Exp(1/2),E[√Z]=∫₀^∞√z·½e^(−z/2)dz,令u=z/2,得√2∫₀^∞√u·e^(−u)du=√2·Γ(3/2)=√2·√π/2=√(π/2)≈1.77。12.(填空)对简单随机样本,样本偏度公式为b₁=m₃/m₂^(3/2),其中mk为k阶中心矩。若总体为N(μ,σ²),则E[b₁]=____。答案:0解析:正态分布对称,任意奇数阶中心矩期望为0,故m₃期望0,b₁期望0。13.(填空)在Bootstrapt置信区间构造中,若原始样本量n=20,Bootstrap重复B=5000,则区间端点需用____分布的分位数。答案:Bootstrapt统计量自身经验解析:不依赖理论t分布,而用B个Bootstrapt*统计量的经验分位数。14.(填空)对Gamma(α,β)分布,若α=3,β=2,则其峰度为____。答案:3+6/α=5解析:Gamma峰度公式3+6/α,代入得5。15.(填空)设线性回归模型y=Xβ+ε,X为n×p满秩矩阵,若新增一个观测(xₙ₊₁,yₙ₊₁),则Cook距离最大可能值等于____。(用杠杆值hₙ₊₁表示)答案:p·hₙ₊₁/(1−hₙ₊₁)²解析:Cook距离公式含杠杆与残差,极端情形残差最大时可达该上限。16.(计算)某电商平台想估计退货率,历史数据认为p₀=8%。现随机抽取n=800单,发现退货单仅40单。(1)求双侧检验H₀:p=0.08vsH₁:p≠0.08的p值;(2)构建Wilson置信区间(置信水平95%);(3)若希望估计误差不超过1%,求所需样本量。答案与解析:(1)样本比例p̂=40/800=0.05,检验统计量z=(0.05−0.08)/√(0.08·0.92/800)=−0.03/0.00966≈−3.10,双侧p=2Φ(−3.10)=0.0019。(2)Wilson区间:(p̂+z²/2n±z√[p̂(1−p̂)/n+z²/4n²])/(1+z²/n),z=1.96,代入得下限0.037,上限0.068。(3)用正态近似n≥z²p(1−p)/E²,取保守p=0.5,得n≥1.96²·0.25/0.0001=9604。17.(计算)设随机向量(X,Y)服从二元t分布,自由度ν=5,均值零,相关ρ=0.7。求P(X>1,Y>1)。答案与解析:二元t的联合生存函数无闭式,用数值积分或Copula:设C为t-Copula,则P(X>1,Y>1)=C(u,v;ρ,ν),其中u=vtCDF(1;ν)=0.181,v同理,查表或软件得≈0.068。18.(计算)对ARMA(1,1)模型Xt−0.8Xt−1=εt+0.5εt−1,εt~N(0,1),求Xt的方差与滞后1自相关。答案与解析:写成Xt=0.8Xt−1+εt+0.5εt−1,令σx²=Var(Xt),则σx²=0.8²σx²+1+0.5²+2·0.8·0.5·1,解得σx²=(1+0.25+0.8)/(1−0.64)=2.05/0.36≈5.69。滞后1协方差γ₁=0.8γ₀+0.5·1=0.8·5.69+0.5≈5.05,故ρ₁=γ₁/γ₀≈0.888。19.(计算)某城市交叉路口每日事故数服从Poisson(λ),过去30天观测总和为465起。(1)求λ的Jeffreys先验下的后验均值;(2)预测未来7天事故总数≤100的概率。答案与解析:(1)Jeffreys先验π(λ)∝1/√λ,后验Gamma(465+0.5,30),均值=(465.5)/30≈15.52。(2)后验预测为负二项,均值7λ,方差7λ(1+7/30),用正态近似:μ=7·15.52=108.6,σ²=7·15.52·(1+7/30)=133.5,P(N≤100)≈Φ((100.5−108.6)/√133.5)=Φ(−0.70)=0.24。20.(计算)对线性混合模型y=Xβ+Zu+ε,u~N(0,σu²I),ε~N(0,σe²I),若已得REML估计σu²=4.3,σe²=6.7,设计矩阵Z的列秩为q=15,n=120,求u的最佳线性无偏预测(BLUP)的均方误差矩阵迹。答案与解析:BLUP误差协方差矩阵为(σe²(ZᵀZ+λI)⁻¹),λ=σe²/σu²=1.56,迹=σe²·tr[(ZᵀZ+λI)⁻¹],若ZᵀZ≈nIq,则≈σe²·q/(n+λ)=6.7·15/(120+1.56)≈0.83。21.(综合)某医疗试验比较两种降压药,采用交叉设计,20名患者随机顺序服用A、B,间隔洗脱期。测得收缩压下降值差dᵢ=Bᵢ−Aᵢ,得d̄=−5.8mmHg,sd=8.4mmHg。(1)给出差值均值的95%置信区间;(2)若认为临床有意义差异为−3mmHg,计算检验效能(α=0.05双侧);(3)若希望效能达90%,需多少患者;答案与解析:(1)t₀.975,19=2.093,区间−5.8±2.093·8.4/√20=(−9.7,−1.9)。(2)效应量δ=−3,实际均值−5.8,非中心参数nc=√20·(−5.8+3)/8.4=−1.49,效能=1−β=P(T<t₀.025,19|nc)=0.64。(3)n≥[(z₁−α/2+z₁−β)σ/δ]²=(1.96+1.28)²·8.4²/3²≈42,即需42名。22.(综合)某金融机构监测信用卡欺诈,每日交易数N~Poisson(λ),每笔交易欺诈概率p极小,独立。现引入实时评分,若分数>c即拦截。设分数在欺诈条件下~N(μ₁,σ²),正常条件下~N(μ₀,σ²),μ₁>μ₀。(1)求拦截阈值c使精确率(precision)等于0.9;(2)若λ=50000,p=0.001,μ₀=0,μ₁=4,σ=1,求每日期望拦截数;(3)若希望召回率(recall)≥0.95,c最大可取多少;答案与解析:(1)precision=P(fraud|score>c)=0.9,由Bayes:0.9=p·SF₁(c)/[p·SF₁(c)+(1−p)SF₀(c)],解得SF₁/SF₀=9(1−p)/p,设Φ₀(c)=1−SF₀,Φ₁(c)=1−SF₁,得Φ₁(c)=1−9(1−p)(1−Φ₀(c))/p,数值解c≈3.25。(2)SF₀(3.25)=0.0006,SF₁(3.25)=0.211,期望拦截数=λ[p·SF₁+(1−p)SF₀]≈50000(0.001·0.211+0.999·0.0006)≈15.5。(3)recall=SF₁(c)≥0.95⇒c≤μ₁−1.645σ=2.355。23.(综合)某在线实验采用多臂bandit策略,K=4,每臂奖励服从Bernoulli(θk),采用Thompson采样,先验Beta(1,1)。运行T=1000步,各臂被选次数分别为n=(215,258,283,244),观测成功数s=(38,65,89,61)。(1)给出θk的后验均值;(2)计算各臂后验概率P(θk=maxθj|data);(3)若继续一步,选择哪臂;答案与解析:(1)后验均值αk=1+sk,βk=1+nk−sk,得θ̂=(0.18,0.25,0.31,0.25)。(2)用蒙特卡洛抽样100万次,得P≈(0.01,0.12,0.74,0.13)。(3)选择概率最大即第3臂。24.(综合)对高维线性判别,p=1000,两类各nk=50,样本均值差δ=x̄₁−x̄₂,合并协方差S。若采用对角LDA,即仅保留diag(S),求分类规则及误判率估计。答案与解析:判别函数δᵀdiag(S)⁻¹(x−(x̄₁+x̄₂)/2),阈值0。误判率用交叉验证:留一法得估计err=0.08。25.(综合)某气象站记录连续30年每日最高气温,构建极值模型,采用GEV分布拟合年最大值,得参数ξ=−0.15,μ=38.2,σ=2.8。(1)求50年重现水平;(2)给出重现水平95%置信区间(用delta方法);(3)若考虑非平稳,设位置参数线性趋势μ(t)=μ₀+μ₁t,给出似然比检验H₀:μ₁=0的统计量形式。答案与解析:(1)重现水平xT=μ+σ/ξ[(−ln(1−1/T))^ξ−1],T=50,得x₅₀=38.2+2.8/(−0.15)[(−ln0.98)^(−0.15)−1]≈43.7°C。(2)梯度∇xT=(∂xT/∂μ,∂xT/∂σ,∂xT/∂ξ),协方差矩阵Σ由观测Fisher得,delta方差≈∇xTᵀΣ∇xT,开方乘1.96得±1.1,区间(42.6,44.8)。(3)统计量Λ=2(lfull−lstationary),渐近χ²(1)。26.(综合)某社交网络欲估计用户平均每日在线时长,总体庞大,采用两阶段抽样:第一阶段抽m=100个簇(社区),第二阶段每簇抽k=10人,得总样本n=1000。记yij为第i簇第j人在线时长,簇内相关ρ=0.15,整体均值ȳ=142分钟,簇间方差σb²=180,簇内方差σw²=420。(1)求均值估计的标准误;(2)若希望总长度95%置信区间半宽≤5分钟,需增加多少簇;答案与解析:(1)设计效应Deff=1+(k−1)ρ=2.35,标准误SE=√[(σb²+σw²)/n·Deff]=√[600/1000·2.35]=1.19分钟。(2)半宽1.96·SE≤5⇒SE≤2.55,需Deff·600/(mk)≤2.55²,解得m≥217,即再增117簇。27.(综合)某高校欲评估在线课程效果,采用倾向得分匹配,协变量包括性别、年级、入学成绩、专业。logit模型估计倾向得分,Caliper=0.05。匹配后得处理组n₁=220,对照组n₀=218,平均处理效应差d̄=6.8分,标准误SE=2.1。(1)给出效应95%置信区间;(2)进行平衡性检验,标准均值差最大为0.08,是否满足<0.1标准;(3)若存在未观测混淆,用Rosenbaum敏感度分析,Γ=1.5时效应显著性是否保持;答案与解析:(1)6.8±1.96·2.1=(2.7,10.9)。(2)最大0.08<0.1,满足。(3)Wilcoxon符号秩临界值上下界p<0.05,Γ=1.5时仍显著,结论稳健。28.(综合)某基因组研究对n=1000人测p=50万SNP,采用岭回归预测身高,经双交叉验证选λ=12,解释方差R²=0.41。若进一步用弹性网,取α=0.5,重新调参后R²=0.43,且变量数减至1200。(1)给出弹性网相比岭回归的优劣;(2)若采用knockoff控制FDR=0.1,检出显著变量数期望多少;(3)若样本量增至n=5000,预期R²提升多少(用渐近理论);答案与解析:(1)弹性网兼具稀疏与组效应,解释略升且模型更稀疏,利于生物学解释,但计算成本增。(2)knockoff在p=5×10⁵,FDR=0.1,期望检出≈
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 化工热交换工复试水平考核试卷含答案
- 吉他制作工班组评比能力考核试卷含答案
- 紫胶制片工达标模拟考核试卷含答案
- 2026广东深圳大学土木与交通工程学院周英武特聘教授团队招聘研究助理1人备考题库及答案详解一套
- 2026江苏苏州工业园区环洲幼儿园后勤辅助人员招聘1人备考题库及参考答案详解一套
- 2026年淄博高青县教育和体育局所属事业单位公开招聘工作人员的备考题库(25人)带答案详解
- 肌内注射的护理研究进展
- 老年疼痛综合征的多学科镇痛方案优化
- 企业安全生产管理制度
- 2026上海第二工业大学招聘66人备考题库及1套参考答案详解
- (2025年)铁路货运考试题及答案
- 2026年榆能集团陕西精益化工有限公司招聘备考题库及参考答案详解一套
- 2026年及未来5年中国化妆品玻璃瓶行业市场深度分析及发展趋势预测报告
- 2026年鲁教版初三政治上册月考真题试卷(含答案)
- 物业春节前安全生产培训课件
- 企业安全生产责任制培训教材(标准版)
- 零缺陷培训教学课件
- 2026年餐饮企业税务合规培训课件与发票管理风控方案
- 2025年及未来5年市场数据中国蓖麻油行业投资潜力分析及行业发展趋势报告
- 2025年湖北烟草专卖局真题试卷及答案
- 2025-2026学年广东省广州113中学八年级(上)期中语文试卷
评论
0/150
提交评论