版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计知识考试题库附答案1.单选题某市交通部门想估计早高峰时段平均车速,随机抽取100辆机动车,测得样本均值28.4km/h,样本标准差4.6km/h。若用t分布构造95%置信区间,则区间半宽最接近下列哪一项?A.0.46km/hB.0.92km/hC.1.15km/hD.1.84km/h答案:B解析:自由度df=n−1=99,查t分布表得t0.975(99)≈1.984。半宽=t×s/√n=1.984×4.6/10≈0.913km/h,四舍五入0.92km/h。2.单选题在简单随机抽样下,样本均值的标准误差与总体标准差σ及样本量n的关系是:A.σ/nB.σ/√nC.σ²/nD.σ²/√n答案:B解析:由中心极限定理,样本均值抽样分布标准差为σ/√n,即标准误差。3.单选题某质检员每天从生产线上随机抽取5件产品测重,连续20天共得100个数据。若欲建立X̄-R控制图,则R图的中心线应使用下列哪一项估计总体标准差?A.R̄/d2B.R̄/c4C.s̄/c4D.s̄/d2答案:A解析:R图用极差估计σ,公式σ̂=R̄/d2,其中d2为与样本量n=5有关的常数2.326。4.单选题对同一批数据做线性回归,若将自变量x的单位由“米”改为“厘米”,则决定系数R²会:A.增大100倍B.减小100倍C.不变D.变为原来的1/10000答案:C解析:R²是比例,与变量量纲无关,仅取决于变异解释比例。5.单选题在假设检验中,若显著性水平α由0.05调整为0.01,则犯第一类错误的概率:A.增大B.减小C.不变D.可能增大也可能减小答案:B解析:第一类错误概率就是α,调小α直接降低拒真概率。6.单选题设X~N(μ,σ²),则P(|X−μ|≤1.96σ)约等于:A.90%B.95%C.97.5%D.99%答案:B解析:标准正态分布双侧95%临界值为±1.96。7.单选题在列联表χ²检验中,若期望频数小于5的单元格比例超过20%,合理的处理方式是:A.直接计算χ²值B.合并相邻行或列C.改用t检验D.增加α水平答案:B解析:χ²检验要求期望频数不宜过小,合并可提高期望频数。8.单选题对0-1变量Y建立Logistic回归,若某自变量系数估计为0.8,则其优势比OR为:A.0.8B.1.8C.2.23D.0.45答案:C解析:OR=e^β=e^0.8≈2.23。9.单选题在单因素方差分析中,若组间均方MSB显著大于组内均方MSE,可认为:A.各组样本量不等B.各组总体方差不等C.各组总体均值不全相等D.数据非正态答案:C解析:ANOVA原假设H0:μ1=μ2=…=μk,拒绝即意味着至少一对均值不等。10.单选题若随机变量X服从参数λ=3的泊松分布,则E(X²)等于:A.3B.6C.9D.12答案:D解析:泊松分布E(X)=λ,Var(X)=λ,E(X²)=Var(X)+[E(X)]²=3+9=12。11.单选题对时间序列做一阶差分的主要目的是:A.消除趋势B.消除季节C.提高方差D.降低样本量答案:A解析:差分可将非平稳趋势序列转化为平稳序列。12.单选题在Bootstrap估计中,若原始样本量n=50,采用有放回重复抽样1000次,则每次Bootstrap样本量应为:A.50B.1000C.任意D.50×1000答案:A解析:Bootstrap原则:每次重抽样样本量与原始样本相同,即n。13.单选题若两变量Pearson相关系数r=0,则下列一定成立的是:A.两变量独立B.两变量无线性关系C.两变量无曲线关系D.两变量方差相等答案:B解析:r仅度量线性关系,r=0仅说明不存在线性相关,但可能有非线性关系。14.单选题在贝叶斯估计中,若先验分布为Beta(2,2),似然为二项分布Bin(n=10,k=7),则后验分布为:A.Beta(2,2)B.Beta(7,3)C.Beta(9,5)D.Beta(10,10)答案:C解析:Beta为二项共轭先验,后验参数α'=α+k=2+7=9,β'=β+n−k=2+3=5。15.单选题当多元线性回归出现多重共线性时,方差膨胀因子VIF会:A.接近0B.接近1C.远大于1D.变为负值答案:C解析:VIF>10通常视为严重共线,VIF越大说明共线性越严重。16.单选题对同一数据分别用K-Means与层次聚类,若样本量高达10万,则一般更高效的算法是:A.K-MeansB.层次聚类C.两者一样D.无法比较答案:A解析:K-Means时间复杂度约O(nkt),层次聚类O(n²)或更高,大数据下K-Means更快。17.单选题若某检验的p值为0.03,则当α=0.05时:A.拒绝原假设B.接受原假设C.无法判断D.需增大样本量答案:A解析:p<α拒绝H0。18.单选题在正态总体方差未知且小样本下,关于均值μ的检验应采用:A.Z检验B.χ²检验C.t检验D.F检验答案:C解析:σ未知且n小,用t检验。19.单选题若某模型AIC=310,BIC=350,另一模型AIC=315,BIC=330,则依据“越小越好”原则,综合选择:A.第一模型B.第二模型C.两模型一样好D.需交叉验证答案:B解析:AIC略逊但BIC显著更优,BIC惩罚更大,应选第二模型。20.单选题对二分类问题,若模型预测概率阈值为0.5,现将阈值提高到0.8,则召回率Recall一般会:A.上升B.下降C.不变D.先升后降答案:B解析:阈值提高,预测正例减少,漏检增多,召回率下降。21.多选题下列哪些统计量可用于检验正态性?A.Shapiro-Wilk统计量B.Anderson-Darling统计量C.Kolmogorov-Smirnov统计量D.Durbin-Watson统计量答案:A、B、C解析:Durbin-Watson用于检验残差自相关,与正态性无关。22.多选题关于置信区间,下列说法正确的是:A.95%置信区间指参数有95%概率落入该区间B.区间越宽,置信水平越高C.增大样本量可缩小区间宽度D.置信区间不包含点估计值的情况不可能出现答案:B、C解析:A错误,频率学派认为参数固定,区间随机;D错误,区间必含点估计。23.多选题下列哪些方法可用于处理缺失数据?A.多重插补B.删除含缺失行C.均值插补D.期望最大化算法答案:A、B、C、D解析:四种皆为常用缺失处理技术。24.多选题在回归诊断中,哪些图可用于检验同方差性?A.残差vs拟合值图B.Q-Q图C.尺度-位置图D.偏残差图答案:A、C解析:Q-Q图检验正态性,偏残差图检验非线性。25.多选题下列哪些属于非参数检验?A.Mann-WhitneyU检验B.Kruskal-Wallis检验C.Wilcoxon符号秩检验D.单样本t检验答案:A、B、C解析:t检验属参数检验,要求正态或样本大。26.多选题若随机变量X服从几何分布,参数p=0.2,则:A.E(X)=5B.Var(X)=20C.P(X=3)=0.8²×0.2D.无记忆性成立答案:A、C、D解析:几何分布E(X)=1/p=5,Var(X)=(1−p)/p²=20,C为pmf正确表达式,D为几何分布性质。27.多选题下列哪些技术可用于降低模型过拟合?A.L2正则化B.早停C.DropoutD.增加特征多项式答案:A、B、C解析:增加特征会加剧过拟合。28.多选题在实验设计中,区组化目的包括:A.降低实验误差方差B.提高处理比较精度C.增加处理数D.控制已知干扰变量答案:A、B、D解析:区组化不直接增加处理数。29.多选题下列哪些统计图形适合展示两连续变量关系?A.散点图B.箱线图C.热力图D.六边形分箱图答案:A、C、D解析:箱线图用于展示单变量分布或多组比较。30.多选题若两独立样本均来自正态总体,方差未知但假定相等,检验均值差可用:A.合并方差t检验B.Welcht检验C.配对t检验D.方差分析答案:A、B解析:配对t检验用于相关样本,ANOVA用于多组。31.填空题若X~N(10,4),则P(X>12)=________。(用标准正态累积分布函数Φ表示)答案:1−Φ(1)解析:Z=(12−10)/√4=1,故P(X>12)=P(Z>1)=1−Φ(1)。32.填空题在简单线性回归中,若SST=100,SSE=25,则R²=________。答案:0.75解析:R²=1−SSE/SST=1−25/100=0.75。33.填空题设随机变量T服从自由度为15的t分布,则其方差为________。答案:15/13解析:t分布方差df/(df−2),df>2。34.填空题若某泊松过程平均每分钟发生2次事件,则在3分钟内发生少于4次的概率为________。(保留三位小数)答案:0.151解析:λt=6,P(N<4)=P(N≤3)=e^(−6)(6^0/0!+…+6^3/3!)=0.1512。35.填空题对n=20的样本,若样本偏度为0,峰度为2,则Jarque-Bera统计量为________。答案:2.5解析:JB=(n/6)(S²+(K−3)²/4)=(20/6)(0+(2−3)²/4)=20/6×0.25=2.5。36.填空题若两变量秩相关系数ρ=0.6,样本量n=10,则检验H0:ρ=0的t统计量值为________。(保留两位小数)答案:2.12解析:t=ρ√(n−2)/√(1−ρ²)=0.6×√8/√0.64=0.6×2.828/0.8≈2.12。37.填空题在2×3列联表中,自由度为________。答案:2解析:(r−1)(c−1)=1×2=2。38.填空题若Lasso回归调参λ增大,则模型变量数将________。(填“增加”或“减少”)答案:减少解析:λ越大惩罚越强,系数更易被压缩至0。39.填空题若某AR(1)模型xt=0.3xt−1+εt,则其平稳方差为________。(设εt方差为1)答案:1/(1−0.3²)=1/0.91≈1.099解析:平稳方差σ²=σ_ε²/(1−φ²)。40.填空题在Bootstrap估计标准误时,重抽样次数B一般建议不小于________。答案:1000解析:经验上B≥1000可使标准误估计稳定。41.计算题某工厂生产钢丝,其断裂强度服从正态分布。随机抽取25段,测得平均强度1850MPa,标准差80MPa。(1)求μ的95%置信区间。(2)若要求估计误差不超过20MPa,置信水平95%,应至少抽取多少段?答案与解析:(1)df=24,t0.975(24)=2.064,半宽=2.064×80/5=33.02,区间1850±33.02→(1816.98,1883.02)MPa。(2)误差d=20,n≥(t×s/d)²,迭代初估用z=1.96,n0=(1.96×80/20)²=61.47,取62;再查t0.975(61)=2.00,n1=(2×80/20)²=64,收敛,故至少64段。42.计算题某电商对比两种推荐算法,随机分配200名用户,A组100人平均消费320元,标准差60元;B组100人平均350元,标准差70元。假定方差不等,检验两算法是否显著差异(α=0.05)。答案与解析:H0:μA=μB,H1:μA≠μB。Welch检验:t=(320−350)/√(60²/100+70²/100)=−30/√(36+49)=−30/√85≈−3.25,df=(36+49)²/(36²/99+49²/99)≈85,查t双侧临界±1.99,|t|>1.99,拒绝H0,两算法消费差异显著。43.计算题给出数据集{2,5,6,8,10,12,15},求:(1)中位数;(2)四分位距IQR;(3)若从中随机取3个数不放回,求样本均值大于9的概率。答案与解析:(1)中位数=8。(2)Q1=位置2的值=5,Q3=位置6的值=12,IQR=12−5=7。(3)总体均值μ=8.57,欲样本均值>9,即三数和>27。枚举共C(7,3)=35种,满足和>27的有{6,10,12}{6,10,15}{6,12,15}{8,10,12}{8,10,15}{8,12,15}{10,12,15}共7种,概率7/35=0.2。44.计算题某药物有效率历史值60%。现试验120名患者,其中84人有效。(1)求新样本比历史提高的近似p值(单侧)。(2)若真实有效率已达70%,求该检验功效(1−β)近似值。(α=0.05单侧)答案与解析:(1)H0:p=0.6,H1:p>0.6,z=(0.7−0.6)/√(0.6×0.4/120)=0.1/0.0447≈2.236,p=1−Φ(2.236)≈0.0127。(2)临界值p̂c=0.6+1.645×0.0447≈0.673,功效=P(p̂>0.673|p=0.7),z=(0.673−0.7)/√(0.7×0.3/120)=−0.027/0.0416≈−0.65,功效=1−Φ(−0.65)=Φ(0.65)≈0.742。45.计算题设X,Y联合密度f(x,y)=2,0≤x≤y≤1,求Cov(X,Y)。答案与解析:先求边缘与期望:E(X)=∫₀¹∫x¹2xdydx=∫₀¹2x(1−x)dx=1/3,E(Y)=∫₀¹∫x¹2ydydx=∫₀¹(1−x²)dx=2/3,E(XY)=∫₀¹∫x¹2xydydx=∫₀¹x(1−x²)dx=1/2−1/4=1/4,Cov(X,Y)=E(XY)−E(X)E(Y)=1/4−(1/3)(2/3)=1/4−2/9=1/36。46.综合题某城市出租车公司想预测每日订单量Y(万单),收集连续60天数据,含自变量:X1:平均气温(℃),X2:降雨量(mm),X3:周末虚拟变量(0/1),X4:大型活动虚拟变量(0/1)。经逐步回归得模型:Ŷ=2.1+0.03X1−0.05X2+0.8X3+1.2X4,R²=0.65,调整R²=0.62,RMSE=0.42。(1)解释X2系数含义。(2)若第61天预报:气温28℃,降雨5mm,周六,无大型活动,求点预测及95%近似预测区间。(3)诊断发现残差滞后1阶自相关系数0.28,应如何修正模型?答案与解析:(1)控制其他变量不变,降雨量每增加1mm,日订单量平均减少0.05万单。(2)Ŷ=2.1+0.03×28−0.05×5+0.8×1+1.2×0=2.1+0.84−0.25+0.8=3.49万单。近似区间:3.49±1.96×0.42→(2.67,4.31)万单。(3)存在轻度自相关,可引入AR(1)误差项或增加滞后因变量yt−1作为新自变量,亦可使用Cochrane-Orcutt迭代估计消除自相关。47.综合题某高校调研学生月生活费,假设总体标准差300元。(1)若希望99%置信水平下估计误差不超过50元,求最小样本量。(2)实际抽取200人,得平均1650元,求99%置信区间。(3)若总体实际右偏,样本量仍200,上述区间是否仍有效?说明理由。答案与解析:(1)n≥(z×σ/d)²,z0.995=2.576,n≥(2.576×300/50)²=2394.6,至少2395人。(2)1650±2.576×300/√200=1650±54.6→(1595.4,1704.6)元。(3)仍近似有效。n=200较大,中心极限定理保证样本均值近似正态,区间可靠性受偏度影响较小,但若偏态极强,可考虑对数变换或Bootstrap法。48.综合题某质量工程师记录连续30天产品缺陷数:总计120个缺陷,每天产量固定500件。(1)建立c图,求中心线及上下控制限。(2)若第31天发现7个缺陷,是否超出控制限?(3)若缺陷类型分A、B、C三类,计数分别为60,40,20,用χ²检验判断三类是否等比例(α=0.05)。答案与解析:(1)c̄=120/30=4,UCL=c̄+3√c̄=4+6=10,LCL=4−6=−2,取0。(2)7∈[0,10],未超限。(3)H0:三类比例1:1:1,期望频数各40,χ²=(60−40)²/40+(40−40)²/40+(20−40)²/40=400/40+0+400/40=20,df=2,临界5.99,20>5.99,拒绝H0,缺陷类型不等比例。49.综合题某连锁超市对1000名会员随机发送优惠券(面额0元、5元、10元),记录两周内消费。得数据:面额0元组300人,平均消费180元,标准差60元;5元组350人,平均200元,标准差65元;10元组350人,平均220元,标准差70元。(1)用单因素ANOVA检验优惠券面额是否显著影响消费(α=0.05)。(2)若显著,进一步用Tukey法做多重比较,指出哪些组差异显著。答案与解析:(1)总均值x̄=(300×180+350×200+350×220)/1000=200.5,SSB=300(180−200.5)²+350(200−200.5)²+350(220−200.5)²=300×420.25+350×0.2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 敬老院卫生规章制度
- 卫生院两单两卡制度汇编
- 幼儿园创城卫生工作制度
- 娱乐厅卫生管理制度
- 食品卫生监督制度
- 卫生院两化管理制度
- 看守所医疗卫生制度
- 建材店卫生管理制度
- 卫生员各项规章制度
- 卫生院精防管理制度
- 尼帕病毒病的预防控制专题学习课件
- 2026年锂电池项目投资计划书
- 华为员工持股管理制度
- 瓜子二手车直卖网流程表
- 房屋继承确权协议书
- 五年级语文下册 第一单元 1 古诗三首教学设计 新人教版
- 2025年湖南化工职业技术学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 办公楼物业安全管理
- T-CSOE 0003-2024 井下套管外永置式光缆安装要求
- 三年级英语下册阅读理解真题
- 化学知识科普小学生
评论
0/150
提交评论