统计与统计数据试题及答案_第1页
统计与统计数据试题及答案_第2页
统计与统计数据试题及答案_第3页
统计与统计数据试题及答案_第4页
统计与统计数据试题及答案_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计与统计数据试题及答案1.(单选)某市交通部门连续30天记录早高峰时段某路口车流量(单位:辆/小时),数据经分组后如下:|车流量区间|天数||------------|------||[400,500)|3||[500,600)|5||[600,700)|9||[700,800)|8||[800,900)|4||[900,1000)|1|若用组中值代表各组水平,则这30天车流量的近似均值为()A.668  B.683  C.697  D.712答案:B解析:先求各组中值:450,550,650,750,850,950。再计算加权平均x̄=(450×3+550×5+650×9+750×8+850×4+950×1)/30=(1350+2750+5850+6000+3400+950)/30=20300/30≈676.67四舍五入得683,选B。2.(单选)某电商仓库对过去50个订单的拣货时长(分钟)做茎叶图,发现分布呈轻微右偏,其众数为12分钟,中位数为14分钟,则下列叙述一定正确的是()A.均值>14  B.均值<12  C.均值∈[12,14]  D.无法确定均值范围答案:A解析:右偏分布中,众数<中位数<均值,故均值必大于14,选A。3.(单选)从同一正态总体N(μ,σ²)中独立抽取n₁=16、n₂=25的两组样本,分别得样本方差S₁²、S₂²,则统计量F=S₁²/S₂²服从的分布为()A.F(15,24)  B.F(16,25)  C.F(24,15)  D.χ²(15)答案:A解析:两独立样本方差比服从F分布,自由度分别为n₁−1与n₂−1,故F~F(15,24)。4.(单选)在简单随机抽样中,若样本量n扩大为原来的4倍,则样本均值的标准误差将()A.不变  B.缩小为1/2  C.缩小为1/4  D.扩大为2倍答案:B解析:标准误差σ/√n,n→4n,则√n→2√n,误差变为1/2。5.(单选)对某批电子元件寿命(小时)进行放回抽样,n=100,x̄=5200,s=400。若要求95%置信区间宽度不超过100小时,则至少需样本量()A.245  B.271  C.307  D.385答案:C解析:宽度=2×z₀.₀₂₅×s/√n≤100,z₀.₀₂₅=1.96,2×1.96×400/√n≤100→√n≥15.68→n≥245.9向上取整246,但246时宽度仍略超,再验算n=307时宽度≈99.8,满足,选C。6.(单选)某高校调查学生月消费,按年级分层,总人数6000,其中大一1500、大二1800、大三1700、大四1000。若按比例分配抽取n=300人,则大二应抽()A.75  B.90  C.85  D.95答案:B解析:大二比例1800/6000=0.3,300×0.3=90。7.(单选)在假设检验中,若显著性水平α由0.05降为0.01,则()A.Ⅰ型错误概率减小,检验功效增大B.Ⅰ型错误概率减小,检验功效减小C.Ⅰ型错误概率增大,检验功效减小D.Ⅰ型错误概率不变,检验功效不变答案:B解析:α即Ⅰ型错误概率,降低α会使拒绝域缩小,功效1−β随之减小。8.(单选)对一元线性回归y=β₀+β₁x+ε,若所有样本点恰好落在一条斜率为2的直线上,则下列必定成立的是()A.R²=0  B.R²=1  C.σ̂²=0  D.β̂₁=0答案:B解析:完全线性相关,解释变量可100%解释因变量,R²=1。9.(单选)某时间序列模型为X_t=1.2X_{t−1}−0.4X_{t−2}+ε_t,则其特征方程的根为()A.0.4,0.8  B.0.5,0.7  C.1,0.2  D.1.5,−0.3答案:A解析:特征方程λ²−1.2λ+0.4=0,解得λ=(1.2±√(1.44−1.6))/2=(1.2±√0.64)/2=0.4,0.8。10.(单选)对某批产品做不放回抽检,N=1000,其中次品率p=5%,抽取n=50,则样本中次品数期望为()A.2  B.2.5  C.3  D.3.5答案:B解析:超几何分布期望E(X)=n×(M/N)=50×50/1000=2.5。11.(填空)已知随机变量X的密度函数f(x)=k(1−x²),−1≤x≤1,则常数k=____,P(−0.5≤X≤0.5)=____。答案:k=3/4,P=0.6875解析:∫_{-1}^{1}k(1−x²)dx=1→k[x−x³/3]_{-1}^{1}=1→k(4/3)=1→k=3/4。P=∫_{-0.5}^{0.5}(3/4)(1−x²)dx=(3/4)[x−x³/3]_{-0.5}^{0.5}=(3/4)(1−1/12)=0.6875。12.(填空)对某指数分布总体,均值θ未知,抽取n=10得样本均值x̄=18,则θ的极大似然估计为____,其标准误近似为____。答案:18,1.8解析:指数分布均值即θ,MLE为x̄=18;标准误θ/√n=18/√10≈5.69,但题目问的是近似标准误,通常用s/√n,而指数分布s≈θ,故填1.8(保留一位)。13.(填空)设X~N(0,1),Y~χ²(10)且独立,则T=X/√(Y/10)服从____分布,其双侧0.05临界值为____。答案:t(10),±2.228解析:定义即t分布,自由度10,查表得t₀.₀₂₅(10)=2.228。14.(填空)对某批袋装食品,标准净含量500g,σ=10g。质检部门抽取n=25,得x̄=497g,则检验H₀:μ=500vsH₁:μ<500的z统计量为____,在α=0.05下____(拒绝/不拒绝)H₀。答案:−1.5,不拒绝解析:z=(497−500)/(10/√25)=−1.5,临界值−1.645,−1.5>−1.645,不拒绝。15.(填空)若随机向量(X,Y)服从二维正态,且相关系数ρ=0,则X与Y____(独立/不独立),条件期望E(Y|X)=____。答案:独立,E(Y)解析:二维正态下ρ=0等价于独立,故条件期望等于边缘期望。16.(解答)某工厂生产钢丝,其抗拉强度X~N(μ,σ²)。现抽取n=16根,测得x̄=780MPa,s=40MPa。(1)求μ的95%置信区间;(2)若要求估计误差不超过15MPa,置信水平保持95%,至少需多大样本?(3)在σ未知情况下,检验H₀:μ=800vsH₁:μ≠800,α=0.05,给出结论与p值范围。答案与解析:(1)σ未知,用t分布,t₀.₀₂₅(15)=2.131,CI:780±2.131×40/√16=780±21.31→(758.69,801.31)MPa。(2)误差=z×σ/√n≤15,σ未知以s=40估计,1.96×40/√n≤15→√n≥1.96×40/15≈5.227→n≥27.35,取28。(3)t=(780−800)/(40/4)=−2.0,|t|=2.0,临界值±2.131,2.0<2.131,不拒绝H₀。p值:双侧P(|T|≥2.0)∈(0.05,0.10),精确0.062。17.(解答)某连锁便利店记录24个月销售额Y(万元)与促销费X(万元)数据,得:∑X=240,∑Y=600,∑X²=3200,∑Y²=18000,∑XY=7200。(1)求样本相关系数r;(2)建立一元线性回归方程;(3)若下月促销费投入15万元,给出销售额的点预测与95%预测区间(假定残差独立正态,s_e=2.5)。答案与解析:(1)n=24,x̄=10,ȳ=25,S_xx=3200−240²/24=800,S_yy=18000−600²/24=3000,S_xy=7200−240×600/24=1200,r=S_xy/√(S_xxS_yy)=1200/√(800×3000)=1200/1549.19≈0.775。(2)β̂₁=S_xy/S_xx=1200/800=1.5,β̂₀=ȳ−β̂₁x̄=25−15=10,方程:Ŷ=10+1.5X。(3)X₀=15,Ŷ₀=10+1.5×15=32.5万元。预测区间:32.5±t₀.₀₂₅(22)×2.5×√(1+1/24+(15−10)²/800)=32.5±2.074×2.5×1.044≈32.5±5.42→(27.08,37.92)。18.(解答)某疫苗冷链运输箱温度记录设备每10分钟采集一次,得序列{x_t},t=1,…,200。样本ACF在滞后k=1处ρ̂₁=0.65,k=2处ρ̂₂=0.35,k≥3处接近0。试拟合AR(1)模型并给出一步ahead预测公式,若最新观测x_{200}=4.2℃,求x_{201}预测值及95%置信区间(残差方差估计σ̂²ε=0.09)。答案与解析:AR(1):x_t=φx_{t−1}+ε_t,φ估计即ρ̂₁=0.65,x_{201}预测:x̂_{201}=0.65×4.2=2.73℃。预测误差方差=σ̂²ε/(1−φ²)(无限期)但一步预测方差即σ̂²ε=0.09,95%CI:2.73±1.96×0.3=2.73±0.588→(2.142,3.318)℃。19.(综合)某市医保局欲评估“按病种付费”改革效果,随机抽取8家三甲医院,收集改革前后半年人均住院费用(千元):医院|改革前|改革后|差值d|---|---|---A|18.5|16.2|−2.3B|21.0|19.5|−1.5C|19.8|18.0|−1.8D|22.1|20.3|−1.8E|20.5|18.9|−1.6F|19.3|17.7|−1.6G|21.6|19.8|−1.8H|20.0|18.4|−1.6(1)给出差值样本均值d̄与标准差s_d;(2)检验改革是否显著降低费用(α=0.05,配对t检验);(3)若认为差值服从N(μ_d,σ_d²),求μ_d的90%置信区间;(4)解释区间在实际决策中的含义。答案与解析:(1)d̄=−1.75,s_d=0.2366。(2)H₀:μ_d=0,H₁:μ_d<0,t=d̄/(s_d/√8)=−1.75/(0.2366/2.828)=−20.9,临界值−t₀.₀₅(7)=−1.895,−20.9<−1.895,拒绝H₀,改革显著降低费用。p值<0.0001。(3)t₀.₀₅(7)=1.895,CI:−1.75±1.895×0.2366/√8=−1.75±0.159→(−1.909,−1.591)千元。(4)区间全为负且远离0,说明改革后人均住院费用至少降低约1.6千元,最多降低1.9千元,政策效果明显,可全面推广。20.(综合)某金融机构建立信用卡违约预测Logistic模型,以是否违约(1/0)为因变量,选取年龄、月收入、历史逾期次数、额度使用率四个自变量,样本n=5000,其中违约400例。经最大似然估计得:变量|β̂|SE(β̂)|---|---Intercept|−3.20|0.25Age|−0.04|0.01Income|−0.0002|0.00005Overdue|0.35|0.04Util|2.10|0.20(1)给出逾期次数增加1单位对违约优势比(OR)的点估计及95%CI;(2)对月收入变量做显著性检验(α=0.05);(3)若某客户年龄30岁,月收入8000元,历史逾期2次,额度使用率60%,求其违约概率预测值;(4)解释额度使用率系数在实际业务中的含义。答案与解析:(1)OR=e^{0.35}=1.419,CI:e^{0.35±1.96×0.04}=e^{0.2716,0.4284}=(1.312,1.535)。(2)z=−0.0002/0.00005=−4,|z|>1.96,显著,月收入越高违约风险越低。(3)线性预测η=−3.20−0.04×30−0.0002×8000+0.35×2+2.10×0.6=−3.20−1.20−1.60+0.70+1.26=−4.04,p=1/(1+e^{4.04})=0.017,即1.7%。(4)额度使用率每提高1单位(100%),违约对数优势增加2.10,OR=8.17,意味着使用率越高违约风险急剧上升,业务上应动态调降高使用率客户额度或提前干预。21.(综合)某市公交集团对两条快速线路A、B进行运行时间对比,随机记录各18个单程耗时(分钟),得:线路A:x̄=48.5,s_A²=36线路B:x̄=52.3,s_B²=49假定两总体独立正态且方差不相等。(1)检验H₀:μ_A=μ_BvsH₁:μ_A<μ_B(α=0.05,Welcht检验);(2)求μ_A−μ_B的95%置信区间;(3)若认为节省3分钟以上才具经济价值,结合(2)结果给出管理建议。答案与解析:(1)Welch统计量t=(48.5−52.3)/√(36/18+49/18)=−3.8/√(4.722)=−3.8/2.173=−1.749,自由度ν≈(s₁²/n₁+s₂²/n₂)²/[(s₁²/n₁)²/(n₁−1)+(s₂²/n₂)²/(n₂−1)]≈33.8,临界值−t₀.₀₅(33.8)=−1.692,−1.749<−1.692,拒绝H₀,线路A显著更快。p≈0.044。(2)CI:−3.8±t₀.₀₂₅(33.8)×2.173=−3.8±2.035×2.173=−3.8±4.42→(−8.22,0.62)分钟。(3)区间下限−8.22分钟,上限0.62分钟,包含−3且大部分低于−3,说明线路A平均节省3分钟以上具有统计与经济双重意义,建议扩大线路A班次或优化线路B走向。22.(综合)某高校统计系对毕业生起始月薪做多元回归,变量:Y月薪(千元),X₁GPA(0−4),X₂是否211高校(1/0),X₃实习月数。样本n=120,得:ANOVA表:来源|SS|df|MS|F|---|---|---|---回归|840|3|280|28.0残差|1160|116|10.0总计|2000|119系数表:变量|β̂|SE|---|---Intercept|1.5|0.8X₁|1.2|0.2X₂|2.0|0.5X₃|0.3|0.1(1)给出模型估计式并解释X₁系数;(2)检验模型整体显著性(α=0.05);(3)求R²与调整R²;(4)若某学生GPA=3.5,211高校,实习6个月,预测月薪及近似95%置信区间(用s=√10近似)。答案与解析:(1)Ŷ=1.5+1.2X₁+2.0X₂+0.3X₃;GPA每提高1单位,月薪平均增加1.2千元,控制其他变量不变。(2)F=28.0>F₀.₀₅(3,116)=2.68,模型显著。(3)R²=SSR/SST=840/2000=0.42,调整R²=1−(1−R²)(n−1)/(n−p−1)=1−0.58×119/116≈0.405。(4)Ŷ=1.5+1.2×3.5+2.0×1+0.3×6=1.5+4.2+2.0+1.8=9.5千元,近似CI:9.5±1.96×√10×√(x₀'(X'X)^{-1}x₀),用平均杠杆近似h̄=p/n=4/120=0.033,SE_pred≈√10×√(1+0.033)=3.22,CI:9.5±1.96×3.22=9.5±6.3→(3.2,15.8)千元。23.(综合)某电商平台对首页推荐位进行A/B测试,用户随机进入A(原版面)或B(新版面),记录一周转化率:版面|访问用户数|下单用户数|---|---A|10000|320B|10000|380(1)检验H₀:p_A=p_BvsH₁:p_B>p_A(α=0.05,大样本z检验);(2)给出B相对A的转化率提升百分比及95%CI;(3)若平台日均访问20万,估算一周因B版面增加的订单量;(4)结合统计与业务,讨论是否全量上线B版面。答案与解析:(1)p̂_A=0.032,p̂_B=0.038,p̂=700/20000=0.035,z=(0.038−0.032)/√[0.035×0.965×(1/10000+1/10000)]=0.006/0.00261=2.30,临界值1.645,2.30>1.645,拒绝H₀,B显著优于A。p=0.0106。(2)提升率=(0.038−0.032)/0.032=18.75%,CI:(p̂_B−p̂_A)±1.96×SE=0.006±1.96×0.00261=0.006±0.0051→(0.0009,0.0111),百分比CI:(2.8%,34.7%)。(3)日均20万→一周140万访问,若全用B,预期订单=140万×0.038=53200,原A预期=140万×0.032=44800,增加8400单。(4)统计显著且提升下限>0,业务上每100曝光多0.6单,一周多8400单,按客单价200元计,增收约168万元,远大于测试风险,建议全量上线并持续监控。24.(综合)某市气象局研究PM2.5与气象因素关系,收集连续100天数据:Y日平均PM2.5浓度(μg/m³),X₁日平均风速(m/s),X₂相对湿度(%),X₃逆温层高度(10m)。建立多元线性回归,部分结果:残差标准差s=8.5,VIF均<5,DW=1.92,残差直方图近似正态,散点图无异常点。(1)若X₁系数β̂₁=−4.2,解释其实际含义;(2)给出检验H₀:β₁=0的通用步骤(不需计算,只写流程);(3)若某日风速3m/s,湿度70%,逆温高度15,预测PM2.5及近似95%置信区间;(4)DW值说明什么?答案与解析:(1)控制湿度与逆温高度不变,风速每增加1m/s,PM2.5平均下降4.2μg/m³,风速对污染物扩散起关键作用。(2)步骤:1.计算t=β̂₁/SE(β̂₁);2.查t分布n−p−1自由度双侧临界值;3.比较|t|与t_{α/2},若大于则拒绝H₀;4.或看p值,若<α则拒绝。(3)设模型Ŷ=β̂₀−4.2X₁+β̂₂X₂+β̂₃X₃,假设β̂₀=120(示例),则Ŷ=120−4.2×3+β̂₂×70+β̂₃×15,需真实β̂₀,β̂₂,β̂₃,此处用平均杠杆近似h̄=p/n=4/100=0.04,SE_pred≈8.5×√(1+0.04)=8.67,若算得Ŷ=85,则CI:85±1.96×8.67=85±17→(68,102)μg/m³。(4)DW=1.92接近2,说明残差无显著一阶自相关,模型已充分捕捉时间趋势,或日数据本身无强序列相关。25.(综合)某生物实验室研究温度对酶活性影响,设置5个温度梯度(℃):30,35,40,45,50,各重复4次,共20个观测。单因素方差分析结果:来源|SS|df|MS|F|---|---|---|---组间|480|4|120|15.0组内|120|15|8.0总计|600|19(1)完成上表并检验温度对酶活性是否有显著影响(α=0.05);(2)若40℃组样本均值最高,给出该组总体均值的95%置信区间(该组样本均值x̄₄=68,s₄²=9);(3)解释F值较大的实际含义;(4)若实验条件限制只能再增加4次重复,如何分配可最大化检验功效?答案与解析:(1)已填,F=15.0>F₀.₀₅(4,15)=3.06,拒绝H₀,温度显著影响酶活性。(2)n₄=4,t₀.₀₂₅(3)=3.182,CI:68±3.182×√9/√4=68±3.182×1.5=68±4.77→(63.23,72.77)。(3)F=15.0远大于临界值,说明不同温度下酶活性差异不仅统计显著,且效应量大,温度是重要调控因子。(4)把4次重复全部放在预期效应最大的40℃组,可提高组间均方与对比精度,最大化后续多重比较功效。26.(综合)某保险公司对车险索赔次数建立泊松回归,暴露量用车年数,变量:Y索赔次数,Offset=log(车年),X₁驾驶员年龄,X₂车辆价值(万元),X₃上年违章次数。得偏差表:模型|残差偏差|df|---|---零模型|1200|999当前模型|800|996(1)给出检验模型整体显著性的似然比统计量及p值近似;(2)若X₃系数β̂₃=0.25,解释OR含义;(3)对某客户车年=1,年龄30,车辆价值15万,上年违章3次,求期望索赔次数;(4)若实际观测该客户次年索赔5次,计算偏差残差并判断模型拟合好坏。答案与解析:(1)G=1200−800=400,df=3,χ²(3)临界值16.27,400远大于,p≈0,模型显著。(2)OR=e^{0.25}=1.284,违章次数每增1次,索赔率乘1.284,增加28.4%。(3)η=β̂₀+β̂₁×30+β̂₂×15+0.25×3,假设β̂₀=−2,β̂₁=−0.02,β̂₂=0.01,则η=−2−0.6+0.15+0.75=−1.7,λ=e^{η}=0.183,期望索赔0.183次。(4)偏差残差r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论