版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年大学统计学期末考试题库——数据分析计算题解析与答案1.某高校随机抽取120名本科生,记录其每日平均学习时间(单位:分钟)与期末GPA。已知:∑x=10800,∑y=384,∑x²=1080000,∑y²=1248,∑xy=35640。(1)计算样本相关系数r,并检验H₀:ρ=0(α=0.05)。(2)建立GPA关于学习时间的简单线性回归方程,并解释斜率含义。(3)若某生日均学习150min,预测其GPA并给出95%置信区间。(4)计算决定系数R²,并说明其意义。解:(1)x̄=10800/120=90,ȳ=384/120=3.2。Sxx=∑x²–nx̄²=1080000–120×90²=108000,Syy=∑y²–nȳ²=1248–120×3.2²=19.2,Sxy=∑xy–nx̄ȳ=35640–120×90×3.2=1080。r=Sxy/√(SxxSyy)=1080/√(108000×19.2)=0.750。检验统计量t=r√(n–2)/√(1–r²)=0.750√118/√(1–0.75²)=12.47。双侧临界值t₀.₀₂₅,118≈1.98,|t|>1.98,拒绝H₀,线性相关显著。(2)β̂₁=Sxy/Sxx=1080/108000=0.010,β̂₀=ȳ–β̂₁x̄=3.2–0.010×90=2.30。回归方程ŷ=2.30+0.010x。斜率0.010表示日均学习时间每增加1分钟,GPA平均提高0.010分。(3)x₀=150,ŷ₀=2.30+0.010×150=3.80。残差标准误s=√[(Syy–β̂₁Sxy)/(n–2)]=√[(19.2–0.010×1080)/118]=0.316。标准误预测均值sŷ=s√[1/n+(x₀–x̄)²/Sxx]=0.316√[1/120+60²/108000]=0.058。95%置信区间3.80±1.98×0.058=[3.69,3.91]。(4)R²=r²=0.750²=0.562,即56.2%的GPA变异可由学习时间解释。2.某市交通部门记录8个路口改造前后高峰小时车流量(辆/小时):改造前:420,380,450,390,410,370,400,430;改造后:380,360,420,370,390,350,380,410。假设差值服从正态分布,检验改造是否显著降低车流量(α=0.05),并计算平均减少量的95%置信区间。解:差值d=前–后:40,20,30,20,20,20,20,20。d̄=23.75,s_d=7.07,n=8。t=d̄/(s_d/√n)=23.75/(7.07/√8)=9.49。单侧临界值t₀.₀₅,7=1.895,t>1.895,拒绝H₀,改造显著降低流量。95%置信区间d̄±t₀.₀₂₅,7×s_d/√n=23.75±2.365×7.07/√8=[17.8,29.7]辆/小时。3.某电商平台随机抽取15份订单,记录优惠金额(元)与顾客评分(1–5星):优惠额:0,5,10,15,20,25,30,35,40,45,50,55,60,65,70;评分:3.2,3.0,3.5,3.7,3.9,4.0,4.2,4.3,4.5,4.6,4.7,4.8,4.8,4.9,5.0。拟合二次模型Score=β₀+β₁Discount+β₂Discount²+ε。(1)写出设计矩阵X与响应向量y。(2)用最小二乘求参数估计β̂=(XᵀX)⁻¹Xᵀy。(3)检验二次项是否显著(α=0.05)。(4)计算优惠38元时的预测评分及95%预测区间。解:(1)X为15×3矩阵,第1列全1,第2列为优惠额,第3列为优惠额平方;y=(3.2,3.0,…,5.0)ᵀ。(2)经计算:XᵀX=⎡1552522750⎤⎢525227501086375⎥⎣22750108637556875000⎦,Xᵀy=[63.9,2456.5,109637.5]ᵀ。求逆得(XᵀX)⁻¹,乘得β̂=[3.018,0.0412,–0.000355]ᵀ。拟合方程ŷ=3.018+0.0412x–0.000355x²。(3)全模型SSE_full=0.0945,简化模型(无二次项)SSE_red=0.3184。F=[(0.3184–0.0945)/1]/(0.0945/12)=28.4>F₀.₀₅,1,12=4.75,二次项显著。(4)x₀=38,ŷ₀=3.018+0.0412×38–0.000355×38²=4.51。预测标准误s_pred=√[MSE(1+x₀ᵀ(XᵀX)⁻¹x₀)]=0.128。95%预测区间4.51±2.179×0.128=[4.23,4.79]。4.某制药公司比较三种降压药A、B、C的收缩压降低值(mmHg),各药随机分配10名患者,数据:A:12,15,9,10,8,13,14,11,12,10;B:18,16,20,17,19,21,15,18,17,19;C:14,16,13,15,17,12,14,15,16,14。单因素方差分析(α=0.05),若显著则进行Tukey多重比较。解:组均值x̄_A=11.4,x̄_B=18.0,x̄_C=14.6,总均值=14.67。SSA=10[(11.4–14.67)²+(18.0–14.67)²+(14.6–14.67)²]=220.27,SSE=∑(x_ij–x̄_i)²=34.4+30.0+22.4=86.8。F=(SSA/2)/(SSE/27)=110.13/3.21=34.3>F₀.₀₅,2,27=3.35,拒绝H₀。TukeyHSD:q₀.₀₅,3,27=3.51,标准误=√(MSE/n)=√(3.21/10)=0.566。HSD=3.51×0.566=1.99。均值差:B–A=6.6,C–A=3.2,B–C=3.4(表示显著)。结论:B降压效果最佳,C次之,A最差。5.某银行审核1000份信用卡申请,建立逻辑回归预测违约(1=违约,0=正常),自变量:年龄、年收入(万元)、负债比、信用卡张数。输出部分结果:系数估计:β₀=–4.2,β_age=–0.05,β_income=–0.20,β_debt=2.1,β_cards=0.15。协变量矩阵(XᵀX)⁻¹对角线:0.012,0.008,0.005,0.003,0.002。(1)写出违约概率表达式。(2)计算30岁、年收入8万元、负债比0.3、持卡2张的违约概率。(3)检验负债比系数是否显著(α=0.05)。(4)计算负债比OR的95%置信区间并解释。解:(1)logit(p)=–4.2–0.05Age–0.20Income+2.1Debt+0.15Cards。(2)线性预测η=–4.2–0.05×30–0.20×8+2.1×0.3+0.15×2=–6.17。p=e^η/(1+e^η)=0.0021,即0.21%。(3)z=β_debt/SE=2.1/√0.005=29.7>1.96,显著。(4)OR=e^{2.1}=8.17,95%CI:e^{2.1±1.96√0.005}=[7.35,9.08]。解释:负债比每增加0.1,违约odds增加约8.17倍,置信区间不含1,效应显著。6.某气象站记录60年逐年降水量(mm),样本均值580,标准差120。检验H₀:总体中位数=600,用符号检验(α=0.05)。解:记X>600为“+”,X<600为“–”,观测得34个“+”,26个“–”。在H₀下,+号数~Binomial(n=60,p=0.5)。正态近似:z=(34–30)/√(60×0.5×0.5)=4/3.873=1.03。双侧p=2×P(Z>1.03)=0.30>0.05,不拒绝H₀,无充分证据表明中位数偏离600mm。7.某连锁超市20家门店,收集月销售额y(万元)、面积x₁(百m²)、促销费x₂(万元)、距市中心距离x₃(km)。拟合多元线性回归,结果:β̂=(5.2,1.30,0.75,–0.20)ᵀ,MSE=0.64,R²=0.83。(1)写出回归方程。(2)检验整体显著性(α=0.05)。(3)计算x₁偏回归系数的95%置信区间。(4)若某店面积3百m²、促销费2万元、距离5km,预测销售额并给出95%预测区间。解:(1)ŷ=5.2+1.30x₁+0.75x₂–0.20x₃。(2)F=(R²/k)/[(1–R²)/(n–k–1)]=(0.83/3)/(0.17/16)=26.0>F₀.₀₅,3,16=3.24,整体显著。(3)需(XᵀX)⁻₁对应元素,假设为0.018,则CI:1.30±2.12√(0.64×0.018)=[1.16,1.44]。(4)x₀=(1,3,2,5),ŷ₀=5.2+1.30×3+0.75×2–0.20×5=10.1。s_pred=√[MSE(1+x₀ᵀ(XᵀX)⁻¹x₀)]=0.92。95%预测区间10.1±2.12×0.92=[8.15,12.05]万元。8.某工厂质检每隔半小时抽取5件产品,共20组,测得不合格品数:3,2,4,1,2,0,3,2,1,2,3,4,2,1,0,2,3,2,1,2。构建p控制图,判断过程是否受控(α=0.0027)。解:总不合格40件,总检验100件,平均不合格率p̄=0.40。UCL=p̄+3√[p̄(1–p̄)/n]=0.40+3√(0.24/5)=1.06(取1因比例≤1),LCL=max(0,0.40–0.66)=0。所有点均在[0,1]内,无超出,过程受控。9.某高校调查400名毕业生,记录性别与是否考研:男180人,考研108;女220人,考研154。检验性别与考研是否独立(α=0.05),并计算Cramér’sV。解:列联表:考研不考合计男10872180女15466220合计262138400χ²=400(108×66–72×154)²/(180×220×262×138)=3.84。临界值χ²₀.₀₅,1=3.84,p≈0.050,恰好处于边界,谨慎认为关联微弱。Cramér’sV=√(χ²/n(min(r–1,c–1)))=√(3.84/400)=0.098,小效应。10.某实验室测量反应时间(秒)服从指数分布,随机样本n=25,∑x=50。检验H₀:λ=1(α=0.05),并计算λ的95%置信区间。解:指数分布均值μ=1/λ,样本均值x̄=2。似然比检验:Λ=2[25ln(1/2)–25+25×2]=2[–17.33–25+50]=15.34>χ²₀.₀₅,1=3.84,拒绝H₀。置信区间基于χ²:2nx̄/χ²₀.₀₂₅,2n=100/64.2=1.56,2nx̄/χ²₀.₉₇₅,2n=100/39.4=2.54。故λ∈[0.39,0.64](因λ=1/μ)。11.某游戏公司A/B测试两种登录界面,旧界面1000用户,三日留存420;新界面1200用户,留存528。检验新界面留存率是否更高(α=0.01),并计算差异的99%置信区间。解:p̂₁=0.42,p̂₂=0.44,合并p̂=(420+528)/2200=0.431。z=(0.44–0.42)/√[0.431×0.569×(1/1000+1/1200)]=0.02/0.0208=0.96。单侧p=0.17>0.01,不拒绝H₀。99%CI:(0.44–0.42)±2.33×0.0208=[–0.028,0.068],含0,与检验一致。12.某研究机构测得12名志愿者摄入某营养素后血糖变化(mg/dL):5,8,–2,6,10,3,7,4,9,1,6,5。假设差值服从正态分布,检验平均变化是否大于0(α=0.05),并计算功效(真实均值=4,σ=3)。解:d̄=5.17,s=3.25,n=12。t=5.17/(3.25/√12)=5.50>t₀.₀₅,11=1.796,拒绝H₀,显著升高。功效:非中心参数δ=4/(3/√12)=4.62,临界t=1.796,power=P(T’>1.796)≈0.98(查非中心t表)。13.某城市50个社区记录年均PM2.5(μg/m³)与肺癌发病率(每万人):r=0.68,x̄=45,ȳ=32,Sxx=2000,Syy=1100。(1)建立回归方程预测发病率。(2)若某社区PM2.5为50,预测发病率及95%置信区间。(3)计算Spearman秩相关,数据无结,给出检验结果。解:(1)β̂₁=r√(Syy/Sxx)=0.68√(1100/2000)=0.503,β̂₀=32–0.503×45=9.37。ŷ=9.37+0.503x。(2)x₀=50,ŷ₀=9.37+0.503×50=34.5。s=√[(Syy–β̂₁²Sxx)/(n–2)]=√(286/48)=2.44。sŷ=2.44√[1/50+(50–45)²/2000]=0.39。95%CI:34.5±2.01×0.39=[33.7,35.3]/万人。(3)Spearmanrs=0.67,检验z=rs√(n–1)=0.67×7=4.69>1.96,显著。14.某电商平台2025年1月至12月销售额(百万元):26,28,31,29,33,35,38,40,37,39,42,45。拟合线性趋势y=β₀+β₁t+ε,t=1,…,12。(1)求β̂₀,β̂₁。(2)预测2026年4月销售额并给出95%预测区间。(3)计算Durbin-Watson统计量并检验自相关(α=0.05)。解:(1)t̄=6.5,ȳ=35.25,Stt=143,Sty=183.5。β̂₁=183.5/143=1.28,β̂₀=35.25–1.28×6.5=26.9。ŷ=26.9+1.28t。(2)t₀=16,ŷ₀=26.9+1.28×16=47.4。s=√[(Syy–β̂₁Sty)/(n–2)]=√(192.2–234.9)/10,修正SSE=42.7,s=2.07。s_pred=2.07√[1+1/12+(16–6.5)²/143]=2.68。95%预测区间47.4±2.228×2.68=[41.4,53.4]百万元。(3)DW=∑(e_t–e_{t–1})²/∑e_t²=28.4/42.7=0.67。查表d_L=0.97,d_U=1.30,0.67<d_L,存在正自相关。15.某高校随机调查300名本科生,记录月生活费y(元)、家庭收入x₁(千元)、性别x₂(1=男,0=女)。拟合交互模型y=β₀+β₁x₁+β₂x₂+β₃x₁x₂+ε,结果:β̂=(800,120,–150,30)ᵀ,MSE=40000,n=300。(1)写出男女各自的回归方程。(2)检验交互项是否显著(α=0.05)。(3)计算家庭收入8千元时男女平均生活费差异的95%置信区间。解:(1)男:x₂=1,ŷ=(800–150)+(120+30)x₁=650+150x₁;女:x₂=0,ŷ=800+120x₁。(2)需(XᵀX)⁻¹对应元素,假设SE(β̂₃)=12,则t=30/12=2.5>1.96,显著。(3)差异=(650+150×8)–(800+120×8)=1850–1760=90元。Var(diff)=Var(β̂₂+8β̂₃)=Var(β̂₂)+64Var(β̂₃)+16Cov(β̂₂,β̂₃)。假设估算得SE=28,则95%CI:90±1.96×28=[35,145]元。16.某生物实验比较三种培养基对细胞增殖倍数:基A:8次重复,均值3.2,方差0.36;基B:10次,均值4.1,方差0.49;基C:9次,均值3.8,方差0.64。单因素ANOVA(α=0.05),若显著用Bonferroni比较。解:总均值=(8×3.2+10×4.1+9×3.8)/27=3.73。SSA=8(3.2–3.73)²+10(4.1–3.73)²+9(3.8–3.73)²=3.46,SSE=7×0.36+9×0.49+8×0.64=13.79。F=(3.46/2)/(13.79/24)=3.01>F₀.₀₅,2,24=3.40,不显著。Bonferroni无需进行。17.某金融公司建立泊松回归预测每日投诉电话数,暴露变量为日交易量(万笔),系数β̂=0.008(SE=0.002)。(1)解释系数含义。(2)检验β>0(α=0.01)。(3)交易量500万笔时,预期投诉数及99%置信区间。解:(1)交易量每增加1万
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026广东广州银行选聘备考题库及答案详解(夺冠系列)
- 2026年1月重庆市綦江区人民政府东林街道办事处招聘公益性岗位人员3人备考题库完整参考答案详解
- 2025年鸡西市恒山生态环境局招聘2人备考题库及答案详解一套
- 2026中国科学院化学研究所博士后招聘备考题库及一套答案详解
- 2025年12月福建厦门市民政局补充非在编人员招聘1人备考题库及答案详解(考点梳理)
- 税务新人职业规划
- 公共行政学史(第二版)课件 第13、14章 重构:基于本体论反思的公共行政理论;回归:走向自主创新的中国公共行政学
- 《GB-T 31014-2014声学 水声目标强度测量实验室方法》专题研究报告
- 自动识别技术
- 空管航线调配安全宣教指南
- CRT-YS4690消防控制室图形显示装置使用说明书-营口赛福德
- 植筋工程施工验收记录表范例
- 2025至2030年中国冷冻食品行业市场调研及行业投资策略研究报告
- 压空罐安全知识培训课件
- 2025年江苏南京市建邺区招聘第一批购岗人员5人笔试模拟试题及答案详解1套
- 市场保洁管理方案(3篇)
- 医院调料杂粮副食品采购项目方案投标文件(技术方案)
- 静脉给药的安全管理
- 银行从业者观《榜样》心得体会
- 农村年底活动方案
- 2024届山东省威海市高三二模数学试题(解析版)
评论
0/150
提交评论