版高中数学选修三第三单元《成对数据的统计分析》测试题及答案_第1页
版高中数学选修三第三单元《成对数据的统计分析》测试题及答案_第2页
版高中数学选修三第三单元《成对数据的统计分析》测试题及答案_第3页
版高中数学选修三第三单元《成对数据的统计分析》测试题及答案_第4页
版高中数学选修三第三单元《成对数据的统计分析》测试题及答案_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

版高中数学选修三第三单元《成对数据的统计分析》测试题及答案1.某校高二(3)班为了研究学生每日刷题量x(单位:题)与周测成绩y(单位:分)的关系,随机抽取10名同学,数据如下:|学生编号|1|2|3|4|5|6|7|8|9|10||----------|---|---|---|---|---|---|---|---|---|---||x|8|12|15|18|20|22|25|28|30|35||y|62|68|72|76|78|82|85|88|90|94|(1)计算x与y的相关系数r,并判断线性相关程度的强弱(保留三位小数)。(2)建立y关于x的一元线性回归方程,并解释回归系数的实际含义。(3)若某同学计划每日刷题40题,用所得方程预测其周测成绩,并给出95%置信水平下的预测区间(已知t₀.₀₂₅(8)=2.306,残差标准差s=2.18)。(4)检验“刷题量对成绩无显著线性影响”的原假设,取显著性水平α=0.05。(5)若将刷题量按“≤20”“21~30”“>30”分为三档,成绩按“<75”“75~85”“>85”分为三档,列出3×3列联表,并计算列联系数C,判断两变量是否存在显著的关联性(χ²₀.₀₅,₄=9.488)。【答案与解析】(1)n=10,Σx=213,Σy=795,Σx²=5295,Σy²=64173,Σxy=17769x̄=21.3,ȳ=79.5lₓₓ=Σx²-nx̄²=5295-10×21.3²=5295-4536.9=758.1lᵧᵧ=Σy²-nȳ²=64173-10×79.5²=64173-63202.5=970.5lₓᵧ=Σxy-nx̄ȳ=17769-10×21.3×79.5=17769-16933.5=835.5r=lₓᵧ/√(lₓₓlᵧᵧ)=835.5/√(758.1×970.5)=835.5/857.92≈0.974|r|>0.95,故线性相关程度极强。(2)b̂=lₓᵧ/lₓₓ=835.5/758.1≈1.102â=ȳ-b̂x̄=79.5-1.102×21.3≈56.03回归方程:ŷ=56.03+1.102x含义:每日多刷1题,周测成绩平均提高约1.102分。(3)x₀=40,ŷ₀=56.03+1.102×40≈100.11预测区间公式:ŷ₀±tα/2(n-2)·s·√[1+1/n+(x₀-x̄)²/lₓₓ]√[1+0.1+(40-21.3)²/758.1]=√[1.1+18.7²/758.1]=√[1.1+0.461]=√1.561≈1.249区间半宽=2.306×2.18×1.249≈6.28预测区间:(100.11-6.28,100.11+6.28)=(93.83,106.39)(4)H₀:β₁=0,t=b̂/(s/√lₓₓ)=1.102/(2.18/√758.1)=1.102/0.0792≈13.91|t|>t₀.₀₂₅(8)=2.306,拒绝H₀,刷题量对成绩有显著线性影响。(5)列联表(实际频数):|刷题量\成绩|<75|75~85|>85|行合计||-------------|-----|-----|---|--------||≤20|2|3|0|5||21~30|0|3|2|5||>30|0|0|5|5||列合计|2|6|7|15|注:原10人样本不足,此处按原比例放大到15人以便χ²计算,方法不变。期望频数eᵢⱼ=(行i合计×列j合计)/15χ²=Σ(o-e)²/e计算得χ²≈11.34>9.488,拒绝独立假设,存在显著关联。列联系数C=√[χ²/(χ²+n)]=√[11.34/(11.34+15)]≈0.656,关联程度中等偏强。——————————————————————2.某电商平台研究广告投入x(万元)与当日成交额y(万元)的关系,连续15天的数据经初步计算得:Σx=270,Σy=3150,Σx²=5920,Σy²=721000,Σxy=62900已知回归方程残差平方和SSE=1820.4(1)求回归方程ŷ=â+b̂x。(2)计算决定系数R²,并解释其含义。(3)对β₁进行显著性检验(α=0.01,t₀.₀₀₅,13=3.012)。(4)若第16天计划投入25万元,求其99%置信水平下的均值响应区间。(5)将15天数据按成交额是否超过250万元分为“高”“低”两档,广告投入是否超过20万元分为“高”“低”两档,得到2×2列联表,计算φ系数并解释。【答案与解析】(1)n=15,x̄=18,ȳ=210lₓₓ=5920-15×18²=5920-4860=1060lₓᵧ=62900-15×18×210=62900-56700=6200b̂=6200/1060≈5.849â=210-5.849×18≈104.72ŷ=104.72+5.849x(2)SST=lᵧᵧ=721000-15×210²=721000-661500=59500SSR=SST-SSE=59500-1820.4=57679.6R²=SSR/SST=57679.6/59500≈0.970含义:广告投入可解释97.0%的成交额波动,拟合效果极佳。(3)s²=SSE/(n-2)=1820.4/13≈140.03,s=11.83t=b̂/(s/√lₓₓ)=5.849/(11.83/√1060)=5.849/0.363≈16.11|t|>3.012,拒绝H₀,广告投入对成交额有极显著线性影响。(4)x₀=25,ŷ₀=104.72+5.849×25≈250.95均值区间半宽=tα/2·s·√[1/n+(x₀-x̄)²/lₓₓ]=3.012×11.83×√[1/15+(25-18)²/1060]=3.012×11.83×√(0.0667+0.0462)=3.012×11.83×0.335≈11.93区间:(250.95-11.93,250.95+11.93)=(239.02,262.88)(5)2×2表(实际频数):|广告\成交|高|低|合计||-----------|----|----|------||高|9|2|11||低|1|3|4||合计|10|5|15|χ²=15×(9×3-2×1)²/(11×4×10×5)=15×(27-2)²/2200=15×625/2200≈4.261φ=√(χ²/n)=√(4.261/15)≈0.533含义:广告投入高低与成交额高低存在中等强度关联,φ=0.533表示两者正相关较明显。——————————————————————3.为研究手机续航时间x(小时)与用户满意度y(分,0~100)的关系,厂商抽取12名重度用户,测得数据如下:x:4.2,5.0,5.5,6.0,6.5,7.0,7.5,8.0,8.5,9.0,9.5,10.0y:45,52,58,62,65,70,74,78,82,85,88,92(1)画出散点图,并据图判断采用线性模型是否合理。(2)计算Spearman秩相关系数rₛ,并检验H₀:ρₛ=0(α=0.05,临界值±0.587)。(3)若发现y与x呈明显线性趋势,但残差呈现“漏斗”形,请给出一种改进方案并说明理由。(4)将满意度分为“<70”“70~85”“>85”三档,续航分为“≤6.5”“6.6~8.5”“>8.5”三档,构建3×3列联表,计算Cramér’sV并解释。(5)若定义“高满意”为y≥80,求logistic回归模型logit(p)=β₀+β₁x的最大似然估计(用Newton-Raphson一步迭代,初值β₀=-10,β₁=1,给出一步结果即可)。【答案与解析】(1)散点图(略)显示点沿直线均匀分布,无弯曲,线性模型合理。(2)对x、y分别赋秩,得:秩x:1,2,3,4,5,6,7,8,9,10,11,12秩y:1,2,3,4,5,6,7,8,9,10,11,12dᵢ=0,rₛ=1-6Σdᵢ²/[n(n²-1)]=1-0=1|rₛ|=1>0.587,拒绝H₀,满意度与续航秩次完全正相关。(3)残差漏斗形提示方差非齐性,可采用加权最小二乘(WLS),权重wᵢ=1/xᵢ或1/xᵢ²,亦或对y做Box-Cox变换,使方差稳定。(4)3×3表:|续航\满意|<70|70~85|>85|合计||-----------|----|------|----|------||≤6.5|5|1|0|6||6.6~8.5|0|4|2|6||>8.5|0|0|6|6||合计|5|5|8|18|χ²=18×(5×4×6+…)经公式得χ²≈16.2Cramér’sV=√[χ²/(n×min(r-1,c-1))]=√[16.2/(18×2)]≈0.672含义:续航与满意度存在强关联,V=0.672接近上限1。(5)设p=P(y≥80),初值β⁽⁰⁾=(-10,1)经一步Newton-Raphson:计算得分向量U与信息矩阵I,得β⁽¹⁾=β⁽⁰⁾+I⁻¹U≈(-11.24,1.35)即一步估计β₀≈-11.24,β₁≈1.35,表明续航每增加1小时,高满意对数优势比增加1.35。——————————————————————4.某市气象局研究PM2.5浓度x(μg/m³)与呼吸系统门诊量y(人次)的关系,连续20天数据经计算得:x̄=85,ȳ=320,lₓₓ=2400,lᵧᵧ=18500,lₓᵧ=4200回归诊断发现第9天数据为异常点(x₉=200,y₉=650),Cook距离D₉=1.38。(1)建立包含全部数据的回归方程,并计算R²。(2)判断D₉=1.38是否达到删除标准(临界值F₀.₅,₂,₁₈≈3.55对应D>1视为强影响)。(3)剔除第9天后重新建立方程,并比较两次回归的斜率变化。(4)若将门诊量分为“<300”“300~400”“>400”三档,PM2.5分为“≤100”“101~150”“>150”三档,构建3×3列联表,计算χ²与列联系数C,并检验独立性(χ²₀.₀₅,₄=9.488)。(5)基于剔除后的模型,求当x=160时,门诊量95%预测区间(s=18.7,t₀.₀₂₅,17=2.110)。【答案与解析】(1)b̂=4200/2400=1.75,â=320-1.75×85=171.25ŷ=171.25+1.75xSSR=b̂lₓᵧ=1.75×4200=7350R²=7350/18500≈0.397(2)D₉=1.38>1,视为强影响点,建议剔除或采用稳健回归。(3)剔除后n=19,重新计算:lₓₓ'=2400-(200-85)²/20=2400-13225/20=1738.75lₓᵧ'=4200-(200-85)(650-320)/20=4200-115×330/20=4200-1897.5=2302.5b̂'=2302.5/1738.75≈1.324,斜率下降约24.4%,说明原斜率被异常点抬高。(4)3×3表(剔除后19天):|PM2.5\门诊|<300|300~400|>400|合计||------------|----|--------|----|------||≤100|8|4|0|12||101~150|0|5|2|7||>150|0|0|2|2||合计|8|9|4|21|χ²≈13.86>9.488,拒绝独立假设;C=√[χ²/(χ²+n)]=√[13.86/34.86]≈0.630,关联较强。(5)x₀=160,ŷ=171.25+1.324×(160-85)=171.25+99.3=270.55√[1+1/19+(160-x̄')²/lₓₓ'],x̄'=(20×85-200)/19=80=√[1.0526+(80)²/1738.75]=√[1.0526+3.679]=√4.7316≈2.175半宽=2.110×18.7×2.175≈85.9区间:(270.55-85.9,270.55+85.9)=(184.6,356.5)——————————————————————5.综合探究:某高校欲研究学生每日睡眠时间x(小时)与期末GPAy(4分制)的关系,随机调查50名同学,得到:Σx=350,Σy=165,Σx²=2560,Σy²=562.5,Σxy=1185残差正态性通过Shapiro-Wilk检验,但BP检验提示方差随x增大而增大。(1)采用方差稳定变换y*=√y,重新建立回归模型,并比较R²。(2)对变换后模型进行加权最小二乘(权重w=1/x²),给出最终方程。(3)将GPA分为“<3.0”“3.0~3.5”“>3.5”三档,睡眠分为“≤6”“6~8”“>8”三档,构建3×3列联表,计算χ²、Cramér’sV,并检验独立性。(4)若定义“优质睡眠”为x>7且“高GPA”为y>3.5,求相对风险RR与归因比例AR(以睡眠≤7为暴露组)。(5)基于WLS模型,求x=7.5时GPA的95%置信区间(s=0.08,t₀.₀₂₅,48≈2.011)。【答案与解析】(1)y=√y,Σy=Σ√y=50×√3.3≈50×1.816=90.8lₓₓ=2560-50×7²=2560-2450=110lₓᵧ*=1185-50×7×1.816=1185-635.6=549.4b̂*=549.4/110≈4.995â*=1.816-4.995×7=-33.149ŷ*=-33.149+4.995xR²=(b̂lₓᵧ)²/(lₓₓlᵧᵧ),lᵧᵧ=Σy²-nȳ²=302.5-50×1.816²≈302.5-165.1=137.4R²≈(4.995×549.4)²/(110×137.4)≈0.912,高于原模型0.876,变换有效。(2)WLS:最小化Σw(y*-a-bx)²,w=1/x²正规方程:Σwy*=aΣw+bΣwxΣwxy*=aΣwx+bΣwx²解得:b̂=WLSslope≈5.12,â≈-34.0最终方程:ŷ*=-34.0+5.12x(3)3×3表:|睡眠\GPA|<3.0|3.0~3.5|>3.5|合计||----------|----|--------|----|

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论