版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年大学《应用统计学》专业题库——大数据应用与统计学方法探究考试时间:______分钟总分:______分姓名:______一、选择题(每题2分,共10分)1.下列关于大数据“V”字特征的说法,错误的是:A.海量性(Volume)B.高速性(Velocity)C.多样性(Variety)D.价值密度低(LowVeracity)2.在参数估计中,用样本统计量去估计总体参数,称样本统计量为:A.总体B.样本C.估计量D.估计值3.进行假设检验时,犯第一类错误是指:A.样本方差大于总体方差B.本来不显著,却拒绝了原假设C.本来显著,却接受了原假设D.拒绝了原假设4.在一元线性回归分析中,判定系数R²的取值范围是:A.[0,1]B.(-1,1)C.[0,+∞)D.(-∞,+∞)5.抽样调查中,影响抽样误差大小的主要因素不包括:A.样本容量B.总体标志变异程度C.抽样方法D.抽样框质量二、填空题(每空1分,共10分)6.根据样本资料对总体分布的未知特征进行推断的统计方法称为________。7.设总体服从正态分布N(μ,σ²),当σ²已知时,检验假设H₀:μ=μ₀,应选用________检验法。8.在多元线性回归模型Y=β₀+β₁X₁+...+βₚXₚ+ε中,β₁表示在其他自变量不变的情况下,自变量X₁每变化一个单位,因变量Y的________。9.大数据时代对传统抽样调查提出的挑战之一是保证________的代表性和有效性。10.描述数据分布集中趋势的统计量主要有________、中位数和众数。三、计算题(共65分)11.(10分)设一批产品的次品率为p,现从中随机抽取100件,发现其中有15件次品。试用样本比例p̂来估计总体比例p,并计算p̂的标准误差。若据此用95%的置信水平估计该批产品的次品率范围,请给出置信区间。(提示:可使用正态近似)12.(15分)某研究想探究广告投入(万元)与产品销售额(万元)之间的关系,随机抽取了8个企业的数据如下:广告投入(X):2,4,5,6,7,8,9,10销售额(Y):30,40,50,60,65,70,80,85(1)建立销售额Y对广告投入X的线性回归方程。(2)计算判定系数R²,并解释其意义。(3)当某企业计划投入7万元广告时,预测其销售额,并给出预测值的标准误差。13.(15分)为了检验某药物是否对降低血压有效,随机抽取了15名患者,服用该药物前后的血压(收缩压,mmHg)记录如下:患者编号:123456789101112131415服药前(X):150148152155149153147151154150156148152149153服药后(Y):142145150153146148142144151143154145150146149假设血压数据服从正态分布,请使用适当的假设检验方法(α=0.05)判断服用该药物是否显著降低了患者的收缩压。14.(15分)从某城市抽取2000户家庭进行抽样调查,其中拥有某品牌智能手机的家庭有720户。现欲通过分层抽样方法抽取一个包含400户家庭的样本,已知该市家庭按收入水平分为高、中、低三个层次,其比例分别为30%、50%、20%。请计算从高、中、低三个收入层次中分别应抽取的样本量。若改为简单随机抽样,样本量为400时,估计该市拥有该品牌智能手机的家庭比例及其标准误差。15.(10分)简述大数据环境下,传统统计方法(如参数估计、假设检验)可能面临的主要挑战,并列举至少两种统计学在大数据应用中发展的新方向或新方法。试卷答案一、选择题1.D2.C3.B4.A5.D二、填空题6.参数估计7.Z(或U)8.平均变化量(或期望变化量)9.抽样框10.平均数(或均值)三、计算题11.解:(1)样本比例估计值:p̂=15/100=0.15(2)p̂的标准误差:SE(p̂)=sqrt[p̂(1-p̂)/n]=sqrt[0.15(1-0.15)/100]=sqrt[0.1275/100]=sqrt(0.001275)≈0.0357(3)95%置信水平对应Z临界值(α/2=0.025)为1.96。置信区间:p̂±Z*SE(p̂)=0.15±1.96*0.0357=0.15±0.0701置信区间约为(0.0799,0.2201)即有95%的置信水平认为该批产品的次品率在7.99%到22.01%之间。12.解:(1)计算X和Y的均值:X̄=(2+4+...+10)/8=54/8=6.75,Ȳ=(30+40+...+85)/8=520/8=65计算回归系数b₁:b₁=[n∑(XiYi)-∑Xi∑Yi]/[n∑(Xi²)-(∑Xi)²]b₁=[8*(2*30+4*40+...+10*85)-54*520]/[8*(2²+4²+...+10²)-54²]b₁=[8*(60+160+...+850)-28080]/[8*(4+16+...+100)-2916]b₁=[8*3310-28080]/[8*385-2916]b₁=[26480-28080]/[3080-2916]b₁=-1600/164=-160/16.4≈-9.76计算截距b₀:b₀=Ȳ-b₁X̄=65-(-9.76)*6.75=65+66.06=131.06回归方程:Ŷ=131.06-9.76X(2)计算R²:R²=[b₁*∑(Xi-X̄)(Yi-Ȳ)]²/[∑(Xi-X̄)²*∑(Yi-Ȳ)²]∑(Xi-X̄)(Yi-Ȳ)=(2-6.75)*(30-65)+...+(10-6.75)*(85-65)=(-4.75)*(-35)+(-2.75)*(-25)+(-1.75)*(-15)+(-0.75)*(-5)+(0.25)*0+(1.25)*5+(2.25)*10+(3.25)*20=166.25+68.75+26.25+3.75+0+6.25+22.5+65=338.5∑(Xi-X̄)²=(2-6.75)²+...+(10-6.75)²=(-4.75)²+...+(3.25)²=22.5625+7.5625+3.0625+0.5625+0.0625+1.5625+5.0625+10.5625=50∑(Yi-Ȳ)²=(30-65)²+...+(85-65)²=(-35)²+...+(20)²=1225+625+225+25+0+25+100+400=2600R²=[(-9.76)*(338.5)]²/[50*2600]=[-3299.24]²/130000=10888470.0656/130000≈0.8389R²≈0.839。其意义是,广告投入(X)的变化可以解释销售额(Y)变异性的约83.9%。(3)预测值:Ŷ=131.06-9.76*7=131.06-68.32=62.74预测值的标准误差:SE(Ŷ)=sqrt{SE²(p̂)+[(xi-x̄)²/n]*σ²_ε}其中σ²_ε未知,可用样本残差平方和估计:SSE=∑(Yi-Ŷi)²|Xi|Y|Ŷi|Yi-Ŷi|(Yi-Ŷi)²230|94.78|-64.78|4209.24440|85.02|-45.02|2026.92550|75.26|-25.26|638.06660|65.50|-5.50|30.25765|55.74|9.26|85.70870|46.98|23.02|530.84980|38.22|41.78|1742.801085|29.46|55.54|3067.84SSE=4209.24+...+3067.84=16108.19估计的方差:σ̂²_ε=SSE/(n-2)=16108.19/6=2684.6983估计的标准差:σ̂_ε=sqrt(2684.6983)≈51.81SE(Ŷ)=sqrt{[0.0357]²+[(7-6.75)²/8]*2684.6983}SE(Ŷ)=sqrt{0.001275+[0.0625/8]*2684.6983}SE(Ŷ)=sqrt{0.001275+0.0078125*2684.6983}SE(Ŷ)=sqrt{0.001275+20.9848}SE(Ŷ)=sqrt(21.2861)≈4.61预测值的标准误差约为4.61万元。13.解:(1)计算样本均值和差值均值:Δ̄=(X̄-Ȳ)=150.93-146.47=4.46(服药后减去服药前)计算样本标准差s_Δ:s_Δ=sqrt[Σ(Δi-Δ̄)²/(n-1)]Δi:8,3,2,2,3,5,5,7,3,7,2,3,2,3,4Σ(Δi-Δ̄)²=(8-4.46)²+...+(4-4.46)²=12.8+1.8+5.9+5.9+1.8+0.8+0.8+7.8+1.8+7.8+5.9+1.8+5.9+1.8+0.8=65.3s_Δ=sqrt(65.3/14)=sqrt(4.6657)≈2.16(2)计算检验统计量t:t=Δ̄/(s_Δ/sqrt(n))=4.46/(2.16/sqrt(15))=4.46/(2.16/3.873)=4.46/0.5586≈7.97(3)查t分布表,df=n-1=14,α=0.05的双尾检验临界值t_(0.025,14)≈2.145。因为|t|=7.97>2.145,所以拒绝原假设H₀。解析思路:首先计算服药前后血压变化的样本均值和标准差。由于总体方差未知且样本量较小(n=15),应使用t检验。计算t统计量的值,并与t分布的临界值进行比较。若t统计量的绝对值大于临界值,则在α显著性水平下拒绝原假设,认为药物有显著降压效果。14.解:(1)分层抽样按比例分配:高收入层应抽:n_h=N_h*(n/N)=2000*30%*(400/2000)=2000*0.3*0.2=120户中收入层应抽:n_m=N_m*(n/N)=2000*50%*(400/2000)=2000*0.5*0.2=200户低收入层应抽:n_l=N_l*(n/N)=2000*20%*(400/2000)=2000*0.2*0.2=80户(2)简单随机抽样估计比例及标准误差:样本比例估计值:p̂_srs=720/400=1.8注意:比例p̂不能大于1,此处结果异常,可能题目数据或抽样比例有误。若假设题目数据无误,则p̂_srs=1.8。若按比例抽样,低层比例抽样量可能不足1,需调整。此处按题目计算:p̂_srs=1.8p̂_srs的标准误差:SE(p̂_srs)=sqrt[p̂_srs(1-p̂_srs)/n]=sqrt[1.8(1-1.8)/400]=sqrt[1.8*(-0.8)/400]=sqrt[-1.44/400]=sqrt(-0.0036)。结果为负数,这在比例估计中不合理,通常意味着样本比例异常或题目数据设置有问题。若题目意图是考察标准误差公式应用,可假设样本比例接近0.9(如720/800),或重新审视题目设定。此处按公式计算:SE(p̂_srs)=sqrt[
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 启蒙考试难题及答案
- 2025.04育才集团七下期中考试英语试卷
- 雨课堂学堂在线学堂云《审计理论研究(西南财经)》单元测试考核答案
- 能量回收与转换技术
- 电机故障机理研究
- 电商支付场景应用
- 部编版(六三制)小学语文三年级童话、寓言阅读指南(读懂故事体会简单道理)
- 疫情溯源数据分析
- 2025-2030智慧制造行业市场深度调研及发展前景与趋势预测研究报告
- 2025-2030智慧农业设备领域市场供需分析投资评估谋略筹划规划研究报告
- (正式版)JBT 14581-2024 阀门用弹簧蓄能密封圈
- 人形机器人行业深度PPT:人形机器人聚焦“具身智能”产业化提速
- (完整word版)身份证号码前6位表示的地区对照表
- 小企业会计准则财务报表
- 物流包装成本的构成
- 金属与石材幕墙工程技术规范-JGJ133-2013含条文说
- 肌力评定 膝关节屈伸肌力评定
- 初中生物各章节概念知识框架图
- 北京工业大学:大学物理
- GA 1167-2014探火管式灭火装置
- 领导干部个人有关事项报告填报和核查问题课件
评论
0/150
提交评论