版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年易学数据分析题库及答案一、单项选择题(每题2分,共10分)1.以下关于数据类型的描述中,正确的是()A.客户满意度评分(1-5分)属于定距数据B.商品分类(食品/服饰/家电)属于定序数据C.温度(℃)属于定比数据D.员工工号属于定类数据答案:D解析:定类数据仅用于分类(如工号、性别),无顺序或数值意义;定序数据有顺序但无固定间隔(如满意度评分1-5分);定距数据有间隔但无绝对零点(如温度℃);定比数据有绝对零点(如收入、重量)。2.在描述性统计中,若某数据集的偏度系数为-1.2,说明数据分布()A.右偏(正偏),尾部在右侧B.左偏(负偏),尾部在左侧C.对称分布D.无法判断答案:B解析:偏度系数为负时,数据左偏(负偏),均值小于中位数,尾部向左延伸;偏度系数为正时右偏。3.以下哪种场景最适合使用决策树算法?()A.预测用户下一次购买时间(连续值)B.识别图像中的猫和狗(二分类)C.分析用户评论情感倾向(文本分类)D.降低高维数据维度(特征提取)答案:B解析:决策树适合分类问题(尤其是离散标签),预测连续值常用回归模型,文本分类需NLP预处理,降维常用PCA等方法。4.在A/B测试中,若对照组转化率为15%,实验组为18%,显著性水平α=0.05,p值=0.03,结论应为()A.拒绝原假设,实验组效果显著优于对照组B.不拒绝原假设,两组无显著差异C.需扩大样本量重新测试D.实验组效果提升但不显著答案:A解析:p值<α(0.03<0.05),拒绝原假设(“两组无差异”),认为实验组有显著提升。5.以下关于数据清洗的步骤,正确的顺序是()①处理缺失值②纠正异常值③转换数据格式④去重A.④→③→①→②B.③→④→②→①C.④→①→②→③D.③→④→①→②答案:A解析:数据清洗通常先去重(避免重复记录干扰),再统一格式(如日期标准化),接着处理缺失值(删除/填充),最后纠正异常值(如超过均值3σ的离群点)。二、简答题(每题8分,共32分)1.简述描述性统计与推断性统计的区别与联系。答案:区别:描述性统计通过均值、方差、频数分布等指标总结数据的特征(“是什么”),关注样本本身;推断性统计基于样本数据对总体特征进行估计或假设检验(“为什么”“未来如何”),需利用概率论(如t检验、置信区间)。联系:描述性统计是推断性统计的基础,前者为后者提供数据预处理和特征总结;推断性统计通过样本推断总体,需依赖描述性统计的结果验证假设。2.解释“过拟合”的概念,并说明两种常见的解决方法。答案:过拟合指模型在训练数据上表现极佳(误差极小),但在新数据(测试集)上表现差,原因是模型过度学习了训练数据中的噪声和细节,泛化能力弱。解决方法:①正则化:在损失函数中加入惩罚项(如L1/L2正则),限制模型复杂度(如减少决策树深度、限制神经网络权重大小);②交叉验证:将数据划分为训练集、验证集、测试集,通过验证集调整超参数(如K折交叉验证),避免模型仅适配训练集;③增加数据量:更多数据可降低噪声对模型的影响(若数据允许)。3.简述皮尔逊相关系数与斯皮尔曼相关系数的适用场景。答案:皮尔逊相关系数(r)适用于两个连续变量呈线性关系的场景,要求数据服从正态分布,且变量间为定量关系(如身高与体重)。斯皮尔曼相关系数(ρ)是秩相关系数,适用于以下场景:①变量为定序数据(如满意度排名);②数据不满足正态分布(如偏态分布的收入数据);③变量间为非线性但单调的关系(如学习时间与成绩可能呈非线性但递增趋势)。4.说明在Excel中使用VLOOKUP函数时需注意的三个关键点。答案:①查找值必须在查找区域的首列:VLOOKUP默认从查找区域的第一列匹配值,若目标列不在首列需调整区域或使用INDEX+MATCH组合;②精确匹配与近似匹配:第四参数为0(FALSE)时是精确匹配(需完全一致),为1(TRUE)时是近似匹配(要求查找区域首列升序排列,返回小于等于查找值的最大值);③处理文本与数值的格式差异:若查找值为文本(如“2023”)而查找区域为数值(2023),需统一格式(如用TEXT函数转换),否则可能匹配失败。三、计算题(每题12分,共36分)1.某电商平台2024年1-5月的销售额(单位:万元)如下:120、150、180、210、240。计算该数据集的均值、中位数、标准差(保留2位小数)。答案:均值=(120+150+180+210+240)/5=900/5=180万元;中位数:数据已排序,第3个数为180万元;标准差计算:各数据与均值的差:-60、-30、0、30、60;平方和:(-60)²+(-30)²+0²+30²+60²=3600+900+0+900+3600=9000;方差=9000/(5-1)=2250(样本方差,分母为n-1);标准差=√2250≈47.43万元。2.某产品的广告投入(x,万元)与销量(y,千件)数据如下:x:5、10、15、20、25y:8、12、16、20、24计算x与y的皮尔逊相关系数,并判断线性相关程度(保留3位小数)。答案:步骤1:计算均值x̄=(5+10+15+20+25)/5=15;ȳ=(8+12+16+20+24)/5=16步骤2:计算分子(协方差部分)Σ(xi-x̄)(yi-ȳ)=(5-15)(8-16)+(10-15)(12-16)+(15-15)(16-16)+(20-15)(20-16)+(25-15)(24-16)=(-10)(-8)+(-5)(-4)+0+5×4+10×8=80+20+0+20+80=200步骤3:计算分母(x和y的标准差乘积)σx=√[Σ(xi-x̄)²/(n-1)]=√[(100+25+0+25+100)/4]=√(250/4)=√62.5≈7.906σy=√[Σ(yi-ȳ)²/(n-1)]=√[(64+16+0+16+64)/4]=√(160/4)=√40≈6.325分母=σx×σy×(n-1)=7.906×6.325×4≈200(注:皮尔逊系数公式也可简化为r=Σ(xi-x̄)(yi-ȳ)/[√Σ(xi-x̄)²×√Σ(yi-ȳ)²])简化计算:Σ(xi-x̄)²=100+25+0+25+100=250;Σ(yi-ȳ)²=64+16+0+16+64=160r=200/√(250×160)=200/√40000=200/200=1.000结论:相关系数为1.000,说明x与y完全正线性相关。3.某网站用户注册页面有两个版本(A/B),A版测试1000人,注册成功200人;B版测试1200人,注册成功276人。检验B版注册率是否显著高于A版(α=0.05,Z检验)。答案:步骤1:计算注册率p̂A=200/1000=0.2;p̂B=276/1200=0.23步骤2:原假设H0:pB≤pA;备择假设H1:pB>pA(单侧检验)步骤3:计算合并概率p̄=(200+276)/(1000+1200)=476/2200≈0.2164步骤4:计算Z统计量Z=(p̂B-p̂A)/√[p̄(1-p̄)(1/nA+1/nB)]=(0.23-0.2)/√[0.2164×0.7836×(1/1000+1/1200)]=0.03/√[0.1706×(0.001+0.000833)]=0.03/√[0.1706×0.001833]≈0.03/√0.000313≈0.03/0.0177≈1.695步骤5:α=0.05,单侧检验临界值Z0.05=1.645;Z=1.695>1.645,拒绝H0结论:B版注册率显著高于A版(p值≈0.045<0.05)。四、案例分析题(每题11分,共22分)案例1:某社区超市2024年1-6月的销售额(万元)分别为:85、90、92、88、95、100。同时收集了同期的平均气温(℃)数据:12、15、18、20、22、25。超市经理想了解销售额与气温是否相关,并预测当气温为28℃时的销售额。(1)计算销售额与气温的相关系数(保留2位小数),判断相关方向与强度;(2)建立一元线性回归模型(y=α+βx),并预测气温28℃时的销售额(保留1位小数)。答案:(1)相关系数计算:x(气温)均值=(12+15+18+20+22+25)/6=112/6≈18.67℃y(销售额)均值=(85+90+92+88+95+100)/6=550/6≈91.67万元Σ(xi-x̄)(yi-ȳ)=(12-18.67)(85-91.67)+(15-18.67)(90-91.67)+(18-18.67)(92-91.67)+(20-18.67)(88-91.67)+(22-18.67)(95-91.67)+(25-18.67)(100-91.67)=(-6.67)(-6.67)+(-3.67)(-1.67)+(-0.67)(0.33)+(1.33)(-3.67)+(3.33)(3.33)+(6.33)(8.33)≈44.49+6.13-0.22-4.88+11.09+52.73≈110.34Σ(xi-x̄)²=(-6.67)²+(-3.67)²+(-0.67)²+(1.33)²+(3.33)²+(6.33)²≈44.49+13.47+0.45+1.77+11.09+40.07≈111.34Σ(yi-ȳ)²=(-6.67)²+(-1.67)²+(0.33)²+(-3.67)²+(3.33)²+(8.33)²≈44.49+2.79+0.11+13.47+11.09+69.49≈141.44r=110.34/√(111.34×141.44)=110.34/√15747.5≈110.34/125.5≈0.88结论:相关系数约为0.88,高度正相关,气温升高时销售额倾向于增加。(2)回归模型:β=Σ(xi-x̄)(yi-ȳ)/Σ(xi-x̄)²=110.34/111.34≈0.99α=ȳ-βx̄=91.67-0.99×18.67≈91.67-18.48≈73.19模型:y=73.19+0.99x当x=28℃时,y=73.19+0.99×28≈73.19+27.72≈100.9万元案例2:某金融APP用户流失预警项目中,分析团队提取了1000条用户数据,包含以下特征:年龄(岁)、月收入(元)、近30天登录次数、近6个月交易次数、是否开通自动还款(0/1)、是否流失(0/1,1为流失)。现需构建分类模型预测用户是否流失。(1)说明对各特征进行预处理的关键步骤;(2)若模型评估指标为准确率85%、召回率70%、F1值0.77,解释这些指标的含义,并分析模型在业务中的适用性。答案:(1)预处理步骤:①年龄、月收入(连续变量):检查缺失值(如用均值/中位数填充),标准化(Z-score或Min-Max)消除量纲影响;②近30天登录次数、近6个月交易次数(离散计数变量):若存在异常值(如登录次数>100),需核实或用分箱处理(如“0次”“1-5次”“6次以上”);③是否开通自动还款(二分类变量):无需处理,保持0/1格式;④目标变量“是否流失”:检查类别平衡(若流失用户仅占10%,需用SMOTE过采样或调整类别权重)。(2)指标含义与适用性:①准确率=(正确预测的用户数)/(总用户数)=85%,表示模型整体正确分类的比例;②召回率=(正确预测的流失用户数)/(实际流失用户数)=70%,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026静脉输液外渗的预防和护理
- 2026年电子通讯行业分析报告及未来发展趋势报告
- 2026年数字温湿度传感器行业分析报告及未来发展趋势报告
- 2026年原铝行业分析报告及未来发展趋势报告
- 2026年屈光手术设备行业分析报告及未来发展趋势报告
- 2026年互联网+现代农业行业分析报告及未来发展趋势报告
- 2026年羽绒服洗涤剂行业分析报告及未来发展趋势报告
- 2026年电热龙头行业分析报告及未来发展趋势报告
- 2026年婴幼儿湿巾行业分析报告及未来发展趋势报告
- (2025年)公安高速交管基础知识题库及答案
- 赤子城科技-市场前景及投资研究报告-全球化社交娱乐公司灌木丛矩阵出海壁垒
- 2026四川广安市前锋区社区工作者招聘43人笔试模拟试题及答案解析
- 2026上海市众仁慈善服务中心招聘20人备考题库含答案详解(夺分金卷)
- 中国红斑狼疮诊疗指南(2026版)
- 2026年北京西城区高三一模化学试卷及答案
- 内蒙古包头市2026届中考生物四模试卷含解析
- 雨课堂学堂在线学堂云《人工智能安全与伦理(北京航空航天)》单元测试考核答案
- 2026年安庆岳西县县级公立医院公开招聘专业技术人员12名考试备考题库及答案解析
- 常见急症的急救护理措施
- 2026年山东德州市高三一模高考英语试卷试题(答案详解)
- 天津网约车考试题库及答案
评论
0/150
提交评论