版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年数据分析技术习题库与参考答案一、单项选择题(每题1分,共20分。每题只有一个正确答案,请将正确选项的字母填在括号内)1.在Python中,使用pandas读取CSV文件时,若文件编码为GBK,应使用的参数是()A.encoding='utf-8'B.encoding='gbk'C.decode='gbk'D.charset='gbk'【答案】B2.下列关于主成分分析(PCA)的说法中,正确的是()A.PCA是一种有监督学习方法B.PCA不能用于降维C.PCA通过线性变换将数据投影到方差最大的方向D.PCA会增加原始数据的维度【答案】C3.在SQL中,用于将两个表按某一列进行内连接的语句是()A.LEFTJOINB.INNERJOINC.RIGHTJOIND.FULLOUTERJOIN【答案】B4.若随机变量X服从标准正态分布,则其期望和方差分别为()A.0,0B.1,1C.0,1D.1,0【答案】C5.在机器学习中,过拟合的主要表现是()A.训练误差大,测试误差小B.训练误差小,测试误差大C.训练误差和测试误差都大D.训练误差和测试误差都小【答案】B6.下列哪种方法最适合处理缺失值较多且分布随机的数值型变量()A.删除该变量B.用中位数填补C.用众数填补D.用KNN插补【答案】D7.在时间序列分析中,用于衡量当前值与前一时刻值之间相关性的函数是()A.自相关函数(ACF)B.偏自相关函数(PACF)C.互相关函数(CCF)D.协方差函数【答案】A8.若某分类模型的混淆矩阵如下,则其精确率(Precision)为()预测正预测负实际正8020实际负1090A.0.8B.0.89C.0.9D.0.85【答案】B【解析】Precision=TP/(TP+FP)=80/(80+10)=0.888...9.在Python中,使用matplotlib绘制子图时,设置子图布局的函数是()A.plt.figure()B.plt.subplot()C.plt.subplots()D.plt.plot()【答案】C10.下列关于K-means聚类的说法中,错误的是()A.需要预先指定聚类个数B.对初始聚类中心敏感C.适用于非凸形状的数据集D.使用欧氏距离作为相似度度量【答案】C11.在回归分析中,若自变量之间存在高度相关性,会导致()A.异方差性B.自相关性C.多重共线性D.残差不独立【答案】C12.下列哪种图最适合展示连续变量的分布情况()A.条形图B.饼图C.直方图D.箱线图【答案】C13.在Python中,使用sklearn进行标准化处理时,应使用的类是()A.StandardScalerB.MinMaxScalerC.NormalizerD.RobustScaler【答案】A14.若某模型的ROC曲线下面积(AUC)为0.95,则说明()A.模型性能很差B.模型性能一般C.模型性能较好D.模型性能完美【答案】C15.在SQL中,计算某列非空值数量的函数是()A.COUNT()A.COUNT()B.COUNT(column)C.SUM(column)D.AVG(column)【答案】B16.下列关于交叉验证的说法中,正确的是()A.交叉验证会增加模型训练时间B.交叉验证不能用于回归问题C.交叉验证会导致数据泄露D.交叉验证只适用于小样本数据【答案】A17.在Python中,使用numpy生成形状为(3,4)的随机数组,应使用的函数是()A.np.zeros((3,4))B.np.random.rand(3,4)C.np.ones((3,4))D.np.empty((3,4))【答案】B18.下列关于决策树的说法中,错误的是()A.易于解释B.对异常值敏感C.可处理非线性关系D.不需要特征缩放【答案】B19.在回归模型中,R²的取值范围是()A.[-1,1]B.[0,1]C.(-∞,1]D.[0,∞)【答案】C20.下列关于特征选择的描述中,正确的是()A.特征选择会增加模型复杂度B.特征选择不能提高模型泛化能力C.特征选择可以减少过拟合D.特征选择只适用于分类问题【答案】C二、多项选择题(每题2分,共20分。每题有两个或两个以上正确答案,请将所有正确选项的字母填在括号内,漏选、错选均不得分)21.下列哪些属于无监督学习方法()A.K-meansB.DBSCANC.决策树D.主成分分析【答案】A、B、D22.下列哪些指标可用于评估回归模型性能()A.MAEB.MSEC.AUCD.R²【答案】A、B、D23.下列哪些操作可用于处理异常值()A.删除异常值B.用中位数替换C.用均值替换D.用上下界截断【答案】A、B、D24.下列哪些函数可用于pandas中缺失值检测()A.isnull()B.notnull()C.dropna()D.fillna()【答案】A、B25.下列哪些方法可用于防止过拟合()A.增加训练数据B.使用正则化C.增加模型复杂度D.使用交叉验证【答案】A、B、D26.下列哪些属于时间序列分解的组成部分()A.趋势B.季节性C.残差D.自相关【答案】A、B、C27.下列哪些图可用于检测多元正态性()A.Q-Q图B.散点图矩阵C.热力图D.马氏距离图【答案】A、B、D28.下列哪些属于集成学习方法()A.BaggingB.BoostingC.StackingD.KNN【答案】A、B、C29.下列哪些属于Python中用于数据可视化的库()A.matplotlibB.seabornC.plotlyD.sklearn【答案】A、B、C30.下列哪些属于特征工程的常见方法()A.标准化B.离散化C.特征交叉D.模型训练【答案】A、B、C三、填空题(每空2分,共20分)31.在Python中,使用pandas将DataFrame导出为Excel文件的方法是__________。【答案】to_excel()32.若随机变量X服从泊松分布,参数λ=3,则其期望E(X)=__________。【答案】333.在SQL中,用于去重的关键字是__________。【答案】DISTINCT34.在sklearn中,用于划分训练集和测试集的函数是__________。【答案】train_test_split35.若某模型的F1分数为0.8,召回率为0.9,则其精确率为__________。【答案】0.727【解析】F1=2PR/(P+R)→0.8=2×P×0.9/(P+0.9)→P≈0.72736.在Python中,使用numpy计算数组标准差的函数是__________。【答案】np.std()37.在回归分析中,若VIF值大于__________,则认为存在严重多重共线性。【答案】1038.在时间序列中,若ARIMA(1,1,1)模型中d=1,表示进行了__________次差分。【答案】139.在Python中,使用pandas将字符串转换为日期类型的函数是__________。【答案】pd.to_datetime()40.在机器学习中,若类别不平衡,常用的评价指标是__________。【答案】F1分数或AUC四、简答题(每题10分,共30分)41.简述K-means聚类算法的步骤,并说明其优缺点。【答案】步骤:1)随机选择K个初始聚类中心;2)将每个样本分配到最近的聚类中心;3)更新聚类中心为各类样本的均值;4)重复2-3步,直到聚类中心不再变化或达到最大迭代次数。优点:简单高效,适合大规模数据;易于实现和解释。缺点:需预先指定K值;对初始中心敏感,可能陷入局部最优;对异常值敏感;不适合非凸形状或密度差异大的数据。42.简述特征标准化的作用,并说明标准化与归一化的区别。【答案】作用:消除量纲影响,使不同特征具有可比性;加快梯度下降收敛速度;提高模型性能,尤其适用于基于距离的算法(如KNN、SVM)。区别:标准化(Standardization):将特征转换为均值为0,方差为1的分布,公式为:z归一化(Normalization):将特征缩放到[0,1]区间,公式为:=标准化适用于数据服从正态分布的情况,归一化适用于边界明确、分布未知的情况。43.简述ROC曲线的绘制过程,并说明AUC值的含义。【答案】绘制过程:1)根据模型预测概率排序样本;2)依次将每个样本的预测概率作为阈值,计算TPR和FPR;3)以FPR为横轴,TPR为纵轴绘制曲线。AUC含义:AUC为ROC曲线下面积,取值范围[0,1];AUC越接近1,模型性能越好;AUC=0.5表示模型无区分能力;AUC<0.5表示模型性能优于随机猜测但预测方向相反。五、应用题(共60分)44.(计算题,15分)某电商公司记录用户每日销售额(单位:万元)如下:[12.5,13.2,14.1,13.8,15.0,14.6,15.5,16.0,15.8,16.5]请计算:(1)样本均值;(2)样本标准差;(3)若销售额服从正态分布,求销售额在14.5万元以下的概率(已知Φ(0.25)=0.5987)。【答案】(1)均值:¯(2)标准差:s(3)Z分数:Z查表得Φ(-0.16)=1-Φ(0.16)=1-0.5636=0.4364概率为43.64%45.(分析题,15分)某数据集包含1000条样本,10个特征,目标变量为二分类。使用逻辑回归模型后,训练集准确率为98%,测试集准确率为75%。请分析:(1)模型是否存在过拟合?(2)可能的原因有哪些?(3)可采取哪些措施改善?【答案】(1)是,训练集准确率远高于测试集,存在明显过拟合。(2)原因:模型复杂度过高;特征过多或存在噪声;训练数据量不足;未进行正则化。(3)措施:增加训练数据;使用L1/L2正则化;特征选择或降维;使用交叉验证调参;尝试更简单的模型。46.(综合题,30分)某银行希望构建客户违约预测模型,数据包含以下字段:客户ID、年龄、性别、收入、贷款金额、信用评分、历史逾期次数、是否违约(目标变量)。请完成以下任务:(1)写出数据预处理步骤;(2)选择两种模型并说明理由;(3)说明模型评估指标及选择原因;(4)写出Python代码框架(含数据划分、模型训练、评估)。【答案】(1)预处理步骤:删除客户ID;处理缺失值(如收入、信用评分用中位数填补);性别编码(One-Hot);异常值处理(如收入>99%分位数截断);特征标准化;划分训练集和测试集。(2)模型选择:逻辑回归:可解释性强,适合二分类;XGBoost:处理非线性关系,性能优异。(3)评估指标:AUC:类别不平衡时更稳定;F1分数:综合考虑精确率和召回率;混淆矩阵:直观展示分类结果。(4)Python代码框架:```pythonimportpandasaspdfromsklearn.model_selectionimporttrain_test_splitfromsklearn.preprocessingimportStandardScalerfromsklearn.linear_modelimportLogisticRegressionfromxgboostimportXGBClassifierfromsklearn.metricsimportroc_auc_score,f1_score,confusion_matrix读取数据df=pd.read_csv('bank.csv')预处理df=df.dropna()df=pd.get_dummies(df,columns=['性别'])X=df.drop(['客户ID','是否违约'],axis=1)y=df['是否违约']划分X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)标准化scaler=StandardScaler()X_train=scaler.fit_transform(X_train)X_test=scaler.transform(X_test)模型训练lr=LogisticRegression()lr.fit(X_train,y_train)y_pred_lr=lr.predict(X_test)xgb=XGBClassifier()xgb.fit(X_tra
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 汽车测评与选购(项目三任务三)
- 软件开发技术外包合同
- 园林苗圃养护外包合同
- 泰州高校食堂外包合同
- 2026年中考考前模拟-道德与法治(陕西卷)(考试版A3)
- 2026定向工程师面试题库及答案
- 2026年文物保护工程从业资格考试(责任工程师石窟寺和石刻)历年
- 护理安全:心理支持的重要性
- 定制化五金加工合同范例
- 新生儿呕吐的紧急情况处理
- 2026年中国华电集团公司的招聘笔试题库
- 2026厦门国有资本运营有限责任公司招聘备考题库附答案详解(完整版)
- 广东省2026年广州市普通高中毕业班冲刺训练题化学(一)+答案
- 雨课堂学堂在线学堂云《智能控制技术(南通)》单元测试考核答案
- 绵阳经开区2026年度定向招聘社区专职工作者(6人)考试模拟试题及答案解析
- 广州市2026年5月普通高三毕业班考前冲刺题(二)历史试卷(含答案)
- 2026年供销合作社笔试题库答案
- 动火作业监理实施细则
- 2026年软考-信息系统项目管理师真题及答案解析
- 2026年责任督学挂牌测试题及答案
- 产科子痫应急预案演练脚本
评论
0/150
提交评论