版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《Python数据分析与挖掘》期末考试试卷(附答案)考试时间:120分钟总分:100分一、单项选择题(每题2分,共20分)1.以下关于pandas库中DataFrame的描述,错误的是()。A.DataFrame可视为二维表格,包含行索引(index)和列索引(columns)B.可通过`pd.DataFrame({'A':[1,2],'B':[3,4]})`创建C.若需按行筛选数据,需使用`loc`或`iloc`方法,无法直接用列名筛选D.可通过`()`查看数据的列名、非空值数量及数据类型2.对于数组`arr=np.array([[1,2,3],[4,5,6]])`,执行`arr[1,::2]`的结果是()。A.`[4,5]`B.`[4,6]`C.`[5,6]`D.`[2,6]`3.某数据集中`age`列存在缺失值,若需用该列的中位数填充缺失值,正确的代码是()。A.`df['age'].fillna(df['age'].mean())`B.`df['age'].fillna(df['age'].median())`C.`df['age'].dropna(how='any')`D.`df['age'].replace(np.nan,df['age'].mode())`4.以下哪项不是数据清洗的主要任务?()A.处理缺失值B.消除重复值C.特征标准化D.纠正异常值5.若需绘制某电商平台2023年月度销售额的趋势图,最适合的可视化工具是()。A.散点图(scatterplot)B.柱状图(barplot)C.折线图(lineplot)D.箱线图(boxplot)6.对于分类问题,若样本标签严重不平衡(如正类占99%),以下哪种评估指标最不可靠?()A.准确率(Accuracy)B.精确率(Precision)C.召回率(Recall)D.F1分数(F1-score)7.在scikit-learn中,使用逻辑回归(LogisticRegression)模型训练时,若需解决多重共线性问题,应调整的参数是()。A.`penalty`(正则化类型)B.`max_iter`(最大迭代次数)C.`solver`(优化器)D.`class_weight`(类别权重)8.以下关于特征工程的描述,错误的是()。A.独热编码(One-HotEncoding)适用于无序分类变量B.标准化(Standardization)会将数据缩放至均值为0、标准差为1C.特征提取的目标是从原始数据中构造更具代表性的新特征D.所有连续型变量都需要离散化处理9.某数据集包含`user_id`(用户ID)、`order_time`(下单时间)、`amount`(金额)三列,若需统计“每个用户的总消费金额”,应使用的操作是()。A.`df.groupby('user_id')['amount'].sum()`B.`df.groupby('order_time')['amount'].mean()`C.`df.groupby(['user_id','order_time'])['amount'].count()`D.`df.groupby('amount')['user_id'].nunique()`10.若需评估两个变量(均为连续型)的线性相关程度,应计算()。A.卡方统计量(Chi-square)B.皮尔逊相关系数(Pearson)C.斯皮尔曼相关系数(Spearman)D.互信息(MutualInformation)二、填空题(每题1分,共10分)1.pandas中用于合并两个DataFrame(按行追加)的函数是__________。2.numpy中生成从0到10(含10)、步长为2的等差数列的函数是__________。3.数据可视化库matplotlib中,用于设置图表标题的函数是__________。4.若某特征的取值为[10,20,30,40],经最小-最大归一化(Min-MaxScaling)后,取值范围变为__________。5.决策树算法中,衡量数据混乱程度的指标通常是__________或基尼系数(Gini)。6.在分类问题中,真阳性率(TPR)等于__________除以实际正类总数。7.scikit-learn中,用于划分训练集和测试集的函数是__________。8.若需将字符串列`date_str`(格式为'2023-10-01')转换为日期类型,应使用pandas的__________函数。9.随机森林(RandomForest)是__________(填“集成学习”或“深度学习”)方法的一种。10.对于时间序列数据,用于检测趋势的常用方法是__________(如移动平均)。三、简答题(每题6分,共30分)1.简述数据清洗中处理缺失值的常见方法,并说明各自适用场景。2.特征工程中的“特征选择”和“特征提取”有何区别?请各举一例说明。3.解释“过拟合”(Overfitting)的概念,并列举两种缓解过拟合的方法。4.对于某电商用户购买行为数据集(包含用户年龄、性别、历史购买次数、本次购买金额、是否复购),若需预测用户是否会复购(二分类问题),请说明数据预处理的主要步骤。5.比较逻辑回归(LogisticRegression)和支持向量机(SVM)在分类任务中的优缺点。四、编程题(每题20分,共40分)1.销售数据清洗与分析(20分)现有某超市2023年销售数据集`sales.csv`,字段如下:-`order_id`:订单ID(字符串)-`customer_id`:顾客ID(整数)-`order_date`:订单日期(字符串,格式'YYYY-MM-DD')-`product`:商品类别(字符串,如'食品','日用品')-`amount`:订单金额(浮点数)-`quantity`:购买数量(整数)请根据要求编写Python代码(需导入必要库,如pandas、matplotlib等):(1)读取`sales.csv`文件,查看前5行数据;(2)检查数据缺失情况,若`amount`列有缺失值,用该列的均值填充;(3)新增`month`列,从`order_date`中提取月份(如'2023-05-10'提取为5);(4)统计各月份的总销售额(`amount`求和),并绘制折线图展示趋势;(5)计算不同商品类别的平均客单价(客单价=总销售额/订单数量)。2.用户复购预测(20分)使用`customer_data.csv`数据集(字段:`age`(年龄)、`gender`(性别,'男'/'女')、`avg_monthly_spend`(月均消费额)、`membership_days`(会员时长,天)、`is_repurchase`(是否复购,0/1)),完成以下任务:(1)对`gender`列进行独热编码;(2)将数据划分为训练集(70%)和测试集(30%),设置随机种子为42;(3)使用随机森林(RandomForestClassifier)训练分类模型;(4)在测试集上评估模型性能,输出准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1分数;(5)分析模型中各特征的重要性,绘制特征重要性柱状图。答案一、单项选择题1.C2.B3.B4.C5.C6.A7.A8.D9.A10.B二、填空题1.`pd.concat()`2.`np.arange(0,11,2)`3.`plt.title()`4.[0,1]5.信息熵(Entropy)6.真阳性数(TP)7.`train_test_split`8.`pd.to_datetime()`9.集成学习10.平滑法三、简答题1.处理缺失值的方法及场景:-删除法(删除含缺失值的行/列):适用于缺失比例极低(如<5%)且数据量充足的场景;-统计值填充(均值、中位数、众数):均值适用于正态分布的连续变量,中位数适用于偏态分布,众数适用于分类变量;-插值法(如线性插值、KNN插值):适用于时间序列或存在特征相关性的数据;-模型预测填充:通过其他特征训练模型预测缺失值,适用于缺失值与其他特征高度相关的场景。2.特征选择与特征提取的区别:-特征选择:从原始特征中筛选出对目标变量影响较大的特征(如通过卡方检验、随机森林特征重要性),例如保留“年龄”和“月均消费”,剔除“用户ID”;-特征提取:通过变换原始特征生成新特征(如主成分分析PCA降维、将“出生日期”转换为“年龄”),例如将“经度”和“纬度”转换为“地理位置聚类标签”。3.过拟合的概念与缓解方法:-过拟合:模型在训练集上表现极佳,但在测试集上泛化能力差,主要因模型过于复杂,学习了训练数据中的噪声。-缓解方法:增加数据量、正则化(如L1/L2正则)、特征选择(降低特征维度)、早停法(EarlyStopping)、集成学习(如随机森林)。4.复购预测数据预处理步骤:-缺失值处理:检查各列缺失情况,用统计值或模型填充;-类别变量编码:对`gender`进行独热编码或标签编码;-特征工程:构造新特征(如“平均每次消费金额=历史购买次数/总消费额”);-数据标准化/归一化:对`age`、`avg_monthly_spend`等连续变量进行标准化,消除量纲影响;-划分训练集与测试集:按比例划分,确保标签分布一致(分层抽样)。5.逻辑回归与SVM的优缺点比较:-逻辑回归:优点是计算效率高、可解释性强(输出概率),适用于线性可分数据;缺点是对非线性关系建模能力弱,需手动构造特征。-SVM:优点是通过核函数(如RBF核)能处理非线性分类问题,对高维数据表现好;缺点是计算复杂度高(尤其样本量大时),可解释性差(核函数映射后特征难以理解)。四、编程题1.销售数据清洗与分析```pythonimportpandasaspdimportmatplotlib.pyplotasplt(1)读取数据并查看前5行df=pd.read_csv('sales.csv')print(df.head())(2)处理缺失值(假设amount列有缺失)ifdf['amount'].isnull().sum()>0:mean_amount=df['amount'].mean()df['amount'].fillna(mean_amount,inplace=True)(3)提取月份df['order_date']=pd.to_datetime(df['order_date'])df['month']=df['order_date'].dt.month(4)统计月销售额并绘制折线图monthly_sales=df.groupby('month')['amount'].sum().reset_index()plt.figure(figsize=(10,6))plt.plot(monthly_sales['month'],monthly_sales['amount'],marker='o')plt.xlabel('月份')plt.ylabel('总销售额(元)')plt.title('2023年月度销售额趋势')plt.xticks(range(1,13))plt.grid(True)plt.show()(5)计算商品类别平均客单价category_stats=df.groupby('product').agg(total_sales=('amount','sum'),order_count=('order_id','nunique'))category_stats['avg_price_per_order']=category_stats['total_sales']/category_stats['order_count']print(category_stats[['avg_price_per_order']])```2.用户复购预测```pythonimportpandasaspdfromsklearn.model_selectionimporttrain_test_splitfromsklearn.ensembleimportRandomForestClassifierfromsklearn.preprocessingimportOneHotEncoderfromsklearn.metricsimportaccuracy_score,precision_score,recall_score,f1_scoreimportmatplotlib.pyplotasplt读取数据df=pd.read_csv('customer_data.csv')(1)独热编码gender列encoder=OneHotEncoder(sparse_output=False,drop='first')gender_encoded=encoder.fit_transform(df[['gender']])gender_df=pd.DataFrame(gender_encoded,columns=['gender_女'])假设原列是'男'/'女',删除一列避免共线性df=pd.concat([df.drop('gender',axis=1),gender_df],axis=1)(2)划分训练集与测试集X=df.drop('is_repurchase',axis=1)y=d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 钢结构雨棚专项施工方案
- 乐清事业单位考勤制度
- 博平镇考勤制度
- 东方童画学生考勤制度
- 公路施工考勤制度
- 养护公司考勤制度
- 太钢集团职工考勤制度
- 员工考勤制度范本模板
- 跨境电商运营中注意事项的深度探讨
- 制造业IT支持团队的工作计划与技术支持方案
- 安全方针及目标培训课件
- 肝胆外科进修汇报
- 2025潍坊工程职业学院单招《语文》题库检测试题打印附参考答案详解【A卷】
- 2025至2030中国准分子激光气体行业产业运行态势及投资规划深度研究报告
- (试运行)七十二小时试运行报告
- 痔疮术后疼痛护理课件
- 博图培训课件
- 2025年4月自考15040习概试题及答案含解析
- DB32/T 3595-2019石墨烯材料碳、氢、氮、硫、氧含量的测定元素分析仪法
- 离婚放弃协议书模板
- 2025年湖南长沙天心城市发展集团有限公司招聘笔试参考题库附带答案详解
评论
0/150
提交评论