1+X数据分析模块二综合试题及答案_第1页
1+X数据分析模块二综合试题及答案_第2页
1+X数据分析模块二综合试题及答案_第3页
1+X数据分析模块二综合试题及答案_第4页
1+X数据分析模块二综合试题及答案_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1+X数据分析模块二综合试题及答案一、单项选择题(每题2分,共20分)1.以下哪种方法最适合处理数值型数据中的异常值?A.直接删除所有异常值B.用该变量的均值替换C.根据业务逻辑判断后修正或保留D.用相邻值的中位数替换2.在进行卡方检验时,若期望频数小于5的单元格比例超过20%,应采取的措施是?A.增加样本量B.合并类别C.改用t检验D.不做处理直接计算3.某电商平台用户年龄数据的偏度系数为-1.2,说明数据分布为?A.右偏(正偏)B.左偏(负偏)C.正态分布D.均匀分布4.以下哪项不属于数据清洗的主要任务?A.处理缺失值B.转换数据格式C.计算相关系数D.识别并处理异常值5.在Pandas中,若要将DataFrame的“日期”列从字符串格式(如“2023-10-01”)转换为datetime格式,应使用的函数是?A.pd.to_datetime()B.pd.to_timedelta()C.df.astype('datetime')D.df.convert_dtypes()6.SQL中,若要查询每个客户的累计消费金额(按消费时间排序),应使用的窗口函数是?A.ROW_NUMBER()B.RANK()C.SUM()OVER(PARTITIONBY客户IDORDERBY消费时间)D.AVG()OVER(ORDERBY消费时间)7.某数据集的峰度系数为3.5,说明数据分布比正态分布?A.更陡峭(尖峰)B.更平缓(平峰)C.无差异D.无法判断8.在相关性分析中,Pearson相关系数适用于?A.两个分类变量B.一个分类变量和一个连续变量C.两个连续变量且线性相关D.两个有序分类变量9.若要分析“广告投入”对“销售额”的影响,且数据存在异方差性,应优先选择的回归模型是?A.普通线性回归(OLS)B.加权最小二乘回归(WLS)C.逻辑回归D.岭回归10.以下哪种可视化图表最适合展示各地区销售额占总销售额的比例?A.折线图B.柱状图C.散点图D.饼图二、判断题(每题1分,共10分)1.缺失值处理时,若缺失数据是随机的(MAR),直接删除缺失行不会影响分析结果的准确性。()2.箱线图中,超过Q3+1.5IQR的值一定是异常值,必须删除。()3.卡方检验的原假设是“两个变量独立”,若p值小于0.05,则拒绝原假设,认为变量相关。()4.标准化(Z-score)后的数据均值为0,标准差为1;归一化(Min-Max)后的数据范围在[0,1]。()5.在Pandas中,df.groupby('类别').sum()会自动排除非数值型列。()6.SQL的HAVING子句用于过滤分组前的行,WHERE子句用于过滤分组后的结果。()7.时间序列数据的平稳性检验可使用ADF检验,若p值小于0.05,则拒绝原假设(存在单位根),认为数据平稳。()8.逻辑回归的因变量是连续型变量,线性回归的因变量是二分类变量。()9.热力图(Heatmap)常用于展示多个变量间的相关系数矩阵。()10.主成分分析(PCA)的主要目的是降维,保留原始数据的大部分方差。()三、简答题(每题5分,共20分)1.简述数据清洗中处理缺失值的常用方法及其适用场景。2.说明t检验与方差分析(ANOVA)的区别与联系。3.解释混淆矩阵中TP、TN、FP、FN的含义,并写出准确率(Accuracy)和召回率(Recall)的计算公式。4.列举Pandas中用于数据合并的4种方法,并说明各自的适用场景。四、SQL操作题(共20分)背景:某电商数据库包含以下3张表:`用户表(user)`:user_id(用户ID,主键)、gender(性别)、age(年龄)、注册时间(reg_time)`订单表(order)`:order_id(订单ID,主键)、user_id(外键)、order_time(下单时间)、total_amount(订单金额)`商品表(product)`:product_id(商品ID,主键)、category(商品类别)、price(单价)、库存(stock)`订单详情表(order_detail)`:order_id(外键)、product_id(外键)、quantity(购买数量),主键(order_id,product_id)要求:根据以下需求写出SQL语句。1.(5分)查询2023年注册的女性用户数量。2.(5分)查询每个用户的累计消费金额(按user_id分组,显示user_id和总金额)。3.(5分)查询2023年订单中,购买数量超过10件的商品类别及其总销量(需关联订单时间、订单详情和商品表)。4.(5分)查询2023年客单价(总销售额/订单数)最高的前10个用户(客单价保留2位小数)。五、Python数据分析题(共30分)背景:某零售公司提供了2023年的销售数据集(sales_data.csv),字段包括:日期(date,格式“YYYY-MM-DD”)、门店ID(store_id)、商品类别(category)、销售额(sales,单位:元)、客流量(customers)、促销标志(promotion,1=促销,0=未促销)。要求:使用Python的Pandas、Matplotlib和Seaborn库完成以下分析。1.(5分)读取sales_data.csv文件,查看数据基本信息(行数、列数、各字段类型、缺失值数量)。2.(5分)处理缺失值:若“销售额”缺失,用同门店、同类别商品的日均销售额填补;若“客流量”缺失,用该门店的月均客流量填补(需先提取月份)。3.(5分)计算各门店的月均销售额,并按降序排序(输出前5名门店)。4.(5分)绘制2023年各月份总销售额的折线图,添加标题、坐标轴标签,设置图例(月份用“1月”“2月”…表示)。5.(5分)分析促销对销售额的影响:计算促销与非促销期间的平均销售额,并用t检验验证差异是否显著(α=0.05),输出结论。6.(5分)计算商品类别与销售额的相关性(若类别为分类变量,需先进行编码),并绘制热图展示。六、综合分析题(共20分)背景:某银行想分析客户流失(churn,1=流失,0=未流失)的影响因素,收集了10000条客户数据,字段包括:年龄(age)、性别(gender)、账户余额(balance)、月均交易次数(trans_freq)、是否有信用卡(credit_card,1=是,0=否)、客户层级(level,A/B/C三级)、月收入(income)。任务:根据以下步骤完成分析。1.(4分)数据预处理:检查“年龄”字段是否存在异常值(如负数或超过120岁),并处理;将“客户层级”转换为数值变量(A=3,B=2,C=1);对“月收入”进行标准化(Z-score)处理。2.(4分)描述性统计分析:计算流失客户与未流失客户的年龄均值、账户余额中位数;统计不同性别、客户层级的流失率(流失率=流失客户数/总客户数)。3.(4分)可视化分析:绘制年龄与月收入的散点图,按流失状态分组(颜色区分);绘制各客户层级的流失率柱状图(显示具体百分比)。4.(4分)假设检验:检验流失客户与未流失客户的月均交易次数是否有显著差异(α=0.05);检验客户层级与流失状态是否相关(需选择合适的检验方法)。5.(4分)建立逻辑回归模型预测客户流失:选择年龄、账户余额、月均交易次数、是否有信用卡、客户层级(数值化后)、标准化后的月收入作为自变量;输出模型的混淆矩阵和准确率;解释模型中“月均交易次数”系数的含义。---答案一、单项选择题1.C2.B3.B4.C5.A6.C7.A8.C9.B10.D二、判断题1.×(MAR需谨慎删除,可能导致偏差)2.×(异常值需结合业务判断)3.√4.√5.√6.×(WHERE过滤行,HAVING过滤分组)7.√8.×(逻辑回归因变量是二分类,线性回归是连续)9.√10.√三、简答题1.常用方法及场景:删除法:缺失比例低(如<5%)且无规律;均值/中位数/众数填充:数值型用均值/中位数(无极端值),分类型用众数;插值法(如线性插值):时间序列数据;模型预测填充:缺失数据与其他变量强相关时(如用回归模型预测缺失值)。2.区别:t检验用于两组均值比较,ANOVA用于三组及以上;联系:均基于正态分布假设,ANOVA可视为t检验的扩展,且组间两两比较可用t检验(需校正)。3.TP(真正例):实际正类预测为正;TN(真反例):实际反类预测为反;FP(假正例):实际反类预测为正;FN(假反例):实际正类预测为反。准确率=(TP+TN)/(TP+TN+FP+FN);召回率=TP/(TP+FN)。4.合并方法:merge():按键连接(类似SQL的JOIN),适用于多表关联;concat():按行或列堆叠,适用于结构相同的表合并;append():行方向追加(已弃用,推荐concat);join():按索引连接,适用于索引对齐的表合并。四、SQL操作题1.`SELECTCOUNT()FROMuserWHEREgender='女'ANDYEAR(reg_time)=2023;`2.`SELECTo.user_id,SUM(o.total_amount)AS总金额FROMorderoGROUPBYo.user_id;`3.```sqlSELECTp.category,SUM(od.quantity)AS总销量FROMorderoJOINorder_detailodONo.order_id=od.order_idJOINproductpONduct_id=duct_idWHEREYEAR(o.order_time)=2023ANDod.quantity>10GROUPBYp.category;```4.```sqlSELECTo.user_id,ROUND(SUM(o.total_amount)/COUNT(o.order_id),2)AS客单价FROMorderoWHEREYEAR(o.order_time)=2023GROUPBYo.user_idORDERBY客单价DESCLIMIT10;```五、Python数据分析题(关键代码)1.```pythonimportpandasaspddf=pd.read_csv('sales_data.csv')print(f"行数:{df.shape[0]},列数:{df.shape[1]}")print(df.dtypes)print(df.isnull().sum())```2.```python处理销售额缺失(同门店、同类别日均销售额)df['date']=pd.to_datetime(df['date'])df['day']=df['date'].dt.dayavg_sales=df.groupby(['store_id','category','day'])['sales'].transform('mean')df['sales']=df['sales'].fillna(avg_sales)处理客流量缺失(门店月均客流量)df['month']=df['date'].dt.monthavg_customers=df.groupby(['store_id','month'])['customers'].transform('mean')df['customers']=df['customers'].fillna(avg_customers)```3.```pythondf['month']=df['date'].dt.monthmonthly_sales=df.groupby(['store_id','month'])['sales'].sum().reset_index()store_avg=monthly_sales.groupby('store_id')['sales'].mean().sort_values(ascending=False).head(5)print(store_avg)```4.```pythonimportmatplotlib.pyplotaspltmonth_total=df.groupby('month')['sales'].sum()plt.plot(month_total.index,month_total.values,marker='o')plt.title('2023年月度总销售额趋势')plt.xlabel('月份')plt.ylabel('销售额(元)')plt.xticks(range(1,13),[f'{i}月'foriinrange(1,13)])plt.legend(['总销售额'])plt.show()```5.```pythonfromscipyimportstatspromo_sales=df[df['promotion']==1]['sales']non_promo_sales=df[df['promotion']==0]['sales']t_stat,p_value=stats.ttest_ind(promo_sales,non_promo_sales)print(f"促销平均销售额:{promo_sales.mean():.2f},非促销:{non_promo_sales.mean():.2f}")print(f"t检验p值:{p_value:.4f}")ifp_value<0.05:print("结论:促销对销售额有显著影响")else:print("结论:促销对销售额无显著影响")```6.```pythonimportseabornassns类别编码(独热编码)category_encoded=pd.get_dummies(df['category'],prefix='category')df_encoded=pd.concat([df,category_encoded],axis=1)计算相关性corr=df_encoded[['sales']+list(category_encoded.columns)].corr()绘制热图plt.figure(figsize=(10,6))sns.heatmap(corr,annot=True,cmap='coolwarm')plt.title('商品类别与销售额相关性热图')plt.show()```六、综合分析题(关键步骤)1.数据预处理:`df=df[(df['age']>0)&(df['age']<=120)]`(删除异常年龄);`df['level']=df['level'].map({'A':3,'B':2,'C':1})`;`df['income_z']=(df['income']df['income'].mean())/df['income'].std()`。2.描述性统计:流失客户年龄均值:`df[df['churn']==1]['age'].mean()`;未流失:`df[df['churn']==0]['age'].mean()`;账户余额中位数:`df.groupby('churn')['balance'].median()`;流失率计算:`df.groupby(['gender','chur

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论