版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年Python数据分析师面试题及Pandas应用技巧含答案一、选择题(每题2分,共10题)说明:以下题目考察Python基础及Pandas核心功能,结合数据分析师在实际工作中的常见场景。1.以下哪个Pandas方法用于计算DataFrame中数值列的平均值?A.`sum()`B.`mean()`C.`median()`D.`std()`2.在Pandas中,如何将DataFrame的某一行转换为Series?A.`df.iloc[0]`B.`df.loc[0]`C.`df[0]`D.`pd.to_series(df.iloc[0])`3.以下哪个参数在`pd.read_csv()`中用于指定分隔符?A.`sep`B.`delimiter`C.`split`D.`index_col`4.如何在Pandas中去除DataFrame中的重复行?A.`df.drop_duplicates()`B.`df.unique()`C.`df.dropna()`D.`df.drop()`5.以下哪个方法用于对PandasDataFrame进行分组聚合?A.`groupby()`B.`aggregate()`C.`pivot_table()`D.`sort_values()`6.在Pandas中,如何处理缺失值(NaN)?A.`fillna()`B.`dropna()`C.`isnull()`D.以上都是7.以下哪个方法用于在Pandas中创建时间序列数据?A.`pd.date_range()`B.`pd.to_datetime()`C.`pd.Timestamp()`D.以上都是8.如何在Pandas中合并两个DataFrame(按行连接)?A.`pd.concat()`B.`pd.merge()`C.`df.join()`D.`df.append()`9.以下哪个方法用于对PandasDataFrame进行数据透视表操作?A.`pivot()`B.`pivot_table()`C.`groupby().sum()`D.`df.melt()`10.如何在Pandas中筛选DataFrame中满足特定条件的行?A.`df.query()`B.`df.loc[]`C.`df.iloc[]`D.以上都是二、填空题(每空1分,共5题)说明:补全Pandas相关代码或概念。1.在Pandas中,用于按列排序的方法是________。答案:`sort_values()`2.`pd.read_csv()`函数中,用于指定文件编码格式的参数是________。答案:`encoding`3.在Pandas中,用于检查DataFrame是否包含缺失值的方法是________。答案:`isnull()`或`isna()`4.`df.groupby('column').sum()`的作用是________。答案:按`column`列分组,并对每组数据求和5.在Pandas中,用于将宽格式数据转换为长格式的方法是________。答案:`melt()`三、简答题(每题5分,共4题)说明:结合实际场景,解释Pandas操作或数据分析师工作流程。1.简述Pandas中`groupby()`方法的基本用法及其应用场景。答案:`groupby()`方法用于对DataFrame按某列或多列进行分组,然后可以对每组数据执行聚合操作(如求和、平均、计数等)。基本用法如下:pythondf.groupby('column').agg({'other_column':'sum'})应用场景:-数据分类统计(如按地区统计销售额)。-时间序列分析(如按月统计用户活跃度)。-多维数据分析(如按性别和年龄分组计算均值)。2.描述Pandas中处理缺失值(NaN)的常用方法及其优缺点。答案:常用方法:-`fillna()`:填充缺失值,可指定固定值、前一个值或后一个值。pythondf.fillna(0)#填充0df.fillna(method='ffill')#前向填充-`dropna()`:删除包含缺失值的行或列。pythondf.dropna()#删除含缺失值的行df.dropna(axis=1)#删除含缺失值的列优缺点:-`fillna()`:灵活但可能引入偏差(如用0填充可能扭曲数据分布)。-`dropna()`:简单但可能导致数据丢失(尤其当缺失值较多时)。3.解释Pandas中`merge()`和`join()`方法的区别,并说明何时使用它们。答案:-`merge()`:基于键(key)合并两个DataFrame,支持多种合并方式(内连接、外连接等)。pythonpd.merge(df1,df2,on='key',how='inner')-`join()`:按索引合并,默认左连接,类似于`merge()`但更简洁。pythondf1.join(df2)使用场景:-`merge()`:处理多表关联(如用户表与订单表)。-`join()`:按索引合并同构数据(如按时间序列对齐数据)。4.说明Pandas中`apply()`和`lambda`函数的区别,并举例说明其应用场景。答案:-`apply()`:对DataFrame的行或列应用函数,支持自定义复杂逻辑。pythondf['column'].apply(lambdax:x2ifx>10elsex)-`lambda`:匿名函数,适用于简单操作。应用场景:-`apply()`:复杂数据处理(如计算自定义指标)。-`lambda`:快速转换或过滤(如条件计算)。四、编程题(每题10分,共2题)说明:实现Pandas数据处理任务,要求代码完整且高效。1.数据处理任务:给定以下DataFrame,完成以下操作:-去除重复行。-填充缺失值(`age`用平均值填充,`city`用"Unknown"填充)。-按地区(`region`)分组,计算每个地区的平均收入(`income`)。pythonimportpandasaspddata={'name':['Alice','Bob','Alice','Charlie',None],'age':[25,30,25,None,22],'city':['NY','LA','NY','SF','LA'],'region':['East','West','East','West','East'],'income':[5000,7000,5500,6500,None]}df=pd.DataFrame(data)答案:python去除重复行df=df.drop_duplicates()填充缺失值df['age']=df['age'].fillna(df['age'].mean())df['city']=df['city'].fillna('Unknown')按地区分组计算平均收入region_income=df.groupby('region')['income'].mean().reset_index()print(region_income)2.数据分析任务:给定以下DataFrame,完成以下操作:-创建一个新列`age_group`,按年龄段分组(<20:"Young",20-40:"Middle",>40:"Old")。-使用`pivot_table()`创建数据透视表,按`city`和`region`汇总`sales`,并填充缺失值。pythondata={'date':['2023-01-01','2023-01-01','2023-01-02','2023-01-02'],'city':['NY','LA','NY','LA'],'region':['East','West','East','West'],'sales':[200,150,180,None]}df=pd.DataFrame(data)df['date']=pd.to_datetime(df['date'])答案:python创建年龄分组defage_group(age):ifage<20:return"Young"elifage<=40:return"Middle"else:return"Old"df['age_group']=df['sales'].apply(age_group)#假设年龄与销售额正相关创建数据透视表pivot=df.pivot_table(index='city',columns='region',values='sales',aggfunc='sum',fill_value=0)print(pivot)五、综合应用题(20分)说明:结合实际业务场景,设计Pandas数据处理流程。任务:假设你是一家电商公司的数据分析师,需要处理以下数据:-用户表(`users.csv`):包含用户ID、注册时间、城市、年龄段。-订单表(`orders.csv`):包含订单ID、用户ID、订单金额、订单时间。要求:1.合并两个表,筛选出2023年订单。2.按城市分组,计算每个城市的订单总金额和平均订单金额。3.创建新列`order_hour`,表示订单小时的整数部分(如`14:30`→14)。4.筛选出订单金额大于500元的订单,并按`order_hour`分组,统计每个小时的订单数量。答案:python读取数据users=pd.read_csv('users.csv',parse_dates=['注册时间'])orders=pd.read_csv('orders.csv',parse_dates=['订单时间'])合并表merged=pd.merge(orders,users,on='用户ID')筛选2023年订单merged=merged[merged['订单时间'].dt.year==2023]按城市分组计算总金额和平均金额city_stats=merged.groupby('城市')['订单金额'].agg(['sum','mean']).reset_index()print(city_stats)创建订单小时列merged['order_hour']=merged['订单时间'].dt.hour筛选高价值订单并按小时统计数量high_value_orders=merged[merged['订单金额']>500]hourly_count=high_value_orders.groupby('order_hour')['订单ID'].count().reset_index()print(hourly_count)答案与解析选择题答案1.B2.D3.A4.A5.A6.D7.A8.A9.B10.D填空题解析1.`sort_values()`:按指定列排序,默认升序(`ascending=True`)。2.`encoding`:如`utf-8`、`gbk`等,解决中文乱码问题。3.`isnull()`或`isna()`:返回布尔值DataFrame,标记缺失值位置。4.按`column`列分组,并对每组数据求和:适用于聚合统计。5.`melt()`:将宽格式转换为长格式,便于时间序列分析或可视化。简答题解析1.`groupby()`用法:pythondf.groupby('column').agg({'other_column':'sum'})应用场景:按维度分类统计(如按地区、月份等)。2.缺失值处理:-`fillna()`:灵活填充(如用0、均值、前值)。-`dropna()`:删除缺失值,适用于缺失较少的情况。优缺点:`fillna()`可能扭曲数据,`dropna()`可能导致信息丢失。3.`merge()`vs`join()`:-`merge()`:基于键合并(支持多种连接方式)。-`join()`:按索引合并(左连接默认)。使用场景:`merge()`用于多表关联,`join()`用于同构数据合并。4.`apply()`vs`lambda`:-`apply()`:适用于复杂逻辑,可链式操作。-`lambda`:简洁快速,适合简单映射。示例:pythondf['column'].apply(lambdax:x2ifx>10elsex)编程题解析1.DataFrame处理:-`drop_duplicates()`:去除重复行。-`fillna()`:填充缺失值(`age`用均值,`city`用"Unknown")。-`groupby()`:按`region`分组计算`income`
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年聊城中通客车集团招聘(102人)考试重点试题及答案解析
- 2025广西职业师范学院第二批高层次人才招聘3人考试核心试题及答案解析
- 长沙市望城区人民医院2025年面向社会公开招聘编外合同制专业技术人员备考题库完整参考答案详解
- 2025四川自贡市自流井区飞龙峡镇人民政府招聘编外聘用人员3人备考核心题库及答案解析
- 2025年日喀则市江孜县人社局关于公开招聘两名劳动保障监察执法辅助人员的备考题库完整参考答案详解
- 2025年杭州市西湖区政府直属国有企业招聘备考题库及一套答案详解
- 2025福建莆田市公安局下半年面向社会及退役军人招聘警务辅助人员148人考试核心题库及答案解析
- 2025江西南昌市劳动保障事务代理中心招聘项目外包服务人员5人考试重点题库及答案解析
- 2025年三明经济开发区管理委员会关于直属事业单位公开招聘专业技术人员备考题库有答案详解
- 广州铁路职业技术学院2026年第一批引进急需专业人才10人备考题库及完整答案详解1套
- 初中历史时间轴(中外对照横向版)
- DB3205∕T 1139-2024 巡游出租汽车营运管理规范
- 医药KA经理工作总结
- 四害消杀员工安全培训课件
- 南京市烟草公司2025秋招市场分析岗位面试模拟题及答案
- 贸易跟单专业知识培训课件
- 冠脉痉挛诊疗新进展
- 舞蹈培训机构薪酬制度设计方案
- 乙肝抗病毒治疗禁忌症
- 中职电动机正反转教学教案示范
- 2025年网安民警考试题库
评论
0/150
提交评论