数据分析与可视化 第3套配套答案_第1页
数据分析与可视化 第3套配套答案_第2页
数据分析与可视化 第3套配套答案_第3页
数据分析与可视化 第3套配套答案_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3套试卷配套答案选择题(每题2分,共30分)1-5.BBDBC5-10.ACADB11-15.ACABA多选题(每题2分,共10分)ABCDABCDABCDABCABD判断题(每题2分,共10分)1-5.√××√×填空题(每空1分,共10分)数据清洗、数据可视化、数据挖掘、模型构建表格、SWOT分析、多元统计消费金额(Monetary)条形图数据简答题(每题5分,共10分)1.答案:数据清洗是数据分析过程中至关重要的环节,它直接关系到数据质量和后续分析的准确性。数据清洗的主要步骤包括:识别并处理缺失值:通过删除、填充或插值等方法处理缺失数据。处理异常值:识别并处理数据中的异常值,如删除、修正或特殊标记。数据转换和标准化:将数据从其原始格式转换为适合分析的格式,如日期类型转 换、数值型数据标准化等。去重处理:删除数据集中的重复记录,避免对分析结果产生干扰。文本数据清洗:处理文本数据中的不规范字符、拼写错误、格式问题等。2.答案:相关性分析是研究两个或多个变量之间是否存在某种统计关系的分析方法。通过相关性分析,我们可以了解变量之间的相互影响和关联程度。常用的相关性分析方法包括:皮尔逊相关系数:用于衡量两个连续型变量之间的线性相关程度,取值范围在-1 到之间,绝对值越大表示相关性越强。斯皮尔曼等级相关系数:适用于非正态分布的数据或等级数据,衡量两个变量之 间的等级相关性,也通过数值表示相关性的强度和方向。编程题1.导入pandas,并取别名为pd(4分)importpandasaspd2.创建一个DataFrame数据来源为以下列表,并将该DataFrame取名为df1。(4分)[{'姓名':'张三','年龄':20,'编号':'01'},{'姓名':'李四','年龄':22,'编号':'02'},{'姓名':'王五','年龄':21,'编号':'03'}]df1=pd.DataFrame([{'姓名':'张三','年龄':20,'编号':'01'},{'姓名':'李四','年龄':22,'编号':'02'},{'姓名':'王五','年龄':21,'编号':'03'}])3.使用describe函数对df1进行描述统计分析(2分)df1.describe()三、案例试题-重庆二手房数据分析(共8小题,总分40分)1.导入数据集,探查数据(4分)house=pd.read_excel('./素材包/house_cq.xlsx')house2.删除数据中的“在租套数”字段(4分)house.drop('在租套数',axis=1,inplace=True)3.查找数据中的重复记录,并统计重复记录的个数,如果存在重复记录将重复记录进行删除处理(6分)house.duplicated().sum()4.查看数据中“单价”列是否存在缺失值,统计缺失值数量,并使用fillna函数将缺失值进行补全(6分)house['单价'].isna().sum()house['单价'].fillna(house['单价'].mean(),inplace=True)5.自定义函数,使用过apply函数将“建成年份”字段中的“暂无资料”替换为空值(5分)defyear_built(x):ifx=='暂无资料':returnNoneelse:returnxhouse['建成年份']=house['建成年份'].apply(year_built)6.按照区域统计在售房屋的数量,并将结果做降序处理,展示数量前十的区域及数量(5分)data=house.groupby('所在街道或片区').agg({'在售套数':sum}).sort_values('在售套数',ascending=False).head(10)7.导入matplotlib中的pyplot模块并取别名为plt(2分)importmatplotlib.pyplotasplt8.使用合适的图形展示第六题的分析结果(8分)图形要求为:1)中文字题使用宋体,对应参数为:SimSun;2)图形标题字体大小为20;3)坐标轴标题和刻度的字体大小为14;4)需要添加数据标签;5)需要添加图例;6)使用其他参数调整图形,优化整体效x=data.indexy=data.values.flatten()#创建画布plt.figure(figsize=(10,10),facecolor='w')#创建图标题plt.title('前十区域在售放比较',family='SimSun',fontsize=20,color='r')#设置轴#轴刻度plt.xticks(fontsize=14)plt.yticks(fontsize=14)#轴标题plt.xlabel('区域名称',family='SimSun',color='b',fontsize=14)plt.ylabel('在售套数',family='SimSun',color='b',fontsize=14)#柱状图plt.bar(x,y,label='test')#数据标签fora,binzip(x,y):plt.text(a,b,b,ha

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论