《Python大数据可视化方法与实践(微课版)》-习题及答案 梁同乐_第1页
《Python大数据可视化方法与实践(微课版)》-习题及答案 梁同乐_第2页
《Python大数据可视化方法与实践(微课版)》-习题及答案 梁同乐_第3页
《Python大数据可视化方法与实践(微课版)》-习题及答案 梁同乐_第4页
《Python大数据可视化方法与实践(微课版)》-习题及答案 梁同乐_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《Python大数据可视化方法与实践》习题与答案第一章大数据可视化基础1.什么是数据?答案:数据是对客观事物属性、状态和变化的记录,是信息和知识形成的基础。2.信息和数据有什么区别与联系?答案:数据是原始记录,信息是从数据中提取出的有用内容;数据经过加工处理形成信息,信息数字化后又以数据形式存储和传输。3.表达数据的基本图形有哪些?答案:柱形图、条形图、折线图、直方图、饼图、散点图、热力图、箱线图、小提琴图、雷达图、词云图等。4.什么是知识?答案:知识是对数据和信息进一步处理、总结和提炼后形成的系统性、规律性、可预测性的认识。5.简述大数据可视化的目的。答案:把复杂、海量的数据转换为直观图形,帮助用户发现问题、洞察趋势、验证假设并辅助决策。6.为什么说“可视化映射”是数据可视化流程的核心?答案:可视化映射把数据的数值、位置、关系等信息转换为标记、位置、形状、大小、颜色等视觉通道,使用户能够从图形中理解信息和规律。7.简述数据可视化的流程。答案:原始数据获取、数据分析与处理、数据过滤、可视化映射、绘制渲染、用户感知与交互。8.格式塔理论的基本原则是什么?答案:接近原则、相似原则、连续原则、闭合原则、共同命运原则、图形与背景原则等。9.某商品价格变化趋势用柱形图和折线图呈现,哪种效果更好?答案:折线图更好,因为折线图更适合表现连续时间序列中的变化趋势和波动。第二章可视化编程基础1.数据获取有哪些方式?答案:客户提供数据、网络爬取数据、数据资源平台获取数据等。2.什么是Robots协议?答案:Robots协议是网站通过robots.txt声明搜索引擎或爬虫可访问范围的规则文件。3.分布式文件系统与图形数据库在应用场景上的区别。答案:分布式文件系统适合海量文件和非结构化数据的分布式存储;图形数据库适合存储和查询实体及其复杂关系。4.爬虫程序可能引发的问题有哪些?答案:性能影响、法律风险、隐私泄露、数据安全风险和违反网站访问规则等。5.简述分布式文件系统。答案:分布式文件系统将数据分散存储在多台服务器上,通过统一命名空间实现高容量、高可靠和可扩展的数据存取。6.简述数据格式的意义。答案:数据格式决定数据的组织、存储、交换和解析方式,影响后续处理效率和可用性。7.数据质量的特性有哪些?答案:完整性、准确性、一致性、及时性、唯一性、有效性等。8.简述数据预处理流程。答案:数据清洗、数据集成、数据变换、数据规约和格式化处理。9.简述属性间的相关关系与因果关系。答案:相关关系表示变量间存在统计关联,因果关系表示一个变量变化会导致另一个变量变化;相关不等于因果。第三章对比与趋势可视化1.柱形图和折线图分别适合表达什么类型的数据?答案:柱形图适合类别间数量对比;折线图适合连续时间或有序变量的趋势变化。2.简述箱线图的优点。答案:能够同时展示中位数、四分位数、离散程度和异常值,便于比较多组数据分布。3.单柱图和簇状柱形图的区别是什么?答案:单柱图展示一组类别数据;簇状柱形图在同一类别下并列展示多组数据,便于横向比较。4.箱线图基于哪5个关键统计量绘制?答案:最小值、第一四分位数Q1、中位数Q2、第三四分位数Q3、最大值。5.箱线图中四分位距IQR的计算公式。答案:IQR=Q3-Q1。6.箱线图异常值判断。答案:小于Q1-1.5IQR或大于Q3+1.5IQR的数据点视为异常值。7.词云图的基本原理及优势。答案:词云图依据词频或权重调整词语大小、颜色和位置,能够直观突出文本中的高频词和主题。8.三地区降雨量折线图。答案:importmatplotlib.pyplotaspltplt.rcParams['font.sans-serif']=['SimHei']months=list(range(1,13))area_a=[80,62,70,95,120,160,210,180,130,95,70,60]area_b=[50,55,68,80,110,150,170,165,120,90,65,52]area_c=[40,48,60,75,100,130,150,140,105,82,58,45]plt.plot(months,area_a,color='red',marker='o',label='地区A')plt.plot(months,area_b,color='blue',marker='s',label='地区B')plt.plot(months,area_c,color='green',marker='^',label='地区C')plt.xlabel('月份')plt.ylabel('降雨量')plt.title('三个地区月降雨量趋势')plt.legend()plt.show()9.水电费实训。答案:importmatplotlib.pyplotaspltplt.rcParams['font.sans-serif']=['SimHei']months=['1月','2月','3月','4月','5月','6月','7月','8月','9月','10月','11月','12月']water=[20,25,37,38,38,48,50,55,53,38,25,28]electric=[220,175,198,187,190,260,350,320,330,230,290,330]x=range(len(months))plt.bar(x,water,width=0.4,label='水费')plt.bar([i+0.4foriinx],electric,width=0.4,label='电费')plt.xticks([i+0.2foriinx],months)plt.title('水电费统计')plt.legend()plt.show()plt.plot(months,electric,marker='o',label='电费')plt.title('电费每月浮动趋势')plt.xlabel('月份')plt.ylabel('电费/元')plt.legend()plt.show()第四章比例数据可视化1.显示整体内各部分比例选择哪类图表?答案:A.饼图。2.圆环图与饼图相比有哪些优势?答案:圆环图视觉更简洁,中间可显示文字信息,也更便于多组比例数据对比。3.代码参数解释题。答案:autopct设置百分比格式;startangle设置起始角度;pctdistance设置百分比文本位置;wedgeprops设置扇区或圆环属性;center_circle用于形成圆环中心;ax.text()添加中心文字;axis('equal')保证饼图为正圆。4.基本饼图实训。答案:importmatplotlib.pyplotaspltplt.rcParams['font.sans-serif']=['SimHei']labels=['面粉','黄油','鸡蛋','草莓']sizes=[35,15,20,30]colors=['#377eb8','#4daf4a','#984ea3','#ff7f00']explode=[0,0.1,0,0]plt.pie(sizes,labels=labels,colors=colors,explode=explode,autopct='%3.1f%%',startangle=90)plt.title('不同材料的占比')plt.axis('equal')plt.show()第五章关系数据可视化1.散点图和气泡图比较的数值个数。答案:散点图比较2个数值,气泡图比较3个数值。2.电商企业展示不同商品销售趋势的图表。答案:条形图和线图的组合图。3.散点图与气泡图的相同点和不同点。答案:相同点:都用点的位置表达变量关系;不同点:气泡图通过点大小增加第三个变量维度,还可用颜色表达更多维度。4.什么是直方图?答案:直方图用连续区间的柱形展示数值型数据的频数或频率分布。5.Planets数据集实训。答案:importseabornassnsimportmatplotlib.pyplotaspltplt.rcParams['font.sans-serif']=['SimHei']planets=sns.load_dataset('planets').dropna(subset=['orbital_period','mass','distance','method'])sns.scatterplot(data=planets,x='orbital_period',y='mass',size='distance',hue='method',alpha=0.6,sizes=(20,300))plt.xlabel('轨道周期/日')plt.ylabel('质量/地球质量')plt.title('太阳系外行星特性与探测方法')plt.xscale('log')plt.yscale('log')plt.legend(bbox_to_anchor=(1.05,1),loc='upperleft')plt.show()第六章增强可视化效果1.哪些情况适合画布划分?答案:需要同时展示多个变量、多个类别、多个阶段或多个图表进行对比时适合画布划分。2.共享坐标轴与画布划分分别适合什么场景?答案:共享坐标轴适合同一x轴或y轴下不同量纲数据的联合展示;画布划分适合多个独立图形的并列比较。3.fig、ax分别表示什么?答案:fig表示整张画布对象,ax表示坐标轴或子图对象。4.matplotlib.pyplot.grid()的作用。答案:为图表添加网格线,便于读取和比较数值。5.subplots参数作用。答案:nrows和ncols指定子图行列数,sharex和sharey指定是否共享x轴或y轴。6.生成共享x轴或y轴坐标轴实例的函数。答案:twinx()用于共享x轴并创建右侧y轴,twiny()用于共享y轴并创建上方x轴。7.如何添加注解?答案:使用annotate()方法添加注解。8.四季温度湿度共享坐标轴图像。答案:importmatplotlib.pyplotaspltplt.rcParams['font.sans-serif']=['SimHei']season=['春季','夏季','秋季','冬季']temperature=[23,34,26,17]humidity=[60,75,55,48]fig,ax1=plt.subplots()ax1.bar(season,temperature,color='lightgreen',label='平均温度')ax1.set_ylabel('平均温度',color='green')ax1.tick_params(axis='x',labelsize=12,rotation=20)ax2=ax1.twinx()ax2.plot(season,humidity,color='blue',marker='o',label='平均湿度')ax2.set_ylabel('平均湿度')ax2.set_ylim(40)ax1.legend(loc='upperleft')ax2.legend(loc='upperright')plt.title('共享坐标轴图像')plt.show()第七章可视化探索大数据1.数据值缺失的原因。答案:数据采集失败、录入遗漏、系统故障、字段不适用、人为删除、传输错误等。2.missingno.matrix()的作用。答案:以矩阵形式展示数据集中各字段缺失值的分布情况。3.柱形图显示缺失情况替换为什么?答案:将missingno.matrix()替换为missingno.bar()。4.三种常用缺失值处理方法及优缺点。答案:删除法简单但可能损失样本;填补法保留数据但可能引入偏差;模型预测填补利用变量关系但依赖模型质量。5.什么是回归?实现回归分析步骤是什么?答案:回归是研究因变量与自变量之间数量关系的方法;步骤为确定变量、选择模型、估计参数、检验模型、预测和解释结果。6.Iris数据集绘图。答案:importseabornassnsimportmatplotlib.pyplotaspltiris=sns.load_dataset('iris')sns.scatterplot(data=iris,x='petal_length',y='petal_width',hue='species')plt.title('鸢尾花花瓣长度与宽度关系')plt.show()sns.boxplot(data=iris,x='species',y='sepal_length')plt.title('不同鸢尾花类别的花萼长度分布')plt.show()7.招聘计划回归预测。答案:importnumpyasnpfromsklearn.linear_modelimportLinearRegression#示例训练数据需替换为教材给定历史生产数据total_hours=np.array([900000,1000000,1100000,1200000,1300000]).reshape(-1,1)workers=np.array([110,125,140,155,170])model=LinearRegression()model.fit(total_hours,workers)need_workers=model.predict([[1562321]])[0]recruit=need_workers-191print(round(need_workers))print(round(recruit))第八章知识图谱可视化1.代码作用说明错误项。答案:C。2.三元组的3个元素不包括哪项?答案:C.节点。3.关于知识图谱说法错误项。答案:B。4.文本实体抽取展示的过程。答案:D.实体识别。5.关系抽取的主要任务。答案:C.检测文本中的实体是否具有某种预定义的关系。6.知识图谱的基本组成单位。答案:B.实体、关系、实体。7.知识图谱常用知识表示方式。答案:B.资源描述框架。8.create_triple中越界判断代码作用。答案:当依存分析返回的索引超出分词列表范围时,直接返回已有三元组,防止数组越界。9.给定语料的3个三元组。答案:(小明,居住在,上海);(小明,买了,一箱可乐);(小明,喝,碳酸饮料)。10.Neo4j实训。答案:CREATE(xm:Person{name:'小明'})CREATE(sh:Place{name:'上海'})CREATE(cola:Goods{name:'一箱可乐'})CREATE(drink:Drink{name:'碳酸饮料'})CREATE(xm)-[:居住在]->(sh)CREATE(xm)-[:买了]->(cola)CREATE(xm)-[:喝]->(drink);第九章AI数据可视化1.下列说法中错误的是。答案:C.AI生成的代码一定不会出错。2.下面哪项不是AI可视化工具?答案:C.Word。3.Flourish在图表制作过程中提供的主要功能。答案:数据上传、图表模板选择、样式设置、交互配置、预览和导出发布。4.数据清洗和特征提取的作用。答案:数据清洗用于处理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论