数据可视化技术与应用(Python) 课件 项目2 电影数据可视化项目实战_第1页
数据可视化技术与应用(Python) 课件 项目2 电影数据可视化项目实战_第2页
数据可视化技术与应用(Python) 课件 项目2 电影数据可视化项目实战_第3页
数据可视化技术与应用(Python) 课件 项目2 电影数据可视化项目实战_第4页
数据可视化技术与应用(Python) 课件 项目2 电影数据可视化项目实战_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

电影数据可视化项目实战数据可视化技术与应用项目导读对电影院来说,电影数据可视化是一种强大的分析工具,它帮助电影院运营人员从海量的电影数据中获得洞察结果,优化运营决策,提升顾客的体验。本模块将导入电影数据集,运用Python语言,将电影类型、票房收入等关键数据以直观的折线图与柱状图,并对可视化结果进行分析。项目导读01观众偏好03评分分析02票房趋势识别出受欢迎的电影类型或主题,从而精准地安排放映日程,从而吸引更多的观众。追踪不同影片的票房表现,评估潜在的票房走势,为未来的电影选片和排片提供数据支持。通过观众评分了解影片的被接受度,进一步调整推广策略并据此提供定制化推荐。06市场趋势05竞争分析分析不同时间段影片的表现,选择最佳上映时间,以提高票房收益。观察竞争对手的表现,了解市场占有率,制定相应的差异化经营策略。洞察整体电影市场和电影产业的动态,预测行业趋势,作为制订战略规划的依据。04上映时机项目目标学习目标能力目标素养目标掌握Python环境的搭建掌握简单的数据处理方法掌握折线图和柱状图的绘制会使用PyCharm工具会对数据进行删除重复行操作会使用Python语言编写基本的代码通过电影数据可视化项目中的数据处理使学生明白取其精华、去其糟粕的思想通过中国电影排名与票房关系的可视化彰显中国文化的输出,培养学生的文化自信电影类型数据可视化项目实战电影类型与票房关系可视化项目实战中国电影排名和票房可视化项目实战010302目录CONCENTS总结与建议042-1电影类型数据可视化项目实战电影类型数据的导入使用折线图进行数据可视化分析0102目录CONCENTS2-1-1电影类型数据的导入环境的安装与配置①易于学习和使用:Python语法简单、清晰,易于学习和使用。②丰富的库和工具:Python拥有众多功能强大的数据可视化库,其中比较常用的是Matplotlib、Plotly和pyEchart。③与数据分析和机器学习的无缝集成:用户可以使用Python进行数据处理、清洗和分析,然后利用可视化工具将结果直观地展示出来。④可扩展性和动态可视化:Python可视化库提供了丰富的选项和配置,可以轻松定制图表的各个方面,包括颜色、标签、图例和轴设置等,可以创建交互式图表和动画效果。环境的安装与配置-下载Python工具任务一:下载Python开发工具。环境的安装与配置-下载Python工具1.用浏览器打开Python官方网站环境的安装与配置-下载Python工具2.选择Dowmload中的Windows选项。环境的安装与配置-下载Python工具3.从页面中可以看到目前最新的Python版本是3.13.0,除此之外还有其他版本。环境的安装与配置-下载Python工具4.

Python3.13.0版本比较多,该选择哪个呢?首先确定计算机系统是多少位的。在桌面找到“此电脑”图标,在“此电脑”图标上单击鼠标右键,弹出快捷菜单。选择“属性”命令,即可看到计算机的操作系统是多少位的,比如这台计算机使用的是64位操作系统。环境的安装与配置-下载Python工具5.单击Windowsinstaller(64-bit)超链接,将Python下载到默认路径即可。环境的安装与配置-安装Python工具任务二:安装Python开发工具。环境的安装与配置-安装Python工具1.双击安装包,出现如下图示的开始安装页面选中Addpython.exetoPATH复选框,把Python3.13.0添加到环境变量中,然后选择默认安装路径(InstallNow),就可以立即安装.。环境的安装与配置-安装Python工具2.等待安装进度条滚动。环境的安装与配置-安装Python工具3.等待进度条完成,即可看到安装成功界面。环境的安装与配置-下载安装PyCharm工具任务一:下载安装PyCharm社区版。环境的安装与配置-下载安装PyCharm工具1.

下载PyCharm工具。环境的安装与配置-下载安装PyCharm工具2.

PyCharm两个版本PyCharmCommunityEdition(社区版)和PyCharmProfessionalEdition(专业版),推荐下载社区版。单击下载即可。环境的安装与配置-下载安装PyCharm工具3.双击安装软件,即可启动PyCharm工具的的安装界面。环境的安装与配置-下载安装PyCharm工具4.接下来单击Next(下一步)按钮,选择安装位置,弹出如图所示的配置安装选项界面,选中所有复选框,继续单击Next按钮。环境的安装与配置-下载安装PyCharm工具5.显示如图所示的界面,单击Install(安装)按钮。电影类型数据集的导入-Pandas模块认知知识新知

Pandas是一个Python库,用于数据处理和分析。它提供了一系列用于数据结构和操作的数据框(DataFrame)和系列(Series)数据结构,以及对数据进行读取、清理、转换和可视化等功能。功能描述数据读取和写入

轻松读取和写入各种数据格式,包括CSV、Excel、SQL数据库、JSON、HTML等。提供灵活的函数和方法来导入和导出数据,方便数据的交互和共享。数据清洗和预处理

提供丰富的函数和方法来处理缺失值、重复数据、异常值等数据质量问题。支持数据的转换、重塑、合并、拆分等操作,方便进行数据清洗和预处理。数据索引和选择

提供灵活的索引和选择功能,使您能够轻松从数据结构中提取和操作数据。可以使用标签、位置、条件等方式来选择特定的行、列或单元格。数据分析和计算

提供丰富的统计分析、聚合计算和数据转换的函数和方法。支持常见的统计指标计算、数据分组和汇总、透视表创建、时间序列分析等操作,方便进行数据分析和探索。数据可视化

与其他常用的数据可视化库(如Matplotlib和Seaborn)结合使用,可以生成各种图表和图形,包括线图、柱状图、散点图、箱线图等,帮助更直观地理解和展示数据。Pandas库常用的功能电影类型数据集的导入-Pandas模块认知电影类型数据集的导入-Pandas读取并存取csv文件中的数据任务一:Pandas读取csv文件

importpandasaspddata=pd.read_csv('your_file.csv')代码如下:电影类型数据集的导入-Pandas读取并存取csv文件中的数据任务一:Pandas读取csv文件上述两行代码完成了两个步骤分别是:

(1)导入pandas库:使用importpandasaspd语句导入了pandas库,并将其命名为pd。

(2)使用read_csv()函数读取CSV文件:read_csv()是pandas提供的用于读取CSV文件的函数。通过接受一个文件路径作为参数,并返回一个DataFrame对象,其中包含了CSV文件的数据。代码讲解:数据集中字段的含义字段名称字段含义movie_title电影名称release_date上映时间Genre电影类型mpaa_rating美国电影协会评分total_gross总票房inflation_adjusted_gross调整通胀后总票房数据集中字段的含义任务二:使用pandas库来完成重复行筛选。importpandasaspddefprint_duplicates(file_path):#读取CSV文件

data=pd.read_csv(file_path)#找到重复的行

duplicates=data[data.duplicated()]#打印重复的行

print(duplicates)#给出CSV文件路径file_path=r'C:\Users\Administrator\Desktop\1937-2016年迪士尼电影总收入数据集.csv'#打印重复的行print_duplicates(file_path)代码如下:电影类型数据集的导入-Pandas读取并存取csv文件中的数据任务二:使用pandas库来完成重复行筛选。通过上图的打印结果可以看到本数据集没有重复的行。运行结果:电影类型数据集的导入-Pandas读取并存取csv文件中的数据任务二:使用pandas库来完成重复行筛选。代码讲解:

首先用pd.read_csv函数读取CSV文件,然后使用data.duplicated()找到重复的行,最后,通过打印duplicates来显示重复的行。该段代码关键是data.duplicated()函数,data.duplicated()是PandasDataFrame对象的一个方法,用于检测DataFrame中的重复行。通过返回一个布尔值的Series,指示每一行是否是重复的。如果一行与之前的某行完全相同,则被视为重复。默认情况下,data.duplicated()会将第一个出现的重复行标记为False,后续的重复行标记为True。2-1-2使用折线图进行数据可视化分析使用折线图进行数据可视化分析折线图认知

折线图是一种常见的数据可视化图表,在折线图中,一般水平轴(X轴)用来表示时间的推移,并且间隔相同;而垂直轴(Y轴)代表不同时刻的数据大小。通过连接数据点形成折线来展示数据的变化趋势。使用折线图进行数据可视化分析由图可以看出折线图适合显示横轴为有序的变量,也就是说,折线图在以下场景中被广泛应用,并具有相应的优势。折线图的应用场景及优势应用场景优势变化趋势分析清晰地显示数据的上升、下降、波动等变化模式,帮助用户分析数据的趋势和变化规律时间序列数据通过在横轴上表示时间,将数据值映射到纵轴上的折线,可以直观地观察数据随时间的变化情况多个数据对比用户可以方便地比较不同数据集之间的差异,并观察它们的相对变化异常值检测如果折线在某个点上突然出现异常的增长或下降,用户可以进一步检查该点是否存在数据输入错误或其他异常情况。数据的周期性分析对于具有明显周期性变化的数据,如季节性销售趋势、生物周期等,折线图可以清楚地展示周期性的规律和周期的长度。使用折线图进行数据可视化分析折线图能够反映出电影类型的变化趋势,所以接下来对电影类型进行折线图分析,除了文件处理的pandas模块,这里引出了matplotlib模块,matplotlib是一个广泛使用的数据可视化库,适用于数据科学和数据分析。它的强大功能和灵活性使得用户能够以各种方式呈现和探索数据。无论是简单的图表(线图、散点图、柱状图、饼图、等高线图、3D图)还是复杂的可视化方案,matplotlib都是一个强大而灵活的工具,其有如下特点和功能。Matplotlib模块的特点和功能使用折线图进行数据可视化分析Matplotlib模块的特点和功能特点和功能描述简单易用提供直观且易于使用的接口,使创建图表变得简单而灵活多种图表类型支持多种常见的图表类型和样式,包括线图、散点图、柱状图、饼图、箱线图、等高线图等高度定制化具有高度定制化的能力,可以自定义图表的各个方面,如轴的刻度、标签、线条的颜色、样式和宽度,以及图表的尺寸、标题和图例等属性支持多种输出格式支持多种输出格式,包括图像文件(如PNG、JPEG、SVG)、PDF文件和交互式图形。可以将图表保存为文件,或以交互方式在JupyterNotebook等环境中显示图表与NumPy和pandas集成与其他常用的科学计算库(如NumPy和pandas)紧密集成,可以直接使用NumPy数组或pandas的数据结构来创建和绘制图表丰富的图形库提供了

pyplot

接口和其他子模块,支持更复杂的图形绘制和图形布局。可以添加子图、网格、注释、图形装饰等,以创建更丰富和复杂的图表使用折线图进行数据可视化分析任务一:计算不同电影类型的数量,最后根据不同的数量绘制出折线图。使用折线图进行数据可视化分析任务一:计算不同电影类型的数量,最后根据不同的数量绘制出折线图。importpandasaspd#导入pandas库,用于数据处理importmatplotlib.pyplotasplt#导入matplotlib库,用于绘图data=pd.read_csv(r'C:\Users\Administrator\Desktop\1937-2016年迪士尼电影总收入数据集.csv')#读取CSV文件,将数据保存到data变量中genre_counts=data['genre'].value_counts()#统计data中genre列中各个类型出现的次数,并将结果保存到genre_counts变量中sorted_genre_counts=genre_counts.sort_index()#按照genre_counts中索引(即类型)进行排序,将结果保存到sorted_genre_counts变量中代码如下:使用折线图进行数据可视化分析任务一:计算不同电影类型的数量,最后根据不同的数量绘制出折线图。print(sorted_genre_counts)plt.plot(sorted_genre_counts.index,sorted_genre_counts.values,marker='o')#根据sorted_genre_counts的索引和值绘制折线图,并使用圆点标记数据点plt.title('电影类型统计')#设置图表标题为'电影类型统计'plt.xlabel('电影类型')#设置x轴标签为'电影类型'plt.ylabel('数量')#设置y轴标签为'数量'plt.xticks(rotation=90)#将x轴标签进行旋转,以免过于拥挤,角度为90度plt.show()#显示绘制好的图表代码如下:使用折线图进行数据可视化分析任务一:计算不同电影类型的数量,最后根据不同的数量绘制出折线图。代码讲解:

上述代码matplotlib.pyplot是使用了matplotlib.pyplot模块,它是matplotlib库的一个子模块,提供了绘制图表的函数和方法。具体来说,pyplot提供了一组类似于MATLAB的绘图函数,使得使用matplotlib更加方便和直观。通过pyplot,可以使用简单的函数调用来创建图表、设置属性和展示结果,而无需编写大量的绘图代码。使用折线图进行数据可视化分析plt.plot()函数认知plt.plot(x,y,format_string,**kwargs)参数含义如下:x:x坐标的值。y:y坐标的值。format_string:格式字符串,用于同时指定线的样式、颜色和标记。格式字符串由以下三个部分组成:[marker][line][color]。这三个部分是可选的,可以根据需要选择其中一个或多个部分。使用折线图进行数据可视化分析plt.plot()函数认知marker:标记的类型,用于表示数据点。常用的标记样式如下图所示使用折线图进行数据可视化分析plt.plot()函数认知line:线的样式,用于连接数据点。常用的线型样式如下图所示。使用折线图进行数据可视化分析plt.plot()函数认知line:线的样式,用于连接数据点。常用的线型样式如下图所示。使用折线图进行数据可视化分析plt.plot()函数认知color:线和标记的颜色。可以使用颜色名称、十六进制颜色代码、RGB或颜色缩写来指定颜色。常用的颜色名称如下图所示。**kwargs:关键字参数,用于指定其他属性,如线条宽度(linewidth或lw)、透明度(alpha)、标签(label)等。电影类型数据集的导入-Pandas读取并存取csv文件中的数据任务二:完善上图计算不同电影类型的数量,最后根据不同的数量绘制出折线图。电影类型数据集的导入-Pandas读取并存取csv文件中的数据任务描述:看出折线图的标题都没有正常显示,主要由于这是由matplotlib默认不支持中文字符集,需要进行一些配置和设置才能显示中文。那么首先需要查看中文字体的路径,为了避免复杂的搜索,可以使用程序来搜索中文字符集。使用折线图进行数据可视化分析任务二:完善上图计算不同电影类型的数量,最后根据不同的数量绘制出折线图。importmatplotlib.font_managerasfmfonts=fm.findfont(fm.FontProperties(family='SimSun'))#将'SimSun'替换为您想要查找的中文字体名称print(fonts)运行结果为:C:\Windows\Fonts\simsun.ttc代码如下:使用折线图进行数据可视化分析任务二:完善上图计算不同电影类型的数量,最后根据不同的数量绘制出折线图。将此结果放入到上述的程序中,得到如下代码:importpandasaspd#导入pandas库,用于数据处理importmatplotlib.pyplotasplt#导入matplotlib库,用于绘图plt.rcParams['font.family']='SimSun'data=pd.read_csv(r'C:\Users\Administrator\Desktop\1937-2016年迪士尼电影总收入数据集.csv')#读取CSV文件,将数据保存到data变量中genre_counts=data['genre'].value_counts()#统计data中genre列中各个类型出现的次数,并将结果保存到genre_counts变量中代码如下:使用折线图进行数据可视化分析任务二:完善上图计算不同电影类型的数量,最后根据不同的数量绘制出折线图。sorted_genre_counts=genre_counts.sort_index()#按照genre_counts中索引(即类型)进行排序,将结果保存到sorted_genre_counts变量中print(sorted_genre_counts)plt.plot(sorted_genre_counts.index,sorted_genre_counts.values,marker='o')#根据sorted_genre_counts的索引和值绘制折线图,并使用圆点标记数据点plt.title('电影类型统计')#设置图表标题为'电影类型统计'plt.xlabel('电影类型')#设置x轴标签为'电影类型'代码如下:使用折线图进行数据可视化分析任务二:完善上图计算不同电影类型的数量,最后根据不同的数量绘制出折线图。plt.ylabel('数量')#设置y轴标签为'数量'plt.xticks(rotation=90)#将x轴标签进行旋转,以免过于拥挤,角度为90度plt.show()#显示绘制好的图表代码如下:使用折线图进行数据可视化分析任务二:完善上图计算不同电影类型的数量,最后根据不同的数量绘制出折线图。importpandasaspd#导入pandas库,用于数据处理importmatplotlib.pyplotasplt#导入matplotlib库,用于绘图data=pd.read_csv(r'C:\Users\Administrator\Desktop\1937-2016年迪士尼电影总收入数据集.csv')#读取CSV文件,将数据保存到data变量中genre_counts=data['genre'].value_counts()#统计data中genre列中各个类型出现的次数,并将结果保存到genre_counts变量中sorted_genre_counts=genre_counts.sort_index()#按照genre_counts中索引(即类型)进行排序,将结果保存到sorted_genre_counts变量中代码如下:使用折线图进行数据可视化分析代码运行结果:任务二:完善上图计算不同电影类型的数量,最后根据不同的数量绘制出折线图。可以看出Comedy类型的电影数量最多,也是最热门的电影类型,通过折线图能看出不同电影类型变化程度和走势,这可以为电影行业的营销活动和发布计划提供指导。使用折线图进行数据可视化分析代码讲解:任务二:完善上图计算不同电影类型的数量,最后根据不同的数量绘制出折线图。

可以看出在代码中加入了plt.rcParams['font.family']='SimSun'这行代码,这行代码用于设置Matplotlib中文显示字体为宋体(SimSun)。通过将此行代码添加到Matplotlib代码中可以确保使用的字体是宋体,以支持中文字符的显示。请确保已经安装了SimSun字体,否则可能会导致字体无法加载。2-2电影类型与票房关系可视化项目实战电影类型与票房数据的操作使用柱状图进行数据可视化分析0102目录CONCENTS电影类型与票房数据的操作2-2-1电影类型与票房数据的操作导入数据集在此子项目中依然用与子项目1同样的数据集,但在电影类型“genre”列的基础上还需要使用总票房“total_gross”列。使用下面代码导入数据集:data=pd.read_csv(r'C:\Users\Administrator\Desktop\1937-2016年迪士尼电影总收入数据集.csv')

考虑到处理的同一数据集,并且在采用删除重复行来处理数据集时,是对每行的所有列进行的处理,所以这里就不再处理数据集。使用柱状图进行数据可视化分析2-2-2使用柱状图进行数据可视化分析柱状图认知

柱状图也是一种常见的数据可视化图表,只不过它通过矩形柱来表示数据的大小或数量。使用柱状图进行数据可视化分析柱状图认知应用场景优势数据对比通过将每个类别或组的数据表示为独立的柱子,可以直观地比较它们之间的差异。柱状图能够凸显不同数据之间的相对大小,帮助用户做出快速而准确的对比分析。分类数据展示每个类别可以表示为一个单独的柱子,柱子的高度表示该类别下的频数、比例或其他度量。这样可以清晰地观察各个类别之间的差异和相对分布情况。突出异常值帮助用户快速识别异常值或离群点。如果某个柱子明显高于或低于其他柱子,那么可以迅速发现该类别的数据与其他类别存在较大差异,引起进一步的关注和分析。时间序列数据展示用于展示时间序列数据中的变化情况。每个时间点可以表示为一个柱子,用户可以观察数据在不同时间点的变化趋势和演化模式。任务一:在该任务中通过柱状图完成对电影类型与票房关系数据进行可视化分析,那么不同电影类型的总票房在坐标轴上显示柱状图。使用柱状图进行数据可视化分析任务一:在该任务中通过柱状图完成对电影类型与票房关系数据进行可视化分析,那么不同电影类型的总票房在坐标轴上显示柱状图。使用柱状图进行数据可视化分析importpandasaspdimportmatplotlib.pyplotaspltplt.rcParams['font.family']='SimSun'data=pd.read_csv(r'C:\Users\Administrator\Desktop\1937-2016年迪士尼电影总收入数据集.csv')genre_total_gross=data.groupby('genre')['total_gross'].sum()sorted_genre_total_gross=genre_total_gross.sort_values(ascending=False)plt.bar(sorted_genre_total_gross.index,sorted_genre_total_gross.values)plt.xlabel('电影类型')plt.ylabel('总票房(单位:亿)')plt.title('不同电影类型的总票房')plt.xticks(rotation=45)plt.show()代码如下:任务一:在该任务中通过柱状图完成对电影类型与票房关系数据进行可视化分析,那么不同电影类型的总票房在坐标轴上显示柱状图。使用柱状图进行数据可视化分析代码讲解:

上述代码之所以能有显示柱状图,plt.bar()函数起了关键作用,plt.bar()函数是matplotlib库中用于绘制垂直柱状图的函数。在坐标轴上以垂直矩形的方式表示不同类别的数据,并可以通过调整参数来自定义图表的外观。该一般语法如下:

plt.bar(x,height,width=0.8,bottom=None,align='center',color=None,edgecolor=None,linewidth=None,tick_label=None,label=None,log=False,alpha=None,hatch=None,**kwargs)

参数说明:x:要显示的条形的x坐标或类别标签的列表或数组。height:条形的高度或值的列表或数组。width:条形的宽度。默认值为0.8。任务一:在该任务中通过柱状图完成对电影类型与票房关系数据进行可视化分析,那么不同电影类型的总票房在坐标轴上显示柱状图。使用柱状图进行数据可视化分析代码讲解:bottom:可选参数,用于指定条形的底部起始位置。默认为None,表示从0开始。align:条形的对齐方式。可以是字符串'center'、'edge'或'align',默认为'center'。color:条形的填充颜色。可以是字符串表示的颜色名称(如'red'或'blue'),也可以

是表示颜色的RGB元组(如(0.2,0.4,0.6))。edgecolor:条形的边框颜色。默认为None,表示没有边框。linewidth:条形的边框线宽度。默认为None,表示使用默认线宽。tick_lab

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论