版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《Python程序设计基础及应用》配套课件第十二章
综合实践项目12.1数据分析一般流程12.2证券交易数据分析12.4电商手机评论文本分析12.5红酒数据集分析12.3电影票房数据分析12.1数据分析一般流程数据分析一般流程预处理后可进行数据分析,包括基础统计方法(如计算平均值、中位数和方差等)和机器学习技术(如深度学习模型)。数据分析结果可通过可视化图表呈现,如使用matplotlib等库创建各种图表,直观展示数据背后的信息和规律。数据收集是数据分析的第一步,可通过爬虫技术、网站API、数据集市平台等方式获取。但要遵照相关法律法规,避免隐私数据泄漏等信息安全事故,确保数据来源合法合规。收集的数据可能包含噪声和错误,需进行预处理。包括数据清洗(删除重复、缺失和噪声数据)、数据转换(将非数字类型数据转换为数字格式)和数据归一化(使用特定算法将数据转换为统一范围),以提高数据质量和运算效率。数据收集数据预处理数据分析与可视化12.2证券交易数据分析1.数据采集证券交易数据分析可使用pandas、numpy、Matplotlib等库对股票数据进行分析。数据可从财经网站手工下载或通过API自动获取,如阿里巴巴股票10年日交易数据可从“英为财情”网站下载。使用pandas的相关函数加载数据集、转换字段类型、处理缺失值和异常值。2.数据预处理首先加载数据集和转换字段类型。使用pandas库的read_csv()函数读取CSV股票数据,使用to_datetime()函数将日期转换为datetime类型,设置数据的索引index为日期,方便绘图。2.数据预处理2.数据预处理处理缺失值和异常值。使用
pandas库的
fillna()或
dropna()函数来处理缺失值和异常值。函数fillna()对缺失值进行填充。函数dropna()删除缺失值(NA)。使用
pandas库的head()函数来查看数据的前几行。默认显示5行数据。3.基础统计方法分析基础统计方法通过简单的统计指标来观察数据的分布和特征,让分析者快速了解数据的基本情况。使用
pandas库的describe()函数来查看数据的基本信息,包括平均值、标准差等,参数percentiles用于控制显示的百分位数。参数include用于控制结果中显示的数据类型,默认显示所有数值类型的列。4.数据可视化分析可视化分析能够帮助分析者通过直观的图表快速观察出数据的特征和潜在规律,接下来使用
matplotlib库来可视化数据,主要绘制股票价格曲线、成交量曲线和收益率曲线。4.数据可视化分析股票价格数据曲线如图12-1所示,观察发现,股票价格在2021年达到顶峰之后快速下跌,到2024年甚至已经跌破了2014年的价格。图12-1阿里巴巴股票价格数据4.数据可视化分析4.数据可视化分析股票成交量数据如图12-2所示,观察发现,股票成交量在2014、2021、2022和2023出现了相对顶峰,而2015至2020年则处于相对低谷。图12-2阿里巴巴股票成交量数据4.数据可视化分析股票收益率曲线如图12-3所示。观察发现,股票在2022至2023年日收益率波动最大,和图12-1股票价格变化曲线基本一致。图12-3阿里巴巴股票日收益率数据12.3电影票房数据分析1.数据收集数据集从公开数据集网站“CnOpenData”下载。由于原始数据较为庞大,细节处理复杂,程序运行缓慢,超出本书知识范围,本节只选取少部分样本数据进行分析和演示。2.数据预处理2.数据预处理3.基础数据统计分析基础统计分析能够让分析者快速了解数据的基本特征,这里主要针对关键字段进行统计。不同年份上映的电影数量可以通过函数value_counts()来统计:3.基础数据统计分析3.基础数据统计分析累计票房前10名的电影信息统计sort_values()函数实现,其中参数by表示排序的字段,参数ascending表示是否升序,默认为升序排列。通过loc可以按照字段名称筛选数据,通过iloc函数可以按照整数索引筛选数据。3.基础数据统计分析周平均票房排名前10的电影信息需要合并两个数据集。使用pandas库的group_by()函数按照电影ID进行分组,然后使用mean计算单周票房的平均值。使用merge()函数合并周票房数据和电影基本信息数据。3.基础数据统计分析统计累计票房最高的前10位导演和前面类似操作。使用groupby()函数根据导演字段进行分组,然后使用sum()累加同一个导演的累计票房字段,最后使用sort_values()函数按照累计票房排序。12.4电商手机评论文本分析1.数据采集首先使用某采集器在电商平台上以vivo手机为关键字抓取评论文本信息,采集器需要配置自动收集的信息,并过滤掉空白评论内容。相对于爬虫源代码,可视化采集器使用门槛较低,容易上手,对初学者友好,但其缺点是灵活性低,难以完成高度自定义的数据收集功能。2.数据预处理首先使用pandas库的read_csv()函数读入vivo手机评论数据集,参数encoding=’utf-8’才能够正确识别中文字符。然后使用dropna()函数删除包含缺失值的行。最后,使用to_datetime()函数将评论创建时间字段creationtime转换为日期类型,同时创建新字段hour,表示评论大约在每天几点创建。2.数据预处理3.统计与可视化分析首先统计不同评分的总数,使用value_counts()函数统计score字段1-5每个评分的出现次数。代码如下:3.统计与可视化分析接下来,绘制一天24小时中每个时间用户创建的评论总数量,用于了解用户的日常行为习惯。使用seaborns库的countplot()函数绘制条状图。3.统计与可视化分析图12-4
一天24小时中每个小时的用户评论数量3.统计与可视化分析使用箱线图按照评分统计评论数据的长度,即字符个数。箱线图包括了4分位数和潜在的异常点,能够让分析者快速了解数据的分布情况。通常字数越多的评论提供的商品的有价值信息越多。使用绘图库seaborn提供了boxplot函数绘制箱线图,结果如图12-5所示。3.统计与可视化分析图12-5不同评分的评论的字数统计3.统计与可视化分析使用词云绘制Vivo手机购买和使用评论中出现次数最多的词语。3.统计与可视化分析完成分词后,使用计数器Counter进行统计词频,然后选取出现次数最多的前100个词作为输入绘制词云。3.统计与可视化分析图12-6Vivo手机评论的词云12.5红酒数据集分析1.数据采集本数据来源于著名的机器学习数据集网站UCIMachineLearningRepository,该网站为历史最悠久的机器学习数据集网站之一,提供了大量经典的机器学习数据集及其相关介绍,对初学者非常友好。读者也可以自行从网址“/dataset/186/wine-quality”上下载。2.数据预处理该数据集包含1599条记录,共有12个字段,其中前11个为输入特征,最后一个字段(quality)为研究目标。使用前11个字段作为输入,建立线性回归模型,预测最后一个字段的值,即使用红葡萄酒的物理化学指标预测酒的质量。3.基础统计分析数据集的所有变量均为数值类型,可以使用describe()函数统计每个特征的平均值、标准差、最小值、最大值和四分位数等。使用corr()函数计算变量之间的Pearson相关系数。使用set_option()函数设置小数点后显示位数,方便查看结果。4.可视化分析散点图矩阵能够帮助分析者直观观察不同变量之
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 施工方案点评评语(3篇)
- 服务类项目施工方案(3篇)
- 桩基础桥施工方案(3篇)
- 水泥轻质墙板施工方案(3篇)
- 洞口加筋施工方案(3篇)
- 猎头公司营销方案(3篇)
- 登山健步道施工方案(3篇)
- 粽子绘画活动方案策划(3篇)
- 荣誉聚会活动策划方案(3篇)
- 路边沟清理施工方案(3篇)
- 2026国家粮食和物资储备局招聘面试题库
- 2026年江苏苏锡常镇四市高三下学期二模英语试卷和答案
- 家庭食物中毒预防要点
- 17太空生活趣事多 课件(共19张)
- 2026秋招:重庆水务环境控股集团笔试题及答案
- 2025年黑龙江省事业单位招聘档案管理基本知识训练题及答案
- 2025年江苏苏海投资集团有限公司及下属子公司对外公开招聘工作人员57人备考题库附答案详解
- 2025江苏南京晓庄学院招聘体育专任教师2人(公共基础知识)测试题带答案解析
- DB32∕T 5267-2025 城市桥梁数字孪生监测系统设计标准
- 临时用电安全培训考试题及答案
- 急危重症患者评估
评论
0/150
提交评论