版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、精选文档20182019学年第2学期大学计算机课程报告专业班级 学 号 姓 名 项 目计算机基础测验(20分)课程报告(80分)总分得 分评阅教师2019 年 6 月 15 日说 明1. 本课程要求每个学生就感兴趣的某个领域数据进行获取、分析,并以可视化的方式将分析结果展示出来。因此,课程报告主要包括任务要求、数据获取、分析、可视化展示等数据处理过程的内容。2. 课程结束后,需要提交课程报告(电子及打印版)、相应数据文件和程序源代码。未提交相关资料者不能参加成绩评定。3. 课程报告要求参考本报告模板撰写,可根据具体情况适当调整,但文档结构要完整、格式排版美观、条理清晰、论述准确。4. 文档撰写
2、不符合要求,或者抄袭他人作品,记零分。精选文档(自己拟定题目)爱奇艺犯罪电影数据处理分析正文。5号宋体,1.1倍行距。一、任务描述(说明数据来源,获取什么样的数据,使用什么样的工具或方法,准备对数据如何处理分析,展示,达到什么样的结果或目标。)使用python编写爬虫程序获取爱奇艺犯罪电影信息,内容包括,并将获取数据保存到Excel文件中使用excel工具对获取的电影信息进行数据处理,包括按照热度进行排序,分类、统计等等使用excel的图表工具对统计分析结果进行可视化,包括爱奇艺犯罪电影评分分段占比饼状图、柱状图、折线图、,等等二、数据获取(描述数据的来源,获取哪些数据,获取数据的工具介绍、方
3、法、步骤、存储等可根据实际需要附加程序代码、图、表等)1 数据描述数据来源:爱奇艺犯罪电影URL链接以及想爬取的页面数据获取:爱奇艺犯罪电影的(名称、时长、评分)并将获这些信息(名称、链接、时长、评分以及主演)写入Excel表格。2 使用工具(或方法)(对工具或方法的介绍)python是一种功能丰富的语言,它拥有一个强大的基本类库和数量众多的第三方扩展。.3 数据获取步骤第一步:从网页上获取HTML内容。第二步:分析网页内容并提取有用数据,采用二维列表存储影片所涉及的表单数据第三步:将获得的数据写入Excel文件。程序代码各式:5号等宽字体Courier New,1.1倍行距。灰色背景(可选)
4、4 程序代码1) 获取数据代码如下说明:这部分程序代码仅是格式示例,与题目内容无关import requestsfrom bs4 import BeautifulSoupallUniv = #存储大学数据的二维列表def getHtmlText(url): #获取网页内容 try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = utf-8 return r.text except: return 2) 将获得全部电影信息存储到Excel表格中,代码如下:import requestsfrom bs4 im
5、port BeautifulSoupallUniv = #存储大学数据的二维列表5 数据保存到Excel文件,Excel文件截图如图1所示:图1 电影数据的excel文件截图正文中插图。所有图要写明图号和图题,图号和图题应放在图位下方居中处,小5号宋体。图号与图题间空一格,图号从1开始编号,如“图1”,依次类推。三、数据分析(文管类可以是数据存储、检索等等)(描述数据分析的过程、方法:可根据实际需要附加程序代码、图、表等)表格要求:表格都要标明表号、表题,用小5号宋体字。表号和表题放在表格上方正中位置,表号后空一格书写表题。表号从1开始编号,如“表1”,依次类推。1 数据分析工具Excel是一
6、款电子表格软件。直观的界面、出色的计算功能和图表工具,使Excel成为最流行的个人计算机数据处理软件。Excel具有强大的数据统计分析处理能力,能进行多种数据统计计算分析功能,广泛应用于管理、统计财经、金融等众多领域。2 使用excel工具以评分为主进行爱奇艺犯罪电影热度排名分析最受欢迎的电影方法步骤: 电影热度排名后的结果如图2:图2 电影热度排名的excel文件截图3 使用excel工具进行统计方法步骤: 四、结果的可视化展示(可应用某种工具以可视化形式展示分析结果,图表类型一般不少于3种)1 数据可视化工具Excel能绘制的图表多达数十种,基本可以实现一维和二维图表的绘制,比较常用的图表
7、类型包括散点图、条形图、饼图、折线图等等。2 使用excel工具对爱奇艺犯罪电影评分分段占比绘制饼状图方法步骤: 犯罪电影贴身俏保镖评分分段占比饼状图如图3所示。图3 犯罪电影贴身俏保镖评分分段占比饼状图(2) 使用工具方法步骤: 五、遇到的问题与解决方法(可选)1、问题或难点原因分析:解决方法:1. 局限于用标签名称去定位所需要爬取信息的位置,但在一个HTML页面中可能会有很多个相同的标签,此方法有一定的局限。解决方法:通过看各种爬虫实例学发现相同的标签属性不会相同,学会用标签的属性去寻找所爬取信息的位置。2. 刚开始局限于用这种方法去存储爬取的信息,但是在有些标签中只有一个数据,系统就会提示错误。解决方法:用一个循环依次把所爬取的信息存储,就不会造成越界的情况。六、学习总结与反思(有哪些收获、哪些需要改进、自己的感想等等)评分参考得分1、数据处理过程完整(60分)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 粘胶雪尼尔床罩行业深度研究报告
- 2025年二级建造师《建筑工程管理与实务》真题及答案及解析
- 黑白遮光双面胶行业深度研究报告
- 脂肪测量仪行业深度研究报告
- 中国熔合平顶双焦点镜片项目投资可行性研究报告
- 创意健康活动策划方案
- 家长会家长发言稿有哪些
- 中国经营纸品项目投资可行性研究报告
- 中国混合克力夫酸项目投资可行性研究报告
- 中国矫姿护眼器项目投资可行性研究报告
- 给村医培训课件
- 部门主要人力资源风险点及防控措施一览表
- 2025年烈士纪念场馆讲解员招聘考试技巧与模拟试题
- 重庆入团考试试题及答案
- 2024年人工智能(AI)训练师职业技能鉴定考试题库及答案
- 中药膏摩技术操作
- 2025-2026学年辽师大版(三起)(2024)小学英语四年级上册(全册)教学设计(附目录)
- 2025年前端高级面试题目及答案
- 2025高级经济师笔试试题及参考答案
- 考古探掘工国家职业标准(2024版)
- 临床医学大一试题及答案2025版
评论
0/150
提交评论