基于python豆瓣电影的数据分析与展示

上传人：3*** IP属地：天津上传时间：2024-01-27 格式：DOCX 页数：23 大小：1007.96KB 积分：12 举报 版权申诉

已阅读5页，还剩18页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要通过对影片类型、评分等进行可视化的研究，通过对影片类型、评分等进行可视化的研究，对影片的类型、评分等进行可视化，从不同的视角进行研究，通过Python在豆瓣上，2016年时460部上映的影片资料，对影片类型、评分等进行了统计。通过Python视频资源库中的Seaborn和Matplotlib进行数据的可视化和可视化，通过对影片数据进行可视化的研究，得出结论：故事类影片最受到制片人的青睐，而探险影片更容易被观众接受，而评分与评论人数是用户观影参考的重要指标，能给消费者提供目前大众的观影潮流，充分展现了Python在电影数据处理的具体应用及在可视化方面的优异性，并且Python在简洁程度、编程等方面都要胜于其他绘图工具，有着良好的发展空间。关键词：Python；数据获取；可视化数据分析；豆瓣电影

目录TOC\o"1-2"\h\u摘要 21绪论 41.1研究背景 41.2研究意义 41.3国内外研究现状 42Python大数据分析的优势阐述 52.1python优势具体表现 52.1.1简单 62.1.2易学 62.1.3速度快 62.1.4免费、开源 62.1.5可移植 62.1.6面向对象 62.1.7可扩展 62.1.8丰富的库 62.1.9代码规范 72.2大数据审计 72.2.1特征 73Python爬虫 73.1任务介绍 73.2爬虫初识 73.3基本流程 94爬虫具体操作 104.1准备工作 104.2获取数据 11在每个网页上，通过askURL功能来获得网页的信息 124.3解析内容 12安装：pip3installbeautifulsoup4 134.4保存数据 145电影数据可视化 155.1任务介绍 155.2可视化初识 165.3基本流程 176可视化具体操作 186.1Flask框架 186.2echarts图表 216.3WordCloud库 237结论 25参考文献 26致谢 26

1绪论1.1研究背景在最近几年，由于影片市场的繁荣，提供的推荐服务日益依靠有组织和可信的站点提供的资讯。不同年龄层的读者所问的问题往往不完全，使得馆者很难做出简洁、迅速、全面的解答。因特网影片资料库（IMDb）是一家以极小的搜寻搜寻资料而设立的网页。在这些研究中，数据的处理与可视显示成为当前研究的热点。对影片发展的研究有助于影视公司根据对不同类型影片的评价，来判断消费者对影片的喜好，进而促进影视产业的发展。因此，运用大数据技术对影视相关资料进行全面的剖析，以求准确把握影片的受众和受众的喜好，从而有效地为顾客提供优质的影视作品。Python是一种非常受欢迎的数据分析方法，它在对大量数据进行分析方面有着一定的优越性。[1]利用Python和它的图书馆和软件，在豆瓣网页上对已被扫描的资料进行整理和归类，并利用视觉资料的解析、文本加工和图像加工等方法对已排序的资料进行加工。这样，使用者就能看到在视觉上呈现的全部影片资讯。网络上的网络是个神奇的东西。其独一无二的使用使得D成了最流行的网上社群，他们想要发表、传播和分享资讯。这是一个持续的革新和对使用者的最初意图的尊敬。[2]1.2研究意义豆瓣是一个很受欢迎的平台，可以共享和欣赏影片。这部影片包括数以百万计的影片和有关的作品。那里有成千上万的影迷。有关德班影片的丰富资料中有很多宝贵资料。杜班的影片的收视率也是如此。[2]在Douban上，使用者可以通过Douban的方式表达自己的观点和观点，从而形成了一种新的社会化影片模式。文章以德班影片为研究对象，豆瓣的影视站点会对需要的资料进行扫描、整理和处理，再进行可视化的分析，Python完成了全部流程。1.3国内外研究现状1.3.1国内研究现状聂晶[4]（2018）《Python在大数据挖掘和分析中的应用优势》中说：“数据分析和数据挖掘”是伴随着大数据时代到来的。本文从Python技术的发展特征和发展的角度出发，对Python在大数据方面的应用进行了深入的探讨，并对Python在实际应用中所具有的优越性进行了分析。孙梦蝶[5](2018)《基于Python的大数据审计方法探讨》一书中指出：“数字技术为公司注入了新的活力。文章以中国2007-2018年度的上市公司的统计资料为基础，运用爬虫技术将公司的“数字化变革”关键字进行了归纳，并以此为基础，通过对公司数字化转型对股票流动性的影响及其渠道机制。结果表明，随着公司的数字化变革，公司的股票流动性得到了明显的提高，并且具有某种结构性的非均一性。在这种模式下，公司的数字转换可以通过改进信息不对称、增强市场的积极预测、增加研发投资和创造产出的业绩、增强公司的资产质量、增强公司的资产质量、增加公司资产的流动性。1.3.2国外研究现状CheriéL.Weible[6]（2018）《Python数据可视化的应用研究》一书中指出：“在网上教学中，可以直观地看到大量的信息。将Python的资料解析技术与Python的数据处理技术相融合，利用Python库和Matplotlib库对学习者的学习情况进行直观的研究，有助于老师了解到学习者在网上的行为，从而达到对课堂教学结果的全面剖析，从而有效地调节教学方法，引导和提高学习的有效性，从而提高教学的科学性。ShengLi[7]（2015）在《基于Python的网络爬虫技术》中提到：利用Python技术，可以很容易地获取豆瓣视频和视频中的内容，例如豆瓣的一个例子。资料可视化，指科技资料的显示，是以一种抽象的方式抽取资料，包含对应资讯单元的不同性质与变项。通过对数据进行可视性分析，可以让使用者通过更为直接的方法来查看，从而找到隐藏在其中的信息，让使用者能够快速了解到其中的规则和意义。2Python大数据分析的优势阐述2.1python优势具体表现2.1.1简单Python的语言理念极其简洁，使用Python编写的普通的编程很容易理解。这可以使你轻松地处理问题。2.1.2易学Python很容易上手，而且python的用法说明也非常容易读。2.1.3速度快它包含大量的第三方和标准的，我们可以直接呼叫它们，因此可以非常迅速地执行。2.1.4免费、开源Python已经开放了。在数十年的发展和改进之后，该系统已经可以在Windows、Linux、macOS以及其它的操作系统上实现兼容性。当前的大数据应用领域对Python的开发人员有着巨大的需求。迅速掌握这门外语可以最大限度地减少分析所花费的时间，减少学习这门外语的花费，节约研发费用，降低入口率。2.1.5可移植python是开放源码的，许多开发工具和平台都能将其迁移到那些平台上。2.1.6面向对象Python可以实现两种编程方式：面向对象和面向流程。它由函数和数据构成，因此呈现为面向对象的格式。2.1.7可扩展无论是C++还是C编程，都可以将其内置到python中，从而让这个软件变得更隐蔽和更快捷。2.1.8丰富的库Python库的范围非常广泛，涵盖了很多领域，从研究的支持运算到在互联网上的应用。比如Plotly，这个工具箱可以根据视觉效果来生成图像。因特网和侧重于可视化统计学模式的希伯恩（Seaborn），Python的标准程序集非常强大。2.1.9代码规范Python会在格式上对程序进行严格的规范，如果不遵守规则，就会导致程序出现问题，从而导致程序的外观变得更漂亮，而python的程序则会保持原有的格式，而不是二进制。2.1.10易于数据可视化的实现易于可视化的资料，易于制作简易的图形，比如通过写几个python的简单的程序，并利用matplotlib和seaborn库来呈现输出的结果。比如，你需要输入一个资料集，然后呼叫matplotlib来看到一个柱状图。2.2大数据审计2.2.1特征由于大数据的应用范围非常广阔，因此，在大量的数据采样时，将采用传统的取样和稽核方法，将全部的数据进行汇总，使得审计的准确度得到了提升。由于没有特定的工作场所和工作时间，所以可以使用因特网进行审核。可以从网络上获取信息，进行多种审核，从而提高审核的效率。数据采集，清洗，过滤，聚合，转化，转化，转化，转化为数据的可见性显示，从而理解数据的数据的变化，测试的多样性使得数据的检查变得更为复杂。3Python爬虫3.1任务介绍3.1.1需求分析在豆瓣上搜索250个电影的资料（/top250)，包括电影名称、豆瓣等重要数据。3.2爬虫初识3.2.1简介网络爬行器是一种能够按照一定的规律在网上搜索所需的资料和资料的脚本。因特网上的大量的资料，在不同的产业、不同的领域都有很大的应用前景，因此，对需要的资料进行挖掘和解析是非常普遍的。3.2.2爬虫的本质按照程序编写的说明，可以让用户在浏览页面时，获得自己需要的信息。一般的网络浏览器都是这样的，我们会在页面的页面上键入自己要搜索的页面，DNS会自动查找到自己的位置，然后服务器会自动的处理和解析这些信息，最后得到的是来自于服务器的信息。自动编程就是爬行动物的精髓，它可以模仿用户，把要求自动传送给服务器，接收、分析和处理。3.2.3爬虫及协作过滤你可以用一个蠕动的程式来从你的网页上取得资料，那是一种获得资料的方法。因为爬虫可以快速地获得资料，而且没有复制的资料，所以利用爬虫来获得原始资料是一个很好的方法。由于大部分的网页都是以模板为基础，所以网页的内容与版式呈现出相同之处。所以，在利用爬行器进行网络攀爬时，大部分页面都可以根据相同的模式进行爬行。这种蠕动也可以被用来进行科研。[5]例如，如果你要判断某一企业的营业收入，那么就可以通过爬行软件将该公司的全部商品的销量统计出来，并将这些信息进行综合整理，最后将其与其声称的销量进行对比。当一个网页被一个爬虫浏览时，它就会把自己隐藏起来，让这个站点不能准确地判断它是不是被拒绝了。协同过滤器（CF）在推荐算法中得到了普遍的应用。对有效的影响因子是影响协作筛选的关键。传统的CF算法是根据使用者单元的级别来进行潜在的分析。要素及遇到的冷却起动问题及稀释问题。有些改良的CF方法是利用其它的资讯来充实以前的基础因子。然而，因为没有评估和支撑的资讯，因子的学习潜能并不十分局限。针对此问题，我们采用了深度学习的方法来学习高效的隐含表达。在很多应用中，深度学习模式是一个很好的研究视角。具体来说，我们通过结合深度学习函数对矩阵进行拆分，从而为CF提供一个公共的体系结构。在很少干扰的情况下，采用了几率矩阵分解与组合的自动编码器，我们给出了一个天然的架构范例。组合的构造会产生潜能。大量的电影/图书建议和解答预测。3.3基本流程3.3.1发送请求通过HTTP协定向你要访问的页面发出一个要求。在请求主体中，许多请求都会被隐藏起来，然后被传送到服务器，然后等待着服务器的回应。由于该要求主体与客户机的内容是一样的，所以它的发送流程和使用的方式差不多，如果没有找到，那就说明它已经登录了网页，在它的地址上键入你要访问的网页，然后单击“返回”按钮，整个过程就像是一个用户向你的服务器发送了一个请求。请求方式：这些要求一般分为两种：GET/POST，另外，HEAD/PUT/DELETE/OPTIONS。GET与POST是有区别的：GET的请求是url,POST是被保存到头部。GET：向特定的资源部门发出一个要求。GET方式只适用于读入资料，并不适用于产生负面影响的其它行为。POST：向特定的通道递交资料，并请求伺服器来进行操作（比如，上载档案或递交表格）。在这个请求的主体中包括了资料，这个需求可以建立新的资料，也可以是改变已存在的资料，或者是二者皆有。请求URL：URL，或者是一个统一的资源定位器，也叫做地址。一个标准的资源查询者可以明确的指明可以在因特网上存取可用的资料的位址。因特网中的所有档案URL中含有显示档案所在的资讯及浏览者所做之事。URL的形式包含三个方面：即：一次使用（Service方式）的协定。第二种是一个IP位址，它储存了一个资源（也包括端口号码），用于程式中。第三是具体的主机资源，比如档案名称和目录。在对资料进行扫描时，需要用U被测物体进行扫描以获得资料。所以，这些都是基于搜索引擎的数据。要求标题：包含使用者代理、宿主、cookie及其它资讯。要求主体：在发出要求之后，将传输该数据。比如，在传送form窗体时，将会提交窗体资料（POST）。3.3.2获取响应内容我们可以在服务器上收到一个回应，前提是它是正确的。我们只需知道这个回应中的信息。可以是JSON、HTML、二进制等，其中，服务器接受用户的要求，服务器会分析收到的信息，再将分析出来的信息传送到网站上。响应状况：不同的应答状况，如：跳跃301指示，200指示成功，502指示服务器失败。回应标题：例如内容类型，类型长度，服务器信息，和Cookie，等等。回应主体：要求的资源的最主要的一块，比如图片、html页面和。3.3.3解析内容我们可以用HTML的形式来分析这些东西，在json的情况下，可以在分析的时候进行转换。这一步可以是一个用于储存或者被加工的二进位资料，这一步适用于从浏览器中获取的伺服器末端档案，并将其解释并展示出来。3.3.4保存数据这些数据可以被用文字或者储存在一个资料库里，或者被储存成jpg,MP4或者其它的档案。这与我们浏览页面时，将照片和录像一起下载。4爬虫具体操作4.1准备工作4.1.1分析页面使用谷歌，使用F12开发人员的软件，对页面进行解析，并在Elements中查找所需的资料。如图所示：4.1.2编码规范：通常情况下，我们应该将#-*-codeing=utf-8-*，或#coding=utf-8，以便你的代码里有中文，而不会有混乱的情况发生。如图所示：在python中，一个程序通过一个函数或者一个关联的函数来连接其它的函数，可以改善程序的重复和易读性。由def关键字开始，然后是空格，函数标识符名称，圆括号，冒号：构成的域是函数的块体。可以通过方括号来传送，可以将功能区段的缩进式（Tab,4个空位，仅供一个），用return结尾，则会有一个返回值，也没有返回值（表明该传送器是空的）。您可以在Python中添加主功能来对该软件进行检测，该方法是：ifname=="main"：。Python在代码片段中加入了一个#的注解。如图所示：4.1.3引入模块：module：一般指一个以.py结尾的档案。用于逻辑地安排python代码的函数和变量。使用这些组件也可以改善您的程式码的维护能力。在python中引入该模块。比如：导入系统。如图所示：4.2获取数据4.2.1页面数据获取在每个网页上，通过askURL功能来获得网页的信息为访问网页定义一个askURL，输入一个代表URL的url，比如：/top250?起始=0使用urllib.Request产生一个要求；使用urllib.urlopen向对应发出要求；read获得网页的内容在存取网页时，常常会有一些bug，所以要让程式的运作更好，添加一个例外捕捉try...except...如图所示：4.3解析内容4.3.1解析页面内容通过BeautifulSoup来锁定指定的标记、通过规则运算发现特定的东西。4.3.2标签解析：BeautifulSoup是python的一个类库，里面有几种用于操作操作的python功能。我们希望得到的所有影片都以<div>为标签，每个标签都带有类=“item”的特性。比如：定义soup=beautifulSoup(html，“html.parser”），用于建立BeautifulSoup物件，html是网页的内容，html.parser是一个网页解析程序；在视频中，可以用foriteminsoup查找all(div,class="ietm")，将视频中的条目全部抽取，也就是说，在网页上的所有风格都是ietm的div。如图所示：4.3.3BeautifulSoup模块BeautifulSoup4简介：BeautifulSoup4类似于lxml，它是HTML/XML的分析者。其主要作用是对HTML/XML的数据进行分析与抽取。BeautifulSoup可以在Python标准图书馆和一些第三方分析仪中使用HTML解析程序。Python没有进行此项工作，则会采用Python的标准解析程序。lxml分析仪的性能更好，运行更迅速。推荐用lxml进行分析。BeautifulSoup可以将所录入的文件转换成Unicode，并将其转换成UF-8。因此，我们不必担忧代码的形式会不会对文件的形式造成什么影响。然而，BeautifulSoup无法在没有特定的代码中找到文件的代码。这时，我们要做的就是说明原来的编码方式。利用BeautifulSoup的优势：整合了一个标准的Pathon类类库、中等的运行速率和较高的文件误差；不足：Python2.7.3和3.2.2以前的版本不能容忍文件的bug。安装：pip3installbeautifulsoup4主要使用：代表已经分析过的Web页面的两个关键参数BeautifulSoup（html"html.parser"），下面的一些参数可以被解读为必须进行分析的形式。选取项目：从项目的名字中选取项目，然后将项目一同进行。若有多个标记符合，只会传回首个标记。取得：标记Beautif的字符串形式会不会对文件的形式方式。取得该标记的特性：HTML中的标签拥有很多的特性，比如ID、名称、类、HREF等，这些都是可以用attrs来为该特性取得一个数值：根据这个返回的数值，我们知道这是一个词典式的构造，所以我们可以用一个按键来获得这相关选项：在做决定的时候，我们不可能一次就选中一个特定的结点，这样我们就可以根据这个结点来确定它的子结点。询问方式：find_all可以对所有满足的情况进行查询。在将一些文件、属性传入到它的时候，我们就可以得到满足的信息。使用foriteminsoup.f。4.3.4re模块规则运算的概要：规则运算式是一种用于限制字符串的逻辑式，它的基本原则是预先确定某些具有各种限定意义的特殊符号，通过将它们结合起来，就能按照自己的要求对一个字串进行筛选，将合格的字串保留下来，而不合格的就会被筛选出来。规则运算式也是一种在搜寻文字时需要与文字串相配的文字。[6]规则运算的特征：其逻辑思维能力更强、操作更具弹性、更好的定义函数、更易于简化复杂的编码逻辑、实现解繁。Python中包括可以执行规则运算的re模块。在开始时，您必须先将re图书馆引入。接着，用re.match对行头进行比对。一旦匹配不上，就没有什么可以回复的了。Re.search用于对整个字符串进行搜索，并返回一个成功的匹配。Re.findall可以查找到符合的结果并将其作为一个清单的结果。re将第3排的第2排替代为第1排。在将规则运算式中的字符串进行对比以前，在r前面加r是个不错的选择，这样可以避免使用转义符。如图所示：4.4保存数据4.4.1SQLite简介什么是SQLite：SQLite是一种能够嵌入多种应用的嵌入式数据库。当你用的时候，你只需要很小的一部分。一个嵌入的装置只需数百个字节的记忆体就足以进行储存。它不但支持普通的OS,Linux,Windows,Unix，还能和很多的语言和程序语言相配合。与mysql等主流的数据库相比，其读取和写入的效率还要高出一大截。它还具有交易功能，可以在不同的平台上进行应用。SQLite指令：为与关联数据库进行互动的sql命令。这几个命令包含了sql查询，insert,update,delete等常用命令。按照功能的不同，将它们划分成DDL（DL）、DML（DML）、DQL（查询表格中的数据）、DCL(DCL)(DCL）。举例来说，您可以通过选择的指令来查找数据库信息，表格信息，表格中的数据，插入的指令将数据增加到表中，通过更新来改变表中的信息，通过drop来移去数据库或者移除表，诸如此类。4.4.2SQLite保存数据建立一个表格名movie250，包含影片详情链接，影片图片链接，影片名称，影片评分，评价人数，概况和影片的相关信息。利用周期，逐条地读和分析规则爬取的影片资料；SQLite的数据库可以通过Python中的SQLite模块进行操作。请留意SQL陈述式中的输出位子，其格式为%s和%d，以规定要插入的变数。%S一定要用引号开头。它能用SQL陈述式来查询和验证记忆体状态。如图所示：5电影数据可视化5.1任务介绍5.1.1需求分析将豆瓣影片中的数据从SQLLite数据库中进行爬行和储存，然后利用文本、图、词汇等方式在页面上展示。5.2可视化初识5.2.1概念资料可视化是指将资料的资料以文字或图片等直观的形式表现出来。因为可视化是以直观的方式展现的，所以必须以更美、更直观的形式表达，以便更好地理解那些繁杂的、罕见的资料。然而，设计者常常不能很好地处理好设计和功能性的联系，从而导致了所创造的可视化格式不能清晰地展现出所需的资料的深度和传递的基本目的。现在，资料视觉与多个领域、多个专业之间有着密切的关系，是目前开发、研究、教学中最常见的一种方法，也是一种非常关键的方法。5.2.2基本原则资料视觉的成果应该显示资料的种类和所要检视的问题，这些都是资料的处理流程，也是资料视觉效果的开始。为了反应问题，必须把资料作对比，不但要看它们之间的关系，还要看它们是否有问题。在进行资料显示时，资料的索引应当相似，如此，我们就可以了解这些资料的来源和问题所在。数据可视性的制造流程需要有一个逻辑性的观点，从总体的观点开始，再到从一个地方的观点，再到一个具体的问题的答案。[7]一般情况下，要想听到直观的汇报，必须要有专门的资料，所以，要想达到最佳的效果，就必须要用言语来表达。5.2.3可视化平台核心技术这个平台是Python开发的，它通过多个python的第三方软件（比如Numpy,Matplotlib等）来编写定制算法，作为I/O界面的函数，通过B/S技术（Business/Server）技术（Browser/server）提供网页HTML、CSS、JS以及Django的Django架构，在站点中可以找到合适的算法，输入所需的资料进行转换，再进行下载，获得最终的结果，通过电子版的广告可以观看到直观的分析结果。5.2.4在可视化背景下的电影数据研究目前已有许多关于Movielens和IMDB影片资料的可视化的相关文献。赫尔等。我们对428440个影片做了一个简单的数据分析，并且利用了一个曲线图表来显示影片的发展。很多研究者也利用网路图表来对众多的影星、奈米与其它角色的联系进行了分析。他们会建议一些与使用者感兴趣的影片，并制作有关影片的特性图表。李和其它研究人员查看了观看人数和留言的人数，然后利用曲线图表来对听众和评论进行了对比。[8]合适的关系。大多数工作都是从观众和表演者的视角来检验影片的资料，或是利用曲线图表来剖析影片的发展方向。因此，从导演的视角出发，对影片的发展进行了深入的剖析。对影片的发展从种类、分级和成本效率三个角度进行了深度剖析。5.3基本流程5.3.1数据采集资料处理与可视化的首要步骤是资料搜集，「工者要做好事，就必须要有好的工具」，因此资料搜集的方式与品质直接影响到资料视觉的最后结果。就资料来源而言，目前已有多种资料搜集方式，但大致可将资料归入外在资料搜集与内部资料搜集。外部资料收集：是一种从公司获得某些外界资料的方式。其目的是在政府机关的官网上获得相关的相关产品和工业方面的资料。一般采用爬行方式获取外界资料。内部资料收集：是关于企业内部经营的资料搜集。一般情况下，商业资料库就是诸如指令事务状况之类的资料源。需要某些行动记录资料，以对您的应用程式使用者的资料进行剖析。目前，您需要通过“买点”方式来从您的应用或者是您的Web上采集到的信息。5.3.2数据处理和变换数据的转化与数据的加工是实现数据显示的先决条件。由于，一方面，采集到的资料往往存在噪声、错误等问题，而且资料的品质相对较低；而数据的性质与方式往往隐藏于大量的资料之中，要将其抽取出来，则必须对其进行深入的研究。5.3.3可视化映射在按照商业目的对数据进行清洗、剔除、处理、再对其进行可视化映射，这是一个非常重要的环节，其主要功能是将已加工的数据与视觉要素进行对应，视觉要素包括文字、视觉空间、视觉通道三个方面。5.3.4人机交互为了实现视觉上的视觉效果，可以将数据的价值、特性和图案转化为能够让目标使用者更容易地了解和了解这些数据，并有助于他们作出适当的决定。然而，我们经常碰到的资料很多，而且资料很多。如果把所有的资讯都按照机器分类，却没有在可视图像中加以整理和筛选，那么，不但网页臃肿、杂乱无章，还缺少美感。这也造成了对焦的模糊，使使用者的注意力和每小时的信息都会降低。[9]5.3.5用户感知使用者的认知就是把视觉效果转化成能获得的知识和启发。在体验时，使用者会受到画面的影响，并透过不同的呈现模式，积极地接受资讯的传送。这种方法可以使使用者对视觉效果产生更好的认知，将其转换成有用的资讯供使用者作决定。有很多的影响，比如，心理、统计、人机互动等。6可视化具体操作6.1Flask框架6.1.1Flash简介Flask是一个用Python写成的轻型定制的框架，与其它同类的Flask相比，Flask更加的灵活、更轻、更可靠、更容易操作。它能很好的配合MVC模式的设计。开发者可以将自己的工作划分为不同的任务，并且一个小的团队可以很快地建立起其它中型、大型站点所需的网络业务。另外，Flash的灵活性也很强，可以让使用者在使用它的时候，随意的增加一些新的特性。而且，只要对这个新的能力进行一些简单的处理，就可以进行扩充了。Flash也提供了丰富的查询资源，让用户能够利用它来建立个性化和设计能力很强的站点。Flash的内核是Werkzeug和jinja2。6.1.2基本模式为你的程式指定一个url浏览的函数是Flash最基础的架构。每当使用者存取url时，会触发一个动作，让这个url指定一个特殊的检视功能，这个功能的返回数值会在网页上被呈现。其工作过程如下图所示：IT运行与维修的核心是安全、稳定和高效。作业作业的自动化是为了提升作业作业的效能。Flask[9]的迅速发展特性充分符合高效需求。运行与保养。由于该工程不断发展，采用可伸缩Flask架构，所需执行的O&M函数及扩充数目会逐步增多。因为各公司的运行和维修要求各不相同，所以需要明确哪些特性是需要执行的，Flask就是其中的佼佼者。6.1.3特点通过对Flash特性和运算法则的深入分析，我们可以很容易地找到它的开发工具是python。这个软件是用统一的编程语言来完成的，也就是软件的开发和维护。Flash使用方便，灵活，效率高，因此受到业界的欢迎，同时，Flash也拥有很多功能丰富的源代码，使用起来非常的安全，而且官方提供的简洁的说明文件，让Flash变得容易上手。Flashjinjia2的模板引擎是非常灵活的，它极大地改善了外部的代码重复使用，从而增加了我们的工作效率，同时也有利于深入的发展和维持。Flash在当前的发展中可以被视为一个微型的架构，其模型体系是jinjia2，而jinjia2则是Flash内核的成员所负责的。Flash的很多技术都不能被支持，比如访问数据，检查表格，确认用户的识别等等，flash认为那些可以整合到Flash中的更高层次的部件，当有必要时，他们会按照自己的项目要求进行相应的扩充。这是一个与大小架构背道而驰的架构，大部分决策都由自己来作出，而且难以弹性地改变。6.1.4使用方式将静态页面的模板导入到可视性工程中，将页面的主题改为首页、电影、评分、词云和队伍五个板块，并将静止页面的版面模板进行四次拷贝，每一次都会将多余的内容剔除，只留下自己要显示的一小段。创建python档案app，用import将flash和render_template库引入，并通过@app.route为网页首页，电影，评分，单词云和队伍五个区域的路线进行分析。定义五个模块的功能，将爬虫所获得的影片资料库档案导入到功能中，利用sql陈述式来设定档案资料，储存于本机自订清单，将储存于储存的静止网页中，以jinja2导入储存于对应功能中的原生爬动资料，利用returnrender_template()，将五个区块的相应html档案名称，以返回该模式呈现。[10]其工作过程如下图所示：6.2echarts图表6.2.1echarts简介Echarts是一个很好的图形可视化控制，其基础是一个基于zrender的轻量级canvas类库，提供直观、生动、交互和高度个性化的数据可视化图形[9]。这是大部分浏览器都可以兼容性的JavaScript的标志。该系统采用多种新颖的数据图像扫描、数据拖拉再运算等技术，极大地提高了用户的操作经验，同时也为用户提供了对数据挖掘和整合的能力。Echarts主要致力于用来管理图表产生的资料。改变数据以改变图形的形式。在改变了参数以后，可以改变图的外形（被称作风格，它只限定了图形中的点位、线条以及平面的状况，并且数据的结构非常重要）。比如，改变相同的资料项目设定，你可以把一个饼状的或一个电子的图形转换成另一种图形。只要我们对资料的结构很了解，就可以利用各种选择来实现对图形的无拘无束。6.2.2echarts包含的图表传统条形图、折线图、K线图、散点图、饼图、折线图、统计矩形图等图表均能通过ECHarts来完成。除了整合的图表，还有许多的特性，使用者也可以透过ECharts定制的图形显示。您可以通过发送一个renderItem来将定制的资料指定给所需的图表。除了这些，他们还可以将已存在的图像进行对比，并且可以将某些交互部件结合起来，而无需去理解他们的具体实施。我们可以在下载接口里下载各种图形的设置和简要说明，并且当你想要的图形的时候，你可以选择你想要的图形来进行安装和设置。表现如下：6.2.3echarts数据展示Echarts通过其递增的呈现技术和最优的多种细节资料，可以呈现数以百万计的资料，同时也可以在数以百万计的资料中实现移动的互动，同时也可以进行平滑的缩减和扩展。该系统采用二进制的方式进行储存，一亿个座标资料可以占据数百MB的储存空间，所以可以以流态方式装载资料。我们可以用websocket在分散的资料中找到他们需要的东西。我们无需等到全部数据都载入后才能开始绘图。6.2.4数据获取与格式在建模过程中，数据的获取是一个关键的出发点，它对最关键的数据建模提供了支撑。在内外互动的模型中，典型的采用Ajax需求的技术是通过标准的内部数据处理流程来完成界面。（JSON形式）正确的数据。层次资料是指客户根据使用者的需要，并了解资料与所要处理的层面的关联所选取的资料。在产生层次资料时，资料的形态是根据人们对资料层次的了解而决定的。此外，必须为图表的大小规定所有的特征。6.2.5获取echarts从ApacheEcharts网站上下载一个正式的源代码程序，如下图所示：6.2.6引入echarts按照同样的路线，将生成的echarts档案导入<scriptsrc="echarts.min.js">操作如下图所示：6.2.7绘制图表在相应于特定得分的静止页中，必须为echarts提供一个具有高度的DOM容器，该容器具有"main"样式="宽度：100%；高度：300px。"在相应于JavaScript的<脚本>中，id是DOM的id，柱形的风格是在选项中的，x轴是xAxis，而在option中，则是将相应的分数的数量数据，用作y轴线。6.3WordCloud库6.3.1词云简介词汇云是一个“关键字”，它经常在文字中被可视地展示。由于字幕影像过滤品质不佳，且文字讯息很多，所以使用者只要浏览文字就可以知道文字的实质。WordCloud是一套用于Python的WordCloudMap的软件。Python2和Python3都可以使用。可以把由关键词构成的资料转化为一种直觉和独特的图形模式。6.3.2中文分词分词是中文词汇的重要连接和需求。相对于其它英语所表示的语言来说，汉语中的分词很难被分开，这是由于汉语中的词汇从古至今都没有天然的分开。随着时代的发展，越来越多的学者开始对中文的中文分割进行了深入的探讨和总结。包括基于知识的切割法、基于统计的切割法、基于字符串的切割法等。在python上，我们可以利用第三方库的插补技术来实现中文的淡季，中文的切分方法主要有：首先，根据单词的前缀进行搜索，建立一个有向无环的结构，再利用动态的计划寻找出最大的可能性，并将其与之相配；第二个方法是根据词汇的出现次数来进行最大最小的分类，而没有被登记的词汇则根据汉字的结构模式来进行分类和分类。6.3.3安装pip的预设安装方法是pipinstallwordcloud。如果您是用conda方法来进行安装，那么将会用condainstall-cconda-forgewordcloud来进行安装。首先，你要输入wordcloud软件，或者把whl文件下载到你的当地，再在你的电脑上进行安装：先看看你所用的是什么python；开启一个非官方的Whl软件的站点，并从相应的安

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于python豆瓣电影的数据分析与展示

文档简介

温馨提示

最新文档

评论

相关文档