03.节目相关大数据的收集、存储分析及应用研究项目系统设计方案

上传人：汤*** IP属地：北京上传时间：2022-09-01 格式：DOCX 页数：35 大小：2.31MB 积分：12 举报 版权申诉

免费预览已结束，剩余30页可下载查看

 付费下载

下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、相关大数据的收集、分析及应用实验系统设计方案目录项目概述项目背景2研究方向和目标2设计原则3系统设计4大数据能力设计8数据流向设计2023总体技术路线21问题和技术创新223.1. 223.2 技术创新22功能设计24. 24数据统计24口碑分析25偏好度26看点提及26网友评论高频词27综合评价28电视剧口碑29电视剧关注度302电视剧相关话题31搜索首页31单条分析325具体考核指标与成果形式34约束性指标34预期性指标351项目概述项目背景Big Data“大数据”是继云

2、计算、物联网之后 IT 产业又一次性的技术变革。大数据所涉及的领域相当广泛，包括：海量数据挖掘、大规模分布式与计算、社交网络行为分析、商业趋势等等。在互联网和电子商务等领域，一些领头企业已经开始理解并且探索如何以新的方式处理并分析海量的信息，并且取得了突破性的业务成果。但是，对于广电行业，大数据的研究和应用才刚刚起步。广电作为内容的生产者、者，必须学习、掌握和利用大数据潮流中带来的新的理念和技术，赶上时代的步伐。通过本项目的研究发掘广电大数据的潜在价值，针对编排提供深入的分析、策略和建议，以发挥内容的最大价值。1.2 研究方向和目标大分析系统通过各方数据按照大数据的方式整理并通过数学模型和算法

3、的计算分析得出各种丰富的分析结果，寻找影响栏目收视率的关键，制作水平，优化编排策略。图 1 业务逻辑数据来源优先以电视收视数据、社交数据、互联网页数据为基础。电视2收视数据可采用央视的收视率数据。社交数据可采用的央视栏目和频道的官微数据。互联网页数据可采用 CNTV 和新浪等主流发布的文章。收集策略使用常规化计划性与按需定制化并存的方式。常规化计划性是每天定时相关数据，包括指定每天内容、评论和转发内容，粉丝数，的文章、帖子等。按需定制化是针对用户的特殊需求，如统计特定包含关键字的历史搜索数据，需实时定制配置好后进行。数据收集的过程中按照大数据的处理方式进行分布式和计算，如 NoSQL数据库等。

4、经过数据处理和计算后，运用各种交叉分析计算模型和算法可以向栏目组提供社交数据分析及分析，发掘潜在的创律,同时在实际创新中验证并改进计算模型。同时运用各种数据可视化的展现，明了的展现数据背后的意义和潜在规律。1.3 设计原则1.3.1 系统性本系统必须在框架定义的前提下，保证其在功能上的完整性，性能上的高效性，要以模块化架构为指导，按照应用独立原则进行系统设计和架构规划。充分考虑到未来可能出现的新业务和可能出现的一些变化，在解决现有实际需要的前提下，可灵活扩展本系统，使系统具备较强的适应能力。1.3.2 可性本系统必须提供有效的系统和软硬件工具，具有检错、纠错能力，并提供有效的故障排除，在系统出

5、现故障时，应能够在较短的时间内恢复系统运行。1.3.3 可扩展性系统间采用松散耦合架构。用户可以根据自己业务增长的实际情况，对相应3的业务子系统进行独立升级和扩容；系统支持在规模、处理能力、容量、网络负载带宽、工作流程等方面的升级扩充，平滑升级。1.3.4 标准化为实现系统之间的互连互通，以及提高本系统内各模块的可替换能力，系统必须采用标准化的接口；同时，投标人所提供的系统必须以 IETF、ECMA、W3C、OASIS 等相关国际、及广电行业标准为规范，对于目前尚无可参照标准的部分，投标人要作特别说明，并承诺在相关标准出台后，无偿对本次投标系统进行升级以符合新标准。1.3.5 先进适用性保证整

6、体系统适用于业务需求的前提下，采用先进的系统架构及技术。系统总体设计具有一定的超前性，保证系统能够在业界具有领先地位。1.4 系统设计1.4.1 数据来源数据来源分为收视率、网页、三大类。电视收视数据可采用央视的收视率数据。社交数据可采用的央视栏目和频道的官微数据。互联网页数据可采用 CNTV 和新浪等主流发布的文章。各个数据量的估算如下：37 个栏目和频道贴吧星光大道，我要上，梦想星搭档，开门大吉，CCTV，CCTV5，央视新闻，中国好歌曲每天收集300 个帖子网页4CNTV 国内，新浪-广播电视，新浪-移动互联网每天收集400 个文章1.4.2 技术路线本项目所需产品均采用开源架构、所需服

7、务器可以租用或开源计算资源。首先，大数据的数据量非常庞大，计算这些海量数据必须依托一些成本低廉的计算资源，不一定非要自己建立庞大的计算资源，而是可以利用社会资源进行数据计算。另外，这些海量数据如果采用的是数据库将意味着极其高昂的成层面的 NoSQL本，庆幸的是，很多开源的项目可以来解决相关问题，例如数据库 MongoDB，分析层面的，R，展现层面的 ECharts 等等，正是有了这些开源的项目，大家才有可能用一个低成本的方式实现大数据的挖掘、处理和分析。1.4.3 技术架构HTML图 2 技术架构5展现层服务层模块层接口适配层API网页数据数据账号配置任务增删改查按需定制化配置常规计划性配置日

8、志查询系统配置数据搜索图表展现任务本项目技术架构分为接口层、模块层、服务层、展现层四部分。接口层：负责数据和整理工作。数据包括互联网，如 CNTV，新浪；社交网络，如的内容、粉丝数等信息；收视率数据，来自央视收视率；这些数据经过洗刷后分布在计算节点上。模块层：负责的功能模块的实现。模块分为基础和高级模块，基础模块包括任务的增删改查、账号设置、当前用户内容、评论、转发、用户信息、关注用户、粉丝信息功能。这些功能对于新浪是免费无需的。高级模块包括查询，第用户内容、评论、转发、用户信息、关注用户、粉丝信息功能。这些功能是向新浪获取高级后才能使用的。服务层：负责提供常规计划性和定制化的配置，管理，日志

9、管理，搜索服务，以及数据统计分析服务。常规计划性会每天定时相关数据，包括指定每天内容、评论和转发内容，粉丝数，每日的文章、帖子等。按需定制化会对于用户的特殊需求，如统计特定包含关键字的搜索历史数据，需提前配置好后进行。管理会负责 MongoDB、等数据库的连接、查询。日志管理可以提供日志查询和错误告警功能。统计分析模块负责数据统计、分词聚类、情感分析等等分析计算工作。展现层：负责将计算结果将以各种方式展现给最终用户，如线图，饼图，报表，力图，等。同时提供任务进度的、数据搜索、系统管理、用户管理等功能。61.4.4 开发架构71.4.5 部署架构（火车头网页、贴吧）贴吧、贴吧、抓取Tomcat抓

10、取API）MongoDB（调用数据挖掘前端图 4 部署架构1）贴吧、服务器利用“火车头”从互联网上和贴吧，并调用部署在 Tomcat 上的 JSP 程序对到的文档进行；2）抓取服务器调用API 获取数据，并在 MongoDB 中；3）数据挖掘服务器上的NLP 处理，并将结果保存到程序分析对到的数据进行各种统计分析和中；4）前端应用调用相应的 API 获取前一步的分析结果并在客户端展现。服务器配置：机架式服务器，英特尔至强处理器 E5-2400双路，12GB 内存，120GB。1.5 大数据能力设计大数据能力需打破传统数据仓库不能线性扩展、可控性差的局限，一期须提供满足智能引擎需求的底层的

11、、计算、查询能力，并且需根据数据量大小、计算复杂度等特定情况，在引入新的计算要求时，进行优化、改造和扩8JSPTomcat容。1.5.1 应用架构大数据能力应用架构如下：图 5应用架构数据层数据层将支持两种数据来源：结构化数据和非结构化数据。结构化数据是传统在数据库里，可以用二维表结构来逻辑表达实现的数据。相反，不方便用数据库二维逻辑表来表现的数据即称为非结构化数据，包括所有格式的办公文档、文本、标准通用标记语言下的子集 XML、HTML、各类报表、图像信息等等。各类数据的关系如下图所示：和音频/9图 6数据类型优先支持要求的数据类型。即37 个栏目和频道贴吧星光大道，我要上，梦想星搭档，开

12、门大吉，CCTV，CCTV5，央视，中国好歌曲每天收集300 个帖子网页CNTV 国内每天收集，新浪-广播电视，新浪400 个文章-移动互联网计算层计算层负责数据外部抓取，离线数据处理，流式数据的处理等基础性计算任务。大数据能力的计算能力用于大规模数据集的并行计算，须满足对数据的大规模的文字处理、数据挖掘、机器学习、规模统计等操作。可提供可靠、高效、可伸缩低成本的计算引擎。数据处理和计算分为“离线数据处理”和“实时流数据处理”两大类。大数据对传统数据仓库技术也带来了。传统数据仓库是尽量把所有数据集中在一个地方，通过一次次的数据整合、洗刷形成完整的尽可能高的采样率。但是大数10据时代的数据量已

13、经不可能集中一处处理，只能是采用分布式的和和计算系统。把海量数据分布在了大量个节点的 Hadoop 和 MongoDB 集群中，在此基础上开发了不同的计算任务。，有的任务统计收视，有的统计总收视，有的计算内容相似度，有的计算结果。各个节点计算一部分数据，然后每个节点的中间结果最终计算结果，即 Map/Reduce。图 7分布式计算任务大数据处理须采用非结构化支撑，具体支持功能如下：.实现分配：主要包括块的大小、缓冲区大小和个数等；采用表分区(Partition)技术对事实表进行分区；对查询分析效率要求比较高的应用采用联机分析处理(OLAP)；采用磁盘阵列(RAID)技术提高数据的

14、效率；将索引数据与表数据在不同的表空间；5.实现并行处理：可根据具体情况采用相关的方法对数据结构进行优化，6.以满足数据的要求。层大数据需根据数据的重要程度、使用频率以及响应时间的要求将不同类的数据分别在不同的设备中。因此，层需考虑对不同来源和用途的11数据的分开。对于数据量相对稳定的内容元数据，用户元数据等信息还是适合在传统关系型数据库中。而对于大量的日志、行为数据和文本等信息，适合在非结构化的 NoSQL数据库和分布式文件系统（DFS）中。NoSQL 数据库是指其字段长度可变，并且每个字段的又可以由可重复或不可重复的子字段的数据库，用它不仅可以处理结构化数据（如数字、符号等信息）而且更适合

15、处理非结构化数据（全文文本、图像、声音、影视、超等信息）。与以往流行的关系数据库相比，其最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限制，支持重复字段、子字段以及变长字段并实现了对变长数据和重复字段进行处理和数据项的变长管理，在处理连续信息（包括全文信息）和非结构化信息（包括各种多信息）中有着传统关系型数据库所无法比拟的优势。对于最终计算分析出来的结果数据将还是存入关系型数据库/数据仓库中，以便于集中管理和前端应用的查询。查询层由于不同的数据在不同的数据库和介质中。大数据时代的要求就是变成对各种类型数据的联合查询。设计的查询方式包括：传统的 SQL，像 Hive 之类的类 SQ

16、L和基于 NoSQL 的查询语句。大数据能力须提供面向分布式数据库的查询，提供查询语言的，并将查询语句转译成计算工作在大数据处理集群中执行，达到快速响应的要求。同时数据查询需要支持多种展现形式，如命令行，客户端或浏览器方式查询数据。业务层大数据应用的最终体现方式可以分为三大类：分析、展现、。分析可以是各种数据统计、内容分析、用户分析、经营分析。：12图 8 数据统计展现，即数据可视化，是大量的数据集数据图像，同时将数据的各个属性值以数据的形式表示，可以从不同的维度观察数据，从而对数据进行更深入的观察和分析。：图 9 数据展现大数据的应用是，即未来某个时间点事件的发展趋势。例如，通过13的热议

17、话题可以今年的收视率是多少，这在以前是很难做到或者的，但现在通过对评论、相关内容点击查看等各种行为数据的分析，计算出今年可能的收视率。当然，大数据仍然可以用来做传统的分析，例如用户在看电视的时候换台了，为什么换台，可以分析所有的用户行为数据，发现有可能播了一个广告就换台了，通过这些数据的分析来学习用户的行为，对编排和广告投放时间点做出调整。作为的一种应用，综合利用用户的行为、属性，对象的属性、内容、分类，以及用户之间的社交关系等等，挖掘用户的喜好和需求，主用户其感或者需要的对象。1.5.2 开发架构大数据在云计算和开源两个前提下才可能变成的一种技术趋势。首先，大数据的数据量非常庞大，计算这些海

18、量数据必须依托一些成本低廉的计算资源，现在已经有很多的企业可以提供这样的云计算资源，有的，也有开源的，所以不一定非要自己建立庞大的计算资源，而是可以利用社会资源进行数据计算。另外，这些海量数据如果采用的是数据库将意味着极其高昂的成本，庆幸的是，很多开源的项目可以来解决相关问题，例如层面的分布式文件系统 HDFS，工具 Flume，数据查询层面的方面的分布式NoSQL 数据库 MongoDB 等等，正是有了这些开源的项目，大家才有可能用一个低成本的方式实现大数据的挖掘、处理和分析。采用的大数据开发架构如下：14图 10 开发组件 HadoopHadoop 是一个分布式系统基础架构，由 Apach

19、e所开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的高速运算和。Hadoop 实现了一个分布式文件系统（Hadoop Distributed File System），简称 HDFS。 HDFS 有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高传输率（high throughput）来应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS 放宽了（relax）IX的要求，可以以流的形式（streaming acs）文件系统中的数据。Hadoop 是一个能够对大量数据进行分布式处理的是以一种可靠、高

20、效、可伸缩的方式进行处理的。框架。但是 HadoopHadoop 是可靠的，因为它假设计算元素和会失败，因此它多个工作数据副本，确保能够针对失败的节点重新分布处理。HadoopHadoop是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。还是可伸缩的，能够处理 PB 级数据。此外，Hadoop 依赖于社区服务，因此它的成本比较低，任何人都可以使用。Hadoop 是一个能够让用户轻松架构和使用的分布式计算。用户可以轻15松地在Hadoop 上开发和运行处理海量数据的应用程序。它主要有以下几个优点：高可靠性。Hadoop 按位和处理数据的能力值得人们信赖。高扩展性。Hadoop 是在可用

21、的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。高效性。Hadoop 能够在节点之间动态地移动数据，态平衡，因此处理速度非常快。各个节点的动高容错性。Hadoop 能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。低成本。与、数据仓库以及 QlikView、Yonghong Z-Suite 等数据集市相比，Hadoop 是开源的，项目的成本因此会大大降低。 HDFSHadoop 分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式

22、文件系统的区别也是很明显的。HDFS 是一个高度容错性的系统，适合部署在廉价的机器上。HDFS 能提供高吞吐量的数据，非常适合大规模数据集上的应用。 HDFS 放宽了一部分IX 约束，来实现流式文件系统数据的目的。HDFS 在最开始是作为 Apache Nh 搜索引擎项目的基础架构而开发的。HDFS 是 Apache Hadoop Core 项目的一部分。运行在 HDFS 之上的程序有很大量的数据集。典型的 HDFS 文件大小是 GB到 TB 的级别。所以，HDFS 被调整成支持大文件。它应该提供很高的聚合数据带宽，一个集群中支持数百个节点，一个集群中还应该支持千万级别的文件。其优势在于：1.

23、简单一致性模型大部分的 HDFS 程序对文件操作需要的是一次写多次的操作模式。一个文件一旦创建、写入、关闭之后就不需要修改了。这个假定简单化了数据一致的问题并使高吞吐量的数据变得可能。一个 Map-Reduce 程序或者网络爬虫程序都可以完美地适合这个模型。2.移动计算比移动数据更经济16在靠近计算数据所的位置来进行计算是最理想的状态，尤其是在数据集特别巨大的时候。这样消除了网络的拥堵，提高了系统的整体吞吐量。一个假定就是迁移计算到离数据更近的位置比将数据移动到程序运行更近的位置要更好。HDFS 提供了接口，来让程序将自己移动到离数据更近的位置。3.异构软硬件间的可移植性HDFS 被设计成可以

24、简便地实现间的迁移，这将推动需要大数据集的应用更广泛地采用 HDFS 作为。 MongoDBMongoDB 的文档模型灵活，可以让你在开发过程中畅顺无比。对于大数据量、高并发、弱事务的互联网应用，MongoDB 可以应对自如。MongoDB 内置的水平扩展机制提供了从百万到十亿级别的数据量处理能力，完全可以满足Web2.0 和移动互联网的数据的运维成本。需求，其开箱即用的特性也大大降低了中小型 HiveHive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件为一张数据库表，并提供简单的 SQL 查询功能，可以将 SQL 语句转换为MapReduce任务进行运行。其优点是学习

25、成本低，可以通过类 SQL 语句快速实现简单的 MapReduce 统计，不必开发专门的 MapReduce 应用，十分适合数据仓库的统计分析。Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取、转化、加载（ETL），这是一种可以、查询和分析在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper和 reducer 无法完成的复杂的分析工作。H

26、ive 没有专门的数据格式。 Hive 可以很好的工作在 Thrift 之上，控制分17隔符，也允许用户指定数据格式。 SolrSolr 是一个基于 Lucene 的 Java 搜索引擎服务器。Solr 提供了层面搜索、命中醒目显示并且支持多种输出格式（包括 XML/XSLT 和 JSON 格式）。它易于安装和配置，而且附带了一个基于 HTTP 的管理界面。Solr 已经在众多大型的中使用，较为成熟和稳定。Solr 包装并扩展了 Lucene，所以 Solr 的基本上沿用了 Lucene 的相关术语。更重要的是，Solr 创建的索引与 Lucene 搜索引擎库完全兼容。通过对 Solr 进行适

27、当的配置，某些情况下可能需要进行编码，Solr可以阅读和使用构建到其他 Lucene 应用程序中的索引。此外，很多 Lucene 工具（如 Nh、 Luke）也可以使用 Solr 创建的索引。Solr 对外提供标准的 http 接口来实现对数据的索引的增加、删除、修改、查询。在 Solr 中，用户通过向部署在 servlet 容器中的 Solr Web 应用程序发送HTTP 请求来启动索引和搜索。 Solr 接受请求，确定要使用的适当 SolrRequesndler，然后处理请求。通过 HTTP 以同样的方式返回响应。默认配置返回 Solr 的标准 XML 响应，也可以配置 Solr 的备用响

28、应格式。可以向 Solr 索引 servlet 传递四个不同的索引请求：add/update 允许向 Solr 添加文档或更新文档。直到提交后才能搜索到这些添加和更新。commit 告诉 Solr，应该使上次提交以来所做的所有更改都可以搜索到。 optimize 重构 Lucene 的文件以改进搜索性能。索引完成后执行一下优化通常比较好。如果更新比较频繁，则应该在使用率较低的时候安排优化。一个索引无需优化也可以正常地运行。优化是一个耗时较多的过程。delete 可以通过 id 或查询来指定。按 id 删除将删除具有指定 id 的文档；按查询删除将删除查询返回的所有文档。是一种解释型、面象、动态

29、数据类型的高级程序设计语言。自从1820 世纪 90 年代初和 Web 编程。被 TIOBE 编程语言用率是呈线性增长。语言诞生至今，它逐渐被广泛应用于处理系统管理任务已经成为最受欢迎的程序设计语言之一。2011 年 1 月，它2010 年度语言。自从 2004 年以后，榜的使由于语言的简洁、易读以及可扩展性，在国外用做科学计算的研究机构日益增多，一些知名大学已经采用教授程序设计课程。例如麻省理工学院的计算机科学及编程导论课程就使用语言讲授。众多开源的科学计算包都提供了的调用接口，例如著名的计算机视觉库OpenCV、三维可视化库 VTK、医学图像处理库 ITK。而的科学计算扩展库就了，例如如下

30、 3 个十分经典的科学计算扩展库：NumPy、SciPy 和matplotlib，它们分别为提供了快速数组处理、数值运算以及绘图功能。因此语言及其众多的扩展库所的开发环境十分适合工程技术、科研处理实验数据、制作图表，甚至开发科学计算应用程序。 RR 语言是主要用于统计分析、绘图的语言和操作环境。R 本来是由来自新西兰奥克兰大学的 Ross Ihaka 和 Robert Gentleman 开发（也因此称为 R），现在由“R 开发团队”负责开发。 R 是基于 S 语言的一个 GNU 项目，所以也可以当作 S 语言的一种实现，通常用 S 语言编写的代码都可以不作修改的在 R 环境下运行。 R 的语

31、法是来自 Scheme。R 是一套完整的数据处理、计算和制图系统。其功能包括：数据和处理系统；数组运算工具（其向量、矩阵运算方面功能尤其强大）；完整连贯的统计分析工具；优秀的统计制图功能；简便而强大的编程语言：可数据的输入和输出，可实现分支、循环，用户可自定义功能。 HightChartsHighcharts 是一个用纯 JavaScript 编写的一个图表库, 能够很简单便捷的在或是 web 应用程序添加有交互性的图表，并且免费提供给个人学习、个web19人和非商业用途使用。HighCharts 支持的图表类型有曲线图、区域图、柱状图、饼状图、散状点图和综合图表。HighCharts 界面美

32、观，由于使用 JavaScript 编写，所以不需要像 Flash 和 Java那样需要插件才可以运行，而且运行速度快。另外 HighCharts 还有很好的兼容性，能够完美支持当前大多数浏览器。1.6 数据流向设计202 总体技术路线具体实验系统实施分为 6 个步骤：可行性研究、系统设计、系统开发、系统测试、联调部署及模型验证及调整。1. 可行性研究通过需求分析、技术分析对本项目的业务合理性和技术可行性进行综合评价，即确定项目的研究方向、研究目标和的主要问题，从业务和技术角度进行全面的分析研究，并对其应用后的效果进行，在既定的范围内进行方案论证的选择，从而确定项目是否可行，并合理地利用资源，

33、达到预定的效果和效益。2系统设计根据系统分析阶段所确定的功能和非功能要求，在用户提供的环境条件下，设计出一个能在实际环境上实施的方案，确定实际的、统计、分析的业务流程、分布式和计算的技术路线、分析的技术架构和开发架构、各个功能模块的设计、接口设计、算法模型的设计、数据库设计、部署架构等等。3. 系统开发根据系统设计的方案、组织开发进行各个模块和接口的实际开发，包括的功能的算法的开发、调试、编写和提交程序。最终实现大数据的采集和分析功能。4. 系统测试通过功能测试，首先满足现阶段系统设计的功能要求，并修复系统存在的bug 和。5. 联调部署在台内实际服务器环境中部署大分析系统，数据来源均是真实有

34、效数据，分析结果与各栏目实际关联。6. 模型验证及调整经过数据处理和计算后，运用各种交叉分析计算模型和算法可以向栏目组提创律,同时在实供即时收视数据分析及社交分析，发掘潜在的际创新中验证并改进计算模型。2133.1问题和技术创新3.1.1 大数据及处理这些海量数据如果采用的是数据库将意味着极其高昂的成本，庆幸的是，很多开源的项目可以来解决相关问题，例如数据层面的 NoSQL 数据库 MongoDB 等，正是有了这些开源的项目，才有可能用一个低成本的方式实现大数据的和处理。3.1.2 数据挖掘和分析通过对各种数据多层次、多角度的数据挖掘和统计分析，结合各种计算关联模型和算法，得到的相关统计、力分

35、析、情感倾向等分析。具体涉及到了数据统计、聚类算法、词性标注、分词模块、概率模型、僵尸粉识别和情感分析等技术。3.1.3 数据可视化展现分析结果如何能让业务简单明了的理解，需要各种数据可视化的展现手段，例如线图、饼图、倾向性、力图、地图等等。各种丰富直观的图表运用有助于用户次的理解数据背后的意义和发现数据的潜在规律，从而更好的指导现有工作。3.2 技术创新1.多种数据融合：首次将台内收视率等传统广电数据与互联网社交、，数据联合，联合分析。2.大数据分析：适应大数据时代的技术，将传统基于数据仓库的数据挖掘和分析技术往大数据分布式和计算方式转变。3.新的分析模型：提出适应的计算分析模型，从而发现收

36、视数据22和社交的关系，发掘潜在的创律。4.数据可视化：提供丰富的数据可视化展现，以助于用户次的理解数据背后的意义和发现数据的潜在规律，从而更好的指导现有工作。234 功能设计4.1可以分为基础任务和高级任务。基础任务是开发者账号享有的免费功能，比如获取自有的内容，评论和个人信息等。高级任务是开发者账号享有的高级权限功能，比如获取第账号，粉丝列表，关键词搜索结果等。页面设计如图：图 12抓取任务管理设计4.2数据统计当完成后，会进行必要的和基本的统计，主要统计的指标有：统计：提及栏目关键字数和用户数；官微统计：官微的评论数、转发数、数。页面设计如下：24图 13统计设计4.3口碑分析口碑分析是

37、指提取对搜索的所有回复，并给出网友提及的情感进行判断，并得出正面、和中立的情感比例。同时提取正面和情感最高的三条显示出来。页面设计如下：图 14口碑分析功能设计254.4偏好度偏好度分析是指对贴吧回复和网页文章的情感分析。对提及的情感进行判断，并得出正面、和中立的情感比例。同时提取正面和负面情感最高的贴吧标题并显示出来。页面设计如下：图 15偏好度功能设计4.5看点提及看点提及是指提取对所有分析，给出提及的关键词，并按提及比例排序。同时会提取含有比例最高的三条显示出来，以帮助理解背后的意义。页面设计如下：26图 16看点功能设计4.6网友评论高频词网友评论高频词是指提取对的所有网友的回复分析，给出提及的，并按关键字提及比例排序。同时会提取含有比例最高的相关评论显示出来，以帮助理解背后的意义。页面设计如下：27图 17评论高频词功能设计4.7综合评价综合评价是指对有一个综合的结论性评价，评价指标包括：好评和差评的数量，平滑出一个 0-100 的综合评价；转发和回复的数量，平滑出一个 0-1

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

03.节目相关大数据的收集、存储分析及应用研究项目系统设计方案

文档简介

温馨提示

最新文档

评论

相关文档