【网络舆情】网络舆情分析_第1页
【网络舆情】网络舆情分析_第2页
【网络舆情】网络舆情分析_第3页
【网络舆情】网络舆情分析_第4页
【网络舆情】网络舆情分析_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

【网络舆情】网络舆情分析

一、网络舆情定义

狭义上的舆情是指作为主体的民众对作为客体的国

家管理者产生和持有的社会政治态度。简而言之,舆

情就是指民众的社会政治态度。广义上的舆情通俗地

讲就是社情民意,是指社会各阶层民众对社会存在和

发展所持有的情绪、态度、看法、意见和行为倾向。

狭义上的网络舆情是指在网络上传播、作为主体的民

众对作为客体的国家管理者所持有的社会政治态度。

广义上的网络舆情是指反映在网络上,民众对社会事

件、社会现象、社会主体所持有的情绪、意见、态度,

以及民众所具有的对社会事件、社会现象、社会主体

有直接或间接影响的行为倾向。

二、网络舆情分析概述

舆情分析也称倾向性分析(OrientationAnalysis)s

观点分析(OpinionAnalysis)或者统计调查,是借

助于技术手段对大众就某一个(些)事物或者某一个

(些)事务的看法进行了解。

传统的舆情分析,通常采用采样调查方式,也称为民

意调查或者市场调查,被广泛地应用于选举预测、产

品市场预研、市场评估等领域,更有专业的市场调查

公司来提供这样的调查服务。采洋调查的渠道包括电

话采访、面对面采访、邮寄问答表格等。但这些做法

都存在人力消耗大、采样数量偏少的问题,还有答卷

及答题的可选项设计可能存在偏差,被调查者也由于

各种原则隐匿个人真实想法等问题。所以,传统舆情

分析的研究点在于如何设计问卷、如何确定样本量和

样本选择方法等。

随着互联网各类应用中对用户生成内容功能的支持,

尤其是互联网社交网络、博客、微博等信息发布平台

的兴盛,个人表达自己观点的渠道日益畅通,手段日

益便捷。更可贵的是,信息的流动不再是单方向的。

报纸的信息流动是从报纸到读者,而在互联网应用

中,可以方便地通过“评论”、“回复”等技术手段,

使信息流动变成双向的,甚至评论和回复成为信息中

的有机组成部分,进一步地丰富原有信息的内容。例

如,在淘宝应用中,人们通常会将评论的内容作为对

商品描述的一个补充。

因此,从互联网上主动地收集信息,用数据挖掘方法

或者自然语言处理的方法来分析信息中用户的观点,

成为当前舆情分析的一种非常重要和直接的手段,也

就是“网络舆情分析”。

1、网络舆情分析简介

网络舆情分析用数据说话,跟踪网络舆情的起源和演

变,最终是为了给出建议性结果,它渐渐成为政府、

企业乃至个人都需要的舆情应对基础。网络舆情分析

有2个工作重点:一是还原舆情发展过程,找到舆情

产生的根源;二是预测,分析出网络舆情的未来走向,

再根据预测结果提出应对方案。

网络舆情分析的主体是网络舆情分析师,对此,各界

有多层次的解读。

网络舆情分析面临着与传统舆情分析完全不同的问

题和研究难点。传统舆情的样本存在内容有效性较高

但样本数量少的问题;在网络舆情分析中,则存在信

息数量巨大但信息有效性差的问题。信息有效性差的

原因有很多,首先是难以确定信息来源,其次信息中

的观点大都是附带的,很多并非有意为之。但正因为

如此,网络舆情分析具备传统舆情分析不可替代的优

势:一是无答卷设计问题,信息中反映的观点较为真

实;二是数据多,成本低廉,采样广泛,很大程度上

弥补了信息来源不确定的问题,宏观上能更好地反映

真实舆情。网络舆情分析还有一个特别的优势在于能

长时间重复地进行舆情分析,对舆情趋势及其变化的

把握更为及时。

由于网络舆情分析具备传统舆情分析所不具备的一

些优势,因此,网络舆情系统理论上可以有更全面和

细致的分析成果。但由于网络舆情系统的分析是基于

在互联网中收集到的文本等信息,而同时自然语言处

理技术在现阶段存在很大的局限性,即机器并不能真

正做到理解人的语言,网络舆情系统在现阶段还不能

做到尽善尽美,因此,网络舆情系统的发展空间非常

大。

网络舆情分析系统如图1所示,可以大体分为4个层

次。图1简要列举了每一层可能具备的分析模块(更

多的分析模块没有在图中列出)。信息采集层负责收

集互联网上的信息(以文本为主,多媒体信息为辅),

并将它们整理存储下来。趋势分析层实现对信息的进

一步整理,识别话题(连续时间框架下有关某一主题

的相关信息)的延续和传播,将信息组织为话题。根

据信息传播的广度、发展时间的长短等数据判断热

点,实现对热点的识别,并持续地进行跟踪、观察和

统计。大数据分析层从大数据处理、互联网纵深角度,

将多源数据进行融合,将零散的信息整合起来,从而

能够得到一个更为全面的视图。语义分析层借助自然

语言处理技术,对话题信息进行进一步的处理,得出

信息发布者对话题的倾向性看法,抽取出信息发布者

的观点,最终达成传统舆情分析所能够达到的分析深

度。

n

图1网络舆情系统基本模块

2、网络舆情分析市场需求

经过多年发展,网络舆情服务的市场已日趋成熟,并

发展出多层次的业务需求。

由于近年来我国网络舆情危机事件多爆发在城管、维

稳、拆迁、上访等领域,政府部门往往是危机事件的

涉事主体,所以,政法舆情发展迅速。目前,敏感领

域的政府部门多数都设置了网络舆情监测部门,或者

设置专人进行网络舆情监测。

从服务内容来看,主要有以下几类:

(1)适时、动态的舆情预警服务,这类服务一般为

全天候24h不间断的舆情预警,一旦发现负面舆情,

及时上报客户;

(2)基于网络舆情监测系统的智能分析,通过向客

户提供智能分析系统满足舆情服务;

(3)针对日常性负面舆情或某一特定事件进行监测

与趋势研判,主要体现在各类舆情报告中,如日报、

周报、月报、专报;

(4)舆情修复,为客户策划访谈节目、设置网络专

题,有针对性地解读舆情事件,引导舆论发展方向,

降低舆情事件风险;

(5)为客户提供网络舆情管理师、分析师等专业培

训,扩充专业舆情人才队伍;

(6)建立舆情研判指标体系,发布舆情榜单、报告,

如网络舆论形象排行榜、政务微博排行榜、政务微博

报告等。

3、网络舆情分析特征

(1)跨学科研究

在中国知网,以“网络舆情分析”为关键词进行检索,

多篇文献来自情报学、新闻学、社会学、政治学领域。

其中,情报学主要针对舆情抓取阶段,通过系统建模

的方法,致力于早期发现网络舆情,包括层次分析法、

网页挖掘、聚类、炳理论、文本挖掘等;新闻学主要

涉及舆情传播阶段,探讨新媒体与传统媒体的发展以

及传播影响力、媒体关系以及舆论引导等;社会学和

政治学则多致力于寻求解决方案,对舆情事件进行深

度剖析,观察个体事件乃至大形势对参政议政以及社

会阶层变动的影响。

这一跨学科特征也在“网络舆情分析师”招聘信息中

得以充分体现,综合多个招聘网站,专业要求多为具

有政治学、社会学、经济学、统计学、新闻传播学、

公共管理学等多学科知识与跨学科视野。

(2)技术与文字的关系

从网络舆情分析发展历史来看,技术应用经历了2

个阶段:人工搜索阶段和引入舆情监测软件阶段。早

期网络舆情分析服务于特定对象(多为政府特殊部门

或高层),搜索引擎数据更多被看作选题是否热门的

一个重要指标,在搜索之外,则依赖于分析师自身业

务素养,尤其对话题重要性、敏感性的判断,以及对

重要舆论观点的抓取、提炼和升华,综合研判出重大

事件的舆论动向。

近年来,随着技术的发展,涌现出大量舆情监测软件,

更有不少是基于大数据和云计算技术,给网络舆情分

析带来了有力的工具。据统计,中国网民每天发布和

转发微博信息达2.5亿条,每天发送微信等即时通信

工具信息超过200亿条。根据对新浪微博和腾讯微信

等7家网站所发帖文的统计,在网民关注的20大热

点事件中,前12位的帖文都超过了200万条,其中,

排第一位的帖文数量超过4500万条。如此千万数量

级的网络舆情事件,其分析研判是无法通过纯人工搜

索能够实现的。

从功能上看,一些舆情监测软件可实现危机预警和基

础研判,如输入关键词和监测时间,即可得到信息源

类别分析、舆论倾向性分析、传播路径分析、高频热

词分析、人物关系图谱等,甚至无需再经过人工分析

研判即可形成简易舆情报告。

然而,对技术的过度应用也会引发担忧。网络舆情管

理出现技术主义倾向,其赋予舆情监测技术压倒性的

优先地位,由此产生技术依赖,将舆情管理的目标抽

象为实证主义或实用主义的目的一一平息舆论热点,

依靠舆情监测人员等技术人员实现。技术主义倾向带

来的问题包括解决重大问题无能为力、市场权力对政

治权威的侵蚀、市场因迎合政治需要而损害民众利

益、“为民意”成为科学决策的噪音、检测技术本身

不完善导致的缺陷和价值目标单一引发的身份危机。

简言之,即使通过舆情监测分析系统导出的结果有炫

目的视觉效果、分析结论一目了然,但这类通过技术

层面可实现的网络舆情分析仍停留在较低的层次,更

高层次的舆情处置与引导建议、智库服务等,仍有赖

于分析师的脑力付出。

三、网络舆情分析关键技术

1、信息采集技术概要

信息采集技术,顾名思义是在互联网可公开访问的信

息中下载和收集的技术。互联网上的信息采集主要由

网络爬虫来实现。网络爬虫是一种按照一定的规则、

自动抓取(即下载)互联网信息的程序或者脚本。爬

虫存在的意义在于互联网上的信息发布是分散的和

独立的,但信息间又是相互连接的(超链接)。爬虫

就在超链接所建立的网上穿梭,这是爬虫又被称为蜘

蛛的原因。

由于互联网资源规模巨大,而下载需要时间,所以,

网络爬虫都采用多进程或者多线程,甚至是分布式方

式同时下载多个网络资源(文本、图片、音频或视频

等),也就是说这是一项群体作业,爬虫们(下载器)

集体完成抓取的任务(这也是网络爬虫又被称为蚂蚁

的原因)。如图2所示,爬虫的工作从一个初始的下

载队列开始,随着下载发现更多的URL(如网页上的

链接可供发现更多的URL)不断被补充到下载队列

中,由调度中心来决定下载哪些URL(称为选择策

略),并将下载任务分配给各个下载器。

图2网络爬虫工作

针对不同的服务对象,网络爬虫的行为有很大的不

同,它们的分工比工蚁和兵蚁的分工更为细致和多

样。服务于搜索引擎等搜索类应用的网络爬虫,它们

的信息抓取规则是尽可能地覆盖更多的互联网网站,

单一网站内的搜索深度要求不高。但在针对性进行信

息收集的应用中,如舆情分析系统,则要求它的网络

爬虫具备高搜索深度和一定的主题选择能力。具有高

搜索深度的爬虫被称为路径追溯爬虫,该类爬虫尽可

能深入地抓取给定网站的全部资源。具有主题选择能

力的爬虫被称为主题爬虫,该类爬虫会判断抓取的资

源是否属于用户指定的主题,并持续对有关给定主题

的网页进行搜索和抓取。

举例而言,某公司C为了了解该公司的某类产品P

的市场反映而进行的网络舆情分析,可以采用主题爬

虫来进行网络内容抓取。用户定义主题可以采用关键

词方式,例如,可采用产品P的名称,或者产品P

的一些属性(型号、部件等)来定义主题。用户还可

以采用介绍产品P的一段文字或者一篇文章来定义

主题。定义主题时要做到准确,以方便爬虫对抓取内

容做出正确的判断。主题爬虫同洋需要一个初始的下

载队列来启动抓取任务,一般来讲,可以在搜索引擎

搜索用户给定的关键词,用搜索引擎返回的一组结果

作为初始下载队列。如果公司C了解在互联网上有某

些网站具备特别多的同类商品评论,那么网络舆情分

析系统也可以采用路径追溯爬虫对这些网站进行深

度抓取。

通常舆情分析系统采用的爬虫是以上介绍的两类爬

虫的组合,并做一定的定制改动。首先,随着网络技

术的复杂化,网络爬虫也面临着越来越多的新问题,

如支持Frame的网页的处理、登录页面的处理等。其

次,智能手持设备及相应应用(如微信手机版)的发

展,使互联网资源的下载必须从单纯模拟浏览器浏览

行为的爬虫,发展为能够模拟操作APP的爬虫。然后,

对于个性化定制内容的网站(微博和微信都属于此类

网站,每一个用户登录后所得到的信息内容均不相

同),如何持续保持登录状态、如何自动修改定制(如

加关注)以得到更多信息都是在此类网站抓取信息需

要处理的问题。

设计一款慢速的爬虫是一件非常简单的事情,但设计

和实现一个下载量大、速度快又稳定的高性能爬虫,

那就面临着全方面的挑战。

2、信息采集技术的特点

目的:及时、准确、全面地采集境内外互联网信息。

范围:境内信源包括新闻网站(PC端和移动客户端)、

论坛、博客、微博、微信公众号;境外采集范围主要

包括境外主流媒体,Twitter、Facebook等境外自媒

体,以及非政府组织、智库等特殊机构网站,如表1

所示。

表1某网络信息采集系统信息监测范围

工具:

(1)人工检索,借助于商业搜索引擎这样的开放性

工具,实时进行监测,常用的有百度搜索(新闻、网

页等)、新浪/'腾讯微博搜索(微博)、搜狗搜索引

擎(微信),舆情分析师若能通过日常积累建立针对

性的新闻库和意见领袖库,将极大优化人工检索结

果;

(2)使用专业网络舆情监测系统,可实现跨屏、跨

库、跨区域、跨媒介的全方位信息收集。二者进行比

较发现,后者的优势在于自动抓取、定向抓取、全网

抓取、高频率更新(可达分钟级)、海量数据处理,

并可实现一定程度的后台过滤,前者的优势则在于分

析研判融于监测过程之中,根据情况知悉语言变化并

及时截图留存敏感信息,大大减少遗漏或损失重要信

息的情况。目前,在实际使用中,很多专业舆情服务

机构均采取二者交替使用的方式,甚至有个别机构,

仅仅是借助人工检索即可写出高质量的舆情研判报

告,并获得一些政府机构的点名表扬。

3、其他信息获取平台简介

(1)网络调查/投票

网络调查,又称在线调查,是指通过互联网及其调查

系统把传统的调查、分析方法在线化、智能化。网络

舆情事件发生后,媒体、论坛、矶构频繁使用此种方

式,选题多为主要观点、情感倾向、建议方案等,具

有一定随机性,此类线索主要靠人工发现,如新闻客

户端互动栏目、微博微信分享等,也有媒体根据调查

结果发布新闻稿件。在一些特定重大事件中,也有相

对常规的网络调查,如每年全国两会前新华网、人民

网均会进行两会调查。

(2)媒体、社交平台热门话题排行

根据后台信息提供热门新闻、热门话题排行榜,指标

有点击量、评论数、分享数、参与数等,排序时间段

一般为1h、24h、一周等。通过热门排行入口可大

大缩短对特定事件聚合信息、评论的搜集过程。

(3)后台信息

公开渠道无法获得,可根据需要向相关单位提出明确

数据需求,一般适用于特定话题、特定领域、特定群

体。

4、舆情内容融合分析

(1)舆论环境背景分析

网络舆情事件均发生在一定的背景下,舆情分析的首

要工作即了解其舆论环境背景。

一般舆情报告中,舆论环境背景分析不独立成章,而

是融合在多个版块,舆论环境背景分析的广度和深

度,是决定分析研判水平高低的重要因素。

分析内容有:

①在同类或相近网络舆情事件中,是否有与此次事件

类似的情况,对应的舆情反应和舆情处置,并从根源

解读网民心理和行为;

②了解新媒体时代网络信息传播规律,知悉新闻传播

中的乱象、政府对媒体的监管以及网民对标志性案例

的舆论态度和趋势变化;

③了解政府方面涉及本次舆情事件的一些重大政策

及反馈效果,以及当前民众对改善不足之处的期盼。

(2)舆情走势分析

分析网络舆情事件的舆论热度走势,首先要理解网络

舆情的生成机制。

①现实生活中本身存在一些舆情风险点,经过网民爆

料或媒体报道引发话题出现在互联网空间,产生网络

舆情苗头。

②网民围观热议,大V等意见领袖转发,传统媒体跟

踪报道,形成舆情压力,舆情热点爆发。

③传统媒体、新媒体议题互动,继续推进舆情事件演

化发展,除事件报道外,出现大量评论文章,议题广

度和深度提升。

④当事方对事件进行回应,若处置失当可能发生次生

灾害,造成新的舆情热点出现,舆情发展形成次高峰,

若处置得当,则舆情热度消退。

舆情处置关键在于及时预警,在话题出现的初期加强

实时监测,分析舆情走势和关注热点,最终目的是处

置得当,化解危机,如图3所示。

n

图3网络舆情研判要点

(3)传播分析

①传播者分析

研究传播者的身份特征对预判下一步舆情走势和制

定舆论引导策略具有重要的意义。

其一,绝大多数网络舆情事件中,传播者的身份与其

传播影响力成正相关。以下比喻尤为形象:如果你的

微博听众超过100人,你就像一本内刊;如果超过1

000个,那你就是布告栏;超过10000,你就像是一

本正规的杂志;超过10万,就是一本都市报;超过

100万,那就是全国性报纸;超过1000万,那你就

是电视台;超过1亿,那你就是CCTV;超过10亿,

那就是春晚了。作为稍微熟悉媒体格局的人,也能感

知央视报道与某省市的某报纸报道分量的不同,那

么,对于网站编辑来说,首发、转发媒体也成为其决

定是否转发,以及将之放置于什么位置(首页头条、

聚焦区)的重要参考因素。

分析的重点在于发现具有影响力的传播者:社交媒体

方面,主要是跟踪大V、专业领域知名博主以及媒体

账号的传播情况;媒体方面,关注报道媒体层级、类

别。

②传播内容分析

根据发布者舆论话语权的不同,事件信息很可能无法

得到完整展现,某些关键事实或许被选择性忽略,某

些内容可能在传播中走样,被夸大、歪曲,甚至异化

成“谣言”。对传播内容进行分析,旨在还原事实,

并从中寻找舆情处置建议。

分析重点:第一,根据时间轴对事件进行最大程度还

原,包括事件重要节点、发布时间、发布主体、发布

内容、各方反馈;第二,传播过程中事实内容是否存

在走样的情况。

③传播渠道分析

分析重要舆情信息的传播渠道,方能掌握渠道间衔接

的关键节点,而通过评判不同渠道的传播效果,有助

于为优化传播内容以及后期开展舆情处置提供解决

方案。

分析的重点在于还原舆情事件发展的传播路径,例

如,从论坛、微博、朋友圈讨论到网络媒体传播,再

到传统媒体跟进;从传统媒体报道到网络媒体传播,

再到微博讨论;不同平台上传播信息的差异等。

(4)情感倾向性分析

媒体和网民对网络舆情事件的情感倾向往往是涉事

单位关注的核心内容。在早期网络舆情事件中,一般

为爱憎分明,对责任方质疑、抨击和对受害方同情、

怜悯。但近年来,随着事件本身和传播环境的愈发复

杂、舆论话语权的不断分散,尤其是网民理性与感性

的角力,“峰回路转”或“强势逆袭”的情况也不再

少见。

分析方法:

①对网民评论进行抽样分析,通过人工对文本进行归

类,如“支持”“反对”“中立”:

②依靠网络舆情监测系统的初步分析结果,目前市面

上绝大多数舆情监测系统均能实现对舆论态度倾向

性的判断,其原理是基于情感词库,利用系统进行自

动语义分析,并直接绘制出情绪分析饼图;

③一些媒体、机构就网络舆情事件进行的网络调查,

除直接的情绪选项外,一些观点选项也可作为情绪调

查参考。

涉及服务的单位,其情感倾向分析可进一步深挖细

挖,解读舆论表现背后深层次的心理预期,为最终基

于长远考虑的解决方案提供思路。

(5)高频热词/舆论观点分析

借助于网络舆情监测系统,可以获取一个网络舆情事

件的高频热词,简言之就是被谈及最多的词。在新华

网发布的《中国县域网络形象报告白皮书》中,运用

武汉大学ROST虚拟学习团队研发的ROST全网信息抓

取工具,对报告样本的文本合并进行名词、动词、形

容词三类词汇的总词频统计分析,以考察政府工作报

告中的关注重点、趋势及政府管理者的工作期待等。

舆论观点分析,一方面通过舆情监测软件,可以获得

根据网络转载量、网络点击量等数据排序的主要报道

和主要评论;一方面通过网络舆情分析师对类似观

点、评论进行归类整合。

四、话题跟踪与热点识别

网络舆情分析区别于传统舆情分析的一个特点在于

能够随时保持对舆情的收集和分析,因此,可以对舆

情发展的整个过程进行分析。

对话题的跟踪以及热点的识别是舆情分析中一个重

要组成部分。由于互联网的信息发布渠道存在很强的

交互能力,尤其是支持社交网络的应用,如国内的微

博、微信,国际上的Facebook和Youtube等,通过

转发和评论,使一个话题通过不断地传播得以加强,

而且还能够产生更多的内容,使话题向更广更深的方

向发展。话题的影响不再局限于发起者本身,而在于

整个互动过程中的每一个参与者。

话题跟踪技术种类很多,不同的实施环境,必须使用

不同的技术。例如博客环境下进行话题跟踪,需要对

博客的内容进行文本分类处理,将同一类型的文本作

为一个话题处理。这是因为博客发表的信息长度较

长,内容丰富,而且博客之间较少相互链接引用,所

以无法从链接上获取太多相关内容的信息,但信息自

身所含信息量大,信息的数量相对较少,就足以实现

准确度相对较高的文本分类。而在微博环境下进行话

题跟踪,微博文本的字数限制在140字之内,大量的

微博仅有寥寥数个文字、标点或表情符号,微博本身

文本中不能抽取足够的特征进行文本分类的运算,但

微博之间存在转发、回复等关联关系,通过追溯微博

间的关联,可以得到微博传播的路径,以此进行话题

的跟踪。

采用文本分类进行话题的跟踪,需要指定话题的代表

性文本,例如,把崔永元作为一个话题,那么需要收

集一些崔永元的介绍或新闻等文本。这些文本包含有

关崔永元的文字特征(相关词汇),如地理位置、文

化氛围等。这些文本称为样本集,根据样本集中文本

特征(对于中文文本而言,可以是文本中出现的字、

词等)出现情况构建分类器。分类器将采集下来的文

本加上相应话题的标签,加以保存,过程如图4所示。

n

图4采用文本分类的话题跟

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论