版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、如何通过过舆情大大数据分分析成为为新媒体体运营领领域的“增长黑黑客”即使我们们不懂专专业的技技术分析析和复杂杂的数学学知识,我们也也可以通通过舆情情分析大大数据找找到我们们想要的的内容,根据客客户反馈馈数据,不断优优化公众众号内容容,逐渐渐成为新新媒体运运营领域域的:“增长黑黑客”。1为新新媒体运运营领域域的“增增长黑客客”1.1 一般意意义上的的“增长长黑客”“增长黑黑客(GGrowwth Hacckerr)”,这个近近几年来来风靡中中国互联联网界的的新兴概概念,滥滥觞于美美国硅谷谷互联网网创业圈圈,国内内则是由由范冰首首先引进进,他的的著作增长黑黑客:创创业公司司的用户户与收入入增长秘秘籍
2、使使这个概概念深入入人心。结合国内内外关于于“增长长黑客”的表述述:“增增长黑客客”是以以数据驱驱动营销销、以市市场指导导产品,通过技技术手段段贯彻增增长目标标的一群群人。这这就需要要他们既既了解技技术,写写得了代代码;又又能了解解人性,能捕捉捉用户的的心理感感受和真真实需求求;最重重要的是是,他们们经常能能突发奇奇想,发发挥创意意,大开开脑洞,以小的的投入获获取较多多的用户户和收入入。一言以蔽蔽之,“增长黑黑客”就就是具备备各种跨跨界技能能,可以以利用各各种巧妙妙的手段段以极小小的成本本获取大大量用户户,实现现最终的的收入增增加。“增长黑黑客”让让那些资资金不够够充裕、前期资资源紧缺缺和初始
3、始用户匮匮乏的初初创型互互联网初初创团队队看到了了“四两两拨千斤斤”的希希望,小小投入也也能办大大事。“增长黑黑客”的的一个很很好的理理念,但但它在不不同的互互联网领领域有着着不同的的形态,具体的的实现手手法也不不尽相同同,比如如在新媒媒体运营营领域。1.2 新媒体体运营领领域的“增长黑黑客”新媒体是是跟随互互联网兴兴起的一一个新兴兴媒体形形态,它它已经在在很大程程度上颠颠覆了以以往的纸纸质刊物物、广播播及电视视等传统统媒体,重要性性不言而而喻。关关于它的的概念和和内涵,笔者不不想多说说,网上上有很多多的详细细介绍。在这里里,笔者者认为新新媒体最最为重要要的一个个特征是是:人人都可可以是信信息
4、的生生产者,人人也也都是信信息的传传播者。这意味着着无论是是谁,包包含企业业、机构构还有个个人,都都有机会会成为这这个新媒媒体时代代的成功功者。咪咪蒙、一一条、十十点读书书即是例例证。然而,随随着中国国的互联联网时代代进入下下半场,新媒体体行业也也从野蛮蛮生长的的时代进进入“弱弱肉强食食”的“丛林时时代”,常规的的新媒体体运营手手段(包包括内容容、展现现形式及及推广方方法等)已经很很难从用用户增长长缓慢和和收入增增长停滞滞的困境境中突围围出来。写到这里里,笔者者不由得得想到儿儿时看过过的动漫漫数码宝宝贝中中的主人人公身边边各类可可爱的小小精灵,在遇到到危急情情况时会会进化,由“成成长期”进化到
5、到“成熟熟期”、“完全全体”,甚至是是“究极极体”,适应应性和攻攻击力呈呈现指数数级的提提升,足足以在危危如累卵卵的逆境境中打败败强大的的敌人,反败为为胜。与此类似似,广大大新媒体体从业者者们在这这个时候候,也需需要“进进化”,完成华华丽的转转身采采用精细细运作、量化分分析的科科学手段段去进行行新媒体体运营,以适应应这个足足以革新新我们思思维观念念的“大大数据时时代”,而“增增长黑客客”正是是一剂良良方。从前面对对“增长长黑客”的介绍绍中,我我们可以以发现:“增长黑黑客”是是一个多多面手的的角色,需要掌掌握跨领领域的知知识,其其中最为为核心的的技能即即是懂技技术、精精通数据据分析。然而,技技术
6、(码码代码、编写程程序等)和数据据分析(数学知知识和BBI软件件操作等等)对于于很多做做新媒体体运营的的小伙伴伴来说,是十分分棘手的的两样事事物:很很多从事事新媒体体运营的的小伙伴伴是正儿儿八经的的文科生生毕业,文案和和排版方方面,他他们可以以说是“长袖善善舞”,但技术术和数据据分析却却可能是是他们的的“梦魇魇”。鉴于这种种情形,笔者提提倡“人人+数据据驱动思思维+工工具”理理念以以人为本本,从运运营者自自身的知知识结构构出发,以数据据/量化化思维作作为方法法论,用用工具辅辅助运营营,从而而做到扬扬长避短短,把自自己的精精力集中中在重要要的事情情上。笔者在这这里特意意收罗了了10几几款跟数数据
7、分析析有关的的工具,以弥补补技术小小白和数数据分析析小白技技能上的的匮乏,而且掌掌握它们们不需要要很懂技技术,连连数据分分析这项项技能也也能借助助它们轻轻松geet。值得注意意的是,本文所所要介绍绍的工具具,并不不是狭义义上的“工具”,如可可视化工工具、文文本分析析工具和和事件热热度趋势势/预测测分析操操作类工工具,还还包括数数据新闻闻这种广广义上的的新型信信息载体体;更为为重要的的是,他他们分别别代表着着四种思思维/观观念重重视非结结构性数数据、科科学化预预测、信信息的具具象化呈呈现以及及用数据据讲故事事,这些些“工具具”都是是为达到到、完成成或促进进新媒体体运营效效果的有有利武器器。如下图
8、所所示,以以下是本本文的行行文结构构:新媒体运运营的“增长黑黑客”数数据分析析工具箱箱2文本本分析工工具2.1 NLPPIR在在线系统统 HYPERLINK /nlpir/ NLPIIR,即即“自然然语言处处理与信信息检索索共享平平台”的的英文缩缩写, 打开该该网址,即可进进入主界界面“语义分分析系统统”,顾顾名思义义,它是是一个在在线的中中文语义义分析工工具,因因为非商商业化,它对处处理文本本的篇幅幅大小也也有限制制,只能能处理330000字,可可以给热热衷于文文本分析析的小伙伙伴过过过瘾,但但要想用用于商业业目的,那只能能呵呵了了。NLPIIR在线线系统的的首页上图中间间部分的的11个个圆
9、圈即即是该系系统的所所有功能能,但其其中有几几个只是是挂出来来,目前前还未实实现,结结合新媒媒体运营营工作中中的实际际需求,笔者只只介绍其其中几个个比较有有实用价价值的功功能模块块。以下以破55.5亿亿元日媒媒:和中中国联手手有钱赚赚这则则新闻作作为测试试文本,笔者来来给大家家介绍下下这个系系统中的的实体抽抽取、词词频统计计、文本本分类、情感分分析和关关键词提提取这55个比较较有实用用价值、且准确确度较高高的功能能模块。2.1.1实实体抽取取NLPIIR中的的“实体体抽取”功能模模块可以以智能识识别出测测试文本本中出现现的人名名、地名名、机构构名、媒媒体、作作者及文文章的主主题关键键词,这这是
10、对语语言规律律的深入入理解和和科学预预测,它它提炼出出的词语语不需要要在词典典库中事事先存在在。实体抽取取的图表表效果支支持力导导向图和和弦图这这两种形形式,如如下图所所示:测试文本本“实体体抽取”的2种种呈现形形式上图中,从“文文本”这这个一级级类目中中,分别别分出了了“关键键词”、“地名名”、“时间”这3个个二级类类目,由由此能大大致判断断出测试试文本中中包含的的事件元元素,如如主题是是关于电电影的,涉及国国家(地地区)间间的对比比,还有有纵向时时间维度度的分析析,一些些关键词词能让我我们把握握文章中中重要的的词句。2.1.2词词频统计计在一份给给定的文文件里,词频(terrm ffreq
11、quenncy,TF)指的是是某一个个给定的的词语在在该文件件中出现现的次数数。在文本分分析中,词频统统计是较较为常规规的、同同时也是是最为重重要的一一个环节节,它用用来评估估一个词词对于一一个文件件或者一一个语料料库中的的一个领领域文件件集的重重要程度度。NLPIIR只展展示了名名词、动动词、形形容词这这3种开开放词类类,这个个3个此此类也是是一段文文本中最最为重要要的3个个部分:名词介绍绍文章中中的各个个主体,能让我我们知道道文本描描述的对对象是谁谁;动词表征征各个主主体的动动作和行行为,能能让我们们知道关关于主体体发生了了什么;而形容词词则能描描述主体体及动作作/行为为的特征征,能让让我
12、们知知道主体体及其行行为/动动作的性性质、状状态、特特征或属属性。NLPIIR的词词频统计计只展示示了上述述词类的的Topp 100结果,以折线线图和条条形图的的形式进进行展现现。看了了下面的的词频分分类展示示,联想想文章标标题,我我们很自自然地了了解到你的名名字。这部电电影在市市场上获获得了不不错的业业绩,引引发中日日媒体的的广泛报报道和关关注测试文本本的词频频统计呈呈现2.1.3文文本分类类NLPIIR“文文本分类类”部分分目前所所展示的的类别只只是新闻闻的政治治、经济济、军事事、交通通等,分分类有待待扩展和和细化。NLPIIR深度度文本分分类,可可以用于于新闻分分类、简简历分类类、邮件件
13、分类、办公文文档分类类、区域域分类等等诸多方方面。此此外,它它还可以以实现文文本过滤滤,能够够从大量量文本中中快速识识别和过过滤出符符合特殊殊要求的的信息,可应用用于品牌牌报道监监测、垃垃圾信息息屏蔽、敏感信信息审查查等领域域。然而,从从测试的的效果来来看,这这个功能能模块的的分析效效果还不不甚准确确,它没没有“娱娱乐”这这一分类类,但起起码也应应该划入入“其他他”这一一类中。测试文本本的文本本分类结结果呈现现2.1.4情情感分析析NLPIIR的“情感分分析”提提供两种种模式:全文的的情感判判别(左左图)与与指定对对象的情情感判别别(右图图)。大大类上,“情感感分析”部分分分为“正正(面)”和
14、“负(面面)”这这两大类类情感,这是内内层;在在外层,两个大大类又分分为“乐乐”、“好”、“怒”、“哀哀”、“惧”、“恶”、“惊惊”7中中细分的的情感,这也就就是大家家常说的的“七情情六欲”中的“七情”。目前正负负面的判判断已经经较为成成熟,但但鉴于汉汉语的博博大精深深和词汇汇语义(用法)的波谲谲多变(反讽、贬义褒褒用、语语境变化化等),细分情情绪的判判断准确确度还值值得观察察。测试文本本的情感感分析结结果呈现现观察上面面测试文文本的情情感分析析效果图图,再比比对原始始文本,这个判判断大致致上是准准确的,但负面面的部分分应该比比实际的的占比小小,尤其其是“恶恶”这个个部分笔者并并未发现现有出现
15、现厌恶的的语句和和词汇。2.1.5关关键词提提取这里的关关键词提提取和前前面的词词频统计计有一定定的联系系,但二二者的算算法(实实现方法法)是不不一样的的:词频统计计:词频频统计的的是一个个词在文文章中出出现次数数,出现现的次数数越多一一般越重重要;关键词提提取:关关键词提提取则是是依据TTF-IIDF(terrm ffreqquenncyinvversse ddocuumennt ffreqquenncy,词频反转文文件频率率),用用以评估估一个词词对于文文本内容容的重要要程度。字词的的重要性性随着它它在文件件中出现现的次数数成正比比增加,但同时时会随着着它在语语料库中中出现的的频率成成反比
16、下下降。比比如,“如果”、“也也”、“你们”等词汇汇,他们们出现的的频次很很高,但但它们的的重要性性就很弱弱。测试文本本的关键键词分析析从上图中中测试文文本的“关键词词提取”中可以以发现,这部分分和“词词频统计计”部分分既有重重合也有有明显区区分,原原因就在在于上述述的算法法不同。值得注意意的是,不论是是“词频频统计”还是“关键词词提取”,已经经设置了了“停用用词(sstoppworrds)”,在在进行上上述分析析的时候候,自动动的将那那些无明明显意义义的副词词、冠词词、代词词给去掉掉了。2.2图悦 HYPERLINK / 图悦是一一款在线线的热词词分析工工具,它它可以对对于载入入文本或或指向
17、文文本内容容的链接接进行词词频提取取和词语语(重要要性)权权重分析析,并可可以导出出成exxcell格式的的文件,便于后后期分析析和处理理。图悦的主主界面处理热词词分析,图悦还还可以自自定义词词云形状状,不过过这里的的词云效效果不敢敢恭维,下面笔笔者将会会介绍一一个更优优秀的词词云制作作工具,让经图图悦处理理过的词词频焕发发出个性性化的风风采。值得注意意的是,图悦导导出的eexceel文档档有三列列:提取取出的词词语、词词频数、词汇权权重。后后两个指指标,笔笔者已经经在前面面做过论论述,不不明白的的小伙伴伴可以“倒带”回去看看看。具具体的使使用方法法笔者将将在下面面的可视视化自定定义词云云部分
18、详详述。但但这款词词频分析析工具只只能导出出1500个词汇汇,对于于处理一一些复杂杂且大量量的文本本就会捉捉襟见肘肘。2.3 Tonne AAnallyzeer HYPERLINK / Tonee Annalyyzerr是一款款由IBBM推出出的、基基于云计计算的人人工智能能文本分分析工具具,能对对电子邮邮件、博博客文章章以及手手机短信信进行感感情色彩彩分析,以确定定它的措措辞是否否如实地地表达了了你的愤愤怒、肯肯定、高高兴或者者悲伤等等感情。ToneeAnaalyzzer的的主界面面这一用来来帮助评评估和改改善文字字沟通当当中的语语气的服服务目前前尚处实实验模式式,如获获成功,或将改改变未来
19、来商家和和营销人人员同消消费者、客户的的沟通方方式。更重要的的是,它它可以应应用到新新媒体运运营者的的内容校校正中来来:用来查验验文章内内容的调调性和风风格,了了解自己己的文字字给人留留下的印印象如何何,以使使公众号号的内容容运营不不偏离预预设的定定位。帮助品牌牌运营者者和内容容输出分分析,撰撰写何种种风格的的文案才才可以引引起受众众的共鸣鸣。ToneeAnnalyyzerr的评价价系统包包含三个个维度,各个维维度及其其简介如如下图所所示:ToneeAnnalyyzerr的评价价系统的的三个维维度以下是TToneeAnnalyyzerr的使用用案例,大家可可以从下下面的几几个模块块中获得得对文
20、字字信息的的洞察,这部分分笔者不不做详述述,感兴兴趣的小小伙伴可可以去官官网查阅阅文档。输入文本本信息和和选择分分析类别别文本信息息3个维维度的分分析结果果文本信息息段落的的逐行分分析(附附有标记记)3热点点捕获/趋势预预测工具具3.1搜索指指数型这里的搜搜索指数数型趋势势工具指指的是,它们的的数据绝绝大部分分是基于于用户的的搜索行行为,即即用户搜搜索关键键词而形形成的数数据及其其展示,有一定定的预测测价值,但缺点点是并不不能发现现搜索行行为背后后的原因因。3.1.1 HYPERLINK / 百度指指数关于百度度指数的的介绍,笔者仅仅贴出部部分官方方关于功功能的介介绍:百度指数数是以百百度海量
21、量网民行行为数据据为基础础的数据据分享平平台,它它能够告告诉用户户:某个个关键词词在百度度的搜索索规模有有多大,一段时时间内的的涨跌态态势以及及相关的的新闻舆舆论变化化,关注注这些词词的网民民是什么么样的,分布在在哪里,同时还还搜了哪哪些相关关的词,帮助用用户优化化数字营营销活动动方案。关于详细细它的使使用方法法及一些些关键原原理,笔笔者在 HYPERLINK /chuangye/377823.html 寻找创创业方向向时,如如何零成成本用大大数据获获悉市场场行情?有详详述,感感兴趣的的小伙伴伴可以去去看看。3.1.2 HYPERLINK /index 微指数数微指数是是新浪微微博的数数据分析
22、析工具,基于新新浪微博博的全量量数据,通过关关键词的的热议度度,以及及行业/类别的的平均影影响力,来反映映微博舆舆情或账账号的发发展走势势。微指指数分为为热词趋趋势、实实时趋势势、(信信息分布布)地域域解读和和(用户户)属性性分析44个板块块。“热词趋趋势”部部分与百百度指数数的趋势势很相像像,但它它有一个个更为有有价值的的地方点击趋趋势曲线线中的各各个节点点,会显显示出关关注度排排名靠前前的3条条微博,可以做做到“知知其然并并知其所所以然”。微指数的的热词趋趋势图“实时趋趋势”则则反映该该热词近近一天的的走势情情况。“地域解解读”即即该热词词相关微微博信息息的地域域分布情情况。最后一个个功能
23、板板块是“属性分分析”,这部分分能获悉悉关注该该热词及及其相关关事件的的人群画画像,有有性别、年龄、兴趣标标签比例例和星座座标签比比例这44个人群群属性。微指数的的“(人人群)属属性分析析”3.2现网信信息型现网信息息型,顾顾名思义义,就是是该类工工具的主主要数据据来源于于现有的的网络信信息,而而不是基基于网民民的搜索索行为,因而通通过它可可以找到到热词或或事件关关注(量量)发生生波动起起伏的原原因。一般来说说,这类类数据产产品的典典型应用用领域在在舆情领领域(包包括舆情情监测、品牌口口碑监测测等),比如 HYPERLINK / 新新浪舆情情通。新浪舆情情通的主主页新浪舆情情通开放放工具“热度
24、度指数”产品页页面以下是新新浪舆情情通这个个大数据据分析工工具的介介绍,我我们能从从中看到到现网信信息型热热度分析析工具的的基本原原理:“利用独独有的分分布式网网络技术术,对互互联网上上舆情相相关数据据源进行行完整采采集,同同时根据据用户预预定的监监控关键键词对全全网数据据进行补补充获取取。“新新浪舆情情通”可可以在很很短时间间内收录录到国内内外重要要网站、论坛、微博、微信公公众号、贴吧、博客等等互联网网开放平平台的相相关信息息,通过过中文智智能分词词、自然然语言处处理、正正负面研研判等大大数据处处理技术术对收录录到的信信息进行行处理并并分析可以看出出,现网网信息型型热度分分析工具具的数据据基
25、于现现有的全全网信息息搜集,并经过过自然语语言处理理等技术术对文本本信息进进行信息息的“去去粗取精精”,从从而有效效把握事事件的重重要方面面和影响响因素。“下面,笔笔者来详详述新浪浪舆情通通的几个个很有价价值的功功能模块块分别别是热度度趋势分分析、信信息监测测、事件件分析和和微博传传播分析析,它们们可以很很好的运运用到新新媒体领领域,可可以在热热点追踪踪、内容容规划、受众画画像分析析和营销销分析方方面给予予运营者者们以有有益的指指导。3.2.1 (事件)热度趋趋势分析析在地震救救援中,有一个个概念叫叫做“黄黄金722小时”,它是是地质灾灾害发生生后的黄黄金救援援期。因因为救援援界认为为,灾难难
26、发生之之后存在在一个“黄金772小时时”,在在此时间间段内,灾民的的存活率率极高。同样,在在新媒体体内容运运营追踪踪热点事事件方面面,也存存在类似似的定律律,能在在最短的的时间内内,把握握观众所所关注事事件的发发展走向向和舆论论倾向,因势利利导,就就能成功功的“借借势“。新浪舆情情通的(事件)热度趋趋势分析析中有一一个能反反映事件件关注度度的一个个数据指指标热热度指数数,它的的全称是是“网络络传播热热度指数数”,是是指在从从新闻媒媒体、微微博、微微信、客客户端、网站、论坛等等互联网网平台采采集海量量信息的的基础上上,提取取与指定定事件、人物、品牌、地域等等相关的的信息,并对所所提取的的信息进进
27、行标准准化计算算后得出出的指数数。热度指数数能客观观反映事事件、人人物、品品牌、地地域等在在互联网网上的受受关注程程度。热热度指数数所呈现现的数值值为01000,数值值越大,表明其其网络受受关注度度越高。下面举个个栗子,拿前不不久广受受关注的的“淘宝宝被列入入恶名市市场名单单”事件件作为分分析对象象,来看看看(事事件)热热度趋势势分析的的各个功功能模块块是如何何运用到到新媒体体运营领领域的。(1)热热度概况况和热度度趋势从下图的的“指数数概况”部分,我们可可以看到到,淘宝宝被列入入恶名市市场名单单”在772小时时内(当当然也可可以选择择24小小时这个个时间区区间)的的热度同同比增长长达到662
28、3115%,表明互互联网上上关于该该事件的的媒体报报道和公公众评论论信息出出现骤增增的情形形,且指指数有将将近6%的增幅幅,幅度度不大结结合这两两个指标标可以看看出,在在近722小时内内该事件件很火热热,且热热度呈现现稳步增增长的趋趋势。值值得注意意的是,这里的的“同比比”和“指数变变化”是是针对此此次查询询的722小时区区间和上上一个772小时时区间的的数值进进行对比比的。在“热度度趋势”部分,由时间间轴和热热度指数数轴构成成的折线线图反映映了近772小时时内该事事件热度度指数的的变化趋趋势,这这个折线线图的分分析意义义重大,能起到到预测事事件未来来热度走走势的神神奇作用用。在分析热热度指数
29、数的折线线图的时时候,要要注意从从微观层层面和宏宏观层面面上的把把握。在在微观层层面上,要特别别注意折折线图中中比较重重要的节节点,特特别是峰峰值节点点,它代代表其对对应的时时间点它它的关注注度较高高,要注注意发现现事件爆爆发的时时间规律律;在宏宏观层面面上,要要看整条条折线的的整体走走向,是是整体呈呈现上升升趋势,还是呈呈现关注注度的下下降趋势势,当情情况属于于前者时时,新媒媒体运营营者们则则可以继继续跟进进事件的的发展,接着“借势”和“跟跟风”。热度概况况及热度度趋势分分析既然知道道了事件件热度的的峰值节节点出现现在哪个个时间点点,这时时我们肯肯定想了了解这些些时间区区间内事事件关注注度骤
30、然然上升的的原因。还好,紧接着着“热度度趋势”,下方方给出了了其中最最突出的的峰值节节点出现现的原因因,以重重点信息息聚类的的方式呈呈现。在下图中中,呈现现的是112月223日 08时时,达到到24的的峰值时时的重点点信息聚聚类。给给出了这这些热门门文章的的标题和和来源站站点,点点击标题题即可进进入相应应的网页页,查看看源信息息。最突出峰峰值节点点的信息息聚类这里需要要强调的的是,对对于最突突出峰值值节点的的重点聚聚类信息息的解读读十分重重要,因因为这些些文章阅阅读数高高,抑或或是转发发量高,在某种种程度上上表明了了公众对对于这些些信息的的认可度度高,能能代表一一定的公公众舆论论倾向。作为新新
31、媒体内内容运营营者来说说,引导导公众看看法难度度太大,不是人人人都能能做成意意见领袖袖的,能能因势利利导的输输出顺应应公众观观点的文文章可能能是上策策。(2)事事件热度度信息的的关键词词词云这里的关关键词云云是由互互联网上上各个渠渠道的海海量信息息进行中中文智能能分词和和自然语语言处理理所得,浓缩了了关于该该事件的的TOPP60关关键词,能在一一定程度度上反映映出事件件的各个个要素。词语的大大小代表表该词出出现次数数的多寡寡,也表表明了该该关键词词对于事事件的重重要程度度如何。在进行行内容组组织的时时候,可可以考虑虑这些词词频数高高词汇所所代表的的方面,如在“淘宝列列入恶名名市场名名单”这这一
32、事件件中,除除了“恶恶名市场场”、“名单”这些出出现在标标题之中中的关键键词外,还有“加大力力度”、“纳入入保护”、“知知识产权权”等关关键词表表征的方方面作为为文章内内容的着着力方向向。“淘宝列列入恶名名市场名名单”事事件的关关键词词词云(3)事事件热度度信息的的来源类类型“信息来来源”部部分中,反映出出了事件件信息的的来源占占比情况况,比重重较大的的部分是是需要运运营者重重点关注注的渠道道。“淘宝列列入恶名名市场名名单”事事件的信信息在“微博”这一信信息渠道道中的比比重最多多,其次次是“网网站”、“新闻闻”、“客户端端”等,具体的的数据为为:微博博(499.322%)、网站(27.73%)
33、和新新闻(110.113%)。“淘宝列列入恶名名市场名名单”事事件的信信息来源源分布针对微博博信息量量为何占占据如此此大的比比重这个个问题,笔者找找到了今今年111月份新新浪微博博官方的的一份关关于微博博UGCC的数据据,顿时时了然:新浪微博博20116年PPGC、UGCC几项关关键数据据新浪舆情情通是新新浪微博博旗下的的子公司司,拥有有全量的的微博数数据,再再加上腾腾讯微博博的信息息量,因因而其他他渠道的的信息量量比例会会被微博博这一渠渠道巨大大的UGGC内容容给稀释释掉,形形成绝对对信息量量不小但但看起来来很少的的效果。(4)事事件热度度信息的的地域分分布(事件热热度信息息的)地地域分布布
34、反映的的是搜索索事件的的全网信信息量在在全国各各地的分分布情况况,这一一点与百百度指数数的原理理一样。“淘宝宝列入恶恶名市场场名单”事件的的信息地地域分布布从地域分分布来看看,与“淘宝列列入恶名名市场名名单”相相关的信信息主要要来源北北京(335611条)、广东(11339条)和上海海(8334条)。(5)事事件热度度信息的的关联词词分析事件热度度信息的的关联词词分析,它是通通过系统统自动运运算找出出事件核核心词、并计算算出与核核心词同同时出现现关联度度最高的的高频词词,也就就是与核核心词共共现频率率最高的的词汇。下图中的的关联词词和弦图图和对应应关联度度数据表表反映了了该事件件的关联联词情况
35、况。“淘宝列列入恶名名市场名名单”的的关联词词分析通过对与与“淘宝宝列入恶恶名市场场名单”相关的的信息进进行分析析后可看看出,与与其核心心词恶名名市场关关联度最最高的词词语为淘淘宝(1100.00%)、美美国(999.006%)和名单单(977.199%)。3.2.2 信信息监测测一直以来来,(舆舆情)信信息监测测的主要要用户是是政府、大型企企业和专专业新闻闻媒体,因而对对应的主主要功能能是倾听听民意、监测自自身(也也包含竞竞品)的的品牌口口碑及动动向,以以及追踪踪热点事事件走向向等。此此外,它它可以通通过各种种预警设设置,对对关注事事件产生生的新信信息进行行第一时时间的提提醒,以以免运营营者
36、遗漏漏重要信信息。实际上,信息监监测可以以用于新新媒体领领域,结结合上面面提及的的“事件件热度趋趋势分析析”板块块,媒体运运营者可可以有效效的追踪踪热点事事件的最最新进展展,做到到不遗漏漏。关于它的的应用场场景,笔笔者目前前想到22个:(1)文文章转载载的全网网监测笔者平时时会写一一些关于于互联网网数据运运营的文文章,发发布在一一些知名名的互联联网平台台上,因因此想监监测一下下全网转转载的情情况,比比如笔者者最近的的一篇文文章“如何用用数据分分析,搞搞定新媒媒体运营营的定位位和内容容初始化化?”,在“信信息监测测”的监监测方案案部分设设置好关关键词后后,选好好时间区区间,转转载的详详细情况况和
37、数据据统计图图表尽收收眼底:文章转载载的信息息列表笔者文章章转载的的各种信信息反馈馈图表(2)关关注信息息的全网网监测运营者可可以在监监测方案案中按设设置指定定的关键键词,定定向的追追踪自己己感兴趣趣的事件件、公司司、品牌牌和资料料等信息息。以下是笔笔者在学学习数据据分析时时,进行行的关键键词设置置,多个个零散词词汇通过过逻辑运运算符形形成了一一个监测测方案,可以无无遗漏的的监测自自己关注注的信息息,同时时系统也也会过滤滤掉垃圾圾信息。通过各种种逻辑运运算符设设置信息息监测的的关键词词设置好监监测方案案以后,点击“图表分分析”,即可看看到如下下图所示示的各种种监测方方案信息息量的可可视化分分析
38、图表表。监测方案案的信息息量的走走势图监测方案案的信息息量分布布情况监测方案案信息量量的地理理分布情情况再选择“信息列列表”项项,通过过时间、地域、渠道等等选项的的筛选,我们就就可以得得到自己己想要的的信息了了。此外外点击其其中一条条信息,即可进进入信息息详情页页,如下下图所示示:监测方案案的信息息列表监测信息息的详情情页另外,这这个功能能模块还还有几个个功能,如下图图所示,篇幅有有限,感感兴趣的的小伙伴伴自己去去试试吧吧。“信息监监测”板板块的预预警通知知、监测测日报和和定向监监测功能能3.2.3 事事件分析析事件分析析(包括括全网事事件分析析和微博博事件分分析)指指的是,输入近近期事件件或
39、话题题关键词词,系统统自动进进行深度度挖掘和和多重分分析,记记录事件件从始发发到发酵酵期、发发展期、高涨期期、回落落期和反反馈期等等阶段的的演变过过程,分分析舆情情传播路路径、关关键词云云、发展展态势、受众反反馈和网网民观点点分析。3.2.4 微微博传播播分析微博传播播分析通通过分析析单条转转发量/评论量量大的的的微博,从而得得到关于于该微博博的传播播路径、意见领领袖、用用户画像像和微博博营销传传播质量量等。下面贴一一张大图图让大家家感受下下:微博传播播分析的的部分功功能4可视视化工具具俗话说:“文不不如字,字不如如表,表表不如图图”,一一张富含含信息量量且外观观时尚靓靓丽的图图会给文文章增色
40、色不少,会激起起读者的的好奇心心,不知知不觉的的去图片片中探寻寻信息,从而让让文章的的可读性性大大增增加,易易于传播播。比如如这张图图:人人都是是产品经经理网站站“产品品经理”专栏所所有文章章标题制制成的词词云怎么样,想学了了吧?不急,这这个其实实很简单单,下面面我将以以实例详详细的讲讲解制作作这张图图的步骤骤,即使使是小白白的你,也能做做出这样样精美的的个性化化词云。4.1 个性化化词云制制作我把个性性化词云云的制作作分为33个步骤骤,即抓抓取数据据、文本本处理和和词云制制作,详详见下图图:个性化词词云制作作的步骤骤4.1.1 数数据获取取从本质上上讲,词词云是反反映某一一特定主主题的文文本
41、数据据的可视视化展示示。比如如,上面面的乔帮帮主词云云反映的的就是“产品经经理”专专栏中较较为热门门的关键键词/话话题。所所以,要要制作一一个“出出彩”且且有内涵涵的自定定义词云云,文本本不能无无规律,需要定定向的获获取特定定的文本本数据。笔者对前前不久上上映且广广受好评评的电影影你的的名字颇感兴兴趣,想想分析一一下这部部电影的的市场反反响如何何,先聊聊聊这部部分数据据的获取取。对于影片片的分析析,首选选当然是是豆瓣电电影,因因为它是是国内最最具有参参考价值值的影评评网站,从文本本中能得得到很有有价值和和有意思思的信息息。但考考虑到文文本数据据获取的的难易程程度,我我先介绍绍如下33个数据据获
42、取的的方法:(1)自自己编写写爬虫,想要什什么数据据就去抓抓取什么么数据,既经济济(用爬爬虫工具具会花钱钱),又又会增加加“自己己动手,丰衣足足食”的的成就感感,最重重要的是是,略施施小计就就可以躲躲避豆瓣瓣的封IIP机制制。用pytthonn编写爬爬虫抓取取豆瓣影影评数据据(2)利利用集搜搜客这样样的爬虫虫软件去去抓取数数据,不不需要编编程技术术,且简简单易上上手,但但是可能能会被封封IP。(3)采采用新浪浪舆情通通这个大大数据工工具,因因而不用用豆瓣的的评论数数据,在在互联网网上进行行全网信信息搜集集,获取取有关该该影片的的热门文文章标题题作为分分析的文文本数据据,这种种方法是是三种中中最
43、为轻轻松简单单的,而而且获取取的是全全网的数数据,大大家可以以有选择择性的选选取自己己需要的的数据,操作步步骤如下下图所示示:用新浪舆舆情通获获取文本本数据因为最近近学了点点Pytthonn,故笔笔者选择择了用PPythhon编编写爬虫虫来获取取了豆瓣瓣这部分分的影评评数据。获取你你的名字字豆瓣瓣电影的的影评数数据抓取后的的数据整整理成如如下表格格:保存到本本地的你的名名字豆豆瓣影评评数据接下来,就是把把文本数数据单独独取下来来咯,全全选“评评论内容容”这一一列,把把这些影影评数据据占到记记事本上上,作为为接下来来分析的的“原材材料”。4.1.2 文文本处理理一般情况况下,文文本数据据的处理理
44、包含很很多方面面,如分分词、词词性标注注、词频频统计、文本分分类、情情感分析析、关键键词提取取、文本本摘要提提取等。在这里,制作词词云只需需要考虑虑关键词词提取和和词频统统计这两两个板块块。这里使用用到的工工具是前前面提及及的热词词分析工工具图图悦。将将你的的名字豆瓣评评论的文文本部分分粘贴到到上图中中左边的的文本框框中,再再点击右右上方的的“分析析出图”,系统统显示完完成后,右边的的预设词词云会发发生变化化,此时时点击“导出”,即可可得到词词频的ccsv文文件。经图悦处处理得到到的词频频csvv文件这里去除除词语和和词频两两列,用用来进行行接下来来的词云云制作。4.1.3 词词云制作作处理词
45、云云,笔者者用到的的工具是是 HYPERLINK /create Taggul。下面是是它的的的主页展展示:Taguul主页页(1)词词频载入入格式在页面左左上方的的“Woordss”处,就是加加载词语语及词频频的地方方,这里里需要注注意一下下它的载载入格式式。,如如下表所所示:Taguul的词词频载入入格式上表中,前两列列的“WWordd”和“Weiightt”就是是刚才经经处理过过的词语语和词频频,Coolorr一栏则则是设置置该词语语的颜色色,这是是个性化化词云中中很关键键的一个个要素,会直接接影响到到最终的的词云呈呈现效果果。这里里可以不不填写,那么在在形成词词云时默默认随机机生成颜颜
46、色。如如果要形形成定制制化的颜颜色,则则需要设设置采用用16进进制的色色值,以以下是常常用的颜颜色代码码表,即即色值表表。常用的116进制制色值表表与此类似似,字体体也可选选可不选选,需要要定制的的话,则则可进行行相应的的设置。“Reppeatt”这项项则表示示该词语语是否会会重复出出现,填填写“00”,则则表示不不重复,填写“1”,则表示示重复。为了保保持信息息的精准准度,减减少噪声声,一般般选择填填写“00”。后面的UURL链链接就忽忽略了,因为有有前面的的设置,就不需需要进行行网页链链接。按照上述述操作,出词语语和词频频两例外外,笔者者还定制制了“CColoor”和和“Reepeaat”
47、这这两项,结果显显示如下下。最终的词词语载入入表全选该表表格的文文字部分分,将其其粘贴到到“Immporrt WWordds”的的文本框框里,进进行保存存。(2)载载入中文文字体因为Taagull是老外外做的一一个在线线词云制制作网站站,所以以Taggul不不支持中中文,这这需要我我们载入入能支持持中文显显示的字字体,如如下图所所示,笔笔者载入入的是“Youu Yuuan(幼圆)”字体体。载入中文文字体(3)处处理背景景图片加载了字字体,可可以说这这是个性性化词云云制作的的核心部部分,词词云最终终效果的的美与不不美就在在此一举举。值得注意意的是,在载入入图片之之前的图图片选取取步骤时时,需要要
48、选择背背景和主主题对比比比较明明显的图图片。从从接下来来的图片片预处理理过程中中,你会会发现这这一点的的重要性性。词云自定定义图片片的初始始状态笔者选取取的是你的名名字最最为标志志性的一一张海报报,看起起来很有有感觉:既有男男女主角角的形象象,也交交代了他他们所处处的生活活环境,中间则则是影片片中重要要的提条条线索彗星。这张图图初始状状态看似似杂乱,不好处处理,但但仔细观观察,可可以发现现主体(男女主主角)和和背景(天空、城市和和彗星)之间的的对比度度和色相相差异还还是很明明显的。在Taagull的“CCusttom Shaape”的设置置中可以以进一步步处理背背景和主主体之间间的对比比度问题
49、题。在“Shhapees”处处载入图图片后,点击上上载成功功后图片片的右下下角“齿齿轮”,打开图图片预处处理。其其中,“Thrreshholdd”处理理景深,可以拉拉开/缩缩小背景景和主体体之间的的差异;“Eddgess”则是是处理主主体轮廓廓的锐度度,可以以调节图图片的清清晰程度度模糊程程度。这这里的要要点是淡化背背景,清清晰主体体轮廓。淡化背景景,强化化主体轮轮廓好了,完完成上面面繁琐的的步骤之之后,现现在是见见证奇迹迹的时刻刻了,点点击右上上方大大大的黑体体字“VVisuualiize”,待进进度条加加载完毕毕后,即即可得到到如下的的最终效效果图:最终的词词云效果果图4.2网络可可视化利
50、利器 GepphiGephhi是一一款开源源免费跨跨平台基基于JVVM的复复杂网络络分析软软件, 其主要要用于各各种网络络和复杂杂系统,动态和和分层图图的交互互可视化化与探测测开源工工具,下下载地址址为htttpss:/g/。网网上目前前比较权权威的GGephhi教程程是在UUdemmy上的的Oooof lliu讲讲解的Gepphi中中文教程程,地地址为hhttpps:/wwww.uudemmy.ccom/gepphi/,看完完这个部部分仍有有饶有兴兴趣的小小伙伴可可以去学学习下。下面是由由Gepphi制制作的各各种网络络图,这这些图不不仅包含含了丰富富的信息息量,而而且极富富美感,在吸引引眼
51、球的的同时还还给予我我们有意意义的信信息。各种由GGephhi制成成的网络络图Gephhi是一一款信息息数据可可视化利利器,它它的一般般应用场场景如下下:探索性数数据分析析链接分析析语义网络络分析社交网络络分析生物网络络分析以下简单单介绍下下它的使使用方法法。在操作下下面步骤骤之前,先去GGephhi官网网上下载载最新版版的0.9.11 veersiion,这是免免费的,且支持持中文,还有丰丰富的插插件下载载,这简简直是数数据可视视化爱好好者的福福音!值得注意意的是,这款软软件是用用Javva编写写的,所所以需要要安装JJavaa环境,这个有有点磨人人。演与与演员的的关系作作为分析析对象,来详
52、细细解读如如何制作作一个“秀外慧慧中”的的社交网网络可视视化图谱谱。4.2.1 制制作源数数据Gephhi的源源数据可可以在eexceel中完完成。在在exccel中中,仅输输入2列列即可,表头严严格按照照Gepphi的的格式来来制作,第一列列为“SSourrce”,第二二列为”Tarrgett”。下下面以豆豆瓣上评评分6以以下的国国内电影影的导演演(选取取的是张张艺谋、陈凯歌歌、冯小小刚等大大家耳熟熟能详的的导演,演员随随之确定定)和演演员关系系表为例例,做成成如下格格式:在Exccel上上编辑GGephhi的源源数据做好源数数据之后后,记得得保存为为CSVV格式,Gepphi仅仅能读取取这
53、种格格式的数数据。4.2.2 导导入数据据在导入数数据时,分别在在“分隔隔符”、“如表表格”、“格式式”这三三个选项项下选择择“逗号号”、“边表格格”、“GBKK”。接接下来点点击“下下一步”,完成成数据的的导入。在Gepphi中中导入ccsv数数据4.2.3 调调整网络络布局刚打开“图”,也就是是网络图图的图形形界面时时,这几几百个节节点“蜗蜗居”成成一团,有点盘盘古开天天辟地前前“浑沌沌如鸡子子”的感感觉,但但这个模模样离我我们心中中的审美美还有很很长一段段距离呢呢。初始状态态的网络络图不过,不不用着急急,下面面几个简简单的步步骤就能能让它“脱胎换换骨”,完成华华丽的变变身。在左上方方的“
54、布布局”栏栏目中,选择其其中的任任一算法法,并可可以在下下方的操操作界面面修改默默认算法法参数,也可使使用默认认的参数数。单击击图中运运行按钮钮,布局局算法生生效。选择“布布局”中中的算法法选择不同同的“布布局”算算法,网网络图的的形态就就会有相相应的变变化,以以下是其其中最为为典型的的集中算算法及其其拓扑图图。各种“布布局”算算法的网网络图拓拓扑形态态在这里,笔者选选取由“Fruunchhterrmann Reeinggoldd”算法法确定的的呈蒲公公英花朵朵状的结结构作为为初始形形态。网络布局局做好后后,我们们完成了了这个网网络图的的“骨架架”搭建建,下一一步则需需要对它它的外表表进行修修
55、饰,包包括节点点、边和和背景等等部分的的美化。4.2.4 美美化在这里,我们可可以对网网络图进进行“美美容”,给它着着上靓丽丽的颜色色和合适适的背景景作为衬衬托。如下图所所示,我我们可以以在“外外观”一一栏对节节点和边边进行着着色,然然后在下下方选择择合适的的背景,要注意意节点、边和背背景之间间的色差差和对比比。给节点、边和背背景选择择合适的的颜色还需要注注意一点点,沿着着“外观观”“节点”数数值设定定”这一一路径,让节点点根据连连接数的的多少而而显示相相应的大大小,使使该网络络图更有有层次感感;同理理,可以以对边进进行类似似的设定定,则两两个联系系紧密的的节点间间的边将将变得更更宽。经过调整
56、整后,可可以得到到如下的的网络图图。颜色调整整后的效效果图4.2.5 显显示标签签经过上述述几个操操作步骤骤之后,网络图图还需要要加入最最为重要要的一项项内容标签,也就是是前面提提及的导导演及演演员的姓姓名,反反映在节节点上,由此完完成他们们之间的的社交网网络图的的基本绘绘制。沿着“窗窗口”“预览览设置”的路径径,打开开“预览览设置”,界面面显示如如下。其其中,需需要在“节点标标签”这这部分完完成字体体的选择择,把默默认的西西文字体体变为中中文字体体。除此此之外,此处还还可以进进行边框框、字体体大小、颜色、透明度度等的设设置。在“预览览设置”中设置置中文字字体完成上述述选项后后,还需需要在软软
57、件界面面的下方方,点击击一下左左下角那那个大大大的“TT”,则则节点标标签就会会显现,旁边也也有些字字体调节节钮,大大家可以以摸索下下。在“布局局”中,选择“标签调调整”算算法,得得到下图图:最终效果果图图中各个个节点的的字体随随节点的的重要性性(由度度、连入入度或连连出度确确定)而而呈现出出不同之之大小。所以,大家先先看文字字,了解解其中最最为突出出的一些些演员和和导演,其次在在看他们们之间的的关系。笔者比较较懒,这这个网络络图其实实还可以以进行更更深入的的优化的的,有兴兴趣的小小伙伴可可以尝试试着做得得更绚丽丽一些。4.3数据地地图数据地图图,在EExceel20013版版及以上上中都有有
58、三维地地图,还还有一些些BI工工具中也也集成了了这个模模块,当当然也有有专业的的地图GGIS软软件,如如地图慧慧、智图图等。好好了,上上面的工工具部分分介绍完完毕,该该进入最最终的收收尾阶段段了。在在某种意意义上讲讲,上面面介绍的的若干工工具都是是为接下下来的“数据新新闻”部部分做准准备它它们是数数据新闻闻中不可可获取的的一部分分,是数数据新闻闻内容呈呈现的重重要“武武器”。5数据据新闻在正式介介绍数据据新闻之之前,笔笔者先聊聊聊,为为什么需需要数据据新闻这这种新型型的新闻闻报道方方式。这里,笔笔者引用用美国NNortthweesteern Uniiverrsitty人文文与社科科学院的的Pr
59、oof BBriaanKeeegaan的一一段话作作为注解解:“在当代代,对于于信息过过载,以以及恐惧惧、不确确定性和和怀疑等等情绪的的焦虑氛氛围下,数据驱驱动的新新闻可以以起到关关键性的的作用。它们可可以为关关于政策策、经济济趋势、社会变变革的讨讨论提供供更为坚坚实的经经验基础础。”由此可见见,信息息过载、信息失失真和现现实世界界广泛存存在的不不确定性性,导致致人们不不再相信信没有充充分依据据的信息息,因而而数据新新闻这种种更有说说服力的的信息载载体呼之之欲出。5.1数据新新闻简介介数据新闻闻,又叫叫数据驱驱动新闻闻。是指指基于数数据的抓抓取、挖挖掘、统统计、分分析和可可视化呈呈现的新新型新
60、闻闻报道方方式。它它致力于于从海量量数据中中发现新新闻线索索,或是是抓取大大量数据据拓展既既有新闻闻主题的的广度与与深度,最后依依靠可视视化技术术将经过过过滤后后的数据据进行融融合,以以形象化化、艺术术化的方方式加以以呈现,致力于于为读者者提供客客观、系系统的报报道以及及良好的的阅读体体验。目前,在在大数据据新闻制制作上已已经积累累了经验验的国际际媒体有有卫报报纽纽约时报报华华盛顿邮邮报等等。以下是常常见的数数据新闻闻呈现方方式:不同类型型的数据据新闻需要注意意的是,数据新新闻不一一定非得得要复杂杂的数据据来呈现现事实,表现出出很高的的逼格。在很多多时候,简单的的描述性性数据即即可,就就像下面
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年广安鑫鸿集团有限公司招聘备考题库及完整答案详解1套
- 2026年广州市花都区第一幼儿园招聘备考题库及答案详解一套
- 2026年图木舒克唐王城国有资产投资有限公司市场化选聘生产经营副总经理备考题库完整答案详解
- 2026年中复神鹰碳纤维西宁有限公司招聘备考题库及一套参考答案详解
- 2026年乐山市沙湾区医疗集团嘉农镇中心卫生院招聘备考题库完整答案详解
- 2026年国投国证投资(上海)有限公司招聘备考题库参考答案详解
- 2025年度下半年台州市黄岩区公开选调8名公务员备考题库完整参考答案详解
- 2025年光泽县县属国有企业专岗招聘退役军人备考题库有答案详解
- 2026年安龙国家山地户外运动示范公园招聘2名会计备考题库及参考答案详解一套
- 2026年凯里市华鑫高级中学教师招聘备考题库及1套参考答案详解
- 肿瘤化疗导致的中性粒细胞减少诊治中国专家共识解读
- 2025年查对制度考核考试题库(答案+解析)
- 云南省2025年普通高中学业水平合格性考试历史试题
- 骨关节疾病危害课件
- 《再见2025欢迎2026》迎新年元旦主题班会
- 猫屎咖啡介绍
- DB54T 0540-2025 区域性强降雨气象评估标准
- 2025-2026 学年三年级 道德与法治 随堂检测 试卷及答案
- 广西贵百河2025-2026学年高一上学期12月联考语文试题
- 《手术室护理实践指南(2025版)》
- 四川省2025年高职单招职业技能综合测试(中职类)汽车类试卷(含答案解析)
评论
0/150
提交评论