版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据新闻与信息可视化数据分析之文本挖掘第六章目录CONTENT01.
文本挖掘在数据新闻中的应用02.文本预处理03.
词频与关键词分析04.主题发现、情感分析与语义网络05.
数据分析与数据新闻叙事文本挖掘在数据新闻中的应用第一节1.1文本挖掘在数据新闻中的应用传统的社会科学研究方法其实已经形成了一系列分析“文本”的策略,如内容分析、文本分析、符号分析、对话分析、话语分析等方法去阐释各种文本的意义随着数据科学的发展,使用计算机代替人工来分析文本数据的技术应运而生,例如利用计算机识读、解析人类语言的的自然语言处理(naturallanguageprocessing)技术。今天的数据新闻记者也可以使用计算机辅助方法来高效地分析文本数据。这类方法被称为电脑辅助文本分析(computer-assistedtextanalysis)或文本挖掘(textmining)。我们可以通过简单的编程语言操作或更加直观的软件程序来调用文本挖掘方法。图
澎湃新闻报道中呈现的主题分布与关键词共现网络文本预处理2.1原理与步骤2.2中文分词2.3文档—词项矩阵第二节处理自然语言最简便也是最常见的方法是词袋模型(bagofwords)。词袋是一个比喻的说法,该方法将语料中的词语拆散后,混合在一起进行分析,就仿佛将拆开的词语混装进一个口袋再来统计。词袋模型不考虑词语之间的先后顺序以及语法,仅以词语在文档中出现的频次权重来考察文本的意义。因此,词袋模型是一种对文本内容极度简化的方案。词袋模型的好处就是适用范围较广,实现起来也比较容易。
2.1
原理与步骤
主要步骤分词(wordsegmentation或wordtokenization)去除停用词(droppingcommonwords)词语标准化(normalization)图
词袋模型表现文本的方法示意这里介绍中文分词的工具结巴中文分词(jieba)。该分词器在中文分词领域较为流行,技术成熟,使用简单。R语言操作设置分词器:worker()分词操作:segment()设置停用词词典与用户词典2.2
中文分词左图为原文右图为分词结果我们所要分析的全部文档的总和被称为语料库(corpus)。文档-词项矩阵非常类似我们熟悉的二维数据集,其中的行代表文档,栏代表语料库(所有文档的集合)中的每一个词项,而数据项中的数值则代表某一词项(纵向)在某一个文档(横向)上出现的频数(如下图)。这样,文档-词项矩阵就将一个个文档转换成数字表达的形式,很多挖掘方法都以该矩阵为重要基础。使用tmcn包创建dtm:createDTM()使用tm包检视矩阵:inspect()2.3
文档—词项矩阵(dtm)词频-逆文档频率算法(termfrequency-inversedocumentfrequency,简称tf-idf):如果一个词在某个文档中出现频率很高,同时这个词在所有其它文档中也是高频词,那么这个词的相对重要性可能没有词频显示出来的那么高。换句话说,我们应该根据某个词在整个文本中出现的频率去调整这个词的词频权重。tf-idf是文本挖掘中最常见的加权技术,在关键词提取、文本聚类等方法中应用广泛。词频与关键词分析3.1词频统计3.2词频统计的可视化第三节词频统计分析文本关键词的方法。从最基本的思路出发,当一个词在文本中出现的越多,它的重要性就越高。1.
使用jiebaR进行词频统计:
统计词频:freq()
对词语进行过滤filter_segment()2.通过tf-idf算法提取前10关键词keys<-worker("keywords",topn=10)
keywords(XXX,keys)3.根据文档-词项矩阵也可以统计高频词。该矩阵的栏代表语料库中的词项,那么将矩阵按照每一栏对数值加总,就求得了每一个词的总频率:
colSums(as.matrix(dtm))3.1词频统计图
文档—词项矩阵示意3.2词频统计的可视化
图《流浪地球》评论前10名高频词的条状图图《流浪地球》评论前30个关键词的散点图(根据tf-idf值计算)图《流浪地球》豆瓣影评高频词词云图示例之一图《流浪地球》豆瓣影评高频词词云图示例之二3.2词频统计的可视化
词云在数据新闻中的应用。例如,“复数实验室”的作品《原生家庭之殇:从5243条数据看家庭语言暴力》,就使用了词云呈现原生家庭中针对身材长相的语言暴力(左图)。澎湃新闻“美数课”的作品《分析完2万条数据,我们发现海外中餐馆重塑了“中餐”的定义》通过爬取点评网站Yelp内容呈现海外中餐厅名称的关键词(右下图)。主题发现、情感分析与语义网络4.1主题发现4.2情感分析4.3语义网络第四节文本分析经常需要处理为数较多的文本。有些文本可能会涉及同一类议题,因而比较相近。那么一个简单的想法是,我们能不能根据文本的主题将众多文本归入若干类别?通过文本主题分类,我们就能形成对所分析文本的整体性理解。
第一种方法:利用聚类分析(clusteranalysis)
首先对语料做预处理,生成文档-词项矩阵使用as.matrix函数将dtm转换成一般的矩阵使用dist()函数计算距离选择不同的聚类方法进行分析4.1主题发现图
对文档进行层次聚类分析的树状图图K-means聚类结果的可视化呈现方法2:基于非监督机器学习算法的隐狄利克雷主题模型(LDA,LatentDirichletallocation)
LDA模型将所有待分析文档看成是若干主题混合体,同时将主题看成是一些列词语的集合。LDA模型将主题看成是一些列词语的集合。
LDA通过多项分布假设和
计算方来同时估计文档-模型组合的情况以及主题-词项组合的情况。在R语言中我们可以使用topicmodels()函数进行LDA主题分析4.1主题发现图
使用LDAvis对主题模型进行可视化呈现(上图λ=1,下图λ=0.5)情感分析可以帮助研究者量化一个文本单位所包含的情感特征,可以计算出一个文本单位的正面情绪与负面情绪数值,并对其进行比较,也可以量化地呈现更为细致的情绪元素,如喜悦、愤怒、焦虑等等。
电脑辅助情感分析通常采取两种路径:基于词典的情绪分析与基于机器学习的情绪分析。4.2情感分析
图
三类情绪的影评数量分布饼状图图
影评中若干情绪特征的平均值雷达图图
不同日期影评正负面情绪分布(比例)图我们可以借助社会网络分析(socialnetworkanalysis)的基本方法,来对文本中出现的词对进行分析。社会网络分析是一种经典的用以描述和理解社会关系的数据分析技术。与我们熟悉的属性数据不同,社会网络分析聚焦关系型数据,其分析的对象是节点之间的联系。从网络分析的视角来审视文本,文本中的词语可被看成网络中的节点(node或vertex);当一个词语出现在另一个词语附近一定距离范围内时,则认为两个词语形成了具有关系的词对,二者之间建立了联系,在网络分析中被称作边(tie或edge)。通过统计文本中的词频及词对的频率,我们就可以将文本转换为一个网络状的关系型数据,并通过分析这个由词对构成的网络来阐释文本的语义结构。我们介绍使用WORDij与igrah()包进行语义网络分析的方法。4.3语义网络图
使用plot函数对《报告》进行语义网络绘图图
度中心性与边权重的语义网络图形图
使用标签散播算法发现社群示意图数据分析与数据新闻叙事5.1以数据分析呈现新闻事实5.2以数据分析辅助新闻分析与解释5.3以数据分析驱动新闻叙事5.4交代数据分析方法提高新闻的透明性5.5整合应用数据分析与信息可视化第五节在对事实的描述与呈现上,数据分析有很大优势。数据对事实的刻画更加精确,也更容易排除主观性因素。在报道过程中,对数据的总结与基本描述,本身就是一种非常实用的事实报道策略。例如,在“上观”数据新闻的报道《史上关注度最高的一届冬奥会,到底凭什么?,就利用汇总数据与信息图对奥运会带动中国冰雪产业、中国冬奥历史成绩等基本事实进行了呈现。5.1以数据分析呈现新闻事实图
数据新闻通过数据分析呈现新闻事实新闻报道常涉及对新闻背景的调查或对事件的原因、走势等进行解释,以帮助读者更好地理解现实。数据分析是对数据信息中隐含关系的揭示,因而可以帮助我们进行新闻分析或解释。运用统计模型透视数据,往往会帮助记者看到线性思维难以发觉的模式。利用数据和统计来进行新闻分析,也可以一定程度上减小新闻工作的主观偏向。网易新闻的“数读”的报道《中国哪个城市通勤时间最长,特别好猜》则利用数据对不同城市的公共交通状况进行对比分析,从而呈现城市因素对于交通状况的影响。5.2以数据分析辅助新闻分析与解释图
数据新闻分析我国不同城市的通勤时间当我们所分析的数据信息量比较丰富,且可发掘的维度较多时,采用不同的分析方法对数据进行解读,就可以构建一个叙事逻辑。在这种情况下,数据新闻记者通过数据分析建立的逻辑,就可以成为新闻叙事的重要驱动力。例如,“复数实验室”的数据新闻作品《宝贝回家:7万条数据解读儿童拐卖与遗弃》就体现出数据驱动新闻的特征。该报道主要利用裁判文书网相关的文书数据,首先利用文本分析交代了失踪儿童的外表特征、性别分布、遗失地点等信息,接着从法律和犯罪的角度分析了相关案件的特征。5.3
以数据分析驱动新闻叙事
图
数据新闻构建儿童拐卖与遗弃的叙事逻辑记者必须清晰交代所有数据的来源,详述数据收集、整理的方式,并将数据分析中的操作化方式和分析方法全部向读者呈现。理论上,任何读者都可以用这些方法重复(replicate)数据分析的过程并取得一致性结果。交代数据分析的全过程,实际上构成了一种新闻透明性的仪式,反过来可增强读者对新闻客观性的感受,进而提高新闻报道的权威,赢得读者的信赖。下图是澎湃“美数课”对其报道《数说两会|1978年到2022年政府工作报告关键词盘点》的数据分析方法说明。5.4
交代数据分析方法提高新闻的透明性
图
数据新闻中交代
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中职工业分析技术(化学分析实操)试题及答案
- 2025年高职(云计算技术应用)云平台部署与维护阶段测试题及答案
- 2025年高职国际物流(国际货运流程)试题及答案
- 2025年高职农产品加工与质量检测(农产品检测)试题及答案
- 2025年高职(工程造价)工程造价案例分析综合测试题及答案
- 2025年大学大二(临床医学)外科学综合测试题及答案
- 2025年高职林业信息技术应用(林业GPS操作)试题及答案
- 2025年大学大四(财务管理)私募股权融资综合测试题及答案
- 2025年大学信息安全(信息安全案例讨论)试题及答案
- 2025年中职(农业种植技术)农业基础阶段测试题及答案
- 矿山项目的投资与融资策略
- 2024年内蒙古能源集团有限公司招聘笔试参考题库含答案解析
- 《念奴娇 赤壁怀古》《永遇乐 京口北固亭怀古》《声声慢》默写练习 统编版高中语文必修上册
- 《半导体器件物理》复习题2012
- 众辰变频器z2400t-15gy-1说明书
- 非电量保护装置技术说明书
- 全国行政区划代码
- 新华书店先进事迹汇报
- 船体振动的衡准及减振方法
- 刑事侦查卷宗
- 水泥混凝土路面滑模摊铺机施工工法
评论
0/150
提交评论