大数据可视化技术与应用 课件 第6章 文本数据可视化、拓展_第1页
大数据可视化技术与应用 课件 第6章 文本数据可视化、拓展_第2页
大数据可视化技术与应用 课件 第6章 文本数据可视化、拓展_第3页
大数据可视化技术与应用 课件 第6章 文本数据可视化、拓展_第4页
大数据可视化技术与应用 课件 第6章 文本数据可视化、拓展_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第6章文本数据可视化文本数据可视化概述

综合多种学科,帮助人们理解复杂文本内容、结构、和内在规律,提取出最能代表文本的信息,并进行可视化。本章要点文本数据在大数据中的应用及提取使用网络爬虫提取文本数据关键词可视化时序文本可视化文本分布可视化文本关系可视化未来文本可视化主题文本数据在大数据中的应用及提取海量的文本数据

人类社会不断积累文本信息,在计算机时代大量数据可以存储在一块很小的硬盘中。在互联网上,每天都有海量的“用户生成内容”。文本数据在大数据中的应用及提取面临的难题人们接收信息的速度已经小于信息产生的速度,尤其是文本信息海量信息使人们处理和理解的难度日益增大传统的文本分析技术提取的信息仍然无法满足人们利用浏览及筛选等方式对其进行合理的分析理解和应用。简单实用的文本可视化文本数据在大数据中的应用及提取文本可视化的重要作用通过视觉符号的形式表达文本内容,便于人们快速理解文本信息将无结构的文本信息自动转换为可视的有结构信息。使人类视觉认知、关联、推理的能力得到充分的发挥。结合机器智能和人工智能,为人们更好的理解文本和发现知识听过了新的有效途径。文本数据在大数据中的应用及提取文本可视化的应用从人文研究到政府决策,从精准医疗到量化金融,从客户管理到市场营销,这些海量的文本作为最重要的信息载体之一,处处发挥着举足轻重的作用情报分析人员、网络内容分析人员、情感分析或文学研究者等相关职业更需要文本可视化。文本数据在大数据中的应用及提取大数据中文本可视化基本流程原始文本文本分析文本预处理文本特征抽取文本特征度量可视化呈现图元设计图元布局用户认知交互设计文本数据在大数据中的应用及提取文本分析内容文本可视化依赖于自然语言处理,因此词袋模型、命名实体识别、关键词抽取、主题分析、情感分析等是较常用的文本分析技术。过程主要包括:文本数据预处理,过滤无效信息特征提取,提取出文本词汇及的内容以灵活有文本特征的度量,分析分本间相似性、文本聚类等表示这些过程处理过的数据文本数据在大数据中的应用及提取可视化呈现及用户感知(1)信息图

1.文本内容的视觉编码主要涉及尺寸、颜色、形状、方位、文理等

2.文本间关系的视觉编码主要涉及网络图、维恩图、树状图、坐标轴等。 3.选择合适的视觉编码呈现文本信息的各种特征(2)交互

高亮、缩放、动态转换、关联更新等文本数据在大数据中的应用及提取文本理解需求等级及对应挖掘方法词汇级(LexicalLevel)——各类分词算法语法级(SyntacticLevel)——语句分析算法语义级(SemanticLevel)——主题提取算法文本数据在大数据中的应用及提取文本数据单文本文档集合时序文本数据文本可视化文本内容的可视化文本关系的可视化文本多层面信息的可视化文本数据大致可分为三种:单文本、文档集合和时序文本数据。对应的文本可视化也可分为三类:文本内容可视化文本关系可视化文本多层面信息的可视化使用网络爬虫提取文本数据网络爬虫(WebCrawler)是指一类能够自动化访问网络并抓取某些信息的程序,有时候也被称为“网络机器人”。它们最早被应用于互联网搜索引擎及各种门户网站的开发中,现在也是大数据和数据分析领域中的重要角色。爬虫可以按一定逻辑大批量采集目标页面内容,并对数据做进一步的处理,人们借此能够更好更快的获得并使用他们感兴趣的信息,从而方便地完成很多有价值的工作。使用网络爬虫提取文本数据大部分编程语言都可以实现爬虫程序的编写,也有部分商业软件提供爬虫服务。目前比较流行的就是用Python编写爬虫,有大量的第三方库可以使用,常见的有Request、urlib、Scrapy等。其中Scrapy库提供了比较完善的爬虫框架,如图所示,可以省去很多麻烦。文本内容可视化一段文本的内容可以用高频词、短语、句子、主题等代表,但是文本可视化遇到的任务通常是对有海量文本的集合进行可视化分析,针对不同类型的文本集合,我们有不同的方法来进行可视化分析。关键词可视化

关键词可视化标签云按照一定规律将这些词展示出来,可以用颜色透明度的高低、字体的大小来区分关键词的重要程度,要遵循权重越高越能吸引注意力的原则。一般权重越大字体越大,颜色越鲜艳,透明度越低关键词可视化文档散文档散使用词汇库中的结构关系来布局关键词,同时使用词语关系网中具有上下语义关系的词语来布局关键词,从而揭示文本内容。上下语义关系是指词语之间往往存在语义层级的关系,也就是说,一些词语是某些词语的下义词。而在一篇文章中,具有上下语义关系的词语一般是同时存在的。时序文本可视化

时序文本具有时间性和顺序性,比如,新闻会随着时间变化,小说的故事情节会随着时间变化,网络上对某一新闻事件的评论会随着真相的逐步揭露而变化。对具有明显时序信息的文本进行可视化时,需要在结果中体现这种变化。时序文本可视化主题河流法主题河流(Themeriver)是由SusanHavre等学者于2000年提出的一种时序数据可视化方法,主要用于反映文本主题强弱变化的过程。右图所示的主题河流可视化示例,横轴表示时间,河流中的不同颜色的涌流表示不同的主题,涌流的流动表示主题的变化。在任意时间点上,涌流的垂直宽度表示主题的强弱。文本关系可视化文本关系包括文本内或者文本间的关系,以及文本集合之间的关系,文本关系可视化的目的就是呈现这些关系。文本内的关系有词语的前后关系;文本间的关系有网页之间的超链接关系,文本之间内容的相似性,文本之间的引用等;文本集合之间的关系是指文本集合内容的层次性等关系。文本关系可视化基于图的文本关系可视化词语树是使用树形图展示词语在文本中的出现情況,可以直观地呈现出一个词语和其前后的词语。用户可自定义感兴趣的词语作为中心节点。中心节点向前扩展,就是文本中处于该词语前面的词语;中心节点向后扩展,就是文本中处于该词语后面的词语。字号大小代表了词语在文本中出现的频率。如图所示,图中采用了词语树的方法来呈现一个文本中Child这个词与其相连的前后所有的词语。文本关系可视化基于图的文本关系可视化短语网络包括以下两种属性。节点,代表一个词语或短语。带箭头的连线,表示节点与节点之间的关系,这个关系需要用户定义,比如,“AisB“,其中的is用连线表示,A和B是is前后的两个节点词语。A在is前面,B在is后面,那么箭头就由A指向B。连线的宽度越宽,就说明这个短语在文中出现的频率越高。图中使用短语网络对某小说中的“*the*”关系进行可视化。文本关系可视化文档间关系可视化

当对多个文档进行可视化展示时,针对文本内容进行可视化的方法就不适合了。此时可以引人向量空间模型来计算出各个文档之间的相似性,单个文档被定义成单个特征向量,最终以投影等方式来呈现各文档之间的关系。文档间关系可视化星系视图星系视图(GalaxyView)可用于表征多个文档之间的相似性。假设一篇文档是一颗星星,每篇文档都有其主题,将所有文档按照主题投影到二维平面上,就如同星星在星系中一样。文档的主题越相似,星星之间的距离就越近;文档的主题相差越大,星星之间的距离就越远。星星聚集得越多,就表示这些文档的主题越相近,并且数量较多;若存在多个聚集点则说明文档集合中包含多种主题的文档。文档间关系可视化文档集抽样投影当一个文档集中包含的文档数量过大时,投影出来的星系视图中就会产生很多重叠的星星。为了避免这种重叠情况的出现,用户可以对文档集进行抽样,有选择性地抽取部分文档进行投影,这样可以更加清晰地显示每个样本。未来文本可视化主题交互式增量文本分析多层次可视文本总结(关键词+句子)多方面的文本分析(例如,总结+情感分析)多媒体文档摘要(文本+图像+视频)

互动、可视的社交媒体分析第6章文本数据可视化本章要点1、文本可视化的定义2、文本可视化的基本流程3、文本数据的提取4、文本内容的可视化5、文本关系的可视化1什么是文本数据可视化

文本数据可视化就是将一篇文本尤其是数据信息密度较低的文本进行一定的处理,从中提取出最能代表文本所表达内容的信息,并将这些信息进行可视化的处理,简而言之就是:将复杂的文本数据转化为直观的图形,以方便人们洞悉。2.1文本数据可视化的基本流程原始文本文本预处理文本特征抽取文本特征度量图元设计图元布局交互设计2.2.1文本可视化的分类根据对文本的理解需求分类词汇级(LexicalLevel)

词汇级使用各类分词算法语法级(SyntacticLevel)

语法级使用一些句法分析算法语义级(SemanticLevel)

语义级则使用主题提取算法2.2.2文本可视化的分类根据文本数据分类单文本——文本内容的可视化

文本内容可视化是对文本内的关键信息分析后的展示文档集合——文本关系的可视化

文本关系的可视化既可以对单个文本进行内部的关系展示,也可以对多个文本进行文本之间的关系展示时序文本数据——文本多层面信息的可视化

文本多特征信息的可视化,是结合文本的多个特征进行全方位的可视化展示。3文本数据的提取

——网络爬虫网络爬虫(WebCrawler)是指一类能够自动化访问网络并抓取某些信息的程序,有时候也被称为“网络机器人”。它们最早被应用于互联网搜索引擎及各种门户网站的开发中,现在也是大数据和数据分析领域中的重要角色。爬虫可以按一定逻辑大批量采集目标页面内容,并对数据做进一步的处理。大部分编程语言都可以实现爬虫程序的编写,也有部分商业软件提供爬虫服务。目前比较流行的就是用Python编写爬虫,有大量的第三方库可以使用,常见的有Request、urlib、Scrapy等。其中Scrapy库提供了比较完善的爬虫框架,可以省去很多麻烦。4.1关键词可视化一个词语若在一个文本中出现频率较高,那么这个词语可能就是这个文本的关键词。在实际应用当中还要考虑到这些词是否在其他文本中也经常出现,例如“的”等词语。一般做法是构建一个停用词表,在分词阶段就将这些词去除。还可以进一步采用TF-IDF(TermFrequency-InverseDocumentFrequency)方法来计算词语对表达文本信息的重要程度。4.1.1关键词可视化——标签云

1、统计文本中词语出现频率、TF-IDF等指标来衡量词语的重要程度,提取出权重较高关键词;2、按照一定规律将这些词展示出来,可以用颜色透明度的高低、字体的大小来区分关键词的重要程度,要遵循权重越高越能吸引注意力的原则。一般权重越大字体越大,颜色越鲜艳,透明度越低。4.1.2关键词可视化——文档散文档散使用词汇库中的结构关系来布局关键词,同时使用词语关系网中具有上下语义关系的词语来布局关键词,从而揭示文本内容。1、将一个单词作为中心点。中心点的词汇可以由用户指定,选择不同的中心点词汇呈现出的可视化结果将大不相同;2、将整个文章內的词语呈现在一个放射式层次圆环中,外层的词是內层词的下义词。颜色饱和度的深浅用来体现词频的高低。标签云文档散4.2时序文本可视化时序文本具有时间性和顺序性,比如,新闻会随着时间变化,小说的故事情节会随着时间变化,网络上对某一新闻事件的评论会随着真相的逐步揭露而变化。对具有明显时序信息的文本进行可视化时,需要在结果中体现这种变化。我们主要通过以下三种“流图来”来满足这种可视化需求。主题河流文本流故事流经典的主题河流模型包括以下两个属性。(1)颜色。颜色用以区分主题的类型,相同主题用相同颜色的涌流表示。主题过多时颜色可能无法满足需求,因为容易区分的颜色种类并不是很多。一个解决方法是将主题也进行分类,一种颜色表示某一大类主题;(2)宽度,表示主题的数量(或强度),涌流的状态随着主题的变化,可能扩展、收缩或者保持不变。文本流是主题河流的又一种变形,可以表达主题变化,以及随着时间流动,各个主题之间的分裂和合并信息。故事流则可以表达文本的情节或者电影中的情节。

通过使用主题河流图,时序文本内容整体的变化趋势就能很容易地被用户获取。可以看出,主题河流存在一定局限性,该做法将每个时间刻度上的主题高度概括为一个数值,省略了主题的特性,无法满足用户再进一步的信息需求。一个较好的做法是为主题引入标签云,每个主题用一组关键词描述,让用户更好理解主题内容。

图所示的主题河流可视化示例,横轴表示时间,河流中的不同颜色的涌流表示不同的主题,涌流的流动表示主题的变化。在任意时间点上,涌流的垂直宽度表示主题的强弱。4.3文本分布可视化文本分布可视化实际上是引入了词语在文本当中的位置、句子长度等信息,这些信息常被制作成文本弧。文本弧特性如下:(1)用一条螺旋线表示一篇文章,螺旋线的首尾对应着文章的首尾,文章的词语有序地分布在螺旋线上;(2)若词语在整篇文章中出现得比较频繁,则靠近画布的中心区域分布;(3)若词语只是在局部出现得比较频繁,则靠近螺旋线分布;(4)字体的大小和颜色深度代表着词语的出现频率。4文本关系可视化文本关系包括文本内或者文本间的关系,以及文本集合之间的关系,文本关系可视化的目的就是呈现这些关系。文本内的关系有词语的前后关系;文本间的关系有网页之间的超链接关系,文本之间内容的相似性,文本之间的引用等;文本集合之间的关系是指文本集合内容的层次性等关系。4.1.1基于图的文本关系可视化

——词语树

词语树(WordTree)使用树

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论