第五章 网络舆情检测技术_第1页
第五章 网络舆情检测技术_第2页
第五章 网络舆情检测技术_第3页
第五章 网络舆情检测技术_第4页
第五章 网络舆情检测技术_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章,网络舆情监测技术,导言,网络舆情监测技术非常复杂,涉及许多计算机与网络等方面的专业知识,对于新闻与传播的从业者和研究者而言,掌握网络舆情监测相关的基本技术原理,把握技术的基本发展方向以及它们对于网络舆情监测的影响,是十分必要的。,CONTENTS,一、数据采集基本技术,(一)网络爬虫 网络爬虫(又被称为网页蜘蛛、网络机器人),是一种按照一定的规则自动地抓取互联网信息的程序或者脚本。 (1)批量型爬虫(batch crawler)。批量型爬虫有比较明确的抓取范围和目标,当爬虫达到这个设定的目标后,即停止抓取过程。批量型爬虫是目前数据采集系统中最简单的爬虫系统。 (2)增量型爬虫(incr

2、emental crawler)。增量型爬虫会保持持续不断的抓取,对于已经抓取过的网页会按照一定策略定期更新。增量型爬虫是目前数据采集系统中最常用的爬虫系统。 (3)垂直型爬虫(focused crawler)。垂直型爬虫只关注特定主题或特定行业的网页,其最大的挑战就是如何识别网页的内容是否属于指定行业或主题。一般只有垂直行业分析才会需要此类型的爬虫。,网络爬虫的特性:,(1)高性能:爬虫系统在单位时间内下载的网页数量越多性能越高。 (2)可扩展性:爬虫系统应该很容易通过增加抓取服务器和爬虫数量来缩短抓取周期。 (3)健壮性:包括两方面,一是爬虫系统可以处理抓取中遇到的各种非正常情况,二是爬虫

3、系统自身有一套健壮的容错机制。 (4)友好性:包括两方面,一是保护网站的部分私密性,二是减少被抓取网站的网络负载。,一、数据采集基本技术,(二)网页去重 在当今的互联网环境中,有相当大比例的内容是完全相同或者大体相近的。这些网页不仅会增加数据采集系统的压力,而且会影响后续数据分析结果的质量,所以网页去重的问题尤为突出,已经成为提高数据质量的关键技术之一。 在实际的数据采集系统中,往往是在爬虫阶段进行网页去重操作。,一、数据采集基本技术,(三)分布式技术 面对海量的数据抓取任务,只有采取分布式架构才有可能在较短的时间周期内完成一轮抓取工作。常见的分布式架构有两种:主从式分布爬虫和对等式分布爬虫。

4、 主从式分布爬虫(master-slave)是分布式技术中最传统的也是最常见的一种形式,它指不同的服务器承担着不同的角色,其中有一台专门的master服务器来维护待抓取的URL(universal resource locator,统一资源定位符)队列,它负责每次将URL分发到不同的slave服务器,而slave服务器则负责实际的网页下载工作。Master服务器除了维护待抓取URL队列以及分发URL之外,还要负责调解各个slave服务器的负载情况,以免某些slave服务器过于清闲或者劳累。 在对等式分布爬虫(peer to peer)体系中,服务器之间不存在分工差异,每台服务器都承担着一样的功

5、能,各自负责一部分URL的抓取工作。由于没有URL服务器存在,如何分工就成了主要问题。,二、数据采集原理,二、数据采集原理,网络爬虫的基本工作流程如下: (1)首先选取一部分精心挑选的种子URL。 (2)将这些URL放入待抓取URL队列。 (3)从待抓取的URL队列中取出待抓取的URL,解析DNS,并且得到主机的IP,将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。 (4)分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。,三、数据采集常用方法,(一)网页搜索策略 广度优先搜索策略 最佳优先搜索

6、策略 深度优先搜索策略,三、数据采集常用方法,(二)网页更新策略 历史参考策略 用户体验度策略 聚类抽样策略,一、数据分析基本技术,(一)全文检索技术 全文检索技术是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。一般来说,全文检索需要具备建立索引和提供查询的基本功能。此外,现代的全文检索系统还需要具有方便的用户接口、面向WWW的开发接口、二次应用开发接口等。在功能上,全文检索系统核心具有建立索引、处理查询返回结果集、增加索引、优化索引结构等功能,外围则由各种不同应用具有的功能组成。在结构上,全文检索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等,加上各种外围应用系统等共同

7、构成了全文检索系统。,一、数据分析基本技术,(二)文本挖掘技术 文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程, 它已经成为数据挖掘中一个日益流行而重要的研究领域。 与一般数据挖掘以关系、事务和数据仓库中的结构数据为研究目标所不同的是, 文本挖掘所研究的文本数据库由来自各种数据源的大量文档组成, 包括新闻文章、研究论文、书籍、期刊、报告、专利说明书、会议文献、技术档案、政府出版物、数字图书馆、技术标准、产品样本、电子邮件消息、web页面等。,文本挖掘技术在网络舆情信息分析中的应用:,对网络舆情进行描述 对网络舆情的关联性进行分析 对网络舆情信息的真实性进行判断分析

8、,对传播主体的意图及态度倾向进行推论 对网络舆情的产生原因进行分析 预测和推论网络舆情信息的产生和变化趋势,二、数据分析原理,(一)全文检索技术原理 目前全文搜索引擎通常使用倒排索引技术。倒排索引(inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。,二、数据分析原理,(二)文本挖掘技术原理 (1)文本预处理:选取任务相关的文本并将其转化成文本挖掘工具可以处理的中间形式。 (2)文本挖掘:在完成文本预处理后,可以利用机器学习、数据挖掘以及模式识别等方法

9、提取面向特定应用目标的知识或模式。 (3)模式评估与表示为最后一个环节,是利用已经定义好的评估指标对获取的知识或模式进行评价。如果评价结果符合要求,就存储该模式以备用户使用;否则返回到前面的某个环节重新调整和改进,然后再进行新一轮的发现。,三、数据分析常用文本挖掘算法,(一)文档聚类 首先,文档聚类可以发现与某文档相似的一批文档,帮助知识工作者发现相关知识;其次,文档聚类可以将一个文档聚类成若干个类,提供一种组织文档集合的方法;再次,文档聚类还可以生成分类器以对文档进行分类。 聚类方法通常有:层次聚类法、平面划分法、简单贝叶斯聚类法、分级聚类法、基于概念的文本聚类等。,三、数据分析常用文本挖掘

10、算法,(二)文档分类 分类和聚类的区别在于:分类是基于已有的分类体系表的,而聚类则没有分类表,只是基于文档之间的相似度。 由于分类体系表一般比较准确、科学地反映了某一个领域的划分情况,所以在信息系统中使用分类的方法,能够让用户手工遍历一个等级分类体系来找到自己需要的信息,达到发现知识的目的,这在用户刚开始接触一个领域想了解其中的情况,或者用户不能够准确地表达自己的信息需求时特别有用。传统搜索引擎中目录式搜索引擎属于分类的范畴,但是许多目录式搜索引擎都采用人工分类的方法,不仅工作量巨大,而且准确度不高,大大限制了其作用的发挥。,三、数据分析常用文本挖掘算法,(三)自动文摘 互联网上的文本信息、机

11、构内部的文档及数据库的内容都在以呈指数级的速度增长,用户在检索信息的时候,可以得到成千上万篇的返回结果,其中许多是与其信息需求无关或关系不大的,如果要剔除这些文档,则必须阅读完全文,这要求用户付出很多劳动,而且效果不好。 自动文摘能够生成简短的关于文档内容的指示性信息,将文档的主要内容呈现给用户,方便用户决定是否要阅读文档的原文,这样能够节省大量的浏览时间。,自动文摘的特点:,(1)自动文摘应能将原文的主题思想或中心内容自动提取出来。 (2)文摘应具有概况性、客观性、可理解性和可读性。 (3)可适用于任意领域。,一、数据可视化技术介绍,数据可视化(data visualization)是研究数

12、据和信息视觉呈现的学科。它解决的问题一方面是如何将冰冷枯燥的数据和信息用有趣直观的方式呈现给受众,另一方面也是视觉分析的方法,帮助人们理解大量的复杂的数据背后隐藏的故事和洞察。它是将计算机科学领域的理性逻辑思维与艺术设计领域的视觉传达思维相结合的一种方式。 图形是直观呈现数据的直接方法。然而,将大量数据在同一个图表中画出来并不容易。早期的测绘、天气数据都需要长时间的手工绘制。随着计算机绘图功能的开发,手工绘画已经完全被自动绘图程序取代,其问题的核心转移为要以怎样的方式呈现数据,以便数据中的信息能自然地体现出来。,二、数据可视化原理,可视化不是一个单独的算法,而是一个流程。一般来讲,可视化流程以

13、数据流向为主线,整个过程可以看成数据流经一系列处理模块并得到转换的过程。用户通过可视化交互和其他模块互动,通过反馈提高可视化的效果。 作为探索数据的工具,可视化有它的输入和输出。可视化的对象或者说研究的问题并非数据本身,而是数据背后的社会自然现在和过程。换个角度来看,可视化的最终结果并不是人们所看到的一系列像素,而是用户通过可视化从数据中得到的知识和灵感。,几种可视化模型:,(一)可视化流水线 可视化流水线模型,描述了从数据空间到可视空间的映射,包含串行数据处理的各个阶段:数据分析、数据过滤、数据映射和数据渲染。 (二)信息可视化参考流程 其起点为输入的数据,终点是获取的知识。从数据到知识有两

14、个途径:对数据进行交互可视化,以帮助用户感知数据中蕴含的规律;或按照给定的先验假设进行数据挖掘,从数据中直接提炼出数据模型。用户既可以对可视化结果进行交互修正,也可以调节参数来修正模型。,三、数据可视化常用工具,(一)Tableau (二)R语言 (三)Processing (四)D3,Tableau:,(1)学习成本很低,可以快速上手。(2)未掌握统计原理的人,也能借助它完成非常有价值的分析。(3)文科同学也能够快速完成过去IT和数据分析高手才能完成的工作。(4)数据可视化独具特色,嵌入了地图和钻取。(5)海量数据处理非常快。(6)可以实现Dashboard和动态数据更新。(7)所见即所得。

15、(8)完成基本统计预测和趋势预测。(9)Web服务器应用商业智能。(10)数据源丰富。(11)输出方便。,一、大数据的由来,与其他信息技术流行语(如云计算、NoSQL等)一样,“大数据”(big data)这个词的起源并不是十分清楚的。一般认为,最早提出“大数据”这一说法的是美国麦肯锡全球研究院(MGI)于2011年5月发表的一篇研究报告大数据:未来创新、竞争、生产力的指向标。这篇报告预示了大数据时代的到来:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用预示着新一波生产率增长和消费者盈余浪潮的到来。” 维克托迈尔舍恩伯格在大数据时代一书中所列举

16、的大量例证都是为了说明一个道理:在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值。,二、大数据的特征,Volume(大量):数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。 Velocity(高速):处理速度快。 Variety(多样):数据类型繁多。比如,网络日志、视频、图片、地理位置信息等。 Value(价值):价值密度低,商业价值高。,三、大数据对舆情的价值和影响,大数据时代,对信息的加工是基础。据互联网专家介绍,大数据体量巨大,非结构化数据的超大规模和增长分别占总数据量的8090,比结构化数据增长快1050倍。从舆情产品服

17、务的角度看,浓缩海量信息、抵抗“数据爆炸”已成为舆情工作的基本要求。因此,掌握数据抓取能力与舆情解读能力,通过加工实现数据的增值,将是未来舆情分析的必备技能。,三、大数据对舆情的价值和影响,大数据时代,对数据的解释是关键。目前,数据的可获得度已经空前提高,我们可以分析更多的数据,有时候甚至可以处理与某种特别现象相关的所有数据,实现真正的大数据挖掘和分析。数据的海量、及时、动态、开放有利于我们完善分析的效度和深度。同时,大数据也有价值密度低、传播速度快等特点,数据分析的模式是否科学,将直接影响数据分析的质量。,三、大数据对舆情的价值和影响,大数据时代,对趋势的研判是目标。大数据的核心和目标就是预

18、测,具体到舆情服务,舆情工作人员从互联网浩如烟海的数据中挖掘信息、判断趋势、提高效益,虽然获得广泛且实际的应用,但还远远不够。舆情分析人员要不断增强关联舆情信息的分析和预测,把服务的重点从单纯的搜集有效数据向对舆情的深入研判拓展,跟踪关联舆情,不再局限于危机解决,要辅之以决策参考,从注重“静态搜集”向注重“动态跟踪”拓展,从致力于“反映问题”向致力于“解决问题”拓展,使舆情产品和服务“更高、更快、更强”(视点高、预警快、处置强)。,三、大数据对舆情的价值和影响,大数据时代,分众服务是方向。数据的互通互联改变了数据库、应用软件和用户界面等系统之间的“孤岛”状态。舆情服务机构应树立大舆情观念,对数据进行生产、分析和解读,探索一条为用户提供分众化服务的信息增值之路,使舆情服务的主体和边界形成一条完整的“舆情闭环”。,四、大数据带来的问

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论