【微博谣言检测算法设计的相关理论及技术基础综述3500字】_第1页
【微博谣言检测算法设计的相关理论及技术基础综述3500字】_第2页
【微博谣言检测算法设计的相关理论及技术基础综述3500字】_第3页
【微博谣言检测算法设计的相关理论及技术基础综述3500字】_第4页
【微博谣言检测算法设计的相关理论及技术基础综述3500字】_第5页
已阅读5页,还剩3页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

[25]编码器的预训练模型。在BERT模型的论文中,推荐了两种模型,一种是基准模型,另一种是大数据模型。本文所应用的是基准模型,在基准模型上微调了一部分,让它更加适用于本文所提出的模型。其结构示意图如图2-1所示。图2-1BERT模型基本结构图中以单句谣言为例,Trm代表Transformer,每一个Trm都接收到了所有字的信息,也就是双向的意思。T1-Tn代表隐藏层,是通过transformer计算得到的结果。每个字与其他的字的关系计算,由注意力矩阵来实现。例如微博文本中“疫情复发,集体发烧”,其向量表示如图2-2所示。第一格代表CLS,句子开始的标识,第二格代表“疫”,第三格代表“情”,以此类推。得到的矩阵由矩阵本身乘以它的转置矩阵,计算得到注意力矩阵,即得到每个字与所有字的关系矩阵,值越大,关系越密切。就如C1·C1那一行,代表C1字与其他所有字的关系。对角线代表每个字与自身的关系,其前后位置上的数字表示代表与其他字之间的关系,既有该字前面字的信息,也有其后面字的信息,也就是字的双向关系。图2-2注意力矩阵计算示意图注意力矩阵的具体计算公式如公式2-1所示。(2-1)其中QKT是注意力矩阵,与其自身转置的乘积,的作用是为了让softmax结果稳定,将注意力矩阵标准化。用注意力矩阵给V(每个矩阵的向量)加权。BERT有两种方法建立语言模型。一是MaskedLanguageModel(MaskedLM),另一个是NextSentencePrediction。MaskedLM指的是随机遮住或替换一句话中任意的字或词,通过模型预测出或是还原出被遮住或被替换部分的字或词是什么,之后计算出遮住或替换部分的Loss。最后输出隐藏层的计算结果。第二个预训练任务是NextSentencePrediction,指预测两个句子是否具有上下文关系,在两个句子之间加上特殊的token,句子首部加上[cls],在该句话结束加上[sep],第二句话结束加上[sep]以此类推。其对应关系如图2-3所示。图2-3预训练对应关系图图2-3中的两句话是“疫情复发”,“集体发烧”。随机初始化embedding,将上句信息标记为0,下句标记为1,让模型分开上下句,可以更好的判断句子的起始位置。最终隐藏层需要经过注意力机制,取出cls所对应的一条向量作为结果,其包含这句话中所有字的信息。所以句子的维度是:Xhidden:[批数据大小,文本序列长度,向量维度]取出cls对应的一条向量,cls对应文本序列维度的第0条。Cls-vector=Xhidden[;0;]Cls-vector属于[文本序列长度,向量维度]Y=sigmoid(Linear(cls_vector))Y属于(0,1)。越接近1,微博文本之间的关系越亲密。BERT在本文中用来处理中文数据,判断句子之间的关系。对于本文中的训练来说,不论是基准模型还是大数据的模型,BERT原论文中提出的预模型的训练参数都过大。经过实验发现,本实验的BERT模型参数设置为transformer_block=6,embedding_dimension=384,numheads=12,也就是说transformer块的数量设置为6,隐藏层数量设置为384,多头设置为12,参数的缩短并不影响最后的结果。单个transformerblock的结构如图2-4所示。图2-4单个transformerblock的结构图1.1.2ERNIE模型ERNIE(EnhancedRepresentationthroughKnowledgeIntegration)是在BERT模型之后由百度提出的语义表示模型,同BERT一样,ERNIE也是基于Transformer的编码器(Encoder)部分。与BERT方法相比较,ERNIE的预训练过程比BERT更有优势,因为它利用了比BERT更有优势的语义知识和多语义任务。ERNIE的语义用Transformer模型的Encoder部分来表示。Transformer是编码器和解码器的组合,其简单的结构如图2-5所示:图2-5Transformer简要结构图Transformer的编码器(Encoder)部分是由完全相同的结构共同组成的,单个编码器结构包括自注意力机制层和全连接神经网络层。自注意力机制层用来学习微博文本中每个词与其他词的关系。解码器(Decoder)部分也由完全相同的结构组成的,但编码器与解码器之间还有注意力机制层,该注意力机制层输入的是上一层编码器的输出和解码器的输出,为的是注意到微博数据中权重大的位置以及需要关注的内容。图2-6Transformer架构图BERT模型应用的是TransformerEncoder结构,该结构对微博文本的语义表示效果应该更好,因为可以表示文本中词与词之间的前后关系。ERNIE模型同样应用了TransformerEncoder结构。Transformer结构如图2-6所示。而ERNIE有两个版本,版本1是对大量数据继续建模,学习其中的语义知识。对比BERT模型处理微博文本内容来说,版本1可以直接对微博文本内容的语义进行建模,增强了模型语义表示能力。也就是将类似“疫情”这种词语,不再分成单个的字来处理,如图2-7所示。图2-7ERNIE1.0与BERT词屏蔽方式的比较图2-7中ERNIE的版本1与BERT词屏蔽方式相比较,ERNIE版本1的优势在于可以处理词语。比如“疫情复发”,“集体发烧”这两句中,BERT对字进行遮盖,通过训练在“疫”和“复”之间推断出“情”,但是学习不到关于疫情的深层知识,只是学到“疫情”这个词语。ERNIE对文本进行训练,将“疫情”,“集体”等类似的词遮盖,之后建模学习“疫情”与“集体”的关系,学到“疫情”“复发”这两个词,并且理清这两词之间关系。在处理微博文本数据时,应用ERNIE模型会更精确一些。ERNIE版本2在训练时学习到更多的任务,效果变得更理想。ERNIE版本2是语义理解框架,通过预训练来持续学习,可以同时进行多个任务。其结构如图2-8所示。在版本2中,可以将微博数据的预处理分为多个任务,通过构建新任务加入框架,可以实现对微博文本的语义理解,从而不断的提升模型效果。图2-8ERNIE结构图ERNIE版本2的预训练包括三类学习任务:(1)词法层任务:对微博文本中的词汇预测。(2)语法层任务:将多个微博文本的结进行重建。(3)语义层任务:判断微博文本之间的逻辑关系。ERNIE版本2通过语义任务来增强表示语义的能力,ERNIE版本2可以从训练的微博数据中获取多维度的语义,ERNIE1.0模型在训练微博文本数据方面几乎所有指标都大于BERT,所以之后本文选取了ERNIE作为数据的训练模型。1.2数据集构建本文将新浪微博作为谣言检测的研究平台,所有谣言及非谣言的数据均来自微博。这些特征都能够在已经公开的数据集上获得。除了应用现成的数据集之外,实验还采集了小部分微博上的公开数据,利用爬虫和API技术在微博上进行抓取后得到的数据集,用来验证模型效果。1.1.1分析数据来源微博作为我国最大的社交媒体平台之一,拥有上亿的用户,微博的数量更是数不胜数。由于谣言检测越来越受重视,所以微博专门开通了官方辟谣账号对虚假信息进行辟谣;新浪微博与北京互联网法院联合设立社区管理中心,用于接收网民对不实信息的投诉。在处理大厅菜单栏,可以看到所有被举报的谣言信息;在媒体信息辟谣方面,官方给出媒体政务辟谣共治平台。其中(1)微博辟谣官方账号通常以#联合辟谣##微博辟谣#为话题,微博结合这两个话题可以让网友一目了然的看到谣言信息,并且可以通过此账号对微博上疑似谣言的信息进行举报。(2)不实信息是指微博中被广泛关注但虚假的信息。人们虽然拥有言论自由,但是以故意吸引人而散布的歪曲事实的信息,就被视为不实信息。任何虚假的信息经过互联网的传播,就被视为网络谣言。(3)媒体政务辟谣共治平台面向的对象是各个地方的媒体,以及公安警官和网警等,用来直接对虚假信息进行辟谣。通常采集的微博谣言是经过官方辟谣的信息,尽管是官方数据,采集也是有一定困难的。微博对采集数据有明确的要求,不能频繁用同一个账号访问微博,出现这种情况会被视为登录异常,从而被封锁,不能进行下一步的工作。1.1.2采集微博数据采集微博数据一般用两种方法,一是通过微博的公共接口API来采集,二是通过爬虫来爬取数据。下面分别介绍这两种方法:(1)基于公共接口方法采集数据新浪微博为了方便用户采集数据,提供了公共接口API。用户采集数据需要通过注册、审核、调用权限等步骤,但这并不是无限制的。对于不同权限的用户使用的次数是不同的。通过此方法可以得到用户特征信息,原始微博信息,以及其他可以采集的不涉及隐私的数据,最终以Json文件的格式返回需要的信息。由于权限的限制,使得用户采集到的微博数据的数据量非常有限。因此,使用公共API接口采集数据的方式很难满足实时的、大规模的微博数据采集。(2)基于爬虫方法爬取数据由于公共接口采集数据的限制,开发者们将视线放到了爬虫方法上。网络爬虫根据设置的规则来爬取页面中需要的内容。由于微博限制了用户

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论