网络涉恐行为的特征分析与判定标准研究.ppt_第1页
网络涉恐行为的特征分析与判定标准研究.ppt_第2页
网络涉恐行为的特征分析与判定标准研究.ppt_第3页
网络涉恐行为的特征分析与判定标准研究.ppt_第4页
网络涉恐行为的特征分析与判定标准研究.ppt_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、网络涉恐行为的特征分析与判定标准研究,内容简要,背景 文本特征提取 中文分词 单词归类 判定方法 系统设计,背景,国内恐怖势力活动猖獗 网络环境错综复杂,恐怖分子利用网络传播涉恐信息,达到扩大影响和策划活动等目的。,一种基于词频的文本特征提取算法 一套使用该算法和神经网络的文本判定系统,文本特征提取,1)建立零向量,维数与词类数相同 2)取出文本下一个单词 3)查询该单词类别,若该单词无分类,回到 2),若有分类继续 4) 4)向量对应该类的坐标增加1 5)若还有下一个单词,返回2),若已经没有下一个单词,向量的每一维坐标除以总词数转化为频率,得到最终特征向量。,特征提取需要解决的问题,如何识

2、别文中的每一个单词? 如何给单词分类?如何确定分多少类?,中文分词算法,分词算法的选择 1) 词典匹配的方法 2) 字符标注的方法(CRF、HMM、MEMM) MMSEG算法(词典匹配) 词串(chunk)& 消岐规则 MMSEG算法的改进 匹配方向 消岐规则 自学习的方法,MMSEG算法的改进,匹配方向的改进 假设最大匹配长度为5。 原匹配方向:,改进后的匹配方向:,单词分类的方法,对正常、涉恐文本样本分别统计单词使用频率 两类文本单词的使用频率的差别作为分类依据,单词分类的方法(2),词频取对数 缩小结果的数量级范围 更准确地表现出单词使用差异 第一类文本: 第二类文本: 相减结果: 对数相减结果: 类数取决于每条文本单词数L,不宜多于L/10,也可根据对数绝对值动态决定。 得到结果后,先按结果符号(正负)分为2类,每一大类中,再将结果区间等长划分。,特征判定标准,如何根据特征来区分正常文本和涉恐文本? 1)单词统计的是所有样本的词频,对于单条文本,词频波动很大 2)样本较多,人力总结两类文本的特征费时费力 3)网络更新速度非常快;为了逃避审查,涉恐语言经常改变句式、用词。静态的标准随着网络语言的发展逐渐不再适用,神经网络: 非线性逼近 自学习 高效,神经网络的选择,BP网络 RBF网络,系统流程,学习:生成标准 判定:使用生成的标准进行判定,系统展示(1),基本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论