




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、网络涉恐行为的特征分析与判定标准研究,内容简要,背景 文本特征提取 中文分词 单词归类 判定方法 系统设计,背景,国内恐怖势力活动猖獗 网络环境错综复杂,恐怖分子利用网络传播涉恐信息,达到扩大影响和策划活动等目的。,一种基于词频的文本特征提取算法 一套使用该算法和神经网络的文本判定系统,文本特征提取,1)建立零向量,维数与词类数相同 2)取出文本下一个单词 3)查询该单词类别,若该单词无分类,回到 2),若有分类继续 4) 4)向量对应该类的坐标增加1 5)若还有下一个单词,返回2),若已经没有下一个单词,向量的每一维坐标除以总词数转化为频率,得到最终特征向量。,特征提取需要解决的问题,如何识
2、别文中的每一个单词? 如何给单词分类?如何确定分多少类?,中文分词算法,分词算法的选择 1) 词典匹配的方法 2) 字符标注的方法(CRF、HMM、MEMM) MMSEG算法(词典匹配) 词串(chunk)& 消岐规则 MMSEG算法的改进 匹配方向 消岐规则 自学习的方法,MMSEG算法的改进,匹配方向的改进 假设最大匹配长度为5。 原匹配方向:,改进后的匹配方向:,单词分类的方法,对正常、涉恐文本样本分别统计单词使用频率 两类文本单词的使用频率的差别作为分类依据,单词分类的方法(2),词频取对数 缩小结果的数量级范围 更准确地表现出单词使用差异 第一类文本: 第二类文本: 相减结果: 对数相减结果: 类数取决于每条文本单词数L,不宜多于L/10,也可根据对数绝对值动态决定。 得到结果后,先按结果符号(正负)分为2类,每一大类中,再将结果区间等长划分。,特征判定标准,如何根据特征来区分正常文本和涉恐文本? 1)单词统计的是所有样本的词频,对于单条文本,词频波动很大 2)样本较多,人力总结两类文本的特征费时费力 3)网络更新速度非常快;为了逃避审查,涉恐语言经常改变句式、用词。静态的标准随着网络语言的发展逐渐不再适用,神经网络: 非线性逼近 自学习 高效,神经网络的选择,BP网络 RBF网络,系统流程,学习:生成标准 判定:使用生成的标准进行判定,系统展示(1),基本
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年税务师之涉税服务实务模考预测题库(夺冠系列)
- 多宝乐园教学课件图片
- 参与式教学课件
- 心理学基础(第2版) 课件 第10章 动机
- 少儿英语培训教学课件
- 偷影子的人教学课件
- Brand KPIs for milk alternatives:So Good in India-英文培训课件2025
- 《荷塘月色》教学课件
- 2025年工业互联网平台IPv6技术升级下的工业互联网平台市场拓展策略研究报告
- 小学生研学课件制作
- 江苏省扬州市江都区2024-2025学年七年级上学期第一次月考数学试卷
- 木材原木采购合同范本
- EPC光伏项目投标方案(技术方案)
- 家庭医生签约服务手册
- 膝关节骨节炎康复诊疗规范
- 立式压力蒸汽灭菌锅确认方案
- 2024活动委托承办服务合同协议书范本
- 2024年全国高考Ⅰ卷英语试题及答案
- (1000题)焊工(初级)理论考试题及参考答案
- SL-T+62-2020水工建筑物水泥灌浆施工技术规范
- 人民军队优良传统附有答案
评论
0/150
提交评论