




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于AI的网络水军识别系统方案设计
Summary:随着社交媒体的发展,一部分人或则组织机构为了某种目的,在网上发表不实言论进行非正当的竞争行为,扰乱了市场秩序,网络水军通过网上散发假的舆论谣言,突破言论自由的权利,侵犯了他人的权利,为了有效且较为准确地识别出网络水军,基于对原始数据的预处理(包括数据清洗以及提取相关特征等),AI识别,数据库存储原始数据,模型识别结果等研发一套基于AI的网络水军识别系统,营造更为和谐的网络环境。关键字:AI;网络水军;数据处理
1
引
言目前,国内外水军通过在平台上发出社交言论,对数据进行一定程度的扭曲,混淆视听,导致平台以及普通用户对言论的分析发生偏差,长期的此类水军言论发出,普通用户会进行怀疑,使其对平台的信任度下降,不利于各社交平台的发展[1],基于社交媒体出现的水军的影响也越来越大[2]。如今我国还处于水军识别研究初期阶段,还面临着许多挑战问题[3]。本文将借助现有的水军识别基础,对爬取数据预处理,AI模块识别,数据库存储,呈现结果等,以此来解决水军识别的问题。2水军的识别方法2.1识别具体方法(1)基于用户发布内容分析。通过对用户发布的博文或者言论,单纯地在文本内容上进行文字的相似度比较、语句通顺度查验或者文字所体验出的情感特征、倾向进行分析,大于预先设定的某个阈值的则被判定为水军博文。(2)基于用户的属性和行为特征分析。其属性主要包括:关注度和粉丝比值,非空转发比。微博原创比,url使用率,用户提及率,关注速率等。其行为主要包括:高频重复、时间集中,注册时间早等。(3)基于水军用户之间关系的分析。通过发现水军团体中的关系,将一个水军作为中心原点,通过计算原点水军向外伸展关系连接,找出原点水军的同类水军团体,达到识别水军团队的方法。(4)基于用户综合特征进行分析。对提取到的原始数据,将句子中的噪声去除并获得情感分析分数,然后分词分句,获得原子语句,再利用相似度算法等分组,根据制定的规则筛选出用户,从数据库提取出特征,并通过机器学习模型识别[4]。2.2
识别难点(1)水军判别很大程度上依赖于自然语言处理技术,需要对原始文本的预处理和文本内容理解,导致构建处理技术难度提高。(2)数据难以获取,有些获取到的数据,需要人工进行标注水军,构建机器学习模型所需要的训练集工作量大。(3)由于水军慢慢形成完整的生态链,水军隐藏技术越来越成熟,导致识别难度加大。(4)由于水军的行为类型多样化,难以采用用一种方法检测所有的水军类型。3
基于AI网络水军识别的创新设计面临现有水军识别存在的困难,我们基于AI技术对数据进行处理识别,最后得到是否为水军的识别结果。该项目设计的创新点以及流程如下:(1)并非以单一方面,而是以多方面结合来进行水军识别,并针对不同的水军类型进行分类,从而实现水军识别效率以及准确率的提高。(2)利用相似度计算、机器学习等方法,分析预处理后的数据,针对不同的水军类型进行分类,通过分类方法找出隐藏在普通用户中的水军。(3)通过建立社群模型,找出与一般用户关系差异较大的关系,识别出可能的水军或水军团体,再通过多方协调的分析进一步识别[5]。(4)通过AI分析获取到的水军数据,并运用数据库模块存储处理结果以及AI模型识别结果,最终通过机器学习来提高数据分析效率。4
系统组成及功能模块4.1
系统组成方案设计的系统组成有:数据的获取、处理中心(数据的预处理、相似度算法分组、利用规则筛选初用户、从数据库提取特征)、机器学习模型识别、识别结果存储和Web端展示。4.2
功能模块系统组成中的各个功能模块设计如下:(1)数据的获取:主要以网络爬虫方式和商业API方式获取主流社交平台的文本数据。(2)数据的预处理:水军会潜藏在海量信息中,尽量将自身与普通用户同化。①相似度比较:系统会基于用户发布的内容分析,在文本内容上进行文字的相似度比较,语句通顺度查验。基于水军用户之间关系的分析,以一个水军为原点,计算原点水军向外伸展关系连接,找出同类水军。②机器学习和情感分析:文字所体现出的情感特征,倾向进行分析以及监督和无监督学习。③数据清洗:对大量数据进行清洗,去除停用词,去除字少的文本,将字体进行统一的繁简转换,使用ASCII码扫描去除特殊干扰符号,使用正则表达式,去除正文中的网址,正文字段中包含@的人名,将其去除,使用正则表达式,去除正文中的HTML标签。将大量数据提取出特征,将数据处理为计算机能够识别的数据。(3)AI模块进行识别:在进行大量的数据清洗后,系统进行数据特征比对。(4)数据库存储:将原始数据和模型比对结果进行存储,将系统提取特征与关系网进行存储保存。(5)结果展示:将AI识别结果通过HTML、JS等开发语言完成Web功能,从而展示所识别的结果。5
技术路线从以下几个方面来实现:
(1)采用Python技术实现水军AI的模型建立、模型训练、以及数据集的处理,数据集的处理涉及文本相似度的常见算法(余弦相似度、欧氏距离、simhash等),词向量涉及技术word2vec,one-hot,glove等再对数据进行清洗用到正则表达式等,将数据转换成计算机可快速识别的数据。(2)通过模型接口获取某站点的用户及发布的信息,这里将会用到网络爬虫、API接口的技术,然后进行实时AI识别,然后将识别的结果存储到系统MySQL数据库。(3)最后通过Web的方式展现识别结果,能够通过Python或则JS、HTML等语言完成Web功能,展现识别结果和配置识别系统的功能。6
结语本文通过对目前国内外水军研究不够深入的问题,设计出了一套基于AI的水军识别系统,实现对水军的检测以及设别,利用此项识别技术,减少普通用户对部分言论理解的偏差,减少一些网络弄虚作假的行为发生,提升言论的可信度以及提升平台的可信任度,营造良好和谐的网络环境。诚然,本系统也存在许多不足之处,将在后续的学习中进一步优化完善。Reference:[1]冉玉婷.微博水军安全威胁和自动识别研究[J].数据挖掘,2020(12):193-195.[2]黄红桃.微博网络水军数据获取研究[J].信息处理,2020(09):169-171.[3]程传鹏.基于特定话题的网络水军识别研究[J].机器学习,2018(08):64-69.[4]王雷,陈大文.面向电商平台的水军识别研究[J].计算机科学与技术,2021
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 物业管理公司服务流程及客户满意度分析
- 小学语文文言文教学重点难点解析
- 新能源工程项目风险评估手册
- 初中英语词汇教学反思与建议
- 公路钢桥快速安装工程方案
- 2022年浙江普通高中数学模拟考真题
- 建筑行业分类与工程数据表
- 仪表工业设备保养规定
- 九年级物理欧姆定律测试题
- 城市污水处理厂日常运行管理规范
- 三年级数学计算题专项练习及答案集锦
- 养殖业危险废物处理方案
- 2025邮政储蓄银行四川省分行社会招聘考试参考试题及答案解析
- 【100题】2025年时政试题及答案
- 高处作业考证培训课件
- 2024年南京大学公开招聘辅导员笔试题含答案
- 2025年高考全国二卷数学真题(解析版)
- 航空煤油储存管理办法
- 高中政治课课件模板
- 新学期,新征程+课件-2025-2026学年高二上学期开学第一课主题班会
- 廊坊市物业管理办法
评论
0/150
提交评论