图注意力网络在恶意加密流量检测中的应用与创新16000字_第1页
图注意力网络在恶意加密流量检测中的应用与创新16000字_第2页
图注意力网络在恶意加密流量检测中的应用与创新16000字_第3页
图注意力网络在恶意加密流量检测中的应用与创新16000字_第4页
图注意力网络在恶意加密流量检测中的应用与创新16000字_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

图注意力网络在恶意加密流量检测中的应用与创新目录 1 21.1研究背景与意义 2 21.3本文的主要贡献和创新 3 3第二章.相关基础与原理 52.1HTTPS与TLS加密协议 52.2网络流量的识别方法 62.3深度学习 9第三章.基于图注意力网络的恶意加密流量识别算法 113.1原始网络流量的预处理 3.2双向网络流的特征向量化 3.3通信行为图的构造 3.5基于图注意力网络的恶意流量识别算法流程描述 3.6实验结果及分析 第四章基于B/S架构的恶意加密流量检测系统的设计与实现 264.1恶意加密流量检测系统的基本架构和设计 28 29 5.1全文总结 5.2后续工作展望 3随着加密协议的广泛应用,如何有效地检测出恶意的加密流量成为一项挑战。本文提出了一种基于图注意力神经网络的恶意加密流量识别算法。传统的恶意加密流量识别方案往往只关注网络流量自身的特征,而忽略了主机之间的通信行为。2用图注意力神经网络将恶意加密流量的识别问题抽象为图分析任务中的节点分关键词:加密流量恶意流量检测深度学习图注意力神经网络第一章绪论1.1研究背景与意义为了保证用户的隐私和数据安全,以TLS/SSL为基础的HTTPS加密流量在截止到2021年4月,所有Google产品和服务中的HTTPS加密流量占比已经超过了95%,网站加密传输协议的使用在全球已近乎普及。1.2国内外研究现状量的检测变得失效(林俊逸,何梦婷,2021)。逐步引入至流量分析领域中(马嘉翰,冯雅茹,2021)。许多研究通过提取流量大数据时代的到来使得深度学习得到了迅速的发展,术大学,20提出了基于一维CNN的端到端的加密流量分类方法(许文皓,刘婉晴,2022)。[4]提出了基于LSTM循环神经网络的恶意加密流量检测方法。[3]睐(黄志豪,赵雅婷,2023)。1.3本文的主要贡献和创新恶意流量(傅启轩,骆文渊,2022)。1.4结构安排第一章绪论。本章主要介绍了恶意加密流量的研究背景及恶意加密流量检测工作的重要性,总结了国内外恶意流量识别方法的研究第二章相关预备知识。本章主要介绍了恶意流量识别的相关领域知识和第三章基于图注意力网络的恶意加密流量识别算法。本章主要介绍了基于图注意力网络的恶意加密流量识别方案的算法流4第四章恶意加密流量的检测系统的设计与实现。本章主要介绍了恶意加密流量的检测系统的系统架构设计与具体实现,并对第五章总结与展望。总结了本文的研究工作,并分析了本文提出的恶意第二章.相关基础与原理本章主要介绍了恶意加密流量检测领域涉及的基础知识和相关原理,包括的无状态的应用层协议。HTTP基于TCP/IP协议来传输数据,是互联网中应用最为广泛的一种网络协议。这表明了由于HTTP协议采用明文的形式进行数据极易被恶意攻击者利用(盛景澜,庞启铭,2023)。加密对于保护最终用户的隐为了解决HTTP协议明文传输存在的风险,就有了HTTPS协议的诞生。HTTPS中的S表示SSL/TLS,就是在HTTP协议的基础上加上一层安全层的协议——SSL/TLS协议(段浩淼,阙泽霖,2024)。应用层应用层传输层位于应用层协议和TCP协议之间。在加密流量中,网络传输前,都需要经过TLS/SSL协议处理进行加密(韩睿哲,荀嘉言,2018)。本文在第三章.基于图注意力网络的恶意加密流量识别算法3.1原始网络流量的预处理在网络中捕获到的原始流量通常以PCAP包的形式存储。其中,数据包是网络流量基本传输的单元,每个数据包由具有固定格式的数据包头部字节和有效负载字节组成,因此网络流具有“网络流-数据包-字节”的分层结构[2]。根据网络流量的不同切分粒度,原始的网络流量可以被切分为数据包、网络流和双向网络流三种类型,详细的描述如下所示(蔚锦程,顾清风,2021):1.数据包:设原始网络流量中数据包表示为pi。每个数据包都具有五元组信息:源IP地址、源端口、目的IP地址、目的端口、传输层协议字段。单个的数据包表示如下:其中key;表示数据包的五元组信息,ti表示数据包被捕获的时间。2.网络流:网络流flowi,可以视为在一定时间段内,按照捕获时间戳t;的先后顺序排列的有序数据包序列。在网络流中,所有的数据包都具有相同的五元组信息(乔立言,孟书海,2022)。flow₁={P₁=(key,t₁),p₂=(key,tz₂),…,pj=3.双向网络流:双向网络流Biflow,顾名思义,在双向网络流中,源IP地址、源端口号和目的IP地址、目的端口号是可以互换的。因此,这表明了双向网络流可以视为上行网络流flowout与下行网络流flowin的交集。其中上行网络流表示主机向外发送的流量,下行网络流表示主机从外部接收到的流量(薛文博,秦正阳,2023)。Biflow=flowinUflowout研究对象(宋子凡,魏子墨,2024)。从理论层面分析,只要方案所接收的输入通信双方在TLS加密协议交互过程中的产生握手信息、密钥协商信息等进行更好地描述。由这些表现可以预估出由于本文中的研究对象是以TLS/SSL为基础3.2双向网络流的特征向量化除了源端口、目的端口、协议字段等基本信息外,在2.2.3小节中提到,网的作用。TLS/SSL协议的握手阶段客户端与服务端产生的TLS加密协商信息,如加密协议采用的TLS版本、密码套件、密钥信息、TL提升恶意流量识别的精确性。上述的TLS协商信息是明文传输的,对用户直接1所示(白若溪,杨景云,2019)。特征类别具体描述供的密码套件、服务端选择的密码套件、空间序列特征数据包的长度序列时间序列特征数据包的到达时间间隔序列(1)元数据特征:源端口、目的端口、上行包数、下行包数、上行字节数、下行字节数、流的持续时间7类信息各占一,共7维;(2)TLS特征:客户端可能提供的全部密码套件共176个,将其设置为176维的0-1向量,每一位代表一个密码套件。向量化时需要遍历双向流中的客户端实际提供的每个密码套件,将其对应位置为1,未提供的密码套件对应位置为0。TLS可能提供的全部扩展选项共9种,将其设置为9维的0-1向量,向量化的方式与客户端提供密码套件的方法类似,在此特定时刻下结见无疑遍历客户端实际选择的每个TLS扩展项,将其对应位置为1,未选择的扩展项对应位置为0。TLS支持版本、TLS通信版本、服务端选择的密码套件、公钥长度四类信息各占一位,共189维(冯启明,朱逸飞,2020)。(3)空间序列特征:数据包的长度序列。由于每一条双向网络流包含的数据包数目并不相同,而神经网络的输入特征长度必须特征向量具有相同的维度,在统计数据包的长度序列时只截取前50个包的信息,不足50个包的置为0,空间序列特征共50维(沈君浩,何启航,2021)。对于上述方案的调试工作,本文从理论探讨与实践验证两大方面入构的搭建与逻辑推理的展开,为后续的实验提供了强有力在实践验证阶段,本文精心策划了一系列测试,旨在检验性。测试过程中,采用了严格的数据收集与分析手段,确场景,并针对每种场景对系统参数进行了优化调整。这一(4)时间序列特征:数据包的到达时间间隔序列。为了统一特征向量长度,处理方式同上,时间序列特征共50维。元数据信息时间长度7经过上述方式处理后最终得到的双向网络流的特征向量共296维。设通信行为图为G,它由顶点集合V(G)与边集合E(G)构成。其表示方式如下:机名或IP地址来唯一标识一个节点。在本文中,我们将IP地址作为节点的标识(李泽宇,陈文博,2018)。在此特定条件下一目了然节点v₁与其他em=<Vi,v;,keym,featurem>,keym(srcIP)此通信行为图以多边图的形式存在(赵明杰,刘启铭,2019)。就把恶意加密流量的检测任务抽象为了图任务中的边分类问题(韩景云,彭俊2020)。为保证上述结论的有效性本论文也从多个角度进行了深入的探讨和验证。首先采用了多种来源的高质量数据并通过严格的筛选和清洗过程确保了数据的概念来完成节点与边的转换,将图任务中的边分类问题转换为点分类问题(高天3.3.1线图的转换在图论中,图G所对应的线图是一张能够反映G中边的邻接性的图,记作L(G),G称为L(G)的原图。线图L(G)将原图G中的每条边分别抽象为一个(1)线图的一个顶点对应原图的一个边;(2)线图的顶点相邻当且仅当它们在原图中对应的边有公共的顶点。引入线图的概念后,我们可以生成通信行为图G的线图L(G),完成节点与边的转换,利用图神经网络对线图L(G)进行点分类,解决了对多边图进行边分类存在的问题(徐浩淼,黄启航,2022)。3.4基于图注意力神经网络的恶意流量识别算法的神经网络模型,它可以视为GCN网络的一个变种。在2.3中我们曾介绍了基(1)直推式学习(TransductiveLeaning):TransductiveLeaning在训练过程重新进行训练(2)归纳式学习(InductiveLeaning):归纳是从特殊到一般的过程,归纳上进行,本文研究环境中已将此情况纳入考虑测试阶段能够对未知的节点 合邻居节点信息时,GCN分配给不同邻居的权重完全相同,处理有向图存在瓶(1)训练时无需或得图的完整结构信息,只需知道每个节点的邻居节点。(2)计算速度快,可以在不同的节点上并行计算(3)既可以用于直推式学习,又可以用于归纳式学习,能够对未知的图结构进行预测(周启铭,曾明轩,2024)。常只对一部分流量进行采样。因此,GAT网络更加适用于对恶意加密流量进行这表明了图注意力网络的输入数据为图结构的特征矩阵h∈Rn×m,邻接矩设图注意力网络的权重矩阵为W。GAT在聚合邻居节点信息时,需要对每个节点施加不同的权重。GAT网络引入了注意力机制,经过一个注意力函数 (attentionfunction)来计算出节点i与节点j之间的权重系数eij。过一个单层的前向神经网络来实现注意力函数(丁睿德,任博远,2018)。在后球范围内的知识共享和技术进步。该单层网络的权重矩阵表示为a∈R²×n。为了保留大部分的梯度信息,我们在该前向神经网络的输出层上还加入了权重,计算出所有邻居节点的权重系数后,我系数进行归一化处理(严俊驰,萧明杰,2019)。N;表示节点i的所有邻居节点的集合。将上述公式展开后得到最终的注意作为激活函数(韩一帆,郑启超,2022)。由此可以窥见一二计算公式如下:图3-7注意力权重系数的计算过程了多头的注意力机制,在此特定时刻下结论显而易见无疑学习到节点向量在不同表示空间中的特征。多头注意力机制同时使用多个神经网络的权重分别计算出不同的聚合结构。最终将K个计算结果合并(叶启航,刘浩淼,图3-8多头注意力机制示意图利用GAT网络得到节点聚合其邻居节点特征的最终表示后,在GAT网络后添加一个线性层和softmax层就能实现对节点的分类。SS0tmaX3.5基于图注意力网络的恶意流量识别算法流程描述步骤2:特征向量化:分别提取双向网络流的元数据特征、TLS相关特征、空间序列特征、时间序列特征,生成长度为296的特征向量,作为神经网络的特步骤3:依据流量之间的通信行为信息构造通信行为图,并生成通信行为图该方案相比于其他方案具有更好的性价比,同时在技术步骤4:模型训练:将样本的特征矩阵和邻接矩阵作为GAT网络的输入,通过GAT分类模型,对样本进行预测,判断其是否属于恶意加密流量。3.6实验结果及分析3.6.1实验环境参数名称隐层维度8多头注意力层8学习率随机断开率3.6.2实验数据集采样,将正常流量与恶意流量的比例设置为9:1,共采样了1万条TLS加密流3.6.2评价指标真实类型预测结果正样本(恶意流量)负样本(正常流量)正样本(恶意流量)负样本(正常流量)分类模型将恶意流量正确预测为恶意流量的样本数;TN(TrueNegative,真负假正例)表示分类模型将正常流量预测为恶意流量的样本个数;GN(FalseNegative,假负例)表示分类模型将恶意流量错误预测为正常流量的样本个数。(Precision)、F1分数,计算公式如下(罗启铭,吴逸飞,2021):一目了然一般情况下召回率和精确度之间存在博弈,即召回率高,精确度就低;指标,综合考虑召回率和精确度的精确性评价指标。在F1分数指标中,精确率3.6.3实验结果为了判断基于GAT的恶意加密流量识别算法与传统的基于特征的恶意流量较。支持向量机模型的训练结果如表3-3示,多层感知机模型的训练结果如表3-4示,卷积神经网络模型的训练结果如表3-6示,GAT模型的训练结果如表3-7表3-4支持向量机SVM的实验结果表3-5多层感知机MLP的实验结果表3-6卷积神经网络CNN的实验结果表3-7图注意力网络GAT的实验结果图3-6反映了GAT模型在训练过程中的损失loss与训练迭代次数Epoch的关系。从图3-6的变化趋势可以看出,随着训练迭代次数的增加,模型的损失逐渐下降,并在第100个epoch时基本趋于收敛。表3-7的结果显示GAT模型在训练集上的准确率最终达到了99.60%,测试集上的准确率达到了99.10%,因图3-8反映了各模型在的测试集上的表现效果。几种模型的准确率指标达到了90%以上,其中本文提出的基于GAT的恶意流量检测算法的表现最佳,MLP模型的准确率为93.09%,CNN模型为93.36%,SVM模型表现效果最差,为召回率和F1分数指标(林俊逸,何梦婷,2021)。SVM模型虽然在训练集上负样本,泛化能力弱,在测试集上几乎无法准确区分出恶意流量。MLP模型与CNN模型的恶意流量检测算法的准确率指标上仅比GAT模型低了几个百分点,在这样的条件下不难推知但是这两种模型召回率比GAT检测模型低了几十个好地解决数据不平衡问题。本文提出的基于GAT的恶意加密流量检测算法,在果表明,将网络主机之间的通信行为转换为通信行为图的形式后使用GA第四章基于B/S架构的恶意加密流量检测系统的设计与实现第四章基于B/S架构的恶意加密流量检测系统的设计与实现B/S架构的全称为Browser/Server,即浏览器/服务器结构,是目前应用系统的主要发展趋势。Browser指的是Web浏览器。在这种结构下,用户无需安装应用,通过Web浏览器来进入工作界面,本文研究环境中已将此情况纳入考虑少部分事务逻辑在前端(Browser)实现,主要事务逻辑在服务器端(Server)实现(马嘉翰,冯雅茹,2021)。BS系统的主要优势在于分布性强,只要有网络和浏览器即可随时随地进行查询、浏览等业务处理;业务的扩展与维护方便、开发简单且共享性强;总降低了用户的总体成本。B/S系统的基本架构如图4-1所示。与传统的C/S系统的两层架构有所不(1)表现层:主要完成用户和后台的交互及最终查询结果的输出功能。(2)逻辑层:主要是利用服务器完成客户端的应用逻辑功能。(3)数据层:主要是接受客户端请求后独立进行各种运算。访问返回结果4.1.2B/S系统的工作流程在B/S系统中,一次请求的工作流程描述如下:2.服务器端处理请求:服务器端接收并处理请求,服务器中的应用层部分调用业务逻辑,调用业务逻辑上的方法;3.服务器端发送响应:服务器端把用户请求的数据返回给浏览器。4.1.2B/S系统的功能需求分析用户在系统中进行一次对恶意加密流量的检测需要的流程如图4-2所示,共经过以下五个阶段:流量切分流量过滤特征向量化生成线图阶段1(用户登入):进入系统时,用户首先需要输入自身的账户和密码,提交给后台进行身份的认证;若用户首次使用,则需要先进行注册。阶段2(提交文件):用户选择PCAP格式的网络流量文件进行上传,提交给后台。服务端接收到请求后,将接收到的PCAP文件保存至服务器。阶段3(数据预处理):数据预处理的核心工作是解析原始的网络流量,将其按照双向网络流的粒度进行切分(许文皓,刘婉晴,2022)。此外,现有结果表明可以推出还需要对切分后的双向网络流进行过滤,去除数据包数目为0的双向网络流以及没有进行加密的网络流。接下来按照3.2小节的方式对双向网络进行特征向量化,并生成通信行为图及转化后的线图;为GAT模型提供输入数据。阶段4(GAT模型预测):此阶段将使用提前训练好的的GAT预测模型,将用户提交的网络流量生成的特征矩阵和邻接矩阵作为GAT网络的输入,对每一个样本进行结果预测,判断其是否属于恶意的加密流量。预测结果即为加密网第四章基于B/S架构的恶意加密流量检测系统的设计与实现络流量的分类标签。这表明了使用数据预处理阶段生成的流量特征向量数据用于分类器模型训练,阶段5(预测结果返回):使用GAT得到预测结果后,服务端将预测结果返回给客户端,浏览器将对预测结果进行展示。明确了上述工作流程后,恶意加密流量检测系统需要实现的功能包括以下四1.用户的注册与登录;2.PCAP格式的网络流量文件的上传;3.对原始流量进行数据预处理4.调用训练好的GAT模型,对加密流量进行检测;5.返回检测结果并进行展示。4.2恶意加密流量检测系统的实现:在实际开发过程中,我们采用前后端分离的应用模式,后端仅返回前端所需的数据,不再渲染HTML页面。选择Vue框架搭建前端页面,基于python的Flask框架搭建后台系统。Flask框架是一个基于Python开发的、依赖WSGI服务的一个微型框架,WSGI服务接收HTTP请求并对请求进行预处理,然后触发Flask框架,由这些表现可以预估出开发人员基于Flask框架提供的功能对请求进行相应的处理,并返回给用户。Vue.js是一款流行的JavaScript前端框架,是一套构建用户界面的渐进式框架。Vue.js框架的主要特点是可以进行组件化开发,能够大大减少代码的编写量,减轻开发负担。为了能够更加方便地管理和读取数据,前端与后端通信时以Json格式进行4.3系统效果展示:4.3.1登录-注册界面首次登入系统时,用户首先需要进行注册,注册成功后返回登录界面,输入注册时使用的账号和密码即可成功进入系统。4.3.2上传-检测界面用户选择PCAP文件进行上传,提交后文件将被被保存到服务端。服务端将对PCAP包中的原始流量进行预处理,并调用提前训练好的GAT分类模型,检测其中是否存在潜在的恶意的加密流量,生成检测结果(黄志豪,赵雅婷,第四章基于B/S架构的恶意加密流量检测系统的设计与实现服务端对网络流量检测完毕后,将检测结果进行统计,返回被识别为恶意加密流量的列表。用户点击查看详情选项,由此可以窥见一二即可查看检测出的每条潜在恶意流量的详情信息。恶意流量的基本信息包括源IP地址、目的IP地址、源端口、目的端口、上行包数、下行包数、上行字节数、下手相关信息包括客户端支持的TLS版本、服务端使用的TLS版本、客户端提供的密码套件数量、最终选择的密码套件、TLS扩展数量及公钥长度。本章主要介绍了基于B/S架构的恶意加密流量检测系统的设计与实现。首第五章全文总结与展望本文针对加密流量提出了一种基于GAT的在加密场景下检测恶意网络流量的方法。该方法将原始流量划分为双向网络流的形式,并根据主机之间的通信行为,构造了通信行为图,通过图注意力神经网络完成对恶意流量的识别,取得了比较好的效果。本方法既利用了流量自身的特征信息,又利用了主

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论