基于条件随机场的异常协议行为检测方法.pdf_第1页
基于条件随机场的异常协议行为检测方法.pdf_第2页
基于条件随机场的异常协议行为检测方法.pdf_第3页
基于条件随机场的异常协议行为检测方法.pdf_第4页
基于条件随机场的异常协议行为检测方法.pdf_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

收稿日期:- - ;修回日期:- - 基金项目:国家“ ” 计划资助项目( ) ; 郑州市科技领军人才资助项目( )作者简介: 刘帅( - ) , 男( 通信作者) , 山东聊城人, 硕士研究生, 主要研究方向为网络安全、 数据分析( ) ; 杨英杰( - ) , 男,河南郑州人, 副教授, 硕导, 博士, 主要研究方向为网络安全、 数据分析; 常德显( - ) , 男, 河南南阳人, 讲师, 博士, 主要研究方向为网络安全基于条件随机场的异常协议行为检测方法*刘帅,杨英杰,常德显( 解放军信息工程大学 密码工程学院,郑州 )摘要:针对现有异常应用协议行为检测主要针对某种特定应用, 缺乏通用性的问题, 提出一种基于条件随机场的异常应用协议行为检测方法, 从网络数据流中提取应用协议关键字及其时间间隔作为状态特征, 同时考虑关键字的频率分布特征, 应用条件随机场模型对协议行为进行建模, 将偏离模型的协议行为判定为异常。相比于传统的基于隐马尔可夫模型建模方法, 该方法不必对特征量作严格的独立性假设, 具有能够融合多特征的优势。实验结果表明, 该方法在检测协议异常时准确率高、 误报率低。关键词:条件随机场;异常协议行为检测;异常检测;协议关键字;协议行为中图分类号: 文献标志码:文章编号:- ( ) - - : - , , ( , , ,): , ( ) , , - - , - - :; ; ; ; 0引言现有的异常协议行为检测方法主要分为两种, 一种是基于有限状态机的异常协议行为检测, 一种是基于马尔可夫模型的异常协议行为检测。基于有限状态机的异常协议行为检测方法是通过对协议内状态进行建模, 运用协议状态之间的转换描述正常行为, 所有不符合这些状态转换的就是异常行为。如 根据 状态图建立了状态机校验模型, 从而检测协议异常; 高磊等人 提出一种基于 网的异常协议行为检测模型, 在 协议砖头盖转移图的基础上, 规定了每个状态下可以接收的标志位集, 细化了各种状态下的异常。基于马尔可夫模型的异常协议行为检测是以从网络数据中获取的标志序列为基础进行研究的, - 等人 通过对 首部 位标志进行量化, 就可从网络数据流中得到一系列的离散值序列, 通过马尔可夫模型进行建模, 任何偏离模型的行为都被认为是异常的协议行为。赵静等人 在马尔可夫基础上提出一种基于隐马尔可夫模型的异常协议行为检测方法, 通过对数据包首部的量化, 将得到的数值序列作为隐马尔可夫模型的输入, 从而对正常协议行为进行建模, 检测协议行为异常。同时, 他们又提出一种同时考虑数据包的状态转移特性和频率特性的异常协议行为检测方法 。可见目前的异常协议行为检测技术大多都基于数据流的传输层或网络层特征进行分析, 而大多数应用层攻击的网络数据流与正常数据流在网络层和传输层无明显区别, 故流量行为分析技术很难检测到这类异常。目前国内外学者提出了一些有效的应用层异常检测方法, 这些方法都是从应用层角度识别网络异常, 但其中大部分都是针对某种具体应用进行异常检测的, 如 木马检测, 通性的应用层异常检测方法比较少。在本文的研究中, 本文着重基于应用层特征提出一种通性的异常应用协议行为检测方法, 从网络数据流中提取应用协议关键字以及关键字时间间隔作为数据包状态特征, 同时又考虑了关键字的频率分布特征对协议行为进行建模。本文考虑到目前传统方法经常采用的隐马尔可夫模型由于其输出独立性假设,导致其不能考虑上下文特征, 限制了特征选择的缺点, 提出一种基于条件随机场的异常协议行为检测方法, 这种方法具有能够融合多特征的优势, 同时又不要求对个特征量作出严格的独立性假设, 更加适用于异常检测。第 卷第 期 年 月计 算 机 应 用 研 究 1相关概念) 无向图模型图模型结合了概率论和图论知识, 利用联合概率分布对系统建模, 使原本复杂的系统模型得以简化。根据图中的边是否具有方向性, 图模型又分为有向图模型和无向图模型。无向图模型是一个非循环结构 ( , ) , 其中 是图中节点的集合, 表示一组随机变量, 对应于被描述问题的属性, 可能连续可能离散。 是图中无向边的集合, 若两节点间存在联系, 则以无向边连接。边的属性即为两点间的概率依赖关系。在无向图 中, 将一个两两之间存在边的顶点集合称为团。如果一个团不被其他任一团包含, 即它不是其他任一团的真子集, 则称该团是图 的极大团。如果一个极大团的顶点最多, 则称该团为最大团。) 势函数无向图模型以团为单位将联合概率分布分解为势函数的乘积, 团上的势函数定义为 : 。无向图模型描述了如下形式的概率分布:( )( )( )其中: 代表图 中所有团组成的集合, ( ) 表示团 上的势函数, 是归一化因子。由于势函数并不是真正的概率分布,所以它们的乘积并不是合法的无向图概率分布, 需要归一化。归一化因子的计算公式为 ( )( )在无向图模型的概率分布计算中, 通常采用指数势函数为( ) ( ( ) ) , 故无向图模型的概率分布表示为( )( ( ) ) ( )( ) 随机场 设 为有限集合, , 是定义在 上的随机变量集合, 其中变量的下标由 中的元素来标志, 每个变量的状态空间表示为 , ( , ) 为可测空间, 其中 是定义在 上的事件 - 代数, 为定义在 上的概率测度, 因此对 中节点的赋值是一个映射 , : ( , , ) 。( , , ) 是一个状态空间, 并且 - 代数积 为定义在 上的所有可能事件, 为 上的概率测度, 则称 ( , , ) 为随机场。目前应用较广泛的随机场模型有马尔可夫随机场、 吉布斯随机场、 条件随机场和高斯随机场。) 条件随机场条件随机场是由 等人于 年提出的, 在自然语言处理以及图像处理等领域的序列分析中应用广泛。 是一种用于计算给定观测序列的条件下输出状态概率的无向图模型, 即给定输出标志序列 和观测序列 , 通过定义条件概率 ( ) 而不是联合概率 ( ,) 来描述模型。对于无向图 ( , ) , ( ), 中每个节点均对应一个随机变量 。若以观测序列 为条件, 对于 遵循马尔可夫性:( , , ) ( , , )( )其中: 表示 和 是相邻节点, 则称( , ) 是一个条件随机场。理论上可对任意图结构构建条件随机场模型, 然而在实际中往往采用最简单和最重要的一阶链式结构, 此时图结构可表示为 ( , , , , ( , ) )线性链式 模型的结构如图 ( ) 所示, 由于 以观测序列 作为全局条件, 并且不对 作任何假设, 所以其结构也可表示为( ) 。2基于条件随机场的异常协议行为检测本文提出的基于条件随机场的异常协议行为检测机制的具体流程如图 所示。异常协议行为检测分为模型训练和实时检测两个阶段。在模型训练阶段, 基于条件随机场对协议行为建模, 并通过训练网络流训练模型。在实时检测阶段, 将从实际网络流中提取的观测序列与模型匹配分析, 进而判断协议行为是否出现异常。2 1基于协议关键字的行为特征提取协议行为的过程体现在一系列协议关键字之间的交互上。协议关键字是指能反映用户在使用应用层协议的行为的词, 可以用于区分协议中的报文类型。例如 协议的关键字是由 、 、 、 等方法词和 、 、 、 等响应码组成, 协议的关键字包括 、 、 等命令码和 、 、 、 等响应码。故本文考虑将协议关键字序列作为观测序列, 用于刻画协议行为。如图 所示为单个用户与 服务器之间的 通信过程, 提取其中的 - 协议关键字, 反映该次行为过程的关键字序列为 , , , 3TTP 3 GET/ch/ysz/ide.htmTTP/1.1TTP/1.1202AcceptedGET/ee/ide.htmTTP/1.1TTP/1.1301MovedPermaetyuserWeb?在接入网的网关处采集网络流, 以一次网络连接中的所有数据包作为观测对象, 提取数据包中的状态 , 数据包的状态空间为 , , , , , 其中 为数据包可能出现的状态数目。正常的协议行为过程可描述为数据包状态的转移过程。数据包状态可通过协议关键字及其频率分布特征联合反映。本文给出数据包的以下定义:) 状态位 本文选取数据包的应用协议关键字 , 本次网络连接中该数据包与之前一个状态数据包之间的时间间计 算 机 应 用 研 究 第 卷隔 , 以及协议关键字 在网络连接中的频率分布 - 作为特征进行建模, 即 ( ,) 。其中, , , , , 为协议具有关键字个数, 这里将 个协议关键字数字序列化为 , , , , , , , ,时间间隔以 为单位, 仅保留整数位, , , , , 取值为协议关键字 在本次连接中的出现次数。) 状态矩阵 是 阶矩阵, 第 行为第 个数据包的状态位, 其中的元素( , ) 表示第 个数据包的状态位中第个特征值, , , 。2 2协议行为建模与模型训练) 模型建立在异常协议行为检测中, 从网络数据流中以网络连接为单位采集数据包观测序列 后, 对每个数据包标记正常度 , 进而得到标注序列 , 这是一个从观测序列中得到标记序列的过程, 本文选用条件随机场作为序列标记模型。条件随机场 是一种用于在给定观测序列条件下计算指定输出状态概率的无向图模型, 能够较好地解决序列标记问题。条件随机场与隐马尔可夫模型 相比, 由于在计算节点 的后验概率时, 同时考虑和利用节点 和与 相邻节点的标记, 所以 能够很好地表达和利用上下文信息, 而 由于输出独立性假设, 导致其不能考虑上下文的特征, 限制了特征的选择。如图 所示, 给出数据包序列的条件随机场描述模型。 4 CRF % ) 观测序列 。一个观测序列对应一个网络连接, 观测序列长度为网络连接的长度 , , , , , 序列中 对应网络连接中第 个数据包的状态位, 有协议关键字 、 时间间隔 、 频率 三个特征值, 即 ( , , ) 。) 标注序列 。本文选取数据包的正常或异常作为标记, 对观测序列中 标记 , , , , 其中, 表示数据包正常, 表示异常, 是特殊值, 表示位置 处是两个连接的分割点。如图 所示, 本文中协议异常检测采用线性链式的 模型, 在线性链式 的无向图 ( , ) 中, 中一个边 , 即对应一个团, 团的集合即对应图中边的集合 , 因此对于一个团 , , 其势函数为( ) ( ( , , ) ( , ) )( )其中: ( , , ) 为观测序列 与位置 和 处标记的特征函数, 计算公式为 ( , , ) ( ) ( ) ; ( ) 为观测序列 在位置 处第 维特征的取值; ( , ) 为观测序列 与位置 处标记的特征函数, 其计算公式为 ( ,) ( ) ; 和 是特征函数的权重。给定观测序列 ,标记序列 的联合分布概率为( , )( )( ( , , ) ( , ) )( )其中: 表示参数集合, ( , , , , , , , ) ;( ) 是归一化因子, 是将势函数乘积转换为合法概率分布的必要条件, 其计算公式为( ) , ( ( , , ) ( , ) )( ) 模型训练 模型的对数似然函数 ( ) 为( ) , ( , ) ( ( ) ( )( )将之前 模型的 、 联合分布概率 ( , ) 代入公式, 可得( ) , 珓( , ) ( ) , 珓( ) ( )其中: 和 为权重参数, 和 为特征函数, 为归一化函数。( ) 对参数 求偏导得 ( ) , 珓( , ) , 珓( ) ( ) 珓( , ) ( ) ( )其中: 珓( , )是训练数据集经验分布下的期望, ( )是 在模型分布中的特征期望, 模型训练的终止条件为当 ( ) 时, 即训练数据产生期望与模型分布的特征期望相等时, 训练完毕, 可得到 , 同样方法可得到 , 进而得到优化后的模型参数 。本文即采用 - 算法对 模型进行训练, 将训练网络流按照端口分为不同的协议数据流后, 从每个协议数据流按照网络连接通过特征量化并标记正常状态形成 个训练序列 , , , , 每个训练序列对应一个数据连接。对每个训练序列 , 构建 模型, 分别通过式( ) ( ) 计算对数似然函数 ( ) 及其偏导, 将其代入 - 算法器, 得到修正后的 。若不满足算法的停止条件或未超过其最大迭代次数时, 则下一个训练序列 进行训练, 直至满足迭代终止条件输出 , 这样就得到了该协议基于 的异常检测模型。2 3模式匹配与异常检测在实时的协议异常检测中, 对于每个网络连接内某协议的观测序列 , 代表网络连接的长度, 每个观测值对应一个协议数据包, 根据已经建立的 模型, 若此连接内未出现协议异常, 则给定正常标记序列 ( ( , , , ) , 表示正常状态) 的条件概率 ( , ) 应当大于预先设定的概率阈值。换言之, 若一个观测序列的正常标记序列的条件概率小于阈值 , 则认为该网络连接内协议出现异常。故协议异常检测本质上是 条件概率的计算问题。下面给出线性链式 中条件概率的计算方法。首先, 在标记序列中增加开始状态 和结束状态 , 定义 阶的矩阵变量 ( ) ( , ) 如下:( , ) ( ( , ( , ), )( , , ) )( )第 期刘帅, 等: 基于条件随机场的异常协议行为检测方法其中: 是向量( , ) 所对应的边, 是 所对应的节点。此时的归一化因子 可表示为( ) ( ( ) ( ) ( ) ), ( )将其代入 ( , ) 的计算公式, 可得( , ) ( , ) ( ( ) ), ( )基于 ( , ) 计算的协议异常实时检测流程如下:对于实时数据流, 以网络连接为单位, 计算特征值, 得到一个连接内的观测序列 ( , , , ) , 为网络连接的长度。假设该观测序列内数据正常, 给出正常标记序列 ( , , ) , 计算该序列在其运行协议的 模型以及观测序列下出现的概率 ( , ) 。如果 ( , ) , 则判定该连接内协议正常, 否则判定连接内协议行为出现异常。3实验验证为了验证基于条件随机场的异常协议行为检测方法的有效性, 本文设计如下实验场景进行验证实验。3 1实验准备实验数据采用某校校园网的真实数据, 在校园网内模拟搭建一个包含一台交换机和八台主机的子网。具体的模拟网络测试环境如下:) 测试主机: 共三台, 包括三台 机, 三台 机, 三台 机。) 网络通信设备: 一台华为 交换机。) 具体实验网络的拓扑结构以及网络数据流的截取位置如图 所示。PCn?1?teret?2?PC1PC2?5?第一周, 在八台主机上分别模拟正常的 访问行为和邮件发送接收行为( 不进行任何异常操作) , 在截取位置 通过 提取到 千多个正常的 报文和 千多个正常的 报文, 标记正常形成协议观测序列作为正常训练数据集。第二周, 在校园网网关截取位置 处通过 提取实时的 报文集, 从中通过人工分析找出 个异常的 协议观测序列, 分别标记为异常, 同时与 个正常的 观测序列合并形成 协议测试数据集 。第三周, 在子网内八个用户主机上分别安装攻击软件 用以产生真实的 攻击数据, 并从中提取出 个 协议观测序列, 形成 协议测试数据集 。3 2实验结果比较在模型建立和训练过程中, 协议关键字选为 、 、 、 、 、 、 、 、 、 -、 以及该协议的 个响应码, 而对 协议建立模型时, 本文选取 、 、 、 - 、 、 、 以及 的 个响应码作为关键字, 并分别数字序列化为 。应用训练数据建立 模型, 开始采用模型分别对 和 进行异常协议行为检测。本文采用漏报率 和误报率 作为异常协议行为的评判标准, 其定义分别如下: , 其中: 是被检测为正常的正常数据, 是被检测为异常的异常数据, 为被检测为正常的异常数据, 为被检测为异常的正常数据。在检测中通过设定不同的阈值 , 分别得到在 协议测试集 和 协议测试集 上漏报率和误报率随概率阈值 的变化曲线, 分别如图 和 所示。 7Data2 # # 6Data1 # # 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 101 #vave #P0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 101 #vave #P 可见, 随着概率阈值 的增大, 异常协议行为检测的漏报率会下降, 而误报率则会逐渐上升。在数据集 上, 概率阈值 为 时, 检测漏报率会下降到一个较低水平, 同时误报率仍然保持较低水平, 由此可知对于数据集 , 概率阈值设为 时检测效果最好。而对于数据集 , 将概率阈值设为 时, 检测的漏报率和误报率均在一个较低水平, 此时检测效果最好。本文同时将本文检测方法与文献 中基于隐马尔可夫模型的应用异常协议行为检测方法进行比较, 将 的概率阈值设为 , 的概率阈值设为 , 比较结果如表 所示。表 两种方法下的异常协议行为检测效果比较数据集评判标准检测模型条件随机场 隐马尔可夫 ( )漏报率误报率 ( )漏报率误报率 由表 可知, 在 协议测试集 和 协议测试集 上, 本文基于条件随机场的异常协议行为检测方法漏报率和误报率均低于基于隐马尔可夫模型的异常协议检测方法。可见本文所提方法准确可行。4结束语传统的异常应用协议行为检测方式单一, 只针对某些特定应用, 无法准确全面地发现协议异常。本文基于应用协议关键字及其时间和概率特征对协议行为建模, 同时考虑到在协议建模中广泛采用的隐马尔可夫模型假设过于严( 下转第 页)计 算 机 应 用 研 究 第 卷时间点与时间列表中的事件不匹配, 则进行广播, 从而导致更多的信息传输消耗。本算法中, 簇首的 使用回归分析处理聚集的信息, 因此聚集的信息较少, 由此可以看出 模型的效率较优。图 所示为本算法与 带宽的比较。本算法中, 对于速度较慢的车辆, 其带宽设置较低, 随着车辆速度增加, 本算法的带宽近似线性地增加。当车辆数量在 时, 带宽接近衡量。相等的车辆移动速度下, 本算法的带宽低于 算法, 可以看出本算法的数据采集、 数据聚集以及数据传输效率优于 算法。图 所示为控制开销所占百分比随车辆速度的变化情况。随着车辆速度增加, 控制开销增加。原因在于车辆速度增加, 则产生更多的移动 来收集信息与传输, 使得控制开销增加。4结束语本文从紧急数据的采集、 聚集、 传递三个阶段提出了整体的代理的优化方案, 获得了较好的效果。 主要步骤为: 簇首的 周期地触发 来收集簇内的紧急信息, 使用信息验证算法来验证收集的信息, 将紧急信息中的重复信息忽略, 产生基于过滤后的紧急信息产生信念, 使用回归分析聚集的信念来产生期望, 对期望进行修正从而获得聚集的质量评价, 最终产生意图并向中继车辆发送 。本文从 的整体入手, 为其建立认知代理模型, 并使用回归分析来提高数据聚集的效率, 从而提高了 从数据采集到数据传递的整体效率。参考文献: 张利锋, 金蓓弘, 张扶桑 中数据传递的关键技术 计算机科学, , ( ) : - 朱晓玲, 陆阳, 侯整风, 等 中基于不经意传输和群签名的强隐私保护方案 计算机应用研究, , ( ) : - 陈振,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论