安全漏洞数据聚类分析DM_第1页
安全漏洞数据聚类分析DM_第2页
安全漏洞数据聚类分析DM_第3页
安全漏洞数据聚类分析DM_第4页
安全漏洞数据聚类分析DM_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、安全漏洞数据聚类分析 五院五队 郭利翔 1 问题背景 了解近期哪些产品哪些漏洞比较活跃 将新产生的漏洞与现有漏洞类型关联,获得 类似的解决方案提示 2 数据采集 数据来源 国家信息安全漏洞共享平台 http:/ 3 采集工具 Java爬虫程序 数据分析 文本分词 SinglePass聚类算法 4 数据分析文本分词 采用张华平博士组织编写的 ICTCLAS 5 数据分析文本分词 分词结果 6 数据分析SinglePass聚类 简介 SinglePass算法又称为单通道法或单遍法, 是流式数据聚类的经典算法。对于依次到 达的数据流,该方法按输入顺序每次处理 一个数据,依据当前数据与已有类的匹配 度

2、大小,将该数据判为已有类或者创建一 个新的数据类,实现流式数据的增量和动 态聚类。 7 数据分析SinglePass聚类 算法优缺点 适合对流数据进行挖掘,而且算法时间效 率高. 不足之处主要表现在该方法具有输入次序 依赖特性,即对同一聚类对象按不同的次 序输入,会出现不同的聚类结果。 8 数据分析SinglePass聚类 聚类过程 1)接收一篇文本向量d; 2)d 逐一与已有的话题中各报道进行相似度计算,并取最大 者作为与该话题的相似度; 3)在所有话题间选出与d相似度最大的一个,以及此时的相 似度值; 4)如果相似度大于阈值TC,d所对应的文本被分配给这个话 题模型文本类,跳转至6); 5

3、)如果相似度小于阈值TC,d 所对应的文本不属于已有的话 题,创建新话题,同时把这篇文本归属创建的新话题模型文 本类; 6)本次聚类结束,等待新文本到来。 9 数据分析SinglePass聚类 聚类过程 10 数据分析SinglePass聚类 示例 假设第一篇文本包含A,B,C三个词,每个词在该 文本中出现的频数分别为x1,x2,x3。那么该文本可 以表示为向量X=(x1,x2,x3) 同样,假设第二篇文本包含B,C,D三个词,频数 分别为y1,y2,y3,表示为Y=(y1,y2,y3) 11 数据分析SinglePass聚类 示例 计算两篇文本的相似度(采用余弦相似度) 以A,B,C,D四个

4、词作为词向量的维度,则两篇文本 可以进一步表示为: 记两篇文本的余弦相似度为 12 1, 2, 3,0Xx xx 0, 1, 2, 3Yyyy cos,X Y 数据分析SinglePass聚类 示例 若TC,则两篇文本可以聚成一类,此聚簇可以 用两篇文本的向量和来表示,即: 若TC,则两篇文本分别自成一类。 13 ( 1, 21, 32, 3)MXYx xy xyy 数据分析SinglePass聚类 聚类结果 取阈值为0.5,经过SinglePass聚类后得到346个聚 簇。 取其中一个大小为17的聚簇。 14 数据分析SinglePass聚类 聚类结果 取其中一个大小为19的聚簇。 15 总结 SinglePass算法能够较好的解决在线互联网 数据流式进入的问题,相比k

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论