下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、漏洞库数据挖掘论文 1基础概念介绍 1.1数据挖掘 数据挖掘(dm)融合了多个领域的理论和技术,如人工智能、数据库、模式识别、统计学等技术。数据挖掘常与数据库中的“知识发现”(kdd,knowledgediscoveryindatabase)进行比较,对于两者之间的关系,学术界有很多不同见解。数据挖掘属于整个知识挖掘过程的一个核心步骤。 1.2信息安全漏洞 漏洞(vulnerability),又称为缺陷。对信息安全漏洞的定义最早是在1982年,由美国著名计算机安全专家d.denning提出,d.longley等人从风险管理的角度分三个方面描述漏洞的含义,m.bishop等人采用状态空间描述法定
2、义漏洞,权威机构如美国nist在信息安全关键术语词汇表以及国际标准化组织发布的iso/iecit安全术语词汇表中也对漏洞进行定义。世界上比较较知名的漏洞数据库包括美国国家漏洞库nvd(nationalvulnerabilitydatabase)、丹麦的secunia漏洞信息库等,我国在2009年也建成了中国国家信息安全漏洞库cnnvd。本文选取secu-nia漏洞库的漏洞数据作为样本进行数据挖掘。 2数据挖掘算法 2.1数据挖掘任务 数据挖掘任务主要是发现在数据中隐藏的潜在价值。数据挖掘模式主要分为两种:描述型和预测型。描述模式是对历史数据中包含的事实进行规范描述,从而呈现出数据的一般特性;预
3、测模式通常以时间作为参考标准,通过数据的历史值预测可能的未来值。依照不同的模式特征,细分六类模式:预测模式、关联模式、序列模式、分类模式、回归模式以及聚类模式。本文主要针对关联模式进行深入探讨。 2.2关联规则分析及算法 关联规则算法是指相关性统计分析,基于分析离散事件之间的相关性统计而建立关联规则,关联规则算法是定量分析,所以必须将样本中的数据进行离散化操作,此算法是基于大量数据样本的优化算法。 (1)关联算法中的几个基本概念 关联规则算法包含4个基本概念项集。项集是一组项的集合,每个项都包含一个属性,例如,项集a,b。项集的大小是指向集中含有项的数量。频繁项集为样本中出现频率高的项集。支持
4、度。支持度用来衡量项集出现的频率。项集a,b的支持度定义为同时包含项a和项b的项集的总数。 (2)apriori关联算法 apriori算法将发现关联规则的过程分为两个阶段:首先通过迭代,检索出数据集中所有的频繁项集,即支持度不低于最小支持度的项集;第二阶段利用频繁项集构造满足最小信任度的规则。 3运用关联规则算法挖掘secunia漏洞数据库 secunia漏洞库覆盖范围包含程序和系统中的各种漏洞。该数据库持续更新体现最新的漏洞信息。secunia漏洞公告主要包括:漏洞名称、secunia公告号、日期、漏洞等级、漏洞来源、影响范围、操作系统版本等。以secunia漏洞库中的信息为样本,构建关联
5、挖掘规则,反映出漏洞信息在不同系统中的关联性。 3.1构建关联规则 (1)挖掘任务 通过历史漏洞信息,挖掘分析不同软件出现同类型漏洞的概率。 (2)挖掘结构 结合挖掘任务,数据挖掘关联表为事例表结合嵌套表的方式。建立漏洞表vulnerabilities,此表为事例表,漏洞id作为主键。嵌套表为softwares表,记录软件名和软件版本类型,软件id作为两张表进行关联的外键。 3.2关联规则挖掘结果 通过采集的secunia库的数据作为样本,应用apriori算法模型。依据最低支持度(min_s)和最低置信度(min_p)的阈值,形成相应的规则集。通过调整min_s和最低min_p的值,得到如表
6、1所示的值。通过上述例子可以看出,当关联规则的置信度越高、重要度越高,则该条关联规则的价值越高,根据具体情况,可以设置最低置信度和最小重要度作为该条规则是否有价值的标准,即(confidence(ab)min,importance(ab)min),根据对置信度和重要的综合考虑,可以得出价值更高的关联规则,从而对信息安全事件有更好的预警分析。 4结语 本文主要研究了基于secunia漏洞库的关联规则挖掘算法。介绍了数据挖掘的相关概念、关联规则相关算法、secunia漏洞库的基本信息。以secu-nia漏洞库的数据为样本进行关联规则挖掘,分析了漏洞与软件关系的关联规则,建立了不同软件中出现相关漏洞的联系。如今,世界各国都在建立信息
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年甘肃中医药大学考核招聘事业编制博士研究生学历专职辅导员11人考试模拟试题及答案解析
- 2026新疆建投恒镒建设工程有限公司招聘5人考试模拟试题及答案解析
- 2026山东省日照科技职业学院招聘172人考试备考题库及答案解析
- 2026安徽合肥市政12345热线岗位招聘考试备考题库及答案解析
- 金堂县第二人民医院2026年4月工作人员招聘(17人)考试备考题库及答案解析
- 2026北京大学医学部总务处饮食服务中心采购岗职员招聘1人考试模拟试题及答案解析
- 2026浙江杭州市西湖第一实验学校教师招聘1人(非编)考试备考题库及答案解析
- 2026山东聊城市鲁西人力资源开发有限公司招聘5人考试参考题库及答案解析
- 2026年荒漠化综合防治和三北工程攻坚战知识题库
- 2026广东佛山市三水产业发展集团有限公司招聘集团本部及下属企业高级管理人员等人员12人考试模拟试题及答案解析
- 行政的使命目的和价值概述
- 人工智能改变网络支付方式
- JGT366-2012 外墙保温用锚栓
- DB63∕T 1723-2018 石棉尾矿污染控制技术规范
- 清原县城小城镇空间形态发展研究
- 年产5万吨乙酸乙酯生产工艺的设计
- 中国甲状腺疾病诊治指南
- 现行铁路工程建设通用参考图目录2023年7月
- 新苏教版小学数学五年级上册第1课时小数的意义和读写公开课优质课课件
- 超星尔雅学习通《中国古典小说巅峰四大名著鉴赏(中国红楼梦学会)》章节测试含答案
- 施工现场安全保证计划
评论
0/150
提交评论