版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、KDD是数据挖掘与知识发现(DataMiningandKnowledgeDiscovery)的简称,KDDCUP是由ACM(AssociationforComputingMachiner)的 SIGKDD(SpecialInterestGrouponKnowledgeDiscoveryandDataMining)组织的年度竞赛。竞赛主页在 HYPERLINK o KDDCUP t _blank 这里。下面是历届KDDCUP的题目: HYPERLINK KDD-Cup , Breast cancer HYPERLINK KDD-Cup , Consumer recommendations HYP
2、ERLINK KDD-Cup , Pulmonary embolisms detection from image data HYPERLINK KDD-Cup , Internet user search query categorization HYPERLINK KDD-Cup , Particle physics; plus Protein homology prediction HYPERLINK KDD-Cup , Network mining and usage log analysis HYPERLINK KDD-Cup , BioMed document; plus Gene
3、 role classification HYPERLINK KDD-Cup , Molecular bioactivity; plus Protein locale prediction. HYPERLINK KDD-Cup , Online retailer website clickstream analysis HYPERLINK KDD-Cup 1999, Computer network intrusion detection HYPERLINK KDD-Cup 1998, Direct marketing for profit optimization HYPERLINK KDD
4、-Cup 1997, Direct marketing for lift curve optimization”KDDCUP99dataset”就是KDD竞赛在1999年举办时采用的数据集。从 HYPERLINK o KDD CUP 1999 DATA t _blank 这里下载KDD99数据集。1998年美国国防部高档规划署(DARPA)在MIT林肯实验室进行了一项入侵检测评估项目。林肯实验室建立了模拟美国空军局域网的一种网络环境,收集了9周时间的 TCPdump(*) 网络连接和系统审计数据,仿真多种顾客类型、多种不同的网络流量和袭击手段,使它就像一种真实的网络环境。这些TCPdump采集
5、的原始数据被分为两个部分:7周时间的训练数据 (*) 大概涉及5,000,000多种网络连接记录,剩余的2周时间的测试数据大概涉及2,000,000个网络连接记录。一种网络连接定义为在某个时间内从开始到结束的TCP数据包序列,并且在这段时间内,数据在预定义的合同下(如TCP、UDP)从源IP地址到目的IP地址的传递。每个网络连接被标记为正常(normal)或异常(attack),异常类型被细分为4大类共39种袭击类型,其中22种袭击类型出目前训练集中,另有17种未知袭击类型出目前测试集中。4种异常类型分别是:DOS,denial-of-service.回绝服务袭击,例如ping-of-deat
6、h,synflood,smurf等;R2L,unauthorizedaccessfromaremotemachinetoalocalmachine.来自远程主机的未授权访问,例如guessingpassword;U2R,unauthorizedaccesstolocalsuperuserprivilegesbyalocalunpivilegeduser.未授权的本地超级顾客特权访问,例如bufferoverflowattacks;PROBING,surveillanceandprobing,端口监视或扫描,例如port-scan,ping-sweep等。随后来自哥伦比亚大学的SalStolfo
7、 专家和来自北卡罗莱纳州立大学的 WenkeLee专家采用数据挖掘等技术对以上的数据集进行特性分析和数据预解决,形成了一种新的数据集。该数据集用于1999年举办的KDDCUP竞赛中,成为出名的KDD99数据集。虽然年代有些长远,但KDD99数据集仍然是网络入侵检测领域的事实Benckmark,为基于计算智能的网络入侵检测研究奠定基本。数据特性描述KDD99数据集中每个连接(*)用41个特性来描述:2, tcp, smtp, SF, 1684, 363, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0.00, 0.00, 0.00,
8、 0.00, 1.00, 0.00, 0.00, 104, 66, 0.63, 0.03, 0.01, 0.00, 0.00, 0.00, 0.00, 0.00, normal.0, tcp, private, REJ, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 38, 1, 0.00, 0.00, 1.00, 1.00, 0.03, 0.55, 0.00, 208, 1, 0.00, 0.11, 0.18, 0.00, 0.01, 0.00, 0.42, 1.00, portsweep.0, tcp, smtp, SF, 78
9、7, 329, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0.00, 0.00, 0.00, 0.00, 1.00, 0.00, 0.00, 76, 117, 0.49, 0.08, 0.01, 0.02, 0.00, 0.00, 0.00, 0.00, normal.上面是数据集中的3条记录,以CSV格式写成,加上最后的标记(label),一共有42项,其中前41项特性分为4大类,下面按顺序解释各个特性的含义:1.TCP连接基本特性(共9种)基本连接特性涉及了某些连接的基本属性,如持续时间,合同类型,传送的字节数等。(1)du
10、ration.连接持续时间,以秒为单位,持续类型。范畴是 0, 58329 。它的定义是从TCP连接以3次握手建立算起,到FIN/ACK连接结束为止的时间;若为UDP合同类型,则将每个UDP数据包作为一条连接。数据集中浮现大量的duration=0的状况,是由于该条连接的持续时间局限性1秒。(2)protocol_type.合同类型,离散类型,共有3种:TCP,UDP,ICMP。(3)service.目的主机的网络服务类型,离散类型,共有70种。aol, auth, bgp, courier, csnet_ns, ctf, daytime, discard, domain, domain_u,
11、 echo, eco_i, ecr_i, efs, exec, finger, ftp, ftp_data, gopher, harvest, hostnames, http, http_2784, http_443, http_8001, imap4, IRC, iso_tsap, klogin, kshell, ldap, link, login, mtp, name, netbios_dgm, netbios_ns, netbios_ssn, netstat, nnsp, nntp, ntp_u, other, pm_dump, pop_2, pop_3, printer, privat
12、e, red_i, remote_job, rje, shell, smtp, sql_net, ssh, sunrpc, supdup, systat, telnet, tftp_u, tim_i, time, urh_i, urp_i, uucp, uucp_path, vmnet, whois, X11, Z39_50。(4)flag.连接正常或错误的状态,离散类型,共11种。OTH, REJ, RSTO, RSTOS0, RSTR, S0, S1, S2, S3, SF, SH。它表达该连接与否按照合同规定开始或完毕。例如SF表达连接正常建立并终结;S0表达只接到了SYN祈求数据包,而
13、没有背面的SYN/ACK。其中SF表达正常,其她10种都是error。(5)src_bytes.从源主机到目的主机的数据的字节数,持续类型,范畴是0,。(6)dst_bytes.从目的主机到源主机的数据的字节数,持续类型,范畴是0.。(7)land.若连接来自/送达同一种主机/端口则为1,否则为0,离散类型,0或1。(8)wrong_fragment.错误分段的数量,持续类型,范畴是0,3。(9)urgent.加急包的个数,持续类型,范畴是0,14。2.TCP连接的内容特性(共13种)对于U2R和R2L之类的袭击,由于它们不像DoS袭击那样在数据记录中具有频繁序列模式,而一般都是嵌入在数据包的
14、数据负载里面,单一的数据包和正常连接没有什么区别。为了检测此类袭击,Wenke Lee等从数据内容里面抽取了部分也许反映入侵行为的内容特性,如登录失败的次数等。(10)hot.访问系统敏感文献和目录的次数,持续,范畴是 0, 101。例如访问系统目录,建立或执行程序等。(11)num_failed_logins.登录尝试失败的次数。持续,0, 5。(12)logged_in.成功登录则为1,否则为0,离散,0或1。(13)num_promised条件(*)浮现的次数,持续,0, 7479。(14)root_shell.若获得root shell 则为1,否则为0,离散,0或1。root_she
15、ll是指获得超级顾客权限。(15)su_attempted.若浮现”su root” 命令则为1,否则为0,离散,0或1。(16)num_root.root顾客访问次数,持续,0, 7468。(17)num_file_creations.文献创立操作的次数,持续,0, 100。(18)num_shells.使用shell命令的次数,持续,0, 5。(19)num_access_files.访问控制文献的次数,持续,0, 9。例如对 /etc/passwd 或 .rhosts 文献的访问。(20)num_outbound_cmds.一种FTP会话中出站连接的次数,持续,0。数据集中这一特性浮现次
16、数为0。(21)is_hot_login.登录与否属于“hot”列表(*),是为1,否则为0,离散,0或1。例如超级顾客或管理员登录。(22)is_guest_login.若是guest 登录则为1,否则为0,离散,0或1。3. 基于时间的网络流量记录特性 (共9种,2331)由于网络袭击事件在时间上有很强的关联性,因此记录出目前连接记录与之前一段时间内的连接记录之间存在的某些联系,可以更好的反映连接之间的关系。此类特性又分为两种集合:一种是 “same host”特性,只观测在过去两秒内与目前连接有相似目的主机的连接,例如相似的连接数,在这些相似连接与目前连接有相似的服务的连接等等;另一种是
17、 “same service”特性,只观测过去两秒内与目前连接有相似服务的连接,例如这样的连接有多少个,其中有多少浮现SYN错误或者REJ错误。(23)count.过去两秒内,与目前连接具有相似的目的主机的连接数,持续,0, 511。(24)srv_count.过去两秒内,与目前连接具有相似服务的连接数,持续,0, 511。(25)serror_rate.过去两秒内,在与目前连接具有相似目的主机的连接中,浮现“SYN” 错误的连接的比例,持续,0.00, 1.00。(26)srv_serror_rate.过去两秒内,在与目前连接具有相似服务的连接中,浮现“SYN” 错误的连接的比例,持续,0.
18、00, 1.00。(27)rerror_rate.过去两秒内,在与目前连接具有相似目的主机的连接中,浮现“REJ” 错误的连接的比例,持续,0.00, 1.00。(28)srv_rerror_rate.过去两秒内,在与目前连接具有相似服务的连接中,浮现“REJ” 错误的连接的比例,持续,0.00, 1.00。(29)same_srv_rate.过去两秒内,在与目前连接具有相似目的主机的连接中,与目前连接具有相似服务的连接的比例,持续,0.00, 1.00。(30)diff_srv_rate.过去两秒内,在与目前连接具有相似目的主机的连接中,与目前连接具有不同服务的连接的比例,持续,0.00,
19、1.00。(31)srv_diff_host_rate.过去两秒内,在与目前连接具有相似服务的连接中,与目前连接具有不同目的主机的连接的比例,持续,0.00, 1.00。注:这一大类特性中,23、25、27、29、30这5个特性是 “same host” 特性,前提都是与目前连接具有相似目的主机的连接;24、26、28、31这4个特性是 “same service” 特性,前提都是与目前连接具有相似服务的连接。4. 基于主机的网络流量记录特性 (共10种,3241)基于时间的流量记录只是在过去两秒的范畴内记录与目前连接之间的关系,而在实际入侵中,有些 Probing袭击使用慢速袭击模式来扫描主
20、机或端口,当它们扫描的频率不小于2秒的时候,基于时间的记录措施就无法从数据中找到关联。因此Wenke Lee等按照目的主机进行分类,使用一种具有100个连接的时间窗,记录目前连接之前100个连接记录中与目前连接具有相似目的主机的记录信息。(32)dst_host_count.前100个连接中,与目前连接具有相似目的主机的连接数,持续,0, 255。(33)dst_host_srv_count.前100个连接中,与目前连接具有相似目的主机相似服务的连接数,持续,0, 255。(34)dst_host_same_srv_rate.前100个连接中,与目前连接具有相似目的主机相似服务的连接所占的比例
21、,持续,0.00, 1.00。(35)dst_host_diff_srv_rate.前100个连接中,与目前连接具有相似目的主机不同服务的连接所占的比例,持续,0.00, 1.00。(36)dst_host_same_src_port_rate.前100个连接中,与目前连接具有相似目的主机相似源端口的连接所占的比例,持续,0.00, 1.00。(37)dst_host_srv_diff_host_rate.前100个连接中,与目前连接具有相似目的主机相似服务的连接中,与目前连接具有不同源主机的连接所占的比例,持续,0.00, 1.00。(38)dst_host_serror_rate.前100
22、个连接中,与目前连接具有相似目的主机的连接中,浮现SYN错误的连接所占的比例,持续,0.00, 1.00。(39)dst_host_srv_serror_rate.前100个连接中,与目前连接具有相似目的主机相似服务的连接中,浮现SYN错误的连接所占的比例,持续,0.00, 1.00。(40)dst_host_rerror_rate.前100个连接中,与目前连接具有相似目的主机的连接中,浮现REJ错误的连接所占的比例,持续,0.00, 1.00。(41)dst_host_srv_rerror_rate.前100个连接中,与目前连接具有相似目的主机相似服务的连接中,浮现REJ错误的连接所占的比例
23、,持续,0.00, 1.00。样本分析前面提到KDD99数据集是由DARPA98数据集通过数据挖掘和预解决后得到的。但KDD99与DARPA98并不是一一相应的,WendeLee等人在解决原始连接数据时将部分反复数据清除,例如进行DoS袭击时产生大量相似的连接记录,就只取袭击过程中5分钟内的连接记录作为该袭击类型的数据集。同步,也会随机抽取正常(normal)数据连接作为正常数据集。KDD99数据集总共由500万条记录构成,它还提供一种10%的训练子集和测试子集,它的样本类别分布表如下:标签类别训练集(10%)测试集(Corrected)39种袭击0NORMAL97278605931PROBE
24、41074166ipsweep1247306mscan/1053nmap23184portsweep1040354saint/736satan158916332DOS391458229853apache2/794back22031098land219mailbomb/5000neptune10720158001pod26487processtable/759smurf280790164091teardrop97912udpstorm/23U2R52228buffer_overflow3022httptunnel/158loadmodule92perl32ps/16rootkit1013sqla
25、ttack/2xterm/134R2L112616189ftp_write83guess_passwd534367imap121multihop718named/17phf42sendmail/17snmpgetattack/7741snmpguess/2406spy2/warezclient1020/warezmaster201602worm/2xlock/9xsnoop/41. 训练集和测试集分别为KDD99数据集中的10%训练样本和corrected 的测试样本;2. “/”表达该种袭击类型只在测试集(或训练集)中浮现,而未在训练集(或测试集)中浮现;如上表,同DARPA98同样,KDD
26、99将袭击类型分为4类,然后又细分为39小类,每一类代表一种袭击类型,类型名被标记在训练数据集每一行记录的最后一项。从表中可以看出,训练集中共浮现了22个袭击类型,而剩余的17种只在测试集中浮现,这样设计的目的是检查分类器模型的泛化能力,对未知袭击类型的检测能力是评价入侵检测系统好坏的重要指标。应用和评价KDD 99数据集的应用建立KDD99数据集的目的就是为入侵检测系统提供统一的性能评价基准,它的应用一般局限在学术范畴内,用来检查入侵检测算法的好坏。入侵检测的措施从主线上讲就是设计一种分类器,能将数据流中的正常与异常数据辨别出来,从而实现对袭击行为的报警。一般的,我们将数据集中的的10%训练
27、集来训练分类器,然后用corrected测试集测试分类器性能,这个分类器可以是基于贝叶斯的、决策树的、神经网络的或者是支持向量机的。有关分类器的设计,请自行google有关文献。特性选择是KDD99数据集的另一种重要应用。KDD99数据集中,每个连接有41个特性,对于一种分类器来说,要从这样多特性中提取规则是费时且不精确的,这体目前某些无关或冗余的特性往往会减少分类器模型的检测精度和速度。并且对于从原始的tcpdump数据中提取特性这一过程,也将是困难和费时的,这对于在线入侵检测系统是致命的。因此清除冗余特性或不重要特性,对于提高分类器训练速度和检测精度来说,是必要的。要阐明的是对于不同的分类器来说,最优的特性子集可以是不同的。有关特性选择,后来写一篇文章具体简介下。KDD 99数据集的评价 HYPERLINK o KDD CUP 99数据集之背景知识 t _blank 前面说过,KDD 99数据集是入侵检测领域的事实Benchmark,为基于计算智能的网络入侵检测研究奠定了基本,从那后来诸多学
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 软装设计师职业发展路径回顾与总结
- 新能源汽车常见故障识别与处理技巧
- 产品市场进入策略与竞争分析计划
- 预算管理制定和执行企业预算的好用指南-预算管理
- 厂务系统优化报告
- 酒店总经理客户服务质量提升方案策划书
- 海洋探索的助手中国海洋注册工程潜水员的工作规划
- 幼儿园收体测费通知书
- 广瑞公寓停电通知书
- 延川县中学开学通知书
- 三农政策解读
- 23年-竞业协议范本
- 高中语文北师大(必修3)第四单元课件:第12课《论睁了眼看》
- 退伍军人个人简历模板-军队转业干部简历模板下载(Word格式)-169
- 贴片二三极管封装图大全
- 幼儿园大班教案《一分钱》
- 中小学儿童德育教育正确面对挫折含内容两篇
- 物业公司中央空调运行记录表
- 消毒供应中心应急预案
- 小洋葱大作战【经典绘本】
- 岩石破裂数值方法
评论
0/150
提交评论