8第八章 基于Hadoop海量日志的入侵检测技术_第1页
8第八章 基于Hadoop海量日志的入侵检测技术_第2页
8第八章 基于Hadoop海量日志的入侵检测技术_第3页
8第八章 基于Hadoop海量日志的入侵检测技术_第4页
8第八章 基于Hadoop海量日志的入侵检测技术_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于Hadoop海量日志的入侵检测技术基于存储的入侵检测技术Hadoop相关技术Web日志基于Hadoop海量日志的入侵检测算法基于Hadoop海量日志的入侵检测系统的实现Hadoop简介Hadoop是一个项目的总称,是开源实现的谷歌的集群系统。由于在Hadoop中实现了HDFS文件系统和MapReduce编程模型,使得它成为了一个分布式的计算平台。当用户想要运行一个分布式程序时,只需要编写一个类继承自MapReduceBase,同时再实现Map和Reduce,然后对Job进行注册就可以了。

Hadoop首先是一个分布式的文件系统,能够实现存储的功能,但它的作用不限于此,它同时也是一个能够执行分布式程序的大型框架,它的执行环境一般是由数目众多的计算设备组成的大规模集群。HDFS文件系统HDFS(HadoopDistributedFileSystem)是Hadoop项目的核心子项目,是Hadoop主要应用的一个分布式文件系统。在HDFS架构中有NameNode和DataNode两种节点。这两类节点分别承担Master和Worker的任务。MapReduce并行计算框架Mahout简介Mahout是Hadoop中的一个开源项目,Mahout中构建了一个大规模的机器学习库,是实现并行化的数据挖掘算法的分布式计算框架。Mahout中实现的算法都是构建在Hadoop之上基于MapReduce的并行实现,可以帮助开发人员更加方便快捷地创建智能应用建立机器学习算法。尽管Mahout还属于开源领域一个新兴的项目,但是它在集群方面已然提供了大量的功能。由于它使用了Hadoop库,因此基于Mahout的应用可以有效地扩展到云平台中。Hive简介Hive是一种建立在Hadoop上的开源数据仓库。它能够被编译成用来在Hadoop上执行的作业。此外,HiveSQL可以让用户将自己编写的脚本放置在一些语句中进行执行操作。它可以将数据改变成易于理解的数据库的概念形式,例如数据表、列等。Hive能够支持对大规模数据的保存,如在Facebook的Hive中有数以万计张数据表保存了大小超过700TB的数据。当需要执行的数据量较小或者需要频繁地进行査询等操作时,Hive的性能并不会优于Oracle等数据库,它比较擅长的是执行数据量巨大的査询等操作,正常情况下项工作量较大的任务可以执行几个小时以上。Web日志web服务器日志:Web日志文件为服务器提供最准确和完善的数据,它不记录访问的缓存页面。日志文件中的数据一般是敏感的、个人的,因此服务器一般会保护日志信息。web代理服务器:Web代理服务器获取用户的请求并将它们传递给服务器,然后将结果传递给服务器并返回给用户在代理服务器的帮助下把请求发送给客户端。客户端浏览器:日志文件可以驻留在浏览器窗口。HITP的cookies用于客户端浏览器,这些HTTP的cookies是服务器产生的部分信息并且保存在用户的计算机中,以备日后使用。K-Means算法k-均值(k-meansClustering)算法是最著名的划分聚类算法。该算法是所有聚类算法中最频繁地被使用的,因为它具有简洁和效率高的特性。对于给出的数据点集合以及由用户决定的要聚类成的簇的数目k,K-Means算法会通过规定好的距离函数进行计算,不断地为数据找到它所应归属的簇。K-Means算法CPK-Means算法FP-Growth算法频繁模式挖掘即关联规则挖掘(AssociationRulemining),是数据挖掘中一个举足轻重的方向,其主要目标是从大量的数据中挖掘出数据项之间的关联关系。比较著名的算法是Apriori算法和FP-Growth算法。FP-Growth算法在2000年由Han等人提出,它解决了Apriori算法需要生成大量候选短频繁模式而影响效率的问题。在FP-Growth算法中只需要扫描两次数据集就可以发现频繁项集,而无须产生候选频繁项集。但是由于FP-Growth算法需要递归地生成条件数据库和条件FP-tree,所以也存在内存开销很大的缺点。在该算法中使用了频繁模式树(FrequentPatternTree,FP-tree),通过该树即可生成关联规则。在FP-Growth算法中分为生成FP-tree和从FP-tree得到频繁模式两个阶段。LBPEP算法切分并行计算负载均衡的分担并行的FP-Growth算法聚合负载均衡的分组计算负载单元,负载单元是指在每个频繁项的条件模式基上运行FP-Growth算法的工作量将这些负载单元平均地分到Q组中并行的FP-Growth算法产生在分组中独立的事务

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论