




已阅读5页,还剩60页未读, 继续免费阅读
(计算机应用技术专业论文)基于数据挖掘技术的安全事件分析平台的研究与设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 i 基于数据挖掘技术的安全事件分析平台的基于数据挖掘技术的安全事件分析平台的 研究与设计研究与设计 作者简介:潘凤,女,1981 年 2 月生,师从成都理工大学王华军教授,2009 年 6 月毕业于成都理工大学计算机应用技术专业,获得工学硕士学位。 摘摘 要要 计算机和互联网技术正在改变着人类社会的面貌, 与之伴随而来的是信息和 网络的安全问题。为了保障网络的可用性及网络信息的完整性和机密性,防止来 自外部或内部的攻击行为,网络管理者花费了大量的资源来购买防火墙、防病毒 软件等网络安全工具, 而这些网络安全工具和网络设备大多以日志和告警等形式 记录大量的网络安全数据,所以这些数据就成为网络安全工作中防御、检测和响 应的重要基础依据。然而,在现实网络环境中,这些安全数据往往是海量且零星 杂乱的,并不能直接作为有效的安全信息而存在,必须对这些数据进行深层次的 分析, 从中发现有价值的信息。 现有的数据库技术, 可以高效的实现数据的录入、 查询、初步统计等功能,但是要想从海量的安全数据中发现潜在的威胁和攻击, 根据现有的数据预测未来的发展趋势,是非常困难的。近年来,数据挖掘技术引 起了信息产业界的极大关注,其主要原因是存在大量的可以广泛使用的数据,而 吸取隐藏在这些数据后面的有用知识,并将其加以利用的能力变得愈加重要。 利用已知的安全事件数据进行安全管理与审计分析的思想,最早是 1980 年 anderson 的论文中正式提出的,经历了 20 多年的研究和发展,已形成了较为完 备的理论和实际的应用系统。通过对国内外研究概况的研究和分析,可发现大多 数产品都是通过对已存在的安全事件日志进行分析和管理。 其中有很多优秀的研 究成果和产品,但是在错综复杂的海量数据面前,仅仅利用传统的审计技术去静 态分析和管理已知的安全数据已力不从心。于是,国内外的很多研究机构和公司 都在积极地研究和开发基于数据挖掘技术的各种安全审计管理产品。 鉴于此,作者着手研究基于数据挖掘技术的安全事件分析平台。将数据挖掘 及相关技术运用到网络安全事件分析当中, 既可弥补传统的基于审计技术的安全 事件管理的不足, 又可更加高效地从海量的安全事件数据中提取对用户有价值的 信息。 利用这些信息可以更准确的预测、分析和评估网络中的各种安全事件和威 胁。 本论文主要以公司项目为依托, 基于以上思想实现了一个基于 b/s 结构的安 成都理工大学硕士学位论文 ii 全事件分析平台。该平台服务器端负责信息采集、处理,将分析处理的结果反馈 给浏览器端,以简洁直观的方式把当前网络的安全状态呈现给用户。平台通过对 来自不数据源的安全事件信息进行挖掘分析,去评估当前网络的安全状态。该平 台的特色在于,在安全事件分析中对于来自不同数据源的安全事件,打破以往孤 立分析的局面,而采用关联分析,并配以通过训练集事先定义好的模式库,用库 中的模式规则去匹配当前的安全事件,将匹配的程度用可信度直观表示出来,用 户可对当前网络的安全状态一目了然。根据用户需要可不断更新丰富模式库,将 新出现的威胁及时增加到模式规则中。对关联后的事件,采用启发式的动态风险 评估,并根据风险的值,来判定安全事件是否是成为一个安全事故。用户可根据 分析后呈现出来的相关状态信息做出响应。 本论文研究重点主要包含两大方面,一是安全事件的收集与预处理,网络中 存在的各种各样的安全事件,本论文中对由 ids、防火墙、路由器、网关等多种 网络安全设备产生的丰富日志和告警信息集中起来进行分析; 二是深入研究和分 析数据库中的数据, 将数据挖掘中的关联分析及人工智能中的模式识别等技术运 用其中,发现海量数据背后隐藏的知识,做出当前网络安全状态的正确判断。二 者中后者是研究工作的核心内容。 本论文研究成果的应用目标是针对拥有多台网络安全设备和中大型计算机 网络的部门提供以下几方面服务: (1)通过数据挖掘和关联技术能力,解决海量 的安全事件信息难以人为管理、 缺乏对来自不同数据源的离散数据集中分析的问 题。 (2)提供一个全集成的事故响应系统,包含集成在内的可不断更新的、供与 安全事件信息匹配的规则库。实现一个较为全面和完善的安全事件分析处理机 制。 (3) 辅助用户进行基于当前网络状况实时分析结果的 “动态” 安全风险评估。 关键词:网络安全,安全事件,事件分析,数据挖掘,关联分析 abstract iii design and research of security event analysis platform based on data mining technoledge introduction of author: pan feng, female, born in february 1981, apprenticed with professor wang hua jun of chengdu university of technology, specialized in computer technology, graduated in july 2009, have taken masters degree of technology. abstract computer and internet are changing our society but, it also leads to information and net security problem. administrator have spend large quantity of resources to purchase net security software like firewall, anti-virus program, trying to protect the integrality and safety of website and its information data, to prevent any attack coming from outside or inside of web. but, all these security programming and equipment are keeping recording real time data in form of log and warning, which already became the important resource for defending, detecting and responsing to any security event. however, in real web application, these security data are in huge quantity and somewhat in a mass which can not be used directly as effective information. so deeper analysis to these data is necessary, hoping we can find any useful info. with current database technology, we can write, sort and analysis them with high efficiency, but we can hardly find any potential threat or attack from such huge quantity of data, or foresee the develop trend based on current data. in these years, data mining technology draws more concern in information industry. because there are lots of data be used widely, and it become more and more important to learn the useful knowledge hides in these data, to use it. in 1980, the earliest theory was pushed by anderson; we can perform security management and audit analysis based on the known security event. after 20 years researching and developing, it becomes an integrated theory and a practically application system. through the researching and analyzing for the researching status in home and abroad, we found most products aimed at the analyzing and managing for the log of the security event. there were lots of excellent researching finding and product among them. in the presence of mass reticula data, it was not enough to analyze and manage the known security data using traditional auditing technology. 成都理工大学硕士学位论文 iv and then, many organizations and companies in home and abroad actively research and design various management product based on data mining technology. whereas the above mentioned, we are focusing on the research of data mining for data security analysis platform. put the data mining and relative technology to the analysis of internet safety event, can not only solve the shortcomings by the traditional audit techniques management, but also effectively acquire useful data by users in a sea of information. so the threats or security can be easily and accurately foreseen, analyzed and evaluated. based on the theory mentioned above, with building a company project, this paper has realized a safety analyses platform found on b/s configuration. the server takes charge to collect, analyze data and take the analysis to the browser before the user. this platform evaluates the internet safety status through mining and analyzing the different source data safety event. the function of this platform is using data correlation analysis technique instead of analyzing the data individually from different data source by traditional way, by the pre-programmed database to match and analyze the data, then express the matching degree of the reliability. so the safety of the internet is clear for the users. according as the user demand, the mode libraries can be constantly updated, and the fresh threat can be added to the mode rules. for these correlative events, using heuristic evaluating method, judge if the security event will be a security incident according the risk value. users can make response based on the relative status information behind analysis. this paper involves two parts. one is the collection and the pretreatment for the safety events. various safety events are involved in the internet. the thesis analyses the logs and alarm information which produced by the internet security devices such as ids, firewall, router, gateway, etc. the other is lucubrating and analyzing data in database, putting the correlative analysis of data mining and the mode identifying of the artificial intelligence on it, discovering knowledge hiding in the mass of data, judging the safety status of current internet security, this is the core content of the researching. a major application researching goal of this paper is to provide some service for the departments holding several internet security devices and large computer network. 1. using data mining and correlative technology, solve the problem, that human is hard to manage the great number of safety events and lack of the focus the analysis for the data come from different data source. 2. providing an all-compositive events responding system, including constantly updatable rule library for the matching of the abstract v security events information. 3. assisting users for dynamic calculating risk based on the real-time analyzing result for current internet status. shortage and future expectation: 1. this platform exists similar bug liking many of other internet safety evaluating softwares, it is hard to realize verifying. especially for the mode rules in the mode library, many functions are hard to be verified under the experiment mode. 2. the function of platform only promote for the potential threat, have not take relative actions. 3. the data information of the internet safety events come from different data sources. oversize data takes the server heavy load, so there could occasionally be crash in using. aiming at above shortages and based on current researching, hope keeping up deeply researching for data mining and neural network technologies etc., making more improvement and perfecting for this system. key words: internet security, data security, data analysis, data mining, correlation analysis 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果, 也不包含为获得 成都理工大学 或其他教 育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:潘凤 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解 成都理工大学 有关保留、 使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘, 允许论文被查阅和 借阅。本人授权 成都理工大学 可以将学位论文的全部或部分内容编入有关数 据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 (保密的学位论文在解密后适用本授权书) 学位论文作者签名:潘凤 学位论文作者导师签名: 年 月 日 第一章 绪论 1 第一章第一章 绪论绪论 1.1 项目来源项目来源 本项目来源于成都某信息安全技术有限公司 ism 平台项目,该公司主要从 事信息安全服务,主要面向政府、涉密单位等。 1.2 研究背景研究背景 近几年来,随着开放系统 internet 的飞速发展和电子商务的普遍应用,计算 机通信网络在社会各方面的重要性与日俱增, 计算机和互联网技术正在改变着人 类社会的面貌。 网络信息化如同一把双刃剑, 在带给我们工作和生活便利的同时, 与之伴随来的还有信息和网络的安全问题网络和计算机系统的各类攻击事 件层出不穷,攻击手法日趋复杂。为了保障网络的可用性和网络上信息的完整性 与机密性,防止来自外部或内部的攻击行为,网络管理者花费了大量的资源来购 买防火墙、 入侵检测系统 (idsintrusion detection systems) 、 虚拟专用网 (vpn virtual private networking)网关和防病毒软件等网络安全工具,力图保障网 络的安全。 这些网络安全工具和网络设备都以日志和告警等形式记录了大量的网 络安全数据,这些数据已经成为网络安全工作中防御、检测和响应的重要基础依 据。 然而,在现实网络环境中,这些安全数据往往是海量、零星杂乱的,并不等 同于真实有效的安全信息,也不能单独构成有用的安全事件,更不能及时形成真 正有指导意义的安全响应知识。 安全数据不能直接作为有效安全信息而存在的问 题主要有以下几个方面的原因: (1)安全数据的数据量庞大且冗余,安全资料零星杂乱,不易发现隐藏其 中的安全事件。一方面,面对海量的安全数据,如果单纯依赖网络安全管理人员 的经验,手工对其进行处理,去发现有价值的信息,几乎是不可能实现的任务。 当前流行的各种网络安全工具之间往往缺少协作和互动, 使得各自产生的安全数 据常常是孤立、零星的,缺乏与其它安全数据的关联,无法形成系统一致和真实 有效的主体安全事件。另一方面,存在大量虚假攻击的安全资料,黑客利用某些 工具攻击网络安全设备,故意产生大量安全事件。当前的入侵检测技术,虽然在 告警关联方面做出了一些努力, 但由于其原始数据来源过于单一而不能进行告警 关联,导致误报和漏报问题仍然没有很好地解决。若能对 ids、防火墙、路由器、 网关等多种网络安全设备产生的丰富日志和告警信息集中起来分析, 就可以提高 成都理工大学硕士学位论文 2 发掘安全知识的效果。 (2)缺少对安全态势的实时监控,告警反应严重滞后。由于安全数据的庞 大和孤立,企图依靠安全管理员通过读取、分析这些来自分散安全设备的数据来 及时了解威胁并进而采取有效的安全措施几乎是不可能的。实际情况常常是,安 全事件造成显著后果后才得知事件的发生。 (3)安全管理缺乏鲜活数据,风险评估无法随动跟进。安全管理的首要步 骤是对系统安全风险进行评估。若缺乏对当前网络状况的分析,将会导致安全管 理人员制定和修改安全策略时缺乏源于实践的鲜活依据, 也会造成安全措施的失 时性。 上述这些数据对于检测分析、评估监控、预测和关联各种网络安全事件和网 络威胁有着非常重要的价值,于是人们希望对这些数据进行深层次的分析,从中 发现有价值的信息。现有的数据库技术,可以高效的实现数据的录入、查询、初 步统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测 未来的发展趋势, 无法从海量的安全数据中发现潜在的安全威胁和攻击。 近年来, 数据挖掘技术引起了信息产业界的极大关注, 其主要原因是存在大量的可以广泛 使用的数据, 吸取隐藏在这些数据后面的有用知识并利用这些知识的能力变得愈 加重要。1数据挖掘可以帮助用户发现隐藏在大型数据库中的规律和模式,它融 合了人工智能、统计、机器学习、模式识别和数据库等多种学科的理论、方法和 技术,已经在商业、企业、政府、科研及体育等多种不同类型的组织机构和领域 中获得了非常广泛的应用。即使在日常生活中,数据挖掘技术也已经潜移默化地 参与到人们生活质量的改善过程中。2作为大规模数据库中先进的数据分析工 具,数据挖掘已经成为数据库及人工智能领域的研究热点之一。 基于此,作者着手研究与设计基于数据挖掘技术的安全事件分析平台。运用 数据挖掘技术,可以弥补传统的基于审计技术的安全事件管理的不足,可以更高 效地从海量的安全事件数据中提取更深层次、更重要的、对用户有价值的信息, 利用这些信息可以更加准确的对网络中的各种安全事件和威胁进行预测、 分析和 评估。 1.3 研究与发展现状研究与发展现状 1.3.1 国内外研究概况 1980 年 anderson 在自己的论文中第一次提出利用日志来进行安全审计分析 的思想,在 20 多年的研究和发展过程中,为了取得更好的检测效果和更快的检 测速度,国内外研究人员将多种技术应用于安全审计领域, 提出了许多分析审计 第一章 绪论 3 数据的方法,形成了较为完备、性能更加完善的理论和实际应用系统。这些方法 是为研制和开发性能比较完善的分析技术,并将之转化到商业产品中的努力尝 试。应该说,任何一种方法都既有优势又有缺陷,都有各自的适用范围,不能简 单地把某些技术定义为先进的,某些定义为落后的。重要的是,要发现和吸收各 种技术的合理之处,去除不合理之处,找出能够全面地提高对审计数据的分析能 力的思路。 在国外,很多公司和研究人员对安全事件日志做了大量的研究工作,目前国 外研究开发的安全事件管理工具有很多,主要体现在对已知数据进行统计分析、 实时监控和安全集中管理方面。 许多安全产品也提供对所产生的安全事件日志的 审计,分析和管理功能。例如,netiq 公司的 web trends 日志分析工具系列, 主要对 web、 防火墙产生的事件数据进行统计分析, 并能给出详细的统计报表和 图表。在国内,很多从事信息安全的公司开发的防火墙、入侵检测系统和反病毒 等产品中也都提供了功能强大的安全事件日志管理功能。 比如北京清华得实科技 股份有限公司开发的 netsc 日志审计系统可以与他们资助研发的防火墙和入侵 检测系统进行无缝集成,提供完善的日志审计功能。当前,分析审计数据主要的 方法有:专家系统应用于网络安全审计,状态转移法应用于网络安全审计,神经 网络技术应用于网络安全审计,基于免疫系统的网络安全审计技术,基因算法应 用于网络安全审计,基于 agent 的网络安全审计技术,基于内核的网络安全审计 技术,基于数据挖掘的网络安全审计技术等。3 1.3.2 存在的问题 综上所述,对国内外研究概况进行分析,可以发现无论是国外还是国内的大 多数产品都是通过对已存在的安全事件数据信息进行分析和管理。时至今日,基 于规则库与数理统计的安全审计方法已经得到广泛应用, 产生了许多优秀的产品 和研究成果。但是它们有着共同的缺陷,就是只能检测分析已知的异常行为,而 无法预测任何未知的异常。主要包括如下几点: (1)准确率低。目前入侵检测系统或安全审计系统中普遍采用的特征检测 4的方法是由安全专家预先定义出一系列特征模式来识别入侵。这种方法的问题 是模式库得不到及时的更新, 这样在审计的过程中系统不能自适应地识别出新型 攻击,使误报警和漏报警问题不断发生。 (2)数据过载。随着网络应用的普及,网络数据流量急剧增加,使得数据 过载。 (3)自适应性差,检测速度过慢。安全信息里面有些审计记录本身包含了 大量的无关信息,使得检测速度过慢,而有些则显得过于精简,缺乏审计子系统 成都理工大学硕士学位论文 4 的说明文档。等等。 以上这些都是目前的商业产品中审计子系统存在的问题。 而随着操作系统的 日益复杂化与网络信息化的急速发展,使得网络数据的数量在不断的急剧增加, 海量数据背后隐藏着的重要信息也越来越多,越来越引起人们的关注。在这种情 况下, 仅仅利用传统的审计技术去分析和管理这些安全数据已经不能满足人们对 网络安全的需要。因此,国内外的许多研究机构和企业都开始积极地研究和开发 基于数据挖掘技术的各种安全审计管理产品, 以期挖掘出更多有利于对网络状态 进行分析判断的特征模型。 1.4 研究内容研究内容与与目标目标 本文主要以公司项目为依托,详细论述面对海量级别的安全事件数据,如何 发掘出背后隐藏着的有价值的安全信息, 提出了基于数据挖掘技术的安全事件分 析的思想,并根据这一思想实现了一个安全事件分析平台。该平台的主要功能是 通过统一的配置和管理,对网络安全设备的网络安全事件进行采集、存储、分析 管理及风险评估等。 本论文研究重点主要包含两大方面:一是安全事件的收集与预处理,网络中 存在的各种各样的安全事件, 本论文中打破以往孤立分析来自不同数据源安全事 件信息的惯例,对由 ids、防火墙、路由器、网关等多种网络安全设备产生的丰 富日志和告警信息集中起来进行分析;二是深入研究和分析数据库中的数据,将 数据挖掘中的关联分析及人工智能中的模式识别等技术运用其中, 发现海量数据 背后隐藏的知识,做出当前网络安全状态的正确判断。 二者中后者是研究工作的 核心内容。 研究成果的应用目标是主要针对拥有多台网络安全设备和中大型计算机网 络的部门,具体而言,该平台应用能为用户提供以下几方面服务: (1)通过数据挖掘和关联技术能力,解决海量的安全事件信息难以人为管 理、 缺乏对来自不同数据源的离散数据集中分析的问题。通过对安全事件信息的 收集整理、 统一存储, 从原始安全事件信息中发掘背后隐藏的高质量的安全知识, 自动做出响应, 根据严重度给用户以告警或警报,以最大化地减少隐藏的危害对 网络产生的负面影响。提供单一的管理分析控制台,使企业能有效地监控和管理 其不断扩大的安全系统,而无需配备更多专门安全人员。 (2)提供一个全集成的事故响应系统,包含集成在内的可不断更新的供与 安全事件信息匹配的规则库。可为企业提供安全趋势分析,使企业能轻松了解各 种风险并采取明智决策。还可提供各类报告,以满足不同人员的需求。进而实现 一个较为全面和完善的安全事件分析处理机制。对 ids、防火墙、路由器、网关 第一章 绪论 5 等多种网络安全设备产生的丰富的日志和告警信息集中起来分析, 可提高发掘安 全知识的效果,发现传统安全工具难以发现的安全事件,有助于提前发现和预测 潜在的威胁,减少不必要的损失。 (3)辅助用户进行基于当前网络状况实时分析结果的“动态”安全风险评 估。 传统的系统安全风险评估方法缺乏对当前网络状况 (漏洞、 攻击等) 的分析, 将会造成安全措施的失时性和局部性。 该平台利用较为强大的分析能力关注于消 除误报、确认安全威胁并划分优先级、以及提供相关的上下文,对当前网络状况 进行实时分析,实现基于当前网络态势的“动态”安全风险评估。 该平台基本实现了预期的结果,但在功能实现上仍不够全面,还需继续深入 研究,加以完善。 1.5 本文的组织结构本文的组织结构 本论文共包括七章内容,组织结构如下: 第一章 绪论。简要介绍该平台研究的背景和意义等。内容包括数据挖掘技 术在安全事件分析中的意义和价值, 国内外对安全事件分析的研究与应用现状及 当前存在的问题, 在此基础上提出该平台设计的必要性,最后给出了本课题主要 的研究内容和思路。 第二章 数据挖掘技术介绍。介绍数据挖掘技术相关知识。内容包括什么是 数据挖掘,数据挖掘的现状和任务,其所包含的功能和内容,以及挖掘的原理与 过程等。 第三章 安全事件介绍。介绍安全事件的相关概念、分类,如何对安全事件 进行有效收集和统一等内容。 第四章 事件分析平台的技术基础。介绍数据挖掘在安全事件分析平台中的 应用技术,主要包括:知识发现、关联规则、人工智能中的模式匹配等方法,以 及实现这些技术的主要算法与策略。 第五章 基于数据挖掘的事件分析平台的设计与实现。这一章是本论文的核 心内容。详细介绍该平台的设计与实现过程。内容包括:首先介绍基于数据挖掘 技术的安全事件分析平台的设计中所用到的相关技术, 然后给出此平台的体系结 构,并具体分析各个模块的设计与实现,包括数据预处理、数据分析、结果可视 化及动态风险评估等模块。 第六章 平台设计结果展示。展示该平台系统研究设计所取得的结果,给出 相应截图和说明文字。 结论。概括总结全文内容,作者的主要工作及取得研究成果,分析设计中的 不足之处,并展望今后的研究方向。 成都理工大学硕士学位论文 6 1.6 本章小结本章小结 本章介绍了本论文涉及课题的研究背景, 分析了国内外发展现状与当前存在 的问题,指出了实现基于数据挖掘技术的安全事件分析平台所要研究的关键问 题,说明了论文的研究内容和目标,最后给出本论文的组织结构。 第二章 数据挖掘技术介绍 7 第二章第二章 数据挖掘技术介绍数据挖掘技术介绍 2.1 概述概述 数据库技术从 20 世纪 80 年代开始,已经得到了广泛的普及和应用。随着数 据库容量的膨胀,特别是数据仓库以及 web 等新型数据源的日益普及,人们面 临的主要问题不再是缺乏足够的信息可以使用,而是面对浩瀚的数据海洋,如何 有效的利用这些数据。 这些问题已经成为广大信息技术工作者所重点关注的焦点 之一。与日趋成熟的数据管理技术和软件工具相比,人们所依赖的常规数据分析 工具却无法有效地为决策者提供其决策支持所需要的相关知识, 从而形成了一种 独特的现象“丰富的数据,贫乏的知识” 。面对这一挑战,数据挖掘和知识 发现技术应运而生,并显示了强大的生命力。数据挖掘和知识发现使数据处理技 术进入了一个更高的阶段。它不仅能对过去的数据进行查询,而且能够找出数据 间的潜在联系,进行更高层次的分析,以便更好的解决决策、预测等问题。 数据挖掘是一门受到来自各种不同领域研究者关注的交叉性学科, 因此导致 了很多不同的术语名称。除了数据挖掘外,主要还有如下若干种称法:“从数据 库中发现知识” 、 “知识发现” (knowledge discovery in database, kdd),“知识 抽取” (information extraction) 、 “信息发现” (information discovery) 、 “智能数 据分析” (intelligent data analysis) 、 “探索式数据分析” (exploratory data analysis) 、 “信息收获” (information harvesting) 、 “数据考古” (data archeology) 等等。其中,最常用的术语是“知识发现”和“数据挖掘” 。相对来讲,数据挖 掘主要流行于统计界(最早出现于统计文献中) 、数据分析、数据库和管理信息 系统界;而知识发现则主要流行于人工智能和机器学习界。国内的学者也有把 “data mining”译为数据采掘或数据开采。 如今的数据挖掘已经在商业管理、生产控制、市场分析、交通、电信、科学 探索等领域得到了广泛的应用。 2.2 数据挖掘的定义数据挖掘的定义 数据挖掘就是从大量的、不完全的、有噪声的、随机的实际数据中,提取隐 藏在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程。 数据挖掘是由数据预处理、关联规则、数据仓库等一系列技术组成的,是对 大容量数据及数据间关系进行考察和建模的方法集。 数据挖掘技术作为知识发现 的一个特定步骤,其目标是将大容量数据转换为有用的知识和信息。数据挖掘技 成都理工大学硕士学位论文 8 术是面向应用的,它不仅面向特定数据库的简单检索查询调用,而且对这些数据 进行微观或宏观的统计、分析、及推理,试图发现事件间存在的相互关联,甚至 利用己有的数据对未来的活动进行预测5。从不同的角度观察,数据挖掘有着不 同的含义。 从统计学角度来看:数据挖掘是指分析所观察的数据集,发现可信的数据间 的未知关系,并提供给数据拥有者可理解的、新颖的和有用的归纳数据6。 从数据库的观点来看:数据挖掘是指从存储在数据库、数据仓库或其它信息 仓库中的大量数据中发现有趣的知识的过程7。 从机器学习的角度来看:数据挖掘定义为从数据中抽取隐含的、目前未知的 和潜在有用的信息8。 数据挖掘的结果是发现知识。人们把数据看作是形成知识的源泉,好像从矿 石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可 以是半结构化的,如文本、图像数据;甚至是分布在网络上的异构型数据。发现 知识的方法可以是数学的、 也可以是非数学的; 可以是演绎的、 也可以是归纳的。 发现的知识可以被用于信息管理、查询优化、决策支持和过程控制等,还可以用 于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的引用从 低层次的简单查询提升到从数据中挖掘知识、提供决策支持。 数据挖掘任务一般可以分两类:描述和预测9。描述性挖掘任务刻画数据的 一般特性。 预测性挖掘任务在当前数据上进行推断, 以进行预测。 在某些情况下, 用户不知道他们的数据中什么类型的模式是有趣的, 因此可能并行地搜索多种不 同的模式。这样,数据挖掘系统要能够挖掘多种类型的模式,以适应不同的用户 需求或不同的应用。由于有些模式并非对数据集中的所有数据都成立,通常每个 被发现的模式都带有一个可信度度量。在数据挖掘过程中,如何选择输入数据和 对应的挖掘方法,取决于具体的数据挖掘目标,即期望从数据中发掘出何种类型 的“知识” 。下节将介绍数据挖掘的功能以及它们可以发现的模式类型。 2.3 数据挖掘数据挖掘技术介绍技术介绍 数据挖掘的目标是从数据库中发现隐含的、 有意义的知识, 并以此辅助决策。 因此,它主要有以下七类功能9: 2.3.1 数据预处理 存在不完整的、 含噪声的和不一致的数据是大量现实世界数据库或数据仓库 的共同特点。数据预处理旨在提高数据的质量,包括数据清理、数据集成、数据 变换和数据归约等。其中: 第二章 数据挖掘技术介绍 9 数据清理用于填充空缺的值、 平滑数据、 找出孤立点并纠正数据的不一致性; 数据集成将来自不同数据源的数据整合成己知的数据存储; 数据变换将数据转换成适于挖掘的形式; 数据规约技术用于将信息内容的损失降低到最小。 2.3.2 概念/类描述 用汇总的、简洁的、精确的方式描述每个类和概念称为概念/类描述。这种 描述可以通过下述方法得到: (1)数据特征化,一般地汇总所研究类的数据; (2)数据区分,将目标类与一个或多个比较类进行比较; (3)数据特征化和比较。 数据特征化是目标类数据的一般特征或特征性的汇总。 数据特征的输出可以 用多种形式提供。包括饼形图、条形图、曲线、多维数据立方体和包括交叉表在 内的多维表。结果描述可以用概化关系或规则形式提供。数据区分是将目标类对 象的一般特性与一个或多个对比类对象的一般特征比较。 目标类和对比类由用户 指定,而对应的数据通过数据库查询检索。将数据特征化和汇总的算法如 data cube,olap 等。 2.3.3 分类 分类(classification)是找出描述并区分数据类或概念的模型,以便能够使 用模型预测类标记未知的对象类的过程。 数据分类的目的是提取数据记录的特征属性,生成分类模型,该模型可以把 数据库中的数据项映射到给定类别中的一个, 导出模型是基于对训练数据集的分 析。 数据分类的处理步骤如下: 获得训练数据集; 定义类标识; 分析训练数据集, 生成分类描述模型;使用得到的类型描述模型对目标数据进行分类。 数据分类算法有 ripper 等。 2.3.4 关联分析 数据库中普遍存在的一类现象是数据关联。 若两个或多个变量的取值之间存 在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联 分析(association analysis)用于发现关联规则,这些规则展示属性值频繁地在 给定数据中一起出现的条件。关联分析的目的是从己知的事务集 d 中,产生数 成都理工大学硕士学位论文 10 据项集之间的关联规则, 保证其支持度和置信度大于用户预先指定的最小支持度 和最小置信度(均可被称为阈值) 。该阈值可以由用户控制。低于阈值的规则能 反映噪声、异常情况。 关联分析算法有 apriori 和 fp-growth 等。 2.3.5 演变分析 数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。包括 时间序列数据分析、序列或周期模式比较和机遇类似性的数据分析。 序列分析(sequential analysis)的目标是在事务数据库中发掘出序列模式, 即满足用户指定的最小支持度要求的大序列,并且该序列模式必须是最高序列, 挖掘序列模式通常分为以下几个步骤: (1)排序阶段; (2)大数据项阶段; (3)转换阶段; (4)序列阶段; (5)序列最高化阶段。 序列分析算法有 aprioriall, apriorisome, dynamicsomc 等。 2.3.6 聚类分析 聚类分析是一种重要的人类行为。聚类通过分析数据对象产生类标记。对象 根据最大化类内的相似性、最小化类间的相似性的原则进行聚类或分组。通过聚 类分析之后形成对象的簇,在一个簇中的对象具有很高的相似性,而与其它簇中 的对象很不相似,所形成的每个簇可以看作一个对象类,由它可以导出规则。 聚类分析算法如 clarans,btrch 等。 2.3.7 孤立点分析 有些数据对象与数据的一般行为或模型不一致。这些数据对象是孤立点,大 部分数据挖掘方法将孤立点视为噪声或异常而丢弃。然而,一些应用中(如欺骗 检验)罕见的事件可能比正常出现的那些更令人关注。 2.4 数据挖掘的数据挖掘的过程过程 作为一个学术领域,数据挖掘和数据库知识发现具有很大的重合度,大部分 第二章 数据挖掘技术介绍 11 学者认为数据挖掘和知识发现是等价的概念。相比来讲,数据挖掘主要流行于统 计、 数据分析和数据库领域; 而知识发现则主要流行于人工智能和机器学习领域。 从数据处理的过程看,可以把数据挖掘看作知识发现过程中同算法相关的一步, 借助于算法在可接受的计算范围内从数据中获取模式10。 数据挖掘技术挖掘知识的基本过程包括:数据准备阶段、数据挖掘阶段和分 析结果显示阶段11,如图 2-1 所示: 图图 2-1 挖掘知识过程图 (1)数据准备阶段 数据准备又可分为三个子步骤: 数据选取 (data selection) 、 数据预处理 (data preprocessing)和数据变换(data transformatior) 。数据选取的目的是搜索所有 与业务对象有关的内部和外部数据信息, 并从中选择出适用于数据挖掘应用的数 据。 数据预处理是对数据进
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 先进暖通空调节能施工技术方案
- 木材品牌形象重塑策略分析报告
- 护理学付高考试题及答案
- 油品储运工异常处理考核试卷及答案
- 山石盆景工岗前考核试卷及答案
- 第一节 自然特征与农业教学设计-2025-2026学年初中地理人教版五四学制七年级下册-人教版五四学制2012
- 高中信息技术选修2教学设计-4.3 图形图像的加工3-粤教版
- 高中物理必修一知识点精准总结
- 乳化香精配制工主管竞选考核试卷及答案
- 飞机自动驾驶仪测试调整工技能比武考核试卷及答案
- 地下室混凝土收光合同5篇
- 专家讲座:小学数学新课程标准解读
- GB 45669.4-2025黄河流域工业用水定额第4部分:水泥
- 消化诊断内镜技术操作规范2023版
- 收割芦苇施工方案
- 湖北省公务员遴选考试题目及答案
- 医疗机构小儿推拿技术规范-公示稿
- 吊篮临时用电施工方案
- 2025-2030中国小麦加工行业市场发展分析及发展趋势与投资前景研究报告
- 肠系膜上动脉夹层护理查房
- 减盐减油知识课件
评论
0/150
提交评论