已阅读5页,还剩108页未读, 继续免费阅读
(控制理论与控制工程专业论文)数据库累积异常的主动模糊识别方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘受 数据库累积异常的主动模糊识别方法研究 摘要 本文提出数据库中存在的一种新的异常数据库累积异常。现 有的针对数据库安全的研究还未对此作以系统深入的研究。基于模糊 集理论,本文提出基于可疑度决策模型( d u b i e 妒d e t e m i n i n gm o d e l , d d m ) 的数据库累积异常模糊识别方法。 在给出数据库累积异常的基础描述后,形式化定义了数据库累积 异常语义下的概念系统,定义了基于累积量的数据库事务可疑度的量 化测定方法,这是数据库累积异常识别的核心内容。然后,本文提出 了基于集合间相异度和条件相异度的一种七一模聚类方法,对数据库 事务集聚类分析,从而为监测规则的设定提供重要参考。其中对条件 相异度的计算,一种基于字符串匹配的方法,另外一种是基于本文提 出的逻辑树概念。接下来,本文详细描述了基于d d m 的数据库累积 异常主动模糊识别方法,包括基于累积量子模型和可疑度子模型的可 疑度决策方法、d d m 的训练策略等。在对数据库事务进行可疑度决 策,是基于数据库事务的审计记录和设定的匹配规则进行的。根据 d d m ,设计并实现了一个数据库累积异常模糊识别原型系统,并在 该原型系统上实施了模拟实验,对基于d d m 的数据库累积异常主动 模糊识别方法的可行性、有效性进行了验证,对该方法在宿主数据库 上的性能影响进行了分析。最后,本文研究了基于d d m 的数据库累 藏京化t 人学博l :学位论文 积异常模糊识别在分布式数据库环境下的探测器模型,主要分为对等 结构和层次结构的两种模型,并研究了两种结构的模型的站点协同机 制,并对二者作以简单比较。 本文提出了数据库累积异常的概念,并对其做了系统的描述和定 义,提出了基于d d m 的数据库累积异常模糊识别的般方法。实验 结果表明该方法是可行的、有效的。本文还对该方法在分布式环境下 的模型做了初步研究。 关键词:数据库累积异常,可疑度决策模型,分布式数据库,异常检 测,数据库安全 i i a b s t r a c t a c t i v ef u z z ya p p r o a c ho fc u m u l a t e d a n o m a l yr e c o g n i t i o ni nd a t a b a s e s a b s t r a c t an e wc o n c e p to fd a t a b a s ea n o m a l y c u m u l a t e da n o m a l yh a sb e e n p r o p o s e di nt h i st h e s i s ,w h i c hh a dn o tb e e nf o c u s e do na n dr e s e a r c h e d b a s e do n 如z z ys e t st h e o 巧a n dd u b i e t y d e t e r i n i n i n gm o d e l ( d d m ) ,t h e a c t i v ea p p r o a c ho fc u m u l a t e da n o m a l yr e c o g n i t i o ni nd a t a b a s e sw a s p r e s e n t e d c o n c 印t s i nt h ec o n t e x to fc u m u l a t e da n o m a l yw e r ed e f i n e d f o 衄a l l ya n dt h ew a yo fq u a n t i t a t i v e l ym e a s u r i n gt h ed u b i e t yd e g r e eo f d a t a b a s et r a n s a c t i o n sw a ss t u d i e d a 七一m o d ec l u s t e ra l g o r i t h mb a s e do n m u l t i s e t s d i s s i m i l 撕t y a n dm u l t i - c o n d i t i o n s d i s s i m i l 撕t y w a s d e v e l o p e d t o h e l pd e r i v i n g u s e r s p r o f i l e s i nt h e a l g o r i t h m , m u l t i 。c o n d i t i o n s d i s s i m i l a t yw a sb a s e do n m a t c h i n g o fc o n d i t i o n e x p r e s s i o n so rl o g i ct r e e l o g i ct t e ew a sd e 行n e dt oh e l pc a l c u l a t i n gt h e d i s t a n c eo ft w ol o g i ce x p r e s s i o n so ns e m a n t i c1 e v e l a r e n v a r d s ,d d m w a sp r e s e n t e di n d e t a i l , i n c l u d i n g i t st w o s u b m o d e l s , c u m u l a n t s u b m o d e la n d d u b i e t yd e g r e es u b m o d e l a :r e r i n t r o d u c i n g t h e t r a i n i n gs t r a t e g yo fd d m ,t h em e a s u r eo fd e t e m l i n i n gd u b i e t yd e g r e e so f 北京化工大学博士学位论文 d a t a b a s et r a n s a c t i o n sb yt w oi t e m so fa u d i tr e c o r d sa n d 【a t c h i n gr u l e s w a sd e s c r i b e d t h ep r o t o t y p eo ft h es o r w a r es y s t e ma r c h i t e c m r et o s u p p o r td d m w a sd e s i g n e da n di m p l e m e n t e d t l l r e ee x p e r i m e n t sw e r e p e r f o 衄e do ni t f o rt e s t i n gd d m t h ef i r s te x p e r i m e n ts h o w e dm e g e n e r a lr e s u l t so fd d m w i t has e to fr a n d o m l yg e n e r a t e da u d i tr e c o r d s , w h i l et h es e c o n do n es i m u l a t e dap r a c t i c a lc a s e d d mm o n i t o r e dd u b i e t y d e g r e e sf o re a c hd a t 2 l b a s et r a n s a c t i o n sa n dd e t e c t e de x p e c t e dc u m u l a t e d a n o m a l yi nt h et w oe x p e r i m e n t s t h ee 虢c to nd a t a b a s ep e 墒m a n c eb y d d mw a st e s t e di nt h e1 a s te x p e r i m e n t e x p e r i m e n t a lr e s u l t ss h o w e dt h a t d d mw a sf e a s i b l ea n de f f e c t i v e f i n a l l y ,t h em o d e lo fd i s t r i b u t e dd d m w a ss t u d i e d i ns u m m a r y ,t h ec o n c e p to fc u m u l a t e da n o m a l yi nd a t a b a s e sh a s b e e np r o p o s e d ,w h i c hw a sd e s c r i b e da n dd e f i n e df o m a l ly ag e n e r a l 印p r o a c ho fc u m u l a t e da n o m a l yr e c o g n i t i o ni nd a t a b a s e sw a sd e s i g n e d b a s e do nd d m t h ea p p r o a c hw a sf e a s i b l ea n de f r e c t i v e i ta l s oc o u l db e a p p l i e do nd i s t r i b u t e dd a t a b a s e s k e yw o r d s :c u m u l a t e da n o m a l y , d u b i e t y d e t e n 】血n i n gm o d e l , d is t r i b u t e dd a t a b a s e ,a n o m a l yd e t e c t i o n ,d a t a b a s es e c u r i t y i v 符弓说明 符号说明 关系数据库 关系数据库中的关系集合 关系数据库中的关系 提取关系尺的属性集合的操作 数据库事务 数据库事务影响的元组集合 数据库事务的执行帐号 数据库事务的操作 属性集合 数据库事务中的条件 时间戳 数据库事务执行的s q l 语句 泛等价事务集合 弱等价事务集合 强等价事务集合 统称的等价事务集合 时间窗,m i n 用符号$ 冗e $ 代替数据库事务涉及的数据后得到的模式 隶属度函数 s 型隶属度函数 z 型隶属度函数 万型隶属度函数 u 型隶属度函数 i 于 d 围 加船r钟r母伽 缈竹咖窍 那趵一句一日曰舢厂弓尼c昂 义中捅图列表 文中插图列表 图5 1 可疑度决策模型5 1 图5 2 月收入的模糊值5 2 图5 3 四种隶属度函数的曲线5 3 图5 4 可疑度决策算法6 2 图6 一l 数据库累积异常模糊识别原型系统6 5 图6 2 数据库累积异常模糊识别系统的实现策略6 8 图6 3 训练两个匹配规则7 5 图6 4 实验二的结果7 8 图6 5 随着测试语句提交次数的增加d d m 对宿主应用数据库的性能影响指标 变化8 l 图7 1 分布式数据库系统物理结构示例8 6 图7 2 分布式数据库系统逻辑结构8 6 图7 3 分布式数据库累积异常探测器模型8 9 图7 4 对等结构分布式数据库累积异常模糊识别9 0 图7 5 层次结构分布式数据库累积异常模糊识别9 3 图7 6 局部站点逻辑结构9 3 图7 7 控制中心逻辑结构9 4 文中表格列表 文中表格列表 表6 1 前1 0 个最大的类簇7 0 表6 2 匹配规则r 0 9 7 l 表6 3 所有1 9 条匹配规则7 1 表6 4 测试1 的5 条结果示例7 3 表6 5 实验一中两组测试结果的概要比较7 4 表6 6 实验二中的两条匹配规则7 5 表6 7 实验二中的1 2 条新的审计记录7 6 北京化工大学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文的 研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人 完全意识到本声明的法律结果由本人承担。 作者签名:主 圣 日期:型挚盆啤固 作者签名:工兰日期:型鹭盆! z 固 关于论文使用授权的说明 学位论文作者完全了解北京化工大学有关保留和使用学位论文 的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北 京化工大学。学校有权保留并向国家有关部门或机构送交论文的复印 件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编 学位论文。 适用本授权书。 日期:2 盟墨垒! 鱼丑里 日期: 第一章绪论 第一章绪论 1 1 数据库累积异常的提出 数据库系统中集中存放有大量的数据,担负着存储和管理数据信息的任务, 应该采取何种防范措施,来保证数据的保密性、完整性和有效性,以防止非法的 使用,避免造成数据有意或无意的丢失、泄露或破坏,已经成为计算机科学领域 中人们研究的重要内容之一。通过防火墙以及各群权限认证方法等通常的外围防 范机制,来自网络外部的、非法用户对数据库中数据的读取、破坏已经被有效地 防范,但是这些机制对于来自网络内部的攻击无能为力,比如权限认证系统无法 阻杰拥有合法权限的用户有意或无意地提交对数据痒有害的事务,对数据库中的 数据完整性、有效性造成破坏;某个对数据库有着相应操作权限的用户甚至可以 将其恶意企图隐藏在多个不同的操作和数据库事务中。例如,犯罪分子可能通过 在多个银行账户之闻转帐来进行“洗钱”;银行有相应权限的员工可能逶过每次 侵吞多个用户很难发觉的少量利息来获取非法利益;工业流程控制领域数据库中 保存的温度、压力、流量等等数值,如果其每个微小变化本身正常,但是长期累 积的结果若发生异常恧不被发觉,最终可能造成重大安全事故本文将实际应 用中存在的这种情况称为数据库的累积异常。 传统的独立于应用语义的数据库各种安全检测方法对数据库累积异常无能 为力。对于累积异常,妊须结合数据瘁的应用语义进行实时监测,才能在累积异 常从无到有的过程中及时发现它,从而采取预警等相应措施,避免累积异常带来 的严重后果。由于累积异常是e l j 多个正常的、合法的数据库事务累积起来的,其 中有一个从“正常”到“异常 的交化过渡过程。这个过程中的状态是“正常” 与“异常 之间的模糊带。基于累积异常的这个特性,必须研究一种方法,能够 对数据库事务从“正常到“异常 的模糊变化过渡过程进行实时监测,从而能 够在累积异常发生之前,识别瘵累积异常的发生趋势,继丽采取有效措施防止累 积异常的发生。同时,该方法也要满足大规模数据库越来越广泛应用的分向式环 垃 境a 本课题依托于2 0 甜年申报的北京青年科研基金项目“数据库安全技术研究” 北京化丁大学博l :学位论文 ( 编号q n 0 4 1 5 ) ,以及2 0 0 6 年申报的国家“十一五科技支撑计划项目“古代 建筑虚拟修复及w e b 表现技术研究”( 编号2 0 0 6 b a k 3 l b 0 4 ) ,对数据库累积异 常问题进行研究。 1 2 现有数据库安全问题的研究 嬲络系统、操传系统和数据库管理系统( d 鼓如澈m a n a g e 撒龃ts y s t 鼬, d b m s ) 是信息系统的支撑平台,这三者的安全性直接影响到整个信息系统的安 全f 。舀前人们把信息安全的重点放在网络和操作系统上,对数据库安全的研究 远不如上述掰者。弼世纪的信惠系统中,数据库中往往保存着极为重要的数据, 对攻击者有很大的吸引力,使数据库收到蓄意攻击的可能性增加。同时,数据库 系统本身的弱点也使其成为易受攻击的目标,e l l 于数据库的数据经常需要更新以 及其它众多的操终活动,蒋加上为了适斑更新需要,许多数攥痒提供的优化接口 不够安全,这些都可能被攻击者所利用【2 渤。数据库网络化应用的发展也使其受 到攻击的可能性大大增加【4 l 。 1 2 1 传统数据库安全机制 传统的数据库安全机制重点在于预防,着眼于对外部用户的身份认证和权限 检查来保证用户操作的合法性,防止用户执行来授权操作【5 1 。然而,以身份认证 和存取控制为主的数据库安全机制存在局限性。 蓄先,与其它应用系统一样,不可能西分之酉缝预防所有的数据库安全问题, 攻击者总能发现新的方法闯入或者干涉系统。 其次,对于合法用户特别是系统管理员的权限滥用,以预防为主的安全机制 常常无雏为力。计算机安全的主要藏胁往往来窝内部滥用焉不是入侵,这些内部 滥用者具有合法的身份认迁和授权,面且一些来自网络的攻击者也往往能够窃取 到合法的身份或权限。如利用密码嗅探攻击者可能获得合法的用户帐号和密码, 利用会话劫持的攻击者可能伪装成合法用户。 最后,数据库安全的重点在于数据的保密性、完整性和可用性【6 ,丽身份 认证和存取控制主要着眼于数据保密性以及某些商业完整性,对数据的完整性和 2 第一毒缝论 可用性较少涉及。对于数据库来说,数据完整性和可用性具有和保密性同等重要 的地位。因此,许多进攻专门针对数据库的完整性和可用性,如对数据库的存储 篡改l 湖、拒绝服务等攻击,这些攻击是以预防为主的安全机制所难以处理的【稍。 1 2 2 数据库入侵检测 入侵检测主要分为两种模式:误用检测( m i s u s ed e t e c 硒n ) 和异常检测 ( a j f l o m a l yd e t e c t i o n ) 【l o 1 1 1 。误用检测又称为基于特征的检测( s i 印a t l l r c - b a s e d d e t e c t i 雒) ,通过检测用户行为是否符合某个已知攻击模式的方法来检测入侵: 异常检测又称为基于行为的检测( b e h 撕o r - b a s e dd e t e e 虹o n ) ,通过检测用户行为 是否偏离正常模式的方法来检测入侵【协1 4 1 。 网络数据库的广泛应用使得人们越来越关心数据库的安全问题f 洛翊。除了访 问策唆1 8 】、蕉色管理、数据库服务器的物理安全、安全模型等机制,基于计算机 网络入侵检测的研究成果【1 9 。2 9 】,将已有的基于主机和网络的入侵检测系统的一些 研究思想和成果应用到数据库入侵检测中 3 。,3 轴,数据库的误用检测和异常检测成 为被关注的焦点【3 2 】。人们运用数据库安全、入侵检测、数据挖掘f 3 3 瑚】、统计等相 关知识【3 9 删,详细讨论了数据库入侵检测系统的建立和检测过程【4 1 4 2 】,讨论了其 实现湖,做斑了原型瞄】,有的还在数据库入侵容忍方面做了一定的研究洚鞫。数 据库有其自身的结构和语义f 5 5 1 ,并且拥有文件、关系、属性、记录等不同的粒度, 数据库入侵检测应能够在更细的粒度上检测用户的行为【5 6 1 ,但也由于d b m s 数 据模型的复杂性,使数据库入侵检测具有更为复杂的内容和特点嗣。 早在1 9 8 0 年,d 。e 。d e 拄幽毽就已经注意到了统计数据库的安全问题【5 s 】,并 且提出了一个入侵检测模型【5 9 ,删。r c a m e y 等人实现了一个通过把用户行为与 其正常行为模式相比较来进行误用检测的模型【6 l 】。该模型能够通过聚合、适当反 馈以及融合的方法露学习。y 融和b p 越黾基于数据依赖关系,描述了一种数 据库入侵检测的方法。该方法通过将用户事务中所读写的数据项与读集合( r e a d s e t ) 、写前集合( p r c - w f i t es e t ) 以及写后集合( p o s t w “t es e t ) 相比较来判定事务 是否有害f 6 2 】。文献【5 3 】提供了两种关系数据痒的异常检测方法。一种是基于参考 值的比较。这些参考值是通过对单个属性的元素值做一些基本的统计学计算得到 的。另一种方法用刀关系( 么r e l a t i o n ) 。么关系记录着数据库被操作前后两个版 北京化 下大学博l 学位论文 本中被监测的属性值的变化情况。文献【6 4 】和【6 5 】提出了一个基于神经网络和遗 传算法的统计异常预测系统的架构。该系统能够基于之前的观察预测用户的未受 权入侵,并虽在入侵真正发生之前采取措旌。d p s 脚j 监视数据库事务,恶意 的事务被看作是入侵i 亍为。一旦发现恶意事务,系统就在其成功提交之前将其取 消。这个方法假设数据库用户没有能够绕过该系统的能与数据库直接交互的途 径。如采这个假设不成立,那么该系统也就失效了。在如毽p 镪g 的研究中洚巧2 ,5 硼, 他提出了数据库入侵容忍系统体系结构。该体系主要关注于通过撤销恶意事务来 恢复被入侵的数据库。在另一些工作中,还把模糊集中的一些概念和理论引入了 计算机安全、网络安全以及数据库安全研究中来泠殆】。具体来说,数据库的入侵 检测主要分为对存储篡改的检测、对数据推理的检测f 7 6 1 、基于数据挖掘的检测、 基于应用语义的检测以及数据库事务级的检测等几种类型【| 7 丌。 1 2 2 。1 对存储篡改的检测 黯数据库的存储篡改是一静恶意修改数据痒中的存储数据潋降低数据质量 的行为。存储篡改的目的是以错误或低质量数据误导和妨碍对手的行为,它属于 一种内部滥用行为陬粥- 8 。 m 国e 蛳矾和( 沁l d s c 撼8 弼】在研究检测存储篡改的方法中提逊试用检测对 象( d e t e c 埴o n 曲 e c t ) 的方法,该方法是一种检测篡改数据的恶意行为的抽象机 制。在数据库中,检测对象般是不被正常用户和应用所使用但篡改者又无法将 其与正常数据区分开的伪造数据,如采发现检测对象不在正常或可预期的状态剐 表示可能发生了数据篡改零亍为。 为防止和检测企图绕过d b m s 在磁盘级别上进行破坏数据的入侵,加密和 签名是主要豹安全机制。m a h e s 撕硪等蚴遥过将数据库加密并使用在小块可信 存储中保存的散列验证数据库正确性的方法来检测不可信程序对数据库的非法 读取和修改。对于一般的签名机制,入侵者可能使用旧的磁盘块映像来替换现有 的数据丽不被检测刘。b 躺a f a 等【8 3 l 提出了一个通过两级校验码来检测绕过 d b m s 在磁盘级别上破坏数据的入侵的方法。该方法通过将蹲级签名连接到数据 库的数据项从而形成内部的追踪机制,入侵者的非法更新如果想不被检测到,必 须执行大量实际上无法完成的额外块复制操作,b a r b a 豫的方法可以有效地检测 4 第一拳缝论 到块映像替换等入侵手段【5 8 】。 1 2 。2 2 对数据推理的检测 对数据推理的检测可以看作是一种早期的数据库滥用检测f 8 4 ,8 5 1 。数据推理指 的是用户在不存取某些数据的情况下也能推断出这些数据,如在多级安全数据库 中用户利用低密级数据或外部知识推理出某些高密级数据【蚓。使用推理攻击的往 往是具有某些合法权限的内部滥用者。对推理的检测可以在数据库的设计阶段或 运彳亍阶段。在设计阶段,主要遥避对数据库模式的分析以找到推理路径( i n 螽粼嫩e p a m ) 【盯1 ,比如利用属性的函数依赖图查找第二条路径的方法,如果两个属性之 间存在两条路径且这两条路径是不同的分类密级就有可能发生推理攻击【8 3 1 。对查 找的推理路径,d a w s o n 掣s 8 1 通过提舞路径密级的方法,h i n b 等【8 翘通过重新设 计数据库模式和属性分级来避免推理。使用数据库模式分析推理在数据库设计阶 段较为有效,但也存在两个缺点:一是不能捕获数据库实例中的所有依赖关系, 二是数据库模式中存在的推理路径不一定就会导致推理行为的发生。在数据库运 行阶段,通过检测数据库事务以确定这阿事务是否会导致非法推理,如果导致菲 法推理则对该事务做相应的调整或取消。y i p 等】提出了一个数据级的推理检测 方法,认为利用数据库中的数据本身可以检测出更多的推理,提出了能用于推理 攻击的五种关系并提出了一个基于规则的方法以方便与检测系统的集成。在进一 步研究中,y i p 扩展了这些关系并对其应用作了讨论。数据库运行阶段的推理检 测需要保存角户的查询和返回的元组,因而代价较高,而且对某些推理的检测需 要保持用户查询的历史信息,这可能易招致某些d o s 攻击疆s 】。 1 2 2 。3 基于数据挖掘的检测 数据挖掘是指从存储数据中识别出隐藏的固定模式或异常现象的高级处理 过程阳。由于数掇挖掘技术能够发现隐藏在数据背籍的用户模式和特征辩l ,因 此在基于主机和网络的入侵检测中,采用数据挖掘技术的检测方法是重要的研究 课题,同时,也存在来自统计【9 3 1 、模式识别、机器学习等多个领域的数据挖掘算 法【锵删。c 赫n g 等人5 9 习开发了d e m l d s 。这是一个适用于关系数据库的使用用户 北京化下人学博l j 学位论文 数据库误用检测系统。d e m i d s 用异常检测的方法来检测用户权限的滥用。其核 心是频繁项集( 舶q u e l l ti t e n l s e t ) 。频繁项集是针对每一个用户按照数据结构、 模式语义和用户嚣志在训练阶段使用一定的挖掘算法挖掘出来的。这些频繁项集 包括关系、属性以及用户在其s q l 语句中最常用的值。在检测过程中,d e m i d s 用这种方法度量用户的频繁项集和他实际的查询s q l 语句之间的距离。如果该 距离超过了一定限制,则检测到异常。穗u n g 遴一步改进了d 嚣m l d s 的算法刚, 将可以体现特定领域知识的概念体系应用到频繁项集的挖掘中,从而可以形成不 同抽象级和粒度的频繁项集,并使用兴趣度( i r i t c r e s t i n 伊e s sm e a s u r c ) 来发现用 户的行为模式。但该方法假设合法的用户使用数据库的方式有一定程度的一致 性,如果这个假设不成立或者检测阈值配置不嵩将会导致较高的误警率。s t o l f o 等【9 9 】在研究信用卡欺骗检测中使用元学习( m e 协l e a n 曲g ) 的方法来进行分布式 事务模式挖掘。元学习是一种从大型分布式数据库中计算全局分类器( c l a s s i 鑫e r ) 的技术。元学习首先在分布式数据库中使用学习程序并行的计算独立的分类器, 然后再使用另一个学习程序在这些分类器上集成元分类器。在使用元学习得出异 常或偏差事务模型后,使用模式指导的推理系统来检测欺骗事务两。 1 2 2 4 基于应用语义的检测 在许多场合中,独立于应用语义对数据库事务或用户进行检测并不足以识别 用户的异常行为,如某个会计突然将自己每月工资增加5 0 0 0 元,在正常情况下 是不可能的,但如对表存取统计、数据文件存取统计、会话统计等建立在独立于 应用语义上的检测方法不能发现这种异常,对这种异常的检测只能建立在数据库 的应用语义上【1 0 0 _ 1 0 3 1 。 r o b e f ts s i e l l ( c n 【1 嘲提出在入侵检测中使用应用语义的应用入侵检测概念, 并列举了基于应用语义约束和统计的例子。对应用语义,例如医生只能查着他所 治疗病人的病例、医生开出的处方只能是他专业范围内的、某种病人不能吃某种 食品、几章病入的年龄必须小于某岁等,应用语义约束可以构成基于规则的异常 检测系统;对应用语义统计方法,例如病人服某种药的次数和剂量应与其它相同 的处方之间有一定的相似处、病人购药的订单应大多数发生在白天上班时间等, 这些统计可构成基于统计的异常检测系统。数据库中应用语义的独特性和精确性 6 第一章绪论 可以有效提高入侵检测的准确憔和粒剧5 引。 2 2 5 数据库事务级的检测 d b m s 有自己独特的事务处理机制和s q l 查询语言,对用户使用s q l 语句 的模式进行检测是数据瘁入侵检测的一项重要内容【羚霹。指印( 蠡n g 明m 躐s ) 技术 是一种基于s q l 语句的入侵检测方法【。眠1 0 7 1 。指印是从合法事务中的s q l 语句 中推出的币则表达式,它代表用户的正常行为,用户的事务语句如果偏离指印集 则表示可能的异常行为。指印技术特别适用于类似对互联网上的数据库入侵检 测,如s q l 注入( s q l 嫡e c t i ) ,因为在这些应用中往往使用数据库应用来查 询数据库,而这些应用只通过一定接口使用固定的集中查询格式,不允许用户自 定义查询,在这种情况下即使事务较大用户较多误警率也较低。 此外,上述基于数据推理、数据库应用语义以及采用数据挖掘技术的d b m s 入侵检测的实施需要在不同粒度和d b m s 不同层次实施,而事务级入侵检测是 一个d b m s 入侵检测的核心层次。因为d b m s 本身具有复杂的结构:从数据存 储来说,有从数据文件、关系、属性到元组等的不周粒度的存储单位;从数据库 活动来说,有从系统调用层、进程、事务层、会话层到应用层等不同层面的活动 级,丽0 s 和d b m s 级剔的入侵检测无法鉴别已授权的恶意事务,丽往往数据库 的大部分入侵行为以及内部用户的滥用是以恶意事务的形式体现的【5 3 】。 1 3 本文的主要创新点 图内外对数据库的安全问题从访问控制、身份认证、数据推理、语义检验、 数据挖掘、入侵容忍等多种角度进行了研究。例如,在基于应用语义的数据库入 侵检测中,数据库中应用语义的独特性和精确性可以有效提高入侵检测的准确性 和粒度;在数据库事务级的检测中,研究者提出对用户使用s q l 语句的模式进 行检测是数据库入侵检测的一项重要内容,文献 1 0 6 】和文献 1 0 7 中更提出了指 印技术。本文借鉴上述研究的思想和成果,提出了数据库事务可疑度的概念,以 及对其进行量化测定的理论和方法,进而提出数据库累积异常的概念,并对其关 键理论和技术进行了研究。基于现有的数据库安全理论和实践的研究成果,重点 7 北京化下人学媳卜学位论文 研究了基于模糊集理论对数据库事务可疑度进行量化测定的方法,以及基于该方 法进一步对数据库累积异常在集中式和分布式的环境下进行监测。本文的主要创 新点如下: ( 1 ) 提出数据库累积异常概念。针对数据库应用的特点,提出了数据库累 积异常的概念,并对其进行了形式化的系统定义和描述。在数据库累积异常的语 义环境下,定义了数据库事务、数据库事务的模式、数据库事务豹累积量以及数 据库事务的可疑度等概念,基于这些基本概念,对数据库累积异常作出了定义, 从新的视角提出了数据库安全问题领域的新的课题。 ( 2 ) 提出数据库事务可疑度量化测定的可疑度决策模型 ( d 曲i 哟,d e 奴蛹畦塔m o d e l ,d d m ) 。应用统计学方法,结合模糊集理论,针对 数据库累积异常提出d d m 模型。d d m 根据数据库事务的模式以及涉及的具体 数据,通过隶属度函数对数据库事务的可疑度在区闯【o ,l 】内进行量化测定。d d m 定义可疑度为o 表示数据库事务完全可信,可疑度为l 表示数据库事务发生异常, 从而提供识别数据库累积异常的有效方法。 ( 3 ) 提出逻辑树概念,用于条件相异度的测定。基子集合闯褶异度和条件 相异度,提出一种用予数据库事务集聚类分析的蠢一模聚类方法,对数据库事务 进行聚类分析,从而为匹配规则的设定提供重要参考。 ( 4 ) 提出基于探测器( s 龃s o r ) 的分布式数据库累积异常模糊识别模型。 将d d m 与分毋式数据库环境相结合,研究大规模分布式数据库累积异常模糊识 别的协同机制,为基于探测器的大规模分布式数据库累积异常主动模糊识别方法 建模。 1 4 本文的组织结构 本文第一章提出了数据库累积异常的问题。通过回顾计算机安全、数据库安 全等领域现有的技术和方法,以及前人在相关领域取得的研究成果,讨论了研究 新的方法解决数据库累积异常这个新问题的必要性。 第二章介绍了d d m 的理论基础:模糊集理论,包括基本概念、运算性质。 接着,本文在2 2 节起分缨了聚类分析算法的基本知识。 第三章中,在给出数据库累积异常的基础描述后,本文形式化定义了数据库 第一拳缭论 累积异常语义下的概念系统。 在第四章,本文研究了一种后模聚类方法,通过对数据库事务集进行聚类 分析,可以为匹配规则的设定提供重要参考。 本文在第五章提出了可对累积异常进行模糊识别的可疑度决策模型d d m , 并详细论述了给予d d m 的数据库累积异常主动模糊识别方法。 第六章通过实验,对本文提出的基于d d m 的数据库累积异常主动模糊识别 方法进行了可行性、有效性验证,并对其性能进行了评估分析。 在第七章,本文研究了基于d d m 的数据库累积异常模糊识别方法在分布式 数据库环境下的实现策略。在对分布式数据库作以概要介绍之后,本文提出了分 布式数据库累积异常模赣识别的模型。 9 第:章模糊集合理论j 聚类分析算法 第二章模糊集合理论与聚类分析算法 由于在数据库累积异常中,数据库事务是从完全j 下常逐渐过渡变化到发生异 常的,这中间有一个由“j 下常”到“异常”的模糊状态。为了能够对数据库事务 的这种变化状态进行监测,本文基于模糊集理论提出了数据库事务的可疑度的概 念。 为了从用户执行的正常数据库事务中提取出用户的正常行为模式,从而为数 据库累积异常监测规则的建立提供依据,本文基于聚类分析方法对用户模式的提 取进行了研究。 本章对模糊集合理论与聚类分析算法作以简介【1 0 8 3 1 。 2 1 模糊集合理论简介 自从美国的计算机和控制理论的专家l a z a d e h 教授于1 9 6 5 年发表了 f l l z z ys e t s 一文后,模糊数学便作为一门新的数学学科而诞生并迅速发展起来, 现在已经得到了相当广泛的应用【1 1 4 圳刀。z a d e h 利用隶属度来描述差异的中介过 渡,它是用精确的数学语言对模糊性的一种描述。例如,“年轻人 、“中年人 、 “老年人是三个模糊概念,那么一个3 0 岁的人应该属于哪一种呢? z a d e h 提 出使用0 与1 之间的数表示该成员属于某模糊集的程度,比如可以认为3 0 岁的 人属于“年轻人 的程度为o 8 ,属于“中年人 的程度为0 2 ,而属于“老年人” 的程度为0 。 2 1 1 模糊集合的基本概念 经典集合论要求:论域u 中的每个元素“,对于子集么cu 来说,要么“彳, 要么“萑爿,两者必居其一,且仅居其一,决不允许模棱两可。因此,子集彳由 映射 e :u 一 o ,1 )( 2 1 ) 唯一确定,即集合彳可由特征函数 北京化t 人学博i :学位论文 q ( 掰) 2 o掰盛名 ( 2 2 ) 柬刻画。由于这秭函数仅取两个值,所以在表达概念方薅具有其局限性,只能表 达“非此即彼”的现象,而不能表达存在于现实中的“办此办彼”的现象。例如, “年轻”与“年老”之间、“好 与“差之间、“高 与“矮 之间都不存在明 确昀界限,丽是中闻经历一个从量变到质变的连续过渡过程,因此,它们不能用 经典集合论里的仅取0 或1 两个值的特征函数来刻画。为了体现类似问题中的这 种连续过渡过程的共性,l a z a d c h 于1 9 6 5 年提出用隶属度函数表示模糊集合, 郄把特征函数的值域由p ,l 扩大到【0 ,l 】。定义如下: 定义2 1 设在论域上给定一个映射 彳:u 专【o ,l 】 封a 么掰) 则称彳为u 上的模糊集,彳( “) 称为4 的隶属度函数,或称为“对彳的隶属度。 可觅,对于某模糊集蠢,如果么嵇) 仪取o 和l 两个数值,名就蜕化为经典 集合。可以说,经典集合是模糊集合的特殊形态,模糊集合是经典集合的扩展。 若彳( “) 兰o ,则彳= 彩,若4 ( 甜) 毒l ,则爿= u 。 在给定的论域u 上可以有多个模糊集,记u 上的所有模糊集的集合为 尹( u ) ,帮 ,( u ) = 彳l4 :u 【o ,l 】( 2 3 ) 称f ( u ) 为u 上的模糊幂集。 模糊集合么有多种不丽的表示方法: ( 1 ) 扎德表示法,即 肚掣+ 掣掣 仁4 , 掰豁, 互j f 一 英中右端并非分式求和,只是一令记号。掣表示论域u 中的元素憋与其隶属 度么( 壤) 之间的对应关系。此外,隶属度为o 的项可以省略不写。 ( 2 ) 序偶表示法,即 彳= ( 辑,彳( m ) ) ,( 毪,f 坞) ) ,k ,( ,么( ) ) ( 2 。5 ) 与扎德表示法一样,隶属发为0 的项可以省略。 1 2 第一:章模糊集合理论0 聚类分析算法 ( 3 ) 向量表示法,即 彳= 彳( 甜i ) ,么( “2 ) ,彳( 甜。) ) 此时的隶属度为0 的项不能省略。 2 1 2 模糊集合的运算 ( 2 6 ) 两个模糊子集间的运算,实际上就是逐点对隶属度函数做相应运算。 定义2 2 设彳,曰f ( u ) ,若v “u ,b ) 么( “) ,则称彳包含曰,记为b 彳。 若彳召且bg 么,则称么与艿相等,记为彳= 口。 根据定义可知,模糊幂集f ( u ) 上的包含关系具有如下性质: ( 1 ) 自反性:w f ( u ) ,彳么; ( 2 ) 反对称性:若彳曰,b 彳,则么= b ; ( 3 ) 传递性:若彳b ,b c ,则彳c 。 满足上述三条性质的这种包含关系是一种偏序关系,( f 缈) ,g ) 是偏序集,最大 元为u ,最小元为囝。 定义2 3 设彳,b f ( u ) ,分别称运算彳u b 、彳n 召为彳与曰的并集、交集, 称为彳的补集,也称为余集。符号 、v 分别表示下确界、上确界,则它们的 隶属度函数分别为: _ x 力三篓熬 仁7 , = m a x l 月i “ ,拶i “” _ 仙田三篙篇, 亿8 , = m l n l 月i 甜1 i “” 彳( “) = l 一么( “)( 2 9 ) 任给口,6 o ,1 ,由于0 口v 6 1 , os 口 6 l ,o l 一口1 ,所以对 w ,b ,( u ) ,有彳u b ,么n b ,彳。,( u ) 。 定理2 1 设彳,b ,c f ( c 厂) ,则有 ( 1 ) 幂等律:彳u 彳= 彳,彳n 彳= 彳; ( 2 ) 交换律:彳u b = b u 彳,彳n b = 曰n 彳; ( 3 ) 结合律:( 彳u 召) u c = 彳u ( b u c ) ,( 爿n b ) n c = 彳n ( b n c ) ; ( 4 ) 分配律:( 彳u 曰) n c = ( 彳n c ) u ( b n c ) , 北京化t 人学博 :学位论文 ( 彳n b ) u c = ( 彳u c ) n ( b u c ) ; ( 5 ) 同一律:爿u a 端彳,爿n o = 囝,爿u u = u ,彳n u = 彳: ( 6 ) 吸收律:( 么0 君) n 么= 么,( 么n 艿) 0 么= 名; ( 7 ) 对偶律:( 么u8 ) 。= 么。n 艿,( 爿n 召) 。= 么。u 艿。; ( 8 ) 复原律:( ) 。= 4 。 这些性质的证明与经典集合的相似性质的证明雷同,下面仅以( 8 ) 复原律 为铡加以证明。 证明:( 8 ) 任取“u ,则根据定义2 3 有 ( 彳。) 。( “) = l 一么。( “) = l 一l 一么( 掰 = 彳似) 即 ( ) 。= 么 需要说明的是,经典集合满足互补俸,恧模糊集合不再满足互李 、律,因为模 糊集合没有明确的边界。a n 不恒为彩,说明爿和交迭,但蝴f ( c ,) 满足: 彳 ) 爿。 ) 丢 ( v ”u )( 2 1 0 ) 同样,彳u 不恒为u ,说明么u 不定完全覆盖u ,但蝴f ( u ) 满足: 爿( 材) v a 。( “) 吾( v ” ( 2 1 1 ) 由于模糊集合的运算不满足互补律,所以它比经典集合更能客观地反映实际 中大量存在着的模棱两可的现象。 2 2 聚类分析算法简介 聚类( c l u s t e r i n g ) 就是按照某个特定标准( 一般为距离准则) 把一个数据 集分割成不同的类或簇( c l u s t e r ) ,使得在同一个簇内的数据对象的相似性尽可 能地大,同时不在同个簇中的数据对象的差异性也尽可麓地大。也就是说,聚 类后同一类别的数据尽可能地聚集在一起,而不同的数据尽量分离【1 1 7 ,8 1 。 聚类分析是进行数据分析的个基本方法,在许多领域都得到了广泛的研究 和应用,如市场或客户分割、模式识剐、生物学研究、空闻数据分析、鬻e b 文档 1 4 第:章模糊瓷会理论,j 聚类分掺冀法 分类等等。数据分析可以作为一个独立的数据挖掘工具,用来了解数据分布的情 况,也可以作为其它数据挖掘算法的预处理步骤。 现有的聚类算法大致可分为:划分聚类算法、层次聚类算法、密度聚类算法、 网格聚类算法以及模型聚类算法【1 0 9 - 1 粥。 2 2 聚类的定义 聚类可定义如下:在数据空间彳中,数据集x
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东消防安全知识手册
- 2025《鸿门宴》人物关系课件
- 急慢性胃炎试题及答案
- 消防二级考试口诀及答案
- 浙江省舟山市普陀区2026年中考二模英语试题附答案
- 2025年临床执业医师《临床医学》练习
- 药物过敏知识试题及答案
- 医疗机构感染防控常态化专项工作制度
- 内科中级考试题库及答案
- 医疗器械使用安全培训试题及答案
- 2025年消防党组织谈心谈话记录范文
- 基于PLC的立体仓库堆垛机智能控制系统设计
- 暗访人员管理办法
- 模具维护保养管理办法
- 水利项目审批管理办法
- 超声刀的使用与维护指南
- 三基培训 课件
- 三种方法评标计算(自带公式)
- 电气控制与PLC应用技术-西门子S7-200 SMART PLC第三版黄永红习题答案
- 第四章 物质的特性 单元测试-七年级科学上册同步备课系列(浙教版)
- JG/T 118-2018建筑隔震橡胶支座
评论
0/150
提交评论