(计算机科学与技术专业论文)自治数据库系统的理论与方法研究.pdf_第1页
(计算机科学与技术专业论文)自治数据库系统的理论与方法研究.pdf_第2页
(计算机科学与技术专业论文)自治数据库系统的理论与方法研究.pdf_第3页
(计算机科学与技术专业论文)自治数据库系统的理论与方法研究.pdf_第4页
(计算机科学与技术专业论文)自治数据库系统的理论与方法研究.pdf_第5页
已阅读5页,还剩142页未读 继续免费阅读

(计算机科学与技术专业论文)自治数据库系统的理论与方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘鞭 摘要 随着互联网和信息技术的发展,数据库系统变得越来越复杂,其数据存储规模越 来越纛大,管理数据臻系统毽交褥越寒越昂炎秘繁琰。囊治数据痒系统能够自动、圭 动地对自身进行管理,降低了人为数据库管理的复杂度,从而降低人力成本和系统故 障对带来静籁耱成本。西藏,数据瘁自治技零对于鬟嵩数箍痒系统程关键敷瑶中静瘫 用能力,降低数据库系统的总体拥有成本,减少硬件、软件的投资浪费等都县有非常 重要的意义。本文主簧研究自治数据瘁系统附各种理论、技术及其实现。 本文首先金嚣奔缨了自淤计算弱自治数撅摩领域的一系捌相关技术,势分板了送 些领域主要的研究内梅、研究方法和部分商厢系统的发展现状,同时指出了已有技术 懿疑蠡窝不是,获孬孳| 出了零文懿碜 巍。 邋过对数据库的“人为”管理行为的分析朔模式提取,本文给出了数据库管理的相 关概念,并掇出了一个用子解决数据痒自治问题的通用元结构一可篱理自瀚数据库元 素( 醚耩i l a g e a b l ea u t o n o m i cd 戚a b a s e 戴l e m e n t ,m a d e ) ,该元素分为六个组彳牛积一个是 治知识库,可以用来描述任何数据库自治功能。本文应用m a d e 重点研究了物理数据 痒鑫劝设诗,交透斑数据痒安全营毽,戳及爨适应势行数摄瘴受载魏燕等三类数搭痒 自治功能。 本文研究了集成赫+ 瓣索写| 、垂藏分区和属性鹾缩等三类物理数据痒特征韵自动 设计技术。焱对该问题进行形式化寇义的基础上,提出了用于解决该问题的可管理 自治数据库元索p d + m a d e 。着重研究了该框架中,基于“类似”s q l 语句分类和霉廷 l 妒事务聚类瓣工终受滚分辑技术、基于援剐的物理特征生成技术、酝嚣占髑空间秘工 作负载代价估计技术以及基于贪婪算法和群进化算法的最优配置搜索技术等四类关键 技术。 针对自适应数据库安全管理,本文定义了动态、静态安金威胁以及安全策略等概 念,并认为任何安全筑略都舆有两磷性,在解决部分安全藏胁的同时,将增加其他某 些安众威胁发生的可携性和严重性。摄此,定义了囊适应数据库安众管理闷题,势应 用可管理自治数据库元素s 陋m a d e 米解决此问题。研究了s m m a d e 中的入侵检测、 安全繁路选撵窝安全繁略等嗣惩,势曩煮磅突了基予事务孪睾蔹接取葶羹事务淘量分类戆 摘要 数据库入侵检测技术。 本文提出了一个自治并行数据库的体系结构,基于该体系结构研究了并行数据库 的两类自适应负载均衡问题,包括数据迁移问题和并行连接问题。给出了可管理自治 数据库元素l b m a d e 以解决以上两类问题,并研究了数据迁移和并行连接中的节点选 择和执行技术。 在以上研究的基础上,本文研究并实现了包括o s c a r 物理设计推荐器、o s c a r 数 据库入侵检测原型系统以及基于m y s q l 的自治并行数据库中间件原型系统等三套系 统,并在这些系统的基础上进行了实验。实验结果验证了本文研究的自治数据库框 架、可管理自治数据库元素以及三类特定数据库自治功能的有效性。 关键词:自治数据库系统自治计算自动物理数据库设计数据库入侵检测自适应负载 均衡 a b s t r a c t 英文摘要 a si n t e r n e ta n di n f o m a t i o nt e c l l n 0 1 0 9 yd e v e l o p s ,d a t 百b a s e8 y s t e m sa r eg e t t i n gm o r e a n dm o r ec o m p l i c a t e d ,a n dd a t as c 村ei nt h ed a t a b a s es ”t e mi sg e t t i n g1 a r g e ra n dl 盯g e r i tr e 8 u l t 8i ni n c r e a 8 i n gc o s ta i l dc o m p l 喇t yt om a n a g ead a t a b a s e8 y 8 t e m a u t o n o m i c d a t a b a s es y s t e m sc a j la u t o m a t i c 8 l l ya i l da c t i v e l ym a n a g et h e m s e l v e st or e d u c et h ec o m - p l 喇t yo fd a t a b a s em a n a g e m e n t t h e 锄p l q 巾1 e n to fa m t o n o m i cd 砒a b 8 s e 科s t e m sc a n a 1 8 0d e c r e a s et h em a n p o w e rc o s ta n de x t r ac o s tb r o u g h tb ys y s t e mf 越1 u r e t h e r e f o r a u t o n o m i cd a t a b a s et e d l n i q u e sa r e 、,i t a lf o rd a t a b a s es y s t e r 璐i nc r i t i c a la p p l i c a t i o n s a n dt h e s et e c h n i q u e sc a nv a s t l yr e d u c et h et o t 以c o s to fo w n e r 8 l l i p ( t c o ) a n dl e s s e nt h e w a s t eo fh a r d w a 托a n d8 0 f t w 跚ei l w e s t m e n t t l l i 8t h e s i sm a i l l l yf o c u s e so nt h et h e o r i e s , t e c h i l i q u e sa n di m p l e i n e n t a t i o i l so fa u t o n o i i l i cd a t a b a s es y s t e m f i r s t ,r e l a t e d 舢e 嬲o fa u t o n o i i l i cc o m p u t i n ga n da u t o n o m i cd a t a b a s es y s t e m sa r e t h o r o u g h l yi n v e s t i g a t e d c u r r e n tr e s e 疵hi s s u e s ,r n e t h o d o l o g i 船甜l dc o m m e r c 瑚印p l i c a _ t i o n si nt h e s e 壮e a sa r ea n 出y z e d m a j o rp r o b 】e m so fc u h e n tt e c h n i q u e s 盯ei d e n t i f i e d w h i c ha r o u s ef 0 u o w i n gr e s e 盯c 1 1i nt h i st h e s i s b a s e do na n a l y s i sa n dp a t t e r ne 斌r a c t i o no ft h ea r t i 矗c i 出d a t a b a s em a n a g e m e n tp r 0 - c e s sb yd b a s ,c o n c e p t sr e l a t e dw i t hd a t a b a s em a n a g e m e n t 盯ed e 6 n e d t h em a n a g e a b l e a u t o n o m i cd a t a b a s ee l e l e n t ( m a d e ) ,a nu n i v e r s a lm e t a 广s t r u c t u r ew i t hs i ) 【c o m p o n e n t s a n dak n o w l e d g eb a s e ,i si n t r o d u c e dt o8 u p p o r ts o l v i n gd a t a b a s es e l f - m a n a g i n gp r o b l e i l l s i nt h i st h e s i s ,m a d ei su s e dt os t u d yt h r e ek i n d so fa u t o n o m i cf b a t u r e si nd a t a b a s es y s - t e m :a 尬t o m a t i cp h y s i c 出d a ta _ b a s ed e s i g n ,a d a p t i v ed a t a b a s es e c u r i t ym a n a g 咖e n t ,a n d a d a p t i 、帕l o a db 越a n d n gi np a r 乱l e ld a t a b a s es y s t e m a u t o m a t i cp h y s i c a ld a t a b a s ed e s i g nt e c h i l i q u e 8f o ri n t e g r a t i 、r e l yd e s i 鲷j n gb + t r e e s v e r t i c mp a r t i t i o n s 粕da t t r i b u t ec o m p r e s s i o n 盯es t u d i e d b a s e do nt h ef o r m a l i z a t i o no f t h ea u t o m a t i cp h y s i c a ld a t a b a s ed e s i g np r o b l e 玎l ,t h ep d m a d e ,o n ek i n do fm a d e ,i s p m p o s e dt os o l v et h ep r o b l e m f o u rk e yt e c l l n i q u e si np n m a d e 盯em a i n l yi i e s t i g a t e d 1 n 一 英文摘要 w o r k l o a da n 甜y s i sb a s e do ns q lc l a s s m c a t i o n 舭l dt r a n s a c t i o nc 1 1 1 s t e r i n g ,r u l e - b a s e dp h y 8 _ i c a lf e a t u r eg e n e r a t i o n ,0 0 s te s t i m a t i o nf o rd a t av d u m ea n dw o r l d o a dp r o c e s s i n g ,a n d 咿 t i m a lc o n 丘g u r a t i o ns e a r c hb a s e do ng r e e d y 出g o r i t h m sa n ds w 盯me v o l u t i o n 出g o r i t h m s f b ra d a p t i v ed a t d b a s es e c u r i t ym a n a g e m 曲t ,c o n c e p t so fd y n 龇i l i ct h r e a t s ,s t a t i c t h r e a t sa n ds e c u r i 七yp o l i c 主e s 缸ed 出e d i t i sd e e m e dt h a t8 e c u r i t yp o l i c i e s 盯et w o _ f a c e d ,i e e a c hs e c l l r i 够p o u c yw i us e t t l es o n l et h r e a t s ,b u t8 i m l t a n e o u s l yi n c r e 8 8 et h e p r o b a b i l i t y8 i l ds e 、,e r i t yo fs o i n eo t h e rt h r e a t s b a 8 e do nt h e 8 ec o n c e p t s ,t h ea d 印t i v e s e c u r i t ym a n a g e m e n tp r o b l e mi 8d e f i n e d ,a n ds m m a d e ,a n o t h e rm a d e ,i sp r o p o s e dt o s 0 1 v et h ep r o b k m i n t r u s i o nd e t e c t i o n ,8 e c u r i t yp o l i c ys e l e c t i o na n ds e c u r i t yp o u c i e sa r e c o v e r e d ,a n dd a t a b a s ei n t r u s i o nd e t e c t i o nt e c l l n i q u e sb 8 s e do ne x t r a c t i o no ft r a n s a c t i o n f e a t u r e sa n dc a t e g o r i z a t i o no ft r a n s a c t i o nv e c t o r si ss t u d i e di nd e t a 丑 a na 脏t o n o m i cp a r a u e ld t a b a s ea r 曲i t e c t u r ei sp r o p 0 8 e d ,a n dt w ol 【i n d so fl o a db d l _ a n c i n gp r o b l e m s ,t h ed a t ai n j 擎a t i o np r o b l 眦a n dt h ep a r a l l e lj o i np r o b l 帆,缸ei n t r o - d u c e d t h el b m a d e ,am a d ef o rs o l v i n gt h el o a db 甜a n c i n gp r o b l e m s ,i ss t u d i e d ,a n d m a i n l yc o n c e n t r a t e so nt h en o d e 舳1 e c t i o na n de x e c u t i o nt 幽i q u e so fd a t ai i l i g r a t i o na n d p a r a l l e lj o i np r o c e s s b 8 s e do na b o v es t u d i e si nt h i st h e s i s ,w ei m p l e m e n tt h r e ek i n d so fe x p e r i m e n t8 y s t e m s :t h eo s c a rp h y s i c a ld a t a b a s ea d v i s o r ,a no s c a rd a t a b a s ei n t r u s i o nd e t e c t i o n p r o t o t y p e ,a n dap r o t o t y p eo fa u t o n o m i cp a r a l l e ld a t a b a s em i d d l e w a r e e x p e r i m e n t s r e s u l t 8o nt h e s es y s t e i i l sv a l i d a t et h ea u t o n o m i cd a t a b a s e 盯c m t e c t u r e ,t h em a n 罐两b l e a u t o n o m i cd a t a b a s ee l e m e n t ,a dt h r e ek i n d so fs p e c i f i e da u t o n o m i ct e c h n i q u e sp r o p o s e d j nt b j st h e s j s k e y w d r d s :a u t o n o i n i cd a t d b a s es y s t e m ,a u t o n o m i cc o m p u t i n a u t o m a t i cp h y s i c a l d a t a b a s ed e s i g n ,d a t a b a s ei n t r u s i o nd e t e c t i o n ,a d a p t i v el o a d _ b a l a 以c i n g l v 稀图目潦 1 1 论文组织结构 孓l 3 2 3 - 3 3 4 3 _ 5 3 6 插图目录 鼗据瘁牲鹱诞饶流翟辫 数据滕安全维护流程闺 数据蓐管理缀护的一般性模式 自治数据库元素( a d e ) 的体系结构 可管理的自治数据库惩索( m a d e ) 的体系结构 舀治数话瘁系统俸系结构 4 _ lp d m a d e 体系结构。 垂2 进纯算法中豹藿组和进化过稷 垂3o s c a r 物理数据库推荐器体系结构 甜o p 戳各个实验静瓠纷结票铘醚c 氆粒线。 数据艨安全管理可管理自治数据库元索体系结构 数据库入侵稔灞流程灏 数据库入侵检测原型系统实现框架 三秘攀务努类葵法静豢准率、套全率秘f 篷魄较。 三类并行数据库体系结构 蠢渗势行数撂痒律系绦梅 并行数据库负载均衡可管理自治数据库元素体系结构 势牙连接执簿的铡子 并行数据库中问件原擞的体系结构 l b m a d e 数搬迁移实验结果:平均响应时间殷迁移数囊 l b m a d e 数掇迁移实验结采:晌瘟辩闯变化鞠线 0 髓勰黯般锯 娩诒1 2 铃 盯鹅冁好 潞糟心”玎 叭碱黜雕 叭戳“酗“w 表格目录 表格目录 示范工作负载信息 b + 树索引特征生成规则表 三类物理特征比较 各最优配置搜索算法计算复杂性对比 用于物理数据库推荐的系统函数 p d m a d e 实验所用机器配置 o p d a 各个实验的执行时问和推荐结果表 o p d a 各个实验的执行结果一数据体积、事务数量、t p m c 值 o p d a 各个实验的执行结果一事务响应时间( 单位:秒) 5 1 入侵检测中的s q l 模式提取规则 5 2 用于入侵检测控制的系统函数 5 3s m m a d e 实验所用机器配置 6 _ 1l b m a d e 实验所用机器配置 6 2l b m a d e 数据迁移实验结果总结 6 - 3l b m a d e 并行连接实验结果总结 弱钍2伯竹鸺他 5 ; m m 坞 “纰“蛐蛳蟠 算法目录 算法目录 s q l 语句字符串匹配归类分析算法 类似事务聚类分析算法 有效物理特征生成算法 有效垂直分区特征合并算法 最优物理配置搜索的群进化算法 入侵检测中的基于简单事务向量距离的事务辨别算法 入侵检测中的基于简单贝叶斯分类的事务辨别算法 最优策略搜索贪婪算法 数据迁移选择的贪婪算法 数据迁移算法, 弱蠹;缸鼬张sj s j g n 挖 1 2 3 4 5 1 2 3 1 2 4 4 4 4 4 5 5 5 6 6 第一章绪论 1 1引言 第一章绪论+ “夫兵形象永,水2 形避高丽趋t ,兵之形避实而击虚: 水因地丽制流兵应敌而制胜, 故兵无常势水无常形能因敢变化丽取胜者谓之神。” 一孙武孙子兵法墟实第六 正如中国古代著名的军事思想家孙武所言,行军打仗贵在“因地制宜、应敌制 胜”,即随着外围环境的变化,不断地调燕己方的应对策略,从而使得己方立于不败之 地。经历人类历史长河的检验,该段话不单对于军事和战争史有着非常深远的影响, 同时也成为了可应用于各个领域的一段放之四海皆准的至理名言。 在当今科学技术飞速发展的时代,信息技术已经成为了生产力的代名词,而与其 他领域相同,信息技术也需要“因地制宜、应敌制胜”,使得应用各种信息技术的信息 系统可以适应于各种应用环境,应对各种不同事件,保持其自身的性能、稳定性和安 全性,我们称信息系统的这种能力为“可适应性”( a d 印t a b i l i t y ) 。 在以往信息系统和信息技术的研究中,很多研究成果将“可适应性”理解和实现为 系列可调整的系统参数、系统配置和部署方法:信息系统的管理员和使用者可以根 据外在环境不同,通过对系统参数的设置和配置、部署方法的应用来完成系统调节, 使得系统具有“可适应性”。这样的“可适应性”主要有两类缺点:其一,完全依赖于调 整参数和使用方法的“人”的能力。一个缺乏系统相关知识和管理经验的管理员,将使 得他所管理的系统的呵适应性”极差,甚至经调整的系统还不如直接按默认参数进行 部署的系统。其二,“人”的反应速度较慢且无法预测问题的发生。由于管理员只能通 过一些系统的外在表象来判断系统中可能存在的问题,且需要一定的时间对问题进行 分析和研究,无法在问题发生的初始阶段将问题解决,从而使得问题造成的损失急剧 扩大。 近年来,信息系统的规模和复杂度以几何级数的方式增长,而其应对环境变化进 行调整的实时性要求也逐渐提高,这使得以上面所描述的方式获得的、t ? 人工”的“可适 本研究得到国家高技术研究发展计划( 8 6 3 计划) 资助( 合同编号:2 0 0 4 a a 4 2 3 0 1 0 ) 。 1 2 研究的思路 应性”的缺点越来越显著。硬件和软件本身价格快速下降,服务和人力价格快速增长; 系统越来越庞大,可调整参数和配置方法越来越多,且它们的内在联系十分复杂;这 使得雇佣一个具有丰富知识和管理经验的管理员的成本快速增长,进而使得拥有一个 信息系统的总体成本中,人力成本逐渐提高,并已经成为占比例最高的因素,且该比 例仍然会不断地提高。另外,大型商业应用中的信息系统,同时需要为成千上万的用 户进行服务,一旦系统出现性能问题甚至发生故障停机,哪怕是仅出现几分钟的问 题,造成的经济损失和名誉损失都是非常巨大而不可接受的,管理员管理的延迟性在 此类应用中的缺点显得尤为突出。 以上分析说明,以往的信息系统“可适应性”方式已经不符合目前实际应用的需 求。我们需要“自治”的信息系统,使得信息系统自己对自身进行“可适应性管理,而 不需要管理员的参与和干预。数据库系统作为信息系统的核心资源,其性能、稳定性 和安全性对于整个信息系统非常关键;而目前,大部分商用数据库的配置参数,管理 功能都非常复杂,且关键应用中对数据库维护和调优的实时性也非常敏感。所以,数 据库系统同样需要自行进行“可适应性”管理,即我们需要“自治”的数据库系统。 目前,已有大量地对数据库系统各种自治功能的研究,包括:各类数据库物理设 计推荐技术,自主性能调优技术,自我问题诊断技术,自动统计信息技术,并行数据 库热负载均衡技术等各个方面;但对自治数据库体系结构,通用自治数据库技术,自 主安全管理,自治数据库理论等诸多方面还少有涉及,且没有将分散的“点”研究通过 各种“线”和“面”上的研究进行综合,整个针对自治数据库的研究尚未形成体系。 在国家8 6 3 高技术研究发展计划的资助下,我们的研究目标是:建立自治数据库研 究的理论和体系,研究通用的数据库自治方法和体系结构,并将其应用于几种具体的 自治数据库技术研究中;同时,在前期研究的0 s c a r 大型通用关系数据库管理系统和 开源的m y s q l 数据库管理系统的基础上实现部分数据库自治技术,并在实际应用中验 证整个研究的有效性和正确性。 1 2 研究的思路 本文将按以下思路进行自治数据库系统的研究。 数据库管理基本概念。 自治数据库总体架构。 一2 一 第一章绪论 各种数据库自治功能。 自治数据库系统实现。 首先,我们将分析几个“人为”数据库管理的场景,根据这些场景提取数据库管理 的一些共有模式和特征,其中主要包括被管理的对象和管理的行为。我们将这些概念 进行形式化定义和模式抽取,从而得到一个一般的数据库系统管理的定义。该定义无 论对于管理员的人为管理或是数据库的自治管理都是一致且有效的。 其次,我们基于以上对数据库管理的认识,分析自治数据库系统应当具有的功 能,并将一个自治数据库系统认为是一个由多层、多个拥有原子性自治功能的自治数 据库元素组成的系统。我们将研究自治数据库元素的通用结构,并在此基础上研究由 多个自治数据库元素组成的层次化的自治数据库系统体系结构。 接着,本文将在以上对自治数据库的体系结构和通用技术研究的基础上,研究三 类特殊的数据库自治元素,对应物理数据库自动设计,自适应数据库安全管理,以及 自适应并行数据库负载均衡等三类数据库自治功能。对于每类功能,我们都将给出各 自问题的形式化定义,并根据自治数据库元素中定义的各个阶段,研究每类自治功能 的需求和相关技术。通过此三类特殊的数据库自治元素的研究,完成对通用数据库自 治元素架构的有效性和正确性验证。 最后,我们将在前期研究的o s c a r 大型通用关系数据库管理系统和开源 的m y s q l 数据库管理系统的基础上实现本文研究的部分数据库自治功能,通过实 践验证以上技术的可行性。 1 3 研究的内容 本文首先在调研大量关于自治计算系统、自治数据库技术等国内外相关研究工作 的基础上,研究并定义自治数据库系统概念和体系结构。在分析数据库管理的对象、 管理行为和数据库管理的概念和并给出相关定义的基础上,研究自治数据库系统的定 义和功能。提出自治数据库系统体系结构之前,首先给出拥有原子性自治数据库管理 功能的自治数据库元素和可管理自治数据库元素的概念;并在此基础上,研究由这些 基本元素构成的、层次化的、“分形”的自治数据库系统体系结构。 在该体系结构的基础上,分析物理数据库自动设计问题、自适应数据库安全管理 问题和自适应并行数据库负载均衡问题等三类数据库自治功能。对于每类特定的自治 3 1 4 论文组织 功能,研究内容都按以下思路进行组织: 首先,给出该技术需要解决的问题的大致背景; 接着,在对部分相关概念进行定义的基础上,形式化定义各个自治功能需要解 决的问题: 然后,提出基于可管理自治数据库元素架构的技术框架,分析该自治元素中的 相关特征和关键问题; 最后,研究技术框架中的各类关键问题的解决技术,并提出相关算法。 特别地,针对物理数据自动设计功能:我们定义基于一系列负载和约束条件的 物理数据库自动设计问题( p h y s i c md a t 曲a s ea u t o m a t i cd e s i g np r o b l e m ,p d a d p ) 。给 出自动物理数据库设计框架p n m a d e ,并采用多种方法研究该框架中:工作负载分 析、物理特征生成、配置代价估计以及最优配置搜索等四类关键问题。针对数据库自 适应安全管理功能:我们定义安全威胁和安全策略两个关键概念,并在此基础上给 出数据库自适应安全管理问题( d a t a b a s ea d 印t i v es e c u r i t ym a n a g e m e n tp r o b l e m ) 的定 义。提出自适应数据库安全管理框架,并研究其中数据库入侵检测、最优策略搜索以 及安全策略等三个问题。针对并行数据库的自适应负载均衡功能:我们研究并行数据 库的几类架构,并给出一个自治并行数据库的体系结构,同时,在其基础上,形式化 定义基于节点负载、数据分置和迁移、并行查询处理等概念的并行数据库负载均衡问 题( p a r d k id a t a b a s el o a db a l a 肛d n gp r o b l e m ,p d l b p ) 。给出自适应并行数据库负载 均衡框架l b m a d e ,并研究该框架中的数据迁移的选择和执行以及并行连接的选择和 执行等两类问题。 最后,我们在0 s c a r 大型通用关系数据库系统和m y s q l 数据库管理系统上实现并 验证以上研究的技术。 1 4 论文组织 本文分为七章,图1 1 给出了论文的组织结构,其中: 第一章是绪论,简要描述了研究的背景和目的、本文研究的思路和内容以及本文 的组织结构。 第二章对相关研究进行了综述。首先分析了为什么需要自治数据库;然后介绍了 自治计算和自治系统研究的发展脉络和各种自治计算、自治系统技术;接着介绍了自 一4 一 第一章绪论 l l第一章绪论 ! 一 l第二章相关研究综述 图1 1 论文组织结构 治计算技术在数据库系统方面的应用,包括数据库自主管理技术的发展,物理数据库 设计技术,并行数据库管理技术,数据库安全管理技术,其他自治数据库功能,以及 主流商业数据库中的自主管理功能;最后还分析了这些研究的缺点和不足。 第三章研究自治数据库的概念和体系结构。重点讨论数据库管理的概念,并通过 分析和抽取人为管理模式,给出自治数据库元素的概念和结构。在自治数据库元素的 基础上,我们提出了自治数据库系统的总体架构。 第四章研究物理数据库自动设计技术。在给出物理数据库设计问题的形式化定义 和自动物理数据库设计框架的基础上,研究了框架中的四个关键问题:工作负载分 析、物理特征生成、配置代价估计和最优配置搜索,给出了这些问题的解决技术和算 法。我们应用以上技术为o s c a r 数据库管理系统实现了一个物理数据库推荐器,并基 于该推荐器进行了一系列实验,文中给出了部分实验结果。 第五章研究数据库自适应安全管理技术。在给出数据库自适应安全管理问题定义 和自适应数据库安全管理框架的基础上,研究了框架中的入侵检测、最优策略搜索和 一5 一 1 4 论文组织 安全策略等问题;其中特别关注于对数据库入侵检测技术的研究。我们通过s q l 语句的 聚类分析,抽取事务特征,将入侵检测技术与文本分类技术对应起来,并应用文本分 类的各种技术来解决入侵检测问题。在o s c a 蹦致据库管理系统的基础上,我们实现了 一个数据库入侵检测的原型系统,文中介绍了该原型系统的体系结构和在其上进行的 部分实验的实验结果。 第六章研究并行数据库自适应负载均衡技术。在给出我们研究的自治并行数据库 体系结构的基础上,给出了自适应负载均衡的相关问题定义并提出了自适应并行数据 库负载均衡框架,同时研究了自适应的数据迁移和执行、自适应的并行查询执行等几 类关键技术。我们利用开源的m y s q l 数据库管理系统,开发了一个并行数据库查询中 间件,并进行了一系列关于数据迁移和并行查询的实验,文中给出了体系结构和实验 结果。 第七章对研究进行总结和展望。总结了本文的工作和创新点,指出了未来需要进 一步进行的工作。 6 第二章相关研究综述 2 1引言 第二章相关研究综述 本章回顾了在自治计算系统特别是自治数据库系统领域的相关研究成果。 首先,我们分析了为什么传统数据库系统不能满足当前的信息系统需求,然后分 别从自治计算系统和自治数据库系统两个层面介绍了与本文相关的一些研究工作。 第一层面,即自治计算系统层面上,我们回顾了早期自治计算和自治系统相关概 念和技术的发展历程:并介绍了提出自治计算及相关概念和建立其体系结构的一系列 重要研究成果;最后分析了自治计算提出以来在此领域发展的一系列方法、技术、体 系结构和原型系统;以上三点构成了我们对自治计算系统层面研究脉络的把握。 另一层面,即自治数据库系统层面上,首先介绍了数据库自主管理,自治调优相 关研究的发展过程;并重点面向自动物理数据库设计、自适应数据库安全管理以及自 适应并行数据库负载均衡等三个自治数据库研究的分支方向,介绍了各种相关技术和 原型系统:同时,我们还简要介绍了其他不隶属于以上三个方向的自治数据库技术, 以及三大商业数据库系统中,自治计算技术的发展和应用现状。 最后,我们对现有研究的问题和不足进行了分析,并对本章进行了总结。 2 2 为什么需要自治的数据库系统? 自c o d d 提出关系模型【c o d 7 0 以来,关系数据库系统逐渐成为整个信息系统的核 心,同时也出现了以o r a c l e 【o r a l 、m i c r o s o f ts q ls e r v e r m i c c 、i b md b 2 i b m c 】等为代 表的一系列成熟的、工业标准的商业数据库系统。由于,信息技术和信息系统的逐渐 成熟和规模化,出现了一大批基于关系数据库系统的i t 应用,其功能和规模随着信息 技术的发展而快速地演变和发展。与此同时,这些i t 应用对数据库系统的数据规模、 功能、性能、稳定性、可靠性以及安全性等提出了更高的要求。各个数据库厂商根据 这些需求,不断地改进产品、增加功能、提高性能、增强安全性等;同时,考虑到各 种不同应用的不同需求,每个数据库产品都有几十甚至上百个可配置参数,且数据库 一7 一 2 3 自治计算和自治系统的研究 中的各类对象也有一系列的存储参数、处理参数可供选择。 过于复杂的系统功能,过于繁多的配置参数,过于庞大的数据规模,使得数据 库系统的管理工作变得日益繁琐和困难f b m c l 9 4 ,w h m z 9 4 ,c w 0 0 1 。同时,拥有足 够知识和经验的数据库管理员( d a t a b a s ea d i i l i n i s t r a t o r s ,d b a s ) 变得越来越稀少, 且雇佣他们所花费的人力价格越来越昂贵 l o m 9 9 ,c h a 9 9 。调查表明 c d l 0 4 b 一个数 据库系统的总体拥有成本( t o t a lc o s to fo w n e r s l l i p ,t c 0 ) 中,人力成本占绝对支配地 位一t c o 中8 1 都来自人力成本。 更为严峻的是,目前大多数数据库管理员都或多或少地缺乏数据库管理知识和经 验,致使数据库无法发挥其最大功能和性能,从而导致硬件、软件投资的大量浪费。 同时,人为的数据库管理,需要一定的滞后时间用于对数据库系统进行系统地观察、 分析和执行管理操作;对于实时应用和对长时间持续稳定的数据库服务要求较高的关 键应用,这一段滞后将导致数据库系统在该段时间内的性能、稳定性和安全性急剧下 降,从而造成严重损失。 为了解决这些问题,从9 0 年代初开始,工业界和学术界的工程师和研究人员 们提出了一系列使得数据库自行管理的需求、体系结构、技术和解决方案f b c l 9 3 , b m c l 9 4 ,b b c + 9 8 ,l o m 9 9 ,c h a 9 9 ,c w o o ,w m h z 0 2 ,b e n 0 3 1 。数据库自治管理,即使 得数据库在没有人为干预的情况下,快速、自动且正确地完成对自身的各类管理工 作,包括安装部署、性能调优、备份复制和安全管理等等。 2 3 自治计算和自治系统的研究 本节重点介绍自治系统和自治计算的概念和相关研究工作。 2 3 1 早期的自主系统管理和调优的研究 早在二十多年前,人们就开始意识到软件系统过于复杂,需要用专家系统来辅助 系统调优【h w 8 5 ,d o m 8 9 】。接着,出现了一系列基于案例推理【j 0 s 8 9 ,j o s 9 2 】和基于神经 网络 t s 9 2 ,b i 9 9 3 的自适应系统调优方法。 w j i k u m 在对开始于1 9 9 0 年的c 0 m f o r t 项目的叙述中阿h m z 9 4 】,将系统调优分 为相互关联的四个阶段:系统配置、数据库配置、应用调优以及操作参数调整;并介 绍了c o m f o r t 的体系结构,研究了针对加锁管理的自动负载控制、自适应内存管理 等自主管理功能。 一8 一 第二章相关研究综述 h e l l e r s t e i n 于1 9 9 7 年首次提出应用控制理论和自反馈机制,在目标系统之上架构 自动调优系统( a u t o m 曲巳d7 i l i l n i n gs y s t 咖8 ,a t s ) ;他将调优过程分为四个步骤:检 测( d e t e c t i o n ) 、诊断( d i a g i l o s i s ) 、操作( a c t i o ) 以及评估( e v a l u a t i o n ) h e l 9 7 j 。 随后,由于实际应用中对自主管理的需求非常强烈,各大软件公司分别成立研 究机构或开展研究项目,专门针对自主管理技术进行研究,其中包括m i c r o s o f t 公司 的d y n a 埘cs y s t e m si n i t i a t i 、,e m i c b 】组织和h e w l l e t p a c k a r d 公司的a d 叩t i v ee n t e r p r i s e 项 目 h p 。 2 3 2 自治计算和自治系统 皂迨过篁( a u t o i l o m i cc o m p u t i n g ) 这个名词最早由i b m 公司于2 0 0 1 年提 出 h o r 0 1 ,该文【h 0 r o l 】认为i t 基础设施的复杂度的不断增长已经威胁到了信息技 术为社会发展带来的益处。自动化技术是人类和人类社会各种进化发展进程的基础; 于是,自动化技术也应当被引入信息系统中,作为信息技术进一步发展和进化的基 石。需要设计一个计算机系统,使得它能够运行自己,不断地调整自己以适应变化的 外在环境,并合理安排它所拥有的资源,以最有效率的方式执行各种工作。这样的系 统被称为自渔墨堕( a u t o n o m i cs y s t e m ) 。自治系统应当具有八个关键特征: “了解自身”; 可以应对各种变化的、不可预知的外在条件,并不断地重新配置自己; 具有不断地优化自己的能力; 拥有“治疗”能力,可以从系统异常或恶意攻击的影响中恢复过来; 可以自我保护、抵御外部威胁; 了解其所处环境及其中进行的活动,并相应地执行操作; 存在于一个开放的环境中; 对于用户来说,最重要的是在隐藏本身复杂度的同时,以最优方式为用户预留 所需资源。 之后,i b m 公司的研究人员进一步研究自治系统,并认为自我管理功能可被分 为四个方面:自我配置( s e 堆c o n 矗g _ 【l r a t i o n ) ,系统根据业务逻辑自动进行配置;自我优 化( s e l o p t i i i l i z a t i o n ) ,各个组件不断地寻找机会优化自己;自我治疗( s e l f _ h e a l i n g ) ,系 统自动检测、诊断、治疗本地软硬件系统的问题;以及自我保护( s e l f p r o t e c t i o n ) ,系统 自动抵御恶意攻击和级联故障;这四个方面被统称为:s e l f - c h o p 或s e 堆+ k c 0 3 。 一9 一 2 3 彝淤诗嚣秘爨滚系绞的辑究 闲辩, l 转鹾鹄g 鞠将鑫浚系绫势为聂个鑫浓级: 纂璇( i c ) 缀。系统疑懑分数,嚣疆露襄犬繁瓣灏襄糍痰擎疆久爨; 受鬣联( m 鞠8 酾) 级+ 系统集成黪瑗,l t 入昃分瓣弗袋取褥动熬决闻鼹; 弼颈溅( p r 磁i 蹦v e ) 缀。黎缓鑫器簸溺、努凝势掇麓孵决方案瓣建议,嚣久爨译 舔并疑移建议; 隆凌疲( 聪姆i 张) 缀。系统鑫褥簸渊、努辑、爨穗黉蔑褥辫决秀案,l t 久员按 照艨务等缀约定嚣璎系绞: 鑫浚( 黼t o 藏c ) 缀。系绫菝黢务暹辍突全塞渗,掇入爨专注予效务逶辍熬髑 定。 骧上级剿巾,嚣黉入隽予预蠢孽纛缓逐缀下降,瓣系统自渗裰发逐级上蠢。 弼斓孛,农攥爨痰簸筏、分撰、诗魏移撬露等熬个除袋缀藏瓣巍涎嚣豢瓣蒸磁 上,绘粥凑一系列樱鬣荧驳戆囊浚嚣索缀成瓣爨派系绫瓣絮镌。霹辩,还分耩了蠡浚 系统奁王程窝秘警领域霹麓懑凝戆瓣熬及瓣决溺藤豹溪鼯,弗簸终形藏了璩艇美予爨 治诗葵瓣熬发书蓬b m 8 鬟。 2 5 冬,k e 癜氇r t f k 鼬5 】遴一步分掇了蠡滚诗箨矮躐戆骚究孛可黪邂熟豹一系麓秘 惩。穗谈为整个蠡浚诗黪豹戮突撼絮囊三个分支维竣:蠡浚露素、蠡渗系缝粒久斌交 纛。蠢滚嚣紊研究牵毽禽特定鑫涂元素、一般豫蠹渗元素技术、一般镬:蠡浚嚣素豹豁 系终穗、王爨鞠藩塑系绞簿三令予分支;鑫浚系绞戮炎粥壤禽爨淤系统技零、囊浚系 绫体系绦梅疆殿鑫浚系统科学慧三令予分支;聪入壤交纛磷褒粼霞禽瓣入移入瓿菠瓣 豹磅窕戳及慰繁瑷策錾黪疆突镣溪令予分支; 2 。3 3 蘩秘囊浚诗冀器绫、菠拳;段漂黧磷瓷 瓣瓣,谗多硬究褰器关注予务糖盎渗诗募系绫戆袋聚,各耱隆添诗黪技术,黻及嶷

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论