




已阅读5页,还剩61页未读, 继续免费阅读
(计算机应用技术专业论文)基于数据挖掘技术的高校辅助决策支持系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文 摘要 摘要 数据挖掘研究如何从大量的数据中智能地、自动地提取出有价值 的知识和信息,是当前相当活跃的研究领域。近年来,随着我国高等 教育事业的飞速发展及教育信息化建设的快速发展,知识的自动获取 已经成为制约高校进一步发展的“瓶颈”。因此,研究应用数据挖掘 技术,开发适用于高校管理决策的支持系统,具有理论意义和重要的 实用价值。 论文系统分析了高校管理决策支持系统的特点,提出了高校建立 决策支持系统的途径与方法,即在建立数据仓库( d w ) 基础上进行数 据挖掘( d m ) ,并与在线分析处理( o l a p ) 技术相结合以提高系统辅助 决策能力。同时本文系统归纳总结了现有的数据挖掘技术。简单介绍 了一般数据挖掘的过程。 论文详细阐述了数据挖掘在高校管理决策支持系统中的应用过 程:数据挖掘目标的确立、数据源的选择、数据准备、处理与评价模 型、验证模型、实施与维护模型,特别是对其中的重点数据准备进行 了深入的剖析。根据高校管理数据的具体特点对数据清理方法进行了 有益的探索与尝试。最后结合s q ls e r v e r2 0 0 0 中的数据转换服务 ( d t s ) ,阐述了s q ls e r v e r 数据仓库的建立,并在此基础上进行数据 挖掘,据此介绍了建立高校管理决策支持系统的设计与实现过程。 系统模型的开发过程中采用某校2 0 0 0 级学生的数据开发模型而 经过重采样后2 0 0 l 级学生的数据验证模型,实验结果表明该模型在 2 0 0 l 级学生的数据上同样具有良好的表现,模型是健壮鲍。整个系 统的设计采用执行包的形式,使系统具有很好的模块化特性,便于后 期维护和扩展。实践表明目前该系统较好的适应了高校管理信息化的 发展步伐,提高了高校管理决策能力和水平。 关键字数据挖掘,知识发现,决策支持,数据仓库 硕十学伊论文 a b s t r a c t a b s t r a c t d a t am i n i n g ,an e w g e n e r a t i o no f t o o l sa l l dt e c h n i q u e sf o ra m o m a t i c a 1 1 di 1 1 t e l l i g e n td a t a b a s ea n a l y s i s ,i sa j la c t i v ea r e aw i t hm ep m m i s ef o ra h i 曲p a y o f fi nm a n yb u s i n e s sa n ds c i e n t i f i ca p p l i c a t i o n o n 也eo m e r h a n d ,k n o w l e d g ed i s c o v e 叫h a sb e e n ab o t t l e n e c kw i mt h e r 印i d d e v e l o p m e mo f h i g hs c h o o ii n f o n n a t i o nt e c h n 0 1 0 醪t od e a lw i t ht h i s c h a l l e n g e ,d a t am i n i n gt e c h n o l o g yi ss m d i e da n da p p l i e dt 0h i 曲s c h o o l d e c i s i o ns u p p o r ts y s t e m si nt h i sp a p e r n l i sp a p e ra n a l y z e dt h ef e a t u r eo fh i g hs c h o o ld e c i s i o ns u p p o r t s y s t e m sa n di n t r o d u c e dt h em e t h o do fb u i l d i n g h 冲s c h 0 0 ld s s t h e m e t h o dw a sb u i l d i n gd wf i r s t l y t h e nd mb a s e do nw h i c h d m c o m b i n e dw i t h0 l a pt oi m p r o v em ea b i l i t yo ft h ed s s n i sp 印e r m a i as u m m a d ro ft h ec u r r e n tt e c h n o l o g yo fd a t am i n i n g 觚d i n 臼d d u c e dm ep r o c e s so f d a t am i n i n gs i n g l e l y t h i sp a p e re x p o u n d e dt h e 印p l i c a t i o nc o u r s eo fd t am i n i n gi nh i g l l s c h o o ld s si nd e t a i l ,s u c ha sm eg o a lo f m i n i n gm o d e l s 、m ed a t as o u r c e o f d a t am i n i n g 、d e a l i n ga n de v a l u a t i n gm e m i n i n gm o d e i s 、c h e c k i n gm e m i n i n gm o d e l s 、c a r r n go u ta n dd e f e n d i n gm em i n i n gm o d e l s t h i sp a p e r d e e p j ya n a l y s i s e dc l e a r i n gt h ed a t ae s p e c i a 】l y a c c o r d i n gt ot h ef e a t u r eo f h i g hs c h o o lm a n a g e m e n ti n f o m l a t i o n ,t h i sp a p e re x p l o r e dm em e t h o do f c l e a r i n g t h ed a t au s e 凡l i y f i n a l y ,c o m b i n i n g m i c r o s o f td a 协 t r a n s f o r n l a t i o ns e r v i c e s ( d t s ) l ns q ls e n ,钉2 0 0 0 ,t l l i sp 印e re x p o u n d e d m em e t h o do fe s t a b l i s h e dt h ed a t aw a r e h o u s ei ns q ls e r v e r2 0 0 0 ,出e n d mb a s e do nw h i c h n i sp a p e ri n t r o d u c e dm ep r o c e s so fd e s i g n i n ga n d r e a l i z i n g s o m es c h 0 0 12 0 0 0g r a d e so fs t u d e m s d a t aw e r eu s e dt oe s t a b l i s ht 1 e m i n i n gm o d e ia n dv e r i 母t h em i n i n gm o d e lb a s e do n2 0 0lg r a d e so f s t l l d e m s id a t aa f t e rs a m p l i n ga g a l ni nm i sp a p e r t h ee x p e r i m e n t a lr e s u l t i n d i c a t e dt h a tm em o d e lh a v eg o o db e h a v i o rt o o0 n2 0 0 1g r a d e so f n 硕士学位论文 a b s t r a c t s t u d e n 酵d a t h em o d e lw a ss t a l w a n t h ed e s i g no ft h ew h o l es y s t e m a d o p e dt l t e 凡脯o fe x e c u t i n gp a c k a g e ,w h i c hm a k et l l es y s c e mb a v ev e 黟 9 0 0 dm o d u l ec h a r a c t c r i s t i c s ,m a i m a i n a b i l i 哆a r i de x p a n s i o n p r a c t i c e j n d i c 删m a tt h es y t e ms h o u l db eb e t t e ra d 印诅t i o nu n i v e r s i t y sm a n a g e i n f o 瑚a l i o n a l i z e d d e v e l o p i n gs t e p s a t p r e s e n t a n d h a v ei m p r o v e d u n i v e f s 矽sa d m m i s t r a t i v ed e c i s i o na b i l i t ya n dl e v e l k e yw o i m sd a t am i n - n g ,k n o w l e 趄ed i s c o v e d e c j s i o ns u p p r t s y s t e m ,d a t aw a r e h o u s e h l 原创性声明 本人声明,所里交的学位沦文足本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别疵以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得巾南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贞献均已在论文中作了明确的说明。 作者签名:醛逝同期:础年且月丝日 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位沧文的规定,即:学校 有权保留学位论文,允许学位沦文被查阅和借阅;学校可以公布学位 论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论 文;学校可根据国家或湖南省有关部门舰定送交学位论文。 作者签名:翟斑导师签名:逊只期:礁丝年立月丝闩 硕士学位论文 第一章绪论 第一章绪论 本章简单介绍了课题的来源及意义以及国内外数据挖掘研究的现状及发展 方向,概要叙述了数据挖掘的相关技术并对论文系统开发环境微软s q ls e r v e r 2 0 0 0 中的应用工具a n a l y s i ss e r v i c e s 中的数据挖掘技术进行了介绍。 1 1 课题来源及意义 1 1 1 课题来源 近年来,随着教育事业的飞速发展,特别是高等教育的快速发展,教育管 理信息化、现代化水平有了长足的进步各高校在m i s ( m a n a g e m e n ti n f o r 陋t i o n s y s t e m ,管理信息系统) 方面已取得了可喜的成绩。如大部分高校都在使用学生 成绩管理系统、学籍管理系统、学生奖惩考评管理系统、高校人事管理系统、 高校学生就业管理系统学生宿舍管理系统等。这些系统的成功实施为各高校 的日常管理工作带来了很大的便利,提高了管理效率和水平在日常的工作中 也积累了越来越多的数据。目前的这些数据库系统基本上都可以实现数据的录 入、修改、统计,查询等功能这些m i s 大都是孤立的分属于不同的部门,为 完成某一个具体的工作而设计如何方便、快捷、有效的统一利用这些数据, 为管理决策者提供事实依据,成为一个亟待解决的问题。 同时,随着高校招生规模的逐年扩大以及再教育方式的更加灵活多样,几 乎每所高等院校都面临着学生人数的急剧增加与教学资源日趋紧张的矛盾。在 这样的形势下如何以最小的代价获得高校自身最大的发展,则已成为一个迫切 需要研究的新课题。简单的来看,它要求高校领导层从整体的、宏观的角度去 认清形势,解决问题,优化教育资源配置,提高教育资源的利用率。因此,建 立一个企业级的高校管理d s s ( d e c i s i o ns u p p o r ts y s t e m ,决策支持系统) 则 显得十分必要。这个管理决策支持系统应能满足日常简单的查询和维护,同时 能够向高校决策者提供有关教育形势的瞬时变化、发展趋势以及历史数据的深 层次信息,以利于决策。因此,如何建立数据仓库,更好的利用现有数据,并 在此基础上进行更高层次的处理d m ( d a t am i n i n g ,数据挖掘) 显得尤为 重要。 硕士学付论文第一章绪论 1 1 2 研究的意义 数据挖掘技术目前被认为具有令人兴奋的研究前景,它有着广泛的应用价 值。在企业应用领域,用于支持企业关键性决策,市场策略的制定等等。在国外, 数据挖掘在大型商业、金融业、保险业等大型企业都开始得到应用。在商业方面 数据挖掘技术,可以增强企业的竞争优势,缩短销售周期,降低生产成木,有助 于制定市场计划和销售策略。目前,已经成为电子商务中的关键技术由于数 据挖掘在开发信息资源方面的优越性,已逐步推广到保险、医疗、制造业和电信 等各个行业的应用。 数据挖掘在科学研究中的应用。数据挖掘对高科技的研究是必不可少的。 因为高科技研究的特点就是探索人类未知的秘密,而这正是数据挖掘的特长所 在。从大量的、漫无头绪的科学数据和资料中要提炼出对人类有用的信息,不借 助于数据挖掘技术是非常困难的。 数据挖掘在其他一些领域中的应用。数据挖掘可用于司法领域,如案例调查、 犯罪监控,犯罪行为分析等等。在工业部门数据挖掘技术可用于进行故障诊断、 生产过程优化等。 而在教育行业,目前各高校大都在学籍管理,成绩管理、师资管理方面积累 了大量的数据资源。如何发现现有的大量的数据中潜在的关联和规则,以及根据 现有的数据资源科学的预测未柬可能的发展趋势和方向。如根据现有的教师资源 情况,合理的预测将来一段时日j 教师资源的变化情况,为学科建设和师资队伍建 设提供决策依据。根掘现有的学生成绩进行更高层次的分析,为各级领导部门提 供切实可行的提高教学质量,优化教学资源的依据。对学生的就业情况进行数据 挖掘,找到提高学生就业率的相应规律,并及时科学的调整专业设置的方法等。 总之数掘挖掘在目前高校扩招、学生就业压力大增的情况下。各高校如何适应时 代的发展,合理的配置高校资源加速自身的发展提供重要的依据,具有十分重大 的意义。为高校管理决策提供科学的依据,成为管理决策支持系统中不可缺少的 重要工具和手段。 2 硕士学位论文第一章绪论 1 2 国内外数据挖掘研究现状 随着现代信息技术的迅猛发展,在全球内掀起了信息化浪潮。信息产生的 渠道越来越多,信息更新的频率日益加快,各行各业均产生了数以亿计的数据 库。人们面对着大量的数据,却往往无法找到需要的信息,很难发现有用的知 识。这就是“信息爆炸”带来的困惑。如何有效地利用和处理大量的数据成为 当今世界共同关心的问题。随着数据库技术、人工智能、数理统计和并行计算 等技术的发展与融合,d m 技术应运而生。数据挖掘简单的说,就是从大星不 完全的实际应用数据中,提取隐含在其中的、人们事先不知道的但叉可能有用 豹信息和知识的过程“】数据挖掘是在对数据集全面而深刻认识的基础上,对 数据内在和本质的高度抽象与概括,也是对数据从理性认识到感性认识的升华 哪。 数据挖掘是一门新兴的交叉学科,自2 0 世纪末提出以来,引起了许多专家 学者的广泛关注,并迅速在金融业、零售业、医疗和电信等领域已经碍到广泛 的应用,成为一种利用信息资源的有效方法和途径,具有广阔的开发前景和应 用市场” 在银行业,数掘挖掘主要用于信用欺诈的建模和预测、风险评估、趋势分 析、收益分析以及辅助直销活动在金融市场,已将神经网络用于股票价格预 测、债券等级评估、商品价格预测以及金融危机预测方面。在医疗领域,在国 外数据挖掘已得到广泛应用。例如,n e u r o m e d i a l 系统公司采用神经网络技术 进行油性流质食物辅助诊断;v y s i s 采用神经网络技术为药品开发进行蛋白质 分析等。在电信部门,近年来,电信业发生了比其他行业更激烈的竞争,人们 需要理解并保持住客户,同时,也需要建立有效的途径以便将新产品销售给这 些客户。所有这些推动了电信业对数据挖掘的需求,而这种需求在电信业也从 未有过。像a t t 、g t e 电信和a i r t o u c h 通信这样一些公司已经宣布要采用数据 挖掘技术。包括l i g h t b r i d g e 和g 盯在内的其它些公司在考虑甄别移动通信 欺诈”。 在我国,据调查显示目前2 0 己应用,2 0 9 6 在建设,2 5 正在关注,中国地质 调查局、重庆港务局、湖南统计局、南宁地税等4 家单位已经在应用数据挖掘 为分析、决策作支持。 硕士学位论文第一章绪论 而在教育行业,目莉我国各高校大都己建立好各自的管理信息系统,在日常 的管理工作中发挥了重要的作用。也积累了大量的原始数据如学生的学籍信息, 成绩信息、身体健康信息、教师资源信息等。如何更好的利用这些数据资源,发 现隐含在其中的潜在关联和规则,为各级领导部门的决策,提供切实可行的提高 教学质量、优化教学资源的依据,是目前各高校迫切需要解决的问题。数据挖掘 技术在高校管理决策支持系统的成功应用,必将为这一问题的解决提供圆满的答 案。 1 3 数据挖掘技术 1 3 1 数据挖掘和数据库知识发现定义 数据挖掘最早于1 9 8 9 出现。由于是一门新兴的来自各种不同领域的交叉性 学科,因此有很多不同的术语名称。除了数据挖掘称呼外,主要还有“知识抽取” ( 1 r 面珊a t i o ne x t r a c t i o n ) 、。信息发现”( i r 曲n n 砒i o nd i s c o v e r y ) 、“知识发现” ( k m o w l e d g ed i s c o v e d ,) 、“智能数据分析”( i n t e l l i g e n td a 诅a n a l y s i s ) 、“信息收 获”( i n f o 咖a t i o nh a n ,e s t i n g ) 等等称法。从k d d 的名称中可以看出。k d d 更 强调与数据库的联系。另外,在数据库知识发现的过程中实施知识发现这一步骤 也称为数据挖掘,因此有人认为数掘挖掘是k d d 的一个环节。本文在不易混淆 的情况下将不女区别地使用两苔。 k d d 至今有多种定义,其中得到公认的是【5 l : k n o w l e d g ed i s c o v e r yi nd a t a b a s e si sm en o n t r i v i a lp r o c e s so fi d e m i f y i n gv a i i d , n o v e l ,p o t e m i a n yu s e f u l 。a n du l t i m a t e l y 蚰d e r s t a i l d a b l ep a t t c m si nd a t 乳 数据库中的知识发现是从数掘中识别出有效的、新颖的、潜在有用的、以及 最终可理解的模式的高级过程。其中: 数据:是指一个有关事实f 的集合( 如学生档案数据库中有关学生基本 情况的各条记录) ,它是用柬描述事物有关方面的信息是我们进一步发现知识 的原材料。 新颖:经过数据挖掘提取出的模式必须是新颖的,至少对系统来说应该如 4 硕十学位论文 第一章绪论 此。 潜在有用:提取出的模式应该是有意义的,如用于决策支持系统里可提高 经济效益。 可被人理解:数据挖掘的一个目标就是将数据库中隐含的模式以容易被炎 理解的形式表现出来,从而帮助人们更好地了解数据库中所包含的信息。 模式:对于集合f 中的数据。可以用语言工来描述其中数据的特性。表 达式工,所描述的数据是集合f 的一个子集几只有当表达式e 比列举 所有,中元素的描述方法更为简单时,我们才可称之为模式如“如果成绩在 8 1 9 0 之间,则成绩优良”可称为一个模式,而“如果成绩为8 l 、8 2 、8 3 、8 4 、 8 5 、8 6 、8 7 、8 8 、8 9 或9 0 ,则成绩优良”就不能称之为一个模式 高级过程:数掘挖掘是对数据进行更深层处理的过程,该过程要有一定程 度的智能性和自动性,而不是仅仅对数据进行加减求和等简单运算或查询,因此 说它是一个高级的过程【6 - 。 1 3 2 数据挖掘过程 数据挖掘过程是个以用户为中心,人机交互的探索过程。由三个阶段组成: 数据准备( d a t ap r e p a r a t i o n ) 、数据挖掘,以及结果的解释评估( i n 。e r p r e 协t i o na n d e v a l u a t i o n ) ( 见图1 1 ) 。数据挖掘可以描述为这三个阶段的反复过程。 图卜l 数据挖掘过程 数据挖掘阶段发现出来的模式,经过用户或机器的评估,可能存在冗余或无 关的模式,这就需要将其剔除;也有可能模式不满足用户要求,这时则需要整个 挖掘过程退回到发现阶段之前,如重新选取数据、采用新的数据变换方法、设定 新的数据挖掘参数值,甚至换一种挖掘算法( 如当发现任务是分类时。有多种分 类方法,不同的方法对不同的数据有不同的效果1 。 硕士学位论文第一章绪论 由以上的过程分析可以看出,数据挖掘质量的好坏有两个影响要素:一是所 采用的数据挖掘技术的有效性,二是用于挖掘的数据的质量和数量( 数据量的大 小) 如果选择了锗误的数据或不适当的属性,或对数据进行了不适当的转换, 则挖掘的结果是不会好的。 整个挖掘过程是一个不断反复的过程。比如。用户在挖掘途中发现选择的数 据不太好或使用的挖掘技术产生不了期望的结果;这时,用户需要重复先前的 过程,甚至从头重新丌始 1 3 3 数据挖掘方法 在选定了数掘挖掘过程模型后,另一个需要着重考虑的是挖掘算法的选择。 数据挖掘是从人工智能领域的一个分支一机器学习发展而来的,因此机器学习、 模式识别、人工智能领域的常规技术,如聚类( c l u s t e r i n g ) 、决策树( d e c i s i o n 仃e e ) 、 统计等方法经过改进,大都可以应用于数据挖掘1 8 1 人工神经网络方法、粗糙集 理论方法、关联规则方法、遗传算法方法、决策树方法及统计分析方法是数据挖 掘的常用方法: 人工神经网络方法人工神经网络研是模拟人类的形象直觉思维、是在生 物神经网络研究的基础上,根掘生物神经元和神经网络的特点,通过简化、归纳、 提炼总结出来的一类并行处理网络。利用其非线性映射的思想和并行处理的方 法,用神经网络本身结构可以表达输入与输出的关联知识。它完成输入空间与输 出空间的映射关系,是通过网络结构不断学习、调整,最后以网络的特定结构来 表达的,没有显式的函数表达。在数据挖掘的过程中,神经网络是数据聚类的有 力工具,在事务数掘库的分折和建模方面应用广泛 神经网络可以分为前向型、反馈型、随机型和自组织型四种网络模型其中 前向型神经网络是数据挖掘中广为应用的一种网络,它以感知机、反向传播模型、 函数型网络为代表,可用于预测、模式识别等方面。在前向型神经网络模型中常 用的是( b a c kp r o p a g a t i o n b p ) 算法。 粗糙集方法翱鞑集理论可以用于分类 m l ,发现不准确或噪声数据内在的 结构联系。它用于离敬值属性。因此,连续值属性必须在处理前离散化。 粗糙集理论基于给定i j l l 练数掘内部的等价类的建立。形成等价类的所有数据 6 硕士学位论文第一章绪论 样本是不加区分的,即对描述数据的属性,这些样本是等价钓。铪定现实世界数 据,通常有些类不能被可用的属性区分粗糙集可以用来近似或“粗略地”定义 这种类给定类c 的粗糙集定义用两个集合近似:c 的下近似和c 钧上近似。c 的下近似由一些这样的数据样本组成,根据关于属性的知识,它们毫无疑问属于 c 。c 的上近似由所有这样的样本组成,根据关于属性的知识,它们不可能被认 为不属于c 粗糙集也可以用于特征归约( 那里,可以识别和删除无助于给定训练数据分 类的属性) 和相关分析( 那羁,根据分类任务评估每个属性的贡献或意义) 。找出可 以描述给定数据集中所有概念的最小属性子集的问题是n p 困难。然而,业已提 出了一些降低计算强度的算法。例如,有一种方法使用识别矩阵( d i s c e m i b i l i t y m a n i x ) 存放每对数据样本属性之间的差别。不是在整个训练集上搜索,而是搜索 矩阵,检测冗余属性。 关联规则方法关联规则是形式如下的一种规则,“在购买面包和黄油的顾 客中有9 0 的人同时也买了牛奶”( 面包+ 黄油= 牛奶) 。用于关联规则发现的主要 对象是事务型数据库( t m s a c t i o n a ld a t a b a s e s ) 。一个事务一般由事务处理时间和 一组子项( i t e m s ,如顾客购买的物品) 组成,关联规则的正式描述如下: 设卢饥如, 是子项( i t e m ) 空间,事件r 是任意子项的集合,即r gz 。 d 是7 的集合。设x 是的任一子集,如果x 豇我们说事件r 包含丘 对任x c ,l ,c j ,x n 弘m ,一条关联规则表示为: x j y :r 称为前件,y 称为后件,表示“如果x 成立,则y 成立“。 如今,关联规则是商业销售、股票价格、银行交易、购物篮分析等许多领域 进行数据挖掘的常用手段。对关联规则的研究则由串行算法转向并行算法、由对 布尔型数据的挖掘转向数值型数据( q u a m i 协t i v e ) 的挖掘。关联规则的经典算法是 a p r i 耐。后来涌现出了大量的a p r i o r i 改进算法,如利用h a s h 表d h p 算法,基 于抽样的算法,并行关联规则算法,分布式关联规则算法,多层关联规则算法, 数值扩展的关联规则算法,利用关联规则进行分类,具有限制条件的关联规则等 等。因为典型关联规则的算法会产生大量无意义的规则,因此出现了基于兴趣度 的规则后处理算法。 7 硕士学位论文 第誊绪论 遗传算法方法它是一种优化技术,利用生物进化的一系列概念进行问题 的搜索,最终达到优化的目的。在遗传算法的实施中,首先要对求解的问题进行 编码( 染色体) ,产生初始群体;然后计算个体的适应度。再进行染色体的复制、 交换、突变等操作,产生新的个体。重复以上操作,直到求得最佳或较佳个体。 遗传算法易于并行,并已用于分类和其它优化问题。在数据挖掘中,往往把 数据挖掘任务表达为一种搜索问题,使用遗传算法强大的搜索能力找到最终解。 决策树方法利用信息论中信息增益寻找数据库中具有最大信息量的字 段,建立决策树的一个结点,再根掘字段的不同取值建立树的分支;在每个分支 子集中重复建立下层结点和分支,这样便生成一棵决策树。接下来还要对决策树 进行剪枝处理,然后把决策树转化为规则,利用这些规则可以对新事例进行分类。 国际上最有影响和最早的决策树方法是q l l i u l a n 研制的i d 3 方法,它对越大的数 据库效果越好。在i d 3 方法的基础上,后人又发展了各种决策树方法,如c 4 5 、 c 5 、i d 4 、i d 5 r 、i b l e 等算法。其中c 4 5 、c 5 是使用最为广泛的决策树方法。 典型的应用是分类规则的挖掘。 统计分析方法这种方法主要用于完成总结知识和关联知识采掘,不是从 其中发现模式和规则,所以它在数据挖掘中主要作为其它方法的基础而存在用 统计分析方法对关系表中各属性进行统计分析,找到它们之间存在的关系。在关 系表的属性之日j 一般存在两种关系:函数关系( 能用函数公式表示的确定性关 系) ;相关关系( 不能用函数公式表示的关系,但仍是相关确定关系) 统计分析 方法主要有:回归分析、相关分析、主成分分析。 1 3 4 数据挖掘任务 有如下几种数掘挖掘任务:分类或预测模型数据挖掘、数据总结、数据聚类、 关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等。 应用比较多的有以下几种: 分类模型( c l a s s i f i c 砒i o nm o d e l ) 用于提取能代表群体的特征属性。在数据 挖掘中,分类模型通过对己知类别的个体进行归纳,找出各类的特征属性,即分 类模式。在有些情况下先由领域号家对个体进行分类,再通过分类模型提取分 类模式。 硕士学位论文第一章绪论 聚类模型( c i u s t e r i f l gm o d e l ) 是将一个群体分成多个类,使同类个体尽可能 相似而不同类间个体差异尽可能大与分类模型不同的是,聚类模型从未知开始, 既不知道具体的分类标准,也不知道会有些什么类按照给定的聚类参数( 如距 离等) 进行分解、合并。得到的结果由领域专家进行甄别,如果不满足目标,需 要改动聚类参数,重新聚类一旦达到目标,分类规则也就通过聚类参数得到。 回归模型( r e g r e s s i o nm o d e l ) 用属性的历史数据预测未来趋势在最简单 的情况下,可以用标准统计方法,如线性回归等。但现实中往往非线性问题居多, 如股票价格的涨跌、机械系统故障的发生等。由于受许多因素的影响,问题变得 非常复杂。回归模型的任务就是找出对这些变化的准确描述。 时问序列模型( n m es e r i e sm o d e l ) 用已有的数据序列预测未来从这一点 上看,与回归模型很相似。但回归模型不强调数据间的先后顺序,而时间序列模 型要考虑时问特性,尤其要考虑时间周期的层次,如天、周、月、年等,有时还 要考虑日历的影响,如节假日等。 关联模型( a s s o c i a t i o nm o d e i ) 用于发现事物问的关联规则,或称相关程度。 关联规则的一般形式是: 如果a 发生则b 有百分之c 的可能发生 c 称为关联规则的支持度( c o n 丘d e n c e ) 。例如: 如果i b m 的股票价格上升,有7 0 的可能微软的股票价格要下降; 买榔头的人有4 0 同时买钉子。 序列模型( s e q u c n c em o d e i ) 与关联模型很相似,不同的是序列模型的对象 是在时域分布的,发现的规则也与先后顺序有关例如关联模型发现的一条规则 可能是: 如果a 故障发生,那么发生b 故障的可能是1 5 。 丽序列模型发现的一条规则可能是: 如果a 故障发生,那么3 0 分钟内发生b 故障的可能是l o 。 9 硕士学位论文 第一章绪论 1 4 微软数据挖掘 1 4 1 概述 数掘挖掘是s q ls e r v e r 的一整套数据管理工具中的新增品种数据挖掘和 0 l a p 都是微软分析服务的组成部分,都是决策支持工具,但他们是为不同的用 处而设计的。o l a p 主要是允许客户端设计汇总表来存储数据,便于数据的修复 和导航。o l a p 可以用来尝试发现新的数据,但因为数据发现的工作实际是由客 户端来做的,所以在0 l a p 的协助下所做的数据发现是比较有局限的,有偶然性, 不完全性。数据挖掘主要是自动地发现可以应用到预测未来结果的新的模式和规 则而不太在意其客户端是否易于 i i | 览汇总数据上,因此,o l a p 被认为是一种高 效的存储和修复机制而数掘挖掘是一个知识发掘工具i l 。 在数据挖掘模型上微软采用了特殊数据结构来存储数据挖掘模型,要浏览它 需要使用微软a n a l y s i sm a n a g e r 、采用o l ed bf o rd a :c am i n i n gs e r v i s e s 的应用程 序。或者诸如决策支持对象( d s o ) 的c o m 接口。所有这些工具允许创建,复制、 改变和删除新的数掘模型。通过o l ed b ,可以与各种数据源建立直接的数据连 接。如微软的s q ls e r v 盯、文本文件、微软a c c e s s 、微软e x l 。甚至是0 r a c i e 和d b 2 。 在语法使用上,微软数掘挖掘使用微软s q ls e r v e r 语法。在进行数据提取 的过程中,o l ed bf o rd a t am i n i n g 的概念扩展到s q ls e r v e r 中专用于数据挖掘 的语法。s q ls e r v e r 语言新增功能在基本原理上类似于m d x ( m u l t i d i m e n s i o n a l e x p r c s s i o n s ,多维表达式) 的扩展,它的设计更易于用0 l ed b6 时o l a pp m v i d 钟 提取o l a p 数据。 1 4 2 微软数据挖掘体系结构 服务器结构体系结构。服务器端的a m l y s i ss e r v i c e s 体系结构提供可以建 立和操纵o l a p 立方体、数据挖掘模型的核心程穿。除了本地安全访问外,服务 器还要管理对原始数掘源地连接。处理立方体和模型时。服务器要管理数据存储 l o 硕士学位论文第一章绪论 的机制。他要维护微软s q l s e n ,e r2 0 0 0m e t ad a t as e i c 髓存储和使用的元数据 存储区a 1 1 a l y s i sm a n a g e r 中提供的用户界面包含rd a 阻m 蛆b 如m 址i s e n ,i c e s ( d t s ) ,这是s q ls e n r e r2 0 0 0 的一项服务,它在数据源之间传输和清理 数据。a n a l y s i sm a n a g c r 是a 1 1 a l y s i ss e r v i c 骼的主要接口,它还有其他的些编 程接口允许用户前端应用程序与控制服务器借口的c o m 对象模型相互作用。微 软s q l s e n ,c r 2 0 0 0 a n a i y s i ss e r v i c e s 服务器的结构如图l - 2 所示i i l j 。 图1 - 2 n a l y s i ss e r v i c e s 服务器结构体系 客户机结构体系,客户机端的设计主要是为了在服务器功能和客户机应用 程之间提供一个桥接器和接口如图1 3 【1 1 l 所示。p i v o t t a b l es e r y e r 管理该交户过程 硕士学位论文 第一章绪论 的关键点,同时提供o l ed bf o rd a t am i n i n g 一不仅提供对微软v i s u a ic + + 应用 程序还有对a c t i v e xd a t ao b j e c t s 的直接连接。p i v o f r a b l es e r v e r 内罱于a 舱l y s i s 服务器客户机,它的作_ 【 j 相当于一个多维数据和数据挖掘操作的0 l ed b 提供 者。它被置于服务器引擎与其它客户应用程序之日j 。这样,它提供了访问应用程 序的o l ed b ,这些应用程序需要从客户机应用程序访问多维数据和数据挖掘服 务返回的数掘形式一般是表格数据。通过使用a d o 记录集、e x c e l 电子表格 或f o x p r o 表,这些数据可以用传统方法来操纵。 用于o l a p 或数据 挖摇的客户端应用 扩展支持o l a p 和 数据挖掘的o l e d b 2 5 或更新版本 扩展支持o l a p 的 a s o2 0 或更新版本 用于o l a p 或数据 挖掘的客户端应用 图卜3 n a l y s iss e r v i c e s 客户机结构体系 a n a i y s i ss e i c e s 尽管包含在s q ls e r v e r2 0 0 0 中,实际上它是一套独立的服务, 它将0 l a p 功能和数掘挖掘服务功能结合起来。o l a p 和数掘挖掘都有一个服务 器体系结构共享用于决策支持服务的功能部件,服务器组件执行那些基本的,核 心的引擎功能的,同时将它们通过p i v o t t a b i es e r v i c e s 的接口透明化。 硕士学傍论文第一章绪论 1 5 发展方向 基础理论研究 目前数据挖掘给人的印象是相关文献越来越多、可用技术层出不穷,很活跃, 也很零乱。这是因为数掘挖掘的理论体系尚不完整,还没有形成一门独立完整的 学科有关专家提出要加强数据挖掘的理论研究,使之成为一种主流技术。 挖掘技术和算法的研究 包括新技术在数据挖掘中的应用、算法的改进与优化,并行算法的设计与实 现。此外,数据挖掘往往直接面对的是现实数据,因此对不完整、不确定或有噪 声的数据进行处理也是数据挖掘必须解决的问题。 应用领域的拓展 这是数据挖掘最吸引人的地方,也是推动数据挖掘发展的根本动力。一方面, 数据挖掘需要向更多的应用领域渗透。另一方面,需要开发更多面向应用的数据 挖掘系统和产品。建立行业内的数据标准和通用挖掘平台、建立可交换信息、麸 享知识的通用数据仓库是今后要解决的问题。 1 6 论文主要研究内容 本文通过对高等学校现状的分析,提出了高校建立基于数据挖掘技术的管理 决策支持系统的途径与方法,并在此基础上建立了数据挖掘模型。如;c e t 4 通 过预测模型、英语教学分班模型、就业宣传模型、就业驱动模型等。本文详细介 绍的系统建立的模型之一是c e t 4 ( c o i l e g ee n g l i s ht e s t4 ,大学英语四级) 通过预 测模型,利用该模型的挖掘结果来有效指导学生参加c e t 4 考试,以提高c e t 4 首 考通过率。同时论文的另一个主要内容是高校管理决策支持系统的具体设计与实 现。通过建立完整的系统来提高高校管理的效率与水平。 本文的具体组织结构安排如下: 第一章为绪论。介绍了论文选题的背景,数据挖掘的发展现状以及论文的主 要研究工作。阐述了课题研究的必要性与可行性。同时给出了数据挖掘的定义, 介绍了数据挖掘的过程及任务,归纳总结了数据挖掘的技术。并对微软的数据挖 硕士学位论文 第一章绪论 掘技术进行了分析。 第二章介绍了高校管理决策支持系统的整体概貌。分析了高校管理决策支持 系统的系统管理目标,提出了高校管理决策支持系统的整体结构和实现途径。 第三章结合数掘挖掘模型建立的过程详细阐述了数据挖掘技术在高校管理 决策支持系统中的应用。特别是对其中的重点,数据准备进行了深入的剖析,根 据高校管理数掘的具体特点对数掘准备阶段,数据清理工作的方法进行了有益的 探索与尝试。对所建立模型的健壮性进行了验证,结果表明模型是健壮的。 第四章介绍了基于数掘挖掘技术的高校管理决策支持系统的设计过程。从系 统设计原则的确立到概念模型的设计、物理模型的设计进行了详细的介绍。对系 统使用的表与表的结构进行了具体的介绍。 第五章对利用数据挖掘技术建立高校管理决策支持系统的过程与方法进行 了介绍。文中结合s q ls e n ,e r2 0 0 0 中的数据转换服务,利用执行包流程,建立 s q ls e e r 数据仓库的过程,并在此基础上进行数据挖掘,据此介绍了建立高校 管理决策支持系统的实现过程。并对其中的一个实例进行了挖掘实践。 第六章总结小结了本文的主要研究工作成果,对存在的问题和不足做了总 结,提出了下一步工作努力的方向。 1 4 硕士学位论文第二章高校决策支持系统概述 第二章高校决策支持系统概述 本章简单介绍了高校管理决笨支持系统的整体概貌。首先给出了决策支持系 统的定义。分析了高校管理决策支持系统的系统管理目标,提出了高校管理决策 支持系统的整体结构和实现途径 2 1 决策支持系统概述 以信息论、人工智能、信息经济学、管理科学、行为科学等理论科学为基础 发展起来的d s s 是种以计算机为基础和工具,应用决策科学及其有关的各种 理论和方法辅助决策者进行决策,解决半结构化、非结构化决策问题的人机交互 系统【1 2 1 。它的出现弥补了m i s 的不足,适应了人们对于信息管理向智能化方面发 展的要求。 2 1 ,1 决策支持系统与管理信息系统的关系 d s s 和m i s 是面向不同层次、不同目标,具有不同功能的两种系统,既有 相互联系,又有重大区别。d s s 强调面向用户,强调对决策者提供系统外部环境 信息、内部综合信息、决策者个人经验和判断等方面的支持。在这方面并非m i s 做不到或没有做,而这不是m i s 的重点所在。m i s 强调管理系统内信息流程的 整体性,为所有决策提供其所需的信息,并强调其系统性,而对中、高层决策者 所需的内外部消息和适应个人决策风格的经验和判断,则只提供了其中的部分信 息,不可能达到使决策者操作得心应手的程度。从开发方法论来考察,二者的开 发过程基本相同,都经过系统调查、可行性论证,系统分析、系统设计、系统实 施、系统评价等各阶段。但m i s 的开发侧重于系统的稳定性,虽然m i s 也强调 系统的进化,但要求在相当一段时间内是稳定的;而d s s 更强调进化性开发, 要求开发周期短,重复进行,由此造成这两种开发不可能在一个系统内共存。因 此d s s 与m i s 这两个系统应该并存,相互不能代替,有些功能可以交戥 硕士学位论文 第二章高校决策支持系统概述 2 1 2 数据仓库与决策支持系统 由于传统的d s s 与m i s 建立在共同的数据基础上,仍然无法有效地解决快 速、科学决策的问题。d w 的出现为决策支持系统提供了新的技术支持。数据仓 库理论是在数掘库的基础上提出,它将来自于异地、异构的数据源的数据加工后 在数据仓库中存储、提取和维护,以支持高级的决策支持数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 化工企业咨询方案
- 线上诵读活动策划方案范文
- 下沙整合营销方案
- 邓州世尊府建筑方案设计
- 芜湖安全特种设备培训课件
- 小区电动车充电管理系统介绍
- 古风建筑方案设计说明
- 碳咨询方案是指
- 2025年公共营养师考试冲刺试卷:营养学基础与饮食指导
- 饮料包装行业市场分析与发展
- (三级)智能云服务交付工程师理论考试题库大全-上(单选题)
- 有限空间监理实施细则
- 酒店前台新员工培训
- 抽水蓄能电站项项目立项报告
- 餐饮行业部SOP运营管理手册
- 健康跑活动安全免责协议书
- DB11∕T 2000-2022 建筑工程消防施工质量验收规范
- 护理学科建设
- 3银行出纳3支票
- 第二单元(教学课件)-【大单元教学】三年级语文上册同步备课系列(统编版)
- 中国盐业集团有限公司招聘笔试题库2024
评论
0/150
提交评论