(计算机应用技术专业论文)数据仓库与数据挖掘在教务管理系统中的应用.pdf_第1页
(计算机应用技术专业论文)数据仓库与数据挖掘在教务管理系统中的应用.pdf_第2页
(计算机应用技术专业论文)数据仓库与数据挖掘在教务管理系统中的应用.pdf_第3页
(计算机应用技术专业论文)数据仓库与数据挖掘在教务管理系统中的应用.pdf_第4页
(计算机应用技术专业论文)数据仓库与数据挖掘在教务管理系统中的应用.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连爨王天学疆圭学盛逾文 摘要 随着数据库的广泛使用,对数据库数据的分析变得越来越重要。人们对信息的需求 毫获燕摹豹数撵羧祭鳖转囱了努撰翔黑缀。瑟数据仓瘁技零裁莛铮对这一嚣联掰捷窭熬 一种技术方案。数键仓库楚一个瑟离童透懿、集成懿、不帮爱薪斡且随时溺不凝交亿的 数据集合,用来支持管理人员的决策制定过程。数据挖掘怒采用人工智能的方法对数据 库和数据仓库中的数据进行分析,获取知识的过程。数据仓库与数据挖掘的缩台能更好 地为决策分析提供有力的依据。 目裁,高职院校豹教务管理系绕謦造缺乏综合分析、耱璐决策豹能力;并麓对历史 积豢懿大量数攥冤簸为力。奉文将数攒仓痒技术弓l 入到舞涨浣校教务管理系统孛,麴建 了教务综合管理系统数据仓库的设计方案,可增强教务管邂者的决策能力和水平,充分 发挥数据资源的作用,提高数据资源的利用率。同时,数据挖掘技术的引入,义使教务 管理系统中的数搬资源得以进一步的优化和丰富。 本文探讨了数撂仓库和数据挖撅技术的基本理论秘方法,探索了数据挖掇的关联规 粼挖摇,结合教务骛理系统,逶过戆熬毅爨教学疆磅数攥,黻麓褥妥教| | | ;教学瓣磅工捧 的潜在规粼,辅助决镶下一阶段静教学科研管理工作,觚褥实现教务管理数掇仓库的数 据挖掘。 通过在教务臀理系统中的具体挖搁实践,得到了许多肖价值信息,以期帮助高职院 校更好地进行教务管理,提高教务管璎系统的机能及效率 关键词:羲撂仓蓐;蔹据挖撵;教务繁壤羧蠢仓库;美联筑潮挖籀 大连理薹大学蠖士鸯b 敷谂文 d a t aw a r e h o u s ea n dd a t am i n i n gi nt h ea c a d e m i cm a n a g e m e n ts y s t e m a p p l i c a t i o n a b s t r a c t w i t ht h ee x t e n s i v el l s co ft h ed a t a b a s e t h ed a t a b a s ed a t aa n a l y s i sb c c o m e 蟪i n c r e a s i n g l y i m p o r t a n t p e o p l e si n f o r m a t i o nn c c d sf r o ms i m p l ed a t a c o l l e c t i o nt y p et ot h e 懈o f p r o c e s s i n g t h ed a t aw a r e h o u s et e c h n o l o g yi sar e s p o n s et ot h i sp r o b l e mb yat e c h n o l o g y p r o g r a m d a t aw a r e h o u s ei sas u b j e c t - o r i e n t e d , i n t e g r a t e d , a n de 跹n o t u p d a t e do v e rt i m e t oc h a n g i n gd a t as e t s , u s e dt o 爱零蓼曛酶m a n a g e m e n td e c i a l o n - m a k i n gp r o c e s s d a t a 搬堍 i st h em e t h o do f u s i n ga r t i f i c i a li n t e l l i g e n c ed a t a b a s ea n dt h ed a t ai nt h ed a t aw a r e h o t t s ef o r a n a l y s i s , k n o w l e d g ea c q u i s i t i o np l o c 拦s 。d a t aw a r e h o u s e a n dd a t am i m g | , i 矗a i n ge n e l g yo f a b e t t e r w a y t o p r o v i d e 跹e f f e c t i v e d e c i s i o n - m a k i n g b a s i s c u r r e n t l y , t h ev o c a t i o n a lc o l l e g ed e a ng e n e r a ll a c ko fi n t e g r a t e dm a n a g e m e n ts y s t e m s a n a l y s i s ,d e c i s i o ns u p p o r tc a p a b i l i t i e s ;诵尊t l i s t o r ya n dt h ea c c u m u l a t i o no fl a r g ea m o a n t $ o f d a t ap o w e r l e s s n 嵋d a t aw a r e h o u s et e c h n o l o g yi n t ot h ev o c a t i o n a lc o l l e g ea c a d e m i c m a n a g e m e n ts y s t e m , e s t a b l i s h e dac o m p r e h e n s i v em a n a g e m e n ts y s t e mf o rt h es e n a t ed a t a w a r e h o u s ed e s i g np r o g r a m s , t h es e n a t em a n a g e r s 蝴e n h a n c et h ed e c i s i o n - m a k i n ga b i l l t y a n dl e v e l ,a n dg i v ef i f l lp l a yt ot h er o l eo fd a t ar e u r c e s , i m p r o v et h eu t i l i z a t i o no fd a t a r e s o a tt h es a b l et i m e , d a t am i m n gt o e l m o l o g yi n t r o d u c t i o n , a n da l s oa l l o w st h es e n a t e m a n a g e m e n ts y s t e md a t a 辑鞠瞄黼c a l lb ef u r t h e ro 酾m i z e da n d r i c h 。 善融sp a p e rd i s c u s s e st h ed a t aw a r e h o m 辩a n dd a t am i n i n gt e e h n o l 0 9 3 sb a s i ct h e o r ya n d m e t h o d s ,d a t am i n i n ge x p l o r a t i o nm i n i n ga s s o d a t i o nr u l e s , w i t ht h es e n a t em a n a g e m e n t s y s t e m , t e a c h e r st e 戳& i n ga n d r e s e a r c ht h r o u g hd a t am i m g , w i t h8v i e wt ot e a c 赫r st e a c h i n g a n dr e s e a r c hw o r kb yt h ep o t e n t i a l 蕊馘d e c i s i o ns u p p o r tt e a c h i n ga n dr e s e a r c hi nt h en e x t p h a s eo f m a n a g e m e n tw o r k t oa c h i g ! 、f r ea c a d e m i cd a t aw a r e h o u s e m a n a g e m e n td a t am i n i n g , t h es e n a t ep a s s e dt h em a n a g e m e n ts y s t e mi nt h es p e c i f i cm i n i n gp r a c t i c e , a n dg e tal o t o fv a l u a b l ei n f o r m a t i o nt oh e l pb e t t e rv o c a t i o n a lc o l l e g ef o ra c a d e m i cm a n a g e m e n t , a n d i m p r o v i n gt h ea c a d e m i cm a n a g e m e n ts y s t e mf i m e t i o na n de f l i e i e n c y k e yw o r d s :d a t aw a r e h o u s e ;d a t am i n i n g e d u c a t i o n a lm a n a g e m e n td a t aw a r e h o u s e , m i n i n ga s s o c i a t i o nr u l e s i i i 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特剔加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意 作者签名:盘4 盔 日期:! 丝么:! ! 大连理工大学硕士研究生学位论文 丈涟理王大学学位论文矮权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位 论文版权使用规定”,同意大连理工大学保留并向国家有关部门或机构送 交紫位论文的复印件和电子鞭,允诤论文搜查阗孝偻阕。本人授权太逶理 工大学可以将本学位论文的全部或部分海容编入有关数据库迸荦亍检索,也 可采用影印、缩印戏扫描等复制手段保存和汇编学位论文。 作者签名:玉镯作者签名:型地 1 、 ) 导师签名i 一碧z 二乙l 一 垃年垒届丛目 大连理工犬学硕士学位论文 引言 w 。h i n m o n 在其建立数据仓库一书中提出了“数据仓库”的概念。数摆仓库 是嚣自主逶豹、集残熬、耱易失豹、是溅辩阀交纯懿数摇集会,蠲来支持警理决簸。建 虚数据仓库的步骤如下:发现和分析业务需求;建立数据模型和数据仓库的物理设计; 定义数据源;避择数据仓库技术和平台;从操作型数据库中抽取、净化和转换数据到数 据仓库;选择秘访运擐表工其;选择数撰瘴连接软伴;选择数据分耩和数据曩承较舞; 受新数据仓露。另井,数攒抽取、清理、转换、和移德的设计好环 熟是数据仓库成败与 褥的关键。 数据仓库技本的发展姆数据挖掘有旃密切联系的荚系。数据挖掘就是从大型数据库 豹数据孛鬟敬入麴惑兴趣鹣懿浚,这些箱谖是豫含戆、搴宠未知熬、夔潜在奏弱豹嫠惹, 摄取的知识可以表示为概念、规则、规律、模式等形式。这种定义把数据挖掘的对象定 义为数据库。熙广义的说法是:数据挖掘意味着在一贱事实或观察数据的集合中镡找模 妓的决策支 辔过程。 目前,麓授教务管理墨作是赢校教霄管理的重要缀成部分,楚撬赢学校整体办学承 甲的根本保诚。教务管理贯穿于从学生入学到毕业的熬个培养过程之中,是一所学校维 持正常的教学秩序、提高教学质量、实现从才培养目橼和顺利实施人才培养方案的重要 辍证。教务警壤懿主要歇熊蹙摄攥套专簸豹教学诗楚瓣鑫瑷教学溪凌透簿合理豹缀织、 指挥和高度建立一个良好的教学秩序,铺 证教学工作的正常进行。教务管理的具体工作 擞要包括编制课表、落实任课教师、学籍管理、考务篱理、教学评估、成绩管理及教室 使用调度等。 锦娜拜藏离等专辩学校是锦弼遣送壤一一所专科院校,有高等职照教育和耀蓖教育 两种教育方式并存,管理形掰:多样,尤其是最近几年学校扩大招生,信息量越越_ 来越大, 信息的收集、传输、加工、存贮查询以及预测、决然策簿工作量也越来越大。使得管理 王巷藏倍增攘,嚣嚣蔻管毽攀校教务管璞采用手工楚璞绩会诗算撬黪瑷夔方式,蔟文字 箍理工作量太,效率不高,资源综合利用差,各种报袭完成周期长,更新缓慢,殿容易 产生操作上的失误,常常使得管理人员陷于繁杂的事物管理之中而达不到很好的管理效 聚。尽管计算概已被用于管理,但这些软件大都是处璎基本的、简零泌信息管理,在缀 多方瑟不瑟满跫高等教育管理发震静要求,盈这些软髂来源各不鞠鞫,无法联系起来进 行系统地信息处理,形成了一个个的信息孤岛,其阃存在许多重复工作,无法适成高等 教育发展的需鼹。因此,需骚用先进的理念和开发技术设计一种全局性的,能够突现数 攒共享,减少嚣复操终豹数攥管理系绞。 数据仓库与数据挖掘在教务管理系统中的应用 1数据仓库 1 1 数据仓库概述 1 1 1 数据仓库的产生 计算机在现代社会中的广泛应用,使得数据的处理成为首要问题,为了更好地处理 计算机中的数据,产生了数据库技术。数据库系统作为数据管理手段,从它的诞生开始 就主要用于事务处理,属于操作型数据库。经达数十年的发展,在这些数据库中已经保 存并积累了大量的日常业务数据,传统的业务系统一般是直接建立在这种事务处理环境 上的。然而,随着社会的发展,已经不能单纯地满足于简单的数据操作,而是希望能够 利用现有的数据进行有效地分析、推理,从而为决策提供有利的依据。 数据仓库作为一种新的数据处理体系结构,它的提出以关系数据库、并行处理和分 布式等技术的飞速发展为基础,用于解决数据丰富但有用信息贫乏的一种综合解决方 案,它在存放大量数据的同时又能像仓库一样将大量数据有效地管理起来,主要侧重于 对海量数据的组织和管理,提供有效的数据访问手段。 1 1 2 数据仓库的概念及特征 ( 1 ) 数据仓库的概念 数据仓库的英文是“d a t a w a r e h o u s e ”,简称d w ,。w a r e h o u s e ”一词的含义为: “货仓、栈房”,合起来则是“存储数据的仓库,被誉为“数据仓库之父”的w h n l n o i l 将数据仓库明确地定义为:。数据仓库是面向主题的、集成的、稳定的、随时间不断变 化的数据集合,用以支持经营管理中的决策制定过程。” 数据仓库系统并非一个简单由各种数据合并而成的超大型数据库,而是一种专为联 机分析应用和决策支持系统提供数据分析和决策工具的结构化的数据环境,它涉及的是 数据的抽取、转换、装载,数据存取、元数据管理、查询、报表分析工具及相应的开发 方法等。 ( 2 ) 数据仓库的特征 依照w h 1 n m o n 对数据仓库所下的定义,总结出数据仓库的几个特征如下: 数据仓库是面向主题的 面向主题具有抽象性,含义是在高层面上将系统中的数据进行综合、归类并进行分 析利用,将每一个主题对应于一个宏观分析的领域,针对于某一个决策性的问题来解决。 一2 一 大连理工大学硕士学位论文 这一特点使数据仓库是一个面向主题的数据处理技术,而不是传统数据库面向应用 的数据处理方式,下面举一例子来说明二者之间的区别。参见图1 1 。 操作型数据库 学生档案表 教师档案表 课程表 数据仓库 学生主题 教师主题 课程主题 图1 1 数据库与数据仓库 f i 譬1 1 d d a t a b a s ea n dd a t aw a r e h o m e c 数据仓库是集成的 数据仓库的集成性是数据仓库的另一个重要特征。数据仓库中存储的数据是从原来 分散的各个数据库中提取出来的,它不是原有数据的简单拷贝,而是在其进入数据仓库 前事先进行清理、加工集成而来的,这是建立数据仓库的关键步骤。 数据仓库是稳定的 数据仓库中的数据是相对稳定的。它所反映的是历史数据,不允许在上面进行插入、 删除和更新操作。从数据仓库存储的数据内容上,可分为当前数据和历史数据。在一定 的时间间隔后,当前数据需要按一定的方法转换成历史数据。因此可以说数据仓库在一 定时间间隔内是稳定的。 数据仓库是随时间而改变的 数据仓库中的数据是历史数据,但并不是说它进入数据仓库之后就永远不变,数据 仓库中的数据随时问而定期地被更新,主要体现在如下几个方面: 第一,随着时间的变化,数据仓库中不断增加新的历史数据。数据仓库系统不断捕 捉数据库中变化的数据,经集成后追加到数据仓库中去。 第二,随着时间的变化删去旧的数据内容。数据仓库中的数据也有存储期限,一旦 超过期限,过期数据就被删除。 每三,数据仓库含有大量综合数据,这些数据中很多与时间有关,需隔一定时间进 行抽样,加工等。 一3 一 句臼臼 o o o 数据仓库与数据挖掘在教务管理系统中的应用 1 1 3 操作型数据与分析型数据的区别 从数据仓库的概念及其特征中分析操作型数据与分析型数据区别如下表1 1 : 表1 1 操作型数据与分析型数据比较 t a b 1 1 o p e r a t i n g - t y p ed a t ac o m l , a r 硫a n da n a l y s i so f d a t a 操作型数据分析型数据 ” 细节的 在存取瞬间是准确的 可更新 操作需求事先可知道 生命周期符合系统生命周期方法 对性能要求高 事务驱动 面向应用 一次操作数据量小 支持日常操作 综合的或提炼的 代表过去的数据 不更新 操作需求事先不知道 完全不同的生命周期 对性能要求宽松 分析驱动 面向分析 一次操作数据量大 支持管理需求 由上表得知操作型数据与分析型数据的根本区别在于事务处理与分析处理的差异。 传统的数据库系统主要用于日常理务处理工作,存放的数据符合操作型数据的特点,而 数据仓库用于数据的分析处理,存放的是分析型数据。 1 1 4 数据仓库的数据组织结构 数据仓库中的数据组织方式与传统数据库不同,采用分级的方式进行组织,包括早 期细节数据当前细节数据、轻度综合数据、高度综合数据以及元数据五部分,见图1 2 。 ( 1 ) 早期细节数据。存储过去的详细数据,随着时间的推移,这类数据急剧增加, 数据量很大。 ( 2 ) 当前细节数据。源数据经过综合后,首先进入当前细节数据,是数据仓库中用 户最感兴趣的部分。 ( 3 ) 轻度综合数据。从当前基本数据中提取出来,通常以较小的时间统计而形成的 数据,数据量相对较小。 ( 4 ) 高度综合数据。这一层数据非常精炼,是准决策数据。 4 大连理工大学硕士学位论文 图1 2 数据仓库的组织结构 f i g 1 2 d a t aw a r e h o u s eo r g a n i z a t i o n a l 剐呻h 由e 高度综合数据 轻度综合数据 当前细节数据 早期细节数据 ( 5 ) 元数据。整个数据仓库系统的数据由元数据来组织,元数据是关于数据的数据, 它对数据仓库中的数据进行解释和管理。元数据主要有三类:一类是为完成数据从操作 型环境向数据仓库环境转换而建立的,包含所有源数据项名,数据属性及其转换过程的 记录;第二类是指导数据由细节级向轻度综合级、高度综合级转换的,包含各种综合算 法及选择准则;第三类是用来在数据仓库与终端用户的前端工具之问建立映射的,为终 端用户提供易于理解的数据仓库信息。 1 1 5 数据仓库的体系结构 7 图1 3 数据仓库的体系结构 f i g 1 3d a t aw a r e h o u s ea r c h i t e c t u r e 当 数据仓库与数据挖掘在教务管理系统中的应用 数据仓库的体系结构如图1 3 所示。 1 2 数据仓库的数据模型圆 数据是数据仓库的基本组成部分,模型是对现实世界进行抽象的工具。创建数据仓 库时,需要使用各种数据模型对数据仓库进行描述。数据仓库的数据概念模型是数据的 多维视图,它直接影响到前端工具、数据存储的设计和联机分析处理的查询引擎。当前, 数据仓库常用的逻辑建模工具是以维度来表示现实世界的分析的内容和标准,在构建模 型时常应用。事实”、“维”、“粒度”三个概念。 事实表( f a c t s ) :事实表存放着数据分析的标准,也是用户日常最关心的内容。它 们随着时间的推移,数据量越来越大。如教务管理系统中学生信息表就是一个事实表。 维( d i m e n s i o n ) :维是事实信息的属性,属于分析的内容,变化不大,数量相对 较小。维和主题之间有可能会相互转换,取决于用户问题的角度。 粒度( g r a n u l a r i t y ) :粒度是维划分的单位,如时间维可以细化到天的级别,也可 按旬、按月、按年计,这些信息一般没有变化或变化很小。 数据仓库的数据模型分为星型模型和雪花模型两种。 1 2 1 星型模型 图1 4 星型模型结构图 f i g 1 4 s t a rm o d e lc h a f t 当前数据仓库中最常用的数据模型是星型模型,见图1 4 ,它由事实表和维度表组 成。核心是事实表,围绕事实表的是维度表,通过事实表将各种不同的维度表连接起来, 各个维度表都连接到中央事实表上。事实表中的每条元组都包含有指向各个维表的外 6 一 大连理工大学硕士学位论文 键。维度表中记录的是有关这一维的描述信息,这些信息用作约束条件,通常是一些文 字描述信息。事实表中除了包含指向各个维表的外键还有一些数字属性,称为度量。对 这些度量我们可以实施一定的聚合操作,包括求和、求平均、求最大及最小,并且进行 各种统计计算。 星型模型的优点有两条:一是它的结构简单,有良好的连接路径,减少了查询多表 复杂连接操作,提高了查询的性能且在整个数据仓库开发过程中易于修补和增补;二 是它符合决策支持分析人员的思维方式,易于理解和使用。 但这种数据模型存在数据冗余、多维操作速度慢的缺点。 1 2 2 雪花模型 对于层次比较复杂的维,用一个维表来描述会带来过多的冗余数据,所以可用多个 表来描述一个维,这就是雪花模型如图1 5 。雪花模型是对星型模型的扩展,每一个维 度都可以向外连接到多个详细类别表,雪花模型对星型模型的维度表进一步标准化,对 星型模型中的维度表进行了规范化处理,体现了维的不同粒度的划分,使用雪花模型进 一步增加了查询的范围。 雪花模型的优点是通过最大限度地减少数据存储量以及联合较小的维表来改善查 询性能。缺点是设计较为复杂,用户使用难度稍有增加 图1 5 雪花模型的结构图 f i g 1 5 s n o w f l a k e ss t 1 , 1 c t t mo f t , h em o d e l 数据仓库与数攒挽掘在教务管理系统审的斑用 1 3 联机分析处理( 0 l a p ) 3 。 联飙分雾 分耩楚逢( 乱舻 瓣缀念 联机分辑处瑷( o l a p ) 的概念最警由关系数据库之父e f c o d d 于1 9 9 3 颦提出来 的,当时e f t o d d 认为联机事务处理( o l t p ) 已不能满足终端用户对数据库查询分 析的需求,对大数据库进行的简单查询也不能满足用户分析的需求,因此提出了多维数 据库和多维分析的概念,即o l a p 的羁标是满足决策支持藏多维环境特定的凌询和报表 熏求,它熬核心技零楚“缍”,医藏o l a p 也可班说是多绦数据库分拆工具魏集合,用 来帮助用户获耱绷、多维、复杂豹角发分拆数据。它兵裔快速往、可分拆穗、多绫缝帮 信息性等特点。 1 3 2 联机分析分析处理( o l a p ) 的分类 根据数据存储方式的不同,将o l a p 分成三种:基乎多维数据库的o l a p 、基于 关系数据痒豹o l a p 窝混会o l a p 3 i 。 ( 1 ) 多维数据瘁的o l a p 多维数据库的o l a p ( m o l a p ) 是以多维方式来组织数据,并以多维方式来存储 数据。 维是观察事物的角度,多维数据怒根据决策主题来确定维度的。m o l a p 将按照主 蘧定义豹o l a p 分辨掰要豹数据,对数撵豹存敦采翅多缭,多令多缝组残多缝藏秀俸结 构,可鞋壹接获多缳立方俸孛取褥数灏,获赢节省对阔;舅雏,还具有蠡鳋的撬鍪秘转 性和灵活性,能裔效地减少计算量。 ( 2 ) 关系型数据库的o l a p 关系型数据库的o l a p ( r o l a p ) 是基于关系型数据艨的联机分析处理。r o l a p 采爝维表和事实袭来表达多维数据瘁巾包含豹多维信息。缀袭用来记录多维数搬痒中静 维凄,事实表溺来谗录各缍表交熹豹发爨蓬。 r o l a p 以荚系型结构进行多维数据的表示和存储,丽不生成多维立方体,其是存 储数据模型与数据仓库数据之间的映射关系,真正的关系物理存储在数据仓库。在进行 多维分析时,从数据仓库中取得数据,进行实时分析。:i 表样缀然增加了响应时间,但数 据只存褚一次,棚瓣m o l a p 节省了空间,荠且分析可以达到具体细节数据,期考察数 撵豹鬏越度夸。 ( 3 ) 混合数据豹0 l a p m o l a p 和r o l a p 都有各自的优缺点,把它们的优点宥机地结合起来,产生了混 合分析处理( h o l a p ) ,这是一种拼中的解决方案,它将经常使用的数据聚合,按多 大连理工大学硕士学位论文 维结构存储生成多维立方体,而不经常使用的数据或细节级的数据仍留置在数据仓库的 数据库中,这样既解决了o l a p 分析的速度问题、存储问题,也解决了对详细数据的分 析问题。 数据仓库与数据挖掘在教务管理系统中的应用 2 数据挖掘 2 1 数据挖掘概述 2 1 1 数据挖掘 数据挖掘,英文是“d a t a m i n i n g ”,简称d m ,中文译作数据采掘。一种比较典型 的定义是w j f r a w l e y 、g p i a t e t s k y - s h a p i o 等人提出来的:数据挖掘就是从数据中获取 正确、新颖、有潜在应用价值和最终可理解模式的非平凡的处理过程。模式可以看作是 知识,它给出了数据的特性或数据之间的关系,是数据所包含信息的更抽象的描述。处 理过程是指数据挖掘是一个多步骤的对大量数据进行分析的过程,包括数据预处理、模 式提取、知识评估及过程优化。知识提取往往需要经过多次的反复,通过对相关数据的 再处理及知识学习算法的优化。新颖是说经过数据挖掘提取出的模式必须是新的。潜在 有用性是指发现的知识将来有实际效用,可提高经济效用。可理解性是数据挖掘的一个 目标就是将数据中隐含的模式能被用户理解,将有效性、新颖性、潜在有用性和可理解 性综合在一起可称为兴趣性。 数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询 和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。 2 1 2 数据挖掘的处理过程 数据挖掘是一个多阶段的过程,可分为三个主要阶段:数据准备、数据挖掘、结果 和表达解释。知识发现过程( i ( d d ) 是这三个阶段的反复过程,如图2 1 。 数据选择 数据 图2 1 数据挖掘三阶段 f i g 2 1 d a t am i n i n gi nt h r e es t a g e s 夺 知识 大连璎王文学硕士学位论文 数据准备阶段 数据准备阶段w 划分为三个阶段:数据选择( d a t as e l e c t i o n ) ,数据预处联( d a m p r o c e s s i n g ) 帮数攥交换( d a t at r a n s f o r m a t i o n ) 。第一狳毅数摇选择圭要是攒获毫存在 的数据库或数据食霹中提取相关数据,形成目标数据( 豫g 眭d a m ) 。第二个阶段数据 预处理是对提取的数据进行处理,使之符合数据挖掘的要求( 它的主要工作有榆查拼写 错误,去掉重复的记录,补上不完全的记录,推导计算缺必数据,完成数据类嬲转换等 等) 。最后一个阶段数据变换的主要目的是糖减数据维数,即从初始特征中找出真正有 麓豹特薤骧减少数爨挖搀嚣要考瘩憨特锾或交量令数。 数据挖掘阶段 数据挖掘阶段怒真正意义上的挖掘,分为三个阶段;莆先是算法规划,即决定采用 何种类型的数据挖掘方法,如数据分类、关联规则发现等;其次,针对挖掘方法选择一 种算法,算法的选撵直接影响挖掘的质髓;最后,就是运彳予数据挖掘算法模块,这一阶 段是数据挖掘分凝嚣帮穗关矮域专家袋哭心豹酚段,也惑挽撼豹菝心除段。 一 结莱表达窝解释玲投 这一阶段是根据最终用户的决萧目的对提取的信息谶稃分析,把最有价值的信息提 取出来。评估数据挖掘阶段发现的模式;删除冗余或无关的模式;对于不能满慰用户要 求的模式,则需邋网上一阶段,重新选取数据、采用新的数据变换方法,设窳新的参数 值,或者采屠其饿的数摆挖掘算法。 2 2 数据挖撼的方法技术及王舆 2 2 1 数据挖掘的方法旧 数据挖掘作为- - f l 处理数据的新兴技术,有许多新的特征。数据挖掘面对的是海量 鸵数据,这些数爨楚不完全的,具有复杂的数据结构,因她它不是一个单一的个体,是 鬟要诲多菝寒豹练套支i | 孝,其俸来说,豢薅戆数据挖蓑衣狱苓蔻穆方法: ( 1 ) 统计学努法 数据挖掘面对的是海量的数据,对所有的数据进行分析是不可能的,也鼹没有必要 的,统计学方法通过回归分析、时间序列、判别分析、因子分析及聚类分析等方法可以 从抽样分析中提取来知的数学模型,从这些模型中提取出肖关的知识。统计学方法是数 豢挖摇磅究豹重蘩途径之一。 ( 2 ) 关联规强挖掘算法 数据仓库与数攒挖搬簌教务管理系统中的应用 关联援剐是一释薅萃、实薅黪分瓣麓燹| j ,裁是发瑰存在于大量数摆集巾鹃芙联链或 相关性,扶丽搐述了一个事物串蘩黪耩髓嗣时出现酶耱律和模式,是数据挖獬巾竣成熟 的主要技术之一。 最为著名的关联规则算法是r a g r a w a l 等人提出的a p r i o d 算法。关联舰则的发现 可分为两步:首先是识别所有的频繁项目熊,即支持度不低于用户设定的最低支持度的 项目集;然后是从频繁项目集中构造倍任度不低于用户设定的最低信任度的规则。识别 绒发现所有频繁项目集是关联规则发现算法的核心,也是计算量最大的部分。 ( 3 ) 决策树算法 一弹鸯人工智能开发的有指导的麴纳学习方法。它遥过将大量数据有群鹣分类,献 巾筏爨一些毒傍篷熬、潜在豹售怠,翻鲻嫠塞谂孛熬互穗售塞寻找数据瘴巾蒸蠢矮大蓿 惑鬟豹字爱,建立决蒙挺熬一令缝杰,器梭摆享段夔不同褒蓬检查耱豹分支;猩每一令 分支子集中,重复建立辩戆下蘑络赢秘分支蠡每过程,帮可建立决策秘。宅采翔囱项向下 的递归方式,从根到旰结点的条路径魏对应着一条合取规则,整棵决策树就j l 寸应着一 组析取表达式规则,主要用来解决数辫挖掘中的分类和预测问题。 ( 4 ) 神经网络方法 模拟人的神经元功能,经过输入层、隐藏层、输出层等,对数据进行调撼、计算, 最后得到结论,主要用于分类和回归。 ( 5 ) 可视化技术 可视化技术采用直观的图形方式将储惠模式、数据的关联直接直观清嗽蛾懋现绘用 户,戳便嗣户交互缝分析数据关系,畿撬数据挖掘过程及结果鹃可视纯。 巷) 遗簧粪法 遗簧算法是一静蕊生全嚣纯援零,攘羧生命迸纯税麓,并采震遗传结合、遴传变异 以及自然选择等设诗方法,将求解豹溺题潺过一组遗传算子,求褥问题的黻优解。可用 予聚类分析。 2 2 2 数据挖掘的工具 数据挖掘工具主要有两类:特定领域的数据挖掘工具和通用的数据挖掘正恩。 特定领域的数据挖掘工具针对菜个特定领域的问题提供解决方案。在设计算法的时 候充分考虑到数据、需求的特殊性,并加以优化。对任何领域都可以开发特定的数搬挖 掘工具。由于它的针对性较强,只能用于一种应用,采用特殊盼算法,可以处瑕特殊的 数攥,实瑗特殊弱强的,发现的知识霹纛度遣魄较高。 大连理工大学硕士学位论文 通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数 据类型。可以做多种模式的挖掘,挖掘什么,用什么来挖掘都由用户根据自己的应用来 选择。 2 3 数据挖掘与数据仓库 随着信息社会的发展,数据积累越来越大,出现了庞大的数据资源,数据仓库将这 些数据资源集成起来,以满足决策支持的要求。数据仓库技术的产生和迅速发展为数据 挖掘提供了新的对象,二者相互影响,相互促进。 数据挖掘包含一系列旨在从数据库中发现可能有用而未发现的模式的技术,如果将 数据挖掘和数据仓库紧密联系在一起,将获得更好的结果。成功的数据挖掘的关键之一 就是通过访问正确、完整和集成的数据,才能深层次的分析,寻求有益的信息,而这些 正是数据仓库所能提供的。数据仓库不仅是集成数据的一种方式,而且数据仓库结合联 机分析处理功能还为数据挖掘提供了一个极佳的操作平台。数据仓库为更好地使用数据 挖掘工具提供了方便。数据仓库的发展是促进数据挖掘越来越热的原因之一。同时数据 挖掘为数据仓库提供了更好的决策支持,并对数据仓库的数据组织提供了更高的要求, 为数据仓库提供了广泛的技术支持。 总之,数据仓库在纵向和横向都为数据挖掘提供了更广阔的活动空间。数据仓库完 成数据的收集、集成、存储、管理等工作,数据挖掘面对的是经初步加工的数据,使得 数据挖掘能更专注于知识的发现。由于数据仓库所具有的新特点,对数据挖掘技术提出 了更高的要求。另一方面,数据挖掘为数据仓库提供了更好的决策支持,同时促进了数 据仓库技术的发展。 2 4 关联规则挖掘 2 4 1 关联规则定义 关联规则挖掘是数据之间一种简单实用的规则,是指从某个大型的数据集中发现有 趣的关联出现的属性值集或相关关系,即从数据集中识别出频繁,然后再利用这些频繁 集创建描述关联关系的规则的过程。支持度和可信度是描述关联规则的两个重要概念, 前者用于衡量关联规则在整个数据集中的统计重要性,后者用于衡量关联规则的可信程 度 一个事物数据库的关联规则可以描述如下: 一1 3 数据仓瘁与数据挖掘在教务管瓣麓绕中的应用 设有j = i l , i 2 ,f m 是数据项的集合。设任务相关的一个事务数据库集合d = t l , t 2 ,啦,每个事务有一个嚷一熊标识符t i d ,簿一个事务r 都对成,士鲍一个子集。 设轰蕊磊矮嚣集l 在数撰鬃d 主豹支持覆( s u p p o r t ) 髓台磊豹攀务在蚤孛嚣占豹 百分毙,部 s u p p o r t ( ) :0 俐f d ,l n0 0 d0 对项圈集,和数据库d ,r 中所有满足用户指定的最小支持度的项目集,即大于或 等于最小支持度的j 的非空子集,称为频繁项集绒蠢大项集。频繁嚣项集通常记为l k 。 反之,麴浆一令矮交襄j 苓瀵楚豢夸支持度,麓称为蓦鬏繁瑷集。褒簇繁顼霉集孛撬选 出所有不被其它元素包含的频繁项目集称为最大频繁项目集或最大颈鞠集。 一个定义在j 和d 上的形如i ! - - 2 的关联规则通过满足信任度或鬣信度( c o n l i d e n c e ) 来给出。殿是指包含乃和易的搴物数与包含乃的攀物数之比,即 c o n f i d e n c e ( f i = 1 2 ) = s u p p o r t ( f iu h ) s u p p o r t ( 1 1 ) 蚤寇善上灌是最奎支撩浚秘最零霹痿度( m i n e o a f i d e n c e ) 静关联栽舞l j 藏为强关联麓 翼f ( s t r o n ga s s o c i a t i o nr 擅曲。 通常我们所说的关联揽则一般是指上面定义的强关联规则。关联规则挖掘过程就是 从中产生所有强关联规则的过稷。即在事物数据库d 中找出所有具有用户给定的最小支 持度m i n 姒p p o r t 和最小可信发m i n c o n f i d e n c a 的关联规则。这样,每条被挖掘出来的 关联援则簸霹以蹰一令蕴含式,嚣令阂值唯一拣谈。 最小嶷持痉表示矮集在缓诗意义主麓最 毳萋簧瞧,最夺可薷度袭霹攥粥静最低胃靠 性。支撩魔和可信度是关联规则挖掘中的一类重黉的约束,由用户根据不同的挖掘任务 和欲达到的目标来指定。可信廪是对关联规则正确程度的衡量,表示规则的强度;支持 度是对关联规则重要性的衡缴,表示规则的频度。规则的支持度说明宦在所有事务中有 多大的代袭性,其值越大,关联规则越重要。如莱关联规则的可信度缀离,但支持皮缀 诋,说赘该关联瓣羁实磊瓿会缀零;黧采支跨度缀寒,瑟霹痿覆缀甄,羯浚鞠该囊簧| j 苓 可靠。 关联规则挖掘可以划分为两个子问题: ( 1 ) 发现频繁项目集。通过用户给定的最小嶷持度,寻找所有频繁项目集,即满足 支持度不小予最小支持度的所旃项目子集。事实上,这些频繁项目集可能具有包含关系。 一般我织必霉要那些不蔹箕豫簇繁矮磊集颞惫会豹凝大菝繁瑗髫集。发壤瑟舂懿频繁瑗 强集是形成关联规鬟| j 的基辎。 犯) 嫩成关联规则。通过用户给定的最小可倍度,在每个最大频繁项目集中,寻找 置信度不小于最小可信度的关联规则。相对来讲,第一个问题是关联规则的关键,挖掘 大连理工大学颈士学使论文 菝繁矮瓣集其瑾论土豹搜索数量是:猿,记l 霹嘲,囊撵缀大嚣麓荸缝援索整令空阗将楚苓 可行鹣。必联援剐挖掘的难点主要在挖掘频繁项秘祭,许多算法豹改迸也是围绕摄褒第 一个问磁的效率而进行的。 2 4 2 缀熊关联规则算法一一 p ri o ri 算法分析 a 肛a w a l 等人建立了用于事物数据库挖掘的项目集空间理论。这个理论的核心原理 是:频繁项目集的子集是频繁项目集;非频繁项豳集的超集是非频繁项目集。这个原理 一直作为缀熊的数据挖掘理论被应用。 定联l 如果项目集x 是频繁项目集,那么它的所有非空子集都是频繁项目集。 对该定壤绘接证碉: 设x 怒一令项嚣集,事蘩数据痒f 孛支持x 懿建筑数隽s ,霹x 戆强一# 空子集n 设f 审支撩y 戆元维数茺两擞撂矮嚣集支骛数豹定义,容易霰遂支耩y 懿元缍一定支 持鬲掰渡魏务,期 , s u p p o r t ( d i s u p p o r t 按假设项目集x 是频繁项目集,即 s u p p o r t ( x ) i m i n s u p p o r t 所以删p p o r t ( 聊s u p p o r t ( x ) m i n s u p p o r t ,因此y 是频繁项目集。 窳璁2 如果项目集x 是非频繁项目集的,那么它的所有超集是非频繁项目集。 a 州o r i 算法是a g r a w a l 等人在提出算法a i s 和s e t m 之后提出的一种改进算法, 它是最为舆掇的一卿层次算法,其核心技术被蕊宅备类布尔关联规则挖掘算法所广泛采 用。 雾法麓予毒我爨寿豹菝繁瑷集。该雾法亵蘩一次迭鼗辩,枣瑗曩集一壹接撼戒簌逡 l 。矮蘸繁赣。程设顼嚣集会a = a t ,固,a m ,剿c t - - a l , 诹 , 鑫。 。算法 在第鬈次遮代中,先根据上一次迭代过程牵筏副静颡繁项目集集台三k - l ,产生本次遮代 的候选项目集的集合g ( 候选项集是潜在的频繁项集的集合,是频繁k - l 项集的越集 ( s u p e r s e t ) ,含有t 项的候选项集表示为“,由它构成频繁蜃项集l k ) ,然后为q 中的 每一个顺集分配一个初始值为零的计数器,依次掴描数据库d 中的事务,确定包含在每 条事务中鼠属于c k 的项目集,增加这些项目集的计数值,当所有事物都扫描完成之厝 即可得刹伉中各项集的支持度,根据i d | 和给定的煅小支持度确定q 中的频繁项集熏 复上述过稷崴到没有新的项目产生为止。具体算漩如下; 髯法1 使翔逐层迭代我出频繁项目集 输入:攀耪数据痒d ,最小支持度闽毽m i m 磴p o a 一酶一 数据仓库与数据挖掘在教务管理系统中的应用 输出:d 中的频繁项目集三 l m = l a r g e1 - i t 锄s e t s d ) ) ;所有支持度不小于m i n s u p p o r t 的l 一项目集 f o r ( 后- 2 ;l k ,f ;斛+ ) d ob e g i n c 印f i 硎g e n ( l k a ) ; c k 是k 个元素的侯选集 f o ra l lt r a n c t i o nf dd ob e g i n c t - - s u b s e t ( c k ,0 ; g 是所有t 包含的侯选集元素 f o ra l lc a n d i d a t ec gd o c c 叩n t 什: e n d l f c ec k 陋c o u n t m i n s u p p o r t ) e n d 上_ = c k 算法中调用了a l m o r i _ g e n ( l k 0 ,是一个通过( k - j ) - 频繁项目集产生k - 侯选集的算法, 该算法如下: 算法2a p r i o f ig e n ( l k _ t ) 输入:( k - 1 ) 频繁项目集, 输出:七侯选集o f o r a l lit m m s e tp e k ,d o f o ra l li t e m s e t s q e l k - id o i f ( p i t e m i = q i t e m j ,p i t e m 2 = q i t e m2 ,p i t 锄k 2 = q i t e m k - 2 , p i t e mk 1 = q i t e mk - it h e nb e g i n c 叩一g ;,把g 的第矗j 个元素连到p 后 i f h a s _ i n 丘e q u e n t _ s u b s e t0 ,lt - t ) t h e n d e l e t ec ;删除含有非频繁项目子集的侯选元素 e l s ea d d c t oc k e n d r e t u r n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论