(计算机软件与理论专业论文)基于学分制教育体系的学生专业兴趣模型研究.pdf_第1页
(计算机软件与理论专业论文)基于学分制教育体系的学生专业兴趣模型研究.pdf_第2页
(计算机软件与理论专业论文)基于学分制教育体系的学生专业兴趣模型研究.pdf_第3页
(计算机软件与理论专业论文)基于学分制教育体系的学生专业兴趣模型研究.pdf_第4页
(计算机软件与理论专业论文)基于学分制教育体系的学生专业兴趣模型研究.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(计算机软件与理论专业论文)基于学分制教育体系的学生专业兴趣模型研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 由于认知水平与高考制度的限制,很多大学生对所学专业并不满意,希望能 够另选专业。高校为了满足学生的这一要求,f 在以各种方式进行尝试,包括允 许有条件的低年级学生转专业、开设综合班等方式。可以肯定,学生自主选择专 业将是一种大势所趋。然而,学生要想选择自己满意的专业,他们必须弄明白自 己的兴趣何在,而仅靠他们自己是不能够解决这个问题的,这是许多学生面临的 难题。另一方面,随着教育信息化进程的加速,高校各部门的应用系统积累了大 量的历史数据,怎样合理利用这些数据,为教学工作提供决策参考,是摆在高校 教学管理部门面前的一个难题。这两个难题正是本论文力图解决的问题。 数据仓库与数据挖掘正是挖掘数据背后隐藏的知识的手段,因此,论文提出 了构建数据仓库,并对该数据仓库进行挖掘以分析学生专业兴趣的解决方案。论 文首先分析了表征学生专业兴趣的行为,包括选修行为、辅修行为、文献借阅行 为、网络浏览与下载行为以及其它行为,并对各行为的特征进行了分析。其次, 分析了某高校教务系统与图书馆文献服务系统中有关专业兴趣的数据现状,结合 表征专业兴趣的行为,提出了“学生专业兴趣”模型的原型。在此基础上,力图 通过数据仓库与数据挖掘技术来优化该模型。为此,论文先对数据仓库与数据挖 掘技术进行了概述,针对该模型详述了“线性回归分析”。而后将该数据仓库分 解成“学生选修课 、“学生文献借阅”、“学生文献订购”、“转专业学生成绩”四 个主题,对各主题分别进行了逻辑模型设计。最后,抽取教务业务数据源与文献 服务系统中的相关数据,进行转换与处理,构建了学生专业兴趣数据仓库,并尝 试在此数据仓库上进行数据挖掘,以完善并优化学生专业兴趣模型。 论文的研究成果可为学分制体系下学生选择专业与转专业提供决策支持,对 推动高校学分制人才培养体系改革进程具有积极意义,同时,对学生发现自己专 业兴趣以进行相关选择也有直接参考作用。 本文的研究课题来源于广东省教育厅科研基金项目“基于多校区办学的高校 教学管理信息化运作模式研究与实践”。 关键词:数据仓库数据挖掘回归分析专业兴趣兴趣度 a b s t i 认c t l i m i t e db yt h ek n o w l e d g ea n dc o l l e g ee n t r a n c ee x a m i n a t i o n ,m a n y u n i v e r s i t ys t u d e n t sa r en o ts a t i s f i e dt ot h e i rs p e c i a l i t ya n dh o p et o r e c h o o s e s o ,m a n yu n i v e r s i t i e sa r ea t t e m p t i n gb ye a c hw a y ,i n c l u d i n g a l l o w i n gf r o s ha n ds o p h o m o r et ot r a n s f e rt h es p e c i a l t y ,s e tu ps y n t h e s i s c l a s s e s u n d o u b t e d l y ,a l ls t u d e n t sc a nc h o o s et h e i rs a t i s f i e ds p e c i a l i t y o n ed a y h o w e r v e r ,o no n eh a n d ,t h e ym u s tk n o ww h i c hs p e c i a l i t y a r et h e y i n t e r e s t e db e f o r et h e yc h o o s e ,w h i c ht h e yc a n tf i n db yt h e m s e l v e s o nt h e o t h e rh a n d ,a l o n gw i t ht h e a c c e l e r a t i o no fe d u c a t i o ni n f o r m a t i o n a d v a n c e m e n t ,t h ea p p l i c a t i o ns y s t e mo fa 1 1d e p a r t m e n t sa c c u m u l a t e d m a s s i v eh i s t o r i c a ld a t a h o wr e a s o n a b l yu s e st h e s ed a t af o rd e c i s i o ni n t h ee d u c a t i o nm a n a g e m e n ti sad i f f i c u l tp r o b l e mi nf r o n to ft h et e a c h i n g a p a r t m e n t t h ep a p e rt r yt or e s o l v et h e s ep r o b l e m s h et e c h n o l o g yo fd a t aw a r e h o u s ea n dd a t am i n i n gi sam e t h o do ff i n d i n g t h ek n o w l e d g eh i d i n gi nt h ed a t a s o ,t h ep a p e rp r o v i d sas o l u t i o n a n a l y z e t h es t u d e n ts p e c i a l i t yi n t e r e s tb yc o n s t r u c t i n gd a t aw a r e h o u s ea n dm i n i n g i t f i r s to fa 1 1 ,t h ep a p e ra n a l y z e sa l lk i n d so fb e h a v i o rw h i c hc a ns h o w p r o f e s s i o ni n t e r e s t ,i n c l u d i n gc h o o s i n ge l e c t i v e ,m i n o r i n g ,l e n d i n gb o o k s , b r o w s i n gt h ew e ba n dd o w n l o a d i n ga n d t h eo t h e rb e h a v i o r s e c o n d l y ,t h e p a p e ra n a l y z e s t h ec u r r e n td a t ao fe d u c a t i o n a la d m i n i s t r a t i o n s y s t e m ,l i b r a r ya d m i n i s t r a t i o ns y s t e m t h e n ,t h ep a p e rs e tap r o t o t y p em o d e o fs t u d e n t p r o f e s s i o ni n t e r e s tb yc o m b i n i n gt h eb e h a v i o ra n d d a t a t h i r d l y ,e x t r a c t i n gt h ed a t ao fp r o f e s s i o n a lc o u r s e s ,e l e c t i v e s , a c h i e v e m e n t ,b o o kc i r c u l a t i o n ,li t e r a t u r ev i s i t i n ga n d o r d e rf r o mt h e e d u c a t i o n a la d m i n i s t r a t i o ns y s t e ma n dl i b r a r ya d m i n i s t r a t i o ns y s t e m , d e s i g n sad a t aw a r e h o u s eo fs t u d e n t sp r o f e s s i o ni n t e r e s t i n gw h i c hi s ac o m p o s i t i v ea n da n a l y t i c a le n v i r o n m e n t ,a t t e m p t st oo p t i m i z et h e p r o f e s s i o n i n t e r e s ti n gm o d e b ym i n i n g t h ed a t aw h i c hu s e i i m u l t i p l e1 i n e a rr e g r e s s i o n t h em i n e dk n o w l e d g ec a oh e l ps u p e r v i s o r sm k ed e c i s i o ni nt h e m a n a g e m e n to fp r o f e s s i o nc h a n g ea n dr e f o r mt h ee d u c a t i o ns y s t e mi nt h e c r e d i ts y s t e m a tt h es a m et i m e i tc a nh e l ps t u d e n t sf i n dt h e i ri n t e r e s t i n g p r o f e s s i o na n dm a k er i g h tc h o i c e k e yw o r d s :d a t aw a r e h o u s e d a t am i n i n g ,a n a l y s i so fm u l t i p l el i n e a r r e g r e s s i o n ,p r o f e s s i o ni n t e r e s t ,t h ei n t e r e s t i n g n e s s m 华南师范大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确的方式标明。 本人完全意识到本声明的法律结果由本人承担。 论文作者签名:陈酶 日期:2 d 0 1 年6 月日 学位论文使用授权声明 本人完全了解华南师范大学有关收集、保留和使用学位论文的规 定,即:研究生在校攻读学位期间论文工作的知识产权单位属华南师 范大学。学校有权保留并向国家主管部门或其指定机构送交论文的电 子版和纸质版,允许学位论文被检索、查阅和借阅。学校可以公布学 位论文的全部或部分内容,可以允许采用影印、缩印、数字化或其他 复制手段保存、汇编学位论文。( 保密的论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密范围,在年后解密适用 本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权 书。 论文作者签名:豫谭 日期:2 0 0 7 年6 月1 日 导师签名:即缪、 日期:年月日 第l 辜绪论 1 i 研究背景 第1 章绪论 1 1 1 课题背景 信息技术、通讯的飞速发展,特别是i n t e r n e t 的普及,为各个大学提升信 息化层次提供了良好的条件和机遇,许多高校从十余年前就开始着手进行信息系 统的建设,陆续使用了办公自动化,综合教务管理、财务管理、人力资源、科研 管理、设备资产管理、网络教学等应用系统随着信息深入到校园工作和生活 的各个层面,积累了大量的隐藏有重要信息的数据,同时出现了三个方面的问题; 其一,原来独立建设的信息系统迫切需要统一的管理;其二,原来独立建设的信 息系统越来越难以适应综合应用的需要;其三,怎样利用积累的大量历史数据, 为教学、管理提供决策参考。 在这个背景下,有关专家对校园信息化建设进行了重要的审视,提出了建 设。数字校园”的理念:利用计算机、网络、通讯等技术对学校教学、科研、管 理和生活服务有关的所有信息资源进行全面的数字化;并用科学规范的管理对这 些信息资源进行整合和集成,以构成统一的用户管理、统一的资源管理和统一的 权限控制;通过组织和业务流通再造,推动学校进行制度创新、管理创新,实现 教育信息化、决策科学化和管理规范化;进而把学校建设成面向校园内,也面向 社会的一个超越时间与超越空间的虚拟大学。 近年来,某高校一直很重视数字化校园建设,仅以教务系统为例,2 0 0 5 年, 为了进一步优化学校的教学管理信息化运作效率,学校已拨专款用于教学管理信 息中心的建设,购置了服务器群集系统,架设了专门的光纤等。在。十一五”规 划中,学校将建设数字校园、实现教务管理信息化正式列入了。十一五”建设子 项目,这对推动某高校全方位建设与发展具有战略意义。这对该高校对现有教学 体系的进一步总结与提升,。一校多区”教学新模式的探讨与实践,以及学分稍 教育体系的全面改革与建设具有重要的影响。 本文的研究课题来源于广东省教育厅科研基金项目“基于多校区办学的高 校教学管理信息化运作模式研究与实践”。本论文从提升教务管理水平这一细节 华南师范人学顾 学位论文 出发,结合某高校教务处与校图书馆文献服务系统中的业务数据,利用数据仓库 与数据挖掘技术,尝试为数字化校园建设漆砖加瓦。 1 1 2 问题的提出 2 0 0 4 年,华南师范大学高教研究所对广州地区的7 所本科高校的在校大学 生进行了一次全面调查。调查显示,4 2 的大学q 三对所学专业不满意,6 5 的大 学生希望另选专业,5 0 的大学e 表下入学前对所读专业了解甚少,仅有3 4 的学生入学前了解所报专业2 “。之所以出现此局面,主要是高考制度以及高中生 的认知水平两方面的啜因。由此带柬的负面影响也很明显:从学,士的层次看,对 自己专业不感兴趣的学7 = 匕表现出厌学的情绪,甚至采取自动退学的做法;从学校 的层次柬看,这些人掌握的知识不足以满足用人单位的要求,势必影响整个学校 的毕业生质量、学校声誉以及就业率;从社会层次看,这在很大程度上造成了教 育资源的浪费以及人片的浪费。因此,专业选择的方式与时问迫切需要改进。 美幽大学的专业选择方式值得借鉴,首先,美国大学,的专业选择方式与中 国不同,他们不是在进入大学学习之前,而是在进入大学学习一年之后( 即大二时) 选择专业。这样经过一年的缓冲和思考,加上老师、家长、学校及社会相关部门 的指导,学生对自己未来的事业规划的蓝图初步形成,这样,不仅使学生在接下来 的三年进入专业学习时具备了原始的动力,而且会对他们今后的人生规划产生一 定影响。其次,荚国是一个严格执行“学分制”、“选课制”的国家,在大学一年级 的时候,由于专业尚未划分,学生可以自主选课的好处便显得尤为突出。很多学生 部可以享受到“选课”带束的好处。例如:通过大量地、有重点地选择自己所感 兴趣的专业的课程可以真实地体验这门专业的乐趣,同时也具备广泛的知识对确 立自己今后学习的方向甚至确定自己的职业生涯部是十分有利的。“”“1 在国内,大学生自主选择专业已经被越来越多的教育家认可,被越来越多的 学校所实施,北大、中科大、复旦大学、上海财经大学等大学已经试行学生自主 选择专业。某高校,为了满足大学生自主选择专业的需要,也早己设置了文科综 合班与理科综合班,综合人才实验班学生经过3 个学期的学习后,可在全校范围 内按文理科选择专业。除此之外,学校也允许有条件的低年级学生修读第二专业 甚至是转专业。可以肯定,学生自主选择专业将是一种大势所趋“。 然而,这也给学校的管理部门带来了问题: 第l 章绪论 一方面,由于受学科专业自身的办学条件限制,大范围学生自主选择专业在 目前还不可行,学校只能允许少数有条件学生在入学后修读第二专业或转专业, 那么这个条件怎么定昵? 另一方面,对于拥有全校范围之内的专业选择权的综合班的学生,如何指导 其找到真正适合自己的专业。 耶鲁大学著名的教育学家m t o n j i 认为,在收益率既定的条件下,决定在校 大学生选择何种专业至少受到三种因素的影响:个人偏好,已有的知识存量水平 和结构,在不同学习领域中具有的不同学习能力。简单来说,就是专业兴趣、专 业能力与素质、不同专业的学习能力。专业能力与素质往往可以通过专业成绩去 直观量化,而专业兴趣,作为一种心理现象,是抽象,难以确定,又是会随着时 间、周围环境、社会因素等变化而变化。所以,即使学生本人,也报难准确找出 自己真正感兴趣的专业。这正是本课题尝试解决的问题。 数据仓库是一个面向主题的、集成的、稳定的、时变的数据集合,用于支持 决策分析。而数据挖掘是一种从大型数据库或数据仓库中提取隐藏的预测性信 息的技术”3 。因此,本课题基于学分制教育体系的学生专业兴趣模型研究 提出了构建数据仓库,并对该数据仓库进行挖掘以分析学生专业兴趣的解决方 案。 论文首先分析了表征学生专业兴趣的行为,包括选修行为、辅修行为、文献 借阅行为、网络浏览与下载行为以及其它行为,并对各行为的特征进行了分析。 其次,分析了某高校教务系统与图书馆文献服务系统中有关专业兴趣的数据现 状,结合表征专业兴趣的行为,提出了“学生专业兴趣”模型的原型。在此基础 上力图通过数据仓库与数据挖掘技术来优化该模型。为此。论文先对数据仓库 与数据挖掘技术进行了概述,针对该模型详述了“线性回归分析”。而后将该数 据仓库分解成“学生选修课、“学生文献借阅”、“学生文献订购”、“转专业学生 成绩”四个主题,对各主题分别进行了逻辑模型设计。最后,抽取教务业务数据 源与文献服务系统中的相关数据,进行转换与处理,构建了学生专业兴趣数据仓 库,并尝试在此数据仓库上进行数据挖掘,以完善并优化学生专业兴趣模型。 牛南师范人学硕 j 学位论上 1 2 国内外研究现状 目前国内外关于学生专业兴趣的研究还比较少,相关的研究大多数都是关于 职业兴趣、读者兴趣【6 1 1 7 1 、网站用户兴趣口7 1 n 的研究。国内关于兴趣模型的研究 起步较晚,最早公开发表研究成果是在2 0 0 5 年。 从目前的兴趣模型的构建方法来看,主要百基于访问、基于搜索历史、基于 用户反馈、基于混合模型、基于数据立方体、基于模糊兴趣i w l h 1 等几种,其中 做的比较好的是中南大学的熊棚军,刘u 圜,张建中等人提出的基f 资源分类树的 读者兴趣模型【目( 基f 访问) ,但由于其只适用f 电子图书馆的挖掘【1 2 l ,且其中 有很多还未能确定的部分,故难以应用十专业兴趣模型的实际分析。 从应用的行业来看,主要是用于网站点击分析基础上的客户必趣分析上,很 少有用于专业兴趣的分析与建模之上。 因此,关于学生号业兴趣的研究比较新颖,还有较大的空间。 1 3 研究目的与意义 论文通过构建、挖掘与优化学生号业兴趣模型,尝试达到以下四方面的目的: 1 对于敦务管理部门来说,尝试为其管理学生转专业与修读双专业提供决策 依据与参考。当某个学生以专业兴趣为由提出更改专业或修读双号业时,可以分 析该生的新旧专业的兴趣度变化曲线,为其是否适合选择新专业提供直观、量化 的数据参考,以使教学资源最有效地利用。 2 对于学生来说,尝试让其发现自己的专业兴趣,并为其选择选修课“”、选 择考研方向甚至选择职业提供参考,避免学生盲目选择,保证学生有效利用时间, 发挥其特长与积极性。 3 对于图书馆来说,尝试为其给读者提供主动个性化服务“提供参考,为提 升图书馆服务学生、促进教学、有效利用文献资源提供参考。 4 从长远来说,尝试为全面范围的学生自主选择专业甚至提供参考,为学生 自主选择专业预先做好准备。 5 进一步地,可以为高中生发现自己专业兴趣提供模型参照,为高中生在高 考之前确定自己感兴趣专业提供契机。 4 第1 章绪论 i 4 论文组织与结构 本文的内窖安排如下: 第l 章绪论。论述选题背景与研究的意义。 第2 章相关理论与基础。主要论述了本课题所用到的相关技术一数据仓库 与数据挖掘的理论基础。从数据仓库的概念入手,论述了数据仓库的数据模型与 设计方法,以及它们的创建,并重点介绍了数据仓库建模方法和多元线性回归分 析。 第3 章学生专业兴趣模型构建。首先分析了学生专业兴趣的各行为及其特 征。其次,对某高校教务管理系统、图书馆文献信息服务系统的相关专业兴趣数 据现状进行了分析,在此分析的基础上,提出了学生专业兴趣模型的原型。最后, 针对数据现状与模型,选择并规范化了训练数据,并对该模型的训练过程进行了 简述。 第4 章学生专业兴趣数据仓库设计。根据学生专业兴趣的数据现状、模型 及训练数据的特点,首先设计了该仓库的系统结构,然后根据该系统结构划分了 主题,最后针对各主题进行了建模。 第5 章学生专业兴趣分析与决策支持系统的实现。针对学生专业兴趣模型 的训练过程,结合其数据要求,简单论述了应用系统的实现方式,并做简单的功 能说明。 第6 章总结。总结了论文的工作,展望未来,提出了今后的工作方向。 最后是参考文献,致谢。 第2 章相关理论与苯础 2 1 数据仓库 2 1 1 概述 第2 章相关理论与基础 2 1 1 1 数据仓库的概念 业界公认的数据仓库概念的创始人w h i m o n 博士在其所著的 b u i i d i n g t h ed a t ay a r e h o u s e 一书中给出了数据仓库的定义:数据仓库是一个面向主题 的( s u b j e c t o r i e n t e d ) 、集成的( i n t e g r a t e d ) 、非易失的( n o n v o l a t i l e ) 、且随 时间变化的( t i m e v a r i a n t ) 数据集合,用来支持管理人员的决策。 2 i 1 2 数据仓库的特征 数据仓库除了具有传统d b m s ( 数据库管理系统) 的共享性、完整性、数据独 立性外,还具备以下四大基本特征: 1 面向主题性 传统数据库是面向应用设计的。而数据仓库是面向主题的即要求数据按照 其自然属性来组织。主题是在较高层次将数据归类的标准,每一个主题基本上对 应一个宏观的分析领域,即主题域。 2 数据的集成性 在数据仓库的所有特性中,数据的集成性是最重要的。通常,数据仓库是由 多个异种数据源,如关系数据库,一般文件和联机事务处理记录等构造而成。数 据进入数据仓库之前,必须经过加工与集成。数据源通过转换和集成机制,合理、 有选择性地组织在一起。 3 数据的非易失性 数据仓库中不同时间的信息都具有它的有用性,由于历史信息的不可改变 性,自然的,数据仓库的信息具有非易失性。一旦数据进入数据仓库之中,就不 能再由用户进行更新了。 4 时变性 数据仓库的数据是随时间的变化而不断变化的。数据仓库数据是用作趋势分 7 华南帅范人学硕【学位论上 析、统计分析和综合分析的,这就要求数据存储要从历史的角度提供信息。 此外,数据仓库中的数据量也是非常的庞大,对于硬件的要求也较高。 2 1 1 3 数据仓库的体系结构 数据仓库一般可分为三个层次; 底层是数据仓库服务器。需要定期从操作数据库和外部数掘源获取数据,经 过一系列提取、清理、转换过程后装入数据仓库中。它包括数据项抽取转换和集 成( e t l ) 工具、数据仓库数据库、数据仓库管珲系统。 中间层是o l a p 服务器,基f 用户提出问题在底层数据仓库服务器上进行查 询、分析、计算产生结果返匹j 】用户。 顶层是客户前端工具,数据仓库日f 端工具不仅仅能作一般的查询,还具有强 大的分析能力,它是数据仓库系统的重耍组成部分,包括查询和报告工具、分析 工具和数据挖掘工具。 数据仓库的典型系统结构如图2 - - l 所示。 图2 - - 1 数据仓库体系结构2 4 整个体系结构由咀下模块组成: 1 ) 数据抽取、集成和加载工具 对多个内容相关,物理和逻辑上相互独立的数据源中数据进行分类、综合、 转换等操作,提取面向主题的、符合分析要求的数据集合,并加载到数据仓库中。 同时完成数据仓库更新。 第2 章相关理论与基础 2 ) 数据仓库元数据管理 通过数据仓库中的元数据( 关于数据的数据) 对数据仓库数据进行管理。它 不仅负责实现数据共享安全保密和数据仓库维护,还要为查询和分析提供向导。 3 ) 0 l a p 分析和数据挖掘工具 数据仓库分析工具完成基于分析宅题的数据仓库数据分析,从中识别、发现 和挖掘数据间的相瓦联系和潜在的有价值的信息( 即知识) ,从而帮助用户分析 和决策。主要分析工具有0 l a p 和数据挖掘。 4 ) 应用接口和前端展现工具 应用接口是数据仓库与应用系统的数据接口,通过接口用户可以实现各种各 样的前端应用,主要是用户查询和各种报表生成,实现数据可视化 2 1 2 数据仓库的数据模型 数据仓库建模是数据仓库构造开始的第一步。数据仓库的建模方法大多数为 三级数据建模,即概念模型设计、逻辑模型设计和物理模型设计。 2 1 2 i 概念模型设计 i 目的:通过概念模型设计,可以确定数据仓库的主要主题及相互关系。 2 所要完成的工作有两个: 1 ) 界定系统边界,即进行任务和环境评估、需求收集和分析,了解用户迫切 需要解决及解决这些问题所需要的信息。 2 ) 确定主要的主题域及其内容,即要确定系统所包含的主题域。然后对每个 主题域的公共码键、主题域之间的联系、代表主题的属性组等进行较为明 确的描述。 3 设计方法:e r 模型和面向对象的分析方法 2 i 2 2 逻辑模型设计 1 目的:通过逻辑模型设计,实现对每个主题的逻辑进行定义,并将相关内 容( 如适当的粒度划分、合理的数据分割策略、增加的导出字段、 记录系统定义等) 记录在数据仓库的元数据中。 9 牛南帅范大学倾l 学位论文 2 所要完成的工作有: 1 ) 分析主题,确定当前要装载的主题。 2 ) 确定数据粒度的选择。 3 ) 确定数据分割策略。 4 ) 增加导出字段。 5 ) 定义关系模式。 6 ) 定义记录系统等。 2 1 2 3 物理模型设计 1 目的:一是提高性能,二是更好地管理存储的数据。 2 所要完成的工作有:解决数据的存储结构,数据的索引策略、数据的存储 策略、存储分配优化等问题。 2 1 2 ,4 多维数据模型 最流行的数据仓库数据模型是多维数据模型。这种模型可以是星型模式、雪 花模式、事实星喳模式。 1 星型模式 数据仓库包括一个大的包含大批数据的中心表( 事实表) 和一组小的附属 表( 维表) ,如图2 2 所示。 图2 - - 2 学生选修事实星型模式示例 第2 牵相关理论与基础 。学生选修课事实”的星型模式如图2 2 所示。在图中心的是学生选修课 事实表,事实表的周围分别是学生维表、课程维表、时间维表( t i m e ) 。事实 表中存储了三个维表的主键分别为学号( x h ) 、课程编号( k c d 埘) 、时间号 ( t i m e - i d ) 和一些度量值。通过三个主键将三个维表与事实表联系在一起。 2 雪花模式 雪花模式是星型模式的变种,其中某些维表是规范化的,把数据进一步分解 到附加的表中,其目的是减少数据冗余和保证数据的一致性。( 如图2 3 所示) 寺髓* 懒z y d m 惶甚橼z y w l 智妊囊磁( z y l b ) 譬捌i x z ) 举位i x w , 船谯i c c l 莩私戆辨f x k l b 擀糍学髓( s s x 譬l 罐卷ji ,簪键厦修罐蠹蜜 学q 哺l j l 韩袈f x m 印瑷f n n 廿代霉h z v b m l 缸政麝t x 三b 譬芍x i i i 时馏铂t i m el d l 鼹鞋锎峙( k c d m ) 连滩虢h f 度轻】 图2 3 学生选修事实雪花模式示例 嗲麓黼裁 a 阔弓r t m el d 节锕x n l 中期x 铆 片 辫 睢 键张代# 吼k e 口h ) 谗榉甓杯f k c m n 惺群嶷铺x r l b j 学们x f ) 井攫船r ( r a c b m “学生选修课事实”的雪花模式如图2 - 3 所示。学生选修课事实表与图2 2 的星型模式相同。两个模式的主要不同是维表。星型模式中的“学生”的单个 维表在雪花模式中被规范化,导致专业维表的增加。如原来的学生维中专业名称 属性被专业代码( z y d m ) 代替,通过专业代码与专业维表进行关联。 3 事实星座 复杂的应用可能需要多个事实表共享维表。这种模式可以看作星型模式集, 因此称为星系模式,或事实星座。( 如图2 - - 4 所示) 半南师范人学硕学位论文 攀袈雏爱 1 芍i x | i l 酬g l x m l 奸缀t 、j 0 甘幺群i z y l c t r | 艘婷 l x e b ) 辔譬;逸黪溅津撼g 魏 擘母【xj i i 对蛳 t r l 州ei d ) 虚龌撕【x k k i l j 琏馒毂i 瞧廿) 图2 4 学生选修事实星座模式 。 阿1 ;i 臻襞 c 婶h 弓l i 帅o j d 节f r 悄1 牛职x o l 磺 逢镣津糯谯静攫豢 氆蕊嘲q i x k k b # t 埘畸l r t m e 噼 碟纷代姗i k i ) m l 像狞牛曦l 【a z 谶憋瘫粒 漾控代譬如瓤:d m i 漂秽髦称f k c m c 、 镬撵藿剐( k c l i j ) 节圩l x f 嚣壤;鬻:f k k b m “学生选修事实星座模式”含有两个事实表:学生选课事实表,选修课教学 任务事实表。学生选课事实表与星型模式中的学生选课事实表有所不同,将原来 的课程代码换成了选课号,从而引出了选修课教学任务事实表。选课教学任务事 实表将学生选课事实与课程维关联起来,并与学生选课事实共享时间维。 2 1 3 数据仓库设计方法与设计步骤 2 1 3 1 数据仓库设计方法 数据仓库的设计方法有多种,通常我们所采用的是以下三种方法: 1 白顶向下方法 从满足企业的实际需求出发,找出建立数据仓库的解决方案。这样可以清 楚地描绘数据仓库实现的范围与深度,从而最小化数据冗余和减小数据的不一 致性。该方法是实现数据仓库解决方案的一种行之有效的方法。 2 自底向上的方法 从试验和基于技术的原型出发,先选定一个特定的、众所周知的业务问题 第2 章相关理论畸基础 的子集,再为该子集制订一个可行方案,最后扩大到整个组织需求,实现数据 仓库的设计。这种方法一般速度比较快,在设计上具有灵活性。而且对其他部 门数据集市是一个好的指导,并且容易复制到其他部门,在技术成熟期的早期 是非常有用的。但是它的应用也是具有局限的,在设计过程中需要为每个部门 做数据重建,这样就有一定级别的冗余和不一致性。 3 联合方法 在保持自底向上方法的快速实现和立即应用的同时,又利用自顶向下方法 进行整体规划和决策。这种方法具有二者的优点。 除以上三种常用方法外,在实际的应用过程中从不同方面着眼还有其 它的一些方法,如“面向对象”的设计方法以及。数据驱动”的设计方法等。 2 1 3 2 数据仓库设计步骤 在设计数据仓库之前需要明确的是,数据仓库是一个解决方案,而不是一数 据仓库与数据挖掘在实际应用中可以买到的产品。不同企业会有不同的数据仓 库,组织内部人员往往不懂如何利用数据仓库,不能发挥其决策支持的作用,而 数据仓库公司人员又不懂业务,不知道建立哪螳决策主题,从数据源中抽取哪些 数据。因此对于一个组织来说,数据仓库的建设是一个系统工程,是一个不断建 立、发展、完善的过程,需要较长的时间。 由于数据仓库的特点是面向主题的、集成的、不可更新的、随时间的变化 而变化的,这就决定了数据仓库的需求是不明确的,而且在不断变化与增加。 开发者最初并不能了解到用户明确而详细的需求。更不能较准确地预见到以后 的需求,用户所能提供的只是大的需求方向及部分需求。数据仓库系统开发是 一个经过不断循环、反馈而使系统不断增长与完善的过程,因此,可以从构建 系统的简单架构入手,着眼于有效地抽取、综合集成和挖掘已有数据库的数 据资源。不断丰富和完善整个系统,以服务于企业高层领导管理决策的需要。 数据仓库的开发流程大体可分为四个阶段: 1 确定用户需求 在这一阶段中主要包括以下两个具体的步骤: 1 ) 概念模型的设计 毕卣师范上学碗卜学位论立 主要是对原有数据库系统进行分析,在此基础上确定数据仓库的概念模 型,界定系统边界,确定数据仓库的主题。 2 ) 技术准备工作 这一步骤的工作主要包括:技术评估,技术环境准备。 2 设计和建立数据库 设计和建立数掘库是成功地创建数据仓库的一个关键步骤。 1 ) 数据库的逻辑设计 在确定主题后,需要对t 题包含的信息进行详细定义确定粒度层次划分 确定数据分割策略,并对事实表和维表的关系进行详细定义。 2 ) 数据库的物理设计 物理设计主要考虑数据的存储方式和存放位置,确定索引结构,使得系统 有较好的性能。 3 源数据的获取、清洗、整理及装载 数据仓库的数据总是来自前台作业系统、业务部门的计划数据、以及购买 回来的商业数据库。这些数据要从各个系统中抽取出柬,经过清洗,冉经过数 据装载和整理程序以统一的格式放入数据仓库。 4 数据仓库的使用和维护 数据仓库装入数据后,一方面,用户要使用数据仓库中的数据服务f 决策 分析的目的:另一方面,根据用户的具体使用情况和反馈凹来的新要求,需要 对数据仓库作进一步的完善。 2 1 4 数据仓库中的e t l e t l 即数据的抽取( e x t r a c t ) 、转化( t r a n s f o r m ) 、加载( l o a d ) 。基中数据的 转化又可以细分为数据的集成、数据转化和数据清洗。e t l 过程是构建数据仓 库的最困难的部分,在具体的设计过程中,大部分要解决的技术难点集中在这一 层中。 数据仓库位于操作环境之外,数据从这些操作型系统中抽取出来,转换成与 数据仓库一致的格式,再加载到中心数据库即数据仓库中。数据仓库是一个将操 作坏境中多个独立系统中的数据结合起来的系统。要实现这一目标首先要解决如 第2 章相关理论与基础 何抽取数据及如何处理数据中的错误。即保证数据质量问题。其次在具体执行时 规定抽取哪些数据及如何转换。 l 数据抽取 数据抽取“7 1 是数据仓库成功的关键。在抽取过程中,数据会被格式化, 并分发给需要从操作环境中共享数据的资源。元数据存储的工作是定义和解释数 据资源和数据标准。因此,在操作数据上执行的抽取过程应该用元数据存储中定 义的标准数据格式放置数据“”。 2 数据转换 在数据迁移的过程中,通常需要将操作数据转换成另一种格式以更加适用于 数据仓库设计。在大多数情况下。转换是将数据汇总以使它更有意义 3 数据清洗 数据清洗( 也称为数据清洁或洗涤) ,是通过探测并删除数据的错误和矛盾以 确保数据质量。数据清洗的目标是傈证数据的一致性( c o n s i s t e n c e ) ,确保数据 的参照完整性( r e f e r e n t i a li n t e g r i t y ) 和数据的精确性( a c c u r a c y ) 4 数据加载 将经过清洗、过滤达到用户满意的数据装入数据仓库中指定的主题和细节库 中。 2 2 数据挖掘 2 2 1 概述 2 2 1 1 数据挖掘的概念 数据挖掘是- - f 交叉学科。涉及到机器学习、模式识别、统计学、智能数据 库、知识获取、数据可视化、高性能计算、专家系统等多个领域。 数据挖掘可以从技术角度和商业角度来定义: 在技术上,数据挖掘( d a t a m i n i n g ) ,是指从大量的、不完全的、有噪声的、 模糊的、随机的应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜 在有用的信息和知识的过程。它企图找寻隐藏在数据中的信息,如趋势 ( t r e n d ) ,特征( p a t t e r n ) 及相关性( r e l a t i o n s h i p ) 等等。 o f 南帅范大学填i j 学位论文 从商业上看,数据挖掘是一种新的商业信息处理技术它主要基于人工智能 ( a i ) 、机器学习、统计学等技术,高度自动化地分析企业原有的数据,做出归纳 性的推理,从中挖掘出数据问的潜在模式( ( p a t t e r n ) ,找出最有价值的信息和知 识,指导商业行为或辅助科学研究,帮助企业的决策者调整市场策略,减少风险, 做出正确的决策“”“。 简占之,数据挖掘其实就是一类深层次的数掘分析方法。特别耍指出的是, 数据挖掘技术从一_ 7 1 = 始就是面向应用的。它不仅是面向特定数据库的简单检索、 查询和调用,而且要对这些数据进行微观至宏观的统计,分析、综合和推理,以 指导实际问题的求解,尝试发现事件问的相瓦关联,甚至利用已有的数据时未来 的活动进行预测。它能将信息变为知识,从数据矿山中找到蕴减的知识金块。数 据挖掘技术是数据库系统和新的数据库应用领域的学科前沿,是数据库研究最活 跃、最令人激动的领域之一“。 2 2 1 2 数据挖掘的体系结构 数据挖掘的核心技术是人工智能、机器学习、统计等技术,但一个数据挖掘 系统不是多项技术的简单组合,而是一个完整的整体,它还需要其他辅助技术的 支持,才能完成数据采集、预处理、数据分忻,最后将分析结果呈现在用户面前。 根据功能,整个数据挖掘系统大致可以划分为如下的三级结构,如图2 5 所示: * * li 擀l i i - | - 戢掘挖粼中心 |l 一暖妇 io d 日c 或其媲专用蠡据库接口 量撼仓库盘据库冀卞 摹蛀鼻它囊籀一 图2 5 数据仓库体系结构 1 底层:数据源 1 ) 数据库、数据仓库或其他信息库 1 6 第2 窜相关理论与基础 这是一个或一组数据库、数据仓库、文件系统或其他类型的信息库。由这几 种类型的信息库共同构成了数据挖掘系统的数据源。 2 ) 数据库或数据仓库服务器 根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据。 3 ) 知识库 这是领域知识,用于指导搜索,或评估结果模式的兴趣度。这种知识可能包 括概念分层,用于将属性或属性值组织成不同的抽象层。用户确信方面的知识也 可以包含在内,可以使用这种知识确定非期望性评估模式的兴趣度。 2 中间层:数据挖掘 1 ) 数据挖掘引擎 这是数据挖掘系统基本的部分由一组功能模块组成,用于特征化、关联数 据仓库与数据挖掘在水利信息化中的应用分析、聚类分析以及演变和偏差分析。 2 ) 模式评估模块 通常,此层使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚焦在有 趣的模式上。模式评估模块也可以与挖掘模块集成在一起,这依赖于所用的数据 挖掘方法的实现 3 项层:图形用户界面 本模块在用户和数据挖掘系统之间通信,允许用户与系统交互,指定数据挖 掘查询或任务,提供信息、帮助搜索聚焦,根据数据挖掘的中间结果进行探索式 数据挖掘。 2 2 2 数据挖掘的过程与任务 2 2 2 1 数据挖掘的过程 在现代社会中,组织中大多数流程的核心部分是数据。而数据挖掘的任务就 是在如此海量的数据中发现有用的数据。数据挖掘并不是一项简单的工作,不是 说有了数据,利用某种方法,建几个模型,就可以得到想要的信息。数据挖掘应 该是一个多步骤的过程,在实施之前要做好详细的计划,确定每一步需要做什么, 怎样去做,这样才能保证数据挖掘有条不紊地进行并取得成功。不同的环境不 同的项目,数据挖掘的过程可能不尽相同。 午南帅范 学硕j :学位论土 一般情况下,数据挖掘过程要经过以下几个步骤9 ,如图2 - 6 所示: 应用 知识 图2 6 数据挖掘的步骤 1 确定业务对象 2 数据预处理 数据挖掘的处理对象是大量的数据,这些数据一般存储在数据库系统中,是 长期积累的结果。但往往不适合直接在这些数据上进行知识挖掘,需要做一些准 备工作。 3 读取数据并建立模型 针对不同的应用建立不同的分析模型,建立一个真正适合挖掘算法的分析模 型是数据挖掘成功的关踺。 4 数据挖掘 根据数据挖掘的目标,选择合适的算法和技术对所得到的经过预处理的数据 仓库与数据挖掘在水利信息化中的应用掘进行挖掘,如关联分析、聚类分折、时 间序列分析、预测等。 5 结果评估 从上述过程中会得出一系列的分析结果、模式和模型,多数情况会得出对目 标问题多侧面的描述,这时就要综合它们的规律性,根据某种评估标准对挖掘的 结果进行解释评估,并通过一致性检查,以确信发现的知识不与以前发现的知识 第2 章相关理论与基础 相抵触。比较不同模型的效果,预报各种不同类型分析工具的结果 6 知识的应用 知识的发现是为了运用,目前我们运用知识的方法有以下两种:第一种是只 需看知识本身所描述的关系或结果,就可以对决策提供支持:另一种是将分析所 得到的知识集成到业务信息系统的组织结构中去,用于指导生产实践。 数据挖掘过程是一个反复进行不断循环的过程,这样才能不断地趋近事物的 本质,不断地优化问题的解决方案。做到将有用的数据转换成信息,将信息变成 行动,将行动转换成价值。 2 2 2 2 数据挖掘的任务 挖掘知识的类型在多数文献和“数据挖掘”软件中称为数据挖掘任务。 一般可以分为两类:描述和预测“。在图2 7 可以看出。每类模型下都包含 一些需要用到该类模型的最常用的数据挖掘任务。预测性任务在当前数据上 进行推断,以进行预测。预测型建模可能是基于使用其它的历史数据。例如, 拒绝一个客户使用信用卡进行支付可能不是因为该客户自己的过去信用信 息,而是因为其购买模式与以前其它客户的购买模式相似,而那肚购买模式 事后发现是使用被盗信用卡进行的。预测型模型能够完成的数据挖掘任务包 括分类、回归、时间序列分析和预测。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论