




已阅读5页,还剩49页未读, 继续免费阅读
(信号与信息处理专业论文)基于数据仓库的高校科研管理与决策分析系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 论文题目:基于数据仓库的科研管理与决策分析系统研究 学科专业:信号与信息处理 研究生:沙笑笑 签名:趱 指导教师:吴学毅副教授 签名:盖茎丞 摘要 “教学是立校之本,科研是强校之路”,科研管理在高校中日益占有重要的地位,各大 院校以及具有科研工作的企业都在积极开发适合自己的科研管理系统。然而,随着数据量 和人们的需求不断增多,普通的科研管理系统已不能满足决策者从数据中分析出有价值信 息和为领导决策提供参考的需要,在一定程度上限制了高校科研管理水平的进一步提高。 如何从数据中分析和挖掘出对高校科研管理有用的信息,成为用户们所面临的现实问 题,决策分析也成为近几年来计算机技术最活跃的研究领域之一。科研管理系统中,基于 数据仓库( d a t aw a r e h o u s e ,d w ) 和联机分析处理( o nl i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 、数据 挖掘( d a t am i n i n g ,d m ) 技术可以让科研管理者从多角度、多层次分析数据,并且可以发现 数据间隐藏的深层关系,使科研管理者能够掌握科研最新情况和发展趋势,发现影响科研 质量的因素,为制定相关政策提供数据支持,提高学校科研水平。 本文通过对高校科研管理及决策工作进行调研以及大量相关文献的分析,以西安理工 大学科研数据为基础,实现了完成日常科研信息管理的事务管理系统,在此可分门别类地 对不同的科研数据进行录入、编辑、查询以及科研经费调拨等管理。在事务管理系统数据 库基础上,通过对数据仓库技术的深入研究,采用目前最为广泛应用的基于关系表的存储 方式,建立了科研信息的数据仓库。利用s q ls e r v e r2 0 0 0 的a n a l y s i ss e r v i c e s 组件作 为o l a p 工具,构建了科研项目、论文、教师参与成果等多个多维数据集,并结合o l a p 预聚合数据、进行多维分析的特点,前台用户可方便的通过e x c e l 从多个角度、多个层次 观察、分析数据,及时掌握学校的科研情况。同时利用a d o m d 和m d x 开发了常用的科研决 策分析多维数据报表。最后,在研究了关联规则的a p r i o r i 算法后,利用该算法进行了教 师属性和论文级别的关联挖掘,通过得到的关联规则给决策者提供数据支持,从而能够为 高校的科研建设制定有效方针,满足了科研决策分析需求。 关键词:科研管理;数据仓库;0 l a p ;数据挖掘:a p r i o r i 算法 h b st r a c t t i t l e :t h er e s e a r c hl ns c i e n t l f i cr e s e a r c hm a n a g e m e n t a n dd e c i s i o n m a k i n ga n a l y s i ss y s t e mb a s e do nd a t a w a r e h o u s e m a j o r :s i g n a la n di n f o r m a t i o np r o c e s s i n g n a m e :x i a o x i a os h a s u p e r v i s o r :a s s o c i a t ep r o f x u e y iw u ab s t r a c t s i g n a t u r e :坚丝兰堕撒 s i g n a t u r e :x 掣煦 “t e a c h i n gi st h eb a s eo fb u i l d i n gas c h o o l ,s c i e n t i f i cr e s e a r c hi st h er o a dl e a d i n gt os t r o n g s c h 0 0 1 s ot h em a n a g e m e n to fs c i e n t i f i cr e s e a r c hi sp l a y i n gam o r ea n dm o r ei m p o r t a n tr o l ei n u n i v e r s i t i e s ,a n de v e r yu n i v e r s i t ya n de v e r ye n t e r p r i s ew h i c hh a st h ea b i l i t yt od os c i e n t i f i c r e s e a r c hi sa c t i v ei nd e v e l o p i n gt h e i ro w ns c i e n t i f i cr e s e a r c hm a n a g i n gs y s t e m s h o w e v e r , a st h e i n c r e a s eo fd a t aq u a n t i t ya n dp e o p l e sd e m a n d s ,c o m m o ns c i e n t i f i cr e s e a r c hm a n a g i n gs y s t e m s c a n tm e e tt h ep o l i c y - m a k e r s d e m a n d sw h e nt h e yc o m et oc h o o s ev a l u a b l ei n f o r m a t i o nf r o ma l l d a t a ,n o rc a nt h e yo f f e rr e f e r e n c et ol e a d e r sw h e nt h e ym a k ed e s i c i s i o n s ,a l lo fw h i c hl i m i tt h e f u r t h e ri m p r o v e m e n to ft h es t a n d a r do fm a n a g i n gau n i v e r s i t y t h e r e f o r e ,h o wt oc h o o s ea n dm i n et h ei n f o r m a t i o nw h i c hi su s e f u lf o rm a n a g i n gt h e s c i e n t i f i cr e s e a r c hf r o ma l ld a t ah a sb e c o m ear e a lp r o b l e mf o rt h eu s e r s d e c i s i o na n a l y s i sh a s b e c o m eo n eo ft h em o s tp o p u l a ra r e a si nc o m p u t e rt e c h n o l o g yi nr e c e n ty e a r s i nt h es c i e n t i f i c r e s e a r c hm a n a g i n gs y s t e m s ,a n a l y s i ss y s t e m sb a s e do nd a t aw a r e h o u s e sa n do l a pc a na n a l y s e t h es c h o o l s s c i e n t i f i cr e s e a r c hd a t af r o mm o r ep e r s p e c t i v e sa n dl e v e l s ,m a k i n gp o l i c y m a k e r so f u n i v e r s i t i e sm a s t e rt h el a t e s ti n f o r m a t i o na n dt e n d e n c y sa n do f f e r i n gt h e mt h e o r yi n s t r u c t i o n st o m a k er e l a t e dp o l i c i e sa n dl o n g - t e r mp l a n st oi m p r o v et h es t a n d a r do ft h es c i e n t i f i cr e s e a r c h b a s e do ns t u d y i n go fs c i e n t i f i cr e s e a r c hm a n a g i n gs y s t e m si nu n i v e r s i t i e sa n ds c i e n t i f i c r e s e a r c ha b o u tp o l i c y m a k i n ga sw e l la sa n a l y s i n gm a n yl i t e r a t u r e sa n dm u c hd a t ao fs c i e n t i f i c r e s e a r c hi nx i a nu n i v e r s i t yo fs c i e n c ea n dt e c h l o g y , t h es y s t e ma b o u tm a n a g i n ga f f a i r so f d a i l yi n f o r m a t i o no fs c i e n t i f i cr e s e a r c hw a sb u i l t ,b yw h i c hw ec a l lr e c o r d ,e d i t ,e n q u i r yd i f f e r e n t d a t ao fs c i e n t i f i cr e s e a r c ha n dm a n a g et h ef u n d s a p p r o p r i a t i o no fs c i e n t i f i cr e s e a r c h b e s i d e s , b a s e do nt h ed a t a b a s eo fa f f a i r s m a n a g i n gs y s t e m ,b ym a k i n gaf u r t h e rs t u d ya b o u tt h et h e o r y k n o w l e d g eo fd a t aw a r e h o u s ea n du s i n gt h em o s tp o p u l a rm e m o r yw a yw h i c hi sb a s e do n i i i r e l a t e dt a b l e ,ad a t aw a r e h o u s ea b o u tt h ei n f o r m a t i o no fs c i e n t i f i cr e s e a r c hw a sb u i l t a l s ob y u s i n gt h em o d u l e - - a n a l y s i ss e r v i c e so fs q ls e r v e r2 0 0 0 ,t h ep a p e rc o n s t r u c t e d m a n y m u l t i d i m e n s i o n a ld a t as e t sa b o u ti t e m so fs c i e n t i f i cr e s e a r c h p a p e r sa n da c h i e v e m e n t so f t e a c h e r s a c c o r d i n gt ot h ec h a r a c t e r i s t i c so fo l a p ,w h i c hc a nd op r e p o l y m e r i z a t i o nd a t aa n d c a r r yo nt h em u l t i - d i m e n s i o n a la n a l y s i s ,u s e r sc a np a ya t t e n t i o nt oa n da n a l y s et h ed a t ai n d i f f e r e n ta s p e c t sa n dl e v e l sb ye x c e lt om a s t e rs c h o o l s s i t u a t i o n so fs c i e n t i f i cr e s e a r c h a t t h es a m et i m e ,t h es y s t e md e v e l o p e ds c i e n t i f i cr e s e a r c hd e c i s i o n - m a k i n gr e p o r tf o r m sb yu s i n g a d o m da n dm d xf o ru s e r s a tl a s t ,b y r e s e a r c h i n gt h ec o n n e c t i o nr u l e so ft i l ea p r i o r i a l g o r i t h m ,t h ec o n n e c t i o nc a nb ed i g g e db e t w e e nt e a c h e r s a t t r i b u t e sa n dt h e i rp a p e r s l e v e l s t h ec o n n e c t i o nr u l e sg o tf r o mt h es y s t e mc a np r o v i d et h ed a t as u p p o r tt o p o l i c y - m a k e r s , f o r m u l a t i n gt h ee f f e c t i v ep o l i c i e sf o rt h ec o n s t r u c t i o no fs c i e n t i f i cr e s e a r c hi nu n i v e r s i t i e sa n d r e a l i s i n gt h ed e c i s i o na n a l y s i sa b o u tt h ed a t ao fs c i e n t i f i cr e s e a r c h k e yw o r d s :s c i e n t i f i cr e s e a r c hm a n a g e m e n t ;d a t aw a r e h o u s e ;o l a p ;d a t am i n i n g ;a p r i o r i a l g o r i t h m 独创性声明 秉承祖国优良道德传统和学校的严谨学风郑重申明:本人所呈交的学位论文是我 个人在导师指导下进行的研究工作及取得的成果。尽我所知,除特别加以标注和致谢 的地方外,论文中不包含其他人的研究成果。与我一同工作的同志对本文所研究的工 作和成果的任何贡献均已在论文中作了明确的说明并已致谢。,一, 本论文及其相关资料若有不实之处,由本人承担一切相关责任 论文作者签名:肆丝盗灵辨彭月f 之日 学位论文使用授权声明一 + 、 u 巩 、,们卜一 :本人z 空丕这在导师的指导下创作完成毕业论文。本人已通过论文的答辩,、 并已经在西安理工大学申请博士硕士学位。本人作为学位论文著作权拥有者。同意 授权西安理工大学拥有学位论文的部分使用权,即:1 ) 已获学位的研究生按学校规定 提交印刷版和电子版学位论文,学校可以采用影印、缩印或其他复制手段保存研究生 上交的学位论文,可以将学位论文的全部或部分内容编入有关数据库进行检索;2 ) 为 教学和科研目的,学校可以将公开的学位论文或解密后的学位论文作为资料在图书馆、 资料室等场所或在校园网上供校内师生阅读、浏览。,一、,一:一+ i 。i 一,一,:。一 ,一,本人学位论文全部或部分内容的公布( 包括刊登) 授权西安理工大学研究生部办 理。一 _ r ( 保密的学位论文在解密后,适用本授权说明) 一 。 。f 一,二f “ 论文作者签名辨导师签名: 曼鏊瑟,三础年6 月多 日 。一 第1 章引言 1 引言 1 1 课题研究背景 随着计算机技术的快速发展,管理信息系统的广泛使用在提高企业或部门工作效率和 经济效益的同时积累了大量数据,而这些数据在提供给用户所需的报表后,大部分被闲置 起来,或留在业务数据库中,或放在其它介质( 如磁带、光盘) 中,要再查询是费时费力的 事情。并且,这些数据背后可能潜藏有非常重要的信息,对决策者来说是一种信息的浪费。 因此在这个信息时代,如何把大量的数据及时转变为对决策者有用的信息成为了众多企业 面临的问题。 面对“堆积如山的数据,无论在时间意义上还是在空间意义上,传统的数据分析手 段是难以应付的。数据仓库正好为这些大量的数据提供了很好的存储环境,它将分散在企 业各个部门的数据进行有效集成,为企业进行宏观分析提供了数据基础。同时,为了有效 利用这些数据,o l a p 技术和数据挖掘技术也纷纷体现出强大的功能,o l a p 能够让用户 快速、灵活的从多个角度、多个层次来观察数据。数据挖掘工具也能更深一层的从数据中 获得潜在的、事先未知的有用的信息。 因此,将数据仓库、o l a p 和数据挖掘技术应用到高校的科研部门也是非常有意义的。 传统的以数据库为基础的科研管理系统只能完成数据的基本管理工作,即科研项目、科研 经费、科研论著及成果鉴定等综合信息的增加、删除、修改和简单查询和统计,向用户提 供直观的数据,无法提供数据间深层次的联系。例如,发现教师和科研成果之间的内在联 系。因为教师是科研任务的承担者,直接影响科研成果的数量和质量。那么挖掘出教师的 潜能,便于科研领导制定有效的措施来提高教师的积极性和研发能力,从而提高整个学校 的科研水平。并且数据仓库按主题组织数据、以星型或雪花型模型进行数据物理存储的特 点,结合0 l a p 预聚合数据、进行多维分析的特点,能够让用户快速、灵活的以多个角度 来浏览、分析科研数据,及时掌握学校的科研情况。为了满足科研管理及决策的需要,本 文在数据仓库、0 l a p 和数据挖掘的基础上,开发了基于数据仓库的科研管理与决策分析 系统。 1 2 相关技术的国内外发展现状 1 2 1 数据仓库( d w ) 的现状 在国外,世界著名的数据库专家和斯坦福大学的教授等发表了一份权威性报告,讨论 了数据仓库的问题,引起广泛的反响,许多厂家和公司如s y b a s e ,i n f o r m i x ,i b m 和o r a c l e 等都在这个领域进行深入研究,相继推出了自己的数据仓库解决方案2 1 。据调查,财富 5 0 0 强企业中已经有8 5 的企业建成或正在建立数据仓库。这就使得数据仓库与i n t e m e t 一样,正在成为最快的i t 增长点3 1 。在我国,数据仓库市场起步较晚,主要由于当时我 国的应用基础尚不完善及企业意识不足。但随着我国信息化建设的逐渐完善和应用意识的 提高;许多行业如电信、银行、税务等逐步认识到数据仓库技术对于企业宏观发展带来的 巨大经济效益,纷纷建立起数据仓库系统。 西安理工大学硕士学位论文 目前,数据仓库技术体系还没有成熟,没有像数据库技术那样成熟、易用,市场上的 数据仓库产品都是基于一个通用的技术平台设计的,虽然能解决不同用户的分析需求,但 没有将特殊领域的商业逻辑与数据仓库技术集成,因而分析效果不可能达到峰值,所以目 前数据仓库技术的发展仍处于积累阶段。 虽然数据仓库技术还需要不断完善,但是带来的巨大经济效益,使它的发展前景不可 限量。国际数据公司在1 9 9 6 年对2 0 世纪9 0 年代前期进行的6 2 个数据仓库项目的调查结 果表明:进行数据仓库项目开发的公司平均在2 - 3 年的时间内获得了平均为3 2 1 的投资回 报率= 。数据仓库应用所能够带来的巨大效益也必将刺激中国数据仓库市场的发展,因此, 今天研究数据仓库正当其时,中国数据仓库市场必将前景广阔,商机无限。 1 2 2 联机分析处理( o l a p ) 技术的现状 o l a p 是在决策人员迫切需要准确、及时、灵活访问数据的背景下在国外兴起的。它 主要是在已有的数据基础上对数据进行多维化及预聚合处理,同时在前端软件上,提供多 维访问界面,以满足决策人员的需要。 近年来,国外许多公司开发出了多种o l a p 产品“1 ,推动了o l a p 技术的应用及研 究。一些公司制定了关于o l a p 的标准,并对o l a p 产品进行了广泛的研究测试,发布 了o l a pr e p o r t 。一些大型关系数据库厂商纷纷推出了自己的o l a p 产品,例如:i b m o l a ps e r v e r ,o r a c l ee x p r e s ss e r v e r ,m i c r o s o f ta n a l y s i ss e r v i c e s ,s y b a s ew a r e h o u s e a n a l y z e r 、s a sm d d b 等。如今o l a p 技术自身的发展已经比较成熟,其关键技术如多 维数据模型及查询优化算法等研究也取得较好成果,它正朝着与其他技术相融合的方向发 展:o l a p 技术和w e b 技术相结合以及o l a p 技术和数据挖掘技术相结合。 随着我国数据仓库技术的不断完善和一些较完整的数据仓库的建成,o l a p 也将得到 更广泛的应用,已经从单纯的研究走向产品的开发及技术的应用。由于o l a p 还是一种 新技术,如不懂原理或没有核心软件技术,其应用效果将大打折扣。在此领域,我国的国 产软件刚刚起步,但发展速度很快,随着市场的成熟与应用水平的提高,必将会出现大量 的国产软件产品。 1 2 3 数据挖掘( d m ) 的现状 随着存储在计算机文件和数据库中的数据量的快速增长,以及这些数据的使用者期望 从数据中获取更精细的信息,如数据的整体特征的描述及对其发展趋势的预测。传统的数 据统计分析和o l a p 不能满足要求,需要数据挖掘技术来解决这些问题。 数据挖掘技术出现于2 0 世纪8 0 年代后期,9 0 年代有了突飞猛进的发展。国内外对 数据挖掘技术的研究主要关注于算法研究、数据挖掘工具开发及实践应用。算法研究主要 集中在关联规则算法、聚类算法、分类和预测等几方面。挖掘技术应用主要在零售业、银 行、邮电、保险、医疗、运输业、行政司法、生物信息处理等行业。 当前,数据挖掘的研究与开发的总体说平相当于数据库技术在7 0 年代所处的地位, 迫切需要类似与关系模式、d b m s 系统和s q l 查询语言等理论和方法指导,才能是数据 第1 章引言 挖掘的应用得以普遍推广。预计在本世纪,数据挖掘的研究还会形成更大的高潮,研究焦 点可能会集中在以下几个方面“1 : 1 ) 研究专门用于知识发现的数据挖掘语言,也许像s q l 一样走向形式化和标准化。 2 ) 寻求数据挖掘过程中的可视化方法,以便在知识发现过程中进行人机交互。 3 ) 研究在网络环境下的数据挖掘技术,特别是在因特网上建立数据挖掘服务器,并 且与数据库服务器配合。 4 ) 加强对各种非结构化数据的挖掘,如对文本数据、图形数据、视频图像数据、声 音数据乃至综合多媒体数据的挖掘。 1 3 课题的主要内容 通过对科研处科研管理工作的调研以及对数据仓库、o l a p 、数据挖掘等相关技术的 系统学习,本文以西安理工大学科研管理信息系统多年来所积累的数据为基础,开发了基 于数据仓库的高校科研信息管理与决策分析系统,主要目的是在对日常科研事务数据管理 基础上,从科研处领导关心的多个角度观察分析科研数据,根据结果分析影响科研数量和 质量的关键因素,为校领导提高学校整体科研水平提供决策依据。 在对科研处科研管理与决策需求深入调研和对其历史数据分析的基础上,首先,基于 s q ls e r v e r2 0 0 0 进行了数据库设计,结合v b 6 0 开发了基于c s 模式的高校科研事务管 理系统;其次,创建了高校科研信息的数据仓库,数据仓库采用当前应用最为广泛的基于 关系数据库的存储方式,利用d t s 工具和手工编程的方式将数据从数据库导入到数据仓库 中,并设计了星型和雪花型架构的多维数据模型,完成了数据仓库的构建。在数据仓库的 数据基础上,采用a n a l y s i ss e r v i c e s 组件作为o l a p 工具构建了科研项目、论文、科研 成果等多维数据集,经过处理多维集后,前台用户可方便的通过e x c e l 从多个角度、多个 层次观察分析数据,同时给用户提供了常用的三大类共计1 4 个科研决策分析多维数据报 表。最后,在研究了关联规则的a p r i o r i 算法后,利用该算法进行了教师属性和论文级别 的关联挖掘,从得到的规则中可以发现属性间的内在联系,并通过对1 0 0 条论文记录进行 统计,验证了算法的正确性。根据规则,科研管理者就能够为高校的科研建设制定有效方 针,提高科研水平。 第2 章科研管理与决策分析系统的总体设计 2 科研管理与决策分析系统的总体设计 2 1 系统需求 高校的科研成果是教师在教学和科学研究方面多年的积累,科研成果的质量、高层次 高水平的论文数量、发明专利的多少等指标是高等院校科研水平的表征,它能反映高校在 某一学科领域的科研水平,是评价高校科研工作业绩和科技创新能力的依据。而针对目前 大多数科研管理系统将历史数据闲置,不能充分利用历史信息为科研决策服务的问题,本 文研究和丌发了基于数据仓库、o l a p 和数据挖掘技术的科研管理与决策分析系统。 在系统开发之前,了解用户的需求是至关重要的,这一步决定了系统的功能、系统是 否具有实用性,本文主要从以下几个方面了解用户的需求: 1 、通过与科研处工作人员的交流,了解科研部门的职责和平时的工作 科研处是进行科研管理的职能部门,主要肩负着科研项目管理、科研成果管理的职能。 科研项目管理主要是负责纵、横向项目的申报、立项、项目进度、科研经费的分配及使用 情况。科研成果管理主要负责科技成果的鉴定申报工作、成果获奖、论文发表情况、专利 管理及有关知识产权的管理。 其事务性工作的数据处理有:数据的录入和编辑、数据的查询与统计、报表查看与打 印、科研经费调拨等。 2 、对科研处正在使用的系统进行分析 1 ) 当前的系统界面设计是否简单实用? 2 ) 数据库设计是否合理、那些表有变化? 3 ) 系统实现的功能哪些可以吸收,哪些要舍弃,还需增加什么功能? 4 ) 系统运行效率是否高效? 5 ) 历史数据是否适合建立数据仓库? 需要做哪些工作? 3 、通过对科研处领导和管理人员的调研,掌握了为决策支持需要统计分析的内容及 信息表达方式,及通过数据挖掘了解什么样的决策信息。 2 2 功能模块 根据系统的需求,本系统具有以下主要功能,见图2 - 1 : 1 科研事务管理模块:主要完成各类信息的录入、编辑和查询,保证收集到准确的科 研数据,为更进一步的数据分析提供数据基础。 2 系统管理模块 数据仓库更新:完成数据仓库的数据更新,即数据从关系数据库定期的导入数据仓库, 以便用户得到准确、可靠的分析结果。 西安理工大学硕士学位论文 图2 - l系统的功能模块图 f i g u r e2 - 1 t h ef u n c t i o n a lm o d u l eo ft h es y s t e m 数据字典维护:完成一些重复信息数据的快速输入,并且允许用户自行编辑内容,减 少了信息冗余并规范了数据录入,增强系统灵活性。这部分的数据维护项包括:单位、纵 向项目类别、横向项目类别、鉴定水平、论文期刊类别、三大检索期刊类别、获奖类别、 获奖种类、教师职称、教师学历、专利类别等。 数据库备份与恢复:数据库备份是应用系统安全性维护的重要手段,应定期将数据库 的数据拷贝到硬盘或其他介质中,防止数据的丢失。若一旦丢失,利用恢复策略将数据库 恢复,能够保证系统正确运行。 数据库设置:其一是为了方便系统移植,用户不需要再自己去配置o d b c 源;其二 是锁定数据库,防止外部人员有不良目的察看数据。 3 决策分析模块 常用报表:基于数据仓库和o l a p 技术生成科技处常用的报表。这些报表是本校科 研处十多年的工作积累,非常有价值。根据统计方法可将报表分为三大类:一是按某一年 度或所有年度统计各个学院的不同类别的科研成果的数量( 如果是对科研经费统计,则是 经费会额) ;二是对全校或某一学院进行不同类别的科研成果数量的五年对比统计分析; 三是按某一年度或所有年度统计不同职称、不同学历、不同年龄段的教师参加科研成果的 人数。 多维分析:通过e x c e l 将科研项目、论文、成果获奖、教师参与成果等多维数据集的 数据呈现给用户,并且用户可以任意组织多维数据,发现自己感兴趣的结果,可直接利用 e x c e l 的打印功能输出。 关联分析:利用关联规则的a p r i o r i 算法实现论文、教师属性间的关联规则挖掘,给 决策者制定有效策略提供有力的数据支持。 2 3 体系结构 考虑到使用本系统的用户是科技部门内部人员,所以采用c s 开发模式,这种模式响 应速度快、更利于处理大量数据,具有更安全的存取模式,同时降低网络通讯量。根据数 6 第2 章科研管理与决策分析系统的总体设计 据仓库系统的体系结构1 ,建立了图2 - 2 所示的系统体系结构: 近i 避旦坠 妒嚣:醐 固 f 画 报表服务 询 联机分析 图2 - 2 系统的体系结构 f i g u r e2 - 2t h es y s t e mf r a m e w o r k 从图中可以看出,总框架分为科研管理、科研决策分析两个部分,一部分是基于关系 数据库的科研信息综合管理,主要实现对科研数据的分类管理,可以对各类科研数据进行 添加、修改、删除、查找等各种基本管理。另一部分是基于数据仓库的决策分析模块,主 要实现的功能包括生成科技处常用的分析报表、以及用户对多维数据的在线浏览和关联规 则挖掘。 在决策部分主要包含以下四个步骤: 1 源数据:和企业或部门相关的事务数据。本系统的源数据包含存储在f o x p r o 的科研历 史数据,以及实现的科研事务管理系统所收集的新数据,是数据仓库的数据基础; 2 数据仓库:按分析的主题组织数据。利用d t s 工具及编写代码将源数据进行抽取,清 洗和转换,加载到数据仓库; 3 分析( o l a p ) 服务器:主要处理组织好的多维数据集;对分析需要的数据进行有效集 成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。 4 客户端:通过o l a p 服务器提供的统一的访问接口,可以灵活地访问多维数据, 或进行数据挖掘分析。主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工 具以及各种基于数据仓库的应用开发工具。其中报表工具既有灵活的第三方工具( 如 r e p r o ts e r v i c e s ) ,又有用户定制的查询程序( 如利用v b 、v c 开发) ;数据分析工具主 要给用户提供灵活的多维分析处理,全面的观察、分析数据,从数据仓库中发现事实, 如o l a p 工具;挖掘工具主要是从大量的数据中发现潜在的有用的数据模式,预测发展 趋势和行为n 1 。本系统主要利用了报表工具、o l a p 工具和数据挖掘工具。 7 具 m i 呈i 【 茹一 画狮 熊 西安理工大学硕士学位论文 2 4 系统运行环境 本系统基于数据仓库、o l a p 和数据挖掘技术开发c s 模式的决策系统,其开发环 境应当满足系统设计的运行环境的要求,本系统中所采用的系统及软件要求如下: 操作系统:采用w i n d o w sx ps p 2 数据仓库平台:采用m i c r o s o f t 公司的s q ls e r v e r2 0 0 0 集成的a n a l y s i ss e r v i c e 组件 中间数据访问层:采用a d om d 技术 前台开发:v b 6 0 8 第3 章科研事务管理系统的设计与开发 3 科研事务管理系统的设计与开发 科研事务管理系统是科研处对日常科研信息进行管理的平台,主要完成数据的录入、 编辑、查询、经费调拨和报表打印等工作,同时也为数据仓库提供了基础数据。 3 1 系统功能模块的设计 根据科研管理的需求分析,系统的功能模块设计如下: 图3 - i 科研事务管理系统的功能模块图 f i g u r e3 - 1t h ef u n c t i o nm o d e lo fs c i e n t i f i cr e s e a r c hm a n a g e m e n ts y s t e m 系统实现对教师、科研项目、科研成果、论著的信息维护,以及提供保护系统运行的 数据库和简化用户操作的措施。纵向经费、横向经费模块是记录每个项目的每次到款明细 情况,每次到款后,项目负责人需从科研处打印经费调拨单,凭此单在校财务处领取本次 经费。 3 2 数据库设计 对于管理系统来说,数据库的设计直接影响系统的运行效率和功能,可以说决定了整 个系统的生死存亡。因此在系统开发阶段,需求分析、数据库设计是及其关键的,有人也 讲过“三分技术、七分管理、十二分基础数据 是数据库建设的基本规律 1 0 l p 因此花较 多的时间在此也是非常值得的。数据库的设计经历三个阶段,依次是概念设计、逻辑设计 和物理设计,以下就本系统中各个阶段的设计进行讲述。 9 西安理工大学硕士学位论文 3 2 1 概念设计 概念模型是对现实世界建模,应该能够方便、准确地表示信息世界中的常用概念,其 表示方法很多,最著名、最常用的是p e s c h e n 于1 9 9 6 年提出的实体一联系方法 图3 - 2 本系统的e r 图 f i g u r e3 - 2 e - rf i g u r eo ft h i ss y s t e m 3 2 2 逻辑设计 数据库逻辑设计是在概念设计结果的基础上进行设计的,是将概念结构转换为某个 d b m s 所支持的数据模型,并对其进行优化。根据上面的e r 图,部分逻辑模型如下( 其 中带下划线的为主键) : 教师( 教师编号、姓名、性别、出生日期、职称、职称级别、最高学历、开始工作时 怕i ) l o 第3 章科研事务管理系统的设计与开发 横向项目( 横向项目编号、课题名称、负责人、参加人、所属学院、项目来源、合同 经费、累积经费、合同类别、项目起始时间、项目终止时间、经济目标、受让方、买方地 区、付款方式、合同时间、统计年份、备注) 纵向项目( 纵向项目编号、课题名称、负责人、参加人、所属学院、项目来源、合同 经费、累积经费、课题级别、项目起始时间、项目终止时间、统计年份、备注) 鉴定项目( 鉴定编号、课题名称、参加人、所属学院、鉴定时间、鉴定单位、鉴定水 平、统计年份、备注) 成果获奖( 获奖编号、课题名称、参加人、所属学院、获奖时间、获奖种类、获奖类 别、获奖等级、获奖单位、统计年份) 专利( 专利编号、专利名称、专利类别、参加人、申报时间、申报号、授权时间、授 权号:所属单位、统计年份、状态、备注) 横向经费( 编号、横向项目编号、到款日期、到款金额、院管理费、院基金、校基金、 绩效费、活动费、占用费、大进大出费、大进大出管理费、税金、营业税、备注( 指扣款 比例) ) 纵向经费( 编号、纵向项目编号、到款日期、到款金额、院管理费、院基金、校基金、 活动费、占用费、立题费、人员费、备注( 指扣款比例) ) 3 2 3 物理设计 物理设计是为逻辑数据模型选取一个最适合应用环境的物理结构。即在计算机的物理 设备上确定采取的数据存储结构和存取方式。本系统在s q ls e r v e r2 0 0 0 管理系统中设计 了所有关系表。 3 3 科研事务管理系统开发 科研事务管理系统完成图3 1 所示的各功能模块的开发,其实现过程较为规整,主要 涉及事务记录的增、删、改、查询等操作。本文利用a d o 访问数据库 1 l l 1 z i 用m s f l e x g r i d 控件进行数据表格的显示。在v b 开发过程中,为了维护方便,对每个需要记录维护的基 本表创建了类模块,其中包含了对记录操作的i n s e r t 、u p d a t e 、d e l e t e 等s q l 语句, 这样,如果库中某个表的字段有变化,或对数据的操作行为有变化,主要去修改该表对应 的类模块即可n 1 1 4 | 。由于教师管理、科研项目管理、科研成果管理和论著管理模块功能 相似,因此界面设计也类似,界面效果如图3 3 所示: 西哥理工太学硕士学住论工 幽33 系统实现的教粜刖 f i g u r e3 - 3t h er e s u l tf i g u r eo f t h es y s t e ma c h i v e d 卟好的系统设计1 ;仅功能完备而且应该尽可能简化用,。,操作,系统中为疔便用 p 求八数掘,埘录入时重复率高的信息采用数据字典方式录八“”“1 ,如教师职称、学历、 “ 数据字媳中的信启,为,r 放的动态存储,用,o 可以根据实际工作需要自行维护,增强系 统的灵活性,并保蚯了数据的准确| 生。同时,在构建多维数据集时,维度一般也是这些重 复;、帛的信息,凼为在进行数据分析时,往往要肘数据进行汇总操作,而这样的数掘聚 合起来何意义,o l a p 预聚合的特点也才能得以发挥。数据字典维护的界面立【| 幽3 4 : 囝34 数据字典袁维护 f i g u r e3 - 4 m a i n t a i n t h ed a t ad i c t i o n a r 第4 章科研管理与决策分析系统中数据仓库的设计与构建 4 科研管理与决策分析系统中数据仓库的设计与构建 对于高校的科研处来说,建立一套系统的最终目的并不只是进行数据的收集和简单统 计,而是要通过这些收集的数据充分了解科研情况,并发现影响科研质量的因素,为领导 制定有效的管理措施提供依据。传统的数据库技术己不能满足对大量数据的分析需求,为 这些数据提供一个良好的存储环境是数据有效利用的前提条件。本章根据数据仓库的相关 理论和方法,研究了在科研事务管理系统基础上设计和构建数据仓库的过程和方法。 4 1 数据仓库 如今,很多人已经意识到数据中包含潜在的有用信息,并踏踏实实地进行着从数据中 沙里淘金的工作。尤其在这个信息化时代,上至政府,下到企业,从银行到电信,再到网 站、超市,人们都希望用数据分析这根魔杖赢得先机。那么,数据分析的基础是大量异构 的数据,而数据仓库正是为这些数据提供一个了集成的平台。 4 1 1 数据仓库的特点 1 9 9 2 年,公认的数据仓库之父w i l l i a m h i n m o n 博士在其所著建立数据仓库一书 中提出了数据仓库的定义:数据仓库是一个面向主题的、集成的、稳定的和随时间变 化的数据的集合。它是支持当前企业在经营管理和决策活动中分析决策的有效方案。定义 中指出了数据仓库的四个特点1 n 盯 1 9 1 1 ) 面向主题 这个特性是从数据组织方面而言的,它不同于事务型信息系统。事务型信息系统中数 据的组织是面向应用( 事务处理) 的,以各自的应用领域划分。每个应用系统是整个企业 管理系统的一部分,各个业务系统之间各自分离。而数据仓库中的数据组织是面向主题( 分 析) 的,是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的 重点方面,逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象,是针对某 一决策问题而设置的。一个主题通常与多个事务型信息系统的数据相关。 2 ) 集成的 数据仓库的集成性有两层含义:一是指数据仓库是一个集中的中央数据库,它把整个 企业的事务型信息系统的数据库,外部数据源,有关文件中的数据合并在一起,形成一个 集中的数据信息源。另一层含义是指数据仓库中的数据是从原来分散的各个子系统中提取 出来,并不是原有数据的简单拷贝,而是在对原有分散的数据库数据抽取、清理的基础上 经过系统加工、汇总和整理得到的,因为数据仓库每个主题所对应的源数据有许多重复或 不一致之处。数据在加载到数据仓库中时,要按数据仓库中定义的统一格式进行数据的标 准化,以保持数据的质量,从而保证数据仓库内的信息是关于整个企业的一致的全局信息。 例如对于日期型的数据有用y y m m - d d 格式的,也有用y y m m d d 格式的;对于性别( 男 女) 定义有各种不同的编码方案,如0 ,1 或m 、f 表示,对于这些不一致格式的数据都 必须进行统一描述。对源数据的集成是数据仓库建设中最关键、最复杂的一步。 3 ) 稳定的 西安理工大学硕士学位论文 从数据使用方式上看,事务型数据库中的数据通常记录的是业务运作的情况,需要实 时更新。而数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是查询,一 旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库的数据对最终 用户而言是只读的,通常只需要定期的加载、刷新。 在事务型系统中存储的数据通常不超过一年( 根据具体的应用问题时间可长可短,一 般以满足业务处理要求为准) 。而数据仓库中通常需要存放5 一1 0 年甚至更长时间的数 据。可见,数据仓库中存储的数据量很大。 从数据内容上看,数据仓库存储的是企业当前和历史的数据,一定时间后,当前数据 需要按一定方法转换成历史数据。年代久远且查询效率低的数据需要从从数据仓库脱离到 廉价的慢速设备上,所以说数据仓库在一定时间间隔内是稳定的。 4 ) 随时间变化的 数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 掘金考试题库及答案解析
- 森林防火知识培训资料课件
- 梧州靠谱的法律知识培训课件
- 2025年市场营销岗位面试宝典与模拟题答案
- 桥梁知识义教课件
- 2025小儿外科、小儿骨科护士护理理论考试试题及答案
- 2025年市场调研员招聘面试预测题及数据分析技巧
- 2025注册验船师资格考试(C级船舶检验专业案例分析)经典试题及答案二
- 2026届上海中学、复旦附中等八校高三化学第一学期期末质量检测试题含解析
- 2025年软件开发工程师中级面试题库及答案解析
- 人工智能改变企业劳动力需求
- (新版)广电全媒体运营师资格认证考试复习题库(含答案)
- 2024年中考物理压轴题专项训练:电磁继电器核心综合练(原卷版)
- 矿山事故应急报告制度
- 2024-2025学年山东省淄博市桓台县四年级上学期数学期中考试试题
- 《公路建设项目文件管理规程》
- 《实践论》(原文)毛泽东
- 佳能-600EX-相机说明书
- ISO27001信息安全管理体系培训资料
- DB34T 3678-2020 内河航道疏浚工程施工技术规程
- 《绝对值》教学课件
评论
0/150
提交评论