(计算机应用技术专业论文)基于数据仓库技术的毕业生就业信息系统的研究.pdf_第1页
(计算机应用技术专业论文)基于数据仓库技术的毕业生就业信息系统的研究.pdf_第2页
(计算机应用技术专业论文)基于数据仓库技术的毕业生就业信息系统的研究.pdf_第3页
(计算机应用技术专业论文)基于数据仓库技术的毕业生就业信息系统的研究.pdf_第4页
(计算机应用技术专业论文)基于数据仓库技术的毕业生就业信息系统的研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机应用技术专业论文)基于数据仓库技术的毕业生就业信息系统的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江工业大学硕士学位论文 基于数据仓库技术的毕业生就业信息系统的研究 摘要 培养面向社会需要的有技能的应用型人才是中等职业技术学校的主要任务。在毕业生 就业过程中,用人单位找不到他们需要的员工,毕业生找不到合适的单位或岗位的矛盾日 益突出。因此,要想提高学生的就业率,提高其应用技能,首先要分析社会需要怎样的技 能人才,影响学生技能的因素有哪些,只有解决这些疑问才能使毕业生更好地走入社会, 成为社会需要的人才。目前,中等职业学校内部虽然也运行着各种管理信息系统,如学生 信息管理系统、教务信息管理系统、德育信息管理系统等,但都只是在传统数据库中收集、 保存数据,由于缺乏信息意识和技术平台,管理人员只能通过简单的统计或排序等功能获 得表面的信息,隐藏在这些数据中的信息一直没有得到进一步的分析利用。将数据仓库技 术引入中职学校学生信息管理中,对学生数据进行深入的分析,给学校领导层提供决策支 持是一个非常值得研究的课题。 本文综合利用数据仓库概念和o l a p 技术,对中职学校多年来积累的学生管理方面的 数据从多个方面进行分析,找出影响学生就业的关键因素、发现学生就业规律,为学校决 策者进行教育、教学改革,课程设置的调整提供决策依据。由于中职学校原有数据大多以 传统数据库的形式存储( 如a c c e s s 、m se x c e l 等) ,所以本系统以m i c r o s o f ts q ls e r v e r 2 0 0 0 为数据仓库平台,从多个事务处理数据库中抽取有用数据,并经过数据清理、数据转 换等操作,将海量的数据有效地管理起来;然后利用其中的a n a l y s i ss e r v i c e s 组件提供 的o l a p 分析功能,在数据库和数据仓库数据的基础上建立星型模型的多维数据集,通过 旋转、切片、切块和钻取等技术从不同的角度进行提取和分析,指出影响学生就业的各种 关键因素,从而为决策者提供有价值的数据信息,帮助决策者做出正确的决策。 围绕以上内容本文完成的主要任务包括:深入研究数据仓库、o l a p 技术;根据决策需 求建立以“学生就业为主题的数据仓库多维数据模型;实现o l a p 的多维分析,设计并 实现a d o 下的肋数据接口等。 关键词:就业,数据仓库,o l a p ,a d om d 接口 浙江工业大学硕士学位论文 t h er e s e a r c ho nt h ei n f o r m 幽汀i o ns y s t e m f o rt h eg r a d u a t e s ,e m p l o y m e n tb a s eo n d a t aw a r e h o u s e a b s t r a c t 们舱m a j o rt a s ko fas e c o n d a r yv o c a t i o n a ls c h o o li st op r o d u c es t u d e n t s 、析t l lq u a l i f i e ds k i l l s a n dp r a c t i c a la b i l i t i e s i nt h ej o b h u n t i n gp r o c e s s ,h o w e v e r , t h e r ei sag r o w i n gt e n d e n c yt h a tj o b o f f e r sc a n n o tf m dc a p a b l ee m p l o y e e sw h i l eg r a d u a t e sc a n n o tf m ds u i t a b l ep o s i t i o n s t h e r e f o r e , i no r d e rt oi m p r o v es t u d e n t sa p p l i e ds k i l l sa n dt h e i re m p l o y m e n tr a t e ,p r i o r i t i e sm u s tb eg i v e nt o a n a l y z ew h a tk i n do fs k i l l e d t a l e n t st h es o c i e t yn e e d sa n df a c t o r si n f l u e n c i n gt h es t u d e n t st og a i n t h o s es k i l l s a tp r e s e n t ,an u m b e ro fi n f o r m a t i o nm a n a g e m e n ts y s t e m sa r eb e i n go p e r a t e da m o n g s e c o n d a r yv o c m i o n a ls c h o o l s ,s u c ha ss t u d e n ti n f o r m a t i o nm a n a g e m e n ts y s t e m ,t e a c h i n ga f f a i r s i n f o r m a t i o nm a n a g e m e n ts y s t e m ,a n dm o r a le d u c a t i o ni n f o r m a t i o nm a n a g e m e n ts y s t e m ,e t c h o w e v e r t h e s es y s t e m sa r es i m p l yu s e dt oc o l l e c ta n ds t o r ed a t a 、析mt r a d i t i o n a ld a t a b a s e s d u e t oal a c ko fi n f o r m a t i o na w a r e n e s sa n dt e c h n i c a lp l a t f o r m ,a d m i n i s t r a t o r so n l yo b t a i ns o m e s u p e r f i c i a li n f o r m a t i o nt h r o u g hs i m p l es t a t i s t i c sa n ds e q u e n c i n g ,w h i l ei n f o r m a t i o nh i d d e ni nt h e d a t ah a sn o tb e e nf u r t h e ra n a l y z e do rf u l l yu s e d a d o p t i n gd a t aw a r e h o u s e ( d t oi n f o r m a t i o n m a n a g e m e n to fs e c o n d a r yv o c a t i o n a ls c h o o l sf o ra ni n - d e p t ha n a l y s i so fs t u d e n t s d a t ai ns u p p o r t o fs c h o o l sd e c i s i o n - m a k i n gi saw o r t h w h i l er e s e a r c hp r o j e c t m a k i n gf u l lu s eo fd wc o n c e p ta n do l a p ( o n l i n ea n a l y s i sp r o c e s s i o n ) t e c h n i q u e ,t h e p a p e ra n a l y z e s a l lt h ed a t a c o n c e r n i n gs t u d e n tm a n a g e m e n ta c c u m u l a t e db ys e c o n d a r y v o c a t i o n a ls c h o o l sa l lt h r o u g ht h ey e a r s ,i d e n t i f i e sk e yf a c t o r si n f l u e n c i n gs t u d e n t s e m p l o y m e n t , a n df i n d so u tt h er u l e sr e g u l a t i n gs t u d e n t s e m p l o y m e n t ,s oa st op r o v i d ed e c i s i o n - m a k e r sw i t h g r o u n d so nt e a c h i n gr e f o r ma n dc u r r i c u l u ms e t t i n g s i n c ep r e v i o u sd a t aa r em o s t l ys t o r e db y m e a n so ft r a d i t i o n a ld a t ab a s e ss u c ha sa c c e s sa n dm se x c e le t c ,t h i ss y s t e mt a k e sm i c r o s o f t s q ls e r v e r2 0 0 0a sad wp l a t f o r m ,t oe x t r a c tu s e f u ld a t af r o mm u l t i p l et r a n s a c t i o n - p r o c e s s i n g d a t ab a s e sf o re f f i c i e n tm a n a g e m e n to fm a s sd a t at h r o u g hd a t ac l e a r i n ga n dt r a n s f o r m a t i o n ;t h e n i i 浙江工业大学硕士学位论文 i tm a k e s 嘁o fo l a pf u n c t i o np r o v i d e db ya n a l y s i ss e r v i c e st ob u i l dm u l t i - d i m e n s i o n a lc u b eo f n e t w o r km o d e l s ;b a s e do nt h ec u b e ,d a t aa 陀e x t r a c t e da n da n a l y z e dw i t l ls u c ht e c h n i q u e sa s r o t a t i n g ,s l i c i n g ,s e c t i o n i n g , a n dd r i l l i n g , i no r d e rt of i n do u tk e yf a c t o r si n f l u e n c i n gs t u d e n t s e m p l o y m e n t t h u s ,v a l u a b l ed a t ai n f o r m a t i o ni sp r o v i d e df o rd e c i s i o n m a k i n g f o c u s i n go nt h ea b o v e m e n t i o n e dc o n t e n t ,m a j o rt a s k sf o rt h ea u t h o rt ou n d e r t a k ei n c l u d e : m a k i n ga ni n - d e p t hs t u d yo nd wa n do l a p ;b u i l d i n gm u l t i - d i m e n s i o n a ld a t ab a s e do nt h e t h e m eo f s t u d e n t s e m p l o y m e n t d e m a n d e db yd e c i s i o n - m a k e r s ;a n a l y z i n go l a pf r o mv a r i o u s p e r s p e c t i v e sa n dd e s i g n i n ga n de s t a b l i s h i n ga d o m d i n t e r f a c e k e yw o r d s :e m p l o y m e n t ;d a t aw a r e h o u s e ;o l a p ;a d om d i n t e r f a c e 浙江工业大学 学位论文原创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工作 所取得的研究成果。除文中已经加以标注引用的内容外,本论文不包含其他个人或 集体已经发表或撰写过的研究成果,也不含为获得浙江工业大学或其它教育机构的 学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体,均已在文中 以明确方式标明。本人承担本声明的法律责任。 作者签名佰之睁 日期莎稗s 月;j 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留 并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本 人授权浙江工业大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 本学位论文属于 l 、保密口,在年解密后适用本授权书。 2 、不保密吖 ( 请在以上相应方框内打“) 作者签名:信蒸群、 刷醴辄钌参 日期:矽矿年d - 月ie 1 日期:夕多年岁月;f e l 浙江工业大学硕士学位论文 第1 章绪论 1 1 论文的背景及意义 随着现代信息技术、通讯技术、数据库技术、网络技术和计算机技术的高速发展以及 数据库管理系统的广泛应用,人们积累的数据越来越多。据统计,全球的信息量每2 0 个 月翻一番。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分 析,以便更好地利用这些数据。面对“人们被数据淹没,人们却饥饿于知识 的挑战,数 据仓库和数据挖掘技术应运而生【i j 。如何迅速、准确、有效地提供用户所需的信息,发现 信息之间潜在的联系,支持管理决策就是数据仓库和数据挖掘要解决的课题。 近年来,国家对职业教育的发展日益重视,我国职业教育实现了又快又好的发展,各 项工作取得新的显著成绩。2 0 0 5 年全国职教会议决定,国家在“十一五 期间将投入1 0 0 亿,国家发改委每年投入1 0 个亿,重点建设2 0 0 0 个职业教育实训基地,i 0 0 0 个县级职教 中心,1 0 0 0 所示范性中等职业学校和i 0 0 所示范性高职,每年拿出1 6 亿元资助贫困职教 生。2 0 0 5 年扩招i 0 0 万的基础上,2 0 0 6 年再扩招中职生1 0 0 万,2 0 1 0 年中职招生达到8 0 0 万,与普通高中招生规模大体相当f 2 。3 1 。教育部部长周济指出,我国中等职业教育发展已进 入快车道,招生规模迅速扩大。截至2 0 0 6 年,我国中等职业教育经过连续两年增幅超过 1 0 ,2 0 0 6 年实现招生7 4 1 万人。2 0 0 7 年招生总规模达到8 0 0 万人,提前完成2 0 1 0 年的 目标,中等职业教育与普通高中教育的比例已趋于合理。2 0 0 5 年、2 0 0 6 年,中央财政已 投入3 7 亿元,重点支持了7 6 3 个职业教育实训基地、4 4 6 个县级职教中心和4 6 8 所示范性 中等职业学校的建设 3 1 ,职业教育基础能力建设取得阶段性成果。 虽然中等职业教育前景一片大好,但毕业生就业的压力却与日俱增。每年都有大量的 中等职业学校的毕业生奔赴社会,寻找理想的展示自己才华的舞台。然而,随着就业市场 的不断改革,各种因素极大地影响着中等职业学校毕业生的就业率。各行各业急需大量的 具有实际技能的新生劳动者,而大批中等职业学校的毕业生却未能在适合自己的岗位上发 挥作用,从而形成了一个十分严峻的就业形势。面对如此严峻的就业形势,如何增强自身 的竞争力,以长补短,促进本校的发展,提高毕业生的就业率,也是各中等职业学校苦思 冥想的问题。 教育的目的是为社会培养大量人才,所以衡量学校教育成功与否的根本标准是其培养 1 浙江工业大学硕士学位论文 的学生在社会中被认可的程度,就业情况是一种很好的体现。就业情况已成为影响学校生 存与发展的重要因素。2 0 0 7 年1 1 月2 4 日,由中国管理科学研究院教育科学研究所与中青 世嘉教育机构合作完成的( 2 0 0 7 年全国职业院校毕业生就业质量调查报告公布,该报告 为完善毕业生就业服务体系提供了新的思考与借鉴 4 1 。调查发现中等职业院校毕业生的就 业超过半数依赖学校的推荐,社会需要怎样的人才,成了中职学校专业设置与课程设置首 先要考虑的问题。设计面向毕业生就业的数据仓库分析系统的目的是:利用历届毕业生在 校学习、生活以及就业后一年中所积累的大量数据,发掘出与就业有关的知识,以指导学 校的专业建设、课程建设、学生管理及学生特殊技能培养。 1 2 数据仓库的研究和应用 1 、数据仓库 在传统数据处理领域,通常是以操作型处理为主,即事务处理。一般在特定业务的应 用中,人们所关心的是响应时间、安全性及完整性,如果说联机事务处理强调的是更新数 据库,即向数据库中添加信息,通常是对一个或一组记录的查询和修改。但随着数据的不 断积累,体积日趋庞大,业务中心也转移到了对大量数据中有价值的信息进行筛选、分析, 从单一数据库为中心的数据环境发展为数据库体系环境,即联机分析系统。为了实现该目 的,出现数据仓库( d a t ew a r e h o u s e ,d w ) ,其发展是网络时代的数据特征,通过对信息 的分析、归纳和学习,做出科学的决策,也是数据库系统应用到一定阶段的必然产物【5 j 。 19 9 2 年,w h i n m o n 在其著作( b u i l d i n gt h ed a t aw a r e h o u s e ) 一书中提出了“数据仓 库( d m aw a r e h o u s e ,d w ) ”的概念:数据仓库是一个面向主题的、集成的、永久的且随时 间不断变化的数据集合,用来支持管理层的决策【6 j 。数据仓库很好地解决了如何从多种数 据源和“海量 数据中获取有效的、一致的决策支持信息,及时准确地把握市场变化的脉 搏,做出正确有效的判断和决策这一课题,由此,数据仓库的研究和应用得到了广泛的关 注。数据仓库技术做为一种数据管理手段,主要用于事务处理,能够将不同环境、不同系 统的数据统一起来,以形成一个综合的数据环境,是一种对不同系统数据实现集成和共享 的综合性解决方案【6 】,1 9 9 5 年数据仓库开始盛行起来。数据库技术的广泛应用和日益普及, 给信息社会带来新的契机,逐渐成为i n t e m e t 之后的又一技术热剧7 。8 l 。随着各种计算机技 术,如数据模型、数据库技术和应用开发技术的不断进步,数据仓库技术也不断发展,并 在实际应用中发挥了巨大的作用。 2 、数据仓库在国外的应用 2 浙江工业大学硕士学位论文 目前,美国3 0 到4 0 的公司已经或正在建造数据仓库。以数据仓库为基础,以联机 分析处理和数据挖掘工具为手段的分析系统日渐成熟。当企业积累了大量的业务数据之 后,要充分利用这些资源,根据它们做出决策,所依赖的基础技术就是数据仓库。 i d c ( i n t e m a t i o n a ld i g i t a lc e n t e r ) 在1 9 9 6 年的一次对9 0 年代前期进行的6 2 个数据仓库项目 的调查结果表明:进行数据仓库项目开发的公司在平均2 7 3 年的时间内获得了平均为3 2 1 的投资回报率【9 】。使用数据仓库所产生的巨大效益同时又刺激了对数据仓库技术的需求, 数据仓库研究开发和应用的大潮席卷而来。 大型企业几乎都在建立或计划建立自己的数据仓库系统,数据库厂商也纷纷推出自己 的数据仓库软件。己经成功建立和使用的数据仓库应用系统都取得了明显的经济效益。i b m 的数据仓库产品d b 2 u d b 于1 9 9 8 年1 2 月推向中国市场,除了用于联机分析处理的后台 服务器d b 2 0 l a p s e r v e r 外,i b m 还提供了包括前端工具等一系列的相关产品,形成一整 套解决方案。同时,o r a c l e 采取了类似的方法。i n f o r m i x 也是如此,在其动态服务器 i d s ( i n f o r m i xd y n a m i cs e r v e r ) 中提供一系列相关选件,如高级决策支持选件( a d v a n c e d d e c i s i o ns u p p o r to p t i o n ) ,o l a p 选件( m e t a c u b cr o l a po p t i o n ) 、扩展并行选件( e x t e n d e d p a r a l l e lo p t i o n ) 等。而微软则是在其s q ls e r v e r7 0 中集成了代号为p l a t o 的o l a p 服务器。 与上述公司不同的是,s y b a s e 提供了数据仓库平台s y b a s ei q ,并将其与数据仓库相关工具 打包成w a r e h o u s es t u d i o 。目前,世界上最大的数据仓库系统当数n c r 公司建立的基于 t e r a d a t a 数据库、拥有1 0 1 t b 数据容量的w a l m a r t 数据仓库系统0 1 。 随着数据仓库的发展,联机分析处理( o n - l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 技术逐渐 与其相集成,数据仓库技术提供数据基础,o l a p 技术管理汇总数据,与决策者进行交互, 两者已经发展成为一个有机的整体。因此,有些学者认为广义的数据仓库应该包括o l a p 技术。 3 、数据仓库在国内的应用 在我国,数据仓库技术起步要晚于国外。但在学术会议及杂志上发表的论文对数据仓 库的研究己由介绍概念、“试论 、“浅析 的初级阶段,逐步进入了理论上深入剖析、 实践中建立系统的阶段【l l 】。 早期,国内对数据仓库的应用大多是停留在报表功能上,虽然在做项目时都会有各种 分析、决策的功能,但在实际应用中却很少使用。主要原因是企业内部人员对数据仓库的 功能、作用没有真正的理解和认识,只觉得做起报表来很容易很方便,所以对其他功能和 作用不关心,还有就是系统开发时时没有真正考虑到什么样的界面和功能便于用户使用。 3 浙江工业大学硕士学位论文 所以国内的数据仓库项目应该以实现企业报表为基础,逐步过渡到利用数据仓库来进行深 层次的分析和挖掘【1 2 】。实施数据仓库时需要针对不同层次的用户来定制前端展示方式: 业务人员,他们需要的是报表,他们只要一打开系统,就能得到他们想要的数据;对于部 门经理,需要加入一些相应的分析功能,分析他们所关心的问题;对于企业的决策者,他 们需要的是格式简单的报表,能对企业的经营情况一目了然。 随着对数据仓库技术的不断研究与探索,国内一些大型企业相继实施了比较成熟的数 据仓库计划,涌现出一些成功的数据仓库应用范例。这些应用涵盖了金融、电信、制造、 能源、政府、互联网等多个行业或部门,具体的商业智能应用涉及到财务、市场、运营、 销售等多个应用领域【1 3 。4 1 。如招商银行采用s u n 与s y b a s e 的产品构筑开放的数据仓库应 用平台,建立了国内业界第一个成功可用的数据仓库业务系统,目前该数据仓库系统应用 情况良好,对公系统、人事系统、储蓄系统等运行顺利,特别是储蓄系统业务实践取得了 成功。利用i b m 的i a a ( 保险应用架构,i n s u r a n c ea p p l i c a t i o na r c h i t e c t u r e ) 和u w ( 保险信 息仓库,i n s u r a n c ei n f o r m a t i o nw a r e h o u s e ) 两个数据模型,中国人民财产保险公司建立了较 成熟的数据仓库系统。使用c r y s t a lr e p o r t s 软件为中石化集团的“进出口信息综合分析和 服务系统”数据仓库项目带来了灵活的数据查询功能与功能强大的报表展现平台,报表应 用系统通过浏览器浏览报表、进行查询、分析等操作,不需要下载任何插件,实现了高效 运作,也改变了原来分公司不能进行数据报表查询的状况。等等。 4 、数据仓库在教育系统中的研究和应用 随着计算机技术和网络技术的不断发展,基于网络的教务管理系统在各级各类学校得 到广泛应用,并发挥了巨大作用。1 9 9 4 年,国家教委主持的“中国教育科研网( c e r n e t ) 正式启动,标志着我国教育行业的信息化真正开始了。经过十几年的发展,学校信息化规 模不断扩大,到2 0 0 6 年底,全国有9 5 以上的高校已经建立校园网f l 引。 目前高校内部运行的教务管理系统有很多,主要有:清华大学综合教务管理系统、 a o l o n g 综合教务管理系统、青果教务管理系统、应龙教务管理软件、正方教务管理信 息系统等。各系统基本包括了综合教务管理、排课系统、选课系统、用户管理、教材管理、 教学评估、师资管理、四六级管理、教科研管理、毕业管理等模块,在各高校运行中取得 了良好的效果【1 5 1 。但这些教务管理系统也存在着不足之处,如欠缺对隐藏在数据背后的 有用信息的多维分析;在使用过程中,积累了大量的数据没有得到有效利用;数据分析功 能比较弱,没能对管理决策问题提供足够的支持等等。 作为新型的数据库管理技术,数据仓库技术被引入学校教学管理之中。虽然数据仓库 4 浙江工业大学硕士学位论文 技术在教育领域应用时间比较晚,范围比较小,但利用数据仓库技术对教务管理系统现存 的数据进行分析,已成为教育信息化进程中各学校教务管理所热衷研究的新课题。传统教 务管理系统中积累了大量的数据,数据仓库对这些数据进行分析,进而为学生、教师和管 理人员提供服务。同时对现有教务管理系统中的数据进行多角度的分析,以发现对学校教 学管理、学生管理有用的知识,辅助学校管理者决策,提高教学质量、优化教学资源、增 强学校的竞争力,为学校各级领导部门的决策,提供切实可行的依据,为学校未来的发展 提供更广阔的空间【1 6 1 。但在众多的学校教务管理数据仓库系统研究中,对毕业生的就业 管理的研究仍然是空白,没有形成一个完整的、系统的数据仓库系统,来提供就业信息的 决策支持。 中等职业学校,教务管理系统还只在数据库阶段,现有的学校教务管理系统只是作为 数据登记、收集的作用,以普通报表的形式显示现有的信息【1 7 】。而数据仓库技术的应用 则远远落后于高校,没有一个完整的数据仓库系统,对积累的大量数据进行分析。所以在 中职学校的教务管理系统中引入数据仓库,分析现有数据,发现毕业生就业情况与学校的 课程、专业设置,与学生的在校表现,与学生的居住地、性别、家庭情况等的关联,为决 策者提供事实依据,提高中职学校的竞争力,提高中职学校毕业生的就业率,是一个非常 值得研究的课题。 1 3 论文研究方向及目标 本人将通过大量研读有关数据仓库、联机分析处理的理论和技术资料,学习和分析 现有各种数据仓库解决方案;在充分对本区中职学校现有教务管理系统的分析,对已就 业学生回访调研的基础上,提出一个结构清晰、层次分明的学生就业数据仓库方案;最 终,将所设计方案用于组建测试系统,并提供灵活、迅捷的多维查询功能与友好的报表 展示界面。 本文主要进行了以下几个方面的研究工作: 1 、研究了毕业生就业信息系统的功能、架构、组成以及相应的数据仓库技术在其中 的应用: 2 、以毕业生在校期间信息与就业一年内回访问卷的调查结果为依据,分析了历届毕业 生的就业情况与在校表现之间的关系,能给未来职业技能培养方向做出预设; 3 、给出了毕业生就业信息系统多维分析o l a p 立方体,并为学校课程和专业设置提供 决策支持。 5 浙江工业大学硕士学位谂文 1 4 论文的结构 本文的结构安排如下: 第一章绪论 主要介绍了论文的背景、意义、国内外相关研究成果及本课题的研究方向 第二章数据仓库和o l a p 概述 深入探究了数据仓库的特点、数据组织形式以及体系结构;介绍o l a p 联机处理的基 本概念与操作,以及o l a p 与数据仓库的关系;并简单介绍了数据预处理过程。 第三章需求分析 本章根据系统功能要求对系统的需求分析做了全面介绍。根据系统功能与要求,给出 系统的整体框架图、工作流程及用例图等。 第四章系统框架模型 本章详细介绍系统的逻辑结构,给出系统的网络结构与流程设计,并简单介绍了所采 用的软件平台,即m ss q ls e r v e r2 0 0 0 的功能与组件。 第五章数据仓库的实现 本章首先介绍了数据仓库建立的步骤;给出就业信息数据仓库的模型、数据仓库的设 计过程、数据仓库系统的实现过程;根据事实表与维表,创建多维数据集,并在多维数据 集中浏览数据;给出数据仓库优化设计方法。 第六章系统前端展示与实现 本章详细介绍了使用m ss q ls e r v e2 0 0 0 中的a n a l y s i ss e r v i c e s 工具设计系统客户 端,并在a s p a d om d 技术的基础上,建立了w e b 与数据仓库的接口;设计了o l a p 在系统 中的应用以及系统的维护方法。 第七章结论与展望 本章总结了设计与完成系统的工作情况,并提出了系统的不足之处与存在的问题,提 出了今后研究的方向。 浙江工业大学硕士学位论文 第2 章数据仓库和o l a p 概述 2 1 数据仓库 2 1 1 数据仓库的特点 根据w h i n n 3 0 n 对数据仓库的定义,数据仓库的概念可以从两个层次予以理解【1 8 1 ,首 先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库; 其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历 史数据,而且存放在数据仓库中的数据一般不再修改。 根据数据仓库概念的含义,数据仓库拥有以下四个特点【1 9 j : l 、面向主题( s u b j e c to r i e n t e d ) 。数据仓库中的数据是按照一定的主题域进行组织的。 用户使用数据仓库进行决策时所关心的重点方面称之为主题,一个主题通常与多个操作型 信息系统相关。 2 、集成的( i n t e g r a t e ) 。数据仓库中的数据是从原来分散的各个子系统中抽取、清理, 并经过系统加工、汇总和整理得到的。数据仓库内的信息是关于整个企业的一致的全局信 息,所以必须消除源数据中的不一致性和错误之处,以保证数据的质量。 3 、永久的( n o n - v o l a t i l e ) 。在数据仓库中,数据一旦被写入,应该不再变化。数据仓 库的数据主要供决策分析之用,数据进入数据仓库以后,一般情况下将被长期保留,所涉 及的数据操作主要是数据查询,修改和删除操作很少。 4 、随时间变化的( t i m ev a r i a n t ) 。数据仓库中的数据通常包含历史信息,系统记录了 从过去某一时点( 如开始应用数据仓库的时点) 到目前的各个阶段的信息,通过这些信息, 可以对以往的发展历程和未来趋势做出定量分析和预测。在使用一段时间以后,系统管理 员或者系统自动地会将查询率较低的数据、对分析不再有用的数据从数据仓库中删除,或 者加入新的数据到数据仓库中。 2 1 2 数据仓库的数据组织 1 、数据的组织结构 6 1 图2 - i 中列出了d w 中数据的四个级别:早期细节级( 通常是存储在备用海量存储器 上) ,当前细节级,轻度综合级( 数据集市级) ,高度综合级。综合后的源数据,首先进入 浙江工业大学硕士学位论文 当前细节级,并根据具体需要进行进一步的综合进入轻度综合级乃至高度综合级,老化的 数据将进入早期细节级。数据由操作型环境导入数据仓库。相当数量的数据转换通常发生 在数据由操作层向数据仓库层传输的过程中。整个d w 的组织结构是由元数据组织的。d w 中存在的不同综合级别,称之为“粒度”。粒度越大,表示细节程度越低,综合度越高。 级别的划分是根据粒度进行的。 图2 1数据仓库的数据组织结构 高度综合级 轻度综合级 ( 数据集市) 当前细节级 早期细节级 元数据( m e t a d a t a ) 是数据仓库的一种重要数据刚,是“关于数据的数据。在数据仓 库环境下,主要有两种元数据:第一种是为了从操作性环境向数据仓库转化而建立的元数 据,包含了所有源数据项名、属性及其在数据仓库中的转化;第二种元数据在数据仓库中 是用来和终端用户的多维商业模型前端工具之间建立映射,此种元数据称之为d s s ( d e c i s i o ns u p p o r ts y s t e m ) 元数据,常用来开发更先进的决策支持工具。 2 、粒度与分区 粒度 粒度指的是数据仓库中的数据单元的细节程度或综合程度的级另l j t 2 1 1 。粒度是数据仓库 设计中的重要方面,因为它既影响存放在数据仓库中的数据量的大小,又影响着数据仓库 所能回答的查询类型。粒度级别越低,细节程度就越高,而综合程度也越低,查询范围就 会越广泛。当要提高存储与访问数据的效率与分析数据的能力时,数据仓库的细节部分会 选择双重或多重粒度级别。由于数据仓库的主要作用是d s s 分析,因而绝大部分查询都基 于一定程度的综合数据之上,而只有极少的查询涉及细节。从数据仓库中取得的真实档案 数据或轻度综合数据的一个子集,形成活样本数据库是改变粒度级,进行d s s 处理的另一 r 浙江t 业大学硕士学位论文 种方法。 分区 数据分区是指将数据分散到各自的物理单元中去以便能进行独立处理f 2 2 1 。数据分区后 的数据单元称为分片。在进行实际的分析处理时,最常见的是对存在某种相关性的数据集 合的分析,如对某一时间或某一时段的数据的分析、对某一地区的数据的分析、对特定业 务领域的数据的分析等等,如果将具有这种相关性的数据组织在一起,无疑能使效率提高, 所以恰当地进行数据分区能给数据增长与管理带来方便。 数据分区的标准可以根据实际情况来确定,通常可选择按日期、地域或业务领域等来 进行分割,也可以按多个分割标准的组合来进行。一般而言,分割标准总包括日期项( 很 多数据仓库设计软件默认了日期项) ,这种标准自然而且分割均匀。分区之后,小单元内 的数据相对独立,处理起来更快,更容易。数据分区使数据更易于重构、索引、重组、恢 复、监控和顺序扫描。 2 1 3 数据仓库的体系结构 数据仓库系统的体系结构包括四个层次2 3 。2 4 l ,如图2 2 。 数据仓库创建以后,所需的数据要从数据源中经过e t l 处理后才能抽取并存储,然后 根据用户的需求再将数据发布到数据集市。当用户通过前端工具使用数据仓库时,可以通 过联机处理o l a p 等数据仓库应用工具向数据集市或数据仓库进行决策查询分析或知识挖 掘。 。一一,l “i 。 j :li ii 删( i o l a p 服务器 i i 蜀i i 目 i i 一歹 i 二二二二:,一i l 数据仓库;一上一坠 i 一一一一,i :i 厂ii ii ”_ 引一i : ”二刁li il 图2 - 2 数据仓库的体系结构 9 贝 具 具 孓 工 工 t j 菖 表 折 1 鲫 艨 撕 新 浙江工业大学硕士学位论文 数据源:是数据仓库系统的基础。包括各类数据库文档、e x c e l 文档、文本文档、 w c b 文档等信息。 e t l :数据抽取与存储,是整个数据仓库系统的核心。针对现有系统的数据,进 行抽取、清洗、加载,建立数据仓库。数据仓库的数据抽取是数据仓库成功的关键。 数据仓库:是数据集中存放的地方。其突出的特点是对海量数据的支持以及规范 化的结构( 星型或者雪花型结构) 。 数据集市:为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分 数据,也可称为部门数据或主题数据。在数据仓库的实施过程中往往可以从一个部门的数 据集市着手,以后再用几个数据集市组成一个完整的数据仓库。需要注意的就是再实施不 同的数据集市时,同一含义的字段定义一定要相容,这样在以后实施数据仓库时才不会造 成大麻烦。 o l a p 服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进 行多角度、多层次的分析,并发现趋势。 前端工具:通过为用户提供一套前端数据访问和分析工具,来实现用户( 业务决 策人员、各级管理人员和业务分析人员) 方便灵活的使用数据仓库中存储的数据,达到数 据仓库工程的预定目标。目前市场上能获得的数据访问和分析工具种类繁多,主要有关系 型查询工具、关系型数据的多维视图工具、d s s e i s 软件包和客户栅服务器工具等4 大 类。如各种查询工具、报表工具、分析工具、数据挖掘工具等。 2 2 联机处理o l a p 2 2 1o l a p 基本概念 在数据仓库中,存储数据的目的是为了查询、分析和传送。由于用户的需求是未知 的、临时的、模糊的,因此在决策中需采用多维分析的方法。维是人们观察现实世界的角 度,多维数据分析( m u l t i d i m e s i o n a ld a t aa n a l y s i s ,m m d a ) 是数据仓库技术最重要的 特点,指以多维方式来组织数据和显示数据。要有效地利用数据仓库的信息资源,必须有 强大的工具对数据仓库中的信息进行分析决策。联机分析处理( o n - l i n ea n a l y t i c a l p r o c e s s i n g ,o l a p ) 就是一个得到广泛应用的数据仓库使用技术。使用o l a p 工具可以 分析和深入研究数据,发现趋势,看到异常情况,并得到重要的细节。联机分析技术从数 据仓库中的集成数据出发,构建面向分析的多维数据模型,利用这个带有普遍性的数据分 析模型,用户可以使用不同的方法,从不同的角度灵活地对数据进行分析,直观地显示分 1 0 浙江工业大学硕士学位论文 析结果,实现了分析方法和数据结构的分离【2 5 五6 1 。 o l a p 技术主要有两个特点【2 7 1 :一是在线性( o n - l i n e ) ,对用户请求的快速响应和交 互操作,它的实现由客户机服务器体系结构完成的:二是多维分析( m u l t i a n a l y s i s ) ,这 也是o l a p 技术的核心所在。 根据o l a p 产品的实际应用情况和用户对o l a p 产品的需求,人们提出了对o l a p 更简单明确的定义,即共享多维信息的快速分析。因此,o l a p 应该具有以下几个方面的 特征【2 8 - 2 9 1 : l 、快速性。用户对o l a p 的快速反应能力有很高的要求。要求系统能在3 - - 5 秒钟 内对用户的多数分析要求做出反应,如果终端用户在3 0 秒种内没有得到系统响应就会变 得不耐烦,因而可能失去分析主线索,影响分析质量。对于大量的数据分析要达到这个速 度并不容易,因此需要一些技术上的支持,如专门的数据存储格式、大量的事先运算、特 别的硬件设计等。 2 、可分析性。o l a p 系统应能处理与应用有关的任何逻辑分析和统计分析。尽管系 统可以事先编程,但并不意味着系统定义了所有的应用。在应用o l a p 的过程中,用户 无需编程就可以定义新的专门计算,将其作为分析的一部分,且以用户所希望的方式给出 报告。用户可在o l a p 平台上进行数据分析,也可连接到其他外部分析工具上,如时间 序列分析工具、成本分配工具、数据挖掘等。 3 、多维性。多维性是o l a p 的关键属性。系统能够提供对数据分析的多维视图和分 析,包括对层次维和多重层次维的支持。事实上,多维分析是分析企业数据量有效的方法, 是o l a p 的灵魂。 4 、信息性。不论数据量有多大,也不管数据存储在何处,o l a p 系统应能及时获得 信息,并且管理大容量信息。这里有许多因素需要考虑,如数据的可复制性、可利用的磁 盘空间、o l a p 产品的性能以及与数据仓库的结合度等。 o l a p 中常用的一些基本概念有3 0 】: 1 、变量( v a r i a b l e ) 。变量是数据的实际意义,即描述数据“是什么”。例如,数据 1 0 0 本身并没有意义或者说意义未定,它可能是一个学校的学生人数,也可能是某产品的 单价,还可能是某商品的销售量等等。一般情况下,变量总是一个数值度量指标,例如人 数、单价、销售量等都是变量,而1 0 0 则是变量的一个值。 2 、维( d i m e n s i o n ) 。维是人们观察数据的特定角度。例如,用户常从时间的角度来 观察产品的销售,此时时间就是一个维。企业也时常关心自己的产品在不同地区的销售分 浙江工业大学硕士学位论文 布情况,这是从地理分布的角度来观察产品的销售,所以地理分布也是一个维( 地理维) 。 其他还有如产品维、顾客维等。 3 、维层次( d i m e n s i o nh i e r a r c h y ) 。用于描述用户观察的不同细节程度数据的角度。 例如,描述时间维时,可以有日期、月份、季度、年等不同层次。 例如,在学生就业地区维上就包含了市与各城区两个层次的简单层次关系( 见图2 3 ) , 也可以包含市、各城区、各镇、各街道较复杂的层次关系( 见图2 4 ) 。 图2 3 就业地区维的简单层次关系图 图2 _ 4 就业地区维的复杂层次关系图 这种不同层次关系的出现完全

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论