




已阅读5页,还剩63页未读, 继续免费阅读
(计算机应用技术专业论文)高校招生决策支持系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨工程大学硕士学位论文 摘要 随着高校招生规模的不断扩大,招生方式的多元化、自主化,招生数量 正逐年增加,专业设置及生源素质都在发生变化。几乎每所高等院校都面临 着生源急剧膨胀而带来的资源相对紧缺问题;同时高校机构改革中将不同地 域的几所学校及校内部门的合并,都给高校管理带来了前所未有的发展和挑 战。在这样的形势下,高校如何以最小的代价获得最大的发展,则已成为一 个有待研究解决的新课题。 本文以某高校的招生数据为例,以数据仓库技术为基础,利用联机分析 处理和数据挖掘技术为数据分析手段,通过对高考历史数据的全面分析来构 建新型的招生决策支持系统,从而在为社会提供高效、准确的高考决策支持 方面做一些有意义的尝试和探索。 高校招生决策支持系统在高校招生领域的应用,能从招生信息中发现各 种潜在的有价值的知识,从而为招生工作提供决策支持,以便高校在快速变 化的竞争中把握发展方向。 关键词:数据仓库;数据挖掘;决策支持系统;高校招生 哈尔滨 _ 程大学硕十学位论文 a b s t r a c t w i t ht h ee x p a n d i n go ft h ee n r o l l m e n ts c a l eo fu n i v e r s i t i e s ,a n dt h ed i v e r s i t y , a u t o n o m yo fe n r o l l m e n t ,t h en u m b e ro fs t u d e n t si si n c r e a s i n gy e a rb yy e 碣a n d t h eq u a l i t yo fs p e c i a l t ys e t t i n ga n dt h es t u d e n tc a n d i d a t e sa l ec h a n g i n g a l m o s t e v e r yu n i v e r s i t yh a st of a c et h ep r o b l e mt h a tt h er a p i de x p a n s i o no ft h es t u d e n t s m a k e st h er e s o u r c e ss h o r t a g e a tt h es a m et i m e ,t h ea m a l g a m a t i n go fd i f f e r e n t r e g i o n so ft h ef e wu n i v e r s i t i e s o rd i f f e r e n td e p a r t m e n t so fau n i v e r s i t y , m a k e u n i v e r s i t yf a c ew i t hn e wo p p o r t u n i t i e sf o rd e v e l o p m e n ta n dn e wc h a l l e n g e s u n d e rs u c hc i r c u m s t a n c e s ,h o wt om i n i m i z et h ec o s to fa c c e s st ot h eb i g g e s t d e v e l o p m e n ti s ap r o b l e mt ot h eu n i v e r s i t i e s t h i sr e s e a r c ht a r g e ti sac e r t a i nu n i v e r s i t y , b a s i n go nt h ed a t aw a r e h o u s e t e c h n o l o g y , u s i n gt h eo n l i n ea n a l y t i c a lp r o c e s s i n ga n dd a t am i n i n gt e c h n o l o g y a n e wt y p eo fa d m i s s i o nd e c i s i o ns u p p o r ts y s t e mw i l lb ec o n s t r u c t e dt h r o u g ha c o m p r e h e n s i v ea n a l y s i so ft h eh i s t o r i c a ld a t ao fe n t r a n c ee x a m s f o ru n i v e r s i t i e s t h er e s e a r c hs h o w st h a tt h ea p p l i c a t i o no fu n i v e r s i t i e sr e c r u i t m e n to f s t u d e n t sd s si nt h ee n r o l l m e n tf i e l dc a nh e l pt of i n dp o t e n t i a la n dv a l u a b l e k n o w l e d g ef r o mr e c r u i ti n f o r m a t i o n ,w h i c hw i l lp r o v i d ed e c i s i o ns u p p o r tt o e n r o l l m e n ts c i e n t i f i c a l l ya n dh e l pt h eu n i v e r s i t yt og r a s pt h eo r i e n t a t i o ni nf i e r c e c o m p e t i t i o n k e yw o r d s :d a t aw a r e h o u s e ;d a t am i n i n g ;d d s ;u n i v e r s i t ye n r o l l m e n t 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下, 由作者本人独立完成的。有关观点、方法、数据和文献的引用 已在文中指出,并与参考文献相对应。除文中已注明引用的内 容外,本论文不包含任何其他个人或集体己经公开发表的作品 成果。对本文的研究做出重要贡献的个人和集体,均已在文中 以明确方式标明。本人完全意识到本声明的法律结果由本人承 担。 1, 作者( 签字) :签互蟒 日期:夕7 年乡月阳日 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 口在授予学位后即可口在授予学位1 2 个月后口 解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) :套艘褒导师( 签字) j 徽 日期:力年朔厂钼幽年之月c u 日 哈尔滨t 程大学硕十学位论文 第1 章绪论 1 1 课题背景及研究意义 随着高校招生规模豹不断扩大,招生方式的多元化、宣主化,高校之阆 的竞争日趋激烈。各高校都出现了不同程度的教师紧缺现象:学科及专业结 构的矛盾b 益突出,有的学校不根据社会上的人才需求情况而盲目扩大招生, 从而导致大学生就业时结构性失业的发生。另外,高校在选拔人才时,往往 只有高考分数这一唯一尺度;考生填报志愿时,也无法了解各高校的综合实 力信患,都没有一个霹供辅助决策支持的手段,这也是一个突出的问题。以 上突出问题直接影响了高校的办学水平和人才培养质量,给毕业生就业造成 了嚣大压力。因此如俺充分利用现有的招生信怠资源、如何以最小的代价获 得最大的发展,如何使高校在每年的招生宣传、招生计划投放、学院专业设 置、生源选择等方面做出正确的决策,则已成为高校有待研究的新课题【l l 。 另一方面,人们利用信息技术生产和搜集数据的能力大幅度提高,数十 个甚至上百个数据库应用系统被用于招生的各项业务,而且这一势头仍将持 续发展下去。招生部门拥有多年累积的数据量,大量的历史数据没有真正成 为资源被利用到招生决策和战略发展中,反而成为了包袱,甚至成为垃圾。 人稍正在面对“被数据淹没,饥饿于知识 的挑战。 因此,建立一个企业级的决策支持系统是十分必要的。要求这个决策支 持系统各项功能除了应满足基常篙单豹查询、统计和维护,全局统筹规划管 理高校各种信息,协调各部门正作顺利开展,还能够为高校决策者提供有关教 育形势的瞬时变化、发展趋势以及通过高科技手段来开发历史数据,提取隐 含在其中的事先未知的、潜在的、深层次、有价值的信息,以利于决策为实 现这一目的,笔者选择了技术相对成熟的基于数据仓库和数据挖掘技术的决 策支持系统的解决方案。 将科学化的决策方法运用到实际招生工作中,根据高校可供教育资源, 科学决策招生工作,椽建科学的招生培养体系。嵩校招生决策支持系统的建 立,能够促进数字化校园的建设,更好地为校长决策提供理论与技术支持, 以及科学选拔人才和参考咨询方匿都具有重大理论意义和实际意义。 哈尔溟工程大学硕士学能论文 1 2 与课题相关的国内外研究现状 1 2 1 决策支持系统 决策支持系统是一种帮助中高层管理人员进行决策的计算机系统,这种 系统综合运用了信息论、人工智能、信息经济学、管理科学、行为科学等学 科的理论、方法和技术。根据自己的实际情况实施不同的d s s 应用。 我国决策支持系统的研究开始于八十年代中期,目前决策支持系统的理 论顽究与实际应用主要集中予四个领域:一是区域发展的战略决策闻题领域; 二是大型企业公司的管理决策问题领域:三是大型工程决策领域;四是医疗 行业( 特别是远程医疗) 。前三个领域有丰富的数据数值为基础,第霾领域的 决策支持系统研究立足于丰富而又有稳定病症的医疗案例。 应用最广泛的领域是区域发展规划。大连理工大学、山西省巍动化所和 国际应用系统分析研究所合作完成了“山西省整体发展规划决策系统。这是 一个大型的决策支持系统,在我国起步较早,影响较大。随后大连理工大学、 雷防科技大学等单使又开发了多个区域发展规划的决策支持系统。天津大学 信息与控制研究所创办的决策与决策支持系统刊物,对我国决策支持系 统的发展起到了很大静推动作用。我黧不少单位在智能决策支持系统的研制 中也取得了显著成绩,如以中国科学院计算技术研究所史忠植研究员为首的 课题组研制并完成的“智能决策系统开发平台i d s d p 就是一个典型代表。 湖南大学曾进行过“移动通讯企业人力资源管理决策支持系统 的研究。 在教育领域,也有教育决策支持系统的研究开发。霸前所研究开发的教 育决策支持系统,基本上是以人才预测为着眼点,以规划宏观上的教育发展 为网的,是为国家或教育发展战略决策提供决策支持。上海财经大学在构建 该校的信怠化项目串,将高校决策支持系统也成为其建设内容之一,志容涉 及财务、人事、教学、科研、学生管理、资源管理等决策支持系统。复旦大 学在其校园信息优项翟中也提到了决策支持系统的建设。 但还没有院校直接针对自身招生信息基于数据仓库与挖掘技术进行招生 决策的应用研究。 1 2 2 数据仓库及o l a p 在国外,数据仓瘁和数据挖掘技术已迅速发展起来,逐渐成为决策支持 2 哈尔滨t 程大学硕士学位论文 的新手段。目前,国外已经有好多现成的数据仓库产品,各大公司都相继推 出自己的产品,诸如m i c r o s o f t 的a n a l y s i ss e r v i c e s ,i n f o r m i x 的o l a p 产品 n e t a c u b e ,o r a c l e 提供的d e s u g b e r 2 0 0 0 和d l s c o v e r 2 0 0 0 以及 s y b a s e 的交互式产品s y b a s ei q 等,并且成功地运用于企业的管理与决 策支持之中,焉且随着不断的使溺,隧趋完善淄。 国内对数据仓库技术的研究还处于起步阶段,真正意义上的数据仓库应 用还不多。但是,随整经济的离速发展和入世带来的机遇和挑战,各企业也 纷纷开始构建自己的数据仓库系统。例如,中国银行广州分行“八五期间 就开始建设数据仓库,该数据仓库包括了从数据挖掘、数据处理到数据存储 的全过程,但数据量相对来说比较小。现在上海宝钢、深圳招商银行等各大 企业集团也纷纷在创建自己的数据仓库、开展数据分析工作,为提高客户服 务质量、增加财政收入、提高产品质量等方面发挥了切实有效的作用。 当前对o l a p 的研究己经比较深入,从最初的基于关系数据库的r o l a p 和基子多维数据库的m o l a p 己经发展到两者结合的h o l a p ,同时市场主 出现了多种o l a p 产品,比较有代表性的有i n f o r m i x 公司的n e t a c u b e , o r a c l e 公司的d i s c o v e r & e x p r e s s 以及s y b a s e 公司的s y b a s e i q 等,这些产品致力于辅助决策支持或多维视图的查询和报告需求,备有特色, 性能也有了很大的提高。今后o l a p 技术的发展趋势是与w e b 技术以及数 据挖掘技术相结合,产生o l a p 的新发展:w e b o l a p 与o l a p 十数据挖 掘c o l a m ) 。 1 2 3 数据挖掘 数据挖掘( d a l 阪m i n i n g ,简称d m ) 一词是在1 9 8 9 年8 月于美国底 特律市在开的第十一界国际联合人工智能学术会议上正式形成的,常常与 k d d tk n o w l e d g ed i s c o v e r yi nd 触睑b a s e 混用91 。从19 9 5 年开 始,每年主办一次k d d 善际学才会议,将k d d 和d m 方面的研究推向了高 潮,从此,“数据挖掘”一词开始流行。在中文文献中,d m 有时还被翻译为 “数据采掘、“数据开采 、“数据发掘等。还有很多和这一术语相近豹术 语,如数据库中知识发现,数据分析,知识抽取,模式分析,数据采集,商 业智能,数据融合,决策支持等嘲。 3 哈尔滨下程大学硕士学能论文 数据挖掘系统按其发展可分为四代: 第一代数据挖掘系统支持一个或少数几个数据挖掘算法,这些算法设计 用来挖掘向量数据,该系统在挖掘时,一般将要挖掘的数据一次性调入内存, 系统的成功依赖于数据的质量。 第二代数据挖掘系统支持数据库和数据仓库,具有良好的可扩展性。该 系统能够挖掘大型数据集、复杂数据集和高维数据。它通过支持数据挖掘模 式( d a t am i n i n gs c h e m 鼗 和数据挖掘查询语言( d m q l ) 增加系统的 灵活性。该系统提供了与数据库和数据仓库之间的有效接口。 第三代数据挖掘系统能够挖掘i n t e r n e t e x t r a n e t 的分布式和高度 异质的数据,并且能够有效地和操作型系统集成。该系统的关键技术之一是 提供对建立在异质系统上的多个预言模型以及管理这些预言模型的元数据提 供第一级别( f l r s ? c l a s s ) 的支持。 第四代数据挖掘系统能够挖掘嵌入式系统、移动系统和普遍存在的 ( u b i q u i t o u s ) 计算设备产生的各种类型的数据。善前,移动计算越来越 显得重要,将数据挖掘和移动计算结合是当前的一个研究热点,它也是第四 代数据挖掘系统研究的重要课题之一。目前,第一代数据挖掘系统仍在发展 中,第二代、第三代数据挖掘系统己经出现,第四代还处于研究阶段。 1 。3 论文的内容与结构 本论文在高校招生领域引入数据仓库技术、联机分析处理技术和数据挖 掘技术,通过对有关技术的研究,设计并实现了一个高校决策支持系统。 本文的写作主要分为以下几个部分: 第l 章绪论,介绍论文的背景及研究意义,以及与课题相关领域的国内 外研究现状。 第2 章简要介绍了决策支持系统的相关技术,分别是数据仓库、联机分 析处理和数据挖掘技术,力招生决策支持系统的实现奠定了基础。 第3 章系统的分析与设计。讨论高校招生决策支持系统的分析、设计问 题饕重论述了软件系统功能结构设计、数据仓库的构建、数据预处理问题。 第4 章系统实现与应用。对系统主要功能模块进行了详细设计与应用。 4 哈尔滨工程大学硕士学位论文 第2 章相关技术理论 2 1 决策支持系统概述 2 1 1 决策及决策支持系统的定义 决策:从若干可能的方案中,按标准( 准则) 选择一个。而这种标准可 以是,最优、满意,合理等等f 4 】。 决策支持系统:d s s 是以管理科学、运筹学、控制论和行为科学为基础, 以计算机技术、模拟技术和信患技术为手段,匿向半结构化的决策闻题,支 持决策活动的具有智能作用的人机系统。 2 2 决策的分类 高层决策:是组织的高层管理人员所负责的战略性决策,是长期影响整 个组织或组织中某个主要部分的决策。战略性决策影响组织的目标和政策。 如确定组织的发展方向、目标和中、长期战略规划【钉。 中层决策:是组织的中层篱理人员所负责翰战术性决策,是在未来一段 有限的时间内影响组织中某部分的做事的方式,通常在以前战略决策范围内 发生。 基层决策:是由组织中较低层的经理或由作业人员做的操作型决策。所 涉及的任务,目标和资源是由先前的战略和战术决策限定的活动。 2 1 3 决策支持系统的功能 d s s 能为决策者提供决策所需的数据、信息和背景资料,帮助骧确决策 目标和进行问题的识别,建立或修改决策模型,提供各种备选方案,并对各 种方案进行评价和选优,通过人机对话进行分析、比较和判断,为正确决策 提供有益的帮助。决策支持系统划分为圈类: 数据分析系统:其目的是为非经理人员提供当前的或历史的数据文件分 析资料。专用分析系统,与特定的作监或任务有关。一般分析系统,使用菜 种专用程序分析语言让用户进行一般的数据分析。 分析信息系统:其基的是利用一系列的面向决策的数据库( 综合数据痒) 哈尔滨下程大学硕+ 学位论文 和一些小模型提供管理决策信息。这种系统的例子如常见的市场信息系统和 销售分析系统。 统计模型系统:通常利用确定的关系和公式来计算遮一些特殊行为的结 果。它的特点是能够提高管理人员的理解能力。这种系统通过对收入账单, 资金平衡表或其缝输患的结果进行译信,篱纯各种规划工作。 描述模型系统:对非确定性活动进行描述、分析和评价。它包括了各种 不属于统计定义的模拟模型。通掌根据系统环境条件、潺动内容及相互关系 中的随机规律,推断出企业经营活动的结果,从而帮助决策者对不同方案进 行评价决策t 6 1 。 这种系统的特点是通过置信度的测试提高决策者对未来外部环境与内部 条件的交互作用的理解。 2 2 联机分析处理技术 d d s 对数据的使用是非结构佬辫,它薛一次查询操作要涉及上吾张表的 上千行数据,复杂的表连接会严重影响系统的性能,而且用户仅仅在分析的 时候才能查找有关数据,查找条件也是随机携,因此基于事务型数据痒的 d d s 的数据分析能力是很有限的 7 1 。 当今的数据处理大致可分成两大类:联机事务处理o l t p ( o n l i n e t r a n s a c t i o np r o c e s s i n g ) 、联机分析处理o l a p ( o n l i n e a n a l y t i c a lp r o c e s s i n g ) 【8 l 。 露蓠,基于数据仓库的d d s 酶决策技术包括联机分析处理( o 己a p ) _ j 麓 数据挖掘( d 触除m i n 烈g ) ,在d d s 环境中数据仓库直接为联机分析处理和 数据挖掘提供数据处理能力。 2 2 1 联机分析处理的定义 联视分析处理是概念最早是由关系数据库之父e e c o d d 于1 9 9 3 年提淑 的,他同时提出了关于o l a p 的1 2 条准则。o l a p 是使分析人员、管理人员 或执行人员能够多角度的对信息进行快速、一致、交互地存取,从焉获得能 够深入了解数据的软件技术。o l a p 的目标是满足决策支持或满足在多维环 境下的特定查询和报表需求,它的技术核心是“维这个概念 9 1 。 6 哈尔滨下程大学硕士学能论文 “维 是入们观察客观世界的角度,是一种高层次的类型划分。“维 一 般包含着层次关系,这种层次关系有时相当复杂。通过把一个实体的多项重 要的属性定义为多个维,使用户能对不同维上的数据进行比较。因此o l a p 也可以说是多维数据分析工具的集合。 o l a p 工具是针对特定阀题的联规数据访闷与分析。它通过多维的方式 对数据进行分析、查询和报表。例如,一个企业在考虑产品的销售情况时, 通常从时闻、地区和产最的不同是度来深入观察产品的销售情况。这里的时 间、地区和产品就是维。而这些维的不同组合和所考察的度量指标构成的多 维数组则是o l a p 分析的基础,可形式化表示为( 维l ,维2 ,维_ n , 度量指标) ,如( 地区、时间、产品、销售额) 。它满足d d s 从多种角度对数 据进行快速、一致、交互地分析,克服传统d d s 交互能力差的弊病,使决策 者能够对数据进彳亍深入观察。 o l a p 服务器使用为用户预定义的多维数据视图对数据仓库的信息进行 统计分析处理,为具有唆确分析范围和分析要求的焉户提供高性能的决策支 持。o l a p 将分析结果存储在信息库中,便于决策者通过对比多种分析结果 做出更好的决策。此外,信息瘴中还存放决策准则、管理经验、常识。 多维分析是指对以多维形式组织起来的数据采取切片( s l i c e ) 、切块 ( d i c e ) 、钻取( d 烈l l d o w n 和r o l l u p ) 、旋转( p i v o t ) 等各种分析 动作,以求剖析数据,使用户能从多个角度、多侧面地观察数据库中的数据, 从而深入理解包含在数据中的信息。 2 2 20 l a p 基本多维分析操作 o l a p 的基本多维分析操作有钻取( r o l l u p 和d r i l l d o w n ) 、切片 ( s l i c e ) 和切块( d i c e ) 以及旋转( p i v o t ) 、d r i l la c r o s s 、d r i l l t h r o u g h 等【- o 】。 钻取是改变维的层次,变换分析的粒度。它包括皇上钻取和向下钻取。 r o l l u p 是某一维上将低层次的细节数据概括到高层次的汇兑数据,或者减 少维数;而d r i l l d o w n 则相反,它从汇兑数据深入到细节数据进行观察, 或者增加新维【l l 】。 切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。 7 哈尔滨t 程大学硕士学位论文 如果剩余维只有两个,则是切片;如果有三个,则是切块f ,2 】。 旋转是变换维的方向,即在表格中重新安排维的放置( 例如行列互换) 。 2 3 数据仓库技术 数据仓库是一个支持管理决策的数据集合。数据是磁向主题的、集成的、 不易丢失的时间变量。数据仓库是所有操作环境和外部数据源的快照集合。 它并不需要非常精确,因为它必须在特定时间基础上从操作环境中提取出来。 数据仓库是近年来兴起的一种新的数据库应用。在各大数据库厂商纷纷 宣布产品支持数据仓库,并提出一整套用以建立和使用数据仓库的产品,使 韭界掀起了数据库热潮。比如i n f o r m i xg o n gs i d e 公司的数据仓库解决 方案;o r a c l e 公司的数据仓库解决方案;s y b a s e 公司的交互式数据仓库 解决方案等等。 这同时也引起了学术界的极大兴趣,国际上许多重要的学术会议,如超 大型数据库囡际会议( v l d b ) ,数据工程国际会议( 及镀a e n g i n e e i 测g ) 等,都出现了专门研究数据仓库( d 煳隗黼h o u s i n g ,简记为d w ) 、联 机分析处理( o n l i n ea n a l y t i c a lp r o c e s s 烈g ,简记为o l a p ) 、数据 挖掇( d a t am i n i n g ,麓记为d m ) 的论文。对我国许多企鲎而言,在建立 或发展自己的信息系统时,常常困扰于这样的问题:为什么要建立数据仓库? 数据仓库能否代替传统的数据瘴? 怎样建立数据仓库? 等等。篱要介绍一下 用到的数据仓库技术背景,结合高校招生决策支持系统设计实例,进一步阐 述数据仓库技术在现实中的重大意义。 2 3 1 数据仓库的定义 翟前,数据仓库尚没有一个统一的定义,著名的数据仓库专家 w h i n m o n 在建立数据仓库一书中对数据仓库进行了如下的定义:数 据仓库是面向主题的、集成的、相对稳定性的、随时问不断变化( 不同时间) 的数据集合,用以支持经营管理中的决策制定过程f 1 3 1 。 对于数据仓库的概念也可以从两个层次理解。首先,数据仓库用于支持 决策,面向分析型数据处理,它不同子企业现有的操作型数据库;其次,数 据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包 含香历史数据,丽且存放在数据仓库中的数据一般不再修改。 8 哈尔滨丁程大学硕十学位论文 根据数据仓库概念的含义,数据仓库拥有以下四个特点: 面向主题。操作型数据库的数据组织面向事务处理彳壬务,各业务系统之 闻备自分离,丽数据仓库中的数据是按照一定的主题域进行组织。 集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数 据瘴之间相互独立,并且往往是异构的。因此在数据进入数据仓库之前,必 须对原有分散数据库进行数据抽取和清理,对数据加工和集成,以保证数据 仓库内的信息是一致的全局信息,这是建立数据仓库的关键步骤,还要将原 始数据结构做一个从面向应用,向面向主题的转变。 相对稳定的。操作型数据库中的数据通常实时更新。数据仓库的数据主 要是供企韭决策分析之用的历史数据,而不是日常事务处理产生的数据,所 涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情 况下将被长期保留,极少或根本不需修改;数据仓库是不同时闻的数据集合, 它要求数据仓库中的数据保存时限能满足进行决策分析的需要,而且数据仓 库中的数据都要标明该数据的历史时期。 反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而 数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点到躅 前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做 出定量分析和预测。数据仓库不是静态的概念,只有把信息及时交给需要这 些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用, 信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决 策人员,是数据仓库的根本任务。因此,从产业界的焦度看,数据仓库建设 是一个工程,是一个过程。 2 。3 。2 数据仓库结构 1 数据仓库系统结构 整个数据仓库系统是一个包含四个层次的体系结构,它主要包括数据源、 数据仓库、o l a p 服务器及前端工具,如图2 1 所示。 数据源:是数据仓库系统的基础,是整个系统的数据源泉。遴常包括企 业内部信息和外部信息。内部信息包括存放于r d b m s 中的各种业务处理数 据和各类文档数据之中,外部信息包括市场信息帮竞争对手的信息等等。 9 哈尔滨工程大学硕士学位论文 娄询 报表 分析 数据挖 掘 图2 。1 数据仓瘁体系结构圈 数据的存储与管理:是整个数据仓库系统的核心。数据仓库的组织管理 方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。 要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技 术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集 成,并按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数 据仓库和部门级数据仓库( 通常称为数据集市) 。 o l a p 服务器:对需要分析的数据进行有效集成,按多维模型予以组织, 以便进行多角度、多层次的分析,并发现趋势。 前端工具:主要包括各种报表工具、查询工具、数据分柝工具、数据挖 掘工具以及备种基于数据仓库或数据集市的应用开发工具。其中数据分析工 具主要针对o l a p 服务器,搬表工具、数据挖掘工具主要针对数据仓库。 2 。数据仓库中的数据组织 一个典型的数据仓库的数据组织结构,如图2 ,2 所示。 图2 。2 数据仓库数据缰织结构图 l o 一一一一 哈尔滨工程大学硕七学位论文 数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合 级、高度综含级。源数据经过综合后,首先进入当前细节级,并根据具体需 要进行进一步的综合,从而进入轻度综合级乃至高度综合级,老化的数据将 进入早期细节级。由此可见,数据仓库中存在着不同的综合级别,一般称之 力“粒度,粒度越大,表示缨节程度越低,综含程度越离阳。 数据仓库中还有一种重要的数据元数据( m e t ad a t a ) 。元数据是 “关于数据的数据 ,如在传统数据库中的数据字典就是一种元数据。在数据 仓库环境下,主要有两种元数据:第一种是为了从操作性环境向数据仓库转 化而建立的元数据,包含了所有源数据项名、属性及其在数据仓库中的转化; 第二种元数据在数据仓库中是用来和终端用户的多维商业模型艚# 端工具之 间建立的映射,此种元数据称之为d s s 元数据,常用来开发更先进的决策支 持工具。 粒度与分割 粒度是数据仓库的重要概念粒度可以分为两种形式,第一种粒度是对数 据仓库中的数据综合程度高低的一个度量,它既影响数据仓库中的数据量的 多少,也影瞬数据仓瘴所能回答询问的种类。在数据仓库中,多维粒度是必 不可少的。e l j 于数据仓库的主要作用是d s s 分析,因而绝大多数查询都基于 一定程度的综合数据之上的,只有极少数查询涉及到细节。所以应该将大粒 度数据存储于快速设备如磁盘上,小粒度数据存于低速设备如磁带上。 分割是数据仓库中的另一个重要概念,它的露的同样在于提高效率。它 是将数据分散到各自的物理单元中去,以便能分别独立处理,数据分割后的 数据单元称为分片。有许多数据分割的标准可供参考:如日期、地域、业务 领域等等,也可以是其组合。一般而言,分割标准总应包括日期项,它十分 自然而且分割均匀。 数据仓库的数据组织形式 简单堆积文件:它将每日由数据库中提取并加工的数据逐天积累并存储 超来。 轮转综合文件:数据存储单位被分为日、周、月、年等几个级别。在一 个星期的七天中,数据被逐一记录在每怒数据集中;然惹七天的数据被综合 哈尔滨工程大学硕士学位论文 并记录在周数据集中;接下去的一个星期,日数据集被重新使用,以记录新 数据。同理,周数据集达到五个后,数据再一次被综合并记入月数据集,以 此类推。轮转综合结构十分篱捷,数据量较简单堆积结构大大减少。当然, 它是以损失数据细节为代价的,越久远的数据,细节损失越多。 简化直接文件:它类似予篱单堆积文俸,但它是闻隧一定时闻的数据库 快照,比如每隔一星期或一个月作一次。 连续文件:通过两个连续的简化直接文件,可以生成另一种连续文件, 它是通过比较两个简单直接文件的不同而生成的。当然,连续文件同新的简 单直接文件也可生成新的连续文件。 对于各种文件结构的最终实现,在关系数据库中仍然要依靠“表”这种 最基本的结构。 数据仓库的数据遗加 如何定期向数据仓库追加数据也是一个十分重要的技术。数据仓库的数 据是来自o l t p 的数据库中,闯题是本文如何褥知究竟哪些数据是在上一次 追加过程之后新生成的。常用的技术和方法有: 时标方法:如果数据含有时标,对新插入或更耨的数据记录,在记录中 加更新时的时标,那么只需根据时标判断即可。但并非所有的数据库中的数 据都含有时标。 日志文件:最可取的技术大概是利用日志文件了,因为它是d b 的固有 机制,不会影响o l t p 的性能。同时,它还具有d e l t a 文件的优越性质,提 取数据只要局限叠志文件即可,不焉扫描整个数据库。当然,原来墨志文件 的格式是依据d b 系统的要求而确定的,它包含的数据对于数据仓库而言可 能煮许多冗余。比如,对一个记录的多次更新,酲志文件将全部变化过程都 记录下来;而对于数据仓库,只需要最终结果。但比较而言,日志文件仍然 是最可行的一种选择f 1 5 l 。 2 3 3 数据仓库的关键技术 数据仓库都有哪些组成部分和关键技术呢? 与关系数据库不同,数据仓 库并没有严格的数学理论基础,它更偏向于工程。由于数据仓库的这种工程 性,因而在技术上可以根据它的工作过程分为:数据的抽取、存储和管理以 1 2 哈尔滨下程大学硕十学位论文 及数据的表现三方面。 1 数据的抽取 数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环 境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的 数据存储介质中导入到数据仓痒。数据抽取在技术上主要涉及互连、复制、 增量、转换、调度和监控等几个方面。数据仓库的数据并不要求与联机事务 处理系统保持实时的阗步,因此数据抽取可戬定时进行,僵多个抽取操作执 行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。 在技本发展上,数据抽取所涉及的单个技术环节都已相对成熟,其中有 一些是躲不歼编程的,但整体的集成度还很不够。目前市场上所提供的大多 是数据抽取工具。这些工具通过用户选定源数据和目标数据的对应关系,会 自动生成数据抽取的代码。因此,实际的数据仓库实施过程中往往不一定使 用抽取工具。整个抽取过程能甭因工具的使用而纳入有效的管理、调度和维 护则更为重要。从市场发展来看,戬数据抽取、异构互连产晶为主项的数据 仓库厂商一般都很有可能被其它拥有数据库产品的公司吞并。在数据仓库的 世界里,它们只能成为辅助的熊色。 2 数据的存储和管理 数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决 定了它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。要 决定采用什么产品和技术来建立数据仓痒核心,剡需要从数据仓库的技术特 点着手分析。 数据仓库遇到的第一个问题是对大量数据的存储和管理。这里所涉及的 数据量比传统事务处理大得多,且随时间的推移而累积。从现有技术和产品 来看,只有关系数据库系统能够担当此任。关系数据库经过近3 0 年的发展, 在数据存储和管理方面已经非常成熟,非其它数据管理系统可比。目前不少 关系数据库系统已支持数据分割技术,能够将一个大的数据库表分散在多个 物理存储设备中,进步增强了系统管理大数据量的扩展能力。 数据仓库的第二个难题是并行处理。在传统联机事务处理应用中,用户 访阆系统的特点是短小面密集;对予一个多处理机系统来说,能够将用户的 哈尔滨下程大学硕士学位论文 请求进行均衡分担是关键,这便是并发操作。而在数据仓库系统中,用户访 问系统的特点是庞大而稀疏,每一个查询和统计都很复杂,但访问的频率并 不愚很高。此时系统需要有能力将所有的处理桃调动起来为这一个复杂的燕 询请求服务,将该请求并行处理。因此,并行处理技术在数据仓库中比以往 更加重要。 第三个问题是针对决策支持查询的优化。这个问题主要针对关系数据库 而言,因为其它数据管理环境连基本的通用查询能力都还不完善。在技术上, 针对决策支持的优化涉及数据库系统的索引机制、查询优化器、连接策略、 数据排序和采样等诸多部分。普通关系数据库采用b 树类的索引,对于性别、 年龄、地区等具有大量重复值的字段凡乎没有效果。而扩充的关系数据库则 引入了位图索引的机制,以二进制位表示字段的状态,将查询过程变为筛选 过程,单个计算机的基本操作便可筛选多条记录。由子数据仓库中各数据表 的数据量往往极不均匀,普通查询优化器所得出得最佳查询路径可能不是最 优的。因此,面向决策支持的关系数据库在查询优化器上也作了改进,同时 根据索引的使用特性增加了多重索引扫描的能力【1 6 】。 以关系数据库建立的数据仓库在应用时会遇到大量的表问连接操作,藤 连接操作对于关系数据库来说是一件耗时的操作。扩充的关系数据库中对连 接操作可以做预先的定义,本文称之为连接索引,使得数据库在执行查询时 可直接获取数据面不必实施具体的连接操作。数据仓库的查询常常只需要数 据库中的部分记录。普通关系数据库没有提供这样的查询能力,只好将整个 表的记录进行撵序,从焉耗费了大量的时间。决策支持的关系数撬库在此徽 了改进,提供了这一功能。此外,数据仓库的查询并不需要像事务处理系统 那样精确,但在大容量数据环境中需要有足够短的系统响应时闻。因此,一 些数据库系统增加了采样数据的查询能力,在精确度允许的范围内,大幅度 提高系统查询效率。 总之,将普通关系数据库改造成适合担当数据仓库的服务器有许多工作 可以做,它已成为关系数据库技术的一个重要研究课题和发展方向。可见, 对于决策支持的扩充是传统关系数据库进入数据仓库市场的重要技术措施。 关系数据库本身没有提供这种多维分析的查询功能,而且在数据仓库发 展的旱裳,人们发现采用关系数据库去实现这种多维查询模式非常低效,查 1 4 哈尔滨t 程大学硕士学位论文 询处理的过程也难以自动化。为此,人们提出了多维数据库的概念。 多维数据库是一种以多维数据存储形式来组织数据的数据管理系统,它 不是关系型数据库,在使用时需要将数据从关系数据库中转载到多维数据库 中方可访问。采用多维数据库实现的联机分析应用本文称之为m o l a p 。多 维数据库在针对小型的多维分析应用有较好的效果,但它缺少关系数据库所 拥有的并行处理及大规模数据管理扩展性,因此难以承担大型数据仓库应用。 这样的状态一直到“星型模式 在关系数据库设计中得到广泛的疲用才彻底 改变。 在数据仓库的数据存储管理领域,从当今的技术发展来看,面向决策支 持扩充的并行关系数据库将是数据仓库的核心。在市场上,数据库厂商将成 为数据仓库的中坚力量。 2 3 4 如何建立数据仓库 数据仓库的实现主要以关系数据库( r d b ) 技术为基础,因为关系数据 库的数据存储和管理技术发展得较为成熟,其成本和复杂性较低,已开发成 功的大型事务数据库多为关系数据库,但关系数据库系统并不能满足数据仓 库的数据存储要求,需要透过使震一些技术,如动态分区、垃圈索弓l 、优化 查询等,使关系数据库管理系统在数据仓库应用环境中的性能得到大幅度的 提高【l 霹。 数据仓库在构建之初应明确其主题。但是主题的确定必须建立在现有联 机事务处理( o l t p ) 系统基础上,否则按此主题设计的数据仓库存储结构将 成为一个空壳,缺少可存储的数据。但一味注重o l t p 数据信息,也将导致 迷失数据提取方向,偏离主题。需要在o l t p 数据和主题之间找到一个“平 衡点”,根据主题的需要完整地收集数据,这样构建的数据仓库才能满足决策 和分析的需要。 根据决策主题设计数据仓库结构,一般采震星型模型帮雪花模型设计箕 数据模型,在设计过程中应保证数据仓库的规范化和体系内各元素的必要联 系。主要有以下3 个步骤: 第1 步:定义该主题所需各数据源的详细情况,包括所在计算机平台、 拥有者、数据结构、使用该数据源的处理过程、仓库更新计划等。 哈尔滨工程大学硕七学位论文 第2 步:定义数据抽取原则,以便从每个数据源中抽取所需数据;定义 数据如何转换、装载到主题的哪个数据表中。 第3 步:将一个主题细化为多个业务主题,形成主题表,据此从数据仓 库中选出多个数据子集,即数据集市( d a l r a m a i 玎) 。数据集市通常针对部 门级的决策或某个特定韭务需求,它开发周期短,费用低,能在较短时闻内 满足用户决策的需要。 医此,在实际开发过程中,可以选择在残功建立足个数据集市后,毳构 建数据仓库这种策略。这些数据定义直接输入系统中,作为元数据( m e t a d a l 隗) 存储,供数据管理模块和分析使用。元数据存储在元数据库中,它 不仅是数据仓库的文档资料,供管理、维护人员使用,而且亦可供用户查询, 使之更好地了解数据仓库结构,提高霸己的使用水平。 2 4 数据挖掘技术 2 。4 。1 数据挖掘基本知识 数据仓库的出现,为更深入对数据进行分析提供了条件,针对市场变化 的加速,人们提出了能进行实时分析和产生相应报表的在线分析工具o l a p ( o n - l i n e a n a l y t i c a lp r o c e s s i n g ) 及数据挖掘技术( d a t a m i n i n g ,d m ) 。o l a p 能允许用户以交互方式浏览数据仓库内容,并对其中数据进行切片切块等多 维分析,它能够匿答“在商店向男性和女性客户销售的产品数髫备多少? “在东北区过去的三个月中饮料产品总销售额是多少? 之类的数据聚集类 阆题。而数据挖掘善于透过分辑属性闻的相关性来找出数据集的隐藏模式, 它能够回答诸如“男性客户更倾向于购买哪几类产品? 眦估计在后三个月中 该种饮品销售额是多少? ”这类对数撼阆关系深入分析的问题。 数据挖掘( d a t am i n i n g ,简称d m ) ,简单地讲就是从大量数据中挖掘或 抽取出知识,数据挖掘概念的定义描述有若干版本,以下给出一个被普遍采 用的定义描述f l s l : 数据挖掘,又称为数据库中知识发现( k n o w l e d g ed i s c o v e r yf r o m d a t a b a s e ,赫称如d ) ,它是一个从大量数据中抽取挖掘盘未知的、有价值 的模式或规律等知识的复杂过程。它有机的结合了来自多学科技术,其中包 括:数据库、数理统计、机器学习、高性能计算、模式识别、神经嬲络、数 1 6 哈尔滨t 程大学硕十学位论文 据可视化、信息检索、图像与信号处理、空间数据分析等,这里本文强调数 据挖掘所处理的是大规模数据,且其挖掘算法应是高效的和可扩展的。通过 数据挖掘,可从数据库中挖撼溅有意义的知识、规律,或更高层次的信息, 并可以从多个角度对其进行浏览察看。所挖掘出的知识可以帮助进行决策支 持、过程控
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年家电行业智能家电产品市场前景研究报告
- 2025年无人机行业市场前景分析报告
- 商场培训用电安全总结课件
- 2025年汽车行业新能源汽车市场前景分析研究报告
- 天津市2025天津市天宾服务中心招聘7人笔试历年参考题库附带答案详解
- 国家事业单位招聘2025中国钱币博物馆招聘拟聘用人员笔试历年参考题库附带答案详解
- 国家事业单位招聘2025中国外文出版发行事业局所属中国外文局西欧与非洲传播中心今日中国杂笔试历年参考题库附带答案详解
- 四川省“达人英才”2025年上半年引才(1040人)笔试历年参考题库附带答案详解
- 北京市2025商务部国际商报社招聘4人笔试历年参考题库附带答案详解
- 丽水市2025浙江丽水市松阳县机关事业单位选调笔试历年参考题库附带答案详解
- (一检)泉州市2026届高三高中毕业班质量监测(一)数学试卷(含标准答案)
- 2025年福建省榕圣建设发展有限公司项目招聘12人笔试参考题库附带答案详解
- 矿山设备检修安全培训课件
- 2025-2030数据安全合规审计服务市场爆发及等保测评机构并购价值评估
- 纤维转盘滤布滤池运行维护技术说明
- 2025至2030中国无烟产品行业发展趋势分析与未来投资战略咨询研究报告
- 2025年中国华电集团招聘面试题解析及备考建议手册
- 2025年机器人面试题及答案解析
- 高三第一次月考总结主题班会课件
- 参考活动2 善待身边的人教学设计-2025-2026学年初中综合实践活动苏少版七年级下册-苏少版
- 小学六年级体育教案(全册48课时)
评论
0/150
提交评论