(计算机应用技术专业论文)数据仓库技术的研究及其在校园信息港中的应用.pdf_第1页
(计算机应用技术专业论文)数据仓库技术的研究及其在校园信息港中的应用.pdf_第2页
(计算机应用技术专业论文)数据仓库技术的研究及其在校园信息港中的应用.pdf_第3页
(计算机应用技术专业论文)数据仓库技术的研究及其在校园信息港中的应用.pdf_第4页
(计算机应用技术专业论文)数据仓库技术的研究及其在校园信息港中的应用.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机应用技术专业论文)数据仓库技术的研究及其在校园信息港中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 数据仓库技术是当今流行的数据库技术,能够帮助用户对数据进行加工处 理,发现其内在的规律性,帮助决策者指导企业决策和发掘企业的竞争优势。 目前,中南大学校园网络以及各部门的业务系统彼此之间都是独立的,很难 根据这些信息来辅助学校的决策与管理,要实现决策支持功能,就要对各部门的 异构数据进行集成。所以我们考虑用数据仓库构造一个功能强大的数据集成系 统,实现对学校各部门的“信息孤岛”进行连接、交互和集成,对各种分布、异 构的数据源进行全局、统一、高效的访问和管理,辅助学校领导的决策和管理。 本论文首先对数据仓库进行的分析和研究,并和传统的数据库技术进行比 较,得出结论,在校园信息服务中,数据仓库较数据库而言,其数据的组织存储 更为有效,在面向分析的决策服务过程中能够提供更好的支持。根据目前校园网 中数据种类多、覆盖面广等问题,采用软件代理技术实现校园数据的采集、转换 和集成,采用数据仓库来存储采集到的信息,并采用星型雪花模式作为多维数据 模型,使系统对数据进行多角度的访问和分析更加方便。其中“软件代理”实现 了信息采集程序的下载,便于业务扩展,提高了系统的通用性、灵活性、可移植 性和可扩展性。 术。 关键词:数据仓库,软件代理,校园信息港,信息港信息采集系统,数据库技 a b s t r a c t a l t h o u 曲h u m a l lb e i n gh a sa c c u 舢l a t e di a r g en u m b e ro fd a t aq u a l l t i 魄p e o p l e c a l l tm a k ed e c i s i o na c c o r d i n gt l l e “d a 协s e a ”s ot h eda _ t aw 唧h o u s et e c l l l l 0 1 0 9 y 印p e a r st 0s o l v ea b o v e - m e m i o n e dh a r dp r o b l e m ,a n dm ed a :t a 、盯e h o u s et e c h n o l o g y h a sb e c 咄eo n eo ft 1 1 ef 0 咄e so f d a 诅b a s et e c h i l o l o 韶n o w a d a y s 1 ) a 协砌o u s e t e c h n o l o g yc a nh e l pu s e rt 0p r o c e s sd a t a ,t 1 1 髓t of i n d “s 幽n s i cm l e a i l dh e l p c o m p 锄yl e a d e rt o m a k ce n t e r p r i s ed e c i s i o na i l d e x p l o r ec o n l p 锄y sc o m p e t i t i v e s u p e r i o f i 啦 a st oc s uc 缸n p u sn e t w o r k ,也ei 耐1 0 1 删o ns y g t c mo fe h d 印a n m e n ti s i s o l a t c d ,s o “i sv e r yd i m c u l tt os u p p o r tm 趾a g e m e mo rd e c i s i o n i no r d c rt or e a l i z e d e c i s i o s u p p o r t 脑c t i o n ,w em u s ti n t e 铲a t ea l ld e p 舡恤1 e n td 如s ow e a r ea b o u tt o a d o p t d a t aw a r e h o u s e t e c h i l o l o g y t oc o n l p l e t ed a t ai n t e 鲫d o nt a s k w ew i uc o n s t n l c t ap o w e r f i l ld a 诅i n t e g r a t i o ns y s 把m 谢t l ld a t aw a r e h o u s e ,a 1 1 dr e a l i z ea l ld e p 盯m l e n t 幽纽如t e g r a 吐。玛c o n n e c t i o na n dc o o p 删o n s ow ec a nu s ei tt os u p p o r tl e a d e f s d c c i s i o n 舡l d m a i l a g e m 锄t i nt l l i s m e s i s ,f i s t ,w es t u d y 也eb a s i cc o n c 印t i o n 趾d 面n c i p l eo fd a t a w a r e h o u s e ,a n dc o m p a r ei t 涮血仃a d i t i o n a ld a t a b a t e c l 】l l o l o g y i s ow ed 豫wa c o n c l l l s i o nd a 衄啪h o u s ec a l ls t o r ed a _ t am o r ee 伍c i e i l u ya i l ds u p p l yb e t 时s u p p o n c o m p a r i n g 仃a d i t i o n a l 出曲l b 船e a c c o r d i i l gt oo l l rc a m p u sd a 诅c h 啪c t e r ,w ea d o p t s m u t i - a g c n tt e c h n o l o g y ,r e a l i z ed i m 删l tl ( i n d so f 蛐鹤ei m e 酗d o n ;s 协m a k e s c h e mi su s e df o r d e s c r i b i n gm m t i - d i m e n s i o nd a t am o d e l ,w h i c hm a | r e “c o v e i c n t t oa c c e s s 趾d 删y z ed a 饥 i nt l l ep r o c e s so f d e v e l o p i n g 趾d r e s e a r c h i i l gt i l i ss y s t t r i i , t h i sp 叩c rh 髂b r o u g h tf o n v a r da n dc a 玎i e do u t “s o f t ,a r ea g e n t ,w i l j c ha d 印tt om e c o 姗o n m a n a g e m e n ti i l f 删o ns y s t e m b e c a u s eo f 如e i ra p p l i c a b i l 毋,丑e x i b i n t y a n d r e p l 趾血n g k e yw o r d s : d a t aw a r e h o u s e ,c a m p 璐i 1 1 f 0 蛐衄d o nk m ) o r h l f o n n a t i o nh a r b o r i n t e g 洲o ns ”t e m ,d a t a _ b 嬲et e c l l i l o l o g y 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究1 作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得中南大学或其他单位的学位或证书而使用过的材料。与我共 同工作的同志对本研究所作的贡献均已在沦文中作了明确的说明。 作者签名:2 盘盏日期:边年上月型日 关于学位论文使用授权说明 本人了解中南人学有关保留、使用学位论文的规定,即:学校有 权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位论 文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论文; 学校可根据国家或湖南省有关部门规定送交学位论文。 储虢玉虚聊虢碎螳渺划:垃年皇月趁h 硕士学位论文第一章引言 1 1 课题背景 第一章引言 近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,于万万 个数据库被用于商业管理、政府办公、科学研究和工程开发等等,这一势头仍将 持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代, 信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没, 从中及时发现有用的知识,提高信息利用率呢? 要想使数据真正成为一个公司的 资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的 数据可能成为包袱,甚至成为垃圾。因此,面对”人们被数据淹没,人们却饥饿于 知识”的挑战1 1 删。 在如此海量的数据中,蕴藏着大量的信息。在市场竞争十分激烈的今天,如 果企业不能充分利用数据这个宝贵资源,发掘其潜在价值,那么无疑已经输在了 起跑线上。数据仓库技术是当今业界流行的数据库技术,能够帮助用户对数据进 行加工处理,发现其内在的规律性,帮助决策者指导企业决策和发掘企业的竞争 优势。【3 】 同样,中南大学经过多年的信息化建设和积累,大部分校区都已建立了连接 全校所有部门的校园网络以及各部门的业务系统,并且有些系统实现了基于网络 的应用服务。但从学校宏观角度而言,这些系统彼此之闻都是独立的,很难根据 这些信息来辅助学校的决策与管理。中南大学校园信息港正是在这样一个背景下 产生的。校园信息港是以校园网为平台,以各部门的应用系统为基础,以办公自 动化和综合查询系统为核心,对全校的各类信息进行管理和实时查询,实现对学 校的人、财、物等各种资源进行有效利用和控制。 1 2 课题研究的意义 为了将中南大学建成国内一流,国际上有影响的综合性大学,进一步提供提 高我校的综合势力,根据中南大学“十五”建设目前,参见国内外著名大学校园 信息系统建设经验,在已有的网络和信息化建设的基础上,融合办公自动化系统 以及各专业子系统,建设信息采集系统,综合查询系统,统一网站,构建中南大 学“校园信息港”,建设起信息完备、功能齐全、安全可靠、能对全校师生员工 和社会提供优质信息服务的信息系统,支撑学校现代化管理模式和教学、科研, 硕士学位论文第一章引言 使学校信息化水平处于国内领先水平,全面提升学校的影响力。 中南大学“校园信息港”建设的整体目标是在已有网络和信息化建设的基础 上,依据中南大学信息化建设规划纲要,完善网络和信息系统建设,建立起 信息完备、功能齐全、安全可靠、对全校师生员工和社会提供优质信息服务的信 息系统,支撑学校现代管理模式和教学、科研、产业,使学校信息化水平处于国 内先进水平。 中南大学“校园信息港”具体目标为以横跨三校区及三个附属医院的校园网 为基础,构建中南大学信息服务平台,具有高度的安全性、规范性。在目前中南 大学各部门已有的信息系统的基础上,对全校的各类信息进行集中管理与实时查 询、并实现对学校人、财、物等各种资源的有效利用和控制。将校园信息港不仅 成为一个信息发布的平台,也是一个信息服务的平台,全面提高中南大学信息化 建设水平,进而提高我校的综合势力。其主要建设内容包括信息采集系统、校完 综合查询系统、办公自动化系统以及统一网站的建设。 目前学校现有的数据存在以下特点: 1 ) 数据源种类多。由于每个部门的业务系统开发单位不一,因而数据库平 台很多,既有d b a s e ,也有s q l s e r v e r ,o r a c l e 等。 2 ) 覆盖面广,要包括校内全部可能信息资源,包括教、学、研、产、后勤 等方面的数据。 要实现辅助决策支持功能,就要对以上各种数据进行集成。 信息采集系统是中南大学“校园信息港”的基础,是校园综合信息数据仓库 的主要数据提供者。它担负着采集、整合与集成校内各类信息的重要任务。所以 我们考虑应用数据仓库技术完成数据集成任务,用数据仓库系统构造一个功能强 大的数据集成系统,实现对学校各部门的“信息孤岛”进行连接、交互和集成, 对各种分布、异构的数据源进行全局、统一、高效的访问和管理,辅助学校领导 的决策和管理。 1 3 数据仓库技术简介 数据仓库是近年来兴起的一种新的数据库应用。随着人们对大型数据系统研 究、管理、维护等方面的深刻认识和不断完善,在总结、丰富、集中多行企业信 息的经验之后,为数据仓库给出了更为精确的定义,即“数据仓库是在企业管理 和决策中面向主题的、集成的、不可更新的,随时间不断变化的数据集合”。这 四点也是数据仓库的特征。 面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间 2 硕士学位论文第一章引言 各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象 的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与 多个操作型信息系统相关。 集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库 之问相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据 库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据 中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生 变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据 查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据 仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、 刷新。 反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据 仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点( 如开始应用 数据仓库的时点) 到目前的各个阶段的信息,通过这些信息,可以对企业的发展 历程和未来趋势做出定量分析和预测。卜嘲 1 3 1 分析型数据与操作型数据的区别 操作型数据,有时又称为运作型数据、0 l t p ( 联机事务处理) 数据、原始数 据、初始数据和联机数据;分析型数据有时也称为信息性数据、决策支持数据、 导出数据、提取数据和总结数据。 如表1 3 1 所示,操作型数据与分析型数据在使用方面有着显著的区别: 硕士学位论文 第章引言 表1 3 1 操作型数据与分析型数据的区别 操作型数据分析型数据 表示业务处理的动态情况表示业务处理的静态情况 在存取的瞬间是正确的代表过去的数据 可更新,由录入人员或经过专门培训的输入不可更新,终端用户的访问权限常常是只 事务而更新读的 受到更多关注的是结论性的数据,是综合 处理细节问题 的,或是提炼的 操作需求事先可知道,系统可按预计的工作操作需求事先不知道,永远不知道下步 量进行优化用户要做什么 有数目不多的一些查询,每个查询可访问 有许多事务,每个事务影响数据的一小部分 大量数据 对性能要求高对性能要求宽松 面向应用,支持日常操作面向分析,支持管理需求 用户需要理解数据库,以从数据中得出有 用户不必理解数据库,他们只是输入数据 意义的结论 以上比较说明运作型数据和分析型数据之间存在着众多的差别,不应该保存 在一起,一个好的操作型数据库不能很好她支持分析决策,一个好的分析型数据 库也不能高效地为业务处理服务,因此,应将它们分开,分别组织起运作数据环 境和分析数据环境。 1 5 l 1 3 2 粒度与分割 1 粒度:粒度是数据仓库的重要概念。粒度可以分为两种形式,第一种粒 度是对数据仓库中的数据的综合程度高低的一个度量,它既影响数据仓库中的数 据量的多少,也影响数据仓库所能回答询问的种类。在数据仓库中,多维粒度是 必不可少的。由于数据仓库的主要作用是d s s 分析,因而绝大多数查询都基于一 定程度的综合数据之上的,只有极少数查询涉及到细节。所以应该将大粒度数据 存储于快速设备如磁盘上,小粒度数据存于低速设备如磁带上。 还有一种粒度形式,即样本数据库。它根据给定的采样率从细节数据库中抽 取出一个子集。这样样本数据库中的粒度就不是根据综合程度的不同来划分的, 4 硕士学位论文第一章引言 而是有采样率的高低来划分,采样粒度不同的样本数据库可以具有相同的数据综 合程度。 2 分割:分割是数据仓库中的另一个重要概念,它的目的同样在于提高效率。它 是将数据分散到各自的物理单元中去,以便能分别独立处理。有许多数据分割的 标准可供参考:如日期、地域、业务领域等等,也可以是其组合。一般而言,分割 标准总应包括日期项,它十分自然而且分割均匀口引驯。 1 3 3 数据仓库的基本结构 企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基 础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供 他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息 加以攘理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任 务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。我们在 这里给出一个数据仓库的基本结构,如图1 3 1 所示, 图l - 3 1 数据仓库的基本结构 数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内 部信息和外部信息。内部信息包括存放于r d b m s 中的各种业务处理数据和各类文 档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等; 数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数 据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也 决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的 核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进 硕十学位论文第一章言 行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围 可以分为企业级数据仓库和部门级数据仓库( 通常称为数据集市) 。【2 0 。2 4 】 1 3 4 数据仓库的数据追加 如何定期向数据仓库追加数据也是一个十分重要的技术。我们知道,数据仓 库的数据是来自o l t p 的数据库中,问题是我们如何知道究竟哪些数据是在上一 次追加过程之后新生成的。常用的技术和方法有: 时标方法:如果数据含有时标,对新插入或更新的数据记录,在记录中加更 新时的时标,那么只需根据时标判断即可。但并非所有的数据库中的数据都含有 时标, d e l t a 文件:它是由应用生成的,记录了应用所改变的所有内容。利用d e l t a 文件效率很高,它避免了扫描整个数据库,但同样的问题是生成d e l t a 文件的 应用并不普遍。此外,还有更改应用代码的方法,使得应用在生成新数据时可以 自动将其记录下来。但应用成千上万,且修改代码十分繁琐,这种方法很难实现。 前后映象文件的方法:在抽取数据前后对数据库各作一次快照,然后比较两 幅快照的不同从而确定新数据。它占用大量资源,对性能影响极大,因此并无多 大实际意义。 日志文件:最可取的技术大概是利用目志文件了,因为它是d b 的固有机制, 不会影响ol t p 的性能。同时,它还具有d e l t a 文件的优越性质,提取数据只要 局限日志文件即可,不用扫描整个数据库。当然,原来日志文件的格式是依据d b 系统的要求而确定的,它包含的数据对于数据仓库而言可能有许多冗余。比如, 对一个记录的多次更新,日志文件将全部变化过程都记录下来;而对于数据仓库, 只需要最终结果。但比较面言,日志文件仍然是最可行的一种选择皿啦7 】。 1 3 5 数据仓库的关键技术 l 、数据的抽取 数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境, 它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储 介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、 调度和监控等几个方面。数据仓库的数据并不要求与联机事务处理系统保持实时 的同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、 成败对数据仓库中信息的有效性则至关重要。 在技术发展上,数据抽取所涉及的单个技术环节都已相对成熟,其中有一些 6 硕士学位论文 第一章引言 是躲不开编程的,但整体的集成度还很不够。目前市场上所提供的大多是数据抽 取工具。这些工具通过用户选定源数据和目标数据的对应关系,会自动生成数据 抽取的代码。但数据抽取工具支持的数据种类是有限的:同时数据抽取过程涉及 数据的转换,它是一个与实际应用密切相关的部分,其复杂性使得不可嵌入用户 编程的抽取工具往往不能满足要求。因此,实际的数据仓库实施过程中往往不一 定使用抽取工具。整个抽取过程能否因工具的使用而纳入有效的管理、调度和维 护则更为重要。从市场发展来看,以数据抽取、异构互连产品为主项的数据仓库 厂商一般都很有可能被其它拥有数据库产品的公司吞并。在数据仓库的世界里, 它们只能成为辅助的角色口8 。3 0 】 2 、数据的存储和管理 数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了 它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。要决定采用 什么产品和技术来建立数据仓库核心,则需要从数据仓库的技术特点着手分析 数据仓库遇到的第一个问题是对大量数据的存储和管理。这里所涉及的数据 量比传统事务处理大得多,且随时间的推移而累积。从现有技术和产品来看,只 有关系数据库系统能够担当此任。关系数据库经过近3 0 年的发展,在数据存储 和管理方面已经非常成熟,非其它数据管理系统可比。目前不少关系数据库系统 已支持数据分割技术,能够将一个大的数据库表分散在多个物理存储设备中,进 一步增强了系统管理大数据量的扩展能力。采用关系数据库管理数百个g b 甚至 到t b 的数据已是一件平常的事情。一些厂商还专门考虑大数据量的系统备份问 题,好在数据仓库对联机备份的要求并不高。 数据仓库要解决的第二个问题是并行处理。在传统联机事务处理应用中,用 户访问系统的特点是短小而密集;对于一个多处理机系统来说,能够将用户的请 求进行均衡分担是关键,这便是并发操作。而在数据仓库系统中,用户访问系统 的特点是庞大而稀疏,每一个查询和统计都很复杂,但访问的频率并不是很高。 此时系统需要有能力将所有的处理机调动起来为这一个复杂的查询请求服务,将 该请求并行处理。因此,并行处理技术在数据仓库中比以往更加重要。 大家可以注意以下,在针对数据仓库的t p c - d 基准测试中,比以往增加了一 个单用户环境的测试,成为”系统功力( q p p d ) 。系统的并行处理能力对q p p d 的值有重要影响。目前,关系数据库系统在并行处理方面已能做到对查询语句的 分解并行、基于数据分割的并行、以及支持跨平台多处理机的群集环境和m p p 环境,能够支持多达上百个处理机的硬件系统并保持性能的扩展能力。 数据仓库的第三个问题是针对决策支持查询的优化。这个问题主要针对关系 数据库而言,因为其它数据管理环境连基本的通用查询能力都还不完善。在技术 7 硕士学位论文 第一章引言 上,针对决策支持的优化涉及数据库系统的索引机制、查询优化器、连接策略、 数据排序和采样等诸多部分。普通关系数据库采用b 树类的索引,对于性别、年 龄、地区等具有大量重复值的字段几乎没有效果。而扩充的关系数据库则引入了 位图索引的机制,以二进制位表示字段的状态,将查询过程变为筛选过程,单个 计算机的基本操作便可筛选多条记录。由于数据仓库中各数据表的数据量往往极 不均匀,普通查询优化器所得出得最佳查询路径可能不是最优的。因此,面向决 策支持的关系数据库在查询优化器上也作了改进,同时根据索引的使用特性增加 了多重索引扫描的能力。 以关系数据库建立的数据仓库在应用时会遇到大量的表间连接操作,而连接 操作对于关系数据库来说是一件耗时的操作。扩充的关系数据库中对连接操作可 以做预先的定义,我们称之为连接索引,使得数据库在执行查询时可直接获取数 据而不必实施具体的连接操作。数据仓库的查询常常只需要数据库中的部分记 录,如最大的前5 0 家客户,等等。普通关系数据库没有提供这样的查询能力, 只好将整个表的记录进行排序,从而耗费了大量的时间。决策支持的关系数据库 在此做了改进,提供了这功能。此外,数据仓库的查询并不需要像事务处理系 统那样精确,但在大容量数据环境中需要有足够短的系统响应时间。因此,一些 数据库系统增加了采样数据的查询能力,在精确度允许的范围内,大幅度提高系 统查询效率。 总之,将普通关系数据库改造成适合担当数据仓库的服务器有许多工作可以 做,它己成为关系数据库技术的一个重要研究课题和发展方向。可见,对于决策 支持的扩充是传统关系数据库进入数据仓库市场的重要技术措施。 数据仓库的第四个问题是支持多维分析的查询模式,这也是关系数据库在数 据仓库领域遇到的最严峻的挑战之一。用户在使用数据仓库时的访问方式与传统 的关系数据库有很大的不同。对于数据仓库的访问往往不是简单的表和记录的查 询,而是基于用户业务的分析模式,即联机分析。 关系数据库本身没有提供这种多维分析的查询功能,而且在数据仓库发展的 早期,人们发现采用关系数据库去实现这种多维查询模式非常低效、查询处理的 过程也难以自动化。为此,人们提出了多维数据库的概念。多维数据库是一种以 多维数据存储形式来组织数据的数据管理系统,它不是关系型数据库,在使用时 需要将数据从关系数据库中转载到多维数据库中方可访问。采用多维数据库实现 的联机分析应用我们称之为m o l a p 。多维数据库在针对小型的多维分析应用有较 好的效果,但它缺少关系数据库所拥有的并行处理及大规模数据管理扩展性,因 此难以承担大型数据仓库应用。这样的状态直到星型模式”在关系数据库设计中 得到广泛的应用才彻底改变。几年前,数据仓库专家们发现,关系数据库若采用 硕士学位论文第一章引言 “星型模式”来组织数据就能很好地解决多维分析的问题。”星型模式”只不过是数 据库设计中数据表之间的一种关联形式,它的巧妙之处在于能够找到一个固定的 算法,将用户的多维查询请求转换成针对该数据模式的标准s q l 语句,而且该语 句是最优化的。”星型模式”的应用为关系数据库在数据仓库领域打开绿灯。采用 关系数据库实现的联机分析应用称为r o l a p 。【3 1 _ 3 6 】 3 、数据的表现 在数据展现方面主要的方式有: 查询:实现预定义查询、动态查询、0 l a p 查询与决策支持智能查询:报表: 产生关系数据表格、复杂表格、o l a p 表格、报告以及各种综合报表;可视化: 用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算 机动画技术表现复杂数据及其相互关系:统计:进行平均值、最大值、最小值、 期望、方差、汇总、排序等各种统计分析;挖掘:利用数据挖掘等方法,从数据 中得到关于数据关系和模式的知识。 1 4 本人主要参与的工作 数据仓库技术的学习; 信息采集系统的需求分析、系统设计及软件开发及调试工作; 信息采集系统总体设计; 信息采集系统功能模块的设计; 信息采集系统软件代理服务端、客户端程序编码。 1 5 论文的主要内容 本文系统地论述了校园信息服务中信息采集系统的设计,它采用软件代理技 术实现校园数据的采集、转换和集成;采用数据仓库来存储采集到的信息,并采 用星型雪花模式作为多维数据模型。本论文的主要内容安排如下: 第一章主要阐述了对数据仓库技术研究的背景及其重要意义。并对数据仓 库的结构和特性进行了分析和比较,说明了在校园信息服务中,数据仓库较数据 库而言,其数据的组织存储更为有效,在面向分析的决策服务过程中能够提供更 好的支持。 第二章阐述了信息采集系统的目标和主要任务。并提出在在校园信息服务 中,采用多a g e n t 技术,实现校园异种数据库的采集与更新;采用数据仓库来存 储采集到的信息,并采用星型雪花模式作为多维数据模型。 9 硕j j 学位论文第一章引言 第三章主要对信息采集系统的主要模块进行了设计和解析:信息采集系统 主要包括软件代理模块,系统监控模块和信息采集服务模块。软件代理模块负责 校内异种数据的采集;系统监控模块负责服务器端和客户端之间网络状态的监控 以及采集任务执行状态的监控:信息采集服务模块负责采集任务的管理,采集任 务的执行,参数的设置。 第四章本章主要实现了一个学生主题的数据仓库,采用星型雪花架构,来 描述多维数据模型,并在数据仓库的基础上,对学生的基本信息和四级考试成绩 进行了简单的联机分析。 第五章对本文所做的研究工作进行了总结,并对将来的工作提出了一些建 议。 1 0 硕士学位论文 第二章信息采集系统的总体规划与设计 第二章信息采集系统的总体规划与设计 2 1 信息采集系统概述 信息采集系统是中南大学“校园信息港”的基础,是校园综合信息数据 仓库的主要数据提供者。它在中南大学“校园信息港”建设的信息资源的基 础,它担负着采集、整合与集成校内各类信息的重要任务。 2 1 1 信息港信息采集系统目标 构建基于全校的统一综合数据仓库,根据业务需求,实现对校内所有的信息 实现整合。定义数据仓库的元数据、历史数据、不同层次细节数据的机制,供综 合查询来用。 构建跨平台、面向异种数据格式和异种数据库( 数据库结构已知) 的通用采 集工具,能够通过校园内部各局域网采集校内各管理信息系统中“中南大学校园 信息港”所需信息。 对采集到的信息能够以主题( 校园基本信息、教学信息、科研信息、管理信 息、人事信息、财务信息、设备资产信息等) 为中心进行变换、集成和分类处理, 并准确导入到校园综合信息数据仓库中。 数据采集的原则和更新机制由数据仓库的元数据定义。采集的更新方式采用 定时更新方式,并有可靠的数据致性保障机制。 具有较强的扩展功能,能够让用户随时根据情况的变化调整所需采集信息的 服务器及增加或减少所需采集信息的种类与数量。 在中心实现可视化的系统管理工具,管理各个采集点的数据库结构,管理中 心数据库的库表结构,根据采集点的数据库结构信息动态的、可视的构建采集任 务。 历史数据的保存时间为1 0 一1 5 年。 2 1 2 信息采集系统的主要任务 它主要任务是对校园专用信息管理系统的数据进行采集和集成( 主要是运行 于各职能部门的信息系统) 。 硕士学位论文 第二章信息采集系统的总体规划与设计 它对目前中南大学运行的各部门的信息管理系统( 如学生信息管理系统、教 务信息管理系统、人事管理系统、财务管理系统等等) 的数据进行采集,主要的 数据库种类有a c c e s s ,o r a c l e ,s q l s e r v e r ,d b f ,以及可能的图书馆的图书专 用数据格式;平台为w i n d 0 骼平台,u n i x 平台等。 2 1 3 信息采集系统的性能要求 统一配置,同一采集软件能支持多种数据库格式,具有通用性;提供远程表 与中央数据库表的映射功能,即能将远程某表( 或几个表) 取出一些字段,构成 一个新表,并将数据倒入中央数据库;具有较高的安全性,对于远程数据进行访 问时,不能开放该目录共享,远程也不能直接对中央数据库进行直接操作;要求 即支持服务器端和远程端都发起请求更新数据库;具有日志功能,能在服务器端 和远程端记录数据更新情况:具有安全监控能;增加删除一个数据点灵活;要求 有合理的更新机制。 2 1 4 信息采集系统在校园信息港中的位置 中南大学“校园信息港”具体目标为以横跨三校区及三个附属医院的校园网 为基础,构建中南大学信息服务平台;在目前中南大学各部门已有的信息系统的 基础上,对全校的各类信息进行集中管理与实时查询、并实现对学校人、财、物 等各种资源的有效利用和控制。其主要建设内容包括信息采集系统、校完综台查 询系统、办公自动化系统以及统一网站的建设。其中,信息采集系统负责把校园 内部信息系统的数据集成到校园综合信息数据仓库和校园公共信息数据仓库中。 它在信息港中的位置如图2 1 1 。 硬士学位论文 第二章信息采集系统的总体规划与设计 图2 1 1 中南大学“校园信息港”结构图 2 2 信息采集系统总体规划 2 2 1 信息采集系统的结构设计 如2 2 1 图所示,信息采集系统在物理上由一个中心服务器与中心数据库和 多个采集点构成。中心服务器运行采集系统的服务端,负责收集各个采集点传输 上来的数据,然后将这些数据存储到( 本地) 中心数据仓库上。各个采集点是信 息采集系统的客户端,根据服务端发出的采集任务指令具体的去采集数据,然后 传输到中心服务器上。 硕士学位论文第二章信息采集系统的总体规划与设计 图2 2 1 信息采集系统的系统结构图 由于各专业本身系统的安全考虑,其运行数据不可能直接放置于校园综合信 息数据仓库中,因而必须采用可靠方式将数据倒入到中央数据仓库中。有两种方 式将各部门的管理系统的数据倒入校园信息港综合数据库中。一种通过修改部门 信息管理系统的原代码,将修改、增加或删除记录时,同时也将数据更新至校园 信息港中央数据库。一种是建立专门的倒数据程序,它定时将各部门信息管理系 统的数据有选择地倒入校园信息港中央数据库。从目前可行的来看,对于第一种 方式来说,由于各部门的专业系统由不同的单位不开发的,修改专业系统的原代 码有一定的困难,并且这种方式要求实现专业系统的服务器与学校服务器在线连 通,对于有些专业系统来说,如财务系统、资产系统等不现实的。并且从安全角 度来讲,对于中央数据库以及各门的专业数据库也不允许这么实现。因而本采集 系统将编制专门的数据采集程序,来实现各部门的专业数据库有选择地倒入中央 数据仓库中。 2 2 2 软件代理设计 在信息采集系统中,我们采用自己设计的软件代理,它由软件代理服务端、 软件代理客户端和一系列代理协议组成。信息采集系统的软件代理完成以下的功 能:信息采集任务的启动、数据( 包括代理协议数据、文件数据、信息数据) 的 传输、数据处理程序的启动。在数据采集程序中,我们采用基于软件代理机制的 数据采集系统逻辑示意图如图2 2 2 。 1 4 硕士学位论文 第二章信息采集系统的总体规划与设计 图2 2 2 基于数据代理的数据采集示意图 系统采用基于软件代理机制,其主要特征及优点如下: 采用t c p i p 连接实现数据传输,数据传输由数据代理服务端和部门采集引擎 端组成,部门采集引擎端放置在各部门的数据服器上。数据代理服务器与部门采 集引擎之间采用t c p i p 实现数据传输。 部门采集引擎将负责本部门数据采集到后打包采用t c p i p 传输到数据代理 服务器,数据代理服务器将接收到的数据后解包并将其倒入到中央数据库中。 在数据代理服务器上设立参数配置界面,主要参数为部门数据库i p 地址,数 据库类型,可能的数据库存放的目录以及对应数据库的用户名和口令。 在数据代理服务器端能自动获取远程服的库结构,并能帮助管理人员形成远 程数据和中央数据库对应库名,结构之间的映射,并形成s q l 语句,保存到对应 的数据库中,以作为倒数据时的指令。 采用软件代理,服务端控制整个信息采集系统的业务。各个采集点运行信息 采集代理客户端,并和代理服务端建立连接。当有新的信息采集任务时,服务端 发布采集指令,代理客户端接收采集指令后,请求服务端传送采集程序,然后启 动采集程序进行信息采集,采集到的信息数据由客户端按照代理协议打包并上传 到服务端。服务端接收数据包并按照代理协议解包。然后服务端启动数据处理程 序处理数据,最后信息入数据仓库。在整个信息采集流程中,服务端是控制者。 硕士学位论文第二章信息采集系统的总体规划与设计 采用软件代理,提高了系统的可扩展性和系统维护的方便性。软件代理实现 了信息采集程序的下载,当业务扩展时,只要在服务端扩展信息采集程序就可以 了,同时,软件代理客户端和服务端能够适应采集业务的扩展,不需要扩展。 2 2 3 信息采集系统采集业务过程 图2 2 3 信息采集系统采集业务示意图 1 信息采集代理客户端和代理服务端之间建立连接,代理客户端发送身份协议 数据包到代理服务端,进行握手和身份验证;信息采集服务端返回认证结果协议 包。如认证i d 合法,则提示登录成功,准备下一步的数据传输;如认证i d 不 合法或i d 已经登录过,则提示登录失败,并说明失败原因。 2 管理员或者定时器发布采集任务。信息采集代理服务端发送采集指令的协议 数据包到代理客户端。 3 信息采集代理客户端接收采集指令数据包,根据采集任务查看采集端是否存 在相应采集程序。如存在,比较采集端和服务端文件的属性,判断采集程序有没 有升级,如采集程序已经丹级,则要求代理服务端重新传送采集程序;如果采集 程序不存在,要求代理服务端发送采集程序; 1 6 硕士学位论文第二章信息采集系统的总体规划与设计 4 信息采集代理客户端根据采集指令,启动相应的采集程序,进行信息采集。 采集到的信息传给代理客户端。 5 信息采集代理客户端接收采集程序发送来的信息,并把信息打成协议数据包, 然后上传给代理服务端。 6 信息采集代理服务接收数据包,并根据数据协议解包,然后启动数据处理程 序处理数据。 7 数据处理程序处理完数据后,把数据存入信息港数据仓库。 2 2 4 信息采集系统的工作流程 本信息采集系统的工作流程为,由数据库代理服务器根据系统更新时间参数 主动触发部门采集引擎,部门采信引擎则根据数据代理服务器的数据请求( 包括 表或数据字段) 实现部门系统业数据的采集由于某种原因( 安全或维护) 暂停 采集引擎,部门信息系统管理人员则可以通过部门采集引擎,主动请求更新中央 数据库中的数据。 硕士学位论文第二章信息采集系统的总体规划与设计 图2 2 4 采集系统的工作流程示意图 2 2 5 信息港数据仓库的数据模式选择 在数据仓库中,数据是以数据立方体方式存在的,允许以多维对数据进行建 模以观察。在系统中,选用了星型雪花模型来描述多维数据模型。在该模型中, 数据是以事实表和维表的方式存在。事实表包括事实的名称和度量,以及每个相 关维表的关键字,维表是对事实某一主题描述。星系模式允准多个事实表共享维 硕士学位论文第二章信息采集系统的总体规划与设计 表。对于学校来说,部门维表、专业维表是一些通用的维表,在每个主题都要用 到。如对于学生主题来说,如需要了解各省考生生源,各民族,各专业人数分布 情况,则可采用如下的星系雪花模式。 图2 ,2 5 学生主题的星型雪花模式 采用星型雪花模式存储数据,使系统对数据进行多角度的访问和分析更加方 便。多维分析是数据仓库的重要表现形式。多维分析是指对以多维形式组织起来 的数据采取切片、切块、旋转、钻取等各种分析动作,以求剖析数据,使最终用 户能从多个角度、多个侧面地观察数据。从而深入地了解包含在数据中的信息、 内涵。利用o l a p 提供的切片和切块( s l i c ea n dd i c e ) 功能,逐层细化( d r i l l ) 功能,维旋转功能等,可以轻松地完成传统方法难以完成的工作。 例如,以“专业、省份、民族”三维数据,如图 1 9 硕士学位论文第二章信息采集系统的总体规划与设计 土 切片操作 测控计应 专业 图2 2 6 三维数据模型 主要根据维的限定做投影、选择等数据库操作从而获取数据。对上面的三维 数据,通过“切片”和“旋转”( 选择特定切割方向) ,分别从省份到民族等不同 的角度观察学生的分布情况,如图: 旋转操作 图2 2 7 三维数据切片操作示意图 硕士学位论文 第二章信息采集系统的总体规划与设计 即将表格的横、纵坐标交换( z ,y ) 一( y ,z ) ,通过旋转可以得到不同视角的 数据。 测控 计应 专业 测控计应 专业 2 3 本章小结 图2 2 8 三维数据旋转操作示意图 信息采集系统在校园信息港中的作用就是负责采集、整合与集成校内各类信 息,为校园综合信息数据仓库提供数据。它的目标就是构建基于全校的统一综合 数据仓库,根据业务需求,实现对校内所有的信息实现整合。它采用多a g e n t 技术,实现校园异种数据库的采集与更新,便于业务扩展,提高了系统的通用性、 灵活性、可移植性和可扩展性;采用星型雪花模式,来描述多维数据模型,使系 统对数据进行多角度的访问和分析更加方便。 2 l 硕士学位论文 第三章信息港信息采集系统主要模块的实现 第三章信息港信息采集系统主要模块的实现 3 1 软件代理模块 软件代理由服务端代理、客户端代理及代理协议组成。什么是软件代理呢? 所谓软件代理就是一种计算机程序,它能在特定条件下连续、自治地实现功能, 并同时与相关进程相联系,通过与所处的环境交互,以完成给定的目标a 软件代 理从属于信息采集系统。 3 1 1 软件代理模块的体系结构 图3 1 1 软件代理结构图 硕士学位论文 第三章信息港信息采集系统主要模块的实现 服务端软件代理 服务端软件代理负责接受来自任务实施模块的采集任务及采集点监控模块 的监控任务,并协调客户端完成任务;同时,服务端代理还负责验证采集点客户 端的身份。 客户端软件代理 客户端软件代理负责接受采集任务,如无最新版本采集程序,则向服务端代 理请求下载;如存在最新采集程序,则启动采集程序执行,并将采到的数据经过 相应处理形成数据文件,上传至服务器。当采集点空闲时,客户端软件代理还可 主动向服务端代理发起任务请求。 代理协议数据 代理协议数据以数据包的方式在信息采集代理服务端和代理客户端传输,发 送端在发送数据之前,先把数据以数据包的格式打包;接收端接收到的数据包后, 把数据包解包。 3 1 2 软件代理的技术架构 使用j a v a 消息服务实现客户端代理和服务端代理之间的通信。j a v a 消息服 务是一组j a v a 应用程序接口( j a v aa p i ) ,它提供创建、发送、接收、读取消息的 服务。使用j m s 来编写通信程序不仅编程简单,而且使通信具备以下特征:松 散耦合、异步、可靠。 在我们的系统中,消息传递主要发生在数据目端和多个数据源端之间,因此 我们选用p 2 p 的消息传递方式。具体设计时,我们采用以下方式: 创建n + 1 个消息队列。多个客户端代理发往服务端的消息存放到一个队列, 服务端发往各客户端的消息存放到各客户端的专用队列。这样做的好处在于编程 简单,缺点是容易造成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论