版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
空十号科技号?t
数据仓库设计与实现
学号
姓名________
成绩
教师__________
二0一五年四月
数据仓库建设方案设计与实现
摘要:本文以博士学位调查为基础,创建方案,设计与实现数据仓库,通过对当前各种主
流数据仓库软件在性能、价格等方面的对照,充分考虑统计业务、单位数量等实际情况本
系统决定采用SQI56rver2005数据仓库软件来构建综合信息分析系统的数据仓库。一
关键词:数据仓库;联机分析;数据挖掘;博士学位
一、概述
数据仓库的设计普通从操作型数据开始,通常需要经过以下几个处理过程;
数据仓库设计一一数据抽取一一数据管理。
1.数据仓库设计
根据决策主题设计数据仓库结构,普通采用星型和雪花模型设计其数据模
型,在设计过程中应保证数据仓库的规范化和体系各元素的必要联系。
2.数据抽取
根据元数据库中的主题表定义、数据源定义、数据抽取规则定义对异地异
构数据源进行清理、转换、对数据进行重新组织和加工,装载到数据仓库的目标
库中。
3.数据管理
数据管理分为目标数据维护和元数据维护两方面。目标数据维护是根据元数
据为所定义的更新频率、更新数据项等更新计划任务来刷新数据仓库,以反映数
据源的变化,且对时间相关性进行处理。元数据是数据仓库的组成部份,元数据
的质量决定整个数据仓库的质量。当数据源的运行环境、结构及目标数据的维护
计划发生变化时,需要修改元数据。
二、博士学位授予信息年度数据统计分析
1.按主管部门统计
从主管部门的角度,分析在一个时间段(年)内,各主管部门所授予的博士
学位信息统计。可回答如“2022,由某部门主管的,博士学位授予一共有多少,
其平均学习年限是多少,脱产学习的有多少人?〃等问题。具有表格和图形两种
方式来展示分析结果。典型报表格式如表1所示
表1200_年度授予博士学位情况统计表(按主管部门统计)
授其中其中在学期间成果
其中平均
主管予同等其中平均少数一级
学历学习
部门人学历女年龄民族学科论文成果专利
博二年限
数博士授予
合计
中国
科学
院
财政
部
2
表1续200_年度授予博士学位情况统计表(按主管部门统计)
学习方式录取类别就业单位类别
录
金
取
半脱业定非定科研、设融待就
脱产机关部队研其他
产余向向计单位单'小
咒
位
生
三、系统体系结构设计
通过对当前各种主流数据仓库软件在性能、价格等方面的对照,充分考虑统
计业务、单位数量等实际情况,本系统决定采用SQLServer2005数据仓库软
件来构建综合信息分析系统的数据仓库。
本系统服务器端要求运行平台为Windows2003Server企业版,客户端要
求WindowsXP,浏览器为IE6.0;采用SQLServer2005数据仓库构建方案
构建数据仓库,选用VisualStudio.NET2003/SQLServer2005.Rose、
PowerDesigner等开辟工具进行系统开辟。
2
我们设计的综合信息分析系统构架在统计综合信息平台中,其核心功能表现
为通过数据转换技术,将直报数据库及其他数据源的数据库生成利于进行分析
的、不同于关系数据库的数据仓库,根据不同的分析需求建立不同的专题分析数
据库(多维数据库),最后对多维数据库进行利用联机分析处理、数据挖掘,其
架构如图所示。
分析查询/报表
数据榜掘
前端展示工具
服务
OLAP服务器OLAP服务器
//OLAP服务器
监视管理器数据仓库数据集市
OD
元数据库数据仓库服务器
;清洗1—J
抽取
.4ISL
转换
0D数据源
操作型数据外部数据库其他数据
图1学位授予信息统计系统架构
在这个体系结构中,存放于系统数据库中的业务数据及外部数据源数据按照
主题通过ETL工具被抽取到ETL数据库(数据准备区),数据在ETL数据库中完
成预处理工作(清洗和转换),再通过ETL工具加载到数据仓库。数据进入数据
仓库后按照维度和事实存放,采用MSAnalysisServices作为OLAP服务器,
AnalysisServiees可以方便的定义维度和构建OLAP立方体。用户使用前端的
查询工具、报表工具、分析工具,就可以访问决策支持系统并分析浏览数据了。
由于数据预处理本身的复杂性,直接从外部数据源把数据整合到数据仓库必
将导致该过程即占用许多外部操作型数据库的资源和时间,也会影响数据仓库装
载数据的效率。借鉴算法研究中“以空间换时间”的思想,再结合目前硬件成本
的下降,本系统中,我们在数据仓库的体系结构中添加一个专门进行数据预处理
3
的存储区域以提高数据仓库系统整体性能。
四、系统数据逻辑结构设计
1.基础层模型设计
基础层数据用于存放从学历教育博士学位、同等学力人员申请博士学位、博
土专业学位、学历教育硕士学位、同等学力人员申请硕士学位、硕士专业学位、
普通高等教育本科毕业生学士学位、成人高等教刍本科毕业生学士学位、来华留
学本科毕业生学士学位、学士专业学位等数据源ETL过来的数据,这些业务数据
将进行整合、组织、重构和存放。根据学位银行授予统计系统需求,基础层模型
包含博士学位信息主题域、项士学位信息主题域、学士学位信息主题域。
博士学位授予信息是指主题域存放所授予的博士学位信息,分为学历教育博
士学位、同等学力人员申请博士学位、博士专业学位。主要的信息有:个人基本
信息、学科信息、学位信息、学位论文信息、前置学位信息,、获学位后去向信息
等。
硕士学位授予信息是指主题域存放所授予的硕士学位信息,分为学历教育硕
土学位、同等学力人员申请硕士学位、硕士专业学位。主要的信息有:个人基本
信息、学科信息、学位信息、学位论文信息、前置学位信息、获学位后去向信息
等。
学士学位授予信息是指主题域存放所授予的学士学位信息,分为普通高等教
育本科毕业生学士学位、成人高等教育本科毕业生学士学位、来华留学本科毕业
生学士学位、学士专业学位。主要的信息有:个人基本信息、学科信息、学位信
息等。
2.汇总层模型设计
汇总层模型的设计需要考虑汇总的粒度问题,汇总的粒度不同,能够回答的
业务问题也不一样,由于系统数据庞大繁杂,学位授予时间相对照较固定,本模
型将汇总层模型设计为年。
该层的设计主要考虑数据向年度级别的汇总,解答如某年某主管单位所授予
的博士学位人数等业务问题。根据博士学位信息授予主题的需求分析,即分析的
角度(也叫维度)、指标、查询的内容,以博士学位信息授予主题为例,其;L总
层的数据模型如图所示。
5
授予学历教育博士学位情况统计表(按主管部门统计)1
PK主管部门
其中学历博士
其中同等学历博士
其中专业学位博士
其中女
至予博士学位情况统计表(按主管部门统计)列1
平均年龄
少数民族
平均学习年限.
其中一级学科授予
在学期间成果(论文〉
期间成果(成果)
期间成果(专利)
学习方式(脱产)
学习方式(半脱产)
学习方式(业余)
录取类别(定向)
录取类别(非定向),
就业单位类别(机关),
就业单位类别倍B队)
就业单位类别(待就业)
就业单位类别(录取研究生)
就业单位类别(其他)
5
学历教育博士学位授子信息
个人基本信息
学科信息
学位信息
学位论文信息
前置学位信息
获学位后去向信息
其他信息
FK1主管部门
图3学历教育博士学位授予信息汇总层模型
3.报表层模型设计
报表层数据是用于存放学位授予信息统计系统中固定报表统计数据,同时也
是灵便查询的数据源。这些数据是根据报表业务规则,从基础层和汇总层统计而
出,本模型主要包括内容有:授予博士学位信息统计表、授予硕士学位信息统计
表、授予学士学位信息统计表。以博士学位信息统计主题为例,其博士学位信息
报表层的数据模型如图所示.
授予博士学位情况统计表(按主管部门统计)
PK主管部口学历教育博士学位汇总(按主管部|,口统计)
其中学历博士
其中同等学历博士
主管部门
其中专业学位博士FKI
其中女
授予博士学位情况统计表(按主管部门统计)歹
平均年龄
少数民族
平均学习年限同等学力人员申请傅士学位(按主管部门统计)
其中一级学科授予
在学期间成果(论文)
期间成果城果)
IK1主管部门
期间成果(专利)
学习方式(脱产)
学习方式(半脱产)
图4学历教育博士学位授予信息(按主管部门统计)报表层模型
五、数据仓库模型设计
为满足决策分析的需要,系统需要将各种数据源来的数据环绕决策主题存储
到数据仓库中,以提高数据查询、会萃的效率。数据仓库建模采用自上而下的三
级建模方式,即概念建模、逻辑建模、物理建模。概念建模可采用信息打包法,
逻辑建模以星型建模方法和雪花建模方法为主,物理建模以3NF和星型建模方式
为主。
7
在数据仓库的3级数据模型中,概念模型表示现实世界的“业务信息”构成
关系,用业务数据库设计中的“实体一关系”方法(E-R方法)来设计这一级的
数据模型,但需要用分析主题代替传统E-R方法中的实体。在传统业务数据库设
计中的逻辑模型普通采用范式规范的表及其关系,数据仓库设计中的逻辑模型也
采用表来存储数据,因此也数据仓库中使用的也是关系模型,无非表与表之间不
再通过3大范式的规范,而是以星形结构、雪花形结构和星座型结构等方式蛆成。
物理模型则属于这些表的物理存储结构,比如表的索引设计等。数据仓库的设计
就是在概念模型、逻辑模型和物理模型的挨次转换过程中实现的。作为数据仓库
的灵魂一一元数据模型则自始至终伴有着数据仓库的开辟、实施与使用。数据粒
度和聚合模型也在数据仓库的创建中发挥着指导的作用,指导着数据仓库的具体
实现。图4表达了微观数据仓库设计中各种概念之间的关系。
现实世界
数
据
粒
元
度
数
和
据
维
据
度
模
模
型
型
图6微观数据仓库设计中各种概念之间的关系
1.概念模型设计
概念建模主要表达决策的主题、分析主题的角度、各个角度需要分析的属性
信息,决策中层次的信息一粒度,及决策主题的评估等。
1997年Hammergren提出的信息打包方法,要求从一个决策者的角度去将焦
点集中在几个主题上,着重分析所涉及的数据多维性。信息打包方法首先需要确
定分析的主题,然后环绕这个主题填入指标、维度、粒度等信息。
1.定义关键性指标:定义分析主题的评估指标;
2.定义维度:维度是用户访问评估信息的途径,每一个维度只表示一个主要
的访问途径。
3.定义粒度:粒度是维度中信息的详细程度。
2.逻辑模型设计
概念逻辑建模中将分析模型描述成一个可以实现的模式,根据这个模式可以
实现存储到实际的数据存储器里。星型模型比较适合数据仓库的要求,在星型模
型的基础上扩展出雪花模型。
a、星型模型
星型模型中使用事实、维、维属性、事实度量来描述。星型模型以事实为中
心,各个维为角的星型结构,事实使用度量来评估,维中使用属性来描述维中的
类别信息和描述信息。
b、雪花模型
雪花模型是在星型模型的基础上增加了粒度层次的描述。根据以上对星型模
型中维
我们分析对象为对学位授予信息的统计分析。下面以博士学位授予信息统计
作为分析主题为例,为学位信息分析系统数据仓库建立概念模型。属性的分析可
知,问一种星型模型可以转化成不同的雪花模型,转的根据是属性层次的确定。
不同的属性层次结构可以展现成不同的雪花图。
c、逻辑模型中会萃操作的需求和表示
为加快分析速度,可以将分析频繁的层次预先进行会萃操作,即将信息按照
属性粒度层次来进行会萃,当需要进一步分析时再到原有的基本信息中进行搜
索。
本系统采用的是星型模型。
六、数据预处理过程模型设计
建立数据仓库不仅仅要考虑到联机分析(OLAP)的需要,更重要的是要考虑
到数据挖掘的需要。由于数据仓库中的数据量可能以几何级数迅速增长,这就导
致数据仓库中包含许多含有噪声、不完整、甚至不一致的数据,这严重影响
数据处理的效率和效果,影响决策者的决策。目前数据挖掘的研究主要着眼于数
据挖掘算法的探讨,而忽视了对数据预处理的研究。但事实上,数据挖掘中的预
处理工作量占到整个数据挖掘工作量的60%摆布,可见数据预处理工作是相
当基础和重要的步骤。在本系统的构建中,采用了如下数据预处理策略。
1.系统ETL结构设计
本系统数据分为业务基础数据模型层、汇总数据模型层、报表层和参数层。
如图所示。
9
基
础
层
数
据
模
型
图8ETL数据架构设计
2.将数据预处理集成在数据仓库构建过程中
基于数据仓库的数据挖掘普通的步骤是:建立数据仓库一进行数据预处理-
数据挖掘。实际上,数据预处理彻底可以在构建数据仓库的同时进行。可以将数
据预处理融人数据仓库的构建过程中,并将数据仓库的构建作为数据挖掘的一个
重要预处理步骤,将两者有机结合起来。下图说明了基于数据仓库的数据预处理
过程模型。
原始数据
构
清理阶段数
建I
据
数
预
据数据集市
处
仓
理
库集成阶段
过
过
程
程数据仓库
归约阶段
____________y[
数据挖掘训练集
图9数据预处理过程模型
10
七、学位授予信息分析应用系统的实现
1.创建数据仓库
当数据仓库完成物理模型设计以后,就需要进行数据仓库的物理创建。此时,
需要完成这样一些工作:创建数据准备区、创建数据仓库、从业务系统提取数据、
清理和转换数据、将数据加载进入数据仓库。在创建了数据仓库后,用SQL查询、
OLAP应用、数据挖掘等工具对数据仓库进行操作和访问.用户企业现行业务处
理系统的数据大部份存储在SQLServer数据库中,这也为我们选用
SQLServer数据仓库开辟应用工具提供了便利。
学位信息授予统计系统构建于现有业务系统的数据基础之上,通过对大量数
据进行抽取、清洗、转换、整理,将这些历史数据按照决策者的意图从不同角度
(维度)层层展现开来,以达到经营分析决策的最终目
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 豫西瑰宝:灵宝道情的艺术探析与传承发展研究
- 豆油期货对我国油脂企业财务状况的多维度影响与策略研究
- 谢阁兰1914-1917年在华考古行动:中法文化交流下的探索与发现
- 课堂任务型讨论:高中英语口语能力提升的行动探究
- 语言经济学视域下商务英语教学改革的多维探究与实践
- 语篇分析视角下商务英语翻译策略的多维探究
- 语法翻译教学法在职英语教育中的效用探究:理论、实践与展望
- 2026年上饶市人民医院医护人员招聘笔试参考题库及答案详解
- 语义图式词汇策略:高中英语教学的创新驱动力
- 词块教学:开启高中生英语口语流利性提升之门
- DB11T527-2024配电室安全管理规范
- GB/T 2820.5-2025往复式内燃机驱动的交流发电机组第5部分:发电机组
- 消防监督检查方法课件
- 初中生劳动教育考试试题及答案
- T/CCT 013-2023兰炭生产业二氧化碳排放核算技术规范
- 探究拔节期和孕穗期双期低温对小麦籽粒品质的影响
- 城市梁桥拆除工程安全技术规范
- 2025年山东青岛东鼎产业发展集团有限公司招聘笔试参考题库附带答案详解
- 工程造价审计服务投标方案(技术方案)
- 认证机构风险管理制度
- 天津市医疗机构制剂注册管理办法实施细则-天
评论
0/150
提交评论