




已阅读5页,还剩69页未读, 继续免费阅读
(农业机械化工程专业论文)数据仓库技术在大豆栽培上的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
独创。眭声明 本人声明,所呈交的学位( 毕业) 论文,是在指导教师的指导下,通过 我的努力取得的成果,并且是自己撰写的。尽我所知,除了文中作了标注和 致谢中已作了答谢的地方外,论文中不包含其他人发表或撰写过的研究成 果。与我一同对本研究做出贡献的同志,都在论文中作了明确的蜕明并表示 了谢意,如被查有侵犯他人知识产权的行为,由本人承担应有的责任。 学位( 毕业) 论文作者亲笔签名:喀t - 彬il i 岛 同期:z 舯r 箩- 弓。 u 、 , 论文使用授权的说明 本人完全了解福建农林大学有关保留、使用学位( 毕业) 论文的规定, 即学校有权送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文 的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。 保密,在年后解密可适用本授权二岛。 口 不保密,本论文属于不保密。t 日期:2 朋歹、箩、弓口 日期:加rt r 、;j 瓦 桃凇 淞酗 塑些垡竺查兰塑:! ! 兰竺丝兰墼堡垒堕垫查塑i 查皇些竖:! i 堕! 兰旦 摘要 本文简要介绍了数据仓库的定义、特征、发展历史和趋势及数据 的粒度与分割、数据仓库的开发方法和数据模型、元数据管理、数掘 集成、联机分析处理和数据挖掘、数掘追加等数据仓库具体实旌过程 中的关键技术。并详细介绍了如何运用以上技术完成以下5 项主要研 究工作: ( 1 ) 建立可视化数据仓库建模工具,并使用此工具建立大豆栽培 数据仓库多主表结构的数据模型; ( 2 ) 利用a d o 、s q l d m o 等数据库技术建立e t l 工具,并使用此 工具对大量有关大豆栽培的存储组织形式各不相同的数据进行抽取、 转换和装载,建立大豆栽培数据仓库: ( 3 ) 实现对该仓库中数掘进行查询、生成图表、统计分析、曲线 拟合等功能; ( 4 ) 实现数据仓库数据的追加及手动输入; ( 5 ) 实现企业级的元数据管理。 本系统采用基于c o m 的三层体系结构,能将存储在本地计算机及 与其联网计算机中的多种关系型、非关系型数据源的数据集成到数据 仓库中,如m i c r o s o f ta c c e s s 、e x c e l 电子表格等:界面友好,新建数 据仓库、数据仓库数据追加等过程均采用向导式实现,易于操作;具 有较强的错误处理能力;也可用于建立以雪花、星型模型为数据模型 的大豆栽培数据仓库,具有良好的扩展性;还可用于小麦、水稻等其 他农作物栽培数据仓库的建立,具有良好的可移植性。 关键词数据仓库大豆栽培多维数据模型元数据联机分析处理数 据追加e t la d o 祸业农林人学顺j 学位论义彀搬仓库技术n :大豆栽培i :的麻用 a b s t r a c t t h i s p a p e r i n t r o d u c e s t h e d e f i n i t i o n c h a r a c t e r , h i s t o r y d e v e l o p m e n t a l d i r e c t i o no ft h ed a t aw a r e h o u s ea n dt h ee s s e n t i a l t e c h n o l o g y o f d e v e l o p i n gt h ed a t aw a r e h o u s es u c ha s :g r a n u l a r i t y , d e c o l l a t i o no fd a t a , t h ed e v e l o p i n gm e t h o d & d a t am o d e lo ft h ed a t a w a r e h o u s e ,m a n a g e m e n to f t h em e t a d a t a ,d a t ai n t e g r a t i n g ,o n l i n ea n a l y t i c a l p r o c e s s i n g d a t am i n i n g ,d a t ai n c r e m e n ta d d i t i o n ,e t c i ta l s oi n t r o d u c e s h o wt oc o m p l e t e5r e s e a r c ha s s i g n m e n t sw i t ht h o s et e c h n o l o g i e si nd e t a i l : ( 1 ) b u i l dt h ev i s u a lm o d e l i n gt o o lo fd a t aw a r e h o u s e ;w i t ht h e m o d e l i n gt o o l ,w eb r i n gf o r w a r dt h em u l t i f a c tt a b l es t r u c t u r ea st h ed a t a m o d e lo f t h es o yp l a n t i n gd a t aw a r e h o u s e ; ( 2 ) w i t l lt h ed a t a b a s et e c h n o l o g i e ss u c ha sa d o ,s q l d m oe t c ,w e b u i l dt h ee t lt o o la n dw i t hj ta c h i e v ee x t r a c t i o n 、t r a n s f o r m a t i o n & l o a do f ag r e a td e a lo fd a t aa b o u ts o yp l a n t i n gw h i c hs t o r e da n do r g a n i z e db y d i f f e r e n ts t y l e s ,b u i l dt h es o y p l a n t i n gd a t aw a r e h o u s e ; ( 3 ) w ea l s oc o m p l e t eq u e r y i n gd a t a ,m a k i n gg r a p h ,c a l c u l a t i n g s t a t i s t i c s ,p o l y n o m i a lr e g r e s s i o na n ds oo n ; ( 4 ) c o m p l e t ed a t ai n c r e m e n ta d d i t i o na n di n p u t t i n gd a t am a n u a l l y ; ( 5 ) a c c o m p l i s he n t e r p r i s e - l e v e lm a n a g e m e n to f t h em e t a d a t a t h i ss y s t e mw a sd e s i g n e di n t ot h r e e t i e ra r c h i t e c t u r e i tc a ni n t e g r a t e m a n yk i n d so f d a t as o u r c e ( r e l a t i o n a lo tn o t ) ,s u c ha sm i c r o s o f ta c c e s s ,e x c e l , e t c i ta l s oc a ni n t e g r a t et h ed a t aw h i c hs t o r e di nl o c a lc o m p m e ro rt e r m i n a l s i th a sav e r yk i n di n t e r f a c e ,c o m p l e t i n gb u i l d i n gn e wd a t aw a r e h o u s ea n d d a t ai n c r e m e n ta d d i t i o nw i t hg u i d ep r o c e s s t h es o f t w a r eh a sas t r o n g c a p a b i l i t yo fh a n d l i n ge r r o r s h a v i n gag o o dc a p a b i l i t yo fe x t e n s i o n ,i tc a n b eu s e di n b u i l d i n gt h es o yp l a n t i n gd a t aw a r e h o u s ew h i c ha d o p t s n o w f l a k em o d e lo rs t a rm o d e la si t sd a t am o d e l a l s oh a v i n gag o o d c a p a b i l i t yo fe x t e n s i o n ,i tc a nb eu s e di nb u i l d i n gt h ep l a n t i n gd a t a w a r e h o u s eo f o t h e rp l a n ts u c ha sw h e a t ,r i c ee t c 2 祸建农林火学颅l 学位论文 数据仓库技术钟:大豆找培一l :的应用 k e y w o r d sd a t aw a r e h o u s e ,s o yp l a n t i n g ,d i m e n s i o n a ld a t am o d e l , m e t a d a t a ,o n l i n ea n a l y t i c a lp r o c e s s i n g ,d a t ai n c r e m e n ta d d i t i o n e t l ,a d o 3 锅矬农林人学坝一l :学位论义数掘仓厍技术征人且戴蠕j :的m 川 l 引言 1 1 课题的引入 1 1 1 从数据库到数据仓库 随着计算机网络和数据库技术的飞速发展,数字信息的存储量f 以惊人的速度飞速增长。对这些数据的操作如果仅仅停留在查询更新 的层次上,就远远没有充分发挥数掘的作用和价值,造成数据资源的 巨大浪费。传统的数据库系统数据冗余度小,有很高的数据独立性和 易扩充性,在快速事务响应频繁的数据修改方面有着卓越的性能。但 大量的数据存放在分散的数据库当中,其定义和组织方式各不相嗣, 难以进行统一调用和不同系统的比较:另外,数据库提供的数据是操 作型、事务型的,并且是当前数据,也给历史趋势的分折带来了很大 难度。因此,传统数据库系统难以将大量异构数据按辅助决策主题的 要求进行加工集成,适应更高层次的数据处理需求。如何有效地存储 和管理这些数据,更重要的是从海量数据中发现未知的、有潜在利用 价值的规律和知识,为高层管理人员的决策提供数据支持,提高数据 的利用效率,这些都促进了数据仓库技术的产生。 1 。1 2 本课题的研究内容及重要意义 我校作物学院在多年的科研实践中,积累了大量有关大豆栽培的 宝贵数据资料,包括不同品种大豆在不同气候条件、土壤环境、农艺 措施下的生长发育、收获情况、病虫害统计等等。这些资料大多采用 手工记录收集,效率低下且难以整理剥用;部分已经数字化在计算机 中的信息一般都是采用文件或数据库系统管理,适合事务型操作而不 适合分析型处理;大量的数据以不同的组织形式存在于不同的存储介 质中,给进一步的深入分析研究工作带来了很大的困难,造成虽然积 累了大量宝贵的数据资料,却难以充分利用这些数据资源科学地总结 出大豆栽培过程中的规律,为大豆栽培技术问题提供决策依据。为此, 我们建立大豆栽培数掘仓库系统,将以不同形式存储的有关大豆栽培 的数据集成到数据仓库中,进行联机分析处理和数据挖掘,发现其中 隐含的规律和知识,用以指导进一步的科研和生产实践活动,提高科 堡些,农竺查兰堡:! :堂竺堡兰塾堡垒堕垫查! :查呈塑堡:! 堕! 兰! ! ! 研和农业生产的效率。 因此,本课题的主要研究内容是建立一个可视化数据仓库建模工 具,通过此工具建立大豆栽培数据仓库的数据模型并完成其物理数据 库的设计;建立e t l ( 抽取、转换、装载) 工具,将存储在本地和远程 计算机各种不同类型数掘库中、甚至手工记录的,定义和组织结构各 不相同的数据集成到数据仓库中:实现数据仓库数据的追加、维护和 元数掘的管理;提供丰富的联机分析处理,对该仓库中数据进行查询、 统计分析、生成图表及曲线拟合等操作;便于科研人员充分利用已有 的数据资源,更好的查询、分析数据,找出其中的规律,为进一步的 科学研究和生产实践提供指导性的帮助。 1 2 数据仓库技术的应用现状 1 2 1 数据仓库技术在国外的应用 上世纪9 0 年代初出现的数据仓库技术,今天已经在发达国家的银 行、证券、保险、税务、电信、邮政、航空、铁路运输、医疗保健、 商业零售业等许多行业和部门得到应用并取得成功。据i d c ( 美国国际 数据公司) 调查,数据仓库的平均投资回报率在4 0 1 。巨大的经济利 益使企业认识到应用数据仓库技术,改善企业的决策模式,是在激烈 的市场竞争中立于不败之地的有力武器。目前,在美国,3 0 4 0 的公 司已经或正在建造自己的数据仓库,幸福5 0 0 中已经有8 5 的企业建成 或正在建立数据仓库。随着i n t e r n e t 和电子商务的发展,各大数据仓 库产品供应商纷纷将目光投向电子商务、构建商业智能平台等领域。 美国第六大银行f i r s tu n i o nc o r p o r a t i o n 于1 9 9 8 年采用了 i n f o m 5 x 数据仓库解决方案,系统运行在i b mr s 6 0 0 0s p 2 上,具有 2 5 0 个处理器和1 0 0 多个节点,最终的数据容量将达到2 7 t b 。该系统 通过分析客户的利润、家庭收支、人口等数掘发现最能为公司带来盈 利的客户,2 7 0 0 万美元的投入在短短的一年内就为他们增加了1 亿美 元的利润。 美国第二大电信公司m c i 既成功实施了“f r i e n d f a m i l y ”数据 仓库系统后,又建立了“s t r a t e g i cm a r k e t i n gs y s t e m ”数据仓库系 恫锉农林人学坝十学位论文数据仓库技术饥大旦找培i :的应用 统,希望依托现有业务数据支持客户市场营销计划,提高服务水平和 产品质量,降低费用,以达到增加公司利润的目的。 目前世界最大的数据仓库系统是n c r 公司基于t e r a d a t a 数据库的 沃尔玛数据仓库系统,已经拥有2 4 t b 的数据量。 1 2 2 数据仓库技术在国内的应用及存在的问题 1 2 2 1 数据仓库技术在国内的应用 在国内,多年的数据库应用积累了大量的业务数据,为数据仓库 的应用打下了数据基础;加入世贸后,更加激烈的国际竞争迫使企业 采用更科学的经营手段以求得生存发展;f b 子商务的迅速崛起要求商 家更加了解客户需求,必将促进客户关系管理( c r m ) 等数掘仓库新兴 技术的发展。 近几年数据仓库的应用也已在我国形成热潮,证券、银行、税务、 保险等行业都已经有了成功应用的范例,在客户服务、营销、金融风 险控制等领域的应用也在探索中。如1 9 9 9 年4 月,深圳国情证券的数 掘仓库系统( 由s y b a s e 公司提供解决方案) 一期工程完成;1 9 9 9 年中 国新华人寿保险公司寿险行业决策支持系统投入运营;中国建设银行 也采用数据仓库技术进行信贷分析和风险管理。 随着对数据仓库认识的逐步深入及其在实际应用中产生的巨大经 济效益,其他领域也开始探索数据仓库的使用。如医学研究中通过建 立庞大的化学物质和基强库来判断哪些方法可能对治疗菜种疾病有 效;地理信息系统通过对数据仓库的分析挖掘得到地图和遥感数据的 非显示知识等。 农业是一个庞大而复杂的系统,其数据同样具有海量、多维、动 念等特点,所以数据仓库在其中也必将得到越来越广泛的应用。 建立农业环境信息系统,通过分折基本农田、面源污染、节水灌 溉、生态农业、无公害农产品等方面的大量信息数据可以得到如不同 地区环境质量状况差异的原因,导致农产品质量恶化的可能环境因素, 农产品生产基地的选择和施肥施药的时机等诸多有价值的信息,提高 农业环境管理的效率效益。 塑些垒:! ! ! 查兰堡二! 兰竺堕塞墼塑垒壁垫查鱼查里塑堕! 竺生坐 建立农业结构优化决策支持系统,通过分析土壤类型、作物品种、 病虫害症像及肥水气候等之间的关系和影响,优化农业产业结构,在 自然资源、社会资源一定的条件下,寻求合理的产业结构和布局,创 造最大的社会效益、经济效益和生态效益,保持农业的可持续发展。 建立农业科研管理信息系统,通过对农业科研成果分布、学科分 巾、科研人员年龄性别构成等信息的分析,可得到农业科研成果地区 分前i 是否合理,学科构成规律及存在问题的有价值的信息,提高农业 科研管理水平、实现农业科研管理标准化、电子化、现代化,有利于 信息的交换、共享、保存和利用。 建立农业生产宏观决策支持系统,利月j 地区社会经济条件及自然 条件( 包括人口、土地、自然条件、农产品供求、政策信息等) 信息 库,分析农业生产现状,进行优化设计,针对当前农业发展的重大问 题提出对策建议,设计农业发展总体战略与对策,总结农业发展的典 型模式与经验,推动农业可持续发展,创造更大的社会经济效益。 以上列举的诸多问题,均可使用数据仓库技术来实现。 1 2 2 2 数据仓库技术在国内应用中存在的问题 需要指出的是,虽然数据仓库技术的应用在国内已经取得了一定 的成就,但与发达国家相比,还存在很大的差距。生产力水平低下, 信息化基础建设起步较晚、投入较少都使数据管理上升到数掘仓库阶 段面临困难。目前,数据仓库应用中主要存在以下几个问题: 首先,数据积累还不够充分。数据仓库应用的前提是积累大量的 数据,尤其是历史数据。虽然我国的数据库建设已经取得了很大成就 并仍在不断进步,但与发达国家的差距不仅没有缩小,反而拉大了; 除银行、电信、证券等少数行业外,数据积累都不足以支持数掘仓库 的应用。在这种情况下建立数据仓库是毫无意义的。 其次,技术人才匮乏。数据仓库的应用需要大量专业技术人员的 支持,而国内能完整实施数据仓库的人:- t 严重匮乏。 第三,具体实现中的技术问题。异构数据在进入数据仓库之前的 整合仍有很多技术困难:如同名异义、异名同义的命名冲突;同样的 堡些坐竺查兰竺:! := 兰篁丝茎 墼堡竺堡垫苎生查皇些= ! 堕:! 竺竖旦 联系在不同数据库中被表示为不同结构的模式冲突;主键选择不一致 的主键冲突等等。另外,数据挖掘工具的选择也是一个难题,目前市 场上还没有大众化、简单易用的集成数据挖掘工具。 1 3 数据仓库技术未来的研究方向 目前世界上许多著名的大学和公司如斯坦福大学、i b ma l m a d e n 研 究中心、威斯康辛大学、m i c r o s o f t 公司等都在进行数据仓库技术的研 究;大体说来,他们的研究内容有可以高效、自动集成异构数据源的 算法和工具,多维数据库的建模,o l a p 数据组织,数据立方体计算等 方面。 1 3 1 实视图的维护 o l a p 需要对大量数据进行投影、连接、分组等复杂运算,而这些 数据又是来源于一个或几个独立的数据源。为了快速响应o l a p 的查询, 数据仓库预先对原始数据进行投影、连接、分组等处理,形成实视蹦。 在这些实视图上进行简单计算就可完成o l a p 所要求的查询,大大缩短 了响应时间。 数据仓库中的数据来源于分散的传统数据库,这些数据库中的数据 每天甚至每时每刻都在更新。当传统数据库中的原始数据的变化积累 到一定程度时,如何使实视图进行同步更新,以提高数据的质量、保 证决策的正确,就带来了实视图的维护问题。 由于对数据仓库的实视图频繁进行重新计算的代价是非常昂贵的, 所以目前主要采用增量视图维护。斯坦福大学的y 。z b u g e 提出的e c a 方法,是基于一个数据源的视图维护方法。它基于f i f o 模型,根掘原 始数据的变化查询原始数据,并将结果反映在实视图中。y z h u g e 还提 出s t r o b e 算法来维护基于多数据源的实视图。 此外,视图更新必须通过网络访问原始数据库中的数据,若更新频 繁或网络带宽有限,将会降低实视图维护的效率。将一些原始数掘在 数据仓库中备份,就能很好的解决这个问题,这就是实视图的自维护。 1 3 2 数据立方体 与传统的关系数据库不同,数掘仓库以多维形式组织和显示数据。 福建农林大学硕士学位论文 数制仓库技术在大豆栽培:的成用 1 3 2 1 多维数据库的建模 j i mg r a y 等人引入了c u b e 操作符,根据要分析的主题,将数据组 织成多维立方体。一个主题可以有多个立方体,每个立方体由一个事 实及事实的多个维( d i m e n s i o n ) 和多个度量( m e a s u r e ) 组成。事实是数 据分析的目标,是决策支持、预测分析中人们感兴趣的焦点,如某企 业的各种产品在各个时期和地区的销售量等。维是数据分析的角度, 如销售的时问、客户、产品、地区等等都是维。维是有层次的,如时 间维可以分成“年一月一日”三个层次。根据维的层次可将数据划分成 不同的粒度:粒度是数掘细化或综合程度的级别。综合程度越高,细 化程度越低,粒度级就越高:反之,细化程度越高,综合程度越低, 粒度级就越低。如年销售量和月销售量比较,其综合程度高,细化程 度低,粒度级也就越高。度量是事实的定量描述,是数据分析的目标。 度由维决定,是维的函数。在具体的实现过程中,维和度量分别对应 数掘结构中的维表和事实表。事实表位于数据模型的中心,包括事实 名称、度量属性及周围维表的外键。维表位于事实表的周围,通过外 键与事实表连接。对立方体可进行旋转( p i v o t i n g ) 、切片和切块 ( s 1 i c i n g d i c i n g ) 、下钻( d r 订1 i n g d o w n ) 和上钻( r o l l i n g u p ) 等操作。 传统的数据处理中,维和度是静态的、一成不变的。这对于限定维 值查询度值,如查询某产品2 0 0 0 年在广州市的销售量,可以得到快速 响应。但对于限定瘦值查询维值或限定度值查询度值就很难回答,如 查询某产品在广州销量达到一万件用了多少时间,价格在1 0 0 元以上 的某产品今年销量是多少等等。而在实际应用中,这两种查询又是必 不可少并被频繁使用的。i b m 提出的多维数据库模型统一对待维和度 量,通过维和度的相互转化( 下钻一维转化成度,上钻一度转化成维) , 能均衡、对称、平等地处理维和度;它还定义了p u s h ,p u l t ,d e s t o r y , d i m e n s i o n ,r e s t r i c t i o n ,m e r g e 等基本运算操作,构成了多维数据库 的原始模型。 1 3 2 2 立方体计算 9 锅矬农林人学坝i :学位论文数据仓库技术柞人豆戕培i :的应用 如何将多维数据库与传统技术( 如视图、索引等) 结合起来,进行 立方体的计算和优化,也是目前研究的热点。 1 3 2 3 索引优化 数据仓库中的数据量非常大,而且分析型查询操作一般比较复杂, 这使如何快速进行数据检索成为一个至关重要的问题。数据仓库中的 数据相对数据库来说更加稳定。所以可以在数据仓库中建立多种索引 以提高查询性能。此外,索引也会占用大量的存储空问,因此,选择 对哪些数据建立索引和实视图的选择同样是至关重要的。 今天,数据仓库的技术已经相对成熟,但仍然存在许多亟待解决的 问题。在采用雪花( s n o w f l a k e ) 模式的数据仓库中,当基表变化时, 如何维护各级视图的致性,还没有一个很好的解决方案。数据仓库 中存储的数掘是对主体的历史描述,因而时间在数据仓库中就显得极 其重要。如何更好的表示时间,如何处理时间维和其它维的关系等还 都需要进一步的研究。此外,如何真证面向0 i 。a p 设计数据仓库,如何 对数据仓库进行更加高效的管理,如何在联机状态下对系统进行热维 护等等,都是数据仓库未来研究的重要方向。 1 0 塑些查签_ 人兰堡:! :兰堡堡兰塾塑竺堕垫查尘奎里塑堕:生些堂旦 2 数据仓库技术概述 2 1 数据仓库的定义及特征 2 1 1 数据仓库的定义 早在2 0 世纪8 0 年代初,w h i n m o n 已经开始在其“记录系统”、“本 源数掘决策支持数据库”等专题中丌始研究数掘仓库。i b m 也曾计 划构造一种面对各级决策者“以关系数据库存储为基础的公司数据的 集成化仓储”,他们使用“一组相容的工具”从数据仓库中提取有用的 信息以辅助决策。 关于数据仓库的定义,有很多种不同的沈法;“数据仓库是同操作 型数据相分离的、基于标准企业集成的、带有时问属性的、面向主题 的、不可更新的数据集合”i “数据仓库是作为d s s 服务基础的分析型 数据库,用来存放大容量的只读数据,为决策支持提供所需信息” 等等。1 9 9 2 年,数据仓库之父w i t i n m o n 在其著作b u i l d i n gt h ed a t a w a r e h o u s e ( 建立数据仓库) 中这样描述数据仓库:数据仓库是一 个面向主题的、集成的、相对稳定的、反映历史变化的、用于支持管 理决策的数据集合。1 。w 1 1 i n m o n 的定义很好的概括了数据仓库的四个 特征( 即面向主题的,集成的,相对稳定和随时问变化的) ,因而为大 多数人所接受。 2 1 2 数据仓库的特征 2 1 2 1 数据仓库中的数据是面向主题的 这是数据仓库的基本特征。主题是一个抽象的概念,足较高层次上 信息系统中的数据综合、归类并进行分析利用的抽象。它在逻辑上对 应某一宏观分析领域所涉及的分析对象,如客户、供应商、产品、销 售、利润等。面向主题组织数据,就是在较高层次上对分析对象进行 完整、一致的数据描述,能完整、统一的刻划各个分析对象所涉及的 各项数据及它们之间的关系。 2 1 2 2 数据仓库的数据是集成的 数据仓库中的数据来源于分散的结构各异的事务数据库,但并不是 对其数据的简单拷贝。为了满足数据仓库面向主题组织数据的特征, 堂些垒丛盔兰竺生兰垡堡苎垫塑垒壁垫查! ! :查星些堕! :塑! 兰里 能对决策分析进行正确快捷的响应,数据在进入数据仓库之前,必须 丢弃与主题分析无关的数据,去掉不必要的冗余,将结构、格式甚至 语义也不相同的数据转换成一致的数据,并按主题重新组织,进行简 单的统计计算以使数据的形式更利于分析,形成整合的、结构化的、 易于导航的数据才能映射到数据仓库中,为决策分析提供一致的、高 质量的数据来源。 2 1 2 3 数据仓库的数据在一个周期内是不可更新的 数据仓库中的数据是从不同时期的分散的数据库中抽取并进行重 组、统计、综合得到的。反映的是主体的历史内容,而不是联机事务 处理的操作型数据,所以数据一旦进入数据仓库,将被保留较长时间。 此外,用户对数据仓库的操作是查询数据,分析其中的规律,不能对 其进行增加、删除、修改等操作。 2 1 2 4 数据仓库的数据是随时间不断变化的 数据仓库虽然不象传统数据库那样进行实时数据更新,但其中的 数据也不是永远不变的。随着时间的推移,业务数据库中积累了新的 数据,为了更好的进行数据分析,从而支持决策、预测,数据仓库会 追踪源数据库,进行定期的数据装入,将新增的数据添加进去。 数据一般要在数据库中保留较长时问( 5 - 1 0 年) ,随时间推移,那 些陈旧的、对目前决策无重大影响的数掘就要被删除或转移到廉价、 低速设备上去。 此外,数据仓库中大量的综合数据均与时州有关,要随时问的变化 重新进行综合,以便更好的为数据挖掘及o l a p 服务。 2 2 数据仓库的体系结构 数据仓库系统由数据仓库数据库、数据仓库工具集和数据仓库管 理系统( d w m s ) 三大部分组成。其中数据仓库数据库居于核心地位,是 数据挖掘和联机分析处理的基础;d w m s 负责管理整个数据仓库系统的 运行;数据仓库工具则是整个系统发挥作用的关键,只有通过完成实 际决策问题所需的各种高效工具,如e t l 工具、联机分析工具和数据 挖掘工具等,数据仓库才能真正发挥支持分析决策的作用。为了达到 塑些坐竺_ 人兰竺:! :兰竺笙兰 鍪塑堡壁垫查! :- 人皇些堡l :竺! 兰堡 支持分析决策的目标,一个数据仓库系统一般由数掘源,数据抽取 ( e x t r a c t i o n ) 、转换( t r a n s f o r m a t i o n ) 和装载( l o a d ) 工具,数据仓库 数据库,前端数据访问和分析工具,数据仓库管理系统等组成。如图1 所示: 数据源 图1 数据仓库的体系结构 2 2 1 数据源:为数据仓库提供大量的源数据,如各种生产系统数据 库、联机事务处理系统的操作型数据。外部数据源等都可作为数据仓 库的数据源。 2 2 2 数据抽取( e x t r a c t i o n ) 、转换( t r a n s f o r m a t i o n ) 和装载( l o a d ) 工具;其功能是从各个数据源中抽取与主题相关的数掘,经过统一不 同的数据名称和定义、计算统计和衍生数据、用缺省值填充空缺数据 等处理后,根据数据仓库的设计要求,对数据进行重新组织,装载到 数据仓库中。 2 2 3 数据仓库数据库:整个数据仓库环境的核心。用于存储经检验、 整理加工和重新组织后的数据、数据的数据一元数据并提供对数据检 索的支持。其中,存储经检验、整理加工和重新组织后数据的目标数 据库既可咀选用传统的关系型数据库管理系统,也可以选用专用的多 维( m u l t i d i m e n s i o n a l ) 数据库管理系统;相对于传统的操作型数掘 库来说其最突出的特点是支持海量数据的存储和快速检索。 围醋 塑壁坐竺查兰塑二! 三兰竺笙兰塾墅垒生丝查堡盔皇堕堡:! ! ! 丝旦 2 2 4 前端数据访问和分析工具:供业务分析和决策人员访问目标数 掘库中的数据,并作进一步的深入分析,以直观的方式表示分析结果 的工具。主要有:数据查询和报表工具、应用丌发工具、联机分析处 理( o l a p ) 和数据挖掘( d m ) 工具、标准c s 工具以及决策支持系统 ( d s s ) 行政信息系统( e i s ) 软件包等。 2 2 5 数据仓库管理系统:管理数据仓库的运行,包括:安全、特权管 理;数据更新跟踪,数据质量检查,数据复制、删除、分割和分发: 元数据管理和更新;备份和恢复;存储管理;审计和报告数据仓库的 使用和状态等。 2 3 数据仓库系统的开发方法 传统操作型数据库的应用需求是明晰丽固定豹,其设计开发人员 开发系统的第一步也是最重要的一步就是了解用户需求,其玎发由需 求驱动遵循s d l c ( s y s t e m sd e v e l o p m e n tl i f ec y c l e ,系统玎发生命 周期) ,通常包括用户需求的收集和分析,数据模型设计,程序编制和 调试,系统集成和实施等。这种开发方法的每一项工作都是确定的, 并且只有一项工作完成后,下项工作才能开始,所以常常被称为“瀑 布式”开发方法, 与传统操作型数据库的用户不同,数据仓库的用户工作在发现模 式下。其任务是定义和发现在企业决策中使用的信息。在看到报表或 屏幕上的数据之前,他们无法明确地告诉设计开发人员真正的需求, 即“给我看一下我说我想要的东西。然后我才能告诉你我真话想要什 么”“1 ;而且最终用户的需求也是在不断变化的,要在系统丌发之阿, 就完全了解用户的需求是不可能的。因此,数据仓库的开发采用迭代 方式,以一种完全不同的开发生命周期c l d s 进行:即由数据_ 丌始,将 数据集成,编制并执行程序,征求最终用户的意见( 这时系统需求才 得到一定的理自) ,根掘用户的意见进行第二次开发,然后进步理解 用户需求,进行第三次开发如此循环往复,根据用户需求的变化 不断地完善系统。这种开发方法也被称作“螺旋式”丌发方法,是典 型的数据驱动的系统丌发方法。如图2 所示: 4 祸建农林人学坝:l :学位论文 数据仓库技术锄:人豆栽蚺上的应用 图2 数据仓库系统的数据驱动丌发方法 2 4 数据的粒度与分割 2 4 1 数据的粒度 数据仓库中的数据存在不同的细节级:早期细节级( 通常存储在 备用海量存储器上) 、当前细节级、轻度综合级( 数据集市级) 和高度 综合级【2 】。源数据经过综合后,首先进入当前细节级,根据具体需要进 行进一步综合后,进入轻度综合级乃至高度综合级;一旦数据过期, 就由当前细节级进入早期细节级。如图3 所示: 祸建农林大学硕= l :学位论文数据仓库技术n :_ 人豆4 耗培j 一的j 幢用 粒 度 增 大 高度综合级 轻皮综合级 当前细:1 y 级 早删细:订级 图3 数据仓库数据的细节级 数据的这种综合级别就是我们常说的“粒度”。粒度问题是设计数 据仓库最重要的方面,因为它直接影响到数据仓库数掘量的大小和所 能响应的查询类型。具体地说,粒度指的是数据仓库中数据单元的细 节程度或综合程度的级别”1 。粒度级越低,细节程度就越高,综合程度 就越低,数据占用存储空间大,占用处理器资源多,但所能回答的查 询类型局限性小;反之,粒度级越高,细节程度就越低,综合程度就 越高,数据占用存储空间小,占用处理器资源少,但所能回答的查询 类型局限性大。因此,在设计数据仓库时,要根据对访问效率、存储 空间及分析数据能力的要求,均衡考虑粒度问题。 一般情况下,五年内数据总行数小于一千万的数据仓库可以存储 在磁盘上,并且几乎可以采用所有的数据库设计;数据总行数大于一 亿的数据仓库则有一些数据存储于溢出存储器,这时可采用双重粒度: 小于或等于5 的查询需要用到的小粒度数据存放在廉价低速存储设备 上,对这些数据的查询耗时长、费用高;大于或等于9 5 的查询需要用 到的大粒度数据存放在昂贵高速存储设备上,对这些数据的查询高效 6 塑些坐丛查兰竺:堂垡笙兰茎堡垒生丛查! 垒= 三! 三皇些垫:! :竺生旦 快速。这样,既能使查询能力达到最强,又能解决数掘存储及访问效 率问题。 2 4 2 分割 分割是指把数据分散到可独立处理的分散物理单元中“1 ,目的在于 使运行维护人员和设计者更灵活地管理数掘,使数据存储、访问、存 档、增长、删除等操作更方便。 数据分区可采用许多标准,如:时问、地理位置、业务范围、住 址单位等等,也可以是它们的组合。采用什么分区标准完全由丌发人员 决定,但同期几乎总是分割标准中的一个必然组成部分,它十分自然而 且分割均匀。 通常情况下应该在应用层面不是在系统层分割,这样做的好处是 不同分区的数据可以有不同的定义;此外,将数据从一个处理设备转 移到另一个处理设备也不会带来问题。 一般有两种分割方法:垂直分割和水平分割。“。 垂直分割是把关系r 按属性垂直分割成n 个各不相同的单属性基 本关系r l ,r 2 。,r n ( n 是关系r 的属性数) ,每个基本关系包 含了一个关系r 的属性和一个附加的主键,主键用来重构原来的关系l 。 当进行查询分析时,通过外部连接操作,从这n 个基本关系表可以重 构出原始表。当原始表中的纪录发生变化时,基本表中的数据也要做 相应的修改。 水平分割是把关系r 沿记录进行分割。水平分割又分为原始水平 分割和导出水平分割。原始水平分割是根掘关系r 定义的谓词来进行 分割,而导出水平分割是根据其他关系定义的谓词来进行分割。对应 于星型连接的数据模型,对维表进行原始水平分割,再根据分割的结 果,进行事实表的分割。 2 5 数据仓库的数据模型 与传统操作型数掘库不同,数据仓库的逻辑数据模型是多维数据 模型( d i m e n s i o n a ld a t am o d e l ) ,在转化为物理数据模型的过程中,其 数据的存储形式可分为基于多维数据库( m u l t i d i m e n s i o n a l 塑些坐丛查兰堡:! 兰竺笙兰 墼型:垒壁垫查堡查星塑堡! 堕丝旦 d a t a b a s e ,m d d b ) 和基于关系数据库两种。基于多维数掘库的多维数据 模型是物理地以多维方式组织数据库;基于关系数据库的则是利用星 型模式的多维数据模型存储数掘,从而模拟多维数据库,如表1 所示: 表1 多维数据库与关系数据库的对比 多维数据库关系数据库 刘查询和报表进行优化 对查询和事物系统进行优化 使用受限制 应用范围广泛 数据更新受限制 易增j n 更新数据和结构 若刷新数据和总计需重建立方体 可交互添加数据和总计 查询快速、不复杂查询复杂 山o l a p 引擎建立数据库查询用s o l 语鲁编写数据库查询 基于关系数据库的多维数据模型以广泛应用的r d b m s ( 关系数据库管理 系统) 为基础,技术成熟,灵活,适应性强,局限性小;因此,在通 常陪况下,大多采用关系数据库来表达多维数据模型。 多维数据模型的创始人r a l p hk i m b a l 】在 t h ed a t aw a r e h o u s e t o o l k i t 中阐述了建立多维模型的方法:即将数据组织成多维立方体, 每个立方体由一个事实及事实的多个维( d i m e n s i o n ) 和多个度量 ( m e a s u r e ) 组成。事实是数据分析的目标,是决策支持、预测分析中人 们感兴趣的焦点,如某企业的各种产品在各个时期和地区的销售量等。 维是分类的、有组织的层次结构,是数据分析的角度,如销售的时问、 客户、产品、地区等等都是维。度量是事实的定量描述,是数据分析 的目标。度由维决定,是维的函数。并可对立方体进行旋转( p i v o t i n g ) 、 切片和切块( s l i c i n g d i c i n g ) 、下钻( d r i l l i n g d o w n ) 和上钻 ( r o l l i n g u p ) 等操作。 常见的多维数据模型有星型模型( s t a rm o d e l ) 、雪花模型 ( s n o w f l a k em o d e l ) 、多主表结构等。维和度量分别对应星型模型中的 维表和事实表。事实表位于星型模型的中心,包括事实名称、度量属 性及周围维表的外键。维表位于事实表的周围,通过外键与事实表连 接。以大豆栽培为例,如图4 所示: 榀矬农林大学硕士学位论文数据仓库技术柏:人豆伐蚺f j :的应用 品种维表 事实表地点维表 图4 星型模型 将维表数据进一步分解,连接到一个或多个维表,就将星型模型扩展 成了雪花模型。而多主表结构是指多个事实表使用同一个或几个维表。 2 6 数据仓库的元数据管理 元数掘是关于数据的数据“1 ,典型的元数掘包括:数据仓库的表结 构、表属性,数据仓库的源数据,从源数据到数据仓库的映射,数据 模型的说明,抽取日志,访问数据的公用例行程序,数据的定义描述 及数据单元之间的关系等。 从不同的角度出发,可以将元数据分成不同的类别:根据元数据 是描述数据仓库基础数据还是数据处理过程的。可分为基础数掘的元 数掘和数据处理的元数据;根据在数据仓库系统设计、构建过程中的 “抽象层次”不同可分为概念元数据、逻辑元数据和物理元数据:根 掘服务的用户不同可分为为系统最终用户服务的商业元数据和为数据 仓库系统管理员及开发人员服务的技术元数据;根据来源不同可分为 1 9 稿处农林人学坝l :学位论文数据仓库技术f i j 人且栽培卜的心用 工具元数据、资源元数据及外米元数据;根据生成使用时间不同可分 为数据仓库设计阶段收集的元数掘、建设阶段产生的元数据及运行阶 段产生的元数据等。 元数据描述了数据仓库的所有对象,贯穿数据仓库的设计、建立、 使用、管理、维护等各个过程之中,是数据仓库的全面指南。其重要 作用主要体现在: ( 1 ) 支持数据仓库的迭代式开发。与传统的操作型数据库开发不 同,数据仓库的丌发不是一蹴而就的,必须采用迭代式丌发,即首先 进行一遍开发,然后根据用户的意见和要求,进行第二次的开发,然 后再征求用户的意见,如此循环,直到用户满意为止。这是因为最终 用户工作在发现模式下,在看到屏幕或报表上的数据之前,不能清晰 地提出需求,并且他对数据仓库系统的需求也是不断变化的。元数据 记录了系统设计的全部信息和所有数据的来龙去脉,是实现迭代式丌 发和系统完整和谐的保证。成功的元数据管理系统可以把整个业务的 工作流、信息流有效地管理起来,摆脱对具体丌发人员的依赖,提高 系统的灵活性及可扩展性。 ( 2 ) 有利于数据仓库的集成。集成性是数据仓库的最大特点。首 先,数据仓库的数据是从各个分散的异构数据源抽取、检验、转换、 整理和重新组织后映射到数掘仓库的,而有关数据源、转换规则、数 据定义、数据存储结构等信息都要依赖元数据。其次,数据仓库系统 包括e t l 、o l a p 、d m 、数据报表等许多数据仓库工具,采用公共的元数 据模型,它们的集成也会十分方便。 ( 3 ) 保证数据的质量。元数据保存了有关源数据、数据抽取、转换 规则的所有信息,使最终用户能够方便地了解各种数据的来龙去脉, 消除怀疑抽取时间不同、数据算法差异、多次抽取及外来数据等存在 而导致的对数据可信性的怀疑,同时也易于发现数据中存在的质量问 题。 ( 4 ) 易于理解数据仓库中的数据。最终用户不可能像数据仓库系统 管理员或开发人员那样熟悉数据库技术而元数据记录了数据仓库的 捕建农林人学硕i j 学位论文数据仓库技术f i :人显栽培h 的臆用 所有数据和处理过程,是进入数据仓库的“路标”,是业务用户正确 识别、有效检索数据,发现其中的规律,进行分析决策的好帮手。 鉴于元数据在整个数据仓库系统中的重要地位,几乎所有i t j 应 商的数据仓库解决方案都提供元数据管理工具,大致可分为四类: ( 1 )
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 黄河上游建筑方案设计
- 实时自动化营销技术方案
- 知名咨询公司客服方案
- 咨询方案的构成
- 2025年秋季初级经济师考试 经济基础知识冲刺试题试卷
- 战略联盟协议的法律构架
- 麻醉药品处方权考试题库及答案
- 2024年高职单招预测复习必考题附答案详解
- 2025法院司法辅助人员能力提升B卷题库含完整答案详解【夺冠系列】
- 2024-2025学年计算机二级试卷及参考答案详解
- 客户开发思路课件
- 2025年人教版八年级地理上册全册教案
- 软骨分化关键分子机制-洞察及研究
- 2025年涉台知识竞赛试题及答案
- 黑龙江省哈尔滨市哈尔滨市第一中学校2024-2025学年度上高一期中考试语文试题
- 2025年广西壮族自治区招聘警务辅助人员考试真题及答案
- (完整版)人教八年级下册期末物理测试真题经典及解析
- GJB3206B-2022技术状态管理
- 园林养护服务公司简介范文
- 储能项目竣工验收与交付方案
- 2025秋人教版(2024)二年级上册数学教学计划
评论
0/150
提交评论