(计算机应用技术专业论文)全国邮政名址信息系统的设计与实现.pdf_第1页
(计算机应用技术专业论文)全国邮政名址信息系统的设计与实现.pdf_第2页
(计算机应用技术专业论文)全国邮政名址信息系统的设计与实现.pdf_第3页
(计算机应用技术专业论文)全国邮政名址信息系统的设计与实现.pdf_第4页
(计算机应用技术专业论文)全国邮政名址信息系统的设计与实现.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机应用技术专业论文)全国邮政名址信息系统的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着传统邮政步入信息时代,网络应用日益广泛,邮政在为用户提供服务 的同时也积累了大量的名址数据,名址信息的有效利用已经越来越成为发展邮 政商函业务及各种综合网上邮政业务的迫切需求。 中国邮政集团公司适时的提出了建设全国邮政名址信息系统的要求,系统 的特点就是着重于对大量历史数据( 包括当前数据在内) 进行复杂的综合分析 与处理,提供给业务人员和管理人员各种复杂的统计数据。为了满足并行处理、 自动优化、线性扩展和数据挖掘的深层次需要,邮政名址信息系统决定采用 t e r a d a t a 数据仓库。 t e r a d a t a ,是专门用来处理大量数据、针对决策支持应用而设计出来的数据 仓库引擎,具有很强的并行处理能力和扩展能力。本文在深入研究全国邮政名 址信息系统业务需求的基础上,结合邮政业务的特点与发展前景,对技术实现 与系统功能进行了描述。主要对以下几项内容进行了研究并设计: 1 全国邮政名址信息系统总体设计和软件架构设计。按照全国中心、省中 心、地市中心及支县局客户端的四级机构模式对数据采集整理、数据查询、数 据交换、数据维护、统计报表和打印制作等功能进行了设计。 2 对全国邮政名址信息系统数据存放模式的研究。确定对于基础地址数据 和可以全国共享的名址数据在全国中心直接加载到名址库主库,各省、地市的 名址数据只能先上传到全国中心,全国中心加载后再下发到各地。 3 数据处理流程的设计。将源数据经过一系列的转换处理,加载到全国邮 政名址信息系统之中,即数据抽取、数据转换、数据传输、数据加载( e t l ) 的 过程。 全国邮政名址信息系统采用了数据仓库技术,建成了全国性、权威性、统 一管理、便于维护、数据及时更新、安全可靠运行的信息系统。目前系统中有2 亿多条基础地址,全国每年名址数据的使用下载量达到3 7 亿条。后续将在此 基础上逐步扩展为中国邮政企业数据仓库,建立邮政客户管理和经营分析系统。 关键词:名址信息并行处理数据抽取数据转换数据加载 a b s t r a c t 一一一 a b s t r a c t w i t ht h et r a d i t i o n a lp o s ts t e p p i n gi n t ot h ei n f o r m a t i o na g e ,n e t w o r ka p p l i c a t i o n s i si n c r e a s i n g l vw i d e s p r e a d 。al a r g en u m b e ro f d a t ah a sb e e na c c u m u l a t e df o rc h i n a p o s tw h e nt h e ys e r v et h ec u s t o m e r s ,a n dm e a n w h i l ei t s e f f e c t i v eu s eh a sb e c o m e m o r ea n dm o r eau r g e n tn e e d sf o rd e v e l o p m e n to fb u s i n e s sm a i la sw e l la sv a r i o u s i n t e g r a t e do n l i n ep o s t a ls e r v i c e s 。 c h i n ap o s tg r o u pt i m e l y m e n t i o n sar e q u i r e m e n t f o r b u i l d i n g t h e c p n a i s ( c h i n ap o s tn a m i n g & a d d r e s si n f o r m a t i o ns y s t e m ) t h es y s t e mf o c u so n m ec h a r a c t 甜s t i c so fi m p o r t a n t l ym a k i n gc o m p l e xi n t e g r a t i o na n a l y s i sf o ral a r g e n l 】m b e ro fh i s t o r i c a ld a t a ( i n c l u d i n gt h ec u r r e n td a t a ) ,p r o v i d i n gc o m p l i c a t e ds t a t i s t i c s d a t at om eb u s i n e s sa sw e l la sm a n a g e m e n tm e m b e r s i tm u s tb eo ft h et e c h n o l o g y t h a tc a nb ep a r a l l e lp r o c e s s i n g a u t o m a t i co p t i m i z a t i o n , l i n e a re x p a n s i o n ,a sw e l la s d a t ad e e p m i n i n gi nt h ef u t u r e ,s ot h ec p n a i su s et h et e r a d a t ad a t aw a r e h o u s e t 打a d a t ai sad a t aw a r e h o u s ee n g i n ed e s i g n e dt h a ts p e c i a l l yd e a lal a r g en u m b e r o fd a t a , s u p p o r t i n ga p p l i c a t i o na c c o r d i n gt op o l i c y t h i sp a p e ri sd e s c r i b i n g f o r t e c h n o l o g yi m p l e m e n t a t i o na n ds y s t e mf u n c t i o n s ,o nt h eb a s i so f i n - d e p t hs t u d yo f t h ec p n a i s ,sb u s i n e s sr e q u i r e m e n t s ,c o m b i n i n gp o s t a lb u s i n e s s sc h a r a c t e r i s t i c sa n d d e v e l o p i n gp r o s p e c t m a i nc o n t e n ti so n t h ef o l l o w i n g : n 啪b e r1 t h et o t a ld e s i g na n ds o f t w a r ea r c h i t e c t u r ed e s i g nf o r t h ec p n a i s t h ed e s i g nf o rd a t ac o l l e c t i o n ,d a t aq u e r y , d a t ae x c h a n g e ,d a t am a i n t e n a n c e , s t a t i s t i c sa n dp r i n tp r o d u c t i o nf e a t u r e si sa c c o r d i n gw i t ht h en a t i o n a lc e n t r e ,t h e p r o v i n c i a lc 仃e ,t ot h ec i t y c e n t r ea n dx i a n j u - c l i e n tm o d e lo ft h ef o u ra g e n c i e s m o d u l e n m n b e r2 t h er e s e a r c hf o rd a t as t o r i n gm o d u l ei nt h ec p n a i s d e t e r m i n i n g i sl i k et h a tb a s ea d d r e s sd a t a a n dn a m i n g & a d d r e s sd a t a c o u n 姗s h a r e dd i r e c t l y l o a d n a m i n g & a d d r e s s m a i nw a r e h o u s e t h e n a m i n g & a d d r e s sd a t aj u s tu p d a t en a t i o n a lc e n t e rf i r s t ,t h e ns e n tt h e m t ot h ed i s t r i c t a f t e rl o a d i n gi nn a t i o n a lc e n t e r n u m b e r3 t h ed e s i g nf o rd a t ap r o c e s s i n g t i a b s t r a c t i ti sp r o c e s st h a tl o a d i n gi n t ot h ec p n a i sa f t e ras e r i e so fs o u r c ed a t at r a n s f e r p r o c e s s i n g n a m e l yd a t ae x t r a c t i o n 、d a t at r a n s f e r 、瓠w e l la sd a t al o a d i n g t h ec p n a i su s i n gt h ed a t aw a r e h o u s et e c h n o l o g yb u i l d sac o u n t r y w i d e , a u t h o r i t a t i v e ,u n i f o r m ,e a s i l y - m a i n t a i n e d ,s a f eb u tr e l i a b l ei n f o r m a t i o n a ls y s t e m c u r r e n t l y , t h es y s t e mh a sm o r et h a n2 0m i l l i o no fb a s ea d d r e s s ,a n dt h en u m b e ro f d a t ad o w n l o a d e da m o u n t st o3 7m i l l i o ne a c hy e a r i tg r a d u a l l ye x t e n d st ob e c o m et h e c h i n ap o s te n t e r p r i s ed a t aw a r e h o u s e ,a n dd e v e l o pp o s tc u s t o m e r sm a n a g e m e n ta n d b u s i n e s sa n a l y s i ss y s t e m k e yw o r d s :n a m i n g & a d d r e s si n f o r m a t i o n , p a r a l l e lp r o c e s s i n g , d a t ae x t r a c t i n g ,d a t a c o n v e r t i n g ,d a t al o a d i n g i i i 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名:王春宇 2 0 0 8 年5 月6 日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 解密时间:年月 日 各密级的最长保密年限及书写格式规定如下: 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、己公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均己在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 学位论文作者签名:王春宇 2 0 0 8 年5 月6 日 第一章绪论 第一章绪论 第一节选题的目的和意义 随着我国国民经济的持续快速发展,中小企业、民营企业迅速崛起,合资、 外资的超市、连锁经营等商品零售业正在大举进入中国市场,电子商务网站购 物的发展,出版业和商品零售业的市场放开,外资保险业的市场进入,银行信 用卡业务的市场拓展,各种会员制俱乐部的建立,从事商品邮购和直销公司的 崛起,发达国家的直销方式正以前所未有的速度进入我国市场,这为商业信函 在我国的发展提供坚实的市场基础和广阔的发展空间。 近年来,中国邮政集团公司明确地把商函发展确定为邮递类业务发展的重 中之重。1 9 9 8 年中国邮政集团公司明确提出要建立全国邮政名址信息系统的任 务以后,便开展了面向全国的名址信息数据库的建设工作。几年间,中国邮政 集团公司多次动员全国的投递力量,收集全国名址信息并发布到各省、地、市 局使用。 随着传统邮政步入信息时代,网络应用日益广泛,建设一个数量多、质量 好、分类科学、覆盖面广、使用便捷的全国邮政名址信息系统,并为业务分析 提供依据,已经越来越成为发展邮政商函业务及各种综合网上邮政业务的迫切 需求。 全国邮政名址信息系统的建设要依托于邮政综合网,应用先进的计算机技 术、数据仓库技术和先进的业务处理模式,建设成为一个全国性、权威性、统 一管理、便于维护、数据及时更新、安全可靠运行的信息系统,并在此基础上 逐步扩展为中国邮政企业数据仓库,并建立邮政客户管理和经营分析系统,使 中国邮政能够通过更有效率和效能的业务营销活动,为客户提供更好的服务, 增加企业收益。 通过全国邮政名址信息系统的建立和使用,进一步开发邮政名址信息资源, 大力促进邮政商函等业务的发展,并且为电子商务、信息服务、邮购等邮政业 务的迅速扩展提供有力的信息支持,提高邮政系统整体运行效率和服务质量, 并使之成为国民经济的基础信息资源,以取得更多、更大、更广泛的社会效益 第一章绪论 与经济效益。 本文是在深入研究了全国邮政名址信息系统业务需求的基础上陀1 ,结合邮政 业务的特点与发展前景,对技术实现与系统功能进行描述,达到建立全国统一 管理、满足数据及时更新机制、数据扩展灵活、维护方便、运行高效、安全可 靠、界面友好、适用范围广、易于维护的全国邮政名址信息系统的总体目标。 第二节名址信息库的现状 1 2 1 名址信息建设情况 目前除全国统一的组织机构库外;各省、各地市还拥有各自不同的自有数 据库。名址信息是指含有组织机构名称或个人姓名,组织机构或个人地址以及 其他数据项的信息,名址信息数据主要是在商业信函的制作中使用,本省、本 地市数据的使用概率大于5 0 。 由中国邮政集团公司统一建成的组织机构信息库,拥有8 0 0 余万条的数据 量,并于2 0 0 3 年动员全国投递力量对其进行了全面的更新维护,经集团公司名 址中心测试,信息准确率达到9 0 以上,为邮政名址信息库建立了良好的基础。 各省、各地市通过不同渠道自行建立了个人信息数据库和白有单位名址数 据库,据初步统计全国共有自有信息库4 4 8 个,为拓展商业信函业务提供了良 好的素材。 1 2 2 名址中心各级组织机构 名址中心管理组织机构现分为三级模式: 集团公司名址中心专省名址中心专地市名址中心 各级中心均配备专职名址数据管理人员,负责数据的维护、汇总与使用。 第三节本文主要工作 全国邮政名址信息系统以地址为基础,以客户名址信息为核心,逐步整合 关联邮政各种与名址相关的业务数据,并从这些业务数据中提取、丰富名址信 息,为全国邮政商函业务提供长期稳定支撑。 根据全国邮政名址信息系统业务需求,系统主要包括数据采集整理、数 据查询、数据交换、数据维护、统计报表和打印制作等功能。系统要支持全国 2 第一章绪论 范围内各使用终端对名址数据的查询、筛选、制作等日常业务,这类业务具有 并发性高,多表关联操作及数据量大等特点。 在日终处理时还要完成数据更新,要将从其他系统获取的名址数据及本系 统的维护数据导入到数据库临时区,通过清洗、查重、匹配、转换等处理,按 照逻辑数据模型整合到名址数据库的主库或自有库的操作。这就要求在有限的 时间窗口内完成对大量数据的复杂处理。 另外,系统要满足如下性能指标,并且,随着数据量的增长系统硬件在设 计时也要考虑扩展性。 表1 i 系统性能指标表 类别说明性能指标 简单查询 小型表( 记录数 = 1 0 0 0 万) 的单表查询 以内 小型表和大型表的多表( 小于等于4 ) 连 复杂查询 接,大型表和大型表的多表( 小于等于4 ) 9 0 在1 0 分钟以内,9 9 在3 0 分 钟以内 连接 根据业务需求和性能要求,本文从数据库的选择、系统总体设计及系统功 能实现等方面进行阐述。本人在全国名址信息系统建设中参与了以下工作:技 术方案的编写,审核原始数据,开发后台数据处理功能及系统单元测试和联调 测试等。 3 第二章全国邮政名址信息系统支撑平台简介 第二章全国邮政名址信息系统支撑平台简介 全国邮政名址信息系统平台要求能够支持并行处理、能够自动进行优化、 并且可线性扩展,及日后对数据挖掘的深层次需求,这些只有具备并行处理技 术( m p p ) 1 架构的系统平台才能胜任。 第一节数据仓库基本概念 数据仓库( d a t aw a r e h o u s e ) 技术是指从大量的事务型数据库中抽取数据,并 将其整理,转换为新的存储和组织格式,用以支持管理中的决策制定过程。该 过程以历史的角度组织和存储数据,并能集成地进行数据分析。 数据仓库除具有传统d b m s 的完整性、共享性、数据独立性外,还有面向 主题而集成、数据的历史性和稳定性等特征。数据仓库是一个综合解决方案, 是对原始的操作数据进行各种处理并转换成有用信息的处理过程。 2 1 1 数据仓库与数据集市的区别 数据集市( d a t a m a r t ) 1 也是当前非常热门的一个术语,一种比较常见的误 解是认为它与数据仓库的差别只是数据量的大小而己。 事实上,数据仓库是企业级的,能为整个企业各个部门的运行提供决策支 持手段;而数据集市是部门级的,一般只能为某个局部范围内的管理人员服务, 因此也称之为部门级数据仓库( d e p a r t m e n t a ld a t aw a r e h o u s e ) 口1 。 尽管数据挖掘并不要求一定要在数据仓库之上进行,但数据挖掘的种种问 题将耗费巨大的时间和资源,如从不同的数据集市中进行数据采集,数据清洗, 数据变换等等。一旦需要建立新的模型,将不得不再次重复这个过程。大约7 0 的数据挖掘过程将花费在数据准备阶段。数据仓库通过减少数据冗余和系统管 理使得数据挖掘更可行,并使模型开发人员可以更集中于对数据的分析。 数据集市有两种,即独立的数据集市( i n d e p e n d e n td a t am a r t ) 口1 和从属的 数据集市( d e p e n d e n td a t am a r t ) 口1 。从下图可以清楚地看到数据仓库、从属数 据集市与独立数据集市之间的关系: 4 第二章全国邮政名址信息系统支撑平台简介 * f i # 勇 晕阜譬堂婪一 , 、絮嚣嚣 黛赢 营固审固晕辱国舅 黟每馨 羔0 趣j ”4“8 毋碜 2l a 21 b 图2i 数据仓库、从属数据集市与独立数据集市 暖鱼奠置 零毋 图21 a 表示的是企业数据仓库的逻辑结构摸中的数据来自于各生产系统, 把它们的操作数据按照企业数据仓库物理模型结构的定义转换过来。采用这种 中央数据仓库的做法,可以保证现实世界的一致性。 图2 i b 表示的是从属数据集市的逻辑结构。所谓从属,是指它的数据直接 来自于中央数据仓库。显然,这种结构仍能保持数据的一致性。一般为那些访 问数据仓库十分频繁的关键业务部门建立从属的数据集市,这样可以很好地提 高查询的反应速度。 图2l c 描述了独立数据集市的逻辑结构,它的数据直接柬源于各生产系统。 许多企业在计划实施数据仓库时,往往出于投资方面的考虑,最后建成的就是 这种结构的独立数据集市,用来解决个别部门比较迫切的决策问题。 从这个意义上讲,它和企业数据仓库除了在数据量大小和服务对象上有所 区别外t 逻辑结构并无多大区别,也许这是把数据集市称为部门数据仓库的主 要原因。关键问题在于:随着需求的增加,数据量也会迅速增加,系统规模将 迅速扩大,是把原来的独立数据集市扩展成为企业数据仓库还是为各部门分别 建立独立的数据集市,便是企业的决策者要考虑的。 在这种结构中,i t 部门必须设计多个数据转换程序,把各生产系统的操作 数据转换到每个独立数据集市中以便保持数据的一致性。显然,这种策略将 使整个系统变得非常复杂难于维护,在投资方面更是得不偿失,因为硬件系统 的投资成比例增加,软件方面的投资和维护方面的投资则成指数形式增加。 既然这种分布式的独立数据集市结构有诸多问题,为什么还有一些企业仍 在这样做呢? 回答是“不得已而为之”。因为硬件平台或者数据库在扩展性方面 第二章全国邮政名址信息系统支撑平台简介 限制太多,并行处理能力不够,无法处理大量的数据,最后只能形成这种尴尬 局面。 2 1 2o l t p 与o l a p 的特点 o l t p 系统称为联机交易处理( o n l i n et r a n s a c t i o np r o c e s s i n g ) 系统,它是 事件驱动、面向应用的,比如银行的储蓄系统就是一个典型的o l t p 系统。o l t p 的基本特点是: 一 对响应时间要求非常高; 一 用户数量非常庞大,主要是操作人员; 一 数据库的各种操作基于索引进行。 o l a p 系统称为联机分析处理( o n - l i n ea n a l y t i c a lp r o c e s s i n g ) 系统,是基 于数据仓库的信息分析处理过程,是数据仓库的用户接口部分。o l a p 系统是跨 部门、面向主题的,其基本特点是: 一 基础数据来源于生产系统中的操作数据( o p e r a t i o n a ld a t a ) ; 一 响应时间合理; 一 用户数量相对较小,其用户主要是业务决策与管理人员; 一 数据库的各种操作不能完全基于索引进行。 2 1 3 数据仓库系统的查询特点 针对生产系统的查询都很简单,一般不会使用表的连接操作,每次返回的 数据量都很小,这类问题的特点是知道要找什么数据,这类操作都是基于索引 进行的,由于这些特点,数据库大小对系统性能影响不大。 针对数据仓库系统的查询大都非常复杂,主要有两种:一种以报表为主, 从数据库中产生各种形式的业务报表,这种查询是预先规划好的;另一种则是 随机的、动态的查询,对查询的结果也是不能预料的。 数据仓库中的查询由于其复杂性,会经常使用多表的联接、累计、分类、 排序等操作,这些大都要对整个表进行搜索。每次查询返回的数据量一般很大。 根据这些特点,数据库大小对于数据仓库系统的性能影响很大。当数据仓 库投入使用后,各业务部门的要求会越来越多,使得数据仓库中数据量的增长 速度很快,因此,设计数据仓库时,系统的可扩展能力是必须考虑的重要因素 之一。 6 第二章全国邮政名址信息系统支撑平台简介 另外,系统的并行处理能力是另一个要考虑的重要因素。因为查询的复杂 性,每个查询将占很多的系统资源,如果并行处理能力不强,当多个用户同时 发出请求时,响应时间可能长的不可容忍。 第二节t e r a d a t a 的基本特点 传统的商业数据库基本上是针对o l t p 应用而开发出来的,由于数据仓库具 有其海量并行等特点,所以那些传统的商业数据库不适合来驱动数据仓库应用。 t e r a d a t a 口1 ,是专门用来处理大量数据、针对决策支持应用而设计出来的数 据仓库引擎。t e r a d a t a ,简单的说就是一个关系数据库管理系统,具有很强的并 行处理能力和扩展能力。 全国邮政名址信息系统的特点就是着重于对大量历史数据( 包括当前数据在 内) 进行复杂的综合分析与处理,提供给业务人员和管理人员的各种复杂的统计 报表数据,所以全国邮政名址信息系统的建设就要采用t e r a d a t a 数据库。 2 2 1 数据自动分配 t e r a d a t a 中只有一种基于h a s h 算法的数据分配机制,当要插入一条记录时, 根据主索引计算出相应的a m p 口1 ,该条记录即通过此a m p 存到其对应的磁盘上。 由于主索引值的不同,一个表的各条记录将通过各a m p 均匀地分布到各个磁盘 上。分配过程完全自动进行,不需要d b a 干预,这一点和其他o l t pd b m s 有 很大的区别。 对于o l t p 系统而言,其查询的特点是预先知道要回答什么样的问题,因此, d b a 会根据业务问题的特点把数据按照相应的规律进行分配,例如把数据按照 时间的不同分配到不同的硬盘上。这种由d b a 手工进行的数据分配机制对o u p 系统而言是有意义的,也确实能提高系统性能。但对数据仓库系统来说,其查 询往往比较复杂而且具有不确定性,不同的业务部门可能会提出各种不同的问 题,如果再按照一种规律进行数据的分配,则系统有可能对某些问题的响应速 度很快,而对另外一些问题的反应则很慢。另一方面,我们都知道,数据库重 组( r e o r g a n i z a t i o n ) 一直是困扰d b a 的一个问题。 在t e r d a t a 数据库中,通过选择合适的主索引就可以保证数据在各磁盘上的 自动均匀分配,使得其并行处理性能得以充分的发挥,特别适合于数据仓库环 境下各种不确定的、动态的业务问题。另一方面,所有记录的插入、更新都按 7 第二章全国邮政名址信息系统支撑平台简介 同样的h a s h i n g 算法进行,数据的分配完全自动进行,使得各磁盘上的数据 总是混合存储而且是均衡的,不存在“有序或者“无序的概念,因而也就 不存在数据库重组问题( r e o r g a n i z a t i o n ) 。 对于传统的o l t pr d b m s 而言,投产运行一段时间后系统性能常常因某种 原因( 如不断追加记录后造成数据存储不平衡) 下降,这时就要考虑对数据库 进行重新配置、重新调整。通常所采取的步骤是: 一 分析查询的性能、数据与索引的分布等,以找出瓶颈所在; 一 确定新的数据分布模式; 一 备份数据库; 一 在数据库中实施新的数据分布模式; 一 重新加载数据。 当一段时间后系统性能再次下降时,d b a 又得重复上述过程,使得d b a 的工作十分繁重。 2 2 2 并行处理能力 t e r a d a t a 最显著的特色之一是其强大的并行处理能力,其实现方式被称为多 维并行处理机制,简单描述如下: 查询并行口1 ( q u e r y 并行) :这种并行处理是基于前面介绍的h a s i n g 数据 分配机制实现的。每个a m p 都是一个v p r o c ,各自独立负责一部分数据的处 理,相互之间没有关系,每个节点一般配置4 至1 6 个这样的v p r o c 。 所有 关系运算如表的搜索、索引检索、投影、选择、连接、聚集、排序等都是由各 个v p r o c 并行进行的。 步内并行口1 ( w i t h i n a s t e p 并行) :一个s q l 查询进入系统后,首先由优 化器进行优化处理,分解成一些小的步骤( s t e p ) ,然后再分发给各v p r o c 进 行处理。一个步骤可能非常简单,如“搜索一个表并返回结果,也可能非常复 杂,如“按照某条件搜索两个表,然后连接结果投影到某几个列,对它们求和 ( s u m ) 后返回结果”。像这种复杂查询将处理多个关系运算,每个关系运算在 一个v p r o c 内将启动多个进程来实现并行处理,称为步内并行。 多步并行口1 ( m u l t i s t e p 并行) :上面说过,个s q l 被分解成多个小的步 骤,这些步骤的执行将同时进行,称为多步并行。优化器分解个s q l 查询请 求的原则是尽可能使各步独立。目前尚只有t e r a d a t a 实现了多步并行。 8 第二章全国邮政名址信息系统支撑平台简介 下图以一个复杂查询的实例形象地说明了t e r a d a t a 的多维并行处理机制。 查询并行:4 个a m p 同时对各自 控制存储空间执行每一个步骤 图2 2t e r a d a t a 的多维并行机制 il i n e 丌e ml l u lb0 r d e r sl p _ 步内并行:以下三个操作同时运 行、结果以p i p e l i n e 连接: 这里假设系统配置有4 个虚拟处理器( v p r o c ) ,某个复杂查询被优化器分 解成了7 个步骤,图中s u p p l i e r s 、p a r t s 、p a r t s u p p 、l i n e t e r m 和 o r d e r s 等均为数据库中表的名字。在每个步骤执行时,4 个v p r o c 同时处理 与各自相关的数据块,例如搜索s u p p l i e r s 表( 步骤1 1 ) ,该表的记录是通过 h a s h 算法均匀分布在4 个v p r o c 各自负责的磁盘中的,搜索时4 个v p r o c 将同时进行,把相关的记录搜索出来,这就是所谓的查询并行;步骤1 1 和1 2 、 2 1 和2 2 也是同时执行的,这是所谓的多步并行;步骤2 2 ( 或步骤1 2 ) 中包 含有三个操作,它们借助于一种管线( p i p e l i n e ) 的机制实现了步内的并行处理。 除了上面描述的多维并行处理机制外,t e r a d a t a 还作了进一步优化和扩展, 增加了同步扫描( s y n cs c a n ) 等机制,使得并发用户环境下处理复杂查询时响 应速度进一步加快。举例来说,在多用户环境下,一个部门中许多用户的查询 常常是大同小异的,经过优化器分解后,它们具有一些相同的步骤,由于每个 步骤的执行结果会在一个系统缓冲区中暂存,相同的步骤往往只需要执行一次 即可,从而大大减少了磁盘i o ,提高了响应速度。 对于o l t p 系统来说,由于其查询相对简单,依靠建立适当的索引就能保证 9 第二章全国邮政名址信息系统支撑平台简介 查询的速度,从而对d b m s 并行处理的能力要求不高。但对于数据仓库来说, 它主要提供的是o l a p 应用,许多业务问题相当复杂,如果依靠索引来提高查 询速度,将存在两方面的问题:一是索引过多会占用太多的磁盘空间,增加系 统的复杂性和管理成本。许多o l t pd b m s 用于数据仓库时,其磁盘使用率( d i s k r a t i o ,指数据库大小与真正的用户数据的比例) 在5 以上,有时甚至高达1 0 , 原因就在于此。而基于t e r a d a t a 建立的数据仓库,磁盘使用率一般在1 5 至3 之间。二是建立一个索引意味着事先定义好一些与之相关的问题,当提出其他 问题时常常需要建立另外的索引。也就是说,索引只能解决那些预先定义好的 问题,如一些业务报表等。而数据仓库除了要产生大量的业务报表外,另一个 主要的应用就是回答那些不能预知的、动态的业务查询,我们称这种动态查询 为a d - h o c 查询。d b m s 具有强大的并行处理能力是数据仓库应用成功与否的关 键。 2 2 3 线性可扩展能力 一般来说,当数据仓库投产以后,随着应用的增加,其数据量也增长得非 常快,因此,数据仓库系统对扩展性的要求很高。当验证一个系统的扩充能力 时,应从三方面来考虑: 一 数据量增长时的线性度:当用户数据量成倍增加时,对于同一个系统, 响应时间是按比例线性增加的; 一 硬件平台的线性度:对于同一个查询,当硬件平台的配置增加一倍时, 响应时间应减少一半; 一 并发用户增加时的线性度:对于同一个系统,当并发用户的数目增加时, 响应时间也按比例线性增加。 对基于t e r a d a t a 实施的数据仓库系统的扩充是很容易的,可以采用现场升 级( f i e l du p g r a d e ) 方式。下图口1 举例说明了将一个四节点的系统扩充到六节点 的情况,首先将新增加的两个结点通过b y n e t 与原系统联接,然后运行 t e r a d a t a 提供的一个名叫r e c o n f i g 的工具,它将自动把原系统磁盘阵列中1 3 的数据按照h a s h 算法均匀地分布到新节点所控制的磁盘中。这个过程完全自 动进行,不需要d b a 过多地干预。 1 0 * 2 一女镕。_ l 卜# e 22 4 降低日常维护量 从f | ,l 自】的描述可以看到1 矗a d a b 中许多工作如数据分配、负栽管理、杳询 优化与渊整、工作管理与自由空叫的管理等都是目功进行的不需要d b a 的过 多f 刊! 。另外也不存在数据平衡控制、数掘苹缃与誊引重组等问题这些特 点都使得t e r a d a t a 的管理十分容易,对于实际系统 特别星较大型的数掘仓库 具响1 分重要的意义。 225 丰富的0 l a p 功能 t e r a d m a 是专为数据仓库设计的,主要川柬进行数柳的综合分析和处理,因 此在开发时嵌入了丰富的o l a p 功能,主要包括:排序r a n k 、累计和c s u m 、 移动平均m a v g 等。这螳蛹数可以和标准的s q l 语句起使用而且所有这些 函数都足存1 协d a 衄山音| :以并行疔式来工作,速度非常快。 综上所述t e r a d 越a 独有的平行架构技术不但创造出其领先业界的性能表 现,同时| l 具有较低的企业成本:此平行架构可满足邮政企业运用先进的数据 仓库系统技术处理更大的需求,山于其可扩展的自我管理控、术,使得泵用 t e m d a t a 来建立全国邮政名址信息系统成为昂简单且最具成功保证的选择。 第三章全国邮政名址信息系统总体设计 第三章全国邮政名址信息系统总体设计 第一节全国邮政名址信息系统总体目标 全国邮政名址信息系统的近期建设目标是以支持商函业务的发展为主,在 此基础上考虑深入应用,逐步建设邮政客户管理、经营分析系统。 本系统的设计要注重名址信息的质量,在基础地址表的基础上,充分利用 邮政内部信息资源,整合各业务系统中已有的名址信息,成为全国邮政统一的 名址信息平台,系统建设与应用方向必须依据市场需求,既要考虑当前业务的 需要和技术实现的可能性,又应留有今后开发、扩展的空间。 第二节系统结构 本系统由集团公司名址信息系统、省名址信息系统和授权客户端组成,其 结构见下图。 图3 1 全国邮政名址信息系统结构 1 2 第三章全国邮政名址信息系统总体i 殳训 第三节逻辑体系架构 本系统分为四层:全国中心、省中心、虚拟地市中心、客户端 电于兑原有名址库报刊拄行外部数据 数据源蒹统 垒墨中心 = 簧i2 誉:。- ;搿麓, 。一一一二二、c - 一一一二。二一一一一 神。- 霹豳圈卜 箍 一一一一j :i 一一一一一一一一一 一一一r 一一一 一 f 鲫黼+ 多哩二i 影罗罗 蕃撕一一蓝直一:一主名直一銮一j 一:_ - 主一 刚3 2 逻辑体系结构图 全国中心存储和处理来自所有物理省和直辖市的共享名址信息( 包括;现 有的名址信息:从邮政现有的业务系统收集的名址信息) 、所有虚拟省中心、虚 拟省虚拟地市中心的自有名址信息。 省中心分为物理省中心和虚拟省中心。物理省中心存储和处理全国共享的 名址信息、本省和物理省虚拟地市中心的自有名址信息。虚拟省中心使用全幽 中心的系统资源,其自有名址信息存储在全国中心。 虚拟地市中心在本地不设物理系统,使用全国中心和物理省中心的系统资 源,其目有名址信息存储在全国中心或物理省中心。 客户端是指使用全国邮政名址信息系统的授权终端,包括地市、县、支局 的授权终端用户。 北京中心和全国中心台并建设,它将具备和物理省中心同样的功能和效率。 第三章全国邮政名址信息系统总体设计 第四节物理网络体系架构 全国中心和省中心之间通过邮政综合网联接,进行数据的上传和下发。 本系统的访问分为四类: 全国中心用户:通过邮政综合网连接,授权用户访问全国中心名址信息系 统。 虚拟省用户:包括虚拟省局的用户和其所属地市级用户,都通过邮政综合 网访问全国中心名址信息系统。 物理省用户:通过邮政综合网连接,授权用户访问本省省中心名址信息系 统,有维护授权的用户对其名址信息进行维护。 物理省的地市级用户:通过省内的邮政综合网连接本省省中心名址信息系 统,授权用户访问本省省中心名址信息系统,有维护授权的用户对其名址信息 进行维护。 第五节全国邮政名址信息系统总体功能 本文按照全国中心、省中心、地市中心及县、支局客户端的四级机构模式 对数据采集整理、数据查询、数据交换、数据维护、统计报表和打印制作等功 能进行了设计。 3 5 1 集团公司名址信息系统功能 集团公司名址信息系统的功能: 一 集中存储全国组织机构信息和个人名址信息、基础地址表以及虚拟省和 虚拟地市的自有信息 一 通过邮政综合网实现与各省名址信息系统的连接 一 处理授权客户端的数据查询、下载等各种业务请求 一 实现对名址信息的更新、查重、添加、自动筛选等处理 一 定期接收各省名址信息系统上传的更新名址信息 一 定期向各省名址信息系统反馈更新的名址信息 一 记录和监控网上数据交换和使用的情况,保证各种数据在传输中完整、 保密、安全,并设置各级人员的密级权限 一 定期统计、分析名址信息的使用情况 1 4 第三章全国邮政名址信息系统总体设计 3 5 2 省名址信息系统功能 省名址信息系统的功能: 一 集中存储全国中心名址信息系统下发的共享库和本省自有信息 - 一 通过邮政综合网实现与集团公司名址信息系统的连接 一 实现对本省名址信息更新、查重、添加、自动筛选等处理 一 处理本省授权客户端的数据查询、下载等各种业务请求 一 定期接收本省各地市通过多种传输方式( 邮政综合网、i n t e r n e t 、光盘等) 上传更新的信息 一 定期向集团公司名址信息系统上传更新的信息,并接收集团公司名址信 息系统反馈的更新信息 一 记录和监控网上数据的交换和使用情况,保证各种数据在传输中完整、 保密、安全,并设置本省各级人员的密级权限 一 定期统计、分析名址信息的使用情况 3 5 3 地市客户端功能 地市客户端功能: 一 管理维护本地市个人名址信息,实现对本地市名址信息更新、查重、添 加、自动筛选等处理 一 记录和监控网上数据的交换和使用情况,保证各种数据在传输中完整、 保密、安全,并设置本地市各级人员的密级权限 一 通过多种传输方式( 邮政综合网、i n t e m e t 、光盘等) 定期向省名址信息 系统上传本地市名址更新的数据 一 定期统计、分析名址信息的使用情况 3 5 4 县、支局客户端功能 县、支局客户端功能: 一 本地范围内的名址信息录入及退信维护工作 一 数据查询 一 查询后的数据整理 1 5 第二章全国邮政名址信息系统总体设计 3 5 5 业务流程 业务流程主要包括数据采集整理、数据查询应用和数据维护及交换三个方面。 3 5 5 1 数据采集整理流程 数据采集整理流程分为数据初始处理和日常数据处理。数据来源分为: 一 外部购买数据 一 外部征集数据 一 邮政业务交易数据 1 数据初始处理 数据初始处理是在系统上线时对名址信息系统相关数据和各类业务数据的 初始导入处理,包括集团公司名址中心现有组织机构数据、报刊订阅数据、电子 汇兑业务数据、集邮业务数据、速递业务数据、各省或地市名址中心自有数据等。 这些数据的初始导入处理流程如下表所示: 表3 1 数据初始导入处理流程 数据采集预 数据清 数据名称数据来源数据压缩传输洗转换数据出错处理数据处理周期 处理 导入 集团公司名 通过移动存储介质集团公司名址中 址中心现有集团公司 集团公司名初始一次性导 组织机构数 名址中心址中心 或网络,传输到集团项目组心下发到各省名 入 据 公司名址中心 址中心进行确认 各地市名址 通过移动存储介质集团公司名址中 初始一次性导 报刊订阅数 各地上报 中心或根据 或网络,传输到集团项目组 心下发到各省名 据数据存放实 入 际情况 公司名址中心址中心进行确认 电子汇兑业 电子汇兑 各省名址中 通过移动存储介质集团公司名址中 初始一次性导 系统( 省集或网络,传输到集团项目组心下发到各省名 务数据心 入 中)公司名址中心址中心进行确认 集邮业务数 集邮业务 集团公司名 通过移动存储介质 集团公司名址中 初始一次性导 系统( 全国或网络,传输到集团 项目组心下发到各省名 据址中心 入 集中) 公一j 名址中心址中心进行确认 速递业务数 速递业务 集团公司名 通过移动存储介质集团公司名址中 初始一次性导 系统( 全国或网络,传输到集团 项目组心下发到各省名入,在项目第 据址中心 集中) 公司名址中心址中心进行确认二期实施 各省或各地 通过移动存储介质 各省或 自有数据自行采集 市

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论