（计算机应用技术专业论文）全国邮政名址信息系统的设计与实现.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：69 大小：3.35MB 积分：0 举报 版权申诉

已阅读5页，还剩64页未读，继续免费阅读

（计算机应用技术专业论文）全国邮政名址信息系统的设计与实现.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要随着传统邮政步入信息时代，网络应用日益广泛，邮政在为用户提供服务的同时也积累了大量的名址数据，名址信息的有效利用已经越来越成为发展邮政商函业务及各种综合网上邮政业务的迫切需求。中国邮政集团公司适时的提出了建设全国邮政名址信息系统的要求，系统的特点就是着重于对大量历史数据( 包括当前数据在内) 进行复杂的综合分析与处理，提供给业务人员和管理人员各种复杂的统计数据。为了满足并行处理、自动优化、线性扩展和数据挖掘的深层次需要，邮政名址信息系统决定采用 t e r a d a t a 数据仓库。 t e r a d a t a ，是专门用来处理大量数据、针对决策支持应用而设计出来的数据仓库引擎，具有很强的并行处理能力和扩展能力。本文在深入研究全国邮政名址信息系统业务需求的基础上，结合邮政业务的特点与发展前景，对技术实现与系统功能进行了描述。主要对以下几项内容进行了研究并设计： 1 全国邮政名址信息系统总体设计和软件架构设计。按照全国中心、省中心、地市中心及支县局客户端的四级机构模式对数据采集整理、数据查询、数据交换、数据维护、统计报表和打印制作等功能进行了设计。 2 对全国邮政名址信息系统数据存放模式的研究。确定对于基础地址数据和可以全国共享的名址数据在全国中心直接加载到名址库主库，各省、地市的名址数据只能先上传到全国中心，全国中心加载后再下发到各地。 3 数据处理流程的设计。将源数据经过一系列的转换处理，加载到全国邮政名址信息系统之中，即数据抽取、数据转换、数据传输、数据加载( e t l ) 的过程。全国邮政名址信息系统采用了数据仓库技术，建成了全国性、权威性、统一管理、便于维护、数据及时更新、安全可靠运行的信息系统。目前系统中有2 亿多条基础地址，全国每年名址数据的使用下载量达到3 7 亿条。后续将在此基础上逐步扩展为中国邮政企业数据仓库，建立邮政客户管理和经营分析系统。关键词：名址信息并行处理数据抽取数据转换数据加载 a b s t r a c t 一一一 a b s t r a c t w i t ht h et r a d i t i o n a lp o s ts t e p p i n gi n t ot h ei n f o r m a t i o na g e ，n e t w o r ka p p l i c a t i o n s i si n c r e a s i n g l vw i d e s p r e a d 。al a r g en u m b e ro f d a t ah a sb e e na c c u m u l a t e df o rc h i n a p o s tw h e nt h e ys e r v et h ec u s t o m e r s ，a n dm e a n w h i l ei t s e f f e c t i v eu s eh a sb e c o m e m o r ea n dm o r eau r g e n tn e e d sf o rd e v e l o p m e n to fb u s i n e s sm a i la sw e l la sv a r i o u s i n t e g r a t e do n l i n ep o s t a ls e r v i c e s 。 c h i n ap o s tg r o u pt i m e l y m e n t i o n sar e q u i r e m e n t f o r b u i l d i n g t h e c p n a i s ( c h i n ap o s tn a m i n g & a d d r e s si n f o r m a t i o ns y s t e m ) t h es y s t e mf o c u so n m ec h a r a c t 甜s t i c so fi m p o r t a n t l ym a k i n gc o m p l e xi n t e g r a t i o na n a l y s i sf o ral a r g e n l 】m b e ro fh i s t o r i c a ld a t a ( i n c l u d i n gt h ec u r r e n td a t a ) ，p r o v i d i n gc o m p l i c a t e ds t a t i s t i c s d a t at om eb u s i n e s sa sw e l la sm a n a g e m e n tm e m b e r s i tm u s tb eo ft h et e c h n o l o g y t h a tc a nb ep a r a l l e lp r o c e s s i n g a u t o m a t i co p t i m i z a t i o n , l i n e a re x p a n s i o n ，a sw e l la s d a t ad e e p m i n i n gi nt h ef u t u r e ，s ot h ec p n a i su s et h et e r a d a t ad a t aw a r e h o u s e t 打a d a t ai sad a t aw a r e h o u s ee n g i n ed e s i g n e dt h a ts p e c i a l l yd e a lal a r g en u m b e r o fd a t a , s u p p o r t i n ga p p l i c a t i o na c c o r d i n gt op o l i c y t h i sp a p e ri sd e s c r i b i n g f o r t e c h n o l o g yi m p l e m e n t a t i o na n ds y s t e mf u n c t i o n s ，o nt h eb a s i so f i n - d e p t hs t u d yo f t h ec p n a i s ，sb u s i n e s sr e q u i r e m e n t s ，c o m b i n i n gp o s t a lb u s i n e s s sc h a r a c t e r i s t i c sa n d d e v e l o p i n gp r o s p e c t m a i nc o n t e n ti so n t h ef o l l o w i n g ： n 啪b e r1 t h et o t a ld e s i g na n ds o f t w a r ea r c h i t e c t u r ed e s i g nf o r t h ec p n a i s t h ed e s i g nf o rd a t ac o l l e c t i o n ，d a t aq u e r y , d a t ae x c h a n g e ，d a t am a i n t e n a n c e ， s t a t i s t i c sa n dp r i n tp r o d u c t i o nf e a t u r e si sa c c o r d i n gw i t ht h en a t i o n a lc e n t r e ，t h e p r o v i n c i a lc 仃e ，t ot h ec i t y c e n t r ea n dx i a n j u - c l i e n tm o d e lo ft h ef o u ra g e n c i e s m o d u l e n m n b e r2 t h er e s e a r c hf o rd a t as t o r i n gm o d u l ei nt h ec p n a i s d e t e r m i n i n g i sl i k et h a tb a s ea d d r e s sd a t a a n dn a m i n g & a d d r e s sd a t a c o u n 姗s h a r e dd i r e c t l y l o a d n a m i n g & a d d r e s s m a i nw a r e h o u s e t h e n a m i n g & a d d r e s sd a t aj u s tu p d a t en a t i o n a lc e n t e rf i r s t ，t h e ns e n tt h e m t ot h ed i s t r i c t a f t e rl o a d i n gi nn a t i o n a lc e n t e r n u m b e r3 t h ed e s i g nf o rd a t ap r o c e s s i n g t i a b s t r a c t i ti sp r o c e s st h a tl o a d i n gi n t ot h ec p n a i sa f t e ras e r i e so fs o u r c ed a t at r a n s f e r p r o c e s s i n g n a m e l yd a t ae x t r a c t i o n 、d a t at r a n s f e r 、瓠w e l la sd a t al o a d i n g t h ec p n a i su s i n gt h ed a t aw a r e h o u s et e c h n o l o g yb u i l d sac o u n t r y w i d e ， a u t h o r i t a t i v e ，u n i f o r m ，e a s i l y - m a i n t a i n e d ，s a f eb u tr e l i a b l ei n f o r m a t i o n a ls y s t e m c u r r e n t l y , t h es y s t e mh a sm o r et h a n2 0m i l l i o no fb a s ea d d r e s s ，a n dt h en u m b e ro f d a t ad o w n l o a d e da m o u n t st o3 7m i l l i o ne a c hy e a r i tg r a d u a l l ye x t e n d st ob e c o m et h e c h i n ap o s te n t e r p r i s ed a t aw a r e h o u s e ，a n dd e v e l o pp o s tc u s t o m e r sm a n a g e m e n ta n d b u s i n e s sa n a l y s i ss y s t e m k e yw o r d s ：n a m i n g & a d d r e s si n f o r m a t i o n , p a r a l l e lp r o c e s s i n g , d a t ae x t r a c t i n g ，d a t a c o n v e r t i n g ，d a t al o a d i n g i i i 南开大学学位论文版权使用授权书本人完全了解南开大学关于收集、保存、使用学位论文的规定，同意如下各项内容：按照学校要求提交学位论文的印刷本和电子版本；学校有权保存学位论文的印刷本和电子版，并采用影印、缩印、扫描、数字化或其它手段保存论文；学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务；学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版；在不以赢利为目的的前提下，学校可以适当复制论文的部分或全部内容用于学术活动。学位论文作者签名：王春宇 2 0 0 8 年5 月6 日经指导教师同意，本学位论文属于保密，在年解密后适用本授权书。指导教师签名：学位论文作者签名：解密时间：年月日各密级的最长保密年限及书写格式规定如下：南开大学学位论文原创性声明本人郑重声明：所呈交的学位论文，是本人在导师指导下，进行研究工作所取得的成果。除文中已经注明引用的内容外，本学位论文的研究成果不包含任何他人创作的、己公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体，均己在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名：王春宇 2 0 0 8 年5 月6 日第一章绪论第一章绪论第一节选题的目的和意义随着我国国民经济的持续快速发展，中小企业、民营企业迅速崛起，合资、外资的超市、连锁经营等商品零售业正在大举进入中国市场，电子商务网站购物的发展，出版业和商品零售业的市场放开，外资保险业的市场进入，银行信用卡业务的市场拓展，各种会员制俱乐部的建立，从事商品邮购和直销公司的崛起，发达国家的直销方式正以前所未有的速度进入我国市场，这为商业信函在我国的发展提供坚实的市场基础和广阔的发展空间。近年来，中国邮政集团公司明确地把商函发展确定为邮递类业务发展的重中之重。1 9 9 8 年中国邮政集团公司明确提出要建立全国邮政名址信息系统的任务以后，便开展了面向全国的名址信息数据库的建设工作。几年间，中国邮政集团公司多次动员全国的投递力量，收集全国名址信息并发布到各省、地、市局使用。随着传统邮政步入信息时代，网络应用日益广泛，建设一个数量多、质量好、分类科学、覆盖面广、使用便捷的全国邮政名址信息系统，并为业务分析提供依据，已经越来越成为发展邮政商函业务及各种综合网上邮政业务的迫切需求。全国邮政名址信息系统的建设要依托于邮政综合网，应用先进的计算机技术、数据仓库技术和先进的业务处理模式，建设成为一个全国性、权威性、统一管理、便于维护、数据及时更新、安全可靠运行的信息系统，并在此基础上逐步扩展为中国邮政企业数据仓库，并建立邮政客户管理和经营分析系统，使中国邮政能够通过更有效率和效能的业务营销活动，为客户提供更好的服务，增加企业收益。通过全国邮政名址信息系统的建立和使用，进一步开发邮政名址信息资源，大力促进邮政商函等业务的发展，并且为电子商务、信息服务、邮购等邮政业务的迅速扩展提供有力的信息支持，提高邮政系统整体运行效率和服务质量，并使之成为国民经济的基础信息资源，以取得更多、更大、更广泛的社会效益第一章绪论与经济效益。本文是在深入研究了全国邮政名址信息系统业务需求的基础上陀1 ，结合邮政业务的特点与发展前景，对技术实现与系统功能进行描述，达到建立全国统一管理、满足数据及时更新机制、数据扩展灵活、维护方便、运行高效、安全可靠、界面友好、适用范围广、易于维护的全国邮政名址信息系统的总体目标。第二节名址信息库的现状 1 2 1 名址信息建设情况目前除全国统一的组织机构库外；各省、各地市还拥有各自不同的自有数据库。名址信息是指含有组织机构名称或个人姓名，组织机构或个人地址以及其他数据项的信息，名址信息数据主要是在商业信函的制作中使用，本省、本地市数据的使用概率大于5 0 。由中国邮政集团公司统一建成的组织机构信息库，拥有8 0 0 余万条的数据量，并于2 0 0 3 年动员全国投递力量对其进行了全面的更新维护，经集团公司名址中心测试，信息准确率达到9 0 以上，为邮政名址信息库建立了良好的基础。各省、各地市通过不同渠道自行建立了个人信息数据库和白有单位名址数据库，据初步统计全国共有自有信息库4 4 8 个，为拓展商业信函业务提供了良好的素材。 1 2 2 名址中心各级组织机构名址中心管理组织机构现分为三级模式：集团公司名址中心专省名址中心专地市名址中心各级中心均配备专职名址数据管理人员，负责数据的维护、汇总与使用。第三节本文主要工作全国邮政名址信息系统以地址为基础，以客户名址信息为核心，逐步整合关联邮政各种与名址相关的业务数据，并从这些业务数据中提取、丰富名址信息，为全国邮政商函业务提供长期稳定支撑。根据全国邮政名址信息系统业务需求，系统主要包括数据采集整理、数据查询、数据交换、数据维护、统计报表和打印制作等功能。系统要支持全国 2 第一章绪论范围内各使用终端对名址数据的查询、筛选、制作等日常业务，这类业务具有并发性高，多表关联操作及数据量大等特点。在日终处理时还要完成数据更新，要将从其他系统获取的名址数据及本系统的维护数据导入到数据库临时区，通过清洗、查重、匹配、转换等处理，按照逻辑数据模型整合到名址数据库的主库或自有库的操作。这就要求在有限的时间窗口内完成对大量数据的复杂处理。另外，系统要满足如下性能指标，并且，随着数据量的增长系统硬件在设计时也要考虑扩展性。表1 i 系统性能指标表类别说明性能指标简单查询小型表( 记录数 = 1 0 0 0 万) 的单表查询以内小型表和大型表的多表( 小于等于4 ) 连复杂查询接，大型表和大型表的多表( 小于等于4 ) 9 0 在1 0 分钟以内，9 9 在3 0 分钟以内连接根据业务需求和性能要求，本文从数据库的选择、系统总体设计及系统功能实现等方面进行阐述。本人在全国名址信息系统建设中参与了以下工作：技术方案的编写，审核原始数据，开发后台数据处理功能及系统单元测试和联调测试等。 3 第二章全国邮政名址信息系统支撑平台简介第二章全国邮政名址信息系统支撑平台简介全国邮政名址信息系统平台要求能够支持并行处理、能够自动进行优化、并且可线性扩展，及日后对数据挖掘的深层次需求，这些只有具备并行处理技术( m p p ) 1 架构的系统平台才能胜任。第一节数据仓库基本概念数据仓库( d a t aw a r e h o u s e ) 技术是指从大量的事务型数据库中抽取数据，并将其整理，转换为新的存储和组织格式，用以支持管理中的决策制定过程。该过程以历史的角度组织和存储数据，并能集成地进行数据分析。数据仓库除具有传统d b m s 的完整性、共享性、数据独立性外，还有面向主题而集成、数据的历史性和稳定性等特征。数据仓库是一个综合解决方案，是对原始的操作数据进行各种处理并转换成有用信息的处理过程。 2 1 1 数据仓库与数据集市的区别数据集市( d a t a m a r t ) 1 也是当前非常热门的一个术语，一种比较常见的误解是认为它与数据仓库的差别只是数据量的大小而己。事实上，数据仓库是企业级的，能为整个企业各个部门的运行提供决策支持手段；而数据集市是部门级的，一般只能为某个局部范围内的管理人员服务，因此也称之为部门级数据仓库( d e p a r t m e n t a ld a t aw a r e h o u s e ) 口1 。尽管数据挖掘并不要求一定要在数据仓库之上进行，但数据挖掘的种种问题将耗费巨大的时间和资源，如从不同的数据集市中进行数据采集，数据清洗，数据变换等等。一旦需要建立新的模型，将不得不再次重复这个过程。大约7 0 的数据挖掘过程将花费在数据准备阶段。数据仓库通过减少数据冗余和系统管理使得数据挖掘更可行，并使模型开发人员可以更集中于对数据的分析。数据集市有两种，即独立的数据集市( i n d e p e n d e n td a t am a r t ) 口1 和从属的数据集市( d e p e n d e n td a t am a r t ) 口1 。从下图可以清楚地看到数据仓库、从属数据集市与独立数据集市之间的关系： 4 第二章全国邮政名址信息系统支撑平台简介 * f i # 勇晕阜譬堂婪一，、絮嚣嚣黛赢营固审固晕辱国舅黟每馨羔0 趣j ”4“8 毋碜 2l a 21 b 图2i 数据仓库、从属数据集市与独立数据集市暖鱼奠置零毋图21 a 表示的是企业数据仓库的逻辑结构摸中的数据来自于各生产系统，把它们的操作数据按照企业数据仓库物理模型结构的定义转换过来。采用这种中央数据仓库的做法，可以保证现实世界的一致性。图2 i b 表示的是从属数据集市的逻辑结构。所谓从属，是指它的数据直接来自于中央数据仓库。显然，这种结构仍能保持数据的一致性。一般为那些访问数据仓库十分频繁的关键业务部门建立从属的数据集市，这样可以很好地提高查询的反应速度。图2l c 描述了独立数据集市的逻辑结构，它的数据直接柬源于各生产系统。许多企业在计划实施数据仓库时，往往出于投资方面的考虑，最后建成的就是这种结构的独立数据集市，用来解决个别部门比较迫切的决策问题。从这个意义上讲，它和企业数据仓库除了在数据量大小和服务对象上有所区别外t 逻辑结构并无多大区别，也许这是把数据集市称为部门数据仓库的主要原因。关键问题在于：随着需求的增加，数据量也会迅速增加，系统规模将迅速扩大，是把原来的独立数据集市扩展成为企业数据仓库还是为各部门分别建立独立的数据集市，便是企业的决策者要考虑的。在这种结构中，i t 部门必须设计多个数据转换程序，把各生产系统的操作数据转换到每个独立数据集市中以便保持数据的一致性。显然，这种策略将使整个系统变得非常复杂难于维护，在投资方面更是得不偿失，因为硬件系统的投资成比例增加，软件方面的投资和维护方面的投资则成指数形式增加。既然这种分布式的独立数据集市结构有诸多问题，为什么还有一些企业仍在这样做呢? 回答是“不得已而为之”。因为硬件平台或者数据库在扩展性方面第二章全国邮政名址信息系统支撑平台简介限制太多，并行处理能力不够，无法处理大量的数据，最后只能形成这种尴尬局面。 2 1 2o l t p 与o l a p 的特点 o l t p 系统称为联机交易处理( o n l i n et r a n s a c t i o np r o c e s s i n g ) 系统，它是事件驱动、面向应用的，比如银行的储蓄系统就是一个典型的o l t p 系统。o l t p 的基本特点是：一对响应时间要求非常高；一用户数量非常庞大，主要是操作人员；一数据库的各种操作基于索引进行。 o l a p 系统称为联机分析处理( o n - l i n ea n a l y t i c a lp r o c e s s i n g ) 系统，是基于数据仓库的信息分析处理过程，是数据仓库的用户接口部分。o l a p 系统是跨部门、面向主题的，其基本特点是：一基础数据来源于生产系统中的操作数据( o p e r a t i o n a ld a t a ) ；一响应时间合理；一用户数量相对较小，其用户主要是业务决策与管理人员；一数据库的各种操作不能完全基于索引进行。 2 1 3 数据仓库系统的查询特点针对生产系统的查询都很简单，一般不会使用表的连接操作，每次返回的数据量都很小，这类问题的特点是知道要找什么数据，这类操作都是基于索引进行的，由于这些特点，数据库大小对系统性能影响不大。针对数据仓库系统的查询大都非常复杂，主要有两种：一种以报表为主，从数据库中产生各种形式的业务报表，这种查询是预先规划好的；另一种则是随机的、动态的查询，对查询的结果也是不能预料的。数据仓库中的查询由于其复杂性，会经常使用多表的联接、累计、分类、排序等操作，这些大都要对整个表进行搜索。每次查询返回的数据量一般很大。根据这些特点，数据库大小对于数据仓库系统的性能影响很大。当数据仓库投入使用后，各业务部门的要求会越来越多，使得数据仓库中数据量的增长速度很快，因此，设计数据仓库时，系统的可扩展能力是必须考虑的重要因素之一。 6 第二章全国邮政名址信息系统支撑平台简介另外，系统的并行处理能力是另一个要考虑的重要因素。因为查询的复杂性，每个查询将占很多的系统资源，如果并行处理能力不强，当多个用户同时发出请求时，响应时间可能长的不可容忍。第二节t e r a d a t a 的基本特点传统的商业数据库基本上是针对o l t p 应用而开发出来的，由于数据仓库具有其海量并行等特点，所以那些传统的商业数据库不适合来驱动数据仓库应用。 t e r a d a t a 口1 ，是专门用来处理大量数据、针对决策支持应用而设计出来的数据仓库引擎。t e r a d a t a ，简单的说就是一个关系数据库管理系统，具有很强的并行处理能力和扩展能力。全国邮政名址信息系统的特点就是着重于对大量历史数据( 包括当前数据在内) 进行复杂的综合分析与处理，提供给业务人员和管理人员的各种复杂的统计报表数据，所以全国邮政名址信息系统的建设就要采用t e r a d a t a 数据库。 2 2 1 数据自动分配 t e r a d a t a 中只有一种基于h a s h 算法的数据分配机制，当要插入一条记录时，根据主索引计算出相应的a m p 口1 ，该条记录即通过此a m p 存到其对应的磁盘上。由于主索引值的不同，一个表的各条记录将通过各a m p 均匀地分布到各个磁盘上。分配过程完全自动进行，不需要d b a 干预，这一点和其他o l t pd b m s 有很大的区别。对于o l t p 系统而言，其查询的特点是预先知道要回答什么样的问题，因此， d b a 会根据业务问题的特点把数据按照相应的规律进行分配，例如把数据按照时间的不同分配到不同的硬盘上。这种由d b a 手工进行的数据分配机制对o u p 系统而言是有意义的，也确实能提高系统性能。但对数据仓库系统来说，其查询往往比较复杂而且具有不确定性，不同的业务部门可能会提出各种不同的问题，如果再按照一种规律进行数据的分配，则系统有可能对某些问题的响应速度很快，而对另外一些问题的反应则很慢。另一方面，我们都知道，数据库重组( r e o r g a n i z a t i o n ) 一直是困扰d b a 的一个问题。在t e r d a t a 数据库中，通过选择合适的主索引就可以保证数据在各磁盘上的自动均匀分配，使得其并行处理性能得以充分的发挥，特别适合于数据仓库环境下各种不确定的、动态的业务问题。另一方面，所有记录的插入、更新都按 7 第二章全国邮政名址信息系统支撑平台简介同样的h a s h i n g 算法进行，数据的分配完全自动进行，使得各磁盘上的数据总是混合存储而且是均衡的，不存在“有序或者“无序的概念，因而也就不存在数据库重组问题( r e o r g a n i z a t i o n ) 。对于传统的o l t pr d b m s 而言，投产运行一段时间后系统性能常常因某种原因( 如不断追加记录后造成数据存储不平衡) 下降，这时就要考虑对数据库进行重新配置、重新调整。通常所采取的步骤是：一分析查询的性能、数据与索引的分布等，以找出瓶颈所在；一确定新的数据分布模式；一备份数据库；一在数据库中实施新的数据分布模式；一重新加载数据。当一段时间后系统性能再次下降时，d b a 又得重复上述过程，使得d b a 的工作十分繁重。 2 2 2 并行处理能力 t e r a d a t a 最显著的特色之一是其强大的并行处理能力，其实现方式被称为多维并行处理机制，简单描述如下：查询并行口1 ( q u e r y 并行) ：这种并行处理是基于前面介绍的h a s i n g 数据分配机制实现的。每个a m p 都是一个v p r o c ，各自独立负责一部分数据的处理，相互之间没有关系，每个节点一般配置4 至1 6 个这样的v p r o c 。所有关系运算如表的搜索、索引检索、投影、选择、连接、聚集、排序等都是由各个v p r o c 并行进行的。步内并行口1 ( w i t h i n a s t e p 并行) ：一个s q l 查询进入系统后，首先由优化器进行优化处理，分解成一些小的步骤( s t e p ) ，然后再分发给各v p r o c 进行处理。一个步骤可能非常简单，如“搜索一个表并返回结果，也可能非常复杂，如“按照某条件搜索两个表，然后连接结果投影到某几个列，对它们求和 ( s u m ) 后返回结果”。像这种复杂查询将处理多个关系运算，每个关系运算在一个v p r o c 内将启动多个进程来实现并行处理，称为步内并行。多步并行口1 ( m u l t i s t e p 并行) ：上面说过，个s q l 被分解成多个小的步骤，这些步骤的执行将同时进行，称为多步并行。优化器分解个s q l 查询请求的原则是尽可能使各步独立。目前尚只有t e r a d a t a 实现了多步并行。 8 第二章全国邮政名址信息系统支撑平台简介下图以一个复杂查询的实例形象地说明了t e r a d a t a 的多维并行处理机制。查询并行：4 个a m p 同时对各自控制存储空间执行每一个步骤图2 2t e r a d a t a 的多维并行机制 il i n e 丌e ml l u lb0 r d e r sl p _ 步内并行：以下三个操作同时运行、结果以p i p e l i n e 连接：这里假设系统配置有4 个虚拟处理器( v p r o c ) ，某个复杂查询被优化器分解成了7 个步骤，图中s u p p l i e r s 、p a r t s 、p a r t s u p p 、l i n e t e r m 和 o r d e r s 等均为数据库中表的名字。在每个步骤执行时，4 个v p r o c 同时处理与各自相关的数据块，例如搜索s u p p l i e r s 表( 步骤1 1 ) ，该表的记录是通过 h a s h 算法均匀分布在4 个v p r o c 各自负责的磁盘中的，搜索时4 个v p r o c 将同时进行，把相关的记录搜索出来，这就是所谓的查询并行；步骤1 1 和1 2 、 2 1 和2 2 也是同时执行的，这是所谓的多步并行；步骤2 2 ( 或步骤1 2 ) 中包含有三个操作，它们借助于一种管线( p i p e l i n e ) 的机制实现了步内的并行处理。除了上面描述的多维并行处理机制外，t e r a d a t a 还作了进一步优化和扩展，增加了同步扫描( s y n cs c a n ) 等机制，使得并发用户环境下处理复杂查询时响应速度进一步加快。举例来说，在多用户环境下，一个部门中许多用户的查询常常是大同小异的，经过优化器分解后，它们具有一些相同的步骤，由于每个步骤的执行结果会在一个系统缓冲区中暂存，相同的步骤往往只需要执行一次即可，从而大大减少了磁盘i o ，提高了响应速度。对于o l t p 系统来说，由于其查询相对简单，依靠建立适当的索引就能保证 9 第二章全国邮政名址信息系统支撑平台简介查询的速度，从而对d b m s 并行处理的能力要求不高。但对于数据仓库来说，它主要提供的是o l a p 应用，许多业务问题相当复杂，如果依靠索引来提高查询速度，将存在两方面的问题：一是索引过多会占用太多的磁盘空间，增加系统的复杂性和管理成本。许多o l t pd b m s 用于数据仓库时，其磁盘使用率( d i s k r a t i o ，指数据库大小与真正的用户数据的比例) 在5 以上，有时甚至高达1 0 ，原因就在于此。而基于t e r a d a t a 建立的数据仓库，磁盘使用率一般在1 5 至3 之间。二是建立一个索引意味着事先定义好一些与之相关的问题，当提出其他问题时常常需要建立另外的索引。也就是说，索引只能解决那些预先定义好的问题，如一些业务报表等。而数据仓库除了要产生大量的业务报表外，另一个主要的应用就是回答那些不能预知的、动态的业务查询，我们称这种动态查询为a d - h o c 查询。d b m s 具有强大的并行处理能力是数据仓库应用成功与否的关键。 2 2 3 线性可扩展能力一般来说，当数据仓库投产以后，随着应用的增加，其数据量也增长得非常快，因此，数据仓库系统对扩展性的要求很高。当验证一个系统的扩充能力时，应从三方面来考虑：一数据量增长时的线性度：当用户数据量成倍增加时，对于同一个系统，响应时间是按比例线性增加的；一硬件平台的线性度：对于同一个查询，当硬件平台的配置增加一倍时，响应时间应减少一半；一并发用户增加时的线性度：对于同一个系统，当并发用户的数目增加时，响应时间也按比例线性增加。对基于t e r a d a t a 实施的数据仓库系统的扩充是很容易的，可以采用现场升级( f i e l du p g r a d e ) 方式。下图口1 举例说明了将一个四节点的系统扩充到六节点的情况，首先将新增加的两个结点通过b y n e t 与原系统联接，然后运行 t e r a d a t a 提供的一个名叫r e c o n f i g 的工具，它将自动把原系统磁盘阵列中1 3 的数据按照h a s h 算法均匀地分布到新节点所控制的磁盘中。这个过程完全自动进行，不需要d b a 过多地干预。 1 0 * 2 一女镕。_ l 卜# e 22 4 降低日常维护量从f | ，l 自】的描述可以看到1 矗a d a b 中许多工作如数据分配、负栽管理、杳询优化与渊整、工作管理与自由空叫的管理等都是目功进行的不需要d b a 的过多f 刊! 。另外也不存在数据平衡控制、数掘苹缃与誊引重组等问题这些特点都使得t e r a d a t a 的管理十分容易，对于实际系统特别星较大型的数掘仓库具响1 分重要的意义。 225 丰富的0 l a p 功能 t e r a d m a 是专为数据仓库设计的，主要川柬进行数柳的综合分析和处理，因此在开发时嵌入了丰富的o l a p 功能，主要包括：排序r a n k 、累计和c s u m 、移动平均m a v g 等。这螳蛹数可以和标准的s q l 语句起使用而且所有这些函数都足存1 协d a 衄山音| ：以并行疔式来工作，速度非常快。综上所述t e r a d 越a 独有的平行架构技术不但创造出其领先业界的性能表现，同时| l 具有较低的企业成本：此平行架构可满足邮政企业运用先进的数据仓库系统技术处理更大的需求，山于其可扩展的自我管理控、术，使得泵用 t e m d a t a 来建立全国邮政名址信息系统成为昂简单且最具成功保证的选择。第三章全国邮政名址信息系统总体设计第三章全国邮政名址信息系统总体设计第一节全国邮政名址信息系统总体目标全国邮政名址信息系统的近期建设目标是以支持商函业务的发展为主，在此基础上考虑深入应用，逐步建设邮政客户管理、经营分析系统。本系统的设计要注重名址信息的质量，在基础地址表的基础上，充分利用邮政内部信息资源，整合各业务系统中已有的名址信息，成为全国邮政统一的名址信息平台，系统建设与应用方向必须依据市场需求，既要考虑当前业务的需要和技术实现的可能性，又应留有今后开发、扩展的空间。第二节系统结构本系统由集团公司名址信息系统、省名址信息系统和授权客户端组成，其结构见下图。图3 1 全国邮政名址信息系统结构 1 2 第三章全国邮政名址信息系统总体i 殳训第三节逻辑体系架构本系统分为四层：全国中心、省中心、虚拟地市中心、客户端电于兑原有名址库报刊拄行外部数据数据源蒹统垒墨中心 = 簧i2 誉：。- ；搿麓，。一一一二二、c - 一一一二。二一一一一神。- 霹豳圈卜箍一一一一j ：i 一一一一一一一一一一一一r 一一一一 f 鲫黼+ 多哩二i 影罗罗蕃撕一一蓝直一：一主名直一銮一j 一：_ - 主一刚3 2 逻辑体系结构图全国中心存储和处理来自所有物理省和直辖市的共享名址信息( 包括；现有的名址信息：从邮政现有的业务系统收集的名址信息) 、所有虚拟省中心、虚拟省虚拟地市中心的自有名址信息。省中心分为物理省中心和虚拟省中心。物理省中心存储和处理全国共享的名址信息、本省和物理省虚拟地市中心的自有名址信息。虚拟省中心使用全幽中心的系统资源，其自有名址信息存储在全国中心。虚拟地市中心在本地不设物理系统，使用全国中心和物理省中心的系统资源，其目有名址信息存储在全国中心或物理省中心。客户端是指使用全国邮政名址信息系统的授权终端，包括地市、县、支局的授权终端用户。北京中心和全国中心台并建设，它将具备和物理省中心同样的功能和效率。第三章全国邮政名址信息系统总体设计第四节物理网络体系架构全国中心和省中心之间通过邮政综合网联接，进行数据的上传和下发。本系统的访问分为四类：全国中心用户：通过邮政综合网连接，授权用户访问全国中心名址信息系统。虚拟省用户：包括虚拟省局的用户和其所属地市级用户，都通过邮政综合网访问全国中心名址信息系统。物理省用户：通过邮政综合网连接，授权用户访问本省省中心名址信息系统，有维护授权的用户对其名址信息进行维护。物理省的地市级用户：通过省内的邮政综合网连接本省省中心名址信息系统，授权用户访问本省省中心名址信息系统，有维护授权的用户对其名址信息进行维护。第五节全国邮政名址信息系统总体功能本文按照全国中心、省中心、地市中心及县、支局客户端的四级机构模式对数据采集整理、数据查询、数据交换、数据维护、统计报表和打印制作等功能进行了设计。 3 5 1 集团公司名址信息系统功能集团公司名址信息系统的功能：一集中存储全国组织机构信息和个人名址信息、基础地址表以及虚拟省和虚拟地市的自有信息一通过邮政综合网实现与各省名址信息系统的连接一处理授权客户端的数据查询、下载等各种业务请求一实现对名址信息的更新、查重、添加、自动筛选等处理一定期接收各省名址信息系统上传的更新名址信息一定期向各省名址信息系统反馈更新的名址信息一记录和监控网上数据交换和使用的情况，保证各种数据在传输中完整、保密、安全，并设置各级人员的密级权限一定期统计、分析名址信息的使用情况 1 4 第三章全国邮政名址信息系统总体设计 3 5 2 省名址信息系统功能省名址信息系统的功能：一集中存储全国中心名址信息系统下发的共享库和本省自有信息 - 一通过邮政综合网实现与集团公司名址信息系统的连接一实现对本省名址信息更新、查重、添加、自动筛选等处理一处理本省授权客户端的数据查询、下载等各种业务请求一定期接收本省各地市通过多种传输方式( 邮政综合网、i n t e r n e t 、光盘等) 上传更新的信息一定期向集团公司名址信息系统上传更新的信息，并接收集团公司名址信息系统反馈的更新信息一记录和监控网上数据的交换和使用情况，保证各种数据在传输中完整、保密、安全，并设置本省各级人员的密级权限一定期统计、分析名址信息的使用情况 3 5 3 地市客户端功能地市客户端功能：一管理维护本地市个人名址信息，实现对本地市名址信息更新、查重、添加、自动筛选等处理一记录和监控网上数据的交换和使用情况，保证各种数据在传输中完整、保密、安全，并设置本地市各级人员的密级权限一通过多种传输方式( 邮政综合网、i n t e m e t 、光盘等) 定期向省名址信息系统上传本地市名址更新的数据一定期统计、分析名址信息的使用情况 3 5 4 县、支局客户端功能县、支局客户端功能：一本地范围内的名址信息录入及退信维护工作一数据查询一查询后的数据整理 1 5 第二章全国邮政名址信息系统总体设计 3 5 5 业务流程业务流程主要包括数据采集整理、数据查询应用和数据维护及交换三个方面。 3 5 5 1 数据采集整理流程数据采集整理流程分为数据初始处理和日常数据处理。数据来源分为：一外部购买数据一外部征集数据一邮政业务交易数据 1 数据初始处理数据初始处理是在系统上线时对名址信息系统相关数据和各类业务数据的初始导入处理，包括集团公司名址中心现有组织机构数据、报刊订阅数据、电子汇兑业务数据、集邮业务数据、速递业务数据、各省或地市名址中心自有数据等。这些数据的初始导入处理流程如下表所示：表3 1 数据初始导入处理流程数据采集预数据清数据名称数据来源数据压缩传输洗转换数据出错处理数据处理周期处理导入集团公司名通过移动存储介质集团公司名址中址中心现有集团公司集团公司名初始一次性导组织机构数名址中心址中心或网络，传输到集团项目组心下发到各省名入据公司名址中心址中心进行确认各地市名址通过移动存储介质集团公司名址中初始一次性导报刊订阅数各地上报中心或根据或网络，传输到集团项目组心下发到各省名据数据存放实入际情况公司名址中心址中心进行确认电子汇兑业电子汇兑各省名址中通过移动存储介质集团公司名址中初始一次性导系统( 省集或网络，传输到集团项目组心下发到各省名务数据心入中)公司名址中心址中心进行确认集邮业务数集邮业务集团公司名通过移动存储介质集团公司名址中初始一次性导系统( 全国或网络，传输到集团项目组心下发到各省名据址中心入集中) 公一j 名址中心址中心进行确认速递业务数速递业务集团公司名通过移动存储介质集团公司名址中初始一次性导系统( 全国或网络，传输到集团项目组心下发到各省名入，在项目第据址中心集中) 公司名址中心址中心进行确认二期实施各省或各地通过移动存储介质各省或自有数据自行采集市

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）全国邮政名址信息系统的设计与实现.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）全国邮政名址信息系统的设计与实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档