




已阅读5页,还剩58页未读, 继续免费阅读
(计算机应用技术专业论文)社会保障数据整合及公众服务系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息t 程大学硕士学位论文 摘要 随着科学技术的飞速发展,现代的各类管理已逐渐告别烦琐的文本方式,向高科技 手段的信息系统管理转化,与大家密切相关的社会保障行业也必将走向信息化管理工作 的道路。同时,市场导向就业机制的逐步建立,劳动者的流动日益频繁,实施建设全国 统一的劳动和社会保障信息系统工程就成为必然。 由于社会保障方面的信息资源不能共享,数据格式不统一,数据在不同的系统中重 复存在,互相不一致等问题已经成为了社会保障进一步发展的瓶颈。通过数据整合可以 很好地解决这些问题,统一规范数据采集,提供正确信息数据,同时通过i n t e r a c t 、w a p 、 短信、语音等方式面向公众服务,这样既做到了资源共享,有利于监管与决策,又方便 了用户。 本文较完整地对开封市社会保障信息中心的数据整合与公众服务系统部分进行了 研究。结合开封市社保系统的特点,通过对实际需求的分析,比较了多种数据整合算法, 最后采用基于编辑距离的匹配方法,解决了数据整合子系统中重复记录合并等关键技术 问题。为了提高社保数据库中数据的质量,必须在数据入库之前对数据进行严格的校验, 在本文中设计了基于规则的数据校验子系统,对入库数据进行检验,确保只有经过验证 的的数据才能进入到数据库中。完善的社保系统还必须为用户提供方便快速安全的访问 服务,非法用户是无法访问到系统中的数据的,本文对公众服务子系统中移动查询服务 部分进行了详细的研究,设计出了高效安全的移动数据查询方案,确保能为用户提供优 质的服务。 关键词:数据整合,s m “算法,匹配算法,校验规则 第1 l 页 信息工程大学硕士学位论文 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fs c i e n c ea n dt e c h n o l o g y , a l lk i n d so fm o d e m m a n a g e m e n th a v em o v e d f r o mo f f i c i a ld o c u m e n t st oi n f o r m a t i o ns y s t e m s oi st h ei n d u s t r yo f s o c i a ls e c u r i t y a tt h es a m et i m e ,t h ee s t a b l i s h e dm a r k e t - o r i e n t e de m p l o y m e n tm e c h a n i s ma n d t h ef a s tf l o wo fw o r k e r sh a v ei d _ a d ei tn e c e s s a r yt oc o n s t r u c tan a t i o nw i d eu n i f o r ml a b o ra n d s o c i a ls e c u r i t yi n f o r m a t i o ns y s t e mp r o j e c t n 圮r e p e t i t i o na n dd i f f e r e n c eo fi n f o r m a t i o nd a t ah a sb e c o m et h eb o t c l e n e c ko ft h e d e v e l o p m e n to fs o c i a ls e c u r i t yb e c a u s eo ft h eb a dp a r t a k i n g o fi n f o r m a t i o nl c s o u r c e sa n d t h ed i s u n i t yo fd a mf o r m a t t h r o u g hd a mc o n f o r m i t ys u c hp r o b l e m sc a nb es o l v e dq u i t e w e l l t h e nt h es o c i a ls e c u r i t ys y s t e mc a nu n i f yt h ec o l l e c t i o no fd a t aa n dp r o v i d er i g h t i n f o r m a t i o nd a t a ;a l s oi tc a l lp r o v i d ei n t e r n e t , w a p , s h o r tm e s s a g ea n dv o i c es e r v i c e s t h i si s c o n v e n i e n c ef o rt h eu s e ra n du s e f u lf o ri n f o r m a t i o ns h a r ea n ds u p e r v i s i n ga n dd e c i s i o n m a k i n g i nt h i sa r t i c l e , t h em a i np a r th a sf o c u s e do nt h ed a t ac o n f o r m i t ya n dp u b l i cs e r “c e s s y s t e mo fs o c i a ls e c u r i t yi n f o r m a t i o n c e n t r ei nk a i f e n gc i t y w eg e ta n a l y s i sf r o mt h e p r a c t i c a lr e q u i r e m e n ta n dc o m p a r em u l t i d a t ac o n f o r m i t ya l g o r i t h m sa c c o r d i n gt ot h e c h a r a c t e r i s t i co ft h ek a i f e n gs o c i a ls e c u r i t ys y s t e m f i n a l l y , w ea d o p te d i t i n gd i s t a n c eb a s e d m a t c h i n gm e t h o d , a n ds o l v e dt h ek e yt e c h n o l o g yp r o b l e mo f t h er e p e a t i n gr e c o r d si nt h ed a t a c o n f o r m i t ys u bs y s t e m i no r d e rt oe l e v a t et h eq u a l i t yo ft h ed a t ai nt h es o c i a ls e c u r i t y d a t a b a s e ,w ed e s i g na r u l eb a s e dd a t ac h e e ks u bs y s t e m u s i n gt h i ss u bs y s t e m , w ec a nm a k e s u r et h a to n l yt h ec h e c k e dd a t ac a nb ep u ti n t ot h ed a t a b a s e p e r f e c ts o c i a ls e c u r i t ys y s t e m s h o u l dp r o v i d ec o n v e n i e n t s e c u r ea n dr a p i da c c e s st ot h ei n f o r m a t i d a t a i n v a l i du s e rc a n t a t c c e s st h ed a mi nt h es y s t e m w ed e s i g nas e c u r ea n de f f i c i e n tm o b i l eq u e r ys c h e m ef o rt h e s o c i a ls e c u r i t ys y s t e mt om a k es u r et h a ts y s t e mc a np r o v i d eh i g hg r a d es e r v i c ef o rv a l i du s e f s k e y w o r k s :d a t ac o n f o r m i t y :s n ma l g o r i t h m :m a t c ha l g o r i t h m ;v e r i f i c a t i o nr u l e 第l 页 信息工程大学碗叶:学位论又 论文原创性声明和使用授权 本人声明所呈交的论文是我个人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了本文中特别加以标注和致 谢中所罗列的内容外,论文中不包含其它人已经发表或撰写过的 研究成果;也不包含为获得信息工程大学或其它教育机构的学位 或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中做了明确的说明并表示了谢意。 本人完全了解信息工程大学电子技术学院有关保留和使用学 位论文的规定,即:学院有权保留论文的复印件,允许查阅和借 阅论文;可以公布论文的全部或部分内容;可以采用影印、缩印 或其它手段保存论文。涉密论文按保密规定执行。本论文取得的 研究成果归学院所有,学院对该研究成果享有处置权。 本人签名:巯、咳日期:沙彭彳7 本人签名:幻、敬日期:沙西石t 夕 糊抛埋帆彩“夕 信息t 程大学硕士学位论文 第一章引言 随着社会保险个人账户的建立、养老金的社会化发放,以及离退休人员管理服务社 会化进程的推进,社会保险业务管理的信息量正以前所未有的速度急剧膨胀,社会保险 基金量也相应急剧增长,传统手工方式乃至小规模的计算机管理系统已不能满足日常管 理工作的需要。同时,市场导向就业机制的逐步建立,劳动者的流动日益频繁,实施建 设全国统一的劳动和社会保障信息系统工程就成为必然。 1 1 国内社会保障信息化的现状及发展 社会保险制度是我国社会保障体系的重要组成部分,建立适应各级政府管理职能要 求的、包容各层次的社会保障管理信息系统,就成为推进社会保障体系建设的重要手段。 金保工程是社会保障信息化建设的总称,概括地讲,是利用先进的信息技术,以中 央省市三级网络为依托,支持劳动和社会保险业务经办、公共服务、基金监管和宏观 决策等核心应用,覆盖各级劳动和社会保障部门主要业务的全国统一的电子政务工程。 金保工程是目前我国政府信息化“1 2 金工程”过程中的一个重要建设内容。具体来 讲,有如下含义:一个工程,即覆盖全国、统一规划、统筹建设、网络共用、信息共享 的劳动和社会保障电子政务工程;两大系统,即劳动力市场信息系统和社会保险信息系 统;三层结构,即市、省、中央三层数据分布和管理结构;四项功能,即支持业务经办、 公共服务、基金监管和宏观决策。建设金保工程是建立和完善社会保障体系、加快劳动 力市场“科学化、规范化、现代化”建设的重要内容,是加强基金有效监管、提高宏观 决策水平的重要基础工作,是依法行政、转变政府职能的重要保证,是改进劳动保障工 作管理方式、提高管理水平和工作效率的有效手段。加快金保工程建设对于实现劳动保 障工作管理服务社会化,建立公共服务体系,推动劳动保障事业的新发展,更好地服务 社会具有重大意义随着劳动和社会保障业务以及信息化的发展,原有的信息资源不能 共享,数据格式不统一,数据在不同的系统中重复存在,互相不一致等问题已经成为了 电子政务进一步发展的瓶颈。为此,国家劳动和社会保障部已经多次强调数据问题的重 要性。 目前社会保障信息系统建设的一个核心任务是地级城市以上的各级劳动保障数据 第l 页 信息丁程大学硕士学位论文 中心建设。金保工程作为电子政务的一个重要组成部分,在项目建设和推进过程中,系 统应用的水平将越来越高,由原来单位运行到部门内共享、再到不同单位之间的信息共 享和工作协同。在建设这些跨单位的应用系统时,为了实现互连互通和数据共享,一个 关键点就是社保数据的采集和整合处理。 整合是指在原来的基础上加以综合建设,并不意味着推倒重来或完全更新。从整合 手段来看,主要有三个方面的系统整合,其一为物理整合,即将多设备整合为一部或较 少几部更大型的设备,实现统一管理和快速反应;其二为逻辑整合,即通过系统管理软 件等手段对物理上分散的设备资源和数据资源进行虚拟化的集中管理。其三是应用整 合,主要有服务器整合、存储整合、数据库整合和数据整合等形式。 1 2 课题来源 本课题来源于“金保工程”中开封市社会保障管理系统的数据整合与公众服务系统。 以开封市为例,目前开封市参加养老保险的人数为3 8 5 万人,参加医保人数为2 0 万人,失业保险有1 0 万人( 年底扩充到4 0 万) ,劳动力市场1 0 万人。规划将下辖所有 区县的养老、医疗、失业、生育、工伤五保数据进行大集中,实现“五保合一”。 本课题就是针对上述闯题提出的,目的是实现数据异构系统的整合及公众服务。我 们所提出的开封市社保数据整合方案主要通过各种不同数据源之间的数据传递、转换、 净化、集成等功能实现。它从用户的实际应用出发,对现有的数据资源和处理流程进行 综合分析,以信息资源规划为标准,通过数据层面的整理提炼,将分散在各个“信息孤 岛”中的有效信息资源整合起来,从而形成完善的信息中心系统,全面支持数据共享、 统一管理和分析决策。 本系统以养老保险、医疗保险、失业保险、工伤保险和生育保险的计算机化管理为 基础,以市党政网为依托,形成全面的社会保险业务处理系统和决策支持系统,不仅解 决该市社会保障工作的信息化、科学化管理,同时可以为各级领导提供宏观调控与决策 的可靠数据,为决策层提供辅助决策的统计分析基础。社会保障信息系统的建成,势必 会大大推动社会保障事业的发展,为社会保障事业开辟新局面,带来巨大的社会效益和 经济效益。 第2 页 堕星王堡奎堂堡圭兰垡兰茎 1 3 论文的结构安排 本文主要论述了开封市社会保障管理系统的数据整合与公众服务系统的研究、设计 与实现,文章的结构安排如下: 第一章,介绍了国内社会保障管理的现状及发展前景,简单论述了数据整合与公众服 务技术,然后介绍了本课题的来源,最后是对论文结构安排的简单说明。 第二章。介绍了数据整合技术的应用特点,结合这些特点与当前开封市社会保障管理 现状,选择了需要的数据整合方式,并就总体结构进行了简单的描述。 第三章。详细论述了数据整合系统各模块的设计与实现。 第四章,详细论述了关于开封市社会保障数据整合系统关键技术的研究。 第五章,详细论述了数据整合系统校验子系统关键技术的研究。 第六章,简单介绍了公众服务系统功能设计与研究。 第七章,总结与展望。 第3 页 信息t 稃大学硕十学付论文 第二章社会保障数据整合及公众服务系统总体设计 2 1 数据整合目标 金保工程网建设的重点内容之一是异构数据库系统的数据整合问题。数据整合的目 标是完全实现五保合一,消除个别数据库系统中存在的相互重复、相互矛盾、过时、错 误的垃圾数据,实现同人同城同库以及数据的统一更新和联动,统一规范数据采集,提供 正确信息数据,同时结合公众服务系统,提供一种多渠道、多方式的数据整合、纠错及 规范化处理的技术手段,确保数据整合的质量和速度。 开封市规划将下辖所有区县的养老,医疗、失业、生育、工伤五保数据进行大集中, 实现“五保合一”。为了规范化劳保数据,省厅建设了一个统一的劳保系统,并给出了 统一的数据标准,这个标准是数据整合的依据。在该数据标准中,主要分为基本信息和 业务信息两大部分,其中人员基本信息是集中在一个表当中,业务数据都与该表建立了 关联。 整个数据整合过程应该遵守以下原则: l 、保持原有数据内容,在整合过程中,不应该改变原有数据的内容,力求保持原 有数据库中的内容。 2 、力求数据的准确性,即要求整合后的数据真实准确。 3 、数据的完善性,整合后的数据应该符合新的数据标准的内容要求。 4 、减小工作量,数据整合是一件繁杂的事情,在整合过程中,应尽量减小劳动部 门相关工作人员的工作量。 2 2 当前数据存在的问题 当前系统存在的主要问题包括: 1 ) 数据源的异构性 由于原来各种保险都是独立建设,所以各种保险的数据源具有异构性。异构性是异 构数据整合与处理必须面临的首要问题。在本系统中主要表现在两方面: 系统异构,各有关单位数据源所依赖的应用系统、数据库管理系统乃至操作系 第4 页 信息t 程大学硕士学位论文 统之间的不同构成了系统异构。 模式异构,数据源在存储模式上的不同,涉及到关系模式、对象模式、对象关 系模式和文档嵌套模式等几种,即便是同一类存储模式,它们的模式结构也存在着一定 差异。 2 ) 数据缺失 由于原来各系统的独立建设,各种保险没有统一的规则,各数据库所包含的内容也 是由系统建设当时制定的,现在离省厅要求的内容有一定的差距,现在数据比较齐全的 只有养老库和医疗库,虽然这两个库数据相对齐全,但是有很多地方还需要补充,特别 是一些业务数据当时记录的不是很详细,现在需要对这些业务数据进行细化。 。 3 ) 数据的语义冲突 本系统涉及到的各信息资源之间存在着语义上的区别。这些语义上的不同可能引起 各种矛盾,包括简单的名字语义冲突( 不同的名字代表相同的概念) 和复杂的结构语义 冲突( 不同的模型表达同样的信息) 。语义冲突会带来数据整合与处理结果的冗余,干 扰数据处理、发布和交换。所以,在构建系统中,需要各系统不同的数据语义都转化为 省厅下发的数据标准所规定的语义。 4 ) 人员基本信息数据的冲突 新的数据标准要求每个人只存储一条纪录,由于一个入可能参加多种保险,所以有 可能一个人在多个源数据库中都存有数据,但是往往不同数据库中的人员信息都是有冲 突的,这样需要对这些冲突进行解决。 2 3 数据整合方案 实现异构数据库的融合与处理一般有两种方法。第一种就是将原有的数据移植到新 的数据管理系统中来,为了融合与处理不同类型的数据,必须将一些非传统的数据类型 转化成新的数据类型。第二种方法是利用中间件融合与处理异构数据库,该方法并不需 要改变原始数据的存储和管理方式。 在本系统中,由于需要将原来的数据都转化为省厅统一的数据标准,所以根据此需 求,我们采用了第一种方法。 具体的数据整合方法又分为两种:方法一,“白箱法”。所谓“自箱”的含义,就 第5 页 信息1 = 程大学硕士学位论文 是说,系统的内部组成结构是透明的,用户可以看得见,弄得懂。可以进行“自内而外” 的建模过程( 系统解析建模技术) 。应用条件是:原应用系统必须有数据字典或能够用数 据库管理系统打开并打印出数据库的结构,把这种数据库称为“应用数据库”特点: 比较简单,容易掌握,并且见效快。方法二,“黑箱法”。所谓“黑箱”的含义,就是 说,系统的内部组成结构是不透明的,用户看不见,弄不懂。可以或只能实旌“自外而 内”的建模过程( 系统辩识建模技术) 。应用条件是:可以既没有原应用系统的数据字典, 也不能利用数据库管理系统打印出数据库的结构。特点:具有相当的难度,如果方法掌 握的不熟练,可能耗费时间稍长。 由于在本系统中,可以得到原有数据库,也可以结合原有系统的设计和使用人员对 原来的数据库进行分析,所以本系统的建设适合使用第一种方法,即“白箱法”。 2 4 系统总体结构设计 由于省厅下发的数据标准中所包含的信息超出原来各数据库很多,很多信息必须再 进行收集,所以在进行数据整合时,必须由下边的单位进行参与,以完善相关的数据。 数据整合是由开封市劳动局信息中心来进行负责,在业务上和环境上提供支持,同 时在整合的具体操作过程中,信息中心也是参与的主体。 具体整合时可以采取的一种方式是下边所有单位将劳保人员数据按照统一格式上 报,然后由信息中心统一处理,这样虽然能完善原有数据,但是各级单位上报的数据的 真实性和完善性都有不能确定。另外信息中心的压力也比较大,它必须找大量人员整体 各单位上报的数据。 为了避免以上方法的缺点,同时考虑充分利用原有的数据,采取将信息中心首先整 合,然后下发完善的方法。即信息中心先将所有数据都整合在一个统一的数据库当中, 然后找出库中数据存在的问题,而后根据库中人员的单位,将人员信息下发到各级单位 进行修改完善,最后下级各单位将数据报到信息中心,信息中心再次进行检验后,再导 入数据库中,作为最后整合的数据。 另外考虑到一些没有单位的人员,公众服务系统也为其提供了个人查询和校验数据 的接口,确保所有数据的完善性和准确性。 第5 页 笪星三堡盔兰堡主兰堡垒苎 系统整体结构如图2 i 所示: 开封市社保中心系统功能模块 图2 - i 系统整体结构图 第7 页 信息t 稃大学硕十学位论文 该系统由社保中心、公众服务、各参保单位三大部分功能模块组成。 其中; 数据采集系统主要负责提取原始数据,以供数据整合系统使用; 数据整合系统主要负责将所有数据放到系统规定的标准数据库中,并对数据代码和 单位等内容进行处理。 数据校验系统主要负责发现数据当中存在的错误,主要是指数据内在的错误,并给 出提示。 人工处理系统是为系统中需要人工修改的数据提供修改接口。 参保单位系统模块主要为参保单位提供数据完善的功能,使操作人员能够补齐本单 位的人员信息。 公众服务系统主要为数据整合提供了网上查询和修改功能,特别是对于一些在整合 过程中无法处理的个人数据提供修改功能,另外也可以让用户及时发现当中存在的错 误。 第8 页 第三章数据整合子系统各模块的设计与实现 3 1 数据采集模块 数据采集模块的主要功能是处理不同数据源之间的差别,提取其中的数据,转化为 统一的x m l 格式,便于下步整台模块的处理。 数据采集模块由异构数据源、异构数据访问模块、数据传送、信息中心存档组成, 其总体结构如图3 - 1 所示: 附排 图3 - 1 数据采集模块总体结构图 异构数据源是位于局域阿、i n t r a a e t 或i n t e r n e t 环境中的各种分布、异构的各单位数 据库。 3 1 1 原数据库类型t 劳动动力市场。数据库类型o r a c l e 医疗;数据库类型o r a c l e 失业:数据库类型f o x p r o 养老:数据库类型f o x p r o 计生;数据库类型f o x p r o 担保中心:数据库类型f o x p r o 优惠证发放:数据库类型f o x p r o 优惠证复审:数据库类型f o x p r o 第9 页 信息工程大学硕士学位论文 3 1 2 数据采集模块的功能子模块 1 ) 异构数据访问子模块 异构数据访问系统是一个分布数据资源访问中间件,其目标是使应用系统能够统 一、透明、高效地访问和操纵数据资源,使应用系统能够方便地管理和访问位于不同硬 件平台、操作系统,网络协议和数据管理系统中的数据。其结构如图3 2 示: 图3 - 2 异构数据访问子模块结构图 2 ) 数据传送子模块 数据传送子模块为异构数据源之间提供可基于消息通信f t p e m a i l 的、传送双方彼 此独立的、用户界面友好的数据传送功能。 数据传送子模块主要由发送向导、发送服务器、接收向导、接收服务器和传输接口 等部分组成。发送向导、发送服务器和发送接口构成了源数据导出端,与此类似,接收 向导、接收服务器和接收接口构成了目的数据导入端。如图3 - 3 所示: 第1 0 页 信息工程大学硕士学位论文 - : 图3 - 3 数据传送子模块结构图 3 ) 信息中心的设计 “开封市社保管理信息中心”基于x m l 技术,实现文档的接收、转换、转发和管理, 屏蔽各社保有关单位之间的通信方式和数据格式的差异。它一方面在单位之间充当一个 中介,使具有不同通信方式和不同格式信息的单位之间可以方便地进行交流,另一方面, 它提供一个文档管理机制,以x m l 格式集中存放进行“社保管理”活动的各种文档。其 总体结构如图3 - 4 所示: 图3 - 4 社保管理信息中心结构图 “开封市社保管理信息中心”主要分为通信接口层、文档转换层和文档管理层三个 部分。 通信接口层负责检查各服务器,获取各服务器中的文档,进行识别分类后送入相应 第1 1 页 信息工程大学硕士学位论文 的输入消息处理队列中;同时检查输出消息队列,对获取到的消息进行处理,从消息中 得到发送的方式和地址,通过相应的接口发送出去。 文档转换层负责将接收到的各种类型文档( x m l 文档) 统一转换为x m l 格式,并保存 于文档管理系统中,同时根据请求将x m l 文档转换为其它格式。 文档管理系统负责对所有的x m l 文档进行存储和管理,并在此基础上提供文档的查 询、检索和其它服务。 3 2 数据整合子模块的设计与实现 数据整合子模块的功能就是在数据采集基础上,将所有数据统一到一个大的数据库 系统中。如图3 - 5 所示: 图3 - 5 数据整合子模块功能示意图 3 2 1 数据整合子模块需要解决的问题 第一,数据源的数据模式异构性问题。 虽然数据采集模块解决了异构数据源访问问题,但是待处理数据的存储模式涉及关 系模式、对象模式、对象关系模式和文档嵌套模式等几种模式,存在较大的差异。 比如在新系统中一个表中的数据,很可能分布在原来很多表中,原来一个表中的数 据也可能对应于新数据库中的很多表。 第二、融合内容限定。 多个数据源之间的数据融合与处理,并不是要将所有的数据进行融合与处理,那么 第1 2 页 信息工程大学硕士学位论文 如何定义要融合与处理的范围,就构成了融合与处理内容的限定问题。 比如,有些源数据库中存放了用户的“曾用名”等信息,然而这些信息是新数据标 准中所不需要的。 第三、语义差别。 原来数据源中的表和字段代表的意义是新系统无法识别的,所以要将需要的内容转 化到本数据库中。 第四、代码表问题。 在新系统中,很多字段内容都是利用代码表来表示的,在原有的各系统中采用的代 码表与新系统不尽相同,这就造成了代码表不一致和冲突的问题。 第五、单位问题。 由于每个人的数据都需要下发到各单位进行处理,所以个人的单位信息至关重要, 但是在实际情况中,原来每个数据源所填的单位不很规范,单位命名随意性很大,造 成了单位的不统一 第六、身份证和姓名问题。 身份证作为区分每个人的重要标识,是识别一个人的标志,然而由于原来数据库建 设的不健全,所以有很多数据库中的人员没有身份证,或者是身份证明显错误( 比如长 度为1 7 位) 。 另外,姓名在原来各系统中也存在错失,或者身份证相同而姓名不同的情况。 3 2 2 数据整合子模块的设计 针对开封社保数据整合中存在的数据源的数据模式异构性、融合内容限定、语义差 别、代码表混乱、单位不规范、身份证和姓名错误等需要解决的问题,我们采用以下的 系统结构来解决。如图3 - 6 所示: 第1 3 页 身 模 代 份统 翻式 码 位 证 。溽 转 衰姓数 转 +处+ 名 + 据 化建 化处 库 理 图3 - 6 数据整合子模块结构图 从采集系统中得到的x t - i l 文档到生成统一数据库的整个过程如图3 6 所示,系统首先 对原始的x m l 文档数据进行过滤,对数据表、字段等对象进行取舍;然后对这些数据进 行翻译工作,即将过滤后的数据转化为本系统能够识别的数据,解决系统语义不同的问 题;模式转化主要解决原系统与新系统数据库组织模式不同的问题,使得数据得到结构 上的统一;代码表处理模块主要解决基本信息和业务信息中使用代码表不统一的问题, 使得数据代码规范化;单位处理模块主要解决单位缺失和单位不统一的问题;身份证姓 名处理模块主要解决身份证和姓名缺失和错误的问题。 另外,还有配置系统和日志系统、x m l 解析引擎等对整个整合工作进行支持。 3 2 3 数据采集模块的功能子模块 1 ) 数据过滤子模块 数据过滤子模块主要负责对原有数据进行取舍,相对于不同的源数据,数据的取舍 是不尽相同的,要对哪里数据进行取舍,必须建立在对原有数据充分分析的基础之上。 图铲7 数据整合子模块结构图 第1 4 页 信息工程大学硕士学位论文 对数据的过滤,主要分为人员基本信息数据和业务数据的过滤。 下面以比较重要的人员基本信息表为例说明数据的取舍情况: 劳动力市场:身份证号码、姓名、性别、民族、出生日期、文化程度、婚姻状况、 政治面貌、健康状况、身高( c m ) 、体重( k g ) 、联系电话、家庭住址、邮政编码、电子信 箱 医疗:身份证号码、姓名、性别、民族、出生日期、文化程度、婚姻状况、政治面 貌、健康状况、身高( c m ) 、体重( k g ) 、联系电话、家庭住址、邮政编码、电子信箱 养老:身份证号码,姓名、性别、民族、出生日期、文化程度、婚姻状况、政治面 貌、健康状况、身高( 、体重( k g ) 、联系电话、家庭住址、邮政编码、电子信箱 失业:身份证号码、姓名、性别、民族、出生日期、文化程度、婚姻状况、政治面 貌、健康状况、身高( c 岫、体重( k g ) 、联系电话、家庭住址、邮政编码、电子信箱 计生:身份证号码、姓名、性别、民族、出生日期、文化程度、婚姻状况、政治面 貌、健康状况、身高( c m ) 、体重( k g ) 、联系电话、家庭住址、邮政编码、电子信箱 担保中心:单位、身份证号码、姓名、性别、联系电话、家庭住址 优惠证发放:单位、身份证号码、姓名、性别、出生日期、出生地、家庭住址。 2 ) 翻译子模块 翻译子模块的主要功能是解决语义问题,使得后续处理能够理解各表和字段等对象 所代表的意义。如图3 8 所示: 图3 - 8 翻译子模块结构图 与数据过滤模块不同的是,翻译器处理过后,得到的数据并没有存成x m l 文档,而 是将其对应地生成新表等对象放到数据库当中,这主要是为了下步模式转化模块工作方 便考虑的。 3 ) 模式转化 由于各系设计上的差别,造成了源数据库表结构各不相同,要将数据统一到新数据 第1 5 页 信息工稃大学硕士学位论文 库系统当中,就必须对表结构进行转化。 表结构的转化也是建立在对原有数据库进行详细分析的基础上的,本系统主要是通 过视图的方式进行的,依据新系统表结构,在原系统数据源上建立视图,便可以将数据 库表结构统一为新系统的表结构。 表结构统一后,就可以利用视图,将所有数据导入到同一数据库系统当中,以便下 一步的处理。 4 ) 代码表转化 经过模式转化模块的处理,所得到的数据从组织结构上已经是符合新系统标准要求 的数据,代码表处理模块主要是针对每一个用代码表示的字段内容进行处理,使之符合 新的代码标准。如图3 - 9 所示: 图3 - 9 代码表转化流程图 数据提取是指将源数据库中需要代码转化的数据进行选择,对于不以代码形式表现 的字段不进行选取。 数据解析是分析判断某条记录的某个字段的值符合哪种情况,将问题分为以上的a 、 b 、c 三类,以便于下边对这三种问题分别进行处理。 a 类问题:代码不一致。 旧库和新库代码可能不一致,比如:在新库中性别一项,1 代表男,2 代表女,而在 劳动力市场库中,o 代表男,而i 代表女,在优惠证复审库中直接填写的男和女,没有使 用代码来表示性别。 对于代码不一致的情况,可以在分析原数据基础上,建立原数据库与本数据库代码 内容对应关系,比如原数据中性别为男用“0 ”表示,那么就把“男”与新标准中的表 示男的代码“1 ”建立对应关系。当对这些数据进行处理时,程序可以根据代码对应关 第1 6 页 信息工程大学硕士学位论文 系配置自动进行转换,将各种不同的数据库中的性别都变为标准的形式。 b 类问题:代码表内容缺失。 所谓代码表内容缺失主要是指原来代码表中的内容,在新库中没有。比如:在劳动 力市场库政治面貌一项中,代码3 代表“社团”,而在新库中,其政治面貌中并没有“社 团”这一项,所以劳动市场库中政治面貌中的“社团”就无法转化为新库中标准的代码。 由于原库代码在新库中没有相对应的内容,所以这些内容不可能进行转化,现在的 处理方法是保留原来的数据,在用户进行手工修改时,给出错误提示,让用户改为新库 中标准的代码。 c 类问题:数据内容错误。 数据中的内容可能会出现错误,如优惠证复审库中,有的性别为“男”的人员信息 结果给错误填成了“田”。这类问题往往是由于用户输入错误造成的。 此类问题不能够用a 类问题的解决方法来进行处理,因为这些问题隐含在数据之中, 而且是难以预测的。 对于这些常见的错误,程序可以建立“男”与“田”之间的对应关系,进行自动修 改。对于不常见的此类错误,程序可以保留原数据,在用户进行手工修改时,给出错误 提示,让用户改为新库中标准的代码。 第1 7 页 信息t 程大学硕士学位论文 第四章数据整合子系统关键技术研究 新系统的数据库信息来自于各个分散的数据库,数据整合的主要目的也就是将各个 库中的信息提取出来,合并相同的人员信息,做到对人员数据的统一管理。所以如何能 识别各库中的相同人员信息,并将其合并至关重要。 由于源数据库的数据质量问题,很多人员的数据录入有误,比如姓名写错,身份证 号错误,还有些如单位名称不一致等问题,很难通过直接方法将两个相同人员辩识出来 进行合并。 通过前面的相关步骤,已经将不同数据库中的人员导入到同一个数据库表当中,为 数据库记录进行合并打下了良好的基础,下面要做的工作是将数据库表中两条代表相同 人员的记录找出来进行合并,这种查找与合并既麻烦又困难,为此我们采用了大量技术 用以解决其中大量难题,并尽可能减少劳动量。这一章,就数据整合关键技术作进一步 研究。 4 1 重复记录合并的相关技术 本系统采用重复记录处理的算法有字符串匹配算法和整表记录匹配算法。字符串匹 配算法中常用的有基本的匹配算法、递归算法、s - w 算法、r s - w 算法、基于编辑距离 的算法;整表记录匹配算法中常用的有嵌套循环法、s 嘲算法、m p n 算法。在本系统中, 身份证、姓名、单位等都不存在分隔符,所以在字段字符串匹配过程中,采用的是基于 编辑距离的匹配方法。在整个表匹配算法中,由于数据量比较大,采用的是m p n 算法, 针对具体情况,在实际中对该算法进行了适当的改进。 4 1 1 重复记录的定义 在关系数据库系统中,如果两条记录在所有的属性上的值都完全相同,才认为它们 是重复的;而所谓近似重复对象是指表现形式不同但语义上相同的对象。从狭义角度来 看,如果两条记录在某些属性上的值相等或足够相似,则认为这两条记录互为近似重复 记录。同时把同一实体对象对应的多条记录也称之为近似重复记录。 第1 8 页 笪星三翌奎兰婴主兰垒丝茎 4 1 2 字符串匹配算法 重复记录处理是建立在字符串匹配的基础之上的。下面介绍常用的字符串匹配算 法 1 ) 基本的匹配算法 关于基本的匹配算法,先给出几个基本定义: 原予字符串:一个原子字符串是指由标点符号界定的包括字母数字的字符序列。 匹配:如果两字符串的原子字符串是相同的,或者一个是另外一个的前缀,那么 说两者的原子字符串是匹配的。 两字段的匹配度= 两者匹配的原子字符串的数目两者原予字符串的平均数目 基本的字段匹配算法是很直观的。首先,每个字段的原子字符串被抽取出来并进 行排序。然后,一个字段的每一个原子字符串被在另一个字段的字符串列表中搜索,互 相匹配的原子字符串的个数被记录下来。最后根据定义计算两个字段的匹配度。算法 的复杂度主要是花费在对原子字符串的排序上,时间复杂度为o ( n l o g n ) ,其中n 是两个 字段中原子字符串的数目的最大值。下面看一个例子: 字段a :c o m p u t s c i & e n g d e p t ,u n i v e r s i t yo fc a l i f o r n i a ,s a nd i e g o : 字段b = d e p a r t m e n to fc o m p u t e rs c i e n c e ,u n i v c a l i f ,s a nd i e g o 在删除两者的停止单词,即集合 a n d ,i n ,f o r ,t h e ,o f ,o n ,一, 中的单 词后, 第一个字段中有6 个原子字符串与第二个字段中的某些字符串相匹配,这6 个原子 字符串就是 c o m p u t s c i s a nd i e g oo n l y c a l i f 而e n g 。和d e p t 没有匹配存在。 墨:鱼 ;0 8 字段匹配度= ( i 彳i + i b i ) 2 ( 8 + 7 ) 2 基本的字段匹配算法的缺点是不能处理不是前缀的缩写情况,也不能应用有关子字 段排序的信息。 2 ) 递归算法 该算法主要利用字符串的嵌套结构。在一个字符串中,可以含有多种定界符,如逗 号、空格符等,这些定界符具有不同的优先级。 ( 1 ) 我们首先采用优先级最高的定界符来划分串,形成最上层的予串。 第1 9 页 信息下稗大学硕士学付论文 ( 2 ) 对于划分出的子串,采用优先级次之的定界符来划分。 ( 3 ) 重复上述过程,直到新的子串不再可分割为止。两个串的匹配值由其子串匹配 值的平均值决定,具体公式如下: 删( 郇) = 南芸曲m a t c h ( b ) 其中a i ,b j 是a ,b 的下一层子串,ial ,lb1 分别为a 和b 的下一层子串的个 数。 顾名思义,递归匹配法就是采用递归的方法,从上到下,计算每一对子串的匹配值。 当子串不能继续划分为更小子串( 没有可识别的定界符) 时,若两个子串相同,或一个是 另一个的缩写,其匹配度是1 ,否则其匹配度是o 。 递归的字段匹配算法简单直观,不需要特殊的数据结构,能处理子串顺序颠倒及缩 写等的匹配的情况。 递归算法缺点是时问复杂度较高,是子串个数的平方次;与具体的应用领域关系密 切,匹配规则也较复杂,效率较低,而且不能处理包含错误的字符串。对该算法的一个 重要的优化就是应用记忆功能来记住己经进行的递归调用的结果。 3 ) s - w 算法 s - w 算法的思想是运用动态规划的方法,引入间隙的概念,确定两个字符串的匹配 程度。该算法有三个参数,分别是n l ,s ,c 。设为给定的字符表,m 是大小为i i x i i 的矩阵,矩阵元素m ( i ,j ) 表示中的第i 个符号和第j 个符号的匹配分值;s 是 在一个匹配中间隙开始的代价;c 是间隙继续的代价。匹配分值的取值有三种: 若两个符号完全相同( 称为精确匹配) ,取值为e x a c t m a t c h ;若近似匹配,取值为 a p p r o x i m a t e m a t c h :如果小匹配,则取值为n o n m a t c h 。 s ,w 算法的工作机理是根据i n , s ,c ,计算两个字符串x ,y 匹配的分值矩阵e 。e 的大小为( 1 x i + 1 ) ( | y i + 1 ) 。e ( i ,j ) 是x 1 i ) 与y 1 i ) 最可能的匹配分值,即 x 的前i 个字符与y 的前j 个字符最可能匹配分值。当匹配分值大于或等于阈值时,我 们认为字符串( 字符串前缀) 匹配。 第2 0 页 信息t 稃大学硕士学位论文 e ( i ,j ) 的计算可形式化定义如下: le o - 1 ,j - d + 晰( j ,力 ie o l ,d + c ,若研1 。一i i ,一i i 的匹配以一个间隙结束 e ( j ,力= m a x e ( j l ,d + j ,若m j 一1 1 ,怔。d 一1 】以匹配成功而结束 ie ( f ,j - 1 ) + c ,若可1 j - 1 ,儿l _ ,一i i 的匹配以一个间隙结束 i e ( i ,j - 1 ) + s ,若m 。j - 1 1 ,巾_ ,一1 】以匹配成功而结束 s _ w 算法的时间复杂度与递归匹配算法相似。通过在适当的位置使用间隙,可以识别字 符串缩写的情形,该算法对于字符串的拼写错误也具有一定的识别能力,但不能处理子 串顺序颠倒的情形。该算法的时间复杂度与递归算法的时间复杂度相似。 4 ) l l - s w 算法 r s - w 是递归匹配方法和s - 霄方法的综合,其目的是发挥两种方法的优点,使其既 能识别拼写错误,又能够识别子串的颠倒和缩写。r s w 算法首先采用递归匹配方法, 根据定界符将字符串划分成子串。算法中引入了一个额外的参数l 。限定字符串划分为 子串的最大层数。在计算字符串的匹配值时,对于第l 层( 或者叶节点层) 的子串,采用 s w 算法计算它们的匹配程度,对于内层子串,采用递归匹配算法来计算。 在极端情况下,如果我们设定l - 0 即一个字符串不划分成子串,则r s w 算法等 同于s - w 算法。由于增加了层数控制参数l ,使得r s - w 算法具有递归匹配算法或s - w 算法均无可比拟的灵活性。 5 ) 基于编辑距离的算法 字符串匹配是结构化模式匹配中基本技术之一。字符串之间的编辑距离能用于度量 以字符串形式表示的对象之间的相似性。字符串编辑距离是建立在一系列编辑操作的基 础之上的,编辑操作一般指的是字符串中的单个字符的插入、删除和替换。通常每个编 辑操作会被分配一个代价来表示其发生的可能性。 给定一个编辑操作的集合和它们的代价,两个字符串x 和y 之间的编辑距离e d ( x y ) 被定义为:把字符串x 转换成字符串y 所需要采取的编辑操作序列的最小代价。下面给 出编辑操作,编辑操作的代价和编辑距离的形式化的定义: 令a 是字符的有限集合( 有限字母表) ,彳是a 上所有串的集合,s 表示空字符, j 占i = o ,i x i 表示字符串x 的长度。 第2 1 页 信息t 程大学硕士学位论文 编辑操作指的是下列操作之一: ( 1 ) 替换:a - b :如果a = b ,则a - b 称为一致替换,否则称为非一致替换。 ( 2 ) 删除:a - 占: ( 3 ) 插入:占一 a :其中a ,b a : 一个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 网络视频内容智能审核技术创新创业项目商业计划书
- 电竞主题酒店与度假村创新创业项目商业计划书
- 透明可视包装解决方案创新创业项目商业计划书
- 环保生活行为追踪应用创新创业项目商业计划书
- 精准医疗睡眠改善方案创新创业项目商业计划书
- 2025年中级专利导航项目分析师专业考试指南
- 生鲜食品配送工作流程管理
- 软件开发存在的不足及改进措施
- 2025年乡镇小学教师招聘面试技巧与模拟题集
- 2025年初级程序员代码能力测试模拟题
- DB31/ 653-2012通信基站空调能效限定值
- GB/T 45569-2025压水堆核电厂反应堆冷却剂系统设备和管道保温层设计准则
- 金矿居间合同协议书
- 酒店安全考试试题及答案
- 珠宝店员工保密协议合同
- 关节镜的使用和管理
- 2025届吉林省通化市梅河口市高考一模地理试题(原卷版+解析版)
- 租地安全管理协议书
- 2025年度车辆外借责任免除及保险条款协议
- GB/T 45214-2025人全基因组高通量测序数据质量评价方法
- 养老机构老人入住协议书范本
评论
0/150
提交评论