【毕业学位论文】面向专利数据的多数据源集成与表达方法研究_第1页
【毕业学位论文】面向专利数据的多数据源集成与表达方法研究_第2页
【毕业学位论文】面向专利数据的多数据源集成与表达方法研究_第3页
【毕业学位论文】面向专利数据的多数据源集成与表达方法研究_第4页
【毕业学位论文】面向专利数据的多数据源集成与表达方法研究_第5页
已阅读5页,还剩65页未读 继续免费阅读

【毕业学位论文】面向专利数据的多数据源集成与表达方法研究.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京理工大学硕 士学位论文 I 摘要 信息资源对 社会发展的作用日益突出,随着 网络技术的迅速发展,越来越多的用户希望能够同时访问和处理来自多个数据源的数据。在这种形势下,多数据源数据集成系统应运而生,它的主要目的是让不同的数据源协同工作,为全局用户提供友好的查询界面,使他们能够方便地访问所需要的信息。如何将多个分布式异构数据源中的数据集成在一起为用户所用,是目前急需解决并具有 重要 实际意义的问题。 本 论文 的主要研究目标是以专利数据和与之相关的其它网页数据为检索对象,建立一个高效率、高准确性的多数据源集成检索系统,使用户可以方便快捷地检索与指定人物相关的专利信息和其它网页信息。 本系统的 实现方法采用数据库联邦方式,系统开发平台及数据库选用 + 在系统设计中,以多数据库技术为主线思路,主要解决了系统的模式集成与查询处理方面的问题。系统分为两个主要模块来实现:数据获取模块和数据集成与表达模块。数据获取模块主要研究的问题包括数据的来源、数据的检索策略、网页数据的抽取方法 ; 数据集成与表达模块主要研究的问题包括数据标准化、网页主要内容的提取方法、网页内容的识别与分类、系统界面设计。 最后,为了验证系统的实用性与可靠性,作者通过实验采集了部分 数据,对系统的整体性能进行了 测试与 分析 。 重点分析了关键词生成算法 对系统网页查准率的提高, 网页主要内容提取算法 的平均正确率及其需要改进的问题, 网页内容识别与分类算法的 召回率、准确率及其分类效果。 综上所述,本 论文 从调研、设计、实施、测试等方面开展了一系列工作,最终实现了一个高效率、高准确性的多数据源集成检索系统,为用户提供统一的检索界面和灵活的访问方式,缓解用户分别查询不同数据库的压力,用户可以同时检索多个自治的、分布的和异构的数据源。 关键词: 多数据源 ; 数据源集成 ; 数据表达 ; 专利数据 北京理工大学硕 士学位论文 of to of is eb a eb of is to of a of to In to as of to of is to to s by to is of of to of of of To a of a of to a to 京理工大学硕 士学位论文 录 第 1 章 绪论 .研究背景与意义 . 1 国内外研究概况和发展趋势 . 2 主要研究内容 . 5 多数据源数据的分别获取 . 6 多数据源数据的清洗与集成 . 7 多数据源数据的表达 . 7 第 2 章 面向专利数据的多数据源集成方法分析 .多数据源集成方法研究 . 9 多数据库技术研究与应用 . 多数据库技术 . 多数据库技术解决的主要问题 .系统开发方法与开发工具 .系统的总体设计 . 系统需求分析 . 系统的结构与模块划分 . 系统类设计 . 3 章 数据检索与获取的方法分析与应用 . 20 数据的检索策略研究 . 数据源异构问题的解决方法 . 检索方法的改进 根据姓名常见度生成不同检索策略的算法 数据的抽取方法研究 . 档的特点 . 数据抽取的方法 .数据获取模块的设计与实现 .京理工大学硕 士学位论文 数据的来源分析 . 数据获取模块的实现流程 . 4 章 数据内容提取与分类的方法分析与应用 . 32 数据的标准化与数据增强 .网页主要内容的提取方法研究 . 提取方法的选择 . 档结构树的构造 . 最小子树的确定及主要内容的提取 .网页内容的识别与分类方法研究 . 网页内容的分类 . 分类算法的实现 .针对检索结果的总结概括 .系统界面设计 .数据集成与表达模块的设计与实现 . 5 章 系统测试与分析 . 48 检索对象 .检索结果分析 .关键词生成算法分析 .网页主要内容提取算法分析 .网页内容识别与分类算法分析 .论 . 59 参考文献 . 62 攻读学位期间发表论文与研究成果清单 . 65 致谢 . 66 北京理工大学硕 士学位论文 1 第 1 章 绪论 研究背景与意义 随着全球信息化进程的加快,人们越来越深刻地认识到,信息是与材料和能源同等重要的战略资源,是重要的财富和资产。信息资源对经济社会发展的作用日益突出,已成为开放环境下政治、经济、文化和军事等国际竞争的焦点。数据是信息的载体,它通常是指人类通过不同的传感方式所获得的原始资料,如表格、曲线、图形、文字、图像、文本、视频等。 数据的组织方式主要有以下两种:结构化数据和非结构化数据。结构化数据指存储在数据库里,可以用二维表结构来逻辑表达实现的数据,主要包括全文数据库、 摘要数据库等各种传统数据库,其特点是数据结构性强,准确率高,查询方便,使用和维护通过数据库软件进行管理,并有一定的操作规范。而不方便用数据库二维逻辑表来表现的数据即称为非结构化数据 ,包括所有格式的办公文档、文本、图片、 类报表、图像和音频、视频信息等等,这些信息的形式相对不固定。与结构化数据相比,非结构化数据呈现出超高维、非线性、难以用有限规则表达、解译上依赖信息利用主体等复杂特征。 随着网络技术,特别是 术的迅速发展和企业应用需求的不断深入,越来越多的用户希望能够同时访问 和处理来自多个数据源的数据。互联网的迅速发展,为全球信息传递和共享提供了便捷的手段,成为日益重要和最具潜力的数据资源。包含了大量的异构信息和服务,已成为金融、商业、教育、医疗卫生等各个领域中事实上的支撑环境。遍布于 络中的 务器将各种异构数据集成在一起,形成一个全球性的信息共享环境,界面友好的 览器成为用户从 的资源不仅包括传统的数据库,如关系数据库和面向对象的数据库,而且还包括无结构和半结构的数据,如 档和文本数据。 数据的表现形式是不规则和多样的,要用传统数据库技术来存储和管理 所有的数据也是不切实际的,但这样的应用需求却日益紧迫。在这种形势下,多数据源数据集成系统应运而生,它的主要目的是让不同的数据源协同工作,为全局用户提供北京理工大学硕 士学位论文 2 友好的查询界面,使他们能够方便地访问所需要的信息。多数据源数据集成与通常的信息搜索引擎不同,后者仅能让用户按关键字或其它特征从多个网页中找到相关的信息,而多数据源数据集成系统通过对数据源集成处理,将各个数据源的查询结果加以整合,然后返回给用户。 近年来,随着信息源的不断增长, 人们对存取、关联、组合多数据源数据的需求越来越强烈,各种分布的多数据库系统、数据仓库系统、 息收集系统等集成系统不断涌现。在这些系统中,数据和信息的集成是其中的核心问题。信息资源的异构性在信息系统中无处不在,越来越多的应用需要访问各种异构数据源。为了达到异构数据源的共享,必须首先解决数据集成问题。数据集成为多数据源提供一个完整的数据源模式和一致的访问接口,使用户不必考虑数据模型的多样性、异构性、数据抽取、数据合成等问题,用户只需指定他们想要的数据,而不必描述怎样得到数据。在数据集成的过程中,数据清洗和 数据质量也是一个非常关键的问题,它直接影响到数据表达的准确性。将数据准确无误地表达出来是数据集成的最终目标,数据清洗正是为了提高数据质量,使之符合用户使用要求,从而提高基于这些数据的信息服务的质量和效率。因此,使用高效、准确的表达方法将集成后的数据表达出来是至关重要的。 近年来,以数据为载体的信息作为一种重要的资源正在被越来越多的国家和企业团体所重视,但现在的情况是“条块分割,数据壁垒,重复采集和管理滞后”。 21 世纪初,我国科学界就十分注重数据集成的研究,由科技部部长徐冠华院士亲自担任会议执行主席的第 196 次香山会议,其目的就是要打破数据壁垒,突破制约数据共享的瓶颈,实现大范围的数据集成和共享。多数据源数据集成一直是数据库界和人工智能界研究的热点。如何将多个分布式异构数据源中的数据集成在一起为用户所用,是目前急需解决并具有 重要 实际意义的问题。研究多数据源数据集成也是现代企业构建管理信息系统的关键技术,对企业的发展将产生深远的影响。 国内外研究概况和发展趋势 目前 ,多数据源集成检索系统的实现方式主要有两类:数据仓库方式 (数据库联邦方式 ( 基于数据仓库方式的多数据源集成检索系统是对异构数据源的物理集成,主要是对数据进行抽取、转换并将其装载到实际的数据仓库中,用户基于数据仓库中的数据进行查询。为了确保数据仓库中的信息与各个数据源中的信息保持一致,必须定期更北京理工大学硕 士学位论文 3 新数据仓库。数据仓库既是一种结构和富有哲理性的方法,也是一种技术,数据和信息从不同的数据源提取出来,然后把这些数据转换成公共的数据模型并且和仓库中已有的数据集成在一起。当用户向仓库进行检索时 ,需要的信息已经准备好了,数据冲突、表达不一致等问题已经得到了解决,这使得检索更容易、更有 效。数据仓库实质上仍是一个计算机存储数据的系统,这些数据并不是最新的和专有的,而是来源于其它数据库。 数据仓库方式的多数据源集成检索系统的主要优势是物理集成,它提前对数据库的处理使得用户很方便检索,提高了检索速度,节约了用户的检索时间。数据仓库方式还能反映历史变化,这对于用户进行专业检索的意义非常 重要 。但数据仓库方式集成具有一定的目的性,因此它更适用于具有一定目的的特定用户来使用而不能广泛应用。而且数据仓库方式基于一个通用的本体或概念集合,没有考虑用户的需要和特点,这将降低系统的查准率。由于是物理集成也极不 方便对数据库的维护。 基于数据库联邦方式的多数据源集成检索系统,是对异构数据源的虚拟集成。在用户需求驱动下系统直接从相关的数据源中进行检索,利用封装器抽取数据,对数据进行集成,使用户获得所需要的信息。 数据库联邦方式的多数据源集成检索系统的主要特点是虚拟集成,它给用户营造了一个如同在一个数据库中进行检索的虚像,使用户灵活方便地从自治的、分布的、异构的数据源中进行检索,可以面向应用,而且虚拟集成可以保留各个数据库的特点,也利于数据库的维护。系统在设计时,本体贯穿于整个检索过程,极大地提高了系统的查准率。 一个 好的信息集成系统至少应满足以下三点要求:提高企业的生产率,适应将来发展的需要,充分利用已有的投资。实现信息系统的集成应该基于并符合某种国际标准,以增强系统的可移植性、可互操作性、可互换性和稳定性。为了支持异构分布式计算环境下的互操作性,以利于解决与日俱增的信息集成问题,国际组织 制定了 范 (,该标准主要特点是实现软件总线结构。所谓软件总线结构,就是起到类似于计算机系统硬件总线的作用,只要将应用模块按总线规范制成软插件,插入总线即可实现集成运行。 国外开展多数据源集成检索系统的研究比较早,已经形成了一些成熟的系统。目前,出现了利用中间件 /封装器 (多个数据源进行信息集成的系统,北京理工大学硕 士学位论文 4 以及基于本体实现多数据源的集成检索系统,例如 S、 S、。 (1) 统。 爱荷华州大学 计算机科学系人工智能研究实验室的项目。 要目标是构造模块化、可扩展、开放的数据集成检索系统环境,实现基于本体的从异构、分布和自治的信息源中进行信息集成和基于数据驱动的知识获取。 用了以检索式为主的方法进行数据的集成和检索, 用户使用的本体和用于数据集成的本体清晰的分开,因而 如科学研究人员希望用不同的本体进行不同角度和层面的数据分析。 (2) S 系统。 S( 英国曼彻斯特大学的研究项目。 S 是以本体为中心的异构数据源检索系统,提供关于生物信息学方面的多数据源的统一访问,使用以检索式为主的方法进行数据的集成和检索。 S 采用了三层中间件 /封装器的架构,包括本体层和图形化的用户检索接口层。 (3) S 系统。 S ( 斯坦福大学 和 同研发的异构信息源集成系统。 S 采用基于中间件 /封装器的架构,运用以检索式为主的方法进行数据的集成和检索,每个封装器负责处理特定的数据源,可以接收以通用语言 示的检索式,然后把它转换成特定数据源可以理解的检索语言。 (4) 统。 由 验室研制的异构数据源集成检索系统,提供统一的检索接口来支持 和内部数据源中的结构化信息的查询, 用 以数据源为主的方式进行集成和查询。 用知识表示法来集成各种信息源, 用基于知识库体系结构,知识库包含能够描述数据源属性的域模型,域模型包含信息主题的描述和与数据源物理特性有关的属性。 (5) 学研制的本体集成系统,提供多个本体的统一查询平台,通过本体之间的关系 (如 同义、上下位类、相关等 )进行本体之间的结合使用。 用以检索式为主的方法进行集成和检索,采用封装器的架构来与数据源进行交互。与提供唯一的全局本体的其他系统不同, 入了不同本体之间术语的转换机制。本体是通过聚类的方北京理工大学硕 士学位论文 5 式进行组织的,使用描述逻辑 定义本体,概念由两个谓词来进行定义。用户在提交查询式时,需要在所提供的本体中选择一个本体,并使用描述逻辑来介绍查询,系统把查询式转换成一系列在数据源中存在的基本术语。 在数据集成的过程中,数据清洗和数据质量 一直是一个非常关键的问题,它直接影响到数据表达的准确性。在多数据源的集成过程中,每个数据源往往由特定的应用程序创建、配置和维护,以满足特定的服务需求。因此和这些数据源相关的数据管理系统、采用的数据模型、数据模式的设计和实际数据等各个方面都存在很大程度的异构性。此外,每个数据源中都可能包含脏数据,不同数据源对同一数据可能存在不同的表示形式、数据重复或者数据冲突。因此相同的数据质量问题在多数据源集成之后会比在单数据源的情形下表现的更为复杂和严重。除此之外,在多数据源情形下,数据清洗将面临许多新的问题,比如结构冲 突、命名冲突、重复记录等。针对数据质量的现状,很多学者提出了数据清洗的框架。但是数据清洗是一个领域相关性非常强的工作,而且数据质量问题非常零散、复杂、不一致,到目前为止没有形成通用的国际标准,只能根据不同的领域制定不同的清洗算法。 数据清洗主要分为检测和清洗两个步骤。国内外的相关研究主要有以下几个方面: (1)提出高效的数据异常检测算法,来避免扫描整个庞大的数据集; (2)在自动检测数据异常和进行清洗处理的步骤间增加人工判断处理,来防止对正确数据的错误处理; (3)数据清洗时对数据集文件的处理; (4)如何消除合并 后数据集中的重复数据; (5)建立一个通用的领域无关的数据清洗框架; (6)关于模式集成的问题。 多数据源集成检索系统是最近几年出现的一种新的服务方式,在一定程度上解决了网络环境下分布式异构数据库的检索问题,缓解了用户分别查询不同数据库的压力。目前,国内一些科研单位和公司也开始研制多数据源集成检索系统,有的也是基于中间件、封装器技术来实现的,但与国外相比还有一定的差距,如对多数据源集成检索系统中的语法和语义异构问题考虑的不够多,并且还缺乏基于本体的多数据源集成检索系统以及支持知识获取和决策支持等相关研究。无论是 在功能上,还是在技术上,国外多数据源集成检索系统的研究和实践都有了快速的发展,我们可以通过对国外相关系统的研究,从中得到借鉴,这对具有本地化特色的多数据源集成检索系统的开发有一定的启发作用。 主要研究内容 北京理工大学硕 士学位论文 6 通过对现有的多数据源数据集成检索系统的调查可以发现,目前的系统大多有以下特点:( 1)检索 规则比较复杂 。 需要用户手动设置 数据 采集规则,用户需经过培训或讲解才能够使用。 ( 2) 一般不对 检索 结果进行处理,或者需要用户设置信息的加工公式对信息进行简单加工。 这些特点虽然加强了系统的通用性, 但是由于操作复杂,给用户的使用带来不便。返回的大量 信息 需要用户再次进行鉴别和归纳,这就加重了用户的负担,没有从根本上解决信息获取的效率问题。 本 论文 的主要研究目标是以专利数据和与之相关的其它网页数据为检索对象,建立一个 高自动化、 高效率、高准确性的多数据源集成检索系统,使用户可以 不需设置复杂的检索规则, 方便快捷地检索与指定人物相关的专利信息和其它网页信息 ,并对检索结果进行加工和分类 。通过统一的检索界面,为用户提供无缝的和灵活的访问方式,缓解用户分别查询不同数据库的压力,用户可以同时检索多个自治的、分布的和异构的数据源。多数据源 集成检索系统不需要用户提供如何或者从哪里可以获得信息的详细情况,可以屏蔽多数据源中数据命名的不一致,非结构化和结构化数据的不一致,以及各数据源查询能力不同等因素。 多数据源数据的分别获取 本 论文 以专利数据和与之相关的其它网页数据为主进行研究,需要分别获取的数据包括结构化数据和非结构化数据两类。 结构化数据指各种专利数据库中的数据,包括中国专利数据库、美国专利数据库等。这些数据覆盖面广,权威性高,结构性强,是本 论文 研究中不可缺少的部分。非结构化数据主要指 站上的数据,包括与所查询内容有关的 各种信息,如百度专利信息、与检索目标有关的网页信息等。这些数据具有丰富多样、时效性强、更新速度快等特点。以上两种数据分别来自不同的数据源,互为补充,保证了数据的全面性和准确性。 在多数据源集成检索系统中,用户提交的查询请求需要转换成一系列的操作请求,并发送给不同的数据源。针对不同的数据源采取不同的关键词查询策略,可以提高查询结果的准确性与全面性。另外在查询过程中 ,还需要处理语法和语义的不匹配,主要是用户提交的检索词与不同的数据源自身的词语之间的不匹配问题。在数据集成领域中,由于数据源系统多是独立开发,数据源 是相当自治的,因此描述数据的数据模型或存储结构经常会出现不同的情况,使得不同数据源模式的匹配变得困难。数据源的自治性和数据源模式匹配的复杂性加大了模式匹配的难度。这些正是模式匹配的北京理工大学硕 士学位论文 7 焦点问题,它们形式上的性质使得人们想到要用模式匹配去解决逻辑、语义和知识的描述问题。 多数据源数据的清洗与集成 数据清洗与集成是一个非常复杂的任务,并且包含着一些互相关联的问题。一方面,数据的转换必须尽可能的通用性,而且不依赖大量的编程工作,也就是支持在多领域内的多种错误检测算法;另一方面,系统需要支持一种简单的接口 定义来进行错误检测和数据转换。因此,数据清洗与集成的方法应该具有相对的通用性和可交互性。通用性主要指数据的标准化、术语话、通用的接口标准和通用的数据结构,以支持用户进行扩展。可交互性支持用户实时的修改转换过程,避免用户与系统的隔离。 为了对检索到的信息进行集成,将关于同一主体的多条信息综合为一条完整的信息,就必须对采集到的数据内容进行分析。系统需要在众多记录中寻找相似重复记录,即进行匹配,根据匹配的结果进行处理,删除部分记录或者多个记录合并为一个更完整信息的记录,同时将这些步骤中的处理过程和结果写入数据库, 以便进行后续清洗过程,避免重复检验,也便于用户理解数据库,以及更好的进行切片、切块等操作。不同信息源采用不同的方式来描述数据,也会引起语法和语义的异构,这种异构现象称为数据模式不匹配。在获取到各数据源的数据之后,需要对这些模式不匹配的数据进行对比与清洗,去除错误和重复的数据,将符合用户检索条件的数据内容合并整理,以完成对异构数据的集成。 数据清洗与集成的研究内容主要包括以下方面:( 1)对异构的数据进行分析,使之具有良好的通用的结构,将非标准数据统一化成结构数据,根据数据字典消除不一致的数据,将元素标准化。( 2)去处重复的和错误的数据记录。( 3)数据增强。利用一定的算法对采集到的数据内容进行提取与分析,对原始数据进行补充说明,方便用户理解与使用。( 4)数据的分类存储,方便用户查询。 多数据源数据的表达 将集成完毕的数据展现给用户是本 论文 的最终目的,最终的数据应该尽可能包含全部的正确信息,条理清晰,结构明确。界面设计是人与计算机之间传递和交换信息的媒介,良好的界面设计必须遵循以下几个基本原则:( 1)用户导向原则,要站在用户的观点和立场上来考虑设计,有良好的交互性。( 2)简洁和易于操作原则。( 3)布局 控制,界面中的信息量要适中,结构匀称。( 4)视觉平衡,要合理搭配文字、图表北京理工大学硕 士学位论文 8 以及空白区域。( 5)和谐与一致性,一致的结构设计、导航设计和操作设计,可以让浏览者对软件的形象有深刻的记忆,迅速而又有效的进入在软件中自己所需要的部分,快速了解整个软件的各种功能操作。 北京理工大学硕 士学位论文 9 第 2 章 面向专利数据的多数据源集成 方法分析 多数据源集成 方法 研究 多数据源集成检索系统的实现方式主要有数据仓库方式和数据库联邦方式两种,本系统采用数据库联邦方式。基于数据库联邦方式的多数据源集成检索系统,是对异构数据源的虚拟集成。在用户需 求驱动下系统直接从相关的数据源中进行检索,利用封装器 (取数据,对数据进行集成,使用户获得所需要的信息。 基于数据库联邦方式的多数据源集成检索系统的基本实现过程为:用户通过检索系统提交检索请求,系统接受请求并根据数据源的类型对检索式进行转换,再提交给相应的封装器,封装器通过通用数据接口连接和访问数据源,并将检索结果进行抽取和整合,以统一的视图呈现给用户。基于数据库联邦方式的多数据源集成检索系统的体系结构如图 示。 图 基于数据库联邦方式的多数据源集成检索系统的体系结构图 一般 来说,优秀的多数据源集成检索系统应该具有如下机制:( 1)可以与每个数据源进行通信和交互;( 2)根据用户指定的词语(本体)来表达检索式,可以跨多个异构和自治的数据源;( 3)在用户本体和数据源的本体之间进行映射;( 4)转换检索北京理工大学硕 士学位论文 10 式,通过与相关的数据源进行交互后抽取必要的信息;( 5)根据用户的检索词对检索结果进行集成整合和统一的表述。 基于数据仓库方式的多数据源集成是物理集成。它是利用封装器 (分布式异构的信息源中收集数据,映射成统一的结构,提交给集成器进行过滤、总结、整合,然后以统一的模式存储于一 个实际存在的物理空间中。数据仓库方式实质是将来源于不同数据库的数据进行存储的计算机存储数据的系统。用户在检索信息的时候实质并没有在各个数据源中进行检索而是在一个集成各个数据源结果的数据库中进行检索。然而在数据集成到数据仓库中时应该有一定的目的性,应该是面向主题的,所以这种检索系统不容易面向应用。而且这种方式根据监视器监测各个数据源的更新,以及新增的数据源,然后再存储于数据仓库中,这需要极大的存储空间,更不利于对数据库的维护。基于数据库联邦方式的多数据源集成是逻辑集成,系统直接从相关的数据源中进行检索并获得所 需的信息。它利用封装器通过通用数据接口无缝地连接和访问各个数据源,然后将检索结果进行抽取和整合,以统一的视图呈现给用户,使用户感觉自己似乎是在同一个数据库中进行检索。 数据仓库方式虽然在检索系统中同样应用了本体的概念,但主要基于一个通用的本体或概念集合,本体在数据仓库设计时进行并设定,当系统用户进行检索时,只能基于这个通用的本体,而并不能考虑用户的需要和特点来检索系统资源,这将很大程度地降低用户的查准率。尤其面向科学应用的数据集成检索系统中,用户需要通过变换本体灵活地集成来自多个自治的数据源中的数据,而基于 数据仓库方式的检索系统不能满足系统用户的这种需求。基于数据库联邦方式的检索系统将本体应用贯穿于整个检索过程中,用户可以通过变换本体,从不同的角度对数据进行检索,可以将多个自治的、异构的数据源中的数据进行灵活的集成,这种方式能够很容易地适应不同的应用。尤其以检索式为主的处理用户查询请求与数据源不匹配问题的方式,它可以由用户决定语义,如果用户或者数据集成检索系统的管理员可以准确地规定用户提交的检索词和不同的数据源自身的词语之间的转换关系,基于数据库联邦方式的多数据源检索系统将可以极大地提高系统检索的查准率。 综 上所述, 本系统使用数据库联邦方式进行构建主要有以下优点: ( 1)在数据库联邦的方式中,系统直接从相关的数据源中进行检索并获得所需的信息,因此,所获得的信息是实时更新的。 ( 2)数据库联邦方法可以很容易地适应不同的应用,用户可以使用他们自己的北京理工大学硕 士学位论文 11 本体从分布式自治的信息源中获取数据。这种方式不需要极大的存储空间,而且保留了原有检索系统的性能,比较适合面向应用。对于数据库的维护也将分散在各个数据源中,相对比较容易。 ( 3)数据类型、格式的差异以及在一定领域内专用的词汇意义的共享和交流对于实现数据库联邦方式的多数据源检 索系统将是关键,这部分的处理也将是决定多数据源检索系统的灵活性的关键。在用户提交的查询请求需要转换成一系列的操作请求,然后发送给不同的数据源的这个过程中,数据库联邦方式处理语法和语义的不匹配问题应用了以检索式为主的方法和以数据源为主的方法。在面向科学应用的数据集成检索系统中,用户能够从多个自治的数据源中灵活地集成数据。 多数据库技术研究与应用 多数据库技术 由于大量数据已经存储在许多不同的数据库中,获取和集成这些数据的一种方法是构造一个能包容这些数据库的数据库系统。多数据库系统 (多个已存的、分布的、自治的和异构的数据库系统的联合。一个多数据库系统并不是用另外一个数据库来代替已存的这些数据库,而是对存储在各成员数据库中的数据提供统一的视图和访问操作。参与构成多数据库系统的各数据库系统称为局部(成员 )数据库系统 (多数据库系统有已存性、分布性、异构性和自治性等特征。 ( 1)已存性。组成 集成以前就已经存在,它们的设计与实现并没有考虑将来的互操作,有时这些局部系统还是封闭的,其上的应用也是根据当时的需要独立开发 出来的,这些问题都为 实现带来一定的困难。另外,已存性也意味着建立在各 上的数据模式与所存储的数据之间可能会有所冲突,定义在各 上的完整性约束也可能互相矛盾。因此,各 间并不具有逻辑协调性。模式集成作为 主要任务之一,就是要在全局层屏蔽掉这些差异,使多数据库用户看到“一致”的、“合理”的数据,用一致的界面来访问这些数据,从而实现数据的共享和互操作。 ( 2)分布性。 要的数据来自于多个 布性是指这些 的数据被分散存储在计算机网络环境中的不同场地 上。 术与分布式数据库在分布性这一点上是一致的,因而可以采用分布式数据库中的一些技术。但是,在分布式数据库系统中,数据物理上分布在不同的地方,逻辑上是统一的,数据按照全局的北京理工大学硕 士学位论文 12 要求进行分片组织,数据之间不存在矛盾。而 数据在集成之前就已经存在,按照已存性所述,各 间并不具有逻辑协调性,分布式数据库的数据分片技术也不适用。 样需要解决分布式数据库系统中的重复透明性,位置透明性和分布式事务管理等问题,只不过解决的手段主要是通过模式集成而不是数据划分来实现。 ( 3)异构性。 已 存性不可避免地导致其 此的异构。异构性是指各成员系统在硬件结构、网络协议、数据管理方法和数据安全等方面存在的差异性。不同数据源数据的异构主要包括数据模式和数据语义上的异构。数据模式异构是指数据在结构和组织上的异构,主要体现在数据类型定义、数据的标识和聚合方式等方面。数据语义异构一方面表现在对数据的命名、计量单位、精度的差别,另一方面表现在具有不同的完整性、安全性要求。 ( 4)自治性。局部自治性是 别于传统分布式数据库系统的主要特征。自治性是指各 保持对自己数据库的局部控制,即成员系统 的数据库管理员可以自主地决定与其它成员系统共享和协作的程度。 图 多数据库系统的通用性体系结构。 图 多数据库系统的通用性体系结构 从图中可以看出:( 1) 在客户和各个不同 间运行的一层中间层软件,以支持全局客户去访问各个不同的局部数据库;( 2) 于耦合度较强的客户 客户 客户多数据库系统网络包装器 包装器 包装器L L L 北京理工大学硕 士学位论文 13 数据库联合,它将各个局部数据库进行集成,具有全局模式,为全局客户提供统一的视图。 户只能通过全局模式访问各个局部数据库中的数据;( 3)各 有自治性。 多数据库技术 解决的主要问题 ( 1)模式集成。模式集成是集成若干个己存在的模式到统一模式的过程。在本系统中,模式集成就是要把多个参与信息检索的数据库以信息集成的方法联系起来,实现信息的共享。局部数据库系统各自具有自己的模式,模式集成的目标就是要构造面向集成的统一全局模式,为用户提供一个集成数据库的逻辑视图,即全局概念模式。局部数据库系统在命名、格式和结构等方面的差异增加了模式集成的难度,其关键问题是解决不同模式间的语义冲突和语义的不一致性。本系统的模式集成方法如图 图 系统的模式集成方法 本系统的模式集成分为三层结构 ,由两个步骤来实现。其中,局部模式是指局部数据库系统已经定义好的模式,包括中国专利数据库、美国专利数据库等结构化数据库的关系模式以及百度专利信息、与检索目标有关的网页信息等非结构化数据的模式。局部集成模式是通过模式映射机制而建立的中间模式,把从上述各个局部模式中提取到的数据转化为各种统一的数据格式,可采用某种公共数据模型 (定义。全局概念模式集成器局部集成模式 1 局部集成模式 1局部模式 1翻译器 n.学位论文 14 全局集成概念模式是模式集成体系结构的最高层,它将用户需要采集的信息以统一的视图呈现给用户,可采用用户需要的全局数据模型来定义。模式集成过程可分为两步:模式翻译和模式集成。模 式翻译是将 式翻译成用 式的中间表示,即示。通过确定出局部模式与中间模式的映射关系,构造出一个翻译器,它解决了数据库的异构问题。模式集成是将各个分离的中间模式集成为一个全局概念模式。 图 系统的模式集成流程示意图。 图 系统的模式集成流程示意图 ( 2)查询处理。本系统的查询处理要求能自动地将全局查询语言转换成与局部数据库对应的局部子查询,生成查询计划,交付给相关局部执行。在转化过程中应遵循两点要求: (1)对查询的转换必须是等价的语义变化; (2)查询执行计划必须是针对各个 局部数据库进行优化的。 本系统查询处理的一般过程如下。首先,用户根据全局模式,提交一个全局查询目标,查询本身包含了为检索局部数据所需的必要信息,如查询目标的姓名、单位等。查询被接受并检验正确后,查询处理系统将全局查询分解成若干子查询的集合。每个子查询对应一个 后,查询优化器确定出一个执行计划,说明需要访问哪个何制定出针对各个 查询语言、如何拼装中间结果、在哪个场地执行全局处理等。最后,启动执行查询计划。在全局查询执行过程中,查询常常可能需要经过多次翻译。当查询经过不同的系统层次 时,翻译器将其转换成相应层次上的语言和数据表示形式,并解决各层次上表示之间的差异。 询处理的核心内容是中国专利数据库 、 美国专利数据库等结构化数据库百度专利信息、 与检索目标有关的网页信息

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论