（计算机科学与技术专业论文）基于物化视图的数据查询与整合技术研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-17 格式：PDF 页数：87 大小：3.59MB 积分：0 举报 版权申诉

（计算机科学与技术专业论文）基于物化视图的数据查询与整合技术研究.pdf_第2页

（计算机科学与技术专业论文）基于物化视图的数据查询与整合技术研究.pdf_第3页

（计算机科学与技术专业论文）基于物化视图的数据查询与整合技术研究.pdf_第4页

（计算机科学与技术专业论文）基于物化视图的数据查询与整合技术研究.pdf_第5页

已阅读5页，还剩82页未读，继续免费阅读

（计算机科学与技术专业论文）基于物化视图的数据查询与整合技术研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

国防科学技术大学研究生院硕士学位论文第 i 页摘要进入新的千年以后，随着信息技术飞速发展，信息量极度膨胀，各种大规模数据库在世界各地不断新建，如何有效的运用这些数据库的信息，如何高效的实现各分布数据库信息集成就成为急需解决的问题。在实现分布异构数据库集成过程中研究人员一般面临着如何实现集成查询和如何减少信息网络传输开销，提高查询效率两大难题。为了解决目前分布、异构数据库集成中遇到的各种困难，文中提出以元数据信息库为基础，基于用户模式的查询整合方案。该方案将要查询的各分布数据库的元数据按照统一的标准集成到一个元数据库中，并在用户模式与元数据之间建立映射，利用用户模式的整体概念，实现信息的整合查询，并提出以物化视图的方法实现查询优化。该方案的最终目标是通过对有关内容的研究，解决数据资源整合的共性问题，建立一个通用的数据共享与整合平台，形成面向特定主题的、元数据集中、基础数据分布的虚拟中心数据库，支持在多个领域的应用。笔者所在课题组前期已经建立了元数据库，开发了元数据导入与管理工具。在此工作基础上，本文主要对以下内容进行了研究： 1、如何支持领域专家在元数据的基础上建立用户模式及其到元数据的映射，形成一组新的面向查询用户的统一的查询概念。 2、支持最终用户选择用户模式进行信息查询，即对围绕用户模式组织的查询语句的处理，包括根据映射关系转换为针对各个数据源的实际查询、实现查询结果的整合清理并最终以用户模式的形式呈现给用户。 3、分析上述查询处理过程的效率，提出以物化视图的方式实现查询优化，具体研究了物化视图的动态选择方法、查询与物化视图的匹配算法、以及物化视图的维护更新等问题。 4、在上述研究基础上，设计实现了一个围绕用户模式组织查询的信息集成查询工具原型系统（voscherv1.0），该系统采用基于物化视图的查询优化方法处理查询。从网上下载生物数据进行测试，表明了该工具的有效性，经进一步测试完善后，该工具将用于人肝脏蛋白质组生物信息的集成。主题词：用户模式，信息集成，物化视图，查询优化国防科学技术大学研究生院硕士学位论文第 ii 页 abstract the new millennium has seen a fast development of information technology and the expansion of information, and large scale databases of various types have been established one after another around the world. there also come emergent problems, such as how to make the best use of these databases, and how to integrate the distributed information of different databases. researchers always have to face two challenges: 1) the realization of integrated searching and reduction of cost for information transportation online; 2) the enhancement of the efficiency in the process of implementation of integration of different structuring databases. in order to solve the problems of integrating distributed, different structuring databases, this project proposes an integrating scheme based on metadata and userschema. in this scheme the metadata of different databases are integrated into a metadata database with a uniform standard. the mapping between userschema and metadata are established to realize the information integration and search by using userschema concept and then deal with the problem of low efficiency to propose a method of materialized view to increase the search speed. the ultimate goal of this scheme is a solution to the common problem of data information integration through the related research, finally a united platform is established for data sharing and integration, and a virtual central database facing certain theme and central metadata is formed to support multi-area application. the finished work of this project includes the construction of a metadata database and the implementation of metadata and importing tools. based on the previous work, the projects main research focuses are as following: 1. how to support expert of certain area to build userschema on the basis of metadata, and create mapping between userschema and metadata to form a new searching concept for searching users; 2. supporting ultimate users to implement information searching based on userschema, including the actually information search from the source database based on the mapping informations, and presenting the final result with the userschema form through the linking and clearing of the intermediated results; 3. analyzing the efficiency of the search method, puting forward a optimization way by using materialized view, the optimization methods including the dynamic choosing algorithm of materialized view, matching algorithm between users search expressions and materialized view and maintaining and updating algorithm of materialized view , and so on. 4. based on the research mentioned above, for this project,a search tool prototype system（ voscherv1.0） has been designed and implemented for information 国防科学技术大学研究生院硕士学位论文第 iii 页 integration.the system conducts the data search process with the optimization method of materialized view. moreover, the usefulness and efficiency of the system has been proved by tests of downloading biology data from websites. with further improving and testing this sysem will be used in information integration system of human liver protein database. key words: user schema, information integration, materialized view, search optimization 国防科学技术大学研究生院硕士学位论文第 iv 页表目录表 3.1 查询条件构成表 . 26 表 3.2 查询语句（一） . 32 表 3.3 查询语句（二） . 32 表 4.1 动态初选算法 . 44 表 4.2 带更新淘汰的动态视图选择算法 . 45 表 4.3 视图查找算法 . 47 表 4.4 视图匹配符号表 . 48 表 4.5 字段匹配步骤表 . 49 表 4.6 相等查询条件匹配步骤 . 50 表 4.7 范围查询条件匹配步骤 . 50 表 4.8 其他查询条件匹配步骤 . 51 表 4.9 视图组匹配实例表 . 58 表 4.10 human_protein 字段 . 61 国防科学技术大学研究生院硕士学位论文第 v 页图目录图 1.1 数据仓库体系结构7 . 3 图 1.2 联邦数据库体系结构7 . 4 图 1.3 中间件体系结构7 . 4 图 1.4 基于元数据的数据集成体系结构12 . 6 图 1.5 用户模式的数据集成体系结构 . 8 图 2.1 信息集成系统体系结构图 . 14 图 2.2 信息集成系统查询内部响应流程图 . 15 图 3.1 用户模式和模式字段的结构图 . 23 图 3.2 用户模式和单表映射图 . 24 图 3.3 用户模式和多表映射图（一） . 24 图 3.4 用户模式和多表映射（二） . 25 图 3.5 用户查询 . 26 图 3.6 用户模式转换成元数据流程图 . 29 图 3.7 查询语句组织流程 . 30 图 3.8 查询条件重写（一） . 31 图 3.9 查询条件重写（二） . 31 图 3.10 连接字段相等时的连接过程和连接结果图 . 35 图 3.11 连接字段不相等时的连接过程和连接结果图 . 35 图 4.1 物化视图查询优化功能模块图 . 37 图 4.2 一个用户模式对应一个物化视图 . 38 图 4.3 一个用户模式对应多个物化视图 . 39 图 4.4 视图信息表图 . 40 图 4.5 视图字段信息表图 . 41 图 4.6 视图查询条件表图 . 41 图 4.7 物化视图物化信息存储结构图 . 42 图 4.8 视图匹配三种形式 . 47 图 4.9 视图初选流程图 . 53 图 4.10 完全覆盖单视图选择流程图 . 54 图 4.11 完全覆盖视图组选择流程图 . 56 图 4.12 完全匹配视图组第一类组合类型图 . 56 图 4.13 完全匹配视图组第二类组合类型图 . 57 图 4.14 以两个视图为例视图组选取算法流程图 . 57 国防科学技术大学研究生院硕士学位论文第 vi 页图 4.15 三个数据源表 . 61 图 4.16 建立映射关系 . 62 图 4.17 未优化直接查询时间统计图 . 63 图 4.18 物化视图优化的查询时间统计图 . 64 图 5.1 用户模式建立界面图 . 66 图 5.2 模式字段建立界面图 . 66 图 5.3 模式映射建立界面图 . 67 图 5.4 用户查询界面图 . 68 图 5.5 物化视图选择界面图 . 69 图 5.6 人工选择物化视图 . 69 图 5.7 人类蛋白质数据库 . 70 图 5.8 数据库中表示例 . 70 图 5.9 映射单表查询结果 . 71 图 5.10 同类表整合查询结果 . 71 图 5.11 多表连接查询结果 . 72 图 5.12 查询时间比较图 . 73 图 5.13 不同视图数量优化时间图 . 73 国防科学技术大学研究生院工程硕士学位论文第 ii 页国防科学技术大学研究生院硕士学位论文第 1 页第一章引言 1.1 课题研究背景课题研究背景 1.1.1 高通量、分布异构数据集成需求随着时代的发展，科技在不断进步，人类对各个领域都进行了深入的探索并期待用科学的方法和手段改善人类的生存条件。进入 21 世纪后，各个领域的数据信息极度膨胀，信息数量呈爆炸型趋势增长，数以百万计的各类数据库在世界各地不断新建，如何高效利用各个数据库资源，如何有效集成各专业领域的分布、异构数据库，就成为亟待解决的问题。以生物信息领域为例，伴随着人类基因组计划(human genome project, hgp12) 的实施和完成，生物信息学也进入了一个新的发展阶段。在人类基因组计划进行过程中所积累起来的技术和经验，使得其它生物基因组的测序工作可以完成得更快捷。然而，这也导致了研究数据的信息量呈爆炸式膨胀。比如由于 dna 自动测序技术的快速发展，dna 数据库中的核酸序列公共数据量以每天 106 bp（base pair，碱基对）的速度增长，研究的持续深入和细化也使得按照研究需要建立的、承担不同研究工作存储任务的数据库不断涌现，由原始数据分析得来的新数据也源源不断的存入相关库中；数据的存储由集中变为分散，使得生物学家在研究时不得不同时访问多个相关的生物数据库来查找某一信息的不同部分。由于各个数据库存放内容的类型不同，提供的查询接口不同，使用的术语也不同，而且生物学数据之间具有密切的联系，生物学家在查询后经常得到大量的冗余信息，需要对其进一步筛选以找出需要的内容。因此，在每次查找数据时，生物学家都要针对具体的生物数据库制定相应的查询计划，并要对查询返回的结果进行合并、过滤等一系列操作，效率低下，浪费了大量的研究时间；如果一些相对复杂的查询计划在制定时出现问题，将导致查询返回错误的结果或者没有结果，只能在修改后重新执行，对研究工作的进展影响极大。目前各主要大型生物信息数据库是由不同的研究机构在不同技术与科研条件下根据其自身的研究需要建立的，研究或应用的背景各不相同，从而形成语法、语义、模式等方面的异构。除此之外，这些数据库大都具有分布、自治和动态的特点，给生物学家的访问和使用带来了极大的影响。由于数据规模不断扩大，单一的研究机构已无法完成所有的研究内容，合作的项目越来越多，对网络上各研究机构的数据库进行互操作的需求越来越强烈。如何充分利用这些分布的数据资源，从中获取有用的信息并进行有效整合成为了困扰生物学家的难题。因此，如何帮助生物学家从分布数据资源具体、繁琐国防科学技术大学研究生院硕士学位论文第 2 页的查询细节中解脱出来，将主要精力集中在对数据进行检索、整合和分析上，是一个需要深入探讨的课题。而且，通过对数据的整合分析，可以进一步挖掘出相关生物数据之间隐含的联系，对生物信息学的研究有极大的推动作用，既有重要的科学研究价值，又有实际的应用意义。在地质信息研究领域，人口统计信息领域，自然气候等研究领域，对相关分布数据库的信息集成需求同样迫切，无法有效利用相关分布、异构数据库资源严重制约了科技发展的步伐，限制了相关领域的研究和探索的进程，成为一些技术突破的瓶颈，所以研究远程数据库的信息集成技术，开发出相应的信息集成系统就成为迫切和重要的任务。 1.1.2 信息集成方法概述在知识经济时代，我们所面临的信息环境已经发生了根本性变化。利用信息技术来提高各领域的管理水平已成为必然趋势。然而，许多领域在信息化过程中，为满足不同的业务需求，建立了不同而又相互孤立的业务信息系统，导致各部门间的信息无法实现共享，给相关的管理和决策带来了困难。这就要求对各种信息进行有效整合。 “信息集成”（information integration）3 4一词有信息集成、整合、融合、有机组合等涵义。信息集成是一种使相关的多元信息有机融合并优化使用的理念。信息集成不是信息的堆积或信息载体的物理堆积。而是针对某一特定领域某一特定用户的需求，以信息为对象，信息资源为本体，服务为动力，网络技术为手段，协同作业为方法，把信息资源诸要素有机融合并使之优化的动态过程，是一个优化要素、体系重构的过程。信息集成是一种或针对某个目标或面向某项特定服务对信息进行组织和管理的理念，整合的核心是以资源作为大系统，采取技术手段进行整合，实现资源共享。一般来说，目前发展比较成熟的数据集成方法从总体上可分为三种：数据仓库、联邦数据库和中间件集成方法。 1.1.2.1 基于数据仓库的数据集成基于数据仓库的数据集成数据仓库5概念始于上世纪 80 年代中期，是使用数据复制的方法实现集成。其基本思想是，将各个数据源的数据复制到同一处，即数据仓库，使用户像访问普通数据库一样直接访问数据仓库。图 1.1 展示了典型的基于数据仓库的集成体系结构。国防科学技术大学研究生院硕士学位论文第 3 页数据仓库数据源1 抽取器抽取器抽取器合成器数据源2数据源n 用户查询结果数据仓库数据源1 抽取器抽取器抽取器合成器数据源2数据源n 数据仓库数据源1 抽取器抽取器抽取器合成器数据源2数据源n 用户查询结果图 1.1 数据仓库体系结构7 基于数据仓库的数据集成主要有以下特点： 1. 各数据源中的数据经过转换后集中放于一个中心数据库中，统一了原始数据中的所有矛盾之处。 2. 数据仓库是数据是随着时间的变化不断变化的，中心数据库需要定期删除超过存储期限的旧数据并从被集成数据源获取增量数据，传输的成本较高。 3. 当被集成的数据源中包含海量数据时，中心数据库的存储开销巨大。 1.1.2.2 基于联邦数据库的数据集成基于联邦数据库的数据集成联邦数据库系统5采用模式集成的集成方法。其基本思想是在构建集成系统时将各数据源的数据视图集成为全局模式，使用户能够按照全局模式透明地访问各数据源中的数据。用户直接在全局模式的基础提交查询请求，由数据集成系统处理这些，转换成各个数据源在本地数据视图基础上能够执行的请求。联邦数据库系统主要用于面向多个数据源的集成，对于具有 n个成员的联邦数据库系统来说，每个数据库都需要与其它 n-1 个数据库进行交互，因此必须要有 n(n-1)个组件以支持系统间的互相查询。如图 1.2 所示，当 4 个数据库构成一个联邦时，每个数据库都需要 3 个组件以存取其它数据库，整个联邦总共需要 12 个组件。如果要集成的系统较多，建立数据交换组件的任务会变得过于复杂，开发工作将会面临巨大的困难。国防科学技术大学研究生院硕士学位论文第 4 页数据源1 数据源3 数据源2 数据源4 数据源1 数据源3 数据源2 数据源4 图 1.2 联邦数据库体系结构7 1.1.2.3 基于中间件的数据集成基于中间件的数据集成基于中间件的数据集成模式6 7是目前最典型的数据集成方法。它通过在中间层提供一个统一的数据逻辑视图来隐藏底层的数据细节，使得用户可以把各个集成数据源看作一个统一的整体。中间件体系结构如图 1.3 所示。数据源1 包装器包装器中介器数据源n 查询结果查询结果查询结果查询结果查询结果数据源1 包装器包装器中介器数据源n 查询结果查询结果查询结果查询结果查询结果图 1.3 中间件体系结构7 中间件由中介器（mediator）和包装器(wrapper)组成，在基于中间件的数据集成系统中，数据依旧存储在各个被集成的数据库中；数据集成系统通过包装器对各数据库的数据进行转换，使之符合中间件模式的要求。在查询时，用户不必知道每个数据源的具体结构，直接对中介器发出查询请求，由中介器将用户的查询语句转换为针对各数据源的一系列子查询并分发到各数据源的包装器进行执行；在获得各数据源返回的查询结果后，中介器对其进行整合与清理，并返回给用户。相对于数据仓库和联邦数据库，基于中间件的数据集成有以下特点： 1. 中间件的数据库只存放各数据源的模式信息以及模式之间的映射等内容，不集中数据，存储的压力小。 2. 各数据源的模式信息变化小，更新频率远小于数据的更新频率；被集成的数据源模式发生变化时，只需更改中间件模式的数据逻辑视图，整个数据集成系统能够保持相对稳定。国防科学技术大学研究生院硕士学位论文第 5 页上述方法主要把数据集成的侧重点放在了数据共享上，部分解决了数据共享问题，但是都没有从根本上解决各数据库之间的结构异构和语义异构问题。 1.1.3 信息集成中的主要难点问题数据集成的目标是实现数据共享和信息交流，其核心任务是要将互相关联的分布式异构数据源集成到一起，使用户尽量可以不过多的考虑数据源的细节信息而实现对分布数据源的透明访问。要构建一个优秀的数据集成系统必须保证用户能以低代价、高效率获取分布数据源中的数据，要实现这个目标，必须解决数据集成中的一些难题。数据集成中的难题主要包括以下几个方面： 1.异构性8。被集成的数据源是独立开发的，并且数据源的开发背景、研究水平及科研条件不尽相同，就必然导致分布的数据源间存在着各种形式的异构。异构性是困扰数据集成系统的一个核心问题，数据源间的异构性主要体现在两个方面：一是结构异构。结构异构主要表现在不同的数据源可能使用不同的管理工具，部署在不同的操作系统上，结构异构主要导致了各个数据源的访问接口不同，对于结构异构当前有很多成熟的技术可以解决，比如 odbc、jdbc 等都支持对多种数据库管理系统的访问，其他的如利用包装器技术也可以很好的解决数据源间的结构异构；二是语义异构。语义异构又包括两个方面，数据源模式间的语义异构，一般是指多个数据源数据命名规则及相应数据类型存在不同，而数据间的语义异构是指由于数据源在构建实体模型时，采用了不同的粒度划分、不同的实体间关系，以及不同的实体数据语义表示，造成了不同数据源间数据的不同描述。 2分布性8。集成数据源的分布性问题包括两个方面，一是物理上分布性，是指数据源在物理不是集中的，而分布在不同的多个地区，多个数据源间实现跨网络联接。二是逻辑上分布性，是指同一个体的不同属性可能分布不同的数据源中。集成数据源的分布性问题是影响集成效率和系统安全性的一个关键环节。 3.自治性8。集成数据源的创建、修改、查询和维护是独立的，不受其他数据源的影响，单个集成数据源加入或者离开多集成系统并不影响自身的一致性和完整性。 4.信息集成效率低下9。信息集成要涉及到多个分布在不同地域的数据库系统，信息交互的方式非常有限，信息的传输响应只能通过互联网络进行，由于互联网信息传输速率较慢，并受信息传输量的限制，所以提高数据集成效率就成为信息集成领域亟待解决的问题。 1.1.4 元数据和用户模式在解决信息异构问题中的作用国防科学技术大学研究生院硕士学位论文第 6 页一、一、元数据在解决结构异构中的作用元数据在解决结构异构中的作用元数据是关于数据的数据10 11 12 ，在数据集成领域，元数据可以理解为描述集成系统成员数据源内数据的结构和建立方法的数据。将各个数据源的元数据集成到一个中央元数据存储库后，通过中央元数据库中丰富的元数据信息可以了解各个数据源中的数据结构，从而为解决数据源之间的结构异构提供了基础。集成了各数据源元数据的中央元数据存储库使得物理上分布、异构的多个数据源在逻辑上成为了一个数据源，对用户而言他们不需要了解底层数据源的结构，他们对数据的访问将在元数据库中元数据的辅助下定位到相应数据源。图 1.4 描述了这种基于元数据的数据集成模式。用户中央元数据存储库数据库n数据库2数据库1 . 用户中央元数据存储库数据库n数据库n数据库2数据库2数据库1数据库1 . 图 1.4 基于元数据的数据集成体系结构12 根据元数据的定义与特点，元数据在数据集成中主要可以起以下几个作用33： 1. 元数据作为集成系统的“信息目录”，可以帮助系统理解数据元数据描述了数据系统中关于数据的数据，例如，数据的类型，数据代表的商业含义等等，系统要获取数据源中的数据，必须对数据源中数据的类型、名称、值等信息有一个清楚的理解，对数据的概念、存储形式和表示方法、来源和允许进行的操作等内容有正确的把握，才能对数据源中的数据实现集成。正是因为有了元数据，建立了数据与业务之间的映射，才可以把数据按照系统需要的方式展示出来，帮助系统理解和使用数据。如果对要集成的数据源的模式信息都用统一的元数据标准进行了描述，将会使数据集成和信息的交换轻松实现。相反，如果忽视了元数据的建设，则会给数据集成工作带来极大的困难。 2. 元数据可以保证数据的质量11 系统在使用的过程中，由于底层的操作对用户来说是不公开的，当出现一些不在用户预期之内的数据时，用户就会对数据的可靠性与正确性产生疑问。元数据记录了数据库中数据的来源和目标，记录了抽取和转换的规则，从而使得用户国防科学技术大学研究生院硕士学位论文第 7 页能够很容易地了解数据产生的全过程，消除了用户的疑虑。这对于用户发现数据中存在的质量问题也是非常有帮助的，增加了数据的可信度。 3. 元数据提高了集成系统的适用度和可扩展性，适应需求的变化12 随着集成系统应用的不断深入和扩展，系统的需求也是在不断变化的，构造一个适应性强、能够平滑过渡到新应用的数据集成系统是一个重要内容。元数据包含了集成系统整个生命周期中的大量重要信息，这些信息反映了用户需求的变化，使得系统不用依赖特定的开发人员就能够迅速改变现有应用或实现新的功能。因此，元数据对于数据系统的后继开发是非常有用的，极大地节省了系统更新的成本，提高了效益。元数据在一定程度上解决了各被集成数据库的结构异构问题，但是对于语义异构仍然是无能为力。二、二、用户模式在解决语义异构中的作用用户模式在解决语义异构中的作用多个数据源间的语义异构13存在于两个方面，首先是数据间的语义异构；其次是数据源模式间的语义异构，数据间的语义异构可以用本体14标注的方法加以解决，而对于数据源模式间的语义异构则可用用户模式加以解决。数据源模式间的语义异构是指当数据源在构建实体模型时，相同类别个体在不同的数据源中采用了不同的命名规则，从而在多个数据源间产生的语义异构现象。而用户模式则是在概念层上使用同一概念对同质不同名的各数据源个体进行统一，利用用户模式15的明确性和共享性，把各数据源的局部模式集成为一个统一规范的全局模式，使用户可以不用考虑分布数据源的模式信息，而能够按照全局模式透明的访问各数据源，解决了数据源模式间语义异构问题。图 1.5 描述了信息集成系统中用户模式的体系结构。国防科学技术大学研究生院硕士学位论文第 8 页图 1.5 用户模式的数据集成体系结构图中可以看出，用户模式库由相关领域专业人员根据领域知识对存在的数据源模式异构信息进行筛选判断，并在异构的信息之上建立统一的用户模式，存储于用户模式库中。查询用户可以在统一的概念层上执行查询，屏蔽了概念数据源模式的异构问题，统一的用户模式概念也利用查询用户的理解。用户模式的引入很好的解决了分布数据源模式间的语义异构，对于解决信息集成中的语义冲突问题提供了一个良好的解决方案，特别是在面向特定应用的集成用户需求方面效果尤为明显，只要根据用户需求构建好用户模式，就可以很方便地实现对多个数据源的访问，给用户提供了一个整体的查询概念，摆脱了分布异构信息无法统一查询的困扰。 1.1.5 信息集成中优化方法概述信息集成系统16的查询优化存在的最大问题是各个数据源的执行代价信息难以获取，另外在分布式环境下查询性能在很大程度上受到网络性能的限制，一般情况各数据源的执行代价是不可控的，在预知各数据源的执行代价信息的基础上，可对各数据源的访问顺序进行一定的调整，并采用各种优化方法减少网络传输的开销，一般信息集成系统优化有如下三种方法： 1.对 sql 查询语句进行优化16 在信息集成系统中常用的优化策略之一就是对本地查询语句的优化，但这种国防科学技术大学研究生院硕士学位论文第 9 页优化多发生在查询开始和查询结果整合时。信息集成系统查询语句的一般优化策略共分为：(1)对查询语句进行合理重写。对各查询语句进行规整分解，重写为对各个分布数据源的查询语句，消除冗余，达到优化 (2)合理使用索引。在最终结果连接时合理使用索引可以取得一定优化效果，建立索引的情况共分为两种有大量重复值且经常有范围查询(between，一，一)和 orderby，grup by 发生的列，可考虑建立群集索引；经常同时存取多列，且每列都含有重复值可考虑建立组合索引，组合索引要尽量使关键查询形成索引覆盖，其前导列一定是使用最频繁的列。 2.采用中间件技术进行优化17 18 sql 语句虽然具有较强的处理能力和较高的执行效率，但它优化的空间有限局限性太大且对异构数据库束手无策。中间件技术的核心思想是把常用查询信息或各数据库核心信息存储在中间件设备中，信息集成时直接到中间件中存取，但是对中间件的存储容量要求较大，对各分布数据源的核心数据的界定和存取存在较大困难。通常情况下的做法是：在传统的 c/s 模式中采用 bde 或 ado 方式来直接存取后端数据库服务器中的数据，但它的弊端是，当数据量增大时，数据库服务器的执行效率会降低。 3.数据的并行处理优化策略19 数据并行处理技术是指同时开通多个网络传输通路，每个网络通路连接不同的远程数据源，信息集成查询时可通过多个终端分别对不同的远程数据源发送查询指令，各查询结果并行的发送到本地服务器进行结果整合，拓宽了网络传输路径，避免了同一网络通路信息传输的拥堵状况，达到了优化效果，但是并行策略对硬件的要求较高，对网络的配置连接也有更高的要求，一般多用于多层结构信息集成系统中。上述优化方法中都有各自的优点同时也存在相应的弊端，中间件技术用于优化是信息集成领域优化的热门所在，但是如何合理设计中间件，如何根据不同系统

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机科学与技术专业论文）基于物化视图的数据查询与整合技术研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机科学与技术专业论文）基于物化视图的数据查询与整合技术研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档