(计算机应用技术专业论文)基于xml的网络信息集成方法研究.pdf_第1页
(计算机应用技术专业论文)基于xml的网络信息集成方法研究.pdf_第2页
(计算机应用技术专业论文)基于xml的网络信息集成方法研究.pdf_第3页
(计算机应用技术专业论文)基于xml的网络信息集成方法研究.pdf_第4页
(计算机应用技术专业论文)基于xml的网络信息集成方法研究.pdf_第5页
已阅读5页,还剩79页未读 继续免费阅读

(计算机应用技术专业论文)基于xml的网络信息集成方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国科学技术大学硕士学位论文摘要 摘要 网络信息集成涉及多种不同类型的异构信息源如:h t m l 、x m l 、关系数据库等。其 目标是设计出一种高度灵活而综合的集成方法。来对这些异构信息源进行分折和整台,最终 形成一致的单一数据集合这无论是对提高基于知识的决策能力,还是提高信息的再利用率 都具有直接的现实意义。 为了有效解决这种异构信息源的集成问越木文提出了以x m l 为统一的数据描述语言的 网络信息集成方法。同时,为能有效地降低整个信息集成过程的复杂度。采用“分而治之” 方法提出了分阶段执行的信息集成思想,并将螺个网络信息集成过程划分为三个阶段:数 据抽取、数据集成和数据输出本文的研究重点是前两个阶段。 在数据抽取阶段:本文分别研究了基于k p s 和基于h t m l 到x m l 转换的h t m l 数据 抽取方法。解决从大量动态变化的h t m l 数据源中精确、快速地寻找有效信息的数据抽取 问题;同时还研究了关系数据库的模式和数据拙取问题。 在数据集成阶段:为提高集成效率,本文再将该阶段细分成数据预处理、数据规格化和 数据融台三个子过程,数据预处理子过程研究了常用数据预处理的技术:数据规格化子过程 重点研究了基于( h l t o t o 野r 和多层集成方法( m u l t i l a y e ri n t e g r a t i o na p p r o a c h ) 的异构x m l 数据规格化方法:数据融合子过程针对不同数据严集间的逻辑关系研究了不同的数据融合 算法最终形成一致的x m l 文件。 在数据输出阶段:重点研究了几种常用的x m l 的查询语言并以x m l 到h t m l 的数 据输出为例简单介绍了x m l 查询语言的应用实例,最后,还介绍了一种基于x m l 关键 属性索引h a s h 函数的数据仓库星型模型生成力法。 在本文的最后,对未来的研究工作进行了展望。 本文的特色之处在于:采用“分而治之”办法提出了分阶段执行的信息集成思想 并针对各种不同数据源的具体特点提出了以x m i ,为统一的数据描述语言的网络信息集成方 法;其次本文提出了一种基于o n t o l o g y 和多层的网络信息集成方法借用本体对x ) i l 元素 的描述来解决异构数据的各种冲突。并能有效地降低整个信息集成过程的复杂度。这些对 于研究网络信息集成而言是很有价值的。 关键字:网络信息集成信息检索本体x m l 中国科学技术大学硕j :学位论文摘要 a b s t r a c t w e bi n f o r m a t i o ni n t e g r a t i o ni n v o l v e sw i t hh e t e r o g e n e o u si n f o r m a t i o ns o u r c e so fd i f f e r e n t t y p e s ,s u c ha sh t m l ,x m l ,r e l a t i o n a ld a t a b a s e ,e t c i ti n t e n d st os c h e m eo u tah i g h l yf l e x i b l ea n d i n t e g r a t e da p p r o a c ht h a ti sa b l et oa n a l y z et h eh e t e r o g e n e o u si n f o r m a t i o ns o u r c e s ,i n t e g r a t et h e m , a n df i n a l l yg e n e r a t ec o n s e n t a n e o u su n i t a r yd a t as e t s t h i si so fi m m e d i a t ep r a c t i c a ls i g n i f i c a n c e b o t ho ni m p r o v i n gt h ed e c i s i o n - m a k i n ga b i l i t yb a s e do nk n o w l e d g ea n do ni n c r e a s i n gt h er e u s e r a t eo f i n f o r m a t i o n i nt h i sp a p e r , aw e bi n f o r m a t i o ni n t e g r a t i n ga p p r o a c hw i t hx m la st h eu n i f o r md a t a d e s c r i b i n gl a n g u a g ei sp r e s e n t e dt oe f f i c i e n t l ys o l v et h ei n t e g r a t i o np r o b l e mo ft h eh e t e r o g e n e o u s i n f o r m a t i o ns o u r c e s i no r d e rt or e d u c et h ec o m p l e x i t yo ft h ee n t i r ei r i f e r m a t i o ni n t e g r a t i n g p r o c e s se f f e c t i v e l y , w ea d o p tt h e “d i v i d ea n dc o n q u e r ”a p p r o a c h ,p r e s e n tt h ei d e a o fp h a s e - e x e c u t i n gi n f o r m a t i o ni n t e g r a t i o n ,a n dd i v i d et h ee n t i r en e t w o r ki n f o r m a t i o ni n t e g r a t i n gp r o c e s s i n t ot h r e ep h a s e s :d a t am i n i n g ,d a t ai n t e g r a t i n ga n dd a t ao u t p u t f i n g w el a ye m p h a s i so nt h ef i r s t t w op h a s e si nt h i sp a p e r a tt h ed a t am i n i n gp h a s e ,h t m ld a t am i n i n ga p p r o a c h e sb a s e do nk p sa n do nt h e c o n v e r s i o nf r o mh t m lt ox m la r er e s p e c t i v e l ys t u d i e d t h ep m b l e mo fh o wt of i n de f f e c t i v e i n f o r m a t i o ni n l a r g e n u m b e r s0 fd y n a m i c a l l yv a r y i n g h t m l d a t as o u r c e s isr e s o l v e d w ea l s o m a k eas t i l d vo f t h es c h c m aa n dd a t am i n i n gp r o b l e mo f r e l a t i o n a ld a t a b a s e a tt h ed a t ai n t e g r a t i n gp h a s e ,i no r d e rt oi n c r e a s et h ee f f i c i e n c yo fi n t e g r a t i o n ,w es u b d i v i d e t h i sp h a s ei n t ot h r e es u b p r o c e s s e s :d a t ap r e p r o c e s s i n g ,d a t as t a n d a r d i z i n ga n dd a t ai n o s c u l a t i n g i n t h ef i r s ts u b p r o c e s s s o m et y p i c a ld a t ap r e p r o c e s s i n ga p p r o a c h e sa r es t u d e d 如t h ed a t a s t a n d a r d i z i n gs u b p r o c e s s ,w ep l a c ee m p h a s i so nt h ex m l d a t as t a n d a r d i z i n ga p p r o a c hb a s e do n o n t o l o g ya n dm u l t i l a y e ri n t e g r a t i o na p p r o a c h d u r i n gt h ed a t ai n o s c u l a t i n gs u b p r o c e s s ,a i m i n g a tt h el o g i c a lr e l a t i o n s h i pa m o n gd i f f e r e n td a t as u b s e t s ,d i f f e r e n ta l g o r i t h m so fd a t ai n o s c u l a t i o n a r es t u d i c d n ”nc o n s e n t a n e o u sx m lf i l e sc o m ei n t ob e i n g a tt h ed a t ao u t p u t t i n gp h a s e ,w es t u d ys o m et y p i c a lx m lq u e r yl a n g u a g e sw i t he m p h a s i s - b k i 鹅t h ed a t ao u t p u tf r o mx m lt oh t m la sa ne x a m p l e ,w eg i v ea no u t l i n eo f s o m ea p p l i c a t i o n i n s t a n c e so f t h ex m lq u e r yl a n g u a g e a tt h e e n do f t h ec h a p t e r , w ei n t r o d u c eam e t h o do f b u i l d i n g s 1 i a r - m o d e lo f d a t aw a r e h o u s eb a s e do nh a s hf u n c t i o no f x m lk e y - p r o p e r t i e s i n d e x a tt h ee n do f t h i sp a p e r , w ei n t r o d u c et h ef u t u r ew o r k b r i e f l y f e a t u r eo ft h i sp a p e rl i e si nt h ef o l l o w i n g f i r s t ,w ea d o p tt h e “d i v i d ea n dc o n q u e r ” a p p r o a c h ,p r e s e n tt h ei d e ao fp h a s e - e x e c u t i n gi n f o r m a t i o ni n t e g r a t i o n a n da i m i n g a ts p e c i f i c c h a r a c t e r i s t i co fd i f i e r e n td a t ar e s o u r c e s ,w ep r e s e n tan e t w o r ki n f o r m a t i o ni n t e g r a t i n ga p p r o a c h w i t hx m la st h eu n i f o r md a t ad e s c r i b i n gl a n g u a g e s e c o n d an e t w o r k 妇乐嘣洳i n t e g r a t i n g a p p r o a c hb a s e d o no n t o l o g ya n dm u l t i l a y e ri sp r e s e n t e d w i t ht h ed b a i p n o no f x m le l e m e n t s b yt h en o u m e n o n ,i ti sa b l et or e s o l v ea l ls o r t so fc o l l i s i o n so fh e t c l x g e n e o u sd a t aa n dc a l l e f f i c i e n t l yr e d u c et h ec o m p l e x i t yo ft h ee n t i r ei n f o r m a t i o ni n t e g r a t i n gp r o c e s s a l lo ft h i si s0 f g r e a tv a l u et ot h er e s e a r c ho f n e t w o r ki n f o r m a t i o ni n t e g r a t i o n k e y w o r d :w e bi n f o r m a t i o ni n t e g r a t i o n 。i n f o r m a t i o nr e t r i e v e ,o n t o l o g y , x m l 中国科学技术大学硕士学位论文 致谢 致谢 这篇论文的完成首先要衷心感谢我的导师陈恩红副教授陈老师认真负责的工作态度、 严谨的治学精神和深厚的理论水平都使我获益匪浅在他的严格要求和精心指导下使我逐 渐懂得了做学问搞科研的方法。同时t 由于他的引导、启发和鼓励使我能够顺利解决了所 遇到的一个个困难和问题。从而按时完成了本文的工作。 感谢实验室的王煦法教授曹先彬副教授以及实验室的其他所有老师教授感鲥他( 她) 们在学习和研究上对我的关心和指导。 还要感谢本系的杨寿保教授他在我的学习和生活中给了我多方面的关心和照顾。 感谢计算机系的其他老师是他( 她) 们让我学到了很多宝贵的知识,还有人生的很多 哲理。 感谢实验室的各位同学,他( 她) 们是:张振亚博士、吴共庆、王进、王秦辉、林乐、 谢晖、虞震、王舒、李铜舒、路放、周瑾、童蕾、余丹以及其他所有同学,是他( 她) 们营 造了良好的实验室氛围,让我能够轻松自如的进行学习和研究。 感谢我深圳研究生班的所有同学,感谢他( 她) 们在学习中跟我一起摸爬滚打。 感谢我的父母、哥哥和弟弟感谢他( 她) 们给我各方面的鼓励和支持。 最后,感谢中国科学技术大学给了我继续j :学的机会。 在此,谨向以上诸位,以及其他所有的前辈、同学和朋友表示诚挚的谢意和衷心的祝 福。 中周科学技术人学硕i :学位论文第1 章绪论 第1 章绪论 随着计算机技术的e 速发展,特别是i n t e m e t 的迅速普及,各行各业酱遍积聚了巨量的、 滞在的有州数据,这些数据有些是以结构化形式存在的( 如关系数据库) ,有些是以、f 结构化 的形式存在的f 如h t m l 、x m l 等) 。对丁i 这些原始的、潜在有州的数据,我们需要一种高 度灵活而综合的集成方法,米对这些米白不同异构信息源的数据进行分析和整含,从中提炼 山直接可川的知识,这无论是提高基于知识的决策能力,还是提高数据的再利用率,都具有 直接的现实意义。本章首先介纠网络信息集成的一些基本概念、研究现状以及面临的问题: 然后讨论网络信息集成的研究内容、研究目标和意义:最后指出本论文的主要贡献和后续各 章的安排。 1 1 网络信息集成概述 随着信息化社会的来临,人们不得不从不同的渠道来获得各种信息,这就促使大多数 较复杂的信息系统都需要与多个信息源交互,这些信息源包括数据库、h t m l 、x m l 及其 他类型的用户数据文件。这些来自不同数据源的数据无论在语法结构上,还是在语义上都存 在着巨大的差别,如何有效地对这些来自不同数据源进行一致的集成,将是衡量信息系统能 否有效运行的关键所在。下面先列举两个比较典型的数据集成应用问题: 一个较典型的应用就是企业的决策系统,它需要在对各种数据进行综合分析的基础上 才能做出正确的决策,而这些数据,一部分来自企业的不同部门,另一些则来自外部的企业。 在现代决策系统中,这些数据往往需要集成到企业的数据仓库中,借助于联机分析处理 ( o l a p ) 和数据挖掘( d a t a m i n i n g ) 等分析和决策工具,决策人员就可以挖掘出数据中蕴含 的有用信息,然后再以这些信息为指导作出最终的决策,从这里我们可以看出,为了作出正 确的决策,要求对各种不同类型的数据进行综合的集成。 另一个典型的例子是基于w e b 的网上电子市场( e m a r k e t p l a c e s ) 应用,它属于b 2 b 电子商 务系统( b u s i n e s s t o b u s i n e s s e - c o m m e r c e ) 领域。在该应用中,网上电子市场作为买方和卖 方之间的中介机构,需要撮合供求双方达成购买协议。由于每个交易参与者都有一套自己的 产品及目录表示方面,所以网上电子市场首先面对的难题是如何解决不同交易参与者之间的 产品和目录间的转换问题,也即:假设网上电子市场上有m 个供应商和n 个购买者,若采用 直接的一对一的映射方式,将需要维护( m + n ) 种映射关系,如图1 1 所示。如果再考虑各商家 成千上万的产品和目录,可以想象,维护这样的映射关系,无论是从系统运行的效率上还是 维护成本上,都将是场恶梦! 尽管有很多国际标准和行业标准建立了产品的分类目录标准, 但各标准之间的差异还是相当大的,【5 列举了一个这方面的例子:即分别按照四个标准化 组织的目录标准( x c b l 、c x m l 、i o t p 、o a g i s ) ,来对一个简单的地址信息进行描述,结 果显示,无论是从结果数据的语法和结构的表现来上,还是从语义与词汇的使用上,都存在 的很大的差异。除此之外,用户在选择这些标准时往往是根据实际的需要来做出决定的,所 以选择的自由度是相当大的,这样就不可避免地涉及到使用不同标准的交易参与者使用的产 品和目录标准之间的转换问题。解决这个问题的方法之一就是利用一种统一的中间转换机 制,先将所有的输入数据转换为统一的中间格式数据,而后再将这种中间格式数据转换为各 种目标数据。如图1 2 所示,这样我们就可将原来o ( m ,n ) 种的映射关系降低到o ( m 琳) 种 的映射关系。 中国科学技术大学硕二i :学位论文第1 章绪 论 源数据 h 标数据 m + n 干叶转换 翻1 1 数据转换中需要维护o ( m + n ) 种映射关系 源数据目标数据源数据 中间数据目标数据 一一 中简恪式 t m + h 1 种转换 图1 , 2 采用中间转换机制将o ( m n ) 种映射关系降低到o ( m + n ) 从上述两个较典型的例子可以看出,信息集成和数据转换在各种应用中是及其重要的。 当然,信息集成不会仅限于这两个应用领域,可以说,只要有不同的信息源的应用,就会涉 及到信息的集成和转换问题,尤其是对各种w e b 和数据库应用,更是如此。 2 中困科学技术人学硕l :学位论文第1 章绪论 1 2 网络信息集成简介 在具体介纠网络信息集成之前,我们先简单介绍一r 什么是信息集成。 定义1 1 信息集我 所谓信息集成( i n f o r m a t i o ni n t e g r a t i o n ) ,就是将存储在两个或多个不同的信息源中的数 据( 同构或异构) ,构建成一个一致的单一数据集合。通常情况下,这些信息源都是同类型 的,如将两个或多个关系型数据库集成到一个数据库或数据仓库中,但随着人们对各种信息 需求的不断深入,以及应_ 【 范围的不断扩人,也会涉及到不同类型的数据源。 下面以数据库环境为例,来讨论几种常用的信息集成方法。通常,不同数据库间的息 集成方法主要有三种: 1 f e d e r a ld a t a b a s e :即联邦数据库:各数据库间都是相互独立的,系统中各种数据都 分布在各成员数据库中,每个数据库均需要交互地访问其他数据库,以获得其中 所需的数据。如图1 3 所示,在联邦数据库系统中,所有数据库之间需要一对一的 连接,以便在需要时访问其他数据库中的数据,假设系统有n 个数据库,每个数 据库都需要与其他( n 1 ) 个数据库建立连接,则系统必须维护n ( n 1 ) 个连接。 数据输出 数据集成 数据抽取 i ,上一 l 数据库- | 一数据库- 1 弋厂 声挂 图13 联邦数据库系统 2 d a t a w a r e h o u s e :即数据仓库,在此环境下,将分别来自不同数据源的数据副本抽 取出来,再经合成器的合成作用,形成一个统一的全局模式,存储到一个单一的 数据( 仓) 库中,如图1 4 所示。在数据进入数据仓库之前,需要对数据进行一些 预处理:筛选、清理、转换、聚集、合成,以便所有的数据都符合数据仓库的模 式。数据筛选的目的是确定目标数据对象( t a r g e td a t a ) ,它是根据用户的需要从原 始数据库中抽取的一组数据;数据清理一般可能包括消除噪声、推导计算缺值数据、 消除重复记录:数据转换包括数据类型转换、数据格式转换( 如把连续值数据转换 为离散型的数据,或是把离散型的转换为连续值型的) 等;数据聚集是指对数据进 行泛化处理,目的提高数据的颗粒度,减少数据量;数据合成把从多个数据源抽取 出来的数据合成在一起。此外,由于各成员源数据库的数据改变,还需要对数据 仓库进行定期更新。 中国科学技术大学颂士学位论文 第1 章绪论 数据输出 数据集成 数据抽取 早毕 【。1 。j 图1 4 据库仓库系统 顺便指出,数据预处理工作可能会消耗大量的时间,但是必须看到,数据预处理 后数据质量的高低,将直接关系到数据仓库系统的成败。 3 m e d i a t i o n :即数据协调器,它支持虚拟视图或虚拟视图集合。如图1 5 所示,从 图中可以看出,m e d i a t i o n 的集成方式有点类似于数据仓库,但与数据仓库不同的 是,它不是把源数据库中的数据物化到一个统一的数据库中,而是由m e d i a t i o n 接 受用户请求,根据该请求的指示,利用包装器( w r a p p e r ) 从其他的数据库中提取 出相应的数据子集,最后m e d i a t i o n 对这些来自不同包装器的处理结果进行合成, 并用合成的结果数据对用户请求作出响应。 数据输出 数据集成 数据抽取 果 图1 5 m e d i 撕o n 系统 从以上三种方法中我们还可以看出,信息集成主要包括三个独立的子过程: 数据抽取:从源数据源抽取所需要的数据子集。 数据集成:将两个或两个以上的源数据合成为一个一致的单一数据集合。 数据输出:从单一数据集合中取出所需数据子集,并按要求输出。 定义1 2 礴络信息集成 4 中国科学技术犬学硕_ j 学位论文第l 章绪论 网络信息集成( w e bi n f o r m a t i o ni n t e g r a t i o n ) 与上述的信息集成( 下面称之为传统信息 集成) 没有本质上的差别,但它通常都会涉及到多种不同类型的异构信息源的信息集成问题, 如h t m l 、x m l 、关系数据库等。所以在这里,我们将网络信息集成定义为:将存储在两 个或多个不同的异构信息源中的数据,构建成一个一致的单一数据集合,如图1 6 所示。 数据抽取 数据集成 数据输出 j e 他数土i i 源 w e b 数据抽取器ll 数据库数据抽取器lx m l 数据抽驭器il ,e 他数据抽取器 数据集成 一致的数据集合 h t m l 输出 数据库输出 x m l 输出 j l x m l 其他数据输出 主一 其他数据源 图16 网络信息集成 从翻中我们可以看出,与传统的信息集成一样,网络信息集成也可分为三个独立的子 过程:数据抽取、数据集成、数据输出。它们间的主要不同之处在于:网络信息集成更侧重 于面向不同类型的异构数据源的集成( 很显然前者要比后者复杂得多) ,这些数据源无论从 语法和语义。还是在其数据模型上,都存在着很大的差别,所以,网络信息集成的一个最根 本的目标就是找到一种有效的方法来消除这些差异。另一方面,虽然网络信息集成与传统的 信息集成相比,存在着很大的不同,但是很多在传统信息集成中行之有效的方法( 比如上面 提到的三种集成方法) ,都可被借鉴到网络信息集成中。 此外,从研究的角度来看,网络信息集成覆盖了多个研究领域,如数据库、信息检索、 人工智能,尤其是机器学习和自然语言处理,所以它是一个庞大的,交叉学科的,动态的研 究领域。 5 中国科学技术大学硕j :学位论文第1 章绪论 1 3 网络信息集成的研究现状 可扩展标识语言x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 冈其简单性、可扩展性、臼描述 性和互操作性的特点,成为i n t e m e t 上继h t m l 之后一种新的数据表示和交换标准,并呈现 山逐步取代h t m l 的趋势。x m l 良好的数据格式使其适于各种类型的数据,同时由于x m l 是面向数据而非面向显示,使得x m l 文档除瑚于显示之外还可以方便地用于其他应j _ 1 目的。 如何将x m l 作为消息传递、数据交换以及异构数据集成的媒介成为一个新的和非常具有现 实意义的研究课题。目前针对x m l 的研究主要集中在x m l 对数据的表示、x m l 行业标准 的制定和数据集成、x m l 数据的存储、x m l 数据的查询以及基于x m l 上的i n t e m e t 应用协 议等方面。w 3 c 已制定了一系列的基于x m l 的标准协议( 如x s l 、s o a p 、w s d l 等) , 另外,各个行业标准问的转换、电子商务交易市场( e c o m m e r c em a r k e t p l a c e ) 的目录集成 等方面的研究也相当活跃。国内关于x m l 的研究起步稍晚,北京大学、清华大学、复旦大 学、中国科技大学等院校和科研机构进行了一些研究并得到了一些有效的成果,但总的来说 与国际领先水平尚有差距。 一 尽管h t m l 在数据组织和信息检索等方面存在着重大的缺陷,但由于历史的原因,w e b 上存在的大量信息大多还是以h t m l 形式存在的,所以如何在h t m l 文件中精确定位所需 要信息,并从中抽取相应的内容,最后将这些内容重新组织,形成结构性较强的x m l 文档 是十分有意义的。这方面的工作已有很多的研究,( 2 总结了若干种常见的w e b 数据挖掘模型, 其中大多数模型都是基于图( g r a p h ) 的,也有些是基于半结构化数据模型的,这些算法大多 都比较复杂,而且运行效率比较差。【1 l j 提出了基于k p s 算法的w e b 数据挖掘方法,充分 考虑页面中关键字、模式和结构上的特点来提高数据抽取的精确度和效率, 数据集成主要解决不同数据源间存在的语法和语义上的差别,【5 , 6 】提出了基于 o n t o l o g y ( 本体论) 和多层结构的信息集成思想,主要是采用分治法思想,将整个数据集成过程 分解成语法分析、语义转化等多个独立子过程,并利用o n t o l o g y 作为语义分析和转化的依据, 来实现异构数据与统一的中间x m l 格式。如何利用x m l 特点和o n t o l o g y 对异构数据进行 统一描述以及如何找到新颖的、更加有效的数据集成思想和方法也是本文重点研究的问题之 一。 此外,针对x m l 文档的特点,出现了总多的x m l 查询语言。 4 分析了几种常见的基 于x m l 的查询语言:l o p , e l 、x m l ,o l 、x m l - 1 3 l 、x s l 、x o l 等,分别介绍了各自的优 缺点。l o r e l 由s t a n f o r d 大学计算机系数据库组提出,其原来是为了半结构化数据建模及 查询而设计的,现将其扩展到x m l ;x m l q l 由a t & t 实验室设计,它是s t r u d e l 项目的一 部分,采用类似与s q l 的语法:x m l g l 是一种基于图的查询语言;x s l 则是由w 3 c 设计, 它基于x s l 模板规则来解释x m l 文档;x q l 则可以看作是x s l 的一种扩展,它的目标是使 得查询语言的语法变得更加简单和紧凑。 6 中国科学技术大学硕_ :学位论文第1 章绪论 1 。4 现有网络信息集成面临的问题 当今社会处于“信息爆炸”的时代,人i f j j l 乎被各种各样的数据或信息所掩盖,虽然这 些数据随处可见,但是人们普遍感到直接可_ 【f j 的有效信息( 知识) 实在太少,原因是这些未 经加:i :和提炼原始数据人部分都不是其真正所感兴趣的,或者说- - d 部分真正需要的数据被 火量的无关信息所掩盖,查找它要费花费很大的精力。另一方面,人们在对某件事情作出某 种决断之前,往往需要综合各种来自不同地方的数据,而这种综合,往往也是极其复杂的, 尤其是当这些数据之间存在着各种著异,甚至相互矛盾的时候。所以,人们迫切需要一种综 合分析的能力,自动对这些数据进行集成,面对这些需求,信息集成技术应运而生。但是, 在对各种数据进行集成的过程中,面临着以下一系列问题: 数据来自异种数据源:关系数据库、半结构化数据( x m l 、h t m l ) ,而且随着 i n t e r n e t 应用的不断发展,半结构化数据呈现增长的趋势。 随着各行各业对信息需求的不断提高,迫切需要把各种历史遗留数据加以综合和集 成,这些历史数据以不同的格式保存在数据文件中,它们在表示同样的数据时,其 语法结构存在着很大的差异。即使采用相同的语法表示,在语义上也不一定相同。 此外,大量数据都存在缺值、颗粒度等方面的问题。 当前数据集成系统对不同的数据源,往往只能进行一对一的数据转换,m 类数据 源需要m 个转换器。 对m 个数据源进行集成,然后以n 个种不同数据格式输出,需要( n + m ) 种转换器, 如图11 所示。 数据集成往往与特定的应用紧密联系,通用性不好,可重用性和移植性也不佳,如 图1 7 所示。 源数据目标数据 卜堕一二 图1 - 7 数据集成往往跟特定数据源紧密联系 层次化和模块化程度不高,往往不区分不同性质的数据转化任务,一处很小的改动 可能需要修改大量的程序,维护成本很高。 - 7 中国科学技术人学硕: :学位论文第l 章绪 论 1 。5 本文的研究内容、目标和意义 针对以上提山的问题我们将从以下几个方面着手解决,这些也是本文的研究 目标所在: 采_ 【 j 分治法设计思想,充分降低模块间的耦合性,提高集成系统的模块化 和通用性,有效降低整个信息集成过程的复杂度。 针对集成系统存在的异构数据源问题,采用面向特定数据格式的抽取器技 术米进行数据抽取,如图1 3 。 以x m l 为中间描述语言:先将源数据转化为统x m l 格式,然后以此为 基础再进行数据集成,这样可把( n m ) 的集成复杂度降为o ( m 啉) ,如图1 2 。 针对异构数据在语法和语义等方面存在的差异。采用基于o n t o l o g y 和多层 的数据集成方法,将整个数据集成过程分解为语法分析、语义转化、o n t o l o g y 定义 等几个层次,来进一步提高数据集成的效率。 针对不同数据子集间的逻辑关系,采用各种不同的数据融合算法对数据进行整合。 总结以上几点,我们将整个网络信息集成过程划分为三个子过程:数据抽取、 数据集成、数据输出,如所示l ,8 所示。为了便于研究,本文仅选取当前广泛使用 的三种数据源进行分析:h t m l 、x m l 和关系数据库。 。,。 1 “。_ 。1 。1 。,。1 。1 。- 。一。_ 。_ 。1 1 1 1 1 。1 1 。_ 。“。- 。1 。一 h t m l _ h t v l 融产 啬二一王一f 昙二j 乙,凳二,王一,i 二,王亏司 d b 卜_ 一f x r 二_ + f 肌一_ = : x 盯= = 一 一 x 札 一p - 叫o b lj t 而t 1 丽t 币 t u 删l x 扎 数据抽取预处理规范化数据融合 数据输出 一_-一一 数据集成 图1 8 基于删l 的网络信息集成示意图 数据抽取阶段:在数据抽取阶段:本文分别研究了基于k p s 和基于h t m l 到x m l 转换的h t m l 数据抽取方法,解决从大量动态变化的h t m l 数据源中精确、快速地 寻找有效信息的数据抽取问题;同时还研究了关系数据库的模式和数据抽取问题。 数据集成阶段:为提高集成效率,本文再将该阶段细分成数据预处理、数据规格化 和数据融合三个子过程,数据预处理子过程研究了常用数据预处理的技术;数据规格 化子过程重点研究了基于o n t o l o g y 和多层集成方法( m u l t i l a y e r i n t e g r a t i o n a p p r o a c h ) 的异构x m l 数据规格化方法;数据融合子过程针对不同数据子集间的逻辑关系,研 究了不同的数据融合算法,最终形成一致的x m l 文件。 数据输出阶段:重点研究了几种常用的x m l 的查询语言,并以x m l 到h t m l 的数据输出为例,简单介绍了x m l 查询语言的应用实例。 设计这样一种高度灵活而综合集成方法,来对这些异构信息源进行分析和整合,从中提 炼出售茗影羁移新掘这无论是提高基于知识的决策能力,还是提高信息的再利用率,都具 有直接的现实意义。 8 中国科学技术大学硕士学位论文第1 章绪论 1 。6 本文贡献与内容安排 本文的研究属于基础应刚研究在研究过程中,按照网络信息集成的原理和方法,针 对各种异构数据源的具体特点,进行了较为有效的研究。 本文的特色之处在于:采用“分而治之”方法,提出了分阶段执行的信息集成恐想, 并针对各种不同数据源的具体特点,提出了以x m l 为统一的数据描述语言的网络信息集成 方法:其次本文提出了一种基于o n t o l o g y 和多层的网络信息集成方法,借用本体对x m l 元 素的描述,来解决异构数据的各种冲突。并能有效地降低整个信息集成过程的复杂度。这些 对于研究网络信息集成而言是很有价值的。 全文共分六章,各章节的内容安排如下:第1 章( 本章) 概括介绍了网络信息集成的一 些基本概念、研究现状以及面临的问题,以及本文的研究内容、研究目标和意义:并简单阐 述了网络异构数据环境下的数据集成总的过程;第2 章分别介绍了基于k p s 和基于h t m l 到 x m l 转换的h t m l 数据抽取方法,同时还介绍了关系数据库的模式和数据抽取问题;第3 章介绍了数据集成的若干予过程,包括:数据预处理、数据规格化、数据融合等;第4 章在 介绍几种常用x m l 查询语言的基础上,并以x m l 到h t m l 的数据输出为例,简单介绍了 x m l 查询语言的应用实例,最后,还介绍了一种基于x m l 关键属性索引h a s h 函数的数 据仓库星型模型生成方法;第s 章对全文进行总结,并对未来的研究工作进行了展望。特别 地。在第- n 第四章中,我们以学生成绩单集成作为实例,来演示我们的整个信息集成过程。 9 中国科学技术大学硕士学位论文第2 章数据抽取 第2 章数据抽取 为了进行数据集成,必须先将数据从各白的数据源中抽取出米。由于网络信息集成涉及 不同类型的数据源,所以在进行数据抽取时,必须设计针对某种数据格式的抽取器,该抽取 器将数据抽取出来后,转换为一种通捌的格式保存( 如x m l ) 。以便于下一步的数据集成。 本章将详细介绍最常用的两种数据源的数据抽取方法,包括:h t m l 、关系数据库。 本章共分六二饥备节的内容安排如一1 - :2 1 节概括介绍了总的数据抽取模型;2 2 节介绍 了基于k p s 算法的h t m l 数据抽取方法:2 3 节介绍了一种基予多叉树的h t m l 到x m l 的 数据转换方法,将h t m l 的数据抽取问题转换为对x m l 的数据抽取问题;2 4 节介绍关系数据 库的数据抽取问题;2 5 节对本章进行了总结。 2 1 数据抽取概述 数据集成的第一步就是数据抽取。所谓蔹镭撤露( d a t ae x t r a c t i o n ) ,就是从h t m l 、x m l 、 关系数据库等数据源中抽取出有用的信息。要进行数据抽取,首先要标识要抽取的数据源, 这些数据源主要有:h t m l 、x m l 、关系数据库等。其次,要针对不同数据源的数据格式特点, 选取不同的数据抽取方法。如何能够高效而又精确地提取出所需的数据,将是数据集成能否 取成功的关键。最后,对于抽取出来的数据,为了进行进一步的数据集成,还需要进行数据 格式转换、清洗,并最终用一种统一的格式保存。数据输出过程模型如图2 1 所示:首先 利用各种数据抽取方法从各种不同的异构数据源提取所需要的数据子集,并将结果分别以 x m l 文件保存,这些) ( m l 文件将在数据集成阶段进行有效的集成。 图2 1 数据抽取过程示意图 1 0 中国科学技术火学硕l :学位论文第2 章数据抽取 2 2 基于k p s 的h t m l 数据抽取 w e b 上的信息人多数属于| 结构化信息且以h t m l 形式存在的。对于隐藏在其中的 有用数据,往往难丁被搜索或者抽取。这方面的l :作已经进行了j “泛而深入的研究。根据它 们各自的特点,主要有以下两类: 1 语法分析方法:通过对标记的分析来探索h t m l 内在结构,适用于高结构化的网 2 铡包装法:将h t m l 转化为一种图的表示,来分析其内部结构或外在联系。这种 方法的时间复杂度依赖于网页的规模,可扩展性较差,小规模时效果不错,但是 对于上千的页面来说就不行了。 1 j 4r j 提出的k p s 算法可以有效解决一部分h t m l 的数据抽取问题。k p s 分别是 k e y w o r d s ( 关键字) 、p a t t e r n s ( 模式) 、s a m p l e s ( 样本) 三个单词的首字母缩写,这三种 方法可以单独使用,也可以结合起来使用,以进一步提高数据提取精度。 2 2 1基于关键字的数据抽取 基于关键字的数据抽取方法的主要思想是:首先分析人们发布信息的日常习惯,建立一 套启发式规则,然后根据所给定的关键字,在h t m l 文档中查找此关键字,找到后,再应 用这些启发式规则。抽取出所需的目标信息。基于关键字的数据抽取方法的主要用于抽取跟 某个关键字相关的简单数据值,如某人的e m a i l 地址、电话号码等。 以下是一些常用的启发式规则: 若关键字出现在一个链接的标签里,则目标信息为连接指向的页面内容。如链接标 签内容包含“出版社”,则“出版社”的目标信息就是该链接所指的页面。 若关键字出现在标题中( 如包含在 中) ,则目标信息是紧跟它后面的 直到下一个标题间的字符串,若该标题为文中的最后一个标题,则结束为一个空行 或 或 标记出现。 若关键字出现在项目( i t e m ) 或列表中,则目标信息为紧跟它后面的直到下一个 或 或表尾之间的字符串。 若关键字是表( t a b l e ) 中的一个域,则对于纵向排列的表来说( 列名所在域中不含 q m ) ,目标信息是关键字所在位置右边的域,而对于横向排列的表来说,则是其 下面的域: 若关键字在文本行的开头,该行本身由一个独立段组成,( 如h t m l 标记将其与前 后文分开) ,并且有一些h t m l 标记如 或超过两个空格,将其与后文分开, 则目标信息是它后面直到行结束的串,如: o f f i c e : u s t ee - c a m p u s o t 2 i c e 的目标信息是u s t ee c a m p u

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论