(计算机应用技术专业论文)基于关系数据库关键词查询的研究.pdf_第1页
(计算机应用技术专业论文)基于关系数据库关键词查询的研究.pdf_第2页
(计算机应用技术专业论文)基于关系数据库关键词查询的研究.pdf_第3页
(计算机应用技术专业论文)基于关系数据库关键词查询的研究.pdf_第4页
(计算机应用技术专业论文)基于关系数据库关键词查询的研究.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(计算机应用技术专业论文)基于关系数据库关键词查询的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

l 1 _ ! ,ij 10 i 厶 , at h e s i sf o rt h ed e g r e eo fm a s t e ri n 瞩l a c t i o n a n dt e c h n o l o g y _ r e s e a r c ho nk e y w o r ds e a r c ho v e rr e l a t i o n a ld a t a b a s e s b y f a nx i n h u a s u p e r v i s o r :p r o f e s s o rw a n gg u o r e n n o r t h e a s t e r nu n i v e r s i t y d e c e m b e r2 0 0 8 一 。j j ,- l 卜 t ,。 产 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的 研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过的 研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 = e 思0 学位论文作者签名: 鳓 日期:伽8 、f 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 ( 如作者和导师同意网上交流,请在下方签名;否则视为不同意。) 半年口一年口一年半口两年口 学位论文作者签名: 签字日期: 导师签名: 签字日期: 一 1 1 i 东北大学硕士学位论文摘要 基于关系数据库关键词查询的研究 摘要 随着i n t e m e t 的迅速发展和普及,越来越多的政府、商业、金融等企事业单位和科 研机构将自己的信息以及数据库系统连接到i n t e m e t 上,实现信息资源的网络共享。为 了获取有用的信息,信息检索技术已经广泛地应用在i n t e m e t 中,并成为i n t e m e t 上获取 信息的主要途径。在i n t e m e t 上,使用信息检索中的搜索引擎,只需要输入感兴趣的关 键词,就可以得到相关性的信息,并且按与关键词的相关性进行排序。 然而现在网络中的绝大部分的信息,都存储在关系数据库中。人们习惯使用搜索引 擎,用简单的关键词检索w e b 信息,也期望使用关键词来检索数据库中的数据,而不 需要了解数据库模式和s q l 。因此,关系数据库关键词查询技术( k e y w o r ds e a r c ho v e r r e l a t i o n a ld a t a b a s e s ,k s o r d ) 已经成为数据库研究的热点。 本文系统地、详尽地介绍了k s o r d 的研究内容和现状,以及与k s o r d 相关的基本数 据模式、查询和结果的规范化定义。在此基础上,全面总结了国内外已开发的原型系统 所使用的查询结果排序函数和查询算法的两个核心技术,并指出了其优缺点。 现有的原型系统按其查询处理策略分为离线系统和在线系统两类,而在线系统又可 以分为基于模式图和基于数据图两种方式。原型系统一般是以查询数据库的文本类型的 数据为主,而对数字类型考虑的比较少。而在s e e k e r 系统中,不仅可以对文本类型数 据进行关键词查询,而且可以对数字类型以及元数据进行关键词查询。 本文是在s e e k e r 系统基础上,进一步讨论数据库关键词查询技术。主要是从两个 方面进行扩展:其一是在数字属性查询方面,引入了模糊数学的隶属函数和模糊化算子 的知识,可以进行某一确定值的近似查询,并提出了相应的t o p - k 算法;其二是在元数 据查询方面,为了在查询过程中不单独考虑元数据信息,将传统元组进行扩展成带有注 释的元组,即元数据的信息直接引入到数据表中,将元数据信息当作数据表中信息的一 部分,可以使用查询文本类型方法查询元数据。最后通过实验进行验证我们所提出的算 法的j 下确性和有效性。 关键词:关系数据库,隶属函数,关键词查询,数据图,模式图,t o p k 算法 一 r e s e a r c ho nk e y w o r ds e a r c ho v e rr e l a t i o n a ld a t a b a s e s a bs t r a c t w i t ht h er a p i d d e v e l o p m e n to fn e t w o r ka n dt h ee x t e n s i v ea p p l i c a t i o no fd a t a b a s e t e c h n o l o g y , m o r ea n dm o r eg o v e r n m e n t s ,e n t e r p r i s e sj o i n e dt h e i rd a t a b a s e st ot h ei n t e m e tf o r t h es h a r i n go ft h ei n f o r m a t i o nr e s o u r c e s t og e tu s e f u li n f o r m a t i o ni nh l t 锄e t i n f o n n a t i o n r e t r i e v a l t e c h n o l o g yi sw i d e l yu s e da n db e c o m eam a j o rm e t h o di ng e t t i n gi n f o n n a t i o n t y p i n gi n t e r e s t e dk e y w o r d s ,y o uw i l lf i n dt h er e l e v a n ti n f o r m a t i o nw h i c hi ss o n e da c c o r d i n g t ot h er e l e v a n c eo f k e y w o r d s b u tn o wm o s to ft h en e t w o r ki n f o r m a t i o ni s s t o r e di nr e l a t i o n a l d a t a b a s e s p e o p l e a c c u s t o m e dt ou s i n gs e a r c he n g i n e sa n d s i m p l ew o r d si ns e a r c h i n gw e bi n f o r m a t i o n a n d1 0 0 k f o r w a r dt ou s i n gk e y w o r d st or e t r i e v et h ed a t ai nt h ed a t a b a s ew i t h o u t h a v i n gt ou n d e r s t a n d d a t a b a s es c h e m aa n ds q l a sa r e s u l t ,k e y w o r ds e a r c ho v e rr e l a t i o n a ld a t a b a s e s ( k s o r d ) h a v eb e c o m ea h o t s p o ti nd a t a b a s er e s e a r c h t h i sp a p e rs y s t e m a t i c a l l y , d e t a i l e d l yi n t r o d u c e dk s o r dr e s e a r c hc o n t e n t t h e a c t u a l s t a t u s ,b a s i cd a t am o d e l ,q u e r ya n dt h er e s u l t so fs t a n d a r d i z e dd e f i n i t i o n s o nt h i s b a s i s i t s u m m a r i z e dt w ok i n d so fc o r et e c h n o l o g i e sa b o u t q u e r yr e s u l t ss o r tf u n c t i o na n dq u e r y a l g o r i t h m si nd e v e l o p e dp r o t o t y p es y s t e m sa td o m e s t i ca n df o r e i g nc o u n t r i e sa sw e l l 嬲t h e a d v a n t a g e sa n dd i s a d v a n t a g e so ft h e m t h ec u r r e n tp r o t o t y p ei sd e v e l o p e dw i t h i n q u i r i e ss t r a t e g yo fo f f - l i n es y s t e m sa n do n - l i n e s y s t e ma n dt h eo n l i n es y s t e mc a l lb ed i v i d e di n t os c h e m a - b a s e dg r a p ha n dd a t a - b a s e dg r a p h t h e s es y s t e m sa r eg e n e r a l l yb a s e do nt h et e x tq u e r yf o rd a t a b a s ea n d n e g l e c t e dd i g i t a lt y p e s d a t a t h es e e k e r s y s t e m sc o v e r e dk e y w o r d s m e t a d a t a t h i sa r t i c l ei sb a s e do nt h es e e k e r q u e r yo ft e x td a t aa sw e l la sn u m b e rd a t aa n d s y s t e ma n dd i s c u s s e dt h ek e y w o r d sq u e r y t e c h n i q u e so v e rd a t a b a s ei nt h ef u r t h e r i ti sm a i n l yd e s c r i b e df r o mt w oa s p e c t s f i r s to n ei s o nt h en u m b e rp r o p e r t yq u e r ya n di m p o r t e dt h ek n o w l e d g eo f m e m b e r s h i pf u n c t i o na n df u z z y o p e r a t o ro ff u z z ym a t h e m a t i cs ot h e a p p r o x i m a t eq u e r yw i l lb ea p p l i e di ns e a r c h i n g m e a n w h i l et h ec o r r e s p o n d i n g t o p ka l g o r i t h mi ss e tu p s e c o n do n ei so nt h em e t a d a t aq u e r y i no r d e rt o i g n o r et h em e t a - d a t ai n f o r m a t i o ne x c l u s i v e l yi n q u e r yp r o c e s s ,t h et u p l ei n t r a d i t i o n a lr d b m si se x p a n d e dt ot u p l ew i t ha n n o t a t i o ni n f o r m a t i o ni s i m p o r t e dd i r e c t l vt o d a t a b a s et a b l ea n di ti su s e da sc o m m o ni n f o r m a t i o n i ts e a r c h e dm e t a d a t aa ss 锄ea st e x t 东北大学硕士学位论文 a b s t r a c t i n f o r m a t i o n f i n a l l yt h ec o r r e c t i o na n de f f e c ta r ev e r i f i e db ye x p e r i m e n t s k e y w o r d s :r e l a t i o n a ld a t a b a s e s ,d a t ag r a p h ,s c h e m ag r a p h ,t o p 。ka l g o r i t h m 东北大学硕士学位论文目 录 目录 声明i 摘要i i a b s t r a c t i i i 第l 章绪论1 1 1 研究背景及意义1 1 2 数据库与信息检索的方法集成2 1 2 1 数据库和信息检索的区别2 1 2 2 数据库和信息检索融合3 1 3 研究内容及国内外研究现状4 1 3 1 研究内容4 1 3 2 国内外研究现状5 1 4 本文要解决的问题和主要工作6 1 5 论文组织结构7 1 6 本章小结7 第2 章相关研究工作9 2 1 关系数据库的查询方法9 2 1 1 关系数据库查询9 2 1 2 全文检索查询1 2 2 1 3 关系数据库查询与全文检索的区别1 3 2 2 关键词查询概述1 4 2 2 1 关键词查询的方法1 4 2 2 2 关键词查询的分类1 5 2 2 3 关键词查询的数据模型1 6 2 3 查询结果的排序函数1 8 2 4 关键词查询的算法2 0 2 4 1 基于候选网络的查询算法2 0 2 4 2 基于图的查询算法2 3 2 5 本章小结2 4 v 东北大学硕士学位论文 目 录 第3 章关系数据库数字关键词模糊查询的研究2 5 3 1 概:述2 5 3 2 模糊理论与模糊算子2 6 3 2 1 模糊集基本理论2 6 3 2 2 隶属函数2 7 3 2 3 模糊算子2 8 3 3 模糊查询的实现方法3 1 3 3 1 一般模糊查询方法3 1 3 3 2 近似模糊查询方法3 4 3 4 数字属性关键词查询算法3 5 3 5 实验与评价3 7 3 5 1 评价标准3 8 3 5 2 结果分析3 9 3 6 本章小结4 l 第4 章关系数据库元数据关键词查询的研究4 3 4 1 概述4 3 4 2 数据库模式的扩展4 6 4 2 1 关系数据库的关系模式4 6 4 2 2 传统数据库模式的扩展4 7 4 3 实现方法4 9 4 3 1 查询结果的排序方法4 9 4 3 2 查询算法5 0 4 4 结果分析5 3 4 5 本章小结5 4 第5 章总结与展望5 5 5 1 本文工作总结5 5 5 2 未来工作5 5 参考文献j 5 7 致谢。6 1 攻研期间论文发表情况6 3 , 东北大学硕士学位论文 第1 章绪论 第1 章绪论 1 1 研究背景及意义 随着计算机的出现与普及,尤其是上世纪9 0 年代互联网蓬勃兴起之后,人们摆脱 了信息贫乏的桎梏,进入了一个信息极度丰富的社会。当信息的来源已不再是问题时, 如何快捷准确地获取感兴趣的信息,就成为人们关注的主要问题。在信息检索 ( i n f o r m a t i o nr e t r i e v a l ,i r ) 中,g o o g l e 、百度、y a h o o ! 等搜索引擎已深入到人们的日常工 作和生活之中,成为获取信息不可或缺的工具。但是在1 9 9 8 年,l a w r e n c e 和g i l e s 估 计有8 0 的数据存储在w e b 数据库中,不能被搜索引擎搜索;2 0 0 1 年,b e r g m a n 发现 存储在w e b 数据库中的不能被搜索引擎搜索到的数据大约是搜索引擎能够搜索到的网 页数据的4 0 0 5 5 0 倍【1 1 。因而,搜索引擎所能搜索到的网页数据只是w e b 上全部数据的 一小部分。 除了以网页存储信息的方式外,大部分信息在网络中是以数据库的方式存储的。在 传统的关系数据库系统中,使用结构化查询语言( s t r u c t u r eq u e r yl a n g u a g e ,s q l ) 进行 查询数据,由于s q l 语法复杂和需要预先知道数据库模式( d a t a b a s es c h e m a ) ,因而很 难被一般用户使用。同时,数据库查询也缺少相关性排序的支持,用户难于有效地从成 千上万的查询结果中发现所需的信息。而对于w e b 上的数据库,目前用户只能使用其 所属网站提供的特定查询界面检索其中的数据。例如,当我们检索网上书店、数字图书 馆等专业网站上的信息时,需要通过该网站提供的查询表单分别输入作者名、题名等信 息,检索不同的网上书店或者数字图书馆时,要熟悉和使用不同查询表单,这种操作方 式不仅麻烦,而且也不能满足灵活多变的查询要求( 如查找引用了指定论文的论文等) 。 同样的例子,还有网上音乐数据库、电影数据库、企业名录、产品数据库等等。另外, 当我们需要把自己的数据库发布到w e b 上时,也需要设计和开发特定的查询表单,这 些开发和维护工作非常繁琐。 由于传统的数据库查询方式存在许多局限,所以要得到更满意的检索结果,必须改 变传统数据库查询方式。因此人们提出了将信息检索的方法和数据库技术相结合,即关 系数据库关键词查询技术( k e y w o r ds e a r c ho v e rr e l a t i o n a ld a t a b a s e ,k s o r d ) ,这已经成 为信息检索和数据库方面的研究热点。 东北大学硕士学位论文第1 章绪论 对于k s o r d 的研究有如下意义【2 】: k s o r d 对于普通的互联网用户来说,不需要了解数据库的模式,也不需要掌握数 据库的s q l ,仅仅使用简单的关键词就能够检索w e b 数据库中的数据,就像使用g o o g l e 、 百度等搜索引擎检索互联网上的信息一样简单方便。而且,相对于定制好的查询表单, 这种检索方式的搜索功能更加强大,能够满足用户灵活多变的查询要求。对w e b 数据 库的发布者来说,不再需要为数据库设计开发特定的查询表单,数据库的网上发布变得 更加容易。所以说,k s o r d 可以改变数据库的w r e b 使用方式。 k s o r d 可以用于未来的搜索引擎当中,使得搜索引擎不仅能够搜索网页数据,还 能够对互联网上的数据库数据、文本数据、x m l 格式数据等各种类型的数据进行统一 的检索,大大提高搜索引擎所能提供给用户的信息量。毫不夸张的说,在未来的应用中, k s o r d 可能对我们每个人产生影响,具有广阔的应用前景。 k s o r d 能提高了数据库系统的易用性,还将对信息资源的开发利用和国家信息化 建设产生积极影响。众所周知,数据库技术是信息资源开发、管理和服务的有效手段, 一个国家的数据库建设规模、数据库信息量的大小和使用的频度是衡量一个国家信息化 程度的重要标志之一。随着我国经济和社会信息化的发展,越来越多的数据以数据库的 形式存储,使用数据库的人越来越多,其中的大多数人并没有专业的数据库知识,只能 依赖于定制好的应用软件或查询接口检索数据库。有了k s o r d ,用户就可以使用简单 的关键词来自由地查询数据库,挖掘其中的信息和知识,信息资源的利用效率将得到很 大提高。 1 2 数据库与信息检索的方法集成 在过去的几十年间,数据库技术和信息检索技术是两个独立的计算机科学研究领 域。信息检索技术已提出了许多新技术,并取得了较好的效果,而现在对于数据库技术 和信息检索技术的交叉研究,已引起了学术界和工业界的广泛兴趣【3 】。 1 2 1 数据库查询和信息检索的区别 虽然数据库技术和信息检索技术都有查询数据的功能,但解决此问题的方法却完全 不同。数据库技术处理结构化数据,采用s q l 进行查询,查询结果是精确的和完全的 并且被同等对待。而信息检索技术主要处理非结构化数据,采用关键词查询这样的非结 构化的数据,查询结果不精确和不完全的,而且有很多结果与用户的要求并不相关,因 此其查询结果要根据与关键词的相关性进行排序。图1 1 f l l 和表1 1 显示这两个系统之间 东北大学硕士学位论文 第1 章绪论 的不同。 k e y w o r ds e a r c h i n f o r m a t i o n r e t r i e v a l s y s t e m s d a t a b a s es y s t e m s t r u c t u r e dd a t au n s t r u c t u r e dd a t a 图1 1 数据库和信息检索系统 f i g1 1 d a t a b a s ea n di n f o r m a t i o nr e t r i e v a ls y s t e m 表1 1 数据库查询和信息检索 乃6e1 1d a t a b a s ea n di n f o r m a to nr e t r i e v a ls y s t e m 数据库查询信息检索 检索对象结构化数据无结构、半结构 检索方式通常是精确检索通常是近似检索 检索语言 s q l 结构化语言 主要是自然语言 在图1 - 1 中,对不同类型的数据采用不同的查询方法,而灰色部分显示的是数据库 技术和信息检索技术的交叉,即将关键词查询技术应用到结构化数据的查询中,也是 k s o r d 所要解决的问题,同时是本论文所研究的问题。 1 2 2 数据库和信息检索融合 现在有很多的应用,既要管理结构化数据,又要管理非结构数据。例如,在一个文 献管理系统中,描述文献的元数据是结构化数据,而文献的全文是非结构化数据。对于 这些应用,单独的数据库技术或者信息检索技术都难以满足其要求。同时,在文献管理 系统中只使用数据库技术就无法高效地进行关键词检索,而只使用信息检索技术又难以 支持简单的基于文献元数据的结构化查询。 即使应用只需要管理一种类型的数据,集成数据库技术和信息检索技术也是有好处 的,因为它可以用一种技术的长处来弥补另一种技术的不足。例如,关系数据库系统中 的s q l 对于普通的最终用户来说难于理解和掌握的,并且在使用的时候还必须知道数 据库的模式,但信息检索系统中的关键词检索则没有这些问题。又如,在一个商品房销 售系统中,按照地理位置、住房面积和价格来查询,查询结果过多或者查询结果为空都 是不好的。此时最好能够给出一个虽然不精确的和不完全的,但是却是按照符合购房者 东北大学硕士学位论文第1 章绪论 期望程度从高到低排列的查询结果列表。因此,需要集成数据库技术和信息检索技术来 满足这些应用要求。 信息检索的对象是非结构化的数据( 通常指文本) ,通过构建检索模型来度量用户 需求和数据之间相关性,并将数据根据相关性排序,其主要目标是提高检索的查准率 ( p r e c i s i o nr a t e ) 和查全率( r e c a l lr a t e ) 。信息检索在过去的几十年间主要被应用于图 书馆、资料库等机构的文档检索,由于应用领域的局限而其影响力也有限【3 】。i n t e m e t 的兴起,基于信息检索技术的互联网搜索引擎成为人们获取信息的主要形式,信息检索 技术引起了学术界和工业界的广泛关注。 另外,随着互联网成为用户获取信息的主要渠道,信息检索技术中的搜索引擎工具 也成为搜索主要手段,但其结果一般只能返回w e b 页面,这些被搜索引擎搜索到的信 息构成了所谓的s u r f a c ew e b 。而越来越多的数据库被置于互联网上直接供用户查询,对 于w e b 数据库来说,使用信息检索技术,并不能搜索到这些数据,主要是数据库和搜 索引擎的接1 :3 不匹配。这些互联网上搜索引擎搜索不到的数据也构成了所谓的d e e p w e b 。在互联网环境下,不断增长地对s u r f a c ew e b 和d e e pw e b 信息共享和应用的需求, 促进了这两个领域的渗透和融合 4 1 。 1 3 研究内容及国内外研究现状 1 3 1 研究内容 从研究方面讲,k s o r d 是在传统的关系数据库管理系统中实现信息检索技术的有 关功能,属于关系数据库和信息检索的交叉研究领域。 当前,k s o r d 仍然处于应用基础研究阶段,许多技术问题尚没有得到完善解决。 研究内容包括数据库关键词检索模型、检索语言、检索算法、检索结果排序、结果展现 到系统架构等【l 5 】。研究目标是将信息检索中基于概率的相关性检索技术与关系数据库中 的基于代数的结构化数据查询技术结合起来,构建一个像信息检索一样易于使用,同时 又像关系数据库系统一样能充分管理和利用结构化信息的系统。 相对于传统的关系数据库查询技术,k s o r d 是在关系数据库中挖掘各种各样的知 识,能够给用户提供多样的信息,但是伴随而来的是系统的性能问题,即系统的检索效 率不能让用户满意。国际上对性能优化的研究非常多,提出了各种性能优化技术,但是 系统的效率仍然不够理想。 东北大学硕士学位论丈 第1 章绪论 1 3 2 国内外研究现状 k s o r d 现在主要是从系统查询效率( q u e r ye f f i c i e n c y ) 和查询效果( q u e r y e f f e c t i v e n e s s ) 两个方面入手进行研究。并且已经开发了许多原型系统,其技术也已经逐 渐成熟,但是还存在许多不足之处,需要进一步完善。 国外这方面的研究工作主要是从1 9 9 8 年v l d b 国际会议上,g o l d m a ne ta l 发表 “p r o x i m i t ys e a r c hi n d a t a b a s e 【6 】和s h a u ld a r 发表“d t l sd a t a s p o td a t a b a s e e x p l o r a t i o nu s i n gp l a i nl a n g u a g e 【7 】两篇关于关系数据库关键词查询的论文开始,并对 其进行了深入的研究。 g o l d m a ne ta l 等人将文本近似查询的方法应用到关系数据库查询中。将关系数据库 当作一个图,其中对象作为结点,关系作为边,这里的关系可以是结构或者关系数据库 中的某含义,其近似程度是对象之间的最短距离。通过将查询语言简单的定义为关键 词的两种语义:f i n d 和n e a r ,这些对象是由相应的关键词集合产生的,其中f i n d 表示 要查询的关键词,n e a r 表示计算查询结果的距离依据,系统对f i n d 集合中的对象查询 结果的排序是依据n e a r 集合中对象计算的距离。 此后,出现了许多原型系统,如b a n k s l 8 , 9 , 1 0 】、d b x p l o r e r 1 1 1 、d i s c o v e r t l 2 】等, 它们主要是以a n d 语义进行查询,采用启发式或宽度优先的图形搜索算法,并对其查 询结果进行简单的排序,其效果不尽人意。i r s t y l e 系统【1 3 】是在d i s c o v e r 系统的基础 上进行改进,并结合了i r 方法进行结果排序,在此基础上提出了多个t o p k 算法。在文 献【1 4 】主要研究查询结果的排序问题,并将现已成功应用在信息检索中的结果排序方法 应用到k s o r d 中。m a r g y a t i 原型【蝤】是基于倒排文件的方法,并利用关系数据库的元数 据信息和数据库的内容对查询进行分析、转换和分类。在查询的执行阶段,系统进一步 使用元数据和存储的内容来获得查询结果,在这一阶段产生的不同查询语句( s q l ) 将发 送到后台的数据库管理系统( d a t a b a s em a n a g e m e n ts y s t e m ,d b m s ) 以获取结果。 在国内,主要是在中国人民大学与n c rt e r a d a t a 数据仓库及商务智能联合实验室支 持下,王珊等人进行这方面的研究工作。在2 0 0 5 年对数据库关键词查询问题进行了综 述【1 1 ,并在国家自然基金项目的支持下,研究基于关键词的数据库检索新技术。从系统 查询效率和查询效果两个方面进行了研究,主要研究检索算法、t o p k 检索技术、结果 展现、系统架构等重要问题,取得了丰硕研究成果,并开发了原型系统。如s e e k e r 系统【1 6 l 在对以前系统进行总结的基础上,增加了可以对包括数字、元数据的关键词查询, 并返回t o p k 结果。d e t e c t o r 系统【1 7 1 8 1 主要是基于数据图的动态地关键词查询系统, 东北大学硕士学位论文第1 章绪论 文献【1 7 】主要在预处理的基础上,采用增量更新方法,在不影响查询效率的前提下最大 程度地保证了查询结果的准确性和一致性。文献【1 8 】中是用带权重的图表示关系数据库, 并求解s t e i n e r 树的问题来解决t o p - k 问题。n u i t s 系统【1 9 】也是基于数据图的系统,它 采用结构的同构和内容的语义两种方法进行聚集结果,并用标签来表示结果中的模式信 息,以展现查询结果,方便用户进一步查询。s - c b r 系统【2 0 】主要将查询过程分为结果分 类、用户浏览和再次检索三个过程,每个结果以图形化的方式展现出来,使用户容易阅 读和理解检索结果,并对感兴趣的结果作进一步检索,以尽快找到所需结果或获取更多 的相关结果。文献 2 q 主要研究本体语义上的关键词查询,将s e e k e r 系统的实现技术 应用到本体语义上,并建立了s i , s e e k e r 原型系统,对其相关的核心问题进行了讨论。 文献 2 2 】主要研究了元组之间的语义关系,分析元组之间语义的直接和间接间接包含查 询关键词的情况,并提出了排序函数的计算公式和两种以数据块为处理单位的t o p k 算 法。c l a s e n 系统【2 3 】和文献【2 4 】主要是深入地研究关键词检索过程的性能优化的问题, 对影响性能的因素进行全面地分析,并提出了一个分类、学习和选择候选网络的方法 ( c l a s c n ) :来提高k s o r d 的查询效率。其基本思想是采用学习的方法动态地构建每个 候选网络的语言模型,计算新查询与候选网络的相似性,选择那些最有可能产生t o p k 结果的候选网络加以执行,从而达到裁剪候选网络,提高系统执行效率的目的。 同时,在上述的基础之上,人们也进一步扩展研究对象,除了关系数据库外,还有 x m l 数据、p 2 p 数据、流数据等,继续深入进行数据库信息检索新技术研究。 1 4 本文要解决的问题和主要工作 关系数据库关键词查询技术已经有了很大的进展,但是大多数据系统只是对关系数 据库中的字符型属性进行查询,对于数字型或者元数据的数据考虑较少,本文主要是针 对这两方面进行研究。 ( 1 ) 在s e e k e r 系统【1 6 】中,已经对数字型关键词查询有所研究,即只是指明属性名、 关系运算和具体属性值,如k e y w o r d : v 甜u e 这种形式查询,但是它只能对数字属性 的精确查询,并不能对近似于某一具体数字值的模糊查询。 ( 2 ) 在s e e k e r 1 6 1 、t r - s t y j e e l 3 】等系统中,已经可以进行带有元数据的关键词查询, 其查询方法是首先查找匹配表( 用于存关系名和属性名的关键词) ,然后根据查询的结 果来进一步在匹配的关系或属性上查询。但这并没有和关键词查询一起进行考虑,同时 也不考虑关系名和属性名的权重。 东北大学硕士学位论文第1 章绪论 1 5 论文组织结构 本文以s e e k e r 系统【1 6 1 为基础,进一步讨论关于数字属性和元数据的关键词查询 问题。在数字属性关键词查询中,使用模糊数学相关知识,引入了数字属性的近似查询; 在带有元数据关键词查询中,将数据库中的字段名或表名作为表中内容的一部分,以及 在字段名与表名重名的情况下的优先顺序,使其更有通用性。 论文主要内容介绍如下: 第l 章:主要介绍了相关研究的背景、关系数据库查询和信息检索的方法以及当前 研究的现状,说明关系数据库查询和信息检索技术的相结合将是k s o r d 研究的一个热 点。 第2 章:对已开发的原型系统进行分析,并对其进行分类;在此基础上,介绍其研 究中的两个核心技术,即关键词查询的评价函数和关键词查询的算法。 第3 章:主要介绍k s o r d 中的数字属性的近似查询方法。 第4 章:主要介绍k s o r d 中的带有元数据的查询方法。 。 第5 章:对研究工作的总结,以及对下一步工作设想。 1 6 本章小结 本章首先论述了选题的背景、研究意义和国内外的发展现状,然后论述了关系数据 库关键词查询技术是数据库技术与信息检索技术的融合,同时也说明本文所要研究的问 题,最后说明了本文的组织结构。 东北大学硕士学位论文第1 章绪论 8 东北大学硕士学位论文 第2 章相关研究工作 第2 章相关研究工作 现在的信息是由不同类型的数据来表示的,对于信息检索而言,将采用不同的方法。 其方法如下: 结构化的数据,如关系数据库中存储的数据,使用s q l 进行查询; 半结构化的数据,如x m l 文档,使用x q u e r y 、x p a t h 进行查询; 非结构的文本数据,如网页,使用关键词进行查询。 对于一个系统要管理多种类型的数据时,在此会提出了一个问题:如何用一个统一 的查询语言来完成这些类型的数据的检索呢? 关键词检索将期望完成这一任务。 2 1 关系数据库的查询方法 2 1 1关系数据库查询 在关系数据库上,s q l 是存取数据库中数据的主要界面。s q l 是一种介于关系代数 与关系演算之间的结构化查询语言,其功能并不仅仅是查询,还有数据处理及数据定义 功能。s q l 语言最早是1 9 7 5 年在i b m 公司研制的数据库管理系统s y s t e mr 上实现的。 由于具有功能丰富,语言简洁易学,使用灵活等特点,受到用户好评和广泛使用。后经 不断发展完善和扩充,如今s q l 已被美国国家标准( a m e r i c a nn a t i o n a ls t a n d a r d s i n s t i t u t e ,a n s i ) 作为关系数据库语言的美国标准,又被国际标准化组织( i n t e r n a t i o n a l s t a n d a r d i z a t i o no r g a n i z a t i o n ,i s o ) 采纳为关系数据库语言的国际标准。应用s q l 可以在数 据库中进行各种操作。s q l 中最著名的是其强大的查询能力,它包括的三个基本查询子 句:s e l e c t 、f r o m 、w h e r e ,其中w h e r e 子句说明查询的条件。复杂的查询条件有五类 简单条件( 比较条件、b e t w e e n 条件、l i k e 条件、i i l 条件和e x i s t s 条件) 的布尔表达式, 它可以完成多层复杂的信息查询。 s q l 语言 2 5 , 2 6 】的特点: 综合统一 s q l 集定义语言d d l 、数据操纵语言d m l 、数据控制语言d c l 的功能于一体, 语言风格统一,可以独立完成数据库生命周期中的全部活动。 另外,关系模式中实体和实体间的联系均用关系来表示,数据结构的单一性带来了 数据操作符的统一性,使得查询、插入、删除、修改等操作都只需要一种操作符。 高度非过程化 东北大学硕士学位论文 第2 章相关研究工作 用s q l 语言进行数据操作,只需指明“做什么”,而不必指明“怎么做 ,无需 了解存取路径及操作过程。 面向集合的操作方法 东北大学硕士学位论文第2 章相关研究工作 表2 1 表c o m p l a i n t s 的数据示例 i 二! 翌唑兰三一生翌出- - 也t s 立塑- c ! 一x 是翌t 2 1 宝: i _ - _ _ 一 一 一一- _ _ - _ - 一 t u p l e l d p r o d l d c u s t l dd a t ec o m m e n t s 表2 2 表c u s t o m e r s 的数据示例 ! 生! 宝! :圣坠坠唑曼! 兰:! 垒垒垫曼鹜堡p ! 宝兰 一 t u p l e i d c u s t l dn a m e o c c u p a t i o n 表2 3 表p r o d u c t s 的数据示例 t a b l e2 3p r o d u c l s sd a t ae x a m p l e s t u p l e l dp r o d l d m a n u f a c t u r e rm o d e l 以上面的数据库的示例数据为例来说明数据库的查询语句。如果要查询“j o h n s m i t h 用户的职位,则可以使用以下查询语句: s e l e c tn a l t l e ,o c c u p a t i o n f r o mc u s t o m e r s w h e r en a m e = ”j o h ns m i 廿l ; 其结果是u l 元组。 如果要查询“j o h ns m i t h 用户对产品的评论,则可以使用以下查询语句: s e l e c tn a m e ,d a t e ,c o m m e n t s f r o mc u s t o m e r s ,c o m p l a i n t s w h e r ec u s t o m e r s c u s t l d = c o m p l a i n t s c u s t l da n di l a m e = ”j

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论