




已阅读5页,还剩50页未读, 继续免费阅读
(计算机应用技术专业论文)基于agent的web信息检索系统及其实现技术.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
祷要 互鞍丽兹发震使褥信意资潆迅速膨涨,蠡懿获大量豹w e b 信惠资澈中 获取对人们具有价值的信息,已成为一个非常驻要的硼究课题。通过改进 已有信感检索系统,潋适应w e b 环装下辩落惫检索、援高露怠硷索敷率稻 质量、实现个性化服务,具有羹要的研究价值及应用前景。 本文主要骈究w e b 环壤下瓣鑫患稔索系绞及其实鬻菝术。主要内蜜包 括:研究基于a g e n t 的x m l 文档分布焱询技术,以实现半结构化文档的语 义检索:搽讨蘩j 二移动a g e n t 鹳信惑羧索搜蘩及其实魏平台;戮究幂| | ;_ ;移 动a g e n t 实现并行检索的技术,以提高检索效率;探诩用多a g e n t 混合智 熊过滤雾法实畿信惑_ j 妻滤憝方法,以缀攥曩,! t 兴趣实淡个翅:纯楼怠检索。 本文首先介绍信息检索系统的现状:然后提出基于a g e n t 的x m l 文档 分毒援豢模型、基予移动a g e n t 豹捡索模型帮蘩子令牲纯懿痿感检索摸整; 最后,研究和探讨上述三种模型实现的关键技术。 关键字:信息检索,a g e n t ,x m l ,移动a g e n t ,个性化 a b s t r a c t w i t hm o r ea n dm o r ei n f o r m a t i o no ni n t e m e t ,t h er e s e a r c h e so nr e t r i e v i n g v a l u a b l ei n f o r m a t i o nf r o mi n t e r n e ta r eb e c o m i n gm o r ei m p o r t a n t i ti sv a l u a b l e t h a tw ei m p r o v et h ee f f i c i e n c y , q u a l i t ya n dp e r s o n a l i z a t i o n a ls e r v i c eo fa l l i n f o r m a t i o nr e t r i e v es y s t e mb ye n h a n c i n go ru p d a t i n gt h ee x i s t e di n f o r m a t i o n r e t r i e v es y s t e mu n d e rt h ew e be n v i r o n m e n t w ef o c a so nt h er e s e a r c h e so nt h ew e bi n f o r m a t i o nr e t r i e v a ls y s t e m sa n d i m p l e m e n t a t i o nt e c h n o l o g yi nt h i sp a p e r w e w i l ls t u d ya g e n t b a s e di n f o r m a t i o n r e t r i e v a l s y s t e mf o rx m l d o c u m e n tt or e a l i z es e m a n t i c a lr e t r i e v i n g w ea l s o i n t e n dt ob u i l dam o b i l e a g e n t b a s e di n f o r m a t i o nr e t r i e v a lm o d e la n ds y s t e m i n t h em o d e l ,w ep r e s e n tap a r a l l e l r e t r i e v i n g m o d e lb a s e dm o b i l e a g e n t s t o e l t h a n c et h er e t r i e v i n ge f f i c i e n c y n e x t ,w ed i s c u s st h em e t h o do fi n f o r m a t i o n f i l t e r i n gt h a ti sb a s e d o nt h ea l g o r i t h mo f m u l t i - a g e n th y b r i di n t e l l i g e n tf i l t e r i n g t or e a l i z ep e r s o n a l i z a t i o n a li n f o r m a t i o nr e t r i e v i n gu n d e rt h eg u i d a n c eo fu s e r s i n t e r e s t a tf i r s t ,w ew i l ls t u d ye x s i t e di n f o r m a t i o nr e t r i e v a ls y s t e m si nt h i sp a p e r t h e n ,w ec o n s t r u c t t h r e e m o d e l s t h e ya r ea g e n t - b a s e dd i s t r i b u t e dq u e r i e s s y s t e mm o d e lf o rx m ld o c u m e n t s ,m o b i l e a g e n t b a s e di n f o r m a t i o nr e t r i e v a l s y s t e mm o d e la n dt h em o d e lo f t h ep e r s o n a l i z a t i o n a li n f o r m a t i o ns y s t e mb a s e d o n a g e n t f i n a l l y , w e d i s c u s st h ec r i t i c a lt e c h n i q u e su s e di no u rm o d e l s k e yw o r d s : i n f o r m a t i o nr e t r i e v a l , a g e n t ,x m l , m o b i l ea g e n t , p e r s o n a l i z a t i o n 独创性声明 y 5 6 1 0 # 。 拳入声暖掰呈交的论文愁我个入在导筛指导下遴行的磷究工作及取得静研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 入已经发表或撰写过的研究簸菜,也不包含为获得东南大学戡其它教商视褐的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何烫献均融在 论文中作了鞠确静说鞠并表示了谢意。 签名:枷秀、 日期:宣! ! :i 关于论文使用授权的说明 本大完全了鼹东藤大学鸯幕僳整、筏爨掌镘论文熬援定,繇:学校有投豫蘩 送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内 容,霹以采臻影露、缝翠或冀德复弱手段傈稳论文。 ( 保密的论文在解密后应遵守此规定) 签名;立生熟导师签名:塑坯日期:塑! 弓 东穗大拳矮学位论文 第一章绪论 第一节研究背景 夔着i n t e m e t 豹不鼗发震,鬻终正成为入 】生活中不可缺少嚣一部分。 通过网络,人们可以获取各式备样的信息,用于自己的学习、工作和生活。 网络上信息量极冀丰富,现已进入“信息爆炸”时代。据统计,i n t e r n e t 上 的w e b 已经发震藏为拥有数卡 己页嚣兹分毒式售惠空阕,嚣且这令数字还 在诀遽增加。如何觚这些大量的w e b 信恩瓷源中获取对人们其有价值的信 息,融成为一个非常重要的课题。这样,信息检索系统就_ 陂运而生。信息 检索系统鲁在提供快速、有效的方法来表示、管理、搜索、提取有用的信 惑。蠢懿,当用户慧要获取菜个主题懿籀关傣惑露,可戳後雳一些露冕缒 搜索引擎对互联网逝行搜索,如g o o g l e ,b a i d u 等。但人们逐渐发现磷对 i n t e m e t 上丰富的信息资源,使用现有的搜索弓l 擎进行w e b 信息检索,得到 豹缭袋也不爱令人瀵意,鬻常怒藐费了缀多翊藏帮羧获慕少,镶如,使溺 搜索弓f 擎查询出来得结果经常怒成千上万、良莠不齐;对不同的用户,不 加区别,不加分析,重复现象非常严重,这魃都暴露了现有信息检索技术 的不足。为了能够符合用户需裂,实现个性化浆信息检索,我 f j ;i 入a g e n t 技术。 a g e n t 技术在信息检索中的应用在于实现个性化信恩服务,提高信息 检索质量。个性化信息服务是嘏年来的研究热点,具有应用前景。它改变 了转绕戆售枣照务模式,鑫爨寒戆“我翻摄谈传么,爰户羧镬臻骨么”波 “用户需要什么,我们就提供什么”转交,为用户提供方便、快捷的佰息 服务,满足用户个性化的信息需求,将用户从浩瀚的信息海洋中解放出泉。 “一切以周户的需求为中心”农个娃纯信息羧务孛褥到了瓷分豹髂现。在 个性讫信患服务梭式下,我翻可以通过信惠裣索a g e m 穰播尉户的喜好, 显示用户感兴趣的内容,去除大量与用户兴趣不栩关的文耥,并智能地邋 应用户兴趣和环境的变化,这砦都将极大地方便用户的浏蟪,提高用户测 篷翅页豹彀奉,蘩麴蘧户溪笺嬲夏瓣兴趣。 到目前为止,国内外已有墩多学术机构、研究祝构在从事基于a g e n t 的个性化信息服务方面的研究工作,并取得了定的研究成果。比较热趔 的有卡麓基撂醛大学( c m u ) 鼢w e b w a l c h e r 系统、w e b m a t e 系统、i b m 公司豹w b i 系统镣等。w e b w a t c h e r 是个辅助露户测览w e b 的服务器端 东南大学硕士学位论文 接口a g e n t ,它能根据用户键入的关键字为用户提供浏览建议。在用户浏览 过程中,w e b w a t c h e r 将一直跟随用户,与用户交互并能对用户浏览行为进 行跟踪学习。w e b m a t e 是一个辅助用户有效浏览和检索w e b 的令人a g e n t 系统。它由一个单独的代理服务器和一个客户端的a p p l e t 控制器组成。 w e b m a t e 通过学习用户兴趣能自动为用户提供感兴趣的文档信息,还能精 化检索结果,提高检索结果与用户兴趣的相关度。w b i 是具有个性化w e b 功能的a g e n t 系统。它介于w 如浏览器与w w w 之问,相当于一个代理服 务器。w b i 通过截取w e b 浏览器和w e b 服务器之间的数据流,并对数据 流进_ 亍观察、分析和修改,从而为用户提供个性化的w e b 服务。上述系统 都是将a g e n t 技术应用于个性化信息服务中的典型实例,不足之处在于它 们大多是对非结构化的文本文档进行检索。在本文中,我们将研究。种对 x m i ,文档进行语义分析的检索。 在信息检索中,信息的表达也很关键。x m i ,作为砷 叫言息表达的方式 在个性化信息服务中也有着广阔的应用前景。x m l 的使用将进一步改善个 性化信息服务中对于信息的处理,它将是下一代w e b 信息的载体,也将是 用户个性化信息的载体、是个性化信息服务的基础。本文中用x m l 技术表 示本体信息,实现了从概念、语义的层次上提高信息服务的质量。 同时,为了解决信息检索中网络信息流量过大和搜索效率不高的问题, 移动a g e n t 技术在信息检索中得到了运用。移动a g e n t 能够在在网络中动 态执行,异步运算,并行求解。它是一种新型分布式计算技术,利用移动 a g e n t 可以改变传统的w w w 服务模式和信息搜寻方法,降低网络中的信 息流量,提高服务器的服务能力和用户有效获取信息的能力。在构建信息 榆索模型的过程中,使用移动a g e n t 还可以增强信息榆索系统的鲁棒性和 容错性,通过配置足够数目的a g e n t 进行错误监测和修复,可尽快诊断故 障和排除故障,提高检索的精确度,使之能够充分满足用户的检索需求。 第二节论文主要研究内容 本文主要是有关募t - a g e n t 的w e b 环境下信息榆索系统及其实现技术 的研究。j j 要的研究工作是: ( 1 ) 对基于a g e n t 的x m l 文档分布查询技术进行研究,实现半结构 化文档的语义检索。 东南大学硕士学位论文 ( 2 ) 提出基于移动a g e n t 的信息检索模型并讨 移动a g e n t 开发系统 s l z f - ,利用移动a g e n l 实现并行榆索,提高榆索效率。 ( 3 ) 在个性化信息检索中,用多a g e n t 混合智能过滤算法实现信息的 过滤,实现为用户提供用户感兴趣的信息。 第三节论文各章介绍 本文第一章介绍论文的研究背景及主要研究内容。第二章,研究当前 信息检索系统的现状和发展方向。第三章提出了基于a g e n t 的x m l 文档分 布检索模型、基于移动a g e n t 的检索模型和基于个性化的信息检索模型这 三种模型结构。第四章讨论了这三个模型的实现技术:介绍了a g e n t 的开 发语言和a g e n t 的开发平台j a d e ;用j a v a 实现一个移动a g e n t 平台;提 出了多a g e n t 合作过滤算法实现信息过滤。第五章对全文工作进行总结和 展望。 东南大学硕士学位论文 第二章w e b 环境下信息检索系统现状 互联网正成为人们获取信息的主要媒介,如何在浩如烟海的网络信息 资源中快速准确地查询有用的信息是一个重要课题,信息检索系统由此应 运而生。本章研究- w 曲环境下信息检索策略及技术,分析了现有的信息 检索系统的现状,并讨论了现有系统的不足。 第一节w e b 信息检索策略及技术 信息检索并不是w e b 所特有的一个研究课题,w e b 环境下信息检索系 统作为一种新型检索模式,主要特性在于网络环境引起的信息资源分布化, 从而引起了信息检索过程的变化。本节讨论w e b 信息检索的几种策略和技 术。【翁惠玉,1 9 9 3 】 1 基于网页名称的搜索策略 第一代搜索引擎,如早期的y a h o o 等,所使用的搜寻方法是:网页构 建人可以将自己网站加入搜索引擎的资料库中,自行命名自己的网站,并 用文字描述自己的网站。而在使用者键入搜索条件后,搜索引擎会找出和 搜索条件一样或相近的网站或网页的名字来描述。换句话说,第一代的检 索系统希望网页构建者自行决定可以代表自己的网站的词句,如“音乐和 游戏的下载”或“模拟器之家”等。其最大的缺点就是无法针对网页内容 进行检索。正因如此,第二代的搜索引擎便应运而生了。 2 基于网页内容的搜索策略 相对于第一代搜索引擎的“由网页构建人自行键入资料”,第二代搜索 引擎不需要键入任何资料,取而代之的是由搜索引擎使用一个r o b o t 程序, 让它在网络上提取资料,并自动将取得的结果存入资料库中。也就是说: 如果你建立了一个网站,并将它公布在网络上,则r o b o t 随时有可能将你 的网站及相关的所有网页加入它的资料库中。因此,搜索的是网页的内容。 这正是第二代搜索引擎最强大的地方。其最大的缺点,就是它所搜索到的 记录实在太多,以致使用者真正想要的资料有时候无法精确地被显示在前 几页。因此,如何从如此庞大的资料库中精确地找到正确的资料,就成为 下一代信息检索系统的重要课题了。 查堕查兰堡主堂垡丝奎一一 3 个性化信息服务技术 个性化信息服务是近年来的研究热点,体现了一切以用户需求为中心 的思想。它的实现可分为两个主要部分:一、个性化信息服务实现的关键 在于用户兴趣的建模以表达用户个性化需求;二、根据用户兴趣模型对文 档信息进行加工、过滤实现个性化的信息服务。 4 智能信息检索技术 智能信息检索技术能满足人们在信息检索时的个性化要求,采用相关 反馈学习算法和基于多用户个性化模式的层次智能信息过滤算法,去除大 量与用户兴趣不相关的文档。通过用户和搜索引擎等的交互机制,智能地 适应用户兴趣的变化和环境的变化。 第二节现有的w e b 环境信息检索系统 目前在w e b 环境下的网络信息检索系统主要有以下几种:【王继成, 2 0 0 i 】 1 i n f o s e e k i n f o s e e k 将其搜索内容分成1 2 个类( 如:每个类有若干个子类。搜索 在每个子类中进行。搜索内容为全文。用户通过关键词进行搜索。一次可 输入若干个关键词。关键词之间用布尔运算符a n d 和n o t 连接。输出结 果按每个命中条目的得分排序。 图2 1l n f o s e e k 的界面 2 y a h o o y a h o o 在它的主菜单中提供了1 4 个主类,每个主类有一些子类。每个 子类提供大量的可供检索的条目。用户通过关键词进行检索。关键词之间 可用布尔运算符a n d 或o r 连接。除了关键词的完全匹配之外,y a h o o 还 东南大学硕士学位论文 提供关键词的部分匹配。它还允许将搜索限制在新加入的条目中。 3 - o p e n t e x t l n d e x o p e n t e x t l n d e x 不提供分类,但提供二级关键词检索:简单检索和强化检 索。简单检索中,用户可选择检索词或词组。强化检索可有5 个关键词输 入字段。对每个输入字段,用户可选择搜索范围,如全文或标题等。用户 也可用运算符列选择输入字段间的布尔运算符。可选的布尔运算符有 a n d 、o r 、n o t 或n e a r 。运算符按出现次序起作用,而不是按运算符 的优先级。检索结果按得分排序。 图2 2 o p e n t e x t i n d e x 的界面 4 a l t a v i s t a a l t a v i s t a 提供关键词检索。它提供两种搜索模式:简单搜索和高级搜索。 在简单搜索模式中,只能输入关键词且关键词之间用or 连接。在高级搜 索模式中,允许输入关键词和输出标准,且允许显式指定布尔运算符:a n d , o r ,n e a r 和n o t 。 5 w e b w a t c h e r 【t h o r s t e nj o a c h i m s ,l9 9 7 】 w e b w a t c h e r 能够根据用户当前输入的兴趣关键字,主动为用户提供浏 览建议,通过高亮显示相关链接,引导用户察看他们感兴趣的事务。在用 户浏览过程中,w e b w a t c h e r 将一直跟随用户,用户可以通过一组命令与 w e b w a t c h e r 进行交互,给出相关反馈。w e b w a t c h e r 通过对用户浏览行为的 跟踪学习,逐步改进自身,使推荐的信息更符合用户的需求。它的浏览式 检索系统提供给用户的信息是全局的,用户通过这种全局信息逐步深入发 现自己感兴趣的信息。系统通过对用户选择“链路”或站点跟踪学习来改 善导航的质量。 东南大学硕士学位论文 第三节目前信息检索系统存在的问题 通过分析,可以发现目前的信息检索系统存在着以下一些问题: 1 检索的精度差。对一个查询请求会返回成百上千的查询结果,而真 正是用户所需的查询结果并不很多。 2 缺少基于语义的概念检索。目前大多是基于内容的查找,在语义和 概念层次的查找将很大提高检索的精确度。 3 有限的查询方式。现在的搜索引擎都是基于关键词进行查询的,导 致查询请求的表达能力有限。 4 现有的大部分搜索引擎对i n t e m e t 上的用户都是普遍适用的,因而力 求索引的主题的覆盖面尽量广泛,这样对具体的用户针对性就比较差。 5 缺少用户兴趣的学习和根据用户兴趣对信息进行过滤的智能的个性 化服务。 针对现在的信息检索中存在的种种问题,我们 ( 1 ) 提出了基于x m l 文档的信息检索模型实现语义层次上的概念检 索; ( 2 ) 提出一个基于移动a g e n t 的信息检索模型,通过并行检索,提高 分布式网络环境中的信息检索效率; ( 3 ) 提出基于a g e n t 的个性化信息检索模型,实现w 曲环境下用户 个性化信息服务。 东南大学硕士学位论文 第三章基于a g e n t 的w e b 信息检索模型 将a g e n t 技术引入信息检索系统对于提高检索效率、增强系统的智能 性、实现个性化和概念检索等方面有着重要作用。在基于a g e n t 的信息检 索系统中,怎样快速准确地查询大量的文档信息,与系统的结构、文档的 表示以及查询的方法有着重要联系。本章首先介绍a g e n t 和移动a g e n t 的 基本概念;然后介绍以x m l 文档为检索单位的查询以及用x m i 。表示本体 实现概念检索的技术,探讨基于a g e n t 的x m l 文档的分布检索;接着介绍 基于移动a g e n t 的信息检索模型和其中移动a g e n t 的通讯机制;最后,介 绍基于a g e n t 的个性化信息检索系统。 第一节a g e n t 和移动a g e n t a g e n t a g e n t 的中文译名有很多:智能体、智能代理、主体及代理等,但一般 趋于不翻译。大多数a g e n t 研究者认为a g e n t 是具有智能、自治和感知属 性以及能与其它a g e n t 进行协调、合作并具有目的行为的计算机硬件或软 件。a g e n t 的特性主要包括: ( 1 ) 自主性( a u t o n o m y ) :a g e n t 具有根据其意图、愿望、信念或习 性,在没有外加控制的情况下,自行决策,采取自主行为的性能,称为“自 主性”。 ( 2 ) 主动性( p r o - - a c t i v e n e s s ) :传统的应用程序是被动地由用户来运 行的而且机械地完成用户的指令;而a g e n t 具有根据内部状态和外部环境, 产生面向预定目标的主动行为的性能,称为“主动性”或“预见性”。 ( 3 ) 反应性( r e a c t i v i t y ) :a g e n t 具有接受外部输入刺激,感知周围环 境变化,作为代理、接受委托、遵循承诺,产生输出反应动作和行为的性 能,称为“反应性”。 ( 4 ) 社会性( s o c i a l i t y ) :a g e n t 能够通过某种a g e n t 通信语言与其它 a g e n t 交互,还可以分工合作、协同解题,组成多a g e n t 的社会或群体,具 有“社会性”或“群体性”。 ( 5 ) 移动性( m o b i l i t y ) :a g e n t 可在所处环境中随意移动,访问各种 有关场合的服务设备,具有获取信息、查询数据、传递消息、提取知识、 执行命令、采取行动的性能。 东南大学硕士学位论文 二二 移动a g e n t 移动a g e n t 是具有移动性( m o b i l e ) 的a g e n t ,它可以自主地在网络上 从一台主机移动到另一台主机,并代表用户完成指定的任务,如计算、检 索、过滤和收集信息,甚至从事商业活动。因此,移动a g e n t 是一类在特 定环境下感知环境,并能自治地运行以代表其设计者或使用者实现一系列 目标的计算实体或程序。在网络环境一l - ,利用移动a g e n t 具有下述渚多优 斡: 1 i 嘲络流量减少。移动a g e n t 能自主地在网络中移动、执行,并且可 以自我克隆,从而动态地在网络中地多台主机上运行,降低了网络的流壁; 2 异步的自主交互。即使委托它的实体已经不处于活动状态,它仍然 可以代表原实体运行预定的任务。例如,一个移动a g e n t 可以在用户主机 关机的情况下代表用户在网上搜索他感兴趣的信息,在主机重新运行的时 候移动a g e n t 再把所搜集到的信息返回给用户; 3 提高网络服务的鲁棒性和容错能力。例如,对网管系统,通过配置 足够数目的a g e n t 进行错误监测和修复,可尽快诊断故障和排除故障; 4 对异构系统的支持。目前,多数移动a g e n t 系统都采用对a g e n t 代 码进 j :序列化的方法,使用与平台无关的j a v a 语言作为实现语言,使得 a g e n t 的代码和数据能在不同的平台上运行: 一个完整的移动a g e n t 系统由用户接口a g e n t 、服务请求端的移动 a g e n t 、服务器端的服务环境移动a g e n t 宿主机( 移动a g e n t h o s t ,或称移 动a g e n t 服务器) 和停泊码头( d o c k ) 四部分组成。移动a g e n t 系统的模 板结构如图3 1 所示。在图3 1 中,无数个宿主机相连构成i n t e r n e t 环境, 移动a g e n t 服务环境驻留在某些宿主机上并通过a t p ( a g e n tt r a n s p o r t p r o t o c 0 1 ) 协议与i n t e r n e t 通信,移动a g e n t 在各个宿主机上移动并通过a c l ( a g e n tc o m m u n u c a t i o nl a n g u a g e ) 与移动a g e n t 服务环境以及其它移动 a g e n t 通信。用户接口a g e n t 位于宿主机上且不属于移动a g e n t 服务环境。 移动a g e n t 停泊码头是位于i n t e m e t 上的一台主机。 用户接口a g e n t ( u s e ri n t e r f a c e a g e n t ,u i a ) 是一种静态a g e n t ,用户通过 它与移动a g e n t 进行交互,主要用于接收用户的输入表达式和向用户输出 结果。 移动a g e n t 停泊码头( m o b i l ea g e n td o c k ,m a d ) 是为了适应低可靠 性网络和解决网络拥塞而设置的移动a g e n t 转移系统,向移动a g e n t 提供 暂存服务。移动a g e n t 移动到m a d 后,m a d 会根据网络和自身的负载情 东南大学硕士学位论文 况将移动a g e n t 的部分或全部从内存卸载到硬盘上。一旦具备传送条件 就激活移动a g e n t 并将其传回到源主机。 用户 图3 1 移动a g e n t 体系结构 第二节w e b 环境下基于a g e n t 的【l 信息检索模型 x m l 作为一种信息表达的方式在个性化信息服务中也有蔫广阔的应 用前景,利用它可以在互联网上方便地进行数据交换和处理。x m l 的可扩 展性、灵活性、自描述性等特点是现有的h t m l 无法比拟的。x m l 将成 为下一代w e b 信息的载体,也将是个性化信息服务的基础。对于从概念、 语义的层次上提高信息服务的质量起着巨大作用。本节介绍基于x m l 的两 种信息检索类型和基于a g e n t 的x m l 文档分布检索模型。 一x m l 的概念 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展置标语言) 是可扩展的置 标语言。它是由w 3 c 于1 9 9 8 年2 月发布的一种标准,它将s g m l 的丰 1 0 东南大学硕士学位论文 富功能与h t m l 的易用性结合到w e b 的应用中,以一种开放的自我描述方 式定义了数据结构,在描述数据内容的同时能突出对结构的描述,从而体 现出数据之间的关系。这样所组织的数据对于应用程序和用户都是友好的、 可操作的。 x m u 】:丁以将数据用结构化的方式表示出来。x m l 数据文档中的基本单 位是元素( e l e m e n t ) ,它的语法格式如下 文本内容 元素是由起始置标、元素的文本内容和结束置标组成。用户把要描述 的数据对象放在起始置标和结束置标之间。例如: a l a n x m l 元素中还可以再嵌套别的元素,使相关信息构成层次结构。 二x m l 文档的检索方法 设计基于x m l 的检索系统的前提是: ( 1 )在有些领域,比如数学、化学、多媒体等领域已经建立起了文档 结构的标准。但是对于其它大部分领域,标准的指定都还是一个困难的问 题。 ( 2 ) w e b 站点的制作者需要按照标准的结构对本站点的网页进行标 注。编辑者需要了解网页的上下文关系以及标注网页所应该采用的标准。 ( 3 ) 查询系统需要了解每一个被索引文档的标准结构。这一工作对于 本地文档或是i n t r a n e t 上的文档是容易做到的,但对i t t t e m e t 上采集的文档 就不是那么容易了。 目前,基于x m l 的检索有两种信息检索单位:第一种是以文档为检索 单位,第二种是以文档中的被标注元素为检索单位。这两种方法之间的主 要区别是: ( 1 ) 第一种查询方法把整个文档看作一部分,而第二种查询方法关心 的是文档中的由置标标注的数据段。 ( 2 ) 第一种查询方法返回的结果是符合查询条件的一个文档集,而第 二种查询方法返回的结果是从文档中抽取出来的数据,例如一个被标注的 数据或是多个数据集。 ( 3 ) 除了查询操作,第二种查询方法还可以在查找到的数据的基础上 进行计算和格式转换,合并多个数据中的数据,甚至自动对文档进行更新; 而第一种查询方法并不做这些事情。 下面分别介绍这两种检索方法。 东南大学硕士学位论文 1 以x m l 文档为检索单位的查询 x l v l l 文档的解析 对于x m l 文档的解析要完成的工作是把x m l 文档中的词以及对应的 上下文置标抽取出来。例如,对于文档3 2 : k e y b o a r d 6 0 m o u s e 4 0 图3 , 2x m l 文档例子 其中词“k e y w o r d ”所处的置标为“i t e m ”,“i t e m ”所处的置标为“c o m p u t e r ”, 那么“k e y b o a r d ”所处的完整的上下文置标为“i t e m 一 c o m p t e r ”。 图3 3x m l 文档在计算机中的表示 其中,“a 一 b ”表示a 处于b 所处的置标之中。一般来说,在x m l 文档 中,一个词完整的上下文置标是从它所处的置标开始的,沿着置标的嵌套 层次向上,直到x m l 文档的根元素置标。当在计算机中表示此x m l 文档 东南大学硕士学位论文 时,我们把它表示为一棵树,其中数据部分出现在这棵树的叶子节点,如 图3 3 所示。 对词和置标建立索引 为了加快对用户检索要求的响应速度,需要给采集到的数据建立索引。 目前,通常采用倒排表的方式。在这种方法中,每个文挡都可以用一系列 关键词来表示,从检索的目的来说,这些关键词描述了文挡的内容。对于 每个关键词,都有一个指针表。该表中的每个指针指向置入文件( p o s t i n g f i l e s ) 中的某个合适的文挡。当用户提出查询请求的时候,搜索引擎在索 引文件中找到根据用户要求形成的关键词,并根据此关键词的指针表把此 关键词所存在的文档检索出来。 在对以前的非结构化的文档数据建立索引的过程中,要保存的最重要 的信息是文档中词项的信息,即某一个词项在哪篇文档中出现,出现了几 次,以及出现的位置。在对x m l 这种半结构化的文档数据建立索引时,就 要保存更多的信息,否则在源x m l 文档中的信息就会丢失。这其中要保存 的信息包括: 出现在两个置标中的文档词项的信息 置标中的词项信息 文档中置标的嵌套层次信息 我们设计如图3 4 所示的数据结构,在不丢失文档数据信息的条件下, 索引尽可能少地占据磁盘空间,并目具有较快的检索速度。其中每一个节 点中的数据结构见图3 5 。 l 桐节占节占1节占2 l 相节点节占1节占2 l 榍节点节点1节占2 网 嗣 睦爿 匝五工五互工互匠 图3 4 索引表1 图3 5 节点结构 东南大学硕士学位论文 索引的结构具体描述如下: 索引表主要是由两个表组成的,其中索引表l 存放的是每上个文档中 的置标信息。为了保存置标的层次信息,对x m l 文档进行先序遍历,在每 个置标中记录此置标的名称以及它的父置标的位置,也就是在此索引表1 中的偏移值。这样就可从一个文档中的某一个置标开始,顺次向上查找。 同时,建立一个置标栈s ,从一个x m l 文档的根元素开始,把它存入索引 表1 ,并把根元素置标和它在索引表1 中的偏移值压入s 中。在下面对文 档的遍历中,如果碰到的是词,就把s 中的栈顶置标取出,并把它和词、 词所在的x m l 文档以及置标的偏移位送到索引表2 中建立索引;如果碰到 的是置标,就和s 的栈顶置标进行比较。如果不相同,就把它和栈顶置标 ( 也就是它的父置标) 的偏移位存入索引表1 ,并把此置标和它在索引表l 中的偏移值压入到s 中,如果相同,就弹出s 的栈顶置标。 索引表2 采用的倒排结协,对于文档空间中的所有词,在索引表2 的 左边都有相应的项。这些词是按字母序顺序存放的,当在其中查找时可以 采用二分法,以加快查找的速度。每一项都含有指向包含此词的文档信息 的指针。对于由索引表1 送来的词、所在的x m l 文档以及置标和置标的偏 移值,如果此词已在索引表2 中存在,就把这些信息插入到对应的词的置 入文件中;如果此词在索引表2 中还不存在,就把此词加入到索引表2 ( 见 图3 6 ) 中。 查询的实现 单词文档1b 标偏移值 单词文档2 惶标偏移值 单词文档nk 标偏移值 图3 6 索引表2 在进行检索时,首先在索引表2 的左部找到用户输入的关键词,通过 指针找到此词出现的文档的位置。如果用户没有限定文档的类别,那么对 于包含此词的每一个文档都进行下面的运算:如果用户限定了文档的类别, 东南大学硕士学位论文 那么只在符合此类别的文档中进行下面的运算: ( 1 )建立一个栈n 。 ( 2 )如果用户输入的是层次式置标m ,把此置标压入栈n 中,转步 骤( 2 ) ,如果用户只输入了一个置标,判断此置标是否和索引表2 中记录 的置标一样,如果一样,此文档符合用户的要求,返回此文档,退出运算; 如果不一样,根据文档号找出此文档在索引表1 中的位置,进行步骤( 2 ) 。 ( 3 )如果置标的偏移值不为0 ,根据置标偏移值在索引表1 中定位( 此 时得到的是原置标的父置标在索引表1 中的偏移值) ,否则转步骤( 4 ) ( 此 时指针已移到了x m l 文档的根置标) 。移动指针到父置标,对于用户只输 入了一个置标的情况,判断此次两个置标是否相同,如果相同,返回此文 档,退出运算;如果不相同,循环进行此步骤。 ( 4 )此文档不符合用户要求,退出运算。 2 运用x m l 的本体表示及概念榆索 本体是共享概念模型的形式化规范既明,是一种明确定义和说明领域 概念化模型的技术。研究人员使用它描述概念的语义,对站点内的信息进 行分类。形式化定义的本体不仅能够以面向对象的方式描述特定领域的主 要概念,而且能够描述概念之间的关系。作为一种有效表现概念层次结构 和语义的模型,本体得到了许多专业人员的极大关注,并被广泛地应用到 计算机科学的众多领域。 在具体的应用中,本体可用概念图的形式表示并存储,此时数据可以 采用概念圈的落找匹配技术来完成信息检索。也可使用种描述语言( 如: l o o m 【r mm a c g r e g o r ,1 9 9 1 】,o n t o l i g u a l 【trg r u b e r ,1 9 9 2 】) 进行表示, 此时可以采用描述语言的逻辑推理能力来完成信息检索。 鉴于x m l 和本体都可以用带置标的有向图来表示,x m l 可以用来 表示并保存本体,并用x m l 的查询语言来实现本体中的概念的检索。 本体及其表示工具l c g 本体包括两个基本的要素:概念和概念之间的关系。利用形式化理论 可以如下定义一个本体o n t of d ,r j : ( 1 ) 0 是o n t o 上的概念集; ( 2 ) r 是d 中概念之间关系的集合。 东南大学硕士学位论文 基于上述本体的形式化定义,文献【ng u a r i n o ,1 9 9 9 提出以l c g ( 词汇概念图) 来表示本体的方法。l c g 是一种带标签的有向图,其中 顶点表示概念,有向边表示关系,顶点中的词汇代表概念的名称,有向边 上的词汇表示连接的两个顶点( 概念) 之间的关系。 下图给出了一个l c g 表示的本体。其中0 = ( m o u n t a i nb i k e ,t e a m f r s ,c o u n t r y r i d e ,t u b i n g ,t r a n g l e ,7 0 0 0s e r i e s ,a l u m i n u m ) ,月= ( m o d e l , p a r t ,p u r p o s e ,s h a p e ,m a t e r i a l ) 。 有序对( t u b i n g ,s h a p e ,t r i a n g l e ) 语义为概念t u b i n g 的s h a p e 是 t r i a n g l e 。 图3 7l c g 表示的一个本体 用x m l 表示本体及概念检索 本体和x m l 的一致性表现在它们都可以用l c g 来抽象地表示。为了利 用x m l 强大的查询语言来实现对本体中概念的检索,可以用x m l 来表示本 体,从而达到检索概念的目的。 对于给定的一个本体o n t o 阳,月,。其中d 一白,0 2 ,o n ) 是 o n t o 上的概念集:r = 一j ,r 2 ,删是0 中概念之间关系的集合。按如 下的步骤可实现x m l 来表示o n t o 。【邓志鸿,2 0 0 2 ( 1 ) 用l c g 表示o n t o ( 2 ) l c g 中的非叶顶点( 概念) o i 都转换成x m l 中的元素 s , s n 子树图; 东南大学硕士学位论文 ( 3 ) l c g 中的边上的词汇也转换成l 中的元素,s = s : ( 4 ) l c g 6 p 的叶顶点o g 都转换成x m l 中相应元素的文本内容,s = 0 ,; ( 5 ) 按照l c g 中的层次结构合成步骤( 2 ) 、( 3 ) 和( 4 ) 产生的结果, 形成x m l 文档。 按照上述转换步骤,可以用下面所示的x m l 文档来表示劂3 7 所示的本 体。 目前,得到广泛承认的x m l 查询语言有x q l 和x m l q l ,其中最为流 行的是x m l q l 。x m l q l 是t 扫a t & t 提出的一种基于x m l 的查询语言。 它能对x m l 文档进行查询、构造、转换和集成。它集中了查询语言技术和 x m l 语法格式,通过说明路径表达式和模式的方式,给出x m l 数据的提取 条件( w h e r e 予句) 。同时订l q l 中可以给出构造查询输出的x m l 数据 的模板,其输出结果仍为“l 文档( c o n s t n j c t 子句) 。椒n x m l o l 来分析实现本体中概念检索的机制。 t e a mf r s t r i a n g l e 7 0 0 0s e r i e s a l u m i n u m c o u n t r yr i d e 图3 8 图3 7 所示本体的x m l 描述 x m l q l 利用路径表达式( p a t h e x p r e s s i o n ) 和模板( p a t t e m ) 来实现 对x m l 中数据的检索。该语言基本语法结构是w h e r e c o n s t r u c t ,其 中w h e r e 部分指明检索的对象、变量和条件,而c 0 n s t r u c t 部分指明要 检索出的结果,如: w h e r e s p r i n g e r s a 东南大学预士学位论文 s y i n “幽型:a :b :鱼i b :k 盟! ”, 1 9 9 7 2s y a n d s y 2 2 0 0 3 7 c o n s t r u c ts a 该例中w h e r e 部分指明要检索的x m l 文档来自竖型:垒! ! 鱼i :k 婴! ,目 标是要找出文档中所包含的、满足一定条件的书,这些书是哇t s p r i n g e r 版 社出版,出版的时间是在】9 9 7 和2 0 0 3 年之间。c o n s t r u c t 部分指出只要 求返回书的作者。 利用x m l q l ,可以实现本体中概念的结构检索。假定上述本体的x m l 描述保存在e :l x r n l b i k e x m l 中,对于查询1 “款式为t e a mf r s 的山地车的 车体是由什么材料做成的? ”可由下面的x m l - - q l 实现。 w h e r e t e a mf r s s m i n “c a x m l b i k e x m l ” c o n s t r u c ts m x m l q l 是一种表达能力非常强的查询语言。在一定条件下具备与关 系代数和关系演算一样强的描述能力。该语言能实现嵌套查询,查询结果 分组、查询结果排序等。充分利用x m l q l 的检索能力,能有效地实现本 体中的概念检索。 三 基于a g e n t 的x m l 文档分布检索 1 基于a g e n t 的x m l 文档检索结构 基于a g e n t 的x m l 文档检索模型包含以下a g e n t s : 用户接口a g e n t ( u s e r i n t e r f a c e a g e n t ) 、匹配a g e n t ( m a t c h m a k e r a g e n t ) 、 资源管理a g e n t ( r e s o u r c e a g e n
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- CN120204074A 一种保湿修护组合物、应用和化妆品
- 热点练14 议论文阅读论据位置判断及分析-2024年中考语文专练(原卷版)
- 暑假综合提升试题-2025年暑假人教版七年级数学下册
- 人工智能通识教程(微课版) 课件 04 人工智能技术的觉醒-深度学习技术框架 02
- CN120197571A 应用于pocv分析模式的时钟网格仿真时序标注方法及装置
- 老人肠道养护知识培训课件
- 宇宏健康花城消防施工合同2篇
- 2025年度房产代持及市场推广服务合同
- 2025测绘信息保密与知识产权保护合同范本含保密期限
- 2025年度教育机构贷款担保保证合同范本
- DB34T 3572-2019 大型超导磁体真空压力浸渍技术规程
- 6.1生物有共同祖先的证据高一下学期生物人教版必修二
- 消防维保质量保证综合体系
- 银行转账截图生成器制作你想要的转账截图
- 低血容量休克护理业务学习
- 2024国内各省市五星级酒店分布表全套
- 2025届新高考地理热点复习东北冷涡
- 妊娠期糖尿病药物治疗
- JJG 621-2012 液压千斤顶行业标准
- 供电一把手讲安全课
- JTG∕T F30-2014 公路水泥混凝土路面施工技术细则
评论
0/150
提交评论