




已阅读5页,还剩58页未读, 继续免费阅读
(管理科学与工程专业论文)基于xml的移动信息检索模型研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理: 人学硕士学位论文 摘要 近年来,信息检索技术的出现,给人们获取信息带来了极大的方便,而x m l 在信息 管理、电子商务、移动通信、网络教育、电子文档交换等诸多领域也有很广泛的应用。 本文设计了一个基于x m l 的移动信息检索系统,主要包括索引库的建立、关键词加权、 检索、相似度计算几个部分。 尽管目前基于x m l 的信息检索模型研究与应用已经取得了很大进展,但在检索方面 仍然存在一些问题,如何能使权重更加反映用户的需求,如何能够使检索的查全率与查 准率获得提高,如何能够使x m l 文档结构和内容信息得到充分的挖掘。 针对上述问题,本文根据实际需求,在深入研究分析) ( m l 与向量空间模型的基础上, 建立了基于内容和结构的倒排索引库,并将各种加权方法应用到x m l 信息检索领域中, 提出了领域词典加权、结构位置、节点距离加权共同作用进行加权的方法。文中详细描 述了基于模型的原型系统的总体设计、实现和相关的算法。 本论文的主要工作如下: l 、提出了原型系统的框架设计,并且介绍了此原型系统的设计思路、技术路线以及 各个主要的模块的功能。 2 、给出了索引库的建立方法、关键词加权的三种不同方法的结合公式、查询与文档 之间的相似度计算、检索以及移动设备接口实现的主要算法。 3 、实现了一个基于x m l 的移动信息检索系统,利用j a v a 平台实现,并应用s e r v l e t 和j d b c 实现移动客户端数据的传输以及对数据库的访问。 4 、通过对召回率一精确率血线的数据进行分析,分析原型系统对于召回率和精确率 的提高。 本研究工作的开展,主要是为了解决现实问题,满足当前应用需求,同时积累系统 开发研制的经验。基于x m l 的移动信息检索模型的研究与开发具有一定的应用价值和学 术价值。 关键词:x m l ;向量空间模型;移动信息检索;关键字加权 王艳萍:基于x m l 的移动信息检索模型研究 r e s e a r c ho nx m l - b a s e dm o b i l ei n f o r m a t i o nr e t r i e v a lm o d e l a b s t r a c t r e c e n t l y , i n f o r m a t i o nr e t r i e v a lt a k e sm u c hc o n v e n i e n c et op e o p l e sl i v e s a n dx m l h a s w i d e l yb e e n u s e di ni n f o r m a t i o nm a n a g e m e n t ,e c o m m e r c e ,m o b i l ec o m m u n i c a t i o n , e - l e a r n i n g ,e x c h a n g eo fe d o c u m e n t sa n de t c t h e r ea r e4 s e c t i o n si nam o d e lt h a tf o c u s e do n t h er e s e a r c ho nx m l - b a s e dm o b i l ei n f o r m a t i o nr e t r i e v a l ,t h e ya r e :t h es e tu po fi n d e x , w e i 曲r i n g ,r e t r i e v a la n d t h ec o m p u t i n go fs i m i l a r i t y t h o u g hb i ga d v a n c e m e n th a s b e e no b t m n e di nt h ed o m a i n ,t h e r ea r em a n yp r o b l e m ss t i l l l e f t s u c ha s :h o wt or e f l e c tt h ed e m a n do fu s e r s ,h o wt od e v e l o pp r e c i s i o na n dr e c a l l ,a n d h o wt om i n i n gm o s to ft h ei n f o r m a t i o ni nc o n t e n ta n ds t r u c t u r eo fx m ld o c u m e n t s i no r d e rt os o l v et h e s ep r o b l e m s ,s t u d y i n ga n da n a l y z i n gx m la n dv e c t o rs p a c e , i n f o r m a t i o nr e t r i e v a lt h e o r i e sd e e p l ya r ev e r yi m p o r t a n t ,a n dt ob l e n dc o n t e x td a t a b a s e , p o s i t i o no fs t r u c t u r ea n dd i s t a n c eo fn o d ei n t ox m l - b a s e d i n f o r m a t i o nr e t r i e v a lm o d e l ,t h e na m e t h o di n c l u d e sc o n t e x td a t a b a s ew e i 曲r i n g ,s t r u c t u r ep o s i t i o na n dn o d ed i s t a n c eh a sb e e n p u tf o r w a r d t h es u m m a r yd e s i g n ,r e a l i z ea n dt h ei m p l e m e n t a t i o no fr e l a t e da r i t h m e t i ca r e g i v e n t h ec o n t e n t sa r ea sf o l l o w s : 1t h es t r u c t u r ed e s i g n i n go fa r c h e t y p es y s t e mi sd e v e l o p e d ,a n di t si m p l e m e n tp a t ha n d m a i nm o d e l sf u n c t i o na l s oh a v e b e e ni n t r o d u c e d 2t h es e t u po fi n d e xd a t a b a s e ,a n d3m e t h o d s f o rk e y w o r d sw e i g h t i n g ,a n dt h e c o m p u t i n go fs i m i l a r i t yb e t w e e nq u e r ya n dd o c u m e n t ,a n dt h em a i na r i t h m e t i co nr e s e a r c h a n dm o b i l ec l i e n ts e r v e ra r ea l li m p l e m e n t e di nt h i sp a p e r 3a nx m l b a s e di n f o r m a t i o nr e t r i e v a ls y s t e mi sr e a l i z e db a s e do nj a v ap l a t f o r m ,w i t h s e r v l e ta n dj d b ct oi m p l e m e n tt h ed a t at r a n s f e ra n da c c e s s i n gt od a t a b a s e 4t h e r e c a l l p r e c i s i o nc u r v e i sa n a l y z e da n dg o tt h ei m p r o v e dr e s u l t t h ea i mi st os o l v es o m ea p p l i e dp r o b l e m sa n di nt h em e a nw h i l ea c c u m u l a t es o m e e x p e r i e n c e f o ra p p l y i n gs y s t e m t h e r ea r eg o o da p p l i c a t i o na n ds c i e n c ev a l u ei nt h e x m i ,一b a s e dm o b i l ei n f o r m a t i o nr e t r i e v a lm o d e l k e yw o r d s :x m l ;v s m ;m o b i l ei n f o r m a t i o nr e t r i e v a l ;k e y w o r dw e i g h t i n g 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 作者签名:量监日期: 蒯,2 王艳萍:基丁x m l 的移动信息检索模型研究 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用 规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论 文。 作者签名: 导师签名 碰年月上日 6 0 火连理工人学硕士学位论文 l 引言 1 1 问题的提出 随着i n t e r n e t 及相关技术的发展与成熟,在网络上检索信息已成为当今以至未来社 会人们获取信息的重要手段,环球信息网是i n t e r n e t 的关键技术之一,也是i n t e r n e t 上 最受欢迎,最为流行的信息检索系统。其目的是开发一个在全球范围内易于访问的跨计 算机平台的分布式超媒体系统。它能够把各种类型的信息资源有机地结合在一起,使用 户能够在i n t e r n e t 上查找已建立在网络服务器上的超文本,超媒体资源文件。网络上的 信息量不断积累,网络的信息需求也在不断增加,已经不能够单纯地靠手工查找或组织 所有的信息,人们迫切需要能够快速、准确、经济地查找某个主题全部信息的信息检索 系统。 信息检索技术的出现,曾一度给人们带来晾喜,并且目前也被广泛应用。但由于多 数信息检索技术处理信息的方法都比较原始,即通过对页面迸行索引和关键词匹配来 满足用户的检索请求。这种方法有其自身难以克服的缺点: ( 1 )任何一个信息检索系统的索引也无法覆盖整个网络资源,因而,其返回结 果是不完全的: ( 2 )由于采用简单的关键词匹配模式,信息检索系统对一条检索请求可能返回 数以千计的结果,而且其中常涉及一些无关的结果,用户必须在此基础上对结 果进行二次筛选,这不仅增加了用户的负担,同时也降低了处理效率。 因而,人们期待着更为有效的信息检索工具的出现。新的信息检索工具应尽可能满 足不同用户的个性化需求,在检索的准确性和有效性方面达到要求。 1 2 信息检索基本概念 1 2 1 信息检索的目的 信息检索是指将信息按一定方式组织和存储起来,并针对信息用户的特点需求查找 出所需信息内容的过程。广义的概念包合了信息存储和检索两部分。 1 2 2 信息检索的类型 信息检索的类型有多种划分方法,按检索结果的内容来划分,信息检索可划分为: 文献检索( d o c u m e n tr e t r i e v a l ) 是目前信息检索的主要形式,它是通过二次文献, 包括传统的以纸张为存储介质的手工检索工具和大量的以光、电、磁为存储介质的现代 计算机检索系统,找出所需的一次文献或三次文献。 数据检索( d a t ar e t r i e v a l ) 是以数据为对象的检索,如查找某一数学公式、数据 王艳萍:基于x m l 的移动信息检索模型研究 图表、某一材料的成分、性能等都属于数据检索的范畴。是一种确定性检索。 事实检索( f a c tr e t r i e v a l ) 是以特定的事实为检索对象。事实内容包括大量的科 学事件和社会事件。 概念检索( c o n c e p tr e t r i e v a l ) 就是查找特定概念的含义、作用、原理或使用范 围等解释性的内容或说明。 1 2 3 信息检索的原理 图1 1 文本信息检索基本原理示意图 f i g 1 1t h eb a s i cp r i n c i p l eo ft e x ti n f o r m a t i o nr e t r i e v a ls y s t e m 从本质上讲,信息检索就是对信息集合与需求集合的匹配与选择。 从图1 1 的原理图可以看到,要实现匹配与选择,首先要对信息集合进行特征化表 示,即通过人工或计算机的方法对信息集合进行加工处理,将原来隐含的、不易识别的 特征显性化。这种加工处理工作被称为内容分析与标引,其中,用来表示文档特征的词 条被称为特征项。另一方面,在检索时,也要对用户所提出的信息需求进行分析,提取 概念或属性,并利用与标引过程相同的标识系统( 检索语言) 来表达需求中所包含的概 念和属性。然后再通过匹配和选择机制,对需求集合与信息集合进行相似性比较,最后 根据定的标准选出符合需要的信息。 1 2 4 几神信息检索模型及比较 文本信息检索是一个文本与用户提问比较的过程。在各种媒体的信息检索中,文本 信息检索是信息用户最主要的需求,也是各类信息检索的基础。目前,主要有几种模型 来描述这一过程,即布尔逻辑模型、模糊逻辑模型、向量字问模型和概率检索模型等几 类。 ( 1 ) 布尔逻辑模型 布尔逻辑模型“,”是最简单的检索模型,也是其他检索模型的基础。 大连理工人学硕士学位论文 标准布尔逻辑模型为二元逻辑,即一系列对应于文件特征的二元变量。这些变量包 括从文件中提取的文本检索词,有时也包括一些更为复杂的特征,如数据、短语、私人签 名和手工加入的描述等。在布尔模型中有确切的文件特征表达集合。用户可以根据检索 项在文档中的布尔逻辑关系递交查询。匹配函数由布尔逻辑的基本法则确定。检索时, 检索系统将提问式与文档进行逻辑匹配操作,得出命中文献集合为检索结果。检索结果 一般不进行相关性排序。在检索策略的使用方面,以布尔逻辑为基础的文本检索系统可 能提供位置检索、截断检索以及自然语言检索等检索手段。所检索出的文档或者与查询 相关,或者与查询无关。a p p l ec o m p u t e r 等美国四家公司联合开发的广域信息服务器w a i s 是因特网上广泛使用的最强有力的全文检索系统,也是布尔逻辑模型应用的典型范例。 除了传统的书目型检索系统外,目前有很多成功的全文检索系统也是采用布尔逻 辑模型为其基本的检索技术的。 ( 2 ) 向量空间检索模型 向量空间模型。“1 用检索项的多维向量空间来表示用户的提问和文本集信息,其中 每一维为一个特征。一个用户提问向量或文本向量的第i 个元素表示用户提问或文本的 第i 个特征的重要度,或称权值。用户提问向量的权值由用户指定:文本向量的权值则 根据特征在文本或文本集中的出现频率决定。提问向量与文本向量间的余弦角通常用来 测定该文本与该用户提问词之间的匹配程度,即相似度。在查询过程中,可以计算出每 个文档与查询的相似度,进而可以根据相似度的大小,将查询的结果进行排序。向量空间 模型不仅可以方便地产生有效的检索结果,而且能提供相关文档的文摘,并进行检索 结果分类,为用户提供准确定位所需的信息。它的缺点是相似度的计算量大,当有新文 档加入时,则必须重新计算词的权值。 采用这种向量检索模型的典型系统就是g 萨尔顿( s a l t o n ) 等人6 0 年代中期开始研 制的试验性系统- - s m a r t ( s y s t e m f o r m e c h a n i c a l a n a l y s i sa n d r e t r i e v a lo f t e x t ) 。 ( 3 ) 模糊逻辑模型 为了处理精度和复杂性之间的矛盾,引入了模糊逻辑模型。3 ,它以隶属函数概念来 描述现象差异的中间过渡。按照相关性的优先次序排出查询结果,在布尔检索中借助模 糊逻辑模型能够克服布尔逻辑查询结果的无序性。模糊逻辑模型以模糊数学作为理论基 础,设置单个的检索词q 在文档d 中的隶属度u ,u o ,1 ,u 越大代表q 和文档d 的相关性越 高。用户给出查询要求,查询模块根据模糊逻辑运算给出查询的结果,在查询结果处理 过程中引入模糊逻辑运算,将所检索的文件信息和用户的查询要求进行模糊逻辑比较, 并能够按照相关度排序。模糊逻辑模型能够克服布尔逻辑模型检索结果的无序性,但是 给查询词设置准确的隶属度有定困难。 ( 4 ) 概率检索模型 在信息检索中存在不确定性问题,对查询本身来说,它不能唯一地表示信息需求,对 王艳萍:基于x m l 的移动信息检索模型研究 于结果来说,不能判定查询结果的正确与否。对于布尔检索也是如此,因为查询的提交 本身就是一种不确切方式。为了解决在布尔检索模型中的不确定性问题,引入了概率检 索模型0 3 。在概率模型中,检索是根据概率排序规则进行的。基本的文本检索推理网络 包括文本网络和用户提问网络。文本网络使用不同的文本表示框架来表示文本集,对每 一个文本集,文本网络只建立一次,且在检索过程中不改变其结构。用户提问网络则只 有一个表示用户提问信息的节点及一个或多个查询表达式。文本网络与用户提问网络之 间的连接则由文本概念表示节点与提问概念表示节点之间的链来表示。不论是文本网络 还是用户提问网络,每一节点有个概率值。节点与节点之间的因果关系表示为:给定 文本节点的先验概率及中间节点的条件概率,就能得到每一节点的后验概率。原始文本 集与用户提问经过概率计算,得到文本与用户提问的匹配程度。该推理机制与入脑思维 模式相似,因此,概率推理网络经提出就受到了广泛重视。 几种检索模型的优缺点比较: 基于布尔逻辑的情报检索是一种基于逻辑判断的检索模型,它使用布尔逻辑提问 方式表达用户需求,该方式有很多优点,如结构简单、层次结构清晰、灵活性好、不管 文件表达形式如何,检索文件都可由正确的查询词确定、与人们的思维方式相近等,许 多人希望采用此种模式进行检索查询。它的不足是很难全面地表达用户需求,对于模糊 的情报需求处理功能不好:对于检索词的重要度不加区分,没有文件相关性排列、影响 准确率;而且文件的选取与否比较严格,布尔查询的建立比较困难,容易出错。 模糊逻辑模型优点是能够实现检索结果排列。但是缺点也很明显,就是给查询词增 加权重比较困难而且检索结果不如向量空间模型。 概率推理模型和向量空间模型都是把检索问题最后归结为一种数值的比较,二者 的用户查询是以一组词及其权值结合而成,最后的检索结果都代表检索文献对用户满 意度的一系列数据,用户可自己控制。这两种检索模型有利于用户用非结构化的形式表 达其信息需求,利于对模糊需求的表达:用户可按照自己的需求对检中文献数量和质量 的进行控制:它们的缺点是用户的需求表达不是很准确,也没有清晰的逻辑层次;而且 这两种检索模型的计算量都非常大,算法复杂,对计算机的存储量、运算速度及软件水 平都有较高要求。 综上所述,以上四种检索模型可随是各具特色,虽然不同检索模型使用的方法不同, 但所要达到的目标是相同的,既按照用户要求,提供用户所需的信息。实际上,大多数 检索系统往往将上述各种模型混合在一起,以达到最佳的检索效果。 1 3 基于x m l 文档的信息检索技术 1 3 1 数据检索与信息检索 在课题讨论中,需要区分信息检索与数据检索这两个概念。两者都是为了满足用户 一4 一 人连理工火学硕士学位论文 的信息需要,根据一定的“提交查询”,从计算机中获得用户想要的信息。它们的区别 有以下几点: ( 1 ) 检索的模式:在数据检索中,用户在建立查询式的时候,他知道数据的组织 结构,或者,他应该知道在什么地方能找到自己所需要的信息。 ( 2 ) 信息的组织模式:在数据检索时,信息被组织在一定的已知的模式中;而信 息检索所面对的是,在大量不存在一定模式或者是模式各异的信息中进行检 索。 ( 3 ) 信息的匹配:在多数情况下,数据检索的过程是个对信息的精确匹配过程; 而信息检索中,对信息的匹配是一种非精确、模糊、部分匹配的过程。 ( 4 ) 检索结构:数据检索中,对于用户而言,所有的结果都是一样的正确,都满 足用户需要:信息检索的结果不一定全是用户所需要的,而且不同的结果满 足用户需要的程度也是不同的。 以上只是原始的数据检索与信息检索的区别,就目前数据库技术与信息检索技术发 展状况而言,它们之间的区别是不明显的,特别是具体技术的运用和相关概念的相互引 入,使这两个概念的区别更加模糊。这里,暂以上面的区别对课题进行讨论。 1 3 2x m l 的特点 x m l 眠1 技术包括x m l i 0 、1 1 规范和命名空间( n a m e s p a c e ) 、扩展样式表语言 x s l ( e x t e n s i b l es t y l e s h e e tl a n g u a g e ) 、d t d $ h s c h e m a 、文档对象模型d o m ( d o c u m e n t o b j e c tm o d e l ) 等。通常将它们混称为x m l 。j ( m l 的特征是数据内容与其表示方式分离, 在此基础上可以通过对x m l 文档的操作来实现对其中数据的处理。 作为一种可扩展置标语言,x m l 具有如下一些特点”1 : ( 1 )元语言:x m l 是一种能够用来创建其它置标语言的元语言,它既可以描述结 构化数据,也可以描述半结构化数据,甚至非结构化数据。可以层次上认为是 从元语言层次上统一了对各类数据的描述。 ( 2 )自描述性:用来描述内容的标记都包含在文档中。 ( 3 )表义性:x m l 标记的自描述性及其与d t d x m ls c h e m a 的结合,使之能够对数 据的语义进行描述。这种描述能够被计算机理解和自动处理,以实现不同系统 之间的数据交换和信息共享。 ( 4 )数据与应用的分离:x m l 只描述数据内容本身,并不规定如何使用数据:同 样的数据,可以有不同的表现,适用于不同的应用。 ( 5 )可扩展性:通过提供个标识结构化信息的框架,允许定义任意一组标记来 满足不同的要求。开发者可以创建自己的d t d ,为不同的应用定制不同的标记集。 ( 6 )开放性:平台独立,x m l 文件为纯文本文件,不受操作系统、软件平台的限 王艳萍:基于x m l 的移动信息检索模型研究 制,且具有良好的技术支持。结构良好的) a l f l 文档可以被容易地进行语法分析。 即使各个公司建立特定的x m l 应用,但x m l 中的数据可以被其他的应用使用。 ( 7 )国际化和本地化:通过对u n i c o d e 的支持,使得x m l 不仅能在不同的计算机系 统之间交换信息,而且能够跨越国境和超越不同文化疆界交换信息。 ( 8 )保值性:作为s g m l 的简化版本,继承了s g m l 对文件保值性的承诺。 ( 9 ) 简单性:聊l 的严格定义和规则集是人和机器都能更容易地阅读文档。x m l 文档建立在基本嵌套结构的基础之上,当新的细节被增加,结构越来越复杂时, 开发人员不需付出很大代价来表示复杂的结构。由于采用纯文本方式,虽然x m l 的目的是用于计算机阅读和理解,但人类同样可以阅读。 由于上述特点,使得x m l 在信息管理、电子商务、个性化出版、移动通信、网络教育、 电子文档交换等诸多领域得到了广泛应用,x m l 已经开始成为i n t e r n e t 上数据描述和交 换的事实标准。随着x m l 技术的不断发展及其应用领域的不断扩展,越来越多的数据开 始采用x m l 进行描述、存储、交换和表现,传统的信息管理技术将会因为) ( m l 文档的出现 而面临新的挑战,跨越不同数据源的面向x m l 文档的信息检索能力变得日益重要。 1 3 3x m l 文本文档信息检索现状 经过近几年的发展,面向x m l 文本文档检索的研究已经有了一定的成果”“1 。 ( 1 ) x x l a n j at h e o b a l d 0 5 3 和g e r h a r dw e i k u m 在中提出了一种可以对x m l 文档中文本信息进 行模糊匹配的查询语言x x h ( f l e x i b l ex m ls e a r c hl a n g u a g e ) 。它的主要做法是在关 系型查询语言( 数据库技术) 的基础上,引入了一个基于文本“语义”的算子一一“ 。 这个算子对x m l 文档中的文本类型的数据进行概率相关( 信息检索技术) 的分析,得到 相关的概率:p ( t c o n s t a n t ) ,其中t 表示符合一定结构要求的某个x m l 标签的文本类 型数据,c o n s t a n t 表示用户提交的文本类型的待匹配数据,r c o n s t a n t 表示t 与 c o n s t a n t 在“语义”上相关的匹配操作。 因为该查询语言来自数据库技术中的关系型模型,所以对于查询语言中的其他算子 o p 的运算视为精确匹配,它们的相关概率,p ( do pc o n s t a n t ) 属于 i ,0 ,表示d 完 全与c o n s t a n t 匹配或者不完全匹配。 在得到基本相关概率的基础上,作者给出如何在布尔条件和结构关系条件下对基本 概率进行计算得到总体相关概率的规则。陔检索方法的返回结果为x 札文档的部分( 如 果将x m l 文档看作是树,则返回结果描述为子树) ,即总体概率为该子树所包含的信息 与用户检索需求相关的概率。然后对检索结果按用户的信息组织结构要求进行重新组 织,最后给出按相关概率排序的结果。 ( 2 ) y o s h lh ik oh a y a s h i 的研究 大连理工大学硕士学位论文 y o s h i h i k oh a y a s h i 介绍了一个x m l 文本文档检索系统“1 的实现。作者认为在任 意结构的x m l 文档信息中检索信息是不可能或者是难以实现的,那么就需要一种方式限 制用户的查询。文中介绍了一种名为“s e a r c hf i e l d ”的概念;首先将x m l 文档视为一 棵数据树,然后将x m l 文档分为上下两个部分,上部分的x m l 文档仍然以树的形式在系 统中索引,即依然保持这部分信息的结构,称为结构索引,而下部分信息中的结构信息 被略去,将其视为一段单纯的、没有结构的文本信息,并以一定的关键词建立索引,称 为关键词索引;同时,限制用户提交的查询,即用户提交的查询中,对于信息的结构条 件应该是被完全包含在结构索引之中的,用户提交查询的结构条件部分不能超过结构索 引的范围;在处理用户查询时,系统首先在结构索引中检索出符合用户查询中结构条件 的文档( 中间结果) ,然后,通过定的信息检索技术( i r ) ,对这些中间结果的文本部 分( x m l 文档的下部分) 做关于关键词的相关分析,得到中间结果的相关度,然后按照 相关度进行排序输出。 其中的主要做法是: 从某种x m l 文档的文档类型定义d t d ( d o c u m e n tt y p ed e f i n i t i o n ) 出发,通过 人工的方式,给出f o r m a tf i l e ,f o r m a tf i l e 描述系统应该为该类型的文档如 何建立索引( 结构索引和关键词索引) ; 根据f o r m a tf i l e ,在文档集中,为一种类型的x m l 文档建立索引的数据结构( 反 向索引文件) ; 为用户提供一个查询接口,该查询接口应该知道文档集在系统中的表现,即知道 系统建立的结构索引和关键词索引,在此基础上,查询接口帮助用户建立“有意 义”、“有用的”查询,并将查询交由检索系统处理。 ( 3 ) x i r q l n o r b e r tf u h r 提出一种结合数据检索与文本检索的检索语言一- - x i r q l o ”,并在基 于逻辑的概率检索模型上对x m l 文本信息分析,得出相关概率。他分析了x m l 的应用环 境,认为有两种不同x m l 的应用:d o c u m e n t c e n t r i c :x m l 的标签在文档中,主要描述 的是文档的逻辑结构;d a t a c e n t r i c :x m l 的结构作为数据交换的格式出现。而对于 d o c u m e n t c e n t r i c 类型的) ( m l 文档,认为应该从信息检索( i r ) 的技术出发,处理信息 的检索问题。他在x q l 的基础上,加入4 个信息检索的特征:计算权重和排序( w e i g h t i n g a n dr a n k i n g ) 、面向相关的检索( r e l e v a n c e - - o r i e n t e dr e t r i e v a l ) 、语义相对主义 ( s e m a n t i cr e l a t i v i s m ) 和模糊谓词( v a g u ep r e d i c a t e s ) ,得到x i r q l 。 主要做法:索引方式与y o s h i h i k oh a y a s h i 的检索系统类似,也是根据一定的原则, 通过d t d ,把该类型的x m l 文档分为若干个索引点,对于索引点内的信息不再考虑其结 构信息,而是看为有意义的一段文档;在此基础上,运用基于逻辑的概率检索模型 ( 1 0 9 i c b a s e dp r o b a b i l i t ym o d e l ) 对检索中的关键词,在一定的结构条件下计算权重, 王艳萍:基于x m l 的移动信息检索模型研究 并最终得到整体的相关分数( r e l e v a n c es c o r e ) ;他认为对于已经结构化了的信息,只 要返回与用户检索相关的部分,就能够很好的满足用户的检索需要,所以,上述的相关 分数为x m l 文档部分信息与用户提交查询相关的程度描述,而结果为x m l 文档的部分, 并按相关分数排序输出结果。 与y o s h i h i k oh a y a s h i 的检索系统类似,系统需要为用户提供一个查询接口,帮助 用户建立“有意义”、“有用的”查询,并将查询交出检索系统处理。 ( 4 ) a p p r o x q l t o r s t e ns c h l i e d e r 以x q l 为基础,提出一种面向x m l 数据类型文档的模式匹配检 索语言一- - a p p r o x q l 和相应的检索算法。其主要做法为:将x m l 文档看成一棵数据树, 而用户提交的查询也被看成一棵树,而检索过程被视为在数据树中匹配子树的过程。 虽然,这是一种x m l 数据类型文档信息的检索( 数据检索) ,但作者提出了一个部分 匹配( p a r t i a ls t r u c t u r a lm a t c h i n g ) 的概念。在x m l 文档的检索中,用户提交查询 的结构部分,可能与事实上存在的文档结构不能完全匹配,但这并不意味不存在用户所 要的信息。这里所说的完全匹配,并不是指作为用户查询结构条件的、标签之间的父子 关系在结果中完全保持。事实上,在上面三种检索系统或者检索方法中、结构条件中, 标签之间的父子关系都可以被结果中的祖先一后代关系满足,即查询过程中,查询中的 父子关系被映射到结果中的祖先一后代关系,在这里,本文将这种映射关系看作是一种 完全匹配的结构匹配。而t o r s t e ns c h l i e d e r 将这映射放宽,为查询中的祖先一后代 关系到结果中的祖先一后代关系。其次,在x m l 文档中,标签之间的距离( 在 ( m l 文档 树形表式下) 远近会导致语义在一定程度上的偏移。而在x m l 文档中检索中,应该考虑 这样的现象。 t o r s t e ns c h l i e d e r 将子树匹配问题中基于编辑代价( e d i t i n gc o s t ) 的匹配方法 引入至x m l 数据文档的检索中,而结果按照子树匹配过程中的编辑代价排序输出。 1 3 4 移动信息技术的特点 j 2 m e 是j a v a2p l a t f o r mm i c r og d i t i o n 的简写。是s u n 专门为小型、资源受限的消 费性电子设备的应用程序开发所提供的j a v a 版本。它广泛的使用于蜂窝电话,双向传呼 机,p d a ,以及电视机机顶盒等众多小型资源受限设备中。 7 2 m e 属于c s 结构,它直接支持互联网络协议,可以直接对互联网进行访问。基于j 2 m e 的应用不再满足只是被动显示的角色,它支持高效率的分布式计算,这一点当移动通信 设备的各种资源,特别是处理能力得到提高以后将更为明显。而且j 2 m e 可以基于设备自 身的特点进行有特点的开发,这必将扩充和增强移动通信设备的各种应用,使各种移动 通信设备更加个性化。 j 2 m e 技术与其他移动技术相比有以下几方面的优点: 大连理工大学硕士学位论文 ( 1 )可移植性。移动客户机应用程序能很容易地被移植到其他遵循j 2 m e 或m i d p 并且符合c l d c 规范的设备上。 ( 2 )更低的网络资源消耗与服务器负载。j 2 m e 客户机应用程序能在断开连接模式 下工作并保持数据的同步。 ( 3 )改善了的g u i 用户体验。j 2 m e a p i 为呈现功能更强的g u i 提供了更大的可能 性,这些增强的功能包括了诸如事件处理和更丰富的图形等方面。j a v a 技术的 发展前景已经很明朗,这可以从移动电话及移动设备上的各种游戏和多媒体消 息传递服务看出来。 ( 4 )m i d l e t 中的动态事件处理。这一功能大大改善可用性和用户体验。 ( 5 )记录管理存储( r e c o r dm a n a g e m e n ts t o r e ( r m s ) ) 。j 2 m em i d p 规范提供一 个面向记录的数据库系统作为持久存储器,即使是在重新引导或电池电量低的 情况下,它们也能够确保记录完好无损。 ( 6 )事务保护。使用j 2 m e 密码技术,就能对整个移动支付事务进行加密。 ( 7 ) 密码技术。j 2 m e 本身提供了面向j 2 m e 的安全性和信任服务。 基于x m l 的信息检索系统有必要提供远程访问、应用及管理的可行性,则j 2 m e 技术 可以提供这种便利,通过j 2 m e 技术远程访问数据库,支持查询、检索功能,以及一定可 能性的管理功能。而鉴于x m l 文档格式的普遍实用性,给信息检索提供了极大的便利。 随之移动设备的广泛普及,移动服务越来越成为人们日常生活、工作中不可缺少的一部 分,伴随着j 2 m e 技术的不断发展与成熟,移动电子商务、远程办公、电子出版等等逐渐 走入普通人的生活中。 1 4 研究问题的提出 1 4 1 存在的问题 在x m l 文档中,信息被结构化组织起来,那么对于面向x m l 文本文档的检索系统, 应该包含结构方面的检索和内容( 文本信息) 方面的检索。而在1 2 4 中提到的几种信 息检索系统或检索方法中,在对结构条件进行匹配的时候,都使用了精确匹配的方式, 这种方式有可能在检索过程中漏掉对用户有用的信息,甚至会出现零结果。所以如何尽 可能的在提高查准率的同时也要提高查全率。在这里存在的问题是,如何加权能更加能 反映用户的需求,如何能够使检索的查全率与查准率提高,如何能够使x m l 文档的结构 和内容信息得到充分的挖掘。 将j 2 m e 技术应用于信息检索技术中,拓宽了人们信息软驳的渠道。但是鉴于移动 设备自身的受限性:内存和容量与普通p c 机相比过小;支持的格式有限,例如支持p n g 格式的图片,其它格式的图片需要经过转化才能显示;屏幕过小,显示的内容有限,只 能显示屏幕大小的部分,多出来的需要分页显示,因此信息检索结果越精确越能减小屏 王艳萍:基于x m l 的移动信息检索模型研究 幕所受限制,另外不同的移动设备,同种品牌的不同型号,其屏幕大小均不同,所以要 根据具体情况不同具体分析如何去做。 j 2 m e 技术应用在知识管理上可以更大程度的满足用户需要,使用户可以远程应用、 检索、管理知识库,是知识管理的很重要的一个应用方面。只要解决了移动设备受限的 各个方面,相信其应用的前景将是非常广阔的。 1 4 2 本论文的研究目标 为解决以上的问题,满足用户的需要,可以通过几种办法来解决问题: ( 1 ) 信息检索系统的具体实现部分放在服务器端,移动设备部分所要实现的仅仅是 发送用户所要检索的内容到服务器,等检索结果在服务器端得到以后,再发送给移动设 备,这样移动设备不需要很大的内存就可以满足信息检索系统客户端的作用,解决了内 存容量的问题。 ( 2 ) 移动设备的屏幕情况比较复杂,现在通过实现某一种情况可以类比其他情况, 如果以后有其他种类的移动设备需要应用信息检索系统,仅仅需要改变有关屏幕的一些 固定的初始设定的参数值。 x m l 文档检索方面。 首先,整个研究围绕x m l 文本文档检索的检索效果,主要的目标是通过建立新的检 索模型,提高x m l 文本文档检索的效果。在信息检索领域中,检索效果表现为检索系统 为用户提交查询所提供结果的准确性( 查准率) 与完全性( 查全率) 。其中,完全性是 指检索系统能否将所有符合用户需求的文档( 信息) 返回:准确性是指检索系统能否尽 可能少的返回与用户信息需求不相关的结果。而在这两个性能指标中,本研究又以提高 x m l 文本文档检索的准确性为主要目标,同时,兼顾检索的完全性。 其次,解决当前x m l 文本文档检索领域里的问题。 ( 1 ) 当前x m l 文本文档检索的研究工作虽然都引入内容信息方面的匹配,但没有考 虑结构方面的相关性,在结构信息中,标签的不同位置会导致语义上面定的偏差。 ( 2 ) 用户要检索,是要找到最想要的信息,如何能使用户得到真正需要的信息,就 使得用户对关键词的加权显得很重要,现在检索系统注重了索引项的建立以及索引的加 权,考虑了用户对关键词的加权,使得用户的需求能够得到更多的重视。 再次,添加领域词典内容使得检索结果更为专业化。往往一个关键词在不同领域内 有其多个含义,而用户需要的多是某一领域内专业化的信息,为此建立一个面向某一专 业领域的词典就显得很有必要,通过这个领域词典的建立,专业性常用词汇可以收录其 中,并通过一系列权值计算公式的设定使得用户在提交关键词时,可以通过领域词典更 为快速更为准确的查到所需要的信息。 大连理工大学硕士学位论文 1 4 3 论文结构安排 论文共分6 章。 第一章,引言部分,针对x m l 文本文档的特点,提出了面向x m l 文本文档的信息检 索需要,回顾了x m l 文本文档信息检索的现状,阐明了本文的研究内容。 第二章,介绍基于模型的原型系统中相关的算法,包括索引库的建立、关键词加权、 相似度计算、检索几个部分的算法。 第三章,在基本的文本文档检索的基础上,为适应x m l 文本文档检索的新要求,达 到满足用户要求的目的,提出一个改进的x m l 信息检索模型,以及为验证新的检索模型 的有效性而建立的原型系统,介绍了原型系统的整体框架以及各个组成模块的详细功能 以及移动设备处理方法。 第四章,介绍应用原型系统而进行的实验,通过实验数据来验证检索模型的有效性。 第五章,对传统的向量空间检索模型进行了介绍,从模型设定的一般规律入手,给 出了实际应用过程中进行加权而改变参数的一些公式,进而进一步确定实际参数,使得 获得的结果更加精确。 第六章,对本文的研究技术及实现进行总结,提出了要重点研究的问题,并展望了 基于x m l 的信息检索的发展前景。 王艳萍:基于x m l 的移动信息检索模型研究 2 基于x m l 信息检索模型算法研究 2 1 传统的向量空间模型概述 传统的向量空间检索模型( v s m ) 核心思想是将文档信息的匹配问题转化为向量空 间的矢量匹配问题。为方便理解,现将向量空间模型常使用的一些术语“8 “1 介绍如下: 定义i 检索( r e t r i e v a l ) 检索是根据用户的检索要求在索引中快速检出文档,进行文档与检索的相似度评价,对 将要输出的结果进行排序,并实现某种用户相关性反馈机制。 定义2 文档( d o c u m e n t ) : 泛指各种机器可读的记录,通常指一篇文章。 定义3 特征项t :也称为索引项,是指出现在文档d 中能够代表该文档性质的基本语言单 位。这些基本语言单位统称为特征项,于是文献和检索均可用由特征项构成的向量来表 示。 定义4 特征项权值:是指特征项如代表文档t 的能力大小。 定义5 文档向量:设文档集合中共有m 个不同的特征项 ,屯,乞,分别计算文档 盔( i = l ,2 ,n ) 的特征项,t 2 ,的特征项权值,由这些特征项权值所构成的向量 ( m 。,:,) 成为文档d :的向量。 定义6 相似度:两文档
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年湖南邵阳城步县事业单位选调28人模拟试卷有答案详解
- 2025河南商丘市夏邑县治安巡防队员招聘50人考前自测高频考点模拟试题附答案详解(模拟题)
- 2025福建医科大学附属口腔医院招聘2人考前自测高频考点模拟试题及完整答案详解一套
- 2025北京昌平区卫生健康委员会第二批招聘事业单位人员21人考前自测高频考点模拟试题及答案详解(典优)
- 2025江西上饶市鄱阳县人民医院招聘编外专业技术人员84人考前自测高频考点模拟试题及答案详解(夺冠)
- 2025南平延平黄墩街道社区卫生服务中心招聘医师模拟试卷有答案详解
- 2025年东营市“英才进广饶”(教师类)事业单位引进人才招聘(31人)考前自测高频考点模拟试题及完整答案详解
- 2025金华市八达供电服务有限公司招聘60人考前自测高频考点模拟试题附答案详解(考试直接用)
- 2025江苏盐城选聘物业管理营商环境体验员模拟试卷及答案详解(易错题)
- 2025年上半年九江市事业单位“才汇九江”高层次人才公开招聘【373人】考前自测高频考点模拟试题含答案详解
- 《数据库原理及应用(第二版)》课件 盛志伟 第1-5章 数据库概论-SQL语言
- 大米先生公司管理制度
- 2025年4月自考02204经济管理试题及答案
- 高考英语一轮专项复习:高考试题中的熟词生义(含解析)
- 吸痰护理课件
- 部编版四年级上册语文大单元教学设计范例
- 第三单元整体阅读之人物篇 统编版高中语文选择性必修上册
- 高二上学期第一次月考物理试卷(附答题卷和答案)
- 教育培训机构合作培训协议
- 2025年广东省春季高考学业水平考试数学试卷试题(含答案解析)
- 枫蓼肠胃康胶囊与其他肠胃药的协同作用研究
评论
0/150
提交评论