(计算机软件与理论专业论文)个性化网络信息检索系统的研究、设计与实现.pdf_第1页
(计算机软件与理论专业论文)个性化网络信息检索系统的研究、设计与实现.pdf_第2页
(计算机软件与理论专业论文)个性化网络信息检索系统的研究、设计与实现.pdf_第3页
(计算机软件与理论专业论文)个性化网络信息检索系统的研究、设计与实现.pdf_第4页
(计算机软件与理论专业论文)个性化网络信息检索系统的研究、设计与实现.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机软件与理论专业论文)个性化网络信息检索系统的研究、设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着i n t e r n e t 的快速发展,网络上现存的信息形成了一个分布于全球的混合信息空 间。为了帮助用户检索和获得网络上的丰富信息,网络信息检索系统应运而生。w e b 信 息检索现已成为一个新的研究、开发领域,其最新发展趋势是检索的智能化和垂直化。 本文介绍了网络信息检索的理论和检索中的数学模型,在对当前网页识别技术、分 词技术、人机交互技术等相关技术进行分析和研究的基础上,设计了一个功能完备、结 构合理、切实可行的个性化网络信息检索系统。系统利用元搜索引擎技术获取网络信息, 采用黎曼空间模型( r i e m a n ns p a c em o d e l ) 实现了多级检索,并采用基于空间最短连线 距离的差异度计算方法对网页进行评级排序,同时利用用户建模技术建立用户信息库, 以实现检索的个性化。最后在实际的课题9 7 3 预研项目“针刺与汉语认知神经信息学研 究”中,设计并实现了个性化神经信息学网络信息检索系统。系统在w i n d o w s2 0 0 0s e r v e r 环境下使用j a v a 语言开发,后台采用o r a c l e8 i 数据库用于保存专业词典、特征向量、 用户日志。该系统己处于试运行阶段,并取得了令人满意的效果。 本文所研究的内容有效地解决了脑神经信息检索的实际问题,并对网络信息检索的 设计与实现具有一定的参考价值。所设计的个性化网络信息检索系统是一种通用的垂直 化信息检索系统的解决方案,具有较广泛的研究意义和应用价值。 关键词:网络信息检索:元搜索引擎;黎曼空间模型;个性化;用户建模 a b s t r a c t w i t ht h et r e m e n d o u sg r o w t ho fi n t e r a c t ,w e bi n f o r m a t i o nf o r m sag l o b a ld i s t r i b u t e d c o m p l e xi n f o r m a t i o ns p a c e i no r d e r t oh e l pt h eu s e rt or e t r i e v a lt h eu s e f u lw e bi n f o r m a t i o n , t h e ,w e bi n f o r m a t i o n r e t r i e v a l s y s t e m c o m e si n t o b e i n g t h e w e bi n f o r m a t i o nr e t r i e v a l b e c o m e san e wr e s e a r c ha n d d e v e l o p m e n tf i e l d ,a n d t h en e wd e v e l o p i n gt r e n di st h e i n t e l l i g e n t i z e dr e t r i e v a la n d v e r t i c a lr e t r i e v a l t h et h e s i si n t r o d u c e st h et h e o r yo ft h ew e bi n f o r m a t i o nr e t r i e v a la n dt h em a t h e m a t i c s m o d e li ni r a n db a s e do na n a l y s i sa n dd i s c u s s i o no ft h ew 曲i n f o r m a t i o ne x t r a c t i o n w o r d s e g m e n t a t i o na n du s e r - m a c h i n ei m e r f a e et e c h n i q u ed e s i g n st h ep e r s o n a lw e bi n f o r m a t i o n r e t r i e v a ls y s t e mw i t hs o u n df u n c t i o n ,r e a s o n a b l es t r u c t u r ea n dp r a c f i c a lf e a s i b i l i t y t h es y s t e m g e t st h ew e bi n f o r m a t i o nt h r o u 曲m e t a - s e a r c he n g i n e ,i n t r o d u c e st h em u l t i s t a g er e t f i e v a l a p p r o a c ho nr i e m a n ns p a c em o d e l ,r a n k st h ed o c u m e n t sa c c o r d i n gt ot h e i rg e o d e s i cd i s t a n c e s t ot h eq u e r y , a tt h es 甜- d _ et i m ei n t r o d u c e st h eu s e rm o d e l i n ge r e a t i n gt h eu s e r sd a t a b a s et o r e a l i z er e t r i e v a lp e r s o n a l i z a t i o n 强os y s t e mi sa p p l i e di nt h ep r a c t i c a lp r o j o c t t h er e s e a r c h o fc h i n e s eh u m a nb r a i np r o j e c t & n e u r o i n f o r m a t i c s ”:d e s i g n i n ga n dr e a l i z i n gt h ep e r s o n a l n e u r o i n f o r m a t i c sw e bi n f o r m a t i o nr e t r i e v a ls y s t e mu s i n gt h er i e m a n ns p a c em o d e la n du s e r m o d e l i n gt e c h n o l o g y t h ep r o g r a m i sw r i t t e ni nj a v ai nw i n d o w s2 0 0 0s e r v e ra n dt h ed a t a b a s e i s0 r a c l e8 it os a v et h ep r o f e s s i o n a ld i c t i o n a r y , f e a t u r ev e c t o ra n du s e rl o g t h es y s t e mi so n t r i a la n d p r e s e n t sg o o dp e r f o r m a n c e t h e s t u d y o ft h et h e s i ss e r l e dt h er e t r i e v a l p r o b l e m o fi n f o r m a t i o na b o u t n e u r o i n f o r m a t i c s ,a n di su n i v e r s a l l yv a l u a b l ef o rt h ed e s i g na n dr e a l i z a t i o no f w e bi n f o r m a t i o n r e t r i e v a l t h et h e s i sf r a m e sa n di m p l e m e n t sp e r s o n a l s p e c i a l t y w e br e t r i e v a l s y s t e m t h e s y s t e mi ss c h e m af o rt h eg e n e r a l i z a t i o no fv e r t i c a lr e t r i e v a la n dh a sw i d es t u d ym e a n i n ga n d p r a c t i c ev a l u e k e yw o r d s :w e b i n f o r m a t i o n r e t r i e v a l ;m e t a - s e a r c he n g i n e ;r i e m a n ns p a c em o d e l ; p e r s o n a l i z a t i o n ;u s e r m o d e l i n 个性化刚络信息检索系统的研究、设计与实现 0 前言 0 1 选题背景 随着i n t e m e t 的快速发展,网络上现存的信息形成了一个分布于全球的混合信息空 间。w w w 包含了从技术资料、商业信息到新闻报道、娱乐信息等多种类别的信息。w w w 以其内容的丰富性吸引了大量用户。与传统的媒体信息相比,目前i n t e m e t 上的网络信 息更加明显的特征是:分布广、非结构化、变化快和多样性等。如何快速、准确地从浩 瀚的信息资源中找到所需信息已经成为困扰网络用户的一大难题,这就是所谓的“r i c h d a t ap o o ri n f o r m a t i o n ”问题。 为了帮助用户检索和获得网络上的丰富信息,一批w e b 信息检索系统应运而生。 w e b 信息检索现己成为一个新的研究、开发领域,因为它涉及到网络技术、数据挖掘技 术、多媒体技术、文本处理技术、人工智能技术、自然语言处理等多个领域,具有综合 性和挑战性。人们在理论研究和实际应用领域中都进行了不断的努力。 网络信息检索系统旨在为用户在页面的海洋中导航,可是现有的检索系统没有一个 可以完全有效地检索网络资源的。输入一项检索请求的网络用户会被数以千计的回答弄 得不知所措。检索结果常常涉及一些无关的网址,却漏掉了那些存有重要资料的其它网 址。可以说我们现在己经拥有了一个桌面图书馆,但却无法有效地使用它。究其原因是 因为目前中文搜索引擎普遍存在两个主要问题:但现有的信息检索系统存在这以下几个 主要问题: ( 1 ) 垂直化网络信息检索系统较少。目前大多数中文w e b 信息检索是综合性的, 而区域性的或专题性的,专业性的大型检索系统很少,然而现在的通用检索系统在专业 检索方面的效果并不理想。 ( 2 ) 中文网络信息检索系统的相关度无法跟英文网站相媲美。 网络信息检索的最新的发展趋势则是搜索的智能化( 包括个性化) ,除此之外,研 究热点还包括垂直化网络信息检索引擎、多媒体检索引擎、x m l 检索引擎。 本文的选题是基于国家科技部9 7 3 预研项目课题一一“针刺与汉语认知神经信息学 研究”中一个的研究内容;神经信息学专业信息检索系统。随着全球性人类脑计划的实 施,有关脑和神经信息学的研究越来越深入、专业化,产生大量的信息和数据,如果不 能及时共享,则会严重的阻碍科学发展。因此迫切需要应用计算机数据处理方法和电子 网络,建立一个专业的神经信息学网络信息检索系统。 本文首先对现有的网络信息检索技术进行认真地学习、分析和研究,并吸收了当前 最新的信息检索思想和技术,研究、设计和实现了基于黎曼空间模型的个性化神经信息 学网络信息检索系统。本文在研究和设计方面注重了系统的普及性,所实现的个性化专 业网络信息检索系统也是一种通用的垂直化信息检索系统的解决方案,具有广泛的研究 意义和应用价值。 个性化网络信息检索系统的研究、设计与实现 0 2 本文工作及技术难点 本文的主要工作主要有以下几个方面: ( 1 ) 采用黎曼空间模型 在对相似度和传统的向量空间模型的分析基础上,采用了黎曼空间模型。黎曼空间 模型可以解释以前网络信息检索中的一些无法解释的问题,并讨论了黎曼空间模型应用 于个性化网络信息检索的可行性。 ( 2 ) 基于黎曼空间模型网络检索的设计 在基于黎曼空间模型网络检索的设计中采用了多级检索实现了全局差异度的局部线 性化,并采用基于最短连线距离的差异度计算方法来对网页进行评级排序。 ( 3 ) 用户模型的建立 根据专业检索系统用户固定,相对综合检索系统访问相对人数少的特点,在检索系 统中引入用户模型,利用用户信息库保存用户的基本情况和检索请求等信息,实现跟踪 用户访问行为,保存用户检索历史,设置个性化页面,进行相关兴趣分析和邮件发送。 ( 4 ) 利用上述设计和理论开发了个性化神经信息学网络信息检索系统。 0 3 工作结果 国家科技部9 7 3 预研项目课题“针刺与汉语认知神经信息学研究”现在已经处于验 收阶段,本文设计的个性化的神经信息网络信息学检索系统已经处于试运行阶段,取得了 令人满意的检索效果。 0 4 论文的组织 全文共分4 章,第1 章是网络信息检索系统概述,介绍网络信息检索的概念、现状和 发展趋势。第2 章是信息检索技术理论基础,主要介绍了目前的信息检索技术和信息检索 中的主要数学模型,分析了相似度和传统的向量空间模型,并在此基础上结合网络空间 的特点深入讨论了黎曼空间模型的理论基础。第3 章个性化网络信息检索系统的设计,介 绍了系统的整体设计和模块划分情况,着重介绍了网络信息检索模块的设计和系统的个 性化模块的设计,对基于黎曼空间模型的信息检索和系统的个性化的展开详细讨论。第4 章个性化神经信息学网络信息检索系统的实现,主要介绍了基于上述理论而设计的个性 化神经信息学检索系统的具体实现和实现结果。 个性化| 】b | | 络信息检索系统的研究、设计与实现 1 网络信息检索系统概述 1 1 网络信息检索的定义 w w w 上的信息检索主要研究对整个h t m l 文档信息的表示、存储、组织和访问,即根据 用户查询要求,从信息数据库中检索出相关信息资料,以文本数据为主要处理对象,提 供根据数据资料的内容而不是外在特征来实现的信息检索手段”1 。“文海捞针,是对全文 检索的形象描述。 1 。2 传统的网络信息检索工具的结构 传统的网络信息检索工具指对w w w 站点资源和其它网络资源进行检索的机制。例如 y a h o o ! 、a l t a v s t a 、i n f o s e e k 、e x c i t e 平d s o h u 等。它们可看成是网络信息检索工具的 代表,结构如图卜1 所示。 图卜1 传统的网络信息检索工具的结构图 1 3 网络信息检索工具的类型 据统计,各种各样的i n t e r n e t 网络信息检索工具己有数千个,我们可以按照这些工 具的检索机制、检索内容范围、包含检索工具的数量、检索资源类型。将它们划分为以 下各类检索工具。1 。 1 按照检索机制划分:检索型、目录型和混合型检索工具 检索型检索工具通过用户直接输入检索词、查找索引数据库中用检索词标引的索引 记录来定位用户所需信息资源,检索方便直接,而且可以使用布尔逻辑检索、短语和邻 近检索、模糊检索等高级检索方式,可以限制检索对象的地区、网络范围、数据类型等, 个性化网络信息检索系统的研究、设计与实现 可对满足特定条件的资源准确定位。典型的检索型检索工具如:a l t a v i s t a 、e x c i t e 、 h o t b o t 、i n f o s e e k 、l y c o s 等。 目录型检索工具通过用户浏览层次型类别目录来寻找符合需要的信息资源,目录按 一定的主题分类体系组织,并辅之年代、地区等分类。典型的检索工具是:y a h o o ! 、 g a l a x y 、b r i t a n n i c ai n t e r n e tg u i d e 等。 混合型检索工具建有检索型和目录型两种检索方式。实际上现在大多数搜索引擎都 同时提供词语检索和目录浏览两种。 2 按照检索内容划分:综合型、专题型和特殊型检索工具 综合性检索工具在采集标引信息资源时不限制资源的主题范围和数据类型,又称为 通用型检索工具。典型的有:a 1 t a v i s t a 、e x c i t e 、y a h o o ! 等。 专题型检索工具专门采集某一主题范围的信息资源,并用更为详细和专业的方法对 信息资源进行描述,且住往在检索机制中设计利用与该专业领域密切相关的方法技术。 典型的有:h e a l t h c a r e 、m e d i c a lw o r l ds e a r c h 。 特殊性检索工具指那些专门用来检索某一类型信息和数据的检索工具,例如检索电 话号码的5 5 5 1 2 1 2 并u s w i t c h b o a r d 、查询地图的m a p b l a s t 。 3 按照检索工具数量划分:单独型和集合型检索工具 所谓集合型检索工具,是一种能够利用多个检索工具进行网络信息查询的检索工具, 它通过一个统一用户界面帮助用户在多个检索工具中选择和利用合适的检索工具来实现 检索操作,又称为元检索工具。 单独型检索工具和集合型检索工具的主要区别在于前者拥有独立的网络资源采集标 引机制和相应的数据库,而集合型检索工具一般没有自己独立的数据,却更多地是提供 统一界面,形成一个由多个分布的、具有独立功能的检索工具构成的虚拟逻辑整体。 4 按照检索资源类型划分:万维型和非万维型检索工具 万维网检索工具主要检索万维网站点( w e b ) 上的资源,他们常称为搜索引擎,而且 由于万维网资源常以网页形式存在,它们的检索结果常常被称为网页。 非万维网检索工具主要检索特殊类型的信息资源,例如检索f t p 文件的a r c h i e 、f i l e z * d t i l e n e t ,检索t e l n e t 系统的h y t e l n e t ,检索g o p h e r 服务器的v e r o n i c a 和j u g h e a d 。 1 4 信息检索系统的现状和发展趋势 1 4 1 现状和存在的问题 互联网络从早期的a r p a n e t 至0 目前的i n t e r n e t 为止,己经发展了近五十年。互联网上 的信息越来越多,而且正在以每月近千万的数量增长。在w e b 信息检索技术领域,英文信 息检索发展的较为迅速和完善,如信息的表示采用向量空间方法,基于内容相关性的查 询反馈等。现在己存在的进行w e b 索引与检索的工具有a 1 t a v i s a 、i n f o s e e k 、w e b c r a w e r 等,人们把这些工具称为搜索引擎( 也称为r o b o t 、s p i d e r 、h a r v e s t ) 。近几年出现了 一些智能化的检索a g e n t ,如:c h i c a g o 大学的f a q f i n d e r ,m i t 的l e t z i a ,c m u 的w e b w a t c h e r 等。网络信息检索的发展是一个不断探索的过程,如今它己向第二代发展,功能也越来 越强大。 个性化网络信息检索系统的研究、设计与实现 但是目前中文网络信息检索也存在着许多问题: 1 查询方式单一,查准率和查全率不高。 中文搜索引擎一般只有分类目录浏览和简单的关键词网站或全文检索,缺乏其他复 杂高级的查询方式。但是中文是一种存在着大量音、形、义相近词汇的复杂语言,单一 的检索方式经常会使得使用者得不到想要的结果。例如,一个用户希望在网络上找到有 关信息检索技术的文章,但当他输入“信息搜索技术”时,他得到的就只是含有“信息搜索 技术”的文章,这并非他希望得到的全部结果集。 2 中英文混合检索问题。 当你输入“m p 3 ”时,有些网站会认为你在查找英文网页,进而自动将你送到一个英文 搜索引擎上;更多的网页搜索服务不能对“甲a ”、“f 一1 一级方程式”等中英混合查询做出 恰当的反应。 3 专业的网络信息检索引擎较少。 目前大多数中文搜索引擎是综合性的、区域性的或专题性的,专业性的大型搜索引 擘很少。而在西文搜索引擎中,有不少专业搜索引擎。 4 中文网络检索的相关性无法与英文媲美。 中文与英文最大的不同之处在于中文搜索引擎中没有词的概念,检索字串与网页中 文字的简单匹配并不见得就是语义上的匹配:一些先进的算法,如超链分析等都是出自 英文。 1 4 2 检索系统的发展趋势 搜索引擎和网络信息检索的发展经过了几个阶段。起初大家一味地追求收集网页的 多少。后来发现对同一用户提问,搜索引擎返回的信息不是太少而是太多,用户感到无 所适从。1 9 9 6 年起,信息检索技术开始注重网页质量与相关性的结合,这主要是通过三 种手段:一是对网上的超文本链接结构进行分析,如i n f o s e e k 和g o 0 9 1 e ;二是对用户的 点击行为进行分析,女n d i r e c t h i t ;三是与网站目录相结合。最新的趋势则是检索的智能 化( 包括个性化) ,除此之外,研究热点还包括垂直化检索系统、多媒体检索系统、x m l 检索系统等”3 。 1 智能化检索系统 目前的检索引擎主要是基于关键词的检索,检索过程中用户只需提交关键词,检索 引擎便把与关键词匹配的网页或网站链接列出来。以关键词作为检索人口操作起来固然 简单,但由此也暴露出其不可克服的缺点,其中最主要的是它不能领会用户真正的需求, 它将词语从语义背景中提出,以孤立的关键字标引文档,割裂了原始文档中的逻辑语义, 如不能区分同形异义,不能联想到关键词的同义词。一种有生命力的使索引擎就是基于 知识( 或概念) 的智能化搜索引擎n ,它综合运用计算机人工智能、语言处理、数据库 管理等技术,分析用户提交的信息请求,从网页数据库中选出最符合要求的信息,保证 搜索结果的准确性。搜索引擎的智能化还表现在用自然语占与用户交流的能力,对知识 的理解和处理能力。 检索系统的智能化是指满足用户个性需要的信息搜索服务。检索引擎通过长期观察 用户的搜索行为,能够从中识别用户的信息需求偏好,并且能够根据用户对搜索结果的 个性化网络信息检索系统的研究、设汁与实现 评价,自觉调整搜索策略;在某些时候如用户所关心的信息发生变化时,自动发送电子 邮件通知用户,保证用户能在第一时间获取最新的信息。检索引擎的个性化服务可以帮 助用户更快、更准确地找到所需信息,还可以避免无关信息的干扰,这其实也是搜索引 擎智能化的一个方面。 2 垂直化网络检索系统 所谓垂直化网络信息检索系统是指用于搜索某一学科专业( 如搜索自然科学、军事、 金融经济) 或某一类信息( 如图像、影像) 并对其进行检索,有人称之为专题检索系统、 专门检索系统。 综合检索系统满足了用户全方位搜索信息的需求,但给那些专注于某个专业或某一 类信息搜索的用户带来诸多的不便,他们不得不花费大量的时间与精力去进行信息筛选。 又由于学科的纵深发展和新信息类型的出现,综合检索系统显得力不从心;专指性强的 垂直化检索系统正好能满足用户特定信息搜索的需求,它建立的网页数据库较综合搜索 引擎的小得多,搜索程序容易控制,更新周期短,其检索精确度也更高。 3 多媒体检索系统 由于现在检索系统提供的检索方式有限,基本都是关键字检索,并运用布尔运算, 还不能支持更复杂一些的搜索请求,比如基于音频的搜索、基于图片的静态图像搜索和 基于视频的动态图像搜索。如何对多媒体信息进行特征提取及特征表达是多媒体搜索引 擎研究的一个重要内容。例如图像搜索,由于在搜索过程中很难表达图像信息,因此现 有的很多图像搜索引擎都是通过对图像信息的文字表达来进行检索。文字信息不能充分 表达图像信息,而且对于用户来说,不可能在查询时很精确地用文字对图像进行合理的 描述,所以查询的精度非常低。 4 x m l 搜索引擎 随着w e b 上基于x m l 标准的数据大量涌现,对于x m l 文档的检索被提到日程上来。 与h t m l 相比,x m l 具有无法比拟的优越性,它将成为数据组织和交换的事实标准,x m l 为w e b 数据管理提供了新的数据模型。由于x m l 语言的独特特点,搜索引擎必须作相应 修改才能发挥x m l 所带来的好处。 1 4 3 新一代检索系统的关键技术的研究 为了让网络信息检索系统更好地为用户服务,应加快对检索关键技术的研究,针对 w e b 信息的大容量、异构性、分布性和动态性等特点“1 ,提出新的计算模型和算法,研制 出新一代搜索引擎。新一代检索系统的搜索效率更高,其主要的研究内容和关键技术是: l 新型的检索系统体系结构模型的研究 主要研究基于多数据库平台的搜索引擎模型。该模型能处理大规模问题,支持异构 数据源的集成。 2 数据库技术应用于w e b 页面查询的研究 将数据库技术应用于w e b 页面的查询是当前w e b 查询技术的一个研究热点,这其中包 括w e b 信息抽取技术的研究、类似于传统数据库技术中的s q l 的w e b 查询语言的研究等。由 于大多数搜索引擎仅仅支持简单的信息检索功能,无法支持更复杂的查询要求,如页面 之问以及页面内部信息的聚集( a g g r e g a t i o n ) 、排序( s o r t i n g ) 、选择( s e l e c t ) 以 个性化网络信息检索系统的研究、设计与实现 及投影( p r o j e c t ) 功能,因此可以通过开发类似于传统数据库技术中的$ q l 的w e b 查询语 言来访问w e b 上的信息。新的w e b 查询语言除了支持上面提到的所有功能外,还将支持从 大量的w e b 页面中抽取数据;支持w e b 页面与关系数据库或面向对象数据库之间转换数据 以及多个数据源的数据整合。 x m l 数据的出现为w e b 的数据管理提供了新的数据模型,可以预见很多成熟的数据库 技术将被应用w e b 信息处理领域。 3 提高检索查询精确度和对用户查询请求的理解力的研究 为了提高用户查询的精确度和充分理解用户的查询需求、主要采用以下关键技术和 方法来解决。 ( 1 ) 加强个性化搜索引擎以及用户兴趣知识挖掘算法的研究 通过用户* 趣知识挖掘算法获得用户兴趣知识,以此来个性化搜索引擎。 ( 2 ) 搜索引擎查询的自动路由技术 一般情况下,用户很难找到一个很适合的搜索引擎来完成自己的查询要求。因此需 要研制一种能根据用户的查询请求,从w e b 上自动找到( r o u t e d ) 特定专题的搜索引擎, 就能大大地提高查询效率。 ( 3 ) 开发更多的专题型w e b 检索系统 利用专题数据库知识,可以充分理解用户的查询需求,满足用户关于某一专题内容 的深度查询。 ( 4 ) 利用上下文提示,让检索系统更好地理解用户的查询请求。 新一代的w e b 搜索引擎将利用上下文信息,或用户的明确的或含蓄的上下文提示信息 进行搜索,以提高其搜索精度。 随着w e b 上用户群体,信息量的迅猛发展,动态内容的大量涌现以及基于x m l 标准数 据的大量出现,利用人工智能、自然语言处理、数据挖掘、数据库技术以及分布式处理 技术来提高w e b 信息检索的效率将是w e b 信息检索在未束几年中的一个重要发展趋势。新 一代w e b 搜索引擎将是基于分布式模型,采用最新查询技术和查询语言,能够尽量透明地 为用户提供精确的查询结果,以便适应w e b 信息的大容量、异构性、分布性和动态性等特 点。 1 5 w w w 个性化和专业化网络信息服务实例 现在,许多网站都提供用户个性化定制服务,例如m ye x c i t e 、m y l y c o s 、m yh o t b o t 、 m yy a h o o 等等。它们的服务机制基本相同,下面主要以e x c i t e 为例,介绍m ye x c i t e 的定制过程步骤: ( 1 ) 个性化用户登录:用户注册用户名,密码,地址,出生日期等个人信息。 ( 2 ) 个性化设置首页:用户根据自己的喜好设置搜索引擎的界面颜色、结构和内容。 ( 3 ) 此外,用户还可以对许多细节进行设置,如g r e e t i n g 设置、刷新率设置、时 间区设置等等。 美国的医学文献检索系统m e d i c i n ep u b m e d ,专业检索系统能比较集中、迅速、准确 和全面的反映某一行业的技术和发展情况,对开展科技信息的服务和咨询很有用处。 个性化脚络信息检索系统的研究、设计与实现 2 信息检索技术和理论基础 信息检索主要研究对整个文档信息的表示、存储、组织和访问。一个好的信息检索 系统不仅要求将输出信息进行相关性排列,还能应该根据用户的意图、兴趣和特点自适 应和智能化的调查匹配机制,获得用户满意的检索输出。 最常用的信息检索性能尺度是信息检索的查全率和查准率0 1 。信息检索的查准率为 检索结果中有用的相关文档数与检索到的查询结果总数之比,而信息检索的查全率为满 足用户查询要求或相关于查询要求的信息与被检索出的结果集信息比率。 本章将详细介绍信息检索领域的模型,一些先进的信息检索技术和方法。 2 1 信息检索的概念 信息检索( i n f o r m a t i o nr e t r i v a l ,i r ) 泛指用户从包含各种信息的文档中集中查 找所需要的信息或知识的过程。随着当今社会各领域的迅猛发展,信息以爆炸的方式不 断增长,而且种类相当繁杂,除了文本、数字以外,还常常包括图形、位图像、声音、 动态图像等多媒体文档。在这里我们并把信息检索的任务看作是“给定用户的信息需求 后,从文档集中识别出最为匹配的文档”。 2 2 信息检索的过程及组成 其检索的过程模型示意图如图2 - 1 所示 文本信息源 文档资源或是文档库 用户 用户需求 广j 广j ,_ ,1 、 li 检出文档li 修改文档表示卜目评价或刹用检索结果h 奁诲优仡( 相关反馈) 图2 - 1i r 的一般模型及检索过程 6 个性化网络信息检索系统的研究、设计与实现 图中的模型主要包括: ( 1 ) 文档模型:即文档的索引,也就是文档内容的识别和表示,包括语义内容和上 下文属性( 如作者、编辑者等) 。 ( 2 ) 查询模型:即用户需求信息的获取与表示。 ( 3 ) 匹配函数:即在文档表示和查询的基础上,定义查询和文档的相关度函数 ( 4 ) 性能评价;一般采用查准率( p r e c i s i o n ) 和查全率( r e c a l l ) 对检出的本进 行评价,处理速度有时也用于评价系统的效率。 ( 5 ) 反馈修正过程:根据检出的结果对查询表示( 少数情况下也对文档表示) 进行 扩充与参数优化,以提高系统性能。 任何一个信息模型都有其理论基础和组假设,在本程序中大家也将会看到。检索 模型的一些普遍性的假设有: ( 1 ) 被检索对象主要为文档对象。 ( 2 ) 检索是根据文档内容的表示及所需信息的表示进行的。 ( 3 ) 文档内容和所需信息的表示都是非常精确的。 2 3 信息检索的数学模型 基于模型的文本检索技术的核心是检索模型。6 0 年代中期以来,人们提出了大量检 索模型。自最初的些较小的和较为结构化的文档所设计的特殊模型( 如文献记录,包 括题目、作者和主题词等) ,发展到现在具有较强理论基础和能处理多种文档格式的模 型。当前的模型能够处理具有复杂内部结构的文档,并且一般都具有学习和利用相关反 馈进行查询优化等功能,使得系绕性能大大提高。 检索模型主要包括三方面的内容:文档与用户查询的表示;查询匹配策略;匹配结 果的相关度表示。几种常用的信息检索模型是布尔模型、概率模型和向量空间模型。 2 3 1 布尔逻辑模型 严格匹配模型( e x a c tm a t c hm o d e l ) 是根据用户提交的检索条件,利用匹配函数, 将文档集分为两个集合:匹配集合和非匹配集合。在匹配的文档子集中文档一般不在匹 配程度上进行排序。当然可以根据文档日期、字母顺序或其他属性来排序。严格匹配模 型中最简单并且最常用的一种是布尔模型,下面做简要介绍。 布尔模型“”是一种简单的严格匹配模型( e x a c tm a t c hm o d e l ) ,也是其他检索模 型的基础,它定义了一个二值变量集合来表示文档,这些变量对应于文档中的特征项, 一般是由训练文档集中的词条或短语组成。如果词条对文档内容有贡献,则赋予t r u e , 否则置为f a l s e 。在查询与文档匹配的过程中,主要看该文档中的词条是否满足查询的条 件。一个查询是由一些通过逻辑操作符号( 女n a n d 、o r 齐u n o t ) 连接起来的关键词所组成, 例如“( 书o r 杂志) a n d 计算机a n d 网络”,该查询可以形式化为“aa n db a n dc ”, 它将比“aa n db ”选中更少的文档。一般说来,在稚尔模型中,用a n d 连接的关键词越 多,获取的文档就越少,而且文档数量的减少将非常明显;用o r 连接的关键词越多,获 取文档的数量也就越多。因此为了提高用户查询的精度,用户在查询过程中应该尽量将 个性化网络信息检索系统的研究、设计与实现 查询的需求描述清楚,以减少获取文档的数量。因匹配结果的二值性,而无法在匹配结 果集中进行查询结果的相关性排序。 布尔模型在六、七十年代得到了较大发展,也出现了许多可以应用的商业系统和著 名网站,比如d i a l o g ,s t a i r s ,y a h o o ! 、搜狐等。 p 范数模型是对布尔模型的扩展,它克服了简单布尔模型匹配函数过于严格而导致漏 检率高的致命缺陷、在p 范数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论