




已阅读5页,还剩47页未读, 继续免费阅读
(计算机应用技术专业论文)基于n层向量空间模型的网络信息检索平台.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 向量空间模磴山子其锌法简洁,日j 修改性强,广泛应用r 信息检索领域。 然f 】,在运用向量空间模型进行网络中文信息检索的时候,由于1 统的1 1 卜j d f 方法不能很好的对网页内容进行描述,检索精度较低。 n 层向量空问模型将文档按照重要程度划分成n 层,对每一层的检索单元分 别赋予小同的权重,相比传统t 卜i d f 方法,复能体现文档的特征能够更好地 描述文档。使用n 层向量空i 、j 模跫,会伎针对网络中文信息进行的文本检索得到 较好的结果。 奉义提出了基于n 层向量空问模型进行网络信息检索的方法,设计实现了 基于n 层向量空间模型的网络信息检索平台,并存此甲台上,应用信息增益、半 衡权重、查询扩展等方法改进算法,最后对实验结果进行了对比和分析。 关键训:n 层向量窄问模型,网络信息榆索平台,信息增益,平衡权重,杏询扩 展 a b s t r a c t t h ev e c t o rs p a c em o d e li su s e di nm a n yf i e l d so fi n f o r m a t i o nr e t r i e v a lf o ri t s s i m p l i f i c a t i o na n da d a p t a b i l i t y t h ec l a s s i c a l f f i d fm e t h o dg e t s ap o o rr e s u l ti n c h i n e s ew e bj n f o r m a t i o nr e t r i e v a lb e c a u s ei tc a l ln o td e s c r i b et h ed o c u m e n t s p r o p e r l y t h en l e v e lv e c t o rm o d e lp a r t i t i o n sad o c u m e n ti n t onl e v e lt e x tp a r a g r a p h s 7 l h et e r mw e i g h tv e c t o r sa r ed e f i n e da c c o r d i n gt ot h et e x tp a r a g r a p h s c o n t e x t t h e n l e v e lv e c t o rm o d e lc a n d i s t i n g u i s ht h ed o c u m e n t sm o r ee f f i c i e n t l yt h a nt h e c l a s s i c a lt f i d fm e t h o d ac h i n e s ew e bi n f o r m a t i o nr e t r i e v a lb a s c do nn l e v e l v e c t o rm o d e lw i t hm o d i f i e da l g o r i t h mw i l lg e tm o r es i g n i f i c a n ti m p r o v e m e n tr e s u l t s w ep r o p o s et h ec h i n e s ew e bi n f o r m a t i o nr e t r i e v a lb a s e do i ln - l e v e lv e c t o r m o d e l w ed e s i g n e da n dr e a l i z e dac h i n e s ew e bi n f o r m a t i o nr e t r i e v a ls y s t e m w e p r o p o s ea n dr e a l i z es o m ea l g o r i t h mo nt h i ss y s t e ms u c ha si n f o r m a t i o ng a i n ,b7 f w s , q u e r ye x p a n s i o n t h er e s u l t so f a l la l g o r i t h m sa r ec o m p a r e da tl a s t k e yw o r d s :n l e v e lv e c t o rm o d e l ,w e bi n f o r m a t i o nr e t r i e v a ls y s t e m , i n f o r m a t i o ng a i n ,b t w s ,q u e r ye x p a n s i o n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究丁作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发 表或撰写过的研究成果,也小包含为获得:苤鲞盘茎或其他教育机构的学位或 证书斯使用过的材料。与我一同 作的同志对本研究所做的任何贡献均已在论 文中作了明确的说明并表示了澍意。 学位论文作者签名:剔鬈、为 签字f | 期:功。5 年j 月7 闩 学位论文版权使用授权书 本学位论文作者完全了解鑫连盘堂有关保留、使用学位论文的规定。 特授权苤望盘堂可以将学位论文的_ 仝部或部分内容编入有关数掘库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学 校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文存解密后适用本授权说明) 学位论文作者签名:到恙为 导师躲百丕蔚 签字 期:劲d 5 年j 月j7 f 1 签字同期:加。nj 一年月【7 闩 第一章信息检索概述 第一章信息检索概述 1 1 信息检索 信息检索作为一项行为已有很长的历史,我国西汉时期的占文经学家、h 录学家刘歆撰写了我国第部系统目录七略,但信息检索作为个学科束 发腮始j _ 2 0t i = | :纪4 ( ) 年代术。1 9 4 9 年穆尔斯( c a l v i l 3w m ( ) o e r s ) 苗1 次捉h 了 这个术语。信息检索有广义和狭义之分。广义的信息榆索包括信息的存储和检 索,狭义的信息检索只包含检索一个方面。本文采用狭义的信息检索末i 剃述信 息检索技术的发展。 从人类文明诞生到今天飞速发展的信息时代,信息处理技术的不断进步始 终是推动人类文明前进的主要冈素之一。今天,随着社会信息化程度的快速提 高,冈特网日益普及,数字图书馆和各种各样的电子信息载体不断涌现,信息 的总量以惊人的速度不断地膨胀,信息处理技术迫切需要更有效的理论利方法 来处理如此海最的信息。信息检索( i n f o r m a t i o l 3r e t r i e v a l ,i r ) 、信息过滤 ( 】n f o r m a t i o nf j l t e r i n g ,t f ) 、信息挖捌( 1 nf o r m a t i o r le x t h l cl i o n ,i e ) 等正是遁戍了这一要求,并成为当前信息处理研究领域中的研究热点。 信息主要是以文字的形式存在,辅以声音和图像等,信息榆索一般足指文 件信息检索( a dh o ct n f o r m a t i o nr e lr je v a l ) 。众所周知,文件足用米记录和 传播信息的载体。通常,文件通过人类的自然语言( n a t u r a ll a n g u a g e ) 来表 达各种各样的信息,比如:报纸新闻、科学论文及专利信息等等。因此,信息 检索的研究必然需要结合自然浯言处理( n a t a il a n g u a g ep r o c e s s i n g ,mp ) 的研究成果,事实h 信息检索和自然语言处理都属_ 丁计算语吉学 ( c o m p u t a t i o n a ll in g u is t i c s ) 的研究范畴。 计算语言学主要是利用计算机技术处理自然语高信息,对人类语言活动中 的信息进行发现、提取和加工等过程的研究。自然语言是捕述人类思维的1 :具, 对于机器而言,对自然语言的理解也就是对人类思维的理解,从某种意义l 讲 是十分网难的。尽管如此,计算语言学经过半个多世纪的曲折发展,取得了一 系列阶段性的研究成果,并在信息检索、机助翻泽( m m h i n ea d d e d t r a n s l a t i ( ) n ) 、机器学习( m a c h i n el e a r n jn g ) 等重要领域得到了广泛的应用。 文件信息检索的主要目的是针对用户提出的查询,快速准确地得到所需要 的文件信息。通常,为了提高检索的效率,需要对固定的或槲对固定的文件集 建市索引。信息检索的基本过程是:首先,用户可以从某一终端将其查询( q u e r y ) 输入到检索系统中:之后,检索系统针对用户的查询,通过适当的算法,在已 筇一章信息检索概述 绛建立了索9 的文件集中进行检索;最后,检索系统为用,、提供与其查询相关 的文件集。通常,检索系统将所提交的相关文件集按照与查询的相关度排序, 最相关的文件排在最前面。 信息检索的发展,经历了兰个人的阶段。 1 ) 手工信息检索 这个阶段的信息检索手段是书本式和卡片式,包括检索型和资料型的l2 具 书等。至令这些检索t 具仍在发挥作用。 2 ) 机械信息检索 机械信息检索的发展期是2 0 世纪4 ( ) 一5 0 年代,生命剧期很短暂,是于工 检索 柚汁算机信息检索的过渡阶段。这一阶段的主要检索手段包括穿孔卡片和 缩微制品检索。 :j ) 计算机信息榆索 计算机信息检索起源于2 0 世纪5 0 年代初。1 9 5 4 年美国海军兵器中心图 书馆利用li l m t 0 1 机刀1 发计算机信息检索系统,它标志着计算机信息检索阶段的 刀始。计算机信息检索可分为d 个发展阶段:脱机检索,联机检索,光箍检索, 网络愉索。 t f ,史信息处理技术作为高新尖技术的重点之一,得到了“八六三”国家高 科技计划、国家自然科学基会以及“九七i ”国家高科技汁划的高度重视。中 义信息榆索,作为中文信息处理最直接的应用之一,0 i 仅具有广泛的学术价值, 同时也具有巨大的市场潜在价值,h 益得到了学术界以及工向界的广泛重视和 支持。本论文将集中讨论中文信息检索。 1 2 网络信息检索 山于以因特网为芏体的信息高速公路的不断普及和发展,信息技术已渗透 到社会生活的各个角落,我们真正处于一个“信息爆炸”的时代。一方面,因 特刚卜蕴涵的海量信息远远超过人们的想象;另一方面,由i 对信息的汪洋大海, a i f i j 往往感到束手无策,无所适从,出现所谓的“信息过载”和“信息迷向” 的现象。于是一个极富挑战性的课题:如何帮助人们有效地选择和利用所感兴 趣的信息,尽量剔除不相关的信息,成为学术界和企业界所十分关注的焦,? 、i 。 现在在线文本同益增多,其中包括新闻、电子杂志、电子邮仲、技术报告、 文本以及网上图书馆。面对如此众多的信息,仅仅依靠人工来收集和整理所需 要的信息显然是不够的。所以,自动收集、榆索和整理所需要的各类信息成为 信息产、i k 面临的新得挑战和新的发展契机。在此背景下,网络信息检索应运而 生,获得极大的发展。目前网上信息的表现形式一般混合了文本、图像、视频 等多媒体元素,其巾大多数为文本,而日文本也是,。大用户所习惯接受的形式, 第一章信息榆索概述 凼此我们在f 面主要讨论文本信息检索技术。 耻论l 看来,信息的检索是很简单的。例如有一堆文件和一个想利用这些 文件巾的信息解决j 、u j 题的用户。这个用户可以把这些文件部读一遍,留下对自 己有用的,去掉那些尢助于解决问题的文件,这就完成了次信息的检索。但 是,这个方案显然是不一叮行的,没有任何人愿意去把文件都读一遍,当然也1 i i , j - 能。 随着计算机技术的发展,许多人认为计算机也许u ,以把文件集合都“读” 入,并从巾找出相关或是有用的文件。显而易见,除r 自然语占表达的文件的 输入与存储的问题之外,文件内容也难以描述。一u 以想象,硬件的发胜可以解 决时个问题,但是用计算机软件术模拟人类“读”的过程依然是一个很棘于 的问题。具体来说,“读”是从文件巾提取信息,难点在于如何从文什中抽取信 息,义如何判断是否相关,这个过程中还有很多悬而术决的问题有待解决。 在信息检索中,“相关”这个词经常m 现,它在信息检索中是一个核一l i , 概念。 计算机信息检索的目的就是找出相关的文件,而尽呵能的减少对不才h 天文件的 检索。对于人类的智力而言,从文件集合中检索出对丁某个提问相关的文件 是完伞可能的。要、止计算机来完成这件市,必须建立模型,对r 如何确定文件 是甭桐关进行量化的分析。 目前,w e b 页冈其集文本、图像、声音等多媒体信息f 体的臣大优点,已 占信息服务的主导地位,基于w e b 的搜索引擎已成为最重要的信息检索i :具。 著名的有y a h o o 、l y c o s 、i n r o s e e k 、e x il e 、g o o g e 、b a i d u 等。 州络信息榆索也包括文本信息检索和多媒体信息检索等方面,在此我们只 讨论文本信息检索。文本信息检索技术包括传统文本检索、全文检索等两个方 面。 传统文本检索是以文本,特别是二次文献( 将大量分散、零乱、无j 弘的文 献进行整珲、浓缩、提炼,并按照一定的逻辑顺序和科学体系加以编排存储, 使之系统化的文献) 为检索信息源。全文检索是以全文本信息为卡要榆索对象, 允许用户以布尔逻辑和自然语言根据资荆内容而不是外在特征来实现检索的先 进的检索技术。 本论文的内容就是针对网络文本信息( 中文h t m l 页面) 检索的研究。 1 3 文本信息检索系统 义术信息检索系统是一个文本存储、检索和维护的系统。其任务是在给定 用户的信息需求之后,从文本集中识别出最为匹配的文本。一般来晓信息检索 模型有二个组成部分:输入、检索引擎和输出。尽管这样划分有些过丁简化, 但它们是进一步研究文本检索系统的基础。 第一章信息检索概迓 图l l 文本信息检索系统基小结构 当d t ,人们已经实现了许多种信息检索系统,比如,s m a r t 信息检索系统, o k a p i 信息检索系统,f r s 全文检索系统,以及g o o g le 、b a i d u 等搜索引擎。 其中,信息检索研究使用的信息榆索系统有s m a r t 和o k a p i 等。s m a r t 系统足基于向量空间榆索模型实现的信息检索系统。上世纪6 0 年代,在gs a l t o n 博上的指导下完成它的第 个版本,此后许多研究人员对它进行了丰富和扩充。 出于其源代码公开,用户j j 丁以针对自己的需求对其进行修改。o k a p i 是基于概 牢统计模型的检索系统。 而g o o g l e ,y a h o o ,b a i d u 等商用信息检索系统,有些是以关键字匹配有砦 以分类索引为基础的,这样可以满足用户对1 二查询时闸的要求,但是在查询准 确度和全面性上都有所不足。 1 4 信息检索模型 信息检索算法的研究已经丌展了半个多世纪,人们提出了朗:多种信息检索 的算法模型,比如,向量空间检索模型( v e c t o rs p a c em o d e l - v s m ) 、概率统计 检索模型( p r o b a b i l i s t i er e t r i e v a l ) 、贝叶斯刚络模型( i n f e r e n c en e l w o r k s ) 、 斫i 尔模型( b o o l e a ni n d e x n 移、神经网络模犁( n e u r a ln e t ”o t 。k s ) 、遗传算法模 型( ( ;e j 】e t i ca 1 9 0 t i t h m s ) 以及模糊集榆索模型( f u z z ys elr e t r i e v a l ) 等等。这 些模型利方法各有其优缺点和适用的范围。目前,通用的信息检索算法主要是 向量空间检索模型和概率统计检索模型。本论文研究的就是向_ f 叠空间模型的改 进模型n 层向量空问模型。 第一章信息检索概进 百卜医净匝卜 噎是【臣 当前,人们已经实现了许多种信息检索系统,比如,s m a r t 信息检索系统, o k a p t 信息检索系统,r s 全文检索系统,以及( ;o o g le 、1 3 a i d u 等搜索引擎。 其p ,信息检索研究使用的信息检索系统有s m a r t 和o k a p i 等。s m a r t 系统是基于向量空间榆索模型实现的信息检索系统。上世纪6 0 年代,在6s a l t o n 博上的指导下j e 成它的第个版本,此后 ,| :多石卅究人员对它进行了丰富和扩充。 出于其源代码公开,用户可以针对自己的需求对其进行修改。o k a p i 足基于概 牢统计模型的检索系统。 而g o o g l e ,y a h o o ,b a i d u 等商用信息检索系统,有些是吼关键字匹配有些 以分类索引为基础的,这样可以满足用户对丁查询时问的要求,但是在查询准 确度利全面性上都有所不足。 1 4 信息检索模型 信息检索算法的研究已经丌展了半个多世纪,人们提山了许多种信息检索 的算法模型,比如,向量空问检索模型( v e c t o rs p a c em o d e l - - v s m ) 、概率统汁 检索模型( p r o b a b i l i s t i cr e t r i e v a l ) 、贝叶斯网络模型( i n f e r e n c en e t w o r k s ) 、 加尔模型( b o o l e a ni n d e x i n g ) 、神经网络模型( 、 e t i y a ln e t w l r k s ) 、遗传算法模 型( n f h lca l g o r i t h i i l s ) 以及模糊集检索模犁( f u z z ys e gr e t r i e v a l ) 等等。这 些模型剁方法各有其优缺点和适用的范围。日自“,通用的信息检索算法牛要是 向量空间检索模型和概率统计检索模型。本论文研究的就是向量空间模型的改 进模型n 层向量空问模型, 进模型n 层向最空l 训模型。 第:章基丁n 层向量空间模j l | ! 的网络信息检索 第二章基于n 层向量空间模型的网络信息检索 h 前通用的信息检索算法主要是向量空间检索模型和概率统计检索模型。 卜面分别对这两种常用模型进行介绍。 2 1 概率统计模型 概率统计模型( p r o b a b i l isl jcr e t r i e v i l ls t r a t e g y ) 应用文件与查向干h 父的概率来计算文件与查询的相似度( s c ) 。通常,利用检索单元( 词) 作为线 索,通过统计得到每个检索单元在对应丁- 某查询的相关文件集中出现和不山现 的概率,及其住o j 该查向不相关的文件集中出王兕平u 不山现的概率( 最然,概率 统计检索模型需要合适的训练集来获得所需的统计概率) ,利用这蝤概:# 值,计 算义件与查询的相似度( s c ) 。 埘于给定的查询q 和一篇义件d ,设d 包含1 个检索单i ,分别记为( 埘, 珊, ,珊,) ,其中。甜,为第i ( 1 f ,) 个检索单元的权值,可以理 解为该检索单元的出现为文件d 与查询q 桐关所作的“贡献”,文件】) i j 查询 q 的午日似度则是t 个包含在d 中的检索单元“贡献”的综合。 在信息检索的研究巾,为了计算方便,通常需要对概率统计检索模型做一 些假设。比如:假设检索单元在相关文件集巾的分布斗h 互独立,在不相关文件 集中的分布也相与独立。虽然这一假设与实际情况并不完令一致,例如,“中国” 和“,i l 京”如果同时出现存某一篇文件中,则小能认为这样的两个检索单元是 相互独立的。但是,如果考虑检索单元的相关性,删会使相应的概率计算变得 非常复杂,风此,在实际l ;j ,仍然保持了这一似设。实际的效果表明,保持这 一假设仍i d 以取得相埘满意的信息检索效果。 基于上述假设,同时考虑检索堆元出现存文件中的概率及不出现在文件中 的概率,对于给定的查询q 可以定义: 其中: n 为整个文件集的文件总数 , r 一, ( 一”) 一( r 一,) ( 2 一1 ) ,11l目11l 0 = 第璋基丁n 层向量空阳j 模琅的网络信息检索 r 为与查询q 相关的文件集的文件总数; n 为含有该检索单元,的文件总数; r 为与查询o 相关的文件集中含有该检索单i ,的文什总数。 由于训练集所能提供的信息并彳i 十分完全,为了能够在计筇中计入不确定 的信息,r o b er t s o n 和s p a r k j o n e s 建议对式2l 进行修i 卜,使用式22 束计 算检索译元的权值,也被称为r o b c r t s o n s p a r kj o n e s 权值,记作”。 假定有以下食询和文件集: ,+ 0 5 ( r 一,) + 0 5 ( 行一r ) + 0 5 ( n 一 ) 一( r r ) + 0 5 0 :“g e l ds i l v e tt r u c k ” d 1 :“s h i p m e n to fg e l dd a m a g e di n lr ir e d 2 :“d e l i v e r yo fs i l v e f3 f f ir e d inas i l v e rt r u c k ” 1 ) 3 :“s h i p m e n to f g e l da r r i v e di 1 3at r u c k ( 2 2 ) 于在概率统计检索模璎中,需要合适的训练集米获得所需的统计概率。 在本例中,假定对丁查询q ,文件d l ,d 2 和d 3 为其训练集。我们发现,其中 d 2 和d j 与查询q 相关。根据训练集中的信息,可以得到如表21 所示统计数 据。 表21 训练集中的统计数据 中词nr g o l d 2 1 s 1 l v e r1l t r u c k 2 其中n 一3 ,r :2 山式22 ,可以得到各检索单元的权值m ”,如表2 2 所示。 第二章基下n 层向基空问模型的网络信息榆索 表2 2 检索单元的权值 检索单元权值 g o l d 一0 4 7 7 s i l v e r 0 4 7 7 t r u c k 11 7 6 现住,我们已经获得了各检索单元的权值,下一步是如何利崩这些权值米 计算文件与查询的相似度。考虑假设条件,山于各检索中元的分砸计目厄独奇, 吲此,可以简单的利用这些权值的乘积来计算文件与奁询的相似度,如式2 3 : s c ( d , ,q ) = l o g ( 兀“1 ) = l o g ( t o “1 ) ( 2 3 ) 1i = 】 根掘式2 3 ,可以得到前述例子巾各文件与奄询的相似度,如表2 一: 表2 - 3 各文件与查询的梢似度 文件 与布询的相似度 d i 0 4 7 7 d z 1 6 5 3 d 3 0 6 9 9 如表23 所示,对于文件d 1 ,由于只有“g o l d ”一个检索单元出现在d l 中,冈此,文件d l 与查询q 相关度最终也只取决于“g o l d ”这一个榆索单元的 权值。对丁文件d 2 ,由丁二有“s i l v e r ”和“t r u c k ”两个检索单元出现在d 2 巾, 冈此,又件d 2 与查询o 相关度最终取决r “s i 】v c r ”和“t r u c k ”这两个检索 单元权值的和。对于文仲d 3 ,由于有“g o jd ”和“t r u c k ”两个检索蕾元出现 在d 3 中,因此,文件d 3 与查询q 相关度最终取决于“g o l d ”和“1r u c k ”这两 个检索午元权值的代数和。 由表2 3 ,容易判断出,桐对丁查询( j ,检索结果为:d 2 ,d 3 ,d l ,显然, j 该查i 旬最相关的文件是d 2 ,这也与我们人工判断的结果相符合。 上卣讨论的仅是概率统计检索模型最基本的检索思路,实际使用的概率统 计检索模型要复杂很多。通常,在检索单元的权值的计算中,还会考虑检索中 元在文件中出现的频率( t f ) ,检索单元在查询中出玑的频率( q t f ) ,以及文件 的长度( d l ) 等信息。 第一章基丁n 层向量空间模j 唑的网络信息检索 2 2 向量空间模型 向量空间检索模式( v s m ) 是( ;s a l t o n 在2 0 世纪6 0 年代提出的,是一种比 较容易耻觯的检索模式,是信息检索领域中广泛使用的一种信息检索算法模型。 其基奉思路是:文件和查询都足山词组成的,可以用由检索单元( 词) 组成的 向量米描述每一篇文什和每一条奄询,检索时,计算文件与杏询之间的相关度, 。j 某一特定的查淘的相关度越高者被认为是与陔鱼询越相关的义件。 定义用末描述义件和查询的向量的通常做法是:由包含在文件和查向中的 所有的检索单元组成检索空间,将文件和查询表示成这个空m 上的向量。 假定检索窄间为q :( t ,t 。,t 。 其巾,t ( i = 1 ,2 ,n ) 为包含存文件和奄询巾互异的检索单元,n 为 整个检索空问q 的大小,刘包含存文件和杏询巾互异的检索单元的总个数。 在检索空间。中,所有的文件都可以用向量来表示: d : 其巾,。( i = l ,2 ,n ) 是对该文件含义的一系列描述,当检索单元 t 出现存该文件中时,c o 。为1 ,相反的,当检索单,t ;不出现在该文件中时, 。为( ) 。通常,由于检索空间q 的人小远远大于每一篇文什的长度,删。巾的 人部分项为零。 类似地,存检索窄间q 巾,所自j 的查询也都可以用向量来表示: q : 其中,。( i = 1 ,2 ,n ) 是刘该查询含义的一系列拙述,当榆索单元 l ,出现在该查询中时,哆为i ,相反的,当检索单,亡c ,不出现在该查询中时, m 。为0 。通常,由于查询的长度较文什更短,m 。,巾会有更多的项为零。 举一个简单的例子,假设,在个信息检索的测试集中,所有的文什利查 询仪由一:个检索币元a ,p ,y 组成。那么,对十该测试集,其检索空问为q : 。 如果,该测试集中有一篇文件d 。,并且,d 中a 出现了一次,b 出现了两 次,没有出现y ,则可以用向量表示为: ( j i : 很显然,虽然向晕d 对文件d l 住一定程度l 进行了i f 确的描述,但是,并 没有能够反映出文什d 令部的信息。比如,枪索单兀出现的频率( t e r m 鼢e o u o n c y ,t f ) 。如果考虑检索尊元出现的频率( t p ) 并以权值的形式计入向 量d ,中,则此时文件d 可以用向量表示为: d 1 : 至此,d + 埘文件d - 进 j 二了相对精确的描述。 第二章基丁n 层向量卒问模j 性的网络信息检索 在信息检索中,并小是每一个检索单元都是同等重要的( 比如,关键词应 该比1 f 关键训更重要) ,那么,如何在向量中体现这样的信,g p d ? 目前,由于自 然语言处理技术还不能够做到让机器直接u 别文件巾重要的词,所以,l t j 行的 _ 方案之一是对向量的权重进行人工调整,将用,r l | 关心的检索单儿的权值加大。 但是人工 二预工作量巨大,难十进行,冈此,信息检索中更常用另一种方案: 使用基丁文件集的统计频率的权值,也被称为什一i d f 权值。 t fi d f 权值由两部分组成,一部分是柃索单元征文件巾出现的频葺夏( m ) , 另部分则被称为反转文件频率( i n v e r s ed o c u m e n tf r e q u e n c y ,i i ) f ) ,通常, 埘f 一个给定的检索单元,其t fi d f 权值是t f 与i d f 的乘积。 为了方便说明问题,作以下定义: 数。 n :整个检索空间q 的大小,即包含在文件和查询中互异的检索单兀的总个 d :整个文件集的文件总个数。 t f 。:检索单元1 。在文件d 中出现的频率( ,l e r mf r e q u e n c y ) 。 d f ,:存整个文件集中,包含检索单元t j 的文件数。 则,反转文件频率( i n v e r s ed o c u m e n tf r e q u e n c y ,i d f ) 通常被定义为 嘲叫。g 唔) r 2 4 、 对丁给定的某+ 个文件,描述陔文件的向茸由n 个元素组成,分另r j x j 应文 件集中的n 个检索单元。每一个元素的权值根据其所刈应的检索单元在文件中 出现的频率以及该检索单元在整个文件集中出现的频率两项凶素共同决定,如 式25 。 。= 舐x 昀i r 2 - 5 ) 使用,作为向量中各元素的权值,对文件和查询的向量进行进一步调整, v 这样的向量更精确地描述了文件和查询的内容。 对丁向量空间检索模型,小仅需要定义向量来表示文件和有询,还需要选 择适当的方法束计算文件与查询的相关度以判断文件与查询是否相关。小论文 第一二章基丁n 层向量- 问模) 叫的网络信息检索 使用向量火角的余弦作为文件与叠询相关度的判断依据。 如拍所述,在检索窄阳jq 巾,定义文件d ,f n 奄询q 的相似度( s i m i l a r i t y c o e f f i c i e n t ,阳) 为: ( ,x ( t ) t )厶、d , s c ( d ,q ) 2 - l - 1 【( 由t2 ) z ( o q , 2 ) 】j ,:ii = 1 ( 2 6 1 在式 6 中,甜m 和。,均采用t ? i d f 权值。 仍然使用介绍概率统计模型时使用的例子,假定存以下查询和文件集,对 使用阳黾空问检索模型进行信息检索的整个过程给以描述。 0 :“g o ds i1v e tt r u c k ” d 1 :。s h i p m e n to f9 0 1 dd a m a g e d i i 1af i r e ” d 2 : “d e i i v e r y0 f 。s j l v e ra r r ir e di nas ii v e rt r u c k ” d 3 :“s h l p m e n to rg o l da r t - ir e di nat r u c k ” 在这个测试集中,共有i 篇文件( n = 3 ) ,如果使用英文单词为检索单兀, 根掘式24 ,各单词对应的i d f 权值如_ 卜: i d f = 0 f d f j 。;“= 0 1 7 6 i d f 。= 0 4 7 7 i d f “。,= 0 4 7 7 i d f 。= 0 4 7 7 d f 。= 0 1 7 6 i i ) f ,。= 0 f d f , ,= 0 i d f 。= 0 4 7 7 i d f 。= 0 1 7 6 1 1 ) 17 。= 0 1 7 6 再根据式25 ,得到如下向量: q : d 。: 0 第一二章壁j 。n 层向最卒问模刑的网络信息检索 ( 1 2 : d ;: 再根据式26 ,得到以下桐似度: 觅1 ( q ,d 1 ) = 0 0 3 1 s c ( q ,d 2 ) = 0 4 8 6 s c ( q ,d 3 ) = 0 0 6 2 按照查询与文件的相似度对文件进行排序,并提交检索结果。奉例中,榆索 结果为:d 2 ,d 3 ,d l ,与该查询最相关的文件是d 2 。这与我们人工判断的结果也 是相符的。 2 3n 层向量空间模型 n 层向量空间模型是对标准向量空问模型的一种改进。向量空问模型中虽 然使用t f d f 来改进词语权重的计算,但是其本质还是对所有词晤“一视同仁” 的,即词语的权重完伞取决于它出现的频率,而不关心它出现的位置。 而现实中的文档,往往是明显地划分为多个部分的,如标题,摘要,关键 字,f 文等,由人工来判别的话,标题掣的词语显然要比_ f 文单的重要。而向 量空问模型的算法中却无法区分这些分别。所以我们引入n 层向量空问模型的 概念。 k 层向量空间模型就是将一篇文档从组织结构上进行识别,根据不同的部分 划分为n 层( 例如,对于一般二次文献而占,我q 1 戈, j 分的标准是标题,摘要, 关键字,f 文,这样就构成了。个四层向量空问模型) ,基于每层的文本内容建 立相应的特征项向量和权值。这样,对丁文档进行n 层划分得到的向量空i 刈模 型就成为n 层向量窄间模理。而在权重计算上,对丁不同的部分也采用小同的 标准,将各层中关键字的权重分别乘与1 i 同的比例系数,这样就可以显著的提 高相似度计算的结果,得到更好的检索结果。 例如要检索的题目是“计算机发展对农业的影响”。 如果用人工判别,检索的核心关键词应该是“计算机”和“农业”。 假设文档d l 的题目中没有这两个关键词,但是在1 f 文中m 现了3 次“计算 机”,4 次“农业”。文档d 2 的题目中例时出现了“计算机”和“农、i k ”, i 卜文巾出现这两个词各2 次。 如果按照传统的向量空j 、月j 模型,那么d 1 刈于查询的相似度要高于i ) 2 。而采 用n 层向量空间模型的话,对丁题日中山现的“计算机”和“农业”两个l 可赋 p 了史高的权重,那么计算的结果就是d 2 的相似度要远远高于d 1 ,这也与人 工判断的结果相同。 第二章基丁n 层向量空间模型的网络信息检索 所以说,n 层向量窄问模剐能够更好地区分文梢,得到更佳的查询结果。 2 , 4 将n 层向量空间模型应用于网络信息检索 计埘于网络文档来说,显示给用户的文档是由h t m l 语言所写成的文本文 件,凼此,使用向量窄问模型来进行检索也是可行的。 络文档信息之间的变迁是通过链接完成的,链接的文本信息从某个角度 上代表了被链接的网络文档的重要信息,同时刚络文档的结构( 小同的h t m l 部分) 也隐式的区分了文档信息中的不同部分,闪此网络文档可以自然的划分 为多个部分。所以,针对阀络信息检索,采用n 层向量空间模型会有更好的效 果。 本文纠剥网络信息进行检索,山于刚页的特殊格式,决定了篇文丰当最少 是由指向该文档的链接、文档标题和文档f 文j 部分组成。这j 部分内容对于 文档的表达能力是不同的。链接是吸引别人点击该文档进行阅读的通道,表达 文档的能力最强,其次是标题,而一文内容表达文档的能力最弱。 冈此,将n 层向量卒间模碰应用在网络信息检索时,将一篇嗍络义档划分 成三层:指向文档的链接、标题和f 文。 0 7w e b 贝面巾有 等标记的关键字部分,则可划分为p u 层向 量空间模型。我们在建立模型的时候,使用的就是四层向量空间模型。具体的 划分过程是,将一个h t m i 页而按照重要程度划分为旧个部分,第一部分是指 向这个页面的链接文字( 在链接到这个页面的上一个页面上) ,第二部分是 之间的贝两标题部分,第二部分是 之f l h j 的关键字( 这部分可能不存存) ,第四部分是 之间 的卜文。 权重的调整过程是:在统计每个区域的特征项频率得到矿,后,要乘以反映 其重要程度的比例系数来加以修f 和调整。 特征项,在文档谚中出现的频枣以= 巩鳊。) = i 其中矾。为第 个区域的特征项频率( 女为1 ,2 ,3 ,4 时分别埘应链接区域, 标题区域,关键字区域,, e 3 c i 区域) ,w , w 2 w , w 。i 为比例系数。 同样,在义档同一区域内不刷的特征项所表达文档内容的能力电是有差别 的。例如,同在正文区域的不同的特征项,它们代表文档的内容就有可能不同。 在计算特征项频率矿,时再乘以一个比例因子l o g :( m m ,) ,其中m 为该特征项 在本文档d ,( h t m l 页血) 中总共出现的次数,m ,为该特征项在笫i 个区域出 第二章基丁n 层向琏空间模型的网络信息检索 现的次数。这样,特征项 存文档矿中出现的频率调整为 n 舐2 ( l o g :( m m 。) ) 女= 1 具巾。为特征项在链接区域的频率,矿,:为特征项在标题区域的频率,( ,;j 、 为特征项存关键宁区域的频率,矾。为特征项在i f 文区域的频率。 将卜式代入到特征项的权重和相似度的计算公式r f i 进行调整。这样处理的 u 的是为了在不影响其它特征项的情况下,提高那些表达文档内容的能力强的 特征项的权重值,提高查询的准确度。 第二章网络信息检索乎台的岍究和设i 第三章网络信息检索平台的研究和设计 3 1 现有信息检索平台的分析比较 3 11s m a r t 信息检索系统 s m a i _ c t 是山( ;s a ll o n 于六十年代后期实现的基于向量空间榆索模型( v s m ) 的信息检索系统,其最根本的目的是为信息检索研究提供一个研究框架。此系 统包括了建立索引,检索和l i 价等摹本功能,如蚓3 一l 所示。 图: _ ls m a r t 信息检索系统基本流程 其中,建立索引需要对文件集和查询集分别建辽索引,如图3 - 2 所示。 第二章州络信息检索平台的训f 究利设i 图3 2 利用s m a r t 信息检索系统为中文信息检索建立索引的流程图 文件或查询通常由几部分组成,如“i d ”、“t i t l e ”、“t e x t ”等等,s m a r 7 1 信息检索系统首先识别这些标志,并列文件和查询进行切分,以方便对不同的 部分进行不同的处理。比如,可以只选择文件或鱼询的某一部分进行检索。 通常,为了提高效率和检索的精度,需安划照个被称为“停用训表 ( s t o p ljs t ) ”的字符集将文件及查询巾一些划信息检索来讲无意义的检索单 第二章网络信息检索平台的研究和陵计 儿过滤掉,比如,一些如“啊”,“了”,“哼”等词所组成的“停用词表” 字符集。本论文中,我们通过对n t c i r2 文件集进行统计,抽取了5 0 0 0 个高频 字( 侧) ,在此基f i f 卜,人工筛选出了1 0 ) o 个中史单字和词,自建了+ 个“停 h j 词表”字符集。实验表明,通过使用该“停用词表”字符集,提高了检索效 率利检索精度。 之后,系统对文什或查询各部分中检索单元的出现频率进行统计,冉按照 整篇文件或整条查洵进行汇总,一般,其结果可以表示为 或 这样,对应于某一个检索单兀,系统可以方便地得到所有包含该检索单元 的文什以及该检索单元在相应文件中出现频率的信息,从而,可以高效率地完 成各种权值的计算,如t 卜i d f 权值。 对于查询,系统将各检索单元的出现频率转化为其权值甜, s m a r t 信息检索系统还提供了评价的标准模块,用户只需指出t r e c 等测试 集的标准答案的路径,s m a r t 信息检索系统将根据需要产生有关精度和召回率 的标准 i 价报告。 s m a r t 信息检索系统主要是一种实验性的系统。许多信息检索研究丁作都 是在s m a r t 信息检索系统上进行的,并且取得了较好的稳索效果。 作为一种非商业性的信息检索系统,s m a r t 信息检索系统的最新版本可以 很方便的从网上获得( f t p :f t p e s c o r n e l1 e d u p u h s m a r t ) ,目前,其版本 为“v e r s i o n l0 1 1 ”。经过了四十多年的研究和发展,最新版本的s m a r t 信息 检索系统已经是个健壮的刈处理较大规模文件集( 5 0 0 r b ) 的信息检索系统。 其检索效率也相对较理想,以建立索引为例,- - 4 , 时可以完成1 5 0 m b 的文什处 理( 5 0 0 m h z 的p e n t i n t l m 处理器) 。 s m a r t 信息检索系统还为用j ,提供了定的灵活性,用户可以增加新功能 或改变处理流程等。另外,由于其源代码公jr ,用户还可以针对自己的需求对 其进彳j 二相应的修改,在本论文中,为便j :进行中文信息检索的研究,我们就参 考了s m a r t 系统的部分设计代码,来完成自己的实验系统。 3 12o k a p i 信息检索系统 o k a p i 是基于概率统计检索模型的文件信息检索系统,最早由伦敦城市大 第二章旧络信息榆索平台的研究年设计 学丌发。在信息检索的研究中,特别是在有关j t r e c 的研究中,o k a p i 信息检 索系统都表现出了较好的检索效果。完成丁2 0 0 0 年1 0 月的最新版本的o k a p i 信息检索系统能够处理更大规模的文本文件( 1 0 g 甚至更多) 。 o k a p i 信息检索系统在r o b e r t s n n s p a r kj o n e s 权值m ( 式2 - 2 ) 的基础 上进jj :了较大的改进,得到o k a p ib m 2 5 公式( 式卜1 ) : ,粤警 ( 3 _ 1 ) 怠k + 矿“ 其中( 假定欲计算查询q 与文件d 的相似度) : ( 为陔查询,检索单元t 包含存q 中; m “为r o b e rl s o n s p a r k 。 o n e s 权值: 参数由式32 定义: k = k l ( 1 一b + b 芝) ( 3 - 2 ) k ,和b 为可调参数,可以根据具体的训练集经过实验选取合适的值,通常k 的耿值范闱存1 0 2 0 之间,b 的耿值范围在0 3 5 一( ) 7 5 之间: c 打为文件d 的长度; a v d l 为文件集的平均长度; t r 为检索乖元t 在文什d 中出现的频率; q t f 为检索单元t 在查询q 巾出现的频率; 最新版本的o k a p i 信息榆索系统,其权值的计算采用o k a p ib m 2 5 0 0 公式 ( o
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年安徽师范大学出版社招聘4人考前自测高频考点模拟试题及参考答案详解一套
- 2025年甘肃交通职业技术学院招聘工作人员模拟试卷含答案详解
- 2025江西吉水县某行政单位招聘4人模拟试卷及答案详解(考点梳理)
- 2025江苏南通市公安局招聘警务辅助人员66人考前自测高频考点模拟试题及一套答案详解
- 2025届春季中核集团校园招聘正式启动考前自测高频考点模拟试题及答案详解(典优)
- 2025年洛阳古墓博物馆人才引进招录专业技术人员2名模拟试卷及完整答案详解1套
- 2025年延安通和电业有限责任公司招聘(5人)模拟试卷及答案详解(易错题)
- 2025湖南湘西州泸溪县妇幼保健计划生育服务中心招聘高校见习生5人模拟试卷及完整答案详解一套
- 2025年陕西师范大学校医院招聘(2人)考前自测高频考点模拟试题及1套参考答案详解
- 2025年滁州职业技术学院引进急需紧缺高层次人才25人模拟试卷及答案详解(易错题)
- 2025四川成都高新投资集团有限公司选聘中高层管理人员4人笔试参考题库附答案解析
- 水利工程水利工程施工技术规范
- 从安全感缺失剖析《榆树下的欲望》中爱碧的悲剧根源与启示
- 2025中证金融研究院招聘11人考试参考题库及答案解析
- 人教版(2024)八年级上册英语Unit 2 Home Sweet Home教案
- 城镇住宅建设调查技术实施方案
- 渔民安全培训课件
- 时空数据建模与预测算法-洞察阐释
- 汽车电路原理培训课件
- 2025年长江引航中心招聘笔试备考题库(带答案详解)
- 压力性损伤的个案护理
评论
0/150
提交评论