信息检索模型课件_第1页
信息检索模型课件_第2页
信息检索模型课件_第3页
信息检索模型课件_第4页
信息检索模型课件_第5页
已阅读5页,还剩107页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章信息检索模型2023/7/311信息存储与检索第七章信息检索模型2023/7/311信息存储与检索第七章信息检索模型7.1信息检索模型概述7.2经典的信息检索模型7.3集合论检索模型7.4代数检索模型7.5概率检索模型7.6结构化文本检索模型7.7超文本检索模型2023/7/312信息存储与检索*第七章信息检索模型7.1信息检索模型概述2023/77.1信息检索模型概述7.1.1信息检索概述信息检索是一门研究从一定规模的文档库中找出满足用户需求的信息的学问,它指的是对非结构化或半结构化信息的检索,半结构化信息检索人们通常称为文本信息检索,而非结构化信息检索多指多媒体信息检索。信息检索是对信息集合与需求集合的匹配和选择。

信息检索基本原理:用户通过一些列关键词来阐明自己的信息需求,信息检索系统则检索与用户查询最为匹配的文献,同时借助某种相关性指标对检索出的文献进行排序。2023/7/313信息存储与检索*7.1信息检索模型概述7.1.1信息检索概述2023/7.1.2信息检索模型1、定义信息检索模型的核心问题是检测哪些文献相关,哪些文献不相关,即判断一篇文献是否与用户的查询条件相关,以及相关的程度。信息检索的模型,就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表述为某种数学公式,再经过演绎、推断、解释和实际检验,反过来指导信息检索实践。2023/7/314信息存储与检索*7.1.2信息检索模型1、定义2023/7/314信息存储2、信息检索模型的组成(1)用户的需求表示:包括用户查询信息的获取与表示。(2)文档的表示:文档内容的识别与表示。(3)匹配机制:用户需求表示与文档表示之间的查询机制,以及它们之间相关性排序的准则和函数表示。(4)反馈修正:对检索结果进行优化。7.1.2信息检索模型2023/7/315信息存储与检索*2、信息检索模型的组成7.1.2信息检索模型2023/7/结构化文本模型集合论模型文本检索模型非重叠链表模型邻近节点模型布尔模型向量模型概率模型浏览模型超文本模型基于本体的模型经典模型超文本模型知识检索模型扩展布尔模型模糊集合模型广义向量模型潜语义标引模型神经网络模型推理网络模型信任度网络模型代数模型概率模型3、信息检索模型的类型7.1.2信息检索模型2023/7/316信息存储与检索*结构化文本模型集合论模型文非重叠链表模型布尔模型浏览模型基于7.2经典的信息检索模型7.2.1定义及假设定义:令t表示文档集里所用不同标引词的数目,Ki表示一个标引词,K={K1,K2K3,…Kt}表示所有标引词的集合,对于文档Dj中存在的标引词Ki,其权重Wij>0;对于文档Dj中没有的标引词Ki,其权重Wij=0。这样就可以将文档Dj表示成一个向量Dj=(W1j,W2j,W3j…Wtj),向量Dj的第i维就对应项Ki在文档Dj中的权重。2023/7/317信息存储与检索*7.2经典的信息检索模型7.2.1定义及假设2023/7.2.1定义及假设在经典的信息检索模型中,还存在以下一些普遍性假设:(1)被检索对象主要为文档对象。(2)标引词是相互独立的。(3)用户检索是根据文档内容的表示及所需信息的表示进行的。(4)所有文档的内容和所需信息的表示都是非精确的。2023/7/318信息存储与检索*7.2.1定义及假设在经典的信息检索模型中,还存在以下一7.2经典的信息检索模型7.2.2布尔检索模型布尔(Boolean)模型是基于集合论和布尔代数的一种简单检索模型。用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑运算来检索文献。在传统的布尔模型中,每一文献用一组标引词表示。Dj=(K1,K2,K3,…,Km)表示文献Dj,式中K1,K2,K3,…,Km表示文献Dj中的所有标引词集合。

2023/7/319信息存储与检索*7.2经典的信息检索模型7.2.2布尔检索模型20237.2.2布尔检索模型文档与标引词建立一个布尔关系。用若干标引词的布尔表达式来表达和解释查询Q。对于一个表示为Q=(K1ANDK2)OR(K3AND(NOTK4))的提问式,系统的响应必须是这样一组文献集合:这些文献中都含有标引词K1和K2,或者含有标引词K3但不含有标引词K4。常用的布尔逻辑组配运算符有:逻辑“与”(AND,常用符号“∧”表示)、逻辑“或”(OR,常用符号“∨”表示)、逻辑“非”(NOT,常用符号“-”表示)。2023/7/3110信息存储与检索*7.2.2布尔检索模型文档与标引词建立一个布尔关系。用若干布尔检索模型在布尔检索模型中标引词在文献中要么出现、要么不出现,因此标引词Ki在文档Dj中的权重全部被设为二值数据,即Wij∈(0,1)。用户提交的查询条件由若干个标引词用与、或、非等逻辑符号相联结,在布尔检索模型中被表示成了布尔表达式Q=(K1,K2,…),其本质可以表示为多个标引词权值的合取向量的析取Qi(Qi为表达式Q的任意合取向量),则文献Dj和查询Q的相关度表示为2023/7/3111信息存储与检索*布尔检索模型在布尔检索模型中标引词在文献中要么出现、要么不出布尔检索模型如要检索“布尔检索或概率检索但不包括向量检索”方面的文档,其相应的查询表达式为:Q=检索and(布尔or概率not向量),那么Q可以在其相应的(检索,布尔,概率,向量)标引词向量上取(1,1,0,0)(1,0,1,0)(1,1,1,0),那么文档Dj的向量如果与这中间一个相等,那么即可认为他们之间存在相似关系,而这种相互关系也是布尔值,即sim(Q,Dj)只能为0或1。这也就是布尔模型的局限性所在,描述所有关系都是布尔值,而现实中文档与标引字或者标引字与查询语句之间的关系都不可能只是有关系或者没关系,换句话说布尔模型中无法描述关系的密切程度。

2023/7/3112信息存储与检索*布尔检索模型如要检索“布尔检索或概率检索但不包括向量检索”方简单实例:Q=病毒AND(计算机OR电脑)ANDNOT医D1:…据报道,计算机病毒近日猖獗…D2:…小王虽然是学医的,但对研究电脑病毒也很感兴趣,最近发明了一种…D3:…计算机程序发现了爱滋病病毒的传播途径…D4:…最近我的电脑中病毒了…请问:哪些文档会被检索出来?2023/7/3113信息存储与检索*简单实例:2023/7/3113信息存储与检索*布尔检索模型Boolean模型存在着一些缺陷:第一,它的检索策略是基于二元判定标准(例如,对于检索来说一篇文档只有相关和不相关两种状态),缺乏文档分级(rank)的概念,限制了检索功能。第二,虽然布尔表达式具有精确的语义,但常常很难将用户的信息需求转换为布尔表达式,实际上大多数检索用户发现在把他们所需的查询信息转换为布尔时并不是那么容易。2023/7/3114信息存储与检索*布尔检索模型Boolean模型存在着一些缺陷:2023/7/7.2经典的信息检索模型7.2.3向量空间模型向量模型通过分派非二值权重给查询和文档中的标引词来实现检索目标。这些权重用于计算系统中的每个文档与用户的查询请求的相似程度,向量模型通过对文档按照相似程度降序排列的方式,来实现文档与查询项的部分匹配。这样做的结果中的文档排列顺序比通过布尔模型得到的结果要合理得多。2023/7/3115信息存储与检索*7.2经典的信息检索模型7.2.3向量空间模型2027.2.3向量空间模型定义:

在向量空间模型中,标引词Ki在文档Dj中的权重Wij是一个大于0的非二值数。文档Dj可以看做是一个向量:

Dj=(W1j,W2j,W3j………Wtj)其中,t是文档集中所有标引词的数目。

用户查询中的标引词也是有权重的,设Wiq是用户检索提问式(查询)Q的标引词Ki的权重,且Wiq≥0,则查询向量Q被定义成:

Q=(W1q,W2q,W3q…………Wtq)。衡量文档和查询的相关度转化成计算文档向量和查询向量之间的相似度。一般使用文档向量和查询向量之间的夹角余弦值来计算它们之间的相似度。2023/7/3116信息存储与检索*7.2.3向量空间模型定义:2023/7/3116信息存7.2.3向量空间模型WijK1k2…KnD101…0D210.8…0.5……………Dn0.20…1文档向量空间的表示:文档D1(W11,W21,…Wn1)查询Q(W1q,W2q,…Wnq)文档D2(W12,W22,…Wn2)特征项1特征项2特征项3文档向量空间模型:2023/7/3117信息存储与检索*7.2.3向量空间模型WijK1k2…KnD101…0D

文档和文档之间的相似度Sim可以表示如下:文档和查询之间的相似度Sim可以表示如下:7.2.3向量空间模型2023/7/3118信息存储与检索*文档和文档之间的相似度Sim可以表示如下:文档和查询之例子D1=2K1+3K2+5K3D2=3K1+7K2+K3Q=0K1+0K2+2K3文档D1=2K1+3K2+5K3查询Q=0K1+0K2+2K3文档D2=3K1+7K2+K3特征项1特征项2特征项32023/7/3119信息存储与检索*例子D1=2K1+3K2+5K3文档D1=2K1标引词的权重计算(TF-IDF)N为文档集合,ni为包含标引词Ki的文档篇数,TFij表示标引词Ki在文档Dj中出现的频数,则文档Dj中标引词Ki的标准化频率Fij为Fij=TFij/maxjTFij最大值是通过计算文档Dj中出现的所有标引词来获得的。如果标引词Ki没有出现在文档Dj中,则Fij=0。标引词Ki的IDF为IDFi=log(N/ni)标引词Ki在文档Dj中的权重Wij=Fij*IDFi7.2.3向量空间模型2023/7/3120信息存储与检索*标引词的权重计算(TF-IDF)7.2.3向量空间模型2TF-IDF举例说明文本:“俄罗斯频繁发生恐怖事件,俄罗斯的安全部门加大打击恐怖主义的力度。”TFIDFTF-IDFTFIDFTF-IDF俄罗斯2较高高安全1中等高恐怖的2较高高部门1较低低的2非常低很低加大1较低低频繁1较低低打击1中等高发生1较低低主义1较低低事件1较低低力度1中等高2023/7/3121信息存储与检索*TF-IDF举例说明文本:“俄罗斯频繁发生恐怖事7.2.3向量空间模型向量空间模型的主要优点:对标引词的权重进行了改进,其权重的计算可以通过统计的办法自动完成,使问题的繁杂性大为降低,从而改进了检索效率。把文档和查询本身简化为标引词及其权重集合的向量表示,把对文档内容和查询要求的处理简化为向量空间中向量的运算。根据文档和查询之间的相似度对文献进行排序,有效地提高了检索效率。可以实现文档自动分类。2023/7/3122信息存储与检索*7.2.3向量空间模型向量空间模型的主要优点:2023/向量空间模型的主要缺点:(1)标引词仍然被认为是相互独立,会丢掉大量的文本结构信息,降低语义准确性。(2)相似度的计算量大,当有新文档加入时,必须重新计算词的权值。7.2.3向量空间模型2023/7/3123信息存储与检索*向量空间模型的主要缺点:7.2.3向量空间模型2023/7.2经典的信息检索模型7.2.4概率模型1、基本思想用户提出了查询,就有一个由相关文档构成的集合,该集合只包括与查询完全相关的文档而不包括其他不相关的文档,称该集合为理想结果集合,记为R。如果知道R的特征,就可以找到所有的相关文档,排除所有的无关文档。因此,可以把查询看成一个寻找R的特征的过程。2023/7/3124信息存储与检索*7.2经典的信息检索模型7.2.4概率模型2023/7.2.4概率模型

在第一次查询时并不知道R的特征,只能去估计R的特征来进行查询。第一次查询完成后,可以让用户判断一下检索到的文档哪些是相关文档,根据用户的判断,可以更精确地估计R的特征。然后系统利用该信息重新定义理想结果集合的概率描述;重复以上操作,就会越来越接近真正的结果文档集。估计R的特征进行检索用户判断2023/7/3125信息存储与检索*7.2.4概率模型在第一次查询时并不知道R的7.2.4概率模型2、相关概念贝叶斯定理:词条的独立假设:P(AB)=P(A)P(B)

当且仅当A与B相互独立.若文档中的各个索引词相互独立,则有P(Dj)=P(k1)…P(kt)

2023/7/3126信息存储与检索*7.2.4概率模型2、相关概念2023/7/3126信息7.2.4概率模型3、定义:对于概率检索模型而言,标引词Ki在文档Dj中的权重Wij∈{0,1},同时用户查询中的标引词Wiq∈{0,1},查询Q是标引词空间的一个子集,用R表示已知的相关文献集,用表示R的补集,条件概率P(R∣Dj)表示文档Dj与查询Q相关的概率,条件概率P(∣Dj)表示文档Dj与查询Q不相关的概率。文献Dj与查询Q的相似度Sim(Dj,Q)可以定义为两者的比值,即:2023/7/3127信息存储与检索*7.2.4概率模型3、定义:2023/7/3127信息存7.2.4概率模型Sim(Dj,Q)可以近似的表示为:因为经典的信息检索模型中假设标引词之间无相关关系,是独立的,则Sim(Dj,Q)可以表示为:取对数,在相同背景下,忽略对所有因子保持恒定不变的因子,则有这是概率模型中排序计算的主要表达式。

2023/7/3128信息存储与检索*7.2.4概率模型Sim(Dj,Q)可以近似的表示为:27.2.4概率模型对我们的初始估计R集合相关的概率赋予初始值:ni为包含标引词Ki的文献数目;N为集合中的文献总数。初始值确定后,根据与查询Q相关的大小进行初步排序,取前若干个文档作为相关查询集合。之后通过如下方法进行改进。2023/7/3129信息存储与检索*7.2.4概率模型对我们的初始估计R集合相关的概率赋予初7.2.4概率模型用V表示概率模型初步检出并经过排序的文档子集,Vi表示V中包含索引词ki的文档集合。根据V和Vi中包含标引词Ki的文献数目来改进初始值,通过如下假设完成:根据已检索出的文献中标引词Ki的分布来估计的根据未检索出的文献都是不相关的来估计这样就形成了一个检索和学习的迭代过程,也就是概率检索模型。2023/7/3130信息存储与检索*7.2.4概率模型用V表示概率模型对较小的V和Vi,如V=1,Vi=0,上述计算会出现问题,所以做以下改进:也可以为:7.2.4概率模型2023/7/3131信息存储与检索*对较小的V和Vi,如V=1,Vi=0,上述计算会出现问题,所7.3集合论检索模型7.3.1模糊集合检索模型从信息检索的本质上讲,文档和提问之间的匹配处理是一个近似过程,系统中的每一个标引词都对应着一个模糊的命中文档集合,而每一篇文档对于这个命中集合来说,又都具有各自不同的隶属度值(通常是小于1的)。隶属度用词频加权法、反文献频率加权法、词频-反文献频率加权法等方法确定。将标引词和它在对应文献中的隶属度一起作为集合论标引的一个有序对。检索时通过匹配运算,得到检索提问词在每篇文献中的隶属度,根据隶属度的大小对文献排序。

2023/7/3132信息存储与检索*7.3集合论检索模型7.3.1模糊集合检索模型20237.3集合论检索模型模糊集合论对经典集合论的推广,主要表现在它把元素属于集合的概念模糊化,承认论域上存在既不完全属于某集合、又不完全不属于某集合的元素,即变经典集合论“绝对的”属于概念为“相对的”属于概念;同时,又进一步把属于概念数量化,承认论域上的不同元素对于同一集合具有不同的隶属程度,引入了隶属度(membership)的概念。模糊集合的严格定义可以表述如下:论域U到实区间[0,1]的任一映射μA:U→[0,1],对于任意x∈U,x→μA(x)都确定U上的一个模糊集合A,μA称做A的隶属函数,μA(x)为元素x对A的隶属度。2023/7/3133信息存储与检索*7.3集合论检索模型模糊集合论对经

假设U={0,1,2,...,9}为代表一个家庭中,所可能拥有子女个数的集合,令三个模糊集合定义为A:子女数众多,B:子女数适中,C:子女数很少,其归属函数的定义如表所示。

子女数子女众多(A)子女适中(B)子女很少(C)00011001200.20.8300.70.24010.150.10.7060.30.2070.800810091002023/7/3134信息存储与检索*假设U={0,1,2,...,9}模糊集合理论对于表示和解决现实社会中存在的许多模糊和不精确问题非常有效,并已在许多领域取得广泛应用,其中就包括在信息检索领域中的成功应用。以下选择奥加娃(Y.Ogawa)等人提出的模糊检索模型,对其基本原理进行介绍。(1)标引词关联矩阵(2)文档的隶属度(3)用户提问及表示7.3.1模糊集合检索模型2023/7/3135信息存储与检索*模糊集合理论对于表示和解决现实社会中存在的许多模糊和不精确问(1)标引词关联矩阵所谓标引词关联矩阵,是指以标引词集合K中的元素作为行、列,标引词之间语义关系作为元素值的一个词-词矩阵。假设关联矩阵用Ct*t表示,矩阵元素cil表示标引词ki、kl之间的关联因子,其值用如下公式计算:Cil=nil/(ni+nl–nil)式中,ni、nl分别表示文档集合D中含有索引词ki和kl的文档数,而nil表示D中同时含有索引词ki、kl的文档数。7.3.1模糊集合检索模型2023/7/3136信息存储与检索*(1)标引词关联矩阵7.3.1模糊集合检索模型2023/77.3.1模糊集合检索模型(2)文档的隶属度在信息检索处理中,对于每一个标引词来说,都存在一个模糊的文档集合与之相关。定义与标引词ki相关的模糊文档集合为Di,对于任一文档dj,其隶属于集合Di的隶属度值可以通过下式计算:μij=1-∏(1-cil

)如果文档dj的词与Ki有联系,那么该文档属于与Ki相关联的模糊集。无论何时,文档dj中只要存在一个索引词Kl与索引词Ki有强联系(如cil=1),那么μij=1,并且我们说索引Ki对于文档dj来说是一个好的模糊索引。相反,当dj中的所有索引词都与Ki几乎都没有联系时,我们说索引Ki对于文档dj来说不是一个好的模糊索引。2023/7/3137信息存储与检索*7.3.1模糊集合检索模型(2)文档的隶属度2023/7(3)用户提问及表示在模糊检索模型中,用户的检索提问仍像布尔模型一样,用布尔逻辑式表达。进一步地,布尔表达式还要转换为等价的析取范式形式。举例来说,查询写成这样的离散的标准形式,其中每一组都是关联于三元组(ka,kb,kc)的一个(0,1)权重向量。这些(0,1)权重向量都是

的连续组件。设cci为第i个连续组件的一个引用。那么,其中p是中连续组件的个数。2023/7/3138信息存储与检索*(3)用户提问及表示2023/7/3138信息存储与检索*集合论检索模型考虑查询,设为关联于索引的文档模糊集。作为示例,我们不妨设该集合由所有隶属度值大于某一阈值K的文档组成。进而,设是的补集。模糊集与(非)相关联。相似地,我们可以定义与、相关联的模糊集、。由于所有的集合都是模糊集,因此一个文档dj属于集合,即使其文本中根本没有提到。2023/7/3139信息存储与检索*集合论检索模型考虑查询查询模糊集合是所有与查询组件相关联的模糊集的并集。文档dj关于模糊查询集的隶属度计算如下:2023/7/3140信息存储与检索*查询模糊集合是所有与查询组件相关联的模糊集的并集。文7.3集合论检索模型7.3.2扩展布尔模型布尔模型和向量空间模型相结合,先做布尔过滤,然后进行排序:首先进行布尔查询将全部满足布尔查询的文档汇集成一个文档用向量空间法对布尔检索结果进行排序布尔过滤排序布尔查询式向量空间模型查询式文档结果2023/7/3141信息存储与检索*7.3集合论检索模型7.3.2扩展布尔模型布尔过滤排序扩展布尔模型假定文献集合中的文献Dj仅用两个标引词Kx和Ky标引,并且Kx和Ky允许被赋予一定的权值,其权值分别为Wx,j、Wy,j,权值的取值范围为[0,1],权值越接近于1,说明该词越能反映文本的内容,反之,反映文本的内容差一些。为了简单起见,用x,y分别表示权值Wx,j、Wy,j。我们采用二维图来表示文献的提问,用距离的概念表示文献与提问的相似度。(0,0)B(1,0)A(0,1)C(1,1)D(x,y)2023/7/3142信息存储与检索*扩展布尔模型假定文献集合中的文献Dj仅用两个标引词Kx和Ky扩展布尔模型中的“或”关系对于析取提问Q=Kx∨Ky,只有A、B、C三点所代表的文献才是最理想的,对于任一文献Dj而言当它离A、B、C三点越接近时说明相似度越大,因而Dj到点(0,0)的矢量距离可以用来度量与提问Q的相似度,为了使相似度控制在0和1之间,相似度可以规范化为:最不期望的点(0,0)B(1,0)A(0,1)C(1,1)D(x,y)x∨y2023/7/3143信息存储与检索*扩展布尔模型中的“或”关系对于析取提问Q=Kx∨Ky,只有A扩展布尔模型中“与”关系对于合取提问Q=Kx∧Ky,只有C点才是最理想的文献,则Dj到C点的矢量距离为:它可以作为衡量文献与提问之间相似度的一个尺度,则相似度可以规范化为:(0,0)B(1,0)A(0,1)C(1,1)D(x,y)x∧y最期望的点2023/7/3144信息存储与检索*扩展布尔模型中“与”关系对于合取提问Q=Kx∧Ky,只有C点观察如果x出现在文档Dj中,则x在文档Dj中具有权重1,否则为0。当Dj包含x和y时,Sim(Qand,Dj)=sim(Qor,Dj)=1当Dj既不包含x也不包含y时,Sim(Qand,Dj)=Sim(Qor,Dj)=0当Dj包含x和y二者之一时,

Sim(Qand,Dj)=1−0.51/2=0.293Sim(Qor,Dj)=0.51/2=0.7072023/7/3145信息存储与检索*观察如果x出现在文档Dj中,则x在文档Dj中具有权重1,否7.4代数检索模型7.4.1广义向量空间模型广义向量空间模型以标引词向量是线性独立而不是两两正交的为基础,提出了标引词间的相互依赖性,该依赖性由标引词同时出现的模式导出。在广义向量空间模型中,标引词向量由一组更小分量组成的正交基向量来表示,词与词之间的关系直接由基向量表示。2023/7/3146信息存储与检索*7.4代数检索模型7.4.1广义向量空间模型2023/7.4.1广义向量空间模型假定集合中的标引词的集合为{k1,k2,…kt},wi,j是标引词Ki在文献Dj中的权值,如果所有的权值wi,j都是二值的,t个标引词生成2t个互不相同的最小项,每个最小项中只能出现一个标引词Ki,则在文档内部同时出现的所有可能的模式可以用2t最小项的集合来表示。其中m1=(0,0,…,0),m2=(1,0,…,0),…m2t=(1,1,…,1),函数gi(mj)返回最小项mj中的索引词ki的权值{0,1}。因此最小项m2(i=1,g1(m2)=1;i>1,gi(m2)=0)指出了包含唯一标引词K1的文献。最小项m2t=(1,1,…,1)指出了包含所有标引词的文献。2023/7/3147信息存储与检索*7.4.1广义向量空间模型假定集合中的标引词的集合为{k1广义向量空间模型对于所有的i≠j,有mi·mj=0,因此,根据定义,mi向量集合是两两正交的,所以mi向量集合可以作为广义向量空间模型的正交基。广义向量空间模型的中心思想是引入了与最小项集合相关联的两两正交向量mi的集合,并采用该向量集合作为目标子空间的基。也可以说,当标引词在文档集合内部同时出现时,就可以推导出这些标引词之间的相互依赖关系。2023/7/3148信息存储与检索*广义向量空间模型对于所有的i≠j,有mi·mj=0,因此,根广义向量空间模型为了确定标引词ki的标引向量ki,我们对最小项mr的向量相加求和,则:公式中索引词ki的值为1并且已经标准化。对于每一个mr向量,可以定义一个关联因子ci,r用于计算此索引词ki在文档Dj中的权值wi,j之和。2023/7/3149信息存储与检索*广义向量空间模型为了确定标引词ki的标引向量ki,我们对最小7.4.2潜语义标引模型问题引入自然语言文本中的词汇(术语)具有一词多义和一义多词的特点。由于一词多义,基于精确匹配的检索算法会报告许多用户不要的东西:处理什么地方处理旧家具?你去把那个叛徒处理了处理自然语言很难由于一义多词,基于精确匹配的检索算法又会遗漏许多用户想要的东西。“互联网”,“万维网”,“因特网”,“国际互联网”等2023/7/3150信息存储与检索*7.4.2潜语义标引模型问题引入2023/7/3150信息设Doc1,Doc2,Doc3是三个文件,一些标引词在这三个文件中的出现情况如下表:Doc1Doc2Doc3AccessXdocumentXretrievalXXinformationX*X*theoryXdatabaseXIndexingXcomputerX*X*假定用"information"和“computer”作为主题词进行检索,

那么Doc2和Doc3与之精确匹配,

因而中选.然而,Doc2是用户并不想要的文件,Doc1才是想要的查不出来,不想要的倒查了出来.这说明精确匹配不能很好地反映用户的意图。2023/7/3151信息存储与检索*设Doc1,Doc2,Doc3是三个文件,一些标引词在这LSA的提出如果能基于自然语言理解来做这件事,那一切问题就都没有了。问题是:自然语言理解的目前水平还是有限度的;即使用自然语言理解,效率也会很低我们希望找到一种办法,既能反映术语之间内在的相关性,又具有较高的效率。1990年,来自UniversityofChicago、BellCommunicationsResearch和UniversityofWesternOntario的ScottDeerwester、ThomasK.Landauer等五位学者共同提出了潜在语义分析(LatentSemanticAnalysis,缩写为LSA)这一自然语言处理的方法。2023/7/3152信息存储与检索*LSA的提出如果能基于自然语言理解来做这件事,那一切问题就词汇—文档LSA将自然语言中的每个文档视为以词汇为维度的空间中的一个点,认为一个包含语义的文档出现在这种空间中,它的分布绝对不是随机的,而是服从某种语义结构。同样地,也将每个词汇视为以文档为维度的空间中的一个点。文档是由词汇组成的,而词汇又要放到文档中去理解,体现了一种“词汇-文档”双重概率关系。2023/7/3153信息存储与检索*词汇—文档LSA将自然语言中的每个文档视为以词汇为维度的空间潜在语义标引模型LSA假设文本中存在某种潜在的语义结构,这种潜在的语义结构隐含在文本中词语的上下文使用模式中,可通过利用统计方法获得。其核心思想是通过奇异值分解,将文档向量和词向量投影到一个低维空间,使得相互之间有关联的文献即使没有相同的词时也能获得相同的向量表示。LSA技术主要包括以下几个步骤:(1)词-文档矩阵的构建与优化。

(2)奇异值分解SVD-降维(3)基于潜在语义空间模型的查询2023/7/3154信息存储与检索*潜在语义标引模型LSA假设文本中存在某(1)词-文档矩阵的构建LSA模型中,文档库是用词-文档矩阵Amn来表示的。m为文档库中不同词的个数,一个词对应矩阵A中的一行;n表示文档库中的文档数,每个文档对应矩阵A中的一列;aij表示第i个词在第j个文档中出现的频率TF。第一个词在各个文档中出现的频率第一文档中各个词出现的频率2023/7/3155信息存储与检索*(1)词-文档矩阵的构建LSA模型中,文(2)奇异值分解SVD-降维矩阵的奇异值分解(SVD)计算是矩阵的一种重要计算,其SVD原理说明如下:设U∈Rm*n和V∈Rm*n,使得其中,UT为矩阵U的转置,U为m×r矩阵,UTU=I(I表示单位矩阵),V为r×n矩阵,VTV=I,r为矩阵A的秩。∑r为对角矩阵,表示为且有σ1≥σ2≥σ3≥……≥σr>0。这里,σi称为矩阵A的奇异值,U的列向量和V的列向量分别称为A的左、右奇异向量。即:2023/7/3156信息存储与检索*(2)奇异值分解SVD-降维矩阵的奇异值分解(SVD)计算是(2)奇异值分解SVD-降维

取U和V的前k(k<min(m,n))列,使得:

Ak是词-文档矩阵A的近似表示,实际上是一个低维的语义空间,一方面消减了原词-文档矩阵中包含的“噪声”因素,凸显了词与文档之间的语义关系,另一方面缩减了词、文档向量维数,使得文档检索效率得以大大提高。Uk

和Vk的行向量分别表示词向量和文档向量。k是语义空间的维数,其大小直接关系到检索质量和检索效率的高低,过小会丢失有用信息,达不到区分文献或标引词的目的;过大则捕获不了词与词之间的关联性,达不到语义检索的目的,同时也提高不了检索速度。2023/7/3157信息存储与检索*(2)奇异值分解SVD-降维取U和例子SVD:2023/7/3158信息存储与检索*例子SVD:2023/7/3158信息存储与检索*(3)基于潜在语义空间模型的查询对查询式的要求潜语义检索允许用户提交类似于自然语言的查询条件,而不一定必须是几个分离的词汇。查询式越长,提供的信息需求越充分,越明确。对查询式的处理同对文档的处理一样,根据用户查询语句中各词语的出现频率生成查询矢量q,其中,第i个元素qi的数值表示了第i个词语在查询语句中出现的频率。对q进行截断奇异值分解,使其可以和文本矩阵V进行比较。得到:Vq=q’*U*∑

得出的Vq即为提问式q在k维语义空间内的坐标向量。这样,词汇、文本、提问式三者的坐标向量,构成了我们所需的隐含语义空间。检索过程检索过程就是把查询式的集合视为是一个虚拟的文件,检索的任务是把这个虚拟的文件和其他文件做相似性比较,挑选最相似的出来。2023/7/3159信息存储与检索*(3)基于潜在语义空间模型的查询对查询式的要求2023/7/小结潜在语义标引方法利用统计计算的方法来寻找并导出概念索引,克服因文档词语多义性和同义性困扰而带来的棘手难题,从而进行更有效的信息检索。通过奇异值分解计算和取k-秩近似矩阵,一方面,消减了原始索引词--文档矩阵中包含的索引词之间的“斜交”噪声,更加凸现出词和文档之间隐含的语义结构;另一方面,在与原始矩阵所体现的特征信息尽量保持一致的基础上,又使得索引词、文档向量空间大大缩减,简化了计算复杂性。初步的理论分析和研究试验表明,作为一种自动的语义索引方法,LSA所得到的处理结果是令人鼓舞的。2023/7/3160信息存储与检索*小结潜在语义标引方法利用统计计算的方法来寻找并导出概念索引,7.4.3神经网络模型神经网络模型被描绘成一个三层结构:第一层为用户提问词语结点;第二层为文档词语结点:第三层为文档结点。每一个节点表示一个处理单元,相当于神经元;节点间连线起到神经元突触的作用;而连线的权值则用来模拟神经元之间的连接强度。

1、神经网络模型结构2023/7/3161信息存储与检索*7.4.3神经网络模型神经网络模型被描绘成一个三层结构:2、信息检索处理过程首先由第一层的提问词语结点启动,提问词语结点ka、kb和kc分别向对应的第二层文档词语结点发出信息。紧跟着文档词语结点ka、kb和kc又产生信息并向第三层的相关文档结点传送。文档结点会在收到文档词语结点发送的信号后产生新的信号并返回到文档词语结点,而且这种相互作用的信号传递过程将会重复进行直到信号不断衰减而终止。2023/7/3162信息存储与检索*2、信息检索处理过程首先由第一层的提问词语结点启动,提问词语神经网络模型提问结点向文档词语结点发送信号,其作用强度分量由向量模型中提问词的权值派生出来:文档词语结点向文档结点传递信号,其作用分量由向量模型中文档词语的权值派生出来:2023/7/3163信息存储与检索*神经网络模型提问结点向文档词语结点发送信号,其作用强度分量由7.5概率检索模型7.5.1推理网络检索模型推理网络模型(InferenceNetworkModel)建立在Bayesian可信度网络理论基础之上,1990年由美国学者H.R.Turtle和W.B.Croft最早提出。贝叶斯(Bayesian)网络是概率理论的一个主要研究分支。通常,贝叶斯网络可以看作是一个有向无环图(DirectedAcyclicGraph,DAG)。2023/7/3164信息存储与检索*7.5概率检索模型7.5.1推理网络检索模型2023/贝叶斯网络图中的结点一般用来表示随机变量,有向边用于描述随机变量之间的因果关系,它由表示原因的随机变量(父结点)指向代表结果的随机变量(子结点),而因果关系影响力的大小(或权值)则用条件概率来表示。图中没有父结点的结点称为根(Root)。

2023/7/3165信息存储与检索*贝叶斯网络图中的结点一般用来表示随机变量,有向边用于描述随机贝叶斯网络贝叶斯网络可以用联合概率分布的方式表达结点之间的依赖关系。式中P(x1)称为网络的先验概率,它由具体应用系统的已有知识和语义来定义或决定;其余各项则称为条件概率;2023/7/3166信息存储与检索*贝叶斯网络贝叶斯网络可以用联合概率分布的方式表达结点之间的推理网络模型推理网络模型是这样来理解和处理信息检索问题的:首先把文档、索引词和用户提问等信息项都看作是随机变量,并分别对应到Bayesian网络中的不同节点,不同节点之间的关联关系通过有向边来表示。在此基础上,把文档内容和用户提问的匹配过程转化为一个从文档节点到提问节点的推理过程,以文档节点作为推理的起点,给定文档节点的先验概率、索引词节点的条件概率,通过一系列中间环节的概率计算,最后即可计算出用户提问被满足的后验概率。将这个概率值作为文档与用户查询提问的匹配程度,并根据匹配程度的大小对文档进行排序。2023/7/3167信息存储与检索*推理网络模型推理网络模型是这样来理解和处理信息检索问题的:2文献DjK1K2KiKtQQ2Q1文献Dj…………andOROR2023/7/3168信息存储与检索*文献DjK1K2KiKtQQ2Q1文献Dj…………andOR7.5、概率检索模型7.5.2信任度网络检索模型信任度网络模型(BeliefNetworkModel)和推理网络模型具有共同的理论基础,是基于Bayesian网络理论的另一个概率论检索模型,1996年由B.A.Ribeiro-Neto和R.Muntz共同提出。信任度网络模型与推理网络模型具有不同的网络拓扑结构。在信任网络模型中,文档部分和用户提问部分在网络中是被分离开的。这样的设计一方面简化了信任度网络的建模任务,另一方面也导致了两个模型在性能上的一些差异。目前,尚未有基于信任度网络模型开发的试验或实用系统。理论上的分析结论是,信任度网络模型具有更强的通用和扩展性能。2023/7/3169信息存储与检索*7.5、概率检索模型7.5.2信任度网络检索模型2023/信任度网络模型文献D1K1K2KiKt查询Q…………文献Dj文献Dt用户查询和文献都被模型化为标引词的子集。2023/7/3170信息存储与检索*信任度网络模型文献D1K1K2KiKt查询Q…………文献Dj7.6结构化文本检索模型结构化文本指和表达的思想内容相对应,在物理形式上有明显的组织结构和层次关系的文本,一般在文本信息中按照元素的包含关系加入文本的结构信息。结构化文本检索将文本中的内容信息与文献结构信息相结合的检索模型。文本的结构化分析标记语言方法非重叠链表方法基于邻接节点的方法2023/7/3171信息存储与检索*7.6结构化文本检索模型结构化文本2023/7/3171信7.6.1标记语言结构化文本方法基本思想用语言来定义和说明文本的结构,这些语言对文本结构化的基本手段是设置标记,使用一些附加的具有文本语法的标记将文本格式化,描述文本的格式、结构、语义和属性。如SGML、HTML、XMLSGML(StandardGeneralizedMarkupLanguage,标准通用标记语言)HTML(HypertextMarkupLanguage,超文本标记语言)XML(ExtensibleMarkupLanguage,可扩展标记语言)2023/7/3172信息存储与检索*7.6.1标记语言结构化文本方法基本思想2023/7/31HTML句法结构2023/7/3173信息存储与检索*HTML句法结构2023/7/3173信息存储与检索*HTML句法结构Google首页的部分源代码<html><head><METAHTTP-EQUIV="content-type"CONTENT="text/html;charset=GB2312"><title>Google</title>...</head>标记(Tag)是用一对尖括号“<>”括起来的文本串。2023/7/3174信息存储与检索*HTML句法结构Google首页的部分源代码2023/7/3三个元素一起构成完整的HTML文档结构模板,所有的HTML文档都应该遵循这个模板:<HTML><HEAD>Headerelement</HEAD><BODY>bodyofDocument</BODY></HTML>

<title>text</title>:这个元素是文档的抬头,类似书籍的页眉。<table></table>表示表格。2023/7/3175信息存储与检索*三个元素一起构成完整的HTML文档结构模板,所有的HTML文XML示例

<?xmlversion="1.0"encoding="ISO-8859-1"?>

<bookstore>

<bookcatalog="Programming">

<titlelang="en">C++ProgrammingLanguage</title>

<author>BjarneStroustrup</author>

<year>1998</year>

<price>98.0</price>

</book>

<bookcatalog="Networking">

<titlelang="en">TCP/IPIllustrated</title>

<author>RichardStevens</author>

<year>1996</year>

<price>56.0</price>

</book>

</bookstore>2023/7/3176信息存储与检索*XML示例<?xmlversion="1.0"enco标记语言结构化文本方法标记语言结构化方法可以有效地按文本格式分解文本本身,是面向文本格式的,对于文本内容难于表达,不能有效查询到用户需求的知识,因此,并不是面向问题的。辅助信息和知识检索方法先将用户提问语句进行分词处理,然后通过倒排文档索引在文本中搜索,查找到包含用户需要的信息和知识。2023/7/3177信息存储与检索*标记语言结构化文本方法标记语言结构化方法可以有效地按文本格式7.6.2非重叠链表结构化文本方法基本思想把文档中的整个文本分为无重叠的文本区域,并用链表链接起来。链表0:章链表1:节链表2:小节非重叠链表结构化方法从文本的自身结构将文本格式结构化,但是对于一些非文字文本没有严格的描述方法。2023/7/3178信息存储与检索*7.6.2非重叠链表结构化文本方法基本思想链表0:章链表17.6.3基于邻接节点的方法基本思想在相同文本中定义独立的分层索引结构,每个索引结构是一个严格的层次结构,由章、节、小节、段和行组成,其中每个结构组员称为节点。每个节点与一个文本区域相关。两个不同层次结构可能涉及到两个重叠的文本区域。…………章节小节2023/7/3179信息存储与检索*7.6.3基于邻接节点的方法基本思想…………章节小节2027.7超文本检索模型WWW检索模型类型基于超文本的浏览模型基于搜索引擎的关键字检索模型基于超链接的链接结构分析模型小知识:SEO(SearchengineOptimization)2023/7/3180信息存储与检索*7.7超文本检索模型WWW检索模型类型小知识:SEO(Se7.7.1浏览模型

指基于超文本文件结构的信息浏览。即用户在阅读超文本文档时,利用文档中的超链接从一个网页转向另一个相关网页。在顺“链”而行的过程中发现、搜索信息。个人用户在网络浏览的过程中常常创建书签或热链表,来将一些常用的、优秀的站点地址记录下来,组织成目录以备今后之需。2023/7/3181信息存储与检索*7.7.1浏览模型指基于超文本文件结构的信息浏2023/7/3182信息存储与检索*2023/7/3182信息存储与检索*2023/7/3183信息存储与检索*2023/7/3183信息存储与检索*浏览模型存在问题偶然发现:盲目、不可预见失控:由网络的超链接控制迷航:在顺连而行中偏离检索目标2023/7/3184信息存储与检索*浏览模型存在问题2023/7/3184信息存储与检索*7.7.2超链接分析模型合理利用链接信息对提高检索的查全率和查准率起着重要的作用。2023/7/3185信息存储与检索*7.7.2超链接分析模型合理利用链接信息对提高检索的查全7.7.2超链接分析模型基本思想:链接信息与被链接的对象之间存在着某种可信的映射关系,一个页面被其他站点引用的次数基本上反映了该页面的受欢迎程度。1、PageRank算法

PageRank算法是由Google公司两个创始人SergeyBrin及LarryPage提出的一种搜索引擎排序算法。先给每个网页赋予一个PageRank值,那么对于用户查询串分词后得到关键字的集合,Q=(k1,k2,…,kn),通过搜索引擎中的索引器,得到一个匹配的网页集合PageSet=(pi,pk,pm,pn,…),然后对(pi,pk,pm,pn,…)中的网页按PageRank值高低进行排序,把排序高的前面K个网页返回给用户。2023/7/3186信息存储与检索*7.7.2超链接分析模型基本思想:链接信息与被链接的对象之Google的PageRank

Google的PageRank根据网站的外部链接和内部链接的数量和质量来衡量网站的价值。PageRank背后的概念是每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多,一般判断这篇论文的权威性就越高。此外,PageRank还会评估每个投票网页的重要性,因为某些网页的投票被认为具有较高的价值,这样,它所链接的网页就能获得较高的价值。重要网页获得的PageRank(网页排名)较高。2023/7/3187信息存储与检索*Google的PageRankGoogle简单算法:

例如一个由4个页面组成的小团体:A,B,C和D。如果所有页面都链向A,那么A的PR(PageRank)值将是B,C及D的和。PR(A)=PR(B)+PR(C)+PR(D)PageRank会将网页B上指向网页A的链接解释为由网页B对网页A所投的一票,而不是计算直接的链接数。这样,PageRank根据网页收到的投票数来评估其重要性。PageRank算法2023/7/3188信息存储与检索*简单算法:

例如一个由4个页面组成的小团体:A,BGoogle有一套自动化方法来计算这些投票。Google的PageRank分值从0到10;PageRank为10表示最佳,但非常少见,类似里氏震级(Richterscale),PageRank级别也不是线性的,而是按照一种指数刻度。这是一种奇特的数学术语,意思是PageRank4不是比PageRank3好一级——而可能会好6到7倍。因此,一个PageRank5的网页和PageRank8的网页之间的差距会比你可能认为的要大的多。2023/7/3189信息存储与检索*Google有一套自动化方法来计算这些投票。Google的PPageRank算法继续假设B也链接到C,并且D也链接到包括A的3个页面。一个页面不能投票2次。所以B给每个页面半票。以同样的逻辑,D投出的票只有三分之一算到了A的PageRank上。根据链出总数平分一个页面的PR值。

2023/7/3190信息存储与检索*PageRank算法继续假设B也链接到C,并且D也链接到包括最后,所有这些被换算为一个百分比再乘上一个系数q。由于没有页面的PageRank会是0。所以,Google通过数学系统给了每个页面一个最小值1−q。所以一个页面的PageRank是由其他页面的PageRank计算得到。Google不断的重复计算每个页面的PageRank。如果您给每个页面一个随机PageRank值(非0),那么经过不断的重复计算,这些页面的PR值会趋向于正常和稳定。PageRank算法2023/7/3191信息存储与检索*最后,所有这些被换算为一个百分比再乘上一个系数q。由于没有页PageRank算法完整的算法:这个方程式引入了随机浏览的概念,即有人上网无聊随机打开一些页面,点一些链接。一个页面的PageRank值也影响了它被随机浏览的概率。为了便于理解,这里假设上网者不断点网页上的链接,最终到了一个没有任何链出页面的网页,这时候上网者会随机到另外的网页开始浏览。为了对那些有链出的页面公平,d=0.15的算法被用到了所有页面上,估算页面可能被上网者放入书签的概率。所以,这个等式如下:p1,p2,…,pN是被研究的页面,M(pi)是链入pi页面的数量,L(pj)是pj链出页面的数量,而N是所有页面的数量。2023/7/3192信息存储与检索*PageRank算法完整的算法:2023/7/3192信息存PageRank算法1LarryPage和SergeyBrin在个别场合描述了PageRank最初的算法。这就是式中:PR(A):网页A页的PageRank值;PR(Ti):链接到A页的网页Ti的PageRank值;C(Ti):网页Ti的出站链接数量;d:阻尼系数,0<d<1。2023/7/3193信息存储与检索*PageRank算法1LarryPage和SergeyPageRank思想的简单表述:如果网页T存在一个指向网页A的连接,则表明T的所有者认为A比较重要,从而把T的一部分重要性得分赋予A。这个重要性得分值为:PR(T)/C(T)其中PR(T)为T的PageRank值,C(T)为T的出链数,则A的PageRank值为一系列类似于T的页面重要性得分值的累加。2023/7/3194信息存储与检索*PageRank思想的简单表述:2023/7/3194信息存例如:现在求网页W的PageRank(p),已知有三个网页A、B、C链接到W,这三个网页的PageRank(p)值分别为8、5、3,它们的出度(即从此网页链出的网页数)分别为4、5、2,而总网页数有4个,设d=0.85,那么网页W的PageRank:2023/7/3195信息存储与检索*例如:现在求网页W的PageRank(p),已知有三个网页A两个技术问题网页A、B、C的PR值是未知的,首先要分别计算出A、B、C的PR值,而要得到A、B、C的PR值,必须先得到所有链入到网页A的网页的PR值,还有所有链入到网页B的网页的PR值,以及所有链入到网页C的网页的PR值。链接A、B、C的网页也有很多,万维网彼此互联,且通常链入一个网页的网页远多于三个,这样想得到一个网页的PR值而产生的计算似乎没有止境。为了PageRank算法收敛,通常采用的方法是幂法(PowerMethod)。2023/7/3196信息存储与检索*两个技术问题网页A、B、C的PR值是未知的,首先要分别计算出理论问题的解决计算搜索结果的网页排名过程中需要用到网页本身的排名,拉里·佩奇(LarryPage)和谢尔盖·布林(SergeyBrin)把这个问题变成了一个二维矩阵相乘的问题,并且用迭代的方法解决了这个问题。他们先假定所有网页的排名是相同的,并且根据这个初始值,算出各个网页的第一次迭代排名,然后再根据第一次迭代排名算出第二次的排名。他们两人从理论上证明了不论初始值如何选取,这种算法都保证了网页排名的估计值能收敛到他们的真实值。2023/7/3197信息存储与检索*理论问题的解决计算搜索结果的网页排名过程中需要用到网页本身的实际问题的解决因为互联网上网页的数量是巨大的,上面提到的二维矩阵从理论上讲有网页数目平方之多个元素。如果我们假定有十亿个网页,那么这个矩阵就有一百亿亿个元素。这样大的矩阵相乘,计算量是非常大的。拉里和谢尔盖两人利用稀疏矩阵计算的技巧,大大的简化了计算量,并实现了这个网页排名算法。今天Google的工程师把这个算法移植到并行的计算机中,进一步缩短了计算时间,使网页更新的周期比以前短了许多。

2023/7/3198信息存储与检索*实际问题的解决因为互联网上网页的数量是巨大的,上面提到的二维影响googlePageRank的因素

1、与PR高的网站做链接

2、内容质量高的网站链接

3、加入搜索引擎分类目录

4、加入免费开源目录

5、你的链接出现在流量大、知名度高、频繁更新的重要网站上6、google对PDF格式的文件比较看重7、安装Google工具条

8、域名和tilte标题出现关键词与meta标签等9、反向连接数量和反向连接的等级10、Google抓取您网站的页面数量11、导出链接数量2023/7/3199信息存储与检索*影响googlePageRank的因素1、与PR高的网HITS(Hyperlink-InducedTopicSearch)超链接主题查找算法通过对网络中链接的分析,利用页面的被引用次数及其链接数目来决定不同网页的价值。HITS算法是基于主题来衡量网页的重要程度,相对不同主题,同一网页的重要程度也是不同的。例如,百度对于主题“搜索引擎”和主题“湖南SEO”的重要程度是不同的。例如:Google、Baidu、Yahoo!、sogou、soso等这些搜索引擎相对于主题“搜索引擎”来说就是权威网页(authority),因为这些网页会被大量的超链接指向。/post/Hits-Algorithm.html这个页面链接了这些权威网页(authority),则这个页面可以称为主题“搜索引擎”的中心网页(hub)。2、HITS算法2023/7/31100信息存储与检索*HITS(Hyperlink-InducedTopicS2023/7/31101信息存储与检索*2023/7/31101信息存储与检索*HITS算法HITS算法发现,在很多情况下,同一主题下的权威网页(authority)之间并不存在相互的链接。所以,权威网页(authority)通常都是通过中心网页(hub)发生关联的。基本思想:一个好的Hub网页指向很多Authority网页,一个好的Authority网页也有很多好的Hub网页指向它。Authority网页是相对某主题来说权威的网页,Hub网页是指向很多相对某主题来说权威网页的网页。2023/7/31102信息存储与检索*HITS算法HITS算法发现,在很多情况下,同一主题下的权威HITS算法HITS算法通过两个评价权值——内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。内容权威度与网页自身直接提供内容信息的质量相关,被越多网页所引用的网页,其内容权威度越高;链接权威度与网页提供的超链接页面的质量相关,引用越多高质量页面的网页,其链接权威度越高。HITS算法认为对每一个网页应该将其内容权威度和链接权威度分开来考虑,在对网页内容权威度做出评价的基础上再对页面的链接权威度进行评价,然后给出该页面的综合评价。2023/7/31103信息存储与检索*HITS算法HITS算法通过两个评价权值——内容权威度(AuHITS算法算法思路:(1)将查询q提交给传统的基于关键字匹配的搜索引擎。搜索引擎返回很多网页,从中取前n个网页作为根集(rootset),用S表示。S满足如下3个条件:S中网页数量相对较小。S中网页大多数是与查询q相关的网页。S中网页包含较多的权威网页。

(2)通过向S中加入被S引用的网页和引用S的网页将S扩展成一个更大的集合。(3)对扩展集里的每个文档进行中心权重H和权威权重A的计算。(4)返回一张排好序的网页列表,列表中的网页有些具有较高的中心权重,有些则具有较高的权威权重,这样用户自己就可以选出他们认为是最好的那种类型的网页(K

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论