信息检索第02章信息检索模型专业课课件

上传人：1*** IP属地：未知上传时间：2025-03-01 格式：PPTX 页数：113 大小：2.85MB 积分：6 举报 版权申诉

已阅读5页，还剩108页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

信息检索

第02章信息检索模型软件学院教研室陈鄞本章内容2.1信息检索模型的定义和分类2.2布尔模型2.3向量空间模型2.4扩展布尔模型2.5概率模型2.6基于统计语言模型的信息检索模型2.7潜在语义索引模型2.1信息检索模型的定义和分类信息检索模型是用来描述文档和用户查询的表示形式以及它们之间相关性的框架IR模型的形式化表示[D,Q,F,R(di,q)]D→文档集合的机内表示D={d1,

d2,…,

dm}T={t1,

t2,…,

tn}→系统索引项（关键词）集合di=(ωi1,

ωi2,…,

ωin)

(ωij≥0，1≤i≤m)ωij→索引项tj和文档di的相关程度（权重weight）IR模型的形式化表示[D,Q,F,R(di,q)]D→文档集合的机内表示Q

→用户查询的机内表示F→文档与查询之间的匹配框架R(di,q)

→文档与用户查询之间相关度计算函数IR模型的分类信息检索模型布尔模型扩展布尔模型模糊集合模型集合论代数论向量空间模型广义向量空间模型潜在语义索引神经网络概率模型语言模型推理网络信念网络概率论提纲2.1信息检索模型的定义和分类2.2布尔模型2.3向量空间模型2.4扩展布尔模型2.5概率模型2.6基于统计语言模型的信息检索模型2.7潜在语义索引模型2.2布尔模型(BooleanModel)最早的IR模型1957年，Y·Bar-Hille就对布尔逻辑应用于计算机信息检索的可能性进行了探讨20世纪60年代末，正式被大型文献检索系统所采用20世纪70年代，逐渐成为各种商业性联机检索服务系统的标准检索模式目前，仍具有顽强的生命力主要特点查询式形式：关键词的布尔组合例：q=病毒and（计算机or

电脑）andnot医典型系统：Lucene，Westlaw布尔模型的定义[D,Q,F,R(di,q)]D设T={t1,

t2,…,

tn}则di=(ωi1,

ωi2,…,

ωin)

(ωij

∈{0,1})

布尔模型的定义[D,Q,F,R(di,q)]DQ

合取子项(ConjunctiveComponent)“q=病毒and（计算机or

电脑）andnot医”的析取范式形式？布尔表达式例： q=(k1∨k2

)∧k3

析取范式形式 qDNF=(k1∧k3)∨(k2∧k3

)

（DisjunctiveNormalForm，DNF）简化形式 qDNF=(1,0,1)∨(1,1,1)∨(0,1,1)布尔模型的定义[D,Q,F,R(di,q)]DQ

合取子项(ConjunctiveComponent)课后练习：编写一个计算机程序，将输入的布尔表达式自动转化成析取范式的形式布尔表达式例： q=(k1∨k2

)∧k3

析取范式形式 qDNF=(k1∧k3)∨(k2∧k3

)

（DisjunctiveNormalForm，DNF）简化形式 qDNF=(1,0,1)∨(1,1,1)∨(0,1,1)布尔模型的定义[D,Q,F,R(di,q)]DQF

例 q=(a∨b)∧z d1

：abcfgh d2

：afbxyz

d1=(1,1,0)d2=(1,1,1)→qDNF=(1,0,1)∨(0,1,1)∨(1,1,1)√布尔模型的定义[D,Q,F,R(di,q)]DQFR

布尔模型的性能分析优点简单、容易理解很多专业用户更喜欢布尔查询模型，因为它表达上更精确缺点关键词权重：二值没有体现不同关键词对文档贡献程度的差别相关度大小：二值没有体现文档之间的细微差别布尔模型的性能分析优点简单、容易理解通过“与”“或”“非”等操作支持较复杂的语义条件查询，可以很方便的表达用户的查询需求缺点关键词权重：二值没有体现不同关键词对文档贡献程度的差别相关度大小：二值没有体现文档之间的细微差别例“飞碟”AND“小说”：只能检索出D4，无法体现D1,D2,D3的差异“飞碟”OR“小说”：可以检出D1,D2,D4，但无法体现它们的差异布尔模型的性能分析优点简单、容易理解通过“与”“或”“非”等操作支持较复杂的语义条件查询，可以很方便的表达用户的查询需求缺点关键词权重：二值没有体现不同关键词对文档贡献程度的差别相关度大小：二值没有体现文档之间的细微差别很难对输出进行排序查询表达式非常刚性“与”意味着全部；“或”意味着任何一个很难控制返回文档的数量严格的布尔运算得到的结果远远不能使用户满意，大型商业布尔搜索系统中往往加入更多的操作，如“词项近邻”(termproximity)操作例：

Westlaw（法律搜索服务提供商）Informationneed:Informationonthelegaltheoriesinvolvedinpreventingthedisclosureoftradesecretsbyemployeesformerlyemployedbyacompetingcompany.(有关防止先前受雇于竞争对手的员工泄露商业机密的法律理论信息)Query:

"tradesecret"/sdisclos!/sprevent/semploye!Informationneed:Requirementsfordisabledpeopletobeabletoaccessaworkplace.(关于残疾人士能够进入工作场所的要求)Query:disab!/paccess!/swork-sitework-place(employment/3place)Informationneed:Casesaboutahost’sresponsibilityfordrunkguests.

(关于主人对客人醉酒负责的案例)Query:

host!/p(responsib!liab!)/p(intoxicat!drunk!)/pguest

双引号表示短语查询感叹号表示尾通配符查询

/s,/p,和/k分别表示处于同一个句子、段落和k个词之内（近邻操作符）空格表示“或”运算work-place表示可以和workplace、

work

place及work-place匹配&表示“与”运算提纲2.1信息检索模型的定义和分类2.2布尔模型2.3向量空间模型2.4扩展布尔模型2.5概率模型2.6基于统计语言模型的信息检索模型2.7潜在语义索引模型2.3向量空间模型向量空间模型（VectorSpaceModel，VSM）是由G·Salton等人在1958年提出的主要特点查询式形式：由一个或多个词项构成的自由文本代表系统SMART（

SystemfortheManipulationandRetrievalofText）这一系统理论框架到现在仍然是IR技术研究的基础2.3.1向量空间模型的定义D={d1,d2,…}di=(wi1,wi2,…,win)

wij≥0

Qq=(wq1,wq2,…,wqn

)

wqj≥0

F包含查询词的文档R向量相似度计算公式sim(di,q)ωij值的确定词的描述能力tfij→关键词tj在文档di

中出现的频率（termfrequency）词的区分能力dfj

→文档频率(documentfrequency)，包含关键词tj的文档的个数

例子d1

：土豆的美容功效d2

：土豆的栽培d3

：土豆的后期加工ωij值的确定词的描述能力tfij→关键词tj在文档di

中出现的频率（termfrequency）词的区分能力dfj

→文档频率(documentfrequency)，包含关键词tj的文档的个数当词项t只在少数几篇文档中多次出现时，其权重取值最大

ωij值的确定

ωij值的确定词的描述能力tfij→关键词tj在文档di

中出现的频率（termfrequency）词的区分能力dfj

→文档频率(documentfrequency)，包含关键词tj的文档的个数idfj

→逆文档频率(inversedocumentfrequency)tf-idf（词频-逆文档频率）公式

wij

=tfij

idfjidfj

计算示例idfj其他tf-idf权重计算方法

其他tf-idf权重计算方法

用户查询的表示q=(ωq1,ωq2,…,ωqn)ωqj≥0tf权重ωij

∈{0,1}tf-idf权重例：q=“bestcarinsurance”tjtfqjdfjωqjbest1500001.31.3car1100002.02.0insurance110003.03.0N=10000002.3.2

文档和用户查询的相关度计算1.重合度评分指标(overlapscoremeasure)基本思想文档d的得分是所有查询词项在文档中的权重之和内积越大，文档与查询的相关度越高

wij

→文档dj中的关键词j

的权重

wqj

→查询式q中的关键词j的权重2.3.2

文档和用户查询的相关度计算1.重合度评分指标(overlapscoremeasure)基本思想文档d的得分是所有查询词项在文档中的权重之和d1=2T1+3T2+5T3d2=3T1+7T2+T3q

=0T1+0T2+2T3sim(d1

,q)=2*0+3*0+5*2=10sim(d2

,q)=3*0+7*0+1*2=2内积的特点内积值没有界限，不像概率值在[0,1]之间对长文档有利内积用于衡量有多少词项匹配成功，而不计算有多少词项匹配失败例：q=abcde

d1=abcfghijklmnopq（15个词，3个匹配上）d2=abfgh（5个词，2个匹配上）2.余弦向量度量法利用向量的长度对内积进行归一化用向量夹角的余弦值表示向量的相似度向量之间的夹角越小，其余弦值越大，相似度越大2.余弦向量度量法利用向量的长度对内积进行归一化用向量夹角的余弦值表示向量的相似度也可以看成是两个归一化以后的向量的内积t1t23.Jaccard系数法Exampled1=2T1+3T2+5T3d2=3T1+7T2+T3q=0T1+0T2+2T3

Sim(d1

,q)=10/(38+4-10)=10/32=0.312

Sim(d2

,q)=2/(59+4-2)=2/61=0.033二值化的相似度度量InnerProduct:Cosine:Jaccard:diandqherearesetsofkeywordsdi

and

qherearevector例：q=abcded1=abcfghijklmnopqd2=abfghSimJac(d1,q)=3/17=0.18SimJac(d2,q)=2/8=0.25相似度计算在IR中的应用一个查询式和一个文档之间（检索）两个文档之间（文本分类，聚类）两个查询式之间（常问问题集）向量空间模型的优点反映出不同关键词对文档贡献程度的差别可以根据结果文档对于查询串的相关度通过CosineRanking等公式对结果文档进行排序可以控制输出结果的数量向量空间模型的不足认为关键词之间是相互独立的，这一假设有时不符合自然语言的实际情况从查询式角度，不能体现查询词之间的逻辑关系例：“计算机或电脑病毒而非医学病毒”从文档角度，忽略了词项在文档中的出现次序例MaryisquickerthanJohnJohnisquickerthanMary提纲2.1信息检索模型的定义和分类2.2布尔模型2.3向量空间模型2.4扩展布尔模型2.5概率模型2.6基于统计语言模型的信息检索模型2.7潜在语义索引模型2.4扩展布尔模型扩展布尔模型的提出G·Saltonetal.，1983函数sim()度量了点(wx,wy)到点(0,0)的距离距离越远，相似性越大可以摆脱“文档中关键词权重为二值分布”的限制wxwy(1,1)(1,0)扩展布尔模型中的“或”关系q=tx∨tyd所有词都出现比只出现几个词更有价值10.7070.7070(0,1)(0,0)最不期望的点0.50.5函数sim()度量了点(wx,wy)到点(1,1)的距离距离越近，相似性越大(1,1)wy(1,0)(0,1)(0,0)q=tx

ty扩展布尔模型中的“与”关系wxd最期望的点出现几个词总比一个词都不出现更有价值100.2930.2930.5观察一个词项的存在将对“或”关系查询式提供0.707的增益值，但对“与”关系查询式仅提供0.293的增益值wxwy(1,1)(1,0)q=tx∨ty10.7070.7070(0,1)(0,0)(1,1)wy(1,0)(0,1)(0,0)q=tx

tywx100.2930.293例从“一刀切”到“合理拉开距离”泛化模型推广到n

个查询项

sim(qor,d)=[(w12+w22+...+wn2

)/n]1/2

sim(qand,d)=1

{[(1

w1)2+(1

w2)2+...+(1

xn)2]/n}1/2进一步地泛化为p-normmodel

sim(qor,d)=[(w1p+w2p

+...+wnp

)/n]1/p(1≤p≤∞)

sim(qand,d)=1

{[(1

w1)p+(1

w2)p+...+(1

wn)p]/n}1/p当p=1时,sim(qor,d)=sim(qand,d)=(w1+w2

+...+wn

)/nor与and之间的差别消失与VSM等价当p=

时,sim(qor,d)=max(wj);sim(qand,d)=min(wj)模糊逻辑模型(Fuzzylogicmodel)扩展布尔模型的性能分析文本中关键词权重相关度取值能否表示查询词之间逻辑关系布尔模型{0,1}{0,1}能向量空间模型[0,1][0,1]不能扩展布尔模型[0,1][0,1]现能提纲2.1信息检索模型的定义和分类2.2布尔模型2.3向量空间模型2.4扩展布尔模型2.5概率模型2.6基于统计语言模型的信息检索模型2.7潜在语义索引模型2.5概率模型基本思想如果已知一些相关文档和不相关文档，那么就可以直接估计词项t在相关文档中的出现概率P（t|R=1），基于这些概率可以构造一个分类器来判定某文档是否相关二值独立模型

常数因子

朴素贝叶斯条件独立性假设=

假定没有在查询中出现的词项t在相关和不相关文档中出现的概率相等，即当qt=0时，pt=ut====常数因子=最后用于排序的量称为检索状态值(RetrievalStatusValue，RSV)ct：在相关文档中查询词项出现的优势率ct：查询词项的优势率比率(oddsratio)的对数值如果词项在相关和不相关文档中出现的优势率相等，那么ct

=0如果词项更可能出现在相关文档中，那么ct

>0如果词项更可能出现在不相关文档中，那么ct

<0ct

：模型中词项的权重：在不相关文档中查询词项出现的优势率()词t状态相关文档不相关文档合计t出现rtdft

–

rtdftt

不出现R-rtN-dft-(R-rt)N-dft合计RN-RNct：查询词项的优势率比率(oddsratio)的对数值()词t状态相关文档不相关文档合计t出现rtdft

–

rtdftt

不出现R-rtN-dft-(R-rt)N-dft合计RN-RNct：查询词项的优势率比率(oddsratio)的对数值()期望查询词项出现在很多但并非所有的相关文档中词t状态相关文档不相关文档合计t出现rtdft

–

rtdftt

不出现R-rtN-dft-(R-rt)N-dft合计RN-RNct：查询词项的优势率比率(oddsratio)的对数值()基于伪相关反馈的概率估计方法第1步：初始化第2步：第3步：词t状态相关文档不相关文档合计t出现rtdft

–

rtdftt

不出现R-rtN-dft-(R-rt)N-dft合计RN-RN第4步：重复以上两步直至收敛零概率现象的处理在减少出现事件的概率估计值的同时提高未出现事件的概率估计值的方法称为平滑（smoothing）最简单的平滑方法：对每个所观察事件的数目都加上一个很小的正数κ。同时，总数也做相应改变将新信息和原有估计组合在一起二值独立模型BIM的特点文档和查询都表示为词项出现与否的布尔向量文档相关性是二值的文档和查询中，关键词之间是相互独立的每篇文档的相关性与其它文档的相关性无关BIM模型性能分析优点文档可以按照它们相关概率递减的顺序来排序有严格的数学理论基础采用相关反馈原理，可以开发出理论上更为坚实的系统缺点没有反映出不同关键词对文档贡献程度的差别假设关键词之间相互独立开始时需要猜想把文档分为相关和不相关的两个集合，一般来说很难OkapiBM25:一个非二值的模型

OkapiBM25:一个非二值的模型

提纲2.1信息检索模型的定义和分类2.2布尔模型2.3向量空间模型2.4扩展布尔模型2.5概率模型2.6基于统计语言模型的检索模型2.7潜在语义索引模型2.6基于统计语言模型的信息检索模型语言模型用来描述某种语言中句子的统计分布特征的数学模型语言模型（LanguageModel）产生于20世纪80年代初，早期主要应用于语音识别中1998年，Ponte和Croft首次把统计语言模型应用于IR领域语言模型的主要用途词串（句子）概率的计算LM应用举例——智能拼音输入问题

p(“一只小花猫”)>p(“一枝小花猫”)>p(任何其它候选字串)

zhi

xiao

hua

mao

一之小华毛以只校话贸异汁销化猫已枝…

花…

…

值…

…2.6.1语言模型如何计算词串的概率？语言模型的建立（1）确定模型的参数集合（2）确定模型各参数的值（参数训练）wi的“历史(history)”每一个条件概率都是模型的一个参数根据链规则(ChainRule)

最大似然估计(MLE)2.6.1语言模型如何计算词串的概率？存在的问题参数空间过大根据链规则(ChainRule)i=1，Vi=2，V×Vi=3，V×V×V…i=l，Vl2.6.1语言模型如何计算词串的概率？存在的问题参数空间过大数据稀疏严重随着i的增长，wi的历史在训练语料中出现的概率几乎为0根据链规则(ChainRule)P(“itswaterissotransparentthatthe”)=P(its)×P(water|its)×P(is|itswater)×P(so|itswateris)×P(transparent|itswaterisso)×P(that|itswaterissotransparent)×P(the|itswaterissotransparentthat)2.6.1语言模型如何计算词串的概率？存在的问题参数空间过大数据稀疏严重解决办法n元语法根据链规则(ChainRule)n元语法马尔可夫假设直觉上讲，下一个词的出现仅依赖于它前面的一个或几个词。受离它较近的词的影响较大。

或AndreiMarkov二元语法模型（Bigrammodel）假设下一个词的出现依赖它前面的一个词例

二元语法模型（Bigrammodel）假设下一个词的出现依赖它前面的一个词三元语法模型（Trigrammodel）假设下一个词的出现依赖它前面的两个词

二元语法模型（Bigrammodel）假设下一个词的出现依赖它前面的一个词三元语法模型（Trigrammodel）假设下一个词的出现依赖它前面的两个词n元语法模型（n-grammodel）假设下一个词的出现依赖它前面的n-1个词

二元语法模型（Bigrammodel）假设下一个词的出现依赖它前面的一个词三元语法模型（Trigrammodel）假设下一个词的出现依赖它前面的两个词n元语法模型（n-grammodel）假设下一个词的出现依赖它前面的n-1个词一元语法模型（Unigrammodel）假设下一个词的出现依赖它前面的0个词

为文档建立语言模型原始文本<s0><s>Hecanbuyyouthecanofsoda</s>一元模型:(8wordsinvocabulary)p(He)=p(buy)=p(you)=p(the)=p(of)=p(soda)=0.125p(can)=0.25二元模型p(He|<s>)=1,p(can|He)=1,p(buy|can)=0.5,p(of|can)=0.5,p(you|buy)=1,...三元模型p(He|<s0>,<s>)=1,p(can|<s>,He)=1,p(buy|He,can)=1,p(of|the,can)=1,...,p(</s>|of,soda)=1.2.6.2基于LM的IR模型理论上，每篇文档di都可以提供任何一个查询q所需要的信息，只不过是提供的信息量（相关性）有大有小将检索问题看作是求条件概率P(d|q)的问题P(d|q)：给定查询q，文档d能够提供相关信息的概率P(d)：文档的先验概率，用来表征文档d提供相关信息的能力可以考虑权威度、长度、类型、新鲜度和以前阅读过该文档的用户数目等因素也可以视为均匀分布，因此可以被省略P(q|d)：在文档d对应的语言模型Md下生成查询q的概率检索过程举例假设文档集合中只有1和2两个文本文本1产生的语言模型p1(a)=0.25,p1(b)=0.5,p1(β)=1/64,β∈{c..r},剩下的s,t,u,v,w,x,y,z均为0文本2产生的语言模型p2(a)=0.7,p2(b)=0.05,p2(β)=1/64,β∈{c..r},剩下的s,t,u,v,w,x,y,z均为0查询式：q=abacaadp1(q)=0.25*0.5*0.25*1/64*0.25*0.25*1/64

4.8*10-7p2(q)=0.7*0.05*0.7*1/64*0.7*0.7*1/64

2.9*10-6查询似然模型（querylikelihoodmodel）P(q|Md)

IR中的语言建模方法实际上是在对查询的生成过程进行建模：首先推导出每篇文档对应的文档语言模型LM然后计算查询被视为每个文档模型的随机抽样样本的概率最后根据这些概率对文档排序模型的直观意义用户脑子里有一篇原型文档，然后按照该文档中的词语用法来生成查询。通常，用户对感兴趣的文档中可能出现的词项有一些合理的想法，然后他们会选择那些最能够区分其他文档的查询项构成查询查询生成概率的估计一元语言模型假设朴素贝叶斯条件独立性假设最大似然估计存在的问题

概率分布的平滑方法加法平滑对每个观察到的事件的数目都加上一个数α。同时，总数也做相应改变概率分布的平滑方法

概率分布的平滑方法加法平滑线性插值方法三概率分布的平滑方法加法平滑线性插值方法三平滑对于模型的良好性能具有实质性的影响在上述两种方法中，如何设置正确的λ及α是获得良好性能的关键较小的λ及较大的α意味加重平滑的权重参数λ及α的值也不必一定是常数将参数定义为查询长度的一个函数短查询：轻度平滑（类似于“与”搜索）长查询：加重平滑的权重与传统的VSM相比，基于LM的IR模型取得了较好的检索效果，已经成为IR研究的一个新方向例：q=计算机病毒Dd1

：小王虽然是学医的，但对研究计算机病毒也感兴趣…d2

：计算机程序发现了艾滋病病毒传播途径上述文档哪一个会被检索到？提纲2.1信息检索模型的定义和分类2.2布尔模型2.3向量空间模型2.4扩展布尔模型2.5概率模型2.6基于统计语言模型的检索模型2.7潜在语义索引模型2.7潜在语义索引模型基于关键词匹配方法存在的问题一词多义(polysemy)现象例：“处理”什么地方处理旧家具？你去把那个叛徒处理了处理自然语言很难2.7潜在语义索引模型基于关键词匹配方法存在的问题一词多义(polysemy)现象一义多词(synonymy)现象例：car、automobile2.7潜在语义索引模型基于关键词匹配方法存在的问题一词多义(polysemy)现象一义多词(synonymy)现象两篇文档是否相关往往不只决定于字面上的词语重复，还取决于文字背后的语义关联例1“乔布斯离我们而去了。”“苹果价格会不会降？”例2“李世石与AlphaGo会进行五次围棋大战。”“人工智能与人类到底谁更加厉害？”能否利用词项的同现情况来获得词项的隐性语义关联？潜在语义索引(LSI)模型的提出潜在语义索引模型（latentsemanticindexing，LSI）也称为隐性语义索引模型，由UniversityofChicago、BellCommunicationsResearch等五家单位的学者在1999年共同提出ScottDeerwester,

SusanT.Dumais,

GeorgeW.Furnas,

ThomasK.Landauer,

RichardHarshman

(1990).

"IndexingbyLatentSemanticAnalysis".

JournaloftheAmericanSocietyforInformationScience

(6):391–407.

矩阵-向量乘法d1…di…dmt1n11…ni1…nm1………………tjn1j…nij…nmj………………tnn1n…nin…nmnt1…tj…tnd1n11…n1j…n1n………………dini1…nij…nin………………dmnm1…nmj…nmnnq1nq2...nqn=Sim(d1,q)Sim(d2,q)...Sim(dm,q)矩阵-向量乘法与特征值之间的关系

矩阵-向量乘法与特征值之间的关系方阵S乘以一个任意向量的效果取决于S的特征值及特征向量

矩阵分解技术矩阵对角化定理令S为M×M的实方阵，并且它有M个线性无关的特征向量，那么存在如下一个对角化分解：

S=U

U−1其中，

λ1，λ2，…，λM为S的M个特征值，U中各列是各特征值对应的特征向量称S与对角阵diag(λ1,

λ2,…,

λM)相似若矩阵S与一个对角阵相似，则称S可以相似对角化λ1

λ2

λM

矩阵对角化分解的意义λ1

λ2

λn

例：词汇-文档矩阵X

XTX=？对称阵的分解d1…di…dmt1n11…ni1…nm1………………tjn1j…nij…nmj………………tnn1n…nin…nmnt1…tj…tnd1n11…n1j…n1n………………dini1…nij…nin………………dmnm1…nmj…nmnd1…di…dmt1n11…ni1…nm1………………tjn1j…nij…nmj………………tnn1n…nin…nmn文档相似矩阵（实对称阵）例：词汇-文档矩阵X

XXT=？对称阵的分解t1…tj…tnd1n11…n1j…n1n………………dini1…nij…nin………………dmnm1…nmj…nmnd1…di…dmt1n11…ni1…nm1………………tjn1j…nij…nmj………………tnn1n…nin…nmn词相似矩阵（实对称阵）d1…di…dmt1n11…ni1…nm1………………tjn1j…nij…nmj………………tnn1n…nin…nmn对称阵的分解对于对称阵S，不同特征值所对应的特征向量之间是正交的(orthogonal)对于正交矩阵A，有：A−1=AT对称对角化定理令S为M×M的实对称阵，并且它有M个线性无关的特征向量，那么存在如下一个对称对角化分解：

S=Q

QT其中，

λ1，λ2，…，λM为S的M个特征值，Q中各列是S的互相正交且归一化（单位长度）的特征向量λ1

λ2

λM

奇异值分解

（SingularValueDecomposition,SVD）任何一个矩阵，比如说一个n×m的词汇-文档矩阵Xn×m，均

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

信息检索第02章信息检索模型专业课课件

文档简介

温馨提示

最新文档

评论

信息检索 第02章 信息检索模型专业课课件

文档简介

温馨提示

最新文档

评论

相关文档

信息检索第02章信息检索模型专业课课件