版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
网络信息获取与情报分析技术八第一页,共五十六页,编辑于2023年,星期三提纲
上一讲回顾
排序式检索
词项频率tf-idf权重计算
向量空间模型2第二页,共五十六页,编辑于2023年,星期三3排序式检索(Rankedretrieval)迄今为止,我们主要关注的是布尔查询文档要么匹配要么不匹配对自身需求和文档集性质非常了解的专家而言,布尔查询是不错的选择对应用开发来说也非常简单,很容易就可以返回1000多条结果然而对大多数用户来说不方便大部分用户不能撰写布尔查询或者他们认为需要大量训练才能撰写合适的布尔查询大部分用户不愿意逐条浏览1000多条结果,特别是对Web搜索更是如此3第三页,共五十六页,编辑于2023年,星期三4布尔搜索的不足:结果过少或者过多布尔查询常常会倒是过少(=0)或者过多(>1000)的结果查询1(布尔与操作):[standarduserdlink650]→200,000个结果–太多查询2(布尔与操作):[standarduserdlink650nocardfound]→0个结果–太少在布尔检索中,需要大量技巧来生成一个可以获得合适规模结果的查询4第四页,共五十六页,编辑于2023年,星期三5排序式检索排序式检索可以避免产生过多或者过少的结果大规模的返回结果可以通过排序技术来避免只需要显示前10条结果不会让用户感觉到信息太多前提:排序算法真的有效,即相关度大的文档结果会排在相关度小的文档结果之前5第五页,共五十六页,编辑于2023年,星期三6排序式检索中的评分技术我们希望,在同一查询下,文档集中相关度高的文档排名高于相关度低的文档如何实现?通常做法是对每个查询-文档对赋一个[0,1]之间的分值该分值度量了文档和查询的匹配程度6第六页,共五十六页,编辑于2023年,星期三7查询-文档匹配评分计算如何计算查询-文档的匹配得分?先从单词项查询开始若该词项不出现在文档当中,该文档得分应该为0该词项在文档中出现越多,则得分越高后面我们将给出多种评分的方法7第七页,共五十六页,编辑于2023年,星期三8第一种方法:Jaccard系数计算两个集合重合度的常用方法令
A
和B为两个集合Jaccard系数的计算方法:JACCARD(A,A)=1JACCARD(A,B)=0如果
A∩B=0A和B不一定要同样大小Jaccard系数会给出一个0到1之间的值8第八页,共五十六页,编辑于2023年,星期三9Jaccard系数的计算样例查询
“idesofMarch”文档“CaesardiedinMarch”JACCARD(q,d)=1/69第九页,共五十六页,编辑于2023年,星期三10Jaccard系数的不足不考虑词项频率
,即词项在文档中的出现次数罕见词比高频词的信息量更大,Jaccard系数没有考虑这个信息没有仔细考虑文档的长度因素10第十页,共五十六页,编辑于2023年,星期三
现代信息检索PaulJaccard(1868-1944)瑞士植物学家,ETH教授1894年毕业于苏黎世联邦理工学院ETH(出过包括爱因斯坦在内的21位诺贝尔奖得主)1901年提出JaccardIndex即JaccardCoefficient概念11第十一页,共五十六页,编辑于2023年,星期三提纲
上一讲回顾
排序式检索
词项频率tf-idf权重计算
向量空间模型12第十二页,共五十六页,编辑于2023年,星期三13二值关联矩阵
每篇文档可以看成是一个二值的向量∈{0,1}|V|AnthonyandCleopatraJuliusCaesarTheTempestHamletOthelloMacbeth...ANTHONYBRUTUSCAESARCALPURNIACLEOPATRAMERCYWORSER...11101111111000000001101100110010011101001013第十三页,共五十六页,编辑于2023年,星期三14非二值关联矩阵(词频)
每篇文档可以表示成一个词频向量∈N|V|AnthonyandCleopatraJuliusCaesarTheTempestHamletOthelloMacbeth...ANTHONYBRUTUSCAESARCALPURNIACLEOPATRAMERCYWORSER...1574232057227315722710000000003102200810010051100008514第十四页,共五十六页,编辑于2023年,星期三15词袋(Bagofwords)模型不考虑词在文档中出现的顺序JohnisquickerthanMary及MaryisquickerthanJohn的表示结果一样这称为一个词袋模型(bagofwordsmodel)在某种意思上说,这种表示方法是一种“倒退”,因为位置索引中能够区分上述两篇文档这里仅考虑词袋模型15第十五页,共五十六页,编辑于2023年,星期三16词项频率tf词项t的词项频率tft,d
是指t
在d中出现的次数下面将介绍利用tf来计算文档评分的方法第一种方法是采用原始的tf值(rawtf)但是原始tf不太合适:某个词项在A文档中出现十次,即tf=10,在B文档中tf=1,那么A比B更相关但是相关度不会相差10倍相关度不会正比于词项频率tf16第十六页,共五十六页,编辑于2023年,星期三17一种替代原始tf的方法:对数词频t在d中的对数词频权重定义如下:tft,d→wt,d:0→0,1→1,2→1.3,10→2,1000→4,等等文档-词项的匹配得分是所有同时出现在q和文档d中的词项的对数词频之和t∈q∩d(1+logtft,d)如果两者没有公共词项,则得分为017第十七页,共五十六页,编辑于2023年,星期三提纲
上一讲回顾
排序式检索
词项频率
tf-idf权重计算
向量空间模型18第十八页,共五十六页,编辑于2023年,星期三19文档中的词频vs.文档集中的词频除词项频率tf之外,我们还想利用词项在整个文档集中的频率进行权重和评分计算19第十九页,共五十六页,编辑于2023年,星期三20罕见词项所期望的权重罕见词项比常见词所蕴含的信息更多考虑查询中某个词项,它在整个文档集中非常罕见(例如ARACHNOCENTRIC).某篇包含该词项的文档很可能相关于是,我们希望像ARACHNOCENTRIC一样的罕见词项将有较高权重20第二十页,共五十六页,编辑于2023年,星期三21常见词项所期望的权重常见词项的信息量不如罕见词考虑一个查询词项,它频繁出现在文档集中(如
GOOD,INCREASE,LINE等等)一篇包含该词项的文档当然比不包含该词项的文档的相关度要高但是,这些词对于相关度而言并不是非常强的指示词于是,对于诸如GOOD、INCREASE和LINE的频繁词,会给一个正的权重,但是这个权重小于罕见词权重21第二十一页,共五十六页,编辑于2023年,星期三22文档频率(Documentfrequency,df)对于罕见词项我们希望赋予高权重对于常见词我们希望赋予正的低权重接下来我们使用文档频率df这个因子来计算查询-文档的匹配得分文档频率指但是出现词项的文档数目22第二十二页,共五十六页,编辑于2023年,星期三23idf权重dft
是出现词项t的文档数目dft
是和词项t的信息量成反比的一个值于是可以定义词项t的idf权重:(其中N
是文档集中文档的数目)idft
是反映词项t的信息量的一个指标实际中往往计算[logN/dft]而不是[N/dft],这可以对idf的影响有所抑制值得注意的是,对于tf和idf我们都采用了对数计算方式23第二十三页,共五十六页,编辑于2023年,星期三24idf的计算样例利用右式计算idft:词项dftidftcalpurniaanimalsundayflyunderthe1100100010,000100,0001,000,00064321024第二十四页,共五十六页,编辑于2023年,星期三25idf对排序的影响idf会影响至少包含2个词项的查询的文档排序结果例如,在查询“arachnocentricline”中,idf权重计算方法会增加ARACHNOCENTRIC的相对权重,同时降低
LINE的相对权重对于单词项查询,idf对文档排序基本没有任何影响25第二十五页,共五十六页,编辑于2023年,星期三26文档集频率vs.文档频率词项t的文档集频率(Collectionfrequency):文档集中出现的t词条的个数词项t的文档频率:包含t的文档篇数为什么会出现上述表格的情况?即文档集频率相差不大,但是文档频率相差很大哪个词是更好的搜索词项?即应该赋予更高的权重上例表明df(和idf)比cf(和“icf”)更适合权重计算单词文档集频率文档频率INSURANCETRY10440104223997876026第二十六页,共五十六页,编辑于2023年,星期三27tf-idf权重计算词项的tf-idf权重是tf权重和idf权重的乘积信息检索中最出名的权重计算方法注意:上面的“-”是连接符,不是减号其他叫法:tf.idf、tfxidf27第二十七页,共五十六页,编辑于2023年,星期三28tf-idf小结词项t在文档d中的权重可以采用下次计算tf-idf权重随着词项频率的增大而增大随着词项罕见度的增加而增大28第二十八页,共五十六页,编辑于2023年,星期三29课堂练习:词项、文档集及文档频率df和cf有什么关系?tf和cf有什么关系?tf和df有什么关系?统计量符号定义词项频率
文档频率文档集频率tft,ddftcftt在文档d中出现的次数出现t的文档数目t在文档集中出现的总次数29第二十九页,共五十六页,编辑于2023年,星期三提纲
上一讲回顾
排序式检索
词项频率tf-idf权重计算
向量空间模型30第三十页,共五十六页,编辑于2023年,星期三31二值关联矩阵
每篇文档表示成一个二值向量∈{0,1}|V|AnthonyandCleopatraJuliusCaesarTheTempestHamletOthelloMacbeth...ANTHONYBRUTUSCAESARCALPURNIACLEOPATRAMERCYWORSER...11101111111000000001101100110010011101001031第三十一页,共五十六页,编辑于2023年,星期三32词频矩阵
每篇文档表示成一个词频向量∈N|V|AnthonyandCleopatraJuliusCaesarTheTempestHamletOthelloMacbeth...ANTHONYBRUTUSCAESARCALPURNIACLEOPATRAMERCYWORSER...1574232057227315722710000000003102200810010051100008532第三十二页,共五十六页,编辑于2023年,星期三33二值→词频→权重矩阵
每篇文档表示成一个基于tfidf权重的实值向量∈R|V|AnthonyandCleopatraJuliusCaesarTheTempestHamletOthelloMacbeth...ANTHONYBRUTUSCAESARCALPURNIACLEOPATRAMERCYWORSER...5.251.218.590.02.851.511.373.186.102.541.540.00.00.00.00.00.00.00.01.900.110.01.01.510.00.00.124.150.00.00.250.00.05.250.250.350.00.00.00.00.881.9533第三十三页,共五十六页,编辑于2023年,星期三34文档表示成向量每篇文档表示成一个基于tfidf权重的实值向量
∈R|V|.于是,我们有一个|V|维实值空间空间的每一维都对应词项文档都是该空间下的一个点或者向量极高维向量:对于Web搜索引擎,空间会上千万维对每个向量来说又非常稀疏,大部分都是034第三十四页,共五十六页,编辑于2023年,星期三35查询看成向量关键思路1:对于查询做同样的处理,即将查询表示成同一高维空间的向量关键思路2:按照文档对查询的邻近程度排序邻近度=相似度邻近度≈距离的反面回想一下,我们是希望和布尔模型不同,能够得到非二值的、既不是过多或也不是过少的检索结果这里,我们通过计算出相关文档的相关度高于不相关文档相关度的方法来实现35第三十五页,共五十六页,编辑于2023年,星期三36向量空间下相似度的形式化定义先考虑一下两个点之间的距离倒数一种方法是采用欧氏距离但是,欧氏距离不是一种好的选择,这是因为欧氏距离对向量长度很敏感36第三十六页,共五十六页,编辑于2023年,星期三37欧氏距离不好的例子尽管查询q和文档d2的词项分布非常相似,但是采用欧氏距离计算它们对应向量之间的距离非常大。.Questionsaboutbasicvectorspacesetup?37第三十七页,共五十六页,编辑于2023年,星期三38采用夹角而不是距离来计算将文档按照其向量和查询向量的夹角大小来排序假想实验:将文档d复制一份加在自身末尾得到文档d′.d′是d的两倍很显然,从语义上看,
d
和
d′
具有相同的内容两者之间的夹角为0,代表它们之间具有最大的相似度但是,它们的欧氏距离可能会很大38第三十八页,共五十六页,编辑于2023年,星期三39从夹角到余弦下面两个说法是等价的:按照夹角从小到大排列文档按照余弦从大到小排列文档这是因为在区间[0◦,180◦]上,余弦函数cosine是一个单调递减函数39第三十九页,共五十六页,编辑于2023年,星期三40Cosine函数40第四十页,共五十六页,编辑于2023年,星期三41文档长度归一化如何计算余弦相似度?一个向量可以通过除以它的长度进行归一化处理,以下使用L2
(2范数):这相当于将向量映射到单位球面上因此,长文档和短文档的向量中的权重都处于同一数量级前面提到的文档
d
和
d′(两个d
的叠加)经过上述归一化之后的向量相同41第四十一页,共五十六页,编辑于2023年,星期三42查询和文档之间的余弦相似度计算qi
是第i
个词项在查询q中的tf-idf权重di是第i
个词项在文档d中的tf-idf权重||和||分别是和的长度上述公式就是和的余弦相似度,或者说向量和的夹角的余弦
42第四十二页,共五十六页,编辑于2023年,星期三43归一化向量的余弦相似度归一化向量的余弦相似度等价于它们的点积(或内积)如果和
都是长度归一化后的向量43第四十三页,共五十六页,编辑于2023年,星期三44余弦相似度的图示44第四十四页,共五十六页,编辑于2023年,星期三45余弦相似度的计算样例
词项频率tf3本小说之间的相似度(1)SaS(理智与情感):SenseandSensibility(2)PaP(傲慢与偏见):PrideandPrejudice(3)WH(呼啸山庄):WutheringHeights词项SaSPaPWHAFFECTIONJEALOUSGOSSIPWUTHERING115102058700201163845第四十五页,共五十六页,编辑于2023年,星期三46余弦相似度计算
词项频率tf对数词频(1+log10tf)词项SaSPaPWHAFFECTIONJEALOUSGOSSIPWUTHERING3.062.01.3002.761.85002.302.041.782.58词项SaSPaPWHAFFECTIONJEALOUSGOSSIPWUTHERING1151020587002011638为了简化计算,上述计算过程中没有引入idf46第四十六页,共五十六页,编辑于2023年,星期三47余弦相似度计算
对数词频(1+log10tf)数词频的余弦归一化结果
词项SaSPaPWHAFFECTIONJEALOUSGOSSIPWUTHERING3.062.01.3002.761.85002.302.041.782.58词项SaSPaPWHAFFECTIONJEALOUSGOSSIPWUTHERING0.7890.5150.3350.00.8320.5550.00.00.5240.4650.4050.588cos(SaS,PaP)≈0.789∗0.832+0.515∗0.555+0.335∗0.0+0.0∗0.0≈0.94.cos(SaS,WH)≈0.79cos(PaP,WH)≈0.69cos(SaS,PaP)>cos(SAS,WH)>cos(PaP,WH)47第四十七页,共五十六页,编辑于2023年,星期三48余弦相似度计算算法48第四十八页,共五十六页,编辑于2023年,星期三49tf-idf权重计算的三要素49第四十九页,共五十六页,编辑于2023年,星期三50tf-idf权重机制举例对于查询和文档常常采用不同的权重计算机制记法:ddd.qqq例如:lnc.ltn文档:对数tf,无idf因子,余弦长度归一化查询:对数tf,idf,无归一化文档当中不用idf结果会不会很差?查询:“bestcarinsurance”文档:“carinsuranceautoinsurance”50第五十页,共五十六页,编辑于2023年,星期
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025二手房买卖合同无中介全新模式引领交易新风潮
- 2025关于水果的采购合同范本
- 2025年短视频内容发布平台入驻合同协议
- 2025年短视频带货营销合同协议
- 2025企业劳动合同书范本
- 2025企业短期用工合同模板
- 2025年北京市农药购销合同样书
- 2025餐饮集团股份制合同协议书
- 2025租房合同版(单位宿舍)
- 助力车转让协议书
- 国家能源集团新疆能源有限责任公司招聘笔试题库2025
- 五年级上册数学计算题专项练习1000题及答案
- 肺胀中医辩证课件
- 口红主题沙龙会策划与执行
- 公司思想培训课件
- QGDW10942-2018应用软件系统安全性测试方法
- 新能源汽车动力电池热失控机理及起火事故分析
- 群众工作考试题库及答案
- 学习解读《水利水电建设工程验收规程》SLT223-2025课件
- 解读2025年《家校社协同育人“教联体”工作方案》微课
- 《肺癌的AI诊断》课件
评论
0/150
提交评论