




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息检索与Web搜索
第2讲
布尔检索BooleanRetrieval
授课人:高曙明
*改编自“现代信息检索”网上公开课件(/~wangbin)布尔检索针对布尔查询的检索,布尔查询是指利用
AND,OR或者
NOT操作符将词项连接起来的查询信息AND
检索信息OR
检索信息AND
检索ANDNOT教材Google支持布尔检索2布尔检索模型检索模型:查询与文档之间的相关性定义,文档及查询的表示布尔检索模型文档采用词项集合表示查询用词项的布尔表达式表示相关性:整个查询的相关性通过对词项相关性进行布尔运算得到,对于查询中的每个词项,包含则相关相关性只有相关和不相关两种3基于扫描的布尔检索信息需求:确定莎士比亚的哪些剧本包含Brutus及Caesar但是不包含Calpurnia
布尔查询表示:
BrutusANDCaesarANDNOTCalpurnia简单直接的方法:从头到尾扫描所有剧本,对每部剧本判断它是否包含BrutusANDCaesar,同时又不包含Calpurnia存在的问题速度超慢(特别是对超大型文档集)难以支持更复杂的查询
(e.g.,findthewordRomansnearcountrymen)不支持检索结果的排序(即只返回较好的结果)4词项-文档关联矩阵若某剧本包含某单词,则该位置上为1,否则为0Brutus
AND
Caesar
BUT
NOT
Calpurnia词项-文档关联矩阵:给定一个词项集和一个文档集,指由其中的词项和文档之间的关联关系形成的矩阵
基于关联向量的布尔检索关联向量:指关联矩阵的每一行、每一列对应的向量给定查询BrutusANDCaesarANDNOTCalpurnia具体步骤:取出三个相应的行向量
,并对Calpurnia
的行向量求补,最后按位进行与操作110100AND110111AND101111=100100检索结果:AntonyandCleopatra和Hamlet6一个更真实的场景假定N=1百万篇文档(1M),每篇有1000个词(1K)假定每个词平均有6个字节(包括空格和标点符号)
那么所有文档将约占6GB空间.假定词汇表的大小(即词项个数)
M=500K7超大的词项-文档矩阵矩阵大小为500Kx1M=500G但是该矩阵中最多有10亿(1G)个1词项-文档矩阵高度稀疏(sparse).稀疏矩阵不应简单地建立和存储词项文档关联矩阵应该有更好的表示方式比如我们仅仅记录所有1的位置8Why?倒排索引(Invertedindex)9DictionaryPostings按docID排序
PostingBrutusCalpurniaCaesar12456165713223112411314517317454101词典倒排(记录)表倒排记录倒排索引示意图倒排索引核心思想:对每个词项t,记录所有包含t的文档列表,其中每篇文档用docID表示文档列表的数据结构:能否采用定长数组的方式来存储docID列表?通常采用变长表方式存储倒排表磁盘上,顺序存储方式比较好,便于快速读取内存中,采用链表或者可变长数组方式存储空间/易插入之间需要平衡10Tokenizer词条流FriendsRomansCountrymen倒排索引构建Linguisticmodules与词项对应的词条friendromancountrymanIndexer倒排索引friendromancountryman24213161待索引文档Friends,Romans,countrymen.词条化工具语言分析工具索引构建过程:
词条表生成将每篇文档转化为<词条,docID>
二元组列表IdidenactJuliusCaesarIwaskilledi'theCapitol;Brutuskilledme.Doc1SoletitbewithCaesar.ThenobleBrutushathtoldyouCaesarwasambitiousDoc2索引构建过程:
排序首先按词项排序然后对每个相同词项按
docID排序
索引构建的核心步骤索引构建过程:
词典&倒排表某个词项在单篇文档中的多次出现会被合并拆分成词典和倒排记录表两部分每个词项出现的文档数目(doc.frequency,DF)会被加入存储开销计算15指针词项及文档频率后续章节:如何快速构建索引?如何减少存储开销?倒排索引docID表第一讲:布尔检索布尔查询的处理:
AND给定一个布尔查询:BrutusANDCaesar首先在词典中定位
Brutus返回其倒排记录表再在词典中定位Caesar返回其倒排记录表合并(Merge)两个倒排记录表,即求交集1612834248163264123581321BrutusCaesar倒排表的合并每个倒排记录表都有一个定位指针,两个指针同时从前往后扫描,每次比较当前指针对应的倒排记录,然后移动某个或两个指针。假定表长分别为x和y,那么上述合并算法的复杂度为O(x+y)关键原因:倒排记录表按照docID排序173412824816326412358132112834248163264123581321BrutusCaesar28合并算法的伪代码18布尔查询的处理:
OR/NOTOR表达式:BrutusORCaesar两个倒排记录表的并集NOT表达式:BrutusANDNOTCaesar两个倒排记录表的差集一般的布尔表达式(BrutusORCaesar)ANDNOT(AntonyORCleopatra)查询处理依序而行?19查询处理的效率问题考虑n个词项的
AND查询
对每个词项,取出其倒排记录表,然后两两合并BrutusCaesarCalpurnia123581621342481632641281316查询:
Brutus
AND
CaesarAND
Calpurnia
20查询处理顺序的优化优化策略:按照表从小到大的顺序进行处理21这是为什么保存df的原因之一相当于处理查询(Calpurnia
AND
Brutus)
ANDCaesarBrutusCaesarCalpurnia123581621342481632641281316一般化的优化处理针对一般的布尔表达式,首先进行形式转化,e.g.,(maddingORcrowd)AND(ignobleORstrife)每个布尔表达式都能转换成上述形式(合取范式)然后获取每个词项的df,并通过将词项的df相加估计每个OR表达式对应的倒排记录表的大小最后从小到大依次处理每个OR表达式22布尔检索的优点构建简单,是构建IR系统的一种最简单方式查询表达方式直观清晰,易于理解在30多年中是最主要的检索工具当前许多搜索系统仍然使用布尔检索模型电子邮件、文献检索系统、MacOSXSpotlight工具23布尔检索系统:WestLaw最大的商业化法律搜索服务引擎
(1975年开始提供服务;1992年加入排序功能)几十T数据,700,000付费用户大部分用户仍然使用布尔查询查询的例子:有关对政府侵权行为进行索赔的诉讼时效(Whatisthestatuteoflimitationsincasesinvolvingthefederaltortclaimsact?)LIMIT!/3STATUTEACTION/SFEDERAL/2TORT/3CLAIM24布尔检索的不足难以表达复杂的用户信息需求想查关于2011年快女6进5比赛的新闻,用布尔表达式怎么构造查询?(2011OR二零壹壹)AND(快乐女声OR
快女OR
快乐女生)AND(6进5
OR
六进五OR
六AND
进AND
五)表达式相当复杂,构造困难!不严格的话结果过多,而且很多不相关;非常严格的话结
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2026学年南阳市社旗县三年级数学第一学期期末考试模拟试题含解析
- 2025-2026学年龙山县三年级数学第一学期期末检测模拟试题含解析
- 2025-2026学年福建省厦门市金林湾实验学校数学三上期末复习检测试题含解析
- 2024年江苏省常州市钟楼区三上数学期末模拟试题含解析
- 2025年执业医师考试知识点复习及试题及答案
- 2025年普及知识卫生资格考试试题及答案
- 少数民族文化的保护与发展试题及答案
- 2025年执业护士考试技巧分享试题及答案
- 执业药师考试难点分析与试题及答案
- 行政法学考试挑战题目及答案
- 《海上风电场工程测量规程》(NB-T 10104-2018)
- 2024年手机充电器市场洞察报告
- SL345-2007水利水电工程注水试验规程
- 中国古代十大传世名画
- 《重叠问题》-徐长青
- 数据治理策略与框架
- 安全检查表完整版本
- 加拉帕戈斯群岛的生物
- 酒店客房前厅接待考核表
- 平凡世界课件
- JCT412.1-2018 纤维水泥平板 第1部分:无石棉纤维水泥平板
评论
0/150
提交评论