




已阅读5页,还剩53页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第7章 信息检索及发展,现代信息查询与利用课程组,7.1 信息检索概述 7.2信息检索研究历史和现状 7.3 信息检索模型,3,7.1.1 信息检索词汇(terms),检索的含义 “检索就是查找”,这仅仅是一种狭义的解释。从广义的角度讲,检索包括“存贮”和“查找”两个过程。 没有存贮就没有查找,存贮是为了查找,但查找必须有存贮,两者缺一不可。,4,信息检索词汇(terms),“检索”(Retrieval)一词是一个外来词,来源于英语“Information Retrieval”(信息检索) Information retrieval (IR) Information access (obtain) Information search (look for) Information searching (look for) Information seeking (focus on users, active) locate hit,7.1.2 信息检索的原理,信息检索 是指从任何信息集合中查出所需信息的活动、过程与方法。广义的信息检索还包括信息存贮,两者又往往合并称为“信息存贮与检索(Information storage and retrieval)。,信息检索的原理,信息存贮与检索,信息检索的起源,信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。 随着1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时情报检索系统,8,7.1.3信息检索发展阶段, 手工操作 (manual) 计算机化 (computerized) 网络化 (networked) 智能化 (intelligentized) 认知化 (cognized),9,7.1.4主要检索系统类型,联机检索(online search) 脱机检索(offline search) 光盘检索(CD search) 网络检索(Interne/Web search) 全球数字图书馆系统(digital global system),10,1、 联机检索(online search),通信网络 联机检索中心,检索终端,数据库,主机,WAN,微机,11,检索终端,局域网,服务器,光驱,LAN,微机,光盘联机检索(CD online),12,网络(Internet)信息检索,13,7.2信息检索研究历史和现状,研究历史和现状 1948年C. N. Mooers在其MIT硕士论文中第一次使用了“Information Retrieval”这个术语 196070年代在建立文摘检索系统中,产生了布尔模型(Boolean Model)、向量空间模型(Vector Space Model)和概率检索模型(Probabilistic Model),14,7.2信息检索研究历史和现状,研究历史和现状 1980年代出现商用数据库检索系统:Dialog,ORBIT, MEDLINE 1990s第一个网络搜索工具:1990年加拿大蒙特利尔大学开发的FTP搜索工具Archie,15,7.2信息检索研究历史和现状,研究历史和现状 第一个WEB搜索引擎: 1994年美国CMU开发的Lycos 1995斯坦福大学博士生开发Yahoo 1998斯坦福大学博士生开发的Google,提出PageRank计算公式 1998年基于语言模型的IR模型提出,16,7.2信息检索研究历史和现状,研究历史和现状 1990年代推荐系统的出现:Ringo,Amazon,NetPerceptions 文本分类和聚类的使用、信息抽取:Whizbang,17,7.2信息检索研究历史和现状,研究历史和现状 2000s的重要事件 文本检索会议TREC(Text Retrieval Conference )的发展 问答系统评测专项Q/A track(Question Answering Track) 2001年,百度成立,7.2信息检索研究历史和现状,研究历史和现状 2000s以来的其他重要事件 多媒体IR,Image,Video,Audio and music 跨语言IR,DARPA Tides,文本摘要,DUC评测,19,7.3 检索模型,三类 7.3.1 基于内容的信息检索模型 7.3.2 结构化模型 7.3.3 浏览型数学模型,20,检索模型分类,21,7.3.1 内容模型,基于内容的信息检索模型有 集合论模型 布尔模型、模糊集合模型、扩展布尔模型 代数模型 向量空间模型、广义向量空间模型、潜在语义标引模型、神经网络模型,22,7.3.1 内容模型,基于内容的信息检索模型有 概率模型 经典概率论模型、推理网络模型、置信(信念)网络模型,23,检索模型的基本概念相关概念,标引项(Index Term) 文档表示成多个Term的集合 通常用词来表示,但是也可以用其他语言单位来表示 关键词(key words) 可以看成Term的一种 标引项的权重(Weight) 不同标引项作用是不同的 通过权重加以区分,24,检索模型的基本概念模型要素,F是一个框架,用以构建文档,查询以及它们之间关系的模型 D是一个文档集合,通常由文档逻辑视图来表示。可以是一组索引词或关键词。既可以自动提取,也可以是由人主观指定。,25,检索模型的基本概念模型要素,Q是一个查询集合,是用户任务的表达,由查询需求的逻辑视图来表示。 R(qi,dj) 是一个排序函数,它给查询qi和文档 dj 之间的相关度赋予一个排序值 即: IR模型由上述三个要素组成 R(qi,dj) = F( D, Q ),26,1、 布尔模型,一种简单的检索模型,它建立在经典的集合论和布尔代数的基础上,27,1、 布尔模型,基本原理 系统索引词集合中的每一个索引词在一篇文档中只有两个状态 出现 不出现 检索提问式q由三种布尔运算符 “and”、“or”、“not”连接索引词来构成,28,布尔模型,集合的几种表示 具有某种属性的事物的全体就构成一个集合,以 A, B, C,表示构成集合的事物,以 a,b,c,表示该集合的元 某个图书馆现存的所有图书有限集 以 S1 a,b,c,d表示,29,布尔模型,集合的几种表示 所有的正整数无限集 以 S2 1,2,3,4,表示 P(x)表示与元x有关的一个属性 S3 x|x是正偶数 S4 x|1x10 为空集,30,布尔模型集合的表示,集合间的关系 x是A中的一个元,记作x A x不是A中的一个元,记作x A 集合的图形表示,31,布尔模型集合的运算,并运算 设A,B是两个集合,集合A与B的并运算是由A的一切元素和B的一切元素所组成的集合,记做 AB,数学表示为: 设 A=a,b,c,d,e,B=c,d,x,y,z 则 AB=a,b,c,d,e,x,y,z 即 AB=x|xAxB ,32,布尔模型集合的运算,交运算 设A,B是两个集合,包含A和B的所有公共元素的集合叫做A与B的交集,记做 AB,数学表示为: 设 A=a,b,c,d,e,B=c,d,x,y,z 则 AB=c,d 即 AB=x|xAxB ,33,布尔模型,遵循两条基本规则 每个索引词在一篇文档中只有两种状态:出现或不出现,对应逻辑值为 0 或 1 查询是由三种布尔逻辑运算符 and, or, not 连接索引词组成的布尔表达式,34,布尔模型集合的运算,差运算 设A,B是两个集合,A-B是由一切属于A但不属于B的元素所组成的集合,称为B在A中的余集,或者A与B的差,即 设 A=a,b,c,d,e, B=c,d,x,y,z 则 A-B=a,b,e, B-A=x,y,z 数学表示为 A-B=x|xAxB ,35,布尔模型,定义 用qdnf表示查询q的析取范式,qcc表示qdnf的任意合取分项,文献dj 与查询q的相似度为 如果 ,则表示文献dj与q相关,否则为不相关。 sim(dj, q) 为该模型的匹配函数(相似度),36,布尔模型 目前仍然是商业文档数据库的主流模型,并为一些新的领域提供了一个好的起点,38,2、向量模型n维向量,考虑从空间坐标系原点出发(其他向量可以平移到原点出发)的向量 ,其终点坐标为,我们称之为一个n维向量,39,2、向量模型n维向量,向量的运算 加、减、倍数、内积,40,向量模型空间概念,文献空间 如果把每个标引词看作是一个向量,代表了空间的一个维,则由这些标引词集合定义了一个空间 文献集合中的任一文献都可以表示为这个多维空间中的一个向量,这个空间就成为“文献空间”,41,向量模型空间概念,标引词空间 文献集合中的一篇文献可看成是标引词空间的一个维,空间中的一点代表一个标引词点 从原点到该点的向量就是一个标引词向量 它在各个轴上的分量就是该标引词在各个轴所代表的相应文献中的权重,42,向量模型模型含义,向量空间模型(Vector Space Model, VSM) 由康奈尔大学Salton等人在上世纪70年代末提出并倡导的,原型系统为SMART* 该模型采用了“部分匹配”的检索策略,即:出现部分索引词也可以出现在检索结果中,以克服布尔模型的缺点 * 可从/pub/smart/下载全部源码和相关语料,43,向量模型模型含义,向量空间模型(Vector Space Model, VSM) 通过给查询或文档中的索引词分配非二值权值来实现 查询和文档都可转化成Term及其权重组成的向量表示,并可以看成空间中的点。向量之间通过距离计算得到查询和每个文档的相似度 * 可从/pub/smart/下载全部源码和相关语料,44,向量模型模型含义,向量模型通过分派非二值权重给查询和文档中的索引项来实现检索目标 这些权重用于计算系统中的每个文档与用户的查询请求的相似程度,向量模型通过对文档按照相似程度降序排列的方式,来实现文档与查询项的部分匹配 结果中的文档排列顺序比通过布尔模型得到的结果要合理得多,45,向量模型模型含义,在该模型中,与(ki,dj)相关联的权重wi,j是一个非二值数 查询中的索引项也是有权重的,设wi,q是与(ki,q)相关联的权重,且wi,q0,则查询向量Q被定义成 Q=(w1,q,w2,q,w3,qwt,q) 其中,t是系统中所有索引项的数目,46,向量模型模型含义,文档dj的向量可以表示为 wj=(w1,j,w2,j,w3,jwt,j), 向量模型通过wj和Q的相关度来评价文档dj和查询q的相关度。这种关系可以用定量表示,一般使用两个向量之间的夹角余弦值来计算,47,向量模型模型含义,变量wi称为权值,非负 表示对应词项ki对于判断d和查询q相关性的重要程度(注意,这里的q是一般的,而d是具体的) q= 变量vi的含义类似于wi 两个基本问题: 如何定义wi和vi 如何计算R(d, q),48,向量模型模型含义,设wi和vi为对应的词分别在d和q中出现的次数,于是我们有了两个m维向量,用夹角的cos表示“接近度”,即,49,3、 概率模型,概率模型基本思想是: 给定一个用户的查询,则有一个包含相关文档且不包含不相关文档的集合。设想这个文档集合是一个理想的结果集。,50,7.3.3 概率模型,基本假设 给定一个查询q和文档集中一个文档dj,概率模型试图找出用户对其感兴趣的概率 模型假设这个概率只是依赖于查询和文档的表示,进而模型假设文档集中存在一个子集,它使得总体相关概率在集合中的文档被认为是与查询相关的,不在集合中的则被认为是不相关的,51,概率模型贝叶斯定理,贝叶斯定理 词条的独立假设 P(AB)= P(A) P(B) 当且仅当 A与B相互独立 对一篇文档而言,若文档中的各个索引词相互独立,则有 P(dj)=P(k1)P(kt),52,概率模型模型定义,定义 设索引词的权重为二值的,即: R表示已知的相关文档集(或最初的猜测集),用 表示R的补集。 表示文档dj与查询q相关的概率, 表示文档dj与查询q不相关的概率。文档dj与查询q的相似度sim(dj, q)可以定义为:,53,概率模型优缺点,优点 理论上讲,文档按照其与目标集合的相关概率 降序排列 缺点 需要最初将文档分为相关和不相关的集合 所有权重都是二值的,模型中仍然假设索引项之间是相互独立的,54,比较,布尔、向量和概率模型是三个传统的检索模型 布尔模型是基于集合理论和布尔代数的一种简单检索模型 向量模型采用非二值的索引项权重,把文档和查询用t维权重向量表示,计算这两个向量之间的相似度来实现查询与文档的匹配 概率模型是一种规范的模型,它试图预测给定查询的相关文档,排序原则根据文档与集合的相似度进行排序,55,7.3.2 结构化文本检索模型,结构化文档检索算法可以看作是一种信息检索算法,但排序机制并不健全 使用“匹配点”来表示文本与用户查询相匹配的词串位置 使用“区域”表示文本的块 使用“节点”表示文档的结构化组元 这样,一个节点是一个区域,具有文档的作者与用户所共知的、预定义的逻辑属性,56,结构化文本检索模型,基于非重叠链表的模型是把文档中的整个文本划分为非重叠文本区域,并用链表连接起来 因为有多种方法将文本分为非重叠的区域,所以,对于同一个文档,会产生多个链表 这些链表清晰的记录了文档的数据结构 在相同链表中的文本区域没有重叠,而不同链表中的文本区域可能会重叠,57,结构化文本检索模型,该模型是一种允许在相
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025黑龙江鹤岗市工农区酒行招聘考前自测高频考点模拟试题及答案详解(网校专用)
- 2025年鹤壁市山城区城市管理局招聘看护人员30人模拟试卷及答案详解(易错题)
- 2025湖南省中南大学非事业编工作人员招聘模拟试卷及答案详解参考
- 2025贵州安顺市紫云苗族布依族自治县利源融资担保有限责任公司招聘1人考前自测高频考点模拟试题有答案详解
- 2025江苏南京市江宁医院博士后招聘考前自测高频考点模拟试题及答案详解(全优)
- 2025年5月广东云浮郁南县企业招聘395个岗位笔试题库历年考点版附带答案详解
- 2025年安庆岳西县事业单位引进急需紧缺专业人才10人考前自测高频考点模拟试题及参考答案详解
- 2025年福建省龙岩市第一医院招聘7人考前自测高频考点模拟试题及一套完整答案详解
- 2025广东广州市黄埔区大沙街姬堂股份经济联合社招聘城市更新(旧村改造)专业人员1人考前自测高频考点模拟试题有答案详解
- 2025河北农业大学选聘50人考前自测高频考点模拟试题有答案详解
- 造口患者叙事护理
- 二年级数学上册100道口算题(全册11份)
- 中医学专业职业生涯规划书2300字数
- 租赁沐足店合同协议书
- 拆迁权利转让协议书
- 微电子器件(4-11)多栅结构MOSFET与FinFET
- 鄂托克高新技术产业开发区固废处理场建设项目环评报告书
- 老年焦虑障碍课件
- 产科护理个案分享案例
- 《婚姻家庭辅导》课件
- 新统计法培训
评论
0/150
提交评论