版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第7章信息检索及发展《现代信息查询与利用》课程组第7章信息检索及发展《现代信息查询与利用》课程组7.1信息检索概述7.2信息检索研究历史和现状7.3信息检索模型7.1信息检索概述37.1.1信息检索词汇(terms)
检索的含义
“检索就是查找”,这仅仅是一种狭义的解释。从广义的角度讲,检索包括“存贮”和“查找”两个过程。
没有存贮就没有查找,存贮是为了查找,但查找必须有存贮,两者缺一不可。
37.1.1信息检索词汇(terms)4信息检索词汇(terms)“检索”(Retrieval)一词是一个外来词,来源于英语“Information
Retrieval”(信息检索)Informationretrieval(IR)Informationaccess(obtain)Informationsearch(lookfor)Informationsearching(lookfor)Informationseeking(focusonusers,active)locatehit4信息检索词汇(terms)“检索”(Retrieval)一7.1.2信息检索的原理信息检索
是指从任何信息集合中查出所需信息的活动、过程与方法。广义的信息检索还包括信息存贮,两者又往往合并称为“信息存贮与检索(Information
storage
and
retrieval)。7.1.2信息检索的原理信息检索
是指从任何信息集合中查出信息检索的原理信息存贮与检索信息检索的原理信息存贮与检索信息检索的起源信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。随着1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时情报检索系统信息检索的起源信息检索起源于图书馆的参考咨询和文摘索引工作,87.1.3信息检索发展阶段●手工操作(manual)●计算机化(computerized)●网络化(networked)●智能化(intelligentized)●认知化(cognized)87.1.3信息检索发展阶段●手工操97.1.4主要检索系统类型联机检索(onlinesearch)
脱机检索(offlinesearch)光盘检索(CDsearch)网络检索(Interne/Websearch)全球数字图书馆系统(digitalglobalsystem)97.1.4主要检索系统类型联机检索(onlinesear101、
联机检索(onlinesearch)
通信网络
联机检索中心
检索终端数据库
主机
WAN微机101、联机检索(onlinesearch)
11检索终端局域网
服务器
光驱
LAN微机光盘联机检索(CD
online)11检索终端局域网服务器光驱L12网络(Internet)信息检索Internet网络检索分布、开放、异种机;客户机/服务器模式,浏览器/服务器模式信息量大,无质量控制;自动发掘、采集;免费服务居多个人用户检索模式;WIMP(浏览+检索);自然语言检索为主12网络(Internet)信息检索Internet网络检索137.2信息检索研究历史和现状研究历史和现状1948年C.N.Mooers在其MIT硕士论文中第一次使用了“InformationRetrieval”这个术语1960-70年代在建立文摘检索系统中,产生了布尔模型(BooleanModel)、向量空间模型(VectorSpaceModel)和概率检索模型(ProbabilisticModel)137.2信息检索研究历史和现状研究历史和现状147.2信息检索研究历史和现状研究历史和现状1980年代出现商用数据库检索系统:Dialog,ORBIT,MEDLINE1990’s第一个网络搜索工具:1990年加拿大蒙特利尔大学开发的FTP搜索工具Archie147.2信息检索研究历史和现状研究历史和现状157.2信息检索研究历史和现状
研究历史和现状第一个WEB搜索引擎:1994年美国CMU开发的Lycos1995斯坦福大学博士生开发Yahoo1998斯坦福大学博士生开发的Google,提出PageRank计算公式1998年基于语言模型的IR模型提出157.2信息检索研究历史和现状研究历史和现状167.2信息检索研究历史和现状
研究历史和现状1990年代推荐系统的出现:Ringo,Amazon,NetPerceptions文本分类和聚类的使用、信息抽取:Whizbang167.2信息检索研究历史和现状研究历史和现状177.2信息检索研究历史和现状
研究历史和现状2000’s的重要事件文本检索会议TREC(TextRetrievalConference)的发展问答系统评测专项Q/Atrack(QuestionAnsweringTrack)2001年,百度成立177.2信息检索研究历史和现状研究历史和现状187.2信息检索研究历史和现状
研究历史和现状2000’s以来的其他重要事件多媒体IR,Image,Video,Audioandmusic跨语言IR,DARPATides,文本摘要,DUC评测187.2信息检索研究历史和现状研究历史和现状197.3检索模型
三类
7.3.1基于内容的信息检索模型7.3.2结构化模型
7.3.3浏览型数学模型197.3检索模型三类20检索模型分类信息检索模型检索模型浏览模型内容模型结构模型布尔模型向量模型概率模型非重叠链表模型邻近节点模型平坦模型结构导向模型超文本模型20检索模型分类信息检索模型检索模型浏览模型内容模型结构模型217.3.1内容模型
基于内容的信息检索模型有集合论模型
布尔模型、模糊集合模型、扩展布尔模型代数模型
向量空间模型、广义向量空间模型、潜在语义标引模型、神经网络模型217.3.1内容模型基于内容的信息检索模型有227.3.1内容模型
基于内容的信息检索模型有概率模型
经典概率论模型、推理网络模型、置信(信念)网络模型227.3.1内容模型基于内容的信息检索模型有23检索模型的基本概念——相关概念
标引项(IndexTerm)
文档表示成多个Term的集合通常用词来表示,但是也可以用其他语言单位来表示
关键词(keywords)可以看成Term的一种标引项的权重(Weight)
不同标引项作用是不同的通过权重加以区分23检索模型的基本概念——相关概念标引项(IndexTe24检索模型的基本概念——模型要素
F是一个框架,用以构建文档,查询以及它们之间关系的模型
D是一个文档集合,通常由文档逻辑视图来表示。可以是一组索引词或关键词。既可以自动提取,也可以是由人主观指定。24检索模型的基本概念——模型要素F是一个框架,用以构建文25检索模型的基本概念——模型要素
Q是一个查询集合,是用户任务的表达,由查询需求的逻辑视图来表示。
R(qi,dj)是一个排序函数,它给查询qi和文档dj之间的相关度赋予一个排序值即:IR模型由上述三个要素组成
R(qi,dj)=F(D,Q)25检索模型的基本概念——模型要素261、
布尔模型一种简单的检索模型,它建立在经典的集合论和布尔代数的基础上261、布尔模型一种简单的检索模型,它建立在经典的集合论271、
布尔模型基本原理系统索引词集合中的每一个索引词在一篇文档中只有两个状态出现不出现检索提问式q由三种布尔运算符“and”、“or”、“not”连接索引词来构成271、布尔模型28布尔模型集合的几种表示具有某种属性的事物的全体就构成一个集合,以A,B,C,…表示构成集合的事物,以a,b,c,…表示该集合的元某个图书馆现存的所有图书——有限集
以S1={a,b,c,d}表示28布尔模型集合的几种表示29布尔模型集合的几种表示所有的正整数——无限集
以S2={1,2,3,4,…}表示
P(x)表示与元x有关的一个属性
S3={x|x是正偶数}
S4={x|1<x<10}为空集29布尔模型集合的几种表示30布尔模型——集合的表示集合间的关系
x是A中的一个元,记作x∈Ax不是A中的一个元,记作x∉A
集合的图形表示空间E
集合A元x30布尔模型——集合的表示集合间的关系空间E集合A元x31布尔模型——集合的运算并运算设A,B是两个集合,集合A与B的并运算是由A的一切元素和B的一切元素所组成的集合,记做A∪B,数学表示为:设A={a,b,c,d,e},B={c,d,x,y,z}
则A∪B={a,b,c,d,e,x,y,z}
即A∪B={x|x∈A∨x∈B}AB空间E31布尔模型——集合的运算并运算AB空间E32布尔模型——集合的运算交运算设A,B是两个集合,包含A和B的所有公共元素的集合叫做A与B的交集,记做A∩B,数学表示为:设A={a,b,c,d,e},B={c,d,x,y,z}
则A∩B={c,d}
即A∩B={x|x∈A∧x∈B}32布尔模型——集合的运算交运算33布尔模型遵循两条基本规则每个索引词在一篇文档中只有两种状态:出现或不出现,对应逻辑值为0或1
查询是由三种布尔逻辑运算符and,or,not连接索引词组成的布尔表达式33布尔模型遵循两条基本规则34布尔模型——集合的运算差运算设A,B是两个集合,A-B是由一切属于A但不属于B的元素所组成的集合,称为B在A中的余集,或者A与B的差,即设A={a,b,c,d,e},B={c,d,x,y,z}
则A-B={a,b,e},B-A={x,y,z}
数学表示为
A-B={x|x∈A﹁x∈B}34布尔模型——集合的运算差运算35布尔模型定义用qdnf表示查询q的析取范式,qcc表示qdnf的任意合取分项,文献dj
与查询q的相似度为如果,则表示文献dj与q相关,否则为不相关。
sim(dj,q)为该模型的匹配函数(相似度)35布尔模型定义36布尔模型——优缺点优点简单而整齐自我保护功能,降低用户对搜索系统的期望,使自己不在责任方,检索结果不好的原因在于用户构造查询不好简单、易理解、简洁的形式化缺点它的检索策略是基于二值决策准则,即一个文档只被判断成相关的或不相关的,无任何等级变化当用布尔表达式表示精确语义的时候,很难将信息表达为一个布尔表达式准确匹配,信息需求的能力表达不足36布尔模型——优缺点优点简单而整齐自我保护功能,降低用户对布尔模型目前仍然是商业文档数据库的主流模型,并为一些新的领域提供了一个好的起点布尔模型382、向量模型——n维向量考虑从空间坐标系原点出发(其他向量可以平移到原点出发)的向量,其终点坐标为<x1,x2,…,xn>,我们称之为一个n维向量382、向量模型——n维向量考虑从空间坐标系原点出发(其他392、向量模型——n维向量向量的运算加、减、倍数、内积392、向量模型——n维向量40向量模型——空间概念文献空间如果把每个标引词看作是一个向量,代表了空间的一个维,则由这些标引词集合定义了一个空间文献集合中的任一文献都可以表示为这个多维空间中的一个向量,这个空间就成为“文献空间”40向量模型——空间概念文献空间41向量模型——空间概念标引词空间文献集合中的一篇文献可看成是标引词空间的一个维,空间中的一点代表一个标引词点从原点到该点的向量就是一个标引词向量它在各个轴上的分量就是该标引词在各个轴所代表的相应文献中的权重41向量模型——空间概念42向量模型——模型含义
向量空间模型(VectorSpaceModel,VSM)
由康奈尔大学Salton等人在上世纪70年代末提出并倡导的,原型系统为SMART*
该模型采用了“部分匹配”的检索策略,即:出现部分索引词也可以出现在检索结果中,以克服布尔模型的缺点*可从/pub/smart/下载全部源码和相关语料42向量模型——模型含义向量空间模型(VectorSpa43向量模型——模型含义
向量空间模型(VectorSpaceModel,VSM)
通过给查询或文档中的索引词分配非二值权值来实现查询和文档都可转化成Term及其权重组成的向量表示,并可以看成空间中的点。向量之间通过距离计算得到查询和每个文档的相似度*可从/pub/smart/下载全部源码和相关语料43向量模型——模型含义向量空间模型(VectorSpa44向量模型——模型含义向量模型通过分派非二值权重给查询和文档中的索引项来实现检索目标这些权重用于计算系统中的每个文档与用户的查询请求的相似程度,向量模型通过对文档按照相似程度降序排列的方式,来实现文档与查询项的部分匹配结果中的文档排列顺序比通过布尔模型得到的结果要合理得多44向量模型——模型含义向量模型通过分派非二值权重给查询和45向量模型——模型含义在该模型中,与(ki,dj)相关联的权重wi,j是一个非二值数查询中的索引项也是有权重的,设wi,q是与(ki,q)相关联的权重,且wi,q≥0,则查询向量Q被定义成
Q=(w1,q,w2,q,w3,q…………wt,q)
其中,t是系统中所有索引项的数目45向量模型——模型含义在该模型中,与(ki,dj)相关联46向量模型——模型含义文档dj的向量可以表示为
wj=(w1,j,w2,j,w3,j………wt,j),向量模型通过wj和Q的相关度来评价文档dj和查询q的相关度。这种关系可以用定量表示,一般使用两个向量之间的夹角余弦值来计算46向量模型——模型含义47向量模型——模型含义变量wi称为权值,非负表示对应词项ki对于判断d和查询q相关性的重要程度(注意,这里的q是一般的,而d是具体的)
q=<v1,v2,…vt>
变量vi的含义类似于wi
两个基本问题:如何定义wi和vi
如何计算R(d,q)47向量模型——模型含义变量wi称为权值,非负48向量模型——模型含义设wi和vi为对应的词分别在d和q中出现的次数,于是我们有了两个m维向量,用夹角的cos表示“接近度”,即
48向量模型——模型含义设wi和vi为对应的词分别在d和q493、
概率模型概率模型基本思想是:给定一个用户的查询,则有一个包含相关文档且不包含不相关文档的集合。设想这个文档集合是一个理想的结果集。493、概率模型概率模型基本思想是:507.3.3概率模型基本假设给定一个查询q和文档集中一个文档dj,概率模型试图找出用户对其感兴趣的概率模型假设这个概率只是依赖于查询和文档的表示,进而模型假设文档集中存在一个子集,它使得总体相关概率在集合中的文档被认为是与查询相关的,不在集合中的则被认为是不相关的507.3.3概率模型基本假设51概率模型——贝叶斯定理
贝叶斯定理词条的独立假设
P(AB)=P(A)P(B)当且仅当A与B相互独立对一篇文档而言,若文档中的各个索引词相互独立,则有
P(dj)=P(k1)…P(kt)51概率模型——贝叶斯定理
贝叶斯定理52概率模型——模型定义定义设索引词的权重为二值的,即:
R表示已知的相关文档集(或最初的猜测集),用表示R的补集。表示文档dj与查询q相关的概率,表示文档dj与查询q不相关的概率。文档dj与查询q的相似度sim(dj,q)可以定义为:52概率模型——模型定义定义53概率模型——优缺点优点理论上讲,文档按照其与目标集合的相关概率降序排列缺点需要最初将文档分为相关和不相关的集合所有权重都是二值的,模型中仍然假设索引项之间是相互独立的53概率模型——优缺点优点54比较布尔、向量和概率模型是三个传统的检索模型布尔模型是基于集合理论和布尔代数的一种简单检索
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版贫血症状解析及护理要点分享
- 胰岛素的保存方法
- 肺恶性肿瘤健康宣教
- 赛诺秀仪器系统解析
- 砵仔糕制作方法
- 销售团队管理思路和方法
- 监理安全协议书
- 开发服务协议书
- 抚养遗赠协议书解除
- 2025-2026学年安徽省芜湖市高一生物上册期中考试试卷及答案
- 2025年下半年四川省泸州市人力资源和社会保障局信息中心招聘3人重点基础提升(共500题)附带答案详解
- 佛山地库信号覆盖施工方案
- 2025贵州玉屏侗族自治县人民医院第一批招聘编外人员26人备考考试题库附答案解析
- 9.2《永遇乐•京口北固亭怀古》课件+2025-2026学年统编版高一语文必修上册
- 2025年国家开放大学(电大)《应用写作》期末考试备考试题及答案解析
- 2024湘少版(三起)三年级英语上册全册教案
- 团员考试题目及答案大题
- 2025年皮肤科皮肤病病理形态学诊断能力测试答案及解析
- 哈巴涅拉舞曲课件
- 扬尘治理专项施工方案(水利工程版)
- 双馈风力发电机培训课件
评论
0/150
提交评论