




已阅读5页,还剩60页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2、7信息检索(二),1、信息检索模型(原理)2、信息检索方法,1、信息检索模型(informationretrievalmodel),实现信息检索,就是要实现用户查询和文档集文档相似性匹配。检索系统采用的查询和文档集内部表示、相似匹配的方式决定所采用的检索策略和模式,从而引出各种不同的信息检索模型(informationretrievalmodel)。,一个信息检索模型是将文档表示、查询以及它们之间的关系进行建模的框架,它由一个三元组表示:FD,Q,R(qidj)其中,D是文档的表示,Q是查询的表示。R(qidj)是一个排序函数,该函数输出一个与查询表示qiQ和djD的有关实数。这样就在文档之间根据查询qI定义了一个顺序。,按照相似匹配度模式的不同可以分为:全文(full-text)检索内容(content-based)检索,全文检索以从文本中找出与查询表示的字符串完全一致的部分为目的,检索结果为包含查询字符串的文本及其位置。内容检索不必像全文检索那样进行完全一致的匹配,而是着眼于找出与查询语义相似的文本。,2、内容检索模型,提取一组描述文本内容的词汇,称为索引项(term),用索引项的出现次数等来表示文本和查询请求。计算文本和查询请求间的相似度并依据大小排序输出检索结果。,内容检索的模型有:,向量空间模型(vectorspacemodel)概率模型(probabilisticmodel)网络模型(networkmodel),向量空间模型:,向量空间模型是GerardStalton等人在SMART系统中采用的模型,在信息检索领域为人们所熟知的一种传统的检索模型。向量空间模型的最大特点是用多维向量表示文档和查询,通过计算向量间的相似度实现文档的相似检索。涉及向量、矩阵、向量空间等线性代数知识。,设矩阵D为索引项-文本矩阵。其中各列是表示文本信息的文本向量,各行是表示索引项信息的索引项向量(其中索引项是经过权重处理的元素)d11d12d1nD=d1d2dn=d21d22d2ndm1dm2dmn,查询语句与文本相同也用索引项权重为元素的向量表示。查询向量q表示如下:q1q=q2q3qm,检索时,找出与给定的查询语句相似的文本,这是通过计算查询向量q与各个文本向量dJ间的相似度实现的。向量间相似度的计算方法有多种,文本检索中最常使用的是计算余弦和内积的相似度。,计算两个向量夹角的余弦函数:,其它信息检索数学模型,概率模型网络检索模型推理网络模型信念网络模型遗传算法(Holland,1975):交叉、变异、选择粗糙集(Pawlak,1980s):模糊性和不确定性,3、其他信息检索的相关技术,1)信息过滤:从大量的信息中提取有用的信息,去除无用的信息。当新的文档加入到系统中时,只提取符合用户需求的信息,去除不符合的信息。在信息过滤系统中,把检索需求称为用户描述,把不断产生的新信息成为信息流。过滤系统根据用户描述文件选择用户感兴趣的信息,删除用户不需要的信息。,信息流,过滤系统,内部表示,内部表示,内部表示,匹配,内部表示,新产生的文档,用户描述1,用户描述2,用户描述N,与用户描述1相关的文档,与用户描述2相关的文档,与用户描述3相关的文档,2)文本自动分类:,为了对大规模的文档进行分类,需要由计算机进行自动处理,称为文本自动分类。大致分为两种:一种是按照预先设定文本内容的类别(如政治、经济、科学等),确定文本内容属于哪一类,将文本放到所属的类别中。一种是通过将相似的文本归为一组(聚类)的方法,把全体文档集合分为若干类。,文本自动分类原理为计算两个文本间的相似度,或文本与文本类别间的相似度,所以基本上可以采取与信息检索相似的技术实现。如基于向量空间模型的方法;基于规律模型的方法;基建于规则和基于识别学习的方法等。,3)信息抽取,信息抽取系统的重要功能是从文档中抽取出特定的事实信息。例如:从新闻报道中抽取恐怖时间的详细情况,如时间、地点、做案者、袭击目标等。被抽取出来的信息以结构化的形式描述,可以直接存入数据库中,供用户查询以及进一步分析。因此可以把信息抽取系统看做是把不同文档中的信息转换成数据库记录的系统。,近年来,信息抽取的处理对象已经扩展到图像、视频、音频等其他媒体类型的数据。目前的研究侧重于:利用机器学习技术增强系统的可移植能力、探索深层理解技术、篇章分析技术、多语言文本处理技术、Web信息抽取等。,信息抽取技术对搜索引擎、信息安全、企业智能信息系统等许多应用领域具有相当重要的作用。至今,已有不少公司以信息抽取技术产品为主。,四、信息检索的主要方法,常规法,回溯法,循环检索法,常规检索法,以主题、分类、作者等为检索点,利用检索工具获得信息的方法。利用此法要熟悉主要的检索工具的编排体例和作用。根据检索要求常规法又分为:顺查法、倒查法、抽查法。,回溯法,又称追溯法、引文法。以文献后面所附的参考文献为线索,逐一追溯查找相关文献的方法。该法获得文献的针对性比较强,尤其在没有检索工具或检索工具不齐备的情况下较实用。,循环检索法,又称交替法、综合法。即利用回溯法和常规法交替检索的方法。先利用检索工具查找,得出一批相关文献,再利用回溯法按所附参考文献扩大检索线索。,2、文本信息检索技术,对文本信息进行查询,主要技术包括:布尔检索截词检索短语检索限制检索等。,布尔检索“逻辑与”,运算符为“AND”,常用来限定多义词,进行缩检,提高查准率。制定AANDB的检索式,只能检出同时含有A和B的信息资源。即连接的两个检索词必须同时出现在结果中。几乎所有的网检工具都允许使用AND运算符构筑检索式。,A,B,布尔检索“逻辑或”,运算符“OR”、或“+”号表示。常用来限定同义词,扩大检索范围,提高查全率。制定“AORB”检索式,可以检出含有A或B以及同时含有A和B的资源。既连接的两个词只要其中的任何一个出现在检索结果中,就算满足检索要求。,AORB,A,B,布尔检索“逻辑非”,一般用“NOT”或“”表示,常用于排除词间的虚假联系,进行缩检。几乎所有网检工具都允许使用NOT运算符,而LookSmart站点不允许使用。,ANOTB,A,B,布尔逻辑检索举例:,已有文件为:D1fulltextsearchD2invertedindexfileD3sequentialsearchalgorithmD4indexsearchalgorithmD5informationretrievalalgorithm,当给出查询表达式“searchANDalgorithm”时,查找出的文本为:当给出查询表达式为“searchORalgorithm”时,可查出文本:当给出查询表达式为“NOTsequential”时,可查找出文本:,对运算符做复合运算时,可以形成更加复杂的查询表达式。如:“(NOTsequential)AND(searchORretrieval)ANDalgorithm”即“在包含search或retrieval的文本中,不存在sequential,但必须有algorithm这一索引项的文本”,运用逻辑优先级,NOT的优先级最高,其次是AND,最后是OR。可以用括号改变运算顺序。,or,and,not,2、截词(truncation)检索,在检索词的词干上加一个截词符,以表示对该词的各种词性的完整词进行检索。截词符有时又称为通配符,用:“*”“?”表示。,右截词检索又称“前方一致检索”,允许词尾有一定的变化。截词符以“*”表示。如:检索式“brows*”,可以检索出browse,browser,browsing等。左截词检索又称“后方一致检索”,允许词前端有若干变化。如:检索式“*magnetic”,可以检索出electromagnetic、paramagnetic等。,中间截词检索,又称“屏蔽”。允许检索词中间某个字符有变化(英美单词拼写差异或单复数的不同等)。如:检索式“organi?ation”,可以检索出organization,organisation等。截词实际上是一种隐含的“逻辑或”运算,能提高查全率,扩大检索结果。,按截断的字符数量分为有限截词、无限截词两种。有限截词将n个“?”放在检索词干或词尾可能变化的位置上,表示截词的位数为0n个字符。如在词尾,在n个“?”或“*”后空一格再加一个“?”,表示停止符。无限截词在检索词干后加一个“?”或“*”,表示该词尾允许变化的字符数不受任何限制。,3、短语检索,单纯依靠布尔逻辑组配检索难以满足某些检索需求,在高查准率的要求下,需要使用专门的运算符把多个检索词组成特定的短语,或对各个检索词在检索结果中出现的相对位置进行限定,才能较好地完成检索任务。,短语检索也称词组检索,或字符串检索,是一种固定词组检索。其方法是,在检索的屏幕上选择短语检索或PhraseSearch等按钮。或者使用引号“”作为一个独立运算单元,就可以实施短语检索,以提高检索准确度。,如:检索式“北京大学”,要求检索结果仅为“北京大学”这个词组的内容,而不包括诸如“北京工业大学”、“位于北京西郊的大学”、“北京的大学校园文化”等内容的信息。几乎所有的搜索引擎都支持词组检索。,位置检索,位置检索是通过位置算符进行的。位置算符是指表示词与词之间位置关系的符号。其作用在于对复合检索词进行加工修饰,限制词与词之间的位置关系,弥补了布尔逻辑算符只是定性规定检索词的范围,可提高检索结果的查准率。,常用的几种位置算符:,1、(W)2、(nW)3、(N)4、(nN)5、(S)6、(F)7、(C)8、(L),(W)with的缩写。表示算符两侧的检索词按此前后顺序不可变更,且两词之间不许有其他的词或字母,但允许两词之间有空格、标点符号。如:CD(W)ROM相当于检索CDROM,或CD-ROM。,(nW)nWord的缩写。表示算符两侧的检索词之间允许插入n个实词或系统禁用词(通常指系统中出现频率高而不能用来检索的冠词、介词、连接词等,如an,and,by,for,form,of,the,to,with等),两词词序不可变更。,(N)Near的缩写。表示算符两侧的检索词必须紧密相连,两词词序可变,词间不允许插入任何其他词或字母,但允许有空格或标点符号。,(nN)表示算符两侧的检索词之间允许插入n个实词或系统禁用词,两词词序可变。如:Railway(2N)Bridge表示:RailwayBridgeRailwayofBridgeRailwayoftheBridge等。,(S)Subfield的缩写。表示算符两侧的检索词必须同时出现在文献记录的同一子字段、句子或短语中,词间允许插入n个实词或系统禁用词,词序可变。,(F)Field的缩写。表示算符两侧的检索词必须同时出现在文献记录的同一字段中,词间允许插入n个实词或系统禁用词,词序可变。如无需同时出现在篇名字段、文摘字段、叙词字段、关键词字段等,则要加以限定。,(C)Citation的缩写。表示算符两侧的检索词必须同时出现在一条文献的记录中,词间允许插入n个实词或系统禁用词,词序可变,字段不限。,(L)Link的缩写。表示算符两侧的检索词之间有一定的从属关系。,6、限制检索,目的在于提高检索的准确率。一般是通过限制检索词在命中结果记录中的出现位置(主要指记录的不同字段的位置)来实现的,这种限制检索技术因此又被称为“字段检索”。,在数据库中,一条文献记录通常设置有几十个不同的字段,其中有表达文献主题的基本检索字段,如:标题(Title,TI)关键词(Keyword,KY)文摘(Abstract,AB)分类号(ClassificationCode)等,,还有表示文献外部特征的辅助检索字段,如:作者(Author,AU)使用的语言(Language,LA)发表时间(Time)等。检索时,可通过指定检索词在主题字段或非主题字段中的出现情况,即可实现“字段检索”。如:“MBAwithinAB”,“title:北京”等。,限制检索的另一种常见形式是“二次检索”。即在检索结果中再检索。用户可以把新一轮检索限制在已检得的结果中。许多检索系统(包括搜索引擎)都支持这种限制检索。,四、信息检索效率评价,信息检索效率是指信息检索各项性能的满意程度,主要指标有查全率、查准率、漏查率、误检率4项指标。这4项指标于20世纪50年代由国外专家提出,经不断改善,现已成为信息检索常用的重要的指标。以下表来定量描述信息检索效率(见表),查准率=检出的相关文献量/被检出的文献总量=(a/a+b)X100%,漏检率=未检出的相关文献/文档中相关文献总量=(c/a+c)X100%,误检率=检出的非相关文献/检出的文献总量=(b/a+b)X100%,影响检索效率的因素:,1、检索语言检索语言的类型、规范化程度,对同义词、近义词的控制、结构体系、组配方式、族性检索功能、扩检和缩检功能、以及语言的掌
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电梯轿厢租赁协议书模板
- 驳回经纪合同解除协议书
- 附条件与附期限合同范本
- 签劳动协议不签劳动合同
- 浙江电商管理咨询协议书
- 机械厂员工外包合同协议
- 瓷砖维修质保协议书范本
- 法人代表转让协议协议书
- 空置楼房拆除补偿协议书
- 离心加湿器采购合同协议
- 劳务派遣与服务协议
- 2025年新修订治安管理处罚法课件
- 消费者权益保护培训课件
- DB11T 2454-2025 职业健康检查质量控制规范 生物样本化学物质检测
- 贸易公司员工职业操守行为准则制度
- 电气安全基础知识安全培训
- 部门保密培训课件
- 福建省南平市2024-2025学年八年级下学期期末考试数学试卷(含答案)
- 工厂绩效计件方案(3篇)
- 慢性阻塞性肺疾病急性加重(AECOPD)
- 尿路感染多重耐药诊疗与管理
评论
0/150
提交评论