




已阅读5页,还剩13页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章简介人们到处在谈论信息,我们越来越多地听到信息这个词汇。我们听说:我们现在进入了一个信息化社会,我们正在迈向信息高速公路,我们将要迎接一个信息爆炸的新时代。那么什么是信息?广义的说,信息就是消息。一切存在都有信息。对人类而言,人的五官生来就是为了感受信息的,它们是信息的接收器,它们所感受到的一切,都是信息。然而,大量的信息是我们的五官不能直接感受的,人类正通过各种手段,发明各种仪器来感知它们,发现它们。不过,人们一般说到的信息多指信息的交流。信息本来就是可以交流的,如果不能交流,信息就没有用处了。信息还可以被储存和使用。你所读过的书,你所听到的音乐,你所看到的事物,你所想到或者做过的事情,这些都是信息。一、定义信息检索是指是指将信息按一定的方式组织和存储起来,并针对用户的检索需要,从结构化或非结构化的数据中获取有用信息的过程。这是广义的信息检索。狭义的信息检索则仅指该过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻(Information Search)。我们可以把整个信息检索过程刻划为三个方面:信息的存储与组织,信息的检索,信息的展示。图1.1 给出了信息检索三个方面衔接的原理示意图。信息存储与组织信息检索与实施信息结果展示数据库信息集合信息处理者外部信息信息存储信息加工信息采集处理结果结果展示检索模式结果输出特征组配需求特征检索需求匹配算法图1.1 信息检索原理示意图过去,信息检索一直被人们称为“情报检索”,这是因为情报检索这一术语产生于图书情报领域,检索的主要目的也是为了获取有价值的情报或对科学研究有帮助的资料。随着相关技术的发展,应用领域的扩大,检索内涵的丰富,“信息”这个词在使用上比“情报”更加自然和普及。因此,“信息检索”逐步流行起来,并正在取代“情报检索”。当然,我们可以将“信息检索”与“情报检索”视为同义词。计算机信息检索,是指以计算机技术为手段,通过光盘和联机等现代检索方式进行信息检索的方法。与手工检索一样,计算机信息检索应作为未来科技人员的一项基本功,这一能力的训练和培养对科技人员适应未来社会和跨世纪科研都极其重要,一个善于从电子信息系统中获取信息的科研人员,必定比不具备这一能力的人有更多的成功机会,美国报道生活新方式的期刊POV 也将交互网络检索专家作为未来十大热门职业之一,这些情况都说明了计算机信息检索越来越重要,故值得大家对这一技术予以重视。二、信息检索的发展l 手工检索(早期,情报检索)20世纪中期以前,情报检索处于完全手工式阶段,所使用的检索工具主要为书本式或卡片式的索引和目录,这类工具决定了它们是先组式的, 并按某一规则进行排序,检索的功能和效率都受到很大限制,查找方式也完全采用人工(手翻、眼看、大脑判断)来进行的。 很明显,这种方式给检索者带来沉重的负担,也很容易漏检。l 穿孔卡片检索(1950s)20世纪中期,穿孔卡片方式的检索系统得到应用。这是在描述文献资料的卡片边缘,为每一个文献标识对应一个固定的孔位,如果某文献确定了它的文献标识, 就将相应的孔扎为豁口。检索时,根据检索策略进行相应的穿孔操作,提起穿孔棒落下的卡片即为命中文献。这种检索系统不需要人工对文献卡片中款目进行判断,卡片也不需要进行排序,检索可以采取机械操作。以上的检索方式决定了检索途径少,检索效率低,很难适应巨大规模信息库的要求。计算机的诞生,为日趋艰难的情报检索带来了光明。自从20世纪50年代计算机被用于处理和存储信息以来,计算机情报检索得到非常迅速的发展,特别是Internet的普及和发展,信息检索技术得到更加广泛的应用。l 计算机检索(面向主题,1960s)据报道,最早的计算机情报检索的试验是由美国海军兵器中心于1954年完成的,它主要将文献号以及文献的索引词输入计算机,检索是采用对索引词检索获取文献号。这虽然是一个试验性的项目,但它无疑是开创了计算机情报检索的先河。到了20世纪60年代,计算机技术的发展使情报检索进入了实用化时期,主要重点放在生产机读版的二次文献,发行二次文献数据库的机读磁带, 如:美国化学文摘社(CAS)的化学题录(CT, Chemical Titles),化学文摘(CA),美国国家医学图书馆(NLM)的医学文献分析与检索系统(MEDLARS)等。这时的情报检索主要采用批处理检索方式,大多使用的是顺排挡检索技术,检索数据主要为书目(二次文献,second time document;secondary literature;twice document; secondary document; second literature;)数据。一次文献(primary document),是指作者以本人的研究成果为基本素材而创作或撰写的文献,不管创作时是否参考或引用了他人的著作,也不管该文献以何种物质形式出现,均属一次文献。大部分期刊上发表的文章和在科技会议上发表的论文均属一次文献。二次文献是对一次文献进行加工整理后所产生的文献,如书目、题录、简介、文摘等形式的检索工具书。它是查找一次文献的线索。所谓二次文献,是指对原始文献群的信息特征系统检查、组配、加工、报道的文献资料,如书目、索引、文摘、题录等,其中索引和文摘是二次文献的代表。三次文献(tertiary articles,third literature,tertiary document,cubic document),根据二次文献所提供的线索,对某一范围的一次文献加以集中、浓缩、系统整理并概括论述而形成的文献。如:综述、专题述评、进展报告等单篇文献,以及百科全书、词典、年鉴、手册等专书文献。一般地说,三次文献是指情报研究的结果或者说是纯情报,这就需要图书情报人员自身具有很高的专业知识水平和修养,具有很强的鉴别能力,综合能力和加工能力.通常情况下,三次文献可以采用综述和文摘的方式来进行。三次文献是指档案的编纂工作即对一次文献的具体内容进行综合分析将档案中分散的信息系统化、精炼化进行有机的组合针对性地提供利用。也有研究者在以上分类基础上再加上零次文献,它是指未经过任何加工的原始文献,如实验记录、手稿、原始录音、原始录像、谈话记录等。零次文献在原始文献的保存、原始数据的核对、原始构思的核定(权利人)等方面有着重要的作用。l 联机检索(1970s,1980s)70年代到80年代进入了联机检索时代, 这一时期诞生了许多联机情报检索系统, 如DIALOG系统、MEDLINE系统、 ORBIT系统、 ESA-IRS系统等。数据库已由书目型为主扩大到商情、产品、专利、标准以及全文数据库等,索引手段已广泛使用倒排检索,检索技术已向数据检索、全文检索和图形检索发展。可以说,这一时期是情报检索发展最快的时期,早期绝大多数情报检索理论技术的研究文章出自于这一时期,我们今天学习的许多情报检索理论仍然是那一时期的研究成果。80年代,这一领域受到了人工智能(AI)领域发展的影响,人们尽力将AI的技术应用于IR,例如,专家系统技术在IR中的应用。l Web检索(1990s)90年代以来,特别是Internet的发展,人们所面对的检索对象更加复杂,检索的需求更加强烈, 能够获得的情报(信息、数据)类型也是丰富多彩,人们解决各类问题都希望在数据库或互联网中寻找答案。在这一背景下,其检索的内涵得到了拓展, “情报检索”一词已不能涵盖我们今天所论及的检索,可以说,在更广泛的领域内(情报学领域以外),“信息检索”更能被人们所接受,“情报检索”一词逐渐淡化。这一时期,网络检索技术得到了飞速发展, 布尔检索、全文检索以及加权检索不再作为单一的检索技术被用于检索系统,开发者更强调多项检索技术的总和。Web技术的诞生, 使超文本检索技术得以推出并得到发展,目前超文本检索技术已不仅仅限于文本信息, 而是扩展到对多媒体信息的检索,也被人们称为“超媒体检索”技术。90年代,特别是1995年以后,进入了Internet的时代,这给IR带来了更加广泛的应用。使IR 领域再度辉煌。Internet的出现,给IR带来了许多新的问题,(比如,文档形式的变化,多媒体文档取代了纯文本文档),也引起了IR的改变。但是, 网上搜索引擎中的基本技术还是相同的。另外,智能检索技术及其理论研究也取得了很大发展, 用户智能检索接口、智能代理、自然语言理解、基于知识库的检索等研究已从实验室逐步走向应用;跨语言、跨数据库、分布式信息检索的研究已趋向成熟;一站式检索服务平台开始普及;针对数据库和互联网的数据挖掘已成为包括情报检索领域在内的多个领域的研究热点。目前,检索研究的主战场已经转向了网络资源, 并将检索理论研究的成果以及检索研究的重点放在了对网络信息资源的实际应用上。三、信息检索系统的分类根据检索系统的数据库内容、系统所拥有的功能、系统服务的区域范围等做简单的划分。1、 按资源形式划分书目信息检索系统的资源主要收录各种信息的特征数据,如题名、责任者、信息出处、主题词、分类号等二次文献信息,采用的检索技术主要为多项组配检索,提供的检索结果为信息的线索。书目信息数据库容量大(记录数多),检索功能强,查准率和查全率相对较高,早期的检索系统大多是基于书目型的, 目前仍有很强生命力的书目型信息检索系统是引文索引系统。全文检索系统的数据库收录的是源文献全文,采用的是全文检索技术,多数系统还将逻辑组配检索融入全文检索技术之中,系统提供的是全文信息。全文检索系统的查全率一般较高, 但随之得到的是查准率的偏低,要提高查准率, 需要在全文检索系统中配备一定的检索控制手段。随着计算机技术及相关应用的发展,全文检索系统越来越多,许多书目信息检索系统逐步扩充为全文检索系统。多媒体信息检索系统建立的是多媒体信息数据库,使用文本检索和多媒体检索(如模式匹配技术等)两种检索技术, 提供的是多媒体信息。早期的多媒体检索系统多以文本检索为主,命中后把多媒体信息调出,现在正逐渐由文本检索转向图像模式匹配等技术, 过去的文件形式的多媒体信息存放也逐步被多媒体数据库所取代。还有许多其它资源形式的信息检索系统,如产品信息检索系统、语料库信息检索系统、名录检索系统、标准检索系统等等,这些系统都可以归纳到上述三种相应的系统中。2、 按服务功能划分单纯检索服务系统主要为用户提供信息查询服务,人们可以通过对系统数据库的检索,得到自己所需的信息。早期的检索服务系统一般只针对一个数据库检索,或只是在一台计算机上检索,随着网络技术的发展,一站式、跨平台、跨语言的信息检索服务系统已较为普及。统计分析信息服务系统主要收录了某一方面较为系统、全面的数据,具有功能较强的统计分析工具,并根据查询需求提供统计分析数据。该类系统一般能够提供静态和动态两类统计分析数据以及各类咨询服务,有的系统还具有数据挖掘的功能。决策支持系统是信息服务系统的高级形式,主要为领导决策提供分析数据,构造决策模型, 模拟决策过程,预测方案前景。决策支持系统要求数据准确、全面,分析方法合理,处理过程具有智能化,显示结果能够可视化。专家信息系统是一个收集了专家经验的知识库系统。根据用户要解决的问题的需求,针对所提出问题的条件,专家系统去查询相关的知识信息,经过判断、推理、最终给出解决问题的方案、知识或已有的成功案例等。信息检索专家系统更强调能够获得解决实际问题的知识信息。3、 按服务区域划分单机检索系统,只能在拥有数据库的计算机上进行现场检索(面对面检索)。这一时期的数据库规模、种类都还有限,系统对软硬件平台都有严格要求,检索过程主要由信息服务人员执行,多采用批处理的方式开展服务。联机检索系统是通过专用网络把网上的终端和中心计算机连接起来的信息检索系统,用户可以通过网上终端对远程数据库直接检索,检索结果可以直接在终端上显示或打印出来。 联机检索系统的信息资源集中,数据质量高, 并具有权威性。系统有自己专用的检索指令,必须经过严格注册才有权使用。联机检索系统基本上都是由商业化运作的信息服务机构所管理。网络检索系统是指在互联网上提供的信息检索服务。网络检索系统类型复杂,数据库种类繁多,检索技术一般综合了逻辑检索、全文检索、超文本检索等多项技术。由于网络信息资源很多,且分散,查询效率低, 目前许多信息服务网站开展了“一站式”检索服务,既提供跨数据库、跨服务器、跨平台以及跨语言的信息检索界面。还有一种网络信息检索系统叫“搜索引擎”, 它主要是自动抓取网站和网页信息来建立数据库,然后为用户提供网络资源的查询服务。四、IR和其他领域的关系IR和其他领域有密切的联系,特别是和数据库(DB)、问答系统、web挖掘技术有较强的关系。1、 IR和数据库我们可以把IR系统当作纯文本的DB系统。可以给出这两个系统之间的不同:在DB系统中,开始要创建数据组织方案,这个方案定义了各种关系及关系内的属性,利用这些方案,系统可以对用户提问做出解释。例如,在DB内,可以定义如下的关系:作者(书,名字)其中,作者是关系的名字, 书和名字是这种关系的属性,分别对应着书的ID 和它的作者名,这只是定义的一部分。为了查找由“Knuth”编写的书,可以使用如下的SQL语句:SELECT book FROM author WHERE name= “Knuth”2、IR和问答系统问答系统倾向于回答小的领域的问题。例如,专业化的软件市场上,人们可以提问这样的问题“在Windows 98 下,哪个版本的Word是有效的?”,为了回答这类问题,有必要创建一个应用模型,在模型中,相关的概念和对象通过一些语义关系连接起来。利用这个模型可以直接找到相应的概念和对象,因此,可以对问题作出直接的回答。对于我们的例子,答案是“Word95 和Word98”在两个系统中,问题回答的方式是不同的。在IR中,对问题的回答是间接的:鉴别关联的文档,然后用户寻找问题的直接答案。在问答系统中,系统提供直接的答案。人们试图将IR系统向问答系统靠拢,但非常困难。理论上的原因是:通常情况下,IR系统应用于各种领域,没有任何的限制。在这种情况下,不可能建立一个像问答系统那样的模型,对每个问题给出直接的答案。对某些专业化的内容,IR系统可以结合知识库,使用一些推理的方法来判断一个文档是否关联。可见,这种类型的IR操作有些类似问答系统。一种方法是试着将文档中的概念提取出来,代替将整篇文档作为答案,可以试着将文档中的一个段落抽取出来(段落查找)。这也减少了IR和问答系统的差别,但它们之间仍有基本的差别。五、相关概念信息检索(IR)系统是指提供信息查询服务的系统,即在大容量的文档库中查找与用户问题相关联的文档的系统。在这个定义中, 包含了三个主要的概念:文档,用户问题,关联。文档(document):是指包含各种信息的信息源,通常情况下,用户查询的问题的答案存在于此,它的表现形式可能是文本、网页、图片、音频、视频等。在这门课中,我们只讨论文本的形式。用户问题 (request):表示用户所需要的信息,一般情况下,它可以用如下的形式表示:“查找和 . 相关联的文档。”关联(relevance):信息检索的目的是寻找相关联的文档。通常情况下,在相关联的文档中,用户应该能够找到他们所需要的信息。可见,关联是用来判断是否某个文档能够为用户问题提供回答的。关联的概念是非常复杂的。关联是IR中的核心概念,因为所有的评估都是围绕这个概念展开的。虽然围绕这个概念做了大量的研究工作,但它仍是一个很有争议的概念。下面,让我们先看一些人们对关联所给出的定义,关联是:- 文档和用户问题之间的对应关系,是文档对用户问题的忠实度的测量。- 文档和用户问题之间的关系度(如, 重叠度, 相关度,. .)。- 和用户的需要有关系的文档所拥有的惊奇度。- 用户对文档的使用情况的测量- . . 在这些定义中,所使用的概念(像忠实度,相关度,惊奇度,. .)也是很复杂的。为什么这样呢?因为IR用户的需要是各式各样的,很难选择统一的标准来判断某个文档是否相关。 因此,关联的概念覆盖了大范围的标准和关系。例如,一个用户提出了关于 “专家系统”的问题,那么,描述用在MYCIN(一个典型的专家系统例子)中的技术的文档将会满足这个用户的需要。但是,如果第二个用户需要非技术性的描述文档,他可能认为这个文档是不相关的。在这两种情况下,人们称文档和用户问题之间的关系为“关联”。关于这个概念,已经做了大量的工作,人们意识到关联不是文档和用户问题之间的一种独立的关系,它需要借助于上下文来判断。考虑上下文对关联的多重影响,Tefko Saracevic(Introduction to information science, chap. 3 - The concept of relevance, R.R. Bowker company, 1970, bibliothconomie, Z1001.S27-3)提出了如下的定义:关联是存在于C 和D 之间的通过E 进行判断的B中的A。其中,A = 测量区间B = 关联方面(绝对关联)C = 文档D = 上下文,在这里进行关联测量(包括需要的信息)E = 用户的判断他已经认识到了上下文和用户本身对关联的重要性。如果这些因素变化了,关联的概念也会随之变化。已经知道关联的概念是多变的,为什么还要研究它呢?一个原因是尽力去发现用户之间的普遍性的行为并尽力将它们形式化。如果人们得到了一部分普遍性的关联,将它们在具体的系统中实现,就可以满足一些普遍性的需要。目前,人们已经掌握了某些普遍性的因素。比如,主题是关联中一个比较重要的因素。人们可以以主题为标准来构建系统,这就是基于主题的方法。另一个原因是尽力去真正理解上下文是如何对关联产生影响的。比如, 如果人们设法去理解和发现含有重要因素的典型的上下文,就可以构建专业化的系统。除此之外,还有哲学的动机驱使人们去了解人是如何进行推理的。关联的定义和人工智能中智能的定义处于相同的形势下。 在这门课中,首先,我们将从传统方法的观点来介绍关联。在第二部分,我们将在广泛的上下文的角度去分析这个概念,将看到其他因素对它的影响。 可以参考的文章:Froehlich (ed.), Journal of the American Society for Information Science (JASIS), vol. 45, no. 3, Numro spcial sur la pertinence, 1994。文本形式:即使仅处理文本形式,仍然存在多种规范形式。文本通常包括非结构化(也称为纯文本)、半结构化和结构化文本。大多数情况下,文本被看作是半结构化。比如,一本书的说明书可能是如下的形式(ISBN -International Standard Book Number)国际标准书号:ISBN: 0-201-12227-8 Auteur: Salton, Gerard Titre: Automatic text processing: the transformation, analysis, and retrieval of information by computer Editeur: Addison-Wesley Date: 1989 Contenu: 在这个说明书中, 前部分(从ISBN到 Date)是结构化的,后部分(内容)是非结构化的, Web网页一般被认为是半结构化的。既可以通过外部属性如ISBN、作者、.、日期,也可以通过内容来查找这本书。第一种查找类型是相对简单的,借助已有的结构,简单地将用户问题和说明作比较即可。相反的,通过内容的查找存在许多问题,是比较复杂的,这是这门课要学习的主要内容。(在一般的系统中,都采纳这两种查找方式的结合。)停用词:(stop word),指文档中出现的连词,介词,冠词等并无太大意义的词。例如在英文中常用的停用词有the,a, it等;在中文中常见的有“是”,“的”,“地”等, 通常这些词被放在一个列表中,称为停用词表(stoplist)。索引词(keyword, 标引词,关键祠):可以用于指代文档内容的预选词语,一般为名词或名词词组.词根提取(stemming,用于英文内容处理):单、复数,人称,时态等形式装换为基本形式(原形) countries = country,interesting = interest组合词:(compound words): 由两个或两个以上的单词构成的词,也称为合成词,如:北京大学,建设银行等。中文切词:(word segmentation),或称分词,主要在中文信息处理中使用,即把一句话分成一个词的序列。如,“网络与分布式系统实验室”,分词为“网络/ 与/ 分布式/ 系统/ 实验室/”。切词的方法很多,大多都与语言学、统计学的方法密切相关。如句法分析法、语义分析法、词典法等。以上介绍了一些抽象的概念,下面我们给出一个Web检索实例:搜索引擎搜索引擎(Search Engine,SE),Web上的一种应用软件系统,它以一定的策略在Web上搜集和发现信息,对信息进行处理和组织后,为用户提供Web信息查询服务。搜索引擎三段式工作流程见图1.2,在下面的章节中我们将详细介绍这三部分的具体内容。搜集 处 理服务图1.2搜索引擎三段式工作流程六、实现方法信息检索不是一个新兴领域。它起源于20世纪40年代,也就是计算机诞生的同时。起初,IR集中应用于图书馆,也被称为“图书馆的自动控制”。 它包括外部属性和内部属性(内容)。DB:通过外部属性查找 IR: 通过内部属性(内容)进行检索IR系统的实现方法有两种:基于扫描的方法和基于索引的方法。1、 基于扫描的方法将用户问题看作一个字符链,包含这个字符链的文本就是相关文档。从这个想法出发,人们设计了扫描文本序列的方法,扫描同时与用户问题(字符链)进行比较,如果某一文档中包含了相同的字符链,则这个文档被当作用户问题的答案。显然,这个方法简单易与实现,但存在一些漏洞:- 速度:查找速度很慢。对每一个查询,都需要遍历文档库中的所有文档。通常情况下,文档库中包含成千上万甚至百万、千万的文档,因此,这种方法对于含有几百个文档的情况是可取的,但对于大容量的文档库是不可行的。- 用户问题的表示形式:将用户问题简单地表示为一个字符链,不能表达用户问题的真正需要,有很大的局限性。比如,查找与“数据库和人工智能在工业上的应用”相关联的文档。对于“人工智能和数据库在工业上的应用,人工智能在工业上的应用,数据库在工业上的应用,. . ”等情况不兼容。因此,这个方法只是用于非常小的系统中。目前存在的大多数系统是采用索引的方法。2、 基于索引的方法在这个方法中,要对文档和用户问题做些预处理,即将自然语言的文档转换为一些关键词的集合。例如,原句子:“数据库和人工智能在工业上的应用”预处理后:数据库、人工智能、工业、应用原句子:人工智能和数据库在工业上的应用预处理后:人工智能、数据库、工业、应用. .这个操作的目的是创建一个索引结构,利用这个索引结构来快速地找到包含关键词的文档。索引结构通常采用如下的形式(即倒置文件结构):词 . , 文档,.例如,人工智能 d1, d3, d5, d6,d7也就是,每个词和包含此词的文档之间的对应关系。在这种方法中,用户问题可以被表示为复杂的表达式,包括逻辑操作(与,或,非等)及其他类型的操作(权重)。查找过程是个复合的过程,就是说,首先,在用户问题中找到基本元素(比如,关键词),同时,获得与这些词相关的文档列表(多个)。然后,按照这些基本元素可以应用的操作,并结合相关的文档列表(多个)来获得最终所要的文档列表(一个)。例如, 用户问题:Q = w1=数据库, w2=人工智能, w3=工业, 且 Q= w1 AND w2 AND (NOT w3)文档列表:w1 d1, d2, d5, d7, d9w2 d1, d3, d5, d6, d7w3 d2, d5, d6应用操作:w1 AND w2 = d1, d5,d7w1 AND w2 AND (NOT w3) = d1,d7这个方法的优点是:- 速度快:事实上,不再需要顺序的遍历。通过索引结构,直接知道哪些文档包含相关的信息及相应的词。- 用户问题的表示形式是复杂的,可以表示复杂的信息。为之所付出的代价是存储索引结构所需要的额外的空间。这个空间的大小取决于索引结构的复杂性,一般来说,这个空间的大小是文档库的40%到200%。随着存储成本的降低和存储技术的提高,由空间问题所带来的负面影响越来越小了。图1.3 给出了基于索引方法所涉及到的一些信息检索的操作和环境。用户信息需要关联文档用户问题文档库问题表示文档表示系统关联性用户关联性对应性图1.3 基于索引的信息检索系统实现方法这种方法可划分为三个级别:- 用户级:用户信息需求的产生是信息检索与信息检索系统存在的基础,而满足用户的信息需求,则是建立检索系统的出发点,也是信息检索系统发挥效用的归宿。从理论上讲,用户的信息需求有潜在真实需求(Real Information Need, 简称RIN)、意识到或感知到的需求(Perception Information Need, 简称PIN)、表达出的需求(Request)等不同存在状态。在这个级别中,用户需要信息,他期望获得相关文档来满足他的需要。信息需要和期待的文档之间是关联关系(理想的,绝对的, . . )。- 系统级:在这个级别中,表达式化用户问题;系统回答用户问题,在它所拥有的文档库中查找相关文档,提供给用户一个相关文档列表。注意到,由用户表达式化的用户问题仅仅是部分地表达了用户所需要的信息。许多研究显示完全、准确地表达式化用户问题是很困难的,甚至是不可能的。从文档的角度来看,在这两个级别之间也有一些变化:可供选择的文档仅仅是被包含在文档库中的文档,有时无法找到和需要完全相关的文档,因为在已有的文档库中并不存在这样的文档。- 系统的内部表示级:用户问题(通常是自然语言)不能直接和自然语言的文档进行比较,因此,创建用户问题和文档的内部表示是必需的。这些表示必须是易于计算机处理的。创建这些表示的过程被称为建立索引。同时注意到,所建立的表示只是部分地反映了用户问题和文档的内容。现有的技术还不能达到建立完全的表示法。为了确定是否文档的表示和用户问题的表示相对应,必须开发一个评测过程。针对文档表示和用户问题表示的关系,各种评测方法被开发。我们将文档和用户问题的表示法和评测方法统称为信息检索(IR)模型。在各个级别间存在着不同。围绕对信息的需要,转换成了用户问题的形式,然后,在内部级转换成了最后的表示形式。从文档的角度来看,有类似的变化。每个级别内所确定的关系不再是类似的。人们期望好的IR系统能够提供对应的评估方式,通过它,可以较好地反映系统的关联性和较好地判断用户的关联性。因此,IR的另一个任务是在IR系统被建立后,如何去评估这个IR系统。评估系统应尽力搞清楚各个级别之间的差别,特别是第二级和第三级的不同。七、 评估系统如何评价信息检索系统的好与坏?信息检索评价具有不同的评价研究类型,例如,测重系统软件功能的功能测试(Functional Analysis);测定检索系统提供的服务或系统本身获得效益的效益评价(Benefits Evaluation),具体包括经济效益和社会效益两个主要方面;关注检索系统满足用户需求程度的性能评价(Performance Evaluation)。在各种评价研究中,检索性能评价是其中的重点和核心。IR系统的目标是查找和用户提问相关联的文档。系统性能的测量是通过将系统返回的答案和用户期待得到的理想答案的比较来完成的。系统返回的答案越多的对应用户的需要,系统就越好。1、 测试集(Test corpus or references)为了进行测试,首先,必须知道用户的理想答案。因此,系统的测试是离不开测试集的。一个测试集,应该包括:- 文档集- 询问集- 和每个问题相关联的文档列表测试集是重要的,它必须包括相对多的文档。第一个测试集是在 1970年开发的,包括几千个文档。最近的测试集(比如,TREC提供的一些)通常包括100,000个文档(被认为是中等规模的),大规模的包含上百万文档。比较全面的评估,至少需要包括几十个问题,并且覆盖各式各样的主题。然后,分析对所有问题系统所产生的答案。最后,需要为每个问题找到理想的答案。测试集必须提供这个信息。为了得到所有问题的关联文档列表,用户(或模拟用户的测试者)必须检查文档库中的每一个文档,并判断是否关联。在检查完后,就可以知道那些文档是和那个问题关联的。在测试集的建设中, 关联性的判断是最难的工作。2、 查准率(Precision)和查全率(Recall)对于某个问题,在比较系统的答案和理想的答案时, 我们要做两项测量:返回的文档都是相关的吗?所有相关的文档都被找到了吗?- 求精率:是指在系统所找到的文档中关联文档所占的比例。Precision = 检出的相关文献量 /检出的文献总量 = a/(a+c)- 求全率:是指系统所找到的关联文档在文档库中所有的关联文档中所占的比例。Recall= 检出的相关文献量/ 检索系统中的相关文献总量 = a/(a+b)相关文献不相关文献总计被检出文献aca+c未检出文献bdb+d总计a+bc+da+b+c+d表1-1 检索系统性能评价用2*2表理想情况下,我们希望系统能同时获得最好的求精率和求全率。系统获得100%的求精率和求全率是指找到的文档都是关联文档且找到了文档库中所有的关联文档。这就意味着系统的答案包含全部理想答案且仅包含理想答案。在实际中,这种情况很难达到。更多的时候,只能获得大约30%的求精率和求全率。 这两种测量不是独立的,它们之间有较强的关系:一个增加,另一个下降。对某个系统质量的测量紧紧关注其中的一项是不可取的。事实上,获得100%的求全率是容易的:对每个问题,只要把整个文档库作为答案即可。但是,在这种情况下,精度是很低的。同理,通过返回少量的文档作为答案可以增加精度,但会降低全度。因此,在实际评价一个系统时,要兼顾二者。精度-全度的测量不是静态的(比如,一个系统不能仅有精度和全度中的一个测量)。系统的性能可以在好的精度或好的全度(损害另一种测量)之间改变。因此,精度-全度之间存在如图1.4所示的曲线关系:图1.4精度-全度曲线3、 如何评价精度-全度对某个问题,系统的回答列表的长度是变化的。一个长的列表对应高的求全率,但低的求精率。短的列表会有相反的情况。列表的长度不是系统的内部参数,人们可以根据需要进行修改。但这种修改不能改变系统的全局行为和性能。因此,人们可以通过改变列表长度来估计精度-全度的各个点,从而,绘出系统的精度-全度曲线。评估过程如下:对i = 1, 2, 3, . . 来评估:系统回答列表中的前i个文档所对应的求精度和求全度。例如,假设某一问题在文档库中有5个关联文档,系统的回答列表如表1-1 所示。表1-1系统的回答列表,其中,(*)代表关联文档 (用户判断的)回答列表关联性文档1(*)文档2文档3(*)文档4(*)文档5. .开始,将文档1作为系统的回答,在这点上,找到了5个关联文档中的1个。因此,求全率是1/5=0.2 ,求精率是1/1=1.0,对应的曲线上的点是(0.2, 1.0)。将文档1, 文档2作为系统的回答,在这点上,具有相同的求全率,即1/5=0.2 ,求精率是1/2=0.5,对应的曲线上的点是(0.2, 0.5)。将文档1, 文档2,文档3作为系统的回答,在这点上,求全率是2/5=0.4 ,求精率是2/3=0.67,对应的曲线上的点是(0.4, 0.67)。这种处理继续,直到处理完了系统回答列表中的所有文档(可能会很长,直到文档库中的所有文档)。图1.3给出了前几个点所描绘的曲线。图1.3精度-全度曲线的绘制样例这个曲线并不代表通式,因为它只是对一个用户问题而言的。如果我们计算了问题集中的所有问题的平均值,这个曲线将是光滑的并近似通式。大多数情况下,对于每个问题曲线应用了插补处理方法。插补处理的目的是创建一个向下走向的曲线(类似通式)。处理方法如下:i, j 是全度曲线上的两个点,且i j。如果i点的精度小于 j点的,那么,将提高i点的精度到j点的精度。具体地说,如图1.4所示,将用一条水平线来代替凹的部分。 Precision | | | | | Recall 0.2 0.4 0.6 0.8 1.0 1.0 - * (0.2, 1.0) 0.8 - * (0.6, 0.75) * (0.4, 0.67) 0.6 - * (0.6, 0.6) * (0.2, 0.5) 0.4 - 0.2 - 0.0 图1.4 曲线的插补处理方法这样,我们获得了阶梯形的曲线。采用插补处理方法是因为曲线的凹部分不能真正地代表系统的性能。如果存在一点既有较高的全度又有较高的精度,通常能够提供较多的文档作为答案,使得系统的性能得到增加。因此,凹部分是可以取代的。显然,这个处理是有争议的。但这并不重要。重要的是要在一致的基础上进行系统比较。如果所有的系统都用一种插补处理曲线来测量,那么,插补处理方法并没有厚此薄彼。因此,插补处理曲线应用于系统比较是公正的。4、 系统比较如果人们想比较两个IR系统,应该采用相同的测试集(或多个测试集)。如果一个系统的曲线超过(在右端的上边)另一个,则认为这个系统是比较好的。有时,两个系统是交叉的,很难判断哪个更好些。为了解决这个问题,我们采用了平均精度作为性能的测量。平均精度是全度曲线上的点对应的精度值的平均值。平均查全率(Average Recall)和平均查准率(Average Precision)的具体计算方法有3点平均值计算和10点、11点平均值计算三种方式。其中3点平均值的计算方法是:选择查准率值分别为(0.25,0.50,0.75)或(0.2,0.5,0.8)时,对这三点上的查全率值求平均;或者, 选择查全率值分别为(0.25,0.50,0.75)或(0.2,0.5,0.8)时,对这三点上的查准率值求平均。10点平均值的计算方法是10个点的平均值(0.1, 0.2, ., 1.0), 11点平均值的计算方法则是11个点的平均值(0.0, 0.1, 0.2, ., 1.0)。 11点的平均查准率仅用在插补处理方法中。著名的TREC评价试验就采用了11点平均值的指标计算方法。平均精度较好地描述了系统的性能。它是IR中经常使用的方法。在对改进系统进行测试时,为了比较新旧两个系统或两个方法,经常使用相对改善的方法,具体的计算公式如下:在方法1基础上的方法2的改善 = (方法2的性能 方法1的性能)/方法1的性能调和数F(the Harmonic Mean F)的计算公式为:F = 2/(1/R+1/P)由上式计算出来的值,其取值区间一般为0,1。E测度指标(the E Measure)的计算公式为:E = 1-(1+b*b)/(b*b/R+1/P)其中,b为参数,用以反映或调整R和P的相对重要性。注意:当b=1时,E = 1- F当b1时,意味着P的重要性大于R。当b1时, 意味着R的重要性大于P。根据具体需要进行测量:在n 个文档处的求精率, 常用于 Web IR(性能-价格比)期待的检索长度, 在获得n个相关文档时所需检索的不相关文档数 (代价) 非相关检出率非相关检出率(Fallout,简称F),主要用来衡量检索系统对不相关文献的检出比率,其计算方法为:Fallout = 检出的不相关文献/检索系统中的不相关文献总量=c/(c+d)实用的系统评测方法:n MRR (Mean Reciprocal Rank):第一个正确答案出现位置的倒数平均值, 其中,N代表测试集中的问题数;表示第i 个问题的正确答案的排序。如果正确答案不包含在答案列表中,它的排序为无限大, 取值为零。例子:两个系统测量结果比较(MRR)系统I结果:问题正确答案1正确答案2正确答案3正确答案412581021333414595236系统II结果:问题正确答案1正确答案2正确答案3正确答案41348922431414565367MRR:系统I:w1=1/5(1/2+1/1+1/3+1/1+1/2)=1/5(3+1/3)=0.66667系统II:w2=1/5(1/3+1/2+1/1+1/1+1/3)=1/5(3+1/6)=0.63333n MAP(Mean Average Precision): n rij = 询问Qi 的第j个相关文档的排序n |Ri| =询问Qi 的相关文档数n n = 测试集中询问的个数 Q1 Q2n E.g. Rank: 141st rel. doc. 582nd rel. doc. 103rd rel. doc.假设Q1 的相关文档数为3, Q2的相关文档数为4,则MAP计算如下:例子n Bpref (Binary preference) : n Pooling具体方法是:针对某一检索问题,所有参与其检索试验的系统分别给出各自检索结果中的前k个文档(例如k=100),将这些结果文档汇集起来,得到一个可能相关的文档“池”(pooling)。然后,由检索评价专家 进行人工判断,最终评判出每一文档的相关性。八、信息检索评价试验平台1、TREC TREC是文本检索会议(Text Retrieval Conference)的简称,1992年由美国国家标准与技术局(the National Institute of Standards and Technology, 简称NIST)和国防部高级研究项目计划局(the Defense Advanced Research Projects Agency, 简称DARPA)共同发起并主办。TREC并不是一个真正意义上的学术性会议,而是一项致力于对文本信息检索技术进行大规模评价研究的试验活动。TREC的参与者,必须拥有自己研究、开发的检索系统,而且必须提交检索系统的实验数据以参加检索试验和评价。所以,有学者形象地TREC为选拔优秀检索系统的“奥林匹克”。可以说,TREC的出现,开创了检索评价研究的一个新的里程碑。2、 TREC组织形式a) 每年一次;b) 12月份, 欲参加者提出申请(必须有自己设计、开发的系统,3月份评审者确定参加者名单并发送密码给参加者;c) 4月份,主办者向参加者发送标准实验文档和用户提问;随后参加者进行系统的调试,在8月份左右,将实验数据返回给主办方。d)910月份,职业的信息分析员进行定量分析和评价,排出名次,并反馈给参加者。e) 11月份,TREC大会上交流,或私下交流
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 宁都钢质防火窗施工方案
- 架空建筑垃圾分类方案设计
- 中式建筑排版配色方案设计
- 在全县干部大会的主持词
- 地下室顶板渗漏处理方案
- 双层宴席厅建筑方案设计
- 2025年经济师初级考试 经济基础知识核心考点模拟试卷
- 贵州省茶产业发展现状研究
- 其他收入分享协议的注意事项
- 2025年北京市纪委市监委所属事业单位招聘8人笔试备考题库参考答案详解
- 2025-2030中国成品润滑剂行业市场发展趋势与前景展望战略研究报告
- 《城乡规划管理与法规系列讲座课件-土地利用与建设规范》
- 保密警示教育典型泄密案例教育学习
- GB/T 45451.1-2025包装塑料桶第1部分:公称容量为113.6 L至220 L的可拆盖(开口)桶
- 道路货物运输经营申请表
- 大件运输安全生产管理制度文本
- 项目人员考核管理制度
- 生病学生上学协议书
- 社区用房使用协议书
- 小学一年级上册体育全册教案
- 电焊工理论知识培训课件
评论
0/150
提交评论