已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
相关文献功能分析 “相关性”(Relevance)是信息检索理论、乃至情报学研究中的核心概念,马费成1则将相关性原理归为情报学的6个基本原理之一。国内已有为数不多的关于相关性研究的论文,但大都是对国外研究成果的介绍和讨论,或在理论层面对已有模型进行改进,很少涉及实证性研究。本文着眼于相关性理论在信息检索系统中的一种具体实现形式相关文献(Related Articles)功能,结合国内外检索系统各自的特点,尝试从多个角度对其进行分析。1基本概念相关性理论研究始于上世纪50年代,尽管到目前为止还没有形成一个明确统一的定义,但一般都将其分为系统相关和用户相关两个层次。用户相关旨在探讨检出文档如何满足最终用户的实际需求,是近年来研究的主要趋势。但用户的相关性判定是一个复杂、模糊且十分主观的问题,不仅因人而异,受到用户的认知结构、心理、动机及所处的情景等多方面因素的影响,即使是同一个人在不同时间对同一组实体的相关判定也可能不同。Mizzaro2是相关性研究的集大成者,他提出一个包含信息资源、用户信息需求、时间和构件的四维相关性概念模型,对以往研究做了很好的总结。但正如王家钺3所认为的,虽然将相关性的各个方面分析得淋漓尽致,也将相关性置于无法准确测度的境地。系统相关不考虑用户的主观需求,属于以系统为出发点的客观概念。一般所说的系统相关是指查询和文档之间的相关,即信息检索系统针对用户查询所检出的文档与查询之间的一种匹配关系3。目前广泛使用的大型数据库检索系统对这种相关的支持效果不太理想,如基于布尔模型的检索系统一般以时间顺序输出文献,不能按照相关度进行排序,故与用户查询最相关的文献并不一定排在最前面。国内通常可以按照查询词在文档不同位置出现的不同次数而实现简单的相关排序功能。为了弥补这种不足,随之出现了文档和文档之间的相关,它可以视为查询和文档相关的一种特例,即它的查询不是通常的由查询词构造的检索表达式,而是一篇文档。这种文档相关在检索系统中的具体实现形式就是本文要尝试探讨的“相关文献(Related Articles)”功能。相关层次示意图见图1。 用户相关 语义和语用相关相关 文档和文档的相关 系统相关 形式相关 查询和文档的相关图1 “相关”层次示意图2相关文献功能的分类及实现机制从文献计量学角度来理解,文献之间的相关可以分为两种基本类型:一是外部特征相关,即文献在著者、研究机构、出处以及参考文献等外部特征上的相关;二是内容特征相关,即文献之间在内容上的关联程度,通过体现文献内容的特征项(作者关键词、文本关键词、主题词)或者分类号反映出来。按照内容相关字段来源的不同,内容特征相关又可以分为简单内容相关和完全内容相关,前者是只基于作者关键词或主题词或分类号的相关,后者则是综合考虑了多种内容特征项的相关。基于外部特征和简单内容特征的相关文献功能,一般都是提取源文献相应的检索字段,再到数据库中重新进行的二次检索。例如,EMBASE.com的“Related Articles”是将当前文献的主要医学主题词和药物主题词进行组合,重新进行了一次“OR”检索;Web of Science的“Related Records”输出的是当前文献的所有耦合文献;万方的“相似文献”是取当前文献作者关键词中的前两个重新进行检索;维普的“主题相关”返回的是与当前文献有相同中图分类号的所有文献。上述相关文献检索的过程都是实时的,由于不需要预先进行处理,系统实现比较容易。基于完全内容特征的相关文献功能由于涉及的特征项较多,一般通过文本相似计算的方法来实现,这种相关功能的典型代表是PubMed的“Related Articles”功能。PubMed进行文本相似计算涉及的特征项包括Mesh词和从标题、摘要中抽取的文本关键词,对于每个特征项,不仅考虑其在一篇文献内部出现的次数,还考虑其在整个数据库中的文献频率,最后通过向量点积公式获得两两文献间的相似度值。一旦一篇文献与数据库中其他文献彼此间的相似度都被计算出来,就可以按相似度值倒序输出该文献的相关文献。由于计算过程非常复杂且耗时,因此这种相关功能的实现需要经过预先处理,在建立文献相关性数据库(Related Articles Database, RAD)的基础上提供相关文献检索服务。3相关文献功能的作用3.1 揭示文献间的纵向和横向联系 相关文献功能基于外部或内容特征揭示出一篇文献的相关文献,而这些相关文献又各自有自己的相关文献,由此形成一个纵横交错的相关文献网络。在科技文献日趋分散的今天,这种文献网络可以在一定程度上对相关文献进行集中,甚至有利于知识发现。3.2 完善文献检索系统的功能作为对已有检索系统功能的完善和补充,相关文献检索功能通过特定的实现机制,可以揭示出更多文献,扩大了检索范围,有利于提高查全率。3.3 简化文献检索过程 专业数据库检索系统一般都要求检索者具有一定的检索知识和技能,这就增加了检索技能较低的一般用户获取信息的难度。相关文献检索功能在一定程度上可以简化用户对系统的操作,无论用户通过何种途径发现了一篇他所需要的文献,只需点击相关文献链接即可找到更多的相关文献,而不是反复的修改检索词和调整检索策略。无论是基于外部特征还是内容特征,各种相关文献功能都从特定角度、在一定层次上对文献间的相关关系进行了揭示,对满足用户需求都具有一定的积极作用。因此,不能简单的认为哪种类型的相关功能更好,但是从知识服务的角度来衡量,我们认为以PubMed“Related Articles”为代表的完全内容相关文献功能是当前发展的趋势。以下如无特殊说明,均默认是针对完全内容相关的论述。4相关文献与相关反馈 相关反馈(Relevance Feedback)是最常见的查询扩展方法,它的基本原理是由用户对检出的文档进行相关性判定,系统通过对判定结果的分析,调整查询策略,生成新的查询表达式再进行二次检索。相关反馈可以有效提高查询的精度和效率,对满足用户的信息需求有重要意义,但是由于过分依赖用户,一方面加重了用户的负担,同时如果用户的反馈有误也会大大降低系统性能。在相关反馈基础上发展而来的伪相关反馈(Pseudo Relevance Feedback)技术是近年来较流行的查询扩展方法,它不需要用户参与,而是假定初次查询返回的前N篇文档都是相关文档,然后在此基础上构建新的查询串并进行二次检索。伪相关反馈摆脱了对用户的依赖,缺点是系统性能易受初次检索效果的影响,如果初次检索效果不好,则二次检索效果会更差。相关文献检索也是发生在初次检索之后,如果用户认为初次检索返回的某篇文献是相关文献,他就可以通过相关文献链接检索到和该文献相关的更多文献,如此反复。由于相关文献检索可以看成是以文档为查询的特殊检索过程,因此用户反复点击系统提供的相关文献链接的过程就类似于通过系统的不断反馈优化查询的过程,所以相关文献检索可以视为是相关反馈的一种具体形式。同时,因为相关文献检索的机制是系统相关,用户只是选择执行与否,而检索结果却不受用户影响,从这一方面来说,相关文献检索和伪相关反馈似乎更近似。考虑到只有在用户认为一篇文章确实相关的情况下才会点击相应的相关文献链接,因此不存在伪相关反馈易受初次检索结果影响的缺点。但是,相关文献检索并不依赖于用户最初的查询,由此导致的质疑我们将在第9节详细讨论。尽管从集群假说(Cluster Hypothesis)和信息搜寻理论(Information Foraging Theory)中都可以为相关文献找到相应理论上的支持5,国外学者一般也将相关文献归为相关反馈的一种应用形式,并且是已经被证实的,可以显著提高检索性能、改善检索结果的反馈形式6,7。5相关文献与知识发现国内一般称Swanson8-9的知识发现方法为基于非相关文献的知识发现,其中“非相关文献”主要是指不存在任何引证关系的文献,即互不引用、没有同被引也不共引其他文献的文献。这与本文探讨的“相关文献”并不是互补的两个概念。Swanson后来并不强调所分析的文献是否非相关,在其理论指导下建立的Arrowsmith知识发现系统可以分析Medline中的任何文献。张树良10则将基于非相关文献知识发现的Swanson理论、基于相关文献知识发现的共词与共引理论和基于全文献的文本挖掘理论都纳入在“基于文献的知识发现”体系内。相关文献检索的机制和上述的知识发现原理都不同,之所以认为相关文献和知识发现有一定的联系,是因为我们相信相关文献可以为知识发现提供一个很好的资源平台。完全内容相关文献一般都是通过文本相似计算获得,其本质就是基于一个或多个特征项在两篇文献中的“共现”,如果两篇文献不存在重合的特征项,则它们一定不是内容相关文献。相关文献使这样一个假设成为可能:即包含AB两个特征项的文献D1通过B与包含BC两个特征项的文献D2成为相关文献被揭示出来,这就可能会启发用户把AC联系起来,进而探讨它们可能存在的某种潜在关系。这个过程类似于开放式的知识发现过程,但它不像Arrowsmith那样直接输出可能有联系的概念对,而是以文献对的形式展示。由于面向的是整个数据库中的所有文献,不同主题、甚至不同学科的两篇文章会因为使用了相同的技术或方法而成为相关文献被揭示出来,这些都可能会给用户以提示或启发。我们并不能说相关文献是一种知识发现的工具,但它能以区别于传统信息输出的方式揭示文献,促进知识发现。正如Google学术搜索对其“相关文章”作用的说明:“即使是专家,有时也会对所找到的自己专业领域的相关著作感到惊讶”11。6相关文献的效用分析国内尚没有出现真正意义上的文献相关性数据库系统,国外也只有PubMed的“Related Articles”最成熟,因此这里引用PubMed的日志分析数据来说明相关文献的效用。根据2007年对PubMed用户使用日志进行的一次分析12,13,大约1/5的有效用户会话中都包含了至少对“Related Articles”的一次点击,同时大约5%的页面浏览量是通过点击“Related Articles”而产生的;而用户在点击一个“Related Articles”后,再点击另外一个“Related Articles”的可能性高于40%,并且随着会话时间的延长,用户更倾向于追踪相关文献链接,而不是直接进行检索。这些数据都表明相关文献检索是PubMed非常有用的特性功能,已经成为用户使用PubMed的重要方式。除了能满足用户单纯的文献信息需求外,相关文献还有其他潜在的应用价值。例如,已有利用PubMed“Related Articles”来更新文献目录数据的研究14,而在科研查新中,更可以利用相关文献检索来迅速准确的获取密切相关文献15。另外,基于相关文献还可以进行分类、聚类等深层次的文本挖掘研究。7PubMed相关文献算法的演变及启示第2节已经提到,以PubMed“Related Articles”为代表的完全内容相关文献通过文本相似计算来实现。本节将着重探讨其具体算法的演变及启示。7.1 PubMed优化前的相关文献算法 PubMed在1997年最初提供相关文献检索服务时,其文本相似计算方法是基于向量空间模型(Vector Space Model, VSM)的夹角余弦公式16。每篇文章都表示成由数个特征项及相应权值构成的一个向量,特征项包括Mesh词和从题名、摘要中抽取的文本关键词,其中每个特征项都有一个局域权值(Local Weight)和一个广域权值(Global Weight)。局域权值用来衡量特征项在一篇文献内部的重要性,并进行了标准化处理,具体见公式1。广域权值即通常所说的逆文献频率(Inverse Document Frequency,IDF),见公式2。最终用于计算两篇文献间相似度的余弦公式见公式3。(1)式中,lwit为特征项t在文献Di中的局域权值,mi代表文献Di中特征项的个数,mit代表特征项t在Di中出现的次数。(2)式中,gwt 表示特征项t的广域权值,N为数据库中的文献总数,nt为特征项t的文献频率,即数据库中包含特征项t的文献数。(3)式中,Di和Dj代表数据库中的任两篇文献,lwik代表文献Di中第k个特征项的局域权值,lwjk代表文献Dj中第k个特征项的局域权值,gwk代表文献Di或文献Dj中第k个特征项的广域权值,s代表文献Di和文献Dj共有特征项的个数,m代表文献Dj中特征项的个数,n代表文献Dj中特征项的个数。7.2 优化后的算法17在测试比较的基础上,PubMed于2006年前后对“Related Articles”的算法进行了改进:在特征项局域权值计算公式中引入泊松分布(见公式4),并将相似计算的夹角余弦公式替换为向量点积公式(见公式5)。其中引入泊松分布主要基于以下认识:一个词在一篇文献中出现的次数越多,它对于表达文献内容来说就越重要,但是随着出现频率的持续增加,这种重要性的增长会越来越慢,最后达到一个极限值;并且,一个词相对于一篇文献的重要程度,不仅和词频有关,也和文献的长度有关,需要针对文献长度进行修正。(4)式中,lwit为特征项t在文献Di中的局域权值,和分别为泊松分布参数,l代表文献长度,k代表特征项在文献中出现的次数。(5)式中各字符含义均同式3。7.3 PubMed相关文献算法的启示(1)混合数学模型:通过引入泊松分布,可以更合理地评估特征项相对于文献的重要程度。相关文献的数学模型由单纯的VSM转变为VSM和概率检索模型组成的混合模型。(2)注重实用:文本预处理只包括禁用词剔除和数量有限的词干提取(Stemming)处理,尽管有Mesh主题词表和UMLS(Unified Medical Language System)等丰富的词表资源,却没有利用这些词典进行“关键词概念”的归并,进行语义层次的相似计算。而是假定表示文献的每个特征项都是彼此独立的,作为特征项的Mesh词也都被当作文本词或短语来对待。所有这些都是为了便于计算,提高实用性。(3)不注重查全率:在对泊松分布的两个参数和的值进行估计时,所有结果的比较分析均用同一个指标P5来衡量,即系统输出结果中前5篇文献的准确率。可见PubMed并不追求为用户提供尽可能多的相关文献,而是强调输出结果中最前面几篇文献的准确程度,致力于为用户提供最相关的数篇文献。8 国内文献相关性数据库建设研究8.1 已有研究成果为了能在中国生物医学文献数据库(CBM)系统中实现类似PubMed“Related Articles”的功能,中国医学科学院医学信息研究所对建立医学文献相关性数据库进行了深入细致的理论探讨和应用研究18-22。从最初推导PubMed相关文献的算法和具体实现过程开始,经历了PubMed算法在中文文献中的移植、时间复杂度的优化和词表建设等几个阶段,最终成功构建了实验性的中国生物医学工程文献相关性数据库检索系统,结果具有较高的准确度。其中,对于中文文献处理字段的选择、分词以及特征项权重赋值等一系列问题都有了很好的解决方案,并提出“分类SIM法”提高了数据处理速度。 中国医科大学的邱宇红23探讨了基于VSM的医学文献相似度计算方法,并讨论了其在医学文献检索中的应用。但是她所处理的是Medline数据库中的西文文献,并且特征项抽取仅仅考虑了主题词,没有涉及关键词、题名和摘要文本,同时特征项权重赋值的方案也相对比较简单。8.2 需要解决的两个主要问题8.2.1 中文分词问题 完全内容相关要考虑尽可能多的内容特征项,除了将主题词和关键词直接作为特征项外,还要从题名、摘要甚至全文文本中抽取特征项,这在中文环境中就是分词问题。可以说分词是决定最后相关文献揭示效果的关键环节。基于词典的分词方法操作简单、实用性强,但分词效果在很大程度上取决于所用词典的完备程度,因此需要不断地投入大量人力和时间对词典进行动态维护,在当前信息量呈爆炸增长的情况下可行性较差。就医学领域来说,国内尚没有一部完整、权威的中文专业词典,而在中国生物医学工程文献相关性数据库建设过程中用到的系列词表都是由医科院信息所自己开发,尽管具有较强的专业性和实用性,但毕竟未形成标准,缺乏足够的公认度。无词典分词由于可以规避词典建设的困难,成为当前自动分词研究的主要方向。余希田24采用后缀树算法,首次在不基于词典的情况下进行了构建医学文献相关性数据库的尝试,结果表明,尽管后缀树算法有预处理时间短、方便数据库更新等优点,但也存在诸多不足,其中最大的一个问题就是文本相似计算耗时太长,严重影响了其在实际系统应用的可行性。8.2.2 计算时间问题相关文献研究的落脚点是要建立文献相关性数据库提供实际的检索服务,因此除了在理论层面对相关算法进行探讨外,还要解决实际构建过程中的其他问题。上述医科院信息所已经成功构建了实验性的文献相关性数据库,说明中文相关文献算法已经成熟,之所以没有付诸实践,在CBM系统中应用,最大的一个障碍就是时间复杂度问题。文本相似计算是一个十分复杂的处理过程,随着数据量的增加,消耗时间过长的问题会越来越突出。大型文献数据库都有海量数据,且更新周期越来越短。一批新文献的加入,会导致数据库中原有文献的相关文献的数量和排序都可能改变,因此最理想的情况是每次数据更新后,都要对所有文献重新进行相似计算。这些都为相关文献计算的速度提出了更高要求。王润强20虽然提出了“分类SIM法”,将运算速度提高了5倍,但“分类SIM法”需要预先构建一个分类体系,这又是一个繁琐的过程。同时,相对于CBM目前500多万的数据量和每月更新的机制而言,“分类SIM法”的运算速度仍需进一步提高。可见,时间复杂度问题是影响文献相关性数据库投入实际应用的关键问题。9对相关文献功能的质疑 除了上述的诸多作用和潜在应用价值外,相关文献功能也经受了一定的质疑。文献25就认为,由于相关文献检索能返回大量的相关文献,相关文献本身又有许多相关文献,其中有些可能和原文献只是稍微相关,这会使用户产生混淆,干扰其对关键文献的关注。文献13通过对PubMed用户行为的分析,发现在检索效果较差或者返回结果很少的前提下,“Related Articles”会是很好的补充,但如果在初次检索效果很好、准确率很高的情况下,过早地进行相关文献检索则是有害无益的。也正是认识到这些问题,PubMed优化后的“Related Articles”默认只显示最相关的前5篇文献,这也与前面所分析的,其参数估计以P5为指标、不注重查全率的结论相一致。另一个问题在第4节已经提到,相关文献检索并不依赖于用户最初的查询。一篇文献可以包含多个内容特征项,它可以被各种不同的用户以完全不同的查询方式而获得,但在所有这些情况下,该文献的相关文献却是完全相同的,并没有考虑用户最初所感兴趣的内容26。这种由本身的实现机制所决定的情况,涉及到如何定位相关文献检索这一服务形式的问题。正如我们对相关文献作用的分析,它只是对现有检索系统在揭示文献功能上的一种完善和补充,尤其是在初始检索效果不理想的情况下的一种补偿机制,而不能取代常规的检索方式。10讨论和结语当前文献数据库检索系统还不能充分满足用户的信息需求,即使提供了高级检索功能,也只是为具有专业检索技能的熟练用户设计的,不适合一般用户使用。相关文献检索以区别于传统的信息揭示方式,可以方便用户更有效地获取数据库信息。更进一步来说,用户通过不断的浏览相关文献,会对自己的提问有更深入的认识,而系统针对这种认识变化所提供的相关文献也会改变。因此,这种信息检索的动态变化会引起相关性判断的改变,系统由“被动”提供信息变为“主动”揭示信息,更有助于提高信息的可获取性和利用的完备性。国外的PubMed相关文献检索已经非常成熟,并在实际提供服务的过程中获得巨大成功,吸引了越来越多用户和研究者的目光。已有在“Related Articles”基础上进行的更深入研究,例如将描述网页链接关系的PageRank或Hits算法应用在PubMed相关文献所形成的网络中,来进一步优化排序27。但如果将PageRank或Hits算法应用在由文献相互引用所形成的网络中,同时结合基于内容特征的文本相似计算,则揭示的相关文献会更趋合理。当前还没有出现同时综合考虑外部特征和内容特征的相关文献功能,这或许会成为未来发展的一个方向。1 马费成论情报学的基本原理及理论体系构建J情报学报,2007,(1):3-l323 王家钺信息检索中“相关性”概念的研究J现代外语,2001,24(2):181-1915. Navigating information spaces A case study of related article sear
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年舟山辅警协警招聘考试备考题库含答案详解(满分必刷)
- 2025年青岛辅警协警招聘考试备考题库含答案详解(培优)
- 2025年养羊销售合同范本
- 2025吨食品包装袋订购合同
- 2025年鄂尔多斯辅警招聘考试真题附答案详解(综合卷)
- 2025年西安辅警协警招聘考试备考题库含答案详解(新)
- 2025年铜仁辅警招聘考试题库及一套参考答案详解
- 2025年锡林郭勒盟辅警招聘考试真题及答案详解一套
- 2025年鄂尔多斯辅警协警招聘考试备考题库附答案详解(精练)
- 2025年石家庄辅警协警招聘考试真题含答案详解(考试直接用)
- 中小学实验教学基本目录(2023 年版)
- 2025年养老护理员中级理论知识考试题库及答案(共400题)
- 转体桥的施工方案
- 2025重庆双福农产品批发市场有限公司招聘综合办公室文员、冻库管理员、招商员等岗位22人备考参考试题及答案解析
- 2025年下半年扬州大数据集团公开招聘30人备考参考试题及答案解析
- 2025年6月高校英语应用能力A级真题及答案解析
- 重疾险医学知识培训课件
- 广西贵百河联考2025-2026学年高一上学期10月月考语文试卷
- (正式版)DB65∕T 4935-2025 《医疗机构即时检验质量管理规程》
- 兄弟套结机KE-430F中文使用说明书
- 能源产业政策调整评估分析报告
评论
0/150
提交评论