搜索引擎中关键词的自动标引_第1页
搜索引擎中关键词的自动标引_第2页
搜索引擎中关键词的自动标引_第3页
搜索引擎中关键词的自动标引_第4页
搜索引擎中关键词的自动标引_第5页
已阅读5页,还剩1页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

搜索引擎中关键词的自动标引

又称自由词,属于自然环境范畴。关键词是反映文献主题概念,具有实际检索意义,主要从文献中直接选取,未经规范,用以标引和检索文献信息的词语。目前基于关键词的检索方法是几乎所有搜索引擎都采用的方法,因而成为网络检索的主要方法之一,其它的还有诸如以主题网关为代表的以元数据为基础的检索和深层网络资源(Deep-Web)检索等。虽然在情报检索早期,关键词语言因其在手工环境下难以控制它的词汇而备受冷落,但随着计算机的广泛应用尤其是网络的迅速发展,知识更新速度的加快和数字化信息的海量化增加,关键词语言再度受到人们的重视,成为搜索引擎的必备检索方法之一。1基于网络信息资源研究使用关键字语言的原因1.1适用于网络使用的关键词关键词是自然语言,不需要人工标引,因而搜索引擎软件可采用自动跟踪标引软件,如“机器人”[Robot]、“蜘蛛”(Spider)、“爬行者”(Webcrawler)、“漫游者”(Webwanderer)、“蛹虫”[Worm]等,自动从网页中收集关键词,并建立索引数据库,提供关键词检索,节省了编制维护和标引作业的成本。面对这迅速膨胀的网络信息资源,要想完全用人工标引方式是不可能的,自动标引方式适应网络的发展,且建库速度快、效率高、成本低。因此,这种方式受到搜索引擎的青睐,并迅速为几乎所有搜索引擎采用。1.2息检索使用时在情报检索中,文献保障原则指选词应有文献为依据,用户保障原则指拟选择的词在学术交流和信息检索中是否被人们经常使用。由于关键词直接来自网页和文献资源本身,专指度高,用户可任意检索,不受词表的控制,也不必对用户进行培训,就可较自由地表达主题概念和信息需求。检索方便、简单,而且对各学科的专业用户而言,使用他们自己本学科领域的自然语言检索更加简便易行。1.3跟踪信息技术发展新水平由于搜索引擎采用自动跟踪和标引软件,可以跟踪科学技术发展最新水平,及时增、删、改新词,时效性好,数据库更新速度快,某些搜索引擎几乎是随时更新。1.4检索较高的情况关键词语言是完全专指的,它可以使用网站、网页的题名、摘要、全文中出现的任何一个有实际意义的词进行检索,甚至可以指定检索的词在某一段落或某一句子中出现,因而对那些确知名称的信息进行检索时,有可能达到较高的检准率。2关键词语言限制了网络搜索的发展2.1检查结果的差异在关键词之间存在着大量的同义现象、近义现象、一词多义和同形异义现象,而搜索引擎极少进行规范化处理,致使文献和检索提问中隐含的概念或需求往往难以表达出来,漏检率较高,甚至有时影响到检准率。特别是用单个关键词进行检索时,会检出一大堆无用的信息,有时达到无法容忍的地步。2.2词汇量偏由于关键词选词没有限制,造成词库词量偏大且杂乱,反而会分散主题,影响查准率。搜索引擎对用户的最大困扰就是总能检索出一大堆无用的信息!2.3用户资源丰富,质量参差不齐搜索引擎对自动采集标引的网页不做筛选和处理,用户检出的资源丰富但质量参差不齐,甚至带来“信息垃圾”,需要用户花大量的时间和精力去判别、选择自己所需的信息,因而加大了用户的负担。2.4标引结果不一致人们普遍认为,采用自动标引可以排除人工标引时由于人与人之间认识上的差异和同一个人在不同时间认识上的差异而造成的标引不一致,只要保持同样标引软件和抽词词典,则标引结果是不会有差异的。事实并非如此。设想一下,如果不同的著者对同一内容或同一主题的文献采用了不同的表达方法,则标引结果就不会一致。这种情况是大量存在的,因而仅仅靠自动标引本身是无法消除标引不一致的问题的。3数据库检索较简单,检索率高就搜索引擎的理论和方法而言,依据的主要是情报检索和数据库系统的理论和方法。因此,搜索引擎的研究引起了情报检索专家的重视。在计算机、情报以及其它相关领域专家的协同努力下,搜索引擎的检索功能在不断地发展完善中。关键词检索是搜索引擎基本的检索方法之一。但是采用简单的关键词检索方法容易造成检索结果过多,检全率和检准率都无法满足用户的需求。因此越来越多的搜索引擎都采用了强化关键词检索的措施,以提高关键词检索的效率。3.1两种“数据库”和“管理”的检索方式利用布尔逻辑算符进行检索词的逻辑组配是情报检索系统和搜索引擎最常使用的一种方法。常用的布尔逻辑算符有“AND”(*)、“OR”(+)、“NOT”(-)三种,如输入“数据库AND管理”,检索结果同时包括“数据库”和“管理”两个词;输入“数据库OR管理”,检索结果中至少包括其中的一个词;输入“数据库NOT管理”,检索出的结果中包括“数据库”但是却不含有“管理”一词。因此,正确使用布尔逻辑算符既可以提高检准率(AND、NOT),又可以提高检全率(OR)。应当注意的是,检全率和检准率两者之间具有互逆的关系,不可能在提高检准率的同时提高检全率。3.2防止漏检的有效措施截词检索也是一种常用的检索技术,尤其是在西文检索工具中更是广泛使用。西方语言的构词灵活,在词干上加上不同性质的前缀和后缀,就可以派生出很多新的词汇。这些词之间的基本含义是一致的,如果不采取措施在检索式中列出一个词的所有派生形式,就容易出现漏检。截词检索就是防止漏检的有力措施,因此大部分搜索引擎都具有截词检索的能力。截词检索指的是用截断的词的一部分进行检索,并认为凡是满足词的这部分的所有字符串的记录均为检索命中的记录。截词检索有右截词(后端截词、前方一致)、左截词(前端截词、后方一致)、中间截词(前后方一致)和左右截词(中间一致)。但在搜索引擎中最常见的是右截词方法。使用截词检索可以提高检全率,因为截词检索具有字面成族的作用。3.3在“管理”字上筛选即要求检索词之间的位置满足某些条件,从而增强选词的灵活性,部分地解决布尔逻辑解决不了的词间关系问题,提高检索水平和筛选能力。如输入“数据库ADJ管理”,表示“数据库”在“管理”之后紧接着出现;输入“数据库NEAR/n管理”,表示“数据库”在“管理”附近n个词范围内出现;输入“数据库W/n管理”,表示“管理”出现在“数据库”之后n个词范围内,因此采取词位置检索可以提高检准率。3.4检索词的限定在搜索引擎中采用了一些缩小或约束检索结果的方法,称之为限定检索。限定检索的方式有很多,如采用字段检索来限定检索词在数据库记录中出现的字段范围,可以是网站、网页或网页的层次、标题、内文、URL等,还可以限定日期、语言、类型、范围、收费情况及是否是专家推荐等,一般而言,在搜索引擎中限定检索是以高级检索的形式出现的。通过该方式可以过滤一些不必要的信息资源,提高检准率,节省用户的时间和精力。3.5加权检索结果加权检索是对检索词之间的组配关系从量上加以限制和表示的一种方法,它也是对布尔逻辑的改进。布尔检索不能列出每个检索结果的重要性等级,而加权检索通过判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度,根据权值的大小,即相关度的高低,依序输出检索结果。在实际使用中,并不是所有的搜索引擎都提供有加权检索功能,并且即使提供有加权检索,其加权方式、权值计算和检索结果的判定技术方法都是不一样的。3.6用对比促进检索在搜索引擎中,专家们还采取了其它的许多方法,旨在从不同的途径提高关键词检索的效率。如将组成词组或短语的若干词加双引号作为一个关键词进行检索的词组检索和短语检索,用自然语言语句表达检索要求的自然语言语句检索,以及在检索结果内的二次检索等方式。但是我们也应该看到,关键词语言本身所具有的优点,也恰好是它的缺点。尽管单纯的关键词检索简单易学易用,但是在采用了多种加强措施后,用户的负担变得越来越重,某些搜索引擎中的高级检索甚至变得比分类浏览还要复杂,关键词检索易用性的优点也在逐步丧失。如何在保障用户易用性的前提下,对关键词语言进行充分的分析、研究和改进,使之更适于网络检索的发展是首要的问题。4情报检索过程是环境而非语言的展趋势从检索语言本身的发展前景看,无论如何,自然语言都代表着网络信息时代检索语言的发展方向。但是自然语言并不能完全取代人工语言,未来的发展趋势是人工语言和自然语言从互相结合到完全融合的过程。即专家们所预测的,是人工语言的自然语言化和自然语言的人工化。关键词语言是自然语言,从情报检索过程绝对不能没有控制这个基本原理看,在关键词语言中引入情报检索的控制原理是关键词语言的发展方向。目前,急需我们解决的问题是如何将控制原理应用到关键词语言;如何改善关键词检索难以反映词间相关关系的问题;如何利用最新的信息检索技术改善基于关键词的网络检索效率。4.1开展有效的界定标引方式将人工标引与自动标引结合是前控制的方法之一,在网络环境下,要对数量极其庞大的网络信息资源完全进行人工标引是难以想象的。搜索引擎应当在充分发挥自动搜集、著录和标引信息优势的同时,采用人工标引方式作为必要的补充。即在建库前筛选出一部分质量较高的信息资源进行人工标引,以专业或专题的形式提供特色服务。4.2编制后控制词表后控制指的是在标引(输入)阶段使用自然语言,不对标引进行严格控制,而在检索(输出)阶段才对检索词进行控制,即“标引不控制+检索控制”。前面所讨论的网络检索中改善关键词检索效率所采用的一些方法,如截词检索、限定检索、加权检索等都属于后控制的方法,国内外一些大型的检索系统采用了更强和更有效的后控制方法,那就是编制后控制词表。如美国国防技术信息中心(DTIC)科技报告全文检索系统、生物科学情报社(BIOSIS)的词表检索系统、美国教育资源信息中心(ERIC)数据库全文检索系统等,都是利用先控语言的原理和方法编制的自然语言检索用词表,其性质类似于入口词表,是一种转换工具,也是一种扩检工具,它主要是对自然语言中大量存在的等同关系、等级关系和大部分相关关系进行控制和提示,用户通过浏览词表选用检索词,既减轻了用户负担,又提高了系统的易用性和检索效率。4.3数据库cdd技术即利用人工智能技术来实现网络信息内容的深度搜索,为用户提供个性化服务。从用户角度而言,人们总是希望能及时看到自己感兴趣的内容,并对其进行跟踪,以掌握最新发展动态。数据挖掘技术为我们提供了解决的办法。数据挖掘(DataMining,DM)又称数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD),是从大量的、不完全的、有噪声的、随机的大型数据库或数据仓库中提取人们事先不知道但又是潜在有用的信息和知识的过程。数据挖掘采用模式识别技术以及统计和数学技术,它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习等多个领域的理论和技术。因此,利用该技术可以根据用户经常访问的网页进行分析、挖掘,从而了解他们的兴趣爱好、研究方向,确定个性化服务内容;分析用户信息检索过程,判断其信息检索能力,适当时通过提示或引导帮助其发现信息;具备自学能力,可以发现用户的最新需要;挖掘关键词之间潜在的语义关系,提高关键词检索的检准率和检全率。美国亚利桑那大学也开发出一种称之为“元”蜘蛛(MetaSpider)的项目,它可以根据用户提供的关键词来同时搜寻几个搜索引擎,并收集与关键词相关的页面。利用该技术,他们又成功地开发出对CompetitiveIntelligence(CI)进行智能监控的“CISpider”。如用户可以通过“CISpider”来查询有关“digitallibrary”关键字的页面以及相关链接,由此来了解有关研究者最近的研究动向。4.4语义检索:语言知识的智能化,智能检索2000年,Yahoo!宣布更换搜索引擎提供商,由原来的提供商转向google,根本原因就是google的搜索技术能够提供更快更智能的服务。从这点我们可以看出传统的全文检索技术在互联网信息搜索中的衰落,新一代的具有人工智能的检索技术开始大显身手。基于语义网络的概念检索就是其中的一个,它是把信息检索与人工智能技术、自然语言处理技术相结合的具有一定智能的检索,能够较好地解决传统全文检索中关键词语言词间关系模糊、检准率低的问题。传统的全文检索系统在网络信息检索中最大的问题就是检索模式单一,表面化,仅用单一的词或词的组合来对网络式结构的知识进行检索,缺乏对知识的理解能力和处理,其结果是返回的匹配网页数目过多,起不到真正的信息检索的作用。概念检索立足于对原文信息进行语义层次上的分析和理解,并提取各种概念信息,并由此形成一个知识库,然后根据对用户提问的理解来检索知识库中相关的信息以提供直接的问答。它提供的不是知识的标识,而是知识的内容。概念检索与全文检索的根本差别在于具有一个巨大的知识库,而知识库本身就是一个概念的语义空间网络。建立知识库首先要构造语义网络,即利用人工智能、计算语言学等技术从大量网页中自动提炼概念、计算概念之间联系,包括确立概念等级体系、概念之间的语

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论