受控语言与自然语言结合模式比较研究_第1页
受控语言与自然语言结合模式比较研究_第2页
受控语言与自然语言结合模式比较研究_第3页
受控语言与自然语言结合模式比较研究_第4页
受控语言与自然语言结合模式比较研究_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、受控语言与自然语言结合形式比拟研究随着信息传递的网络化,用户对检索语言也提出了差异性要求,需要检索语言和检索系统的交互更加方便、直接、透明。传统的中介行为已被抛弃,自主型“阅读检索方式成为潮流。用户需求是效劳性行业开展的动力,所以研发适应用户需求的新型检索形式也是大势所趋。标准化的受控语言与自然语言都有各自不可替代的优势,它们的优缺点处于相对、互补的状态。单独使用一种方式会因其缺点而达不到较优的检索效率。网络环境下,二者的结合是进步检索效率的必然要求。1、受控语言与自然语言结合形式比拟分析理想的检索状态是:在系统外部,用户可以灵敏使用自己的语言自然语言检索和组织信息,不需要看见和直接使用受控语

2、言;在系统内部,存在着以超级知识库为根底的、高度专业化的受控语言,支持用户自然语言提问的转换。受控语言与自然语言一体化形式有很多种,其中影响较大的有:词素相似度识别转换形式、一体化语言系统形式、概念空间模型、学科事物概念组配形式和后控制形式等。现将此五种结合形式在体系构造上的相似与差异性作一比拟。1.1五种结合形式的相似性它们的共同点是:根本都允许用户使用自然语言检索提问,由系统进展一定程度上的词汇转换与控制,支持用户易用性要求。在体系构造上都可以:构建语义网络。即以概念为中心对词汇施行控制,通过识别概念之间的关系,建立一个与概念体系相对应的具有层次构造的术语体系。使用概念代码。以概念为中心,

3、以唯一标识代码为主体是新型情报检索语言系统的特点。使用入口词表。将符合语义索引要求的主题词或同义词、相关词反应给用户,由用户来选择、确定他所需要的概念词,最后提交给索引系统进展检索。1.2五种结合形式的差异性1.2.1词素相似度识别转换形式其代表是ET系统,它的每个主题词款目根本数据项有:款目主题词、汉语拼音、英文译名、范畴代号、注释、范畴名称、用项、代项、属项、分项、参项等1。另外在其根本数据项中又增加了释义和词素项。各主题词互相之间构成用代、属分、参照3类关系。各主题词款目之间的不同形式排列形成主题词表的体系构造。主题词款目的各根本数据项间构成了一个概念语义网络群。详细做法是:将每个表的每

4、个款目词均定义为热节点;两两相关节点之间均建立有向索引链进展链接;全部节点由构造链聚合形成整个语义网络。ET系统根据转换知识库中的词素及词素同义对照关系,对主题概念或主题词进展分词整形,产生对应的词素标注集合。通过对主题概念与主题词所含词素相似度分析,便可实现主题概念到主题词的对应转换。标引文献时,文献主题概念可全部用自然语言词自由表达。假设主题概念与词表中的主题词一致,或与词表中的入口词同义词和被组代词一致,那么可立即自动转换成主题词,并自动将主题词登录入标引结果字段2。词表的入口率越高,与自然语言的自动转换才能就越强。此种形式针对汉语系统设计,相对于其他针对英文系统设计的形式来说还处于实验

5、阶段。目前,此种形式只在?军用主题词表?中应用,效果理想。该系统有一定的推广价值,随着汉字信息处理技术的开展,特别是汉字自动分词技术的开展,此种形式一定会有广阔的前景。1.2.2一体化语言系统形式其典型代表是美国国立医学图书馆设计的一体化医学语言系统ULS。该系统的语义网络通过134种语义类型为超级叙词表中所有概念提供了一个统一的分类体系。ULS系统语义网络的构建步骤是:各个语义类型组成语义网络的节点,节点与节点之间存在的关系即为语义关系。由语义类型及语义关系构成网状的语义构造,它起着统领超级叙词表概念的作用。语义网络将全部概念划分成组,每一组共享几种特定的语义类型,语义类型又共享几种语义关系

6、,使概念不仅高度构造化而且广泛联络。对于同一概念的不同术语以及不同的变异形式,ULS采用了三级构造形式:概念级,用唯一标识符UI;术语级,用唯一标识符LUI;词串级,用唯一标识符SUI3。ULS系统的特点在于:其目的是受控语言和自然语言的一体化,编制的超级叙词表融先控制与后控制于一体,对概念词进展了不同层次、不同角度的控制。专家词典程序可同时计算两个概念的共现频率、特殊事物的共现数据以及语义网络推理、识别和转换,使系统的自然语言理解和处理成为可能。具有更广泛的适用性,在各种系统、脱机环境和网络环境中都能很好的应用。ULS系统已投入使用,目前已被广泛应用于医学领域信息系统的智能化检索、自然语言系

7、统研究、专业词表的编制、医学专业搜索引擎的开发等方面。1.2.3概念空间模型该模型语义网络的构建步骤是:对已识别、选定的概念通过概念共现率分析,得到任意两个概念一起出现的可能概率,将概念作为神经网络的节点,节点间非对称的关联络数作为神经元之间带权重的链接就是概念共现率,这样就构成了神经网络。在文本概念空间生成后,按概念空间的构造分层、分类地建立起具有联想功能的语义索引,然后将语义索引按其在概念空间上的位置构成一个概念语义空间。概念语义空间的入口词表是“智能型检索接口。接口将检索要求处理成字符串,与语义空间中已有关键词的字符串相比拟。利用缩写展开、赘字消除方法,自动转换成合适查询的字符串,并可将

8、检索词分解到义原的层次,实现检索词的同义原联想功能。概念空间模型的特点是:实现概念层次的检索,打破了关键词检索局限于形式匹配的缺陷。实现了对用户检索恳求的合理联想,给出进一步检索建议,大大加强与用户的联络。概念查全率较高,优于人工词表。关键技术在于:用于自动词表生成的算法,算法先进与否决定这项技术的成败,共现分析是概念空间算法的核心。向用户提供符合用户检索要求标准词的智能检索接口。概念空间模型在国外已用于多个领域的信息检索系统,国内也有研究者在?中国分类主题词表?的根底上,实现了概念检索系统VISIN4。有的研究者通过构建语义网络,对中文搜索引擎的概念检索进展了初步探究。目前国内的研究处于实验

9、阶段,还没有在理论中开发应用。转贴于论文联盟.ll.1.2.4学科事物概念组配形式该系统分为学科面局部和事物面局部,每一局部再分为第一层的分面学科或事物和第二层的分面学科的问题或事物的局部。对属于第一层的分面分别按系统性排列,可仿照体系分类法。对属于第二层的每个分面确定一个概括的名称,分为两个序列进展排序与学科或事物的序列相对应。并对两个序列的分面分别给予统一的分面序号5。在学科、事物、号码的共同作用下形成了一个语义空间。分类号、概念词和自然语言词都是概念代码的外部形式,三者在标引和检索中可任意使用,通过计算机与概念代码自动转换。自然语言可大量使用,任意增补,但在系统内部受到控制。此种形式的特

10、点是:通过学科聚类和事物聚类的结合、号码标识和词语标识的结合,使其结合分类系统和主题系统的优点,检索更全面。通过自然语言和受控语言的结合,增强用户使用的方便性。不变概念代码与可变概念体系的结合增加了灵敏性,便于分类体系的逐步细化和不断改造。具有开放性,可根据环境的变化不断增补新概念。学科事物概念组配形式是朝着检索语言综合化和一体化进展的一次理论尝试。此种形式由张琪玉教授在1997年提出,到目前为止还没有进展系统开发设计,处于理论阶段。1.2.5后控制形式后控制词表将用户检索表达式中用词,即自然语言标识词,由计算机自动积累存储在系统内,自然语言标识一律置于控制词下,用关系符号说明与控制词的关系6

11、。对自然语言中大量存在的等同关系、等级关系和大局部的相关关系进展控制或提醒。由控制词、自然语言标识词和关系符号共同组织成一个语义网络。后控制词表的特点是:面向用户设计,易用性强。词汇量大、增长快、更新及时。可弥补受控语言处理信息中新事物主题的缺乏。弥补自然语言因不受控制产生的缺陷,按族性检索。编制关键是必须在检索系统中实有的自然语言原词根底上进展编制,否那么会在很大程度上降低其控制功能。20世纪80年代后控制技术成为研究热点,国外相继有研究人员开发了词表生成或转换系统,并得到应用。国内90年代也出现了一些实验性的后控词表系统,但没有推广使用。在网络环境下单独使用后控制词表的检索效果不是很理想,

12、但后控制原理已被其他形式吸收、利用。2、适应我国信息环境的检索语言形式对使用者来说,将来的信息检索语言应该能满足三项根本需要:允许用户使用自然语言进展检索提问;系统自动将自然语言与受控语言进展链接、转换;支持标引、查询、阅读、检索等信息全过程。检索语言开展创新的关键环节就在于设计合理高效的转换形式。综合比拟上述几种形式,我们为设计合适我国信息环境的检索语言形式梳理出以下思路:在词表内容上侧重建立专业性的系统,然后向综合性开展;在详细词表的设计中,认为目前ULS形式比拟理想,因此新的系统设计主张以一体化语言系统形式为核心,合理借鉴其他形式;国外研究设计的比拟成熟的系统在汉语环境下未能很好地发挥效

13、果,其关键原因就是汉语需要分词技术来分割出语义单元,解决这个问题可以借鉴?军用主题词表?中的词素相似度识别转换形式。按照此种思路,可将系统的建立分为三个步骤:第一步,仿效ULS系统建立符合各专业特点的超级叙词表、语义网络、专家词典程序和情报源图谱,形成各专业系统。在专业性网络资源中对某个专业的概念进展搜集、定义比拟可行,且更新容易实现;设计网络空间比拟方便;能有效提供特定情报源的范围、功能和检索条件。第二步,对自然语言包括文本及检索策略进展分词分析。首先建立一个含有词素标注集合的转换知识库。对自然语言组成的文本或用户输入的检索词,系统可在超级叙词表中找出词素完全对应的受控词。假设没有完全对应的

14、受控词,系统对自然语言进展分割,并利用转换库中的词素标注集合对输入的主题概念及词表中的主题词所含词素的相似性进展分析,找出相似的受控词或按相似程度的权值顺序推荐一批相关受控词供用户选择,完成主题概念与系统内主题词的对应转换。第三步,在学科开展过程中,会出现系统对新概念不能进展词素分析或系统推荐词均不适宜的情况,对此作如下设想:概念空间模型方法可以弥补词素相似度转换形式需要转换双方必须有共现词素,可按相关程度排序提供与检索词有关的词,以帮助理解与检索词主题领域有关的其他概念,用户根据自己的需要选择或添加以进步检准率。对于没有对应受控词的自然语词,将程序设计成可以计算文本中概念的共现频率,找出与该

15、词共现频率最高的几个语词并提供对应的受控词,以便扩检。这种新词与受控词的联络系统将自动记录并以帮助形式提供应后来的检索者。这种联络的自动记录还可在一段时间后,由系统自动或人工确定新词与某个或某些受控词的正式对应,或设计新的受控词并根据这种联络确定新的受控词与其他受控词之间的关系并反映到语义网络中,以满足科学开展的要求。专业性网络资源的一体化语言系统设计之后,可以设计一个统一的用户界面,其原理类似元搜索引擎,帮助用户在多个专业的“信息资源库中选择、利用适宜的数据源来实现检索操作。实现这一功能,各个专业性的网络资源必须按预先设计好的统一规那么进展组织。假如各专业的一体化语言系统按相似原理设计,这种方案就可以在一定程度上解决用户综合地查找专业信息的难题。对于一个自然语言用词可能在不同专业领域有不同的定义与使用范围问题,可以借鉴学科事物形式,当自然语言在各个相关学科领域进展转换时,用学科名称加以限定,提供一个选择列表,以帮助用户可以在自己希望的学科中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论