版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于映射方法的叙词表互操作研究
作为一种多相操作技术,映射为两个或多个单词表的语言建立了关系,并自动转换和连接单词表。映射结果是关系的集合。映射方法应用到叙词表互操作上即为叙词表映射,叙词表映射是解决知识组织体系互操作方法的一种技术,通过建立词表间的映射关系可以实现主题间的交叉检索和浏览,满足用户“一站式”检索。不同的叙词表在词形、词义和结构等方面存在的差异,使得映射成为一项非常复杂的工作。M.Doerr认为术语选择、先组和后组程度、学科覆盖范围、语义概念和语义关联的不同是影响叙词表映射的主要问题。准确判定叙词表术语的概念语义是保证映射质量的关键,依据一定的自动推理规则可减少叙词表映射的人工量,降低映射的复杂度,本文通过实施叙词表映射实验,对叙词表映射语义判定指导规则和自动推理规则进行探析。1科学表3asfaciencisp本文选择剑桥科学文摘数据库(CSA)中生物科学领域的两部叙词表中的部分叙词进行实验,分别是AquaticSciences&FisheriesAbstracts(ASFA)thesaurus(subjects)(水科学和渔业文摘叙词表)第3版和LifeSciencesthesaurus(subjects)(生命科学叙词表)第4版,前者是目标词表,后者是源词表。本文使用《ISO25964-2叙词表与其他词表的互操作》推荐的映射类型进行映射实验,其中EM表示等价映射,NTM代表下位映射,BTM代表上位映射,RTM代表相关映射,为便于讨论,笔者特增加NM,用以代表无映射。2映射术语的概念语义国际标准化组织制定的ISO25964-2中详细探讨了有关叙词表映射的模型、映射类型、映射方法、映射数据的应用和管理等问题,万维网联盟(WorldWideWebConsrtium,W3C)的SKOS映射规范对词表的映射类型及概念组配方式进行了研究,但都尚未对如何判断映射术语的概念语义进行探讨,本文根据实验发现,总结出如下方法进行叙词表术语概念语义的判断,以保证映射数据的准确性。2.1定术语语义范围的前提条件对叙词表收录的学科范围进行界定,是确定术语语义范围的前提条件。如果不考虑术语学科范围而是根据词形相似度进行映射,可能会建立错误的匹配,示例如表1所示:2.2叙词语义范围范围注释(ScopeNote,SN)说明该叙词的使用范围或定义范围,为叙词语义范围的确定提供重要信息,在进行叙词表映射时可参照范围注释以保证映射的正确性,否则就可能会忽视部分语义信息而建立错误的映射关系,示例如表2所示:2.3提供概念语义信息用代关系(USE、UF),即叙词表中正式叙词和非正式叙词的关系,它们表示含义相同、用法相同或者相似的一组概念,两者结合考虑可提供概念的相关语义信息。“用词”代表“代词”的语义范围进行标引与检索,映射时也需参照“用词”的语义范围才能进行准确的映射,否则可能建立错误的映射关系而影响映射数据的后续使用,示例如表3所示:2.4表结构信息的使用词表本身的语义结构,即词表中概念的上下位和相关关系等结构信息,为概念的界定提供重要信息,叙词表概念映射宜参考语义关系,否则可能建立错误的映射关系,示例如表4所示:2.5源词表的映射指导规则在目标词表中,时间注释属于范围注释的一部分,是对因修订和重版等原因致使其语义范围发生改变的时间记录,表示在某个时间点之前和之后该叙词代表的语义发生变化,映射时应予以注意。在本实验中,目标词表在1982年进行了修订,个别正式叙词的使用情况和范围发生了变化。具体来讲有如下几种情况:1用代词的替换:1982年之前使用现在的“代词”进行标引和检索;2下位词替代上位词:1982年之前使用现在的下位词进行标引和检索;3上位词替代下位词:1982年之前使用现在的上位词进行标引和检索;4相关词的替代:1982年之前使用现在的相关词进行标引和检索;5取代关系:1982年之前用于标引和检索的词删除,由现在的新词进行标引和检索。其映射指导规则示例见表5。通过表5可知,术语时间注释前后语义范围如果没有发生变化,如“用代”词的代替和取代关系的变化,源词表映射词和目标词表只需建立一种映射关系;如果术语在时间前后其语义范围上发生变化,如上下位、相关关系的替代,为保证检索的全面性,则需要与目标词表概念建立两种映射关系。3映射推理规则映射推理规则是指在已有映射关系和词表结构关系的基础上自动推断新的映射关系,从而提高映射效率。常用的映射推理规则有继承性规则和传递性规则,G.Fausto等人在探讨如何计算建立词表术语的映射关系时,也利用词间的传递性进行映射关系的自动推导。本文即在大量实证实验的基础上,讨论映射推理规则的使用场景以及实施效果。3.1等级映射关系基础上的继承性继承性规则是在已建立的映射关系基础上,继承映射词在词表中的结构关系而自动推理出新的映射关系。W3C对映射的传递性规则进行了详细探讨,但对于继承性规则的运用尚无详细说明,本文即根据映射关系的不同类型,详细讨论继承性规则的使用情况。3.1.1等价映射关系基础上的继承性该推理规则是指源词表和目标词表的术语建立等价映射后,源词表映射术语在词表中的上下位、相关和用代关系可以直接继承到目标词表中,推理出与目标词表映射术语的映射关系。建立等价映射关系的术语无论在词形还是词义上都具有精确对等关系,因此各词表的结构关系可以直接继承到双方,建立新的映射关系,示例如表通过表6分析可知,在建立等价映射关系的基础上,根据词表固有的结构关系(上下等级、相关关系)和同义词关系(用代)可以进行映射关系的继承。等价关系表现为用代关系,共有4种情况,见表7,其中PT代表“用词”,NPT代表“代词”。等价映射关系基础上推测的等级映射关系有几种情况(见图1-图4)。图中双箭头代表精确等价映射,单箭头代表包含关系,所有实体箭头代表固有关系,而虚线箭头代表根据传递性规则推导的等级映射关系。如图1所示,已知A和A’,B和B’分别精确匹配,A和B在源词表是上下位关系,则根据继承性原则可推出:A上位匹配B’;A’上位匹配B;A’上位匹配B’。如图2和图3所示,在同一词表中A和B是同义关系,即两者是用代关系,已知源词表的B和目标词表的A’建立等级映射关系,那么可以依据继承性规则,推理出A和目标词表A’的等级映射关系。如图4所示,即A和A’精确等价映射,A是B的上位类,B是C的上位类,A’上位映射B,则根据继承性规则可知A’上位映射C。该情况是指上下位的跨级继承,极易造成映射数据的失真。如果存在A’的下位词C’,即已知A≡A’,B<A,C<B,B<A’,C’<A’,则C’≡C。3.1.2等级映射关系基础上的继承性该推理规则是指源词表和目标词表的概念建立等级映射后,源词表映射词的上下位、相关和用代关系可以进行选择性继承,推理出目标词表映射词和这些词的映射关系。等级映射关系基础上的继承性规则和等价映射关系上的继承性规则不同,它不是完全性继承。由于等级映射关系的两个概念间是非精确对等,在语义范围上不一致,某一词表映射词的上下位、相关词等不一定完全适用于另一个词表的映射词,因此只能是选择性继承。在等级映射关系基础上可依据映射词的用代关系、上下位等级和相关关系进行选择性继承。映射词(用词)和其代词是同义等价关系,因此代词可直接和另一词表的映射词建立等级映射关系;映射词和其相关词在语义上相关,但是语义不对等,如果进行继承,相关词直接和另一词表的映射词建立等级映射关系,在一定程度上会造成映射数据的失真,不建议使用;映射词和其上、下位词在语义范围上具有包含和被包含的关系,需选择利用其继承性规则,具体而言有以下两种情形,如图5所示:如图5所示:黑色实线代表固有的等级上下位关系,圆点虚线代表合法的继承关系,长条虚线则代表非法的继承关系。其中左图表示:叙词A和叙词B建立上位匹配映射,B的邻近上位词是C,B的邻近下位词是D,那么只有B的上位词可以直接继承,得出<A>BTM<C>;B的下位词不可以直接继承,不能得出<A>NTM<D>。右图表示:叙词A和叙词B建立下位匹配映射,B的上位词是D,B的下位词是C,那么只有B的下位词可以直接继承,得出<A>NTM<C;B的上位词不可以直接继承,不能得出<A>BTM<D>,示例如表8所示:从表8示例分析可知,在等级映射关系基础上,根据在词表中的等级结构进行继承需遵循如下规则:源词表映射词和目标词表建立上位映射关系,即目标词表的术语是源词表术语的上位映射词,那么源词表可继承其上位映射词的上位词,推理出新的上位映射关系;上位映射词的下位词则不可以直接继承,否则会推理出错误的映射关系,造成映射数据的失真。同理,源词表映射词和目标词表建立下位映射关系,即目标词表术语是源词表术语的下位映射词,那么源词表可继承其下位映射词的下位词,推理出新的映射关系,下位映射词的上位词不可以直接继承。3.1.3相关映射关系基础上的继承性该推理规则是指源词表和目标词表的概念建立相关映射后,源词表映射术语的上下位、相关和用代关系可以选择性继承,进而推理出目标词表映射术语和这些词的映射关系。由于相关映射关系表示两个映射术语间的语义是相关的,语义范围不一致,所以在相关关系基础上进行等级、相关关系的继承也存在很大的不确定性,如果据此推断新映射关系,不完全合理,但也不是完全不合理,需要进一步的人工判别,示例见表9。3.2部曲:从目标词表到中日之间关系的传递传递性规则是指利用已有的映射关系和词间关系来传递和推导新的映射关系。3.2.1等价关系的传递性等价关系的传递性是指,如果叙词<A>EM<B>,<B>EM<C>,则推出<A>EM<C>。W3C对词间关系的传递性进行了界定,在其5种映射类型中,明确指出只有“精确匹配”具有传递性,即如果<A>skos:exactMatch<B>,<B>skos:exactMatch<C>,则<A>skos:exactMatch<C>。本文通过实验过程总结等价关系传递性的使用场景,如两部叙词表进行映射,<A>EM<B>,<B>与<C>在目标词表是用代关系(<B>EM<C>),则推出<A>EM<C>,即源词表映射词和目标词表的正式叙词建立了等价映射关系,那么通过等价关系的传递,源词表映射词也与正式叙词相对的非正式叙词建立等价映射关系。同理推断,等价关系传递性也可用于多部叙词映射中,如果存在一个中间叙词表,其他词表的词分别和该词表中的某个词建立等价映射关系,那么根据传递性规则,可推出所有与中间叙词表的同一个词建立等价关系的术语都是等价映射关系,这样可简化映射过程,减少映射工作量。3.2.2等级关系的传递性等级关系的传递性指上、下位匹配关系的传递性,如果叙词<A>BTM<B>,<B>BTM<C>,根据等级关系传递性,则推出<A>BTM<C>;如果<A>NTM<B>,<B>NTM<C>,根据等级关系传递性,则推出<A>NTM<C>。等级关系的传递性规则适用于两部词表或者多部词表间的映射推理:两部词表映射,通过等级关系传递性可发现多级上位概念和下位概念;多部叙词表映射,通过中间词表可发现词表间的等级映射关系。W3C的SKOSreference对Skos:broader/Skos:narrower和Skos:broaderTransitive/Skos:narrowerTransitive标签属性进行明确区分,前者不具传递属性,用以表示直接相邻的等级关系;后者具有传递属性,但不可推断出直接相邻的等级关系,只能推断大致的等级层次关系,且有可能推断错误。这是因为等级关系的传递性经过层层传递后,层级相差越远,语义范围相差也越大,甚至造成语义的失真,因此对该规则需选择性使用。3.2.3相关关系的传递性相关关系的传递性是指相关映射关系的传递性,如果叙词<A>RTM<B>,<B>RTM<C>,则根据相关关系传递性,推出<A>RTM<C>。相关关系是指概念在语义上具有某种关联,是一种非精确的松散型关系。如果对相关映射关系再进行传递,会造成严重的语义失真,所以利用相关关系进行传递性推理时要慎重
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 深度解析(2026)《GBT 30160.3-2013纺织机械与附件 针织机用针术语 第3部分:复合针》
- 深度解析(2026)《GBT 30087-2013化妆品中保泰松含量的测定方法 高效液相色谱法》
- 无绿藻病临床诊疗与防控中国专家共识总结2026
- 深度解析(2026)《GBT 29746-2013实时交通信息服务数据结构》
- 高考前30天动员大会校长讲话:拼尽全力不留遗憾
- 《HG 2011-1991橡胶热水袋》专题研究报告
- 《GBT 1843-2008塑料 悬臂梁冲击强度的测定》(2026年)合规红线与避坑实操手册
- 主动脉瓣关闭不全是什么病症
- 2026年食品行业豆制品包装加工技术销售协议
- 2025届浙江省天域全国名校协作体高三下学期二模英语试题含听力(含答案)
- 2026湖南益阳职业技术学院招聘事业单位人员6人备考题库及答案详解(新)
- 2025浙江中国绍兴黄酒集团有限公司招聘11人笔试参考题库附带答案详解
- 【新教材】人教版八年级生物下册实验01 鸟卵适于在陆地上发育的结构特征(教学课件)
- 收费员心理健康培训课件
- 2026年江西财经大学MBA教育学院面试题库含答案
- 《高中生科技创新活动与综合素质评价研究》教学研究课题报告
- 2026年医疗设备维修考试题库及答案
- 《气管切开非机械通气患者气道护理》标准解读2026
- 分布式广域无人机管控系统-v3.0
- 网络传播概论(第5版)课件 第3、4章 网络传播形式的流变、网络传播的多重策略
- 广东省普通高中学生档案
评论
0/150
提交评论