学科领域本体的构建与进化——以经济学领域本体为例_第1页
学科领域本体的构建与进化——以经济学领域本体为例_第2页
学科领域本体的构建与进化——以经济学领域本体为例_第3页
学科领域本体的构建与进化——以经济学领域本体为例_第4页
学科领域本体的构建与进化——以经济学领域本体为例_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、学科领域本体的构建与进化以经济学领域本体为例?现代图书情报技术?2007年第3期数字图书馆总第148期学科领域本体的构建与进化以经济学领域本体为例杜小勇马文峰武文娟(中国人民大学信息学院北京100872)(中国人民大学图书馆北京100872)(教育部数据工程与知识工程重点实验室北京100872)【摘要】概述国内外领域本体构建方法及本体进化的研究现状;介绍以?中国分类主题词表?为根底构建"经济学领域本体"初始版本的根本过程,阐述经济学领域本体进化的根本设想,以及具体进化过程及方法,包括获取进化实验数据集,抽取候选关键词,获得本体新概念,建立概念关联等.Construction

2、andEvolutionofDisciplineDomainOntologyACaseStudyforEconomicsDomainOntologyDuXiaoyong''MaWenfeng2WuWenjuan(SchoolofInformation,RenminUniversityofChina,Beng100872,China)(LibraryofRenminUniversityofChina,Beijing100872,China)(KeyLaboratoryofDataEngineeringandKnowledgeEngineering,MinistryofEducat

3、ion,Beng100872,China)【Abstract】ThispaperbrieflysurveysthestateoftheartofconstructionandevolutionofdomainOntology.ItdescribestheprocesstoconstructaprimaryveionofeconomicsOntologyfromexistingChineseclassifiedthesaurus,cludecreatingadatasetforOntologylearning,determiningthecandidatekeywords,anddiscover

4、ingtheconceptsandrelationshipofthedomainOntology.【Keywords】OntologyDomainOntologyDisciplinedomainOntologyDomainOntologyevolution1引言2学科领域本体构建与进化研究概述本体在知识组织与知识管理中的重要性已被众多领看,单纯从技术角度描述本体的较多,理论联系实践,并管理实践,立足学科领域本体,并以"经济学领域本体"试验开发为例,研究探讨学科领域本体的构建与进化.收稿日期:200701一lO收修改稿日期:2007一O120本文系国家社会科学基金资助工程&q

5、uot;数字资源整合的理论与方法"(工程编号:04BTQ003)和国家自然科学基金资助工程"本体库管理系统技术研究"(工程编号:60573092)的研究成果之一.利用领域本体组织领域资源的根本思路,即是在资源集合的上层构建一个反映领域资源知识结构的领域本体概念模型,以此为根底对资源进行基于语义的标注,提供基于语义的资源浏览与检索.所以,怎样构建领域本体已经成为一个新的研究热点¨,在实践中也产生了一些面向不同应用需求的本体构建方法,如IDEF一5法,骨架法,企业建模法,Methontology法,循环获取法,七步法等.文献5在介绍上述本体构建方法的根底上,

6、阐述了一个本体原型构建的根本过程.文献6面向学科领学科领域本体的构建过程中,初始核心本体的获得是关?一7?现代图书情报技术?2007年第3期数字图书馆总第148期键.目前大致有两条获得路径,一是通过知识获取技术从现有的学科数据库中提取专业术语,挖掘,发现学科的根本概念,再由领域专家确认并建立概念关联;二是在传统的知识组织体系如分类法和主题词表中转换改造为初与本体的改造,融合及转换.化也称本体学习或本体演化,即是在初始核心领域本体根底上,依据一定的理论,技术和标准,对本体概念结构,概念及关系不断进行丰富,完善,改良,更新和评估的过进化的重点和难点.近些年来,这方面的研究开始引起学界的关注,文献1

7、2对其进行了较为全面的综述.对于概念的获取,国外目前提出了三类方法,即基于语言学的方法¨,基于统计的方法¨,结合语言学和文献20提出的利用Bootstrapping的机器学习技术,文献21提出的采用非线性函数与"成比照拟法"相结合的方法,文献22提出的将统计方法与规那么方法相结合的专业领域术语抽取算法等.对于概念问关系的获取,国外研究也很多,常用的方法有:基于模板的方法,基于概念聚类的方法,基于关联规那么的方法,基于词典的方法及使用假设干种方法的混和方法¨.为进一步给获取的关系赋予相应的语义标签,文献31提出使用扩展的关联规那么挖掘方法为本体中

8、概念间的非分类关系赋予语义标签.目前,国内关于领域本体的进化尚无深入的研究成果,一些涉及本体进化的研究多侧重于技术层面,拘泥于是几个算法就能解决问题的,它是一项复杂的系统工程,需要以一定的理论为指导,需要和学科开展保持同步,同时必须基于科学文献的标注实践.3经济学领域本体的构建与进化笔者认为,转换改造传统分类法/主题词表中的分类概念和主题概念,是获得学科领域本体初始核心概念的科学方法.因为领域本体的根底是概念系统,而分类法/主题词表也是分类概念和主题概念及关系的集合,其基使用于各个学科领域,因此从中选择某一领域,将其改造转换为初始核心本体的根底,是一种比拟科学,简便且实?8?用的学科领域本体构

9、建方法.基于这一思路和认识,笔者采用了2005年出版的?中国分类主题词表(第2版)?电子版来构建经济学学科领域初始核心本体.?中国分类主题词表?是在?中国图书馆分类法?第三版和?汉语主题词表?第一版的根底上编制的两者相互52992个,正式主题词l10837条,主题词串59738条,非正式主题词(入口词)35690条,涵盖哲学,社会科学和自然科学,工程技术等各领域学科和主题概念.?中国分类主题词表?采用基于类目涵义的一体化对应方式来反映类目和主题的关系,通过一一对应,增词对应,上位对应,组配对应,包含对应这5种方法,将符合条件的主题词无遗漏地对应在分类法类目之下,用主题法形式揭示分类法类目的内容

10、,完成类目涵义与主题意义的兼容,因而可以说是构建了一个完整的知识地图,既描述了知识的等级体系,又描述了主题概念的语义关联,还描述了这两者的对应联系.虽然?中国分类主题词表?中的分类/主题概念不那么标准和严密,语义关系也比拟简单,但由于它涵盖了学科领域的核心概念,其中有属分关系或相关关系参照的主题词达77%3,反映了最根本,重要的概念逻辑关系,因此将其经济领域的概念转化为初始本体,在此根底上再进行试验与探索,是一个非常适用的初始本体构建方法.笔者以?中国分类主题词表?中经济类分类/主题概念为根底,建立了经济学领域的初始本体概念集,共获取经济本体概念12627个,其中分类概念l523个,主题概念l

11、1104个(其中具有属分关系的主题词5366个,具有相关关系的主题词4351个).类概念是主干,主要反映学科概念间等级关系,主题概念是枝叶,主要反映主题概念问的等级和相关关系及等同关系,以此构成一个经济学领域概念网络("经济学领域本体"EOV1.0).领域本体的进化需要考虑以下问题:为概念进化的根底数据,一是用户资源查询日志,一是资源标注记录.鉴于目前没有资源查询的日志信息,本次实验主要初始本体概念中,网络文献对其标引得还很少,缺乏以成为进化的依据,因此,目前只有期刊论文的标注信息可作为本体概念进化的依据.期刊论文的前置信息(摘要,关键词,中图分类号)是作者对文献的概要描述

12、,是原始的标注信息,特别是关键词反映了文献的主要内容,可以作为进化的主要依据.?现代图书情报技术?2007年第3期数字图书馆总第148期体进化概念,要看其是否具有一定的标注频度,一个词被标注的概率要到达一定的要求,才能作为本体进化概念予以考虑.完全自动发现概念关联的方法尚不可行,因此采用一些启发式的规那么来辅助发现概念之间的关系显得尤为重要.具体进化过程及方法:(1)获取实验数据.本次实验从?中国期刊全文数据库?中抽取20022004年共3年的文献作为本体进化的实验数前还不知道我国经济学文献的半衰期的具体值,因此选择3年时限主要是考虑到实验中数据处理的时间.另外,规定一个时间期限将有助于今后进

13、一步的进化实验,包括某些老化本体概念剔除的可能.(2)抽取候选关键词集合.在获取的785426篇论文中,作者标注关键词的论文232456篇,没有标注关键词的论文取关键词的依据.在232456篇标注关键词的论文中,共获取关键词164553个,其中,经济初始本体中已有概念5172个,通用概念1748个,被?中国分类主题词表?收录的相关领域主题词9478个,剩下150425个关键词.在抽取关键词时,对以下情况进行了预处理.例如,对括号的处理,有些关键词是一些缩写,作者标引的时候习惯将其含义放在括号中,或者反过来将缩写放在括号中,以下两种标引都是常见的:CRM(客户关系管理),客户关系管理(CRM).

14、对于这种情况,需要进行一些标准化处理.具体做法为:将括号内外的词区分开来,作为两个独立的关键词,然后在这两个关键词之间建立起等价关系,并确定中文关键词为标准词,替换论文中的关键词.有些情况下,缩写相同,但是中文却不一样.例如,"ABC"这个词,不同的作者分别应用不同的中文,包括"作业本钱法","作业本钱核算","作业本钱计算","作业本钱","活动本钱法"等.对此,除了要在这些单词与ABC有一种情况是,中文相同但英文各异,这时只要简单地丢弃英文就可以了.在150425个词中,

15、到底哪些可以作为本体新概念的候选词集合,还需要作进一步的限定.例如,可以关键词出现的现/标注次数应在某个阈值以上,在出现某个阈值以上的关键词中,还应该考虑其出现的位置,这里的位置主要指题名位置.因为标题是标明文章中心内容的简短语句,一般能够反位置是选取本体概念候选集合的一个重要指标.本次实验规定,在150425个候选关键词中,"出现/标注次数>=10",并且"题名出现>=5"的关键词可以进入本体进化概念的候选集合.经统计,符合这一规定,即出标注次数超过1O次并且在题名中出现5次以上的关键词有4328个.由于学科专业领域不同,不

16、同的专业领域其开展速度也不均衡,因此,下一步对低于"出标注次数>=10","题名出现>=5"的关键词也需要经过其他方法或者领域专家再进行甄别.对4328个候选关键词又作了进一步处理:删除没有实质意义的词.一般来讲,论文关键词应是反映论文的作者由于没有掌握关键词选取方法,标注了一些没有实质检索意义的词,如"开展","提高","回忆","反思","前景","初探","两难","走出去

17、"等,因而需要将这些非关键性词语剔除.删除属于其他学科领域的词(术语,人名,地名等).如"文化建设","案例教学","长株潭","苏北"等.经过专家筛选,共剔除1351个关键词,能够作为本体新概念候选集合的词共2977个.念间的关系,也就是说,怎样建立进化概念和初始本体概念间的关联,这是本体进化重要而困难的一步.如前所述,需要制的出现位置,出现频率,出现形式等的初步分析,提出以下几个规那么作为发现/建立概念关联的根本方法:分类概率规那么:某一关键词所属文献被类分类目的次数越多,其与本体分类概念的关联程度也

18、越高.的多个类目中,在这种情况下,可以根据该关键词所属文献被类分的频率进行判断,选取类分频率高的类目与本体分类概念的类号进行对应,即可将这一关键词看作是与本体分类概念对应的相关概念,在该进化关键词与本体分类概念之间建立关联.经统计,在2977个候选关键词中,有2161个词在其出现的全部次数中(即出现/标注次数>=10并且题名出现>=5),有一半以上出现在(被类分在)同一个二级类目中.因此,从语义上可以判定这些词与其分类类H/概念(或下属分类类H/概念)之间具有关联性.如表1所示.?词素一致规那么:某一关键词的词素与本体概念的词素的相似性越高,两者的关联程度也越高.由

19、于汉语的同义词,准同义词及近义词往往具有词素相似性(1字,2字以至多字),所以可以通过分析关键词与本体主题概念所含词素的相似程度,选出与本体主题概念相等或相近的主题词,建立与本体概念等同关系和近义关系的关联.本次实验中,由于尚无法从本体词/候选关键词中准确地别离出词素来,所以仅考虑"包含"这种关系,也就是本体词作为某个候选关键词的子串,或者候选关键词是某个本体词的子串这种情况.在此根底上计算指数:2min(IsI,ItI)/大于一定阈值(本次实验中取0,7).?9?现代图书情报技术?2007年第3期数字图书馆总第148期例如,候选关键词"可持续经营"和本

20、体概念"持续经营",前者包含后者.在这个例子中,公共子串的字数即概念的字数是4,关键词种计算方法,如果本体概念和关键词完全相同,那么公共子串即关键词和概念的长度全都相同,这样,所得到的比例值就是1;如果本体概念和关键词没有重叠的局部,其比例值就是O.因此,这个比例值是一个大于O小于1的数.如果公共子串(也即"被包含词")占"包含词"的比例越大,所得到的比例值就越大;如果"包含词"很长,而"被包含词"很短,那么其比例值就会比拟小,多数情况下,它们之间的关系相对就较弱了.表1候选关键词所属论文类分例

21、如全局相对父候选关键词所分类别比例类比例注册会计师行业F233会计工作组织与制度11预算执行审计F239审计11电信运营企业发F626电信企业组织和经营管理1l生态畜牧业173263畜牧业,饲养业11(注:1)所分类别:即指该关键词出现的总次数中,有4o%以上都出现在该类;Of且关键词出现在该类的次数占出现该类父类的所有子类的次数总和的70%以上.例如,"中小金融机构"出现在"17832"中42次,出现在"1783"及所有子类中共44次(包括17831,17832,17833,17832.1.有符合条件的结果中,同时考虑级别高和全局比

22、例,相对父类的比例,选出最优的结果.2)全局比例:即该关键词出现在所分类目的次数与其所出现的总次数的比值.3)相对父类的比例:即该关键词出现在所分类目的次数,除以出现在该类目的父类所有子类的次数总和.)本次试验选择了对应比例值>O.7的"候选关键词一本体概念"系的例如.可以看出,在表2,表3包含/被包含的候选关键词和本体概念之间,可以建立等同关系,近义关系和相关关系的关联.?10?表2候选关键词与本体概念词素匹配例如A(候选关键词包含本体概念)候选关键词本体概念概念词素比例分类号长度值绿色贸易壁垒贸易壁垒r7424O8(注:1)概念分类号:本体概念所对应的中图

23、法分类号.2)词素长度:即子串长度,指被包含词的字数.3)比例值:即按上述方法计算的比例值.)必须说明的是,以关键词和本体概念"包含/被包含"作为词素一致规那么的方式,不是发现关联的最正确方式,它会丧失一些有意义的关联关系,例如:(关键词)附加值(本体概念)高附加值,更为适宜的关联对应是:(关键词)附加值存在个别对应误差的现象,例如:(关键词)资金流(本体概念)资能作为辅助发现关键词和本体概念关联的手段,其关联的最终确定还需要由专家来完成.关联度规那么:某一关键词与某一本体概念共现的频率越高,其关联程度也越高.一些关键词看起来是相对独立的词,可以通过数据挖掘中的频繁项集发现

24、算法,找出该关键词与本体概念的共现关系.例如,"减持"是在题名中出现频率较高的词(39次),经统计,该词在题名中和"国有股"共现次数最高(42次),所以可与"17830,91证券市场"对应的主题词"国有股流通"和"国有股"建立关联.需要指出:(1)由于类分文献既需要有分类依据(如?中图法?),也需具备一定的文献分类知识,而论文作者受其知识和条件所限,使得一些论文类分存在不同程度的随意性.因此,以上规那么不是绝对的,只是作为建立概念关联的参考与辅助.例如,关键词出现频率高的类目与本体概念类目可能存

25、在较低的对应,而关键词出现频率较低的类目与本体概念类目也可能存?现代图书情报技术?2007年第3期数字图书馆总第148期在较高对应.因此,为了使概念问的关联具有准确性,需采用人机结合的方式,在按上述规那么由计算机建立初步关联后,应由领域专家进行最终评价和确认.(2)从进化的角度看,我们在运用上述规那么的时候,尽量念可以在今后不断完善本体进化技术的根底上再发现出来.(3)从使用目的看,本体的主要目的是资源的组织和检索.一些不恰当的本体概念被发现出来,被用于资源组织,问题也不大.从系统管理的角度看,只不过是增加了一些无用的索引而已,不会对检索的正确性造成影响.经过上述工作后,初步获得了"

26、经济学领域本体"的新版本(EOV2.0),新版本共增加本体词2161个,新增关系2821个,其中分类概念与主题词之间的关联关系2161条,等同,近义,相关关系的词660条.表3候选关键词与本体概念词素匹例如B(本体概念包含候选关键词)概念词素比例候选关键词本体概念长度值分类号一(注:各列含义同表2.)4结语领域本体建设是一项复杂的系统工程,不是轻而易举就能够构建的,需要脚踏实地进行理论研究与应用试验.首先,要对领域本体构建的理论,方法与技术进行深入研究,建立公认的核心概念和完整的领域本体构建的理论体系,以及具有适用性,针对性的领域本体构建技术体系.其次,面向某一应用领域进行领域本体系

27、统的构建实验.在此根底上,总结经验,寻找规律,将其提升为理性认识,再进一步指导实践,以促进领域本体的实验研究更快,更有效地走向应用.本文在对国内外领域本体构建方法及本体进化的研究现状进行概述的根底上,立足经济学领域,介绍"经济领域本体是某一学科领域知识体系的概念集,所以,以反映学科知识概念的分类法/主题词表为根底构建"经济学自动或半自动方式获取进化概念及其与本体概念之间的关联,是"经济学领域本体"进化的关键,本文提出分类概率规那么,词素一致规那么和关联度规那么作为发现/建立概念样提高进化概念与本体概念关联的正确度;如何发现具有属分关系的概念关联;怎样在等

28、同,等级,相关关系的根底上增加新的概念关系,以增强领域本体的语义表达能力;怎样获取领域本体公理,实现本体推理功能等等,都需要进一步深人研究和试验.参考文献:技术,2004(7):17222袁媛.领域本体建设的方法论和工具研究:学位论文.北京:中国人民大学,2004:793NoyNF,McGuinnessDL.OntologyDevelopment101:AGuidetotions/ontologydevelopment/ontology101一noy(AccessedFeb.08,2006)4CorehoO,FernandezLopezM,GomezPerezA.Methodologies,p

29、oint?Data&KnowledgeEngineering,2003,46(1):4164馆学,信息科学,资料工作,2005(8):134139作,2005(8):74787王素芳.Ontology与叙词表的融合初探.大学图书馆,2005(1):75788唐静.叙词表转换为Ontology的研究.情报理论与实践,2004(6):642645馆,2004(3):4144,64识,2OO6(12):828511马文峰,杜小勇.领域本体进化研究.图书情报工作,2OO6(6):7174?11.?现代图书情报技术?2007年第3期数字图书馆总第148期l2杜小勇,李曼,王珊.本体学习综

30、述.软件,2006(9):1837一l847guageTexts.Int'lJournalHumanComputerStudies,2004,60(1):1763ECAI2004WorkshoponOntologyLearning.2000. :/o12000.karlsruhe.de/(AccessedMay.30,2006)proachtoAutomaticAcquisitionofDomainRelevantTermsandTheirRelationswithBootstrapping.In:Proc.oftheLREC2002. :/sb.de/feiyu/LRECTermEx

31、traction(AccessedMay.30,2006)tologyLearningandEngineering.IEEEComputer,2002,35(11):6063tems,2003,18(1):2231tomaticExtractionofTerminology.In:Proc.oftheACL'94Workshop"TheBalancingAct:CombiningSymbolicandStatisticalAp-W94-0104.pdf(AccessedJun.3,2006)FOIS.NewYork:ACMPress,2001,270284Bootstrapping.In:Pl'oc.oftheJSCL.Beij

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论