




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
构建知网关系的网状表示摘要:本文介绍了一个针对知网关系的网状表示结构及其实现方法。通过构建三张数据表:概念表、特征表和关系表,以及建立它们的记录项之间的双向多元联系,可以方便地把知网的所有知识(概念、特征以及它们之间的各种关系)集成在一起,从而为进一步进行基于知网的信息检索和知识推理打下很好的基础。关键词:知网,概念,特征,关系Build a relation network representation for How-netABSTRACT: In this paper, we introduce a relation network representation for how-net and its implementation method. Through the construction of three tables(concept table, feature table and relation table) and the bi-directions, multi-angles connections among them, all the information in how-net can be integrated into a relation network. It provides good foundation for the research of information retrieval and knowledge reasoning based on the knowledge in how-net.KEYWORDS: how-net, concept, feature, relation1 引言 语义分析是自然语言理解的重点和难点。早期的研究人员提出的一些语义理解模型,如语义网和概念依存理论,在一些小型的原型系统中取得了成功。近年来,一些大规模、可计算的语义知识库,包括WordNet1、MindNet2,3、FrameNet4等的开发和利用,为进行大规模的真实文本的语义分析和理解提供了有利的支持。1999年初,中国中文信息学会常务理事董振东先生在因特网上公布了自己的研究成果-知网(How-Net),为自然语言理解提供了一个新的研究资源。目前,对知网的研究还处于初期阶段,香港科技大学利用知网信息进行了汉语语料库的语义标注研究,台湾中央研究院进行了一些基于知网的基础研究,包括:建立事件关系库、角色转换库、典型演员库和基于知网事件框架的中文动词句法5。但实际的研究成果还不多。我们在仔细、深入地分析了知网的基础上,将知网中隐含的各种语义关系全部提取出来,形成关系表,并以此为中心,建立了知网的概念与概念、概念与特征以及特征与特征之间的内在联系,形成一个网状的信息表示结构。 在这个网状表示上,通过任意一个信息人口:如概念项、特征项、关系体等,都可以很方便地访问到与此相关的各种知识,从而为基于知网的信息检索和知识推理提供了很大的方便。2 知网简介知网是一个以英汉双语所代表的概念以及概念的特征为基础的,以揭示概念与概念之间以及概念所具有的特性之间的关系为基本内容的常识知识库。知网系统的哲学是:“世界上一切事物(物质的和精神的)都在特定的时间和空间内不停地运动和变化。它们通常是从一种状态变化到另一种状态, 并通常由其属性值的改变来体现。”因此,知网的运算和描述的基本单位是:万物,其中包括物质的和精神的两类,部件,属性,时间,空间,属性值以及事件6。知网着力描述了概念之间和概念的属性之间的各种关系,主要包括:(1) 上下位关系, (2)同义关系,(3) 反义关系,(4) 对义关系,(5) 属性-宿主关系,(6) 部件-整体关系,(7) 材料-成品关系,(8)事件-角色关系。这些关系隐含在知网的概念词典和各个特征文件描述中,主要包括:1) 词典, 2) 主要特征文件1(以下简称主特1), 3) 主要特征文件2(以下简称主特2), 4) 次要特征文件1(以下简称次特1), 5) 次要特征文件2(以下简称次特2), 6) 次要特征文件3(以下简称次特3), 7) 对义关系表, 8) 反义关系表, 9) 二级主要特征文件17(简称二级主特)。在概念词典中,概念与概念和特征的关系主要体现在每个纪录的概念定义项(DEF项)中。而在各个特征文件中,这些关系则体现在特征的层次组织树、必要角色框架和共性特征描述项中。所有这些,都通过知网提供的知识词典描述语言(KDML)来实现,有关的详细内容可参阅董振东先生的有关论文(6,7)。(表 1 列出了目前知网(99.6从网上下载)的数据文件的基本统计数据。)表 1 知网的基本统计数据数据文件记录/特征数词典62364条概念记录主特1813个特征主特2143条记录次特1119条记录次特2434条记录次特388条记录二级主特1749条记录反义关系表107对反义对义关系表110对对义3 以知网中关系为中心的网状表示3.1 基本设计思想 我们的基本设计思想,是将知网中隐含的各种语义关系全部提取出来,形成关系表,并以此为中心,建立知网的概念与概念、概念与特征以及特征与特征之间的内在联系,形成一个网状的信息表示结构。 在这个网状表示上,通过任意一个信息人口:如概念项、特征项、关系体等,都可以很方便地访问到与此相关的各种知识,从而为基于知网的信息检索和知识推理提供了很大的方便。具体来说,就是设计3张表:概念表、特征表和关系表, 关系表中的每个记录描述了这样一种关系: ,其中关系左项和关系右项分别是一个概念或特征,通过扇入和扇出指针指向概念表和特征表的相应记录位置。而概念表和特征表的每个记录则描述了各个概念项和特征项的基本信息,并通过扇入扇出指针表分别指向以这个概念或特征为关系右项或关系左项的关系表记录。这样,通过各个表中的扇入扇出指针就将这3张表组成一个网状结构(图 1)。为了便于今后添加信息,我们把关系表设计成开放的表示形式,可以根据不同的需要不断增加新的关系表。事实上,在我们目前的处理中,为了便于信息的管理,就把来源于概念词典和特征文件中的关系组织成了两张关系表:概念关系表和特征关系表。特征表概念表关系表图 1 知网信息的网状表示结构图3.2 关系的提取3.2.1 显性关系的提取知网的KDML中使用了一些特殊符号来表示不同的关系(表 2),对此,我们只需简单提取即可。需要注意的是,其中的一个符号往往会表示不同的语义关系,需要在实际应用中加以准确区分7。表 2 KDML语言的关系标识符号说明符号表达意义例子!表示某一属性为一种敏感的属性gas|气 ! odor|气味,#表示与其相关SufferFrom|罹患 # medical|医$“事件-内容(受事,对象,领有物)”关系Tool|用具use|利用%“部件-整体”关系room|房间 % house|房屋*“事件-工具(施事)”关系LandVehicle|车 * VehicleGo|驶+“隐性角色-事件”关系Document|文书 + write|写?“材料-成品”关系tree|树 ? material|材料(“概念-概念词”关系安大略湖 ( US|美国=标注动态复杂概念的特殊动态角色挨 = manner(regular|定期)动态角色的格标记按 AccordingTo&表示指向安 & electricity|电表示空间或时间鞍 sit|坐蹲3.2.2 隐性关系的提取知网中的许多关系是隐含在特征文件和概念词典描述中,通过一些特殊的结构和位置信息体现出来的,如:上下位关系通过特征文件中的缩进层次结构体现出来,而对义关系则通过对义关系表中的两两特征对体现出来。对于这些关系,我们首先定义了一些特殊的关系符,然后通过对不同特征文件和概念词典的特殊处理,把它们提取出来。表 3 列出了这些关系的详细信息。表 3 知网的隐性关系描述符号关系内涵关系表现具体实例U上下位关系特征文件中:首字缩进的特征层次树。在概念词典中,概念定义项的第一个位置。fruit|水果 U plant|植物医生 U human|人A“属性值-属性”关系次特2文件amount|多少 A many|多D对义关系对义关系表appear|出现 D disappear|消失F反义关系反义关系表clear|清 F blurred|浑空格“概念/特征 特殊的属性值”关系概念词典的定义项。特征文件的属性描述项男士 空格 male|男decline|衰败空格 undesired|莠3.2.3 组合关系的提取除了以上关系外,知网中还提供了一些组合符号,来表达两种以上关系的组合含义。表 4 列出了我们目前提取的一些组合关系。表 4 知网的组合关系说明关系符号具体实例#(车头 #( train|火车#*回忆往事 #* LookBack|回想$(私货 $( smuggle|走私%(托管理事会 %( UN|联合国*#(DEF中存在先*、后#组合的概念与事件存在很复杂的动态角色关系,需要将其提取出来)洗衣机:DEF=tool|用具,*wash|洗涤,#clothing|衣物提取出, wash|洗涤 *# clothing|衣物*(暗娼 *( be a prostitute|卖淫=$保外就医 =$cause(cure|医治)=(赴京 =( LocationFin(Beijing|北京)总之,概念和特征的关系蕴含在原始数据文件中,有些是隐式的,有些是显式的。 我们只是从我们能利用到的角度提取了其中一部分,如果需要的话,还可以对原始文件进行更深层次的研究,并提取出很多有其他利用价值的关系。 我们编写的程序就是以开放式、便于添加为原则的,有利于今后更深入的研究和分析。3.3 网状数据表的生成图 2 显示了网状结构生成的基本流程图。首先通过对各个特征文件的规范化处理,从中提取出不同特征的基本信息和特征之间的关系描述,分别加入特征表和特征关系表中;然后从概念词典中提取出每个概念(词语义项)的基本信息加入概念表中,从各个概念的定义项(DEF)中提取出概念与特征、概念与概念之间的关系及其组合关系,加入词典关系表中。最后对这几张表进行排序,以关系表信息为触发设置其中的扇入扇出指针信息,形成一个完整的网状表示。特征文件特征生成树概念词典特征关系表概念表概念关系表特征表知网网络图 2 知网网络的生成图知网网络的生成以提取词典和特征文件中的关系为核心内容。 考虑到今后词典文件的不断完善和扩充,提取关系模块采用了开放式的设计方法,可以方便地修改、更新已生成的网状数据表。 知网网络生成中,关系提取是最关键的,也是我们投入精力最多的地方。我们力求提取出的关系够用、实用。如果今后研究中感觉到关系不够细,还可以继续添加和整理。我们对特征和概念中的不同关系的处理方式是统一的,实现了今后在同一接口下的继续添加。3.4 知网信息的检索检索才是我们的最终目的。 只有实现了在知网上的信息检索,才能说知网的利用价值体现出来了。 我们的检索是以关系为主的检索。 就是说无论从概念表,特征表还是直接从关系表入手,都必须通过检索关系表来达到目的。具体来说,就是通过两个关系表的扇入,扇出单头指针联系概念表和特征表,再通过概念表和特征表的扇入,扇出多头指针联系到更多更广的范围,直到相关联的特征,概念,关系都已经被检索过了。关于检索的方式和内容,还是有很多研究价值的。它取决于知网网络的用途。但无论是以何种方式检索任何内容,关系表是最主要的。只有不断完善关系表,才能提高检索的效率和准确率。4 分类统计数据利用上节介绍的方法,我们对目前的知网版本(99.6)进行了处理,得到了4张数据表,以下是一些基本的统计数据。l 特征表中无重复的特征项数目: 1534个l 概念表中的概念项数目(包括一词多义,算多个概念): 62364个l 从特征文件中提取出的关系数目: 2378组,频度分布情况见表 5。表 5 特征文件中的关系统计表%关系!关系+关系$关系*关系空关系317228292129#关系F关系D关系?关系A关系U关系1682142203267851093l 从概念词典中提取出的关系数目: 144618组,频度分布情况见表 6。表 6 概念词典中的关系统计表#*关系+关系$(关系*(关系#(关系%(关系? 关系22492465572关系*#关系$关系关系(关系&关系%关系694117916351702175829663189=关系*关系#关系空关系U关系4488463175935242561680l 各表的扇入扇出数目(即相关联的特征或概念数目) :表7 扇入扇出数目统计表表名特征表概念表特征关系表概念关系表最大扇入数1053378011最大扇出数59811最小扇入数0010最小扇出数0000总扇入数14474318462379144608总扇出数35581434292377144212总记录数1538623642379144614平均扇入数94.10.0311平均扇出数2.32.3115 知网处理中遇到的困难和解决1) 数据格式不规范由于我们是在董氏系统的数据文件的基础上进行的研究和开发,而董氏系统刚刚完成,其数据文件存在一些错误和混淆,而且我们的研究是要将董氏数据文件转换为计算机便于处理的格式,所以需要作很多修改工作。 在我们的正式研究之前,我们首先将原始数据文件改写为有统一格式的文本文件,以缩进空格和标识符表示层次。 在研发过程中,我们又陆续找到了几十处原文件的错误,并一一标注并修改了。 估计董氏系统的下一版中会作相应的修改。2) 数据量大语义理解领域的研究离不开大量的语料库,对语料库海量数据的处理关系到今后查询等操作的效率。 具体到知网系统,由于有深入语义层次的关系,避免了庞大的语料库,但是,它的语料库仍然很大。 其中有6万多条概念,15万条关系。 这样对查询,排序等工作的效率要求比较高。 我们从研究开始就注意到了这个问题,并在工作中一直以提高效率的算法为首选。 象排序,我们就用了一些C语言自带的高效函数;查找,我们努力实现了折半查找和一次查找3张表,避免了大量的磁盘-内存交换。3)4个表之间的关系复杂我们得到的4张表是知网网络的有机组成部分,它们之间的关系密不可分,缺一不可。 4张表之间的关系复杂多样,有一对多,多对一,一对一,甚至有一对两个表中多个记录的。为了表示和实现这些复杂关系,我们采取了不同符号对应不同表,多级链表表示多个关系的方法,清楚的表达了网络的信息,并且便于今后的开发。6 结语本文介绍了一个针对知网关系的网状表示结构及其实现方法。通过构建三张数据表:概念表、特征表和关系表,以及建立它们的记录项之间的双向多元联系,可以方便地把知网的所有知识(概念、特征以及它们之间的各种关系)集成在一起,从而为进一步进行基于知网的信息检索和知识推理打下很好的基础。 知网的信息化是去年才出现的一个全新的课题,我们目前也只是有了一些不太成熟的想法和初步的尝试。 但我们认为,它的深入研究和开发必将对自然语言理解的研究产生重大的影响。目前,我们正在不断完善知网中的关系,同时,对知网上概念的检索也在研究中。我们以为,知网中关系的提取和概念在知网中的检索必然对其他领域的研究工作提供具体而有效的支持。参考文献1. Miller G. (1990) Wordnet: An
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水管所业务大讲堂课件
- 水稻第三期课件
- 农副产品加工设备维护与保养方案
- 水痘相关知识
- 造型基础色彩构成设计83课件
- 2025版猎聘服务专项合作协议(初创企业)
- 二零二五年度房产物业管理服务协议书
- 2025版影视公司离婚协议与版权及收益分配合同
- 2025版宾馆房间租赁合同及商务会议服务协议
- 2025版金融科技公司法律风险评估顾问协议
- 餐饮店品牌授权使用合同范本
- 学堂在线 走进医学 章节测试答案
- 蔬菜温室大棚项目可行性研究报告书书
- 闵行区2024-2025学年下学期七年级数学期末考试试卷及答案(上海新教材沪教版)
- 八大特殊作业管理培训
- 费用报销合规培训
- 义务教育科学课程标准(2022年版)
- Q-GDW11628-2016新能源消纳能力计算导则
- 十五五文物规划思路
- 2025年修订版《雇佣合同》全文
- 公安宣传工作管理制度
评论
0/150
提交评论