




已阅读5页,还剩1页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
CCD名词概念组成的调整与优化*本文研究工作得到国家973项目(2004CB318102)、863计划项目(2001AA114210,2002AA117010)以及河南省自然科学基金项目(0211050110)的支持。昝红英1 刘扬2 柴玉梅1 申丰山1 张坤丽11 (郑州大学信息工程学院,河南郑州,450052)2 (北京大学计算语言学研究所,北京,100871) 摘要 语义知识库的构建与不断改进是文本内容理解的基础。本文针对CCD名词概念数据的特点,根据当代中文真实文本信息的词汇特征,提出了CCD名词概念的优化规范以及可行的优化方法,完成了CCD名词概念的初步优化工作,使CCD名词概念中文表示的准确性和完备性得到了显著改善。关键词:中文概念词典 语义词典优化 同义词集合 准确性 完备性The Adjustment and Improvement of the Noun Concepts Component in CCDZAN Hongying1 LIU Yang2 CHAI Yumei1 SHEN Fengshan1 ZHANG Kunli11 (College of Information Engineering, Zhengzhou University, Zhengzhou , China 450052) 2 (Institute of Computational Linguistics, Peking University, Beijing, China 100871) Abstract The Conctruction and the Improvement of Semantic Knowledge Base is the basic of Text Content Understanding. Aiming at the features of noun concepts in CCD and the words in the contemporary Chinese real text, this paper has put forward the criteria and feasible messures to improve the noun concepts in CCD. The authors have finished the elementary optimizing work to about 64000 noun concepts. It has apparently amended the precision and the completeness of CCD.Key Words: Chinese Concept Dictionary, Improvement of Semantic Dictionary, Set of Synonyms, precision, completeness1 引言语义是思维的体现者,是客观事物在人们头脑中的反映。人们在理解文本内容时常常是通过分析其中关键词语的语义概念及其语义关系来得到篇章语义的。为了达到一定的效果,人们对同一个概念往往换用不同的词来表现,一词多义和多词一义造就了自然语言的丰富性与灵活性,同时也给文本内容的理解造成了困难。对语言的理解主要是语义、概念的把握,针对中文文本词语意合的特点,基于词汇的语义概念的研究有着深远的意义,构建内容丰富的语义词典或语义知识库,能够为消歧等语义分析工作提供一定的依据。语义知识库是计算机“理解”语言内容的基础,早在二十世纪初,一些哲学家就开始了语义的形式化研究1,2。进入20世纪80年代,自然语言的形式语义学和计算语义学开始走入计算语言学,这些研究的基础假设是人们对概念、语义、知识的理解有很大的相似性。20世纪80年代中后期,人们开始面向机用的语义知识库方面的研究,目前这方面的主要成果有Princeton大学的WordNet、California大学Berkeley分校的FrameNet以及微软公司的MindNet等,它们主要是以英语为描述对象,不便于中文语义的分析应用;目前中文方面的语义知识库有中科院语言信息中心的知网(HowNet)7、中国科学院声学研究所的HNC8、北京大学计算语言学研究所研制的基于WordNet框架的中文概念词典(Chinese Concept Dictionary, CCD)等3,4。2 兼容WordNet的CCDWordNet是由Princeton大学G. A. Miller教授和Christian Fellbaum教授等人于20世纪80 年代初开始创建的5,6,历时20余年并且还在不断完善之中。由于WordNet概念的形式化描述和概念之间简明的结构,目前已成为事实上的国际标准,其框架的合理性已经被词汇语义学界所公认。WordNet改变了传统词典的组织方式,根据词义而不是根据词形来组织词汇信息。WordNet通过同义词集合(Set of Synonyms, Synset)表示概念,通过概念间的关系描述英语概念之间复杂的网状语义关系,WordNet中的关系指针及其含义说明见附1。其中上位关系(hypernymy relation)是名词(或动词)概念间的主关系,另外还有一些辅助的关系(例如,名词概念间的反义关系、部分/整体关系等,动词概念间的反向假设关系、致使关系等)。WordNet 1.6版本包含四类实词的99,642个概念节点(其中名词概念66025个、动词概念12127个、形容词概念17915个、副词概念3575个)和大约20万对语义关系,形成了一张庞大的英文概念语义网络。为了继承已有的研究成果,与国际标准接轨,北京大学计算语言学研究所于2000年开始构建中文概念词典(Chinese Concept Dictionary, CCD)项目,旨在构造一个与WordNet兼容的汉英双语语义知识库。CCD是一个基于WordNet框架的双语语义词典3,4,11,12,14,它继承了WordNet(1.6版)的主要结构、概念及语义关系,并针对中文特点进行了调整和发展。CCD从关系语义学的观点出发,利用同义词集合表示概念,通过同义词集合间的指针来描述概念间的关系,便于语义关系的表示和检索,有利于简单地实现语义距离的计算,特别是同义词集合(同义关系)、上下位关系、整体/部分关系等的描述有利于概念的分级扩展,可以直接应用于机器翻译、自动文摘、文本分类、概念检索和信息提取等方面的语义理解。CCD的构建,不仅在概念和语义的表示上靠近了国际标准,而且面向中文信息处理,可以直接服务于中文信息检索13、信息提取、文本分类、词汇语义消歧以及汉英机器翻译等应用研究14。3 名词概念的调整与优化社会与技术的发展不断形成新的概念、新的术语,同时对旧的概念进行自然的演化或淘汰,这些概念大多是以名词的形式出现的。在各种词类中,名词在数量上占优绝对的优势,而且名词是一个开放的集合,处于不断变化之中。因此对名词类概念的准确把握是对文本内容正确分析和理解的关键。WordNet中名词的上下位关系形成了名词的概念框架,描述了名词类概念间近于树形的层次关系。从下位到上位,是对概念的抽象和概化;而从上位到下位,是对概念的具体和特化5,6,9。在基于概念的信息检索、文本分类、信息过滤、语义标注等方面有着广泛的应用,特别是其名词概念之间上下位的语义继承性,在名词的语义消歧中有超过60%的消歧率9。因此,从开始对CCD的构建以及目前对概念同义词集合组成的优化工作,我们始终把名词类概念放在首位。尽管存在“人类语言的认知语义结构具有共同性”的假设,但是由于传统习惯、文化背景的不同,中文与英文的Ontology会有所不同,因此就语言中概念与概念间的语义关系,汉语与英语会有一些差别。例如对颜色的描述与区分,不同地区、不同文化背景的人就会有明显的差异3。CCD是一个通用的语义知识库,收词主要依据是构建于20世纪80年代的WordNet,与当代真实中文文本信息中的用词相比,词汇较传统,新词收录量有限,并且不同类别间概念数量的分布以及语义关系层次的分布都有较大的差别,这对CCD的实际应用效果会有一定的影响。北京大学研制开发CCD目标大致可以概括为10:首先得到一个与WordNet兼容性尽可能好的汉英双语CCD,以便采用成熟的WordNet理论、算法和技术直接为语义消歧、信息检索、文本索引、文本分类、文本摘要等应用提供有效的语义知识支持。进而从汉英双语版本中剥离出汉语部分,更多地考虑汉语语言的实际特点,修改现有的语义关系描述并添加新的语义信息,形成完全独立的面向汉语的词汇语义知识库(或称其为狭义CCD),该知识库能对中文信息处理的多数应用提供真实、有效的语义知识支持。受北京大学计算语言学研究所委托,郑州大学信息工程学院计算机系于2004年11月底开始对CCD进行数据校对及深加工等优化处理,目前已完成CCD名词概念的数据校对工作,并根据项目需要开发了相应的自动处理辅助工具。3.1 优化规范根据CCD构建的目标,北京大学对CCD的优化工作提出指导性的原则10,包括成词及词性原则、准确性原则、完备性原则、知识体系原则以及颗粒度原则。目前CCD还处于双语开发阶段,其知识体系原则和颗粒度原则完全适应WordNet框架,不做任何变动和修改。本阶段的优化主要针对成词及词性原则、准确性原则和完备性原则,具体为: 成词及词性原则:特定词性范畴概念的Synset字段中填写的必须是合法的词语,而不能是描述该概念的解释性短语或句子,并且该词语的词性与当前概念的词性范畴一致。 准确性原则:Synset字段中填写的每一个词语,其词义都能相当准确地表达当前概念,而当前概念是由描述性定义和当前概念在整个概念空间所处的位置确定的。 完备性原则:词义能基本准确地表达当前概念的每一个词语,都应出现在当前概念的Synset字段中,而当前概念是由描述性定义和当前概念在整个概念空间所处的位置确定的。3.2 优化方法人工校对的误差是难免的,为了对原有的成果进行有效的保护,减少新错误的引入,郑州大学采用标记数据、分步工作,以保留中间结果的工作方式。同时,带有标记的中间结果还可以用于进一步的分析和统计处理。标记的规范是对CSynset、CDescription以及CNote中的词语进行调整时加上删词或增词标记,具体为: 删词标记A -nWORDn- 删词标记B -WORD- 增词标记 +WORD+其中删词标记A用于Cdescription和CNote的删除处理,删词标记 B用于CSynset的删除处理,这里n为删词的不同依据,分别是:(1). 成词原则 :根据对中文词语的认识,删掉描述性短语、短句等。进一步将利用北大提供的现代汉语语法信息词典、现代汉语词典等语言资源对CCD中CSynset的词进行工具辅助的过滤处理。(2). 词性原则 :对词性不合适的词语进行删除,方法同成词原则。(3). 准确原则 :根据上下位语义概念的约束,参考英文原义的解释(Description),同时为使得直接上下位概念中尽量不包含同形词语,对不合适的词语进行删除。这是CCD优化的主要问题,也是目前的主要工作。在CCD从WorNet的转换过程中,主要集中于英文到中文词对词的翻译,注重尽可能多的引入相应的义项描述用词,缺少对词汇所在概念上下位关系的限制,以致引入了很多不能准确描述对应概念的翻译词,这严重影响了CCD的质量。(4). 完备原则 :删除义项超出所在概念外延的词汇。同时,根据概念表示把那些“稍微”表达了当前概念的含义而此前在CCD中并未出现的词语也收进来,以提高CCD收词的覆盖率。(5). 笔误原则 :删掉由于录入、拷贝等操作引起的别字、错字、同形词语、噪音信息等。(6). 重复原则 :标记完全重复的结点或子树,为今后中文单语版本CCD的改进做准备。该类结点不予删除。(7). 删X原则 :考虑中英文文化差异的进一步分析,针对原来缺少中文对应翻译的结点,如果新增加了中文信息,作特殊的删除标记。(8). 同形原则 :针对同形的名称(人名、地名等),中文不易区别翻译的词语进行标记,留待后续处理。该类结点不予删除。截至目前,项目组已完成CCD中约64000个名词概念的初步优化工作,以WordNet中对原始英文概念的同义词列表、定义解释以及例句特征为基本参考,根据对相应中文概念之间上下位语义关系的理解,对CCD表示概念的同义词集合的选词进行词义准确性的校对与调整,提高了CCD概念表示的准确性,改善了CCD对汉语文化的适应性。本文研究对CCD原有名词概念同义词集合的组成以及概念的定义和例句进行了大量的调整工作,特别是针对上下位语义约束(类别3的错误情况)进行了仔细的斟酌,同时还对原有数据中数字信息缺失、“目前尚未有解释”等情况作了修正,使得数据质量有了明显的改进。3.3 辅助优化工具为了更好的完成CCD的优化工作,提高校对的工作效率,改善复查的操作界面,减少错误的发生,我们开发了CCD优化的辅助工具CCDFilter。该工具采用Visual C+6.0开发,实现了数据库合并、标记过滤以及版本对比等功能。数据库合并模块完成被分割Access数据库的记录合并工作。CCD的名词概念在各个数据库中分布数量有较大的差异。CCD原来的可视化工具VACOL是根据给每结点内部名词概念的上下位树形结构进行数据浏览的,为了保证树结构的完整性,各人校对时需要占有整个结点的数据,这样对于大结点的校对不利于工作进度的并行管理,而多人同时工作又不易保证数据的一致性。因此,对于概念数特别多的大结点,比如团体结点(14group7403)、人物结点(18person6086)等,我们给并行工作的每个成员一份拷贝,并规定各人修订的范围,之后再根据各概念在数据库中的记录编号,严格按照修订范围进行合并,这样既提高了工作效率,又保证了数据的准确性和一致性。标记过滤模块完成校对工作中标记的过滤和统计工作。对修订数据进行不同类别的标记,是为了尽可能多地记录下校对工作中发现的问题,以利于各种情况的分类统计分析,同时,带有标记的修订数据可以作为相关词汇语义研究的基础资源。为了最后提交准确干净的CCD名词数据,该模块将各种标记按照增词或减词规则进行过滤处理。版本对比模块完成修订前后新旧两个版本数据的对比浏览,快速定位发生修订的概念,并对已修订的数据标亮显示。该模块的界面如下图所示。其中显示了结点的上下位树形结构、修订概念的记录位置列表、新旧版本的中英文同义词集合(Synset/CSynset)、定义(Description/CDescription)、例句(Note/CNote)等,同时在此界面下可以进行新版本数据的再次修订,并实现对新修订数据的及时标亮功能。该模块的开发显著提高了修订复查的工作效率,在CCD的校对优化方面对VACOL进行了功能上的扩展,方便了校对人员的使用。4 进一步工作语言是不断发展变化的,中文概念及其词形表示也是持续演化的。CCD的知识表示反映的是汉语的特点,主要面向的也是中文信息处理领域。由于中西方文化、习俗、历史、环境等方面的差异,并非所有WordNet中的概念都能在当代中文的文化背景下找到合适的词汇。特别是网上汉语信息的迅猛发展,对中文信息处理不断提出新的要求:网上的信息检索、信息提取、主题识别、文本分类、自然语言查询以及反黄反黑的信息过滤,成为语言信息处理研究的焦点问题,这些大都涉及对文本内容的语义进行某种程度的分析和理解,而结构合适、信息丰富的语义词典正是文本语义分析的基础资源。因此CCD的不断修订优化是非常必要的,不只是名词概念,动词、形容词、副词等概念也需要进一步的修订优化工作。根据对现代汉语实际应用的理解特别是网上中文信息文本的用词规律,项目组对CCD中名词部分概念增加了同义词列表,丰富了CCD名词概念表示的完备性与共时性,从而增强了CCD对当前真实文本分析的可用性。同时对各种标记类别分布的统计,可以用于分析中英文概念表示的差异,总结词汇语义方面的规律。进一步的优化工作还包括根据其他中文语法词典或语义词典等资源,研究提高自动CCD完备性的策略并开发相应的辅助工具。按照现有WordNet框架和翻译的填写模式,有些表现汉语特色的词语实际缺失,即有一定数量的现代常用词语没有被收录,这将影响CCD在中文信息处理中的实际使用效果。因此,在考虑准确性原则的前提下,对CCD的收词进行自动或辅助扩展,提高CCD的完备性,将对改进CCD的质量、增强CCD应用价值具有重要的实际意义。另外,根据中文信息和汉语文化的特点,不断调整CCD中文概念之间的语义关系及其概念的表示,是CCD优化规范中知识体系原则以及颗粒度原则的具体体现,也是CCD优化工作的后续内容。致谢本文工作得到了北京大学计算语言学研究所俞士汶教授、孙斌博士等多位老师的指导与帮助,同时参与CCD校对工作的还有郑州大学信息工程学院的刘艳芳、何春梅、徐玉峰、王国强等多位同学,在此一并感谢。参考文献1 Wittgenstein, L., Philosophical Investigations, Basil Blackwell Ltd. 19532 Carnap, R., Der Logische Aufbau Der Welt, Felix Meiner Verlag, Hamburg. 19663 Liu, Y., Yu, J. S. and Yu, S. W. 2002. A Tree-Structure Solution for the Development of Chinese WordNet. Proceedings of GWC2002, Mysore, India.4 Liu, Y., Yu, S. W. and Yu, J. S. (2002) Building a Bilingual WordNet-Like Lex
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 不同行业保安技术设备比较计划
- 向学习型组织转型的路径计划
- 2024年贵州省自然资源厅下属事业单位真题
- 软件设计师选拔标准2025年试题及答案
- 2024年甘肃省教育厅下属事业单位真题
- 2025年战略目标与运营风险的交互影响试题及答案
- 山东省青岛十五中学2025届七年级数学第二学期期末教学质量检测试题含解析
- 法学概论摸索与前行试题及答案
- 财务风险对公司战略的影响试题及答案
- 2025届河南省汤阴县七下数学期末预测试题含解析
- 《城市公园配套设施设计导则》
- 卡西欧手表5213(PRG-550)中文说明书
- 老妈是个菜贩子(2022年海南中考语文试卷记叙文阅读题及答案)
- 2023-2024学年山西省卓越联盟高一下学期5月联考物理试题(解析版)
- 高考英语688高频词汇excel版
- 连栋简易温室结构计算书
- 正餐服务业连锁经营模式研究
- 2023年山东济南先行投资集团有限责任公司招聘考试真题
- 预制混凝土盖板合同范本
- 核磁共振硅谱分析方法
- (高清版)JTGT 3222-2020 公路工程物探规程
评论
0/150
提交评论