


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于知网的汉语词语词义消歧方法 摘 要 本文提出了一种简单有效的词义消歧方法,该模型充分利用依存文法分析,从句子的内部结构,寻找词语之间支配与被支配的关系,借以确定能够对词语语义构成内在限制的词语。借助知网系统的实体关系,并结合与该岐义词相关联词语的义项,计算歧义词的义项权重,从而根据义项权重大小来判断歧义词的词义。 关键词 词义消歧;知网;自然语言处理;依存句法分析 1 引言 &
2、#160; 自然语言中存在着大量的多义词,如何在给定的上下文中,确定其中各个词语在多个词义中选取正确的词义,是词义消歧所应解决的问题。如果多义词的多个词义之间具有不同的词性,则通过词性标注就可以确定该词词义。所以本文所说的词义消歧,是指如何在词性相同的情况下选择多义词正确词义的问题。 汉语词语的词义消歧开始于上世纪90年代后期,主要是利用词典提供的信息。出现了利用现代汉语词典释义文本、同义词词林、知网中的语义类,对实词多义进行消歧的方法,但是平均正确率并不是很高12。 近年来,随计算机存储容量和运算速度的提
3、高,通过对大规模语料库的利用,出现了许多基于语料库统计的词义消歧方法。使消歧的准确率有了一定程度的提高,但是有些低频词,在语料中出现次数不多,很难搜集到它们的上下文环境,存在着知识获取中数据稀疏以及自动学习算法的参数空间过大问题。 到目前,无论那种方法都没有很好地解决词义消歧问题3。其中一个重要的原因就是词义知识获取中的瓶颈问题,词义消歧知识库的质量已成为词义消歧成败的关键。 本文提出了一种基于知网的汉语词语词义消歧方法,该方法只考虑词汇句法之间的内在关联对特定环境中词义的贡献,借助依存文法分析来找出这种词义关联。假设
4、不存在词义关联的上下文对于歧义词语的特定词义贡献为0,存在语法关联的上下文对词义的贡献相互独立。选择与歧义词汇存在语法关联的上下文作为模型中的特征值,这样做既可以减少无关上下文对词义消歧产生的噪音,又可以大幅度减少计算次数,在提高词义消歧准确率的同时,能够明显提高词义消歧的工作效率。 2 语义资源知网简介 “知网”(Hownet)是董振东先生花费十年时间编辑而成的语义词典,也是一款供自然语言处理工作者免费使用的完全共享软件。知网是一个以汉语英语词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库4。
5、 知网作为一个知识系统,是一个网而不是树。它所着力反映的是概念的共性和个性,同时知网还着力反映了概念之间和概念的属性之间的各种关系。知网知识库主要包括:中英双语知识词典;义原分类源文件;知管理工具;知网说明文件(包括词类表和标识符号说明) 等。本文采用的知网知识库文件主要有经过处理的和。 2.1 义原分类源文件 在知网中,“概念”是对词汇语义的一种描述。每一个词可以表达为几个概念,其中每个词的每一个义项分别对应于一个不同的概念。而“义原”是基本的、不易于再分割的、没有歧义的最小单位。不同的义原组合构成了不同的概念定义。
6、 知网一共采用了1500 多个义原,这些义原分为“Event|事件”等十多个大类、16种关系。在义原关系中最重要的还是上下位关系。 2.2 中英双语知识词典 中英双语知识词典中一共收录了12万多条记录,而每一个词语用一条或多条记录来表示,每条记录的词典信息包括:NO.、W_C、G_C、E_C、W_E、G_E、E_E、DEF八项,例如电脑”一词的概念的记录如下所示: NO.=21902 W_C=电脑 G_C=N
7、60; E_C= W_E=computer G_E=N E_E= DEF= computer|电脑 其中NO.为概念编号,W_C、G_C、E_C分别是汉语的词语、词性和例子,W_E、G_E、E_E分别是对应的英语词语、词性和例子,DEF是知网对于该概念的定义。 3 依存句法分析方法 依存句法是由法国语言学家L.Tesniere 在其著作结构句法基础(1959 年)中提出,对语言学的发展产生了深远的影响,特别是在计
8、算语言学界备受推崇。依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中动词是支配其他成分的中心成分,而它本身却不受其他任何成分的支配,所有受支配成分都以某种依存关系从属于支配者5。 二十世纪七十年代,Robinson 提出依存语法中关于依存关系的四条公理,在处理中文信息的研究中,中国学者提出了依存关系的第五条公理6: 1. 一个句子中只有一个成分是独立的; 2. 其它成分直接依存于某一成分; 3. 任何一个成分都不能依存于两个或两个以上的成分; 4. 如果A 成分直接依存于B 成分,而C 成分在句中位于A 和B 之间,那么C 或者直接依存于B,或者直接依存处于A 和B 之间的某一成分。 5. 中心成分左右两边的其它成分相互不发生关系。 对于第5条公理本方法中并没有采纳,因为当某一个歧义词语恰好出现在中心动词的一侧时,会割断与另一侧词语关联关系,从而影响歧义消除的效果。 4 基于知网的语义消歧过程4.1 语义消歧的体系结构 词义消歧的处理需要完成两个步骤
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 环境数据分析与环境健康影响评估-洞察阐释
- 物流运输与配送管理协议
- 农业合作社菜园大棚承包合作与分红协议
- 2025合同范本机械设备采购合同样本
- 小学三年级英语上册期末试卷(有答案)
- 桐乡项目资料
- 地铁库管考试题库及答案
- lr考试试题及答案
- 超能力视力测试题及答案
- 加州驾考笔试题目及答案
- 辽宁省2024年高中历史1月学生学业水平考试试题含解析
- 2012年重庆物理高考题及答案解析
- 江苏自然资源厅事业单位笔试真题2024
- 茶楼股东合作协议范本
- HG+20231-2014化学工业建设项目试车规范
- HG-T 2006-2022 热固性和热塑性粉末涂料
- 急性胰腺炎护理查房课件
- 肺腺癌:CT征象与病理
- 华盛顿英语介绍课件
- 血标本凝血的应急预案
- MOOC 影视鉴赏-扬州大学 中国大学慕课答案
评论
0/150
提交评论