(计算机软件与理论专业论文)计算机汉语理解的初步实践.pdf_第1页
(计算机软件与理论专业论文)计算机汉语理解的初步实践.pdf_第2页
(计算机软件与理论专业论文)计算机汉语理解的初步实践.pdf_第3页
(计算机软件与理论专业论文)计算机汉语理解的初步实践.pdf_第4页
(计算机软件与理论专业论文)计算机汉语理解的初步实践.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机软件与理论专业论文)计算机汉语理解的初步实践.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 m a j o r i t y t i t l e : a u t h o r : t u f o r : a b s t r a c t c o m p u t e rs c i e n c ea n dt h e o r y c o m p r e h e n s i o n o fc h i n e s ea r t i c l ei nc o m p u t e r z h u q i n j u n y a n g o u o w e i t h i st h e s i s m a i n l y d i s c u s s e dt h e d e s i g n i n gt h o u g h ta n d i t s r e a l i z i n gm e t h o do f c o m p r e h e n d i n g c h i n e s ea r t i c l ei nc o m p u t e r i ti n c l u d es i xc h a p t e r s : c h a p t e rli n t r o d u c e sm eb a c k g r o u n da n d f u n c t i o n so fc h i n e s e a r t i c l e c o m p r e h e n s i o ns y s t e m c h a p t e r 2d i s c u s s e st h er e s e a r c h s i t u a t i o no nt h e c o m p r e h e n s i o n o fn a t u r a l l a n g u a g e a l lo ft h e w o r l d c h a p t e r3d e t a i l e d l y i n t r o d u c e st h ei m p o r t a n c eo ft h e r e p o s i t o r yw h i c h i su s e di r lt h ec h i n e s ea r t i c l ec o m p r e h e n s i o ns y s t e m i td i s p l a yt h em e t h o d st od e s i g na n d c o m p l e t e ar e p o s i t o r y c h a 【p t e r4 d i s c u s st h em o s t i m p o r t a n t a n dd i m c u l t p a r t s o fo u r p r o g r a m : c o n f i r map r o n o u n r e p r e s e n tw h i c hn o r m b e f o r ei t i nc h a p t e r4 ,w e d i s o l a yt h em e t h o d s t os o l v et h i sp r o b l e ma n dt h er e a l i z a t i o no ft h e m i nc h a p t e r5 w em a i n l yd i s c u s sh o wt oa n a l y z ea i la r t i c l em o r e e m b e d d e d l y i ti n e l u d e st ot w op a r t :o n ei sh o w t oa s c e r t a i naa r t i c l e s t h e m e t h eo t h e ro n ei sh o w t op i c ku pu s e f u li n f o r m a t i 0 1 1 行u mt h e a r t i c l ei nc h a p t e r6i r r t r o d u c en l ec h a r a c t e ro ft h es o f t w a r e f i n a l l y , i nc l o s i n gc o l l l n l e n t s ,w ec o n c l u d et h ep r e v i o u sd i s c u s s i o n ,p o i n t s o u tt h ed r a wb a c ko fo u rp r o g r a ma n d s u b m i t ss e v e l a l p o s s i b l e s o l u t i o n s k e y w o r d s :r e p o s i t o r y | l a n g u a g e c o n t e x t s e m a n t i c s 摘要 学科专业:计算机软件 论文题目:计算机汉语理解 硕士生:朱钦隽 导师:杨国纬教授 本论文主要是研究利用计算机分析汉语文章。在论文中,详 细介绍了计算机汉语理解的算法思路和具体实现。本文一共包括 ,、早。 第一章主要是介绍开发本系统的背景和系统的功能。第二章 。o 介绍了国内外关于自然语言理解的研究情况、取得的理论成果和 和嚆争件成果。第三章主要讨论了知识库在汉语理解中的重要性,以 及如何设计和建立知识库。第四章讨论了该系统中最重要的部分: 如何解决汉语中存在的代词指代的问题,提出了一套基于规则和 可信度的解决方法。第五章更进一步讨论如何对文章进行深入的 语义分析,重点在于确定文章的主题和有用信息的提取。第六章 主要介绍了软件的特点和使用方法。最后,我们在结束语中,对 前面各章的论点进行了一个总结,对存在的不足之处,提出了可 能的解决方案。 关键词:知识库语境语义 再i j吾 从汁算机诞生之目起,人们就幻想着汁算机能够与人类交流, 能听懂人的谚行读懂人的文章。人们直在为之努力,并取得了 丰硕的成果。人与计算机交流的手段由最初机器语言、汇编语言 到现在的高级语言;从命令行界面到图形界面经历了翻天覆地 的变化。但尽管无数先行者付出了许多心血,要让计算机能理解 人类的自然语言,这一理想的实现还尚需时日。 目前,随着计算机的普及和计算机技术的突飞猛进,计算机 语言学正成为研究的热门之一许多研究人员和机构都以很大热 情投身其中,并不断有重大成果产生。许多新科技、新发展也是 建立在计算机语言学的基础上面的,如现在已曰臻成熟的语音识 别系统、市面上流行的英、汉、目、法四国语言互译系统以及以 句子为基础的汉语输入法等等。尽管都不太成熟并有其不尽如人 意之处,但相对于以前,已经取得了很大的进展。 在中国,无数前辈,包括计算机行业和语言学行业,为了让 计算机能理解处理汉语,进行了不懈地努力。他( 她) 们使我们 悠久的民族文化和现代的高科技结合在一起,为弘扬民族文化做 出了不可磨灭的贡献。但不可否认,在汉语的计算机理解方面, 和其它的西方语言相比,我们的起步比较晚,人力,物力方面也 相对不足,并且在理论方面多半是套用西方的理论,不符合汉语 的特点:所以我国的自然语言理解的研究水平更国外有较大的差 距。时不我待,我们必须迎头赶上,方能使我们不再在这方面留 下遗憾。 本项目致力于计算机汉语理解的尝试,以期在汉语的计算机 分析方面取得一定的阶段性成果。经过一段时间的努力,本项目 能够让计算机对比较工整规范的文章进行简单的理解和信息提 取。并能够有效地进行一定的人机交流。我们希望这些成果能够 在以后更深入的探讨中得到应用。 第一章汉语理解系统概况 1 1 背景介绍 本课题组开展计算机汉语理解方面的研究已有数年。目前初 步形成了一个汉语理解系统的框架雏形,本文所述的内容是其中 的一部分。整个汉语理解系统包括以下几个部分: 分词与词性标注系统:主要功能是对用户输入的文章进行处 理。把连续的不间断的汉字字符串分割成一个个的、单个的词语 并为每个词标注上相应的词性。该系统以机械分词法为主,并在 传统的机械分词法的基础上做了很多改进,结合了多种分词法的 优点,在不需要知识库的支持下,就能快速准确的完成分词和词 性标注功能。 句子成分划分系统:对前一级系统的输出做处理。主要是根 据每个词的词性以及它在句中的位置,根据一些特殊的句型和固 定搭配来确定每一个词在句子中所充当的句子成分,并将充当相 同成分的词合并在一起。该子系统也不需要知识库的支持,判断 的主要依据是词性、句型和固定搭配。 汉语理解系统:是整个汉语理解系统中非常关键的部分。前 面两个子系统都没有涉及到语义分析和语境分析。而在这个系统 中将引入知识库的概念,并开始对文章在前面所做的词法分析和 语法分析的基础上进行语义分析和语境分析。该系统调入第二个 子系统的输出,并打开知识库作为分折过程的支撑环境。首先察 看文章中的句子是否有省略的成分,对能够填补的省略成分先进 行填补。接着对文章中的所有代词查找其指代对象,同时确定文 章主题及其切换情况,最后提取文章中有用的信息。通过努力, 现在该系统已实现上述功能,可以说是初步达到了理解一篇文章 的目的。 4 1 2 系统功能 本论文主要讨论第三个模块:汉语理解模块。该模块主要对 前一级模块产生的数据库进行处理,先补足能够补足的句子省略 部分,调入知识库;再对文章进行代词的指代处理,同时确定文 章的主题切换情况,完成对文章的初步理解;对初步理解的结果 进行进一步的加工,提取有用信息。该系统的功能能够细分为以 下几部分: 1 2 1 知识库管理功能 本系统需要一个庞大的知识库作为支撑,所以需要一个知识 库管理软件来管理知识库,完成知识库的建立、内容的修改、添 加、删除和保存。该系统现在使用的知识库拥有大概2 4 0 0 多个词 汇,运用该程序能快速方便的完成上述功能。 1 2 2 数据库的管理功能 本系统的输入是上一个模块产生的数据库,为了能更好的分 析程序的运行情况趣执行结果的正确与否,还提供了相应的数据 库接口和用户界面彳f 是用户能够直接观看数据库中的原始数据, 便于用户评价程序运行的结果。 1 2 _ 3 寻找代词指代的对象 在理解汉语文章是首先遇到的问题是:汉语文章中存在大量 的代词,应先确定每个代词究竟指代的是前文中的哪个词,否则 就无法把整篇文章的意思连贯起来,对文章的理解更无从谈起。 而由于汉语的特点,使得代词的指代很难确定。本系统在此处花 了很多的时间和精力,是本系统的一项十分重要的功能。 1 2 4 文章主题的处理 在完成对文中代词指代的过程的同时,系统还会对文章的当 前主题进行处理,先确定每个句子的可能主题队列,然后确定每 个句子的当前主题,由此可看出文章的主题变化,这对文章信息 的进一步处理非常有用。 1 2 5 文章信息的提取和简单问题的回答 在完成以上的处理步骤以后,系统就为文章初步建立了语境, 于是就可以从文章中提取有用的信息并回答一些有关文章晌简单 问题。 1 3 系统结构图 圈1 1系统架构图 从上图中可以看出:系统调用数据库存储模块存取数| 【l ;库。 的数据。文章处理模块完成代词指代的查找和主题的确定功能: 并能够从文章倍。息柏提取有用的信息,用于简单问题的回答。 用户界面可以允许用户对文章处理的过程进行人工干预。 系统可咀根据人工干预调整内部参数,使系统的处理更适应正在 处理的文章。 7 第二章自然语言理解研究的现况 2 1 概述 什么是理解? 计算机做到怎样的地步算足理解了文章? 这一 直是人们争论的焦点。下面我们看两种比较有代表性的看法: 1 “通常所说的计算机理解了某些事件,实际上是把这些事件 的一种表现形式转换为另种表现形式,每种表现形式对应这一 组动作。为了得到关于理解的总体描述,通常是将语言看成是源 语言和目标语言的二元组,二者存在着映射汉语理解一般可 以分为以下步骤:原文输入、句子词语切分及词语词性标注、语 法及句法分析、语义和语境分析、生成目标形式表达、语群及篇 章理解等。” 2 满足以下三个条件才算计算机理解了一个句子: a “计算机能正确地分词” b “计算机对分出的每个词,能够确定该词的解释和属性” c - “区分出表示实体的体词,通过谓词、虚词弄清楚诸体词 之间的关系”。 从以上的观点中我们可以得出以下的结论:无论是上述哪种 观点都认为汉语理解不可避免地涉及到知识的表达、语言表达形 式的转换以及文章中深层关系和联系的发掘等方面。在本文所介 绍的系统中主要涉及到知识的表达和文章深层关系的发掘。 2 2 国外关于自然语言理解方面的研究 国外( 特别是欧美) 在自然语言理解方面的研究起步较早, 同时也投入了较多的人力物力,所以水平比国内高,并且产生了 很多有影响的理论。下面将介绍一些比较著名和常用的理论,其 中部分理论在本系统中被采用。 转换生成法:1 9 5 7 年美国人nc h o m s k y 创建。 它用语言生成方法去研究形式语言,把句子的 4 结构分为深层结构和表层结构。在nc h o m s k y 的语法中基本上完全抛弃了语义、语境等方面 的知识,只局限在一个形式化的机制上,因此 很难确切的描述自然语言。 依存语法:1 9 5 9 年法国语言学家l u c i e nt e s n i e r e 提出。他主张动词作为一个句子的中心,支配 其他成分,而它本身不受任何其他成分的控制。 这种语法是有方向性的,常常是个词支配另 一个词,这种支配与被支配的关系体现了句子 中词的关系。 格语法:1 9 6 8 年f i l l m o r e 提出。其核心思想是, 句子的深层结构由命题和情态组成。其中命题 部分由一个动词与若干个名词性短语构成。每 个名词性短语以某种关系与动词相联系,这种 关系称为“格”百“它们是格语法研究的核 心”。常见的格有,笑事格、受事格、工具格等 等。格语法容易实现,而且揭示了一些新的语 言现象,所以受到广泛的重视和使用。在本文 介绍的系统中也使用了格语法。 语料语言学:近几年来,在国际范围内掀起了 语料语言学的研究热潮。它研究机器可读的自 然语言文本的采集、储存、检索、统计、语法 标注、语法语义分析以及具有上述功能的语料 库在语言定量分析、辞典编纂、作品风格分析、 自然语言理蜥口机器翻译等领域的应用。富士 通公司曾经硼b 大合作对一年的人民日报作了 词语的切分、标注和检索的工作 另外还有很多计算语言学家和学者在该领域提出了新方法、 新思路和新理论,不断的推动着计算语言学的发展。尽管国外计 算语言学的研究开展较早,成熟的理论框架也较多,开发的实验 系统也不计其数,但到目前为止,距离真正的使用要求还有较大 的距离。 2 3 国内关于自然语言的研究 国内关于自然语言的研究始于5 0 年代末。与国外帽比,困内 在自然语言理解方面较为系统的研究成果并不多。这是因为我国 的自然语言理解的研究必然以汉语为研究对象。而我国传统的汉 语研究并不是以计算机处理汉语为目的的,国外在该领域的成果 对汉语显然不太适合,因为汉语有其特殊性: 2 3 1 汉语的特点 a 汉语的书写是不分词的,而且词没有形态的变化。这就给语 法分析带来了麻烦,所以汉语多了一个分词的过程。而分词又往 往不能达到百分之百的准确性,这将对后继的处理带来很大的麻 烦。 b 汉语在构词方法上主要是词根复合法,而不是词缀派生, 缺乏形态标示,主要以语序和虚词表示各种语法关系。汉语的形 态不发达,增加了语言的表层对语义的依赖性,所以,汉语的句 子成分的语法作用强烈依赖于该成分的意义。 c 汉语句中语法分析结果往往与语义分析结果意见不存在一 一对应关系( 如:中国队打败了美国队、中国队把美国队打败了、 美国队被中国队打败了) 。这使得汉语的语法分析和句法分析很难 为语义分析服务。 d 汉语的省略现象非常普遍,不仅主语、宾语可以省略( “吃 了吗? ”,就省略了主语:你和宾语:饭) ,定语也常常省略( “尝 尝( 我烧的) 肉味道如何? ”) ,甚至来中心词也省略( “尝尝我烧 的( 肉) 味道如何? ”) 。这使得汉语理解中更强调语境知识的应用。 e 汉语是“意合”性语言,强调“意”,而不强调“型”,所 以在汉语分析的各个层面都存在着严重的歧义。 如分词阶段:“下午学生会讨论这个问题”应该分为“下午学 生会讨论这个问题”还是“下午学生会讨论这个问题”。 如在词义方面:“东西”这个词就能在不同的上下文中演变出 很多不同的意思、甚至是截然不同的意思。 o 到百货公司买东西。一物t 试 这条街东西走向。一方位 你这个可爱的小东西。一爱称 这人真不是个东西。贬义 还有一个更加奇特的例子 把纸扔在地上。 把纸扔在地下。 把纸埋在地下。 第一、二句l 中的“地上”和“地下”是一个意思。而第二、 三句中的“地工”又是恰恰相反。这也说明了在汉语分析中词法 分析和语法分析都远远没有英语中大,也说明了汉语分析中语境 和语义知识的重要性,以及语法分析与语义分析的不一致性。 2 _ 3 2 计算机汉语理解的发展历程 我国早在t 9 5 6 年就开始了俄汉机译的研究,并于1 9 5 9 年取 得了成功。但当时采用的技术是词对词直译和模式匹配,没有使 用语法分析和语义分析,更谈不上汉语理解了。我国真正开始计 算机汉语理解是在7 0 年代,经过2 0 余年的研究取得了很大发展 和丰硕的成果。归纳起来经历了以下几个阶段: a 以语形分析为主基于语法规则的早期阶段 早期的研究主要集中在对句子的形式的描述和分析上。这些 探索基本上都是基于转换生成法、扩充转移网络等语法理论,注 重汉语句子的语形分析,相对忽略了语义分析,功能较弱,适用 范围受限,要么只能处理有限的几种句型,要么只能适用于某一 特定的领域。 b 注重语义分析的中期 从8 0 年代开始,在总结前期的成果和引入国外的先进理论的 情况之下,我国的自然语言理解研究的重点逐渐转移的语义分析 上。先后提出了一些适应汉语特点的语义分析和语义表达理论。 但如何把语义知识用逻辑的方法组合起来一直是学者们苦苦思索 又未能解决的问题,这也限制了语义分析的广泛应用。 c 基于语料库统计方法的近期 我国基于语料库的汉语理解研究方兴未艾目前正处于初期 探索阶段。根据对语料库加工的程度可把语料库分为:生语库( 未 经处理过) 、一级语料库( 经过分词处理) 、二级语料库( 经过词 性标注) 、三级语料库( 经过语法标注) 等等。利用各级语料库可 以完成自动分词、自动建立知识库、自动统计字、词、短语、句 子的使用及关联频率等工作,然后可以将这些统计数据有效的应 用到汉语句子理解中去。但语料库知识的数量以及知识类型的覆 盖面都直接影响着统计数据的真实性和普遍性。 d 基于统计和规则并举的现阶段 基于规则的方法是一种唯理主义的方法,本质上是一种确定 性的演绎推理方法,其优点在于根据上下文对确定性事件能充分 应用已有的理论和学术成果;但对于语言这种充满灵活性和不确 定性的东西就显得苍白无力了,同时规则之间的兼容性和适用范 围都很难确定。而基于统计的方法是一种经验主义的方法,其优 势在于它的全部知识是对大规模语料库的加工、分析后提取的, 有很好的一致性和很高的覆盖性,以它为依据对语言进行处理有 比较客观的数据依据和可靠的质量保证。但这种统计学的方法必 然会忽略小概率事件的发生。两种方法各有优缺点,在分析中把 两种方法结合起来不失为一种上佳的方法。 2 4 计算机汉语理解研究的主要成果 通过2 0 多年的不懈努力,我国的自然语言理解的研究水平有 了很大的进步,并取得了丰硕的成果,大体可以总结如下: a 机器翻译:以冯志伟教授为代表的计算语言学学者早期在 机器翻译研究方面做了大量的工作,并总结出了不少珍贵的经验 和方法,为后来的计算语言学研究奠定了基础。 b 语料库研究:清华大学的黄昌宁教授领导的计算语言学实 验室,主要从事基于语料库的汉语理解。近年来,在自动分词、 自动建立知识库、自动生成句法规则、自动统计字词的使用和关 联频率方面做了大量的工作并发表了不少很有价值的论文。 c 语篇理解研究:东北工学院的姚天顺教授和哈尔滨工业大 学的王开铸教授等在计算语言学的语篇理解方面的研究也取得了 一定的成就。 d 概念层次网络:中科院的黄曾阳先生在自然语言研究当中 通过长期的探索和总结,在语义表达方面提出了“概念层次网络” 理论。这个理论框架是以语义表达为基础,并以一种概念化、层 次化和网络化的形式来实现对知识的表达,这一理论的提出为语 义处理开辟了一条新路。 e 受限汉语:北京信息工程学院的周锡令教授主持的受限汉 语的研究为自然语言理解提出的一种新的思路。他认为短期内计 算机还很难做到真正的理解自然语言,在继续对自然语言理解方 面进行研究的同时,应该研究受限的规范的汉语,这样可以让研 究成果较快的实用化。 f 知网:由董振东先生提出的一种汉语知识表示方法。知网 把客观世界看作是有很多的概念构成。概念与概念之间有各种各 样的关系,这些关系相互交织就构成了一个网。要表示一个客观 世界,就是要确定这些概念、概念的属性以及概念之间的关系。 2 5 本系统所采用的技术 在此处结合上面对自然语言理解的有关理论的介绍,将要谈 一下本系统所使用的技术。本系统是在前两个子系统的词法分析、 句法分析的基础上对文章进行理解,所以不可避免的要进行语义 分析和语境分析,也就必然要使用知识库来对知识进行表达。本 系统所用的知识库的设计是在参照董振东先生的知网的基础上, 根据本系统的特点加以修改而成。数据库管理软件由我编写,内 容在其他同学的帮助下录入,现在该知识库中有2 4 0 0 多个常用词 汇。 在分析中该系统采用了规则和统计规律相结合了方法。对常 见的语言现象进行了归类总结,并制定了相应的规则。但规则之 间发生冲突时,有规则的可信度来解决,而规则的可信度来源于 我们对相应语言现象的统计。系统中,优先级的初始分布适合于 比较规范和工整的文章。在对风格比较特殊的文章进行分析时, 可信度的初始值就不太适合了。这时,可以让程序运行在用户干 预方式下,程序会根据用户的干预情况自动调整相应舰则的优先 级。使得优先级的分布适合于正在分析的文章。 j 4 第三章知识库及其建立 3 1 概述 在上面的介绍中我们看到,由于汉语独特的性质和使用习惯, 计算机汉语理解非常依赖于语义分析和语境分析,而要进行语义 分析和语境分析就不可避免的要建立知识库,而且知识库的规模、 知识的表达方式、知识的覆盖范围都直接影响到系统的运作方式 和分析的效果。而建立知识库的关键是知识颗粒的大小和知识的 表示方法。 设计者都希望知识库包括尽量多的内容,所以知识颗粒的越 小越好;但这又意味着大量人力物力的投入和巨大的存储开销, 还要付出搜索的时间代价;所以知识颗粒又不能过小。如何在保 证足够的知识的前提下,缩小知识库的体积这一直是学者们苦苦 探索的问题。 知识的表达方式相对而言就更加重要了,它可以直接影响到 知识库的内容和知识颗粒的大小,以及知识库的使用方式。可见 知识库的设计是整个系统成败的关键,占有举足轻重的地位。在 本章我们就要详细阐述本系统中知识库的设计与实现。 3 2 知识库的设计 3 2 1 概述 在设计该系统的知识库时,我们参考了很多现有的设计,吸 取了其中大量有益的思想和概念,其中董震东先生的“知网”对 该知识库的设计和实现有很大的影响。 要掌握好该知识库,必须首先了解知该知识库中属性的概念。 其根本点是:世界上一切事物( 物质的和精神的) 都在特定的时 间和空间内不停地运动和变化。它们通常是从一种状态变化到另 一种状态,并通常由其属性值的改变来体现。试以人为例,人的 生老病死是一生的主要状态。这个人的年龄( 属性) 一年比一年 大( 属性值) ,随着年龄的增长头发的颜色( 属性) 变为灰白( 属 性值) 。另一方面,一个人随着年龄的增长他的性格( 精神) 变得 日益成熟( 属性值) ,他的知识( 精神产品) 愈益丰富 属性值) 。 关于对属性的认 只是:任何一个事物都一定包含着多种属性, 事物之间的异或同是由属性决定的,没有了属性就没有了事物。 人有种族、肤色、性别、年龄、性格、会思维、会使用语言等自 然属性以及国籍、出身、职业、贫富等社会属性。在某些特定的 情况下可以说属性比事物更重要,这一点在人们的曰常生活的替 代活动中可以得到体现。如:当我们要把一个钉子钉到墙上,但 我们没有锤子,于是我们要找锤子的替代物,那么什么是锤子的 替代物呢? 那应该是属性最接近锤子的属性的物品才可能是替代 物,而这时重量和硬度是关键性的属性。属性和它的宿主之间的 关系是固定的,这是说有什么样的宿主就有什么样的属性,反之 亦然。属性与宿主之间的关系同部件与整体之间的关系是不同的。 这也体现在知识库在涉及属性的标注规范上,知识库规定在标注 属性时必须标注它可能的宿主的类型。知识库还规定在标注属性 值时都必须标注它所指向的属性。 在该知识库中另一个重要的概念就是“网”。作为一个知识系 统,它是一个网而不是树。它所着力要反映的是概念的共性和个 性,例如:对于“医生”和“患者”,“人”是它们的共性。在知 识库中描述了“人”是他们的共性,那么“医生”的个性是他是 “医治”的施事,而“患者”的个性是他是“患病”的经验者。 对于“富翁”和“穷人”, “人”是它们的共性。而它们的个性, 即:“贫”、“富”等不同的属性值,则是它们的个性。这个网也表 现了知识库中不同词之间的关系。而这个网的建立已通过确定知 识库中每个词的标记来建立。 3 2 2 知识库中存在的关系 总的来说,知识库中描述了下列各种关系: ( 1 ) 上下位关系 ( 2 ) 同义关系 ( 3 ) 反义关系 ( 4 ) 属性一宿主关系 ( 5 ) 部件一整体关系 ( 6 ) 材料一成品关系 ( 7 ) 事件一角色关系 上下位关系反映了知识库中词的共性,这种上下位关系源于 类似于面向对象设计中继承的概念所有的词都在为数不多的几 棵树中有一个确定的位置。在树中子接点拥有父接点所有的属性, 而且位于该接点的词都有这样的属性。图3 l 为知识库中实体树 的一部分。由它可以很容易地理解上下位的关系在本知识库中, 上下位关系在每个词的“基本特征”中标记。 知识库的其他关系在词条的“标记”域说明。通过这些关系, 知识库中概念就彼此构成了一张网。图3 - 2 就简单的说明这样的 一张网。 图3 2 该知识库的一个重要特点是:同义、反义关系是逐一地、 显性地标注在各个概念之上的。通过标记中的同义词域就可 以找到该词的所有同义词;通过反义词域就可以找到该词的 所有反义词。 3 2 3 知识库的格式 在知识库中每一个词语的一个概念及其描述形成一个 记录。每一个记录都主要包含6 项内容。它们是: 词语 词语词性 基本特征 标记 同义词 反义词 其中基本特征和同义词、反义词在前文中已经有了详细 的讨论,在这里主要介绍标记。标记是在基本特征的基础上 对该词的一个词义( 即个概念) 进行更进一步的详细标注 它反映了该词的个性。它采用义原和一些前缀。 义原是在汉语理解中意义的最小单位,是不可再细分的。 什么是义原,跟什么是词一样的难以定义。但是也跟词一样 并不因为它难于定义人们就无法把握和利用它们。大体上说, 义原是最基本的、不易于再分割的意义的最小单位。例如: “人”虽然是一个非常复杂的概念它可以是多种属性的集 合体,但我们也可以把它看作为一个义原。我们设想所有的 概念都可以分解成各种各样的义原。同时我们也设想应该有 一个有限的义原集合,其中的义原组合成一个无限的概念集 合。如果我们能够把握这一有限的义原集合,并利用它来描 述概念之间的关系以及属性与属性之间的关系,我们就有可 能建立我们设想的知识系统。利用中文来寻求这个有限的集 合,应该说是个捷径。中文中的字( 包括单纯词) 是有限的, 并且它可以被用来表达各种各样的单纯的或复杂的概念,以 及表达概念与概念之间、概念的属性与属性之间的关系。 由于时间的关系,我们没有把主要精力花在义原的提取 和确定上。在参考有关资料的基础上,并加入了自己在汉语 理解中的经验和体会,我们决定直接使用知网中的义原。以 事件类为例,大概有8 0 0 多个事件义原的标注集用来标注中文 的事件概念。 前缀表示了概念与义原的关系。知识库中的网就是通过 这样的关系确定的。下表3 1 是几个常用前缀: 表示“与其相关” 表示“足其部分” 表示“可以被该v 处置,或足该“v ”的受事,对象, 领有物,或者内容 表示“会v 或主要用于v ,即施事或工具 表示指向 表示多半是,多半有,很可能的 表示可以做“v ”的空间或时问 表示可以是“n ”的材料,如对于布匹,我们标以“? 衣 服”表示布匹可咀是“衣服”的材料 ( 1 ) 对于v 类,置于 中的是该类v 所有的“必备角 色”。如对于“购买”类,一旦它发生了,必然会在实际 上有如下角色参与:施事,占有物,来源,工具。尽管 在多数情况下,一个句子并不把全部的角色都交代出来 ( 2 ) 表示动态角色,如介词的定义 表示不存在,或没有,或不能 表示某一属性为一种敏感的属性,例如:“味道”对于“食 物”,“高度”对于“山脉”,“温度”对于“天象”等 标识概念的共性属性 下面是几个使用前缀的例子: 公里:单位,长度 心脏:部件动物,心 熨斗:用具,车变形状,# 平 雇主:人,丰雇用 雇员:人,$ 雇用 洗衣机:用具,* f i e 涤,# 衣物 3 2 4 细节规定 3 2 4 1 总的规定: ( 1 ) 任何一个概念的“基本特征”是必须填写的,不得为空, 而且必须反映上下位关系。 f 2 ) “标记”中用以定义的义原至少是一个,但也可以是多个, 数量没有限制,只要内容合理且形式合乎规范。 # $ 术 ? ( 3 ) 多个义原之间应以空格分隔。 ( 4 ) “标记”中任何一个位置上的信息都可以带有知识库所 规定的标示符号。 3 2 4 2 事件类概念的规定 ( 1 1 “基本特征”只能是必须用来表示事件的上下文关系。 ( 2 ) 对于那些以事件为中心的复杂概念的标注则应遵循如下 规定: ( a ) 应利用动态角色来标注复杂概念,因为所谓的复杂概念 多半是除了事件中心本身以外还有一个或一个以上的动态角色, 例如: 严禁:包含动态角色方式( m a d l n e r ) 贷款:包含动态角色所有物( p o s s e s s i o n ) 盗墓:包含动态角色来源( s o l l f c e ) 救灾:包含动态角色原状态( s t a t e l n i ) 呼救:包含动态角色内容( c o n t e n t ) ( b ) 在表示上述动态角色时它的书写格式是:动态角色名称 主要特征或次要特征,例如“救灾”的标注应为: 救助初态l 不幸 更为复杂的例子如:“扭亏为盈” 改变初态污损末态烯 3 2 4 3 关于属性值和数量值概念的规定 ( 1 ) “属性值”是所有属于属性值概念的唯一的主要特征,“数 量值”是所有属于数量值概念的唯一的主要特征,因此他们分别 是两类概念的“基本特征”。 ( 2 ) 属性值概念和数量值概念除“基本特征”外必须还包含 有一个“标记”。一定要标注该属性值或数量值所指向的属性或数 量特征。 ( 3 ) 通常绝大多数情况下还应在“标记”中标注该属性值或 数量值的具体值; 例如: 美昧:基本特征= 属性值标记= 味道好 八成:基本特征= 数量值标记= 多少多 巨大1 :基本特征= 属性值标记= 尺寸大 巨大2 :基本特征= 数量值标记= 多少多 大量l :基本特征= 属性值标记= 气量慷 大量2 :基本特征= 数量值标记= 多少多 3 2 4 4 关于属性和数量概念的规定 f 1 ) “属性”是所有属于属性概念的“基本特征”,“数量” 是所有属于数量概念的“基本特征”。 ( 2 ) 所有属性或数量概念都必须借助“& ”标注其宿主的类型: 例如: 味道:基本特征= 属性标记= 味道食物 气量:基本特征= 属性标记气量& 人 班次:基本特征= 数量标记= 多少运送 比价:基本特征= 数量标记= 比率价格 3 2 4 5 关于事物的规定 ( 1 ) 所谓事物包含下列的概念类型:物质( 包括有生命和无 生命) 、精神( 包括情感、欲望、思想、经验) 、时间、空间以及 它们的部件。这里应该强调说明的是知识库中所描述的“事情”, 实际上是事件。关于这方面的问题在前文中已经做了比较详细的 讨论。 ( 2 ) 对于事物类概念的标注的规定是较为琐细的,不同类的概 念有着不同的要求。大体上,应注意采用适合的标识符号。 ( 3 ) 当我们要标注某概念所具有的特定的属性值时可以将此 属性值直接标注,而无须借助于任何标识符号。如: 男士:基本特征= n 1 1 1 1 1 1 高手:基本特征= n 1 i 1 1 1 1 难题:基本特征= n 1 1 3 1 , 2 ( 4 ) 关于部件类概念的规定 标注- - - 砌e l 男 标注= a b l e l 能d e s i r e d l 良 标注= d i t t i e u l t l 难,u n d e s i r e d l 莠 因为它要表明部件整体关系,所以“标注”必须借助于“” 指明其所属的整体的类型,并尽可能标注它在整体中的部位或它 的功能,如: 心脏:基本特征= n 1 4 标记= a n i m a l h u m a n l 动物h e a r t 心 c p u :基本特征= n 1 4 标= c o m p u t e r lq l 脑,h e a r t t 心 这样的标注意味着“心脏”和“c u p ”的分别是“动物”和 “电脑”的部件,同时“动物”和“电脑”又分别是“心脏”和 “c l i p ”的整体。它们的功能都是整体的“心”。就常识而言如果 “心”的功能受损,那么其整体的功能也必受损。这有助于推理。 ( 5 ) 当标注某一概念与事件之间的关系时,应遵循下列规定: ( a ) 当此概念与事件之间存在一定的动态角色关系时,则必 须借助于标识符号,如: 雇主:基本特征= n 1 1 1 1 1 1 标记= * e m p l o y l 雇用 雇员:基本特征= n 1 1 1 1 1 1 标记= $ e m p l o y 雇用 熨斗:基本特征- n 1 1 12 2 7 8 标记= * a l t e r f o r m l 变形状 # l e v e l 平 假期:基本特征= h i 1 2 标记= r e s t l 休息 w h i l e a w a y l 消闲 旅馆:基本特征= n 1 1 4 3 标记= 固r e s i d e 住下# t o u r l 旅游 ( b ) 如果此概念与事件存在更复杂的动态角色关系时,则必 须借助于多标识符号和多标识位,这时有顺序的要求,如: 洗衣机:基本特征n 1 1 1 2 2 7 8 标记= + w a s h l 洗涤 # c l o t h i n g 衣物 上例中n 1 1 1 1 2 2 7 8 表明洗衣机是一个“用具”。“洗涤” 为“用具”的功能,或该“用具”用于“洗涤”,“衣物”借助于 “ f ”表示其为“洗涤”的受事。他们之间的顺序是不可以颠倒的。 又如: 熨斗:基本特征- n 1 1 1 2 2 7 8 标记= * a l t e r f o r m 变形状 # 1 e v e l r 平 这里“平”是“变形状”的受事属性,这就是说,“变形状” 的受事在接受了该事件之后,其属性将有变化以至于获得一个 “平”的属性值。 综上所述,相信读者已经对知识库的标记方法有了较详尽的 了解。 3 3 知识库的实现 3 3 1 数据结构 知识库会随着所收录的词的增多而增多查找匹配的开销对 整个系统性能的影响非常显著,所以设计一个适当的数据结构至 关重要。为了获得较快的查找速度,我们采取了速度和效率较优 的哈希表。我们在编程时使用了v c 6 0 提供的c m a p s t n n g t o o b 类。该类是v c 6 0 中提供的哈希表,它已一个字符串为键值,每 一个健值对应一个c o b j e c t 对象,也就是说每一个由c o b j e c t 继 承而来的子类都可以存放在这个哈希表中。但知识库中有这样的 情况:一个词有多个词义( 即概念) 所以有多个词条,那么在哈 希表中直接存放词条是不适合的,我们采用了在哈希表中存放链 表的方式,链表中的每个元素都是同一个词的不同词条。数据结 构的具体定义如下面的程序段。 词条的定义: c l a s sc i t e m :p u b l i cc o b j e c t p u b l i c : d e c l a r e _ s e r l m c l t e m ) a t t r i b u t e s c s t r i n g 1 1 1 s t r w o r d ; 词条 c s t n n g ms t r a t t r ;词性 c s t r i n g ms t r m a i n c h a r ;基本特征 c s t r i n g ms t r m a r k e r ;知网标记 c l t e m m 同义词_ p s y n i t e m ; c l t e m + m _ p a n t l t e m ; 反义词 p u b l i c : v i r t u a lv o i ds e r i a l i z e ( c a r c h i v e & a r ) ; 2 4 m e t h o d c l t e m o ; 链表的定义: t y p e d e fc o b l i s tc r e m l i s t ; 整个知识库的数据结构如下如: c l t e m l i s t 3 - 3 2 知识库管理软件 知识库管理软件是该系统的支撑软件。用于知识库的日常维 护工作,它能够完成对知识库的创建、添加、修改、删除的功能。 完成的工作比较简单,编程难度也不大在此就不详述了。图3 2 是知识库管理软件的运行界面。 第四章代词的指代 4 1 确定代词指代的意义 汉语是“义合”性语言,更重视语义的连贯和主题的突出, 而并不重视语法的工整和规范。所以在汉语中存在大量的代词指 代现象,它使得句子更加简洁明了,主题更加鲜明突出。但这也 给计算机理解汉语增加了难度。 在早期的计算语言学研究中,人们的研究重点在单句的结构 和意义上,后来逐渐扩展到旬群、段落乃至篇章的理解上。这时 代词指代的重要性就显现出来了。它能消除上下文中的歧义,对 后继的上下文处理、确定单复数、确定省略成分都大有裨益。所 以确定代词的指代对文章的理解有非常重要的意义,也是汉语理 解从单句向句群、段落、篇章的开端和基础。本系统在代词的指 代上花了大量的时间和精力,并取得了较好的效果。对比较规范 的文章,用自动模式就可以达到较高的准确率;对复杂的、人物 较多的文章,在用户的干预下也能取得较好的结果。 4 2 确定代词指代的困难 确定代词一般在语义分析和语境分析之前,由于自然语言本 身具有不确定性,当语言中的语境知识缺乏时,语法、语义、语 用的二义性使得在没有对文章的内容有了初步了解之前确定代词 的指代,是非常困难的。 同时确定代词的指代不仅仅需要语法分析还需要语义分析。 下面的例子说明了这一点: 1 ) 雷锋在上学的路上看到了他儿时的一个同学。 2 1 雷锋在上学的路上遇到了她。 这两句的的语法结构完全一样。而1 ) 中的“他”指代雷锋, 2 ) 中的“她”又不能指代雷锋。 在人物比较繁多的情况下,确定代词的指代就更加的困难了。 例如: 总理在接见完外宾后,面带微笑的走出会议厅,来到中外记 者面前。他耐心的回答了记者们的问题。 在“他”之前有三个表示人的名词:总理、外宾、记者,这 三个名词的性、数、格都很难确定。而这样的句子在汉语中非常 常见,由此可见确定代词指代的难度。 4 3 在确定代词的指代中常用的方法 当人们把汉语理解的重点由单旬转向句群、段落时,人们开 始认识到确定代词指代的重要性,并着手进行研究,提出了一些 有益的思路和概念。这对后来者的研究给与了很好的启发,在这 里先介绍一些常用的方法: 1 分类处理 这种思想是把代词的指代分为:旬内指代和句间指代。对两 种指代方式用不同的算法进行处理。这样的做法的优点是逻辑清 晰,便于编程和实现。但有其重大的缺陷:即很难在处理指代之 前就准确无误的判断指代的类型。这极大的影响了这种方法的准 确性和可行性。 2 运用格语法进行判断 这种思想是以格语法为中心,确定代词的格和所有可能指代 对象的格来进行查找。这种思想能取得较好的效果,但也有其缺 陷:格的划分直接影响着最终的结果,而在一个实用系统中应该 引入多少种格,这一直是学术界争论的热门话题。如果引入的格 的种类太少就不足以描述一个实用的系统,而格的种类太多又会 带来额外的开销。现实的情况是:在每一个系统的开发中,开发 人员都根据自己的要求指定特殊的格的种类,使得系统没有好的 移植性和开放性。同时,在汉语中本来没有格的概念,也没有格 的变化,要确定一个名词或代词的格只有依靠格标,而汉语是“义 合”i 生语言,经常把格标省略了,使得名词或代词的格很难确定。 那么利用格语法来判断代词的指代更无从谈起。 3 情景堆栈法 这种思路来源于汉语的一种特殊的语言现象;即代词只能指 代它前面名词,不能指代后面的名词。在英语中可以有这样的句 子: b e f o r es h ew e n tt ot h e p a r t y , j i l lb o u g h t s o m ef o l l o w s 上句中s h e 指代其后的j i l l 。这种情况在汉语中基本不会出现, 汉语中的代词必定指代它前面的名词。正是因为汉语有这样的特 点,我们在该系统的前期设计中曾考虑使用一个堆栈。按照名词 的出现顺序逐入栈,当要确定代词的指代时就可以从它前面最 近的名词开始查找。但这样的思路的缺陷是显而易见的:汉语中 代词指代的往往不是它前面最靠近的名词。即便我们在加入一些 其他的限制条件以后( 比如性、数要一致) ,这种方法的准确率依 然很低。 4 特殊句型法 显然这是一种辅助的方法,它是根据汉语中的一些特殊句性 来确定代词的指代。它的优点是准确性高,很少产生错误的判断

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论