




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 本文研究并实现了基于自然语言理解的面向篇章的集体词结构关系汇聚,并 将其应用于电子产品的设计过程中。依托整个领域自然语言理解系统实现了对以 自然语言形式表达的用户需求的理解和分析,并将分析结果转化成概念设计要求 和设计参数,为后续设计提供支持。 本文确定了在电子产品设计领域自然语言理解采用基于知识的方法。在知识 库建立的基础上应用概念从属理论,对篇章中集体词结构概念及其之间的关系进 行分析,在以上工作的基础上,给出了系统中集体词结构关系汇聚的处理流程, 从而实现对含有群体关系的句子进行形式化的理解。 最后将面向篇章的集体词结构关系汇聚应用于电子产品的设计过程中,并结 合系统其余模块的运行,经过初步调试,取得了一定的成果。 关键词:自然语言理解篇章分析集体词结构关系汇聚 a b s t r a c t a b s t r a c t t h i sp a p e rd e s i g n sa n dr e a l i z e sr e l a t i o nc o n v e r g i n go fc o l l e c t i v es 仃u c t l l r ef a c e dt o c o n t e x t ,a n da p p l i e si ti nt h ee l e c t r o n i c a lp r o d u c td e s i g np r o c e s s b a s e do nt h ed o m a i n c h i n e s el a g u a g eu n d e r s t a n d i n gs y s t e m ,i ta c c o m p l i s ht h et r a n s i t i o nf r o mt h eu s e r s r e q u i r e m e n te x p r e s s e db yn a t u r a ll a n g u a g et ot h ed e s i g n i n gr e q u i r e m e n to f t h ec o n c e p t d e s i g no rd e s i g np a r a m e t e r , t os u p p l yt h es u s t a i nf o rn e x td e s i g n t h em e t h o db a s e do nk n o w l e d g es h o u l db ea d o p t e di nt h en a t u r a ll a n g u a g e u n d e r s t a n d i n gi nt h ef i e l do fe l e c t r o n i cp r o d u c td e s i g n b a s e do nt h ek n o w l e d g eb a s e , c o n c e p t u a ld e p e n d e n c yt h e o r yi sc h o s e na s t h em a i na n a l y t i cm e t h o d 、析吐1w h i c h r e l a t i o no fc o l l e c t i v es 仃u c t u r ei sa n a l y z e d b a s e do nt h ew o r kd o n e ,t h ep r o c e s s i n g f l o w c h a r to fr e l a t i o nc o n v e r g i n go fc o l l e c t i v es t r u c t u r ei sg i v e n , w h i c hc a r lu n d e r s t a n d t h es e n t e n c ew i t ht h ew o r d st h a tr e p r e s e n tag r o u p f i n a l l y , t h er e l a t i o nc o n v e r g i n go fc o l l e c t i v es t r u c t u r ef a c e dt oc o n t e x ti sa p p l i e dt o a n l y s i n ga n du n d e r s t a n d i n go f t h eu s e r sn e e d so f t h ee l e c t r o n i c a lp r o d u c td e s i g n t e s t e d a n dd e b u g g e dt o g e t h e rw i t ho t h e rp a r t so ft h es y s t e m ,t h em o d e li ss a t i s f a c t o r y k e y w o r d :n l u d i s c o u r s ea n a l y s i sc o l l e c t i v es r u c t u r er e l a t i o nc o n v e r g i n g 西安电子科技大学 学位论文独创性( 或创新性) 声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在 导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成 果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说 明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切的法律责任。 本人签名:谭篁丝日期趁坦:笸:2 西安电子科技大学 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保 留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内 容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后 结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。 ( 保密的论文在解密后遵守此规定) 本学位论文属于保密,在一年解密后适用本授权书。 本人签名: 导师签名: 日期翌! 里:2 日期塑丝:笪:2 第一章绪论 第一章绪论 1 1 引言 随着社会的发展以及计算机水平的飞速提高,电子产品设计已经不再像以前 那样,局限于传统的电子电路设计这一领域。现在,电子产品设计正在处于高速 发展阶段当中。目前,电子产品设计已经成为多个学科相互交叉的综合性学科。 例如人工智能、自动控制等等,各门学科相互应用、相辅相成,为电子产品设计 的发展做出了很大的贡献。 随着人工智能技术的普及和快速发展,各类人性化界面的产品层出不穷。虽 然计算机技术和人工智能技术的引进大大提高了电子产品设计的效率和正确性, 但是人们还是在不断的探求其易用性,那么在人性化和产品设计科学化之间就存 在一些问题: 一是在电子产品设计中,没有良好的产品和用户之间的人性化接口。由于用 户在乎的是产品的效果,并且一般的用户对电子产品领域的知识不是很了解,对 一些概念和术语都不熟悉,他们仅仅用自己的通俗语言表达自己对电子产品设计 的要求,那么就必须提高设备接口的人性化水平。 这就要求计算机能理解这种自然语言,理解用户的要求,准确的把握用户的 意图。 二是在电子产品设计中,某些部分还必须依靠行业内的专家或经验丰富的技 术人员来做出合理的判断和决策,如方案设计部分,目前的电子产品设计方面的 软件系统还不能完全代替人的创造性思维,一般需要用户将需求的设计和制造内 容转换为领域软件的要求格式和规范后【l 】,才能作为计算机的输入信息,这给用 户带来了很大的不便以及额外的学习和使用的开支。 这就需要具各领域知识和推理机制的专家系统,作为用户和计算机自动化设 计系统之间的接口。 使用自然语言作为人机的接口,更是有得天独厚的优势。在某个特定的领域, 自然语言理解面对的只是一个知识范围相对小的问题领域。这就使得对问题领域 的深入研究成为可能。建立基于知识的自然语言理解系统需要对相应的领域有深 入的了解,通过对经验进行总结、对问题进行抽象、对系统进行建模,归纳出相 应的知识,从而建立与研究领域相关的知识库。这样,基于领域内知识的系统就 成为基于知识工程的系统。实践表明,基于知识工程的系统在许多地方都取得了 成功,在特定的研究领域内能够做出来,而且也能够做的比较好。 2 面向篇章的集体词结构关系汇聚及其在产品需求分析中的应用 1 2 1 自然语言理解的概念 1 2 自然语言理解概述 自然语言是指人们日常使用的语言、如汉语、英语、法语、日语等它是人 类学习环境和互相通讯的工具。自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g 简称 n l p ) 是语言信息处理的一个分支。所谓语言信息处理,是指用计算机对自然语言 的形、音、义等信息进行处理,即对字、调、句、篇章的输入、输出、分析、理 解、生成等的操作和加工。自然语言处理研究使用计算机理解和生成自然语言的 基础理论和基本技术,是当前人工智能研究的核心课题之一【2 】。自然语言处理研究 使用计算机理解和生成自然语言的基础理论和基本技术,是新一代计算机的三大 突破口之一 3 1 。 现在的计算机的智能还远远没有达到能够象人一样理解自然语言的水平,而 且在可预见的将来也达不到这样的水平。因此,关于计算机对自然语言的理解一 般是从实用的角度进行评判的。从微观上讲,语言理解是指从自然语言到机器( 计 算机系统) 内部之间的一种映射。从宏观上讲,语言理解是指机器能够执行人类 所期望的某些语言功能,这些功能包括:( 1 ) 回答有关提问;( 2 ) 提取材料摘要; ( 3 ) 不同词语叙述;( 4 ) 不同语言翻译。实现了这些功能,则认为计算机具备了 理解自然语言的能力 4 1 。 1 2 2 自然语言理解的发展 我国在7 0 年代才开始致力于汉语自然语言理解的研究,由于汉语是意合语, 与印欧语系有着明显的区别,这使得汉语的理解必须走一条与西方不大一样的道 路。 目前世界上的自然语言处理技术主要分为两类,即:基于知识的方法与基于 统计数据的方法两大类。基于知识的分析方法可以称之为自然语言处理中的“理 性主义【5 】o 自然语言理解系统的发展【2 】【3 1 【7 】【9 】可以分为第一代系统和第二代系统两个阶 段。第一代系统建立在对词类和词序分析的基础之上,分析中经常使用统计方法; 第二代系统则开始引进语义甚至语用和语境的因素,几乎完全抛开了统计技术。 机器翻译【1 0 i l 1 是自然语言理解最早的研究领域。由于早期研究中理论和技术 的局限,所开发的机译系统的技术水平较低,不能满足实际应用的要求。 1 9 7 0 年以来,出现了一定数量的第二代自然语言理解系统,这些系统绝大多 数是程序演绎系统,大量地进行语义、语境以至语用的分析【3 9 1 。其中比较有名的 系统是l l 刀、j a r 系统、s h r d l u 系统、m a r g i e 系统、s a m 系统、p a m 系统。 第一章绪论 进入8 0 年代之后,自然语言理解的应用研究广泛开展,机器学习研究又十分 活跃,并出现了许多具有较高水平的实用化系统。这些系统是自然语言理解研究 的重要成果,表明自然语言理解在理论上和应用上取得了突破性进展。 到目前为止,汉语自然语言理解学界正在进行的众多研究项目,大体可以分 为三个流派。 1 传统计算语言学【1 2 j 第一个流派是以传统计算语言学为基本理论,从词素分析入手,进而研究词短 语( 词组) 语段句子。 概括地说,传统计算语言学的种种理论和方法,都以语料统计为基础。但是, 只靠统计概率是不能统摄复杂多变的语言现象的,因此还需要结合语言规则。为 此,中国学术界从西方计算语言学的众多理论和方法中吸收了许多营养,例如短 语结构语法、扩充转移网络、从属关系语法和配价语法等。 2 h n c 理论【1 3 】【1 4 1 概念层次网络理论( h n c ) 黄曾阳先生提出的。 h n c 理论认为,自然语言理解的关键是描述人的语言感知过程的适当模式, 试图建立一种模拟大脑语言认知过程的自然语言的计算机理解处理模式。h n c 把 自然语言要表述的知识划分为概念、语言和常识三个独立的层面,并为此建立不 同的知识库,通过建立局部和全局两类联想脉络来帮助计算机理解自然语言。 3 基于内涵模型论的语义分析【1 5 】【1 6 】 这一流派的理论设计是陆汝占教授提出的。其出发点是考虑到对中文信息处 理的研究单纯走语法的路已经难以有突破性结构,归根结底,要深入到语义层面, 朝着意义精细方向考虑,就会产生兼类过多和概括力不够以及歧义、模糊、不确 定等困难。基于这一考虑,该理论将汉语表达式抽象成数学表达式,恰当地表示 内涵和外延,然后把这些语义表示在计算机内进行处理,亦即把汉语表达式与计 算机数据结构之间直线联结,改变为汉语表达式抽象数学表示数据结构 三者之间的联结。其称为基于形式方法一一模型论的汉语语义计算理论。 1 3 自然理解篇章分析概述及现状 篇章分析相比自然语言理解中的语义、语法分析的研究要晚很多,但它的重 要性是不言而喻的。篇章( d i s c o u r s e ,t e x t ) 通常是指一系列连续的语段或句子构成的 语言整体单位u 7 2 2 ,这些具有一定意义的离散的语段或句子按照一定层次结构组 合起来,表达个特定的意图或一组特定的事件。所谓篇章分析【1 8 , 1 9 , 2 0 , 2 1 , 2 3 】就是处 理整个语篇中由于上下文相互关联所引起的句子理解的困难和歧义。 篇章分析处在自然语言理解中的一个较高的层次上,它是建立在语法分析、 4 面向篇章的集体词结构关系汇聚及其在产品需求分析中的应用 语义分析的基础之上的,研究句子间的关系以及整个篇章中包含的相关知识。现 在篇章分析有多种应用形式,包括自动文摘、机器翻译、信息提取、信息检索、 问答系统和自动校对等。由篇章分析的侧重点不同我们可以将它大致分为三类:上 下文分析、结构分析和信息抽取。 上下文分析研究认为不同句子可以通过分析说话者的目的连接起来,这一想 法已经有很悠久的历史了。不过最近,这个方法中最大影响来源是g r i m e s l 2 l j ( 1 9 7 5 ) 。g r i m e s 确定了可以用于篇章中的三类常见的功能:一个句子可以支持 或补充前面句子的信息:可以创建个场景( 确定一个事件的时间和地点) ;也 可以确定一个对象( 引入个要讨论的新对象或回到一个旧的对象) 。另外,也 有相当数量的工作提出了一些面向计算的框架模型,每个模型都引入了一些不同 的关系集合。h i r s t l 2 1 】( 1 9 8 1 b ) 全面综述了这些模型及其在回指分析中的应用。 结构分析研究篇章的层次结构【2 3 】以及各层次间的联系。a s t 理论【2 3 】 ( a t t e n t i o n a ls t a t et h e o r y ) 、r s t 理论【2 3 1 ( r h e t o r i c a ls t r u c t u r et h e o r y ) 和v s 理谢2 j j ( v e i n st h e o r y ) 对篇章的层次结构都进行了详细描述。篇章结构的自动分析是自动 文摘【l7 1 、指称消解,省略恢复等应用的基础。例如:局部上下文包含前面子句的 语法和语义结构,这对于解释省略和表层的回指是很重要的。这些语言现象可以 通过基于模式匹配的方法发现前面子句和当前子句中的片段的句法结构的相似性 来处理。一旦在前面子句中发现了对应部分,就可以把省略句中的信息代到前面 子句的结构中,然后可以解释这个修正后的结构,从而构建新的解释。 信息抽取指研究怎样从篇章中提取信息,并将信息汇聚比对后形成知测2 4 j 。 例如:美国m c c 公司建立的基于知识的自然语言处理系统k b n l 从篇章中抽取提 取知识并作为大型常识知识库c y c 的知识录入工具。信息抽取以篇章连贯分析和 结构分析为基础,一般先进行结构分析和连贯分析,然后再抽取信息。典型应用 形式有文本分类、自动文摘、篇章理解和问答系统等。 现在汉语的篇章分析理解取得了一定的成就,如篇章中同一主体的相关概念 之间关系等等,但是对语境关联和细节关联的分析仍有待进一步研究。 1 4 篇章中集体词结构关系研究简介 从语言结构上分,可分为单句、句群、段落和篇章。篇章由段落构成,段落 由句群构成,句群又是由单句构成的,所以篇章是自然语言中的最高级单位,也 是自然语言理解中最困难最重要的部分。数量观念是人类社会发展到一定时期的 产物,数量作为一种重要的认知范畴,很早就引起关注。在电子产品设计领域弄 清这些数量或者包含数量的集体词结构之间的群体关系更是十分重要的。党建【4 0 l 在他的学位论文中研究了领域内汉语集体词结构并对其应用作了介绍,但是大多 第一章绪论 是在语义层次上对这种结构进行分析,并没有在篇章的层面上对集体词结构的群 体关系的实现进行表述,也没有与名词动态关系汇聚相结合来分析。 本文在前人研究的基础上结合实际工程中的大量语料,从领域自然语言理解 出发,对这种集体词结构做了进一步的研究。本文中所论述的集体词结构是从应 用的角度来说的,结合名词动态汇聚,实现集体词结构在篇章中的各种群体关系。 篇章分析的研究工作虽然起步较晚,但到目前为止,己有多种理论和方法相 继提出,并在文本分类、信息检索、篇章主题提取等领域得到了广泛应用。对篇 章中集体词结构的关系汇聚就是提取篇章中概念之间的群体关系的一种重要方 法。对篇章中集体词结构的关系汇聚的一个重要目的就是对篇章中的信息进行抽 取。 1 5 本文所作的工作 本文通过对篇章中集体词结构的关系汇聚的研究,认识到知识工程对于电子 产品设计有着重要的现实意义,而知识获取又是知识工程的重点和难点。针对这 个问题,本文以电子产品设计为依托,着重对汉语篇章中集体词结构的关系汇聚 工作进行了探讨和初步实现,目的是能够提取文本中概念之间存在的群体关系。 通过对以自然语言形式表达的领域知识进行理解和分析,为后续的理解和工程运 算提供支持。 本文完成的主要工作如下: 1 了解国内外自然语言理解的动态,分析了汉语自然语言理解的特点和难 点,并结合设计领域自然语言理解的特点,确定以基于知识的方法为研究 应用的总体方向。 2 详细介绍了自然语言理解中几种常用的知识表示方法,最后综合这些方法 的优点和特点建立了基于本体的领域n l u 语义分析中的知识描述与表示 体系。 3 对和集体词结构相关的数量词结构和名词结构进行了介绍和分类,并阐述 了其在电子产品设计领域的语义模型。结合名词关系汇聚对集体词结构及 其之间的群体关系进行分类和介绍,对篇章中的集体词结构的生成、各个 集体词结构之间的群体关系进行了深入的分析。 4 在以上工作的基础上,建立了自然语言理解系统中的集体词结构模板,并 给出了集体词结构的整体处理流程以及各分模块的具体处理流程,从而实 现了对含有群体概念的句子的形式化理解。 5 结合电子产品设计领域,建立了一个基于n l u 系统的计算机辅助设计分 析系统原型,并实现了集体词结构关系汇聚思想在提取信息并对信息进行 6 面向篇章的集体词结构关系汇聚及其在产品需求分析中的应用 分析系统中的应用。 总之,全文结合自然语言理解的局部篇章分析在电子产品设计领域中的应用, 从选择自然语言理解的模型出发,讨论了自然语言理解的语义知识表示,探讨了 集体词结构的分析方法,并且研究了集体词结构关系汇聚的应用,相信这一工作 对自然语言理解在各个领域中的应用都是有益的。随着计算机技术的发展,自然 语言处理一定会给社会的发展带来巨大的贡献。 第二章领域自然语言理解的理论基础 7 第二章领域自然语言理解的理论基础 自然语言理解的根本目的是使得计算机能够模拟人类的智能行为理解人类的 语言。这种智能活动过程主要是一个获得并运用知识的过程,知识是智能的基础。 而知识是需要适当的模式表示出来才能存储到计算机中去的,因此,关于知识表 示的问题是一切自然语言理解系统的基础。 在自然语言的理解系统中,篇章分析要以篇章信息、世界知识和当前领域知 识为基础。这些都是知识,自然语言理解是以知识为基础的,只要有足够的知识, 自然语言理解系统就有了成功的基础。 对于电子产品设计领域来说,快速地获取电子产品设计领域的相关知识、准 确表达和合理利用知识是实现电子产品设计领域自然语言理解系统的必由之路。 本章对现有的自然语言理解及其篇章分析常用的知识表示的理论和方法进行 了分析,比较了各自的优缺点。在此基础上,取长补短,提出了针对篇章的知识 表示方法和知识库的构建方法。 2 1 现有知识表示方法 知识是人类在改造现实世界的实践中认识和经验的总和,是对客观存在的现 象及其规律性的感性或理性认识,是人工智能的核心。知识表示是研究用机器表 示知识的可行性、有效性的一般方法,是一种数据结构与控制结构的统一体,既 考虑知识的存储又考虑知识的使用。知识表示也可以看成是一组描述事物的约定, 以把人类知识表示成机器能处理的数据结构。要实现一个自然语言理解系统,所 需要的知识是庞大的,而且所需知识的类型也是不一样的,要让计算机知道这些 知识,需要多种知识表示形式。 目前,下文介绍了现有的许多理论和知识表示的方法。 2 1 1 语义网络 语义网络【2 5 】【2 6 】【2 7 】【2 8 】是2 0 世纪6 0 年代由美国心理学者m r q i l l i o n 首先提出的 一种表达人类记忆和理解语言的方法。q i l l i o n 认为记忆由概念之间的联系实现, 概念以及概念之间的各种关系构成了语义网络。1 9 7 2 年美国人工智能专家西蒙斯 ( r e s i m m o n s ) 和斯勒康( j s l o c u r n ) 首先将语义网络用于自然语言理解系统。 表示实体、概念情况等结点和表示结点之间各种语义关系的弧或链( 带有箭 头的弧) 组成一个语义网络。语义网络特别适合根据非常复杂的分类进行推理的 领域以及表示事件的性质、状况以及动作之间关系的领域。 8面向篇章的集体词结构关系汇聚及其在产品需求分析中的应用 语义网络的优点有: 1 结构性,能把事物以及事物间的各种语义联系显式地表示出来。 2 联想性,由于与概念相关的属性和联系被组织在一个相应的结点中,因 而便于以联想的方式实现对系统的检索。 3 自然性,表现问题更加直观,更易于理解,适于知识工程师与领域专家 沟通。也更加符合人类的思维习惯。 同时,任何事物都是有利有弊的,语义网络也存在以下几点不足: 1 表达有点,形式过于简单,而且节点之间的联系只局限与几种典型形式。 2 由于结点和弧本身没有确切的含义,逻辑推理不具备逻辑系统那样的有 效性导致了效率偏低。 3 语义网络结构的语义解释依赖于该结构的推理过程而没有结构的约定, 因而得到的推理不能保证绝对正确; 2 。1 2 麟c 理论 h n c 理论【2 9 】【3 0 1 首先由黄曾阳先生提出,该理论是以概念联想脉络为主线建立 一种模拟大脑语言感知过程的自然语言理解模式和计算机理解出模式。h n c 理论 的基本假设是,在人脑中有一个概念空间,它是人们认识世界和进行思维活动的 基础。语言概念空间是人类概念空间的一个子空间,与自然语言空间相对应。人 们利用语言概念空间进行自然语言的理解和生成。h n c 理论认为自然语言理解的 过程是,首先把自然语言映射到语言概念空间,然后在语言概念空间中进行概念 联想脉络的激活、扩展、浓缩、转换与存储,从而达到对自然语言的理解。 h n c 把概念空间分为六个层次,分别是概念基元( 概念层次网络) 、概念的组 合、语句、句群、段落和篇章。其中概念基元是概念空间的基本元素,其他各层 都建立在它之上。概念基元符号体系首先将概念分成3 种基本范畴:抽象概念、 具体概念和两可概念,后者兼备抽象与具体的双重特性。 h n c 理论是“以语义表达为基础,面向整个自然语言理解的理论框架 ,计算 机对大脑语言感知结构的模拟可以通过建立两大联想脉络局部联想脉络和全 局联想脉络来实现。局部联想脉络是指词汇层面的联想,体现为一个概念表达体 系;而全局联想脉络是指语句及其篇章层面的联想。 2 1 3 主题框架 框架表示法f 3 l 】f 6 1 是以框架理论为基础发展起来的一种结构化的知识表示方法, 1 9 7 5 年美国著明的人工智能学者明斯基( m l m i n s k y ) 在其论文“a f r a m e w o r kf o r r e p r e s e n t i n gk n o w l e d g e ”中提出了框架理论。他认为知识往往是以一种类似于框架 第二章领域自然语言理解的理论基础 9 的结构存储在大脑中,当人们接受新的信息时,就与大脑中存储的框架知识进行 匹配,匹配成功就意味着获得了新信息。框架是一种描述所论对象属性的数据结 构。在框架理论中,将其视作知识表示的一个基本单位。 框架结构是固定的,由一组槽( s l o t ) 构成,槽描述了事物的属性,槽值是事物 属性的取值。框架名位于晟项层,用于表示某个概念、对象或事件;其下层的槽 由槽名和槽值组成。这些“槽”可以有任意有限数目的“侧面”,一个“侧面 又 可以有任意有限数目的“值”,它可以描述对象的某一属性,也可用描述其他对象 的框架来填充。一个框架可以形式化地表示为: 表2 1 语义框架 框架名名字 槽1 名槽l 的值 槽2 名槽1 的值 约束1约束条件1 约束2约束条件2 框架系统作为一种比较常用的知识表示方法,在各种各样的系统知识表示中 体现出良好的通用性。它主要有以下的特点:结构性,能够把知识的内部结构关 系及知识之间的联系表示出来,因此它是一种组织起来的结构化的知识表示方法; 继承性,框架表示法通过使槽值为另一个框架的名字实现框架间的联系,建立起 表示复杂知识的框架网络。在框架网络中,下层框架可以继承上层框架的槽值, 也可以进行补充和修改,这样不仅减少了知识的冗余,而且还较好的保证了知识 的一致性。自然性,框架表示法体现了人们在观察事物时的思维活动,当遇到新 事物时,通过从记忆中调用类似事物时的框架,并将其中某些细节进行修改、补 充,就形成了对新事物的认识,这与人们的认识活动是一致的。 当然作为一种知识表示方法,在面对复杂的知识库表示中,框架系统也存在 众多不足之处:知识表现的多样性,给知识间的整合性和完全性检查带来困难; 降低了知识库系统的清晰度;由用户设计推理机,加重了用户方的负担;框架系 统中知识的层次化和知识属性的继承性给知识库的设计增加了难度。 2 1 4 概念从属理论 概念从属理论1 3 2 1 1 3 3 】由r o g e rs c h a n k 提出,是一种表达自然语言句子意义的理 论,对语义元素作了深层次的抽象,把它们归约成了若干个语义基元。语义基元 是意义的最小单位,因而是不可再分割的。凡是意义相同的词或句子,都可由相 同的语义基元以及表示语义关系的有向弧来表示。它具有的特点为:便于构思对 语句的推论;不依赖于指出语句的源语言。 c d 理论描述了三种层次:一是概念依存层次关系;一组原语,其他动作由原 l o 面向篇章的集体词结构关系汇聚及其在产品需求分析中的应用 语组合而成;二是剧本,所谓剧本是指相对于某些场景所作的一套动作,每个剧 本代表日常生活中发生的一种事件,剧本把这种事件的典型情节规范化,编成一 些固定的成套动作;三是规划,是为达到某一目的和完成某一任务而指定计划或 规划。计划中每一步都是一个剧本,即用最简单的动作表示最复杂的过程。 概念从属理论的优点在于: 1 采用了抽象化、规范化的方法对知识世界进行分析,; 2 该理论是一种逻辑语义学的形式化的方法,便于知识推理。 3 适用于各种语言的语义表示形式,其表示形式体现为输入语句的语义特 征,而不关心具体自然语言特性,可以表达概念间的深层知识,具有其 他表示方法所无法比拟的通用性。 相应地概念从属理论也存在一些缺点: 1 概念从属要求把所有知识分解为相当低级的原语,这样使得系统效率变 低,在有些情况下根本做不到。 2 c d 理论是一种事件表达理论,但为表达复杂程序可能需要的所有信息, 就要求能表达除事件之外的其它事情。 但是总的来说,这套理论对受限语言的应用领域是非常有用的,也是比较适 合于汉语处理的。 2 1 5 本体论【3 4 】【3 5 】【3 6 】【3 7 】 近来,出现了一种新的知识模型的表述方法,就是本体论。本体已被广泛地应用 于自然语言理解、知识管理、信息检索等不同领域。 在人工智能领域,“本体是对共享的概念化进行形式的显式规范说明。概 念化是现实世界中现象的抽象模型,要明确标识与现象相关的概念。显示 的意思是指被使用概念的类型以及概念在使用中的约束被明确地定义出来。 形 式的意思是指本体应该是机器可读的。共享是反映本体中的知识是中立的 致认可的。 1 9 9 8 年,s t u d e r 等把本体定义为“共享概念模型的明确的形式化规范说明”, 这个定义说明了本体的四层含义:概念化( c o n c e p t u a l i z a t i o n ) 、明确( e x p l i c i t ) 、 形式化( f o r m a l ) 和共享( s h a r e ) 。其中: 1 概念模型是指通过抽象出客观世界中一些现象的相关概念而得到的模 型。 2 明确指所使用的概念及使用这些概念的约束都有明确的定义。 3 形式化指本体是计算机可读的( 即能被计算机处理的) ,而不是完全用自然 语言表达的。 第二章领域自然语言理解的理论基础 4 共享指本体中体现的是共同认可的知识,反映的是相关领域中公认的概 念集,即此概念集是为整体所共有的,而非个体所独有。 本体的基本元素是一个集合,其中包含的类c l a s s 或概念c o n c e p t 、概念间的关 系r e l m i o n s 、函数f u n c t i o n s 描述一些特殊关系和公理a x i o m 表示一些永真的断言。其 中概念是本体最基本的元素。 概念( c o n c e p t ) :概念是对类事物的抽象描述,它定义了这一类事物的性 质,描述了它们的内涵和外延。 内涵( c o n n o t a t i o n ) 与外延( e x t e n s i o n ) :概念的内涵反映的是事物的本质特征, 外延反映的是事物所指的范围。 属性( a t t r i b u t e so fc o n c e p t ) :属性是对概念的某些方面的描述。属性可分为基 本属性和角色属性。( 1 ) 基本属性指的是本质的属性;( 2 ) 角色属性是指基本属性 在不同领域的应用。 概念的实例( i n s t a n c eo fc o n c e p t ) :概念的实例是符合该概念约束的一个具体 对象。 本体分析澄清了领域内的知识结构,为知识表示打下了良好的基础。 2 2 1 系统知识表示 2 2 自然语言理解系统总体模型 知识表示做为一切自然语言理解的基础。通过分析现有的知识表示方法,确 定了本系统的知识表示方法。 根据分析现行的知识表示模式,本文采用将多种知识表示方法与资源模型相 结合的方法。 首先,利用概念从属理论与框架相结合的知识表示方法,将知识最终以模板 的形式表现。模板中有许多的属性槽,用以描述概念的内涵和外延。模板填充了 各槽后就会成为一个具体的实例,代表实际语境中的一个实体,实体拥有各个属 性,并与其它的实体发生关联。模板是框架式结构的典型模式。实际的内容包括 两个方面:静态模板和动态模板。静态模板存在于知识库,静态模板的实例就是 一条条知识;动态模板存在于处理的过程中,记录处理规程中所产生的所有的具 体实例。由于概念之间存在着层次结构,所以,使用树状结构来表示这种层次结 构,即建立概念从属树来表示概念之间的层次关系。 然后,在分析和推理过程中使用的大量的领域知识,则是以规则的形式来表 现。 最后,整个自然语言理解系统所涉及的知识是大量的,所以,在词法、句法、 语义和篇章分析阶段会用到其它的知识表现形式。确定了知识表示方法,下一步 1 2 面向篇章的集体词结构关系汇聚及其在产品需求分析中的应用 将进行构建系统知识库以及整个建模系统的分析和实现工作。 2 2 2 自然语言理解处理总体流程 自然语言理解是语法处理、语义分析和篇章分析相结合、综合处理的过程。 本文介绍的基于领域的自然语言处理系统中,篇章分析是语言理解的重点与关键, 语法处理和语义分析是篇章分析的前提和辅助。图2 1 是基于领域自然语言处理整 体流程。 图2 1 是基于领域自然语言处理整体流程 2 3 本章小结 本章详细重点介绍了本体论和概念从属理论这两个重要的理论等自然语言理 第二章领域自然语言理解的理论基础 解中几种常用的知识表示方法,列举了这些知识表示方法的优缺点,这些常用的 方法为自然语言理解知识库的建立提供了有力的帮助,为后续的工作奠定了基础。 第三章篇章中集体词结构的研究 第三章篇章中集体词结构的研究 在电子产品设计领域,很大程度上涉及名词之间的群体关系与名词的数量属 性。而传统的关系汇聚理论并不能汇聚出名词之间的群体关系,也不能挖掘名词 的数量属性,所以从应用的角度,把对集体词结构的研究引入关系汇聚,这种处 理方法在处理数学问题时更具有应用价值。例如通过集体词结构的分析可以方便 的得到名词之间的群体关系,更加明确名词之间的关系,以达到名词之间的关系 更加细化的目的,同时还可以通过简单的关系运算挖掘出名词的数量属性等。 3 1 篇章中处理集体词结构关系汇聚的难点 集体词是自然语言中重要的语言现象。自然语言理解系统中的名词语义处理 可以分为名词块语义处理、数量词语义处理、代词语义处理、连词语义处理和集 体词语义结构处理五大部分,其中集体词结构语义处理有对前面四个模块所得知 识的利用和整合;同时,在篇章分析中,对集体词结构的处理直接得到了群体关 系,有利于对名词概念的区分。所以,要让计算机理解自然语言就必须对集体词 结构在语义和篇章层面上进行处理。 本文主要处理自然语言理解中面向篇章的集体词结构关系汇聚的问题,在自 然语言计算机处理研究中,对于简单句的理解处理已经比较成熟,但是对于包含 集体词结构的句子,理解起来就比较困难,因为集体词关系汇聚涉及的问题包括: 语义内涵挖掘、动态概念区分、篇章分析和知识表达。详细说明如下: 1 语义内涵挖掘:处理集体词结构涉及到的句法形式繁多,同时也包含多 种语言现象,语义内涵丰富,这主要指以下两点: 第一,集体词结构由名词成分、代词成分和数量词成分等组成,在语义内涵 挖掘处理上,必然涉及对这些成分的相应处理和结果利用,如: 一个等腰三角形中,其中两条边的长度分别为3 c m 和5 c m ,一个角的度数为 6 0 。 在这个例子中,就涉及到名词“等腰三角形、“边”和“角”的分析,代词 “其中”的语义分析,以及数量词结构“一个 和“两条 的处理。 名词聚类的难点:由于汉语没有足够区分词类的形态变化,主张以意义区分 词类,仅仅对名词词性的确定就引起名词知识库建立的困难,那么研究篇章中的 名词聚类的困难就更大;代词处理的复杂性:而代词处理过程中又涉及到代词指 代,如:这个、那个等,标示集体词的关系代词,如:其中、其他、其余等; 第二,根据集体词结构的本体概念,集体词结构中还必须包含其本身的集合 特性,在分析集体词结构关系汇聚的过程中,属于同一最大集合的多个集体词结 1 6 面向篇章的集体词结构关系汇聚及其在产品需求分析中的应用 构可能是按不同的标准进行的分类,这个实例中就有两种分类标准:按边分类和 按角分类。 还有集体词结构的各种集合属性,如:平均值、方差等等。例子如下: 三个学生的身高分别为:1 7 5 c m 、1 8 0 c m 和1 7 0 c m 。 , 在这个实例中“三个学生 是个集体词结构,那么它根据语义,就有一个“平 均身高的集合属性。 2 动态概念区分:在篇章的层面上处理集体词结构关系汇聚,很重要的一 个目的就是得到各个集体词结构之间的概念实体群体关系,通过静态概念区分, 比较容易的是根据概念所表现的静态知识来确定这些概念之间的概念从属关系, 如: 两个圆,其中一个圆直径为5 ,另一个圆的半径为6 。 在这个例子中,可以相对简单确定这三个名词概念“圆之间是概念相等关 系,而在这个实例当中,这三个概念实例“圆 应该是一种集体词结构整体部分 的群体关系,如果单纯的依靠静态知识来确定这些词的概念实例关系,很显然是 不现实,这就需要利用动态概念区分的方法来达到这一目的。 3 篇章分析:处理集体词结构的关系汇聚,必需要在篇章分析的层面上, 而篇章分析是整个自然语言里系统中最终目标,也是整个系统中最复杂最困难的 部分,篇章分析不仅仅需要在一个更大语境中的表面知识,还会涉及到整个篇章 的背景知识,具体的语言环境的处理等等,这些都是很困难的。对篇章的研究在 国外现在尚无成功的实用系统问世,国内的研究也较晚,没有成功的经验可以借 鉴【8 】【4 1 1 。 4 知识表达:集体词结构表示的信息难以准确反馈到整个句子信息理解中, 如果句子中存在多个集体词结构,如: 在直角三角形中,一边等于3 ,一边等于4 ,求另一边的长? 在这个例子中,有三个显性集体词结构:“一边”“一边 和“另一边 和一 个隐性集体词结构“三边 ,这些结构名词成分都相同且有些结构的数量属性也相 同。 这就要求提取出集体词结构的语义信息在整个句子语义中要对号入座。所以 必须找到合适的知识表示方法,不仅能够表示集体词结构的信息,而且能够很方 便地反馈到整个句子的句义理解中。 3 2 集体词结构概述 3 2 1 集体词结构定义 集体词结构是人或事物的群体。其表示的是一个集合、域的概念。是把传统 第三章篇章中集体词结构的研究 的集合名词、数量词+ 名词结构和其他隐含的群体概念综合分析抽象的结果【4 。集 体词结构指的是形式化了的句子中的所有的显式的和隐性的可量化群体。从应用 的角度来论述的集体词结构主要是为了能够在汉语自然语言理解过程中顺利分析 出这些结构中包含的群体关系。在本文中论述的集体词结构关系汇聚是以从前的 集体词结构语义分析为基础的。 在以往的论述中,集体词结构已经形式化了句子中所有的群体,包括了集合 名词。自然语言理解的目的是理解文章的含义,对句子中的集体词结构在篇章层 面上进行分析,弄清这些结构之间蕴含的群体关系,能够帮助自然语言理解系统 更好的理解句子。 3 2 2 集体词结构的分类 在汉语自然语言理解中,通过对大量语料进行分析,按照集体词结构的不同 组合形式把集体词的结构分为四类: 1 数量词+ 名词结构 ( 1 ) 量词为个体量词、容器量词、种类量词和成形量词。 例如:两个杯子、三瓶酒、七种面包、三张名片。 ( 2 ) 量词为集合量词,数词表示的数目为一。 可明确数量概念的为可量化集合量词: 例如:一双袜子专2 只袜子 不可明确数量概念的为不可量化集合量词: 例如:一群猴子 ( 3 )序数词+ 量词组合构成集体词结构。 这类结构所表示的就是一个序列的概念在里面,本身并不是一个明确数量属 性的概念。所以,主要是从其修饰的对象来生成集体词结构。 通过查找名词概念静态知识库来确定群体数量概念。例如下面的这个例子: 例:某工厂去年第二季度的产值为m 万元 在这个句子中,我们看到“第二 所修饰的对象是“季度 这个名词。通过 静态知识可知,“季度 是概念“年 的一个子概念,一年有四个季度,第一个季 度、第二个季度、。由此可以确定由这个序数词所生成的群量名词。 2 由枚举的元素生成 例如:样本:926384 。 3 可分集合名词 例如:“人群”是“人 的群体。 1 8 面向篇章的集体词结构关系汇聚及其在产品需求分析中的应用 图3 1 知识库中“人群”和“人”的关系 4 名词中隐含的群体 例如:“三极管 中隐含有“三个电极 等群体概念。 图3 2 知识库中“三极管”和“电极”的关系 在汉语语句中,描述集体结构或者说描述一个部分集体和一个整体的句子, 或者有时只出现一个部分概念,而隐含的最大集体概念并未给出,这样的句子非 常之多。在汉语自然语言理解中,分析语义只是表层理解,而深层理解则是通过 篇章分析进一步生成一定的关系。为了准确的理解一个句子,不仅要理解句子中 的各个概念和概念之间的关系,还要弄清楚这些概念的实体之间表现的实际关系, 包括显性的和隐性的。 3 2 3 集体词结构之间的群体关系 集体词结构间关系是指任意两个或多个集体词结构间的关系。 集合论中定义了集合的四个关系,相对应集体词结构作为一个集合,其也有 包含关系、相等关系,交叉关系和全异关系四个关系m 。 1 包含关系 给定两个集体词结构a 与b ,如果a 中的任一元素都是b 的元素,则称b 包 含a 。记作:a c _ b 例1 :有9 名学生,其中有5 个男学生,4 个女学生。 令a = 5 个男学生) ;b = 4 个女学生 ;c = 2 ,所以,可以确定“第三边 与前面的集体词 结构“两边 和“第二边 是全异关系。 2 标示代词在子节点关系确定中的作用 在子节点关系确定中有重要作用的表示代词有:另、其余、另外、其他等。 这些标示代词能明确的确定出集体词结构之间的全异关系,例如: 等腰三角形的周长为1 3 厘米,其中一边长为3 厘米,则这个三角形另一边的 长为? 在这个句子中,集体词结构“另一边 由于有群体标示代词“另”,根据代词 “另”的语义内涵,就可以确定与前面的“一边具有群体全异关系,“另外 与 “另”同意。“其余、其他”与“另、另外 在关系确定上的语义内涵相通,都 能表示全异关系,但是“其余、其他”还能表示集体词结构的数量关系,根据其 语义,能够挖掘出后面集体词结构的数量属性。例如: 等腰三角形的周长为1 3 厘米,其中一边长为3 厘米,则这个三角形其他边的 长为? 最后一个集体词结构“其他边”省略了数量属性,这个知识就必须挖掘出来, 在这个句子中,有三个集体词结构
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 平阳县全员安全培训课件
- 阿里事业单位笔试真题2025
- 2025年阿里事业单位真题
- 央视安全培训课件
- 电商领域知识产权保护与治理报告:2025年行业发展趋势与知识产权战略
- 2025年中医药现代化进程中意大利市场拓展策略研究
- 工业园安全知识培训课件
- 平移或旋转拼图课件
- 农发行铁岭市西丰县2025秋招笔试性格测试题专练及答案
- 2025年风电叶片回收处理技术创新应用与产业布局优化报告
- 地铁站内二次结构支模工程及支撑体系施工工艺技术
- 常见业务场景网络安全建设VISIO图合集(27个类型)v2023
- 新能源发电技术 电子课件 2.5 可控核聚变及其未来利用方式
- 移动互联网时代的信息安全与防护学习通超星期末考试答案章节答案2024年
- 体育与健康-《立定跳远》教学设计
- 人工智能训练师理论知识考核要素细目表一级
- 加油加气站 反恐防范重点目标档案 范例2024
- 店面漏水赔偿申请书
- ASME-第九卷焊接和钎焊评定标准-资料
- 国家机关事业单位工作人员受到行政刑事处罚工资处理意见
- 《幕墙工程UHPC单元体幕墙施工专项方案》
评论
0/150
提交评论