(机械制造及其自动化专业论文)自然语言理解中集体词省略恢复研究及其在产品设计中的应用.pdf_第1页
(机械制造及其自动化专业论文)自然语言理解中集体词省略恢复研究及其在产品设计中的应用.pdf_第2页
(机械制造及其自动化专业论文)自然语言理解中集体词省略恢复研究及其在产品设计中的应用.pdf_第3页
(机械制造及其自动化专业论文)自然语言理解中集体词省略恢复研究及其在产品设计中的应用.pdf_第4页
(机械制造及其自动化专业论文)自然语言理解中集体词省略恢复研究及其在产品设计中的应用.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着社会的日益信息化、网络产品的日益普及,自然语言理解成为了计算机 科学中的一个最引人入胜的、最富有挑战性的课题。本文将自然语言理解中的集 体词省略恢复应用于产品设计,通过对用户以自然语言表达的需求进行分析理解, 为后续的设计提供支持,以实现产品市场竞争力的提高。 本文就目前自然语言理解的研究现状,结合省略句和集体词的研究现状,确 定了集体词省略界定标准,并对集体词省略类型分类研究。提出了集体词省略恢 复填补原则,分析了恢复过程的几个难点。提出集体词省略恢复处理模型。并综 合框架理论、本体论和概念从属理论这三种表示方法,设计了集体词处理需要的 知识表示模板。按模块实现集体词的省略恢复处理。最后,将集体词省略恢复的 处理模型应用到具体的产品设计领域,建立了专业领域的知识库,并通过运行实 例,说明了集体词省略恢复处理模型在产品设计需求中的作用。 关键词:自然语言理解集体词省略恢复产品设计 a b s t r a c t w i t ht h ed e v e l o p m e n to fs o c i a li n f o r m a t i o n i z a t i o na n dt h ep o p u l a r i t yo fn e t w o r k p r o d u c t s ,m t u r a ll a n g u a g eu n d e r s t a n d i n gi sb e c o m i n go o f t h em o s ti n t e r e s t i n ga n d c h a l l e n g i n gi s s u e si nc o m p u t e rs c i e n c e t h i sp a p e ra p p l i e st h er e c o v e r yo fo m i s s i b l e c o l l e c t i v ew o r d si nn a t m a lh n g u a g eu n d e r s t a n d i n gt op r o d u c td e s i g n , s u p p o r tt h e s u b s e q m n td e s i g nb yr e q u i r e m e n t sa n a l y s i so fn a t u r el a n g u a g ee x p r e s s i o n , t h e n i m p r o v et h ec o m p e t i t i v eo fp r o d u c t s t 垴p a p e rc l a s s i f i c a t i o ns t u d yo nt h ec o l l e c t i v eo m i s s i o na n dr e c o v e r d e t e r m i n e t h ed e f i n i n gs t a n d a r do f t h eo m i s s 玉l eo f c o l l e c t i v ew o r d sw h i c hi sb a s e do nt h en a t u r a l l a n g u a g eu n d e r s t a n d i n ga n dc o m b i n et h er e s e a r c hs i t u a t i o no fo m i s s i o ns e n t e n c ea n d c o l l e c t i v e b a s e do nt h er e p r e s e n t a t i o n 、m e t h o d so fk n o w l e d g ef r a m e ,o n t o l o g ya n d c o n c e p t u a ld e p e n d e n c yt h e o r y , r e l a t e dk n o w l e d g er e p r e s e n t a t i o n sa r ed e s i g n e d b y w r i t i n gt h er u l e s ,i n t e r r o g a t i v ep r o n o u n sp r o c e s s i n gi sr e a l i z e d a i l dt h et r e a t m e n to f t h e r e c o v e r yo fo m i s s i b l ec o l l e c t i v ew o r d si si m p l e m e n t e db ym o d u l e a tl a s t , t h e p m c e s s i n gm o d e li sa p p l i e di nt h en l us y s t e mf o rp r o d u c td e s i g na n dt h er e l a t e d k n o w l e d g eb a s e i sb u i l d e d b ys o m ei n s t a l l c e s ,t h eu n d e r s t a n d i n gp r o c e s so ft h e r e c o v e r yo fo m i s s i b l ec o l l e c t i v ew o r d sf o rt h er e q u i r e m e n t so fp r o d u c td e s i g ni s s h o w e d k e y w d r d :n a t u r a ll a n g u a g eu n d e r s t a n d i n g c o l l e c t i v ew o r d s r e c o v e r yo f o n 菌s s i b l ep r o d u c td e s i g n 第一章绪论 第一章绪论 1 1 引言 产品的设计是企业在竞争中获胜的关键,发达国家为了降低制造的成本,将 产品的制造阶段放在发展中国家,却始终将设计阶段放在自己的国家保护,这样 就使得他们的新产品在产品设计和市场推广中占据优势,竞争的主动权被他们牢 牢掌握。我们作为发展中国家,必须拥有自己的知识产权的设计产品才能不受制 于人,为此,研究产品的设计方法学也是至关重要的。【l 】 产品设计是一个从市场调研分析开始,经过概念设计和详细设计,到加工制 作,再到包装、广告和销售的全过程。是工业设计的核心,是工业设计主要研究 的内容。它从根本上决定了产品的功能、成本、价值。当今信息时代,各种新技 术被广泛应用在产品设计中,这些新技术打开了产品设计的广阔市场,提高了产 品设计的自动化程度,解决了传统的产品设计不能融入信息时代的问题。人工智 能中的专家系统就是其中的一种。 所谓专家系统,就是一个在某一特定的领域内,应用人类专家的丰富知识进 行推理求解的计算机程序系统。它是基于知识的智能系统,主要包括知识库、数 据库、推理机制、解释机制、人机接口和知识获取等功能模块。【2 】 自然语言是知识的主要载体。传统的获取自然语言文本知识的途径是,通过 使用归纳程序的工具直接获取文本中的知识,通过知识工程师或者领域专家使用 知识编辑、编译工具间接获取知识,然后构造专家系统知识库,通过专家系统间 接地把知识供应给用户。这种方法因为工作量大,使得知识获取成为专家系统开 发的瓶颈,而且专家系统知识库表现形式不同,使得专家系统知识无法共享。 专家系统引入自然语言理解,使自然语言文本成为专家系统的知识库,能解 决知识获取的瓶颈,且使知识库有统一的表现形式,有利于知识共享。另一方面, 推理技术开发推理与回答机构,通过推理使系统获得更多、更深层次的知识,使 系统理解深度的机内表示与机外表示这两种理解深度相等,增强了系统的自然语 言理解能力。【3 】【4 】 在特定的产品设计领域,自然语言理解面对的是一个客观成熟的问题。其中 涉及的语句经过长期的锤炼,词语、句子的含义明确,专业词歧义少,系统复杂 性大大减小,系统的需要容易得到满足。【5 】【6 】【7 】 基于以上分析,自然语言理解的研究是必要的,有意义的,也是可行的。 本文尝试基于一个网络智能辅导系统的平台,研究实现将自然语言理解相关 技术应用于产品设计中,为后续设计提供支持,最终使得产品设计得到飞跃性的 进展。 2自然语言理解中集体词省略恢复研究及其在产品设计中的应用 1 2 1 自然语言理解的含义 1 2 自然语言理解概述 自然语言理解( n a t u r a ll a n g u a g eu n d e r s t a n d i n g ,n l l d 是指用计算机对自然 语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、 分析、理解、生成等操作和加工,其关键是要让计算机去“理解 自然语言。【8 】 语言属于一种社会现象,而计算机是自然科学的产物。所以自然语言理解是个极 其复杂的研究课题,是- l j 自然科学和社会科学交叉的学科,特别是计算机学、 语言学、逻辑学、生理学、心理学、信息论和情报学等相关学科发展结合而成的 - f - 交叉学科。【9 】它研究内容主要有以下几个方面: ( 1 ) 既理解句子的正确词序规则和概念,又理解不含规则的句子; ( 2 ) 知道词的确切含义、形式、词类和构词法; ( 3 ) j - 解词的语义分类以及词的多义性和歧义性; ( 4 ) 指定、非指定特性和所属( 隶属) 特性: ( 5 ) 问题领域的结构知识和时间概念: ( 6 ) 语言的语气信息和韵律表现; ( 7 ) 有关语言表达形式的文学知识; ( 8 ) 有关语言的背景知识。例 通常意义上,计算机理解了某些事件,是指计算机能正确理解人们用自然语 言输入的信息以及输入信息的有关问题;并产生相应的摘要,能用不同的词语复 述输入信息的内容。或者,计算机能把用某一种自然语言表示的信息自动地翻译 为另一种自然语言。 当前,自然语言理解研究的主流采用的是一种由底向上的策略,即为了理解 句子的意义,先从句法分析入手,划分句子结构成分,再给成分指配意义角色。 如乔姆斯基的语言学理论,将句子结构分成表层结构和深层结构,语言生成过程 就是从深层结构到表层结构的转化过程,语言理解就是这个过程的逆过程。在这 种由底向上策略的指导下,为达到理解语言的目的,需要进行三步工作:理解所 出现的每个词,从词义构造表示语句意义的结构,从句子语义结构表示篇章含义 的结构。在这三个过程中,需要着重解决如何有效地使用语法、语义、语用及与 其相关的各种知识问题【引。 1 2 2 自然语言理解的发展历程 国外对于自然语言理解的研究起步较早,一些卓有成就的语言学家、逻辑学 家和心理学家都在自然语言理解中的语法、句法及语义分析方面提出了一系列较 第一章绪论3 为系统的理论的方法。比较有影响的理论有: ( 1 ) 转换生成语法:1 9 5 7 年美国乔姆斯基创建了转换生成语法,他用数字 方法定义的人工语言来研究语言学问题,用他的语言生成方法去研究形式语言。 ( 2 ) 依存语法:1 9 5 9 年法国的语言学家特思耶尔提出了依存语法,他主张 主要动词作为一个句子的中心,支配其他成分,而它本身不受任何其他成分控制。 依存语法描述的是句子中词与词之间直接的句法关系。 ( 3 ) 语义网络:1 9 9 6 年美国奎廉首次提出了一种知识表示工具一语义网络, 他建议用语义网络来描述人对事物的认识,实际上是对人脑功能的模拟,并希望 这种语义网络能用于进行知识推导。 ( 4 ) 蒙塔鸡语法:1 9 7 0 年美国蒙塔鸡创建了一个完备的自然语言体系一蒙塔 鸡语法。在蒙塔鸿语法中涉及到了范畴语法和内涵类型逻辑。蒙塔鸡语法体系在 分析和描述自然语言理解问题时,无论从语法方面还是语义、语境方面都是较为 完善的,特别适合英语类型的语言。 ( 5 ) 扩展转换网络:1 9 7 0 年美国伍兹根据乔姆斯基创建的转换生成语法, 设计了扩展转换网络,并于1 9 7 2 年建成了k m a r 模型。 ( 6 ) 系统语法:1 9 7 2 年美国维诺格拉德s c h r d l u 模型。系统语法把语言看成 是一种社会现象,采用描述和归纳的方法进行研究。 ( 7 ) 格语法和语义网络理论:1 9 7 3 年美国西蒙建立了语义网络理论。语义 网络表示描述了知识的分层分类结构下的概念关系,主要推理形式是概念间属性 的继承。 ( 8 ) 概念依存理论:1 9 7 3 年美国的杉克提出了概念依存理论。 ( 9 ) 境况语义学:1 9 8 3 年美国的巴杯士和佩里建立了系统的语义学一境况 语义学。境况语义学是一种语义与语用相结合的语义分析理论。 ( 1 0 ) 语料库语言学:近几年来,在国际范围内掀起了语料库语言学的研究 热潮。语料库语言学研究机器可读的自然语言文本的采集、存储、检索、统计、 语法标注、句法一语义分析以及具有上述功能的语料库在语言定量分析、词( 字) 典编撰、作品风格分析、自然语言理解和机器翻译等领域的应用。f l o 】 我国早在1 9 5 6 的就开始了俄汉机译研究,并于1 9 5 9 年获得成功。但当时的 技术主要是词与词翻译和模式匹配,很少有句法和语义分析,不能称之为理解。 实际上1 9 7 8 年我国才开始真正意义上的汉语理解研究。经过2 0 多年的时间,无 论在句法和语义分析方面,还是在各语言单位的语义表示与获取方面,以及在歧 义消解等方面都取得了较大进展,并建立了一批汉语理解的实验系统。我国在汉 语自然语言理解方面的成绩主要可以归纳为: ( 1 ) 机器翻译:以冯志伟教授等为代表的计算语言学学者早期在机器翻译研 究方面做了大量的工作,并总结出不少珍贵的经验和方法,为后来的计算语言学 4 自然语言理解中集体词省略恢复研究及其在产品设计中的应用 研究奠定了基础。 ( 2 ) 语料库研究:清华大学的黄昌宁教授领导的计算语言学研究实验室,主 要从事基于语料库的汉语理解。近年来,在自动分词、自动建造知识库、自动生 成句法规则、自动统计字、词、短语的使用及关联频率方面做了大量的工作并发 表了很多具有参考价值的论文。 ( 3 ) 语篇理解研究:东北工学院的姚天顺教授和哈尔宾工业大学的王开铸教 授等在计算语言学的语篇理解方面,特别在结合语义方面的研究进行了富有意义 的尝试并取得了一定的成绩。 ( 4 ) 概念层次网络理论:中国科学院的黄曾阳先生在进行自然语言理解研究 中,经历了长达8 年的总结探索,在语义表达方面归纳出一套具有自己特色的理 论,提出了h n c ( h i e r a r c h i c a i n e t w o r k o f c o n c e p t ) 概念层次网络理论。它是面向整个 自然语言理解的理论框架。这个理论框架是以语义表达为基础,并以一种概念化、 层次化和网络化的形式来实现对知识的表达。这一理论的提出为语义处理开辟了 一条新路【l l 】。 1 2 3 问题与展望 通过研究自然语言理解研究的发展,能够看出人们正在逐渐发展和完善这一 学科,机器人工智能的程度正在提高。同时我们也应该看到当今自然语言理解的 研究绝大部分还停在研究语法的层面上,想让机器具备与人类似的认知和思维能 力,真正做到“理解”自然语言,还需要很多的研究,还有很多的工作要做。所 以,怎样进一步深入当前的自然语言理解研究,并将研究成果转化为实用系统是 今后自然语言理解的发展方向。 此外,由于当前自然语言理解研究的主要采用的是由底向上的策略,学者们 想要通过词语划分、段落标注、结构理解等方式方法得到语言外在的、物理的特 性,从而认识语言内在的、精神的特征。但语言是一个有机体,语言的整体内容 大于部分的相加之和,由底向上的策略对二维甚至是三维的自然语言理解而言存 在困难,因此只能在特定领域内达到一定程度的理解。想要确立自然语言理解正 确的研究方法,让计算机真正意义上理解自然语言,需要从语言学、认知学、信 息论等多个角度去考虑,需要从语言的生成和理解及其生理和心理机制的研究入 手,将人脑这一复杂的巨大系统看作是“灰箱子,一方面利用神经生理学的成 果解释与语言功能有关的脑结构的微观特点;另一方面又将人脑作为一个宏观整 体,通过分析输入与输出信息的关系,推断人脑进行活动的规律。通过这些工作, 达到构造一种兼顾语言发出者和接受理解者特点的,符合人类语言认知规律的自 然语言理解模型的目的。【1 2 】 第一章绪论 因此,如何正确构造自然语言理解模型应该成为研究者当前乃至以后思考和 工作的重剧1 2 1 。 1 3 集体词省略研究概述 汉语中的省略现象非常普遍,吕叔湘先生在从主语、宾语的分别谈国语句 子的分析【1 3 】中指出:“国语的句法分析比较印欧系语言困难”,原因之一就是 “隐藏和省略的部分太多 。【1 4 】既然省略句是一种客观存在的现象,又和句子的 理解、解释、运用有着密切的联系,那么对省略句做深入细致的研究,必将对我 们认识汉语结构的规律、实现自然语言理解有很大的帮助。 国内语言学界关于汉语省略的研究大约经历了三个时期【l5 1 。 早期有人认为古代语中有八处类型的成分省略,主语、谓语、宾语以及介词 宾语等。也有人认为汉语成分中的主语、谓语、宾语、补足语可以省略,并从省 略的原因这个角度将省略进行了分类。 吕淑湘先生在汉语语法分析问题 1 6 j 关于省略一节中提出应区分省略和隐 含这两个不同概念。这标志着省略研究步入第二个时期。吕淑湘先生认为符合以 下两个条件的才算是省略:“第一,如果一句话离开上下文或者说话的环境意思就 不清楚,必须添补一定的词语意思才清楚。第二,经过添补的话是实际上可以有 的,并且添补的词语只有一种可能。”隐含则是指这样的句子,“你一言,我一语” 可以在“一言”和“一语”前边添补“说或者“来”,但不能限定是“说”或者 “来”并且实际上都不这样说。 上个世纪八十年代,三个平面理论被明确提出。三个平面理论是指从句法、 语义,语用三个平面去处理省略现象。句法分析是指对语言符号与语言符号之间 的组合进行的分析。其主要内容包括确定句型、句子成分、结构关系等。语义分 析是指对语言符号所指( 客观事物) 之间的关系的分析。其内容包括分析施事、受 事、与事、工具、时间、处所、领属等语义关系。语用分析是对句子中的语言符 号和它的使用者及使用环境之间的关系进行的分析。其内容一般包括分析话题与 说明、表达的焦点、交际类型以及同语境的关系等。 关于集体词,目前国内外的研究主要集中在集合名词,主要是从语法的角度 对名词的分类,应用并不多,对于汉语自然语言理解的应用都有一定的不足。虽 然近年党建【1 7 】、谭雪松【18 】在其学位论文中对集体词进行了基于语义或者篇章的结 构和汇聚的研究,但是都是单纯的对于集体词的研究,并没有将集体词作为一个 词参与句法语义篇章方面的自然语言理解工作。 本文将结合三个平面理论,以实现计算机的自然语言理解为目标,研究集体 词省略现象,并实现集体词省略成分的寻找与恢复。 6自然语言理解中集体词省略恢复研究及其在产品设计中的应用 1 4 本文主要工作 本文针对产品设计的智能化信息化需求,从自然语言理解的句法、语义以及 篇章分析的角度,对汉语集体词的省略现象进行了分析研究,并对其进行了恢复 处理,然后对其在产品设计中的应用进行了举例分析。为后续的产品设计提供支 持。 本文完成的主要工作如下: 第一章查阅大量资料,指出了自然语言理解在产品设计中的重要性和必然趋 势。概略了汉语自然语言理解的历史和成就,分析了现有自然语言理解面临的问 题,探讨了集体词省略恢复的现状。对集体词的省略恢复的重要性和可行性进行 了分析。 第二章对自然语言理解的理论基础进行了分析,包括自然语言理解的分析方 法,知识以及知识的表示方法。并对汉语省略现象进行了分类研究,并对汉语集 体词进行了分析研究。 第三章首先确定了集体词省略恢复的界定标准。然后对集体词的省略类型进 行了分类,确立集体词省略恢复的填补原则。最后建立了集体词省略的基本恢复 模型。 第四章首先分析了自然语言理解的总体框架,以及名词和动词的语义分析的 实现。然后建立了集体词模板,给出了集体词省略恢复的基本流程图,以及各个 子流程图,并举例分析了流程图的实现。 第五章分析了机械领域产品设计现状,建立了一个产品设计系统的知识库, 并举例分析了本文所述集体词省略恢复在该产品设计系统中的应用实现。 第六章总结了本文的工作内容,进一步分析了集体词省略恢复实现的后续研 究重点和难点。 经过本文的分析,自然语言理解以及汉语集体词省略恢复的研究是产品设计 研究的必然方向和核心课题,随着汉语言研究的发展以及人工智能和计算机技术 的进步,必然能解决自然语言理解中的各种难题,在产品设计及其他领域取得光 辉成就。 第二章集体词省略研究的理论基础 第二章集体词省略研究的理论基础 2 1 自然语言理解的理论基础 2 1 i 自然语言理解分析方法 在研究语言这种复杂问题的时候,常常需要把问题进一步划分,然后再对每 一部分单独处理【1 9 】。本文按照拆分组合的思想,在这个过程中体现句子的语义语 用和对句子的理解。各模块功能简介如下【2 0 】: 一、词法分析 该模块的主要功能是进行词的切分、词类划分和词性标注,识别出汉语、数 字、英文标识符、标点符号等,用来实现从自然语言到语言理解系统的词法状态 转换。切词采用最大正向匹配原则:一个句子中的汉字组合有多种,对句子切分 时,切出所有可能的组合,以保证句子的正确语义理解包含其中。 例如:线段a d 平分角b a c 交b c 于d 。 切分结果为:【线段】【a d 】【平分】【角】【b a c 】【交】【b c 】【于】【d 】【。】。 对应词性标注:名词,名词,动词,名词,名词,动词,名词,介词,名词,标点。 二、句法分析 该模块是对构成句子短语内部的结果成分、结构关系和结构层次进行分析的, 根据语法规则和特殊句式规则,对每个句子进行切分、判断,每个句子可分割为 若干个小句块,如名词短语、介词短语、动词短语等。 上述例子的正确组块为: 【线段a d 】【平分角b a c 】【交b c 】【于d 】【。】 三、语义分析 该模块结合静态知识库、推理规则以及在推理过程中产生的动态知识库,进 行逐词逐句的分析和理解,消除词语和句子的歧义,生成自动建模所需的全部事 实:关系类、事件类、对象类等。该模块是自然语言理解系统中的关键部分,也 是程序实现的重点部分。本文将句子划分为简单句和复杂句。 对简单句的处理,主要包括以下几个功能处理模块:名词块处理、动词块处 理、事件处理以及事件关系处理等。 对复杂旬的理解是用循环加递归实现的,最终的分析结果是一个动态事件 集。 四、篇章分析 该模块实现动词概念的关系处理,即处理动态事件的关系,并处理句子问的 关系,确定问题领域和类型。 8自然语言理解中集体词省略恢复研究及其在产品设计中的应用 五、语用分析 该模块依据语义分析后产生的不同结果事件、关系和对象事实等,结合领域 的常识知识规则和领域知识,建立整个事实对象之间的关联,并将领域问题理解 结果转换为领域特定形式。 2 1 2 知识及知识表示方式 知识是人们在改造客观世界的实践中形成的对客观事物及规律的认识,包括 对事物的现象、本质、状态、关系、联系和运动等的认识。知识是把有关的信息 关联在一起,形成的关于客观世界某种规律的动态信息结构。 知识= 事实+ 规则+ 概念。 事实就是指人类对客观世界、客观事物的状态、属性、特征的描述,以及事 物之间关系的描述。 规则是指能表达在前提和结论之间的因果关系的一种形式。 概念主要指事实的含义、规则、语义、说明等。【2 1 】 常用的知识表示方式有以下几钟: ( 1 ) 产生式表示法 所谓“产生式”表示,在语义上,是指“如果a 则b ”的因果或推理关系【1 6 1 。 在形式上,一般可以表示为:p 卜q 。其含义是“如果前提q 满足则可推出结论 p ( 或应该执行动作p ) 一。在产生式系统中,一般利用一个解释程序以“匹配一执 行”的方式来运用这种知识,即右部q 能与一个已证结论集合( 最初它由用户或 系统提供的全部事实构成) 中的某元素匹配( 包括可能需要的变量替换后才能匹 配) 时,就可以运用该产生式,或者推出结论p 所代表的动作等等。如此循环往 复地运用由一组产生式表示的知识,以求得最终的结论、解答问题、求证定理等。 。产生式表示的优点:模块化程度高。提供了高精度的信息( 事实和规则) ,信 息的添加、更新和删除容易实现,同时也易于表示启发式知识。 产生式表示的缺点:在大系统中规则难以保持模块化,对规则之间相互作用 的限制可能导致效率的降低。当处理基本顺序的信息且知识块很大时,知识和控 制区分不明显。 ( 2 ) 框架表示法 框架通常由描述事物的各个方面的槽组成,每个槽可以拥有若干个侧面,而 每个侧面可以拥有若干个值。一个框架的一般结构为: 第二章集体词省略研究的理论基础9 一般地,一个对象采用一个框架描述,其属性则用“槽”来描述。 框架表示法的优点:结构性强,适合于表示某一类型的概念、事件和行为; 继承性强,框架之间可以形成层次的和更复杂的关系。 框架表示法的缺点:不适合表达过程性的知识;多重继承可能会产生多义性。 ( 3 ) 格语法 格语法是一种利用深层格概念对生成语法进行修正的语义格描写模式。它的 基本思想是:动词在句子中起中心作用,参与动作的各个体称为“语义格,并且 “格的数量是有限的。 费尔摩建议采用9 个格:施事格:事件或行为的执行者、行动者、表现者。 感受格:某种行动后果的承受者、接受者。对象格:动作对象或考虑对象。 工具格:导致某事件的物理手段或精神刺激。来源格:事物的来源( 地) 。 目的格:事物的目的( 地) 。场所格:事物所处场所。时间格。路径格。 格语法强调的表层结构的特殊性及深层结构的普遍性,为我们研究普遍语法 打开了一个新的视野。从汉语重意合轻的形式特点出发,注重深层格关系的格语 法为我们的汉语句法研究提供了一种新的模式和思路,在目前情况下,已经为汉 语中的某些句法现象提供了很好的解释。【2 3 】 ( 4 ) 语义网络 语义网络利用节点和带标记的边构成的有向图来描述事件、概念、状况、动 作及客体之间的关系。带标记的有向图可以十分自然的描述客体之间的关系。1 9 7 2 年美国人工智能专家斯勒康( j s l o c u m ) 和西蒙斯( r f s i m m o n s ) 首先将语义网 络用于自然语言理解系统,在语义网络中直接用概念表示词义,反映词义与词义 之间的动态组合。 例如,“人”具有“能吃饭、能睡觉”的属性特征,“小学生 除了具有这 些特征外,还具有“未满十八岁、生活不能独立等特殊的属性特征,所以“人 中的特征“能吃饭、能睡觉”就不用描述出来,可节省存储空间。语义网络各个 概念之间的关系主要由i s - a 、p a r 孓o f 、c o o s e d o f 、h a v e 、b e f o r e 、 l o c a t i e d - o n 等谓词来表示。事件由若干个概念组合表达,可以有施事、受事时 间等。事物间的语义关系常见的有分类关系、聚焦关系、推论关系、时间、位置 关系。 语义网络的主要优点:相关事实可以从与其直接相连的节点中推导出来;重 要相关性能被明确表示;能够利用少量的基本概念的记号建立状态和动作的描述; 易于建立继承层次并对继承层次进行演绎。 ( 5 ) h n c 理论 l o 自然语言理解中集体词省略恢复研究及其在产品设计中的应用 i - i n c 理论是由中科院声学研究所的黄曾阳先生创立的。按照h n c 理论,自然 语言理解的过程是,首先将自然语言映射到语言概念空间,然后在语言概念空间 中对概念联想脉络进行激活、扩展、浓缩、转换与存储,从而达到对自然语言理 解的目的。 按照h n c 理论,概念空间共分六个层次,分别是概念基元( 概念层次网络) 、概 念的组合、语句、句群、段落和篇章。概念基元是概念空间的基本元素,其他各 层都建立在概念基元之上。概念基元符号体系首先将概念分成3 个基本范畴:抽象 概念、具体概念和两可概念,后者兼备具体与抽象的双重特性。 ( 6 ) 概念从属理论 概念从属是一种表达自然语言句子意义的知识表示方法,它把论述看成是一 组本体论概念的构成,主要概念如下: - 不同类型实体( e n t i t y ) - 不同类型动作( a e 6 d n ) 不同的概念格( c o m e p t u a l c a s e ) - 不同的概念时态( e o n e e p t u a k n s e ) - 不同类型的概念从属( e o n e e p t u a l d e p e n d e n c y ) 建立概念从属理论的公理:具有相同意义的两个句子,不管它们的词语是否 相同,或词语排列次序是否相同,它们都有相同的内部表示。例如,一个句子的 主动态和被动态,它们在形式上是不相同的,然而,在意义上它们是相同的。如: 他打碎了玻璃。 玻璃被他打碎了。 按照概念从属理论,这两个句子具有同样的表示方法。因为两个句子的动作 都是通过动词“打劳的概念体现的,“他 是做此动作的人,“玻璃 是此动作 涉及的对象。 在基于知识的自然语言理解系统中采用概念从属理论作为语义分析方法,具 有诸多优点:知识推理方便。可以在抽象层次上处理问题。可以表达概念间 的深层知识。【2 4 】 2 1 3 概念与概念模型 概念是知识最基础的单元,是知识表示与操作理论的中心。概念模型用来表 示概念的内涵、外延以及它们之间的关系。在概念基础上建立的概念关系模型则 是在概念间进行的具体操作。 一、概念 设q ,v 为概念r 的内涵与外延,其中g j 卯、缈、劬为概念基本的 第二章集体词省略研究的理论基础11 永真命题,g f j 、即,、锄为q i 的等价永真命题,那么,内涵可表示为: q ( q 1 人窖2a ( 甄 毋la 吼2 人 g 。) 吼 ( 2 1 ) 外延的属性为v ,v 2 ,玖,相应的值域为d l 、d 2 、d l 【,这些值域 组成的笛卡尔空间为d = q d 2 q ,d 为满足q 约束的子集,d 称为概念 的变化范围,喀= ( 吐,吐,以) 是概念中的一个点。( q ,以) 称为概念r 的实例概念。 概念i 河表示如下: 尺= q , i d d 明) ( 2 - 2 ) 概念的可变部分是由概念属性( a t u m u t c s ) 组成的笛卡儿空间决定的,并且受内 涵性质的约束。概念的内涵与外延从不同侧面对概念进行了描述,无论哪一部分 都只能描述概念的一个方面,二者的有机结合才是对概念的完整描述。概念的外 延是该概念内涵约束下的概念的可行空间。概念内涵中所涉及到的概念称为该概 念的子概念。为了完整地描述一个概念,准确地表示一个知识,需要缩小概念的 外延增加其内涵,这时就要用到概念间的一些操作。概念内涵增加的原因是新的 基于存在命题增加,新命题对新外延的范围起决定性的约束作用。 二、 概念间操作 ( 1 ) 选择操作:设f 是一命题公式,它的运算对象是常量或外延的属性。运 算符为算术比较运算符,逻辑运算符。概念r 关于f 的选择运算( 记为( 尺) ) 定义为: 啄( 尺) ; g d i j ( q d ) r ,( k 。,u 2 ,) = 豫u e = q f ( v | 1 ,m :,) ,【d l d = 人( q f ( u 。,b :,吒) ,d ) r 】 ( 2 3 ) 盔是组成属于概念外延矿的属性m 的第价部分。 ( 2 ) 连接操作:如果概念r 与s 相互独立,q r - 与q s 分别为l 屿s 的内涵,d 与 d 蛇分别为屿s 外延中的任意一点,则i 屿s 的连接可表示为: r x s = 幺 g ,ld l d = ( g ,d 削) e r a ( 幺,d 鸵) si ( 2 4 ) 相互独立是指从q r 筘中不能推出q r 与$ 中永真命题的否定命题,也不会 得出不同于q r 、q s 中永真命题及嫂aq s 的新永真命题。连接操作有多形式,设 秒 ,乏与- ,称为9 连接。 ( 3 ) 例化操作:设概念r 的外延y 由变量h ,屹,喙组成,变量的值域为q , m 在口中的任意一次取值记为苁b ) ,称作概:貅的一次例化,记为乃俾) 。例化的 定义可表示为: 1 2 自然语言理解中集体词省略恢复研究及其在产品设计中的应用 彤( r ) = q , d ld 磊,畋,“,或,丸。,噍 a q , d ) r 4 = 乃( m ) 】j = q 乃( k ) ,【d l d - - a ( q a y ,( v i ) ,j ) r 】 ( 2 5 ) ( 4 ) 实例化操作:假设概念r 的外延由属性m ,v 2 ,咋组成,外延的每一个属 性具体化后,叫做概念r 的实例化。 三、概念间的抽象具体关系 实际上,每一次实例化和细化操作是一个内涵增加外延减少的过程。概念外 延减少是因为外延约束的增加,概念内涵增加的原因是新的基于存在命题增加, 新命题对新外延的范围起决定性的约束作用。所以,它们相互补充,不可分割。 例如,在一个直角三角形中,q 为三角形的内涵,l c 为直角,外延的可变 范围由直角三角形中两个独立的属性z 轴和y 轴决定,直角三角形的可变范围v 包括第一象限的所有空间。对直角三角形进行细化操作,添加了新的性质a = 6 , 过程如下: 吒旬( 直角三角形) = q ,p i d t = ( 口,b ,c , l a ,如) ( q d i ) 直角三角形 口= 6 ) = q 口= 6 ,【_ r d 直ld 角= 三( a , 角b , 形c , z a 口, l ;b 6 , ( q d ) c 2 6 , 直角三角形外延 等腰直角三角形外延 ( 外延为第一象限所有点) ( 外延为一条射线a = b ) 图2 1 直角三角形细化 这就形成了一个新的概念等腰直角三角形,它的内涵可以表示为: q q a a = b 。随着本体约束的增加,等腰直角三角形的外延变为笛卡尔空间第 一象限内的一条射线。这就说明,在从抽象概念到相对抽象概念的演化过程中, 随着命题约束的增加,概念的内涵逐渐增多,外延逐渐缩小。 四、概念模型 概念模型理论是本文知识库构建的理论基础。汉语中实词所表达的概念是非 常丰富的,不仅可以表示实际存在的有形物体,还可以表示意识范畴的心理概念。 概念是通过词语表达出来的,因此可以说概念是词语的思想内容,词语是概念的 第二章集体词省略研究的理论基础1 3 表达形式。 在自然语言篇章理解中,要深刻地理解句子的含义和关联,就必须有一种能 够充分表达概念含义的知识表达方式。在描述概念方面,概念模型指出并强调概 念的内涵和外延是不可分割的,只有将二者结合起来才能对概念做出完整描述。 所以我们将概念模型做为省略恢复的语义分析基础。 2 2 1 省略的类型 2 2 汉语省略现象概述 第一章中已经介绍了省略的判定,也分析得,目前对于省略现象的研究已经 达成了一个共识,即利用三个平面理论来研究省略。按照句法位置的不同,对省 略进行了分类。 一、句法位置相同。 l 、主语承前省略:这类省略在汉语中是极为普遍的,子句l 中先出现名词或 代词,在后面的子句中承前省略,阅读者可以根据句法位置可以进行简单恢复。 例如:他走到石家大门,( ) 站住了,( ) 抬了头望院子里的石榴。 2 、主语修饰语省略。 例如:小明的脸色不再苍白,( ) 牙齿不再上火,( ) 身体不再浮肿,( ) 眼看 就要康复出院了。 3 、主语蒙后省略:蒙后省略以蒙后省略主语居多,蒙后省略主语修饰语、宾 语、宾语修饰语等极为罕见。 例如:( ) 工作了一年,我才挣了两千块。 4 、宾语的省略。 例如:前村有小汽车了,咱村也有( ) 了。 5 、谓语的省略。 例如:同志们劝他休息,他不( ) 。 二、句法位置不同。 句法位置不同是指,子旬1 省略的成分相对于子句2 而言,其句法功能发生了 切换。 l 、顶真式省略:子句中处于末位的n p , 在后一个子句句首出现并省去;处于 宾位的n p ,成了下一子句的主语n p ( 省略) ,籍此扩展话题。 a 单旬顶针 例如:王老汉五十岁那年才添了儿子,( ) 现在都上小学了。 b 多句顶针 例如:法院是不怕争吵的。她找到庭长,( ) 也是个女的,( ) 对她说:“你 “ 自然语言理解中集体词省略恢复研究及其在产品设计中的应用 不服就上诉吧! ” 2 、隔句省。 例如:你让他自己说,他会帮着我们说话;( ) 要是当面和他说破,( ) 反而不 敢帮我们。 3 、兼语的省略:子句l 兼语n p 转换到子句2 变成主语n p 并省略,成为该 子句的叙述主题,内容承接上面的句子i 例如:领导派他去支边,( ) 到很远的山区去。 4 、介词宾语转为主语的省略:子旬l 中n p 以介词宾语出现,到子句2 转成 主语并省略。 例如:小明买一个储蓄罐,( ) 被弟弟贴了一朵小花,( ) 把储蓄罐变成爱 心牌的了。 综上所述,从省略成分来说有省略主语、主语修饰语、谓语、宾语等等;从 省略方式来说,又可分为承前省、蒙后省等等,两者结合起来,就有了上面的省 略分类。 2 2 2 各种省略类型所占比例 根据北京语言大学的田然对一个封闭语料做过n p 省略的穷尽调查,经过处理 的统计结果如下:【2 5 】【2 6 】 表2 1 省略类型所占比例统计 类型语料省略数比例 量 主语承前省略 2 6 57 3 8 主语修饰语省略 5 1 4 8 2 宾语省略 1 43 9 定语转换省略 1 02 8 顶真转化省略 4 71 3 1 3 介宾转换省略 61 7 5 兼语转化省略1 23 3 数据显示,省略以承前省主语最为普遍,占7 3 8 ,宾语省略占3 9 ,符合 顶真式的省略占1 3 ,三者共占语料省略数量的约9 1 ,可见汉语省略的规律性。 谓语或谓语动词的省略较少。谓语或谓语动词表达的意思是整个句子的重点,因 此一般不能省略,这种省略主要出现在双方的会话交流中。 第二章集体词省略研究的理论基础 2 3 集体词研究的理论基础 集体词结构是人或事物的群体。其表示的是一个集合、域的概念。 2 3 1 集体词结构的分类 一、数词+ 量词+ 名词结构 ( 1 ) 量词为个体量词 例如:两个杯子、三瓶酒、三张名片 ( 2 ) 量词为集合量词 集合量词为可量的:一双袜子、一打酒 集合量词为不可量的:一群猴子 ( 3 ) 序数词+ 量词组合构成集体词结构 这类结构所表示的就是一个序列的概念,本身并不是一个明确数量属性的概 念。所以,主要是从其修饰的对象来生成集体词结构。通过查找名词概念静态知 识库来确定群体数量概念。 例如:某工厂去年第二季度的产值为m 万元。 在这个句子中,我们看到“第二所修饰的对象是“季度 这个名词。通过 静态知识可知,“季度”是概念“年”的一个子概念,一年有四个季度,第一个 季度、第二个季度、。由此可以确定由这个序数词所生成的群量名词。 二、枚举型 所谓枚举型,就是对集体词结构中的各个个体都有明确的描述。 例如:样本:926 384 。 三、可分集合名词 例如:“人群是“人 的群体。在静态知识库中“人 与“人群”是m e r d a e r - o f 的关系。 四、名词中隐含的群体 例如:“三角形”中隐含有“三条边 的群体概念。在静态知识库中,“三 条边”与“三角形”是a t t r 由u t e - o f 关系。 2 3 2 集体词结构之间的群体关系 集体词结构间关系是指任意两个或多个集体词结构间的关系。 一、包含关系 给定两个集体词结构a 与b ,如果a 中的任一元素都是b 的元素,则称b 包含a 。 记作:a b 。 1 6自然语言理解中集体词省略恢复研究及其在产品设计中的应用 例如:有9 名游客,其中有5 个走路的( 游客) ,4 个骑车的( 游客) 。 记a 寻 5 名走路的游客 ,b ; 4 名骑车的游客 ,c = 9 名游客 。 则:a 冬c ,b 互c 。 二、相等关系 给定集体词结构a 与b ,若a b ,且b a ,则称a b 两集体词结构相等。 记作:a = b 。 例如:有两组数据:第一组:358 9o ,第二组:08 9 35 。 记a 产 第一组数据 ,b : 第二组数据) 。 则:a = b 。 三、交叉关系 给定集体词结构a 和b ,如果有a 的元素是b 的元素,也有a 的元素不是 b 的元素并且有b 的元素不是a 的元素。则称a 与b 有交叉关系。 例如:学校购买了两批图书,第一批有四种书:英语、数学、政治、历史; 第二批六种书:语文、数学、政治、地理、生物、物理。 记a 寻 英语数学政治历史) ,b = 语文数学政治地理生物物理) 。 则:a ,b 为交叉关系。 四、全异关系 给定非空集体词结构a 和b ,若a 的每一元素都不是b 的元素,并且b 的 每一元素都不是a 的元素,则a 与b 是全异关系。 例如:王萍今年总共修了5 门课,春季学期修了语文、数学和物理,秋季学 期修了计算机和英语。 记a 亍 语文数学物理 ,b = 计算机英语 。 则:a ,b 为全异关系。 2 4 本章小结 本章首先介绍了自然语言理解要用到的语法、语义、篇章等不同层面的分析 方法,以及自然语言理解中常用的知识表示方法及概念模型。分析了汉语省略的 类型以及各种类型在汉语理解中的重要性和比例。初步对集体词概念进行了理解 分类。 第三章集体词省略现象研究 第三章集体词省略现象研究 3 1 集体词省略界定标准 关于省略的判定标准,很多学者都进行过研究,归纳起来有以下几种【2 7 】: l 、事理逻辑标准。 也就是说,一个句子在事理逻辑上“照理”应该有的成分而在字面上却没有, 这个语句就不完整,就有所省略。 这种标准的缺点是如果以此为标准,那么句子的省略就会因人而异地随意推 究,几乎无

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论