(计算机应用技术专业论文)自然语言时间语义信息处理.pdf_第1页
(计算机应用技术专业论文)自然语言时间语义信息处理.pdf_第2页
(计算机应用技术专业论文)自然语言时间语义信息处理.pdf_第3页
(计算机应用技术专业论文)自然语言时间语义信息处理.pdf_第4页
(计算机应用技术专业论文)自然语言时间语义信息处理.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机应用技术专业论文)自然语言时间语义信息处理.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国科学院自动化研究所硕士学位论文 摘要 摘要 在自然语言当中,所描述的语义总是发生在一定的时空之中。时间信息已 经成为自然语言表达中必不可少的一种语义信息。如何有效的计算和模拟自然 语言中的时间语义,在人工智能自然语言理解领域具备重要的意义。本文以本 体论框架概念网络为基础,深入分析自然语言时间信息表达特点,构建了 种比较完全的自然语言时间表达模型,并对现代汉语中时间语义信息的提取 和计算进行了初步的研究和尝试,取得了一定的成果。 本文首先分析了自然语言中时间语义表达的特点,为其两种主要的表达方 式,绝对时间表达和相对时间关系表达分别建立对应模型,并将这两种模型通 过时间历史有机的结合成为一个整体。绝对时间模型以时间单位系统作为度量 的基础。以日历系统为核心,可以有效地量化时间段,为时间段的计算打下了 基础;相对时间关系以十三种基本时间段关系为表达基础,可以有效地表达和 推理时间段之间的两两关系。时间历史以绝对时闻段为核心组织相对时间关系, 为自然语言的时间语义提供了统一的模型。 概念网络提供了对现代汉语语义的分割,以概念为基本单元,并对现代汉 语文本提供了分词以及初步语义分析功能。本文以概念为基础,分析了汉语中 各种时间相关概念的特征以及语法功能,将概念分为两大类型:实词概念与虚 词概念,分别针对这两种不同的时间概念建立了对应的时间对象和时问关系映 射规则集。在此基础之上,进一步深入分析经过概念网络处理过的现代汉语句 子语义结构,结合各个时间概念的时间语义映射模型,生成统一的时间历史结 构,实现了现代汉语时间语义的有效处理。 这一工作充实了概念网络本体论框架,扩展了概念网络模型的具体语义, 实现了其时间语义模型。为概念网络进一步构建其他的背景知识,充实和车富 概念的其他具体语义,提供了借鉴和初步的研究实践经验。 随着时间概念语义的不断充实,各种时间关系映射规则集和时间对象进一 步丰富和完善,将为概念网络提供深入的时间语义处理能力。而随着概念网络 具体语义处理能力的逐步丰富和强大,包括时间语义处理能力,空问语义处理 能力等的扩展,将为自然语言语义处理的发展打下坚实的基础。 关键词:自然语言理解,概念网络,本体论,时闯语义,时间模型 中科院自动化所硕士学位论文a b o a c f a b s t 陀c t i nn a n 】r a l1 a n g u a g e ,协em e 趾1 i n g so fs e n t e n c e sa r ea l ll o c a t e di ns o m ep o s i t i o n s o fs p a c e t i i l l e t e m p o r a li 州白瑚艄t i o nh a sb e e no n ek j n do fn e c e s s a r ys e m a n t i c i 蜘撕o nmn 删l a n g u a g ee x p r e s s i o i l s i t ss i 嘶f i c a n tf o rn a t i l r a dl a i l g i l a g e u i l d e 咖d i n gt oe n b c t i v e l yp m c e s st e m p o r a ls e m 删cs 虮l c t i i r e s t m s 枷c l e a n a l y z e s 也ec h 础烈e r i s t i c so ft e m p o r a li 山r i l l a t i o ne x p r e s s i o n si nn a n j r a ll a n g i l a g e o nt l l eb 船i so fo n t o l o g y 丘锄n 钾v o r k c 0 1 】1 町e t ,b u i l d sau n i f o md m er e p r c s e i l t a d o n m o d e la 1 1 dt r i e st oe ) 【订a c ta 1 1 dp r o c e s s 伽et e m p o r a ls c m 础cs h u c t l l r e si nm o d e m c l l i n e s es e m e n c e s b vn o ww e1 l i v em a d es o m ea c l l i e v e m e n t s a tf i r s tw ed i s c i l s st h ec h a r a c t e r i s t i c so ft c m p o m le x p r e s s i o n si nn a t u m l 1 a n g l l a 贴,d a s s i f i e dt h e mi 1 1 t ot 、oc l a s s e s :a b s 0 1 u t et i m ee x p r e s s i o n sa n dr e l a t i v et i i n e c x p r e s s i o n s t 、od i 腩r c n tm o d e i sf o rt h et 、v oh n d so fe x p r e s s i o i l sh a v eb e e nb u i i t a n do r g a n i z c di n t oa 疵t e ds e m a n t i c 曲m c t u r e t h ea b s o l u t et i m em o d e lb a s e d0 n t i m e 盯a i l u l 疵i e ss y s t e ma n dc a l e n d a rs y s t e mc a ne 丘b c 垃v e l ym e 勰u r et i m e ;1 l l e r e l a t i v et i i n em o d e lh a st l l i n e e i lb a s i cr e l a 廿o n s i l i p sf o r 硼| e a l s ,a n di sc a p a b l eo f e x p r e s s m ga n dr e a s 叩_ i i l g 伍er e l a t i o n s h i p s b e t w e e ni m e r v a l s t h et i i n el l i 咖r y o r z a n j z e si m e n m s r e l a t i o n s t l i p sa c c o r d i n gt oa _ b s 0 1 u t e 血n ei n t 州s ,f o n n st 1 1 e u n i f o m lm o d e lf o r 把m d o r a ls e m 枷cs 订u c t i l r e s c o n n e t ( c o n c e p tn e t w o r k ) p r a v i d e st h es e g m e n t a t i o no fs 锄a n 石cm e 眦m g s i t u s e st l l ec o n c e p ta st h eb 髂i cs e m a n d cu 证t ,h a st 1 1 ea b i l i t i e so fs e g n l 锄慨c i o n 向n c t i o n 锄dp r e l i m i l l a 珂s e m a n t i ca n a l y s i sf h n c t i o n sf 0 rc 1 1 i n e s es e n t e l l c e s 。w 音a n a l y z e 也e c h a r a c t e r i s t i c so f t e m p o r a lc o n c e p t sa n dt 1 1 e i r 铲a m m a r 胁c t i o n s ,c l a s s i 矗e d 也e mi n t o t 、oc l a s s e s : s u b s t a n t i v e sa n d 血n c t i o n a lw o r d s s u b s c a n d v e sa 咒m 印p e di i 】_ t o t c n l p o m lo b j e c t si n 血n em o d e l if 、h l c t i o n a l 、o r d sa r cm a p p e di m om l e 咄sf b rt l l e c o n s t r i l c t i o no ft i i i l er e l a _ t i o i l s a f t e rd e t a i l e da n a l y s i so f 也ep r e l i i 】1 i 】1 a r ys e m a n t i c s 缸u c t u r e so fs e n t e n c e s ,c o m b i n e d 、v i 血联;p e c t i v et i m e 咖c t i 鹏so ft e i n p o r a j c o n c e 饥s ,也eu n i f o n n 伯f n ek s t 嘶e sc a nb ec r c a t e da n dp r o c e s s e d 0 1 l rw o r ke l l r i c h e sm el 【i l o w l e d g eo fc o 州e t t sf 锄e w o r k ,e 】【t e n d si 忸d o m a i n s e l l l a n t i cm 朗n i n g s ,a i l dr e a l i z e si t st i m es e m 础cm o d e l am e 蚓f o rc o l l n e tt o c o n g 缸1 l c tb a c k g r o l l n da i l dd o m a i nk n o w l e d g ci sp r o p o s e da r ds e t 船a ne x a l l 叩l ef b r r e f b f e n c e c o n n e t 、i l lp o s s e s sp o w e m l la b m t yt op r o c e s st e n 叩o r a ls e m 删cm e a n l g s w i 也t l l ee n r i c h r n e n to f t e 瑚【p o r a lc o n c e p t s s e m a n t i cs 衄l c t u r e s 趾de x t e n s l o l l s 士o r 劬e o b j e c t s 锄1 dm a p p 吨n 1 1 es e t s t h e 址r c a s 讥g 曲i l i t i e so f 呻c e s s i l l gd o m 咖s 锄删c m e a i l i n g s ,i i l c l u d 血gt i m e a n ds p a c es 锄锄t i cm e 痂g sp r o c e s s i n ga b i l i 埴e sf o r c o i 】n e t d l lf b 珊s o l i df o l m d a t i o n sf o r a d v a n c e di l a t i 】哺1 l 髓g u a g es e m 砌c p m c e s s m g - l 厶叼胛o r d s :n i j u ,c o n n e t o n t 胡。卧t e m p o r a l 鲫n 蚰6 c s 佃l 咖n t i m em 砷d i i 独创性声明 本人声明所成交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知, 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果。与 我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确地说明并表示了谢意a 签名: 挡薯一 日期:翟盘,! l : 关于论文使用授权的说明 本人完全了解中国科学院自动化研究所有关保留、使用学位论文的规定,即:吉国跫竺詈! 动化研究所有权保留送交论文的复印件,允许论文被查阅和借阅;可以公布论文的全部或窘b 分内 容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:辑导师签名:杠日期: 稠r 占2 第一章绪论 第一章绪论 1 1 自然语言处理技术的发展 1 1 1 自然语言处理技术简介 在当前知识经济时代,随着信息技术曰新月异的发展,人们所获得的信息 呈爆炸式增长,常常面临着被各种各样无关的信息所淹没,难以有效处理信息 这一窘境。以h l t e m e t 的发展为例,数以百亿计的w e b 页面分布在全世界并持 续迅速增长,仅仅这一信息源就常常会让人们陷入无穷无尽的垃圾信息而无法 找到有用的页面。一方面是信息的极大丰富和迅猛增长;而另一方面是信息的 管理和处理技术捉襟见肘,日益成为有效利用信息的瓶颈。 为了突破这一困境,人们对于信息智能处理技术的要求和需求越来越高。 自然语言是人类交互信息最重要的载体之一,承载了人们交流沟通的绝大部分 信息和知识,这也就使得自然语言处理成为当前信息处理技术研究的热点之一。 广义的自然语言处理( n a 妇司l a l l g u a g e 胁c e s s i n g ) 是指利用计算机对人类使 用的语言( 例如中文,英语等) 进行处理和加工的技术,涉及到人工智能,认 知心理学,数学,哲学,语言学等等众多学科。自然语言处理根据所研究目标 的不同,可以划分为两个层次:符号处理和语义处理。在符号处理层次一般将 自然语言文本作为有规律的符号串或者流进行,利用文本符号的统计数学模型 解决相关的语言处理问题,例如传统的信息检索【l 】,采用统计处理方法的分词、 标注、文本分类等方向的研究,狭义的自然语言处理就是指这一领域【2 】。而语 义层次的处理则注重于自然语言文本所承载的意义,致力于自然语言文本的语 义模型的研究和相关处理,这一领域的研究一般被称作自然语言理解。在有些 研究中,自然语言处理与自然语言理解不加区分,两者往往互相可以替代【3 】。 自然语言处理一直是人工智能领域研究相当活跃的一个分支,这一领域技 术的发展,直接关系到甚至决定了很多人工智能系统的实用效果和发展前景, 例如自动问答系统,机器翻译系统,文本挖掘系统,信息检索系统等等。自然 语言处理是一项具备很大挑战性的工作,本身又可以细化为多个关键问题的解 决,例如词义消歧,句法分析,语义分析,文本生成,语音识别等等。这些关 键技术问题涉及到语音知识、词语形态学知识、句法知识、以及语义知识、语 自然语言时间语义信息处理 用知识、篇章知识、世界知识等等方面的领域知识【4 】。这些关键技术的有效解 决将推动自然语言处理技术不断发展。 1 1 2 自然语言处理研究的发展历程 自然语言处理技术在发展过程中经历了研究方法的重大变化,成果也相当 显著。六十年代初,最开始对自然语言处理技术的研究,其核心任务是为了回 答以自然语言形式提出的某个领域内问题 5 ,6 。此时对语言的句法分析和语义 分析处于起步阶段,都比较重要,这一阶段在语法层次的分析有了很大的发展, 以乔姆斯基转换生成语法为代表的形式语法为语言学与计算机科学之间搭起了 桥梁,对自然语言的句法分析有了深入的研究【7 】。到了7 0 年代时候,人们把 研究的熏点放在了自然语言的语义分析之上,认为解决问题的关键在于首先解 决知识表达和推理、语义解释等等这些复杂的问题【8 ,9 】。这一时期构建的系统 可以对某一特定的句群和篇章进行深入的理解处理,但是也只能限于理解特定 的文本,而无法广泛适用于其他的篇章【1 0 】。人们发现为了对句子进行语义分 析,即使是简单的文本也将大量涉及到一些通用知识和常识知识等,需要深入 细致的知识工程建设工作【1 l ,1 2 。而常识知识都是人类在日常生活中的经验日 积月累而产生的,没有一个规范而且系统的体系,因此,知识工程的建设就显 得格外的复杂和困难。当8 0 年代对知识工程的深入研究仍然难以解决这个问题 时,人们开始尝试避免复杂的语义分析,放低期望希望能对一些简单的不用过 多涉及到语义的自然语言处理问题提供有效的解决方案和系统。此时人们开始 尝试引入了统计学习的方法对文本建模,利用已有的语料库文本对统计模型进 行训练学习,这一方法在语音识别中获得了很大的成功,大大提高了分析的准 确率【2 ,1 3 】。随后统计建模方法推广到了自然语言处理各个研究领域,包括词 义消歧,句法分析,词性标注,机器翻译等等,并且逐渐占据了统治性的地位。 从某种意义上来说,此时的自然语言处理研究更多的偏向了传统信息检索的形 式,而远离了人工智能自然语言理解的方向【1 ,1 4 ,1 5 。 1 。1 ,3 自然语言处理研究现状 统计方法目前来看在工程领域比知识工程方法所获得的结果要更胜一筹, 在信息检索,搜索引擎中已经有了广泛的应用,并且已经达到了一定的效果n , 4 】。但是,仅仅涉及到符号统计计算的自然语言处理方法几乎已经达到信息处 理的极限,很难进一步上升到对语义信息进行深入的挖掘和智能化处理,准确 2 第一章绪论 性也难以进一步提高。以中文分词为例,由于中文不象英语存在词语的自然分 隔符号,中文信息处理首要的任务就是将中文文本划分为词串,这就是中文分 词问题。仅采用了统计方法的分词效果,目前来看,已经可以达到了9 0 以上 的准确率。这一准确率很大程度上还受到测试语料集的影响。要想进步提高 分词的准确率,十分困难,这涉及到人名识别,地名识别以及词语消歧等问题。 而这些问题的解决往往和语义处理有千丝万缕的联系。 为了满足人们对自然语言处理智能化的要求,提高自然语言处理的准确性, 需要对自然语言的语义进行深入的分析,并利用计算机对语义进行表达和挖掘, 才能不仅仅被限制于符号处理的肤浅表面,而上升到语义层次。这样才能使计 算机更加人性化,理解人类自然语言表达的真正意图,进一步提高信息处理的 质量和效果。为了实现这一目标,需要对人类的语义处理过程有初步的了解。 一般来说,人脑中有丰富的语义模型,在解析自然语言过程中,根据语义模型 的联系不断的将符号转换为语义模型中的结构,因此,自然语言的理解过程就 是语义模型的重建过程。而要在计算机中处理语义问题,关键问题之一就是语 义模型的建立。 一般自然语言的语义处理方法是在计算机中构建语义知识模型,建立语言 知识库,然后基于知识库和语义模型对自然语言进行语义分析处理。基于这一 研究方向,自然语言理解的研究也一直在发展并逐步复苏,并且取得了一定的 成果【1 6 ,1 7 】。对于语义知识建模的工作,本体论的研究已经有了部分的实际系 统,例如国外的w j r d n e t 【1 8 】 1 9 】,m i n ( n e t 【2 0 】【2 l 】,f r 咖e n e t 【1 6 ,2 2 】,国内 的概念层次网络【2 3 】,知网【2 4 ,2 5 】等等。现在这一方面的工作基本处于研究状 态,距离应用还有很长的路要走。在相当长一段时间内自然语言的语义分析仍 将是一个非常重要而且具有挑战性的问题,对这个闯题进幸亍深入而广泛的研究 将极大的推动自然语言处理技术的进步,同时也会深化人类对于自然语言理解 过程的了解( 2 6 】。 从现代汉语的处理角度出发,语义处理尤为重要。首先他不象英语那样有 自然的词语分隔符号,对于汉语的自然语言处理首先涉及到分词的问题,汉语 的分词过程就已经涉及到语义层面的理解过程;其次,汉语的很多语义信息通 常隐含在词语搭配之中,没有常识知识的支撑,仅靠规则无法对所表达的含义 达到合适的理解。例如英语语系的时态系统,根据动词形态变化规则可以获得, 但是汉语的时态就不十分的明朗,涉及到语义层面理解过程中的时体确认过程。 一 鱼竺至童堕塑里墨堡璺竺翌 汉语的词法分析、句法分析的过程通常就隐含着语义分析的过程。很多汉语处 理的基本问题例如未登录词识别问题,中心谓词确定的问题,词性歧义的问题 等等都离不开语义背景知识,汉语的自然语言处理过程,与语义处理相互紧密 交织在一起,这使得自然语言理解技术的发展对于现代汉语处理技术的发展具 有更加重要的意义【3 】。 1 2 自然语言语义建模的意义 在自然语言中,人们所表达的语义通常都是存在于意识之中的一种虚拟图 景,这些虚拟图景从某种意义上来说,是人类记忆和经验知识结合所建立起来 的一种意识模型。我们不期望计算机完全重建这种虚拟图景,目前来看也是不 可能的,因为这种记忆和经验知识不仅仅是符号方面的抽象,更多的是图像、 语音方面的立体性重现。我们只能尽可能的将经验知识在计算机中建模,并把 自然语言对应到这种语义模型中去,利用这种语义模型来处理相关的语义信息, 并最终模拟对自然语言相应的语义处理。 人类的常识知识或者背景知识,目前还很难用一个通用的计算机模型来表 示。方面常识知识是人类在多年的与环境交互中所培养起来的经验性知识, 几乎不可能系统的采用统一抽象模型来描述,我们只能根据需要建立特定领域 的语义模型来进行相关方面的语义分析。另一方面限于计算机的表达能力,不 同的知识类型需要用不同类型的表达方式来表达,目前还没有一个通用的无所 不包的知识表达模型。领域化的专业知识,一般需要利用相关知识的特点,采 用特定的知识表示方式。例如有针对逻辑推理的产生式表达系统,有针对语义 约束的语义网络表达系统,有针对描述逻辑的框架表达系统等等【2 7 ,2 8 】。因此, 我们需要一个本体论模型框架,能够融合进各种不同形式的知识表达方法。两 我们可以根据自己需要的领域性语义知识,随时建立相关的语义模型融入本体 论框架中,从而实现对所需要语义的处理。这些语义模型的建立过程也将是计 算机长期的学习过程。 对于自然语言处理来说,除了语言符号所表示的概念以及语法搭配关系构 成了理解自然语言所必要背景知识,还有其他的一些与语言符号搭配无关的重 要知识,例如时间感觉,空问感觉等等。从自然语言理解方面来说,这些必要 模型的建立是一个重要的基础,建立了这些模型之后,才能具体化和丰富化概 念的语义,而不是仅仅具备抽象的本体属性。建立了具体语义模型之后就将涉 第一章绪论 及到模型与自然语言的映射关系。如何将自然语言形式的符号表达映射到对应 的语义模型,会涉及到词法分析,句法分析,语义分析等自然语言处理的种种 形式化过程以及领域相关的映射规则。事实上在计算机中对某一个领域内知识, 例如时间或者空间语义等建模的研究并不少,但是主要是面向于特定领域的智 能信息系统,将领域建模和自然语言处理完全结合起来的研究工作并不多见 2 9 3 1 】。正是基于这样的考虑,本文试图构建时间领域的计算机语义模型,以 帮助计算机进行自然语言中时间语义信息的理解。 1 3 时间语义表达与推理模型 时间作为自然物质的一种存在方式或者说属性,是无处不在的【3 2 】。在各 种知识体系中,都无法脱离时间来考虑物质的运动规律,人们的生活也与时间 息息相关,在自然语言中绝大部分的语句都涉及到时间信息的相关概念和知识, 因此时间信息就成为需要建模的重要背景知识。例如“昨天我看了一天书。”, 从“昨天”所指代的时间指示词,到描述动作持续时间长度的“一天”,都离不 开时间领域内的背景知识。如何在计算机中完全而且符合实际的模拟时间感觉, 是人工智能应用程序等智能化系统的一个重要研究方向【2 9 ,3 0 ,3 3 ,3 4 】。 时间信息过于抽象,而且和物质运动规律联系紧密无法分割,因此,通常 来说,对于时间的研究都是限于特定智能系统之内的,尤其是对于知识表达系 统来说。通常将时间信息简化为符合知识表达方式的日期表示或者序列的符号 表示,这大大的忽视了时间信息的复杂性和广泛性,难以和其他的表达方式兼 容处理 3 5 ,3 6 。事实上,在自然语言的表达当中,不仅仅涉及到刻画时间轴的 日历系统,利用日期表达时间,同时我们还经常会涉及到时间的相对关系,例 如前后,同时发生等等。两种表达方式常常是密不可分,相互联系的。其复杂 性大大超过了一般计算机系统或者一般知识表达系统所考虑的范围。 时间语义信息对于自然语言表达的影响很早就引起了语言学家的注意。参 考国外英语时体研究的成果,中国的研究者对于汉语时间信息的研究也有了深 入的发展和成就。从七十年代末开始,汉语语法学界逐渐形成了汉语时体研究 的热潮,代表性的成果有马庆株、陈平、戴耀晶等的一些工作【5 0 ,5 1 ,5 3 】。到 目前为止这些研究总的来说是直接针对现代汉语与时间有关的语言现象的,虽 然有的也引进了和发展了西方语法学、语义学、认知语言学等方面的理论,但 都不是形式化的研究,更没有考虑计算的闽题。不过,这些研究对于时间语义 自然语言时间语义信息处理 计算仍然有举重轻重的作用,因为与西方语言学家和逻辑学家的思考相比较, 很多考虑都不符合汉语事实,而只有建立在大量汉语事实基础上的形式化研究, 才能建立起真正合乎汉语实际的运算系统。 汉语学界对汉语时间系统的研究相当深入,但是对时间模型关心较少。在 已有的研究基础之上建立起统一的形式化汉语时间系统模型,成为了汉语语法 学界目前研究的一个新的方向【4 3 ,5 2 】。陈振字在已有基础之上,提出了更为丰 富的时间系统原型,在形式化方面走的更远一些【5 4 】。但是按照计算机自动推 理的要求,其形式化还明显不够。 而对于满足计算机系统处理需要的时间语义模型的研究一直没有停止过。 主要包括两个方面:一方面是关于时间本体论的研究,这方面的研究主要侧重 于时间语义知识的计算机表达,并且获得了比较多的成果【3 1 ,3 7 3 9 】。其次是关 于时间时序逻辑的研究,这以j 枷e sfa 1 l e n 的一阶时序逻辑为代表,把时间语 义抽象为时序逻辑的关系,利用约束传播网络对时序逻辑进行了研究 2 9 , 4 0 - 4 2 1 。同样是由于表达方式的不同,两方面的研究很少结合在一起,而在自 然语言中,这两者是一个有机的整体。如何把两种不同表达方式的时间语义信 息结合在一起,相关的工作还比较少见,需要进一步深入的研究考察。通常自 然语言中的时间语义信息的表达并不明确,包含了很多隐含的背景信息。以现 代汉语中的时体系统研究为例,直到目前还无法完全归纳出所有对时间有影响 的语法单元要素【4 3 】。这种抽取隐含时间信息的研究更多的由语言学家进行形 式化处理,利用计算机提取相关信息的研究还不多见【3 4 ,3 9 ,4 4 ,4 5 】。但可以预 见,这样的研究一方面可以充实自然语言具体语义计算的研究内容,另一方面 将为自然语言理解的背景知识提取与模拟打下坚实基础。 1 4 论文研究背景及安排 为了达到对自然语言语义层次的处理,中科院自动化所综合信息系统中心 创建了一种本体论体系概念网络( c o n c e p tn 出o r k ) ,致力于在概念f 网络 ( c o 心j e t ) 的知识平台支撑下,实现对于自然语言语义的分析处理。这一理论 的研究获得了2 0 0 3 年中科院自动化所创新基金的支持,并将进一步应用到国际 合作网项目中。 概念网络模型利用概念代替词作为表达语义的最基本单元,以消除歧义的 发生。利用概念之间的关系,铡如上下位关系、父子关系等构成了相互的联系, 6 第一章绪论 形成了一个层次化的网络。有了概念网络对于基本语义单元的划分,我们就有 可能对概念网络内的相关时间语义单元一一各种时间相关概念建模,并将其映 射到统一时间模型之上,以充实和丰富各种时间概念的具体语义。这将为自然 语言中时间语义信息的模拟和提取提供基本的平台。 本文研究了时间本体论以及汉语时间信息的表达特点,在此基础上构建了 一种通用的时间概念表达模型,同时结合语法学家对自然语言时体系统的研究 以及概念网络的表达特点,提出了一种映射时间概念到时间语义模型中的方法。 论文第二章分析了现代汉语中时间语义的表达特点与已有的时问表达系统的特 性,对构建新的时间语义模型提供了理论基础;第三章在分析中文时间表达特 点的基础之上,结合概念网络的特点构建了综合各种表达方式的统一时间语义 模型:第四章分析了基于此语义模型的自然语言时间概念映射模型,进一步考 察现代汉语中的时间表达特征以及语法结构,提出了一种提取现代汉语句子时 间信息的方法;最后总结了开发实践的结果以及下一步所需深入开展的工作。 自然语言时间语义信息处理 第二章自然语言时间语义建模分析 2 1 语言学中时间语义信息分析 2 。1 1 语言学时体研究 对自然语言时间语义信息的建模需要考虑自然语言时间语义信息本身的特 点。r e c h e n b a c h 在1 9 4 6 年关于时态的开创性工作奠定了英语语言学中时间语 义信息研究的基础【4 6 ,4 7 】。他主张英语时态系统应该提供三个潜在的时间谓 词,也就是s t ( 说话时间) ,r t ( 参考时间) ,和e t ( 事件时间) 例如,“i h a 垤 b e e n t l l e r e t 、oy e a r sa g o ”( 我两年前到那里去过) 。这句话当中,潜在的说话时 间用s t 表示,相当于说话时候的“现在”,参考时间r t 是指“两年前”,而事 件时间是指“两年前我到那儿去”事件发生的时间。后来,b m e e 在此基础之 上引入了一种多维时态指代系统,他定义了一个集合( s 1 ,s 2 ,s 3 ,s n ) 作为时态的元素,s l 表示说话时间,每个s i ( i _ 2 ,1 1 1 ) 是参考时间,s n 代表事件时间,这里的参考时间为多个 3 6 】。为了方便逻辑推理操作,b m c e 提 出了七种基于时间段的一阶逻辑关系,并且将英语当中的九种时态,映射到了 时闻段的一阶逻辑表达当中,后来由舢1 e n 将一阶时间逻辑关系扩展到了1 3 种, 见表2 1 【4 8 1 。基于此时间谓词理论的研究成果也十分丰富,不断的充实和发展 了英语时体系统理论【4 5 ,4 9 。 表2 一1 a l l e n 提出的十三种一阶逻辑关系 x b e f o r c y ( x 在y 前) 0 。( y x x x xc q u a i s y ( x 与y 相同) y y y x m 坞y ( x 与y 相遇) mm ix x x y y y x x x x o v c d a p s y ( x 与y 前重叠) oo i y y y ) 0 0 ( x d 响g y ( x 与y 后重叠) dd i y y y y y x x x xg 眦s y ( x 与y 同时开始)ss i y y y y y ) d 。( x 矗i i i s h 嚣y ( x 与y 同时结柬)f h y y y y y 从语言学研究的角度看,一般自然语言的时闻信息可以被分为时和体,两 第二章自然语言时间语义建模分析 者都是用来描述运动变化与时间相关的状态的 5 0 ,5 1 】。所不同的是,时用来描 述运动发生的时间与时间轴基点( 包括绝对基点与相对基点) 的关系,而体用 来描述运动所占有的时间。时的描述是关涉运动所发生的时间与基点的比较, 例如现在,过去,将来等等,而体的描述是关涉运动本身在时间轴上所占用的 时间段的状态,例如已开始,持续中,完成等等体貌。不同的语言观察世界的 角度并不完全相同,常用来表现的时体类别和数量也不一定相同。对屈折形态 或粘着形态比较丰富的语言( 例如英语、法语等语言) ,时体和语法形式之间的 对应关系是比较严格的。就英语的情况来看,“过去时”和“现在时”主要是通 过零形式( 没有助动词,仅有动词形态变化) 、t 0b e ( i s ,、】 佻等) 以及h a v c ( h a d ) 动词的屈折变化来实现的,有统一的规则,这样对于时体的处理就相对简单 【5 2 】。在汉语方面的时间关系要比英语复杂的多,对时体的考察必须和自然语 言理解过程紧密结合。竞成曾提到汉语中“表达时间概念的因素不但多,而且 大部分是非特定的语法标记,甚至语用因素也很要紧,这就使得问题变得格外 复杂” 4 3 】。由于没有规则可循,很长一段时间语言学家都在争论汉语中是否 存在时体,如果存在是如何表达的。在缺乏共识和统一的时体模型基础之上, 汉语的时间指代研究就更加复杂。下面我们深入分析现代汉语的形式化时间系 统结构。 2 1 2 时间语义语言学形式化分析 对于符号系统来说,它传递信息的编码方式有两种:种是每个信息都由 系统的一个部分或者一个原子来表达;另一种是由整个系统中各个部分的连接 状态来表达。在复杂的符号系统中,表达特定信息时,可能会包含了两种编码 方式,并且不同的成分有不同的权重,有的成分起着关键作用,所以权重很大, 而有的成分与此信息基本无关,权重基本为零,相互之间的连接搭配也会影响 到权重分配。自然语言是这种符号系统的典型例子,尤其是现代汉语。 通过一些例子,可以看至现代汉语的这一特点。以表达时间信息为例,一 般除了表时段性质的名词( 如“早上”,“今年”,“春天”等) ,时间助词“了、 着、过”,副词“已( 经) 、曾( 经) 、要、将( 婴) 、在、刚( 刚) 、起来”、 动词“开始、结束、停止”等对时间语义信息起着关键性的作用,其他的一 般名词性成分( 如“花”,“计算机”,“篮球”等) 、介词( 表位置意义的“在”, 例如“在左边”) 以及表程度、情态的副词( “能够”,“可以”,“必须”等) 等 等,都对时间语义影响不大,权重近似为零。谓词性成分要单独进行分析,因 自然语言时间语义信息处理 为谓词性成分一般表示的是事件,而事件的时间属性常常构成了对时间语义进 行理解的重要补充和背景知识。谓词性成分是通过所表达事件的语义间接影响 时间信息的,权重一般不如直接的时间单元大,但是决不为零。情况与之相类 似的还有否定副词,他们通过决定事件的有无状态来对句子的时间信息做出贡 献。例如: “我昨天打球了。” “我昨天没有打球。” 第一句中描述的打球的时间段为昨天中的某一个时间段。而“没有”否定 这一事件时,不仅仅否定了在某个时间段打球的状态,而且否定了整个“昨天”, 因此所描述的状态时间段扩大了。 已有研究将时间系统的形式化计算问题分解为三个任务:第一步确定现代 汉语时间系统究竟涉及哪些认知要素,构建认知模型;第二步确定汉语句子中 每个单位以及连接关系在编码时间信息时究竟表现什么意义,将其采用形式化 方式来表达;第三步在认知模型中建立由规则驱动的运算系统,简化直接转换 过来的形式化表达式,从而得到甸子整体编码的时间语义信息。 以陈振字的时间认知模型为例,其时间认知模型包括三组“区别特征” 5 4 】: 1 、事件三部分( 开始s 、持续c 、结束z ) 2 、时间基点( 相对基点,绝对基点t 0 ) 3 、时段( s d 、z d 、6 、e ) 需要说明一下时段的分类:确定性时段( 例如“三天”、“半小时”等) ,分 为以事件开始为上限的时段s d ,如“看了三天书”和以时间结束为上限的时段 出,如“到了三天”。不确定时段分为相对小量6 和相对大量e ,分别表示不 确定的相比较可以忽略的小时间段和不确定的相比较不能忽略的大时问段。 这三组时间要素相互组合构成时间要素复合体,来描述各种时体的概念。 以t i 或者t o 为标准,事件的某一部分可以和基点有以下的任意组合关系 z6b ,表示在时间基点t i 之前,事件已经结束。 s6b ,表示在时间基点t 之前,事件已经开始。 c ,表示在时间基点时,事件正在持续 基于此认知模型,需要对汉语中的对应时间要素进行定义。根据前面分析, 1 0 第二章自然语言时间语义建模分析 谓诃性成分通过所表达语义间接影响时间信息,因此,对于谓词性成分的时间 要素定义最为复杂和关键。这里,主要对不同性质的谓词性成分,也就是不同 的事件或者动作进行分类。根据马庆株的研究,可以把事件分为两大类 5 3 】: 非极性事件:非极性事件主要指动作没有倾向性,开始和结束并不明显, 可以同时表示动作的开始和结束,采用f 删出来表示,例如“看卿山( x 1 ,x 2 ) ”。 x 。,抽分别表示与动作联系紧密的施动者和受动者。例如: “我看了他一眼”,表示动作的瞬时。 “我看着他画画”,表示动作的持续。 这两种情况下,“看”本身并没有倾向性。 极性事件:极性事件表达具备倾向性的动作,其动作会对某个状态有持续 性的影响。非极性事件分为两种,瞬间事件和持续事件。瞬间事件表示开始和 结束同时发生的瞬时事件,用f 由1 5 山表示,例如到5 d 1 2 面( x l ,x 2 ) ”;丽持续 事件根据其持续时段的位置又可以分为三种:前持续事件f 出“实现z d ( x j ) ”; 后持续事件f 8 d “知道3 d ( x 1 ) ”;强持续事件f “等于( x 1 ,x 2 ) ” 把这五种类型加入连续或者非连续、惯性或者非惯性的区别,就能得到更 细致的分类。例如,某个事件如果终结后结果具有很强的惯性,当没有其他力 量来改变时,这一结果保持不变,这表示惯性事件。而动作连续非反复进行时, 称作连续事件,例如“站在这里等了半天”;反复进行的事件,例如“最近我每 天都要吃早餐”,并不是一直在吃,作为非连续性事件。还有一种无所谓连续不 连续事件,例如“我工作了三年”,就担任工作而言。是一直在持续,而就工 作的时间而言,并不是一直在工作,又是非连续的,这种情况下,笼统的说事 件在这时段内进行,称为活动事件。 按连续与否细分s d :连续时段s d l ,非连续时段s d 2 ,活动时段s d 。 按惯性与否细分z d :惯性时段z d l ,非惯性时段z d 2 。 在参照大量的语料库的基础上,陈振宇总结了基于此认知框架的时间要素 翻译表,见附表,1 。虽然有些部分的研究没有涉及,例如把字句,被字句等句 式,但是对于时间信息的自动化提取有重要的借鉴意义。 在附表1 中总结了重要的时间相关的副词、动词、助词对于句子中时阅信 息表达的影响,并映射到了认知模型当中。由于时间副词、动词和助词往往还 会叠加作用于事件,叠加作用的规则也总结如表2 2 所示,并应用到了实际句 一 皂堡堡童堕塑至苎堕:垦竺堡 子的分析当中。例如对于句子“消失了三小时”对应的运算过程如下: z 6 t i ( z 三小时( 消失出( x l ,x 2 ) ) ) 移位规则一z ( z 三小时) 6 t i ( 消失出( x l ,x 2 ) ) 终结递推公式一z 三小时6 t i ( 消失出( x l ,x 2 ) ) 相对小量公式一z 三小时t i ( 消失 田( x l ,x 2 ) ) 表2 2 时间要素组合运算规则。【5 4 】 相对小量公式 1 ) s 6 _ rs 6 2 0 2 ) c 6 = c3 ) 5 1 6 2 = 64 ) d 6 = 8 d ;d 1 c6 o 相对大量公式 1 ) s 铲z 2 ) c :荔3 ) 翻2 = 4 ) 6 = 6 = 5 ) s d 8 ;s d z 6 ) e d = d 瞬间公式对瞬间事件有:s ( f 判) :c ( f 叫) ;z ( f 8 聃 k 还原公式坛f f ( d i ) 呻f ( z ) : 表示前置宾语,可以和( d ;1 置换。 因果公式 1 ) z ( f ( 兀x ) ) = s 征8 ( 兀x ) ) :2 ) 出y 2 = s d 8 。 ( 上标y 标记原因,g 标记结果,n x 表示持续的状态) 瞬惯规则 f “4 ”;f 。即同一事件,既可认为是惯性瞬间事件,也 可认为是后持续事件。 过程公式 f 一z t f ( f ”1 基点规则 当内、外层都有时间基点时,最外层的时间基点为整个复 合事件的时间基点。 移位规则当作用项位于外层时,将内层的时间要素复台体移到该作 用项下,作为该作用项的定义域。 开始约去公式s ( t ) _ + t 持续约去公式c ( n _ + t 终结递推公式 1 磁s d 卜s d ;2 ) z ( 出) - z d ;3 磁窃_ 2 4 ) z ( s ) _ c ;5 诃c 卜。 对于具体的运算规则的语言学依据以及采用规则限于篇幅,这里就不再讨 论了。可以看出,基于语言学的时间认知模型的分析目前已经相当深入,对于 语义的细微差别都有了分析的基础,涉及到了事件类型的背景知识,以及相关 的时间副词、助词之间的各种特定搭配影响。这种分析的过程目前只能由人来 进行,因为对时间信息的分析,对事件类型的判断,不同时间副词、助词对特 定的事件时间语义的不同影响,都是需要构建的重要背景知识,实现计算机的 自动处理还有很长的路要走。目前来说计算机时间语义信息的计算不需要达到 这么精细的程度,也很难对所有的事件以及动作进行这么详细的分类处理,因 此这些规则对计算机的时间语义信息抽取仅有借鉴意义,而无法完全适用。 本文借鉴了这种动词分类的思想,但为了实现计算机的形式化处理,需要 对这种分类的处理情况进行必要的简化。下面我们进一步考察计算机中时间系 统模型的特点,以确定合理的简化方法。 第二章自然语言时间语义建模分析 2 2 时间表达与推理研究 2 2 1 时间的本质 要在计算机中构建合理的时间语义模型,首先需要对时间的本质有充分的 了解。时间本质的研究一直都是哲学、物理学、认知心理学、人工智能等等众 多学科的热点之一。 关于时间的本质以及它的些属性的研究一直充满了争议。时间这一抽象 的概念到底是什么? 这是哲学家需要不断思索的个闻题,对于时间也一直没 有一个完全充分的准确定义 3 2 】。时间概念本身就是抽象出来的一个不受物质 世界影响的模糊概念( 在相对论中时问是相对的,但是自然语言处理中我们暂 时只在牛顿惯性体系中考察其特性) ,我们很难获得直观的形象特征,因此对时 间的特征提取和精确描述也就更加抽象和困难。 但是对于时间的本质也并不是完全不可把握的,虽然它是一个完全抽象的 概念,也有一些公共的属性可以让我们来理解它。总结前人的工作,要构建 个合理的时间模型,需要考虑以下几个问题 2 9 ,3 3 】: 时间结构中的时间元素。时闻元素是指时间的最基本单元

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论