(计算机应用技术专业论文)仿人机译理论研究.pdf_第1页
(计算机应用技术专业论文)仿人机译理论研究.pdf_第2页
(计算机应用技术专业论文)仿人机译理论研究.pdf_第3页
(计算机应用技术专业论文)仿人机译理论研究.pdf_第4页
(计算机应用技术专业论文)仿人机译理论研究.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(计算机应用技术专业论文)仿人机译理论研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要机器翻译( m t ) 的理论基础是自然语言理解( n l u ) ,在概述国内外有代表性的n l u 理论基础上,提出以“八步三原则二标准”为标志的仿人自然语言理解理论( i c u s c g ) ,其中“八步”指:( 1 ) 接受信息( 接受编码) ,( 2 ) 语义组块( 概念处理) ,( 3 ) 关系分析( 初步解码) ,( 4 ) 修补信息;( 5 ) 字面理解( 基本解码) ;( 6 ) 完全理解( 完全解码) ,( 7 ) 深刻理解( 扩充解码) ;( 8 ) 理解升华( 创造发挥) :“三原则”为:( 1 ) 语义概念优先原则,( 2 ) 语境语用协同原则,( 3 ) 语法结构辅助原则;“二标准”是:( 1 ) 可以进行同义的变形复述,( 2 ) 可以进行i f 确的回应或行动。基于i c u s c g 对语义处理、语境处理、语法处理等自然语言理解实现技术进行了探讨,研究了用计算机具体实现核心概念识别、语境表示、语法转换等有定难度的技术方法。创立按照“学说话、增文化、长知识”分级建构模式设计仿人机译系统的思路。能关键词:机器翻译;智能信息处理;自然语言处理;自然语言理解:仿人智a b s t r a c tt h ef o u n d a t i o no ft h e o r yf o rm a c h i n et r a n s l a t i o n ( m t ) i sn a t u r a ll a n g u a g eu n d e r s t a n d i n g ( n l u ) o nt h eb a s i so fr e v i e w i n gp r e s e n t a t i v ei n t e m a t i o n a la n dn a t i o n a ln l ut h e o r i e s t h ea u t h o rp r o p o s e dah u m a n s i m u l a t i v en l ut h e o r y( i c u s c g ) ,w i t hc h a r a c t e r i s t i c s “e i g h ts t e p s ,t h r e ep r i n c i p l e sa n dt w os t a n d a r d s ”t h e“e i g h ts t e p s ”a r e ( 1 ) a c c e p t i n gc o d e ;( 2 ) c o n c e p tp r o c e s s i n g ;( 3 ) r e l a t i o na n a l y s i s ;( 4 ) i n f o r m a t i o ns u p p l e m e n t ;( 5 ) b a s i cd e c o d e ;( 6 ) c o m p l e t ed e c o d e ;( 7 ) w i d ed e c o d e ;( 8 ) c r e a t i v eu n d e r s t a n d i n g t h e t h r e ep r i n c i p l e s ”m e a nf1 ) t h ep r i n c i p l eo fp r i o r i t yi ns e m a n t i cc o n c e p t s ;( 2 ) t h ep r i n c i p l eo fs y n e r g i s mi nc o n t e x ta n dp r a g m a t i c s ;( 3 ) t h ep r i n c i p l eo fa s s i s t a n c ei ng r a m m a rs t r u c t u r e a n d “t w os t a n d a r d s ”a lef1 ) w ec a nv 撕o u s l yr e s a yw h e nw eu n d e r s t a n d ;( 2 ) w ew i l lc o r r e c t l yr e s p o n do ra c tw h e nw eu n d e r s t a n d b a s e do nt h ei c u s c g t h ea u t h o rp r o b e si n t ot h ep r a c t i c a lt e c h n o l o g i e sf o rn a t u r a l l a n g u a g eu n d e r s t a n d i n ga n ds t u d i e ss o m ed i f f i c u l tt e c h n i q u e sf o rc o n c e p tc o g n i t i o n c o n t e x te x p r e s s i o na n dg r a m m a rt r a n s f o r m a t i o n t h e n ,t h ei d e af o rd e s i g n i n gh u m a n s i m u l a t i v em ts y s t e mw i t hs t a g e s “l e a r n i n gt os p e a k i n c r e a s i n gc u l t u r ea n da d d i n gk n o w l e d g e ”h a sb e e ne s t a b l i s h e d k e y w o r d s :m a c h i n et r a n s l a t i o n ;i n t e l l i g e n ti n f o r m a t i o np r o c e s s i n g ;n a t u r a ll a n g u a g ep r o c e s s i n g ;n a t u r a ll a n g u a g eu n d e r s t a n d i n g ;h u m a n - s i m u l a t i v ei n t e l l i g e n c e1 引言1 1 机器翻译的简要历史回顾机器翻译( m a c h i n et r a n s l a t i o n ) ,简称机译( m t ) ,是利用机器把一种自然语言转变成另一种自然语言的过程。早在2 0 世纪3 0 年代初,法国科学家g b a r t s o u n i就首先提出了机器翻译的设想。但直到1 9 4 6 年电子计算机问世后,机器翻译才作为一个学术研究领域正式登上历史舞台。2 0 世纪4 0 年代以来,机器翻译大体经过了三个历史发展时期:( 1 ) 初创期( 1 9 4 7 1 9 6 6 )19 4 7 年春,美国r o c k e f e l l e r 基会会的工程师w w e a v e r 写信给著名的控制论专家n w i e n e r ,提出设计用于翻译的计算机的设想,但w i e n e r 持怀疑态度。随后,w w e a v e r 与英国工程师a d b o o t h 进行了讨论,并于1 9 4 9 年发表了翻译备忘录。从此,世界上丌始了机器翻译的探索。1 9 5 4 年1 月,美国g e o r g e t o w n 大学和i b m 公司合作研制并公丌演示了一个只有2 5 0 条词汇、6 条语法规则的俄英机器翻译系统,首次向科学界和公众展示了机器翻译的可能性。接着,英国、苏联、法国、同本、中国等国家都丌始了机器翻译的研究探索。中国机器翻译的研究始于1 9 5 6 年。1 9 5 9 年,中国的机器翻译研究者成功地进行了中国首次机器翻译试验表演,成为继美国、苏联、英国之后世界上第四个进行这类试验的国家。从1 9 5 6 年起,中国就把机器翻译研究以“机器翻译”、“自然语言的数学理论”等研究项目形式列入了当时的科学发展纲要。“六五”、“七血”、“八五”和后来的高技术研究发展计戈j j ( 8 6 3 计划) 均把机器翻译列入重点研究项目。( 2 ) 低谷期( 1 9 6 6 1 9 8 6 )1 9 6 4 年4 月,为评估机器翻译的前景,美国国家科学院( n a s ) 成立了一个自动语言处理咨询委员会( a u t o m a t i cl a n g u a g ep r o c e s s i n ga d v i s o r yc o m m i t t e e ,简称a l p a c ) 。a l p a c 对当时一些m t 系统进行测试后,于1 9 6 6 年发表了机译界无人不晓的a l p a c 报告,大意是说:经过调查,机器翻译速度慢,准确率差,比人工翻译费用高很多,在近期或可以预见的未来,开发出实用的机器翻译系统是没有指望的。a l p a c 报告对机器翻译研究造成了很大的损害,以其“狭隘、偏颇、短视”遭到许多严肃的批评。因为a l p a c 报告,各国纷纷停止了对机器翻译研究的经费支持。直到1 9 7 7 年5 月,加拿大m o n t r e a l 大学t a u m 小组研制成功法英天气预报翻译系统m e t e o 并成为投入实用的第一个机器翻译系统,机器翻译才开始在世界范围内逐步复苏并同趋兴旺。( 3 ) 繁荣期( 1 9 8 6 今)机器翻译繁荣期的到来,以两个事件作为主要标志:是国际性机器翻译专业杂志m a c h i n et r a n s l a t i o n ( 丌始三年名为c o m p u t e ra n dt r a n s l a t i o n ) 于1 9 8 6 年正式创刊,标志m t 作为一个专门学术研究领域得以独立。二是1 9 8 7 年在日本举行了第一届机器翻译峰会( m t s u m m i t ) ,此后每两年轮流在亚、欧、美定期举行。不久又相继成立了亚太机器翻译协会、欧洲机器翻译协会、北美机器翻译协会,以及国际机器翻译协会,还定期出版了机器翻译通讯。标志m t 的专业学术活动蓬勃展歼。2 0 世纪8 0 年代中期以来,各国机器翻译研究快速复苏,研制出一批具有实用价值的m t 系统,有的系统还实现了商品化。其中,美国卡内基梅隆大学( c m u ) 、南加州大学( u s e ) 和新墨西哥州立大学m s u ) 联合研制的机器翻译系统p a n g l o s sm a r ki i i n i r e n b u r g ,1 9 9 5 1 、同本京都大学研制的英同双向机器翻译系统m b t 2 【s a t o ,1 9 9 5 等系统均具有较好的性能。美国卡内基梅隆大学、德国西门子公司和日本a t r 研究所还共同研究了语音翻译,于1 9 9 3 年试验成功自动翻译电话,并进行了1 0 多分钟对话。近年美国又有公司推出一种旅游用的名为“w o r l dm a t e ”的袖珍翻译机,存储了2 2 5 0 个常用短语( 1 5 种语言,每种各1 5 0 个短语) ,可用于各国旅游。2 0 世纪8 0 年代中期到9 0 年代初期也是中国机器翻译研究的重要发展时期。在这一时期,产生了两个在中国机译史上具有重要意义的实用化机器翻译系统。一个是中科院计算所研制的“8 6 3 i m t ”英汉机译系统,获得了国家科技进步一等奖,其技术至今仍在产生效益;另一个是军事科学院研制的“k y - i ”英汉机译系统,获得了国家科技进步二等奖,后来被开发为“译星”,成为中国第一个商品化系统。同时,清华大学和南京大学也研制了实用的同汉机译系统;中国科技大学在机译通用工具方面进行了富有成效的研究;北京大学研制成功了机译系统自动评估系统。这些在国内均属首创。当代机译系统大多配有大规模的多种领域的专业辞典,多数能在网上运行,并有相当不错的用户友好界面;语音翻译系统、网上翻译系统等新应用领域的机器翻译研究也在发展。中国的机译研究的水平在总体上从一开始就不低,如今在机译产品、网上系统的丌发方面与世界上机译研究发达的国家相比并不逊色。然而,机器翻译虽然相当繁荣,但现有的机译系统在面对真实文本时,其翻译质量或正确率确实存在较大问题,机译的译文质量远远不能令人满意。近来国外有人挖苦说“m t ,不是m a c h i n et r a n s l a t i o n 的缩写,而是m a dt r a n s l m i o n ( 疯子翻译) 的缩写”。国内也有人讽刺说“有了机器翻译,满篇英文难不住,满篇中文看不懂”。这说明机译译文质量确实是个大问题。著名的机译评论家h u t c h i n s在最近的机器翻译峰会上的发言中说,机译译文质量至今并没有取得实质性的进展,很多5 0 年前未解决的问题如今依然存在。因此,机器翻译无论在理论上或是技术上都还远未成熟。现在只是由于人们对于克服语言交流障碍有着很强烈的现实需求,尤其是因特网的出现使这种需求更显突出,机器翻译才获得了以较低的译文质量满足这种需求的机会,并利用这一机会来求得进一步的发展。这是我们对机器翻译现实应保持的清醒认识。董振东先生曾对现有的人译和机译做过如下比较【董振东,h t t p :w w w k e e n a g e c o r n 。人译:( 1 ) 一般会先通读全文,会前后照应;( 2 ) 对源语言是求得意义上的理解;( 3 ) 只有专业翻译人员,没有一个是可以包打天下的万能翻译人员:( 4 ) 人的译文是基于对源语言的理解,不受源语言。的句法结构的束缚:( 5 ) 人的翻译是一个再创造的过程。机译:( 1 ) 一句一句处理,处理第一句时不知道第二句的内容是什么,处理第二句2时,也不再去参考第一句的内容了;( 2 ) 对源语言的分析只是求解句法关系,不是完全意义上的理解:( 3 ) 它的开发者要求它几乎是力能的,它似乎什么领域都能应付,从计算机到医学、从化工到法律,似乎只要换一部专业辞典就可以了;( 4 ) 它的译文转换是基于源语言的句法结构的,受源语言。的句法结构的束缚;( 5 ) 它的翻译只是句法结构的和词汇的机械对应。因此,模仿人译而改进机译是解决问题的一条途径。这就是本文研究的主题。1 2 机器翻译的方法与技术方向近2 0 年来,机器翻译研究的方法可谓花样百出,令人目不暇接,有基于规则的、基于知识的、基于语料库的、基于统计的、基于实例的、基于对话的等等,从另一角度看,又有直接法、转换法、中间语言法等等。但没有一种在翻译质量上取得实质性的突破。概括地说,传统机器翻译方法可作如下分类【赵铁军等,2 0 0 0 :p 删黜啪方法 基嚣淼竺絮j 仃,卜语椭c o r p u s - b a s e d ) 的方法臀募鬻二嬲鬻篇;此外还有基于知识( k n o w l e d g e b a s e d ) 的方法( k b m t ) 等新兴方法。基于规则的方法也称理性主义( r a t i o n a l i s t ) 方法,基于语料库的方法也称经验主义( e m p i r i c i s t ) 方法。而今,专家们公认m t 研究的真币进展来自混合方法( h y b r i da p p r o a c h e s ) ,也就是将多种m t 方法集成在一个统一的m t 环境中,形成多引擎m t 系统,这成为国际上m t 研究者在总结过去经验基础上达成的共识。仿人机器翻译,也是一种混合方法。机器翻译所依赖的自动翻译技术包括文字翻译和语音翻译,过去总结的主要关键技术包括四个方面:单词分析、意义分析、文理分析、语法分析。其工作过程是,先把语句分成各个单词,通过存放于机器数据库内的电子字典查清词义,根据语法规则分析语句的意思,并把它变换成概念构造,然后借助语言模型生成目标语言。因此,机器翻译研究涉及多学科知识,至少包括计算机科学、数学、语言学等,从国内外近年的机器翻译研究和自然语言理解研究主要论著 t o u ,w a y 董振东,黄河燕,黄曾阳,刘群,鲁川,姚天顺,赵铁军等,1 9 9 8 2 0 0 4 中可见一斑。目前,机器翻译主流技术策略和技术路线是理性主义方法,但经验主义方法对实用型机器翻译越来越重要。对于实用系统来说,以半个世纪的经验为基础,有一些基本技术思想和方法值得肯定如下:f 1 ) 机译归根结底是一个语言处理问题,系统需要强大的语言知识的支持;首先机器辞典要有足够的词汇量,常用词语以英语或汉语为例应不低于4 0 0 0 0 ;辞典中每个词语给出的信息愈丰富愈好,包括词法、句法和语义信息。( 2 ) 语言规则的获取来自真实的、尽可能多的语料,而不只限于教科书的例句。随着近i o 年来语料库利用的发展,更加充分而清醒地利用好语料库,是优化机器翻译系统的有效方法。同时,大规模语料库对于机器翻译所必需的词语正确搭配的遴选也是很有效的资源。( 3 ) 描写性的语言规则会比过程性的语言规则更好。后者由于同加工过程紧密相关,会增加编写规则的难度和系统调试的难度。( 4 ) 源语言分析中采用多结点、多叉树、多标记的中j 、日j 表达被证明是可取的,它优于简单标记的方法。( 5 ) 把语言数据同程序分开,是普遍采用的方法。这样做便于系统的调试、完善,也有利于系统的扩充。( 6 ) 系统的友好界面是系统的重要的组成部分,虽然它不算是机译系统的核心,但它不应被轻视。此外,机器翻译不但是一个语言处理问题,也可以说是一个知识处理问题。它涉及到有关语言内的知识、语言间的知识、以及语言外的世界知识,其中包括常识和相关领域的专门知识。虽然从实用的角度看,全自动高质量的机器翻译不可能是近期的目标,但是从研究的角度 兑,全自动高质量却应该是个目标。只有这样,才能建立可持续发展的机译系统,并且能够探索仿人机译的机制。机器翻译要想真正能满足人们的需求,还有很长的路要走。我们期望2 i 世纪的机器翻译研究能在以下五个方面有所突破:( 1 ) 加强基础理论研究,尤其是作为机器翻译基础的自然语言理解理论研究。( 2 ) 基于理解的设计。源语言分析将是大语境的、基于理解的。如今的分析大多停留在句法分析层次,即以单个句子为处理单位。未来的分析应以句群为单位。如今的分析求出的是句法关系树,充其量是概念的语义关系图,而不是对文本给出的意义的求解。( 3 ) 基础性资源共享。尤其是对于基础辞典、语料库等基础资源,应实现资源共享。( 4 ) 专业化、专门化。机译系统将出现高度专业化的趋势,这种系统是为某个特定领域进行研制的,应具备较充分的专业知识,而不是面向所有学科专业。( 5 ) 组件化。机器翻译系统的高度模块化将有可能带来未来的机译系统的组件化,这样机器翻译系统的研发周期有可能大大缩短,丌发者可以把更多的力量放在突出自己的特色上和专门化上。故此,下面首先对作为机器翻译基础的自然语言理解理论进行探讨。42 作为机器翻译基础的自然语言理解理论2 1 国外代表性理论对机器翻译有较大影响的国外自然语言理解理论,主要有c h o m s k y 的转换生成语法、s c h a n k 的概念依存理论和m i l l e r 等的w o r d n e t ,兹简要分述如下。( 1 ) 转换生成语法c h o m s k y 的转换生成语法 c h o m s k y ,1 9 6 5 ,1 9 7 5 ,1 9 8 6 是影响最大的早期计算语言学句法理论,其语法体系包括四种形式语法:1 ) 短语结构语法,也称o型语法,简称p s g :2 ) 上下文有关语法,也称1 型语法,简称c s g ;3 ) 上下文无关语法,也称2 型语法,简称c f g ;4 ) 正则语法,也称3 型语法,简称r g 。型号越高,生成能力越弱,能生成的语言集越小。其中短语结构语法( p h r a s es t r u c t u r eg r a m m a r ) 是生成能力最强的一种形式体系,短语结构规则可以设计如下:s - - n p + v pn p t + nv p v + n pt t h en 一 n o u n ( s ) v 一 ( a u x + ) v e r b a u x - - ( t e n s e ) mm 一 w i l l ,s h a l l ,c a n ,m a y ,m u s t 短语结构语法并没有考虑主动语态和被动语态的问题,也没有提供一种手段去识别那些具有不同的表层结构但其意义却类似的句子,这表明需要在更高的层次上作分析。为此,c h o m s k y 提出一套新的规则即转换语法( t r a n s f o r m a t i o ng r a m m a r ) ,用以解释这种差别和类似性。p s g 加上转换规则就构成c s g 。短语结构语法生成的是一种简单的、主动的、陈述的肯定句,称为核心句。转换规则可以对其中某些成分进行重排或替代,增加或删去某些元素。因而,通过转换语法的使用,可以产生被动、疑问、否定乃至复杂句。增加转换规则后的转换语法体系结构为:图2 1c h o m s k y 转换生成语法思想示意其中短语规则( 或基础规则) 决定句子的深层结构,而转换规则则决定句子的表层结构。深层结构是逻辑结构,表层结构是语法结构。句子由以词为基元的语义平面和以音位为基元的语音平面构成。c h o m s k y 学说的原理本质上是认为可以利用有限的语法规则生成无限的语句集合,而机器翻译的实践则证明实际上这是不可能的。( 2 ) 概念依存理论c h o m s k y 之后,各种改进型语法理论层出不穷,但语义处理却一直是个难题,1 9 6 6 年,f i l l m o r e 提出了格语法( c a s eg r a m m a r ) ,开始发展语义分析,并经q u i l l i a n等人发展为语义网络。1 9 7 5 年,美国耶鲁大学s c h a n k 教授进一步提出一种表征自然语句意义的理论【s c h a n k ,1 9 7 3 ,1 9 8 2 】,称为概念依存理论( c o n c e p t u a ld e p e n d e n c yt h e o r y ) ,简称c d 理论,将语义分析推向深入。他认为句子的句法分析对语言理解的帮助不大,句法结构无法提供必要的信息来理解语义,人类在理解语句时全靠生活知识。在理解时,语法只起到一个指引作用,即根据某些输入词语找到所需要的概念结构,任何两段话,只要意思相同,无论是否属于同一种语言,都有同一个概念内容。概念内容应具有中性的结构形式,超脱于特定的语言语法,超脱于一切表层结构,因此,概念是理解语言的关键。概念内容由概念及其相互之间的从属关系构成。概念依存理论包含三个层次的内容:一是概念;二是剧本;三是计划。其基本思想是将语言表达的目标安排成计划、再将每步计划分解为一个剧本、最后通过用若干概念来描述故事情节的方式表达剧本。其基本观点是:1 ) 句子、短语和词组都由概念组成:共有七类概念:名词概念p p ,属性概念p a ,动作概念a c t ,动作属性a a ,空间概念l o c ,时间概念t i m e 和各类属性值v a l 。意义独立、无二义性的概念是原子概念,实际上c d 理论仅完成了a c t 类概念的原子化a c t 分为l1 种原子概念。2 ) 句子、短语和词组都有一个核心概念,其他概念是附加概念;概念之间的关系用“概念体”表示。3 ) 附加概念随核心概念而存在或相互存在而依存。c d 理论的意义在于提供了一种有效的描述背景知识的实验模型,其缺点是实现c d 理论需要有较为成功的语法分析器,这本身就是一个难题。( 3 ) w o r d n e t语义网络和概念依存思想的综合发展,导致了w o r d n e t 的产生。w o r d n e t是一个基于心理语言学的机器辞典,由普林斯顿大学的m i l l e r 等人研铝l j m i l l e r ,h t t p :w w w c o g s c i p r i n c e t o n e d u w n 】。它用大家熟悉的拼法来表示词形,用同义词集s y n s e t s ( 在一定语境中可以互换的同义词的列表) 来表示词义。词汇关系存在于词形间,语义关系存在于词义i 日j 。w o r d n e t2 0 包括1 5 2 0 5 9 个词( w o r d s ) 、11 5 4 2 4同义词集( s y n s e t s ) 、2 0 3 1 4 5 个词义( s e n s e s ) ,描写了上下位、同义、反义、部分、整体等词汇的语义关系。w o r d n e t 中只对自然语言理解分析过程中较为重要的名词、动词、形容词、副词四类词进行处理,尤其注重名词和动词。w o r d n e t 采用层次体系结构来表示名词,所有三种语义关系( 下位义、部分义和反义) 均被包含在内,结果组成一个互相连通的名词概念网络,图2 2 是w o r d n e t2 0 中显示名词n e t w o r k 的属性关系实例。6鋈差誉蓦纛囊三三三蕾囊善蠹翼冀融粼;毫= 2 _ 一图2 2 w o r d n e t2 0 中n e t w o r k 名词属性f i g2 2t h ec o n c e p t u a ln e l w o r ki nt h ew o r d n e t2 0语义研究包括词汇义、句义、篇章义等,其中最基本的是词义的研究。词义的研究和表示的方法有多种,w o r d n e t 提供了一种途径。2 2 国内代表性理论国内学者在自然语言处理尤其是汉语理解方面也提出了不少理论和方法,比较有代表性的是鲁川教授提出的旬模理论f 鲁川等,2 0 0 0 、黄曾阳教授提出的概念层次网络( h n c :h i e r a r c h i c a l n e t w o r ko f c o n e e p t ) 理论 黄曾阳,1 9 9 7 1 以及董振东教授研制的知网r h o w n e t ,h t t p :w 州k e e n a g ec o m ) 。而且,笔者认为国内的这三种理论分别与国外c h o m s k y 的转换生成语法、s c h a n k 的概念依存理论和m i l l e r 等的w o r d n e t 具有一定程度的相关性。( ”句模理论句模理论是鲁川先生等在赵淑华教授现代汉语基本句型启发下,结合中文的特点,在大规模语料库的基础上主要参考格语法、依存语法、转换生成语法,从“八千常用谓词及其句式语料库”中归纳出来的。其基本思想是:句型( s e n t e n c ep a t t e r n ) 是句法平面的句子模型,而旬模( s e n t e n c ef r a m e w o r k ) , 0 是语义平面的句子模型:句型的句法单位是单词、短语和句子,而句模的语义单位是概念( c o n c e p t ) 、事元( a r g u m e n t ) g 事件( e v e n t ) :一个句型可以对应多个句模。一个旬模代表一种句子模式,表达一类语用句意,其语义成分是中枢事元( p i v o ta r g u m e n t s ) 和周边事元( p e r i p h e r ya r g u m e n t s ) t 一个事件由一个中枢事元和若干个相关的周边事元组成,中枢事元和周边事元充当的语义角色分别称为中枢角色( p i v o tr o l e s ) 和周边角色( p e r i p h e r ,rr o l e s ,或格角色) 。中桁事元分为8 个大类、2 6 个基本类:r 存在( e x i s t e n c e ) 事件主体的存在状态或相对静止状态。r 状态一特征( p r o p e r t y ) 事件主体呈现的非自主属性。s t a t eo 态度( a n t t i t u d e ) 事件主体表现的自主属性。卜心理t 一感受( p e r c e p t i o n ) 一事件主体的感知或感情等心理活动。m e n t a l i t yo 思想( t h o u g h t ) 事件主体的意愿或思考等心理话动r 领属( p o s s e s s i o n ) 事件中领有者和所属者之间的领属关系。l 包括( i n c l u s i o n ) 事件中的整体和部分之| 吾j 的包括关系。卜关系一ir e l a t i o ni 类同( c a t e g o r y ) 事件中的等同关系或类似关系。il 关联( c o n n e c t i o n ) 事件中的相对关系或牵涉关系。卜进化t _ 变化( c h a n g e ) 事件主体自身的物理化学生理变化。ie v o l u t i o nl 进, 震( d e v e l o p m e n t ) 事件主体自身在时间上的进展。卜自动r 移动( m o v e ) 事件主体在空间中的自身移动。is e l f - m o t i o nl 活动( a c t i v i t y ) 事件主体不强调空i b j 移位的自身活动。卜关涉t - 遭受( e n c o u n t e r ) 事件主体非自主得失或遭遇客体之行动。lc o n c e r nl 对待( t r e a t m e n t ) 事件主体以某种态度来对待邻体之行动。l广作用( f o r c e ) 事件主体通过力的作用改变客体之行动。il 控胄l j ( c o n t r 0 1 ) 事件主体不必通过力就可改变客体之行动。 - 改动一创建( c r e a t i o n ) 事件主体创建或产生新的客体之行动。ir e f o r m a t i o nlll 促使( i m p e l ) 事件主体促使客体有所进展之行动。il 改变( t r a n s f o r m a t i o n ) 事件主体导致客体有所变化之行动。i广探求( s e a r c h ) 事件主体探索或寻求客体之行动。ii 传播( c o m m u n i c a t i o n ) 事件主体传播或显示信息之行动。l 转移一索取( e x a c t ) 事件主体无偿索取客体所有权之行动。t r a n s f e ri 给予( g i v e ) 事件主体无偿给予客体所有权之行动。i 交易( t r a d e ) 事件主体有偿买卖或交换客体所有权之行动。l 搬移( r e m o v e ) 事件主体移动客体空| 目j 位置之行动。周边事元也分为8 个大类、2 6 个基本类:广施事( a g e n t ) 事件中自主运动的有意志的主体。i 当事( e s s i v e ) 事件中非自主运动的主体或类同关系的主体。厂主体- n o m i n a t i v el 感事( e x p e r i e n c e r ) 事件中感- 失l :l 感情类非自主心理状态的主体。il 领事( g e n i t i v e ) 事件中领属关系的主体或包括关系的整体。if厂受事( p a t i e n t ) 事件中原有的且被改变的客体。li 致事( i m p e l l e e ) 事件中致使其发生自身变动的客体。卜客体a c c u s a t i v ei 结果( r e s u l t ) 事件中所产生的客体或造成的结果。il 内容( c o n t e n t ) 事件中涉及但未改变的客体或信息。li厂属事( b e l o n g i n g s ) 事件中领属关系所领有的财物亲友或属性。卜系体r e l a t i v e1 分事( p a r t ) 事件中包括关系所包括的部分或构件。il 类事( c a t e g o r y ) 事件中类同关系的等同者或类似者。ii厂涉事( c o m i t a t i v e ) 事件中所涉及的邻体或关联关系的相关者。il 源事( s o u r c e ) 事件中作为来源的邻体或时i 、日j 空f b j 的起点。卜邻体- 经事( c o u r s e ) 事件中所经过的邻体或越过的空间途径。c o l l a t e r a lili 向事( g o a l ) 事件中运动指向的邻体或时间空问的终点。l 范围( s c o p e ) 事件中所关涉的领域或限定的范围。l广缘f l :l ( r e a s o n ) 事件中引起运动发生发展的原因或依据。卜情由c a u s a t i v eiil 意图( i n t e n t i o n ) 事件中所要实现的意愿或要达到的目的。ii广时间( t i m e ) 事件中运动发生的时点或时期。卜时空c i r c u m s t a n c e sijt - 空f n j ( s p a c e ) 事件中运动发生的自然空间或社会空间。li广方式( m a n n e r ) 事件中所采取的态度或运动得以实现的方式。ii卜状况 工具( i n s t r u m e n t ) 事件中所使用的器具设备或人力。m e a n sill 材料( m a t e r i a l ) 事件中所耗费的原料耗材或能源。ii广数量( q u a n t i t y ) 事件中的物量即事物及其单位的数量。ill 幅度1 历时( d u r a t i o n ) 事件中的时量即运动所持续的时段。ir a n g ell 频次( f r e q u e n c y ) 事件中的动量即行动或变化的次数。句模理论的六个基本论点是:1 ) 谓词是句子结构的中枢( 谓词中枢论) ;2 ) 语义平面是汉语语法的基础:3 ) 语块是句法平面、语义平面和语境平面同构分析的单位;4 ) 要分清语言中的客观信息和主观信息:5 ) 汉语语序的理据是临摹性;6 ) 早层网络和表层序列可相互转换。汉语基本句模包括基干句模和特殊句模。基干句模( p r i m a ls e n t e n c ef r a m e w o r k ) 只有五个“句位”,是仅由谓词及其配价成分构成的抽象句子模式,没有非配价成分,其句模框架意义等于其谓词框架意义;特殊句模( u n i q u es e n t e n c ef r a m e w o r k ) 贝j j 有非配价成分,其句模框架意义大于其谓词框架意义。汉语基本句模按2 6 类中枢事元共分列为1 2 2 种,其一般模式是:周边语块p l + p 2 + p 3 + p 4 + p 5 + p 6 ( 主体必占1 个,情由、时空和状况合占5 个)+ 中枢语块v ( 谓词) + 周边语块u l + u 2 ( 邻体、客体、系体和幅度合占2 个)句模理论希望能以此句子结构、句子模式为突破口,解决中文自然语言理解问题。( 2 ) 概念层次网络( h n c ) 理论h n c 是h i e r a r c h i c a ln e t w o r kc o n c e p t s ( 概念层次网络) 的简称,是由黄曾阳先生创立 黄曾阳1 9 9 7 ,】9 9 8 的面向整个自然语言理解的理论框架。这个理论框架以语义表达为基础,对语义的表达是概念化、层次化、网络化的,所以称为概念9层次网络理论。根据黄曾阳自述,h n c 语义网络的设计思想有两个来源:一是q u i l l i a n 的语义网络理论、f i l l m o r e 的格语法和s c h a n k 的概念依存理论:二是汉语的“字义基元化,词义组合化”现象。第一个来源提出了“语义基元”的基本思想并暗含着“总体表述”的宏伟目标;第二个来源提供了语义基元的宝贵原料。汉语字少词多,仅用几千个汉字加以组合就构成许多的词。几千年来,汉语随着社会的发展而发展,新词不断增加,但组成词语的汉字却几千年很少变化。汉字字义的基元化和汉语词义的组合化是一个伟大的宝藏,h n c 语义网络的形成就是植根于这一宝藏。h n c 的核心内容是通过五元组和语义网络层次符号表达概念、再用e a b c语义块和7 大基本句类与3 6 个混合句类构建语句,五元组和语义网络构成局部联想脉络、而语义块和句类构成全局联想脉络,h n c 的出发点就是通过建立两类联想脉络来帮助计算机理解自然语言。五元组和语义网络层次符号综合起来可以完整地表达抽象概念,前者表达抽象概念的外在表现,后者表达抽象概念的内涵:1 1 五元组h n c 理论将概念分为抽象概念和具体概念,抽象概念用动态、静态、属性、值和效应五个参数表达,这就是抽象概念的血元组特性,简记为:( v ,g ,u ,z ,r ) 特性,它们是抽象概念多元性表现的基元。任何抽象概念都具有五元组特性,即都需要从血个侧面加以表达,不过,对某个抽象概念各个侧面的表达,自然语言中未必都有相应的词语,而且不同语种问存在着差别。反过来,自然语言中的一个表达抽象概念的词语必定是从五元组中的某个或某几个侧面来表达某个抽象概念。例如,“思考、思维、想法”就是分别从血元组的v g ,g ,r 侧面对同一概念内涵的表达。五元组是词性的本质内容,是词性的基元。因此,不必为汉语词汇的大量兼类现象感到困惑。2 ) 语义网络为表达抽象概念的内涵,h n c 设计了三大语义网络:基元语义概念网络、基本语义概念网络和逻辑语义概念网络。三大语义网络是抽象概念的三大聚类。在结构上,语义网络是树状的分层结构,每一层的若干节点分别用数字来表示,网络中的任一个节点都可以通过从最高层开始、到该节点结束的一串数字唯一地确定,这个数字串叫做层次符号。基元语义概念网络的一级节点分为两大类:一类是主体基元概念,另一类是复合基元概念。主体基元概念共有6 个一级节点,分别是作用、过程、转移、较应、关系、状态,它们构成作用效应链。作用效应链反映一切事物的最大共性。作用存在于一切事物的内部和相互之i 日j ,作用必然产生某种效应,在达到最终效应之f j ,必然伴随着某种过程或转移,在达到最终效应之后,必然出现新的关系或状念。过程、转移、关系和状念也是效应的一种表现形式。新的效应又会引发新的作用,如此循环往复,以至无穷,这就是宇宙问一切事物存在和发展的基本法则,也是语言表达和概念推理的基本法则。这6 个环节的源头是作用,结果是效应。自然语言的主要内容就是对这六个环节进行局部和总体的具体表述( 这罩“转移”二级节点的设计部分吸收了“概念从属理论”的主要结果) 。作用效应链既是用于表达概念的语义网络的核心,又是划分句类的标准,换句话说,它既是局部联想脉络的基础,又是全局联想脉络的基础。两个联想脉络通过它联系起来,所以,在一定意义上可以说作用效应链是h n c 的理论基础。l o复合基元概念设置了8 个级概念节点,主要涉及人类活动,这是因为自然语言是人类的交际工具,其主要表述对象是人类活动而不是自然现象。根据人类活动的语境特征将复合基元概念划分为三个层次,即生理本能活动、一般理智活动和社会性活动。基本语义概念网络共有9 个一级节点:序及广义空间、时间、空间、数、量有范围、质与类、度、客观的基本属性、含主观评价的基本属性。逻辑语义概念网络分为两类:一类是语言逻辑概念,大体上相应于汉语的虚词,有1 1 个一级概念节点,分为语义块区分标志符、语义块组合标志符、语义块及句间关系说明等三类。这1 1 个一级节点的划分主要基于它们对语义块感知及句类辨识的作用,面不是它们的语法特性。另一类是基本逻辑概念,有2 个一级概念节点:比较和基本判断。三大语义网络的设计,可以解决现代语义学中的两个难题:一是义素分析法的难题。义素分析法试图用分解的方法、用义素( 语义原子) 来描述词汇语义,它对一些词的意义进行了成功的描写,但是,语言的义素到底有多少,义素分析法没找到答案,因而不能落实到对全部语言词汇的描写中。三大语义网络的各个节点,即概念基元,大体上相当于义素,可以用柬描写任何语言的所有词汇语义:语义网络采用了分层的灵活结构,可以从高层到底层根据需要不断往下设置节点,而由于有上层的控制又不会零乱,从而解决了义素分析法的难题。二是语义场的难题。语义场理论看到了语汇语义的关联性和系统性,但是,语言中到底有多少个义场,义场该怎样划分,义场之间、义场内部都是怎样的关系,对这些问题理论都没能解答:三大语义网络则建立了语言深层概念的网络,它是一个整体的设计,是一个完整的系统,它各个节点下的网络都形成相关联的概念的聚类,这些聚类就相当于语义场。尤为重要的是:通过语义网络,义场内部、义场之间都建立了联系,而且这各种各样的联系都可以通过层次符号显式地表达出来,从而使计算机能够掌握和操作。3 1 局部联想脉络与实现技术局部联想是词汇层面的联想。自然语言的词汇是用来表达概念的,因此,h n c 建立的局部联想脉络体现为一个概念表述体系,这个概念表述体系可以简单概括如下:把概念分为抽象概念和具体概念,对抽象概念用盘元组和语义网络来表达,对具体概念采取挂靠展丌近似表达方法。五元组符号和语义网络的层次符号的适当组合可以实现对抽象概念的完整表达。这种表达方式能够显式地表达出自然语言概念之间的关联性,从而有助于计算机把握和理解。语义网络层次符号的设计为计算机理解自然语言的语义提供了有力的手段。当然,在工程实现上首先要用语义网络层次符号完成对自然语言词汇语义的描写,这是一项浩大而艰巨的工程,但这个瓶颈问题跟过去相比已有了本质的不同,过去缺乏语义描写的完备手段,现在手段已备,剩下的只是工作量的问题。对具体概念的精确表达则比抽象概念困难得多,因为它涉及到许多世界知识,这些世界知识是人类认识积累的结果。但另一方面,人在理解自然语言过程中对具体概念的认识深度可以比抽象概念浅得多,天生的盲人仍能同常人样掌握自然语言,道理就在这里。所以,对具体概念的表达,应采取近似的方案,这是对具体概念进行层次符号设计的基本出发点。h n c 用“类别符号+ 挂靠”的方式近似地表达具体概念。具体概念的类别,从语言表达的角度来看,先分为物、人、物性三类( 分别用符号w ,p ,x 表示) t g 较合理。物有自然物与人工物之分,人工物又有现代与传统、物质与精神产品之分,当然还可以有各种各样的分类标准。人和物性也同样存在子类划分问题。在处理具体概念的分类问题时,不宜照搬自然科学的分类方法,h n c 的着眼点主要是引起概念的联想,而不是分类的科学性。例如,人、一般人工物、现代产品这几类具体概念分别用符号p ,p w ,w 9 表示,基元概念是的概念节2 2 b 表示自身转移,那么,向它挂靠的p w 2 2 b 就表示交通工具;2 1 9表示针对性接收,w 9 2 1 9 就表示现代探测设备;4 1 1 表示结合,p 4 1 1 就表示夫妻;3 8 2 表示废弃,p w 3 8 2 就表示垃圾;基本概念罩的概念节点7 l l 和7 1 2 分别表示币和负,p 7 l l 和p 7 1 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论