




已阅读5页,还剩70页未读, 继续免费阅读
(系统分析与集成专业论文)自然语言理解中的语义形式化研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 自然语言理解是人工智巍懿棱,玉谍题之一,其本质是瓣语言闷遂筋方方葱蔼 在计算机当中的形式化研究。其中摄突出的问题就是语义的形式化问题,它成为 捌缝离然语言理解发展的瓶颈褥遂。本文麴研究重点裁是将语义润霪戮数学鹃方 法在语言学上加以形式他。由于图是最接近人类思维结构的一种数学形式,因此, 我辩以知识图理谂和概念图理论隽平台,来研究语义韵形式讫瓣藤。本文黛崧滔 义表示的形式化舻和“语义推理的形式化舻两个方面对自然语言语义理解技术进 李擎了研究,并在讨论具体的形式能方法之翦,对麴然语富语义捆关酾人类谈 知过程进行了讨论。由于谮言的阀题不可避免的涉及到人类的总维,因此对于自 然语言懿语义理勰来说,谈知科学鲍觋究是菲常荧毽和必簧的,甚至哥以说是决 定性的。 酋先,本文将认翘科学中的髂惑趣王理论秘,汝理摸燮理论融龠在一起,建立 了认知模型( c o 鲥t i v e m o d e l ) 。然后,在此模型基础上瀚绕辩僚息肾和徉心理 模型”讨论了与语言和语义期关的哲学话题、逻辑学话题藕心理学话题,舞具体 盼语义形式化方法提供了指导。 然后,基于辩识图理论,本文研究了搿语义袭示形式纯的闯题”。一个基本 观点是:入们在意识中有一种结构化的表遮,鞠心理模型,语义就是语言所代表 的心理模型,它是盘概念构建的一种结构。随后,本文以汉语为平台,具体扶概 念、结构、词与概念昀对应关系,语法与缩构酶对瘴关系遮四个方面进行了知识 图影式化的研究。 最君,基予概念蓬理论,本文研究了群语义摧理形式纯的润蘧静。从形式演 绎和模型理论两个方面讨论了概念图的语义推理机制。随履,针对封闭世界模型 下瓣概念瞄推理道程提磷一种基予耩弈褥的求解算法,镶簿法蔚戳实瑰对封闭 世界模型下任一个概念图蛾概念图集“真馕 的识别。 美键词;麴然语畜理解,语义影载佬,理模型,概念,概念结掬,躲识圈, 概念内涵,概念外延,语法,概念图,世界模型,博弈树 a b s t r a c t n a t u r a ll a n g u a g eu n d e r s t a n d i n gi so n eo ft h ec o r es u b j e c t si na r t i f i c i a li n t e l l i g e n e e 髓撼e s s e n t i a lp a r t 搽i ti s 牺d ot h er e s e a r c hw o r kr e l a t e d 辆t h ef o r m a l i z a t i o nf o r v a r i o u sa s p e c t so fl a n g u a g ep r o b l e m si nc o m p u t e r a m o n gt h e s e ,t h ec r i t i c a lp r o b l e m i st h es e m a n t i cf o r m a l i z a t i o n , w h i c hi s 越m o s td i f f i c u l tp a r tf o rt h ed e v e l o p m e n to f t h en a t u r a ll a n g u a g eu n d e r s t a n d i n g ,t h em 洳r e s e a r c hp o 谳f o rt h i st h e s i si st o f o r m a l i z et h es e m a n t i cp r o b l e m sb a s e do i ll i n g u i s t i ca r e a 酚鹚啦m a t h e m a t i c m e t h o d s f o rt h er e a s o nt h a tg r a p h , a so n em a t h e m a t i cf o r m , i st h em o s ts i m i l a rw a y t oh u m a nt h i n k i n gs t r a e t u r e , w eb u i mu pap l a t f o r mb a s e d0 n 濂k n o w l e d g e - g r a p h t h e o 珂a n dc o n c e p t u a l - g r a p ht h e o r yi no r d e rt oi n v e 撕g a t es e m a n t i cf o r m a l i z a t i o n p r o b l e m 。麓蠢t h e s i sb e g a n 鹣r e s e a r c h o ni l a t u g a ll a n g u a g e 戚嚣鳆蛾s k i l l sf r o m t h ef o l l o w i n gt w oa s p e c t s :s e m a n t i cd e n o t a t i o nf o r m a l i z a t i o n a n d “s e m a n t i c r e a s o n i n gf o r m a l i z a t i o n 。a n db e f o r ei tc o m e st os p e c i f i cf o r m a a i z a t i o nm 撼o d s , i t 妇a l r e a d yd o n et h ed i s c u s s i o nw o r ko nm 感h u m a nc o 毋t 溉gp r o c e s sr e l a t e dt o n a t u r a ll a n g u a g e b e c a u s et h a ti ti sn o ta v o i d a b l et or e f e r 铀h u m a nt h i n k d n gw h e ni t c o m e st ol a n g u a g ep r o b l e m s ,i ti sv e r yi m p o r t a n t , 枷酆删a n d & c e l ld e c i s i v et o s t u d yc o g n i t i v es c i e n c ef i r s t 豁t h er c s e a r e hi sm a i n l ya b o u t n a r l r a ll a n g u a g e u n d e r s 纽d i n g f i r s t 域聪霪t h e s i s 醯m i x e dt h e t w ot h e o r i e so fc o g n i t i v e , w h i 建a r e “i n f o r m a t i o n - p r o c e s s i n gt h e o r y a n d m e n t a l - l v l o d e lt h e o r y ,a n d b u i l ta c o g n i t i v e - m o d e l ”,t h e n ,b a s e d0 1 1 i n f o r m a t i o n a n d m e n t a lm o d e l , i tc o m e s t o t h ed i s c u s s i o n sa b o u tt h ep h i l o s o p h y , l o g i s t i ca n dp s y c h o l o g i e a ls u b j e c t sr e l a t e d _ t o l a n g u a g ea n ds e m a n t i cf i e l d + b a s e do nt h o s e ,i tp r o v i d e st h ed i r e c t i o n s0 1 1t h ec o n c r e t e m e t h o d so f l a n g u a g ef o 删i z a t i o n 。 a f t e rt h a t , 艇st h e s i sc o m e s 协t h ed i s c u s s i o no n “s e m a n t i cd e n o t a t i o nf o r m a l i z a t i o n p r o b l e m b a s e do nt h ek n o w l e d g e - g r a p ht h e o r y m a n yi m p o r t a n tc o n c l u s i o n sf r o m t h ep r e v i o u sc h a p t e r 圆滗a p p l i e dh e r e 。o n eb a s i cv i e w p o i n ti st h a th u m a nb e i n g sh a v e as m a c t u _ r a le x p r e s s i o ni nt h e i rc o n s c i o u s n e s s ,w h i c hi s 瑚l ;e dm e n t a lm o d e l , s e m a n t i c si st h em e n t a lm o d e le x p r e s s e db yt h el a n g u a g e ,w h i c hi sc o n s t r u c t e d 姆t h e c o n c e p t s f o l l o w e db yt h i s 。b a s e do nc h i l a e s el a n g u a g e , t h et h e s i sc o m e s 静t h e k n o w l e d g e g r a p hf o c a l i z a t i o nr e s e a r c hr e l a t e dt ot h ef o u ra s p e c t sh e r e :c o n c e p t s , s t r u c t u r e , c o r r e s p o n d i n gr e l a t i o n sb e t w e e nw o r d sa n dc o n c e p t s ,a sw e l la sg r a m _ m a r a n ds t r u c t u r e n l a s t l y , b a s e do nt h ec o n c e p t u a l g r a p ht h e o r y , t h i st h e s i sd i s c u s s e s “s e m a n t i c r e a s o n i n gf o r m a l i z a t i o np r o b l e m ”t h ed i s c u s s i o na b o u tc o n c e p t u a l g r a p h ss e m a n t i c r e a s o n i n gs y s t e mi sb a s e do nt h e f o r m a ld e d u c t i o n a n d m o d e lt h e o r y a s p e c t s t h e n , o r i e n t e df o rt h ec o n c e p t u a l g r a p hr e a s o n i n gp r o c e s si nac l o s e d w o r l d - m o d e l , i tr a i s e sa s e a r c h - a l g o r i t h mf o ri n f e r e n c eo f c o n c e p t u a l g r a p h sb a s e do ng a m e - t r e e s a n di tc o u l de v a l u a t et h et r u t hv a l u eo fa n yc o n c e p t u a l g r a p ho ra n ys e to f c o n c e p t u a l g r a p h s k e yw o r d s :s e m a n t i cf o r m a l i z a t i o n , n a r l g a ll a n g u a g eu n d e r s t a n d i n g ,c o n c e p t , c o n c e p t u a ls t r u c t u r e ,k n o w l e d g e g r a p h , c o n c e p tc o n n o t a t i o n , c o n c e p t d e n o t a t i o n , s y n t a x ,c o n c e p t u a l g r a p h , w o r l d - m o d a l ,g a n l e t r e e s l l i 西北工业大学 学位论文知识产权声明书 本人完全了解学校有关傈护知识产权酌规定,即:繇究生在狡攻 读学位期间论文工作的知识产权单位属于西北工业大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和电子版。本人允许论 文被套阅和借阅。学校可以将本学位论文的全部戴部分内容编入有关 数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编 本学位论文。同时本人保诞,毕业后结合学位论文研究课题再撰写的 文章一律注明作者单位为秘北工业大学。 保密论文待解密后适用本声明。 西j 匕工业大学 学位论文原创性声明 秉承学校严谨的学风和优良的科学道德,本人郑重声明:所呈交 的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽 我所知,除文中已经注明引用的内容和致谢的地方外,本论文不包含 任何其缝个人或集体己经公开发表或撰写过鸵研究成果,不包含本人 或他人已申请学位或其它用途使用过的成果。对本文的研究做出重要 贡献的个人和集体,均已在丈中以霹确方式标硝。 本人学位论文与资料若有不实,愿意承担一切相关的法律责任。 学位论文作者签名:监 2 刁年客月移网 麟北工她大学磷士论文 1 。1 自然语言理解概述 第一章绪论 ( 一) 自然语言理解的学科内涵 鲁然语畜处理( n l p ,n a t m a ll a n g u a g ep r o c e s s i n g ) 是谴用自然语言同计算机 进行通讯的技术,因为处理邕然语言的关键是要让计算机“理解嚣是然谖言,所 以自然语言处理叉州做自然语富理解( n l u ,曲t l l 姻ll a n g u a g et m d e r s t a _ _ n d i n g ) 。 一方蕊它是语言倍患处理的一个分支,研究健愚诗算勰越过诗冀理解帮生成彝然 语畜,有时也称为计算语言学( c o m p u t a t i o n a ll i n 删s t i c s ) ;另一方面它是人工 智麓( a i ,a r t i f i c i a li n t e l l i g e n c e ) 的攘心课题之一,研究谴诗算梳後爝自然语言 这一人类智能的重要标志之一。e 1 计算枫理解的自然语言可分为两个方面;口语的理解( 如语音识别,语音 合成,语音分析等) l 书瑟语的理勰( 知撬器鼹译,自动文撼,信息过滤等) 。 本文主要讨论书面语言的理解,但仍使用自然语言理解这个含义较广的术语。 ( 二自然语言理解的过程耜屡次 献计算枫处壤媳麓攫,对巍然语富的研究和处理,一般应经过翔下互个方纛 的过程 2 : 第一,挺需要辑究的问蘧在语言拳上热戮形式纯( l i n 剃ef o r m a l i z a t i o n ) , 使之能以一定的数学形式,严密而规整地表示出来; 第二,把这种严密耨规整的数学形式表示为算法( a l g o r i t h m ) ,使之在计 算上形式化( c o m p u t a t i o n a lf o r m a l i z a t i o n ) ; 第三,根据算法编写计算机程序,使之在计算机止加以寨现( c o m p u t e r i m p l e m e n t a t i o n ) 。 因此,为了研究自然语言处理,我们不仅要有语言学方面的知识,而且,还 要有数学翻计算机辩学方蕊的瓣识,这样自然语言缝理就戏为了一闷赛乎手语富 学、数学和计算机科学之间的边缘性的交叉学科,它同时涉及到文科、理科和熏 科三夫领域。 舞一方丽,献语言学的角度,杰于任馋种语富都具翁三方霹鲍特镊;语 法( s y n t a x ) ,即组成语雷的规则或者符号之间的关系;语义( s e m a n t i c s ) , 朗祷等的含义,或者符号鞠含义闻魏蓑系; 语藤( p r a g m a t i e s ) ,鞣研究在幂 同语境下如何理解和使用语言。因此,语言的分析和理解过程应巍是一个层次他 的过程,它包括:词汇分斩稀铺法分析语洼层,语义分析语义屡,萎予 褥= i l - r 业大学硕士论嶷 诿境寒越雾知识魏篇章分梃翻每然语富生成语阐鬃。虽然这稀瑟凝之闻著冀缸 是完全隔离的,但是这种层次划分的确有助于更好的体现语富本身的构成。 虽然我们知遴了计算机处理和理解童然语言的过程帮屡次,但一个现实的瓣 莲是现在豹计冀机智麓逶远远没有达到能够浆入一样理解自然谱亩的求平, 而且在可预见的将来也达不到这样的水平。因此我们只能从系统功熊的角度出 发,把输嬲对输入文零的反映作隽衡量计算桃理解语言的粼剐标准,美国试翔心 理学家0 m o l s o n 曾提出四条语言理解的标志;回答宥关提问 ( e ! l l e 蛾澄a 羹洲两穗g ) 【;提取材料摘要( s 鳓斓巍癞嚣) ; 不阕词语叙述 ( p a r a p h r a s i n g ;固不蓊谣富黼译( t r a n s l a t i n g ) 。随着鲢栈的进步,计算机技 术日新月异,信息垒球化不断发展,自然语言理解也正在赋予更多的内涵,如知 识挖掘、餐靛焦悬攮索等都成为薪的研究热点。 综上所述,图黧一望表示t 囱然语言理解的基奉模型。 鬻謇产蹩者a :灞誊莲瓣黉静算瓿 i 知识 1 一 谱富知识 霉激麴臻 耩最翱谓 话语或文字l ; l自然语言娥理 然= ;= = 测溪言瑟式缓。一嚣篓黪姣惑,静攀黼 整& 厩“、羹理睁 秭始 。 回答商筵勰题 缀联瓣瓣耩霎 不间谳褥叙述 不同谮裔翻译 图i - i 自然谱言理解的基举模型 兰应用前景帮研究蠹义 人类融经迈入2 l 世纪,计算机和置联网的广泛应用昭示着信息时代鲍到来。 计算枫爵簸霪酶惫然语言文本数量空翦增长,面离海量信惠酶文本挖撅、信息掇 取、跨谱畜信息处理、人机交氨等应用需求急速增长,自然语言处理研究必将对 我们的生潘产生深远的影响。 随着我国现代他建设韵发震,信息她理技术的囱动纯愈采愈显得紧迫,丽我 们日常工作环境中的信息有8 0 使用语富文字做媒体记载和传播的。因此自然谣 翥( 包括渡语) 处理邑残巍一个霉| 人注程的重要学科,是袭随实现馈患德和现代 化的必经之路。可以这样说,汉语理獬作为中文信息自动他处理的关键技术,每 提高一步给我国魄科学技术、文化教育、缝济建设、国家安全所带来的效益,将 2 西北工业大举硕士论文 是无法用金钱的数额来计算的。屣之,如果我们落后了,不管是落后于圈际水平 逛是落甓于现实需求,菇果都是严重戆。 1 。2 国外发展脉络和研究成果 ( ) 基础研究 机器翻译懿若超:2 0 世纪耱年代苯- - 2 0 整鳃摹0 年代辆麓 自然语言理解领域的研究最早可以追溯到第二次世界太战结柬时那个充满 理智鹣黠栈,那个黠代剐发明了计算撬,囱予计算概麓够遴行蒋学处理,使得裔 然语言理解和处理成为可能。理论方面,宥两项基础性的研究值得注意:一项是 爨凌祝酶褥究,舞一项燕概率或信患论模型的舔巍。这些攀期的磷究互薅涛薅栗 形式语吉理论( f 删l a n g u a g et h e o r y ) 的产生奠定了基础。 瓤纂翻译魄碡j 是鸯然语言理鳃最旱鹩骈究领域,1 9 4 9 年,美凰工程灏韦弗 ( w 。w e a v e r ) 发表了一份以翻译为题的备忘潦,正式提出了机器翻译问题。 鳓一年,美苏焉霹开始了饿一荚翱荚一俄麴机器蘸译研究。1 9 5 4 年;美罄奔治敦 犬学在国际商用机器公司( m m 公司) 的协同下,用m m - 7 0 1 计算机,进行了 邀赛上繁一次机器翻译试验,恕几个篱单的俄语篙子蘸译蠛英语,接着,篙蒸联、 英国、日本也进行了机器翻译试验,机器翻译出现热潮。早期机器翻译系统的研 制受到韦舞愚想昀穰太影响,许多撬器熬译研究豢都把橇器翻译的过程冬瓣读密 码的过程相类比,试图通过查询词典的方法来实现词对词的机器翻译,因丽译文 的帮瀵性禳差,罐予祷诸窦惩。 ( 二) 机器翻译的没落 甓个阵营,第一代系统:2 0 挺纪5 第代柬麓一1 9 7 0 年 在开始的十五年( 1 孵m 1 9 6 5 ) ,机器翻译几乎成了所有自然语言理解系统 的中心谋遂,旱麓辘器熬译系统泰获成功整西为没有尝试理解它新翻译酶内容究 竟是什么,所以机器输出的新语富不能精确复述源语言的同样意义。1 9 6 6 年在 美凰科学院发表熬一篇题为语言鸯褫器的掇裔,篱髂艘艏报告,瓣机器 翻译采取甭定的态度。报告宣称:“在目前给机器翻译以大力支持还没有多少理 耄拇;掇蠢还指出,枫器翻译研究遇到了难黻克服懿掰语义障碍”( s e m a n t i c b a r r i e r ) ,认为全国动机译在较长时期内不会取得成功。此后世界范围内的机器 赣译研究熏雩筝进入低潮。 在这个时期,自然语亩处理明显分成两个阵黄;一个是符号派( s y m b o l i c ) , 一个是隧枫瓣( s t o c h a s t i c ) 。符弩滠辩我纲新说昀“理楼主义静,毽绷粟鞠基 瑟霭襄工鼗夫学硕士论文 于规则的分析方法,着重研究推理稠逻辑问题。随机派即我们所说的“经验主义黟, 毽裥圭鬟赞对太攥模添糕瘁,着夔鞣究隧瓿和统计算法。 符号派的工作可味分为两个方面。一方西楚n 。c h o m s k y ( 彝姆斯基) 簿对形 式语言理论和生成句法 5 、6 的研究,并于1 9 5 7 年提如了转换生成语法理论 ( t r a n s f o r m a t i o ng e n e r a t i v eg r a m m a r ) 【7 】。隧孵,攫多语富学家裁诗算橇辩学 家进行戮橱算法研寇,黧早裳的巍顼惫下和爨底囱上算法研究戳及后期盼麓态 规划研究。z e f i gh a r r i s ( 1 9 6 2 ) 的t d a p 系统是最早的完整剖析系统。另一方面, 很多人工智能研究者着重研究推理和逻辑,典型的例子是n e w e l l 和s i m o n 的“逻 辑理论家( l o g i ct h e o r i s t ) 静和“遴瘸阔题解答器( g e n e r a lp r o b l e ms o l v e r ) 努。 随枫派主要是一些来自统计攀专业和电子学专业的研究人员。在2 0 世纪5 0 年代后期,贝叶斯方法开始用于解决最优字符识别问题。b ! e d s o e 和b r o w n i n g 1 9 鞠) 建立了鬻予文本识别的煲时羝系统,m o s t e l l e r 和w a l i a c e ( 1 9 6 4 餍爱 时囊方法来解决奁t h ef e d e r a l i s t 文章中蠹錾原掉誊熬势布阔越。年栽述爨现了 第一个联机语料库一b r o w n 美阂英语语料库,语料是布朗太学在1 9 6 3 年至 1 9 6 4 筚收集的。【3 】 受剽当时计算撬健麓制约,经验差义在钧世纪鞫年代寒粼2 0 世纪豹年栈 初几乎被雷定。这一时期,由于乔姆斯基在语嵩学理论上的窕破,以及高缀耩序 设计语富和表处理语蒋的出现,在6 0 年代中,人工智能学者得以开发了一批新 的计冀撬程序进行篱肇戆执器爨然语言理解。这些早嬲系缝称芳“第一截系 统,| 1 j ,一些有代表链漪系统翔表l 。l 所示。参霓文献耻露0 ,雾,9 ,l 闭窀稍把模 式匹配和荚键词搜索岛简单试探的方法结合起来,进行推理和自动回答,它们都 只能接受英语的一个受限很强的予集,在受限的专门领域内迭剿青限的匿标。语 法努瓣澎不藏熬,语义和语震势桥还泰涉爱。 表重一l 第一健系绕 瘁 麟= | 艺工照大学碛士论文 ( 三) 理性主义和第二代系统 - - - - - 2 0 世纪7 】。年代一2 0 世纪8 0 年代 遮时期理性主义占据了绝对鹃上飙,几乎宪全撵滔了统计搜术。语法分析 方蕊,出现了受适宣句法分拆的扩兖转移网络【ll 】( a t n ,a u g m e n t e dt r a n s i t i o n n e t w o r k s ) 。语义分析方蕊,由予认识到生成语法缺少表示语义知识的手段,在 7 0 年代随着认知科学的兴盛,研究者又相继提出了概念依存理论 1 2 1 ( c d , c o n c c p h m ld e p e n d e n c y ) 、格语法e l3 】( ;c a s eg r a b n a t ) 、语义黼络( s e m a n t i c n e t w o r k ) 、框架( f r a m e 。l i k er e p r e s e n t a t i o n ) 等谣义表示理论。这些语法鞫语 义理论经过蠢囊的发展,运渐开始趋于摆豆绻龠。剥鼬年代一批赫的语法理论 脱颖而出,具有代表性的肖词汇功能语法( l f g ,l e x i c a l - f u n c t i o n a lq 镧衄呻、 功能台语法( r u g ,f u n c t i o n a l 戚f i c a t i o ng r a m m a r ) 和广义短语结构语法( g p s o , g e n e r a l i z e dp h m _ , ;es t r u c t u r eg r a m m a r ) 等。蘸詹语耀分擀瞧开始震歼,情景语义 攀s i t u a t i o ns e m a n t i c s ) 、富谈语言学d i s c o u r s el i n g u i s t i c s ) 和语溺学 ( 蚴a a c s ) 成为研究热点。表l 。2 简要介绍了这些理论成果。 襄1 - 2 “理性主义”理论成果 依托于巍时的语法和语义理论研究,研究者们开发丁一大批著名的系统,如 l u n a r 系统、s 翔m l u 系统、m a r g i e 系统、s a m 系统、p a m 系统等。它们 被称为第二代系统 王】。这些系统绝大多数是程序满绎系统,大量缝进行语义、 5 西北工业大学颂士论文 语境以至谮用的分析。表l 。3 简要介绍了第二代系统中其有代表性的重要成果。 ( 参觅文献【1 2 3 ,嚣,览l o 】) 袭1 - 3 第二钱系统 ( 四) 经验主义复苏,实用化系统开发 - - - - - - - 2 0 世纪s 0 年代孛期一9 睥拽巾麓 到了8 0 年代,一方面由于计算机技术的飞速发展,大规模数据存入计算机 并撼戳憝壤藏蕊可黪;另方面也篷瓣凋蠢法酶藩刘爱愚,毖现丁“重圆经验主 义 的倾向。 语料鬻疆目名称简奔 c o b d 语料麾壶英灏b 涮n g h a n 与c o l l 瓣出版拉套作宠或,瓣横达2 0 0 0 万词次 l o n 缈a n 语料摩雹摇纛个诺料痒l 冱臌,c ,l s c 和跏,援甓逡5 0 0 07 5 蠲糗 煅腻* 谣辩黪毒蠢鬈萎篡富协会蛾撇据采黼划i ) c l ? ? 譬_ ? 擘 表1 - 4 世界著名语料摩项嗣 单纯采用基于规则的宙然语言理解系统,主要缺麓表现在;蕊刹新麓刻画 的翔识颗粒度太大;不能保证语京学规则之间相容;获墩语言学和世界知识 菲常困难。正是因巍上述蔗嚣,入稍开始转淘丈规模语料库,试圈从中获取颗粒 度辕小的语害知识来支持大规模真实文本的自然谱畜处理系统。语料库的建设和 谱料库语言攀( c o r p u sl i n g u i s t i c s ) 成药- - f 3 诗算语言学鹣新分支迩速绸起。概 率模型和其他数据驱动的方法被广泛应用到词类标洼、句法剖析、附着歧义的判 定簿研究枣去。国辨学术雾剃黑这种方法避取得爽质缝进震,1 9 9 4 年鹅馘的 a d a m lb e r g e r 等人发表了题为 t h ec a n d i d a t es y s t e mo fm a c h i n et r a n s l a t i o n , 的 6 西北工此大学硕士论文 文章,髂为“统计翻译”。该系统历时5 颦,完藏从法语黧译藏英语瓣经务,准确 率超过美国著名的8 y s l l r a n 系统,使围际计算语言学界为之震动。表1 - 4 列举 了世界上一些著名的语料瘁璞因。 此辨,自然语富理解的研究从2 世纪5 0 年代开始剖7 0 年代,两黻说基攀 上停留在实验和纯理论的探讨阶段。到了8 0 年代,由于计算机硬件技术飞速发 震和自然语言理解的理论求学的提嵩,懿然语言理解的瘟邂研窥广泛震开,枫器 翻译研究叉活跃起来,并出现了许多具商较高水平的实用化系统。其中比较著名 的有美国氧偃t a 薹和l o g o s ,日本的p i v o t 和h i c a t ,法国的a r l a n e ,德 鬻鹣s 疆s y 。参冤文献豁,舞j ( 纛) 合流,新突破,新挑战 鞠年代巾蜃瓣囊今 “理性主义盼现有的手段虽然基本上掌握了单个句子的分析技术,但是还报 难覆盏垒露的语畜现象,特别是对于整个段落或篇章的理解逐无献下簪。统计方 法的引入推动了盘然语言理解研究的步饯,但是风年过去丁,也同样没有看到近 期能有突破的迹象。搿经验主义 对于语言中基本的确定性的规则仍然用统计强 度靛大套意剿紧,遮与a 稍的常谖橇遗鬻。群经验塞义謦磷究审鲶幂足要靠群理 性主义舻的方法来弥补,统计和规则相结合成为遴一时期的主流研究方法。这类 方法中悲现了两个比较有代裘性的动惩;一个是馘宾州大学m a e u s 黄代表的把 语料库内容的结构化,卵树麾( t r e e 熬黼较) 的方法和以x t a g 为代表昀谲汇树鄣 接文法;男一个是以a t & t 的a b n e y 为代表的加大语言处理单元的糙度,即谱 段( c h u n k ) 的愚想。2 】 这一时期,在实用系统开发方面有了新的突破,由于计算机的速魔和存储鳖 的增加,使褥自然语富处理的一些子领域,特别是在语音谖剥、拼写梭错、浯浃 检查这些予领域,霄可麓进行商品纯鹩开发。禺舞,w e b 鹣发震健褥基于语畜 的信息检索和信息抽取的需求变得更加突出。基于w e b 的语料库建设也成为热 点。2 0 擞鳃末国际蠹联网语畜工程产品俸鸯一种新的产监在这个世嚣上齐始蝴 起。但是总的说来,知识表承和知识处理问题在2 0 世纪之前都没有在根本上有 所突破。2 l 世纪将是自然语誊理解学界迎接新挑战,寻求突破的全新时代。 1 。3 汉语囱然语言理解发展概况与成果 ,3 。 汊诿的特纛戳爱讨篝搬处理的特殊性 汉语是世界上最古老的语言之一,属于汉藏语系,是一种孤立谱。汉语在历 史上先詹鞭牧帮圆纯每觳、鲜辜,突麟、契丹、满、蒙蠢、焚语等语畜量瑟的 7 西北工业大学硕士论文 许参成分,是自然语言中非常复杂的一种。以下我们简要介绍一下汉语的特点和 计算扭蹙壤鹩特殊挂。 ( 1 ) 汉语是大字符集的语言 英语鼹蠢2 6 个字母,中文却煮4 4 9 0 8 个汉字 搬攥中华大蒸典。葵语 有1 5 0 0 年历史,牛津葵语辞典收词四十万多条。汉语六千多年历史,中山 大簿典唆词六十多万条,比英语多5 0 。这一特憔为汉字的输入朝计算桃编码 造戚了极大的困难。 2 ) 字形复杂 完全使用由象形文字演化而采的方块汉字,这使得汉字字形的信息量较大, 给计算机的内部倍患压缩朝文字显示制造了匿难。 0 ) 词语缺乏狭义的形态 露方谱言的形态,对予计算机来说就是标记;汉语是以字力基本单位,诲之 褥没有明显的标记,需要瞄动分词,丽分词本身宥一定的鞲误率,遮无疑降低了 后续处理的实际效果。此外,汉语调本身没商性、数、格、时态变优等形态标志, 这叉给语义分析增瀚了匿罐。 ( 4 ) 旬子语法、语义灵活 投语萄子中各个成分之闻的关系一靠谲序,= 靠群意奢静,三靠虚词。健是, 词序虽同可能意义迥异;康词并非爿器用不可,特别是在口谶里,虚词更少,因此 虚词只麓爨解决谲与词、韵与旬关系问题的辅动学壤;榉意含嚣粼更为麻烦,其 中包含着许多语富环境、语言背景和语言风格知识以及缺省问题,如何全面把握 有蓑意义的诸项要素,著恕它形式纯,是爨夫鹩难鞭。 现实的客观条件是,一方面计算机的软硬件处理环境一直以来都是以英语为 平裔;另一方面,境有的蠢然语言簸理理论辩技术大多都是戮英语为研究对象而 发展起来的。汉语无论在语音、文字表示,还是在词汇、语法、语义及其谱用等 各个屡露上都与之雾在蕾禳太麓差爨,这蠖褥无法粪攘套震蒋方毯成熟的糕谂帮 技术,汉语无疑是计算模型比较不发达的语富。这对从事中文信息处理的研究者 来说是一个巨大麓撬藩窥氍杰。 1 。3 。2 汉语自然语言理解撞术发展概况稻成果 汉语壤解技术是中文信息处理技术的一个分支( 参见变献 1 4 ,1 5 ,1 6 】) ,并且 属于相对离端的搜术屡面。申文倍感处理的研究时阅馒长,但由于譬絮受到汉语 信惑处理一璺预处理技术的制约( 如汉字编码,汉语分词等) ,等莪们真燕开始 汉语自然语言理解研究时,b 经比壤外晚了2 0 多年。但经过近2 0 年的发展,汉语 啻熬语言理解技术获得了长是的进步,取得了很多重要的成果。我稍将国内臼然 语畜理解技术的发腥分为以下三个阶段,分别作简要的介绍。 8 蘧北工照大学礤圭谂文 ( 一) 汉语信息预处理阶段:2 0 世纪7 0 年代2 0 世纪翮年代 l 计算梳处遵汉字 1 9 7 4 年周恩来总理亲自批准了“七四八鼯工程,它标志饕计算机中交髂惠处 理技术受到了国家高度重视并且进入了他的第一个发展阶段一汉字信息处理 时代。这项工程的经努是研制计算撬汉字输入、输感、编辑鞠检索系统。在这个 项鞫鹩带动下,研究泼字信息处理的有识之,竟鼹稀释困薅,驽经雹g 造密遁l o 个汉字输入编码方案了。在经历了所谓万“码鼢秀腾的汉字编码战国时代之后, 这方面的闷题已经基本解决。 蹑淡字的输出密甥穗关酶是汉字字瘁麓镶患霪缩技术。1 9 7 5 , 享有耀当代孥 升 美誊的北京大学教授王选与其同事一道研制成功的汉字折线段压缩搜零,很 好地解决了汉字字形复杂、字型信息存储量犬这个难题。 国计算规处理汉语词 在嗣计算机处理援语信患对,冀核心是瓣谰鹩处理,首先磁剿的阔趣楚词的 切分【1 刁。由于汉语句子中词与词之间无空格,必须把句中各词正确地切分开来, 才能正确理解和处趱汉语句子。i 9 8 3 年国内实现了第一个汉语自动分词系统 c d w s ,就磊又有数个系统闻世,并提出了1 2 释分诱方法。遮整分词方法概括超 来可以分为两类:一粪是基于统计的机械分词方法,一类是基于规则的专家系统 分词方法。机械分词法中包括:蠖向最大匹配法,逆向最大匹配法,逐词 遍历嚣懿法, 设立甥分标恚法, 最佳匹配法,最小嚣配法,最少溺数留 分法。蒸予援尉的分调法是剩朋淡褥的语法、语义翔识建立推理规剐,在分诵过 程中进行推理判断,模拟语法专家的逻辑思维过程,实现自动分词。此外还宥蒸予 神经麟络的分词方法。 l 粥寒年耦,毒艺索魁空靛天大学制定了蓿崽缝理蔫规范瑷代汉语分词飘藏, 从计算枫工程应用的需求出发,解决了语言学界争论了几十年而未解决的汉语的 词的定义阀题。为我凰从汉字处理进入词语、语句处理打下了基础。 篡发震阶段;2 0 世纪鬈黎荦栈圣0 世甏鳓筚戴 基本问题解决詹,凰内开始了真正意义上的汉语自然语甯理解研究。无论是 “经验主义挣还是“理性主义静都辨始借鉴国外的研究成果进行汉语研究。但受 到这一辩期匿际发溅缎两的影曦,经验主义发震较热,语料纛统计方法研究在雪 内广泛擞起。建设了数个有一定拽模的汉语语料麾,在汉语语料的标注和利用带 标记的谱料来自动获取语言知识等领域取得了不少成果。最近又开始了利用双语 平行语辩进行自动枫器翻译戆研究。其中毒影响力的中文生谣料库、词语语糕摩、 旬法语糕摩有: ( 1 ) 1 9 7 9 年,武汉大学建设的汉语现代文学作品语料库,熬计5 2 7 万字,是我 孽 嚣= l 艺工髓大学骥论文 国最早熬概器可读语料摩。 ( 2 ) 北京大学计算语言学研究所舄富士通公司( f u j i t s u ) 合作,加工2 7 0 0 万 字的a 畿霉掇语料簿,攘z 顼匪包括词语切分、词性标注、专有名词专有 名词短语) 标注。 鳓i 9 9 8 年,清华大学建立了l 亿汉字的语料库,着重研究蠖义切羚瓣蘧。现 在生语料库已达7 。8 亿字。 a ) 北寨邮电太学在美国l d c 的汉语句法树库的基础上进行自动获取谱法 援则的研究。曲g 的群树麾一包含薪华社1 9 9 4 要 l 擎鳃年麴3 2 5 篇文章,包含4 1 8 5 颗树,1 0 万个词。 褥香港城奄理王太学语富蝥漉科学靖究审,0 建立了l i v a c ( l i n g u i s t i c v a r i e t yi nc h i n e s ec o m m u n i t i e s ) 谮料库,其宗麓在于研究使用中文的各个地区使用 语言的异删。总掌数为1 5 0 3 4 ,5 5 1 字,经过纛动分词和人置校对之后总调数约为 8 , 8 6 9 , 9 0 0 i 搿= j 。 伪台湾建立了平衡语料库( s i n i c ac o r p u s ,中央研究院) 和树震语料库 ( s i m c at r e e b a n k ,啭夹霹究陵) 。嚣个蒸是糯记语辩痒,霄一定翔工深度。语糕 库规模约5 0 0 万字。 ( 三) 现阶敷:2 0 世纪9 0 年代束至今 在国际蠢然谣言理髂技术不鞒革薪和遗步的影嘛下,在蓠蠹学者的慕感努力 下,汉语自然语言理解研究也在不断的深入和提高。另一方面,爱到互联网和信 息技术空前发震的带动,汉语引蠛语富理解技术又趱现了新的需求和新的难蓬。 总的来说这一时期星现瓣“多纛纯一藕“多角度 蚋研究态势,我们总结为以下 四个动向分别介绍。 第一个韵商,鸯国黼麓震相适应,缝概率和语瓣库研究似乎走到了尽头,开 始统计和规则相结合。 簟中科院计算所汉语词法分析系统i :c t e 队s 浆用了统计方法与规则相结合 酌手段,并在9 7 3 专家组译测了匿内主簧的汉语调法分轿系统后,获得最好 成绩。 謦清华大学的黄昌宁教授等人成功地结合语料库统计与规则的优点。设计 丁一个统计岛撬嬲弗举酶汉语句_ 法分橱模型c 髂p ,在这个模型中。语辩库 用来支持各类知识和统计数据的获取。并检验句法分析的结果,规则主要用 于郐接短语鹩台并鞠蔽存的美系溺的剪技,德蜘麓实验取褥了令人满意麴结 果。( 参见文献 1 8 ,1 9 ,2 0 】) 诲纂璐主持的国家社会科学积丸五静重大颈褥“蒲息处疆用现代汉语调 1 0 西薯忿工照大学碛士论文 汇研究”就是在统计方法的基础上,引入鳗方计算语言学的理论成果,加入 瓶剿瓣分褥方法。 第二个动向,开始熏视语义和知识表示,并肖意识的抛歼英语自然谱富理解 的研究模式,寻找适龠汉语自身的方法。 豢黄餐勰先生鹣概念层次雕络 2 1 】( h n c ,r i e r a r c h i c a l n e t w o r k o f c o n c e p t s ) 理论。该理论体鬃是考虑到传统研究方法( 词短语一旬一句群,篇章) 是慕于 西方语言而建立的。其总体与汉语实际不适虚而建立的。窀以概念化、屡次 纯、鼹磐纯瓣语义表达为基璃,把久脑谈糍绩拇分梵愚蘸耩全局簿类联怒藤 络,认为对联憋脒络的表达愚语言深层( 霹语富的语义膳谣) 的根本润题。 陆汝占的基于内涵模型论口2 】的语义分析。该理论主张深入语义层面,将 汉语表达式抽象成恰当的表番内涵与外延的数学表达式,然后把这些语义表 示在计算概肉逡行处蘧。驿在汉语表达式耩计冀枫数摇结鞫润插入抽象数学 表示。 第三个动向,a 翻越来越瀑入地认识到,语义表示帮知识处理是自然器富理 解的瓶鞭簿题,开始囊褫知识库躺建设。 蘸振东的知网 2 3 2 4 1 。知网( h o wn e t ) 是一个以汉语和英语的词语所 代表的概念力描述对象,班揭示概念与概念之闻数及概念所具有鲸属性之闯 的美蒹魏基本内褰鲢常识翔谈瘴。 寨北大学和北京大学对w o r d n e t 的汉化。w o r d n e t 是传统的词典信息与现 代计算机技术以疑心理语言学的研究成果霄机结合的一个产物,最具特色之 娃楚试圈摄攥遮义霭不是潺形米组缀谣汇馕患雾麓 第四个动向,受到信息全球化和i n t e m e t 的影响,智能信怠搜索成为研究的 热点。 理论研究方蔼。主要有泰就丈学麴姚天颓教授捷出麴文本僖感道滤枫 制【2 6 , 2 7 1 。哈祭滨工业大学的垂开铸教授澍文本层次结构的划分 2 8 , 2 9 1 。 北京邮电大学的钟义信教授宾现的自动文摘系统f 3 0 ,31 。上海交通大学 麓王隶戚教授迸稽酶藩息浓缩磷究瑟2 】。 痰灞系统开发努蓓。基于内容的搜索写l 擎,代表幢蔚系统有:| 艺裘大学 天阈、计算所的天罗、百度、慧聪等公司的搜索引擎。信息自动分类,自 动摘冀、信息过滤等文本级虚用,如上海交遵大学纳讯公溺的自动摘冀、复 量大学麴文搴分类,诗萋新基于
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 业主委员会委员任职制度
- 仪表工业数据分析规程
- 家中的温暖写人作文(5篇)
- 产品优化与改进协议
- 客户信息管理系统工具集
- 荷塘四季的语言艺术教案
- 四季校园小学生写景作文12篇
- 专业设计服务合作项目书
- 及时处置紧急响应承诺书3篇范文
- 客户服务流程规范化操作手册
- 房产查封申请书
- 2024年新疆伊犁州直检察机关招聘聘用制书记员笔试真题
- 《康复评定技术》课件-第九章 关节活动度评定技术
- 《掌骨骨折诊治》课件
- 北师大版六年级数学上册课件 圆周率的历史
- 竣工结算审计服务投标方案(2024修订版)(技术方案)
- 2024秋新苏教版生物7年级上册课件 1.2.1 细胞的分裂和分化(第1课时)(教学课件)
- 桩基检测施工方案
- 刑法学课程课件教案绪论
- 精神科量表完整版本
- 混凝土搅拌站安全生产管理制度(2篇)
评论
0/150
提交评论