(汉语言文字学专业论文)汉语复句书读前后语言片段的非分句识别.pdf_第1页
(汉语言文字学专业论文)汉语复句书读前后语言片段的非分句识别.pdf_第2页
(汉语言文字学专业论文)汉语复句书读前后语言片段的非分句识别.pdf_第3页
(汉语言文字学专业论文)汉语复句书读前后语言片段的非分句识别.pdf_第4页
(汉语言文字学专业论文)汉语复句书读前后语言片段的非分句识别.pdf_第5页
已阅读5页,还剩137页未读 继续免费阅读

(汉语言文字学专业论文)汉语复句书读前后语言片段的非分句识别.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

博士学位论文 d o c t 0 l t a ld i s s e r t a t l 0 n 内容提要 为了满足中文信息处理事业的需要,在字处理和词处理阶段取得了初步成效后,句处理1 : 作已经提上了重要的“议事日程”。冈为自然语言理解归根结底还是对语言中一个一个句子的理 解。汉语的句子包括单句和复句,其中复句的机器理解又是重雉点所在;除了因为复旬的机器 理解必然要建立在单句理解的基础之上,还有一个重要的原因是复句的机器理解牵涉剑分句之 间层次和逻辑语义关系的划分。同时,随着计算机软硬件技术的提高,作为对基于规则的理性 主义方法的一种补充,基于统计或实例的语料库方法日益得到了计算语言学家们的亲睐。正是 在这种背景下,我们尝试建立一个“精加丁:”的现代汉语复句语料库,以期为复句的计算机理 解提供相关语言知识和统计数据。 本文只是这项语料库建设工作的一部分,主要目标是在进行语料库中复句语料的分句层次 和关系划分以前,首先排除掉那些不参加复句层次和关系划分的书读前后语言片段,即对非分 句语言片段进行识别和标注。主要内容如下: 第一章首先回顾了前人对单复句纠结问题的研究,分析了单复旬纠结的复杂现象,并尝试 从认知语言学的“原型”角度看待这一客观事实,用“小旬中枢”理论界定非分句( 分句) 的 性质和范围;接着以标点符号为标记让计算机对分句进行了初步识别,排除了其中的一些非分 句;最后对计算机不能以标点符号为标记识别的非分句进行了细致的分类描述,有汉语断句的 随意性造成的非分句,有由于分句的某个组成成分比较复杂而促成的非分句,还有句子的某些 特殊成分单独充当一个语言片段而形成的非分句。 第二二章首先介绍了词性和非分句的标注说明;接着根据“小句核心词”和“动词中心说” 理论,利用标注的词性信息对一部分不包含动词的非分句进行了自动识别,并制定了一系列规 则对这部分非分句实现类型的自动标注;最后,本章把一些由形式相对固定的短语充当的语言 片段单独放入短语库中,通过制定一系列的短语库规则对它们进行自动识别。 第三章利用句法信息实现了一部分非分句的自动识别和标注。首先简单描述了计算机处理 自然语言的工作模式;接着讨论了两种类型的“形式标记”及其对识别和标注非分句的作用: 一类是显性形式标记,如介词充当的开头标记,时间词、方位词等充当的结尾标记,另一类是 结构助词“的”和表判断义的动词“是”;并在此基础上制定了计算机自动识别和标注非分句的 另外一系列规则,添加到规则库中。 第四章是基于前两章所编规则的实验及其结果分析。首先建立一个a c c e s s 数据库,把规则 中出现的开头标记和结尾标记逐一录入到这个库中。在判断某个语言片段是否为非分句时采用 简单的字符串匹配法,把每个语言片段的开头部分或结尾部分跟数据库里录入的开头标记或结 尾标记进行匹配,匹配成功的就是非分句。接着通过人工方式逐条检验了规则的识别或标注正 确率,并简要分析了产生错误的原因及今后的改进策略。要特别说明的是,第二章和第三章的 、 二、博士学位论文 7 , d o c t o i 己 ld i s s e r t a t i o n 规则都是在训练集中制定的,冈此我们还要在训练集中统计这些规则的贡献率,然后把这些规 则推j 庇h j 剑整个复句语料库看正确率如何,同时不断改进和完善规则。 第五章尝试综合利用句法、语义和搭配知识米识别一部分非分句,这方面的t 作目前尚处 于试验阶段。本章首先论述了语义知识在自然语言计算机理解中的重要性,接着介绍了国内外 面向计算机研究语义的概况,并给出了本文所运用的语义理论。然后针对本项研究的具体情况 阐述了j l j 作前提,包括研究语料的选取和限定、解决问题的思路等。接卜来就围绕语义角色、 语义类别和语义特征等三要素,试着为1 0 8 个动词的1 2 7 个义项建立起动宾语义搭配框架,并 提出了判断动词后面两个名词之间有无偏正关系的十八条形式标准,还运用所建立的搭配框架 分析了几个子语料库2 中的实例,提出了建立“动宾搭配频率表”的设想。末尾对全章内容有 个小结。 第六章根据邢福义先生的有关论著从理论上制定了一系列识别名词充当核心词的分句即名 词谓语旬的规则,尽管训练语料库中的实际用例甚少。这部分规则并没有来得及在程序上实现, 也未曾针对实际语料进行过人工检验。 i i 关键词:小旬中枢;书读前后语言片段;非分句;自动识别;句法信息;语义知识;规则 = :博士学位论文 d o c | r 0 i 己a ld i s s e r t a t l 0 n a b s t r a c t i no r d e rt om e e tt h en e e d so fc h i n e s ei n f b 册a t i o np r o c e s s i n gu n d e n a l ( i n g ,a r e rt h e w o r d 锄dc h a r a c t e rp r o c e s s i n gr e a p i n gt h e i rf i r s tm l i t s ,s c n t e n c ep m c e s s i n gh a sb e e np u t o nm ei m p o r t a n ta g e n d a n 加l r a l l a n g u a g eu n d e r s t a l l d i n gi s ,i nt 量l eu l t i m a t ea n a l y s i s ,m e u n d e r s t 锄d i n go f e a c hs e n t e n c e s e n t e n c e so fc m n e s ec o n s i s to f b o t hs i n 9 1 ea 1 1 dc o m p l e x s e n t e n c e s ,i nw h i c hm em a c h i n e u i l d e r s t a n d i n go fc o m p l e xs e n t e n c e si sb o t ht h ek e ya n d d i 伍c u l tp o i n t b e s i d e st h a tt h em a c h i n e u n d e r s t a n d i n go fc o m p l e xs e n t e n c ei si nt h e i n e v i t a b l ee s t a b l i s h m e n to nt l l eb a s i so fm es i m p l es e i l t e n c eu n d e r s t a n d i n g ,a n o t l l e r i m p o n 觚tr e 弱o ni s ,d i v i s i o no fl e v c la n dl o 西c a ls 锄a n t i cr e l a t i o n sa m o n gd a u s e sa r e i n v o l v 酣i nt h em a c h i n e u n d e r s t 锄d i n go fc o m p l e xs e n t e n c e b e s i d e s ,a l o n gw i t ht h e i m p r o v c m e n to ft 1 1 ec o m p u t e i h a r d w a r ea n ds o 俄v a r et e c l l n 0 1 0 9 弘a sas u p p l e m e n t a r yt o l er u l e - b a s e dr a t i o n a l i s m ,t h es t a t i s t i c - b a s e d 觚de x 锄p l e - b a s e dc o 印u sm e t h o db e c o m e p o p u l a rw i t l lm ec a l c u l a t i o nl i r 料i s t i c si n c r c 嬲i n 酉y i ti si n t h j sc o n t e x tw et 巧t o e s t l b l i s h锄 e x q u i s i t e p r o c e s s i n gm o d 咖 c h i n e s ec 0 m p l e xs e n t e n c e c o r p u s , f o f p r o v i d i n gr e l e v 觚tk i l o w l e d g ea n ds t a t i s t i c a ld a t at o 廿l ec 0 m p u t c r 岫d e r s 伽d i n go f c o m p l e xs e n t c l l c e t l l i sp a p e ri sp a no fc o 印u sc 0 n s 饥l 嘶o n ,w r h o s em a i no b j e c t i v ei st oe l i m i n a t et l l o s e l 锄g u a g ef h 孕n e n t sb e t w e e np u n c t u a t i o nw m c hd o n tp a n i c i p a t ei nt l l ed i v i s i o no fl e v e l s a i l dr e l a t i o n so fc o m p l e xs 锄t e l l c e ,i e 廿l ei d 踟t i f i c a t i o n 锄dt a g 百n go fm en o n c l a u s e l 觚g u a g c 触舯朗t s i t sm a i nc o n t e n t sa r ea sf o l l o w i n g : c h 印t e ro n ef i r s tr c n - o s p e c o u rp r e d e c e s s o r s s t u d yo nt h et a n 哲e dp b l 纽lo f s i m p l e 锄dc o m p l c xs e n t e i l c e ,a 1 1 a l y z e dt l l e i rc 0 m p l e xp h e l l o m 锄o n ,a 1 1 dt r i 酣t 0v i e wt l l e o b j e c t i v ef i a c t 自o mt l l ep e r s p e c t i v eo fp r o t o t y p eo fc o g m t i v el i n g u i s t i c s ,d e l e i n e dm e n 撒鹏锄ds c o p eo fn o n c l a u s e ( c l a u s e ) w 油t 1 1 e o 巧o fc l a u s e 嬲n u c l e u s ,m e l lm a d e c o m p u t e rm a l ( eap r e l i m i n a 巧i d 锄t i f i c a t i o nb yt h et l s eo fp 吼c t l l a t i o n 嬲m a f k 1 1 l l e d o u ts o m eo f 廿1 豁en o n c l a 璐e s ;6 n a l l yg a v ead e t a i 】e dd e s c p t i o no ft 1 1 ec 1 嬲s i 五c a t i o nf o r 廿l e s en o n c l a u s 船w h i c hc a i l tb ei d e n t i f i e db yc o m p u t e r s o m eo ft h en o n c l a u s 懿a r e m a d eb ym e 莉i 饥l r i n e s so fc l l i n 船ep u n c t i l a t i o n ,s o m ea r eb yt 1 1 ec o m p l e x c o m p o n e n to f s o m ec l a u s e s ,锄ds o m ea r cf o 加e db ys o m es p e c i a jc o m p o n e i l t s 硒l a i l g u a g e 加缪n e l l t s c h a p t e rt w of i r s t l mg a v eat a g 西n gi n 臼o d u c t i o no fp o s 觚dn o n c l a u s e s e c o n d l y a c c o r d i n gt ot 1 1 et l l e o 巧o fc 1 a u s e 嬲n u c l e u s 锄dv e m c e l l t e r 酣廿l c o r y w eu s e dm e i l l 博士学位论文 d o c t o r a ld i s s e r t a t i o n m a r k i n gp o si n f o 船a t i o nt om a k ea u t o m a t i ci d e n t i f i c a t i o nf o rs o m en o n c l a u s e sw h l c h d o n ti n c l u d ev e r b f i n a l l y ,i nt h i sc h 印t e r ,w ep u ts o m el a n g u a g ef r a g m e n t sw h l c h a r e r e l a t i v e l yf i x e dp l l r a s e si n t om ep h r a s es t o c ka n dm a d ea u t o m a t i ci d e n t i 6 c a t i o nm r o u 班 f 0 n n u l a t i n gas 丽e so fr u l e s c h a p t e rt h r e em l f i l l e dt l l ea l l t o m a t i ci d e n t i f i c a t i o na n dt a g 百n go fs o m en o n c l a u s e s b yt h eu s eo fs y n t a c t i ci n f o r m a t i o n f i r s t l y ,g a v ea b e fd e s 甜p t i o no ft h e 、v o r k m o d eo f c o m p u t e rp r o c e s s i n go fn a n j r a l l a n g u a g e ,t h e nd i s c u s s e dt w ot y p e s o ff o 册a lm a r l ( e r s 锄d t h e i r 缸1 c t i o no fi d e i l t i f i c a t i o na n dm a r k i n g :o n ei sd o m i m n tf o 肌a lm a r k e r ,s u c ha u s p r 印o s i t i o na sb e 百m i n gm a r k e ra n dw o r do f t i m ea n dp l a c ea se n d i n gm a r k e r ;t h eo t h e r i ss t m c t u r a la u x i l i a r y “的a n dj u d g m e n tv e r b “是” b e s i d e s ,w em a d eo m e rs 甜e so f 1 1 1 1 e so fc o m p u t e ra u t o m a t i ci d e n t i f i c a t i o n a d d e dt h 锄t ot h er u l e d a t a a 1 1 dm a r k i n go fn o n c l a u s eo nt 1 1 i sb 撕s 肌d c h a p t c rf - 0 u ri se x p 丽m ta n di t sr 鹤u l t sb a s 。do nm ec o m p i l e dn l l e si nt 1 1 ef i r s t 铆oc h a p t e r s f i r s tw es c tu pa i la c c e s sd a t ab a s e ,p u tm eb e 百衄i n gm a r k e ra i l de n d i n g m a r k e ri n t 0t h eb 弱e w h e l lj u d 舀n gw h e t l l e ral 锄g u a g ep h r a s ei san o n c l a u s eo rn o t ,w e c 纽u s es i n l p l ec h a r a c t e r s t r i n gm a tc _ h i n g ,m a t c h i n gt h eb e 舀n n i n go re i 】l d i n gp a r to fe a c h l 锄g u a g e 触舯c n tw i m t h eb e g i 衄i n go re i l d i n gp a no fm ed a t ab 嬲ei n p u t i ft h em a t c h s u c c e e d s i ti san o n c l a u s e i l l e nw et e s t e d 廿l ec o r r e c tr a t eo fi d e n t 主丘c a t i o na 1 1 dt a g 舀n g r u l e sb ym 锄m a d em e t h o do n eb yo n e ,锄d 锄a l y z c dt l l ew r o n gr e a s o n s 柚d 如t u 】旧 i m l ) r o v 锄e n ts t r a t e 西嚣e s p e c i a l l y ,“e si nc h a p 衙t 、o 锄dt i r e e a r ea l ld c v e l o p e di n n a i n i n gc o l l e c t i o n ,s ow eh a v et oc 0 啪tm e i rc o n t r i b u t i o nr a t ei n 仃面n i n gc 0 l l e c t i o n 锄d a p p l y t h e s em l e st om ee i l t i r cc o m p l e x r c f i n em e 九l l e sc 0 n s t a i l t l y c 0 印u st o t e s tm ec o r r c c tr a t i o ,髓di m p r 0 v e 觚d c h a p t c rj e i v et r i e dt oi i l e n t i 母s 咖en o n c l a u s e sw i t l lt l l ec o m p r e h e i l s i v eu t i l i z a t i o n o fs v n t a c 6 c s e m 锄t i c 锄dc o l l o c a t i o nk 1 1 0 w l e d g e ,h o w e v 瓯t h i sm e t h o di ss t i l li np i l o t p h 弱e t 1 l i sc h a p t e rf i r s td i s c u s s e dt l l ei m p o r t a i l c eo fs 锄锄t i cl 【i l o w l e d g ei n n a n l r a j l 锄g u a g eu 1 1 d e r s t 觚d i i l go fc o m p u t m c i li n 仃o d u c c dt l l eo v e i e wo fs 锄蛐t i c ss t l l d yi n f a c eo fc o m 】p u t e ri nc l l i n a 跚da b r o a d ,孤dp r e s e n t e dm es 朋l a 而c 也e 0 叫w h i c hw eu s e i nt l l i sp a p 既a n dm e l lw ee x p l i c a t e dm ew o r k i n gp r 锄i s ea c c o r d i n gt on l es p e c i f i c c i r c u m s t 锄c e so fo u rs t u d y ,i n c l u d i n g 廿l es e l e c t i o na n d1 i m i 饿i 舳o fr e s e a r c hc 0 印u sa 1 1 d t l l ep r o b l e m s 0 1 v i n gi d e 2 l s t h e i lf o c u s i n go ns e m a n t i cr o l e ,s 锄a i l t i ct y p ea i l ds 锄a i l t i c c h a r a c t e r i s t i c s ,w et r i e dt os e tu pv e r b o b j e c tm a t c h i n g 行锄e w o r kf o r 12 7s e n s ei t e n l so f 10 8v e r b si nd i c t i o n a qe n n ma l l dp r e s t c dl8s t 锄d a r d st oj u d g ew h e t h e rt l l er e l a t i o n l v 蛰! 篡淼i 僦 b e t w e e n 似on 0 吼s 诅e rv 砷i s “p i a n z h e n 岔,也e 1 1u s e dt h em a t c h i n g 觎m e w o r kt o a n a l y z es o m ee x a m p l e si ns u b c o 印u s 2 ,p u tf o 九v a r da na s s u m p t i o nt o s e tu pat a b l eo t v e r b o b i e c tm a t c h i n g 仔e q u e n c y t 1 1 e r ei sas u m m a 叫a tt h ee n d o fm i sc h a p t e r c h a p t e rs i x1 a i dd o w nas 谢e so fi d e n t i f i c a t i o nm l e si nc a s em a tn o u ni st l l en u c l e u s i nas e l l t e n c ea c c o r d i n gt op r o f e s s o rx i n gf u y i st h e o r yf r o m t h et 1 1 e o r e t i c a lp o i n t , a l m o u 西f e we x 锄p l e sc a i lb ef o u n di nt r a i n i n gc o 印u s b u tt 1 1 e s em l e sh a v en o tb e e n r e a l i z e di n t oc o m p u t e rp r o 伊锄a l l da n i f i c i a l l yt 骼t e di na c t u a lc o 叩u sf o rt h et i m eb e i n g k e yw o r d s :t h e o r yo f c l a u s e躺 n u c l e u s ;l a n g u a g ef r a g m e n t sb e 似e e n p u n c t u a t i o n :n o n c l a u s e ;a u t o m a t i ci d e n t i f i c a t i o n ; s y n t a c t i ci n f o m l a t i o n ;s 锄a i l t i c k n o w l e d g e ;r u l e s v 博士学位论文 d o 口r o l t a ld i s s e r 汀1 0 n 0 1 研究背景 绪论 计算语言学是一门植根于计算机科学、数学与语言学等多学科沃r 十的新兴学科。二十世纪 五、六十年代最初兴起时以机器翻译为中心课题。机器翻译就是利用计算机把人类的一种自然 语言翻译成另一种自然语言,实现两种语言之间的语码转换。要让计算机做到这一点,首先得 让计算机理解这两种自然语言,因此初期不是建立在对自然语言理解基础上的“词对词”的简 单翻译方法得不到理想的翻译效果。上世纪六十年代,人们开始研究自然语言的语法、语义和 语用等问题,尝试让计算机来理解自然语言,这样就出现了“自然语言理解( n l p ) 的研究。 到了今天,计算语言学开发的应用研究领域越来越广,包括自然语言人机接口,语音的自动识 别与合成,编制语词索引,情报检索,语法的检测,以及许多需要统计分析的领域,如文本考 释和风格学研究等。近十年来,随着网络技术的发展和进步,人类文明也从工业化社会进入信 息化社会,海量以文字、声音、图像等形式贮存的信息如潮水般向我们涌来;如何从铺天盖地 的信息网络中找到自己想要的信息,这一任务迫使人们越来越重视语言信息处理技术的研究。 而对我们使用汉语的人来说,中文信息的自动处理又是任务最迫切、难度最大的一项课题。 简单地说,中文信息处理( c i p ) 就是利用计算机对汉语信息( 包括口头的和书面的) 进行 处理,也就是如何让计算机自动理解和生成人类的一种自然语言汉语。汉语的信息处理单 位可以划分为字、词、短语、句子及篇章,因而学者们一般把中文信息处理的进程分为三个阶 段:字处理阶段、词处理阶段和句处理阶段。 我们都知道,计算机天生是为英语等印欧系语言设计的,而汉语书面语言是用汉字字符表 示的,所以中文信息处理首先面对和必须解决的难题就是汉字的输入和输出问题。目前。字处 理已经取得了突破性进展;发布了汉字编码字符集国家标准,研制了国际标准i s 0 1 0 6 4 6 ,还确 定了汉字内部码;键盘输入技术、汉字识别技术、语音识别技术、汉字字形技术、语音合成技 术等各项研究成果都已投入实际应用。我们还知道,汉语不像西方语言那样,词和词之间在书 写的时候会留一个空格,这个空格就是天然的分词标记。汉字并排连写,词和词之间没有明显 的界限,这种情况给汉语的自动句法语义分析造成了极大的困难,因此在中文信息处理的词处 理阶段第一步要做的就是自动分词。1 9 9 2 年国家制定了g b 厂r 1 3 7 1 5 9 2 信息处理用现代汉语 分词规范,近几年国内的孙茂松团队还建立了一个“信息处理用现代汉语分词词表”( 孙茂松 2 0 0 1 ) 。中科院、北京大学、清华大学和山西大学先后研制开发了现代汉语自动分词和词性标注 系统,正确率达9 5 以上,而且技术正日趋走向成熟。目前最大的难题是未登录词的识别和交 。在计算机科学中。除了“自然语言理解”,也经常使用。自然语言处理”、“语言信息处理”等意义相近的术语。 本文则使用“自然语言处理”。 ! 博士学位论文 7 , d o c t o r a ld i s s e r t a t i o n 集型歧义语言片段的划分。中文信息处理事业正在向句处理阶段艰难迈进。这一阶段的主要目 标是“怎么让计算机处理、理解自然语言中一个句子的意义,怎么让计算机生成一个符合自然 语义规则的句子”( 陆俭明2 0 0 1 ) 。为了实现这一目标,计算机需要被输入汉语的句法、语义、 语用等多种知识,其中语义的知识表示和理解被视为中文信息处理事业的瓶颈。国内外很多高 等院校及科研机构都在集中精力攻克句处理的难关,运用中心词驱动的短语结构语法( h p s g ) 、 功能合一文法( f u g ) 、词汇功能文法( l f g ) 、依存语法及配价语法设计了各种句法分析器,就 句法和语义自动分析的诸多问题进行了深入的研究和探讨,力求把这些知识转换成计算机可读 的形式语言。如基于短语结构语法的自动句法分析方法( 冯志伟2 0 0 0 ) 、基于双语模型的 汉语句法分析知识自动获取( 吕雅娟2 0 0 3 ) 、图算法句法分析器自动生成( 孙明勇2 0 0 3 ) 等。 我们认为,就目前的研究形势而言,还可以把句处理阶段向下细分出短语处理、向上分出 复句处理阶段。学者们以位于词和句之间的语言单位短语作为研究的突破口,为汉语各种 类型的短语设计制定了一系列自动识别和标注的规则,试图在此基础上最终实现句法的自动分 析。如汉语短语的自动划分和标注( 周强1 9 9 7 ) 、面向中文信息处理的现代汉语短语结构 规则研究( 詹卫东2 0 0 0 ) 、汉语基本短语的自动识别( 张昱琪2 0 0 2 ) 等。另外一部分研究者 已经开始在大于小句的单位复句上“动脑筋”了,这些研究旨在通过复句中关系标记的作 用得到复句层次和层次关系的自动标注结果,以期在更大的单位上实现汉语篇章甚至真实文本 的自动标注。如汉英机器翻译中描述型复旬的关系识别与处理( 鲁松、宋柔2 0 0 1 ) 、汉语 复句本体模型初探( 胡金柱2 0 0 5 ) 、本体论在复句领域概念建模中的应用( 胡金柱2 0 0 6 ) 。 但这方面的研究j 作还很少有人涉及,取得的研究成果也不多。 另一方面,随着计算机软硬件技术的提高,计算机的运算速度和存储容量有了巨大增长, 为处理大规模真实文本准备了充分的物质条件;这就为自然语言处理方法的改进提供了可能性, 在基于规则的技术中引入了语料库方法,其中包括统计方法、基于实例的方法等等。由此发展 起来的一门新兴学科语料库语言学( c o 印i i sl i n g u i s t i c s ) 试图从大规模真实文本的语料库中 获取语言知识,以求得对于自然语言规律的更为客观的、准确的认识( 冯志伟2 0 0 1 ) 。当前语 料库的建设和语料库语言学的崛起,正是计算语言学战略目标逐渐转移到大规模真实文本的一 个重要标志,是计算语言学研究方法上的一场革命。随着人们对大规模真实文本处理的日益关 注,越来越多的学者认识到,基于语料库的分析方法( 即经验主义的方法) 至少是对基于规则 的理性主义分析方法的一个重要补充。如果能把这两种方法结合起来,以基于经验的统计方法 作为获取知识的基本途径,并结合一些语言学家概括总结的正确的语言规则,使两者互相补充、 相得益彰;那么,我们一定能够在自然语言处理领域取得较大的进展。 本文正是在上述背景下开展研究工作的:在大规模语料库中进行复旬层次关系的自动分析, 以期为“句处理”阶段的工作提供丰富的语言知识。 2 博士学位论文 d ( ) c t o r a ld i s s e r t a t l 0 n 0 2 选题的意义 语料库在语言研究中的重要性已越来越为研究者所重视。语料库是最理想的语言知识资源, 因为它不仅是大量语言资料的集合,还可以提供足够多的真实语料和例证,满足语言研究的需 要。从知识挖掘的深度出发,我们可以把语料库分为“生语料库”和“熟语料库”两类。生语 料库,又叫原始语料库( m wc o 耻豫) ,是没有经过任何处理的语料集合。熟语料库,又叫附码 语料库( 锄o t a t e dc o 巾o m ) 。是做了分词和属性标注的语料库。从标注的属性数量和加j r 的深 度出发,熟语料库又可分为“粗加工”、“深加工”和“精加工”等不同级别。其中“粗加:f 语 料库”是只做了分词标记的语料库“深加工语料库”是标注了词性属性的语料库,标注了“语 义”、“语用”等属性的是“精加工语料库”。所谓语料加工主要指信息属性的标注,就是把语料 所具有的重要的语言学信息用字母符号代码逐项标注出来。标注得越详细,或者加二l :的深度越 深,加1 :的颗粒度越小,语料库的功能和应用价值就越大。要想使语料库名符其实地成为自然 语言的知识库,就必须首先对语料库中的语料进行自动标注,而且标注的属性数量越多,加: 的深度越高,人们从中可以提取的语言知识就越丰富,这样的语料库价值也就越大,“语料库的 价值取决于标注的深度与准确性”( 俞士汶1 9 9 3 ) 。反过来看,一个语料库不管其规模有多大, 如果收藏的仅仅是未经加工的“生”语料( 即原始文本) ,那么它的研究价值也是很有限的。因 此,为了从语料库中尽可能多地获取我们所需的各种语言知识和统计数据,必须对语料进行从 词法、句法到语义、语用等多层次的加工,使生语料逐级变为精加工的熟语料。同时我们也应 看到,语料库的建设是一项系统工程,并非一朝一夕能够完成。 冯志伟( 2 0 0 6 ) 论述了当前自然语言处理发展的特点:基于句法一语义规则的理性主义方 法受到质疑,随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为自然语言处 理的主要战略目标。而事实上,当面对铺天盖地向我们涌来的大规模真实文本时,我们发现复 句的数量远远大于单旬。复句是由两个或两个以上的单句联结形成的,其信息容量比单句大, 往往能表达比单句更复杂的语义内涵。作为一种特殊的语法实体,复句上连篇章,下连小句, 在篇章和小句之间搭建了一座沟通的桥梁,同时具有语义、语法和语用等多方面的属性。我们 的目标正是建立一个砸向中文信息处理的现代汉语复旬语料库,这个语料库必须是经过“精加 工”的,可以为机器翻译、信息检索、自动索引和文摘等研究t 作提供相关的语言知识和统计 数据,充分发挥语料库语言学和统计数学方法在中文信息处理事业中的重要作用。例如,要想 让计算机正确地把下列汉语复句翻译成英文,我们必须提供给计算机的知识有很多,其中重要 的一项便是“复句的层次关系”;如果计算机不能理清分句之间的层次关系,机器翻译必然不会 取得理想的效果。 ( 1 ) 他的性格,在我的眼里和心里是伟大的,虽然他的姓名并不为许多人所知道。( 鲁迅 藤野先生转引自新实用汉译英教程陈宏薇编著湖北教育出版社2 0 0 0 年版) 3 ,1 博士学位论文 ,。 姗r a i d i s s e r t a t i o n ( 2 ) hm y e y 嚣a n dh 髓r th ei sag r e a tm a n ,出o u g hh i sn a m ei sn o l 【i l o w nt 0m 觚yp e o p l e ( 晕 文略有改动) 就上面这个复旬来说,计算机必须要有“他的性格不是一个分句”、“两个分句之间是 转折关系”等语言知识,才能得到相对正确的翻译结果。计算机如何获得这些语育知识? 其中 一个重要的途径或来源便是语料库,冈为语料库的主要作用就是为统计语言模型提供语言特征 信息和概率数据。也就是说,如果我们能建立起一个人规模的复句“精加工”语料库,实现复 句层次关系的正确标注,将为复句的机器翻译研究提供一种基于统计和实例的分析技术,与那 种基丁规则和研究者个人语感的分析技术形成优势互补的良好局面。 我们把这个语料库建设和应用的过程图示如下: 要建立这样一个面向应用的大规模现代汉语复旬语料库,我们必须完成如下三大部分工作: 一、自动分词和词性标注,我们目前用的是中科院计算语言所开发设计的自动分词软件 f r e e i c t c l a s ;二、小句( 单句、分句) 句法和语义结构的自动分析,其中包括短语的边界识 别和标注;三、分句间层次和关系的自动切分和标注。目前自动分词和词性标注工作己暂告段 落,小句的自动分析也正在如火如荼地进行中,现在要着手开展第三部分的工作了。 然而,由于汉语缺乏严格意义上的形态变化,断句比较随意,在真实的文本中,小句和小 旬之间甚至小旬的成分和成分之间经常呈现似断似连的局面。特别是由于强调、语气等语用因 素,或在某种特殊情况下出于交际的临时需要,本来一句话可以气呵成,却偏偏分成几段说 出来,中间被停顿或语气词隔开;在书面语中就表现为,明明连着的一个完整小句,中间可能 会被标点符号隔开。从这一点来看,我们可以说汉语是最忠实于思想的语言,“想到哪,说到哪”; 我们也可以说汉语是最没有“组织纪律性”的语言,毫无章法可言,有时甚至是杂乱无章的。 例如: ( 3 ) 我,数学考试,得了第一名。 ( 4 ) 1 0 年来,我们的决策在民主化和科学化方面,已经有了很大进展,否则无法解释1 0 年来我们取得的伟大成就。 为了论述的方便,在这里我们首先要定义一个概念书读前后语言片段 ( 下文简称语 。本文的小句取邢福义先生汉语语法学中的定义:“小句”主要指单句,也包括结构上相当于或大体相当于 单旬的分句。 窜词性代码表见附录一。 。这个概念是在和邢福义先生、汪国胜先生的谈话中由邢先生首先提出来的 4 博士学位论文 d o c t o i t a ld i s s e r t a t i o n 言片段) 。“书读”即j 忙面上的标点符号。,它前面或后面的那部分就是一个语言片段,可能是一 个词,可能是一个短语,也可能是一个小句,还有可能是“四不象”。如例( 3 ) 有= 个语言片 段,例( 4 ) 有四个语言片段。但例( 3 ) 实际上是一个小句,说话人或作者出于某种语用的需 要,或者是强调,或者是心情兴奋,把一个完整的小句拆分成三个部分说出来,书面上用两个 逗号隔开成三个语言片段。例( 4 ) 是一个复句,表面看来有四个语言片段,其实只包含两个分 句;因为前两个语言片段都不是复句的分句,只是由于表达的需要被标点符号隔开的分句的一 部分( 状语成分) 。 在我们要建设的现代汉语复句语料库中就有很多类似于例( 4 ) 的复旬,这些复句包含非 分句语言片段,而这些语言片段义会影响和干扰复句层次关系自动切分和标注的结果,降低其 准确率。因为考虑到编程的方便,而标点符号义是最直观的标记,计算机在处理复旬语料时最 初是以标点符号作为分句标志的。也就是说,计算机会自动把每个用标点符号隔开的部分标注 为分句,然后再划分它们之间的层次并标注其关系。还是拿例( 4 ) 来说,计算机在处理这个复 句时,会以标点符号为划分标记把它分为四个分句;而其实第一和第二个语言片段都不是分句, 不应该参与到复句层次关系的划分和标记,否则会使层次划分进而使关系标注出现错误。因此, 在进行复句层次关系自动划分和标注的研究工作之前,应首先排除那些不是分句的语言片段。 由此可见,本文的研究工作实际上只是整个“复句信息工程”的一个子项目书读前后 语言片段的非分句识别和标注,这也是整个“复句信息_ t :程”中一项重要的、基础性的工作。 本项研究所用语料库是由华中师范入学语言研究所主持开发的现代汉语复句语料库。该语 料库收有6 5 万个复句,语料主要来源于人民日报和长江日报,目前已完成了自动分词 和词性标注工作,复旬关系词语的识别和标注工作也已取得阶段性成果,下一阶段就要进行复 句层次和关系的自动划分和标注了,而在此之前必须进行的本项研究书读前后语言片段的 非分旬识别和标注工作将为此打下坚实的基础,为今后正确地划分和标注复句层次关系提供基 本保证。从这个角度来看,本项研究是属于自然语言理解领域的。另一方面,冯志伟在计算 语言学基础一书中对语料库语言学进行了详细、准确的定义:语料库语言学主要研究机器可 读自然文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料 库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。因 而从这个角度来说,本项研究工作又应纳入语料库语言学的研究范围。 0 3 本文的理论背景 “小句中枢”理论认为,小句是最小的具有表述性和独立性的语法单位,主要指单句,也 包括结构上相当于或大体相当于单句的分句。小句具有表述性,能够表明说话的一个意旨,体 现一个特定的意图:小句具有独立性,一个小句不被包含在另一个小句之中:小句还是最小的 5 ! 。博士学位论文 d o c t o r a ld i s s e r t a t l 0 n 语法单位,每个小句都带有特定的语气。 在汉语的各级各类语法实体中,小句处丁:中枢的地位,所具备的语法冈素最为齐全;内联 词和短语,外联复句和句群,还同一定的语气相联系,居于“联络中心”的位置;小句还可以 控制和约束其他所有的语法实体,是其他语法实体所依托和从属的对象,不仅句子语气依附于 小句,复句和句群依赖于小句,词受控于小句,短语也是从属于小旬的。 小旬在构成和使朋的过程中存在三律:小句成活律揭示小句成型的条件是有句子语气和可 成句的构作语法单位,而小句要生效则还需有效地表述意旨。小句包容律揭示小句对“短语一 合成词”的包容关系,小句除去句子特有因素后就是短语,再减玄短语常备冈素就可以得到合 成词。小句联结律揭示小句的联结同“复句一句群”的产生之间的因果关系,多个小句联结起 来且小句分句化后就能得到复句,复句一旦形成,其中的小句便不再是独立的单句,而是组成 复句的分句,分句化后的小句既相对独立又互相依存:小句和小句直接或间接联结还可以产生 句群,句群是句子集群化的结果。 该理论在谈到小句的成分配置和核心赋格时还说,“除了单词句,小句都有核心。充当小句 的核心的词,是小句的核心词”,“核心词,一般是动词。在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论