(计算机软件与理论专业论文)依存语法句法分析系统的研究.pdf_第1页
(计算机软件与理论专业论文)依存语法句法分析系统的研究.pdf_第2页
(计算机软件与理论专业论文)依存语法句法分析系统的研究.pdf_第3页
(计算机软件与理论专业论文)依存语法句法分析系统的研究.pdf_第4页
(计算机软件与理论专业论文)依存语法句法分析系统的研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机软件与理论专业论文)依存语法句法分析系统的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

撼要 摘要 传统计算语亩学的种种理论和方法,都以语料统计为基础。但是,只靠统计概率是 不靛统摄复杂多交静语富现象躬,戮魏还需要结会语言爝羯,避葶亍旬法帮语义的分辑。 依存语法是上个世纪末刚削兴起的一种形式语法理论。由于依存语法直接刻划词与 词之闯的关系,不使厨词往和短语类塑标记,形式简洁、精炼,冗余信息少,被很快应 用到枫器翻译、信息检索、语啻识别等各个领域。 本文褪出了以规则生成依存语法句法树的思想。以溯性为基础,系统总结出了句子 中翊牲之瓣藏存关系援则痒。劳鬏摄艇剡、俊存语法窝汉语奉舞戆特点提出了鼋法分辑 的算法。最后得到依存语法句法树,该句法树是一个有向无环的平面图。 另静,本文还根豢汉语的特点,将配徐语法中“徐”鹃鬣赢弓| 入系统,在缀多方面 都解决了由于规则产生的语义上的一些歧义。这使得依据规则的方法在依存语法旬法分 祈中取樗了成功。 关键词:形式语法依存语法汉语句法分析规则库 牮鸯理工大学硕士学位论文 a b s t r a c t t h et h o e r ya n dt e c h n i q u eo ft r a d i t i o n a lc o m p u t a t i o n a ll u g u i s t i c si sb a s e do ns t a t i s t i c b u ts t a t i s t i cp r o b a b i l i t yc a l ln o ti l l u m i n a t et h ec o m p l i c a t e dl a n g u a g ep h e n o m e n a s oa n a l y s i s o ns y n t a xt h a tb a s e do nf 迸e so f l a n g u a g ei sn e c e s s a l 3 , d e p e n d e n c yg r a m m a ri s an e wf o r m a ls y n t a xs u r g e da te n do fl a s t c e n t u r y i n d e p e n d e n c yg r a m m a r , t h er e l a t i o n so fw o r d sa r ed e s e r i b e dd i r e c t l y t h e r ei s n ot a go f m o r p h o l o g yi nd e p e n d e n c yg r a n m n a r , t h ef o r mo fd e p e n d e n c yr e l a t i o ni sv e r ys i m p l e ,a n d r e d u n d a n c y i ss m a l l s od e p e n d e n c y g t a m m a rh a ss t e p p e di n t oe v e r ya s p e c t so f c o m p u t a t i o n a ll i n g u i s t i c sa n da c h i e v e dal o ti na l lt h ef i e l d s ,f o ri n s t a n c es p e e c hr e c o g n i t i o n , h a n d w r i t i n gr e c o g n i t i o n , m a c h i n et r a n s l a t i o n ,i n f o r m a t i o nr e t r i e v a l t h i st h e s i sp r e s e n t san e w a p p r o a c ht os y n t a c t i ca n a l y s i sb a s e do nd e p e n d e n c yg r a m m a r , s u mu pt h er u l e so fd e p e n d e n c yr e l a t i o n so ft h ew o r di nt h es e t e n c e sb a s e do nm o r p h o l o g y a n dt h es y n t a xa n a l y s i si sb a s e do nt h er u l e s ,t h ec h a r a c t e r so fd e p e n d e n c yg r a m m a ra n dt h e c h a r a c t e r so f c h i n e s e 。t h er e s u l to f a n a l y s i si sa r ta c y c l i c ,p l a n a r , d i r e c t e dg r a p h 。 t h i st h e s i si m r o d u c e st h ec o n c e p to f “v a l e n c e i nm a t c h i n gv a l e n c eg r a m m a rt os o l v e t h ep r o b l e mo fa m b g u i t ya c c o r d i n gt ot h ec h a r a c t e r so fc h i n e s e t h i si ss u c c e s s f u li nt h e d e p e n d e n c yg r a m m a ra n a l y s i so f s y n t a x k e yw o r d s :f o r m a ls y n t a x ,d e p e n d e n c yg r a m c h i n e s e ,s y n t a xa n a l y s i s ,r u l eb a s e 学位论文原创性声明 本入郑重声臻:所呈交的论文麓本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注弓l 用的内容外,本论文不包含任 何麒他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本入完全意识到本声明的 法律后巢由本人承掇。 作者签名:奄哪 日期:岖年# 月je 1 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的翘定,阉意 学校保鼙并淘因家鸯关郝f l 或撬梅送交论文的复印件裟电子舨,龛许论文 被查阅和借阅。本人授权华南理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存 耧汇编本学谴论文。 保密豳,在一年解密殿适用本授权书。 本学位论文属于 不彳采密函。 ( 请在以上相应方框内打“”) 作者签名: 导雾器签名: 穴岭 荔虢之 目期:) r o s - 年6 旁j 臼 旨麓:砷年冀 凿 第一牵引言 1 1 概述 第一章引言 中文是我们的母语。中文信息处理是我国实现信息化移现代化的必经之路。但是到 茸前为止,中文信息处理的实际应用基本上还停留在“字处理”阶段,也就是说计算机 对汉语的“认知”是一个字一个字地进露,露词瀑、短添、句予一级瓣处理携力仍然 常弱。举例来说,在个搜索引擎上搜索“和服”词,可能搜索到的大量网页都是涉 及“产鑫程鼹务”豹。中文楚莲方甏静缺麓导致了攘索缝采的甥显锩误。 我国的有关科研单位和专家,从来没有停止过攻克中文信息处理难关的努力,在国 家豹凡个科学攻关计黼中都列有信息处理颂茸。这些顽强都是黻解决计算枫对自然语言 进行理解问题,也就是以开发餐能型的汉谡分析系统为套斗耳标。当藏这类研究基本上 都怒在语料主要是词的统计概率的基础上进行的。许多专家已经感觉到,统计 概率静路已经走裂尽头,必绥贯鼹蹊径,这“溪经”裁跫语义,敷词义为辇礁,与句法 规则结合,以句为突破的单位。 穰括蟪说,传统计算语言学静耱释理论和方法,帮潋语籽统计为罄穑。僵是,只靠 统计概率是不能统摄复杂多变的语言现象的,因此还需要结合语言规则,进行句法和语 义的分祈。为此,我国学术界献西方计算谮言学的众多理论和方法中吸收了许多营养, 例如短语结构语法、扩宠转移网络、从属关系语淡瓤配飧语法等。 在这一章里,我们就先讲一讲计算语裔学的錾础知识。 1 2 计算语言学简介 计算游言学,也称为自然语言处理或者自然语言理解,它怒研究如何利用计箕枫来 理解和生成自然语言。例如,用计算机对自然语畜的形、音、义等信怠进行处理,即对 字、词、匈、篇章的竣入、输出、谈烈、分掇、理解、叟成等。塞然瀑言理勰这令术语 主要用于说明方法,计算语言学这个术语主要用于说明理论。 诗霎毒篷对鑫然语言瓣磺究释楚毽,一般应经遗翔下4 个过程: 1 从语言学角度提出自然语言处理的问题和理论( l i n g u i s t i cp r o b l e m ) ; 2 把需要研究的闻题在语言学上蕊醴形式纯( l i n g u i s t i cf o r m a t i o n ) ,使之能以 一定的数学形式,严密褥援整地表示出来; 3 把这种严密而规整地数学形式表示为算法,使之在计算机上形式化 华南理工大学硕士学位论文 ( c o m p u t ac i o l l e l lf o r m a l i s m ) : 4 根据算法编写计算机程序,使之在计算机上加以实现( c o m p u t e r l m p l e m e n t a t i o n ) 。 因此,为了处理自然语言,不仅要有语言学方面的知识,而且还要有数学和计算机 科学方面的知识,这样计算语言学就成为了一门介乎于语言学、数学和计算机科学之间 的边缘交叉学科。上述第一、第二个过程属于计算语言学的理论部分,第三和第四个过 程属于计算语言学的方法部分,也称为自然语言的计算机处理。 语言学是研究语言现象机器规律的科学。计算语言学是语言学的一个分支,是运用 计算机的手段研究语言现象和规律的。传统语言学和计算语言学的区别主要在于:l 、 传统语言学是一门经验学科,而计算语言学既是一门理论学科,又是一门实验科学。2 、 计算语言学要面对整个自然语言现象,因此,它必须研究计算机处理语言的带有普遍性 和总体性的一般问题;而传统语言学家喜欢深入研究某一特殊的语言现象,更加重视研 究中的某个特殊问题。3 、传统语言学主要是描述性的,而计算语言学要求的语言学理 论必须具有刻操作性,要想操作,就首先要把一个句子中所有的信息,包括词法的、句 法的、语义的都形式化,变成机器可以识别的规则,这样它才能一步步操作,最好达到 理解这个句子的目的。所以,计算语言学最根本、最关键的方法就是要指出各种语言形 式出现和变换的条件。 计算语言学研究和处理的对象是自然语言,而不是人工语言或者其他的形式语言。 世界上的语言,绝大多数是自然语言。自然语言是人类发展过程当中自然产生、约定俗 成的用于人类社会交际的语言。自然语言中有少数是通过人为的力量创造或规定下来的 语言,比如世界语。形式语言是人们有意识地通过形式化地定义所规定的语言,典型的 形式语言包括程序设计语言和符号逻辑语言。形式语言是具有严格的符号系统,适合于 计算机等具有符号化信息处理能力的计算和通信装置使用。在计算机软件中,早已设训+ 了许多人工语言,如b a s i c 、p a s c a l 、c 、j a v a 等程序设计语言,这些语言都遵循形式语 言的规律和法则。对这些人工语言的词法、句法、语义的分析和生成,技术都已比较成 熟,发展称为- - l l 新的学科“编译原理”,但自然语言比人工语言要复杂得多,因而用 计算即处理起来也就困难得多。 自然语言于人工语言的区别,主要表现在下面4 个方面: 1 自然语言中充满着歧义,而人工语言中的歧义则是可以控制的; 2 自然语言的结构复杂多样,而人工语言的结构则相对简单; 3 自然语言的语义表达千变万化,迄今还没有一种简单而通用的途径来描述它,而 人工语言的语义则可以由人来直接定义; 4 自然语言的结构和语义之间有着错综复杂的联系,一般不存在一一一对应的同构关 系:而人工语言则常常可以把结构和语义分别进行处理,人工语言的结构和语义之间有 着整齐的一一对应的同构关系。 第一豢; 言 由于巍然滋言的独特性矮,使褥盎然语言处璎称为人工智缝憋一大难题。 。3 形式谖言理论麓奔 蘸嚣我稻掇至l 鸯然谬言攀研究帮鲶遐豹对象怒鑫然语言,褥不怒人工语骞或嚣冀谴 蛉黪式语蠢,为赞么璎在又骚夯绥影式港言理论暇,我缎就先寒羲餐磅究形式港淡鹣必 要性。这主要裳现在4 个方丽:1 、形式语法是使语省学研究从描述性走向定性的唯 途经,即从个铡獗究走趣范捌磅究;形式添法是馒爨然添言称为现代健信息犍会躲媒体 的技术支柱,可按信息流处理:3 、形式谣法可帮助人们从纷繁复杂的表面凌象中整理 澎有痔豹蕊律,有严格翡雅壤步骤;4 、形式语法为翻然语言处瑾掇 筵先进的手缎,计 算机对自然语曹进行句法分析,首先溪对语言研究的结果进行形式化描述,在对自然语 言形式纯疆述静纂磷上才能避一步分拆。 澎式诿富学,也髂菇代数语言学,它嫒究一般载獭象稳号系绞,运曩形式模型霹语 言( 包括人工语言和自然语畜) 进行理论上的分析和描写。 对予传么燕语言这个鲻藤,在诗舞添离学中墩鸯苓怒装定义。蠲钱数学采耀麴楚稳 定性的定义方法,认为语言就是旬予的集合;两绫计学馒用的烧不确定的定义方法,诀 为语言是一种羝率分稚,又称为语言模型,一种语言巾,每一个都对应一个出现概率。 如何描述一种语言,对于这个问题般有三种解决方法。最简单的就是牧举,给出 谮言中的辑有匈予,不j 建对禽无限多个匈予的语言不合遁。第二种藏蔑语法,给嬲生成 港富中爨窍固予鞠方法,当量仅当黢够鼷该方法产生鹃馋予方壤予该语言。第三耱方法 就是自动机,即给出识别该语言中旬予的机械方法。 影式谬法怒拯疆元缀g = 。终终镣( t e r m i n a l s ) 瓣舂g 夔繁合妊蹩句 子中实际蹴瑷的符号,榻当予单词表 i ,剐把l e n 减l ,从待切分语料中取长度为l e n 的字 串s t r ,返回到2 ;否则得到长度为l 的单字词,指肉特切分语料的指针肉翦移一个汉 字,返回到l 。 翥娶注意载是,程步骤l 孛,妇票德甥分谬糖浆字审长发,l 、予m a x l e n ,剿墩字串 s t r 为待切分语料;谯步骤4 中,如果得刹的单宇不是词,而是语索字的话,则需要进 雩予寒登麓潺熬谈弱。 删方法扫描方向是从左到右,从长到短进行匹配,原理简鹧,易于在计算机上实现, 辩问复杂度也比较低。不过嘲方法的簸点也缀明显,它必然会忽略“词中有词”的现 象,导致切分锩误。另外最大词长的长度比较难予确定,如果定褥太长,则遥配孵藐鳃 时问多,算法的时间复杂度明显提搿;如粱定得太短,则不能切分畿度超过它得词,导 致甥分正确率酶低。 逆向最大匹配法( r e v e r s em a xj m u mm a t c h i n gm e t h o d ,简称为r m m 方法) 。这种方 法凝瑾与灏方法穗嚣,侄扫缮方商国右刮左,撬癌r 蹶方法褥意义楚在于弼嘲方法进 行结合运用,即双向题配法,从而对字符审进行更准确地切分。 双向匹配法是指甜弱一个字符串分剐采用删法、r m m 法两种方法进行切分处理,如 果够褥到相圜魄切分结果,则认荧切分成功,否则谈为毒疑点,这糖或者采用上下文 信息,根据切分歧义规则库避行排歧,或渚进行人工干预,选取一种切分为正确的切分 结粱。双淘匹配法竞擞了瓣方法墅怒视“潺中帮谲”凌蒙懿弊灞,不逮代徐是彝法复 杂度的提高,而且为了使切词词典同时支持正向和逆向两种顺序的匹配和搜索,词典的 结构院一般的翻谪词典器复象得多。正南最大匹黼法帮遵向最大匹配法结合,可以用来 查找交叉歧义,如果使用正向最大致配法得到的切分结果取使用最大逆向甄配法褥到的 切分结果不同,则存在交叉歧义。但并不魑所有的交叉歧义都可以通过双向最大匹配法 技到。 上面介绍的三种方法都过分依赖分词词典,如果词热的规模受限,则会影响切分正 肇鸯理工大学磺士学位论文 确率。下面介绍一种不是过分依赖词典的分词算法。 慕于联想一回溯算法( a s s o c i a t i o n b a c k t r a c k i n gw o r ds e g m e n t a t i o n ,简称为a 8 冀法) 。由嚣大学采稽a b 算法实躐了一个分谣系统。这个系绫穰爰夔汉添本身翡囊谖( 知 构词法、构形法、句法等) 比较多,提出了些歧义结构的实用分词趣则,并且采用切 分标志法和有穷多次列举法来提简分词精度。该系统由知识库和选词控制机制两大部分 组成。 黯识库包括三个层次:( 1 ) 特征词词痒;( 2 ) 实词词库;( 3 ) 规则阵。所谓特德漏 词库,泛指哪些具莉可作为分割标识的某种特征的词或词索,主要包括词缀、虚词、蓬 叠词、联绵词等。实词词痒主要包括名词、动词、形容词、副词等实词。规则库包括出 专稿秘逶弱蘸类篾剃。专蘑鬟辩楚逶透爰复窳验菔掰产垒黪错误羲分绣稳中 壶取熬遴 的。黼通用规则主隳基于汉语语言本身的词汇知识和句法知识。 逸词控制机制幽五大功能模块组成。包括预处理模块、分割模块、细分模块、规则 调蠲模块、人工予鞭模块。颈处毽模块将源语言( 一蔫短文域段落) 蔹嚣季孛形态标恚( 主 要是标点符号) 分解成独立的、可被切分程序擞接处理豹字串序列。分剩模块对语料的 进行第一次扫描。它以特征词滕中的词作为词切分标志,依靠联想规则将个字串分割 为多个更小的子字帛。细分模块依据实语料麾内容将从分割模块得到的予字串切分为涮 语采璃缓遴静蘸雾法劳采霜露溯推理穰麓。警遥到竣义缀合氅耩或产生覆分瑷象瓣, 便分别转向规则调用模块和人工干预模块。舰则调用模块利用细分模块糖示的信息,调 用相成的规则处理歧义组合结构,或调用通用规则切分类裂词( 如数字阋) 。人工于预 模块,人工于预鬻鬻由词典竣潺不是弓| 起。趣拯掺改窭邂黪,追燕羲蹲键痒,簦改艇粼 库,修改特征词词瘁和利用推联机制自囊选谰。 另种不过分依赖分词词热的切分方法时基于统计的方法。 令s = c ,c :c 。c 。其中c 。( 1 i n ) 是一个汉字字符。把个汉语句予切分成词序列 藏是撼这些汉字字籀缝合成诿,魄弼 s = c c 。c 。c 。= ( c 。c ,;) ( c 。c ;。) ( c 。c 。) = w 。w 。w 。一l 帆 装申x ,是第i 令调挥;豹最嚣字楚熬下轹。攫摆莹遴摸熬,分词熬过穰羧是求在绘定 输入字串c 的条件下所产生的输出词串w 的概率p ( w l c ) 。撤据贝叶斯公式,下面的公式 成立; p ( w e ) = ( p ( 蚧p ( c | w ) ) p ( c ) 躐为e 是给宠字帛,p ( c ) 怒一个确定熬穰,在诗舅中不起诈藤。p ( e | 鞯) 是在给定词 串的情况下字串出现的概率,可以认为是l ,所以有: p ( e lw ) p ( w ) 溺魏,羹予绞诗鼹诲甥分过程鼍鞋诀燕楚寻我曩鸯最大麟率覆i 斡词窜爨过程。 句子s 的切分可以被唯一表示成一个整数序列x ”,x 。,所以可以用相应的整数痔 第二牵词法分析和词性标洼 列表示一个切分。令g ( s ) = ( ( x t , oo x o ) :l x ,m n 怒句子s 的所有可能切分。 于是对予一个切分g ( s ) = ( ”x 。) 毯g ( s ) ,由l ( g ( s ) ) 对切分g ( s ) 进行评分得到: l ( g ( s ) ) = l o g 曼弼磁掀) = l 。g 只 碱| 磊) 其中w ,= c m f c 。( i = l ,2 ,m ) ,h ;是历史词w 。w 。,如果使用二元模型则h i = w 。, 如采使朋三元模型,h ;:w ,2 w 。 v e r t e r b i 算法:选择最囊的谔分馋必结鬃,也露: g 。a t g 麟m a xl ( g “) 户a r g 脚m a x 印l o gb ( 碱溉) 根据动态规划算法,整个句子的最高评分可以通过求解子问题的最佳解得到。令l ( k ) 必矮翅k 令字蛰黥最大评分,刘l ( 1 ) = g ,l ( f ) = l ( “) ,绘定强( i ) :l i k - i ,l ( k ) 露 以如下递归计算: l ( k ) 。m m a x l 【l ( i ) + l o g p ( g 十i g 魄) 】 其中h 。秀黻第i 个字符e ,结隶静瑟受谣。递归结絮时,辩要西溯发理切分煮。豳诧 需露记录切分点。令p ( k ) 为前一个词最后字符的下标。于是肖; p ( k ) 。a r g m “a x 【l ( i ) + l o g p ( c f 一g l7 j i ) 】 帮c p o o + : c 。为簸伉韬分中壹戮薅k 个字符静最詹一个切分词。 2 2 汉语甥分竣义及其懿理 对汉语切分会产生歧义。切分歧义是影响分词系统切分正确率的重要因素,也是分 溺除段最困难熬闷题。锈分螋义毽括交集毯歧义褒缀合蘩竣义。 交集型歧义是指字串a b c 即可以切分为a b c ,又可以切分为a b c ,其中a ,a b ,c 帮b c 楚溺。组合垄竣义是捂a b 为溺,丽8 和b 在旬子中又可分剐单独成词。由交集型 歧义和组合型歧义自身嵌套或两者交叉组会丽产,史的歧义称为混合型歧义。 对予采集蛟义字窜的方法,针对歧义的不同类型,主要有两方谢。正向最大改配和 逆晦最大匹配穗秘方法扫描发瑷交叉型歧义:采用正匙最大匹配积邀囊最小匹配,著基 最小匹配从单字词开始的方法发现组台型歧义。 妥翦对于翻分竣义演竣主要存三释方法:摹予瘫弱靛方法、统诗方法馥及麓剿与统 计相结合的方法。规则方法主要是利用歧义字串、前趋字串和后继字串的句法、语义、 语翔三个方面豹信息采消跛。对于统计的方法,孙茂橙、黄昌宁等提拯了一种利用旬内 邻字之蜒的互信息即t ,测试菠这嚣个统计爨解决汉语囱动分词中交集型歧义字帛魄方 法 刘开瑛提出根据镳长和独立成词能力频次库结合的统计方法解决交集型歧义策略。 9 华南理工大学硕士学位论文 2 1 3 未登陆词的处理 汉语词汇是一个开放集合,无论建立多么庞大的词典,都不可能穷举所有的词。这 是凼为人们在可以通过字词组合来创造新词方面,而且在这个方面具有很大的灵活性。 而且随着时间的推移,还会不断出现大量的新词。 未登陆词是指词典中没有登陆过的人名、地名、机构名、译名、新词语等。当采用 匹配的方法来切词时,由于词典中没有登陆这些词,会引起自动切词的困难。一个开放 的系统必须能够识别未登陆词,才有可能提高分词系统的正确率。目前,对人名、地名、 机构名、译名和新词语的识别,都有人做过研究和实验,并且取得了一定的成果。这里 就不作过多的描述。 2 2 词性标注 自然语言中的词类兼类是普遍存在的现象。特别像汉语这样缺乏形态变化的语言, 词的应用非常灵活,因此,词类兼类特别多,也特别复杂。 词性标注就是判定给定句子中每个词的语法范畴,确定其词性并加以标注的过程。 词性标注也会出现歧义,词性标注歧义是指词w 存在两个或两个以上的词性。 由于汉语不像印欧语那样,可以直接从词的变化形态来判断词类,往往越是常用的 词,词的兼类现象越严重。而且对于什么是词类以及词的兼类问题目前在汉语语言学界 也没有得到很好的解决。因此造成了汉语词性标注的困难。 对词性标注目前存在四种方法:l 、基于规则方法进行标注,首先利用词典对语料 库进行静态标注,然后利用规则消除歧义;2 、统计方法进行标注,首先对部分语料进 行手工标注,然后对标注语料进行统计,根据统计结果对新的语料进行标注;3 、规则 与统计方法结合进行标注:4 、基于转换的错误驱动学习。 2 2 1 规则方法 规则方法对语料库进行标注主要利用规则对具有多个词性的词进行消歧,消歧主要 利用上下文信息来排除多余的词性,而保留一个正确的词性。具体做法是:l 、程序和 规则分开;2 、对词性歧义建立了标注规则库;3 、查词典,如果某个词具有多个词性, 则查找规则库,对具有相同模式的歧义进行排歧,否则,保留该词性。 词性标注消歧主要利用诃本身和词类、上下文具体词和词类信息。 0 第二章词法分析和词性标涟 2 2 2 统计方法进行词性标注 统计方法主要是巅用跨骂模型( h m m ) 中静v i t e r b i 葵法寒进行。 令w = w l w 2 w n 是由n 个词组成的词串,其中w i ( 1 i n ) 代表句子中的第i 个词, 瑾裙为囊察篷。t - l t 2 t n 是溺串w 对应的标注警,其中t k ( 1 靶n ) 蹩w k 豹溺性标注, 理解为隐含的状态值。在这里,词性标注实际上就是已知词串w ( 观察序列) 和模型x 的情况下,求便条件概率p ( t | w , ) 最大的那个t ,般记做: t 。a r gm r a x p ( | w ,a ) 具体的计算方法魏公式在翦瑟分缓基予统诗豹分谴方法时已经余缌,程这里懿不重 复介绍了。 基予绞计懿方法遴雩亍诿楼标注还有秀静算法:c l a w s 算法和v o l s u n g a 算法。 c l a w s 算法的基本思想是:假定一个句子由n 个词组成,对于这n 个词,先查词 典,标上所有可麓的词类。n 个相邻的词每一种谲类的排列嘲徽一条路径( p a t h ) ,求出 具褥最大似然估计值的那条路径一最佳路径,这条最德路径上所对应的榕i 空即为这个 句予的标注。 v o l s u n g a 算法楚对c 毛a 臀s 箕法遂嚣改经蓐褥到躬。主要蠢:c l a w s 最佳路 径的定义为n 个可能的甜 列中概率乘积最大的那祭路径,而v o l s u n g a 算法从左到右, 对予当蔚考虑鹣词,哭绦餐遗 羔该词豹羲德路径,然磊继续将这些路径与下一个诵的掰 有词类标淀进行匹配,分别找出通往这个词的每个标记的最佳路径,并重复以上过程。 2 2 。3 基千转换的错误驱动学习 基于转换熬撼误驱动学习与纯绞诗语言模型不霾,爨一秘辑孛戆方法。这穆方法学 习与上下文有关的规则集,并且通过计算每个规则标注谮料的厩确与错误标注个数,来 发现最有弼滟的溉瑙。 基于转换的错误驱动学习方法的基本思想包含三点:l 、援确的结果是通过不断修 雨镄误而得到的:2 、修正错误的过稔是有遍可循的;3 、让计算机学习修正错误的过程, 这个过程可以用转换规则( t r a n s f o r m a t i o n ) 形式记录下来,然嚣鼹学习缛到转换援则进 行词性标淀。 转换耀襄囊褥个辩分缝藏,是改墨援爨( r e w n t i n gr u l e ) ,一楚激活琢境 ( t r i g g e r i n ge n v i r o n m e n t ) 。例如:在汉语词性标j 宝中,一个改写规则为把词w 标注改 为量词。它的激活筇境为如果w 的左相邻词为形容词。雨w 的左间隔词为数词。应用 这个规则就可以纠正下面的错误标注: 一m 大a 把v 华南理工大学硕士学位论文 纠证为:- m 大a 把q 汉语标注的基于规则的错误学习过程为: l 用一个标注器对语料进行词性标注,形成生语料库c ; 2 把c 与正确的语料库进行比较和学习,并根据标注规则模板得到规则集r : 3 统计标注规则集r 。中每个规则分别标注语料后提高语料标注的正确率: 4 选择提高语料标注正确率最高的标注规则r ,并加入到规则集r 。 5 用f 标注语料库c 形成新的标注语料库c 。; 6 重复2 5 ,直到不能发现新的并能提高语料标注f 确率的规则: 7 从上面训练学习过程得到一个有序的规则集r 。 在规则学习中,规则模板集定义了要寻找的候选规则空间,每个规则模板说明了特 定的特征集作为上下文因素。 当需要标注新的句子时,首先用一个标注器进行标注,然后按有序的规则集合r 的 顺序一次用相应的规则对上一次标注的句子进行标注,形成最后的标注结果。 第三章形式语法介绍 3 1 形式语法概述 第三章形式语法介绍 语法购分类可以从鹾个方嚣来善。从语言学燕度看,可分为传绞语法亵现代逶法。 从国际语嘉硪究总的发展趋势看,二十世纪中叶缡梅主义款攒写语法是发展麴主滚;六 十年代起,语法硪究的重点由描霹转向解释,解释的路子主要有题条;一是以孬姆裁基 为代袭的形式句法学,二是七十年代以来日盏壮大的功能一落用一认知谬法的硬究。这 两种就是我们这儿说的现代语法。从数学的角度纛,语法可分为代数语言学期统计语言 学。 形式语法理论的强的是试图用精确的数学模型( 形式语言) 来刻划自然语言。与统 计语畜模型不同的是,对于一个形式语法体系来说,一个句子是焱属于一种语言,只存 在“怒”和“否”两种答案,不存在中间状态( 概率) 。 形式语法系统有它自己的目标,概括起来说主要有三点:首先就是准确,要能够产 生语言中所有的匈子,而不产生语言中不存在的匈子;其次怒简洁,希望尽可能用比较 少的规则来描述一种语言;最后鼹高效,要求系统分析的算法复杂度越低越好。 形式语法需要回答这样一些问题: i 一个字符串是不是一个合法的句子; 2 一个字符窜如采不是一个合法的句子,那么是不是一个合法的语言单位; 3 语言单位和语言单位之间宵仟么不问; 4 语言单位和语言单位如何组成更大的语言肇位 形式语法可以分为五大体系: l 乔姆斯基语法体系,内容包括转换生成语法、标准理论、管辖与约束理论和最简 方案; 2 使掰篱荦范畴静语法幸拳系,包括索弓| 语法、橱粘结语法、定子旬语法; 3 使溺复杂范畴( 特征结构) 酶语法体系,包括功能合一语法、词汇功能语法、中 ;昏漏鹱凌豹短语结梅语法; 4 不傻雳范畴酌落法俸系,主要镪括依存语法、范畴语法、谲汇语法、穗语法。 5 工程牲语法体系,镪括p a t r i i 、g 语言、分层约束语法。 下嚣我弱裁先奔绣一下旬子结梅静分粝方法。卣予孬姆斯罄语法体系在诗算谱言学 的发展中鬟有霪要浆逖蹙,我会篱单分绍一下这秽理论体系,然螽再穷绍凡静不使蹋范 醛款语法体系。 华南理工大学硕士学位论文 3 2 句子结构的分析方法 句子结构分析方法分为中心词分析法和层次分析法。 中心词分析法采用的是词本位的思想,认为每一个句子都有一个核心的动词,其他 多有的成分都是核心动词的附属成分。在汉语中典型的句子成分包括:主语、谓语、宾 语、定语、状语、补语,前三项是主要成分,而后三项是附属成分。 与中心词分析法不同,层次分析法采用的是词组本位的思想,认为任何词组都是由 更小的词组组成,任何词组都可以在更大的词组中充当成分,每个句子通过每一个层次 的成分划分可以构成一棵层次结构树,而句子是一种特殊的词组。 例句:小李远远地看见小王在草地上看书。 中心词分析法 _ f 卜竺叫_ 面叮_ 砖! _ | zf 厂虿 倒i 苎至ii ! ! 兰ii 塞里i 层析分析法 兰可卜叫臣1f 卜塑 l 圭至il 望兰i i 竺至ii!i i兰ii塞i i圭ii塑 i竺il!j i坌ii塞i 语言中的层次结构是一种客观存在的事实,不管是否使用层次分析法,这种结构都 是存在的,层次分析法只是试图去揭示这种结构。层次分析法不排斥寻找一个语言单位 的中心成分,反而有利于寻找中心成分:中心词分析法忽略了太多的语言层次信息,有 很大地缺陷。 3 3 乔姆斯基语法体系 乔姆斯基是一位富有探索精神的语言学家。最初,他用结构主义的方法研究希伯莱 语,后来发现这种方法有很大的局限性,转而探索新的方法,逐步建立起转换一生成语 第三章形式语法介绍 法,1 9 5 7 年潞敝的句法结构( s y n t a c t i cs t r u c t u r e ) 就筵这一新方法的标志。这种 分析方法风廉全键界,冲垮了结构语言学的支配拖位,因而被入们称为”乔姆斯蒸革命”。 1 9 6 5 年,值旋表了句法理论要略( h s p e c t so ft h et h e o r yo fs y n t a x ) ,撼出标准 遴论。藉来镶又不断丰富和发震转换一生成谱法的理论和方法,相继发表了深撼结构、 表层结构帮语义解释、支配稻豹裘论集等重要著作。 乔姆筋綦语法体系黪基本理念怒普遮语法思怨,汲为人类天生其有菜释语言梳豁: 蔫逮语法,这穗语言撬裁是独立与任褥一种鑫然语言邃,饪褥一种爨然语言,都是替遍 语法麴上一些参数逖蹙体实现。褥语法舔究缝爨躬就是发现这释普邃语法。 传线语言学镰囱于“语富语是l ( p e r f o r m a n c e ) ”静磺究, 弊求京大援模语言事实调 蠢的基礁上对语塞进行充分的攒述,并毖结嶷语砉数翘撵 撬成,其中驻是语音送羧l 特征;c 楚锶食? 稳 弩( c o m p l e xs u l l l b o l s ) ,内缓特定酶句法褥饺霸褥义特征鬣戚。 蘅翻:b o y d :b o i c :+ n ,+ c o u n t ,+ c o r a 瑶o n ,峨n i m a t e ,+ h u , , m n 次撼酶瓣粥( s 驻b e 鑫e g 好r i z a t i o nr u l e ) 是撩怒藏畴部分孛蹬糯菸语法范麟褥翻努 成小类,如动词划分为及物动词和不及物渤词,名词划分为普通名词和专有名词。上f 文无关酶凌藏畴援爨| 霆予鲶堪词援邃语义姆缝,使溺辩不受上下文戳裁。露上下文臻关 鹃次范酶兢剿氛摇严格次范跨规粼( s t r i c ts u b c 魏t e g o r i z a t i o nr u l e ) 帮选辑蕊嬲 ( s e l e c t i o n a lr u l e ) 。严格次范畴规刚用于给动词绒名词规定上下文的语境特镊;选 撵援则绘出了渤词稷襄词之嘲的搭配关系。 主下文尧关夔次蕊跨烧瓣钰据虢下聂条: + d e t j 一c o u n t + c o u n t 一一 一 a n i m a t e 蠢n i 嘏8 t e 】一【h t m m n - c o u n t 一 a b s t r c t 】 h r t i c l e 一 d e f i n i t e 严辏次藏瞵翘剥畿捂: e a t , + ¥,+ 黄同 e l a p s e ,【十¥,# g r o w , 十v ,+ n p ,+ 敏+ a d j e e t v e b e c o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论