第三章自然语言的处理_第1页
第三章自然语言的处理_第2页
第三章自然语言的处理_第3页
第三章自然语言的处理_第4页
第三章自然语言的处理_第5页
已阅读5页,还剩148页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章自然语言的处理第一页,共一百五十三页,编辑于2023年,星期一3.1基本概念第二页,共一百五十三页,编辑于2023年,星期一信息的主要载体-语言语言的两种形式-文字和声音

文字和声音作为语言的两个不同形式的载体,所承载的信息占整个信息组成的90%以上。如何让计算机实现人们希望实现的语言处理功能?

如何让计算机真正实现海量的语言信息的自动处理和有效利用?第三页,共一百五十三页,编辑于2023年,星期一自然语言处理(NaturalLanguageProcessing,简称NLP)是利用计算机为工具,对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。

——冯志伟《自然语言的计算机处理》NLP是用计算机通过可计算的方法对自然语言的各级语言单位(字、词、语句、篇章等)进行转换、传输、存储、分析等加工处理的理论和方法。

第四页,共一百五十三页,编辑于2023年,星期一其它名称

自然语言理解(NaturalLanguageUnderstanding)

计算语言学(ComputationalLinguistics)现代语言学的一大分支,它是用计算机理解、生成和处理自然语言,即它的研究范围不仅涵盖语言信息的处理,还包括语言的理解和生成。第五页,共一百五十三页,编辑于2023年,星期一研究语言的目的研究语言的目的为语言构造出足够精细的计算模型,以便能够写出由计算机程序来完成的涉及自然语言的各种任务。计算模型的用途作为科学研究的目的-可以探索语言交流的本质;作为实用的目的-能够实现有效的人机通信。终极目标能够给出一些模型,这些模型在完成阅读、写作、听、说等任务时能够接近人的行为。第六页,共一百五十三页,编辑于2023年,星期一

不关注与所使用的特定媒介相关的问题,例如手写输入、键盘输入或语音输入的问题。

关注在词语识别完成后理解和使用语言的过程。

第七页,共一百五十三页,编辑于2023年,星期一NLP的历史20世纪50年代起步提出机器翻译等重要问题50年代-60年代采用模式匹配法和文法分析方法对基于理解和基于统计方法的讨论60年代后期衰落70-80年代采用了面向受限域的深入理解方法80年代后期至今统计方法占据主流大规模语料可用,计算机性能大幅提高互联网的迅速发展为NLP提供了实验数据来源和新的应用场景第八页,共一百五十三页,编辑于2023年,星期一3.2自然语言处理技术可以为我们做什么?1、信息检索.hk•微软:106,000,000条(8年前2,060,000条)微软,亚洲研究院:1,060,000条微软,亚洲研究院,研究方向:116,000条微软,亚洲研究院,自然语言处理:38,900条⇒08年7月一万亿个网页,每天数十亿增加⇒获得的信息只有1%被有效利用第九页,共一百五十三页,编辑于2023年,星期一“框”计算

“框计算”是2009年8月18日,百度董事长兼首席执行官李彦宏在2009百度技术创新大会上所提出的全新技术概念。用户只要在“百度框”中输入服务需求,系统就能明确识别这种需求,并将该需求分配给最优的内容资源或应用提供商处理,最终精准高效地返回给用户相匹配的结果。这种高度智能的互联网需求交互模式,以及“最简单可依赖”的信息交互实现机制与过程,称之为“框计算”。第十页,共一百五十三页,编辑于2023年,星期一2、借助于语言信息处理的web智能/第十一页,共一百五十三页,编辑于2023年,星期一第十二页,共一百五十三页,编辑于2023年,星期一微软亚洲研究院——人立方第十三页,共一百五十三页,编辑于2023年,星期一输入“王菲”得到的人物关系图第十四页,共一百五十三页,编辑于2023年,星期一Ex-1:Thespiritiswilling,butthefleshisweak.(心有余,而力不足。)译:精神是愿意的,但骨肉是微弱的。(Systran,现在已经能够正确翻译)Ex-2:3、机器翻译第十五页,共一百五十三页,编辑于2023年,星期一在网络上输入“问句”,自动给出精确地答案。自动问答系统的结构三个模块:提问处理模块(Question-Processing);文献处理模块(Document-Processing);答案的提取和构造模块(AnswerExtractionandFormulation)。——冯志伟4、自动问答系统第十六页,共一百五十三页,编辑于2023年,星期一如“给我找出所有有关在1986年到1990年之间曾经尝试而最终失败且金额超过1亿美元的融资收买的文章。”处理方法:1、对数据库的每篇文章建立一种表示形式2、这种表示形式能用于后续的推理

5、复杂的检索任务第十七页,共一百五十三页,编辑于2023年,星期一输入:美欧贸易摩擦升级识别结果:美欧贸易摩擦生机输入:新技术的发展日新月异识别结果:新纪录的发展日新月异6、语音识别第十八页,共一百五十三页,编辑于2023年,星期一信息过滤,信息安全文摘生成问答系统,人机交互语言教学文字输入,文字编辑与排版语音翻译网络内容管理与知识发现…

第十九页,共一百五十三页,编辑于2023年,星期一1.3关于“理解”的理解

他说:“她这个人真有意思(funny)”。她说:“他这个人怪有意思的(funny)”。于是人们以为他们有了意思(wish),并让他向她意思意思(express)。他火了:“我根本没有那个意思(thought)”!她也生气了:“你们这么说是什么意思(intention)”?事后有人说:“真有意思(funny)”。也有人说:“真没意思(nonsense)”。——《生活报》1994.11.13.第六版第二十页,共一百五十三页,编辑于2023年,星期一人脑对语言的理解是一个复杂的思维过程。自然语言理解技术同多个学科有着千丝万缕的关系。语言学:研究语言本身的结构语言心理学:研究人类生成和理解语言的过程逻辑学:计算机科学人工智能数学与统计学…

…第二十一页,共一百五十三页,编辑于2023年,星期一一种测试机器是不是具备人类智能的方法。图灵测试第二十二页,共一百五十三页,编辑于2023年,星期一1.4自然语言理解研究的基本问题研究的层次——语法学:研究语句的组成结构,包括词和短语

在语句中的作用等。为什么一句话可以这么说也可以那么说?第二十三页,共一百五十三页,编辑于2023年,星期一研究的层次——语义学:研究如何从一个语句中推导词的意义,以及这些词在该语句中句法结构中的作用来推导出该语句的意义。这句话说了什么?(1)今天中午我吃食堂。(2)这个人真牛。(3)这个人眼下没些什么,那个人嘴不太好。第二十四页,共一百五十三页,编辑于2023年,星期一研究的层次——语用学:研究在不同上下文中的语句的应用,以及上下文对语句理解所产生的影响。为什么要说这句话?(1)火,火!(2)A:看看鱼怎么样了?

B:我刚才翻了一下。第二十五页,共一百五十三页,编辑于2023年,星期一自然语言理解的基本模型第二十六页,共一百五十三页,编辑于2023年,星期一汉语的特点:汉语是大字符集(GBK字符集)的意音文字(图形符号既代表语素,又代表音节的文字系统);汉语词与词之间没有空格,没有形态变化;汉语的同音词较多;字形复杂;汉语的语法研究尚未规范化;汉语的语言学知识的量化与形式化工作滞后。1.5汉语的自然语言理解英语只有26个字母,中文却有44908个汉字(《中华大辞典》)。英语有1500年历史《牛津英语辞典》收词40多万条。汉语长达六千多年历史《中华大辞典》收词六十多万条,比英语多50%。这一特性为汉字的输入和计算机编码造成了极大的困难。西方语言的形态对于计算机来说就是标记;汉语以字为基本单位,词之间没有明显的标记,需要词的切分,而分词本身有一定的错误率,降低了后续处理的实际效果。汉语词本身没有性、数、格、时态变化等形态标志,给语义分析增加了困难。方块汉字由象形文字演化而来,汉字字形的信息量较大,给计算机的内部信息压缩和文字显示制造了困难。汉语句子中词序虽同可能意义迥异;虚词并非非用不可,特别是在口语里,虚词更少,因此虚词只能是解决词与词、句与句关系问题的辅助手段;“意合”包含着许多语言环境、语言背景和语言风格知识以及缺省问题,如何全面把握有关意义的诸项要素,并把它形式化,是最大的难题。第二十七页,共一百五十三页,编辑于2023年,星期一1、交集型切分歧义问题乒乓球/拍卖/完/了乒乓球拍/卖/完/了

美国/会通过对台售武法案美/国会/通过对台售武法案汉语自然语言理解的难点第二十八页,共一百五十三页,编辑于2023年,星期一2、未登录词(新词)问题汉语词典中未列入的词包括:专有名词:中文人名、地名、机构名称、外国译名、时间词重叠词:高高兴兴派生词:一次性用品专业术语:互联网第二十九页,共一百五十三页,编辑于2023年,星期一3、词性岐义问题多词性和多词义是语言的一种普遍现象,汉语这种现象比西方语言严重得多。和

根据《现代汉语词典》,可以有五种读音:he2;he4;hu2;huo2;huo4

六种词性:名词、形容词、连词、动词、介词、量词十六种不同的词义第三十页,共一百五十三页,编辑于2023年,星期一4、否定词和语义上的混乱汉语上的否定词“不”有时并不表示否定。相反,反而会更肯定。如:“可不是”比“可是”更可是。第三十一页,共一百五十三页,编辑于2023年,星期一5、汉语的岐义结构(短语歧义)岐义结构是句子自生固有的,必须在整个语境环境下才可能消歧,自动消歧是很难的。彩色铅笔盒子[彩色][铅笔盒子][彩色铅笔][盒子]他在看病

他在给别人看病

大夫给他看病第三十二页,共一百五十三页,编辑于2023年,星期一6、汉语的词义岐义打乒乓球打电话打毛衣7、语用岐义你真讨厌!第三十三页,共一百五十三页,编辑于2023年,星期一1.6自然语言处理技术自然语言处理的过程第三十四页,共一百五十三页,编辑于2023年,星期一如何描述一种语言?穷举:给出语言中所有的句子;只适合含有有限多个句子的语言。文法:给出可以生成语言中所有句子的方法;当且仅当能够用该方法产生的句子属于该语言。自动机:给出识别该语言中句子的机械方法;可以检验输入句子是否属于该语言。第三十五页,共一百五十三页,编辑于2023年,星期一按技术路线分为:基于语言学规则的语言处理技术基于统计的语言处理技术两者结合

第三十六页,共一百五十三页,编辑于2023年,星期一1、基于语言学规则的语言处理技术通过对语言学知识的形式化、形式化规则的算法化,以及算法实现等步骤将语言学知识转化为计算机可以处理的形式。强调语言学家对语言现象的认识。采用非歧义的规则形式描述或解释歧义行为或歧义特性。理性主义方法第三十七页,共一百五十三页,编辑于2023年,星期一语言学家:撰写“规则库”(包括“词典”)计算机学家:编写算法程序,对“规则库”进行解释和执行。第三十八页,共一百五十三页,编辑于2023年,星期一2、基于统计的语言处理技术从大规模真实语料库中获得各级语言单位上的统计信息,并依据较低级语言单位上的统计信息,用相关的统计推理技术计算较高级语言单位上的统计信息。注重用数学方法—概率论与数理统计。能从代表自然语言规律的大规模真实文本中发现知识,抽取语言现象或统计规律(从大量的语言数据中获得语言的知识结构)。经验主义方法第三十九页,共一百五十三页,编辑于2023年,星期一语言学家:建立“语料库”——经科学取样和加工的大规模电子文本库。存放的是在语言的实际使用中真实出现过的语言材料;

以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源。计算机学家:建立统计模型

利用语料库训练模型参数编写算法解决问题第四十页,共一百五十三页,编辑于2023年,星期一二者区别——研究对象不同基于规则的方法主要研究人的语言知识结构,实际的语言数据只提供了这种内在知识的间接证据。基于统计的方法研究对象就是实际的语言数据。第四十一页,共一百五十三页,编辑于2023年,星期一二者区别——理论基础不同基于规则的方法是基于乔姆斯基的语言理论的。通过语言所必须遵守的一系列原则来描述语言,以此判断一个句子是正确的还是错误的。基于统计的方法基于香农的信息论。将语言事件赋予概率,作为其可信度,由此来判断一个句子是常见的还是罕见的。第四十二页,共一百五十三页,编辑于2023年,星期一二者区别——范围不同基于规则的方法通过对一些特定领域或范围内的语言现象的研究来得到对人的语言能力的认识,而这些语言现象在实际应用中可能并不常见。基于统计的方法偏重于对语料库中人们实际使用的普通语言现象的统计表述。第四十三页,共一百五十三页,编辑于2023年,星期一二者区别——方法不同基于规则的方法:符号处理系统。基于统计的方法偏重于对语料库中人们实际使用的普通语言现象的统计表述。第四十四页,共一百五十三页,编辑于2023年,星期一1.7基于语言学规则的语言处理技术规则举例新词抽取的常规规则:1、If(pos(A)=‘N’AND(pos(B)=‘V’ORpos(B)=‘A’orpos(B)=‘N’ORpos(B)=‘Q’))ThenABisnew

该规则表示:如果由两个词构成的二元组中A为名词,而B为动词或形容词或名词或量词,则将该二元组做标记,认为是新词。2、If(pos(A)=‘V’ANDpos(B)=‘A’)ThenABisnew

例如:减肥,模仿秀第四十五页,共一百五十三页,编辑于2023年,星期一分词结果中含词数最少等价于在有向图中搜索最短路径方法:最小匹配算法分段;逐段统计最短路径(dijkstra算法:用于计算一个节点到其他所有节点的最短路径);得到若干分词结果:发展/中/国家发展/中国/家;统计排歧。最少分词问题第四十六页,共一百五十三页,编辑于2023年,星期一第四十七页,共一百五十三页,编辑于2023年,星期一按处理对象的不同,可分为:1、字处理技术2、词处理技术词是自然语言中最小的有意义的构成单位,是最基本的研究对象。词处理主要包括分词、词性标注、词义消歧。3、语句处理技术4、篇章处理技术第四十八页,共一百五十三页,编辑于2023年,星期一基于规则的句法分析理论和方法Chomsky的形式语言理论上下文无关文法转移生成文法扩充转移网络第四十九页,共一百五十三页,编辑于2023年,星期一1、chomsky的形式语言理论第五十页,共一百五十三页,编辑于2023年,星期一第五十一页,共一百五十三页,编辑于2023年,星期一第五十二页,共一百五十三页,编辑于2023年,星期一第五十三页,共一百五十三页,编辑于2023年,星期一用G表示形式语法,G定义为四元组:G=(Vn,Vt,S,P)(1)Vt:终结符集合。是一个形式语言的基本符号。它们能在一个形式语法的推导规则的输入或输出字符串存在,而且它们不能被分解成更小的单位。一个语法的规则不能改变终结符。下面的语法有两个规则:x→xax→ax在这种语法之中,a是一个终结符,因为没有规则可以把a变成别的符号。不过,有两个规则可以把x变成别的符号,所以x是非终结符。一个形式语法所推导的形式语言必须完全由终结符构成。短语结构语法第五十四页,共一百五十三页,编辑于2023年,星期一(2)Vn:非终结符集合,是可以被取代的符号,不能处于生成过程的终点,即在实际句子中不出现。在上下文无关文法中,每个推导规则的左边只能有一个非终结符而不能有两个以上的非终结符或终结符。(3)S:起始符号。一个语法中必须有一个起始符号,这个起始符号属于非终结符的集合。(4)P:重写规则,也叫做产生式规则集合(产生式的形式是P→a)。第五十五页,共一百五十三页,编辑于2023年,星期一采用短语结构语法对英语子集语法的描述G=(Vn,Vt,S,P)Vn={S,NP,VP,PP,N,V,Prep,Det};Vt={the,girl,letter,pencil,write,witha};S=s;P:S→NPVP..........该规则表示“句子”由“名词短语动词短语”组成NP→DetN...........该规则表示“名词短语”由“冠词名词”组成VP→VPPP...........该规则表示“动词短语”由“动词短语介词短语”组成第五十六页,共一百五十三页,编辑于2023年,星期一VP→VNP............该规则表示“动词短语”由“动词名词短语”组成PP→PrepNP..........该规则表示“介词短语”由“介词名词短语”组成Det→the|a...........该规则表示“冠词”由the或a组成N→girl|letter|pencil............该规则表示“名词”由girl或letter或pencil组成V→write............该规则表示“动词”由write组成Prep→with.........该规则表示“介词”由with组成第五十七页,共一百五十三页,编辑于2023年,星期一在对一个句子分析过程中,如果把分析句子各成分间关系的推导过程用树形图表示出来的话,那么这种图称作句法分析树。对句子“thegirlwritestheletterwithapencil”进行分析的语法树如下:句法分析树语法树中的叶子结点即为分析的句子。第五十八页,共一百五十三页,编辑于2023年,星期一例:已知汉语句子的分词和词性标注结果如下:他/PRON教/V我/PRON学/V日语/N请画出该句子的语法树,并给出上下文无关规则。G=(Vt,Vn,S,P)Vn={S,PRON,V,OBJECT,N}Vt={他,教,我,学,日语}S=SP:S→PRONVOBJECTOBJECT→N|SPRON→他|我V→教|学N→日语PRON—主语OBJECT—宾语第五十九页,共一百五十三页,编辑于2023年,星期一第六十页,共一百五十三页,编辑于2023年,星期一第六十一页,共一百五十三页,编辑于2023年,星期一0型文法(type0grammar)第六十二页,共一百五十三页,编辑于2023年,星期一上下文有关文法(CSG)如果所有产生式都有右边部分长度大于等于左边部分,那么G是上下文有关文法第六十三页,共一百五十三页,编辑于2023年,星期一上下文无关文法(CFG)如果如果所有产生式的左边部分都是单个非终极符号,那么G是上下文无关文法第六十四页,共一百五十三页,编辑于2023年,星期一正则文法(RG)第六十五页,共一百五十三页,编辑于2023年,星期一如果所有产生式的右边部分都是以终极符号开始、含有至多一个非终极符号、如果有非终极符号则出现在最右边,那么G是正则文法。第六十六页,共一百五十三页,编辑于2023年,星期一第六十七页,共一百五十三页,编辑于2023年,星期一请判断以下文法的类型G1: S→CD

Ab→bA

C→aCA Ba→aB

C→bCB

Bb→bB

AD→aD

C→a

BD→bD

D→b

Aa→bDG1是上下文有关文法第六十八页,共一百五十三页,编辑于2023年,星期一请判断以下文法的类型G2:S→aB, A→bAA

S→bA, B→b

A→a, B→bS

A→aS, B→aBBG2是上下文无关文法第六十九页,共一百五十三页,编辑于2023年,星期一请判断以下文法的类型G3:S→0A A→1B

S→1B B→1B

S→0B→1

A→0A B→0

A→0SG3是正则文法第七十页,共一百五十三页,编辑于2023年,星期一自动机第七十一页,共一百五十三页,编辑于2023年,星期一文法、语言和自动机第七十二页,共一百五十三页,编辑于2023年,星期一2、上下文无关文法第七十三页,共一百五十三页,编辑于2023年,星期一第七十四页,共一百五十三页,编辑于2023年,星期一第七十五页,共一百五十三页,编辑于2023年,星期一第七十六页,共一百五十三页,编辑于2023年,星期一第七十七页,共一百五十三页,编辑于2023年,星期一第七十八页,共一百五十三页,编辑于2023年,星期一第七十九页,共一百五十三页,编辑于2023年,星期一第八十页,共一百五十三页,编辑于2023年,星期一第八十一页,共一百五十三页,编辑于2023年,星期一第八十二页,共一百五十三页,编辑于2023年,星期一第八十三页,共一百五十三页,编辑于2023年,星期一第八十四页,共一百五十三页,编辑于2023年,星期一第八十五页,共一百五十三页,编辑于2023年,星期一第八十六页,共一百五十三页,编辑于2023年,星期一第八十七页,共一百五十三页,编辑于2023年,星期一3、转换生成文法第八十八页,共一百五十三页,编辑于2023年,星期一第八十九页,共一百五十三页,编辑于2023年,星期一第九十页,共一百五十三页,编辑于2023年,星期一第九十一页,共一百五十三页,编辑于2023年,星期一第九十二页,共一百五十三页,编辑于2023年,星期一4、扩充转移网络第九十三页,共一百五十三页,编辑于2023年,星期一(1)有限状态转移网络以冠词“The”开头的一类名词短语NP的转移网络,它可以拥有零个或多个形容词;最后以一个名词结尾。组成:一组状态(或称结点)和一组弧组成。例子:输入“theprettypicture”。从起始状态NP开始,只有一条标注着“the”的外射弧。由于输入串中的the能同它匹配,所以“the”从输入串中删除,过程进入图中的状态NP1。此时输入串是“prettypicture”,由于第一个“pretty”的词类是ADJ,同标注ADJ的弧匹配,于是“pretty”从输入串中删除,但沿着ADJ弧转移的结果是再次回到这个NP1状态。此时输入串只剩下“picture”,由于它是一个名词,因此发生了沿N弧前进到结束状态的转移。输入串成为空串,分析成功。第九十四页,共一百五十三页,编辑于2023年,星期一第九十五页,共一百五十三页,编辑于2023年,星期一这个句子的识别还可以在网络中走其它弧,如由状态c输入“swallow”也可以走弧c→d,但接下来输入“flies”时就被拒绝识别了。由此可看出网络识别的过程应找出各种可能的路径,因此算法要采用并行算法或回溯算法。第九十六页,共一百五十三页,编辑于2023年,星期一(1)并行算法。并行算法的关键是在任何一个状态都要选择所有可以到达下一个状态的弧,同时进行试验。(2)回溯算法。回溯算法则是在所有可以通过的弧中选出一条往下走,并保留其他可能性,以便必要时可以回过来选择之。这种方式需要一个堆栈结构。第九十七页,共一百五十三页,编辑于2023年,星期一第九十八页,共一百五十三页,编辑于2023年,星期一(2)递归转移网络(RTN)是对有限转移网络的一种扩展,在RTN中每条弧的标注不仅可以是一个终结符(词或词类),而且可以是一个用来指明另一个网络名字的非终结符。例如,下面是一部上下文无关语法:S→NPVNPPP*NP→TADJ*NPP*PP→PNPX*表示符号X可以出现零次或多次。第九十九页,共一百五十三页,编辑于2023年,星期一第一百页,共一百五十三页,编辑于2023年,星期一(3)扩充转移网络(ATN)第一百零一页,共一百五十三页,编辑于2023年,星期一ATN语法属于一种增强型的上下文无关语法,即用上下文无关文法描述句子文法结构,并同时提供有效的方式将各种理解语句所需要的知识加到分析系统中,以增强分析功能,从而使得应用ATN的句法分析程序具有分析上下文有关语言的能力。ATN主要是对转移网络中的弧附加了过程而得到的。当通过一个弧的时候,附加在该弧上的过程就会被执行。这些过程的主要功能是(I)对文法特征进行赋值;(II)检查数(number)或人称(第一、二或三人称)条件是否满足,并据此允许或不允许转移。第一百零二页,共一百五十三页,编辑于2023年,星期一ATN在三方面对RTN作了扩展和增强:(1)添置了一组寄存器,用来存储分析过程中得到的中间结果和有关信息。例如,“小王研究鲁迅的文章”可能先被分析为NP+VP,但发现后面的词是“发表”,则要回到前面的某个转移点重新分析,选择另一条路。第一百零三页,共一百五十三页,编辑于2023年,星期一(2)每条弧上除了用句法范畴来标注以外,可以附加任意测试,只有当弧上的这种测试成功之后才能用这条弧。第一百零四页,共一百五十三页,编辑于2023年,星期一(3)每条弧上还可以附加某些动作,当通过一条弧时,相应的动作便被依次执行,这些动作主要用来设置或修改寄存器的内容。第一百零五页,共一百五十三页,编辑于2023年,星期一

例:一个简单的名词短语(NP)的扩充转移网络,

网络中弧上的条件和操作如下所示:第一百零六页,共一百五十三页,编辑于2023年,星期一该网络主要是用来检查NP中的数的一致值问题。特征是Number(数),有两个值:singular(单数)和plural(复数),缺省值是(空)。C是弧上的条件,A是弧上的操作,*是当前词,proper是专用名词,det是限定词,PP是介词短语,*.Number是当前词的“数”。该扩充转移网络有一个网络名NP。网络NP可以是其他网络的一个子网络,也可以包含其他网络,如其中的PP就是一个子网络,这就是网络的递归性。第一百零七页,共一百五十三页,编辑于2023年,星期一弧NP-1将当前词的Number放入当前NP的Number中;而弧NP-4则要求当前noun的Number与NP的Number是相同时,或者NP的Number为空时,将noun作为NP的Number,这就要求det的数和noun的数是一致的。因此thisbook,thebook,thebooks,thesebooks都可顺利通过这一网络,但是thisbooks,或thesebook就无法通过。如果当前NP是一个代词(pron.)或者专用名词(proper),那么网络就从NP-5或NP-6通过,这时NP的数就是代词或专用名词的数。PP是一个修饰前面名词的介词短语,一旦到达PP弧就马上转入子网络PP.第一百零八页,共一百五十三页,编辑于2023年,星期一例:一个句子的ATN,主要用来识别主、被动态的句子。S网络中所涉及的功能名和特征维包括:功能名:Subject(主语),Direct-Obj(直接宾语),Main-Verb(谓语动词),Auxs.(助动词),Modifiers(修饰语)。特征维:Voice(语态):Active(主动态),Passive(被动态),缺省值是Active。Type(动词类型):Be,Do,Have,Modal,Non-Aux,缺省值是Non-AuxaForm(动词式):Inf不定式),Present(现在式),Past(过去式),Pres-part(现在分词),Past-part(过去分词),缺省值是Present。第一百零九页,共一百五十三页,编辑于2023年,星期一第一百一十页,共一百五十三页,编辑于2023年,星期一Subject←*即把当前成分放入名为Subject的功能寄存器(当前成分作主语)。是一种添加操作,Auxs.Main-Verb就是将当前的谓语动词添加到Auxs功能寄存器中(原来Auxs中可能已有内容)。在S网络中,当弧S-2遇到第一个动词时,就把它置入Main-Verb,但是在接下来的弧S-3中发现Main-Verb中刚才被置入的是助动词,网络操作就把Main-Verb中的内容添加到Auxs寄存器的尾部。若Auxs为空,添加操作与赋值是相同的,但是当Auxs非空时(有几个助动词),这即是一个添加操作。另外,网络中有一种dummy节点,这是一种空节点,用来表示一种形式上的或者预示的成分,如形式上的主语等。弧S-4和S-7就是对于被动态句子的分析和处理。弧S-4主要是识别被动态的谓语动词,一旦确认是被动态,则将当前的主语作为直接宾语,弧S-7用来处理被动态句子中by所引导的介词短语,该介词的宾语就是实际上的主语。第一百一十一页,共一百五十三页,编辑于2023年,星期一第一百一十二页,共一百五十三页,编辑于2023年,星期一1.8基于统计的语言处理技术统计语言模型:试图捕获自然语言的统计规律以改善各种自然语言应用系统的性能。广泛应用于语音识别、手写体文字识别、机器翻译、键盘输入、信息检索领域。统计语言建模相当于对各种语言单位如字、词、句子或整篇文章进行概率分布的估计。第一百一十三页,共一百五十三页,编辑于2023年,星期一概率第一百一十四页,共一百五十三页,编辑于2023年,星期一最大似然估计第一百一十五页,共一百五十三页,编辑于2023年,星期一现代汉语字频统计结果:

前20个最高频汉字及其频率第一百一十六页,共一百五十三页,编辑于2023年,星期一条件概率第一百一十七页,共一百五十三页,编辑于2023年,星期一例第一百一十八页,共一百五十三页,编辑于2023年,星期一全概率公式第一百一十九页,共一百五十三页,编辑于2023年,星期一贝叶斯定理第一百二十页,共一百五十三页,编辑于2023年,星期一先验概率、后验概率第一百二十一页,共一百五十三页,编辑于2023年,星期一例第一百二十二页,共一百五十三页,编辑于2023年,星期一解第一百二十三页,共一百五十三页,编辑于2023年,星期一定义给定所有可能的句子s,统计语言模型是一个概率分布p(s)。假设一个句子S可以表示为一个序列S=w1w2…wn,语言模型就是要求句子S的概率P(S):

Wi是句中的第i个词,hi={w1,w2,…,wn-1}称为历史。p(我是一个学生)=p(我,是,一,个,学生)=p(我)•p(是|我)•p(一|我,是)•p(个|我,是,一)•p(学生|我,是,一,个)第一百二十四页,共一百五十三页,编辑于2023年,星期一上述概率的计算量太大,解决问题的方法是将所有历史w1w2…wi-1按照某个规则映射到等价类S(w1w2…wi-1),等价类的数目远远小于不同历史的数目,即假定:第一百二十五页,共一百五十三页,编辑于2023年,星期一由于语言模型的训练文本T的规模及其分布存在着一定的局面性和片面性,许多合理的语言搭配现象没有出现在T中。例如:一个词串Wi-N+1…Wi

没有出现在训练文本T中,该词串对应的上下文条件概率p(Wi|Wi-N+1…Wi)=0,从而导致该词串所在的语句S的出现概率p(S)=0。第一百二十六页,共一百五十三页,编辑于2023年,星期一127当前主要语言模型N-gram模型决策树模型指数模型(最大熵模型)整句模型文法模型概率上下文无关文法链文法概率依存文法自适应模型第一百二十七页,共一百五十三页,编辑于2023年,星期一N-gram模型实际应用中,由于严重的数据稀疏和系统处理能力的限制,统计语言建模只能考虑有限长度的历史。数据稀疏问题可能会错误地推导出小概率事件是不重要的。当两个历史的最近的N-1个词(或字)相同时,映射两个历史到同一个等价类,在此情况下的模型称之为N-Gram模型。N-Gram模型被称为一阶马尔科夫链。N的值不能太大,否则计算仍然太大。根据最大似然估计,语言模型的参数:其中,C(w1w2…wi)表示w1w2…wi在训练数据中出现的次数。第一百二十八页,共一百五十三页,编辑于2023年,星期一通过将语言模拟成N-1阶马尔科夫源,N-gram模型减少了参数估计的维数:N的选择要考虑参数估计的稳定性和描述能力的折衷。二元语法(Bigram)和三元语法Trigram是通常的选择。第一百二十九页,共一百五十三页,编辑于2023年,星期一BigramTrigram第一百三十页,共一百五十三页,编辑于2023年,星期一N的选择:可靠性vs.辨别力“我 正在 ________”

讲课?图书馆?听课?学习?借书?……“我 正在图书馆 ________”

学习?借书?……

第一百三十一页,共一百五十三页,编辑于2023年,星期一可靠性vs.辨别力更大的n:对下一个词出现的约束性信息更多,更大的辨别力;更小的n:在训练语料库中出现的次数更多,更可靠的统计结果,更高的可靠性。

第一百三十二页,共一百五十三页,编辑于2023年,星期一构造方法采用语言学家构造的词的语法分类体系,按词性进行词类划分,借助于词性标注技术,构造基于词性的N-POS模型。采用词的自动聚类技术,自动构造基于词的自动聚类的类N-gram模型。第一百三十三页,共一百五十三页,编辑于2023年,星期一基于词类的N-gram模型类模型提出的意义:降低模型参数的规模;数据稀疏问题的一种解决方式。第一百三十四页,共一百五十三页,编辑于2023年,星期一几种模型比较基于词的N-gram模型对近邻语言约束关系的描述能力最强,应用程度最为广泛。一般N小于等于3,难以描述长距离的语言约束关系。N-POS模型的参数空间最小,一般不存在数据稀疏问题,可以构造高元模型,用于描述长距离的语言约束关系。但由于词性数目过少,过于泛化,因此限制了语言模型的描述能力。自动聚类生成的词类数量介于词和词性的数量之间,由此建立的类N-gram模型,既不存在严重的数据稀疏问题,又不存在过于泛化的问题。第一百三十五页,共一百五十三页,编辑于2023年,星期一统计语言模型的参数基于统计的方法基本上使用了隐马尔科夫模型,这样的模型使用了许多参数来参与消除歧义的决策机制,这些参数必须经过适当的语料进行训练来提取。统计模型需要有足够的训练数据来提取参数。第一百三十六页,共一百五十

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论