版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
期末考试知识点复习第七章自然语言理解1.自1然语言及其理解1.自然语言概述自然语言是音、形、义结合的词汇和语法体系,是人类实现思维活动的物质表现形式。词汇和语法体系是构成自然语言的两大要素,两者缺一不可。词是构成自然语言的最基本单位,语法则是用来支配和控制词以构成有意义的、可理解的语句,进而再由语句按照一定的逻辑构成篇章的规则。词汇分为词和熟语。熟语就是一些词的固定组合,如汉语中的成语。词又由词素构成,词素是构成词的最小的、有意义的单位。例如,在汉语中的“工人”这个词,就是由“工”和“人”这两个词素构成的,“工”有工作和做工的意义,而“人”则包含了有能力工作的自然人的意义。由词素构成词的规则称作构词法如工+人f工人。而构造词形的规则称为构形法,如教师+们f教师们,teacher+sfteachers。构词法和构形法统称为词法。除了词法之外,语法中的另一部分就是句法。句法就是利用词构造语句的规则,它由两部分构成,一部分称作词组构造法,另一部分称作造句法。词组构造法就是将词搭配成词组的规则,如蓝+帽子f蓝帽子。造句法则是将词或词组搭配成语句的规则。2.自然语言理解自然语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括:①回答有关提问。计算机能正确理解人们用自然语言输入的信息,并能正确回答输入信息中的有关问题。②摘要生成。对于输入的文本信息,计算机能够产生相应的摘要。③文本释义。能用不同词语和句型对输入的信息进行复述或解释。④不同语言间的翻译。计算机能把用某一种自然语言表示的信息自动地翻译为另一种自然语言。例如,把英语翻译成汉语,或把汉语翻译成英语,等等。无论计算机具有的什么样的特性,无论程序设计采用什么样的算法,只要具有上述功能之一,它就可以在机器翻译或机助翻译、文本理解、文本生成、自然语言接口等场合得到广泛的应用。3.自然语言理解过程的层次自然语言的分析和理解过程是一个层次化的过程。许多现代语言学家把这一过程分为3个层次:词法分析、句法分析和语义分析。如果接收到的是语音流,那么在上述3个层次之前还应当加入一个语音分析层。虽然这种层次之间并非是完全隔离的,但是这种层次化的划分的确有助于更好地体现自然语言本身的构成。1.2词法分析词法分析的主要目的是找出词汇的各个词素,从中获得语言学信息,如是油ng构成的,英语中词尾中的词素“s”通常表示名词复数,或动词第三人称单数,“ly”是副词的后缀,而“ed”通常是动词的过去式与过去分词等,这些信息对于句法分析都是非常有用的。另一方面,一个词可有许多的派生、变形,如可变化出、s、edkke、sale等。l这些词若全部放入词典将是非常庞大的,而它们的词根只有一个。下面给出英语词法分析的一个基本算法其中是一个变量其初值就是当前词。当然更完整的词法分析还应当包括复合词的切分等,这里就不再进一步讨论了。1.句3法分析句法分析就是要对句子或短语的结构进行分析,以确定构成句子的各个词、短语等之间的相互关系以及各自在句子中的作用等,并将这些关系用层次结构加以表达。在对一个句子进行分析过程中,如果把分析句子各成分间关系的推导过程用树形图表示出来的话,那么,这种图称作句法分析树。也就是说,句法分析的过程就是构造句法树的过程,对每个输入句子通过构造句法树来完成对它的分析。分析自然语言的方法主要有两大类:一类是基于规则的方法,一类是基于统计的方法。基于规则的句法分析理论和方法主要有短语结构语法、乔姆斯基语法、语言串分析法、递归转移网络和扩充转移网络、范畴语法、依存语法和配价语法、管辖和约束理论、词汇功能语法、功能合一语法、蒙太格语法、广义短语结构语法等。其中短语结构语法是各种理论和方法的基础。1.短语结构语法理论与乔姆斯基语法体系短语结构语法和乔姆斯基语法是描写形式语言和自然语言的有力工具。(1短)语结构语法理论一部短语结构语法可以用一个四元组来定义G=(Vt,Vn,P,S)其中,Vt是终结符的集合,终结符是指被定义的哪个语言的词或符号Vr是非终结符的集合,这些符号不能出现在最终生成的句子中,是专门用来描述语法的。Vt和Vn的并(U)构成了符号集V,称为总词汇表,且Vt和Vn不相交,因此有V=VtUVn,VtPVn=0(0表示空集)为如下形式的有穷产生式集afB式中aVVnVP,V表示它前面的字符可以出现任意次为非终结符表Vn的一个元素,称为起始符。(2)约束的短语结构语法——乔姆斯基语法体系短语结构语法具有很强的描述能力,它可用来描述任何一种可递归枚举的语言,而这些语言却可能不是递归的。用短语结构语法所构造的语言,可能不能编写出一个程序,用计算机实现对其进行自动句法分析。为了实现对语言的自动分析,要对短语结构语法进行一些限制或约束,使其所描述的语言是可递归的,这样就可以通过编写程序对这些语言进行自动分析。乔姆斯基语法体系就是一组受限的短语结构语法。乔姆斯基曾定义了4种语法:0型语法、1型语法、2型语法和3型语法。0型语法:是一种无约束的短语结构语法,前面已经作了介绍。1型语法:也称作上下文有关语法,是一种满足下列约束条件的短语结构语法:对于每一条形式为xfy的产生式符号串中所包含的字符个数不少于字符串X中所包含的字符个数而且X?2型语法:也称作上下文无关语法,是一种满足下列约束条件的短语结构语法:对于每一条形式为Afx的产生式,其左侧必须是一个单独的非终结符,而右侧则是任意的符号串,即Ax在这种语法中由于产生式规则的应用不依赖于符号A所处的上下文因此称为上下文无关语法。3型语法:也称作正则语法,分左线性语法和右线性语法两种形式。在左线性语法中,每一条产生式的形式为AfBt或AF而在右线性语法中,每一条产生式的形式为AFB或AF这里A和B都是单独的非终结符£是单独的终结符即ABtt在这4种语法中,型号越高,所受到的约束就越多,其生成语言的能力就越弱,因而生成的语言集就越小,也更易于对其生成的语言进行计算机自动分析。(3句)法分析树在对一个句子进行分析过程中,如果把分析句子各成分间关系的推导过程用树形图表示出来的话,那么,这种图称作句法分析树。在句法分析树中,起始符总是出现在树的根上,终结符则出现在树的叶子上。2.递归转移网络与扩充转移网络递归转移网络是对有限状态转移网络的一种扩展在中每条弧的标注不仅可以是一个终结符词或词类而且可以是一个用来指明另一个网络名字的非终结符。扩充转移网络是由一组网络构成的递归转移网络每个网络都有一个网络名它在以下个方面对进行了
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 九牧绩效发放制度
- 与会人员通过制度
- 2025至2030中国汽车线控底盘技术路线选择与自主品牌配套机会分析报告
- 2025-2030中国电磁继电器市场发展趋势与及策略建议研究研究报告
- 2025至2030中国抗抑郁中成药市场供需状况及投资风险评估报告
- 急症疾病用药护理要点
- 小学语文基础知识课件教学
- 2025-2030中国CTP版材行业融资渠道分析与竞争力对策建议研究报告
- 2026年重庆两江新区民心佳园小学校物业项目经理招聘备考题库及一套答案详解
- 2025-2030中国验光仪行业供需趋势及投资风险研究报告
- 《合理利用网络》(优质课件)
- 中深度镇静红外线全身热疗方法课件
- 第四单元地理信息技术的应用课件 【高效课堂+精研精讲】高中地理鲁教版(2019)必修第一册
- 鲁科版高中化学必修一教案全册
- 管理养老机构 养老机构的服务提供与管理
- 提高隧道初支平整度合格率
- 2022年环保标记试题库(含答案)
- 2023年版测量结果的计量溯源性要求
- 建筑能耗与碳排放研究报告
- GB 29415-2013耐火电缆槽盒
- 中国古代经济试题
评论
0/150
提交评论