版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十三章计算语言学第一节计算语言学概述一、什么是计算语言学(一)计算语言学的定义1.现代计算语言学是通过建立形式化的计算模型来分析、理解和处理语言的学科。2.用计算机研究和处理自然语言的一门新兴的边缘学科。3.它通过建立形式化的数学模型来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的全部或者部分语言能力的目的。第一节计算语言学概述(二)计算语言学的应用领域自动分词与词性标注,句法分析,语义分析与消歧,机器翻译与语音翻译,文本分类信息检索与问答系统,智能信息处理(自动文摘与信息提取),口语信息处理与人机对话等等。第一节计算语言学概述(三)各个应用领域的具体含义汉语不同于印欧语言,汉语自动分词就是让计算机系统在汉语文本中的词与词之间自动加上空格或其他边界标记,而分词的主要困难则来自于分词规范、歧义切分和未登录词的识别。词性标注不仅针对汉语,英语也同样需要标注,就是运用计算机自动地给文本中的词标注词类。第一节计算语言学概述句法分析是指对输入的单词序列判断其构成是否合乎给定的语法,分析出合乎语法的句子的句法结构。机器翻译与语音翻译的目标则都是将一种语言转换生成与之意义上相对应的另外一种语言。第一节计算语言学概述二、计算语言学的对象和方法(一)“计算”与“语言”计算语言学从“计算”的角度去看待“语言”的性质,将“语言”作为某种特殊类型的“计算”对象,因此“计算”与“语言”毫无争议地构成了计算语言学的核心研究内容。计算语言学研究方法的哲学视野分为理性主义和经验主义。第一节计算语言学概述(二)基于规则的方法基于规则方法的哲学基础是理性主义方法,基于规则的方法的基本根据是“物理符号系统假设”,这种假设认为人类的智能行为可以使用物理符号系统来模拟,物理符号系统包含一些物理符号的模式,这些模式可以用来构建各种符号表达式以表示符号的结构。基于规则方法的技术主要包括:有限状态转移网络、有限状态转录机、递归转移网络、扩充转移网络、短语结构语法、自底向上剖析、自顶向下剖析、左角分析法、Earley算法、CYK算法、富田算法、复杂特征分析法、合一运算、依存语法、一阶谓词演算、语义网络、框架网络行者等。第一节计算语言学概述(三)基于统计的方法基于统计的方法使用概率或随机的方式来研究语言,建立语言的概率模型。基于统计方法的技术主要包括:隐马尔可夫模型、最大熵模型、n元语法、概率上下文无关语法、噪声信道理论、贝叶斯方法、最小编辑距离算法、Viterbi算法、A*搜索算法、双向搜索算法、加权自动机、支持向量机等。第一节计算语言学概述三、计算语言学的学科性质计算语言学与计算机科学计算语言学与语言学计算语言学与数理语言学计算语言学与自然语言的相互关系第二节计算语言学的兴起和发展一、计算语言学的萌芽期20世纪40年代末到60年代初期,是计算语言学发展的萌芽期。最早对于自然语言的计算机处理,主要是在机器翻译领域。早期的机器翻译系统用词对词的方式进行翻译,忽视了对语言系统的研究,难以付诸实用。20世纪60年代初期,机器翻译领域开始对此进行反思。第二节
计算语言学的兴起和发展在计算语言学的萌芽期,有三项基础性研究奠定了计算语言学的理论基础:1.图灵(A.M.Turing)提出的“算法计算模型”2.乔姆斯基(N.Chomsky)提出的“形式语言理论”3.香农(C.E.Shannon)提出的“概率算法”第二节
计算语言学的兴起和发展二、计算语言学的发展期20世纪60中期到80年代末期,计算语言学在机器翻译、语音翻译系统、语音识别、语言理解等领域的研究取得了较大的进步。计算语言学进入发展时期。多学科相互协作。机器翻译实现实用化。第二节
计算语言学的兴起和发展产生了许多计算语言学理论:1.乔姆斯基的管辖约束理论(GovernmentandBindingTheory),简称GB理论或管约论;2.盖茨达(G.Gazdar)的广义短语结构语法(Generalizedphrasestructuregrammar,GPSG);3.卡兹(J.J.Katz)和弗托(J.A.Fodor)的义素分析法;4.菲尔墨(C.Fillmore)的格语法(CaseGrammar);5.西蒙斯(R.F.Simmons)和斯乐康(J.Slocum)的语义网络。第二节
计算语言学的兴起和发展此外,统计方法在语音识别研究中的运用,逻辑方法在自然语言处理、语义解释中的运用,韩礼德(M.A.K.Halliday)系统语法在自然语言理解中的运用,也都取得了较大的成功。第二节
计算语言学的兴起和发展三、计算语言学的繁荣期20世纪90年代到21世纪初期,语料库方法的引入,不仅给机器翻译带来了革命性的变化,也使计算语言学进入繁荣发展时期。计算语言学繁荣的显著表现:1.开始建立带标记的语料库。2.概率和数据驱动的方法几乎成为了计算语言学的标准方法。3.网络技术的发展催生了网络信息检索和网络信息抽取的巨大需要,数据挖掘技术日趋成熟。第二节
计算语言学的兴起和发展四、当代计算语言学发展的特点在网络时代,运用计算语言学的理论和方法挖掘信息、深度学习,成为各国科学研发机构关注的重要问题。当前计算语言学发展的特点1.理性主义的研究方法受到质疑,经验主义的研究方法开始回归并成为自然语言处理的焦点。“理性主义”(rationalism)是指以乔姆斯基理论为代表的生成语言学的方法第二节
计算语言学的兴起和发展“经验主义”(empiricism)是指以大规模语料库的分析为基础的方法。2.机器学习研究成为趋势。“机器学习”就是让计算机自动地从浩如烟海的知识库中获取知识。机器学习的类型:有指导的学习、无指导的学习和半指导的学习。3.统计数学方法越来越受到重视。大规模语料库和互联网的出现,使知识获取必须使用数学统计方法。基于统计的形式模型,更能客观地反映语言知识。第二节
计算语言学的兴起和发展4.出现了强烈的词汇主义倾向。自然语言处理的重要问题——句法歧义问题的解决,往往和词汇的特性有关,因此,词汇知识库的建设十分重要。美国的WordNet(词网)、FrameNet(框架网络)就是一种词汇知识库。我国也进行了词汇知识库的建设。第三节
计算语言学的基础理论一、语法的形式模型(一)短语结构语法(PhraseStructureGrammar,PSG)短语结构语法是乔姆斯基在美国描写语言学派的“直接成分分析法”和后布龙菲尔德学派的“成分结构语法”基础上提出的。是一种以成分为基础的语法。乔姆斯基认为,自然语言中的句子不仅有词的序列,更具有“短语结构”,根据短语结构规则,可以生成无限的句子。第三节
计算语言学的基础理论短语结构语法用树形图来描述它的形式模型,一棵树就是一个句子的“结构”。例如,“小明学习语言学”的树形图第三节
计算语言学的基础理论(二)广义短语结构语法(GeneralizedPhraseStructureGrammar,GPSG)广义短语结构语法是以上下文无关语法为基础的短语结构语法,始创于20世纪70年代末,主要代表人物是英国语言学家盖茨达(GeraldGazdar)和美国语言学家普卢姆(GeoffreyPullum),两人1985年合著的《广义短语结构语法》系统地阐述了他们的理论思想。第三节
计算语言学的基础理论广义短语结构语法,在语法系统中增加了“特征制约部分”和“语义解释部分”,扩大了短语结构规则的概括范围,把短语结构语法发展为广义短语结构语法,同时保留了短语结构语法原来具有的优点。广义短语结构语法也使用树形图来描述句法结构,但与短语结构语法不同的是,它的句法结构是单一的,一个句子只有一个结构,而且句子之间不可以进行转换。第三节
计算语言学的基础理论(三)依存语法和配价语法1.依存语法(DependencyGrammar)依存语法是法国语言学家特尼耶尔(Tesnière,1893-1954)提出的,T他认为,词是句子的中心,它支配其他成分,动词处于上位结点,其他成分处于下位结点。处于动词结点下的成分有名词词组和副词词组,前者叫做行动元,后者叫做状态元。第三节
计算语言学的基础理论2.配价语法(ValencyGrammar)依存语法中提出了“配价”的概念,德国学者把依存语法引入德国后,将该语法称为“配价语法”。第三节
计算语言学的基础理论(四)格语法(CaseGrammar)格语法是美国语言学家菲尔墨(C.Fillmore)提出的。菲尔墨认为句子存在深层结构,这个深层结构由中心动词和若干名词短语组成,每个名词短语在深层结构中都有“格”,如施事格、受事格、工具格、处所格等,这些格经过转换之后,在句子的表层结构中成为主语、宾语、介词短语等。第三节
计算语言学的基础理论(五)概率语法(ProbabilisticGrammar)所谓概率语法是指,用统计的方法计算上下文无关语法重写规则的使用概率,通过概率来解释语法中的例外现象、判断句法分析的正确性。概率语法主要包括两方面的研究:给上下文无关语法的规则加上概率——“概率上下文无关语法”;考虑中心词对于规则概率的影响——“概率词汇化上下文无关语法”。第三节
计算语言学的基础理论二、词汇的形式模型(一)词汇语法(Lexicon-grammar)词汇语法是是基于词汇主义的形式化的语言理论,它的理论基础和操作原理都来自于结构主义语言学,词汇语法坚持“格式定量,配价恒量,语义低量,词汇覆盖面高量”。(二)词汇语义学研究词位和词位意义之间关系的词汇研究叫做词汇语义学。词位和词位含义之间的关系主要有:同形关系、多义关系、同义关系、上下位关系。第三节
计算语言学的基础理论三、语义的形式模型(一)义素分析法和语义场1.义素分析法“义素”(sememes)是词的理性意义(即义项)的区别特征。一组词的义素分析可以用义素矩阵的方法来表示。义素分析法主要用于机器词典的开发。第三节
计算语言学的基础理论2.语义场若干个意义上紧密相连的词义,通常归属于一个总称之下,就构成了语义场。语义场分为静态的词汇场和动态的联想场,前者指词义的聚合关系,后者指词义的组合关系。第三节
计算语言学的基础理论(二)语义网络(semanticnetwork)语义网络相当于一种知识单位,语义网络用有向图来表示,有向图由三元组(结点1、弧、结点2)连接而成,一个语义网络可以由若干个三元组构成。语义网络内各个概念之间的关系,主要由ISA、PART-OF、IS等谓词来表示。谓词ISA表示“具体-抽象”关系,谓词PART-OF表示“整体-构件”关系,谓词IS表示一个结点是另个一结点的属性。第三节
计算语言学的基础理论四、语用的形式模型(一)修辞结构理论(RhetoricalStructureTheory,RST)修辞结构理论是曼(W.Mann)和汤普森(S.Thompson)于1987年提出的一种文本组织理论。修辞结构理论认为,文中中各个段落之间的组织、段落中各个句子之间的组织,应该具有某种连贯关系即修辞关系,否则无法形成可接受的文本。常见的修辞关系有:详述关系、对比关系、条件关系、目的关系、序列关系、联合关系、环境关系、动机关系和使能关系等。第三节
计算语言学的基础理论(二)言语行为理论言语行为理论是哲学家奥斯汀(J.L.Austin,1911-1960)和塞尔(J.R.Searle,1932-)等人提出的。言语行为理论认为,从行为的角度看,言语就是说话人通过“说事”(sayingsomething)来“做事”(doingsomething)。从说事和做事的角度看,任何句子不外乎三类行为:以言表意行为、以言行事行为和以言取效行为。第四节计算语言学的应用一、文献处理(一)情报检索定义利用计算机从众多的文献资料中找出符合特定需要的文献或情报的过程,叫做情报自动检索,又称信息自动检索或信息检索,目前已经成为科技情报工作现代化的核心内容。信息检索中常常使用到的自然语言处理技术包括去除停止词、取词根、词性标注、词义消歧、句法分析、概念抽取、命名实体识别与指代消解等。第四节计算语言学的应用(一)软件引文空间CiteSpace引文空间软件CiteSpace近年来备受关注,众多领域的学者利用CiteSpace对本专业的文献进行归纳梳理。CiteSpace(引文空间)是由华裔学者陈超美创制的一款文献计量学软件,着眼于分析科学分析中蕴含的潜在知识,是在科学计量学、数据可视化背景下逐渐发展起来的一款引文可视化分析软件。由于是通过可视化的手段来呈现科学知识的结构、规律和分布情况,因此通过此类分析得到的可视化图形也被称为“科学知识图谱”。第四节计算语言学的应用CiteSpace可以呈现四类可视化图谱,第一类是作者、研究机构、国别;第二类是参引文献之间以及被引作者之间的共引关系;第三类是关键词和术语;第四类是研究基金。第四节计算语言学的应用二、机器翻译(一)机器翻译定义利用计算机及软件系统把一种自然语言(称为“源语言”)的文本转换成另外一种自然语言(称为“目标语言”)的文本。机器翻译主要有理性主义方法和经验主义方法,它经历了从最初的直接翻译法,到基于中间语言的翻译方法,直到目前最为流行的基于语料库技术和统计机器学习方法这样的一个技术发展脉络。第四节计算语言学的应用当前被广泛应用的在线机器翻译系统有,谷歌在线翻译,有道词典及有道在线翻译,金山词霸,爱词霸及百度在线翻译,必应词典及必应在线翻译,灵格斯在线翻译系统等等。第四节计算语言学的应用(二)语音翻译语音翻译是利用计算机相应软硬件系统来完成从一种语言的语音到另外一种语言语音的自动翻译转换过程。一个松散连接的单向语音翻译系统由三个主要的技术模块组成,即自动语音识别器,机器翻译引擎和语音合成器。语音识别器用于将源语言语音识别成文字,机器翻译引擎实现源语言语音识别结果到目标语言语句的翻译,语音合成器则将目标语言的文字表达转换成语音输出。近年来我国科大讯飞公司的多款翻译机系列产品已经走进千家万户,目前覆盖近200个国家的语言即时互译,目标就是跨语言沟通无障碍,应用效果及用户体验赢得了用户的认可。第四节计算语言学的应用三、语料库(一)什么是语料库语料库是存放语言材料的数据库,而这些语言材料则代表了某一语言或其变体。在进行语言材料收集建库时,根据不同的研究目标我们重点关注语料库的规模、领域、体裁、时代、语体、语种等相关属性。第四节计算语言学的应用按用途语料库可分为“通用语料库与专用语料库”,按语料分布时间语料库可分为“历时语料库与共时语料库”,按语料是否添加了额外的语言学信息语料库可分为“标注语料库与生语料”,类似的划分标准还有很多。经典的英语语料库:布朗家族语料库,英国国家语料库,当代美国英语语料库,国际英语语料库。典型的汉语语料库:国家语委现代汉语通用平衡语料库,北京大学汉语语料库,北京语言文
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 老干部科2025年底工作总结及2026年工作计划
- 2025至2030医疗美容服务行业供需分析及未来发展预测报告
- 2026上饶市辅警招聘面试题及答案
- 2025至2030商业净水设备运维服务标准化与客户体验升级报告
- 2025至2030中国高端装备制造市场供需状况及投资规划研究报告
- 2025-2030中国微生物学检验和和临床微生物学行业市场发展趋势与前景展望战略研究报告
- 2026年房地产经纪协理练习题库及一套参考答案详解
- 2026年拍卖师题库检测试卷含答案详解【新】
- 2026年国家开放大学电大《知识产权法》期末能力提升B卷题库带答案详解(能力提升)
- 2025-2030中国数字创意产业发展状况与投资趋势预测报告
- 艺术漆销售知识培训
- 村民委员会补选方案模板
- GA/T 1406-2023安防线缆应用技术要求
- FZT 60045-2014 汽车内饰用纺织材料 雾化性能试验方法
- 2023年全国中学生数学奥林匹克暨2023年全国,高中数学联合竞赛试题及答案(A卷)
- 检验科新员工岗前培训
- 第9章 语义分割
- 福建省厦门市地图矢量PPT模板
- 浙江省温州市2023年中考科学真题(附答案)
- 大学英语四级翻译课件
- 2021年公安机关人民警察基本级执法资格考试试卷(含答案)
评论
0/150
提交评论