应用语言学概论5_自然语言处理_第1页
应用语言学概论5_自然语言处理_第2页
应用语言学概论5_自然语言处理_第3页
应用语言学概论5_自然语言处理_第4页
应用语言学概论5_自然语言处理_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

自然语言处理,定义:使用计算机技术来研究和处理自然语言。一般来说,计算机对自然语言的研究和处理应该经历三个过程:1。将语言学中要研究的问题形式化,这样它们就能以一种严格而有规律的方式以某种数学形式表达出来。这种严格而规则的数学形式被表示为一种算法来形式化计算。3 .根据该算法,在计算机上编写并实现计算机程序。自然语言学是介于语言学、数学和计算机科学之间的边缘学科。自然语言处理原理机器翻译功能的发展阶段和术语数据库的工作原理数学语言学的研究对象统计语言学中用于统计自然语言处理的主要语言理论是什么?美国著名语言学家乔姆斯基创立了转换生成语法,其核心是语言可以从有限的元素和规则中演化出无限的句子。语言分为深层和表层,深层结构从规则到表层结构有规律地生成:“我们需要考虑各种生成句子的装置。它们以各种方式与自然语言的语法和各种人工语言的语法密切相关。我们将把语言直接看作是有限的一组符号中的一组符号串,V被称为语言的词汇.我们将语法视为编程语言的详细描述,将符号串视为程序。”(1)机器翻译系统。自然语言处理系统的研究始于机器翻译系统。1.初始阶段(1940-1960年)1946年,宾夕法尼亚大学的埃克特(p .埃克特)和J.W .莫克利开创了世界上第一台计算机。1949年,洛克菲勒基金会副主席韦弗开创了机器翻译。工作原理:甲语言和乙语言是通过一种“中间语言”实现的,也称为“共同语言”和“中间语言”。机器翻译相当于读码和解码。在实现方面,通过查询字典来实现字对字的机器翻译。在恢复时期(20世纪70年代),美国学者英夫提出了机器翻译的过程:使用编码的结构标记来表达原文句子的结构。将源语言的结构标记转换成目标语言的结构标记;构成目标语言的输出句子。句法分析已经成为机器翻译的中心。恢复期的代表性产品是法国格勒诺布尔医科大学自动翻译中心的机器翻译系统。这时,研究人员也意识到机器翻译必须保持源语言和目标语言之间的语义一致性。因此,语义分析比句法分析更受关注。在繁荣时期(70年代),产品变得实用和商业化。工作原理:1。直译:逐字翻译;句法直译和语义直译。2.转换:在源语言和目标语言之间设置能够表达特定程序语义关系的中间表达式,然后通过中间表达式完成进一步的语法和语义转换。3 .中枢类型:使语言规则普遍化,成为独立于任何特定语言的普遍意义,形成一个“中枢”,承担“中介语”的角色。此时机器翻译都是基于规则的机器翻译。近年来,“基于经验的”机器翻译出现了。所谓基于经验是指基于统计和基于案例。它是在大型语料库的基础上形成的。演示sxd软件和短信软件。一种语言中的任何句子都可能是另一种语言中某些句子的翻译,但是这些句子的可能性是不同的。机器翻译就是找出最有可能的句子,也就是说,计算出所有可能的目标语言的最有可能的翻译。这种观点的理论基础是,人类不通过深入的语言分析进行翻译,而是首先将输入的句子正确地分解成较小单位的短语,然后将这些短语翻译成其他语言的短语,最后用这些较小单位的短语组成完整的句子。在短语翻译中,它是通过“类比”原则来实现的。机器翻译需要做的是在机器中存储一些例子,并建立一种机制来从给定的句子中找到相似的例子。这是基于案例的机器翻译方法。基于案例的机器翻译需要研究的主要问题有:1 .正确的双语自动对齐:很难从案例库中的源语言例句中准确找到对应的目标语言例句并实现对应。2、建立有效的实例匹配检索机制:语言单位不能太小,歧义越小越多。因此,它非常强调存储尽可能多的短语实例。3、根据检索到的实例生成与源语言中的句子相对应的翻译。(2)自然语言理解,人机对话:中国社会科学院语言研究所RJD-80型中文人机对话系统,机器理解中文-实验一:中国社会科学院心理研究所clus系统,中国社会科学院语言研究所TK-84型中文人机对话系统,东北理工大学,建立中文句子和文本理解系统CTUS“”.(3)自动信息检索,包括内容的信息自动检索;1.收集文件和信息;2.文件信息的处理和加工:3。文件信息的整理和存储。检索服务:信息检索系统的评价标准:1。查询效率:召回率;精度比:2,运行效率:机器时间;存储空间;费用,适用范围:1。自动生成摘要;2、自动标引;3、自动提取情报数据的主题词;在我们日常生活中的任何时候,我们都可以接触到信息索引(信息检索)学校来检查结果。银行信用卡存款和取款;电话卡查询:互联网搜索软件:互联网通缉逃犯:电子商务:计算机辅助语言学习;自动语音识别和合成系统:自动字符识别系统;语音统计;语料库语言学;数学语言学,1894年,瑞士语言学家索绪尔指出,“就基本性质而言,语言中数量和数量之间的关系可以用数学公式有规律地表达出来。1933年,美国语言学家布卢姆菲尔德提出了一个著名的论点:“数学只是语言所能达到的最高水平。“数学语言学是一门使用数学方法研究语言现象的语言学科。2.数学语言学是一门运用数学思想和方法研究语言现象的新的语言学科。3.根据所用的不同数学方法,它们通常分为两个分支:统计语言学和代数语言学。统计语言学使用的方法主要是概率论、数理统计和信息论。代数语言学主要使用集合论、数理逻辑和算法理论等离散数学方法。(2)任务和理论基础,任务:数学语言学主要从数学领域获得思考问题的思想和方法,而不是一些特殊的结果。它将数学模型和数学程序应用于语言学研究,采用定量和形式描述的方法,使语言学像数学一样精确,便于计算机操作,从而为计算机模拟人脑和进行人工智能研究铺平了道路。从语言的内部结构和语言的交际活动来看,也就是说,数学语言学的研究首先分为两个部分:语言作为符号系统的数学性质的研究和语言作为交际活动的过程和结果的数学性质的研究。数学语言学的特点,数学语言学从数学领域来讲主要是思考问题的思路和方法,而不是一些特殊的结果,它把数学模型和数学程序应用到语言学的研究中,采用定量和形式描述的方法,使语言学和数学一样精确,以便于计算机的操作,为计算机模拟人脑和人工智能的研究开辟道路。数学语言学的目标是分离一些结构属性数学语言学的理论来源,一是数学理论:如集合论、数理逻辑、离散数学理论,或概率论、数理统计、信息论等。第二是理论语言学的各种原则:如音位、词位和句法的各种理论。3.研究内容:数学语言学主要包括统计语言学、代数语言学和应用数学语言学。1.统计语言学使用概率论和数理统计等数学方法对语言成分进行定量分析和动态描述。目的是建立语言统计模型,解决传统语言学定性和静态研究的不足。统计语言学分为统计语音学、计算语言文体学和年代统计学。统计语音学研究音素音素,计算语言文体学通过统计研究一个人、一个时代和一个国家的言语风格。时间统计学根据时代的变化分析词汇特征和句型。数学语言学分支导论1。统计语言学使用概率论和数理统计等数学方法对语言成分进行定量分析和动态描述。目的是建立语言的统计模型,解决传统语言学定性和静态研究的不足。根据研究对象的不同,统计语言学可以分为许多特定的领域,如统计语音学、计算语言文体学和年代统计学。统计语音学研究音素音素,计算语言文体学通过统计研究一个人、一个时代和一个国家的言语风格。时间统计学根据时代的变化分析词汇特征和句型。统计语言学,也称为计量语言学,主要使用统计程序来处理语言数据,如语言单位出现的频率。研究作者的写作风格,在比较语言学中用数学公式衡量多种语言的关联度,在历史语言学中确定不同时期语言的发展特点,从信息的角度分析语言信息的传递过程等。美国的Ziff将词的频率分布与“最小消耗标准”的基本生物学理论联系起来,并总结出著名的Ziff公式。(所谓的Ziff公式是一个经验公式,它描述了一种语言中单词的序号和频率之间的关系。),采用频率原则分配原则(离散原则)和使用程度原则现代汉语频率词典频率排序:“大纲”,序号6942;频率顺序745,字顺序13;用法9。哨子棒,第7170号;频率顺序745,字顺序13;用法7。倾听,序号118;频率顺序116;字数1415;用法1130。党,第119号;频率顺序117;字数1412;用法829。配送订单:“每个”,序列号209;分发的文章数量123篇;分布类别号4,字数1344,用法931。“门”,序号210;分发的文章数量123篇;分布类别号4,字数863,用法642。2.代数语言学,使用离散数学方法,如集合论、数理逻辑、算法理论、模糊数学、图论和格理论来分析语言理论和描述形式特征。目的是建立语言的代数模型,将语言学的某些方面转化为数学等演绎系统,建立语言模型理论,从而为自然语言的信息处理提供理论基础。语言模型是一个简单、统一、抽象的形式系统。语言的客观事实用语言模型描述后,更适合于电子计算机的自动处理。因此,语言模型的研究对自然语言的信息处理具有重要意义。代数语言学最突出的成就是乔姆斯基的转换生成语法理论。他利用数学中的递归函数理论和自动机理论建立了一个形式演绎系统。他把语言看作是有限规则的无限应用,把语言模型看作某种数学运算过程,即从一组给定的初始元素,按照一定的语法规则,一系列个单词和句子的这些元素是为了解决语言建构的问题,有必要寻找新的方法来深入语言的内部,即语义。就这样,数学语言学进入了第三个发展阶段,算法语言学。算术语言学把语言研究称为建立“表层结构”和“底层结构”之间的关系。它认为语言是由一系列层次组成的,每一个层次本身都有一定的结构形式,每一个层次都有一定的对应关系。对于算法语言学来说,很难在人工语言和自然语言之间画出一条鸿沟,人工语言和自然语言被集成在底层结构的算法描述中。当然,算法语言学的出现决不是对统计语言学的代数语言学的否定。相反,只有在阐明语言的统计和形式规律的基础上,算法语言学才能发展。在算法语言学中,信息和概率、转换和生成、集合论和数理逻辑的概念没有被抛弃,而是更加精确和系统化。只有这样我们才能理解表层和底层之间的关系。20世纪50年代以来,中国逐渐开展了数学语言学的研究。20世纪50年代初,中国著名的数理逻辑专家胡世华先生提出了数理语言学的思想。1959年,刘永全先生发表了中国语文,首次在中国介绍了这一课题。1985年,上海知识出版社出版了冯志伟主编的谈数理语言学,系统阐述了数学语言学的理论知识,包括学科的重要规律和术语。1997年,北京语言大学出版社以英文出版了李放主编的数理语言学,成为当前中国数学语言学研究的缩影。此外,白、张士吾、孙瑞新、盛金标等学者在数学语言学领域也取得了很大成就。1985年,上海知识出版社出版了冯志伟主编的数理语言学,系统阐述了数学语言学的理论知识,包括学科的重要规律和术语。1997年,北京语言大学出版社以英文出版了李放主编的数理语言学,成为当前中国数学语言学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论