版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第八章 自然语言处理概述2012年10月15日1概况一点击此处输入相关文本内容点击此处输入相关文本内容整体概述概况三点击此处输入相关文本内容点击此处输入相关文本内容概况二点击此处输入相关文本内容点击此处输入相关文本内容2语言的习得之谜当今的语言学界都承认这样一个基本事实:“任何一位四、五岁的儿童都能无师自通地很好掌握包含数不清语法规则变化的本民族口头语言”(只是对于“儿童为何只用几年时间就能无师自通掌握本民族口头语言”这样一个问题,目前语言学界还有各种不同的说法和争论)。3 古埃及关于语言起源的故事 希腊史学家希罗多图斯的载有一段埃及的故事: 古埃及的一位国王曾为探究人类最初的语言词汇到底是什
2、么而采取出人意料的办法。有一次,一个孩子降生,他就下令让一个牧人把孩子放到荒郊野外,命令他不许和孩子说任何话,还要一边放羊,一边照顾这个孩子,等这个孩子说第一个词时马上来报告。一年多以后,孩子说出第一个词汇bekos。国王立即召集学者研究这个词的出处,后来发现是弗吉里亚语中面包的意思,国王就认为人类最早开始说的词就是面包。一次科学实验 4巴别塔 据圣经创世记第11章记载,是当时人类联合起来兴建,希望能通往天堂的高塔。为了阻止人类的计划,上帝让人类说不同的语言,使人类相互之间不能沟通,计划因此失败,人类自此各散东西。 5内容提纲8.1 自然语言处理概述8.2 自然语言处理的基本技术8.3 自然语
3、言处理技术路线8.4 实例与系统演示68.1自然语言处理概述基本语言学知识自然语言处理概念自然语言理解研究目标研究内容NLP应用发展历史7自然语言的概念什么是自然语言语言是人类交际的工具,是人类思维的载体人造语言:编程语言,包括C+, BASIC等 世界语自然语言:形式:口语、书面语、手语语种:汉语、英语、日语、法语语言学是研究语言规律的科学8网络语言“昨晚,我的JJ带着他的青蛙BF到我家来吃饭。在饭桌上,JJ的BF一个劲儿地对我妈妈PMP,说她年轻的时候一定是个漂亮MM,那酱紫真是好BT,7456” JJ : 姐姐 酱紫:这样子 BF : boy friend青蛙:长相不好的男朋友 PMP:
4、拍马屁MM:妹妹BT:变态7456:气死我了9语言词汇语法词熟语词法句法词素构形法构词法词组构造法造句法语言词汇语法词熟语词法词素句法构形法构词法词组构造法语言词汇语法词熟语词法词素造句法句法构形法构词法词组构造法语言词汇语法词熟语词法词素语言的构成10自然语言处理的层次语音分析:从语音流中区分出一个一个声音单元-音素词法分析:从句子中切分出单词、找出词汇的各个词素,确定单词的词性、词义等。句法分析:对句子和短语的结构进行分析,找出词、短语等的相互关系及在句子中的作用等。语义分析:识别一句话所表达的实际意义。语用分析:研究语言所在的外界环境对语言使用所产生的影响。11语义与语用同一词语在不同的
5、“语境”中具有不同“语义”例如:中国奥运史上十大女杰的精彩“转身” 病毒 计算机领域:计算机病毒医学领域:生物学病毒12自然语言处理的概念自然语言处理( Natural Language Processing,NLP )也称自然语言理解或计算语言学;主要研究如何让机器进行自然语言信息处理,即人类语言活动中,信息成分的发现、提取、存储、加工与传输。NLP是计算机科学、语言学、人工智能与数学等学科的交叉学科和边缘学科。计算语言学是从计算角度处理语言将人们对语言的结构规律的认识用精确的、形式化的、可计算的方式(计算模型)加以表示。13中文信息处理中文信息处理的研究内容是利用计算机对汉语的音、形、义等
6、语言文字信息进行的加工和操作,包括:对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。14自然语言理解的困难自然语言具有多样性(不同语种、不同地域、不同人群)自然语言具有进化性自然语言的模糊性自然语言的歧义性 处理歧义问题是NLP的核心问题。自然语言处理过程就是各种歧义现象的消解过程。1516机器能够理解人的语言吗?很难!什么是理解?结构主义:机器的理解机制与人相同(白盒)问题:人类语言理解机理尚未清楚功能主义:机器的表现与人相同即可(黑盒)图灵测试如果通过自然语言的问答,一个人无法识别和他对话的是人还是机器,那么就应该承认机器具有智能17
7、给计算机输入一段自然语言文本,如果计算机能问答(question-answering)机器能正确地回答输入 文本中的有关问题;文摘生成(summarizing)机器有能力产生输入文本 的摘要;复述(paraphrase)机器用不同的词语和语句复述输入文本;翻译(translation)机器把一种语言(源语言)翻译为 另一种语言(目标语言)理解自然语言的准则18自然语言处理的研究目标 弱人工智能目标:建立一个足够精确的语言数学模型使计算机通过编程来完成自然语言的相关任务。如:听、读、写、说,释义,翻译,回答问题等;强人工智能目标:让用户能通过自然语言与计算机自由对话;19NLP研究内容应用系统数
8、字图书馆、电子商务、电子政务、远程教育、语言学习基础研究分词、词性标注、短语切分、句法分析、语义分析、篇章理解等应用技术研究自动问答、机器翻译、信息检索、文本挖掘、自动校对、信息抽取资源建设语料库资源建设语言学知识库建设语言学家NLP研究者软件企业20NLP 的应用NLP应用前景据统计,日常工作中80%的信息来源于语言,处理文本的需求在不断增长文本是人类知识最大的存储源,并且文本的数量在不停地增长电子邮件、新闻、网页、科技论文、 用户抱怨信NLP典型应用智能搜索引擎、自动问答、信息获取、语义网语音识别,文字识别、输入法机器翻译,自动文摘,跨语言检索文本分类、文本聚类、文本分析(结构、内容、情感
9、)、文本挖掘(主题跟踪:人物跟踪,企业跟踪)、文本过滤212013年973重点支持方向互联网环境中文信息处理与深度计算的基本理论与方法研究互联网规模中文深度计算的理论与模型,包括中文信息表示理论与模型、句子与篇章的结构分析和语义理解等方法;研究言语多通道感知机理,包括多言语识别、翻译、合成与融合、开放式多类型语言知识大规模获取与组织等方法;研究中文信息所承载中国文化元素的获取、传承和呈现等方法;构建大规模中文文本语义体系和语料库,开发相应软件系统原型。22文本校对正确的用法错误的用法正确的用法错误的用法执著 执着其他其它思维 思惟想像想象唯一惟一好像好象唯心惟心侍者恃者 伺者磨炼磨练承事承侍历
10、事练心历事炼心降伏降服做主作主调伏调服 做一位智者作一位智者噩梦恶梦叫做叫作摄受摄授23NLP 应用趋势智能接口功能:把现实世界中的信息送入电子世界主要成果拼音输入、手写输入、语音合成、语音输入,手机输入知识处理功能:对于已进入电子世界中的信息进行加工处理获得知识知识经济的时代已经到来!知识就是力量知识就是财富百度爱问、百度文库、新浪爱问、VC知识库24NLP的历史20世纪50年代起步机器翻译、自动文摘50-60年代采用模式匹配的方法60年代衰落70-80年代采用面向受限域的深入理解的方法90年代至今统计方法占主流随着互联网的发展而复苏互联网为NLP提供了市场需求和试验数据统计语言模型和机器学
11、习方法推动了NLP近来的主要发展:主要集中于海量网络信息的处理258.2 NLP的基本技术词法分析句法分析语义分析26词法分析词法分析目的是从句子中切分出单词,找出词汇的各个词素,从中获得单词的语言学信息并确定单词的词性词性 : 名词、动词、形容词、介词等词的构成 : 动宾, 动补, 偏正, 主谓如: 开学, 生病, 加深, 认清, 原油, 火热, 头痛, 人造自动分词: 汉语处理的难题之一用程序从句子中切分出单词27自动分词主要分词算法: 1.基于词表的分词-最大匹配 即“长词优先”原则,来进行分词2.基于统计的分词 分词的难点歧义字段处理未登入词处理: 人名识别, 地名识别, 译名识别,
12、新词识别28分词歧义例:南京市长江大桥 南京|市长|江大桥 南京市|长江|大桥 例:我们研究所有东西我们-研究所-有-东西(交叉歧义)我们-研究-所有-东西把手放在桌上把-手-放在-桌上(组合歧义)把手-放在-桌上29分词的难点之一:未登录词新词名词:斑竹、大虾、面瓜、菜鸟、美眉、陶吧、911、白骨精动词:打的、埋单、买单、给力形容词:酷、小资、爽命名实体时间、地名、人名、组织机构名商标、公司名、电话号码、电子邮件地址等等合成词,简称,派生词三个代表、十六大牛市、熊市微博30语法分析/句法分析S NP VP V NPPPMiss Smith put two books on this dini
13、ng table.目的 : 分析句子结构, 找出词,短语在句中的相互关系以及各自的作用, 并用层次结构来加以表示31词义消歧机器翻译中最难的问题之一是词义的二义性(歧义性)问题。比如 Bush 一词可以是美国总统的名字,也可以是灌木丛。一个实用的方法是使用互信息。互信息(Mutual Information)是信息论里一种有用的信息度量,它是指两个事件集合之间的相关性首先从大量文本中找出和总统布什一起出现的互信息最大的一些词,比如总统、美国、国会、华盛顿等等,当然,再用同样的方法找出和灌木丛一起出现的互信息最大的词,比如土壤、植物、野生等等。有了这两组词,在翻译 Bush 时,看看上下文中哪类
14、相关的词多就可以了。32理解一段文字所需的NLP基本技术文本预处理:文本格式转换、HTML-TXT 转换、文件合并噪音信息过滤句子切分:把段落切分成一个个句子分词;把句子分成一个个单词词性标注(Part-of-Speech Tagging):名词、动词、形容词等句法分析:句子的句法结构词义消歧(Word Sense Disambiguation)语义关系分析;指代消解(Anaphora Resolution);篇章理解;自动摘要生成;338.2 NLP研究技术路线NLP语言模型NLP两大流派:理性主义和经验主义NLP两大技术路线:统计学习方法与人工规则方法;34计算模型NLP语言模型35理性主
15、义语言学家N. Chomsky 认为人类生成合乎文法的语句的能力是生来具有的,为此他提出一种称为生成句法( Generative Grammar) 的理论;通过一组有限的规则作用于一个有限的词汇上,从而本能地生成无限的可接受的、合乎文法的句子理性主义试图去描写人脑中的语言模型分析模型:基于规则的方法;36人工规则方法处理系统规则语言学语义学认知科学人工智能写规则自然语言输入处理结果37中医古文卷名篇名标注String str = bufReader.readLine(); while (str!= null ) /卷名标注 if (str.startsWith(卷 第) str = #+str
16、;/篇名标注 if (str.startsWith(“篇第) str = *+str;printWriter.println(str); str = bufReader.readLine(); 黄帝内经-素问38规则方法的优点语言学规则是人智慧的结晶,具有很好的描述能力和生成能力;能有效地处理句法分析中的长距离依存关系等困难问题;能够处理句子中长距离的主语和谓语动词之间的一致关系;39规则方法的缺点基于规则方法的语言模型一般比较脆弱、鲁棒性很差语言是极其复杂的现象人类总结的规则不完备、不一致,规则多了相互冲突,难以对抗复杂的语言现象基于规则的方法难以机器自动学习需要语言学家等参与,劳动强度大,
17、成本昂贵。自然语言是不断发展变化的,规则方法应变能力弱;40经验主义行为心理学家B. F. Skinner提出另一种语言理论。这个理论认为人类语言能力的获得来自于学习,语言是通过不断地实践而“约定俗成”的结果。这就是自然语言形成的经验主义解释;经验主义试图去刻画真实世界的语言现象统计模型:基于统计的方法“数据驱动”(Data Driven):从数据中学习(Learning From Data) 的方法;从数据中统计语言规律 41统计学习方法学习系统预测系统概率模型统计学习建立模型自然语言输入自然语言输入预测42基于统计的研究方法设定一个语言模型,推导出参数值最大熵模型(Maximun Entr
18、opy Modeling)隐马尔科夫模型(Hidden Markov Model)支持向量机(SVM)贝叶斯算法(Bayes)条件随机场几大要素数学基础统计算法训练语料43概率统计方法的缺点人的语言运用不是一个随机的过程,是有规律可循,用统计模型作为语言模型并不精确;建立语料库的人工成本;与语料库质量密切相关:数据稀疏问题;数据稀疏:真实世界存在,但在语料库中出现概率很小;44自然语言处理统计学习人工规则语料库语言学统计学习方法与人工规则方法的关系混合模型 = 规则+统计458.4 NLP实例与系统演示46一个简单的英汉机器翻译实例输入英文句子:Miss Smith put two books on this dining table.形态分析(Morphological Analysis)MissSmithput (+ed)twobook+sonthisdining table.47句法分析(Sy
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 深度解析(2026)《GBT 33523.73-2025产品几何技术规范(GPS) 表面结构:区域法 第73部分:实物标准表面缺陷的术语和定义 》
- 深度解析(2026)《GBT 33426-2016胶鞋 有机锡化合物含量试验方法》
- 2026届高三生物二轮复习课件:大单元3 细胞的增殖、分化、衰老和死亡等生命历程 限时练8 大单元三查缺补漏保分练
- 医疗数据安全治理:区块链协同创新
- 医疗数据安全应急演练与预案优化
- 医疗数据安全培训的区块链分布式存储应用
- 医疗数据安全合规审计与风险评估
- 医疗数据安全共享的政策支持体系研究
- 医疗数据安全共享的区块链技术标准体系
- 胆汁反流课件
- 喷绘安装合同范本
- 全反力、摩擦角、自锁现象、辅助角-习题答案
- 【MOOC】英文技术写作-东南大学 中国大学慕课MOOC答案
- 2024届辽宁省抚顺市名校数学九年级第一学期期末达标检测模拟试题含解析
- 2023年广东省佛山市顺德区小升初数学试卷(含答案)
- 富士相机使用说明书
- 区域经济空间结构理论之增长极理论
- 北京工商大学大一高等数学上册期末考试卷及答案
- 《政府公共关系》12课件
- 单为民、血栓与止血常规七项检测课件
- 国家开放大学《市场营销学》章节练习参考答案
评论
0/150
提交评论