《自然语言处理:基于预训练模型的方法》 课件01-绪论_第1页
《自然语言处理:基于预训练模型的方法》 课件01-绪论_第2页
《自然语言处理:基于预训练模型的方法》 课件01-绪论_第3页
《自然语言处理:基于预训练模型的方法》 课件01-绪论_第4页
《自然语言处理:基于预训练模型的方法》 课件01-绪论_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

绪论2HARBININSTITUTEOFTECHNOLOGY什么是自然语言处理?语言是思维的载体,是人类交流思想、表达情感最自然、最方便的工具人类历史上大部分知识是以语言文字形式记载和流传的自然语言指的是人类语言,特指文本符号,而非语音信号自然语言处理(NaturalLanguageProcessing,NLP)用计算机来理解和生成自然语言的各种理论和方法3HARBININSTITUTEOFTECHNOLOGY自然语言处理的代表性应用机器翻译智能助手文本校对舆情分析智能教育知识图谱4HARBININSTITUTEOFTECHNOLOGY自然语言处理属于认知智能任务认知智能是人类和动物的主要区别之一需要更强的抽象和推理能力5HARBININSTITUTEOFTECHNOLOGY自然语言处理的难点与特点语言歧义性抽象性组合性进化性非规范性主观性知识性难迁移性领导:“你这是什么意思?”阿呆:“没什么意思,意思意思。”领导:“你这就不够意思了。”阿呆:“小意思,小意思。”领导:“你这人真有意思。”阿呆:“其实也没有别的意思。”领导:“那我就不好意思了。”阿呆:“是我不好意思。”6HARBININSTITUTEOFTECHNOLOGY“人工智能皇冠上的明珠”自然语言处理成为制约人工智能取得更大突破和更广泛应用的瓶颈MichaelI.Jordan美国双院院士、世界知名机器学习专家“如果给我10亿美金,我会用这10亿美金建造一个NASA级别的自然语言处理研究项目”沈向洋美国工程院院士、微软前全球执行副总裁“下一个十年,懂语言者得天下”“深度学习的下一个大的进展应该是让神经网络真正理解文档的内容”Geoffrey

Hinton图灵奖得主、深度学习之父YannLeCun图灵奖得主、Facebook

AI

负责人“深度学习的下一个前沿课题是自然语言理解”图灵测试7HARBININSTITUTEOFTECHNOLOGY自然语言处理任务层级应用系统(NLP+)教育,医疗,司法,金融,机器人等应用任务信息抽取,情感分析,机器翻译,对话系统等基础任务分词,词性标注,句法分析,语义分析等资源建设语言学知识库建设,语料库资源建设等8HARBININSTITUTEOFTECHNOLOGY归结为四个基本问题结构预测问题文本匹配问题文本分类问题序列到序列问题9HARBININSTITUTEOFTECHNOLOGY自然语言处理研究对象与层次境知名实形式语义推理语用(1)(3)(4)(2)形式:名语义:名+实推理:名+实+知语用:名+实+知+境名:语言符号实:客观事实、主观意见知:知识境:语言所处环境10HARBININSTITUTEOFTECHNOLOGY“层次

x任务”二维表分类解析匹配生成形式文本分类词性标注句法分析搜索机械式文摘语义情感分析命名实体识别语义角色标注问答机器翻译推理隐式情感分析文本蕴含写故事结尾语境反语聊天11HARBININSTITUTEOFTECHNOLOGY语言模型

12HARBININSTITUTEOFTECHNOLOGY中文分词词(Word)最小的能独立使用的音义结合体以汉语为代表的汉藏语系,以阿拉伯语为代表的闪-含语系中不包含明显的词之间的分隔符中文分词是将中文字序列切分成一个个单独的词分词的歧义如:严守一把手机关了严守一/把/手机/关/了严守/一把手/机关/了严守/一把/手机/关/了严守一/

把手/

机关/了……13HARBININSTITUTEOFTECHNOLOGY子词切分(Subword)以英语为代表的印欧语系语言,是否需要进行分词?这些语言词形变化复杂如:computer、computers、computing等仅用空格切分的问题数据稀疏词表过大,降低处理速度子词切分将一个单词切分为若干连续的片段(子词)方法众多,基本原理相似使用尽量长且频次高的子词对单词进行切分14句法分析分析句子的句法成分,如主谓宾定状补等将词序列表示的句子转换成树状结构http://ltp.ai/demo.html

HARBININSTITUTEOFTECHNOLOGY15HARBININSTITUTEOFTECHNOLOGY语义分析词义消歧(WordSenseDisambiguation,WSD)语义角色标注(SemanticRoleLabeling,SRL)也称谓词论元结构(Predicate-ArgumentStructure)语义依存图(SemanticDependencyGraph)16HARBININSTITUTEOFTECHNOLOGY信息抽取信息抽取(InformationExtraction,IE)从非结构化的文本中自动提取结构化信息输入10月28日,AMD宣布斥资350亿美元收购FPGA芯片巨头赛灵思。这两家传了多年绯闻的芯片公司终于走到了一起。17HARBININSTITUTEOFTECHNOLOGY情感分析情感分析(Sentiment

Analysis)个体对外界事物的态度、观点或倾向性,如正面、负面等人自身的情绪(Emotion),如喜怒哀惧等输入这款手机的屏幕很不错,性能也还可以。18HARBININSTITUTEOFTECHNOLOGY问答系统问答系统(QuestionAnswering,QA)用户以自然语言形式描述问题,从异构数据中获得答案根据数据来源的不同,问答系统可以分为4种主要的类型检索式问答系统答案来源于固定的文本语料库或互联网,系统通过查找相关文档并抽取答案完成问答知识库问答系统回答问题所需的知识以数据库等结构化形式存储,问答系统首先将问题解析为结构化的查询语句,通过查询相关知识点,并结合知识推理获取答案常问问题集问答系统通过对历史积累的常问问题集合进行检索,回答用户提出的类似问题阅读理解式问答系统通过抽取给定文档中的文本片段或生成一段答案来回答用户提出的问题19HARBININSTITUTEOFTECHNOLOGY更多任务机器翻译(MachineTranslation,MT)对话系统(DialogueSystem)任务型Task聊天Chat知识问答Knowledge推荐Recommen-dation目的完成任务或动作闲聊知识获取信息推荐领域特定域(垂类)开放域开放域特定域以话轮数评价越少越好话轮越多越好越少越好越少越好应用虚拟个人助理娱乐、情感陪护客服、教育个性化推荐典型系统Siri、Cortana、Google

Assistant、度秘小冰、笨笨Watson、WolframAlpha阿里小蜜20HARBININSTITUTEOFTECHNOLOGY自然语言处理技术发展历史语义在计算机内部是如何表示的?根据表示方法的不同,自然语言处理技术经历了四次范式变迁小规模专家知识1950~1990语料库统计模型1990~2010深度学习模型2010~2017大规模预训练模型2018~至今21HARBININSTITUTEOFTECHNOLOGY基于符号(字符串)表示的专家知识“土豆非常好吃。”的情感倾向性?如果:出现褒义词“好”“喜欢”等那么:结果为褒义如果:出现“不”那么:结果倾向性取反优点符合人类的直觉可解释、可干预性好缺点知识完备性不足需要专家构建和维护不便于计算小规模专家知识1950~1990语料库统计模型1990~2010深度学习模型2010~2017大规模预训练模型2018~至今22HARBININSTITUTEOFTECHNOLOGY基于向量表示的统计模型使用高维、离散、稀疏的向量表示词维度为词表大小,其中只有一位为1,其余为0土豆:[0,0,0,0,0,0,0,0,1,0,0,0,0,…]马铃薯:[0,0,0,0,0,0,0,1,0,0,0,0,0,…]缺点无法处理“多词一义”的现象小规模专家知识1950~1990语料库统计模型1990~2010深度学习模型2010~2017大规模预训练模型2018~至今…非常土豆马铃薯吃好……11011…?土豆非常好吃。语料库特征提取0.10.2-0.10.90.2词嵌入表示的赋值方法通过优化在下游任务上的表现自动学习23HARBININSTITUTEOFTECHNOLOGY基于嵌入表示的深度学习模型词嵌入(Word

Embedding)直接使用一个低维、连续、稠密的向量表示词(Bengio等2003)马铃薯计算机电脑土豆

土豆

非常

。深度学习模型贬义小规模专家知识1950~1990语料库统计模型1990~2010深度学习模型2010~2017大规模预训练模型2018~至今24HARBININSTITUTEOFTECHNOLOGY预训练模型获得更好的表示小规模专家知识1950~1990语料库统计模型1990~2010深度学习模型2010~2017大规模预训练模型2018~至今未标注文本语料库模型训练数据标注模型预训练模型精调Fine-t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论