版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
自然语言处理基础文本的表示1自然语言处理任务2自然语言处理的基本问题3自然语言处理的评价指标4文本的表示1自然语言处理任务2自然语言处理的基本问题3自然语言处理的评价指标44HARBININSTITUTEOFTECHNOLOGY自然语言处理技术发展历史语义在计算机内部是如何表示的?根据表示方法的不同,自然语言处理技术经历了四次范式变迁小规模专家知识1950~1990语料库统计模型1990~2010深度学习模型2010~2017大规模预训练模型2018~至今5HARBININSTITUTEOFTECHNOLOGY基于符号(字符串)表示的专家知识“土豆非常好吃。”的情感倾向性?如果:出现褒义词“好”“喜欢”等那么:结果为褒义如果:出现“不”那么:结果倾向性取反优点符合人类的直觉可解释、可干预性好缺点知识完备性不足需要专家构建和维护不便于计算小规模专家知识1950~1990语料库统计模型1990~2010深度学习模型2010~2017大规模预训练模型2018~至今6HARBININSTITUTEOFTECHNOLOGY基于向量表示的统计模型使用高维、离散、稀疏的向量表示词维度为词表大小,其中只有一位为1,其余为0土豆:[0,0,0,0,0,0,0,0,1,0,0,0,0,…]马铃薯:[0,0,0,0,0,0,0,1,0,0,0,0,0,…]缺点严重的数据稀疏问题无法处理“多词一义”的现象小规模专家知识1950~1990语料库统计模型1990~2010深度学习模型2010~2017大规模预训练模型2018~至今…非常土豆马铃薯吃好……11011…?土豆非常好吃。语料库特征提取0.10.2-0.10.90.27传统解决方案增加额外的特征词性特征:名词、动词、形容词前后缀特征:re-、-tion、-er语义词典WordNet、HowNet等如词的上位信息表示语义类别需要解决一词多义问题收录的词不全且更新慢词聚类特征如Brown
Clustering
(Brown
et
al.,
CL
1992)HARBININSTITUTEOFTECHNOLOGY8词的分布语义假设分布语义假设(Distributionalsemantic
hypothesis)词的含义可由其上下文词的分布进行表示Youshallknowawordbythecompanyitkeeps
--FirthJ.R.1957HARBININSTITUTEOFTECHNOLOGY9词的分布(Distributional)表示分布词向量语义相似度通过计算向量相似度获得仍然存在高维、稀疏、离散的问题shinningbrighttreesdarklookmoon384522712cucumbermoonstarHARBININSTITUTEOFTECHNOLOGY10分布表示的加权降低高频词的权重点互信息(PointwiseMutualInformation,PMI)我喜欢自然语言处理。我爱深度学习。我喜欢机器学习。HARBININSTITUTEOFTECHNOLOGY11分布表示的降维避免稀疏性,反映高阶共现关系奇异值分解(SingularValueDecomposition,SVD)HARBININSTITUTEOFTECHNOLOGY12分布式(Distributed)词表示分布表示的缺点训练速度慢,增加新语料库困难不易扩展到短语、句子表示分布式表示直接使用低维、稠密、连续的向量表示词通过“自监督”的方法直接学习词向量也称词嵌入(Word
Embedding)发展历程(第5章将详细介绍)LSA(Deerwester
etal.,
1990)LDA(Blei
etal.,
2003)NNLM(Bengio
etal.,
2003)HLBL(Minh
and
Hinton,
2009)SENNA(Collobert
etal.,
2011)RNNLM(Mikolov
etal.,
2010)Word2vec(Mikolov
etal.,
2013)GloVe(Pennington
etal.,
2014)HARBININSTITUTEOFTECHNOLOGY文本的表示1自然语言处理任务2自然语言处理的基本问题3自然语言处理的评价指标414HARBININSTITUTEOFTECHNOLOGY语言模型
15HARBININSTITUTEOFTECHNOLOGY中文分词词(Word)最小的能独立使用的音义结合体以汉语为代表的汉藏语系,以阿拉伯语为代表的闪-含语系中不包含明显的词之间的分隔符中文分词是将中文字序列切分成一个个单独的词分词的歧义如:严守一把手机关了严守一/把/手机/关/了严守/一把手/机关/了严守/一把/手机/关/了严守一/
把手/
机关/了……16HARBININSTITUTEOFTECHNOLOGY子词切分(Subword)以英语为代表的印欧语系语言,是否需要进行分词?这些语言词形变化复杂如:computer、computers、computing等仅用空格切分的问题数据稀疏词表过大,降低处理速度子词切分将一个单词切分为若干连续的片段(子词)方法众多,基本原理相似使用尽量长且频次高的子词对单词进行切分17HARBININSTITUTEOFTECHNOLOGY字节对编码字节对编码(BytePairEncoding,BPE)子词词表构造示例18HARBININSTITUTEOFTECHNOLOGY字节对编码BPE子词切分算法将子词词表按照子词的长度由大到小进行排序从前向后遍历子词词表,依次判断一个子词是否为单词的子串如果是则将该单词进行切分,然后继续向后遍历子词词表如果子词词表全部遍历结束,单词中仍然有子串没有被切分,那么这些子串一定为低频串,则使用统一的标记,如'<UNK>'进行替换更多子词切分算法WordPieceUnigramLanguageModel(ULM)SentencePiece/google/sentencepiece
19句法分析分析句子的句法成分,如主谓宾定状补等将词序列表示的句子转换成树状结构http://ltp.ai/demo.html
HARBININSTITUTEOFTECHNOLOGY20HARBININSTITUTEOFTECHNOLOGY语义分析词义消歧(WordSenseDisambiguation,WSD)语义角色标注(SemanticRoleLabeling,SRL)也称谓词论元结构(Predicate-ArgumentStructure)语义依存图(SemanticDependencyGraph)21HARBININSTITUTEOFTECHNOLOGY信息抽取信息抽取(InformationExtraction,IE)从非结构化的文本中自动提取结构化信息输入10月28日,AMD宣布斥资350亿美元收购FPGA芯片巨头赛灵思。这两家传了多年绯闻的芯片公司终于走到了一起。22HARBININSTITUTEOFTECHNOLOGY情感分析情感分析(Sentiment
Analysis)个体对外界事物的态度、观点或倾向性,如正面、负面等人自身的情绪(Emotion),如喜怒哀惧等输入这款手机的屏幕很不错,性能也还可以。23HARBININSTITUTEOFTECHNOLOGY问答系统问答系统(QuestionAnswering,QA)用户以自然语言形式描述问题,从异构数据中获得答案根据数据来源的不同,问答系统可以分为4种主要的类型检索式问答系统答案来源于固定的文本语料库或互联网,系统通过查找相关文档并抽取答案完成问答知识库问答系统回答问题所需的知识以数据库等结构化形式存储,问答系统首先将问题解析为结构化的查询语句,通过查询相关知识点,并结合知识推理获取答案常问问题集问答系统通过对历史积累的常问问题集合进行检索,回答用户提出的类似问题阅读理解式问答系统通过抽取给定文档中的文本片段或生成一段答案来回答用户提出的问题24HARBININSTITUTEOFTECHNOLOGY更多任务机器翻译(MachineTranslation,MT)对话系统(DialogueSystem)任务型Task聊天Chat知识问答Knowledge推荐Recommen-dation目的完成任务或动作闲聊知识获取信息推荐领域特定域(垂类)开放域开放域特定域以话轮数评价越少越好话轮越多越好越少越好越少越好应用虚拟个人助理娱乐、情感陪护客服、教育个性化推荐典型系统Siri、Cortana、Google
Assistant、度秘小冰、笨笨Watson、WolframAlpha阿里小蜜文本的表示1自然语言处理任务2自然语言处理的基本问题3自然语言处理的评价指标426HARBININSTITUTEOFTECHNOLOGY归结为四个基本问题结构预测问题文本匹配问题文本分类问题序列到序列问题27HARBININSTITUTEOFTECHNOLOGY文本分类问题将输入文本映射为所属类别(预定义的封闭集合)最简单最基本的自然语言处理问题应用场景垃圾邮件过滤、情感分类等很多问题可以转化为文本分类问题
我
喜欢
打
篮球词表示文本表示计算(编码器)文本表示分类器输出概率28HARBININSTITUTEOFTECHNOLOGY文本匹配问题判断两段文本之间的匹配关系如复述关系、蕴含关系等解决方案双塔结构两段文本分别通过两个模型映射为向量,然后判断两个向量之间的匹配关系单塔结构将两段文本直接拼接,然后进行匹配关系分类
我
喜欢
打
篮球词表示文本表示计算(编码器)文本表示分类器输出概率
我
喜欢
做
运动文本表示计算(编码器)双塔结构示意图29HARBININSTITUTEOFTECHNOLOGY结构预测问题输出类别之间具有较强的相互关联性自然语言处理的本质问题三种典型的结构预测问题序列标注为输入文本序列中的每个词标注相应的标签如词性标注:他/PN喜欢/VV下/VV象棋/NN序列分割在文本序列中切分出子序列可以转化为序列标注问题图结构生成输入自然语言,输出以图表示的结构JuliaHirschbergandChristopherD.Manning.
AdvancesinNaturalLanguageProcessing.
Science201530HARBININSTITUTEOFTECHNOLOGY结构预测问题:序列标注经典的序列标注模型条件随机场(ConditionalRandomField,CRF)维特比(Viterbi)解码算法
ytyt+1yt-1xtxt+1xt-1CRFSTARTVNPDTimeVNPDfliesVNPDlikeVNPDanVNPDarrow10.70.20.30.11.71.21.31.10.80.20.20.51.91.31.22.515.910.312.211.231HARBININSTITUTEOFTECHNOLOGY结构预测问题:图结构生成基于图的算法计算图中任意两个节点之间连边的分数(类别)根据解码算法生成图(树)结构基于转移的算法将图结构的构建过程转化为状态转移序列如标准弧转移算法转移状态由一个栈和一个队列构成三种转移动作移进(SH)、左弧(RL)和右弧(RR)对旧状态执行一个移动作转换为新状态转移动作的选择本质上也是分类问题…分类面向依存句法分析的标准弧转移算法示例32HARBININSTITUTEOFTECHNOLOGY序列
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 区块链技术在内镜检查数据共享中的行业应用
- 涂料室外施工方案(3篇)
- loft公寓施工方案(3篇)
- 岗亭施工方案网站(3篇)
- 日语游戏活动策划方案(3篇)
- 新年钻石活动策划方案(3篇)
- 消防安全书签设计技巧
- 会阴裂伤护理中的光照疗法
- 2026年中国阻垢剂和分散剂行业市场规模及投资前景预测分析报告
- 2026年中国重组胰蛋白粉末行业市场规模及投资前景预测分析报告
- 双光子显微镜在生物医学中的应用及其进展
- 新冠肺炎疫情背景下抚顺千台春酒业4P营销策略研究
- 220324-员工手册民主程序步骤及相应签字文件
- 鼎川建筑设计二层别墅鼎川别墅图纸
- 数控加工技术(3D版)配套课件第五章数控机床的伺服系统
- TCL液晶电视故障速查表完整
- 新能源汽车电气技术 课件
- LS/T 6113-2015粮油检验粮食中脱氧雪腐镰刀菌烯醇测定胶体金快速定量法
- 2023新教科版六年级下册科学全册教材分析(新版本)
- 人教pep小学六年级英语阅读理解专项习题及答案详细解析
- 附件12r611后视镜从个人版升级到公车说明
评论
0/150
提交评论