8.4 NLP表示方式电子课件_第1页
8.4 NLP表示方式电子课件_第2页
8.4 NLP表示方式电子课件_第3页
8.4 NLP表示方式电子课件_第4页
8.4 NLP表示方式电子课件_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

8.4NLP表示方式

分布式表示目

录离散式表示

NLP文本表示核心分类离散式表示:轻量化、易实现,但仅基于统计,无深层语义信息,仅适配简单的文本检索类基础场景。分布式表示:以低维稠密向量承载语义,可挖掘词语间关联;动态模型更解决了多义性难题,适配所有主流NLP业务场景。从早期简单的词袋模型,发展到TF-IDF离散统计方法;再进阶至Word2Vec、GloVe等静态分布式表示;最终迈向ELMo、BERT为代表的动态上下文分布式表示,实现了对语义理解能力的质的飞跃。核心差异对比技术演进脉络核心底层价值文本向量表示是情感分析、聊天机器人、语音识别、机器翻译等所有NLP核心业务的前置基础。高质量的向量表示,直接决定了各类AI应用在理解、生成、交互环节的最终效果上限。离散式表示分布式表示全模型词袋模型(BoW):将文本视作无序单词集合,忽略语序与语法,仅以词汇出现频次构建高维稀疏向量。其核心缺陷是完全丢失了语义顺序信息,无法体现词与词之间的关联。静态向量:Word2Vec用CBOW/Skip-gram框架学习上下文语义;GloVe融合全局共现矩阵,语义表征更优;FastText通过字符n-gram建模,能有效处理生词与单词变形,补齐了词汇覆盖的短板。细分技术详解TF-IDF权重模型:结合词频(TF)与逆文档频率(IDF)计算权重,有效弱化“的、了”等通用虚词,突出文档核心关键词。但本质上仍属于离散、稀疏的词汇表示方法。动态向量:ELMo采用双向LSTM结构,生成随上下文变化的差异化词向量;BERT基于Transformer双向预训练,深度捕捉语境信息,从根本上解决了一词多义难题,适配各类复杂NLP任务。离散式表示离散式表示通过统计词语出现频次构建文本特征,常见方法包括词袋模型和TF-IDF。它实现简单、计算速度快,但不能够表达深层语义和语序关系。分布式表示分布式表示上下文理解离散式表示:轻量化、易实现,但仅基于统计,无深层语义信息,仅适配简单的文本检索类基础场景。分布式表示:以低维稠密向量承载语义,可挖掘词语间关联;动态模型更解决了多义性难题,适配所有主流NLP业务场景。文本向量表示是情感分析、聊天机器人、语音识别、机器翻译等所有NLP核心业务的前置基础。高质量的向量表示,直接决定了各类AI应用在理解、生成、交互环节的最终效果上限。技术演进思路词袋模型静态词向量动态上下文向量TFFDIDD

离散统计办Word2VecGloVeFastTextFastText

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论