自然语言处理(微课版)课件 第1、2章 预备知识、深度神经网络_第1页
自然语言处理(微课版)课件 第1、2章 预备知识、深度神经网络_第2页
自然语言处理(微课版)课件 第1、2章 预备知识、深度神经网络_第3页
自然语言处理(微课版)课件 第1、2章 预备知识、深度神经网络_第4页
自然语言处理(微课版)课件 第1、2章 预备知识、深度神经网络_第5页
已阅读5页,还剩117页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

预备知识概率论/信息论/图论/机器学习/自然语言处理2026/6/11自然语言处理1.预备知识概率论/信息论/图论/机器学习/自然语言处理2.深度神经网络线性神经网络/训练/前馈神经网络/CNN/RNN3.语言模型预训练预训练/BERT/GPT/模型优化与压缩4.生成式文本摘要基本架构/长期依赖问题/长文本编码/LSTM/预训练方法5.情感分析注意力机制/图神经网络/预训练情绪分析2026/6/12自然语言处理6.信息抽取命名实体识别/实体链接/关系抽取/事件抽取/小样本任务7.机器阅读理解基本架构/双向注意力/R-Net/阅读验证/回溯阅读模型8.机器翻译基本架构/神经翻译模型/搜索问题/领域适应/翻译预训练9.对话系统基本架构/封闭域系统/开放域系统/ChatGPT2026/6/13第一章:预备知识概率论基本要素、随机变量、分布函数信息论自信息、信息熵、交叉熵、相对熵、互信息图论连通性、遍历算法、最短路径问题机器学习常规方法、基本步骤、拟合状态、评估指标自然语言处理任务、挑战、应用2026/6/141.1概率论基本概念

2026/6/151.1概率论基本概念概率的基本要素事件空间F:事件空间描述了随机试验中所有可能发生的事件的集合。抛一枚硬币,事件空间:{{正面},{反面},{正面,反面},{}}对于掷骰子的例子,事件空间会包括所有由1,2,3,4,5,6中的一个或多个数字组成的集合以及空集元素A∈F的集合(称为事件)是Ω的子集(即每个A⊆Ω是一个实验所有可能结果的集合)2026/6/161.1概率论基本概念

2026/6/171.1概率论基本概念

2026/6/181.1概率论基本概念

2026/6/191.1概率论基本概念概率的基本要素P(A∩B)=P(A)P(B)时(或等价地,P(A|B)=P(A)),两个事件被称为独立事件。与互斥事件的区别:2026/6/1101.1概率论基本概念

2026/6/1111.1概率论基本概念随机变量与分布函数PMF与PDF2026/6/1121.1概率论基本概念

2026/6/1131.1概率论基本概念

2026/6/1141.1概率论基本概念随机变量与分布函数方差:方差是用来衡量随机变量分布偏离其期望值的程度的一种指标方差可以帮助我们理解随机变量的分布形态及其变异程度。在概率论、统计学和金融学等领域被广泛应用2026/6/1151.1概率论基本概念

2026/6/1161.1概率论基本概念

2026/6/1171.2信息论基本概念

2026/6/1181.2信息论基本概念

2026/6/1191.2信息论基本概念

2026/6/1201.2信息论基本概念

2026/6/1211.2信息论基本概念

2026/6/1221.2信息论基本概念

2026/6/1231.2信息论基本概念

2026/6/1241.3图论基本概念图与路径图:一个图由节点集合N和边集合E构成有向图:两个节点间有指向关系无向图:两节点的边仅代表这两个节点存在联系存储方式:邻接矩阵/邻接表2026/6/1251.3图论基本概念图与路径路径:由一些节点构成的序列,序列中任意两个相邻节点间都有一条边相连简单路径:不包含重复节点的路径连通图:任两点间有路相通包含三个连通分量的图:2026/6/1261.3图论基本概念图遍历算法深度优先搜索:一条路径走到底后返回上一步,搜索第二条路径路径为a

b

c

f

d

e

g广度优先搜索:先访问完当前顶点的所有邻接点,然后再访问下一层的所有节点路径为a

b

d

e

f

c

g2026/6/1271.3图论基本概念单起点最短路径Dijkstra算法:首先,求出从起点到最接近起点的节点之间的最短路径,然后求出第二近的,以此类推。2026/6/1281.3图论基本概念单起点最短路径Dijkstra算法:首先,求出从起点到最接近起点的节点之间的最短路径,然后求出第二近的,以此类推。2026/6/1291.3图论基本概念单起点最短路径Dijkstra算法:首先,求出从起点到最接近起点的节点之间的最短路径,然后求出第二近的,以此类推。2026/6/1301.4机器学习基本概念机器学习方法分类监督学习:训练数据集中包含输入和对应的输出,算法通过学习输入与输出之间的映射关系来预测新的输出2026/6/1311.4机器学习基本概念机器学习方法分类无监督学习:训练数据集中只包含输入,算法通过发现数据中的内在结构来进行聚类、降维等任务常用的无监督学习方法:聚类2026/6/1321.4机器学习基本概念机器学习方法分类强化学习:算法通过与环境的交互来学习最优的行动策略,通过奖励和惩罚来调整策略2026/6/1331.4机器学习基本概念机器学习方法分类半监督学习:训练数据集中包含一部分带标签的数据和大量无标签数据2026/6/1341.4机器学习基本概念机器学习方法分类迁移学习:算法通过利用一个领域的知识来帮助解决另一个领域的问题2026/6/1351.4机器学习基本概念机器学习方法分类增强学习:通过向输入数据中添加噪声或进行其他变换来增加数据集的大小和多样性,从而提高算法的鲁棒性和泛化能力几何变换:包括旋转、平移、缩放、剪切等,适用于图像数据。颜色空间变换:如亮度、对比度、饱和度的变化,同样适用于图像数据。时间扭曲:在音频信号处理中,通过轻微的时间拉伸或压缩来模拟速度变化。噪声注入:在输入数据中加入高斯噪声或其他类型噪声,帮助模型学会忽略无关的细节。2026/6/1361.4机器学习基本概念机器学习方法分类具身智能:智能体通过与环境产生交互后,通过自身的学习,产生对于客观世界的理解和改造能力重庆鲁班研究院研发的具身智能机器人,具备自主规划、决策、行动的能力,实现了对复杂场景的快速识别和精准定位2026/6/1371.4机器学习基本概念机器学习方法分类元学习:在多个学习阶段改进学习算法的过程,分为元训练过程和元测试过程,对学习本身现象的认识和理解,而不是学科知识2026/6/1381.4机器学习基本概念

2026/6/1391.4机器学习基本概念机器学习基本步骤模型的训练与优化:模型在训练的过程中需要对模型参数更新,使得模型预测结果能够更接近真实结果模型评估:通常使用不同于训练数据的数据用于评估模型应用:将最终训练好的模型用于实际生产应用中2026/6/1401.4机器学习基本概念欠拟合与过拟合欠拟合:欠拟合指模型无法很好地拟合数据,无法捕捉到数据中的规律,表现为模型的训练误差和测试误差都较高过拟合:过拟合指模型在训练集上表现非常好,但在测试集上表现不佳的现象,原因是模型过于复杂,在训练数据中学到了噪声和随机误差2026/6/1411.4机器学习基本概念模型评估与模型选择模型评估:模型评估是指通过一定的评价指标,对训练好的模型进行性能评估二分类为例,分类指标常通过混淆矩阵进行定义:2026/6/1421.4机器学习基本概念

2026/6/1431.4机器学习基本概念

2026/6/1441.4机器学习基本概念

2026/6/1451.4机器学习基本概念模型评估与模型选择2026/6/1461.4机器学习基本概念模型评估与模型选择2026/6/1471.4机器学习基本概念模型评估与模型选择ROC曲线:以假正率FPR=FP/(TP+FN)为横轴,以真正率TPR=TP/(TP+FN)为纵轴AUC:ROC曲线下的面积2026/6/1481.5自然语言处理基本概念发展历程特征工程(FeatureEngineering):提取出自然语言语料库中的一些特征,利用特定的规则或数学、统计学的模型来对特征进行匹配和利用,进而完成特定的NLP任务贝叶斯Viterbi算法隐马尔可夫模型2026/6/1491.5自然语言处理基本概念发展历程架构工程(ArchitectureEngineering):这类方法不用手动设置特征和规则,节省了大量的人力资源,但仍然需要人工设计合适的神经网路架构来对数据集进行训练CNNRNNSeq2Seq2026/6/1501.5自然语言处理基本概念发展历程目标工程(ObjectiveEngineering):以设计先在大的无监督数据集上进行预训练,学习到一些通用的语法和语义特征,然后利用预训练好的模型在下游任务的特定数据集上进行fine-tuningXLNetBert2026/6/1511.5自然语言处理基本概念发展历程提示工程(PromptEngineering):将下游任务的建模方式重新定义:

通过合适的prompt(提示符、提示词)来实现直接在预训练模型上解决下游任务MaskedLMNextSentencePrediction2026/6/1521.5自然语言处理基本概念面临的挑战抽象性:自然语言是由符号构成的,每个符号对应着现实世界和人们头脑中的复杂概念。例如,“车”这个符号代表各种交通工具,包括汽车、火车等。组合性:虽然每种语言的基本符号单元都是有限的,如26个字母,但有限的符号却可以组合成无限的语义。歧义性:歧义性主要是由于语言的形式和语义之间存在多对多的对应关系导致的。如:“苹果”一词,既可以指水果,也可以指苹果公司。在句子层面,如“曹雪芹写了红楼梦”和“红楼梦的作者是曹雪芹”,虽然形式不同,但语义是相同的2026/6/1531.5自然语言处理基本概念面临的挑战进化性:任何一种“活着”的语言都是在不断发展变化的,即语言具有明显的进化性,也称创造性。新词汇层出不穷,如“新冠”;旧词也会被赋予新的含义,如“杯具”;语法等也会不断变化非规范性:在互联网上,用户产生的内容中经常有一些非规范文本。如音近词(“为什么”→“为森么”,“怎么了”→“肿么了”)、简写、错别字等主观性:自然语言处理问题往往具有一定的主观性。如在分词任务中,“打篮球”是一个词还是两个词呢?2026/6/1541.5自然语言处理基本概念面临的挑战知识性:理解语言通常需要背景知识以及基于这些知识的推理能力。例如,针对句子“张三打了李四,然后他倒了”,问其中的“他”指代的是“张三”还是“李四”?难移植性:由于自然语言处理涉及的任务和领域众多,并且不同任务和领域之间的差异较大,造成了难移植性的问题。2026/6/1551.5自然语言处理基本概念常规任务中文分词:英语中通常按照空格或前后缀,将词或子词作为一个语义单位作为模型输入,但中文句子除了标点符号以外没有显式的分隔符,所以必须先利用分词技术对句子中的词语预测边界,切块后再送入模型2026/6/1561.5自然语言处理基本概念常规任务词性标注:对文本中的词汇实现词性的划分,例如对名词、动词和形容词等,以帮助模型更好的理解上下文中的语义信息,去除不必要的歧义2026/6/1571.5自然语言处理基本概念常规任务命名实体识别:从文本中识别和分类具有特定名称的实体,例如人名、地名、组织机构名、时间、日期、货币、百分比等。2026/6/1581.5自然语言处理基本概念常规任务依存句法分析:分析句子中各个词汇间的语法依存关系,并以树形结构来表示这些关系2026/6/1591.5自然语言处理基本概念常规任务语义分析:与依存语法分析类似,但该方法不仅进行词法和句法等语法水平上的分析,而且还涉及单词、词组、句子、段落所包含的意义2026/6/1601.5自然语言处理基本概念常规任务句子分析:句子分析包括短句分类、简单情感分析与主谓宾分析等,从而便于计算机进一步处理和推理文本的含义2026/6/1611.5自然语言处理基本概念典型应用信息抽取:从非结构化或半结构化的自然语言文本中提取出特定的结构化信息。信息抽取注重自然语言中的实体、实体关系、事件等,在自动问答、情感分析、数据挖掘(文本挖掘)等广泛领域均有应用2026/6/1621.5自然语言处理基本概念典型应用自动摘要:捕获文档最重要部分(如新闻、书籍、文章等)并生成描述性的简短文本。2026/6/1631.5自然语言处理基本概念典型应用文本分类:将一篇文档归于预先给定的一个类别集合中的某一类或某几类。2026/6/1641.5自然语言处理基本概念典型应用情感分析:分析文章(评论)对某个对象(社会热点事件、产品或服务)的态度(正面或负面)。2026/6/165深度神经网络线性神经网络/神经网络训练/前馈神经网络/卷积神经网络/循环神经网络2026/6/166第二章:深度神经网络线性神经网络线性回归/逻辑回归/多类逻辑回归神经网络训练损失函数/优化算法前馈神经网络多层感知机/前向传播/反向传播卷积神经网络(CNN)卷积层/池化层循环神经网络(RNN)2026/6/167概述通过多层的神经元结构处理数据,模仿人类大脑的处理方式通过多个隐藏层连接输入和输出层,每层都包含多个神经元常见的深度神经网络如MLP、CNN、RNN2026/6/1682.1线性神经网络

2026/6/1692.1线性神经网络

2026/6/1702.1线性神经网络线性回归线性:两个变量之间的关系是一次函数关系的——图象是直线非线性:两个变量之间的关系不是一次函数关系的——图象不是直线2026/6/1712.1线性神经网络线性回归使用线性回归需遵循的假设:是一个回归问题要预测的变量y与自变量x的关系是线性的各项误差服从正太分布,均值为0,与x同方差变量x的分布要有变异性多元线性回归中不同特征之间应该相互独立,避免线性相关2026/6/1722.1线性神经网络线性回归最小二乘法:利用最小化误差的平方和以找到数据的最优函数匹配2026/6/1732.1线性神经网络逻辑回归逻辑回归:一个二分类线性模型,又称对数几率回归,模型需要根据输入变量预测类型“0”或“1”,一般描述为y∈{0,1}。2026/6/174逻辑回归训练后的模型是一条直线(p=2),或是平面(p=3),超平面(p>3)2.1线性神经网络

2026/6/1752.1线性神经网络

2026/6/1762.1线性神经网络

2026/6/1772.1线性神经网络

2026/6/1782.1线性神经网络

2026/6/1792.1线性神经网络多类逻辑回归Softmax回归首先利用仿射变换给出样本属于每个类别的得分,再利用Softmax激活函数(又称归一化指数函数),将线性模型的值域从R映射到(0,1),表示输入样本属于某一项的概率2026/6/1802.1线性神经网络

2026/6/1812.1线性神经网络

2026/6/1822.2神经网络训练深度神经网络的两个常见任务分类任务:将输入映射到离散的类别空间如:手写数字识别2026/6/1832.2神经网络训练深度神经网络的两个常见任务回归任务:将输入映射到连续空间如:预测天气温度2026/6/1842.2神经网络训练损失函数损失函数:用来衡量模型输出与真值之间相似度差距的函数2026/6/1852.2神经网络训练

2026/6/1862.2神经网络训练

2026/6/1872.2神经网络训练回归任务损失函数平均绝对误差损失:梯度基本恒定,不会随着预测误差的变化而变化,但避免了梯度爆炸问题2026/6/1882.2神经网络训练

2026/6/1892.2神经网络训练回归任务损失函数平方差损失:梯度随误差的变化而变化,但更容易受到数据中噪音的影响并可能发生梯度爆炸的问题2026/6/1902.2神经网络训练优化算法梯度下降:通过求目标函数的导数来寻找目标函数最小化的方法直观理解:2026/6/1912.2神经网络训练优化算法学习率:学习率决定了在每步参数更新中,模型参数有多大程度(或多快、多大步长)的调整2026/6/1922.2神经网络训练

2026/6/1932.2神经网络训练优化算法批量梯度下降:2026/6/1942.2神经网络训练优化算法随机梯度下降:每次只计算训练集中一个样本的梯度进行参数更新,通过不断的从训练集中随机选择样本迭代得到最优参数优点:加快迭代速度,减小训练时间缺点:与整体数据集的损失值存在偏差,不保证能够优化到最小值2026/6/1952.2神经网络训练优化算法随机梯度下降:2026/6/1962.2神经网络训练优化算法小批量梯度下降:每次参数更新时,从训练集中随机选取N个训练样本进行损失值与梯度的计算2026/6/1972.2神经网络训练优化算法小批量梯度下降:2026/6/1982.3前馈神经网络前馈神经网络每一层的神经元可以接收前一层神经元的信号,并产生信号输出到下一层信号从输入层向输出层单向传播,可用一个有向无环图表示2026/6/1992.3前馈神经网络

2026/6/11002.3前馈神经网络

2026/6/11012.3前馈神经网络

2026/6/11022.3前馈神经网络多层感知机:前向传播2026/6/11032.3前馈神经网络多层感知机:前向传播2026/6/11042.3前馈神经网络多层感知机:前向传播2026/6/11052.3前馈神经网络多层感知机反向传播:从损失函数中反向传递信息,通过神经网络向后传递,以计算每个层次的梯度两个环节:反向传播权重更新2026/6/11062.3前馈神经网络多层感知机:反向传播2026/6/11072.3前馈神经网络多层感

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论