自然语言处理 课件全套 第1-11章 绪论、机器学习基础-自然语言处理的挑战与趋势_第1页
自然语言处理 课件全套 第1-11章 绪论、机器学习基础-自然语言处理的挑战与趋势_第2页
自然语言处理 课件全套 第1-11章 绪论、机器学习基础-自然语言处理的挑战与趋势_第3页
自然语言处理 课件全套 第1-11章 绪论、机器学习基础-自然语言处理的挑战与趋势_第4页
自然语言处理 课件全套 第1-11章 绪论、机器学习基础-自然语言处理的挑战与趋势_第5页
已阅读5页,还剩676页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章绪论目录自然语言处理的基本概念自然语言处理的发展历程自然语言处理的核心任务第一章绪论自然语言处理的基本概念自然语言人类在发展中自然形成的交流工具(如汉语、英语)。人类区别于其他动物的重要属性,是社会智能的基础。特点:用有限符号表达无限意义,充满模糊性、多义性和歧义性。人工语言(又称人造语言)为某种目的而专门设计的语言特点:具有精确的语法和语义规则,形式与意义的对应关系非常明确,几乎不存在歧义现象。自然语言处理(NLP)研究人与计算机之间用自然语言进行有效通信的理论和方法的一门学科,是计算机科学领域的重要研究方向之一。目标:让机器以普通人能理解的方式使用语言。第一章绪论自然语言处理的基本概念中文信息处理以中文为主要研究对象,是自然语言处理的一个分支。特点:注重意义上的连贯,靠“意思”串联起来。计算语言学研究如何利用计算的方法解决语言的性质、功能、结构、运用等与语言有关的科学问题。特点:侧重于如何解决语言学中的科学问题,其发展依赖于语言数据与算法模型。语言智能以机器智能为主的自然语言处理技术,是运用计算机信息技术模仿人类语言的智能,分析和处理人类语言的科学。生成式人工智能利用复杂的算法、模型和规则,从大规模数据集中学习以创造新的原创内容的人工智能技术。特点:全面超越了传统软件的数据处理和分析能力,成为人工智能领域最火热的话题。第一章绪论目录自然语言处理的基本概念自然语言处理的发展历程自然语言处理的核心任务第一章绪论自然语言处理的发展历程第一章绪论根据研究方法的演化,分为三个主要阶段:阶段时间跨度主流方法核心思想/特点理性主义50年代-80年代末基于规则依靠人工编写规则(生成语法理论)。可解释性强,但难以处理复杂语言现象。经验主义90年代-2010年左右统计机器学习依靠数据驱动。从人工特征设计转向有监督学习。联结主义2010年至今深度学习采用多层神经网络,将语言表示为稠密向量。目录自然语言处理的基本概念自然语言处理的发展历程自然语言处理的核心任务第一章绪论词法分析词法分析:将输入的句子转换成词序列并标记出各词的词性,是自然语言处理流程中的第一步,为文本的进一步处理提供了基本的语言单位信息,使自然语言处理系统能够更好地理解和处理自然语言文本。词法分析具体包括词的识别和词性标注:词的识别是指将输入的字符串序列转换成一系列词条进行输出,在中文里称为分词,在英文里称为词条化(tokenization)。中文分词任务较为困难:中文的语言特性导致词的界限较为模糊,且存在大量分词歧义。第一章绪论句法分析句法分析:基于一定的句法理论对词法分析结果进行解析,识别出句子所包含的句法成分以及这些成分之间的关系,形成结构化的句法结构信息(如句法树)。句法分析面临的两个难点:(1)自然语言存在着大量句法歧义现象。人类可以依靠大量的先验知识有效地消除歧义,而机器在准确表示和获取语言深层含义方面仍显不足。(2)侯选句法树的个数会随着句子长度的增加呈现指数级别的增长,从而形成庞大的搜索空间,导致搜索效率较低。第一章绪论语义分析语义分析:对一定的语言单位进行意义解析,旨在理解和解释文本或话语的深层含义。语义分析任务:词汇层面:词义消歧,主要针对具有多种意义的词语确定其词义。句子层面:语义角色标注,主要围绕句子中的谓词来分析各成分与其之间的语义关系。篇章层面:指代消解与句间语义关系分析。其中,指代消解将代表同一实体的不同指称划分到一个等价集合;句间语义关系分析是识别相邻句子之间的因果、转折、递进等语义关系。第一章绪论其他核心任务文本分类:将给定的文本划分到预先给定的一个或多个类别标签。文本分类有两种:二分类和多分类,其中多分类可以通过二分类来实现。情感分析:利用自然语言处理和文本挖掘技术,对带有情感色彩的主观性文本进行分析、处理和推理。篇章级情感分析旨在为观点型文档标记整体的情感倾向,是最简单的情感分析任务;句子级情感分析需要标定单句或短文本所表达的情感;方面级情感分析旨在推断句子在某个具体方面的情感倾向,包含方面提取和方面的情感识别。自动问答:基于一定的文档集或知识库自动回答给定问题。自然语言生成:从给定输入信息中,由计算机有意识地构造一段人类可读的自然语言文本的过程。第一章绪论第一章绪论

谢谢!第二章机器学习基础目录1.神经网络与深度学习2.NLP中的深度学习3.神经网络基础知识4.多层感知机模型第二章机器学习基础神经网络与深度学习01神经网络与深度学习自然语言处理的难点1:离散性:语言是符号化和离散化的。符号与含义是不相关的。英语中,离散字符与对应词义间没有直接关系。

Pizza

Petrichor?第二章机器学习基础神经网络与深度学习自然语言处理的难点2:组合性:字母

单词

短语

句子

段落

篇章。为了理解文本的意思,我们需要超越字母和单词,结合其上下文进行分析。典型例子:一词多义第二章机器学习基础神经网络与深度学习自然语言处理的难点3:稀疏性:由离散性和组合性导致语言表达的集合是开放集。典型的问题示例:未登录词第二章机器学习基础神经网络与深度学习离散性——表示学习组合性——(上下文)分布式表示稀疏性——学习低维、实值、连续的表示第二章机器学习基础神经网络与深度学习机器学习=表示

+目标+优化Good

Representation

is

Essential

for

Good

Machine

Learning

DomingosP.AFewUsefulThingstoKnowaboutMachineLearning[J].CommunicationsoftheAcm,2012,55(10):78-87.第二章机器学习基础神经网络与深度学习YoshuaBengioatel.DeepLearning[B].BookinpreparationforMITPress,2015.第二章机器学习基础神经网络与深度学习YoshuaBengioatel.DeepLearning[B].MITPress,2015.inputHand-designedprogramoutputinputHand-designedfeaturesMappingfromfeaturesoutputinputFeaturesMappingfromfeaturesoutputinputSimplestfeaturesMostcomplexfeaturesMappingfromfeaturesoutputRule-basedSystemClassicMLRepresentationLearningDeepLearning第二章机器学习基础神经网络与深度学习inputHand-designedprogramoutputinputHand-designedfeaturesMappingfromfeaturesoutputinputFeaturesMappingfromfeaturesoutputinputSimplestfeaturesMostcomplexfeaturesMappingfromfeaturesoutputRule-basedSystemClassicMLRepresentationLearningDeepLearning特征(feature):在NLP领域中,特征表示一个具体的语言上的输入,如单词、词性、句法关系等。一般要把特征转换成向量形式“喂”给机器学习系统作为真正的输入。第二章机器学习基础神经网络与深度学习inputHand-designedprogramoutputinputHand-designedfeaturesMappingfromfeaturesoutputinputFeaturesMappingfromfeaturesoutputinputSimplestfeaturesMostcomplexfeaturesMappingfromfeaturesoutputRule-basedSystemClassicMLRepresentationLearningDeepLearning传统机器学习VS深度学习共同点:基于过去的观测数据学习如何做出预测。深度学习:不仅学习预测,同时还学习正确地表示数据,使其更有助于预测。第二章机器学习基础神经网络与深度学习CoreProblem(1)是什么导致一种表示优于另一种表示?(2)应该怎样去计算它的表示?第二章机器学习基础目录1.神经网络与深度学习2.NLP中的深度学习3.神经网络基础知识4.多层感知机模型第二章机器学习基础NLP中的深度学习02NLP中的深度学习神经网络提供了强大的学习机制,对自然语言处理问题极具吸引力。核心:将神经网络用于语言的一个主要组件是使用嵌入层(embeddinglayer),即将离散的符号映射为相对低维的连续向量。独立符号(单词)

可以运算的数学对象(向量)第二章机器学习基础NLP中的深度学习向量之间的距离可以等价于单词之间的距离,这使得更容易从一个单词泛化到另一个单词。(针对离散性)学习单词的向量表示成为训练过程的一部分。通过上层网络的表示学习过程,网络学习单词向量的组合方式以更有利于预测。(针对组合性和数据稀疏性)第二章机器学习基础NLP中的深度学习神经网络模型的基本结构输入层(嵌入层):文本——离散的字、词等特征量化成数学表示的向量或矩阵,便于神经网络计算。第二章机器学习基础NLP中的深度学习神经网络模型的基本结构隐藏层(可以有多层):自动学习特征深层表示和网络权重主要形式:前馈网络(feed-forwardnetwork)循环/递归网络(recurrent/recursivenetwork)第二章机器学习基础NLP中的深度学习神经网络模型的基本结构输出层:从特征空间映射到结果空间并进行输出主要形式:全连接层(fullyconnectedlayer)依照任务输出一个向量第二章机器学习基础NLP中的深度学习NLP中的神经网络模型(以分类问题为例)基本流程可以简述为:数据预处理:针对文本需要划分的输出类,进行预处理和相关特征提取;针对提取的特征(可能是词语、词性、语言模型等),将其向量化表示;把特征进行组合表示输入到神经网络,使用已标记的训练数据集合进行神经网络参数训练;根据网络输出结果和真实答案按照设定的目标函数计算损失,迭代更新网络参数和特征表示进行优化,直到模型稳定;输入测试集(新数据)得到模型的输出结果。第二章机器学习基础NLP中的深度学习我们要学习什么?输入层(嵌入层):如何将文本特征表示成向量——传统方法与word2vec隐藏层:几种常见的神经网络模型结构与基本原理,包括:多层感知机MLP、卷积神经网络CNN、循环神经网络RNN、门控机制(LSTM、GRU)、注意力机制attention等输出层:常见损失函数、训练方法和技巧等第二章机器学习基础目录1.神经网络与深度学习2.NLP中的深度学习3.神经网络基础知识4.多层感知机模型第二章机器学习基础神经网络基础知识3.1信息论——熵熵联合熵和条件熵互信息相对熵和交叉熵3.2神经网络模型基本概念监督学习线性模型与非线性模型数据集损失函数优化方法第二章机器学习基础信息论——熵03信息论——熵熵香农(ClaudeElwoodShannon)1940年获得麻省理工学院数学博士学位和电子工程硕士学位;1948年6月和10月,由贝尔实验室出版的《贝尔系统技术》杂志连载了香农博士的文章《通讯的数学原理》,该文奠定了香农信息论的基础。熵是信息论中重要的基本概念。第二章机器学习基础信息论——熵熵的意义——信息量怎么度量?信息量可以被看成在学习某个事件X的值的时候的“惊讶程度”。如果有人告诉我们一个相当不可能的时间发生了,我们收到的信息要多于我们被告知某个很可能发生的事件发生时收到的信息,如果我们知道某件事情一定会发生,那么我们就不会接收到信息。我们对于信息内容的度量将依赖于事件X的概率分布p(x),因此我们想要寻找一个函数h(x),它是概率p(x)的单调递减函数,表达了信息的内容。第二章机器学习基础信息论——熵熵的意义——信息量怎么度量?对数的底决定信息量的单位。如果以2为底,信息量的单位记为比特(bit);如果以e为底数,则信息量的单位记为奈特(nat)第二章机器学习基础信息论——熵熵的定义:X是一个离散型随机变量,其概率分布为:p(x)=P(X=x),x∈X

则X的熵H(X)为:熵是随机变量X所有可能事件的自信息量的加权平均。信息论中,熵又称为自信息(self-information),表示信源X每发一个符号(不论发什么符号)所提供的平均信息量。0log0=0第二章机器学习基础信息论——熵熵的作用:熵(Entropy)——Chaos(混沌),无序。是不确定性(Uncertainty)的衡量熵越高,不确定性越高,我们从一次实验中得到的信息量越大。正确估计其值的可能性就越小。越不确定的随机变量越需要大的信息量用以确定其值。需要重点注意的是,熵值所代表的信息量的大小仅与不确定性有关,与信息的有效性或正确性无关。通常情况下,熵值越大,其传递的信息中不确定性越大,有效信息反而越少。例如,明天下雨的概率是50%”,就“明天下雨”这个事件而言,其熵值最高,但对帮助我们决策明天是否带伞或出门活动而言,几乎没有任何帮助。第二章机器学习基础信息论——熵熵的例子:计算英文(26个字母和空格,共27个字符)信息源的熵:(1)假设27个字符等概率出现;(2)英文字母的概率分布如下:第二章机器学习基础信息论——熵说明:考虑了英文字母和空格实际出现的概率后,英文信源的平均不确定性,比把字母和空格看作等概率出现时英文信源的平均不确定性要小。熵的例子:第二章机器学习基础信息论——熵各种语言的熵:按字母计算的零阶熵法文:3.98bits 意大利文:4.00bits西班牙文:4.01bits 英文:4.03bits德文:4.10bits 俄文:4.35bits中文(按汉字计算):9.65bits按词汇计算的零阶熵英语:10.0bits 中文:11.46bits说明中文的词汇丰富第二章机器学习基础信息论——熵联合熵:联合熵实际上就是描述一对随机变量平均所需要的信息量。如果X,Y是一对离散型随机变量X,Y~p(x,y),则该随机变量X,Y的联合熵为:第二章机器学习基础信息论——熵条件熵(conditionalentropy):给定随机变量X的情况下,随机变量Y的条件熵定义为:第二章机器学习基础信息论——熵熵,联合熵,条件熵的关系:第二章机器学习基础信息论——熵互信息:互信息I(X;Y)是在知道了Y的值后X的不确定性的减少量。即Y的值透露了多少关于X的信息量。第二章机器学习基础信息论——熵互信息、条件熵、联合熵的关系:第二章机器学习基础信息论——熵互信息、条件熵、联合熵的关系:H(X,X)=0---->H(X)=H(X)–H(X|X)=I(X;X)说明了为什么熵又称自信息。说明了两个完全相互依赖的变量之间的互信息并不是一个常量,而是取决于它们的熵。互信息体现了两变量之间的依赖程度:如果I(X;Y)>>0,表明X和Y是高度相关;如果I(X;Y)=0,表明X和Y是相互独立;如果I(X;Y)<<0,表明X和Y是互补相关的分布第二章机器学习基础信息论——熵相对熵:相对熵(RelativeEntropy),也叫KL散度、KL距离(Kullback-LeiblerDivergence),如果我们对于同一个随机变量X有两个单独的概率分布P(X)和Q(X)。相对熵是用概率分布Q来近似另一个概率分布P时所造成的信息损失量。第二章机器学习基础信息论——熵假设一个问题中,在机器学习中:P=[1,0,0],是样本的真实分布,表示当前样本属于第一类。Q=[0.7,0.2,0.1],用来表示模型所预测的分布。如果用P来描述样本完全反映了真实分布。而用Q来描述样本,虽然可以大致描述,但是不是那么的准确,信息量不足,需要额外的一些“信息增量”才能达到和P一样准确的描述。相对熵/KL散度反映了两个分布的差异性。相对熵:第二章机器学习基础信息论——熵相对熵的直观解释:相对熵常被用以衡量两个相对随机分布的差距。当两个随机分布相同时,其相对熵为0。当两个随机分布的差别增加时,其相对熵也增加。互信息实际上是衡量联合分布与独立性差距多少的测度。第二章机器学习基础信息论——熵交叉熵(crossentropy):对相对熵公式变形:p(x)的熵交叉熵第二章机器学习基础信息论——熵

如果一个随机变量X~p(x),q(x)为用于近似p(x)的概率分布,那么随机变量X和模型q之间的交叉熵定义为:

即根据q分布,对p进行编码需要的bit数(交叉熵)。

交叉熵(crossentropy):第二章机器学习基础信息论——熵

在很多机器学习任务中,我们需要评估真实答案label∈p(x)和模型预测结果predicts∈q(x)之间的差距。KL散度里H(p(x))是不变的,故在优化过程中,只需要关注交叉熵就可以了。所以一般在机器学习中直接用用交叉熵做损失函数,评估模型。方案:使用KL散度进行度量。交叉熵(crossentropy)的作用:第二章机器学习基础神经网络模型基本概念03学习基础与线性模型基本概念神经网络是一类有监督机器学习算法。有监督学习:通过观察样例数据进而产生泛化的机制supervised

sample/instancegeneralization可以分为两类:分类和回归。分类预测数据所属的类别。例如:垃圾邮件检测,主题分类,情感分析回归基于先前观察到的数据预测数值。例如:房价预测,股价预测第二章机器学习基础学习基础与线性模型基本概念分类——类别划分线VS

回归——数据拟合线第二章机器学习基础学习基础与线性模型机器学习的核心目的:一组数据,带有标签输入训练一个模型使得最基本的模型:线性模型:基本概念第二章机器学习基础学习基础与线性模型基本概念线性可分VS线性回归第二章机器学习基础学习基础与线性模型基本概念线性模型:第二章机器学习基础学习基础与线性模型基本概念线性模型的局限性:非线性可分:有时不可能使用一条直线(或者更高维空间中的一个线性超平面)将数据点分开。第二章机器学习基础学习基础与线性模型基本概念解决方法:转换到更高维的空间(加入更多的特征)SVM使用核函数将数据映射到高维空间转换到更丰富的假设类(使用高级函数模型)线性函数的组合还是线性函数,引入非线性激活函数3.允许一些误分类存在异常点第二章机器学习基础学习基础与线性模型基本概念异常点异常点第二章机器学习基础学习基础与线性模型基本概念转换到更丰富的假设类——使用非线性函数建模将线性函数的输出输入给一个非线性函数(也叫激活函数),例如sigmoid函数第二章机器学习基础学习基础与线性模型基本概念常见非线性函数sigmoid函数优点:映射数据在[0,1]之间;梯度下降明显;缺点:容易引起梯度消失;输出不是以0为中心;指数计算成本高第二章机器学习基础学习基础与线性模型基本概念梯度消失sigmoid函数的导数

Sigmoid

0/1,梯度趋近于0。饱和神经元:神经网络使用Sigmoid激活函数进行反向传播时,输出接近0或1的神经元其梯度趋近于0。饱和神经元的权重不会更新,与之相连的神经元的权重也更新得很慢。该问题叫作梯度消失。第二章机器学习基础学习基础与线性模型基本概念非线性二分类:利用sigmoid函数把线性预测转变为一个概率估计非线性多分类:在多分类情况中是把分数向量通过一个softmax函数:第二章机器学习基础学习基础与线性模型基本概念常见非线性函数双曲正切函数tanh优点:映射数据在[-1,1]之间;输出以0为中心;梯度下降明显缺点:容易引起梯度消失;指数计算成本高第二章机器学习基础学习基础与线性模型基本概念常见非线性函数修正线性单元ReLU优点:能快速收敛;能缓解梯度消失问题;计算效率高缺点:随着训练的进行,可能回出现神经元死亡,权重无法更新;不以0为中心;如果x<0,形成死区第二章机器学习基础学习基础与线性模型更多激活函数及其分析:https://dashee87.github.io/deep%20learning/visualising-activation-functions-in-neural-networks/第二章机器学习基础学习基础与线性模型基本概念训练集、测试集和验证集有监督学习:通过观察样例数据进而产生泛化的机制supervised

sample/instancegeneralization将样例数据划分为训练集、测试集和验证集(一般使用三路划分,不推荐留一法和留存集),在训练集合验证集上进行观察(学习),在测试集上进行泛化(预测)。第二章机器学习基础学习基础与线性模型基本概念训练集——日常学习学习网络参数与特征表示。训练集直接参与了模型调参的过程,不能用来反映模型真实的能力(防止死记硬背的学生拥有最好的成绩,即防止过拟合)。验证集——会考调整模型的超参数和用于对模型的能力进行初步评估。验证集参与了人工调参(超参数)的过程(刷题库的学生不能算是学习好的学生)。测试集——高考测试最终泛化性能第二章机器学习基础学习基础与线性模型基本概念训练与最优化如何度量两者差距?机器学习的核心目的:一组数据,带有标签输入训练一个模型使得第二章机器学习基础学习基础与线性模型基本概念损失函数衡量当预测是

而正确标签是

时所遭受的损失。给定正确的期望输出

,损失函数指派一个数值分数(标量)给预测输出

。通过模型训练,(理论上)学得函数的参数集(例如矩阵W和偏置向量b,一般记作

)被优化,可以使得训练集上的损失L(通常是最小化不同训练样例上的损失的总和)最小。

记作第二章机器学习基础学习基础与线性模型基本概念优化目的第二章机器学习基础学习基础与线性模型基本概念常用损失函数Hinge损失(二分类)分类器输出为标量{-1,1}第二章机器学习基础学习基础与线性模型基本概念Hinge损失(多分类)分类器输出为向量{0.2,0.1,

0.5,

0.2}标准答案为向量{0,0,

1,

0}f(x)_t:正确的类别的概率值f(x)_k:去除正确的类别之外最高的概率值第二章机器学习基础学习基础与线性模型基本概念逻辑斯蒂损失、交叉熵损失表达的是样本X在分类Y的情况下,使概率P(Y|X)达到最大值(即什么样的参数才能使我们观测到目前这组数据的概率最大)。逻辑斯蒂回归中会用到。第二章机器学习基础学习基础与线性模型基本概念对于二分类问题,逻辑斯蒂回归概率估计函数:逻辑回归分类模型:正确分类预测概率函数的定义:统一样本的表达式:第二章机器学习基础学习基础与线性模型基本概念由于分类问题是离散型,有如下最大似然估计函数:取对数方便计算:整个训练集的损失函数是所有训练实例的平均值:[]第二章机器学习基础学习基础与线性模型为什么它又叫交叉熵损失函数?交叉熵刻画的是期望输出p(x)与实际输出q(x)的距离:P(x)取值{0,1},q(x)记作输出为1的概率:第二章机器学习基础学习基础与线性模型交叉熵损失拓展到多分类二分类时:多分类:分类器输出为向量{0.2,0.1,

0.5,

0.2}标准答案为向量{0,0,

1,

0}简化为:第二章机器学习基础学习基础与线性模型等级损失没有标签的监督信息,只有正确的项x和不正确的项x’,目的使正确样例的得分高于不正确样例。通常可以通过破坏(侵蚀erosion)一个正例来生成负例样本。例如:x=中华人民共和国万岁

x’=中华人民共和国开心

第二章机器学习基础学习基础与线性模型目标函数、代价函数、损失函数目标函数(objectivefunction):要最小化或最大化的函数。当求最小化时,也把它称为代价函数(costfunction)、损失函数(lossfunction)或误差函数(errorfunction)损失函数≈代价函数损失函数:计算的是一个样本的误差代价函数:是整个训练集上所有样本误差的平均第二章机器学习基础学习基础与线性模型基本概念目标函数:代价函数+正则化项正则化项:反映了参数的复杂度,作为一种软约束用于防止过拟合。不允许过大的参数权重。超参数:模型不能在最优化过程中学得的参数,需要手动设置。第二章机器学习基础学习基础与线性模型基本概念应对过拟合方法1——正则化:L2范式L1范式弹性网络:L1范式和L2范式的组合第二章机器学习基础学习基础与线性模型基本概念过拟合(Overfitting):模型在训练集上错误率很低,但是在未知数据上错误率很高。第二章机器学习基础学习基础与线性模型基本概念过拟合(Overfitting)与欠拟合(underfitting)第二章机器学习基础学习基础与线性模型基本概念应对过拟合方法2——dropout:以概率p生成一个掩码向量r。作用:使模型更鲁棒,泛化性更好。第二章机器学习基础学习基础与线性模型基于梯度的最优化如何优化模型,使得目标函数的值最小?第二章机器学习基础学习基础与线性模型基于梯度的最优化核心思想:在最小化目标函数时,每次迭代中,对每个变量,按照目标函数在该变量梯度的相反方向更新对应的参数值。也就是,在目标函数的超平面上,沿着斜率下降的方向前进,直到遇到最小值(这个最小值不一定是全局最小值)。第二章机器学习基础学习基础与线性模型常见的梯度下降算法:1.批量梯度下降(BatchGradientDescent,BGD)最常见的梯度下降的方式,主要是使用所有的训练集样本对于每一个参数求偏导,然后更新参数。优点:能够保证收敛于极值点(如果是凸函数,就是全局最优;如果是非凸函数,则是局部最优);易于并行实现;迭代的次数相对较少。缺点:当样本数目很多时,训练过程会很慢。

第二章机器学习基础学习基础与线性模型常见的梯度下降算法:1.批量梯度下降(BatchGradientDescent,BGD)

第二章机器学习基础学习基础与线性模型2.随机梯度下降(StochasticGradientDescent,SGD)随机梯度下降和BGD的方法类似,但是每次更新参数的时候并不是使用所有的训练集样本。SGD每次更新参数仅仅随机选择一个样本:SGD每次仅仅从训练集中随机选择一个样本进行参数更新,因此训练速度比较快。但是,也是由于每次随机选择一个样本,因此会造成每次更新参数可能并不是朝着最优方向学习,学习的波动比较大。但是,对于非凸函数,这种特点可能会在训练过程中,使得学习算法跳出局部最优点,有可能在学习结束的时候达到更好的局部最优点或者全局最优点。第二章机器学习基础学习基础与线性模型2.随机梯度下降(StochasticGradientDescent,SGD)第二章机器学习基础学习基础与线性模型3.小批量梯度下降(Mini-BatchGradientDescent,MBGD)结合前两种方法的优点,每次从训练集中选择m个样本进行学习。这样可以避免使用所有的数据集,从而导致的学习速度过慢的问题;也可以避免每次只使用一个样本学习而导致的学习波动过大的问题。Mini-batch通常选择[50,256]之间。第二章机器学习基础学习基础与线性模型衰减学习率(learningrate)BGDSGDMBGD学习率:表示了每次参数更新的幅度大小。第二章机器学习基础学习基础与线性模型衰减学习率常用调整方法:轮数减缓,如五轮训练后学习率减半,下一个五轮后再次减半;指数减缓,即学习率按训练轮数增长指数插值递减等;分数减缓,若第t轮学习率为lr_t,学习率按照下式递减:其中k为超参数用来控制学习率减缓幅度,t为训练轮数。第二章机器学习基础目录1.神经网络与深度学习2.NLP中的深度学习3.神经网络基础知识4.多层感知机模型第二章机器学习基础多层感知机模型04多层感知机感知机(Perceptron)感知机是神经网络(深度学习)的起源算法,学习感知机的构造是通向神经网络和深度学习的一种重要思想。也称为“人工神经元”。第二章机器学习基础多层感知机多层感知机(MLP,MultilayerPerceptron)也叫人工神经网络(ANN,ArtificialNeuralNetwork)、深度神经网络(DNN,DeepNeuralNetworks),除了输入输出层,它中间可以有多个隐层,最简单的MLP只含一个隐层,即三层的结构。多层感知机层与层之间是全连接的,也被称为全连接网络(Full-connectionNeuralNetwork)。全连接:上一层的任何一个神经元与下一层的所有神经元都有连接。第二章机器学习基础多层感知机多层感知机(MLP,MultilayerPerceptron)第二章机器学习基础多层感知机多层感知机(MLP,MultilayerPerceptron)第二章机器学习基础第二章机器学习基础

谢谢!第三章语言模型目录语言模型概述统计语言模型神经网络语言模型第三章语言模型语言模型概述第三章语言模型语言模型(languagemodel)根据语言客观事实对语言进行抽象数学建模。语言模型在诸如语音识别、机器翻译等任务中起到了关键的作用。其发展经历了专家语法规则模型,统计语言模型,神经网络语言模型。阶段时间核心思想局限专家语法规则模型1980年前人工编写文法规则规则爆炸、无法覆盖口语/演化统计语言模型(SLM)1980–2000s基于语料库的N-gram概率稀疏性、维度灾难、短程依赖神经网络语言模型(NNLM)2003至今词向量+神经网络计算复杂,但泛化强、连续表示目录语言模型概述统计语言模型神经网络语言模型第三章语言模型统计语言模型第三章语言模型N-gram语言模型:用马尔可夫假设解决维度灾难统计语言模型定义一个句子的概率等于每个词在其历史上下文条件下概率的乘积。1维度灾难问题随着历史长度增加,可能的上下文组合呈指数级增长,导致参数空间巨大,无法有效计算和存储。2马尔可夫假设为了简化问题,假设一个词的出现只与其前面固定数量的n-1个词相关,这就是N-gram模型的核心思想。3N-gram模型在马尔可夫假设下,句子概率被近似为:4N元语法1Unigram(n=1)一元语法,假设每个词独立出现,完全不考虑上下文。例如:P(我爱运动)≈P(我)×P(爱)×P(运动)。这种模型丢失了大量序列信息,性能较差。2Bigram(n=2)二元语法,假设一个词只与其前一个词相关,也被称为一阶马尔可夫链。这是实际应用中最常用的模型之一,能在序列信息和计算复杂度之间取得良好平衡。3Trigram(n=3)三元语法,假设一个词只与其前面两个词相关,被称为二阶马尔可夫链。相比于二元语法,它能捕捉更长的上下文依赖,但也会引入更多的参数和计算量。统计语言模型第三章语言模型最大似然估计:从语料库中学习模型参数核心思想通过语料库,用相对频率来估计真实概率。即在给定历史条件下,一个词出现的次数除以该历史出现的总次数。01计算公式对于N-gram模型,条件概率的估计公式为:02零概率问题由于语言的开放性,无论语料库多大,总会出现一些在训练集中未出现的词或词组。这会导致模型为其分配0概率,从而使得整个句子的概率为0,显然是不合理的。03统计语言模型第三章语言模型数据平衡技术:解决零概率与数据稀疏问题平滑的基本思想调整最大似然估计的概率值,将高频词的部分概率“转移”给低频词和未登录词(OOV),从而消除零概率,并提升模型的整体性能。1加1平滑(Laplace)最简单的方法,在统计每个词的计数时都加1。这保证了所有词至少有一个计数,但会过度惩罚高频词,且给所有未登录词分配了相同的概率。2留存平滑(Held-out)将数据分为训练集和验证集,利用验证集的数据分布来校准训练集估计出的概率值,是一种更精确的平滑方法。3Good-Turing平滑一种基于统计学原理的平滑方法,利用高频词的出现次数来估计低频词和未登录词的概率,理论性较强。4Kneser-Ney平滑当前被认为是性能最好的平滑方法之一,它在Good-Turing的基础上,进一步考虑了上下文的多样性。5统计语言模型第三章语言模型语言模型性能评价:困惑度(Perplexity)1困惑度定义困惑度是评价语言模型好坏最常用的内在指标,其值越低,模型越好。计算公式为:2直观解释困惑度可以理解为模型在预测下一个词时,平均有多少个“等可能的”候选词。例如,一个困惑度为100的模型,意味着它在预测时平均认为有100个词是下一个词的合理选择。3理想模型一个完美的语言模型,能够总是预测出下一个正确的词,其困惑度将等于1。统计语言模型第三章语言模型目录语言模型概述统计语言模型神经网络语言模型第三章语言模型神经网络语言模型第四章文本表示神经网络词向量表示技术通过神经网络技术对上下文,以及上下文与目标词之间的关系进行建模。由于神经网络较为灵活,这类方法的最大优势在于可以表示复杂的上下文。神经网络语言模型第四章文本表示传统模型缺陷统计语言模型(如N-gram)存在严重的稀疏性、维度灾难和泛化能力差等问题,难以处理未登录词和长距离依赖。神经网络的优势通过将词映射到连续的向量空间,神经网络能够学习到词的分布式表示。语义相似的词在空间中位置相近,从而解决了数据稀疏问题,并获得了更强的泛化能力。核心创新神经网络语言模型的核心创新在于提出了词向量的概念,用低维连续向量代替了高维离散的one-hot表示。语言模型性能评价:困惑度(Perplexity)010203神经网络语言模型第四章文本表示神经网络语言模型NNLMYoshuaBengio,RéjeanDucharme,PascalVincent,andChristianJauvin.ANeuralProbabilisticLanguageModel.TheJournalofMachineLearningResearch,3:1137–1155,2003.神经网络语言模型第四章文本表示神经网络语言模型NNLM对语料中一段长为n的序列wi-(n-1);:::;wi-1;wi,n-gram语言模型需要最大化以下似然:wi为需要通过语言模型预测的词(目标词)。对于整个模型而言,输入为条件部分的整个词序列:wi-(n-1);:::;wi-1输出为目标词的分布(词向量)。神经网络语言模型第四章文本表示第一层(输入层)这个模型首先将词典中的单词映射到一个给定维度k的高维空间,这个映射就是图中的参数矩阵C。该矩阵行数等于词典中的单词数量,列数等于给定的高维空间的维度k。单词在高维空间的映射就是单词的词向量表达,将

C(wt−n+1),…,C(wt−2),C(wt−1)

n−1

个向量首尾相接拼起来,形成一个

(n−1)k

维的向量。神经网络语言模型第四章文本表示假设训练语料为“中华人民共和国万岁,世界人民大团结万岁。”T={中华,人民,共和国,万岁,世界,团结,大}Context=“中华人民共和国”预测下一个词是什么?神经网络语言模型第四章文本表示第二层(隐藏层)与一般神经网络相同,直接使用线性函数XW+b计算得到。b

是一个偏置项,W是隐层权重向量。在此之后,使用

tanh

作为激活函数。将每个单词对应的上下文映射到词典全部单词对应的条件概率分布空间中。神经网络语言模型第四章文本表示第三层(输出层)每个节点yi表示下一个词为i的未归一化log概率。使用softmax激活函数将输出值y归一化成概率。神经网络语言模型第四章文本表示矩阵Wr包含了从输入层到输出层的直连边。直连边就是从输入层直接到输出层的一个线性变换。Bengio等人在文中指出,如果使用该直连边,可以减少一半的迭代次数;但如果没有直连边,可以生成性能更好的语言模型。因此在后续工作中,很少有使用输入层到输出层直连边的工作。神经网络语言模型第四章文本表示训练语料为“中华人民共和国万岁,世界人民大团结万岁。”T={中华,人民,共和国,万岁,世界,团结,大}标准答案为[0,0,0,1,0,0,0]输出结果归一化后[0.02,0.05,0.03,0.5,0.05,0.2,0.15]利用交叉熵损失函数计算损失,使用SDG算法优化。神经网络语言模型第四章文本表示整个模型的参数集为:使用梯度上升法对θ进行优化优化结束之后,就得到语言模型。

此时的参数C即为该最优模型下的词向量表示。对于整个语料而言,语言模型需要最大化:θ=(Wh1,b1,U,Wr,br,C)神经网络语言模型第四章文本表示N-gram与NNLM的优劣分析1表示方式N-gram使用离散的one-hot向量,而NNLM使用连续的分布式词向量。2泛化能力N-gram需要精确的上下文匹配,泛化能力差;NNLM通过语义相似的词向量,能够很好地处理未登录词和相似词的替换。3参数数量N-gram的参数数量随模型阶数呈指数增长;NNLM的参数数量主要由词向量维度k和隐藏层大小决定,是固定的。4长程依赖N-gram的依赖窗口固定;NNLM也受限于上下文窗口大小,无法建模超长距离的依赖关系,但这为后续的RNN和Transformer模型提供了基础。第三章语言模型

谢谢!第四章文本表示目录基于向量空间模型的文本表示方法基于矩阵的文本表示方法基于深度学习的文本表示方法第四章文本表示例:A.中信证券建筑首席分析师罗鼎认为,发改委加大对重大基础设施建设项目审批力度,凸显逆周期调节重要性。B.2018年5月,太原国际马拉松赛被国际田联认定为银标赛事,成为全国第八个获得这项荣誉的马拉松赛。基于向量空间模型的文本表示方法第四章文本表示人类是如何进行区别的?例:A.中信证券建筑首席分析师罗鼎认为,发改委加大对重大基础设施建设项目审批力度,凸显逆周期调节重要性。B.2019年6月,太原国际马拉松赛被国际田联认定为金标赛事,成为全国第十个获得这项荣誉的马拉松赛。基于向量空间模型的文本表示方法第四章文本表示词频:一个词在一个文档中出现的次数。思考:词频反映的实际意义是什么?基于向量空间模型的文本表示方法第四章文本表示对一个语料库S中的所有句子s∈S,s=w1w2…wn。抽取其中包含的所有词汇wi,去除其中的停用词后(的、了、在、呢、啊等等),记为集合W。对任意wi∈W统计其在S中出现的文档频次df(w),依照频次大小降序排列,取排序前N~M位或前N%~M%(N<M)的词汇作为描述这个语料库S的特征集合Wdf。SW去停用词词频统计筛选Wdf基于向量空间模型的文本表示方法第四章文本表示V=[0,0,0,1,0,0,1,0,1,0,0,1,0,…]其中,以Wdf为基础可将一个文本表示为一个k维0-1向量V,k=|Wdf|,称之为one-hot表示或者词袋模型表示。形如:A.中信证券建筑首席分析师罗鼎认为,发改委加大对重大基础设施建设项目审批力度,凸显逆周期调节重要性。B.2018年5月,太原国际马拉松赛被国际田联认定为银标赛事,成为全国第八个获得这项荣誉的马拉松赛。基于向量空间模型的文本表示方法第四章文本表示例如:假设有特征词集Wtf={证券,分析师,发改委,审批,马拉松,田联,赛事}。例句A、B分别表示为:A.中信证券建筑首席分析师罗鼎认为,发改委加大对重大基础设施建设项目审批力度,凸显逆周期调节重要性。B.2019年6月,太原国际马拉松赛被国际田联认定为金标赛事,成为全国第十个获得这项荣誉的马拉松赛。A=[1,1,1,1,0,0,0]B=[0,0,0,0,1,1,1]基于向量空间模型的文本表示方法第四章文本表示向量空间模型(VSM:VectorSpaceModel)由Salton等人于20世纪70年代提出,并成功地应用于著名的SMART文本检索系统。VSM把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。VSM包括两个方面:用于表征文档语义的特征这些特征的组织方式基于向量空间模型的文本表示方法第四章文本表示向量空间模型:给定一文档,由于在文档中既可以重复出现又应该有先后次序的关系,分析起来仍有一定的难度为了简化分析,可以暂不考虑在文档中的先后顺序并要求无重复。这时可以把看成一个n维的坐标系,而为相应的坐标值,因而

被看成是n维空间中的一个向量。基于向量空间模型的文本表示方法第四章文本表示相似度(Similarity):两个文档和之间的(内容)相关程度(DegreeofRelevance)常常用它们之间的相似度来度量当文档被表示为VSM,常用向量之间的内积来计算:

基于向量空间模型的文本表示方法第四章文本表示文档(Document):泛指一般的文献或文献中的片断(段落、句子组或句子),一般指一篇文章。项(Term):

当文档的内容被简单地看成是它含有的基本语言单位(字、词、词组或短语等)所组成的集合时,这些基本的语言单位统称为项,即文档可以用项集(TermList)表示为其中是项,基于向量空间模型的文本表示方法第四章文本表示

项的权重(TermWeight):对于含有n个项的文档,项常常被赋予一定的权重,表示它们在文档中的重要程度,即

BooleanTF(3)

基于向量空间模型的文本表示方法第四章文本表示目的:为了提高程序的效率,提高运行速度为了提高分类精度一些通用的、各个类别都普遍存在的词汇对分类的贡献小在某特定类中出现比重大而在其他类中出现比重小的词汇对文本分类的贡献大对于每一类,我们应去除那些表现力不强的词汇,筛选出针对该类的特征项集合特征选择基于向量空间模型的文本表示方法第四章文本表示通常做法在用特征词作为文本的特征表示时,为了强化其在不同情景下的意义,通常采用不同的权值进行反映经过观察,可以发现一个特征词在一篇文档中出现的次数越多,它与这篇文档对应的主题越相关。同时还发现一个特征词在整个文档集中出现的频率越高,它的类别区分度越小

基于向量空间模型的文本表示方法第四章文本表示常用方法文档频率DF信息增益IG互信息MI

统计量(CHI-2)基于向量空间模型的文本表示方法第四章文本表示对于特征词条t和文档类别c,IG考察c中出现和不出现t的文档频数来衡量t对于c的信息增益,定义如下:信息增益IG其中,表示类文档在语料中出现的概率,P(t)表示语料中包含特征词条t的文档的概率,表示文档包含特征词条t时属于类ci的条件概率,表示语料中不包含特征词条t的文档的概率,表示文档不包含特征词条t时属于类ci的条件概率,m表示文档类别数。

基于向量空间模型的文本表示方法第四章文本表示如果选择一个特征后,信息增益最大(信息不确定性减少的程度最大),那么我们就选取这个特征。基于向量空间模型的文本表示方法第四章文本表示信息增益的优点在于,它考虑了词条未发生的情况,即虽然某个单词不出现也可能对判断文本类别有贡献。

但在类分布和特征值分布是高度不平衡的情况下其效果就会大大降低了。基于向量空间模型的文本表示方法第四章文本表示互信息(MutualInformation)在统计语言模型中被广泛使用。它是通过计算特征词条t和类别c之间的相关性来完成提取的。其定义如下:基于向量空间模型的文本表示方法第四章文本表示如果用A表示包含特征词条t且属于类别c的文档频数,B为包含t但是不属于c的文档频数,C表示属于c但不包含t的文档频数,N表示语料中文档的总数,t和c的互信息可由下式计算:

ABCDt~tc~c基于向量空间模型的文本表示方法第四章文本表示对于整个分类类别空间C,c∈C基于向量空间模型的文本表示方法第四章文本表示

统计量它度量特征词条t和文档类别c之间的相关程度,并假设t和c之间符合具有一阶自由度的分布。特征词条对于某类的统计值越高,它与该类之间的相关性越大,携带的类别信息也越多。反之,统计量也是反映属性t和类别c之间的独立程度。当的值为0时,属性t与类别c完全独立。

基于向量空间模型的文本表示方法第四章文本表示令N表示训练语料中的文档总数,c为某一特定类别,t表示特定的词条A表示属于c类且包含t的文档频数,B表示不属于c但是包含t的文档频数C表示属于c类但是不包含t的文档频数,D是既不属于c也不包含t的文档频数.其定义为:

ABCDt~tc~c且N=A+B+C+D

基于向量空间模型的文本表示方法第四章文本表示特征选择方法性能比较Yang,Y.,PedersenJ.P.AComparativeStudyonFeatureSelectioninTextCategorizationProceedingsoftheFourteenthInternationalConferenceonMachineLearning(ICML'97),1997,pp412-420.基于向量空间模型的文本表示方法第四章文本表示权重计算词频-逆文档频度(TermFrequency-InverseDocumentFrequency,TF-IDF)字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。基于向量空间模型的文本表示方法第四章文本表示基于向量空间模型的文本表示方法第四章文本表示用scikit-learn进行TF-IDF预处理在scikit-learn中,有两种方法进行TF-IDF的预处理。第一种方法是在用CountVectorizer类向量化之后再调用TfidfTransformer类进行预处理。第二种方法是直接用TfidfVectorizer完成向量化与TF-IDF预处理。基于向量空间模型的文本表示方法第四章文本表示用scikit-learn进行TF-IDF预处理第一种方法CountVectorizer+TfidfTransformer基于向量空间模型的文本表示方法第四章文本表示用scikit-learn进行TF-IDF预处理第二种TfidfVectorizer基于向量空间模型的文本表示方法第四章文本表示用scikit-learn进行TF-IDF预处理输出格式:(文档id,全局词id,tfidf权重)基于向量空间模型的文本表示方法第四章文本表示思考:TFIDF能不能做特征选择?对于全局特征——不能。每个词的重要性是与单个文档绑定的。不同文档间的tfidf值没有可比性。对于局部特征——可以。对单个文档而言,tfidf高的词就是这个文档的代表性词汇。基于向量空间模型的文本表示方法第四章文本表示思考:TFIDF如何做全局特征选择?方法一:基于向量空间模型的文本表示方法第四章文本表示思考:TFIDF如何做全局特征选择?方法二:对语料库中的每个文档,利用TFIDF计算每个特征项的权重,取前k个项作为该文档的特征集,将语料库中的所有文档的特征集取并集得到语料库的全局特征集。基于向量空间模型的文本表示方法第四章文本表示向量空间模型表示优点:简单易用缺点:“维数灾难”现象:在大数据环境下,高维的特征对于深层语义表示而言,其计算复杂度是难以接受的。“词汇鸿沟”现象:任意两个词之间都是孤立的,丢失了词之间语义关联关系的信息。基于向量空间模型的文本表示方法第四章文本表示one-hot:sun[0,0,0,0,0,0,0,0,1,0,0,0,0,…][0,0,0,0,0,0,0,1,0,0,0,0,0,…]starsim(star,

sun)

=0目录基于向量空间模型的文本表示方法基于矩阵的文本表示方法基于深度学习的文本表示方法第四章文本表示基于矩阵的文本表示方法第四章文本表示基于矩阵的文本表示方法第四章文本表示分布式假说:

1954年,Harris最早提出了词语义的分布假说(distributionalhypothesis),他认为:“具有相似上下文的词语也具有相似的语义”。该假说奠定了词语分布式语义表示(distributionalsemanticrepresentation)的理论基础。此后,Firth、Dagan和Schütze等人在Harris的理论基础上总结完善了基于上下文的词语义分布表示,被称为词空间模型(wordspacemodel),但因受限于当时的计算机运算能力,该方法没有得到大规模的应用。随着计算机硬件性能及相关运算优化算法的发展,基于词空间模型的深层语义表示方法逐渐确立了在文本表示研究领域中的统治地位。主要分为基于矩阵的表示和基于神经网络的表示两种类型。基于矩阵的文本表示方法第四章文本表示Count-based

distributional

representation上下文信息嵌入到了词向量表示中

词嵌入(wordembedding)基于矩阵的文本表示方法第四章文本表示Each

word

is

represented

as

a

dense

and

real-valued

vector

in

a

low-dimensional

space每个词都在一个低维空间中表示为一个稠密、实值的向量。基于矩阵的文本表示方法第四章文本表示基于矩阵的文本深层表示以“词-上下文”矩阵为核心,需要构建一个“词-上下文”矩阵,从矩阵中获取词的表示。在“词-上下文”矩阵中,每行对应一个词,每列表示一种不同的上下文,矩阵分量表示对应的上下文对该词影响的权重,权重计算主要有:“词-上下文”共现频率、tf-idf、PMI等方法。Co-occurrencematrixIlovemonkeysandapesbananasI010000love102001monkeys020100and001010apes000100bananas010000基于矩阵的文本表示方法第四章文本表示D1,Ilovemonkeys.D2,Apesandmonkeyslovebananas

文档级上下文Co-occurrencematrixD1D2I10love11monkeys11and01apes01bananas01此时的bananas的词向量就是[0,1]基于矩阵的文本表示方法第四章文本表示对于上下文的选择一般可分为:文档级,将该词出现的整个文档作为上下文;词窗口级,将该词上下文中选取长度固定的词窗口内的词作为上下文;n-gram窗口级,将该词上下文首先表示为n-gram模型,之后再选取长度固定的词窗口内的n-gram词组作为上下文。相对而言,词窗口级因具有较低的稀疏性以及保留了词序信息,从而使词语义的建模精度达到最高。当数据量较大时,构建得到的“词-上下文”矩阵维度较高,通常还需要进行矩阵分解以便降低维度。常用矩阵分解方法主要有奇异值分解等。基于矩阵的文本表示方法第四章文本表示潜在语义分析(Latentsemanticanalysis,LSA)主成分分析(PrincipalComponentAnalysis,PCA)通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。技术上通过奇异值分解SVD分解等处理,消除了同义词、多义词的影响,提高了后续处理的精度。

流程:分析文档集合,建立词汇-文本矩阵A。对词汇-文本矩阵进行奇异值分解。对SVD分解后的矩阵进行降维使用降维后的矩阵构建潜在语义空间基于矩阵的文本表示方法第四章文本表示奇异值分解(SVD)原理与在降维中的应用基于矩阵的文本表示方法第四章文本表示输入有m个词,对应n个文本。而Aij则对应第i个词在的第j个文本的特征值(共现频率、TF-IDF值)。k是我们假设的主题数,一般要比文本数少。SVD分解后,Uil对应第i个词和第l个主题的相关度。Vjm对应第j个文本和第m个主题的相关度。Σlm对应第l个主题和第m个主题的相关度。基于矩阵的文本表示方法第四章文本表示待分解矩阵A:m×n

U:m×m,由左奇异向量组成

Σ:m×n,主对角线为奇异值,其他为0

V:n×n,由右奇异向量组成

U和V均为酉矩阵,即基于矩阵的文本表示方法第四章文本表示

用n×n的方阵

做特征值分解,得到n个特征值和特征向量v,作为右奇异向量,得到右侧的V矩阵;

用m×m的方阵

做特征值分解,得到m个特征值和特征向量u,作为左奇异向量,得到左侧的U矩阵;基于矩阵的文本表示方法第四章文本表示求解奇异值:则

的特征向量组成V,同理

的特征向量组成U。且特征值是奇异值的平方,即基于矩阵的文本表示方法第四章文本表示奇异值可以被看作成一个矩阵的代表值,或者说,奇异值能够代表这个矩阵的信息。当奇异值越大时,它代表的信息越多。因此,我们取前面若干个最大的奇异值,就可以基本上还原出数据本身。基于矩阵的文本表示方法第四章文本表示在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上的比例。所以可以用最大的k个的奇异值和对应的左右奇异向量来近似描述矩,即:对一个词w:w∈R1×n对一个文档d:d∈Rm×1降维后:基于矩阵的文本表示方法第四章文本表示基于矩阵的文本表示优点:可以刻画同义词;无监督/完全自动化。缺点:无法解决一词多义问题;高维度矩阵做奇异值分解是非常耗时;特征向量没有对应的物理解释。目录基于向量空间模型的文本表示方法基于矩阵的文本表示方法基于深度学习的文本表示方法第四章文本表示神经网络语言模型第四章文本表示word2vecword2vec第四章文本表示MikolovT,SutskeverI,ChenK,etal.Distributedrepresentationsofwordsandphrasesandtheircompositionality[C]//Advancesinneuralinformationprocessingsystems.2013:3111-3119.word2vec第四章文本表示word2vecCBOWSkip-gramword2vec第四章文本表示输入层:上下文单词的onehot.{1*V,词窗口C}所有onehot分别乘以共享的lookup矩阵E.{V*N矩阵,N为设定词向量维度,随机初始化}所得的向量相加求平均作为隐层向量,维度为1*N.word2vec第四章文本表示乘以输出权重矩阵W’{N*V}得到向量{1*V}经过softmax归一化得到V-dim概率分布{其中的每一维代表着一个单词}概率最大的index所指示的单词为预测出的中间词(targetword)与truelabel的onehot做比较,误差越小越好(根据误差更新权重矩阵)word2vec第四章文本表示基于层次softmax的CBOWword2vec第四章文本表示

设需传送的电文为'ABACCDA'

需编码的字符集为{A,B,C,D}则有最简单的字符编码00,01,10,11Huffman编码

为了提高通信效率,电文编码总长度应尽可能短,这就需要设计不等长编码。

如:A——0,B——00,C——1,D——01假设有电文编码为‘000011010’解码?等长编码word2vec第四章文本表示为了正确译码,不等长编码的设计还需要满足前缀编码条件。任一字符的编码都不是同一字符集中另一个字符编码的前缀,满足该条件的不等长编码称作前缀编码。利用赫夫曼树可以构造一种不等长的二进制编码,并且构造所得的编码还是一种最优前缀编码,即既能使电文编码的总长度最短又能做到正确译码,该编码称作赫夫曼编码。word2vec第四章文本表示赫夫曼编码方法:分别用字符

d1,d2,…,dn

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论