自然语言处理：大模型理论与实践课件全套第1-12章绪论、词向量-评价指标

上传人：h*** IP属地：山东上传时间：2025-12-04 格式：PPTX 页数：660 大小：114.60MB 积分：75 举报 版权申诉

自然语言处理：大模型理论与实践课件全套第1-12章绪论、词向量-评价指标_第2页

自然语言处理：大模型理论与实践课件全套第1-12章绪论、词向量-评价指标_第3页

自然语言处理：大模型理论与实践课件全套第1-12章绪论、词向量-评价指标_第4页

自然语言处理：大模型理论与实践课件全套第1-12章绪论、词向量-评价指标_第5页

已阅读5页，还剩655页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

自然语言处理本课程旨在介绍大模型与通用人工智能的基本概念、原理和应用。通过理论授课、实践案例分析和讨论，学生将获得对大模型和通用人工智能领域的全面了解，培养相关技能和知识，为未来在该领域的研究和应用工作打下坚实基础。课程简介课程类型：专业方向课学分：3课时：17周，1次课/周，3学时/1次课，共51学时教材：自编教材，《自然语言处理：大模型理论与实践》先修课程：概率论与数理统计、机器学习等课程信息参考教材教材：适用人群：适用学科专业：主要编者：自然语言处理：大模型理论与实践本科生、研究生、科研人员计算机、人工智能学科赵宇，任福继等教材官网：https://nlp-book.swufenlp.group/一·绪论二·词向量三·统计语言模型四·神经语言模型六·大语言模型架构八·大模型预训练七·多模态大模型框架九·大模型微调授课安排33333333教学时间：1周—17周（17周）教学地点：周五1-3节：H301教学方式：概念讲解+实践+答疑十·提示工程十一·涌现十二·大模型评估十三·探讨十五·基于大模型的应用开发十四·大模型本地开发33333五·预训练语言模型33平时成绩考勤、课堂表现和平时作业（20%）+课程大实验（30%）考核方式（暂定）：平时成绩（50%）+期末闭卷考试（50%）考核方式预备知识A.1概率论基本概念

A.1.1概率和概率分布A.1.2贝叶斯法则A.2信息论基本概念A.2.1熵A.2.2联合熵和条件熵A.2.3互信息A.2.4相对熵与交叉熵A.3机器学习的基本概念

A.3.1训练方式

A.3.2常用算法和模型A.4强化学习基本概念A.4.1马尔可夫过程决策

A.4.2策略迭代A.4.3重要性采样A.4.4近端策略优化算法

相关学术会议与学术组织NLP领域主要学术会议：

AssociationforComputationalLinguistics(ACL)

CCF

ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP)CCF

NorthAmericanChapteroftheAssociationforComputationalLinguistics(NAACL)

CCF

InternationalConferenceonComputationalLinguistics(COLING)CCF

TheChinaNationalConferenceonComputationalLinguistics(CCL)

ConferenceoftheEuropeanChapteroftheAssociationforComputationalLinguistics(EACL)NLP领域学术组织：ACL、国际计算语言学委员会（ICCL）、中国人工智能学会自然语言理解专委会、中国中文信息处理学会、中国计算机学会自然语言处理专委会

第一章

绪论通用人工智能与金融创新团队1.1自然语言处理概述

1.2自然语言处理简史

1.3自然语言处理传统研究内容

1.3.1传统基础技术

1.3.2实际应用

1.4自然语言处理与大模型发展现状目录1.1自然语言处理概述自然语言处理被誉为人工智能皇冠上的明珠。 ——无名氏运算智能感知智能认知智能创造智能记忆存储、计算能力，机器早已经超过人类。（超级计算机）内容来源：/blog-94143-1198831.html自然语言处理被誉为人工智能皇冠上的明珠。 ——无名氏运算智能感知智能认知智能创造智能包括听觉、视觉、触觉；随着深度学习的引入，大幅度提高语音识别和图像识别的识别率，计算机在感知智能层面已经做得相当不错，在一些典型的测试题下，达到或者超过了人类的平均水平（语音识别、图像识别）内容来源：/blog-94143-1198831.html1.1自然语言处理概述自然语言处理被誉为人工智能皇冠上的明珠。 ——无名氏运算智能感知智能认知智能创造智能理解、运用语言的能力，掌握知识、运用知识的能力，以及在语言和知识基础上的推理能力。认知智能主要集中在语言智能，即自然语言处理，它简单理解了句子、篇章，实现了帮助搜索引擎、仿照系统提供一些基本的功能、提供一些简单的对话翻译。（自然语言处理）内容来源：/blog-94143-1198831.html1.1自然语言处理概述自然语言处理被誉为人工智能皇冠上的明珠。 ——无名氏内容来源：/blog-94143-1198831.html1.1自然语言处理概述运算智能感知智能认知智能创造智能人们利用已有的条件，利用一些想象力甚至有一些是臆断、梦想，想象一些不存在的事情包括理论、方法、技术，通过实验加以验证，然后提出新的理论，指导更多实践，最后产生很好的作品或产品。（创造力）2022年8月，一幅名为《空间歌剧院》的美术作品在美国科罗拉多州博览会上获得一等奖。1.2自然语言处理简史自然语言处理技术的发展可以追溯到20实际50年代初，经历了若干重要阶段和关键突破。其发展历程如下：1950-1960早期阶段1970-1980基于规则和知识1990-2000统计方法2018-至今预训练模型与大模型2010-至今神经网络深度学习1.3传统研究内容1.3.1传统基础技术1自动分词2命名实体识别3词性标注4

句法分析5

语义分析6

篇章分析1.3.2实际应用1机器翻译2文本分类与情感分类3信息抽取与自动文摘4

信息检索与问答系统5

对话系统6阅读理解1.3传统研究内容语义分析句法分析篇章分析自动分词对话系统阅读理解（摘要生成）自动实体识别词性标注机器翻译信息抽取文本分类（情感分类）信息检索问答系统1.3传统研究内容自然语言处理传统基础技术实际应用机器翻译信息抽取文本分类信息检索与问答系统对话系统阅读理解系统自动分词命名实体标注词性标注句法分析语义分析篇章分析文本词法层句法层语义层篇章层1.3.1传统基础技术：自动分词词是自然语言处理的基本单位。屈折语系：Wearegoodfriends.(英语)

Somosbuenosamigos.（西班牙语）

孤立语系：我们是好朋友。（汉语）私たちはいい友達だよ。（日语）有空格分隔和词形变化无明显分隔标记我们是好朋友。我们曾经是好朋友。我们现在是好朋友。无词形变化，用词语来表示时态1.3.1传统基础技术：自动分词从断句看分词，信息“无损”传递：明日逢春好不晦气终年倒运少有余财断句1：明日逢春，好不晦气；终年倒运，少有余财。断句2：明日逢春好，不晦气；终年倒运少，有余财。1.3.1传统基础技术：自动分词自动分词（Automaticwordsegmentation）：是指让计算机系统将连续的文本流切分成独立的、有意义的词语单元的过程。示例：人们/穿行在/重庆市/解放碑/步行街自动分词面临的问题：1.分词规范:确定词语边界的规则或指导原则。

不规范划分：火车/穿过/南京/市长/江大桥

符合规范划分：火车/穿过/南京市/长江大桥2.歧义切分：不同切分方式带来的语义的曲解。示例：拍/电影的人

拍电影的/人3.未登录词识别：文本中没有出现在预定义词典或训练语料库中的词语，即一些新出现的词汇，如“栓Q”、“凡尔赛”。1.3.1传统基础技术：自动分词自动分词方法：1.最大匹配法（MaximumMatching,MM）：分为FMM(正向)、BMM(逆向)1.词典是指经过处理和统计的词库（语料库）。核心原理：通过从左到右（FMM）或从右到左（BMM）扫描待分词文本，配合预定义的词典1来找出最长的匹配词。

“他很早开始学习中国舞”①取字符序列②在词典中查找找到否yes③切割，继续扫描文本③去掉最右词：“他很早开始”no1.3.1传统基础技术：自动分词假设词典中包含单词有“自然语言处理”、“计算机科学”和“一个分支”，且最长单词的字数为8。输入字串：自然语言处理是计算机科学的一个分支。切分过程：876自然语言处理/是计算机科学的一个分支。876……FMM最终切分结果：自然语言处理/是/计算机科学/的/一个分支。例词典…自然语言处理…计算机科学一个分支…词典中有该词，可以切分1.3.1传统基础技术：自动分词自动分词方法：2.基于语言模型的分词方法：建立n元语言模型，计算每个词在给定上下文中出现的条件概率;构造n元的切分词图，图中的结点表示可能的词候选，边表示路径，计算词在当前位置的前n−1个词的下的条件概率表示代价；利用相关搜索算法找到图中代价最小的路径作为分词结果输出。1.3.1传统基础技术：自动分词假设有一个简短的中文文本：“我喜欢苹果”，并且有一个包含“我”、“喜欢”和“苹果”的词典。使用二元语言模型进行分词。最终切分结果：我/喜欢/苹果。建立切分词图后，应用相关搜索算法（如动态规划）来找到图中代价最小的路径。

例

我喜

欢苹果

喜欢

苹果

自动分词方法：3.基于最短路径的分词方法通过构建分词图，利用最短路径算法来找到最佳的分词序列，从而实现自动分词。能够充分考虑词语之间的连贯性和上下文信息。1.3.1传统基础技术：自动分词与基于语言模型的分词技术相似。不同之处在于，节点间的权重并非基于条件概率，而是根据词频或词语概率确定，有时为简化处理，所有权重也可能统一设定为1。1.3.1传统基础技术：自动分词最终切分结果：我/喜欢/苹果。例

我喜欢苹果

喜欢苹果假设权重统一设定为1，则最短路径为节点最少的分词路径。1.3.1传统基础技术：自动分词扩展自动分词方法（大语言模型—提示学习法）所以标点放在不同的地方文章就会有不同的意思！正如韩愈在《师说》中所说的：“彼童子之师，授之书而习其句读者。“因此古代的断句，大多是老师教的，老师专门讲解文章，告诉学生在哪个地方应该断，教会之后学生再读书时完全就可以凭借自己以前学过的断句来理解了。1.3.1传统基础技术：自动分词扩展自动分词方法（大语言模型—提示学习法）/bakeoff2005/1.3.1传统基础技术：自动分词扩展自动分词方法（大语言模型—提示学习法）结果评估：准确率:P=系统输出中正确的结果个数/系统所有输出结果个数召回率:R=系统输出中正确的结果个数/测试集中正确的答案个数测度值:F=2*PR/(P+R)1.3.1传统基础技术：自动分词1.3.1传统基础技术：自动分词假设有一个汉语分词系统，该系统在一个测试集上有2230个分词结果，而标准答案是1980个词语。对比发现，系统切分出来的结果中有1872个是正确的。那么它的评价指标分别是多少？例

命名实体识别（NamedEntityTagging，NER）：是指识别文本中具有特定意义的实体并将其分类为预定义的类别。命名实体人名（中国人名和外国译名）地名组织机构名数字日期货币数量其他1.3.1传统基础技术：命名实体识别核心目标：是从非结构化文本中准确识别和分类具有特定语义价值的实体，并将它们归类到预先定义的类别中。示例：命名实体识别方法

1.基于规则的方法：根据人工编写的基于模式或基于上下文的规则进行识别。

2.基于统计的方法：其思想是利用人工标注的语料进行训练，通过对训练语料所包含的语言信息进行统计和分析，从训练语料中挖掘出特征。1.3.1传统基础技术：命名实体识别示例：包含“省”、“市”、“县”等关键字的字符串一般是地名命名实体识别方法

3.基于深度学习的方法：其思想是利用深度学习非线性的特点，建立从输入到输出非线性的映射，学习得到更加复杂精致的特征，从而选择概率最大的实体。1.3.1传统基础技术：命名实体识别将输入文本转换为分布式表示形式学习输入文本的语义编码根据编码层的输出来预测每个输入单元的标签实体标注方法：BIO标注BIO标注是序列标注的常见方法。通过标记来捕捉边界和命名实体类型，从而将命名实体识别看作一个逐字逐句序列标注的任务。B-X:X类型实体的开头。

I-X:X类型实体的中后部分。O:不属于命名实体的词。1.3.1传统基础技术：命名实体识别人名地名时间1.3.1传统基础技术：命名实体识别扩展命名实体识别方法（大语言模型—提示学习法）词性是词汇基本的语法属性。Youranswerisexactlyright.你的回答完全正确。

“right”是一个形容词，用来描述“answer”“right”是一个名词，指的是一种权利1.3.1传统基础技术：词性标注Everyonehasarighttoafairtrial.每个人都有权获得公正的审判。每个词性都有一些通用的特点和用法，这些特点和用法决定了它们在句子中的位置、作用以及在语言理解和表达中的重要性。可以根据词性猜测用法。词性标注（Parts-Of-Speechtagging）：目标是为给定句子中的每个单词分配一个适当的词性标签，从而明确其在句子中的语法角色和功能。词性标注是为了消除歧义，确定词语在句中所表达的含义，如确定单词“book”是动词还是名词。词性标注集：描述词性的集合，用于在自然语言处理中对单词进行标记和分类，如UPenn

Treebank、ICTCLAS。1.3.1传统基础技术：词性标注HanLP词性标注系统：Part-of-SpeechTagging|Demo()词性标注集词性标注方法：1.基于规则的方法：根据已有的语法知识和语言规律人工设计规则，完成词性标注。1.3.1传统基础技术：词性标注（SCONJ）：Weknowthatitisbad.（ADV）：Itisnotthatbad.that具有多种词性，比如可以做从属连词（SCONJ），副词（ADV）编写消歧规则选择词性进行标注例词性标注方法：2.基于统计模型的词性标注方法：从大量已标注文本中学习词语和词性之间的关联，常见模型如HMM、CRF。3.基于规则与统计结合的方法：将人工设计的规则和统计方法相结合，利用规则对一些特殊情况进行标注，然后利用统计方法对其他情况进行标注。特殊情况采用基于规则的方法，一般情况采用基于统计模型的方法。1.3.1传统基础技术：词性标注1.3.1传统基础技术：词性标注扩展词性标注方法（大语言模型—提示学习法）语法结构是语言意义的重要组成部分。他昨天在图书馆里读了一本有趣的书。

1.3.1传统基础技术：句法分析通过分析语法结构，可以清晰地理解这个句子的意思。主语时间状语地点状语谓语宾语陈述对象动作发生的时间动作发生的地点动作的承受者陈述动作行为句法分析（SyntaxParsing）：过对句子的语法结构进行分析，确定句子中各个词语之间的语法关系，例如主谓关系、宾语关系、定语关系等，进而推断句子的含义。两种类型短语结构分析（又称句法结构分析）依存句法分析1.3.1传统基础技术：句法分析短语结构分析：识别句子中的短语、子句等，并表示出它们之间的语法关系，如主谓关系等，通常使用上下文无关文法（Context-FreeGrammar，CFG）来描述句子的语法结构。上下文无关文法（Context-FreeGrammar，CFG）四元组G={N,Σ,S,P}N：非终结符的有限集合，如NP、VPΣ：终结符的有限集合：单词，符号S：句子符或初始符P：是一组产生式规则的有限集合，如NP→DetNominal1.3.1传统基础技术：句法分析产生式规则将句子分成分句或短语，如名词短语和动词短语，并定义了如何将非终结符替换为终结符或者其他非终结符。如何理解文法？1.3.1传统基础技术：句法分析成都是四川的省会。

<名词短语><动词><名词短语><句号>

<名词短语><动词短语><句号>归纳以上3个句子，可以得到它们的主体结构此外，<动词短语>=<动词><形容词短语>｜<动词><名词短语>四川位于中国西南地区。

<名词短语><动词><名词短语><句号>

<名词短语><动词短语><句号>熊猫是非常可爱的。

<名词短语><动词><形容词短语><句号>

<名词短语><动词短语><句号>句子

<名词短语><动词短语><句号>产生式规则如何理解文法？1.3.1传统基础技术：句法分析此外，产生式还有<动词短语>=<动词><形容词短语>｜<动词><名词短语><动词>=｛是，位于｝<形容词短语>=｛非常可爱的｝<名词短语>=｛成都，四川，熊猫，四川的省会，中国西南地区｝<句号>={。}集合中的词语仅表示自身，称为终结符代表一个语法范畴，是非终结符1.3.1传统基础技术：句法分析分析句子“Thecatchasedthemouse.（猫追逐老鼠）”。使用CFG来表示句子的语法结构，并生成相应的句法树。例首先，需要定义一些基本的产生式规则：1.3.1传统基础技术：句法分析分析句子“Thecatchasedthemouse.（猫追逐老鼠）”。使用CFG来表示句子的语法结构，并生成相应的句法树。例从开始符号S出发，应用规则“S→NPVP”S→NPVP1.3.1传统基础技术：句法分析分析句子“Thecatchasedthemouse.（猫追逐老鼠）”。使用CFG来表示句子的语法结构，并生成相应的句法树。例继续应用规则S→NPVP→DetNVP1.3.1传统基础技术：句法分析分析句子“Thecatchasedthemouse.（猫追逐老鼠）”。使用CFG来表示句子的语法结构，并生成相应的句法树。例S→NPVP→

DetNVP→DetNVNP→DetNVDetN

→

“the”NVDetN→

“the”“cat”

VDetN→

“the”“cat”

“chased”

DetN→

“the”“cat”

“chased”

“the”N→

“the”“cat”

“chased”

“the”“mouse”2.结构歧义问题：结构歧义是指一个句子可能有不同的语法解析或句法结构，产生不同的分析结果。Isawthemanwiththe

telescope：附着歧义oldmenandwomen：并列歧义1.3.1传统基础技术：句法分析Isawtheman(whohad)withthetelescope.Isawtheman(using)withthetelescope.old(menandwomen).(oldmen)andwomen.3.句法分析方法：CKY（Cocke-Kasami-Younger）算法：基于动态规划的思想，用一个二维表格来存储可能的短语结构，最后生成句法树。1.3.1传统基础技术：句法分析

1.3.1传统基础技术：句法分析采用CKY算法分析句子“Thecatchasedthemouse.（猫追逐老鼠）”。例输入句子：Thecatchasedthemouse.词性标注：DetNVDetN.依存句法分析：旨在分析句子中词汇之间的依存关系，句法结构完全通过单词或词语之间的有向二元语法关系（依赖词—>中心词）来描述。1.3.1传统基础技术：句法分析带有方向的弧来表示两个成分之间的依存关系，支配者在有向弧的发出端，被支配者在箭头端，通常说被支配者依存于支配者。依存树3.依存句法分析方法：决策式依存句法分析：基于移进-归约（shift-reduce）算法。该算法使用分析栈和输入缓冲区来管理分析过程，并定义一组预定义的转移操作：移动（Shift）、左弧（Left-Arc）和右弧（Right-Arc）等。基于图的依存句法分析：基于图的分析器构建一个图结构来表示句子中的依存关系，它对长句子的解析更加准确。分析器在句子的所有可能树结构中寻找一个（或多个）得分最高的树结构，通过将搜索空间编码为有向图，采用图论的方法来寻找空间中的最优解。1.3.1传统基础技术：句法分析1.3.1传统基础技术：句法分析采用决策式依存句法分析方法分析句子“Thecatchasedthemouse.（猫追逐老鼠）”。例两种句法分析的关系和区别表示方式表示目标应用短语结构分析树状结构嵌套和组合关系句法关系语法分析、句法分析、句法树生依存句法分析有向图直接依存关系依存关系关系抽取、语义分析、机器翻译1.3.1传统基础技术：句法分析1.3.1传统基础技术：句法分析扩展句法分析方法（大语言模型—提示学习法）语义分析：对句子所表达的语义进行分析和解释，让计算机理解文本所传达的真正含义、推断用户的意图、理解文本中实体之间的关系。语义表示：用形式化的结构表示自然语言表达的含义意义表示语言：一阶逻辑（First-OrderLogic，FOL）常量：指代某个特定对象，如Car、Restaurant函数：所属格概念，如“Chengdu’slocation”表示为LocationOf(Chengdu)变量：表示特定未知事物，或某个分类中的一切事物示例：“IlikeappleandIdon’tlikepear.”

Like(Speaker,Apple)∧¬Like(Speaker,Pear)1.3.1传统基础技术：语义分析词义消歧：为单词选择符合上下文语境的正确词义。词义消歧算法：简单最近邻算法计算待消歧的单词和词汇库中的每个已知含义单词的相似性得分。通过得分比较，选择最佳的词义，完成词义消歧。基于特征的WSD算法

将待消歧的单词放置在上下文中，并提取与该单词相关的特征，然后通过训练一个分类器（如SVM分类器）来确定最适合的词义。Lesk算法

计算目标单词的字典注释与邻近单词的交集，并选交集最大的词义作为目标单词的正确词义。1.3.1传统基础技术：语义分析语义角色标注：是指给句子的成分分配语义角色标签的任务。以谓词为核心，分析句子中的其他成分与谓词之间的关系。1.3.1传统基础技术：语义分析1.3.1传统基础技术：语义分析扩展语义分析方法（大语言模型—提示学习法）1.3.1传统基础技术：篇章分析篇章是由一组有结构、有组织的相邻句子构成的自然语言文本。悟空撩衣上前，摸了一把，乃是一根铁柱子，约有斗来粗，二丈有余长。他尽力两手挝过道：“忒粗忒长些！再短细些方可用。”说毕，那宝贝就短了几尺，细了一围。悟空又颠一颠道：“再细些更好！”那宝贝真个又细了几分。悟空十分欢喜，拿出海藏看时，原来两头是两个金箍，中间乃一段乌铁；紧挨箍有镌成的一行字，唤做“如意金箍棒”，重一万三千五百斤。心中暗喜道：“想必这宝贝如人意！”一边走，一边心思口念，手颠着道：“再短细些更妙！”拿出外面，只有二丈长短，碗口粗细。

摘自《西游记》篇章分析：衡量文本质量，分析语篇结构，监测语篇的连贯性。语篇连贯性：1.3.1传统基础技术：篇章分析关系不连贯：晓晴从上海坐飞机到成都。她每天锻炼一个小时。关系连贯：晓晴从上海坐飞机到成都。她要参加一项运动比赛。修辞结构理论：(RhetoricalStructureTheory,RST)用核心(Nucleus)和卫星(Satellite)定义两个文本区间之间的关系。1.3.1传统基础技术：篇章分析李华想来成都看大熊猫。李华已经到四川了。他的IP地址显示为四川省。指代消解：就是将文本中指代同一话语实体的用语链接起来，形成一组指代链。1.3.1传统基础技术：篇章分析示例：鲁迅原名周树人，字豫才。他是浙江绍兴人。“他”和“鲁迅”指代同一个话语实体“鲁迅”。共指示例：Maryhasadog.Itisveryfriendly.回指示例：Ifyouwantsome,there’scoffeeinthepot.预指先行语照应语指代消解需要进行指代识别，即找出句子中所有的指代。然后进行指代消解，确定这些指代与其先行语之间的关系，从而实现对文本的深层理解。指代识别上下文建模特征提取指代消解决策生成或更新指代关系1.3.1传统基础技术：篇章分析1.3.1传统基础技术：篇章分析扩展篇章分析方法（大语言模型—提示学习法）1.3.2实际应用：机器翻译机器翻译（MachineTranslation，MT）：机器翻译是利用计算机将一种语言的文本翻译成另一种语言的技术语言差异：

SVO（中、英、法）、SOV（日语）VSO（阿拉伯语）编码器-解码器网络：编码器接受输入序列并创建其上下文h。然后，将该上下文h传递给解码器，解码器生成目标语言的输出序列。结果测评：准确性、流畅性基于字符或词汇重叠、基于嵌入相似性1.3.2实际应用：机器翻译机器翻译方法（大语言模型—提示学习法）1.3.2实际应用：文本分类与情感分类文本分类（textclassification）：旨在将给定的文本分类为预定义的类别中的一个，常见类别包括情感、主题、语言和其他自定义类别。文本分类可形式化表示为如下数学函数：其中，f表示分类函数，接受文本作为输入，test是待分类的文本数据，category是将文本被分类到的一个或多个类别标签。朴素贝叶斯分类（NaiveBayesClassifiers）：给定一个未标注的文本，朴素贝叶斯方法计算该文本属于每个类别的后验概率，并选择具有最高概率的类别作为分类结果。1.3.2实际应用：文本分类与情感分类文本分类方法：经典的文本分类方法包括基于特征工程和浅层学习。在不考虑训练集的情况下，一个文本分类系统可以被拆分为特征工程和分类器两个主要部分。系统流程如下所示：其中，文本表示的任务是将非结构化信息转化为计算机可以理解的结构化信息。情感分析：情感分析是一种常见的文本分类任务，即分析文本表达的情感倾向，是积极还是消极的态度。举例以大模型进行情感分析：1.3.2实际应用：文本分类与情感分类其他分类任务：垃圾邮件过滤、新闻分类、法律文书归档、医学文献识别以及在线广告定位等。1.3.2实际应用：信息抽取与自动文摘信息抽取（InformationExtraction）：从非结构化的文本数据中抽取出特定的实体、关系和事件等重要信息，并将其转化为结构化的形式（如数据库）关系抽取（RelationExtraction）：识别文本中实体之间的关系或关联，如雇佣关系。事件抽取（EventExtraction）:识别文本中的事件、触发词、参与者、时间等信息。1.3.2实际应用：信息抽取与自动文摘自动文摘技术：自动文摘技术是自然语言处理领域中的一个重要研究方向，其核心目标是通过算法和技术，从大量文本中提取关键信息和主要观点，生成简洁、凝练且信息丰富的摘要。其系统流程如下图所示：

√

文本分析：分词、词性标注、命名实体识别；

√句子或段落提取与泛化：代表性句子、段落或信息块1.3.2实际应用：信息抽取与自动文摘信息抽取方法（大语言模型—提示学习法）1.3.2实际应用：信息检索与问答系统信息检索（InformationRetrieval，IR）：信息检索是一门研究如何从大量文本集合中有效获取与用户查询相关信息的技术。1.3.2实际应用：信息检索与问答系统关键技术1.3.2实际应用：信息检索与问答系统问答系统（QuestionAnsweringSystem）：问答系统是一种旨在自动回答用户提出的自然语言问题人工智能应用。主要以事实型问答为主。1.3.2实际应用：信息检索与问答系统基于信息检索的问答系统

第一阶段:检索“检索和阅读”模型

第二阶段:阅读理解遍历每个段落基于生成的问答系统不仅从已知信息中检索答案，还能根据问题的语义和上下文生成全新的答案。1.3.2实际应用：信息检索与问答系统评估：平均倒数排名（meanreciprocalrank，MRR），其计算公式如下：其中，Q是测试集中问题的总数，ranki是第i个问题的正确答案的排名。问答系统（大语言模型—提示学习法）1.3.2实际应用：对话系统对话系统（DialogueSystems）：对话系统旨在模拟人类的对话行为并与用户进行自然语言交流。1.3.2实际应用：对话系统对话系统分类1.3.2实际应用：对话系统对话系统（大语言模型—提示学习法）1.4NLP和大模型发展现状资料来源：Dynabench:Rethinking

Benchmarkingin

NLP,

Google

Scholar,

indigox.me，公司官网前神经网络概率推论神经网络大规模模型专家系统基础模型决策式/分析式

NLP系统生成式

NLP时代1956感知器模型1980sProlog&Lisp1990s机器学习算法2011大数据AI学科成立机器语言翻译专家系统解答特定领域的问题1994GroupLens首个自动化推荐系统推荐算法IBM沃森益智问答打败人类2012DNNs物体识别自动驾驶2014GAN生成图像但分辨率不高2017Transformer网络结构进化为后续大型模型打下基础2020GPT-3能够完成大多数

NLP任务2021CLIP以40亿个文本-图像对为训练数据实现文本到图像跨模态2022DALL·E2由文本生成的高清具有独创性图像文生图AI的急速发展使得AI模型在手写识别、语音识别、图像识别、阅读理解、语言理解等领域的表现加速超越人类平均水平2012年至今2011年之前GPTGPT-2GPT-3lnstructGPTChat-GPT2022年

InstructGPT具有1300亿参数，它在GPT-3的基础上采用预训练+人类反馈的强化学习(RLHF)的学习方式。比GPT-3更擅长遵循指令，产生的输出具有上下文丰富性，可以产生更符合用户期望的输出。2022年ChatGPT模型在InstructGPT的基础上优化了数据收集设置。ChatGPT在人与人对话的数据集上进行了训练，它以对话方式进行交互，并进行了微调以生成更具吸引力、完善和个性化的响应。2020年

GPT-3拥有1750亿个参数。它在“CommonCrawl”等数据集(45TB)进行训练。GPT-3在GPT-2的基础上，采用预训练+少样本(Few-shot)设定下游任务的学习方式，可以执行编写代码片段，生成类似人类的文本。2019年

GPT-2是在WebText数据集(40GB)上训练的，有超过15亿个参数。GPT-2在GPT-1的甚础上，采用预训练+零样本(ZeroShot)设定下游任务，即不进行训练或微调，其在阅读理解、翻译、问答等任务时表现出强大的性能。2018年OpenAl推出初代GPT模型，该模型的核心是Transformer结构,其参数量达到1.17亿。GPT-1采取预训练+下游任务微调两个阶段学习，在BookCorpus数据集(5G)上进行训练，再通过特定下游任务来微调和推广模型。ChatGPT在海量的文本数据上进行了预训练，可以对自然语言输入产生类似人类的回答。ChatGPT其核心是建立在GPT模型（Generative

Pre-trainedTransformer）的发展基础之上。1.4NLP和大模型发展现状参考资料：/pdf/2303.18223.pdf1.4NLP和大模型发展现状参考资料：/pdf/2303.18223.pdf1.4NLP和大模型发展现状参考资料：/pdf/2303.18223.pdf1.4NLP和大模型发展现状参考资料：/pdf/2303.18223.pdf1.4NLP和大模型发展现状人工智能能够赋能经济社会发展各领域，下游各个领域的产业升级对大模型的需求持续走高。例如，在泛交通领域，人工智能能够在自动驾驶、智能座舱、运行管理优化等多个方面为汽车行业创造价值；在医疗方面，人工智能可以提高疾病检测的效率以及医学影像领域的智能化分析。据测算，2022

年中国人工智能行业市场规模为3,716

亿人民币，预计2027

年将达到

15,372

亿人民币，有望在下游制造、交通、金融、医疗等多领域不断渗透，实现大规模落地应用。下游行业对人工智能需求呈现出碎片化、多样化的特点，从开发、精调、优化、迭代到应用都需要投入巨大的人力和财力，成本极高。而大模型能够向外赋能，包括通过开放API

的形式，降低AI

应用开发门槛，提高落地部署效率和精度等，进而降低AI

规模化部署的成本，满足各行业场景的应用需求,进一步推动人工智能进入工业化发展阶段。NLP大模型的典型应用场景来源：头豹研究院1.4NLP和大模型发展现状感谢聆听THANKS0第二章

词向量通用人工智能与数字经济创新团队西南财经大学ThischapterwascreatedbyLongShi

目录2.1概述

2.2文本表示方法

2.3Word2Vec模型

2.4GloVe模型

2.5ELMo模型

2.6讨论2.1概述词向量起源概述：

虽然人类能够通过文字交流，但计算机只能处理数字形式的信息（0和1）。为了使计算机能够解析和处理人类语言，必须将语言（如文本和声音）转化为数字形式。图片来源：/developer/article/1448040

文本表示成为了自然语言处理的关键任务之一，其主要目标是将文本元素（如词、句子或段落）转化为数值数据，通常是向量形式。

我们将这些表示称之为词向量（WordVector）、词嵌入（WordEmbedding）或者词表示（WordRepresentation）2.2文本表示方法独热表示：独热表示是一种将词汇映射为向量的策略。每个词汇都被转换为一个唯一的向量，仅有一个元素为1，其余元素均为0。举例如下：

文本表示的核心在于将文本数据转换为计算机能够理解和处理的形式。

代表性表示方法：独热表示和分布式表示。其中，向量中数值“1”的位置是根据词汇在词汇表中的索引确定的。示例词汇表独热向量表示2.2.1独热表示独热表示方法存在的问题：维度灾难无法度量语义相关性维度灾难：随着特征空间的维度增加，数据的分布变得更加稀疏，需要更长维度的向量来表达词汇。度量语义相关性：考虑词汇“猫”和“狗”，假设在10000维的独热表示中，“猫”和狗的独热表示如下：“猫”→[1,0,0,,0]“狗”→[0,1,0,,0]欧式距离由此易知，任意两个词汇之间的距离都是相同的，无法反应词汇之间的语义相似度。“猫”→[1,0,0,,0]“花”→[0,0,1,,0]欧式距离2.2.2分布式表示分布式表示：分布式表示由Hinton等多位计算机科学家和神经网络研究者在20世纪80年代提出，用于有效地捕捉词汇之间的语义和上下文关系，同时克服独热表示的维度灾难问题。其核心思想如下：其中，每个词汇都被映射成一个3维的实数向量。例如，计算可得，”猫”和“狗”之间的欧式距离为0.245，“猫”和“鸟”之间的欧式距离为1.02，表明“猫”和“狗”最为相似。通过训练将语言中的每个词汇映射到一个固定长度的实数向量上通过以下词向量例子说明：2.3Word2Vec模型Word2Vec模型：该模型是2013年由TomasMikolov等人提出，用于生成词语的分布式表示。该模型包括输入层、投影层和输出层三个组件。

根据输入—输出关系，Word2Vec模型包括连续词袋（CBOW）和Skip-gram模型两个变种。CBOW模型：其目标是根据给定词

的上下文

来预测该词

本身。SKip-gram模型：在给定一个词

的情况下，预测该词的上下文

。2.3.1CBOW模型简化版CBOW模型：根据一个输入词

预测一个输出词

，相比于传统的前馈神经网络，CBOW模型移除了隐藏层，降低了模型的计算复杂度，其模型架构如图所示：简化版CBOW模型图2.3.1CBOW模型输入层：输入

是单词的独热表示。输入层到投影层：输入层和投影层之间有一个词向量矩阵

，其中

表示投影后的维度。投影层向量

计算如下：投影层到输出层：投影层和输出层之间也有一个权重矩阵

。输出层向量

计算如下：Softmax激活函数：模型的最终输出，将每个元素归一化一个介于0和1之间的概率值。输出层向量计算如下：2.3.1CBOW模型CBOW模型（多词上下文模型）：模型根据上下文中的2m个词，预测中心词。具体如下：→给定2m词的上下文预测中心词模型关键结构：输入层、投影层以及输出层。各层操作如下：输入层：该层以

为中心词的上下文作为输入，每个词通过独热编码向量

来表示。投影层：上下文中每个词

都经过相同的词向量矩阵

，得到向量

，再执行词向量的累加平均操作：2.3.1CBOW模型输出层：该层经过权重矩阵

得到输出概率向量：其中，

，

中心词

计算得到的条件概率为该模型存在的问题：Softmax每次需要计算

中所有词的输出值，当

很大时，

的

成本会非常高。解决方法：在训练Word2Vec模型时，常用的训练技巧是通过构建哈夫曼树（HuffmanTree）进行层级Softmax，从而将复杂度从

降低到

。2.3.1CBOW模型层次Softmax：下面将介绍层次Softmax的原理及优化方法。核心思想：层次Softmax不需要矩阵

，下图以哈夫曼树对Softmax展开说明。层次Softmax模型图2.3.1CBOW模型基于哈夫曼树的层次Softmax原理：层次Softmax通过将所有词汇构建成一颗二叉树，词表中的单词位于叶子节点，树中的每个内部节点表示一个二分类决策（左子树或右子树）。把Context(学习)记为C，则词“学习”的路径如下：

条件概率

的计算公式如下：词“学习”的路径其中，

表示在非叶子节点n选择左子树的概率。显然

。这个过程可视为一个逻辑回归问题，并用Sigmoid函数建模：2.3.1CBOW模型其中，

为非叶子节点n的待训练参数。

仅依赖从根节点到目标词路径中的非叶子节点，其复杂度为

。模型优化目标：该模型最大似然函数作为优化目标，具体可表示为：其中，L表示训练集长度，在训练中使用梯度下降法更新词向量矩阵

和权重矩阵

。2.3.2Skip-gram模型Skip-gram模型：与CBOW模型不同，Skip-gram模型以单个词作为输入，以预测其上下文环境中出现的多个词，其模型架构如下图所示：Skip-gram模型包括输入层、投影层和输出层。其中，各层功能如下：Skip-gram模型图2.3.2Skip-gram模型输入层：输入X是单词wt的独热表示。投影层：该层输出为输出层：通过

得到2m个输出向量，并通过Softmax得到真实输出的概率分布。训练可采用层次Softmax等技术降低复杂度，而不直接使用矩阵W’。Skip-gram模型复杂度与优化目标：该模型的训练复杂度为

，其优化目标可表示为：其中，L表示训练集长度。在训练过程中，一般认为在给定

的情况下，2m个输出是完全独立的。2.4GloVe模型模型特点：GloVe模型：该模型是斯坦福大学于2014年发布的一个开源项目。GloVe是一个基于全局词频统计的词向量模型，它结合了两个模型族的特征，即全局矩阵分解（基于奇异值分解(SVD)的潜在语义分析算法）和局部上下文窗口方法（如Word2Vec算法）。

结合了Word2Vec模型的Skip-gram优势，同时利用了全局词频统计信息，通过矩阵分解技术可以有效地获取单词向量表示。它可以把一个单词表达成一个由实数组成的向量，用于捕捉单词之间的语义特性，比如相似性、类比性。通俗举例，向量运算

避免计算复杂度高地奇异值分解过程。2.4GloVe模型GloVe模型实现过程：该模型实现过程简要分为三个步骤：构建共现矩阵、建立词向量与共现矩阵之间的关系以及构建损失函数。构建共现矩阵：首先构建一个共现矩阵，矩阵元素Xij表示单词i和单词j在一定上下文窗口内共同出现的次数。通过该矩阵，可以了解词汇在文本中的共现模式。下面提供一个示例：2.4GloVe模型在这个矩阵X中，X12=3表示单词“我”和“喜欢”在上下文窗内共同出现了3次。2.4GloVe模型构建词向量与共现矩阵的关系：GloVe模型提出词向量和共现矩阵之间的某种近似关系，表达如下：其中，

和

分别是单词i和j的词向量，

和

是偏置项，

是共现次数的对数。构建损失函数：损失函数的目标是通过最小化预测值与实际值之间的误差来学习词向量。其定义如下：其中，

是共现次数Xij的权重函数，其定义为

。

2.5ELMo模型ELMo模型：ELMo模型是由AllenInstituteforArtificialIntelligence于2018年提出的一种用于自然羽然处理任务的预训练语言模型。模型特点：ELMo模型生成的词向量是上下文相关的，即它能够根据每个单词在不同语境中的具体含义，动态地调整其表示。解决了静态表示无法处理一词多义的问题。ELMo模型的训练：预训练和微调，其中：

预训练：在大规模文本数据上进行无监督预训练，同时考虑前向和后向语言模型，通过结合双向长短时记忆网络的神经网络结构来实现。

微调：通过特定的监督学习任务（例如情感分析、文本分类等）进行微调。在微调过程中，将从预训练模型中提取的各层词嵌入作为新的特征输入，以便更好地适应特定应用场景。2.5ELMo模型预训练：在自然语言处理中，双向语言模型是一种用于建模语言序列的方法。给定一个由N个单词组成的序列

，双向语言模型同时考虑序列的前向和后向信息。前向语言模型的任务是计算整个序列的概率

，通过对每个单词

建模，考虑到先前单词的历史：后向语言模型与前向模型类似，但在后向遍历序列时，通过考虑未来上下文来预测先前单词：为了综合前向和后向信息，双向语言模型结合了两者，通过联合最大化前向和后向的对数似然来进行训练：2.5ELMo模型预训练：其中，

是词向量参数，

是LSTM模型的参数，

是模型最终预测阶段Softmax层的参数。在这个模型中，将前向和后向方向的单词表示和Softmax层的参数绑定一起，但保持每个方向的LSTM模型参数独立。这种双向语言模型的设计旨在更全面地捕获语言序列中的上下文信息，有助于提高在自然语言处理任务中的性能。2.5ELMo模型任务微调：双向语言模型的表示计算：对于每个输入单词

，ELMo模型利用一个包含L层的双向语言模型来生成一系列表示，具体包括：单词层表示

，即与

上下文无关的表示；以及正向表示

和后向表示

，分别对应于BiLSTM在第j层的正向和后向隐藏层输出。对于每个单词

，这些表示组成一个集合针对特定任务的表示生成：对于每个单词

，特定任务的ELMo表示

是通过对所有双向语言模型层的输出进行加权求和得到，其中，

是Softmax归一化的权重，用于调整每个双向语言模型层的贡献，

是一个标量参数。2.6讨论讨论2.1：TomasMikolov曾在2016年的一次演讲中将自然语言中的词语表示方法分为局部表示（LocalRepresentation）和连续表示（ContinuousRepresentation）。请查阅资料，讨论这两个表示方法与本章介绍的独热表示和分布式表示方法的区别与联系。讨论2.2：研究人员提出了多种数据结构来实现层次Softmax，请对其进行调研和梳理，并分析相较于普通的平衡二叉树，使用哈夫曼树的优点。第三章统计语言模型3.1概述

3.2N-gram模型

3.3平滑技术

3.3.1加一平滑

1.3.2其他平滑

目录语言模型（LanguageModel,LM）：一种用于计算词序列（如：短语、句子、段落等）概率分布的模型。模型用于评估词序列的合理性。3.1概述例

思考:哪个句子更像一个合理的句子？如何量化估计这句话的“合理程度”？3.1概述统计语言模型（StatisticLanguageModel,SLM）：通过大规模文本数据的统计分析来描述词语、语句甚至整个文档的概率分布，用于评估句子或词序列是否符合自然语言的规范。1.主要内容:利用大型计算机和大规模的文本语料库进行统计建模，分析词语之间的搭配和出现频率，从而推导出词语的概率分布。

2.优势：不依赖于人为定义的语法规则，从实际语料中学习和推断自然语言的规律，处理自然语言复杂性和动态性。3.2N-gram模型思考1:语言模型的计算复杂度？

基于N−1阶马尔可夫链的统计语言模型：假设当前词的出现的概率与其前N−1个连续的词相关N元文法（N-gram）模型3.2N-gram模型

当N=1时，称为一元文法（Unigram或Monogram），每个词出现的概率只与其自身的词频相关当N=2时，称为二元文法（Bigram），其基于1阶马尔可夫链构造当N=3时，称为三元文法（Trigram），其基于2阶马尔可夫链构造

对于二元模型，每个词都与它左边的最近的一个词有关联，也就是对于P(A,B,C)=P(A)P(B|A)P(C|B)

比如语句：“猫，跳上，椅子”，P(A="猫"，B="跳上"，C="椅子")=P("猫")P(“跳上”)P("椅子")；其中各个词的数量数语料库M中统计的数量比如语句：“猫，跳上，椅子”，P(A="猫"，B="跳上"，C="椅子")=P("猫")P(“跳上”|“猫”)P("椅子"|“跳上”)；其中各个词的数量数语料库M中统计的数量

依据这些图表一和图表二就可以求出P(A,B,C),也就是这个句子的合理的概率.例3.2N-gram模型给定句子“Marrysingsasong”，计算该句子的概率。利用基于Bigram模型计算上述句子的概率为：上，椅子”，P(A="猫"，B="跳上"，C="椅子")=P("猫")P(“跳上”)P("椅子")；其中各个词的数量数语料库M中统计的数量例3.2N-gram模型

根据上述文本，用极大似然估计计算后验概率:，椅子”，P(A="猫"，B="跳上"，C="椅子")=P("猫")P(“跳上”)P("椅子")；其中各个词的数量数语料库M中统计的数量例3.2N-gram模型“随着人工智能技术的不断发展，通用人工智能和数字经济领域的融合与交叉已成为科研和产业发展的重要趋势。通用人工智能与数字经济创新团队依托金融智能与金融工程四川省重点实验室，面向国家“智改数转”重大战略需求，聚焦行业大模型研究，致力于探索大模型技术在数字经济领域的应用潜力，推动人工智能技术与数字经济产业的创新发展。”

数据稀疏问题：统计语言模型中，训练数据中某些词或短语可能从未出现，或其上下文信息不足，导致模型在估计这些词序列概率时可能出现零概率问题3.3平滑技术

在上面的场景中，由于部分单词对出现的概率为0，导致最终两句话出现的概率均为0。但实际上，s1=“今天没有训练营”比s2=“今天训练营没有”更符合语法习惯，我们也更希望计算出来的P(s1)大于P(s2)。为了解决上述问题，考虑引入平滑处理的技术，来修正计算过程中的概率值，避免某一项概率为0导致整个句子的概率为0。例平滑技术：为那些在训练数据中未出现或出现次数极少的单词或短语提供一个非零的概率估计，从而使模型预测更为合理。主要的平滑技术加一平滑加K平滑古德-图灵平滑插值平滑回退平滑绝对值平滑3.3平滑技术加一平滑（Add-oneSmoothing）：通过将每个事件的观察次数增加一个小常数（通常为1）来减小高频事件的概率估计，然后将结果分配给低频事件，以平滑概率估计。例如，对于Unigram，设w1,w2,w3

三个词，概率分别为：1/3,0,2/3，加1后情况？引入加一平滑

例如，前面Bigram的例子：3.3平滑技术：加一平滑基本思想:每一种情况出现的次数加1。加K平滑（Add-KSmoothing）：加一平滑的泛化形式。每个统计单元的频率计数增加了一个预定的常数K，而非单独增加1。数学表达如下：3.3平滑技术：加K平滑加K平滑能够更灵活地调整平滑程度以适应不同的数据分布。具体来说，通过合适地选择K的值，可以在减少过度平滑与保持数据稳健性之间达到更好的平衡。Discounting（折扣）：通过减少常见事件的估计概率来提高对不常见事件的关注度Interpolation（插值）：将多个语言模型组合在一起，通过分配权重和组合各个模型的概率来平滑概率估计，以提高语言模型的性能和泛化能力。Back-off（后退）：是用于n-gram语言模型的一种平滑技术。在处理稀疏数据时，通过回退到较低阶的n-gram来估计概率3.3平滑技术：插值平滑插值平滑（InterpolationSmoothing）：利用不同阶数的N-gram模型来估算概率。具体来说，插值平滑将各阶数模型的概率进行线性加权平均：

Discounting（折扣）：通过减少常见事件的估计概率来提高对不常见事件的关注度Interpolation（插值）：将多个语言模型组合在一起，通过分配权重和组合各个模型的概率来平滑概率估计，以提高语言模型的性能和泛化能力。Back-off（后退）：是用于n-gram语言模型的一种平滑技术。在处理稀疏数据时，通过回退到较低阶的n-gram来估计概率3.3平滑技术：绝对值平滑绝对值平滑（AbsoluteDiscounting）：直接从每个N元文法事件的观察频率中减去一个固定的值d，之后将剩余的概率质量分配给未见或低频事件。其数学表达式如下：

3.4讨论讨论3.1：你认为语言模型在未来会有怎样的发展趋势？请提出至少亮点预测或观点支持你的观点。讨论3.2：了解回退平滑技术。分析回退平滑和绝对值平滑分别适用于什么样的数据分布和模型需求？在面对大量未见事件或极端稀疏数据时，这两种平滑技术有哪些优势和局限性？第四章

神经语言模型4.1概述

4.2神经概率语言模型

4.2.1概率约束条件

4.2.2模型架构

4.2.3具体过程

4.3基于循环神经网络的语言模型

4.3.1循环神经网络结构

4.3.2基于循环神经网络的语言模型原理

4.3.3基于循环神经网络的语言模型的训练目录4.1概述神经语言模型：是一种基于神经网络的参数化建模方式。其将文本序列的上下文信息编码在模型参数中，并通过学习词之间的统计关系，实现对未见词搭配的预测。基于词频统计的N-gram

语言模型泛化能力差性能依赖语料库处理相似上下文信息表现不佳神经语言模型避免了数据稀疏性问题无需平滑或回退等“补丁”可捕捉更复杂的语言结构和上下文信息4.1概述

4.2神经概率语言模型

4.2.1概率约束条件

4.2.2模型架构

4.2.3具体过程

4.3基于循环神经网络的语言模型

4.3.1循环神经网络结构

4.3.2基于循环神经网络的语言模型原理

4.3.3基于循环神经网络的语言模型的训练目录4.2神经概率语言模型神经概率语言模型(NeuralProbabilisticLanguageModel)由Bengio等人于2003年提出，是将深度神经网络应用于语言模型领域的早期工作之一。利用前馈神经网络来学习词语之间的条件概率关系，以实现文本生成和预测的能力4.2神经概率语言模型4.2.1概率约束条件目标：训练一个模型，使其能够根据给定的上下文预测下一个单词的条件概率分布第1个单词到第t−1个单词序列第t−n+1个单词到第t−1个单词序列由于计算复杂度和上下文长度的限制，实际中通常仅使用最近的n-1个词作为上下文进行预测，将目标近似为4.2神经概率语言模型4.2.1概率约束条件为确保模型输出的是一个有效的概率分布，需满足两个约束条件:概率归一性约束对于给定的任意前文序列，模型对词汇表中所有可能的词的条件概率之和为1此约束可确保模型在所有可能选项中的选择是合理的。非零概率约束每个可能的词的条件概率必须大于零此约束避免了模型为某些词分配零概率的问题，可保证即使在稀疏数据或未见的词组合下，模型仍能生成合理的词序列。4.2神经概率语言模型4.2.2模型架构为建立一个模型能够使得成立，建模任务被拆解为：词向量学习：模型需要将离散的词表示转换为连续的向量。这些向量能够捕捉词之间的语义关系，构成模型输入的基础。概率估计：模型基于上下文(或前文)计算下一个词的条件概率分布。利用神经网络将词向量进行非线性变换，最终输出一个符合概率约束的分布。词嵌入层神经网络4.2神经概率语言模型4.2.2模型架构词嵌入层4.2神经概率语言模型4.2.2模型架构神经网络网络输入：上下文中单词的词向量序列网络输出：一个向量，其中词汇表中第

个元素表示第

个单词在给定上下文下的条件概率公式表示可以是前馈神经网络、循环神经网络或其他含参的函数4.2神经概率语言模型4.2.3具体过程4.2神经概率语言模型4.2.3具体过程输入层4.2神经概率语言模型4.2.3具体过程隐藏层4.2神经概率语言模型4.2.3具体过程输出层4.2神经概率语言模型4.2.3具体过程输出层4.2神经概率语言模型4.2.3具体过程目标函数训练语料库中序列总长度对数似然项正则化项（惩罚项）4.2神经概率语言模型4.2.3具体过程参数更新规则学习率4.1概述

4.2神经概率语言模型

4.2.1概率约束条件

4.2.2模型架构

4.2.3具体过程

4.3基于循环神经网络的语言模型

4.3.1循环神经网络结构

4.3.2基于循环神经网络的语言模型原理

4.3.3基于循环神经网络的语言模型的训练目录4.3基于循环神经网络的语言模型

前馈神经网络缺乏时序结构缺乏记忆能力循环神经网络具有层间反馈连接可维护隐状态序列来捕捉上下文依赖输入序列长度可变4.3基于循环神经网络的语言模型

4.3.1循环神经网络结构输入

x隐藏状态

h输出

y权重矩阵

U：输入层到隐藏层权重矩阵

V：隐藏层到输出层权重矩阵

W：隐藏层内部RNN引入一个环形结构，使得信息可在网络内部循环。在RNN中，每个时间步的输入不仅影响当前步的输出，还会更新一个内部状态，随后该状态用于下一个时间步的输入和内部状态的计算。4.3基于循环神经网络的语言模型

4.3.1循环神经网络结构展开4.3基于循环神经网络的语言模型

4.3.1循环神经网络结构隐藏状态（时间步t

）网络输出（时间步t

）输入偏置激活函数4.3基于循环神经网络的语言模型

4.3.1循环神经网络结构多对多结构每一个时间步都会有一个输入与一个输出，使得输入序列和输出序列的长度保持一致词性标注：标注文本中每一个词的词性命名实体识别：从文本中识别分类特定实体机器翻译：源语言词汇到目标

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

自然语言处理：大模型理论与实践课件全套第1-12章绪论、词向量-评价指标

文档简介

温馨提示

最新文档

评论

自然语言处理：大模型理论与实践 课件全套 第1-12章 绪论、词向量-评价指标

文档简介

温馨提示

最新文档

评论

相关文档

自然语言处理：大模型理论与实践课件全套第1-12章绪论、词向量-评价指标