计算与人工智能通识（微课版）-课件第7章大模型技术与应用

上传人：q*** IP属地：山东上传时间：2025-11-25 格式：PPTX 页数：59 大小：2.40MB 积分：20 举报 版权申诉

已阅读5页，还剩54页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第7章

大模型技术与应用CONTENTS目录7.1

大模型概述7.2

大模型的架构与技术7.3

模型优化与压缩技术7.4

DeepSeek的技术原理与应用7.5

WPSAI智能办公应用7.1

大模型概述7.1.1

大模型的特点（1）模型的规模巨大。一方面，大模型的参数数量巨大，达到数十亿甚至数万亿的参数。例如，GPT-3模型拥有1750亿个参数，DeepSeek-R1模型有6710亿个参数。另一方面，训练数据的规模巨大。（2）模型的泛化能力强。跨领域的训练方式使得大模型具有很强的泛化能力，即它们可以处理新的、未见过的任务。7.1.1

大模型的特点（3）模型采用预训练加微调的学习方法。首先是利用大规模的无监督数据来预训练模型，使其学习到语言的通用知识。这样，模型就能够理解语言的基本结构和语义信息；接下来，在微调阶段，模型会在特定任务的有监督数据集上进行训练。通过微调，模型可以进一步学习特定任务的知识和规则，从而适应特定任务的训练数据。（4）超高的算力需求。大模型训练对算力的要求较高，需要强大的计算资源来训练和运行。训练周期可能长达数周甚至数月。7.1.2

大语言模型大语言模型是指通过大规模预训练和自监督学习技术构建的深度学习模型，旨在提高计算机对自然语言的理解和生成能力。1．大语言模型的主要技术（1）预训练预训练是大语言模型的重要基础，它通过在大规模语料库上进行训练，使模型学习到丰富的语言知识和上下文信息。这一过程极大地提高了模型的语言理解和生成能力。1．大语言模型的主要技术（2）自监督学习自监督学习是大语言模型训练的重要方式。通过自监督学习，模型能够自动发现输入序列中的规律和模式，从而无须人工标注即可完成训练。1．大语言模型的主要技术（3）Transformer模型架构Transformer模型由编码器和解码器两部分组成。编码器负责将输入序列转换成高维向量表示，解码器则根据这些向量表示生成输出序列。自注意力机制使模型能够同时关注输入序列中的多个位置，捕捉序列内部的依赖关系。1．大语言模型的主要技术（4）多任务学习大语言模型通常被设计为能够处理多种自然语言处理任务，通过多任务学习的方式，模型能够在不同任务之间共享知识，进一步提高其泛化能力。2．大语言模型的两大模型体系大语言模型主要包括BERT系列和GPT系列等代表性模型。BERT模型通过在大规模语料库上进行预训练，学习到了丰富的语言知识和上下文信息，这使得BERT在处理各种自然语言任务时表现出色，如文本分类、问答系统等。而GPT模型则更注重生成能力，通过自回归的方式生成连贯的文本序列。BERT擅长深度理解文本含义，GPT专注生成连贯自然的内容。3．大模型与大语言模型之间的关系7.1.3

主流大模型1．国内主流大模型国内主流大模型以深度适配中文场景、深耕垂直行业、构建全流程合规体系为主要特点，同时结合本土数据与技术生态，形成差异化竞争优势，努力满足国内市场需求。包括DeepSeek大模型、文心一言大模型、通义千问大模型、混元大模型、豆包大模型、星火认知大模型、Kimi大模型、智谱清言大模型、日日新大模型、盘古大模型、WPSAI等。7.1.3

主流大模型2．国外主流大模型国外主流大模型以技术前瞻性、多语言通用性、生态开放性为主要特点，但本土化适配和合规性方面相对薄弱。包括ChatGPT大模型、Gemini大模型、Sora大模型、OpenAIo3大模型等。7.2

大模型的架构与技术7.2.1

Transformer架构Transformer架构主要由编码器（Encoder）和解码器（Decoder）两个部分组成。编码器由多个相同的层组成，每一层都有两个子层。第1个子层是自注意力模块，第2个子层是一个前馈神经网络。编码器首先通过自注意力机制对输入序列进行编码，捕捉序列中的依赖关系和上下文信息。然后，通过一个前馈神经网络对自注意力模块的输出进行非线性变换，得到编码器的输出。解码器也由多个相同的层组成，每一层有3个子层。第1个子层是自注意力模块，第2个子层是编码器-解码器注意力模块，第3个子层是一个前馈神经网络。解码器的任务是使用编码器-解码器注意力模块，对编码器的输出和之前解码器的输出进行交互，以生成当前位置的输出。最后，通过一个前馈神经网络对编码器-解码器注意力模块的输出进行非线性变换，得到最终的输出。7.2.2

自注意力机制1．自注意力机制的概念自注意力机制的核心在于计算序列中各个元素之间的相关性得分，这些相关性得分衡量了不同元素对最终表示的贡献程度。相关性得分是通过一个函数计算得出的，该函数通常是一个神经网络模型。在自然语言处理领域，这个函数通常是一个变换矩阵，它将输入序列中的每个元素映射到一个高维空间中，然后计算两个元素之间的点积或余弦相似度作为它们之间的相关性得分。2．自注意力机制的实现步骤自注意力机制在大模型中的实现通常遵循以下步骤。（1）输入表示将输入序列中的每个元素（如单词、图像块），通过线性变换等操作，分别映射得到对应的查询（Query）向量、键（Key）向量和值（Value）向量。（2）计算注意力得分为了计算不同位置之间的注意力得分，这些得分反映了不同位置之间的相互关系，即一个位置对另一个位置的重要性。2．自注意力机制的实现步骤（3）通过Softmax函数归一化将注意力得分通过Softmax函数进行归一化，使得所有元素的注意力得分之和为1。这样，每个元素的注意力得分就变成了一个概率分布，表示当前元素对其他元素的关注程度。2．自注意力机制的实现步骤（4）加权求和在计算得到注意力得分矩阵后，模型会利用这些得分对输入数据进行加权求和。通过这种加权求和的方式，模型能够聚焦于那些对当前任务更为重要的位置，从而提升模型的性能。（5）输出使用加权表示作为自注意力层输出，其输出可被后续层进一步处理。7.2.3

编码器和解码器的作用原理1．编码器的作用原理编码器的主要任务是将输入序列转换为一个高维的、固定长度的向量表示，即上下文向量（ContextVector）。这个过程通常通过神经网络实现，具体步骤包括输入处理、序列编码、上下文向量生成。2．解码器的作用原理解码器的主要任务是基于编码器生成的上下文向量，逐步生成目标序列。这个过程同样通过神经网络实现，具体步骤包括初始化、序列生成、隐藏状态更新、终止条件。7.2.3

编码器和解码器的作用原理3．自注意力机制模块在编码器-解码器架构中，自注意力机制是一个重要的扩展。它允许解码器在生成每个输出符号时，能够动态地关注输入序列的不同部分。解码器就能够更准确地捕捉输入与输出之间的对应关系，从而提高生成结果的质量。7.3

模型优化与压缩技术7.3.1

知识蒸馏知识蒸馏是一种模型压缩技术，旨在将一个大型的、复杂的模型（TeacherModel，教师模型）的知识迁移到一个较小的、较轻量的模型（StudentModel，学生模型）中，从而使学生模型在保持较高精度的同时，大大减小模型规模，其过程如图所示。1．知识蒸馏的原理（1）教师模型的训练教师模型通常是一个复杂的深度神经网络，具有大量的参数和强大的表达能力。教师模型的训练过程与常规的深度学习模型训练过程相同。（2）学生模型的初始化初始化一个结构更简单、参数更少的学生模型。学生模型的设计需要考虑计算资源的限制和推理速度的要求，它可以是教师模型的简化版本，也可以是完全不同的架构。1．知识蒸馏的原理（3）软标签的生成在知识蒸馏过程中，教师模型为训练样本生成的概率分布（即经过Softmax函数处理后的输出）作为学生模型的监督信号。这些软标签提供了更多类别间的相对信息，有助于学生模型学习到教师模型的决策边界。1．知识蒸馏的原理（4）学生模型的训练使用教师模型的软标签以及真实标签共同指导学生模型的训练，使学生模型能够模仿教师模型的行为。学生模型的结构通常比教师模型要简单，参数较少，但通过学习教师模型的知识，它可以在许多任务上接近或超过教师模型的性能。2．知识蒸馏的应用在图像分类任务中，通过知识蒸馏可以将一个大型的卷积神经网络压缩为一个较小的卷积神经网络，同时保持较高的分类准确率。7.3.2

模型剪枝与量化1．模型剪枝剪枝可以分为结构化剪枝（如层内剪枝，保留完整的神经元组）和非结构化剪枝（单独剪除权重）。结构化剪枝是在网络层内或层间移除完整的神经元组或滤波器。非结构化剪枝是单独剪除权重，而不考虑其在网络中的位置。7.3.2

模型剪枝与量化2．模型量化量化可以分为均匀量化和非均匀量化两种。均匀量化是将权重映射到固定的量化级别上，这些级别在数值上是均匀分布的。非均匀量化是根据权重分布自适应地选择量化级别。7.3.2

模型剪枝与量化3．模型剪枝与量化的应用可以先通过剪枝移除不重要的权重，然后再对剩余的权重进行量化。此外，还可以结合其他优化技术，如稀疏化、低秩分解等，以实现更全面的模型压缩和优化。7.3.3

稀疏化与低秩分解稀疏化技术的核心思想是通过各种方法，将神经网络模型中的大部分参数压缩或剔除，只保留对模型性能影响较大的关键参数。低秩分解则是通过奇异值分解（SingularValueDecomposition，SVD）等技术将神经网络中的权重矩阵近似为低秩矩阵。这种方法特别适合于全连接层，能实现显著的模型大小压缩。7.3.3

稀疏化与低秩分解1．稀疏化稀疏化技术旨在通过引入稀疏性（即大量权重为零）来减少模型的计算量和存储需求。2．低秩分解低秩分解是将高维权重矩阵分解为多个低维矩阵的乘积的方法，以减少参数数量和计算复杂度。7.3.3

稀疏化与低秩分解3．稀疏化与低秩分解的应用稀疏化技术可能需要在存储稀疏矩阵时采用特殊的格式（如按行压缩存储、按列压缩存储等），以便在硬件上实现高效的稀疏矩阵运算。低秩分解技术可能需要在分解过程中考虑模型的稳定性和性能损失等问题。7.4

DeepSeek的技术原理与应用7.4.1

DeepSeek的技术原理1．核心技术（1）基于Transformer架构的创新DeepSeek的模型基于当前最先进的Transformer架构，该架构利用自注意力机制有效处理序列数据中的长距离依赖关系。同时，DeepSeek对Transformer架构进行了改进与优化，一是采用稀疏注意力机制，二是引入混合专家模型架构。1．核心技术（2）更大规模的参数DeepSeek的大语言模型拥有数百亿到数千亿参数，更大的模型规模意味着更强大的语言理解能力、更丰富的知识储备以及更自然的语言生成能力。2．训练方法DeepSeek采用多种先进的技术和方法来训练其大语言模型，包括5个方面：分布式训练、混合精度训练、强化学习与多词元预测、持续学习与微调、人类反馈的强化学习。7.4.1

DeepSeek的技术原理3．工作流程（1）输入处理用户输入文本或代码片段后，DeepSeek通过分词器将其转换为模型可处理的词元序列。同时，系统会进行预处理，包括违法不良信息审核等。（2）专家选择与推理模型根据输入内容动态选择最适合的专家网络进行处理。7.4.1

DeepSeek的技术原理3．工作流程（3）模型推理模型基于注意力机制计算每个位置的重要性权重，根据语言的统计规律、知识和对齐要求进行推理和计算，预测下一个最佳词语等，逐步生成文本。（4）输出处理生成的文本或代码经过审核，确保内容符合规范和要求后，将结果输出返回给用户。7.4.2

DeepSeek的应用1．DeepSeek应用领域DeepSeek已在多个领域得到广泛应用，包括文本处理、编程辅助、智能交互、数据分析和预测、内容创作、其他应用。2．DeepSeek应用实战（1）与DeepSeek进行对话访问DeepSeek官网，单击首页的“开始对话”会出现对话界面，在提示词输入框输入提示词。2．DeepSeek应用实战（2）DeepSeek的基本用法DeepSeek使用的基本原则是简单直接、自然表达，既能满足日常需求，也能实现专业目标，以便更精准地获取所需信息。（3）使用DeepSeek处理文档单击DeepSeek界面中的“回形针”图标上传文件，然后，就可以在对话框中输入提示词。7.5

WPSAI智能办公应用7.5.1

智能文档处理1．WPSAI帮我写在WPS文字主界面中，选择“WPSAI”选项卡，单击其中的“帮我写”按钮，即可开启“帮我写”功能。1．WPSAI帮我写用户只需在“帮我写”悬浮窗中输入问题，“帮我写”功能即可迅速生成大纲或全文，大幅提升写作效率，如图所示。还可以在“AI帮我写”下拉列表显示的场景中进行选择，单击运行按钮即可生成文本。生成完成后，可根据需要选择调整（续写、润色、扩写、缩写）、重写、弃用或保留。输入问题后，单击优化指令按钮，一句话的需求即可转化为专业指令，AI生成内容更符合用户的预期。“帮我写”功能，可一键生成自带格式排版的各类规范文书。还可去“灵感市集”探索，选择想要的指令模板。在“AI帮我写”下拉列表中单击“去灵感市集探索”按钮，即可打开“灵感市集”对话框。2．WPSAI帮我改在“WPSAI”选项卡中单击“帮我改”按钮或双击“Ctrl”键唤起WPSAI悬浮窗，根据需求选择需要的操作即可。此外，也可以直接在“WPSAI”选项卡下单击“续写”“扩写”“重写”“缩写”或“润色”按钮。用户若对文本的措辞不满意，可利用“帮我改”功能快速润色。利用该功能，用户还可以根据需求，对文本风格进行调整。目前支持的风格有：更正式、党政风、更活泼、口语化和更学术。

如果用户觉得内容有些简短或过长，还可以利用“帮我改”功能实现一键扩写或缩写，根据需求调整文本长短。“帮我改”功能既能由词扩句，由句扩段，由段生文，帮助用户丰富文章细节，也能快速精炼内容而不丢文意。3．WPSAI伴写在WPS文字的“WPSAI”选项卡中单击“伴写”按钮，在右侧“AI伴写”窗格中单击开启按钮，如图所示。“伴写”功能开启后，光标将变为渐变样式，且左下角状态栏将显示伴写开启图标。

“伴写”功能可自动理解前文内容，实现快速响应，用浅灰色文字实时提供内容写作建议。用户可以按“Tab”键或鼠标单击选择满意的内容，顺畅地接续写作思路。若对当前续写不满意，无须切换页面，只需按“Alt+↓”键即可查看更多建议，获取更多灵感。日常写作可选用“通用”角色辅助，而在更细分的写作场景中，可在“AI伴写”窗格中切换使用“行政”“教师”“运营”专业角色。

利用“伴写”功能，用户可在写作过程中轻松地“引经据典”，不用纠结如何遣词造句，能提升表达深度。用户在输入古诗词或名篇名作的部分内容后，“伴写”功能将自动识别并提示后文，如图所示。

4．WPSAI排版在WPS文字的“WPSAI”选项卡中单击“AI排版”下拉按钮，然后单击“更多类型排版”选项即可打开“AI排版”窗格，用户可根据需要在窗格中选择文档类型。4．WPSAI排版若要对学位论文进行排版，用户只需在“WPSAI”选项卡下单击“论文排版”按钮，在“AI排版”窗格中搜索学校名称，单击“开始排版”按钮即可。若“AI排版”提供的文档类型无法满足特定需求，用户可自行上传范文。“AI排版”将智能识别格式，实现个性化智能排版。排版完成后，用户可以勾选“显示原文”复选框，“AI排版”会生成排版前后效果对比预览，方便快速定位，进行自定义调整优化。7.5.2

智能数据分析1．WPSAI写公式用户只需将光标放置在需要写入公式的单元格上，在WPS表格的“WPSAI”选项卡中单击“AI写公式”按钮即可唤起WPSAI悬浮窗。“AI写公式”可以通过文字描述，帮助用户智能生成公式。例如，有学生成绩表如图所示，单击H2单元格，然后在“AI写公式”悬浮窗中输入指令“对C列到G列的数据求和”，WPSAI会自动分析指令，并根据相应的公式计算结果。对于不理解的公式，可通过鼠标单击公式中不理解的地方，WPSAI将自动定位多层嵌套函数，进行相应解释。例如，首先让“AI写公式”生成“求姓‘李’的同学中总分的最大值”指令对应的公式，单击“对公式的解释”按钮，或将光标放置在公式的MAX函数中，再单击“MAX解释

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

计算与人工智能通识（微课版）-课件第7章大模型技术与应用

文档简介

温馨提示

最新文档

评论

计算与人工智能通识（微课版）-课件 第7章 大模型技术与应用

文档简介

温馨提示

最新文档

评论

相关文档

计算与人工智能通识（微课版）-课件第7章大模型技术与应用