人工智能通识教程 课件 第09章-大语言模型_第1页
人工智能通识教程 课件 第09章-大语言模型_第2页
人工智能通识教程 课件 第09章-大语言模型_第3页
人工智能通识教程 课件 第09章-大语言模型_第4页
人工智能通识教程 课件 第09章-大语言模型_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第9章大语言模型计算机工程学院信息技术教研室主要内容1. 大模型技术概述2. 大模型技术的架构3. 大模型技术训练过程4. 大模型技术提示工程5.大模型技术应用场景(垂直部署)6.大模型技术伦理与安全7.大模型技术未来展望主要内容1. 大模型技术概述2. 大模型技术的架构3. 大模型技术训练过程4. 大模型技术提示工程5.大模型技术应用场景(垂直部署)6.大模型技术伦理与安全7.大模型技术未来展望1.大模型技术概述大模型(LargeLanguageModels,LLMs)是基于海量数据训练、参数规模超百亿的深度学习模型,能够通过“概率预测”生成连贯文本、回答问题或执行特定任务。如图所示。

图9-1语言模型示意图语言模型是这样一个模型:对于任意的词序列,它能够计算出这个序列是一句话的概率。例如,词序列A:“江苏海洋大学|的|校园|好|漂亮|啊”,这个明显是一句话,一个好的语言模型也会给出很高的概率。再看词序列B:“江苏海洋大学|的|大海|米饭|伟大”,这明显不是一句话,如果语言模型训练得好,那么序列B的概率就会很小。1.大模型技术概述大模型的发展历程并不长,但是速度相当惊人,国内外已经有上百种大模型相继发布,如图所示。图9-3国内外大模型发展简史1.大模型技术概述大模型的核心特点:在“大模型”领域,“大”不仅指参数量的显著增加(例如,GPT-3的参数量达到1750亿),还意味着性能的质的飞跃。模型的规模越大,越能够捕捉复杂的语言规律。例如,小型模型往往无法生成流畅的长文本。此外,大模型展现出强大的零样本学习(Zero-shotLearning)能力,即在未经过特定训练的情况下,能够完成新任务。例如,尽管未曾学习过编程,模型仍然能够根据提示生成Python代码。在模型的开发过程中,人类对齐(Alignment)是一个重要目标。通过指令微调和强化学习的方法,可以使模型的输出更符合人类的价值观,例如拒绝回答与违法行为相关的问题。1.大模型技术概述为什么大模型重要?——技术与社会双重维度:1.技术价值:大模型的出现推动了自然语言处理(NLP)进入“工业化时代”,使其成为人工智能基础设施的重要组成部分,类似于云计算中的API服务。这样的转变使得企业和开发者能够更便捷地利用强大的语言处理能力,从而提升产品和服务的智能化水平。此外,多模态融合技术的基础也得到了进一步发展,例如,GPT-4V能够同时处理文本和图像,为多种应用场景提供了更广泛的支持。2.社会影响:在社会层面,大模型带来了深刻的生产力变革。编程、写作、设计等创意工作正在被重新定义。例如,GitHubCopilot的应用案例表明,该工具能显著提升程序员的工作效率,提升幅度达到55%。这样的技术进步不仅提高了工作效率,也改变了人们的工作方式和思维模式。1.大模型技术概述大模型的争议与挑战:1.能源与成本:大模型的训练过程消耗了大量的能源和资源,如何在追求技术进步的同时降低能源消耗,已成为亟待解决的重要课题。2.偏见与公平:另一个显著的挑战是模型在数据中放大的社会偏见。由于训练数据反映了社会现有的偏见,当模型生成内容时,可能会强化这些偏见。3.“黑箱”风险:由于模型的决策过程往往不可解释,我们很难了解其做出某一决策的具体原因。这种不透明性可能隐藏着潜在的歧视或错误,尤其在敏感领域如医疗诊断中,AI的误判可能导致严重后果,而难以追溯其背后的原因。主要内容1. 大模型技术概述2. 大模型技术的架构3. 大模型技术训练过程4. 大模型技术提示工程5.大模型技术应用场景(垂直部署)6.大模型技术伦理与安全7.大模型技术未来展望2.大模型技术的架构按照语言模型发展的顺序,依次讲解基于统计方法的n-grams语言模型、基于循环神经网络(RNN)的语言模型、基于Transformer的语言模型以及以DeepSeek为代表的混合专家(MoE)架构。语言模型演进图2.大模型技术的架构基于统计方法的语言模型统计语言模型是早期自然语言处理(NLP)中的重要工具,它们主要通过分析词序列的出现频率来预测下一个词。这种方法基于统计学的原理,利用大规模语料库中的词频信息来建模语言的概率分布。N-gram模型:这是最常见的统计语言模型之一,它基于马尔可夫假设,认为一个词出现的概率仅与其前面的n-1个词有关。N-gram模型简单易用,但存在数据稀疏和无法捕捉长距离依赖关系的问题。2.大模型技术的架构N-gram模型的工作原理:N-gram模型通过统计语料库中n-gram序列的频率,估计给定前n-1个元素后下一个元素出现的概率,从而实现文本预测。1.语料库准备:首先,需要有一个大型的文本语料库,用于训练N-gram模型。2.计算频率:然后,计算语料库中所有可能的n-gram序列的频率。3.概率估计:根据这些频率,可以估计出给定n-1个词后,下一个词出现的概率。4.预测:在预测阶段,给定一个词序列的前n-1个词,模型可以输出下一个词的概率分布,从而可以选择最可能的词作为预测结果。2.大模型技术的架构基于RNN的语言模型循环神经网络(RecurrentNeuralNetwork,RNN)是一类网络连接中包含环路的神经网络的总称。给定一个序列,RNN的环路用于将历史状态叠加到当前状态上。沿着时间维度,历史状态被循环累积,并作为预测未来状态的依据。RNN可以基于历史规律,对未来进行预测。基于RNN的语言模型,以词序列作为输入,基于被循环编码的上文和当前词来预测下一个词出现的概率。优点:可以处理任意长度的序列;对更长的输入序列不会增加模型的参数大小;对时间步t的计算理论上可以利用前面很多时间步的信息;对输入的每个时间步都应用相同的权重,因此在处理输入时具有对称性。缺点:计算速度很慢——因为它每一个时间步需要依赖上一个时间步,所以不能并行化;在实际中因为梯度消失和梯度爆炸,很难利用到前面时间步的信息。2.大模型技术的架构基于Transformer的语言模型Transformer模型本质上都是预训练语言模型,它们都采用自监督的方式在大量的生语料(rawtext)上进行训练。自监督学习是一种训练目标可以根据模型的输入自动计算的训练方法,也就是说,训练这些Transformer模型完全不需要人工标注数据。标准的Transformer模型主要由两个模块构成:Encoder和Decoder2.大模型技术的架构Encoder(左边):负责理解输入文本,为每个输入构造对应的语义表示(语义特征),;Decoder(右边):负责生成输出,使用Encoder输出的语义表示结合其他输入来生成目标序列。纯Encoder模型:适用于只需要理解输入语义的任务,例如句子分类和命名实体识别;纯Decoder模型:适用于生成式任务,例如文本生成;Encoder-Decoder模型或Seq2Seq模型:适用于需要基于输入的生成式任务,例如翻译和摘要。2.大模型技术的架构注意力层采用了一种称为注意力层(AttentionLayers)的结构,提出Transformer结构的论文名字就叫《AttentionIsAllYouNeed》。顾名思义,注意力层的作用就是让模型在处理文本时,更多地关注句子中的某些词语,而在一定程度上忽略其他词语,也就是将注意力只放在某些词语上。例如我们要将英文句子“Youlikethiscourse”翻译为法语,由于法语中动词“like”的变位方式因主语而异,因此模型要为词语“like”生成合适的翻译就需要同时关注相邻的词语“You”,而其他的词语则对翻译该词没什么帮助。同样地,在翻译“this”时,模型还需要注意“course”这个词,因为“this”的法语翻译会根据相关名词的极性而有所不同,而其他词则对翻译“this”没什么用。2.大模型技术的架构以DeepSeek为代表的混合专家(MoE)架构DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司。DeepSeek是一家创新型科技公司,成立于2023年7月17日,使用数据蒸馏技术,得到更为精炼、有用的数据。由知名私募巨头幻方量化孕育而生,专注于开发先进的大语言模型(LLM)和相关技术。DeepSeek模型进化史2.大模型技术的架构DeepSeek架构——全球最强开源通用MoE模型。该模型最多有6710亿个参数,其中370亿个为激活参数,它采用了混合专家(MoE)架构,将模型划分为用于数学和编码等任务的专门组件,以此减轻训练负担。DeepSeek-V3融入了工程优化,比如在管理键值缓存方面进行了改进,并进一步推进了混合专家方法。该模型引入了三种关键架构,如图所示:DeepSeek-V3架构2.大模型技术的架构(1)多头潜在注意力(Multi-HeadLatentAttention,MLA)。多头潜在注意力(MLA)通过在键值层中使用低秩矩阵来解决这一问题,从而实现压缩的潜在键值(KV)状态缓存。MLA的低秩联合压缩技术,就像是把大家的行李统一整理,进行智能打包,把很多行李放在一个共享的大包裹里,这个大包裹就像一个经过智能编码的压缩文件,虽然体积变小了,但关键的东西都还在。(2)DeepSeek混合专家(DeepSeekMixtureofExperts,DeepSeekMoE)混合专家模型(MixtureofExperts:MoE)的思想可以追溯到集成学习,集成学习是通过训练多个模型(基学习器)来解决同一问题,并且将它们的预测结果简单组合(例如投票或平均)。集成学习的主要目标是通过减少过拟合,提高泛化能力,以提高预测性能。2.大模型技术的架构MoE和集成学习的思想异曲同工,都是集成了多个模型的方法,但它们的实现方式有很大不同。与MoE的最大不同的地方是集成学习不需要将任务分解为子任务,而是将多个基础学习器组合起来。这些基础学习器可以使用相同或不同的算法,并且可以使用相同或不同的训练数据。混合专家模型2.大模型技术的架构(3)多Token预测(Multi-TokenPrediction)。在训练的过程中要求模型在每个位置上同时预测接下来的n个Token,以提升模型推理效率,并且不会增加预训练时间,如图9-15。图9-15多Token预测(Multi-TokenPrediction)2.大模型技术的架构蒸馏DeepSeek模型DeepSeek开发了较小的、蒸馏版的DeepSeek-R1,参数范围从15亿到700亿,见表1,将先进的推理能力带到较弱的硬件上。这些模型使用原始DeepSeek-R1生成的合成数据进行微调,确保在推理任务中表现出色,同时足够轻量化以便本地部署。DeepSeek蒸馏模型2.大模型技术的架构DeepSeek的深度思考与联网搜索。深度思考:深度思考是一种基于内部知识和经验,通过逻辑推理、分析综合等方法来深入探究问题本质的思考方式。它更侧重于对信息的深度加工和理解,而不是简单地获取信息。在写作、学习和创意生成等场景中,深度思考能够发挥重要作用。联网搜索:联网搜索是一种基于互联网的信息检索方式,通过搜索引擎等工具可以快速查找和获取各种信息。在查新闻、找资料、实时数据等场景中,联网搜索具有显著优势。2.大模型技术的架构DeepSeek的环境配置本地部署能够让用户更好地掌控数据安全和隐私,但对硬件设备有一定要求。DeepSeek本地电脑安装最低硬件配置要求,GPU情况见表:在电脑最低配置要求方面,需要区分GPU和CPU两种情况。如果电脑有GPU,那么最低配置是8GB显存,比如RTX3060/3080等,而CPU作为备用方案。仅有CPU情况下,最低8GB内存,但推荐16GB以上,尤其是7B模型可能需要更多内存。。本地部署最低硬件要求主要内容1. 大模型技术概述2. 大模型技术的架构3. 大模型技术训练过程4. 大模型技术提示工程5.大模型技术应用场景(垂直部署)6.大模型技术伦理与安全7.大模型技术未来展望3.大模型技术训练过程图9-17大模型技术完整训练过程3.大模型技术训练过程数据准备1.数据来源OpenAI在训练GPT-3时,主要使用了多种数据来源,包括经过过滤的CommonCrawl、WebText2、Books1、Books2以及英文维基百科等数据集。其中,CommonCrawl的原始数据量达到45TB,经过过滤后,最终保留了约570GB的高质量数据。2.数据处理(1)去噪GPT-3训练数据中60%为低质量内容,因此去噪在数据预处理中尤为重要。去噪(NoiseRemoval)旨在从原始文本数据中剔除低质量、冗余或干扰性内容,为模型训练提供规范化语料。3.大模型技术训练过程2.数据处理(2)去隐私由于绝大多数预训练数据源于互联网,因此不可避免地会包含涉及敏感或个人信息的用户生成内容,这可能增加隐私泄露的风险。因此,从预训练数据库中删除包含个人身份信息的内容显得尤为重要。(3)去偏见通用预训练语言模型通常在大量的未经过筛选的基于互联网的无监督数据上训练,LLMs继承了其中的刻板印象、错误表述、贬损和排斥性语言以及其他贬低行为,这些行为不对称地伤害着弱势群体或者边缘化群体。这些伤害是“社会偏见”的形式。3.大模型技术训练过程2.数据处理(4)词元切分词元分析(Tokenization)目标是将原始文本分割成由词元(Token)序列的过程。词元切分也是数据预处理中至关重要的一步。字节对编码(BytePairEncoding,BPE)模型是一种常见的子词词元模型。计算过程如图9-18所示。图9-18BPE算法具体实例流程3.大模型技术训练过程2.数据处理(5)数据蒸馏数据蒸馏是一种机器学习技术,它的目标是通过“浓缩”数据的关键信息,帮助模型更高效地学习。数据蒸馏就是利用一个高性能的大模型生成精简但有价值的数据,使得一个小模型可以从中学习并逼近大模型的效果。3.数据标注机器学习主要分为监督学习和无监督学习,无监督学习因效果不可控而常常被用来做探索性的实验。监督学习需要做数据标注,对于标注数据有着强依赖性需求,如图9-19。图9-19通过数据标注获得高质量数据3.大模型技术训练过程训练步骤1.预训练(Pre-training)预训练(Pre-training)是指将一个模型在大量通用数据上进行初步训练,使其学习到一些普遍适用的知识,尤其是在自然语言处理(NLP)中。LLM预训练阶段是教给大型语言模型(LLM)如何理解和生成文本的第一阶段。可以把它看作是阅读大量书籍、文章和网站,以学习语法、事实和语言中的常见模式。在这个阶段,模型通过不同的预训练策略(如自回归语言建模和掩码语言建模)学习文本结构。3.大模型技术训练过程训练步骤2.微调(Fine-tuning)微调(Fine-tuning)是在预训练的基础上,使用特定任务数据集对模型进行进一步训练。与预训练的目标是让模型具备广泛的语言能力不同,微调的目标是使模型针对某个特定任务进行优化,例如情感分析、机器翻译或文本生成。通过微调,模型能够在特定任务中展现出更高的精度和性能。3.对齐(Alignment)随着大模型(又称为基础模型)开始像人类一样从事广泛的语言理解和内容生成任务,人们需要直面一个最根本的、颇具科学挑战的问题:如何让大模型的能力和行为跟人类的价值、真实意图和伦理原则相一致,确保人类与人工智能协作过程中的安全与信任。这个问题被称为“价值对齐”

(valuealignment)。3.大模型技术训练过程训练步骤4.强化学习强化学习则将模型输出文本作为一个整体进行考虑,其优化目标是使模型生成高质量回复。此外,强化学习方法不依赖于人工编写的高质量回复,其模型根据指令生成回复,奖励模型针对所生成的回复给出质量判断。强化学习的模型也可以生成多个答案,奖励模型对输出文本质量进行排序。模型通过生成回复并接收反馈进行学习。图9-24强化学习问题示意图3.大模型技术训练过程训练步骤5.蒸馏蒸馏技术的核心在于知识的传递与迁移,它巧妙地模仿教师模型(通常是参数众多、性能强大的大模型)的输出,以此来训练学生模型(相对参数较少、更为轻量级的小模型)。在这个过程中,教师模型就像是一位经验丰富的导师,已经在大量的数据中学习到了丰富的知识,这些知识不仅仅体现在对正确答案的判断上,更体现在对各类数据特征和关系的理解中。图9-25知识蒸馏示意图主要内容1. 大模型技术概述2. 大模型技术的架构3. 大模型技术训练过程4. 大模型技术提示工程5.大模型技术应用场景(垂直部署)6.大模型技术伦理与安全7.大模型技术未来展望4.大模型技术提示工程“提示工程(PromptEngineering)”这一概念源于语言模型的发展,它描述了如何有效地利用提示从语言模型中提取信息的过程,包括选择合适的词汇、语法、上下文和主题等元素。Prompt工程,作为一门专注于如何编写这些有效指令的技术,成为了连接模型与任务需求之间的桥梁。它不仅要求对模型有深入的理解,还需要对任务目标有精准的把握。通过Prompt工程,我们能够最大化地发挥大语言模型的潜力,使其在多样化的应用场景中发挥出卓越的性能。下面将探讨Prompt工程的概念、方法及作用以及Prompt工程的相关应用。4.大模型技术提示工程Prompt工程简介Prompt定义Prompt是指用于指导生成式人工智能模型执行特定任务的输入指令,这些指令通常以自然语言文本的形式出现。Prompt的核心目的是清晰地描述模型应该执行的任务,以引导模型生成特定的文本、图像、音频等内容。如图9-27所示,通过精心设计的Prompt,模型能够实现多样化的功能。图9-27几种常见的Prompt举例4.大模型技术提示工程Prompt工程定义Prompt工程(PromptEngineering),又称提示工程,是指设计和优化用于与生成式人工智能模型交互的Prompt的过程。这种技术的核心在于,将新任务通过Prompt构建为模型在预训练阶段已经熟悉的形式,利用模型固有的泛化能力来执行新的任务,而无须在额外的特定任务上进行训练。Prompt工程的成功依赖于对预训练模型的深入理解,以及对任务需求的精确把握。通过构造合适的Prompt输入给大语言模型,大语言模型能够帮助我们完成各种任务。图9-28Prompt工程技术应用前后的效果对比4.大模型技术提示工程Prompt工程的意义Prompt工程提供了一种高效且灵活的途径来执行自然语言处理任务。它允许我们无须对模型进行微调,便能有效地完成既定任务,避免微调带来的巨大开销。通过精心设计的Prompt,我们能够激发大型语言模型的内在潜力,使其在垂域任务、数据增强、智能代理等多个领域发挥出卓越的性能。4.大模型技术提示工程上下文学习随着模型训练数据规模和参数数量的持续扩大,大语言模型涌现出了上下文学习(In-ContextLearning,ICL)能力。其使得语言模型能够通过给定的任务说明或示例等信息来掌握处理新任务的能力。引入上下文学习,我们不再需要针对某个任务训练一个模型或者在预训练模型上进行费时费力的微调,就可以快速适应一些下游任务。这使得用户可以仅仅通过页面或者API的方式即可利用大语言模型来解决下游任务,为“语言模型即服务”(LLMasaService)模式奠定了坚实的能力基础。上下文学习(In-ContextLearning,ICL)是一种通过构造特定的Prompt,来使得语言模型理解并学习下游任务的范式,这些特定的Prompt中可以包含演示示例,任务说明等元素。4.大模型技术提示工程思维链思维链提示的定义:思维链提示(Chain-of-Thought,CoT)通过模拟人类解决复杂问题时的思考过程,引导大语言模型在生成答案的过程中引入一系列的中间推理步骤。这种方法不仅能够显著提升模型在推理任务上的表现,而且还能够揭示模型在处理复杂问题时的内部逻辑和推理路径。CoT方法的核心是构造合适的Prompt以触发大语言模型一步一步生成推理路径,并生成最终答案。4.大模型技术提示工程DeepSeek团队最新研究,利用300多万个实例,将代码转换成思考过程,构建出数据集CODEI/O,对Qwen、Llama等模型进行了训练。右图展示了推理过程。4.大模型技术提示工程Promptengineering的挑战与未来提示工程的主要挑战之一是问题的陈述和形式化表达,将思想中存在的需求转化为文本请求。歧义性是另一个挑战。有些形式的歧义对我们人类来说很容易理解,但

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论