版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章大模型《人工智能通识教程》配套课件《人工智能通识》教研组本章概述本章系统介绍大模型的基本原理、关键技术与术语,涵盖模型分类、开发流程及核心结构(如Seq2Seq和Transformer),重点讲解模型微调与未来发展方向,帮助读者全面理解大模型技术体系。主要讲述的内容如下:(1)大模型的生成原理与关键技术解析。(2)大模型按结构、模态及微调方式的分类介绍。(3)大模型开发的完整流程,包括数据、训练和部署。(4)核心模型结构详解:Seq2Seq与Transformer及其机制。(5)模型微调技术,如监督微调和PEFT技术。(6)未来发展方向,特别是AI智能体与具身智能。本章目录3.1大模型概述3.2大模型介绍3.6Seq2Seq结构3.5应用场景3.4大模型的开发流程3.3大模型分类3.7Transformer3.8模型微调3.9未来发展方向本章目录3.1大模型概述3.2大模型介绍3.6Seq2Seq结构3.5应用场景3.4大模型的开发流程3.3大模型分类3.7Transformer3.8模型微调3.9未来发展方向3.1大模型概述大模型以参数规模与数据驱动性能跃升,凭借预训练、微调与高效推理,在语言、视觉与推理等领域突破,带动产业应用与人机交互革新。中美领跑与开源繁荣并进,推动技术落地与生态壮大。(1)技术范式:预训练、指令微调与对齐,结合检索增强、工具调用与多模态融合,提升鲁棒性与可控性。(2)训练基础:高质量多源语料与大规模算力集群,数据治理、去偏与安全红线共同塑造泛化边界。(3)高效推理:蒸馏、量化、稀疏化与KV缓存,边云协同与批量调度,降低延迟与成本,保障服务稳定。(4)生态格局:中美领跑,国产文心、盘古、言犀与GPT、Gemini并行;开源LLaMA、ChatGLM等降低门槛。(5)中国路径:融入中文语境与价值对齐,服务实体产业场景;加强标准评测与合规,构建开放自主体系。本章目录3.1大模型概述3.2大模型介绍3.6Seq2Seq结构3.5应用场景3.4大模型的开发流程3.3大模型分类3.7Transformer3.8模型微调3.9未来发展方向3.2大模型介绍大模型属于FoundationModel(基础模型),是一种神经网络模型,具有参数量大、训练数据量大、计算能力要求高、泛化能力强、应用广泛等特点。大模型参数达十亿至千亿级,远超传统百万至千万级。其以海量与高质量多样标注语料预训练,难在单GPU完成,常借助DeepSpeed、Megatron‑LM等优化技术在集群上进行分布式训练。大模型技术过程如图3-1所示。3.2大模型介绍图3-1大模型技术演进过程3.2大模型介绍大模型基于Transformer架构构建,由多层神经网络层叠而成,能够根据输入内容生成相应的输出。大模型核心生成原理是将输入的语句以词向量的形式传递给神经网络,通过编码器/解码器(Encoder/Decoder)结构、位置编码以及自注意力机制来建立单词(或字)之间的联系。大模型为每个词与其他词计算相关性,并将结果编码叠加到该词表示中,形成丰富上下文。此机制兼顾局部与全局信息,增强理解与生成能力,提升对文本整体意义的把握与输出质量。相关性权重可视化示例如图3-2所示,经过计算后,“it”与输入句子中的其他单词的相关性权重将会增加,颜色越深代表相关性越高。3.2.1生成原理3.2大模型介绍图3-2相关性权重可视化示例3.2大模型介绍在获得各个单词间的相关性之后,模型以概率分数标记序列中下一个输出的单词的可能性(也称概率),并选择最佳选项。不同单词的输出概率如图3-3所示,由于“movie”的概率最大,因此模型的最终输出结果为“movie”。图3-3不同单词的输出概率3.2大模型介绍通过束搜索方法生成最佳输出如图3-4所示。图3-4通过束搜索方法生成最佳输出3.2大模型介绍同时考量4个序列的联合概率,将候选序列视为整体评估,而非逐词独立决策。用一组单词的颜色深浅表示输出概率(颜色越深,被选择与输出的概率越大),以便直观对比不同序列的整体优劣。这种整体式评估能跨词捕捉依赖与一致性,避免逐步贪心导致的局部最优,提升连贯性与语义正确性。通过联合概率最大化,模型在复杂文本生成中取得更高的质量与稳定性。3.2大模型介绍大模型(如GPT-4、LLaMA2等)的优异性能离不开多种技术的支持。下面将介绍大模型的关键技术,这些技术在大模型的研究过程中提供了重要的理论支撑。1.迁移学习迁移学习(TransferLearning)最早于2005年由加拿大工程院和皇家科学院院士杨强教授提出。迁移学习以源领域预训练为基础,将通用知识迁移至目标领域,配合微调与小样本,快速适配任务,提升性能并降低成本。(1)核心思想:在数据充足的源领域学到通用表征,再将知识迁移至数据稀缺的目标领域,减少标注需求与训练难度。(2)在大模型中常以预训练为底座,结合指令微调、领域适配与对齐技术,使模型快速掌握新任务语境与规则。(3)典型方法含全量微调、参数高效微调(LoRA/Adapter)、提示学习与少样本学习,权衡效果、成本与部署便捷。3.2.2大模型关键技术3.2大模型介绍(4)应用广泛覆盖情感分析、文本分类、命名实体识别与检索问答等,少量高质量样本可带来显著性能增益。(5)优势在于节省算力与时间、降低数据依赖并增强泛化;挑战包括负迁移、领域偏移与对齐风险,需稳健评测与治理。3.2大模型介绍2.零样本学习零样本学习基于属性与概念迁移,使模型识别未见类别;结合提示词设计,可放大泛化与交互效果,拓展大模型应用边界。(1)奠基脉络:2009年Lampert提出属性迁移与AwA数据集,为零样本学习提供可复用属性空间与跨类知识桥梁。(2)核心机理:以属性/概念表征连接已见与未见类别,通过语义嵌入映射实现从特征到语义再到类别的推断。(3)评测地位:零样本能力成为大模型关键指标,衡量跨域泛化、开放集识别与对新概念的理解与适应。(4)提示词协同:结构化Prompt注入任务上下文与约束,显式描述属性与关系,提升未见类别推断的准确与稳定。(5)实践路径:构建属性词表与描述模板,结合检索增强与约束解码,配合少量验证样本完成校准与偏差控制。3.2大模型介绍例如下面的示例。模型输入:你现在需要从这句话中抽取出城市名称和目的地信息。我想去上海的外滩,那里有壮观的夜景。模型输出:上海,外滩零样本学习存在使用限制,只有当用户的目标任务与模型已具备的能力相匹配时才能获得最优的零样本学习效果。3.2大模型介绍用户在实际使用大模型时,通常会根据任务的复杂程度选择不同的提示词策略。主要包括三种类型:(1)零样本提示(Zero-shotPrompting):适用于简单任务,无需提供任何示例,用户直接向大模型发出指令即可完成。(2)小样本提示(Few-shotPrompting):面对较为复杂的任务时更加有效,通过提供少量示例,帮助大模型更准确地理解任务要求并执行。(3)思维链提示(Chain-of-ThoughtPrompting):适用于复杂的推理任务(如算术推理、常识推理和符号推理等),通过向模型展示带有中间推理步骤的示例,指导大模型逐步推理完成任务。不同提示策略的灵活运用,能显著提升大模型在各种任务中的表现和效果。3.2大模型介绍3.小样本学习小样本学习(Few-shotLearning)是指大模型通过使用很少的样本进行学习。与零样本学习相似,小样本学习也常常与提示词结合使用。当大模型无法理解用户提出的问题,或者用户希望模型按照特定格式输出时,可以采用小样本学习方法。在这种情况下,用户可以在提示词中加入引导信息并提供一些示例,以指导大模型生成符合业务要求的输出结果。小样本与零样本提示词均旨在提升任务表现;前者借少量示例适配,后者依赖清晰描述推理,场景取舍关键。(1)共同目标:两者提示词均用于传达任务意图、约束输出格式与评价标准,降低歧义,提升模型在特定场景的可靠性。(2)样本依赖:小样本内含1~5个高质量示例对齐风格与步骤;零样本无示例,需以定义、规则与边界条件强化任务理解。(3)信息组织:小样本以“示例-解析-答案”结构示范路径;零样本以指令、条件、术语表与负例描述确保覆盖与精确性。3.2大模型介绍(4)鲁棒与泛化:小样本易随示例偏置漂移,需多样示例防过拟合;零样本更依赖通识与词汇对齐,受提示措辞敏感。(5)适用场景:小样本适合固定模板与近邻迁移;零样本适合新类别、长尾与开放集识别,便于快速冷启动与扩展。在下面的示例中,使用零样本学习方法构造提示词,要求模型对句子进行分词。从下面的示例可以看到,模型的输出结果并不正确。模型输入:请对这句话进行分词。我一把把车把把住了模型输出:我/一把把/车把/把/住/了如果在提示词中给出部分示例,模型将可以生成更好的输出结果。在下面的示例中,我们使用小样本学习来构造提示词。3.2大模型介绍模型输入:请参照下面的示例,对给定语句进行分词,示例数据如下:我想过过儿过过的生活对上述示例进行解析,“我”是主语,“想过”是指想要尝试,“过儿”指的是《神雕侠侣》中的杨过,“过过的生活”指的是曾经生活过的生活。因此,最终的分词结果应该是:我/想过/过儿/过过的/生活。向模型输入由小样本学习构造的提示词后,对于相同的分词任务,模型可以生成更好的结果。模型输入:我一把把车把把住了模型输出:我/一把/把/车把/把住了3.2大模型介绍4.持续学习应用需求变化常需重训模型。持续学习作为增量学习,在任务序列上训练,使模型保留旧知识并适配新任务,解决遗忘,提升长期适应性与复用效率。以ERNIE2.0为例,引入多种预训练任务,渐进学习词语、句法与语义表征;在学习新任务时保留旧任务记忆,多项NLP基准优于BERT与XLNet。5.多任务学习传统机器学习多为单任务模式,复杂问题拆分为子任务分别训练再合并。多任务学习并行学习多任务,共享表征,增强泛化与迁移能力。核心在于挖掘任务关联,合理时可互补提升性能。以GPT‑2为例,多任务自监督预训练于40GBWebText,多个任务达SOTA。多任务学习通过共享与协同,构建更鲁棒模型,缩短训练时间并利于快速适配新任务;在NLP与视觉等领域广泛应用。3.2大模型介绍6.RLHF强化学习(ReinforcementLearning,RL)是一种通过与环境反复交互和试错,最终实现特定目标或最大化整体收益的技术。强化学习不依赖于标注数据集,但需要在每一步行动后获得环境反馈,基于反馈不断调整和优化行为策略。2017年OpenAI与DeepMind提出“基于人类偏好”的强化学习,少量非专家反馈显著提升雅达利表现。2022年OpenAI在InstructGPT中引入RLHF,分阶段训练以对齐人类价值,减少有害输出,成为大模型关键技术。下面将其分为三个阶段进行详细讲解。第一阶段:2017年OpenAI与DeepMind提出“基于人类偏好”的强化学习,少量非专家反馈显著提升雅达利表现。2022年OpenAI在InstructGPT中引入RLHF,分阶段训练以对齐人类价值,减少有害输出,成为大模型关键技术。3.2大模型介绍第二阶段:目标是训练奖励模型。奖励模型应能评判InstructGPT模型的输出结果是否符合人类偏好。RLHF训练过程如图3-5所示。图3-5RLHF训练过程3.2大模型介绍第三阶段:利用PPO生成输出,奖励模型评估反馈并给出奖励信号,更新PPO策略;循环迭代采样与优化,逐步引导模型对齐人类价值与偏好,提升安全与有用性。3.2大模型介绍7.上下文学习2020年GPT‑3提出上下文学习:无需调整参数,将任务输入输出示例拼接为提示,引导模型预测;在多任务上显著优于传统无监督方法。核心是用适当示例调用已有知识,无需微调即可响应输入并生成合理输出,提升灵活性与适应性,拓宽NLP任务解决路径。8.思维链思维链(ChainofThought)最早由Google公司的高级研究员JsonWei等人于2022年提出。思维链是一种离散式的提示学习方法,可以提高模型在复杂任务上的性能。以思维链方法指导模型生成正确答案如图3-6所示。3.2大模型介绍图3-6以思维链方法指导模型生成正确答案3.2大模型介绍9.提示工程提示词在大模型中至关重要,精心设计可准确传达意图与约束,提升生成质量与针对性。零样本与小样本提示不改参数,通过文本引导优化输出,属提示工程范畴。实践中可用少量示例或格式化模板快速达成目标。相比微调,门槛更低、灵活易用,非专业用户亦可高效落地应用,推动AI普及与行业价值释放。3.2大模型介绍大模型三术语:Token、Prompt、Embedding之定义、作用与联系,助理解文本编码、提示构造与语义表征。1.TokenToken是文本最小单位,经分词生成;模型以Embedding表示Token,预测下一Token,贯穿训练与应用。(1)常见分词法含BPE、WordPiece、ULM,一词多切保障泛化。(2)训练需加载权重并配套Tokenizer,避免不一致。(3)模型接收Token序列,递归预测下一个Token。(4)Embedding将Token映射向量,便于神经网络处理。(5)正确分词与向量化决定微调效率与效果3.2.3大模型关键术语3.2大模型介绍2.PromptPrompt既可为自然语言也可为向量,更偏训练语境:提供上下文、改写任务形式(如完形填空),通过模板或可学习表示引导模型在无/有监督下生成更准确输出。(1)训练中Prompt承载上下文与任务指示,区别于交互提示词;可作向量嵌入,与模型联合优化,提升对齐与效果。(2)情感分类示例:“Ilovethissong”配“Thissongis”转为填空,输出“wonderful”等,化分类为生成。(3)一般化流程以函数f_forward(x)将文本转模型输入,模板“[X]Thisisa[Z]song.”标注输入与生成槽位。(4)空位在中间称ClozePrompt,句末称PrefixPrompt;位置与上下文长度影响可控性与准确性。(5)设计法含手工模板与自动学习模板;前者直观但依赖经验,后者高效自适应但需数据与正则化。3.2大模型介绍3.EmbeddingEmbedding将离散文本映射为低维连续向量,以距离与方向表征语义、句法与关系,便于高效计算、相似度度量与下游任务泛化。由静态向量进化为上下文相关表示,ELMo、BERT、GPT据语境动态生成嵌入,提升理解、抽取与生成效果。本章目录3.1大模型概述3.2大模型介绍3.6Seq2Seq结构3.5应用场景3.4大模型的开发流程3.3大模型分类3.7Transformer3.8模型微调3.9未来发展方向3.3大模型分类大模型可按结构分为Decoder-Only、Encoder-Only、Encoder-Decoder;按模态分单模态与多模态。微调含未微调、指令微调、RLHF。插件系统以API扩展能力,增强个性化、灵活性与鲁棒性。3.3大模型分类依据Transformer模块不同,模型分为Encoder-Only、Decoder-Only、Encoder-Decoder,各自适配下游任务,如理解、生成、序列到序列场景。早期多为开源模型如BERT、ERNIE、T5、BART,偏Encoder或编解码结构,编码能力强,适用于分类、情感、实体识别等。GPT-3、ChatGPT、GPT-4多用Decoder-Only,生成卓越但多未开源;结构各擅胜场,Decoder-Only随应用增长而持续受瞩。3.3.1按模型结构划分3.3大模型分类按模态划分,大模型可以分为单模态和多模态(或称跨模态)两类。单模态模型仅处理单一模态任务,如纯语言、视觉或音频,含Alpaca、BLOOM、ChatGLM、GPT-2。语言模型细分含StarCoder、Chinese-Vicuna、ChatGLM-6B、MedicalGPT-zh、Chat-Doctor等。多模态/跨模态大模型则指能够执行一种或多种跨模态/多模态任务(如文本、图像、视频、语音等),并具有强大的跨模态理解和生成能力的模型。按模态转化方式,可以将大模型进一步划分为以下几种类别:(1)文生图类(如CogView、ConsistencyModels)。(2)图文互生类(如UniDiffuser)。(3)图文匹配类(如BriVL)。(4)文生音类(如MassivelyMultilingualSpeech)。(5)音生文类(如Whisper)。(6)文音互生类(如AudioGPT)。3.3.2按模态划分3.3大模型分类根据微调方式的不同,大模型可以划分为以下几类:1.未经过微调的Transformer大模型未经专门下游微调的模型侧重通用预训练,具备较好基础能力与迁移性,适配多种任务;用户可按需再微调,以注入领域知识与约束,提升特定场景表现与稳健性。代表模型含LLaMA等开源基座,具文本生成与理解能力,常用于研究与开发初期,作为可塑平台承载指令微调、领域适配与评测基线。3.3.3按微调方式划分3.3大模型分类2.经过指令微调的大模型在原始预训练基础上经指令微调,利用人工标注数据强化指令理解与任务响应,提升专任务表现。代表如Alpaca、Vicuna、WizardLM、Baize、BELLE等。此类模型的例子包括:(1)WizardLM:通过指令微调增强了任务特定的表现,尤其在处理人机交互和任务驱动的场景时表现出色。(2)Dolly2.0:由Databricks推出的开源对话模型,经过指令微调,旨在改善与用户的交互体验。(3)Chinese-LLaMA-Alpaca:结合了LLaMA和Alpaca的优点,专为中文对话生成进行了指令微调,适用于中文语言处理任务。3.3大模型分类3.基于人类反馈的强化学习训练的大模型这类模型使用基于人类反馈的强化学习(ReinforcementLearningfromHumanFeedback,RLHF)方法进行训练,以进一步提升模型的生成质量和准确性。这类模型的例子包括:(1)StableVicuna:通过人类反馈进行强化学习优化,旨在提升生成的上下文相关性和准确度。(2)ChatYuan-large-v2:在特定领域的对话生成中,借助人类反馈,提高模型的响应质量和任务适应性。(3)OpenAssistant:同样通过人类反馈进行强化学习训练,使得模型在交互障碍和用户需求理解上更加出色。3.3大模型分类插件系统通过灵活集成多种工具,增强模型的专业性、可解释性和鲁棒性,实现定制化功能扩展。2023年OpenAI推出插件功能,支持浏览器、计算器、日历等多样服务,提升用户体验和任务处理能力。3.3.4带插件系统的大模型3.3大模型分类1.插件系统的优势(1)灵活性插件系统按需接入功能与服务,快速定制模型能力;翻译接入语言插件,解题对接计算工具,适配多样业务场景与任务。(2)增强专业知识集成行业数据库与API,实时获取最新数据与研究,突破训练知识时效,提升特定领域专业性与建议准确性。(3)提高可解释性可见调用的插件与参数,溯源数据与方法,帮助理解推理路径与结论依据,便于评估输出可信度与合规性。(4)增强鲁棒性面向新复杂任务引入外部支援;功能异常可切换替换插件,模块化提升适应性与稳定性,保持持续可靠执行。3.3大模型分类2.插件功能的实例2023年3月,OpenAI正式发布了OpenAIPlugins功能,允许将第三方应用程序集成到GPT模型中,以便为用户提供更加多样化的服务。例如,用户可以通过插件访问:(1)浏览器插件:实时获取网页内容,回答时事问题或提供最新新闻资讯。(2)计算器插件:进行复杂的数学运算,支持符号计算和图形绘制。(3)日历插件:管理用户的日程安排,设置提醒和计划。本章目录3.1大模型概述3.2大模型介绍3.6Seq2Seq结构3.5应用场景3.4大模型的开发流程3.3大模型分类3.7Transformer3.8模型微调3.9未来发展方向3.4大模型的开发流程大模型的开发流程包括多个关键步骤。明确目标与系统框架,选模型与数据集;准备监督、指令与人类反馈数据并预处理;据目标选Transformer与超参;经分词器训练、预训练、微调;量化剪枝后部署;以Gradio、Streamlit可视化,优化体验促应用。大模型的开发流程如图3-7所示。图3-7大模型的开发流程3.4大模型的开发流程在开发大模型之前,首先需要明确项目目标。这一步骤对整个开发过程至关重要,因为项目目标将指导后续的架构选择和实施策略。开发者需要考虑:(1)任务类型:确定模型将要解决的具体任务,例如自然语言理解、生成、图像识别等。(2)模型架构的选择:根据任务的需求,选择合适的模型架构。常见的架构包括Transformer、CNN、RNN等。以语言任务为例,Transformer架构由于其并行处理能力和效果显著,广泛应用于多个NLU和NLG任务。(3)算法选择:选择适合的学习算法,如监督学习、无监督学习或强化学习,这将影响模型的训练机制和最终结果。(4)数据集的选择:根据项目目标,确定合适的数据集进行训练。这些数据集可以是开源的,也可以是特定领域收集的。财务问答系统的框架如图图3-8所示。以项目目标为核心,设计行之有效、结构合理的系统框架是大模型获得成功的关键。3.4.1确定项目目标3.4大模型的开发流程图3-8财务问答系统的框架3.4大模型的开发流程大模型常用的数据类型包括监督数据、指令数据、对话数据、人类反馈数据等。(1)监督数据由人工或众包标注获得,含输入与对应标签/监督信号,用于指导模型学习正确输出,提升识别与预测准确性与可泛化性。(2)指令数据由指令与回答组成,指导模型学习任务格式与解题路径,主要用于训练与参数调整,增强对指令理解与执行能力。(3)对话数据面向人机交流能力训练,涵盖单轮与多轮语料,学习上下文承接、意图识别与回复策略,提升连贯性与互动质量。(4)人类反馈数据在开发训练中加入的人类标注、审查与修正;如Anthropic之RLHF含人类接受与拒绝对比,优化偏好对齐与安全性。3.4.2数据集收集与预处理3.4大模型的开发流程数据预处理是提高模型性能和减少可能错误的重要步骤。图3-9文本数据预处理流程3.4大模型的开发流程模型设计是大模型开发的关键步骤,需要结合项目目标、数据特征以选择合适的模型。Transformer架构是大模型开发的基石。对于多模态任务,VisualTransformer是模型开发常用的视觉模块。模型设计过程如图3-10所示。模型设计过程一般包含5个步骤。3.4.3模型设计图3-10模型设计过程3.4大模型的开发流程大模型训练含分词器训练、预训练、微调三步;为提升安全与对齐,可用RLHF/RLAIF。预训练常以开源基座起步,中文迁移需扩充词表并重设Embedding与lm_head,随后以PyTorch完成预训与下游微调。(1)分词器训练为适配中文,手动加入常用汉字Token,更新词表,同步调整Embedding与lm_head维度,保障编码一致。(2)预训练目标在海量无标签语料上学习潜在规律与表征,构建通用能力;优先保证多样性、清洗质量与稳定吞吐。(3)中文迁移实践如Chinese-LLaMA-Alpaca,基于Alpaca二次中文预训,实现英到中文知识迁移,提升中文理解与生成。3.4.4模型训练3.4大模型的开发流程(4)对齐与安全采用RLHF、RLAIF基于人类偏好与规则反馈优化回复,使输出更无害、守约束,兼顾实用性与合规性。(5)微调落地面向下游任务进行指令/领域微调,选LoRA、全参或混合策略,以PyTorch高效实现并评估泛化与鲁棒性。3.4大模型的开发流程模型的部署是将训练完成的模型应用于实际场景中的重要环节。在部署过程中,需考虑以下几个方面:(1)推理服务:确保模型提供的推理服务能够满足实际需求,例如响应时间、并发能力等。需要评估模型在实际环境中的运行效率,是否能够实时处理用户请求。(2)基础设施:选择合适的硬件和软件基础设施,以支持模型的运行。这可能包括云计算平台或本地数据中心的选择。同时,实时监控和负载均衡也是提升服务质量的关键。3.4.5模型部署3.4大模型的开发流程业界提供的丰富开源模型、库和工具资源可以大大减轻开发者在模型设计和实现方面的负担,包括:(1)开源框架:如PyTorch、TensorFlow等,提供了强大的工具支持和社区资源,可以极大地加速开发进程。(2)预训练模型:使用开源模型如BERT、GPT、T5等进行基础构建,开发者可以针对自身任务进行微调,节省时间并降低开发成本。(3)社区互动:技术社区如HuggingFace、Kaggle等提供了交流平台,开发者可以获取经验、分享成果并相互支持。3.4.6开源资源和开发者支持3.4大模型的开发流程最后,在模型部署后,需要进行效果评估和用户反馈收集:(1)效果评估:通过准确率、召回率、F1分数等指标来评估模型在特定任务上的表现,确保其满足业务需求和用户期望。(2)用户反馈:收集用户对模型输出的反馈,了解模型在实际应用中的表现,进一步指导后续的优化和改进。3.4.7评估和反馈3.4大模型的开发流程模型应用是大模型开发流程中的最后一步。在这一阶段,由于应用将直接面对用户,因此选择合适的开发框架和前端工具,以确保人工智能应用具备良好的易用性和美观性,显得尤为重要。3.4.8模型应用3.4大模型的开发流程1.选择合适的开发框架和前端工具在构建用户友好的界面时,开发者通常选择一些流行的前端可视化工具,其中Gradio和Streamlit是两个主流的选择:(1)Gradio特点:Gradio是一个开源的Python库,用户可以通过简单的代码快速创建交互式的Web应用。它支持多种界面元素,如文本框、按钮和图像输入,能够轻松地展示机器学习模型的输入和输出。使用场景:非常适合快速原型开发和展示机器学习模型给非技术用户,方便进行模型的演示和用户反馈收集。(2)Streamlit特点:Streamlit也是一个用Python构建流式Web应用的框架。它允许开发者快速构建数据应用,直接将Python脚本转化为用户界面,具有高度的灵活性和可定制性。使用场景:Streamlit非常适合需要复杂交互和实时可视化的应用,如数据展示、实时分析和仪表板等。3.4大模型的开发流程2.构建大模型应用在开发大模型应用时,可以以LangChain作为核心框架。LangChain是一个专为构建基于长文本对话的应用设计的框架,可以支持多种预训练语言模型。通过LangChain,开发者可以实现以下几种应用:(1)对话式检索问答系统:用户输入查询,模型从知识库中检索相关信息并进行自然语言回应。(2)长短文本总结:将较长的输入文本进行摘要,提取关键信息,适用于报告、文章等内容的浓缩。3.4大模型的开发流程3.解决知识滞后问题针对大模型知识滞后,借助向量数据库集成外部知识:构建语料库与清洗;切分与嵌入;索引入库;检索召回;组装提示并生成。可以按照以下步骤进行:(1)构建向量数据库处理外部知识为向量并入库,选FAISS、Pinecone等,高效存取与近邻检索,支撑大规模高维相似度查询。(2)知识补充提问先检索相关向量片段,拼接入提示输入LLaMA‑7B,融合上下文知识,生成更准确且一致的回答。3.4大模型的开发流程4.实现用户可视化界面结合前述工具,可以使用Streamlit搭建简单易用的用户可视化界面,推出基于私域数据的问答系统。具体步骤包括:(1)构建基本框架用Streamlit快速搭建输入框与输出区,用户输入自然语言问题,系统实时返回相关答案,降低开发与部署门槛。(2)集成模型和数据库在应用内集成LLaMA‑7B与向量库,实现自动检索与生成;限定私域上下文,提供个性化、可控且合规的回答。(3)优化用户体验美化界面与布局,加入按钮、图标、状态提示等交互元素;支持历史记录与复制分享,兼顾美观与实用性。本章目录3.1大模型概述3.2大模型介绍3.6Seq2Seq结构3.5应用场景3.4大模型的开发流程3.3大模型分类3.7Transformer3.8模型微调3.9未来发展方向3.5应用场景生成式AI(如ChatGPT)广泛应用:金融提效,政务客服与数据管理优化,医疗问答与审查助诊断,教育批改与个性学习,电商精准推荐,自动驾驶强决策控制;仍面临数据、鲁棒性与伦理挑战。1.金融场景以生成式能力承接高频基础任务:摘要、基础分析、标准报表等降本增效;并充当智能助手,辅助客户经理与产品经理进行专业管理、研究与内容生产。2.政府场景用大模型进行数据分类、标注与关键词提取,提升数据质量支撑决策;并以数字人客服承接政务咨询与政策解读,缓解人力紧张,提供高效友好服务。3.医疗场景作为智能问答收集病情、多轮交互给出诊疗建议;并进行医学文本信息抽取,识别关键实体,构建知识图谱,辅助临床与科研的知识组织与检索。3.5应用场景4.教育场景自动批改与分析作业,结合错题定位薄弱点并定制学习计划;充当口语练习与在线辅导老师,多轮对话纠错发音语法,提供个性化教学支持。5.电商场景大模型强化特征学习,构建精准用户画像,捕捉复杂行为与上下文;基于历史与实时信号实现个性化推荐,提升转化与体验,弥补传统推荐瓶颈。6.自动驾驶场景依托大模型表征与决策能力实现感知融合、路径规划与控制;结合强化学习优化驾驶策略与规则执行,提升安全性与稳健性,适应复杂交通环境。本章目录3.1大模型概述3.2大模型介绍3.6Seq2Seq结构3.5应用场景3.4大模型的开发流程3.3大模型分类3.7Transformer3.8模型微调3.9未来发展方向3.6Seq2Seq结构序列到序列(SequencetoSequence,Seq2Seq)模型是一种常见的深度学习结构,广泛应用于自然语言处理任务,如机器翻译和文本摘要。Seq2Seq由编码器与解码器构成,编码器生成上下文向量,解码器据此逐步生成输出,结合分词与注意力显著提升长序列建模与生成质量。编码解码流程:输入经编码器压缩为语义向量,解码器自回归生成目标序列,逐步利用上下文信息完成序列到序列映射。分词与BPE优化:采用BPE等子词算法,缓解未登录词问题,提升泛化与稀有词处理能力,稳定训练与推理效率。注意力机制增强:解码时对输入不同位置赋权聚焦,捕捉长程依赖,增强对齐与相关性,显著提升复杂任务的生成准确度。Seq2Seq结构模型示意如图3-11所示。Seq2Seq结构的输出元素的类型与输入元素的类型可以相同也可以不同,即具有多模态的潜力。3.6Seq2Seq结构图3-11Seq2Seq结构模型示意3.6Seq2Seq结构分词器处理自然语言文本,输出模型可接收的词元序列(如字母、单词、符号)。该过程称为分词(tokenization),将人类语言转换为计算机可计算的向量表示,是模型训练前的关键预处理步骤。分词器为模型准备输入内容,预处理语料数据集为可接收的格式:将文本转换为词元序列。词元可为字母、单词、标点或其他符号,此过程统一规范并提升后续训练与推理效率。1.分词词元(token)是最小语义单元。分词将文本切成词元序列,并映射为数字的词元ID,作为模型可计算输入。粒度可为字符、子词、单词;英文常用子词提升泛化,中文既可按词、按字也可按子词组合。(1)分词与ID映射将“HelloWorld!”分为“Hello”“空格”“World”“!”四个词元,并映射为ID序列,形成可供模型训练与推理的离散输入表示。3.6.1分词器3.6Seq2Seq结构(2)粒度选择影响理解粒度从字符、子词到单词逐级变粗。粒度越细越灵活,越粗越语义完整,应依任务与语言特性权衡取舍。(3)字符级优缺点优点是覆盖全面、无未登录词;缺点是序列更长、语义稀疏,建模难度上升,对长依赖与效率提出更高要求。(4)子词级的价值BPE/WordPiece等将稀有词拆为常见片段,既保留语义又缓解未登录词,兼顾序列长度与泛化,是主流实用折中。(5)中文的三种路径中文可按词(如jieba)、按字或按子词;子词可含偏旁部首等部件,兼顾语义组合性与开放词汇的适配能力。3.6Seq2Seq结构(6)偏旁作子词示例以“氵”为子词,配合“工/可/胡/每”组成“江/河/湖/海”的序列编码,可据“氵”特征聚合“与水相关”的语义类。2.BPE分词算法单字/单词作词元会造成词表庞大与OOV(Out-Of-Vocabulary,未登录词)问题。BPE以统计合并常见子单元,兼顾词表规模与新词处理,强化形态泛化并节省资源,但可能破坏语义碎片与特殊符号格式。(1)内存与OOV动机直接按单词建表耗内存,新词频繁出现且需不断扩表与重训,维护成本高,泛化差。(2)BPE核心机制从字符起步,迭代合并最高频相邻子单元,形成稳定子词库,兼顾常见词与稀有词分解。(3)资源与泛化优势减少词元数量,降低内存与计算;分解罕见词为已知片段,覆盖新词并学习形态变化。3.6Seq2Seq结构(4)语义与格式代价可能拆散有意义片段,削弱语义完整性;对HTML、URL等特殊标记分割不当,破坏格式。(5)与WordPiece对比WordPiece按提升语言模型概率选择合并,重概率最优而非频次最高,BERT系列广泛采用。(6)SentencePiece特点将空格视为特殊符号,常结合BPE或Unigram训练,无需预分词,适配多语言与噪声文本。(7)模型与算法映射GPT-2、BART、Llama常用BPE;BERT用WordPiece;ChatGLM、BLOOM、PaLM多采用SentencePiece。3.6Seq2Seq结构Seq2Seq结构的模型一般由一个编码器和一个解码器组成如图3-12所示。编码器逐步处理输入并压缩为上下文向量,传给解码器以自左向右生成输出序列。早期用RNN,后改用LSTM或GRU,核心在于提取时序特征与长期依赖信息。3.6.2编码器-解码器结构图3-12Seq2Seq结构的模型一般由一个编码器和一个解码器组成3.6Seq2Seq结构1.编码器编码器先用嵌入层将词元映射为特征向量。嵌入层参数为vocab_size×embed_size矩阵,前者为词表大小,后者为向量维度,提供可训练的稠密表示以捕捉语义与语法特征。若堆叠多层编码器,仅首层接收词向量输入并执行嵌入;其后的编码器层输入为前一层的隐表示。这样逐层抽象,逐步聚合上下文,形成更高层次语义特征与依存结构。各层编码器的输入形状一致,常为长度L的向量列表,每个向量维度通常取512。长度L可设为训练集中最长句子,或由超参数控制并配合截断与填充。3.6Seq2Seq结构2.解码器Seq2Seq中,解码器以编码器最后层隐藏状态作为上下文向量初始化,维度需一致。训练时目标序列右移加SOS_token,逐步预测下一个词,通过全连接层输出词元概率;采用教师强制加速收敛但推理可能不稳。(1)上下文向量承载全局语义,来源编码器最后层,初始化解码器隐藏状态。(2)目标序列右移一位,前置SOS_token,引导自回归预测流程展开。(3)每步输入含先前真实词元,输出分布经全连接映射词表。(4)教师强制用真值替代预测,提升训练稳定性与收敛速度。(5)推理阶段无真值喂入,误差累积风险增大,需调节策略。(6)可用教师强制率退火、ScheduledSampling缓解暴露偏差。(7)BeamSearch、长度惩罚与覆盖机制优化解码质量与连贯性。(8)维度不匹配时用线性映射或投影桥接隐藏状态空间。(9)加入注意力/多头注意力,缓解信息瓶颈,提升长序列表现。(10)结合正则与标签平滑,改善概率校准并抑制过拟合倾向。3.6Seq2Seq结构Seq2Seq结构的模型将输入序列的信息都压缩到上下文向量中,而上下文向量的长度是固定的。带有注意力机制的Seq2Seq结构模型相比于经典的Seq2Seq结构模型有以下两点不同。(1)多编码器的注意力Seq2Seq会将更多中间信息传递给解码器:经典模型仅传递编码器最后隐藏状态;而带注意力的模型将全部时间步的隐藏状态提供给解码器以计算上下文权重,如图3-13所示,提升对长序列与细节的捕捉。3.6.3注意力机制图3-13注意力机制下从多编码器到解码器的隐藏状态传递示意3.6Seq2Seq结构(2)解码器额外计算:先接收编码器各隐藏状态;再为每个隐藏状态打分;对分数做softmax;用权重加权求和得到上下文向量,放大高分信息;与当前解码状态融合,生成下一步输出,如图3-14示意。图3-14解码器利用注意力机制进行计算输出的示意本章目录3.1大模型概述3.2大模型介绍3.6Seq2Seq结构3.5应用场景3.4大模型的开发流程3.3大模型分类3.7Transformer3.8模型微调3.9未来发展方向3.7TransformerTransformer摒弃循环结构,采用自注意力和位置编码,捕捉序列依赖。多头机制和掩码防止未来信息泄露。稀疏Transformer优化计算,关注部分输入,提升长序列处理效率并降低复杂度。3.7Transformer由于Transformer模型将序列中的每个实体或单词视为彼此独立的,并不具有处理序列排序的内在机制。因此使用称为位置编码(positionalencoding)的方式来保留句子中实体或单词的顺序信息。例如,对于输入的一串Token,用户很容易分辨各个Token的位置,例如,a1是第一个Token(绝对位置信息),a2在a1的后一位(相对位置信息)等。由于无向运算自注意力模型完全无法分辨这些信息,因此需要使用位置编码将Token的位置信息输入模型中。位置编码表示序列中词或实体的位置,将词嵌入与位置向量相加,使模型在无递归情况下感知顺序。加性设计保持维度一致,便于与注意力协同,兼顾实现简洁与训练稳定。Transformer用正弦余弦构造位置编码,不同维度对应不同频率,具平滑性与可外推性。该设计支持任意长度序列,并提升位置表示的稳定性与区分性。对于某个Token,t表示Token在序列中的实际位置,PE,表示Token的位置向量,而对于该位置向量中的每一个元素PEt(i),则可以用式(3-1)表示。3.7.1位置编码3.7Transformer(3-1)通过引入位置编码,Transformer模型能够有效地处理序列数据,同时捕捉Token之间的语义和位置关系。对于NLP等领域的任务来说至关重要,也是Transformer模型能够取得优异性能的重要原因之一。3.7TransformerTransformer的整体结构可分为输入模块、编码器模块、解码器模块和输出模块,Transformer的整体结构如图3-15所示。架构概述:Seq2Seq的Transformer由编码器与解码器组成,最初用于机器翻译与文本生成,后广泛用于各类序列到序列任务。全局信息获取:通过自注意力机制获取输入序列的全局依赖,避免递归瓶颈,提升长距离关系建模能力与并行效率。层级处理流程:信息经多头自注意力子层与前馈网络子层传播,每个子层后均执行残差连接Add与层归一化Norm,稳定训练并促进信息流动。3.7.2整体结构3.7Transformer图3-15Transformer的整体结构3.7TransformerTransformer以词向量加位置编码并行建模序列,依多头自注意力捕获依赖;掩码用于自回归与填充处理。子层均经残差Add与LayerNorm,前馈网络深化特征,最终线性+Softmax输出词表概率。(1)输入嵌入常用GloVe等词向量,叠加位置编码,使并行注意力具备顺序与相对位置信息。(2)自注意力衡量Token相关性,多头并行捕获多种依赖,增强表达能力与长距离建模。(3)掩码含随机掩码、自回归掩码与填充掩码,用于预训练、因果约束与序列齐长。(4)掩码多头注意力防窥未来,仅用已见上下文预测下一步,稳定训练并强化生成。(5)各子层执行残差Add与LayerNorm,缓解梯度、平滑损失并加速网络收敛。(6)编码器前馈网络升维—非线性—降维,提炼深层特征,增强语义表达与组合能力。(7)解码端线性层投影至词表维度,经Softmax得概率,取最大者为当前预测词。(8)相较RNN顺序处理,Transformer并行计算,需位置编码确保结构感知与顺序可辨。(9)训练与推理可配合BeamSearch等策略,改善生成质量、覆盖度与长度控制。3.7Transformer稀疏Transformer基于Transformer架构进行了优化,目的是减少模型占用的计算和存储资源。不同于以往需要在输入序列中每个位置与其他所有位置进行交互计算,稀疏Transformer只需要部分位置进行交互计算,而忽略其他位置。稀疏Transformer通过稀疏化原架构中的Attention矩阵以达到减少内存消耗、降低算力的目的。OpenAI公司在2019年发表的论文“GeneratingLongSequenceswithSparseTransformers(使用稀疏变换器生成长序列”。)”中提出两种Attention矩阵的稀疏化方法-跨步注意力(stridedattention)和固定注意力(fixedattention),从而将计算复杂度从降低到。稀疏Transformer在3类数据集上的表现如图3-16所示。研究在图像(CIFAR-10、ImageNet)、文本(Enwik8)、音频(Classicalmusic)三类数据集评估模型。结果显示,稀疏Transformer有效降低计算复杂度;以Bitsperbyte为指标,数值越低代表性能越优,稀疏Transformer整体更优秀。3.7.3稀疏Transformer3.7Transformer图3-16稀疏Transformer在3类数据集上的表现本章目录3.1大模型概述3.2大模型介绍3.6Seq2Seq结构3.5应用场景3.4大模型的开发流程3.3大模型分类3.7Transformer3.8模型微调3.9未来发展方向3.8模型微调(1)微调(fine-tuning)是在预训练模型基础上,用目标任务数据继续训练,使模型适配特定任务分布,提升效果与稳健性,常配合正则与早停避免过拟合。(2)参数高效微(PEFT)调含Adapter、Prefix、PromptTuning,仅调少量增量参数,显著降算力与存储开销,提升迁移与部署灵活性,已成主流实践。(3)“预训练+微调”为标准范式。选择合规且具文化价值的数据微调,兼顾性能、可持续与社会责任,促进生态繁荣与多任务卓越表现。3.8模型微调监督微调(SupervisedFine-Tuning,SFT)是一种在预训练语言模型基础上进行的模型调整技术。监督微调用标注数据微调预训练模型,使其适配下游任务并提准稳健;利用通用知识精调特定需求,提升效率。初学者掌握此法可更好应用大模型解题。监督微调的执行步骤如图3-17所示。3.8.1监督微调图3-17监督微调的执行步骤3.8模型微调监督微调的优势在于能够充分利用预训练模型的参数和结构,以及模型本身具有的相关知识,避免从头训练模型。BERT等经典模型均采用预训练与监督微调相结合的方式,获得了比同时期其他模型更优秀的表现。3.8模型微调PEFT旨在减少可训练参数与计算复杂度,提升特定任务性能;即便资源受限,也能快速适配新任务。对硬件受限的个人开发者与小型团队,优先推荐以PEFT完成高效微调与部署。3.8.2PEFT技术3.8模型微调1.AdaptertuningPEFT技术起源于Google公司在论文“Parameter-EfficientTransferLearningforNLP”中提出的一种对BERT模型的高效微调策略-Adaptertuning。Adapt
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年上半年广东广州市越秀区教育局招聘事业编制教师83人备考题库附参考答案详解(考试直接用)
- 2026广东深圳市罗湖区清泉幼儿园教研员招聘1人备考题库及答案详解参考
- 2026山东济南市中心医院招聘卫生高级人才(控制总量)10人备考题库及1套参考答案详解
- 中国中煤能源集团有限公司2026届高校毕业生春季招聘备考题库附答案详解(能力提升)
- 2026福建医科大学附属第一医院招聘非在编合同制人员20人备考题库(二)及一套参考答案详解
- 2026山东济南市妇幼保健院招聘卫生高级人才和博士(控制总量)26人备考题库附参考答案详解(完整版)
- 2026四川绵阳市第三人民医院春季招聘28人备考题库及完整答案详解1套
- 2026安徽铜陵创邑传媒有限公司招聘2人备考题库带答案详解(夺分金卷)
- 2026山西农业大学招聘博士研究生116人备考题库带答案详解(预热题)
- 2026合肥源创新人才发展有限公司社会招聘5人备考题库附参考答案详解(b卷)
- 目标导向性液体治疗
- 2025年海南辅警招聘考试真题附答案详解(完整版)
- 国资委国有资产项目备案表范本
- 2025至2030航空活塞发动机行业项目调研及市场前景预测评估报告
- 护理三基三严的试题题库及答案解析
- 2025年湖南省公务员申论综合分析专项试卷(含答案)
- 2025年国家义务教育质量监测四年级心理健康测试卷3+问卷附答案
- 极限配合与技术测量(第五版)课件:识读与标注几何公差
- 哈尔滨冰雕课件
- 静疗指南解读汇报
- 爆破三大员安全培训课件
评论
0/150
提交评论