人工智能技术基础及应用活页式教程 课件 第2章 大语言模型及应用_第1页
人工智能技术基础及应用活页式教程 课件 第2章 大语言模型及应用_第2页
人工智能技术基础及应用活页式教程 课件 第2章 大语言模型及应用_第3页
人工智能技术基础及应用活页式教程 课件 第2章 大语言模型及应用_第4页
人工智能技术基础及应用活页式教程 课件 第2章 大语言模型及应用_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章大语言模型及应用本章将深入探讨大语言模型的核心技术与实践。首先解析其基础概念、分类与演进历程;其次系统阐述从基座选型、数据处理到训练部署的全流程构建方法;最后结合DeepSeek、Kimi、通义等前沿案例,展示大模型在多场景下的落地应用与价值创造。章节导入:人工智能的大脑—大语言模型核心价值大语言模型是AI领域的关键突破,实现了人机自然交互。在信息检索、文本生成、智能客服等领域展现出巨大的应用潜力与商业价值。发展挑战尽管潜力巨大,仍面临诸多挑战:包括数据隐私与安全风险、模型决策的可解释性难题,以及对计算资源的极高需求。本章内容本章节将系统介绍大语言模型的基础概念与构建流程,并结合DeepSeek、Kimi、通义等行业前沿案例,深入解析其实战应用。2.1大语言模型基础本小节将介绍大模型的定义、分类、发展历程,以及大语言模型的定义、基本原理、优势、与自然语言处理的区别、应用领域和两大发展方向。2.1.1大模型基础-大模型定义核心定义基于深度学习技术,利用海量数据和庞大计算资源训练的、拥有海量参数的神经网络模型。主要特点“大”主要体现在三个维度:模型参数数量极其庞大、训练数据量海量、对计算资源需求极高。训练模式采用“预训练+微调”的经典范式,在大规模通用数据上预训练后,能快速适应各类下游任务。规模标准根据OpenAI的分类标准,通常将参数规模大于或等于1亿个的神经网络模型视为AI大模型。2.1.1大模型基础-大模型分类(一)按输入数据类型划分语言大模型专注处理文本数据,代表:GPT系列、DeepSeek视觉大模型专注处理图像数据,代表:ViT系列、文心ERNIE-ViLG多模态大模型处理文本、图像、音频等多种数据,代表:DALL·E、Midjourney按模型架构分类基于Transformer架构利用自注意力机制,支持并行处理海量数据,是当前主流架构。代表:GPT-4、豆包非Transformer架构如基于RNN、LSTM等循环神经网络的模型。特点:擅长序列数据,常用于早期语音识别和图像处理。2.1.1大模型基础-大模型分类(二)按应用领域划分通用大模型(L0)具备通用能力,可完成多场景任务,如GPT-4。行业大模型(L1)针对特定行业优化,如金融、医疗、法律大模型。垂直大模型(L2)聚焦特定细分任务,如代码生成、图像识别模型。按开放程度分类开源大模型模型权重、代码或训练方案公开,社区可参与迭代。例如DeepSeek-R1。闭源大模型模型权重和技术细节保密,仅通过API提供服务。例如GPT-4。不同的分类维度帮助我们从技术落地场景与生态模式两个视角理解大模型2.1.1大模型基础-大语言模型的发展起源:早期自然语言处理尝试,随深度学习兴起迎来机遇。里程碑:2017年Transformer架构提出,自注意力机制大幅提升效率。代表模型:OpenAI的GPT系列,采用无监督预训练与微调范式。爆发期:2022年ChatGPT推出,引发全球关注,进入爆发式发展。新势力:2025年初DeepSeek脱颖而出,展现卓越能力。趋势:向多模态方向发展,融合文本、图像、语音等数据。国内外主要大语言模型发展时间轴概览2.1.2大语言模型-定义与工作机制核心定义基于Transformer架构,在海量数据上训练的深度学习算法,具备识别、翻译、预测及生成文本的能力。工作机制核心是“预测下一个词”。通过自注意力机制分析上下文关系并分配权重,从而生成最符合逻辑的文本输出。模型规模参数量跨度极大,从数千万到数千亿级不等;训练数据规模更是达到了数PB级别,展现了极强的学习能力。图示:大语言模型的学习与生成流程2.1.2大语言模型-基本原理核心原理:自回归生成基于输入上下文预测下一个最可能的单词,将该单词追加到输入中,重复此过程直至生成完整文本,类似“文字接龙”。关键技术组件标记嵌入(TokenEmbedding)将输入文本转换为计算机可理解的数值向量表示。Transformer模型利用注意力机制分析上下文关系,计算下一词概率分布。采样策略(Sampling)基于概率分布(如Top-k、Temperature)选择输出单词。图示:自回归语言模型逐词生成文本的过程2.1.2大语言模型-优势与应用领域核心优势CoreAdvantages广泛的应用场景覆盖语言翻译、文本补全、情感分析及智能问答等多个维度。持续优化的性能随着数据量和参数增加,具备强大的上下文学习与推理能力。高效的学习能力仅需少量示例即可快速适应任务,实现高质量输出。主要应用领域KeyApplications文本生成邮件、博客、文案创作内容摘要长文总结、报告提炼AI助手智能客服、聊天机器人代码生成辅助开发、自动调试情绪分析客户反馈、舆情监控语言翻译多语言互译、本地化2.1.2大语言模型-与自然语言处理的区别对比维度自然语言处理(NLP)大语言模型(LLM)侧重点侧重语言分析,让计算机理解、解释和生成人类语言侧重文本生成,基于深度学习训练出的强大模型技术原理运用词法、句法、语义分析等多种技术和算法依靠深度学习技术,使用Transformer架构和自注意力机制性能表现特定任务精度高,处理复杂语境有挑战在广泛任务中表现出色,能生成连贯文本,但可能产生不准确内容扩展性与效率执行特定任务效率高,计算需求低高度可扩展,但计算资源和成本需求大应用领域文本分析、语音识别等专业领域数据处理内容创作、客户服务等生成式和复杂任务2.1.2大语言模型-两大发展方向生成模型(Generative)核心特点:具备强通用性,专注于通用NLP和多模态能力,擅长日常对话、内容创作、跨语言翻译等开放式任务。代表模型:DeepSeek-V3,GPT-4o推理模型(Reasoning)核心特点:侧重复杂逻辑与深度分析,擅长处理数学证明、代码编写及多步骤自然语言推理,善于拆解难题。代表模型:DeepSeek-R1,OpenAIo1两大方向各有侧重,共同推动大模型从“能说会道”向“能思善辩”演进2.2大语言模型的构建流程确定模型基座选择架构与参数规模数据收集预处理清洗、去噪与格式转换模型训练与微调大规模算力驱动学习推理与部署应用落地与服务优化本小节将详细阐述大语言模型的构建流程,包括确定模型基座、数据收集与预处理、模型训练、推理、评估与验证、部署以及训练挑战等关键环节。这是一个复杂的系统工程,每一步都对最终模型的性能至关重要。2.2.1确定大模型基座明确目标:聚焦价值与需求认识到自研预训练模型的核心价值,明确通用模型在特定垂直领域变现能力较弱的现状,针对日益增长的领域模型需求进行定向研发。选择基座:架构、开源与资源的平衡架构选择:根据业务需求选择主流架构,如Transformer解码器、GLM或MoE模型等。开源复用:可直接选用成熟的开源基座模型(如LaMA模型系统)进行二次开发。规模适配:结合现有计算资源,科学确定模型大小(层数、隐藏单元数、注意力头数等)。2.2.2数据收集和预处理(步骤1)数据收集从互联网、专业数据库等多渠道收集海量文本数据,规模通常需达到10T级别。常用开源数据集包括:FineWebPile数据清洗数据处理的核心环节,旨在剔除噪声、提升质量。核心手段:利用模型对数据质量进行打分筛选规则过滤(长度、Token比例、语言分布等)目标:确保数据的高质量与多样性,避免分布偏差,为模型训练奠定坚实基础。2.2.2数据收集和预处理(步骤2)词表扩充与Tokenizer训练词表构建:选择WordPiece/BPE等方法,手动添加常见词元扩充。训练Token:使用预处理数据训练,将文本切分为模型可理解的单元。分词结果对比与影响结果差异:不同大模型对同一文本的切分粒度和方式不同。关键影响:直接影响模型的训练难度、推理效率及语义理解能力。大语言模型分词效果对比示例模型架构基础分词方法典型词表大小主要特点BERT(Base)WordPiece~30,000(中英混合)粒度适中,适合通用任务GPT-3/LLaMAByte-PairEncoding(BPE)~50,000-100,000压缩率高,生成长文本效率优T5/mT5SentencePiece(Unigram)~250,000(多语言)无空格依赖,多语言支持强2.2.3大语言模型的训练(阶段1)大语言模型训练全流程概览核心目标让模型学习语言的通用模式和结构,为后续任务学习奠定坚实基础。数据准备使用未标记数据(互联网海量文本)和专有数据(企业内部文档)进行训练。训练方式主要采用无监督学习,经典方法包括掩码语言模型(MLM)和自回归语言模型(ARLM)。模型架构基于Transformer架构,利用其强大的并行计算能力和长距离依赖捕捉能力构建模型。2.2.3大语言模型的训练(阶段2)核心目标让模型适应特定的任务和领域,提高在具体应用场景下的性能,解决通用预训练无法覆盖的专业问题。数据引入引入专用数据库(如医疗、法律等垂直领域数据)和高质量的人工反馈数据,由人类标注员进行评估。训练方式采用有监督学习(SFT)和迁移学习策略,利用预训练模型的通用知识,通过少量特定任务数据进行快速适配。模型调整对模型的部分层(LoRA)或全部层的参数进行精细调整,在保留预训练知识的同时,最大化新任务的表现。2.2.3大语言模型的训练(阶段3)核心目标:提升专业表现在微调后的模型基础上,通过提示技术进一步挖掘潜力,显著提升模型在特定专业任务上的执行能力。专业人员深度参与引入领域专家介入,根据具体任务的特性和需求,设计精准、有效的提示策略,确保方向正确。多维提示设计构建包含任务描述、示例展示、约束条件等要素的提示体系,引导模型生成更准确、更符合预期的结果。形成增强模型通过持续优化提示技术,将通用模型转化为能更高效、高质量执行特定专业任务的增强模型。提示增强是大语言模型落地应用的关键环节,实现了从“通用智能”到“专业专家”的跨越。2.2.4大语言模型的推理定义:利用训练好的模型对新数据进行运算,一次性获得正确结论的过程。1.分词将输入文本拆分为Token列表2.嵌入转换为向量(Embedding)表示3.特征提取多层神经网络提取高层特征4.输出转换转换为Logits概率分布向量5.采样根据概率选择下一个标记6.迭代生成重复直到生成终止符大语言模型推理流程示意图2.2.5模型评估与验证内部测试贯穿开发全程,监控准确率、召回率等性能指标,重点进行边界条件测试和多轮对话测试,确保模型核心稳定性与输出准确性。外部基准测试借助GLUE、SQuAD等公共权威数据集评估模型能力,与行业同类模型进行性能横向对比,精准跟踪技术进展与差距。用户反馈闭环建立多样化反馈渠道,收集真实场景下的用户反馈,深度分析高频问题,形成“反馈-分析-改进”的持续优化闭环。通过多维度的评估体系,确保模型在技术指标与实际应用中均达到预期标准2.2.6大语言模型的部署本地部署数据隐私保护好,数据不离开本地网络,适合对数据安全要求高的场景,如金融、政府部门。Demo部署快速验证模型可行性,可通过HuggingFaceSpaces等平台托管分享,方便获取用户反馈。云服务器部署提供强大计算资源和灵活扩展性,适合大规模场景,通常需利用优化框架(如TGI、vLLM)提升推理效率。边缘部署在移动设备、嵌入式系统等资源受限环境中运行,减少数据传输延迟,提高响应速度。2.2.7大语言模型训练的挑战高额的训练成本需要大量GPU集群支持,硬件购置、电力消耗及专业运维人力成本极其高昂。时间密集型的训练周期单次完整训练通常需要数月时间,且依赖人工干预微调,导致模型更新迭代缓慢。数据获取与合法性难题构建高质量数据集耗时耗力,同时数据抓取的版权归属、合法性及用户隐私安全问题日益突出。对环境的负面影响大规模算力消耗产生大量电力需求和碳排放,引发关于AI技术发展环境可持续性的广泛讨论。2.4Kimi应用实践本小节将通过具体案例,介绍Kimi智能对话助手的基本应用和高级应用,包括图片识别解读、文本翻译、习题解析、程序解读和制作PPT等功能。图片识别文本翻译习题解析程序解读制作PPT2.4.1Kimi基本应用-图片识别解读多模态图像识别能力Kimi具备强大的视觉理解能力,可精准识别图片中的物品、提取文本内容、转换表格数据,并能基于图片生成高质量的文生图提示词。复杂信息通俗化解读上传包含复杂逻辑的图片(如技术流程图),提问“请用通俗易懂的方式解读图片内容”,Kimi将自动分析并输出结构化的解读结果。Kimi图片识别与解读操作界面示例赋能工作流:从“看图”到“懂图”,大幅降低复杂信息的理解门槛2.4.1Kimi基本应用-文本翻译核心功能优势•支持超100种语言互译,覆盖主流语种需求•具备上下文语境理解能力,拒绝机械翻译•擅长处理复杂长难句及专业领域术语•扩展支持图片翻译与角色设定翻译模式多语言互译演示输入一段包含专业词汇的英文句子,Kimi可同时输出精准的中文翻译与日文翻译,展示了其在跨语言转换中的准确性与高效性。▲Kimi文本翻译实际操作界面2.4.2Kimi高级应用-习题解析多模态思考模型优势Kimik1.5模型具备强大的多模态推理能力,擅长处理数学公式、代码逻辑及视觉推理类习题,提供深度解析。操作:上传题目截图并提问完整解题流程示例指令“解答附件图片中的题目”触发Kimi深度思考,自动生成完整推导过程、多种解题思路及最终准确答案。结果:完整步骤与多思路展示2.4.2Kimi高级应用-程序解读核心功能:多语言程序辅助Kimi支持API文档速读与代码调试,兼容Python、C++、Java等主流编程语言,能够快速理解复杂逻辑并提供辅助处理建议。操作示例:智能代码注释输入一段C语言代码(如“Hello,World!”),指令Kimi“逐行增加注释”,AI将准确识别代码逻辑,为每一行添加清晰的解释说明。Kimi凭借强大的逻辑理解能力,成为程序员提升代码编写与维护效率的得力助手2.4.2Kimi高级应用-制作PPT(步骤1)智能PPT助手功能Kimi+能基于主题智能生成大纲,并提供海量模板资源,助力用户快速产出高质量PPT初稿。第一步:输入主题与指令在对话框中输入具体的PPT主题(例如:“从图灵测试到DeepSeek”),勾选“联网搜索”后点击发送。KimiPPT助手操作界面示例注:联网搜索可确保Kimi获取最新信息,提升PPT内容的时效性与准确性2.4.2Kimi高级应用:PPT制作步骤2:生成大纲并确认PPT助手根据主题自动生成大纲内容,确认无误后点击“一键生成PPT”按钮。步骤3:选择模板与风格在模板库中选择合适的场景、设计风格和主题颜色,定制专属PPT视觉。高效生成:通过AI自动生成大纲与模板匹配,大幅缩短PPT制作周期,专注内容打磨。2.4.2Kimi高级应用-制作PPT(步骤3)操作步骤4:生成与交付PPT助手进入生成过程,完成后可直接预览整体效果。支持两种后续操作:点击“去编辑”进行在线修改点击“下载”保存文件到本地KimiPPT生成结果预览界面2.5通义应用实践本小节将介绍阿里云推出的大模型“通义”的应用实践,包括其发展历程、模型体系以及丰富的基础和高级应用功能。2.5.1通义基本应用-发展及模型体系发展历程:快速迭代与开源前身为通义千问,经历多次版本迭代,持续开源开放,核心功能与性能不断增强。模型体系:丰富的矩阵生态涵盖大语言模型、推理模型、多模态模型及视频生成模型,满足多样化业务与场景需求。基本应用:一站式智能平台网页版界面简洁直观,集成对话交互、效率工具、智能体应用等多

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论