人工智能素养与实践应用 课件 第4章 大语言模型与生成式人工智能_第1页
人工智能素养与实践应用 课件 第4章 大语言模型与生成式人工智能_第2页
人工智能素养与实践应用 课件 第4章 大语言模型与生成式人工智能_第3页
人工智能素养与实践应用 课件 第4章 大语言模型与生成式人工智能_第4页
人工智能素养与实践应用 课件 第4章 大语言模型与生成式人工智能_第5页
已阅读5页,还剩89页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章大语言模型与生成式人工智能2目录第4章大语言模型与生成式人工智能4.1大语言模型概述4.2大语言模型基本原理及关键技术4.3大语言模型的使用4.4生成式人工智能34.1大语言模型概述4.1.1什么是大语言模型4.1.2大语言模型发展历程4.1.3国内外主流大语言模型第4章大语言模型与生成式人工智能大语言模型是一类基于深度学习的人工智能模型,专门用于理解和生成自然语言。它们通常具有庞大的参数规模,并通过大规模文本数据进行训练,具备强大的语言理解和生成能力,在多种自然语言处理任务中表现出色。44.1.1什么是大语言模型第4章大语言模型与生成式人工智能所谓“参数规模大”,可以理解为模型中“神经元之间的连接数”非常多。参数数量往往达到十亿以上(例如,GPT-3拥有1750亿个参数)。这个数量级远超早期的语言模型的几百万个参数。参数数量越多,模型学习语言规律的能力越强。54.1.1什么是大语言模型第4章大语言模型与生成式人工智能“文本数据量大”指的是用于训练模型的文字内容非常庞大,通常包含数千亿甚至上万亿个词元(Tokens)。研究人员会收集互联网上的书籍、百科、新闻、论坛、对话记录等各种文本,以帮助模型“理解”人类语言的用法、常识以及各种表达风格,从而能在多种任务中表现出接近人类的语言能力。64.1.1什么是大语言模型第4章大语言模型与生成式人工智能74.1.1什么是大语言模型第4章大语言模型与生成式人工智能模型名称发布时间开发者参数量预训练数据量GPT-12018年6月OpenAI1.17亿约5GB(约7000万tokens)GPT-22019年2月OpenAI15亿约40GB(约100亿tokens)GPT-32020年5月OpenAI1750亿约570GB(3000亿tokens)GPT-42023年3月OpenAI未公开(估数千亿)未公开(估超1万亿tokens)PaLM22023年5月Google3400亿3.6万亿tokensDeepSeekV32024年12月DeepSeek6710亿14.8万亿tokensQwen32025年4月阿里云2350亿36万亿tokensLlama42025年4月Meta4000亿40万亿tokens84.1.2大语言模型发展历程第4章大语言模型与生成式人工智能94.1.3国内外主流大语言模型第4章大语言模型与生成式人工智能模型名称开发者发布时间模型特点GPT-3.5OpenAI2022年11月对GPT-3的改进版本,提升了对话质量和稳定性,作为ChatGPT的基础模型。GPT-4OpenAI2023年3月引入多模态能力,支持图像输入,增强推理和编程能力GPT-4TurboOpenAI2023年11月128ktokens长文本支持,适用于处理大型文档和复杂任务GPT-4oOpenAI2024年5月原生支持文本、图像和音频输入,具备实时语音对话能力GPT-4.5OpenAI2025年2月能够更好地理解用户情绪和意图,减少幻觉率104.1.3国内外主流大语言模型第4章大语言模型与生成式人工智能模型名称开发者发布时间模型特点DeepSeek-V3深度求索2024年12月采用创新的混合专家结构(MoE)架构、降低训练成本、提升推理效率,在长文本生成、代码理解和数学推理等任务中性能接近GPT-4oDeepSeek-R1深度求索2025年1月提升模型推理能力,在数学、代码以及各种复杂逻辑推理任务上表现出色114.1.3国内外主流大语言模型第4章大语言模型与生成式人工智能模型名称开发者发布时间模型特点Gemini1.0Google2023年12月多模态大语言模型,支持文本、图像、音频和视频输入Gemini2.5Google2025年3月引入“思考”机制,增强了推理和代码能力,具备链式思维能力,支持100万tokens的上下文窗口Gemma1Google2024年2月开源轻量级语言模型,适用于本地部署,采用与

Gemini相似的架构和训练方法Gemma3Google2025年3月最新的

Gemma模型,支持多模态输入,优化了在单个GPU上的运行效率124.1.3国内外主流大语言模型第4章大语言模型与生成式人工智能模型名称开发者发布时间模型特点Claude2.1Anthropic2023年11月引入了

200Ktokens的上下文窗口,显著减少了模型幻觉率,支持系统提示和工具使用功能Claude3.7SonnetAnthropic2025年2月引入混合推理模型,允许用户在快速响应和深入推理之间进行选择,增强了多模态处理能力LLaMA4Meta2025年4月引入混合专家架构,支持多模态和多语言输入,提升了上下文处理能力和推理能力134.1.3国内外主流大语言模型第4章大语言模型与生成式人工智能模型名称开发者发布时间模型特点文心一言(ERNIEBot)百度2023年3月对话式AI产品,支持多轮对话、内容创作等功能Qwen2.5-Omni阿里云2025年3月支持文本、图像、视频和音频输入,适用于多模态任务Qwen3系列阿里云2025年4月支持推理,适用于多语言任务,在HuggingFace和ModelScope等平台上开源GLM-4智谱AI2024年6月支持128k长文本处理,支持文本、图像、音频等多模态输入,在HuggingFace和GitHub等平台上开源144.2

大语言模型基本原理及关键技术第4章大语言模型与生成式人工智能4.2.1大语言模型的基本工作过程4.2.2Transformer架构4.2.3大语言模型的训练过程4.2.4大语言模型的推理154.2.1大语言模型的基本工作过程第4章大语言模型与生成式人工智能Transformer是当前主流大语言模型(如BERT、GPT、Claude、Ernie等)的基础架构,由Vaswani等人于2017年提出.它是一种专门处理序列数据的深度学习模型,广泛应用于机器翻译、语音识别、问答生成等任务。164.2.2Transformer架构第4章大语言模型与生成式人工智能174.2.2Transformer架构第4章大语言模型与生成式人工智能词嵌入(WordEmbedding)是将输入中每个词转化成一个高维向量的过程,也可以理解为“用一组数字表达词的含义”。184.2.2Transformer架构第4章大语言模型与生成式人工智能位置编码(PositionalEncoding)的作用是为每个词添加一个“位置标签”,告诉模型这个词在句子中的第几个位置。这样,模型在理解词语含义的同时,也能感知它们的语序,从而更准确地理解整句话的意思。194.2.2Transformer架构第4章大语言模型与生成式人工智能编码器(Encoder)是Transformer的“理解模块”,它的任务是把输入的句子读懂、理清含义。编码器最终会输出一个“向量序列”,每个词都有一个向量,里面包含了:它自己的含义、它在句子中的作用、它和其他词之间的关系。204.2.2Transformer架构第4章大语言模型与生成式人工智能编码器是由多层结构堆叠而成,每一层主要完成两个任务:(1)自注意力机制(Self-Attention):让每个词知道自己该关注句子里的哪些词,形成上下文理解。(2)前馈神经网络(Feed-Forward):把注意力处理后的信息,进一步抽象、压缩、提炼成更有意义的表达。每一层的输出传给下一层,逐步加深模型对句子的理解。214.2.2Transformer架构第4章大语言模型与生成式人工智能自注意力机制是Transformer结构的核心组件之一,其核心思想是:在处理一个词时,模型可以同时“关注”输入序列中的其他词,从而更好地理解上下文信息。自注意力机制通过计算每对词之间的相关性来决定注意力权重,如果两个词之间的相关性更强,他们之间的注意力权重就会越高。224.2.2Transformer架构第4章大语言模型与生成式人工智能234.2.2Transformer架构第4章大语言模型与生成式人工智能自注意力机制的优势包括:(1)处理全局关系:每个词在理解时都能看到整句话,理解长距离依赖(比如主语在句首,动词在句末也能联系上)。(2)并行计算:不像传统RNN逐词顺序处理,而是同时处理整个句子,大大提高了效率。(3)动态关注:不用死记词的固定顺序,能适应不同结构的句子。244.2.2Transformer架构第4章大语言模型与生成式人工智能解码器(Decoder)是Transformer的“表达模块”。它的任务是:根据编码器理解的意思,逐字逐句地生成输出内容。例如,在翻译句子“Shelovesapples.”时,解码器的工作过程为:254.2.2Transformer架构第4章大语言模型与生成式人工智能步骤已生成的中文Decoder当前做的事1(空)根据Encoder输出,预测第一个词:“她”2她根据“她”和Encoder输出,预测下一个词:“喜欢”3她

喜欢根据“她喜欢”和Encoder输出,再预测下一个词:“苹果”4她

喜欢

苹果根据“她喜欢苹果”和Encoder输出,判断应该结束,输出“。”或停止符号整个过程中,解码器每一步只生成一个词,只能看到前面的词(不能偷看后面的答案),并始终参考Encoder理解的整体语义。264.2.2Transformer架构第4章大语言模型与生成式人工智能与Encoder类似,Transformer的Decoder也是由多个“层”堆叠而成。每一层Decoder通常包含三部分:(1)掩码自注意力(MaskedSelf-Attention):让每个词只看前面的词,避免“偷看未来”。(2)编码-解码注意力(Encoder-DecoderAttention):让每个词看Encoder提供的理解。(3)前馈神经网络(Feed-Forward):提炼语义,生成输出。274.2.2Transformer架构第4章大语言模型与生成式人工智能284.2.3大语言模型的训练过程第4章大语言模型与生成式人工智能大语言模型不是一出生就能回答问题,它必须先看大量文本、反复练习语言表达,学会语言的规律和知识,这个过程就叫“预训练”(Pretraining)294.2.3大语言模型的训练过程第4章大语言模型与生成式人工智能大语言模型的预训练分为以下三个步骤:第一步:下载并预处理互联网数据。从互联网上,比如百科、新闻、论坛、小说等下载大量的文本数据。但这些内容会经过清洗和筛选,包括过滤黑名单网址、提取纯文本内容、语言筛选、去除重复数据和去除个人信息等,以确保数据质量。304.2.3大语言模型的训练过程第4章大语言模型与生成式人工智能第二步:将文字转为token。分词(tokenization)就是把人类语言切成模型能理解的小块。314.2.3大语言模型的训练过程第4章大语言模型与生成式人工智能https://tiktokenizer.vercel.app/第三步:神经网络的训练。模型训练的目标是预测下一个token。比如输入句子:“中国的首都是”,模型需要判断下一个token最可能是什么(如“北京”)。模型会计算所有可能token的概率分布,并选择概率最高的作为下一个token。在这一过程中,模型通过反向传播不断调整其内部参数,使预测结果更接近真实答案。324.2.3大语言模型的训练过程第4章大语言模型与生成式人工智能预训练的本质就是让模型在阅读海量文本的过程中,不断进行“猜词游戏”,逐步掌握语言的结构、知识与逻辑,从而具备语言理解与生成能力。这个阶段计算开销巨大,是整个训练中最耗资源的一步。完成预训练后得到的模型被称为基础模型(BaseModel),它还需要通过后续的微调,才能适应具体任务。334.2.3大语言模型的训练过程第4章大语言模型与生成式人工智能大语言模型在预训练阶段通过大量文本学习了丰富的通用知识和语言能力。但若要在特定任务或领域中表现更优,还需要进行进一步的微调(Fine-tuning)。监督微调(SupervisedFine-tuning,SFT)

是最常见的方法。它利用新任务的少量人工标注数据,通过有监督学习方式对预训练模型进行调整,使其更好地适应新的任务需求。344.2.3大语言模型的训练过程第4章大语言模型与生成式人工智能指令/对话微调(Instruction/ConversationFine-Tuning):依赖高质量的“人类提问

模型回答”的对话样例354.2.3大语言模型的训练过程第4章大语言模型与生成式人工智能领域特定微调(Domain-SpecificFine-Tuning):在小规模专业数据上进一步训练模型,使其具备特定领域的知识与表达能力。通过这种方式,大模型可被定制为法律助手、问诊助手、教务助手等,更好地服务于具体任务和行业应用。364.2.3大语言模型的训练过程第4章大语言模型与生成式人工智能SFT的局限性:(1)可扩展性:收集人类演示是劳动密集型且耗时的,尤其是对于复杂或小众任务。(2)性能:简单模仿人类行为并不能保证模型会超越人类表现或在未见过的任务上很好地泛化。374.2.3大语言模型的训练过程第4章大语言模型与生成式人工智能人类反馈强化学习(ReinforcementlearningwithHumanFeedback,RLHF)通过强化学习和人类反馈来进一步微调模型,使其输出更加符合人类的偏好或期望。384.2.3大语言模型的训练过程第4章大语言模型与生成式人工智能RLHF的基本流程包括两个阶段:(1)训练奖励模型:让人类对模型的多个回答打分(哪一个更好),人类注释者对模型生成的多个输出进行排名,创建一个偏好数据集。

用这个数据训练一个奖励模型,让模型学会什么是“更好”的回答。(2)基于奖励的强化学习:使用强化学习算法,结合奖励模型给出的反馈,进一步优化语言模型,使其倾向于生成更受人类欢迎的回答。394.2.3大语言模型的训练过程第4章大语言模型与生成式人工智能当大语言模型接收到一组输入token后,它会根据训练中学到的语言规律,为每个可能出现的下一个词分配一个概率。但模型并不是总选“最有可能”的词,而是像掷一个带偏向的骰子那样,从所有候选词中“抽签”选一个。404.2.4大语言模型的推理第4章大语言模型与生成式人工智能上下文窗口大小,指的是大语言模型在一次生成中可以“看到”的最大输入和输出的总长度,通常以“token”为单位。414.2.4大语言模型的推理第4章大语言模型与生成式人工智能提示词工程,就是与模型“沟通”的技巧与方法,目的是让它更准确地理解你的意图并做出理想回应。提示词设计框架CO-STAR:

C(Context,上下文):提供任务的背景信息,帮助模型理解具体场景。

O(Objective,目标):明确任务目标,确保模型聚焦于特定任务。

S(Style,风格):指定输出的写作风格(如名人风格或行业专家风格)。

T(Tone,语气):设定回应的情感态度(如正式、幽默、同情等)。

A(Audience,受众):明确目标受众(如领域专家、初学者、儿童等)。

R(Response,响应):规定输出的格式(如列表、JSON、专业报告等)。424.2.4大语言模型的推理第4章大语言模型与生成式人工智能大语言模型的指令参数是指我们在与模型交互时,通过调整这些参数灵活定义生成文本的风格、长度和创造性,以优化生成效果,满足不同场景的需求。434.2.4大语言模型的推理第4章大语言模型与生成式人工智能444.2.4大语言模型的推理第4章大语言模型与生成式人工智能参数名称说明示例温度(temperature)控制输出的随机性,范围通常是0到1。数值越低,回答越确定;越高,越有创意和发散性。temperature=0.2:适合摘要;temperature=0.8:适合写诗最大长度(maxtokens)限制模型输出内容的最大token数,避免生成过长内容。max_tokens=100:回答最多约80–100个汉字Top-k/Top-p控制采样时的选择范围,影响生成的多样性与稳定性。Top-k是选前k个概率最高的词,Top-p是累积概率达到p的词。top_p=0.9:保留最可能的一部分输出候选停用词(stopsequences)设定模型何时停止生成,用于控制输出结构或避免跑题。stop=["\n\n"]:遇到空行就停止生成Few-shot示例在prompt中给出一到多个样例,帮助模型“模仿”期望格式或风格。"Q:太阳从哪里升起?A:东边。Q:地球是圆的吗?A:是的。"思维链(ChainofThought,CoT)是提示工程中的一种高级策略,通过将复杂问题拆解为一系列连贯的中间步骤,模拟人类的思考过程,从而显著提升大语言模型的推理能力。454.2.4大语言模型的推理第4章大语言模型与生成式人工智能464.2.4大语言模型的推理第4章大语言模型与生成式人工智能检索增强生成(Retrieval-AugmentedGeneration,简称RAG)技术,它将信息检索技术与LLM相结合。RAG的主要流程包括:

检索:​从外部知识库或互联网获取与用户提问相关的信息。

增强:​将检索到的信息作为提示,输入到语言模型中,丰富其上下文。

生成:​模型基于增强后的上下文,生成准确且相关的回答。474.2.4大语言模型的推理第4章大语言模型与生成式人工智能484.2.4大语言模型的推理第4章大语言模型与生成式人工智能494.3大语言模型的使用第4章大语言模型与生成式人工智能4.3.1网页端使用4.3.2大模型插件4.3.3API调用4.3.4本地部署4.3.5大模型的微调实践案例:通过提示词生成面向宝马汽车公司销售的求职简历任务描述:你是一名市场营销专业刚刚毕业的大学生,计划申请宝马汽车公司(BMW)的销售顾问岗位。你将使用DeepSeek,通过精心设计的提示词生成一份专业、简洁的求职简历,突出与汽车销售相关的技能和经验,吸引宝马招聘经理的注意,适配高端汽车品牌的需求。简历要求:内容:包括个人信息、教育背景、求职意向、所获荣誉、兴趣爱好、工作/实习经验、技能特长和自我评价,强调销售业绩、沟通能力和对宝马品牌的了解。风格:专业、简洁,语气积极,符合高端汽车销售岗位的职业形象。字数:约800字。

504.3.1网页端使用第4章大语言模型与生成式人工智能步骤1.明确求职简历的相关信息个人信息:张X,男,22岁,联系方式:138-1234-5678,邮箱:wei.zhang@。

教育背景:XX职业技术学院,市场营销专业,2023-2026。

工作经验:汽车4S店销售实习(达成月度销售目标120%)、校园汽车俱乐部活动策划。

技能特长:熟练使用CRM软件、普通话流利、英语CET-4。所获荣誉:校优秀学生干部、校三好学生、院级一等奖学金。514.3.1网页端使用第4章大语言模型与生成式人工智能步骤2.设计提示词参考COSTAR提示词的基本结构,分析各个模块的具体内容,设计出准确的提示词。524.3.1网页端使用第4章大语言模型与生成式人工智能534.3.1网页端使用第4章大语言模型与生成式人工智能Content你正在为一名市场营销专业刚刚毕业的大学生撰写一份求职简历,简历用于宝马汽车公司销售岗位的面试,该生的个人信息为张X,男,22岁,联系方式:138-1234-5678,邮箱:wei.zhang@;教育背景为XX职业技术学院,市场营销专业,2023-2026;工作经验为汽车4S店销售实习(达成月度销售目标120%)、校园汽车俱乐部活动策划;技能特长为熟练使用CRM软件、普通话流利、英语CET-4;所获荣誉为校优秀学生干部、校三好学生、院级一等奖学金Objective生成一篇求职简历,体现该生的优秀,强调该生的销售业绩、沟通能力和对宝马品牌的了解,帮助该生得到面试官的认可Style参考网络上的求职简历,需要严肃、专业、简洁的风格Tone真诚、有感染力、积极、体现对该职位的渴望Audience目标人群是宝马汽车公司面试官Response输出内容包含:1.标题2.正文内容包括个人背景+教育背景+工作经验+技能特长+所获荣誉+自我评价3.文案长度控制在800字以内步骤3.访问网站544.3.1网页端使用第4章大语言模型与生成式人工智能步骤4.根据提示词生成文案554.3.1网页端使用第4章大语言模型与生成式人工智能步骤5.根据提示词改进文案根据上一步生成的结果,再次输入提示词“缩减个人背景中的内容,将其放入自我评价当中”,改进生成文案结果。564.3.1网页端使用第4章大语言模型与生成式人工智能步骤6.通过指令参数调整模型结果在使用DeepSeek时,可以通过调整指令参数来控制模型的行为和输出结果。以指令参数max_tokens为例,分别设置指令参数max_tokens为100和500。max_tokens越大,生成文本越长。574.3.1网页端使用第4章大语言模型与生成式人工智能大模型插件是基于大型语言模型的扩展工具,可集成至各类应用程序,以增强其智能化功能。用户可以通过插件接入数据库、调用API,甚至进行更复杂的任务,如图像处理或实时数据分析。584.3.2大模型插件第4章大语言模型与生成式人工智能实践案例:使用Wolfram插件分析销售数据任务描述:你是某家公司的销售部经理,目前掌握了公司上一年度的销售数据。现在你需要使用ChatGPT中的Wolfram插件分析以上数据,生成关键统计指标(如总销售额、季度销售额、季度增长率)和可视化图表(每个季度销售的饼图,每个月销售的柱状图),为管理层提供决策依据。为下一年销售策略的制定做准备。594.3.2大模型插件第4章大语言模型与生成式人工智能月份1月2月3月4月5月6月销售额/$83,274.5692,456.78105,342.2174,199.34112,341.5098,746.93月份7月8月9月10月11月12月销售额/$119,563.7288,214.61109,003.8477,256.2295,343.09102,509.87步骤1.打开GPT网站访问网站,并登录。604.3.2大模型插件第4章大语言模型与生成式人工智能步骤2.查找Wolfram插件单击界面左侧的“探索GPT”选项单击“Wolfram”图标进入相应功能页面614.3.2大模型插件第4章大语言模型与生成式人工智能步骤3.打开Wolfram插件在Wolfram功能页面中单击“开始聊天”选项,进入Wolfram插件初始界面624.3.2大模型插件第4章大语言模型与生成式人工智能步骤4.分析关键统计指标输入提示词:“1月:$83,274.56;2月:$92,456.78;3月:$105,342.21;4月:$74,199.34;5月:$112,341.50;6月:$98,746.93;7月:$119,563.72;8月:$88,214.61;9月:$109,003.84;10月:$77,256.22;11月:$95,343.09;12月:$102,509.87以上为公司某一年度的销售数据,请计算出该销售数据对应的总销售额、季度销售额、季度增长率”634.3.2大模型插件第4章大语言模型与生成式人工智能644.3.2大模型插件第4章大语言模型与生成式人工智能步骤5:数据可视化对销售数据进行可视化操作,得到每个季度销售的饼图,每个月销售的柱状图。输入提示词为“画出上述销售数据的每季度销售饼图和每月销售柱状图”。654.3.2大模型插件第4章大语言模型与生成式人工智能664.3.2大模型插件第4章大语言模型与生成式人工智能目前,很多大模型公司都提供了可以供用户二次开发使用的大模型API。用户还可以根据自身的业务逻辑和需求,通过API将大模型的功能集成到用户自己的应用程序中,提升应用程序的智能化能力。674.3.3API调用第4章大语言模型与生成式人工智能实践案例:利用Python调用deepseek的API任务描述你是一名大四学生,即将利用五一假期,前往南京旅行。你需要利用Python调用deepseek的API来为自己制定一个三天两晚的出游计划。684.3.3API调用第4章大语言模型与生成式人工智能步骤1.获取deepseek的APIkeys访问网站单击右上角红色框中的“API开放平台”,进行APIkey的申请。创建APIkeys694.3.3API调用第4章大语言模型与生成式人工智能步骤2.使用Python调用API代码演示环境准备:安装openai库,输入命令:pipinstallopenai在Pycharm中输入代码,其中api_key为前面第一步获取的APIkey。输入提示词为“为我制定一个五一期间在南京游玩三天两晚的出行计划,以整段文字的形式显示”。704.3.3API调用第4章大语言模型与生成式人工智能输出结果为“五一期间南京三天两晚游玩计划如下:第一天上午游览中山陵,感受孙中山先生的历史伟绩,随后前往音乐台欣赏鸽子飞舞。中午在南京大牌档(中山陵店)品尝盐水鸭、狮子头等特色菜。下午参观明孝陵,探索明朝皇家陵墓的宏伟,之后前往美龄宫了解宋美龄的生平。晚上夜游夫子庙秦淮河风光带,感受“十里秦淮”的繁华,晚餐推荐奇芳阁的鸭血粉丝汤和小笼包。第二天上午漫步玄武湖公园,欣赏湖光山色,随后参观鸡鸣寺,感受佛教文化的庄严。中午在鸡鸣寺素斋馆体验素食美味。下午游览南京博物院,了解南京历史与文化,之后前往1912街区拍照打卡,感受民国风情。晚餐推荐民国红公馆的精致民国菜。第三天上午参观南京眼步行桥,欣赏长江美景,随后前往鱼嘴湿地公园放松身心。中午在江宴楼品尝江鲜美食。下午探索老门东历史文化街区,购买特色手信,之后根据时间安排返程。建议提前预约景点门票,交通以地铁为主,注意防晒和补水,合理安排休息时间。Enjoyyourtrip!”。714.3.3API调用第4章大语言模型与生成式人工智能DeepSeek不同版本模型的部署要求724.3.4本地部署第4章大语言模型与生成式人工智能用户需要根据用户计算机硬件配置来选择适配的模型版本。本地部署能将所有数据运算都限制在本地,数据不会上传至云端,可有效避免数据传输和存储在云端可能带来的隐私泄露风险。734.3.4本地部署第4章大语言模型与生成式人工智能实践案例:本地部署Deepseek-R1-1.5b模型任务描述:你是一名外企员工。现在有一批中文资料需要翻译成英文,你需要本地部署一个deepseek大语言模型并使用该模型进行翻译工作,要求翻译需要做到内容准确,语句通畅,不能出现不符合英文习惯的表达。744.3.4本地部署第4章大语言模型与生成式人工智能步骤1.下载安装Ollama访问网站,单击“Download”选项,根据电脑操作系统选择相应的安装包进行下载。754.3.4本地部署第4章大语言模型与生成式人工智能下载完成以后,双击安装包文件“OllamaSetup.exe”完成安装。安装完成后,在Windows系统中,右击“开始”菜单按钮,在弹出的菜单中选择“运行”选项,再在弹出的对话框中输入“cmd”并回车,打开cmd命令行工具窗口,输入ollama--version命令,验证是否安装成功。如果显示Ollama版本号,说明安装成功。764.3.4本地部署第4章大语言模型与生成式人工智能步骤2.下载deepseekR1根据计算机显卡显存选择对应的模型,可以在cmd命令行窗口中执行命令:nvidia-smi,查看显存大小774.3.4本地部署第4章大语言模型与生成式人工智能根据计算机显存信息选择合适的DeepSeek模型,这里建议选择参数较少、体积最小的1.5b版本(如果计算机的配置较高,也可以选择参数较大的版本)。这里以1.5b版本为例,在cmd命令行窗口中执行命令:ollamarundeepseek-r1:1.5b,就可以自动下载DeepSeek-R1-1.5b大模型。784.3.4本地部署第4章大语言模型与生成式人工智能下载完成后,可以使用命令:ollamalist查看已下载的模型的名字、大小等信息。794.3.4本地部署第4章大语言模型与生成式人工智能步骤3.运行DeepSeekR1在cmd命令行窗口中执行如下命令:ollamarundeepseek-r1:1.5b,即可启动DeepSeekR1大模型。启动后,用户可以直接输入问题获取答案,我们输入“将‘比亚迪全年营收首次超过特斯拉,这标志着全球电动汽车市场格局的重大变化。’这段话翻译成英文,要求翻译准确且流畅”。804.3.4本地部署第4章大语言模型与生成式人工智能814.3.4本地部署第4章大语言模型与生成式人工智能在众多微调工具中,Llama-Factory以其简洁高效和广泛适用性备受关注。Llama-Factory专为HuggingFace格式的预训练大模型设计,支持多种微调方法,如全参数微调、LoRA(低秩适配)和QLoRA等,既适用于全精度模型,也能应对量化模型的微调需求。824.3.5大模型的微调第4章大语言模型与生成式人工智能834.4生成式人工智能第4章大语言模型与生成式人工智能4.4.1生成式人工智能概述4.4.2生成式AI的发展历程4.4.3生成式AI的核心技术生成式人工智能是通过深度学习等人工智能算法,从训练数据中学习数据的分布、模式与结构,然后利用这些知识自动生成与训练数据相似,但是全新内容的技术。在自然语言处理领域,OpenAI的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论