AI大模型-第一章LLM发展-方法(修改于大模型技术-原理-应用-哈工大)_第1页
AI大模型-第一章LLM发展-方法(修改于大模型技术-原理-应用-哈工大)_第2页
AI大模型-第一章LLM发展-方法(修改于大模型技术-原理-应用-哈工大)_第3页
AI大模型-第一章LLM发展-方法(修改于大模型技术-原理-应用-哈工大)_第4页
AI大模型-第一章LLM发展-方法(修改于大模型技术-原理-应用-哈工大)_第5页
已阅读5页,还剩35页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

AI第一章:大语言模型(LLM:LargeLanguageModel)背景-发展-训练-应用最新研究:(皆已经开源)

PaddleOCR-VLdeepseek-OCRdeepseek-OCR原文:/deepseek-ai/DeepSeek-OCR/refs/heads/main/DeepSeek_OCR_paper.pdf项目地址:/deepseek-ai/DeepSeek-OCR.PaddleOCR-VLPaddleOCR-VL是一个为文档解析量身定制的SOTA(最先进)且资源高效的模型。其核心组件是PaddleOCR-VL-0.9B,这是一个紧凑而强大的视觉-语言模型(VLM),它将NaViT风格的动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型集成在一起,以实现准确的元素识别。这一创新模型高效地支持109种语言,并在识别复杂元素(例如文本、表格、公式和图表)方面表现出色,同时保持最低限度的资源消耗。通过对广泛使用的公共基准测试和内部基准测试的全面评估,PaddleOCR-VL在页面级文档解析和元素级识别中均达到了SOTA性能。它显著优于现有解决方案,展现出与顶级VLM的强大竞争力,并提供快速的推理速度。这些优势使其非常适合在实际场景中的部署。PaddleOCR文档PaddleOCR-VL·模型库Paddle部署稍显麻烦LLM相关背景现状近年来,研究界为大规模参数(例如,包含数百亿或数千亿的参数)的语言模型创造了大型语言模型(largelanguagemodels,LLM)。随着ChatGPT、千问、文心、智谱、KIMI、豆包、claude、grok等大模型的推出和应用,国内外对LLMs的研究都取得了很大的进展,引起了社会的广泛关注。当前有众多开源大模型,Llama、ChatGLM、千帆、通义千问系列。Qwen-7B的B,1B表示参数量为10亿(1Billion)国内外开源大模型一直受到研究者的关注,但是种类比较繁多,每年就已经推出了两位数以上的数量。并且在推理、语音识别、语音合成、多模态上也有众多进展。多模态LLMAI推理,LLM工具LLM"语言是继真核细胞之后最伟大的进化成就"——社会生物学之父爱德华·威尔逊大模型

又称大语言模型(Large

Language

Models)语言

是人类交流思想、表达情感最自然、最深刻、最方便的工具"语言本身就是人类有史以来最大的技术发明"——詹姆斯·格雷克《信息简史》人类历史上大部分知识是以语言文字形式记载和流传的为什么是语言?自然语言处理(

Natural

Language

Processing

NLP)

用计算机来

理解

生成

自然语言的各种理论和方法属于认知智能是人类和动物的主要区别之一

需要更强的

抽象

推理

能力运算智能感知智能认知智能能存储会计算能听会说能看会认能理解会思考自然语言

指的是人类语言,特指文本符号,而非语音信号什么是自然语言处理?深度学习的下一个前沿课题是自然语言理解——图灵奖得主、

MetaAI负责人Yann

LeCun"下一个十年,

懂语言者得天下"——美国工程院士、微软前全球执行副总裁沈向洋"深度学习的下一个大的进展应该是让神经网络真正理解文档的内容——诺贝尔奖得主、图灵奖得主、深度学习之父GeoffreyHinton自然语言处理成为制约人工智能取得更大突破和更广泛应用的瓶颈——美国双院院士、世界知名机器学习专家MichaelI.Jordan"如果给我10亿美金,我会建造一个自然语言处理研究项目"NASA级别的小规模专家知识1950~1990自然语言处理技术已经经历了五次范式变迁自然语言处理的发展历史浅层机器学习算法1990~2010预训练语言模型2018~2023深度学习2010~2017大模型2023~2024Generative

Pre-trainedTransformer,OpenAI2018采用语言模型预训练任务语言模型计算一个句子在语言中出现的概率或给定上文,预测下一个词出现的概率哈工大位于____

[知识]我在水果店看到了苹果、香蕉、____

[语义]

小明打了小红,然后她____

[推理、指代]我一定推荐给朋友看,这部电影真是____

[情感]……M

M

MMM输入层

喜欢吃土豆

茄子预训练阶段语言模型学到了什么?输出层Transformer吃土豆炖

茄子。GPT词嵌入层数据标注未标注文本

语料库预训练模型使用建模能力更强的Transformer模型在目标任务上精调整个预训练模型接入的下游任务模型可以非常简单M

M

M

M

M

I

I输入层

爱吃

马铃薯[PAD]精调阶段三大创新开启了自然语言处理预训练模型时代

Fine-tune输出层

褒义GPT预训练

Pre-train模型训练TransformEr词嵌入层任务层精调模型GPT-3代码生成示例1750亿参数,模型太大无法精调为不同的任务设计相应的“提示语”下面文本的情感是:无需训练,便可完成“文本”生成任务如:问答、文章续写、网页生成、自动编曲等Language

Modelsare

Few-Shot

Learners,OpenAI&

Microsoft

2020任务描述示例(In-context)问题GPT

3:大模型早已有之这本书写得很好的情感是????

我喜欢这部电影的情感是褒义Question:Which

isheavier,atoasteror

pencil?(烤箱和铅笔哪个更重?)GPT-3:A

pencilis

heavierthanatoaster.

(铅笔比烤箱重。)Question:

Howmanyeyedoesmyfoot

have?

(我的脚有几只眼睛?)GPT-3:Yourfoot

hastwoeyes.(你的脚有两只眼睛。)GPT-3原文指出,在故事结尾选择任务上比哈工大丁效等所提出的具有知识推理能力的模型低4.1%!预训练语言模型并不能真正克服深度学习模型鲁棒性差、可解释性弱、推理能力缺失缺乏知识推理与可解释性GPT-3测试样例瓶颈,故在深层次语义理解上与人类认知水平还相去较远!GPT

3的不足的https://ch/模型规模足够大(

>60B?)预训练数据足够多在代码数据上继续预训练1

triIIion1

biIIion1

miIIion

(1T)

Gshard

(600B)

zeRO-2GPTV3(170B)

(175B)

T-

NLGMegatronT5(8B)

(11B)GPTV2(1

.

5B)T-

ELMo(465M)MT-DNN(330M)201820192020yearchatGPT的关键核心技术

()

:无监督学习大规模预训练语言模型,涌现出推理能力

(30B)ROBERTA

(500M)(355M)Ai2ELMo

(94M)BIenderBo&tMMMTBERT-L

(340M)GPTV1(110M)-i2Grover(1

.

5B)模型Deepspeed(17B)XLMR将各种任务形式进行统一(指令+输入

输出)在众多(成千上万)任务的标注数据上精调语言模型模型能够处理未见任务(Zero-shot)厂

L

https://arxiv.org/pdf/2210.11416.pdf

使大模型更好遵循人类指令:指令精调(InstructionTuning)chatGPT的关键核心技术

(2/3)

:

有监督学习降低人工标注难度生成的结果更多样能利用负面的标注结果厂

L

https://huggingface.co/blog/rlhf

将大模型进一步向人类期望对齐:人类反馈强化学习(RLHF)chatGPT的关键核心技术

(3/3)

:强化学习CNNMLPRNN Ada-00220202021202220232024

InstructGPTChatGPT201920182025Model

Source

Open

Resource Close

ResourceModelTypeEncoder-onlyDecoder-onlyEncoder-Decoder引爆

"百模大战"

OLMo

Gemini-1.5

Mistral

Large

Yi

Ernie

BERTHuozi

LLaMA2

Step-Reason-mini

InternLM3text-embedding-3

Yi-1.5

Step-2

Step-1

O1

CriticGPT

BART

T5

Gemini-Thinking

ST-MoE

DeepSeek-LLMDeepSeek-v2.5DeBERTa Jurassic-1 DeepSeek-R1GGemini Qwen1.5G

FlanPaLM DeepSeek-v3

FLanUL2DeepSeek-v2

DeBERTav3/

Alpaca

InternLM2.5Vicuna-v1.5TransformerGXLNetSkywork-o1

mT0\GFlanT5 GPTNeoX SpanBERT

DistillBERT

Jli

Baichuan2

InternLM2

Switch

Gopher Jurassic-2GPTChinchillaChatGLMJli

Baichuan

BLOOMzSimCSE

MPTQwen2.5OLMo2TkGemini-2InternLM

LLaMA3

Sparrow SkyworkBLOOM

ElectraPaLM2

Ernie3.0

CPM-2

Mistral

Large2Vicuna

BGELLaMA

MixtralQwen2MistralGPT3GPT-2GPT4WeLMPaLMQwenMoss

umT5G

mT5GLM

RoBERTa

OPTGUL2GLM-Zero

E5

XGLM

GT0

QwQ

ALBERT

Nature

News报道:“中国的廉价且开源的大型语言模型震撼了科学界!

”由中国研发的DeepSeek-R1大模型是一种既具备高性价比又完全开源

“推理”模型

,其性能可与OpenAI的

o1模型媲美。通过模仿人类推理过程

,这些模型能够逐步生成响应

,在解决科学问题时表现得比早期大模型更为出色,可能对科研工作产生深远的影响

…★GRPO

(DeepSeekMath,2024.2)-无须价值网络-提高学习稳定性-

降低学习开销发布时间:2024.5核心技术:

MoE(更多共享专家)+

MLA

(多头潜在注意力)R1zero最大参数量:671B(激活37B)最大参数量:671B(激活37B)最大参数量:671B(激活37B)最大参数量:236B(激活21B)核心技术:基于bias负载均衡训练成本:

172.8KGPU小时训练成本:2788KGPU小时/核心技术:SFT学习推理格式能力

+将RL引入基模型架构核心技术:只使用RL学会推理核心技术:类LLaMA架构训练稳定程度:很稳定训练稳定程度:较稳定训练稳定程度:不稳定R1训练稳定程度:很稳定V2训练稳定程度:稳定V3V1+

RL学习推理能力发布时间:2025.1+

MTP(多词元预测)发布时间:2024.12训练数据量:

14T发布时间:2025.1发布时间:2024.1最大参数量:67B训练数据量:8T训练数据量:2T+SFT+RLHF$5.58MDeepSeek训练、推理速度更快,远超o1类Deep

seek学习到推理能力,性能接近o1模型只使用强化学习(RL),模型自主模型,极大节约硬件成本R1模型及其蒸馏出的子模型坚持开源精神,开放了习得推理能力只用RL推理(Reasoning)是指根据已知的信息、事实、规则或前提,通过一定的思维过程和方法,推导出新的结论、判断或知识的认知活动。它是人类思维和智能的核心组成部分,也是人工智能、科学研究和日常决策中的关键能力。DeepSeek-R1引发自然语言处理的第六次范式变迁自然语言处理的发展历史大模型2023~2024预训练语言模型2018~2023浅层机器学习算法1990~2010小规模专家知识1950~1990深度学习2010~2017推理2025~?一系列中间推理步骤,相当于在求解问题过程中将解题步骤也写出来早期的思维链能力是模型自发“涌现”的(a)少样例推理问:小明有5个乒乓球,他又买了2筒乒乓球,每桶有3个。小明现在有多少乒乓球?答:

11个。问:现在一共有16个球,其中的一半是小华的,小华的球中有一半是蓝色的。小华的球中有多少蓝色?答:(输出)8个。(b)少样例思维链推理

(Wei

et

al.,

2022)问:小明有5个乒乓球,他又买了2筒乒乓球,每桶有3个。小明现在有多少乒乓球?答:小明一开始有5个乒乓球,在买了2筒后增加了2乘3等于6个,加起来一共11个。问:现在一共有16个球,其中的一半是小华的,小华的球中有一半是蓝色的。小华的球中有多少蓝色?答:

(输出)

16的一半是8个,8个的一半是4个。(c)零样例推理问:现在一共有16个球,其中的一半是小华的,小华的球中有一半是蓝色的。小华的球中有多少是蓝色的?答:

(输出)8个。(d)零样例思维链推理

(Kojima

et

al.,2022)问:现在一共有16个球,其中的一半是小华的,小华的球中有一半是蓝色的。小华的球中有多少是蓝色的?答:让我们一步一步地思考。

(输出)

16的一半是8个,8个的一半是4个。

思维链(Chain-of-Thought,COT)推理采用的核心技术

强化学习框架:使用GRPO(GroupRelative

PolicyOptimization)作为强化学习框架奖励模型:结果/规则奖励,奖励分为准确率奖励(accuracyrewards)和

格式奖励(formatrewards)

,确保模型输出正确的答案格式和推理过程https://www.mdpi.com/2079-9292/10/13/1533全新的技术栈:基于结果的极简版强化学习(只将规则获得的准确率作为奖励)zero核心技术利用当前策略模型进行多次采样

并使用平均奖励值近似价值函数

,从而避免了对价值函数的显式训练

这样做既减少了计算开销

,又避免了价值函数训练的困难,

提高了模型学习的稳定性【DeepSeekMath,2024.2】厂

L

https://arxiv.org/abs/2402.03300

GRPO(Group

Relative

PolicyOptimization)zero核心技术RL不需要复杂的算法

,简单的GRPO就够用RL需要大量的数据:

R1-Zero训了8000个

步骤

,如果每个步骤

采样的数据量为1024

,那也到了8M级别RL训练不需要过程奖励

,结果奖励足够https://arxiv.org/abs/2501.12948性能提升:

,AIME2024的pass@1分数:39.2%-71.0%接近OpenAI-o1-previewzero实验结果DeepSeek登上《自然》封面论文表:DeepSeek-R1-Zero在整个训练过程中的准确率与输出长度变化。相比其它动辄上千万美元,

其训练仅花了30万美元,曾引发美股震荡。现在于2025.9.17登上Nature的最新封面。OpenAI给出的6条

Prompt设计原则1.

Writeclear

instructions

撰写清晰的指令2.Provide

reference

text提供参考文本3.

Splitcomplextasksinto

simpler

subtasks将复杂的任务拆分为更简单的子任务4.

Give

the

model

time

to

"think”

给模型时间“思考”5.Use

external

tools使用外部工具6.

Testchangessystematically

系统地测试变更/docs/guides/prompt-engineeringprompt工程无输出格式与风格要求

,礼貌程度有限Tips:明确角色定位(Who)具体任务目标(What)必要背景信息(Why)格式/语气要求(How)关键据指标(When/Where)参数模糊,

模型无法给出明确具体的方案上下文缺失,未说明身份/对象,无法适配沟通场景加入明确的分隔符区分输入中的不同部分,如“原文”、“待插入段”等可以使用标签作为分隔符包裹字段,如<insert>公司承诺…

</insert>统一指令与输入内容中对分隔符的描述

,如:

将X插入Y中:

X:abc

Y:def缺少明确的分隔符标识不同字段Tips:插入符号Tips:对于内容与格式要求相对抽象化、难以直接描述的问题

,可以通过示例表达需求提供尽可能多的示例

,示例过少会限制回复的多样性

,陷入给定示例的特定模式提供示例RAG检索增强生成SFT有指导微调领域应用:

Prompt工程

识不足风

对判断和目标的差距领域应用检索器查询

相关文档特定数据库https://www.ml6.eu/blogpost/leveraging-llms-on-your-domain-specific-knowledge-base问题

+

生成大模型作为生成器

答案提问问题自然语言处理正在由面向自然语言的处理转变为基于自然语言的智能智能体

(Agents具身智能人工智能驱动的科学研究协作与对抗单体智能Autonomous

Agents群体智能Agents向量数据库社会模拟工具学习组织推广大模型应用小型化个性化角色化定制化隐私性安全性数据归因数据合成模型架构设计增量预训练金融

医疗

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论