版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
AI第一章:大语言模型(LLM:LargeLanguageModel)背景-发展-训练-应用最新研究:(皆已经开源)
PaddleOCR-VLdeepseek-OCRdeepseek-OCR原文:/deepseek-ai/DeepSeek-OCR/refs/heads/main/DeepSeek_OCR_paper.pdf项目地址:/deepseek-ai/DeepSeek-OCR.PaddleOCR-VLPaddleOCR-VL是一个为文档解析量身定制的SOTA(最先进)且资源高效的模型。其核心组件是PaddleOCR-VL-0.9B,这是一个紧凑而强大的视觉-语言模型(VLM),它将NaViT风格的动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型集成在一起,以实现准确的元素识别。这一创新模型高效地支持109种语言,并在识别复杂元素(例如文本、表格、公式和图表)方面表现出色,同时保持最低限度的资源消耗。通过对广泛使用的公共基准测试和内部基准测试的全面评估,PaddleOCR-VL在页面级文档解析和元素级识别中均达到了SOTA性能。它显著优于现有解决方案,展现出与顶级VLM的强大竞争力,并提供快速的推理速度。这些优势使其非常适合在实际场景中的部署。PaddleOCR文档PaddleOCR-VL·模型库Paddle部署稍显麻烦LLM相关背景现状近年来,研究界为大规模参数(例如,包含数百亿或数千亿的参数)的语言模型创造了大型语言模型(largelanguagemodels,LLM)。随着ChatGPT、千问、文心、智谱、KIMI、豆包、claude、grok等大模型的推出和应用,国内外对LLMs的研究都取得了很大的进展,引起了社会的广泛关注。当前有众多开源大模型,Llama、ChatGLM、千帆、通义千问系列。Qwen-7B的B,1B表示参数量为10亿(1Billion)国内外开源大模型一直受到研究者的关注,但是种类比较繁多,每年就已经推出了两位数以上的数量。并且在推理、语音识别、语音合成、多模态上也有众多进展。多模态LLMAI推理,LLM工具LLM"语言是继真核细胞之后最伟大的进化成就"——社会生物学之父爱德华·威尔逊大模型
又称大语言模型(Large
Language
Models)语言
是人类交流思想、表达情感最自然、最深刻、最方便的工具"语言本身就是人类有史以来最大的技术发明"——詹姆斯·格雷克《信息简史》人类历史上大部分知识是以语言文字形式记载和流传的为什么是语言?自然语言处理(
Natural
Language
Processing
,
NLP)
用计算机来
理解
和
生成
自然语言的各种理论和方法属于认知智能是人类和动物的主要区别之一
需要更强的
抽象
和
推理
能力运算智能感知智能认知智能能存储会计算能听会说能看会认能理解会思考自然语言
指的是人类语言,特指文本符号,而非语音信号什么是自然语言处理?深度学习的下一个前沿课题是自然语言理解——图灵奖得主、
MetaAI负责人Yann
LeCun"下一个十年,
懂语言者得天下"——美国工程院士、微软前全球执行副总裁沈向洋"深度学习的下一个大的进展应该是让神经网络真正理解文档的内容——诺贝尔奖得主、图灵奖得主、深度学习之父GeoffreyHinton自然语言处理成为制约人工智能取得更大突破和更广泛应用的瓶颈——美国双院院士、世界知名机器学习专家MichaelI.Jordan"如果给我10亿美金,我会建造一个自然语言处理研究项目"NASA级别的小规模专家知识1950~1990自然语言处理技术已经经历了五次范式变迁自然语言处理的发展历史浅层机器学习算法1990~2010预训练语言模型2018~2023深度学习2010~2017大模型2023~2024Generative
Pre-trainedTransformer,OpenAI2018采用语言模型预训练任务语言模型计算一个句子在语言中出现的概率或给定上文,预测下一个词出现的概率哈工大位于____
[知识]我在水果店看到了苹果、香蕉、____
[语义]
小明打了小红,然后她____
[推理、指代]我一定推荐给朋友看,这部电影真是____
[情感]……M
M
MMM输入层
喜欢吃土豆
炖
茄子预训练阶段语言模型学到了什么?输出层Transformer吃土豆炖
茄子。GPT词嵌入层数据标注未标注文本
语料库预训练模型使用建模能力更强的Transformer模型在目标任务上精调整个预训练模型接入的下游任务模型可以非常简单M
M
M
M
M
I
I输入层
我
爱吃
马铃薯[PAD]精调阶段三大创新开启了自然语言处理预训练模型时代
Fine-tune输出层
褒义GPT预训练
Pre-train模型训练TransformEr词嵌入层任务层精调模型GPT-3代码生成示例1750亿参数,模型太大无法精调为不同的任务设计相应的“提示语”下面文本的情感是:无需训练,便可完成“文本”生成任务如:问答、文章续写、网页生成、自动编曲等Language
Modelsare
Few-Shot
Learners,OpenAI&
Microsoft
2020任务描述示例(In-context)问题GPT
3:大模型早已有之这本书写得很好的情感是????
我喜欢这部电影的情感是褒义Question:Which
isheavier,atoasteror
pencil?(烤箱和铅笔哪个更重?)GPT-3:A
pencilis
heavierthanatoaster.
(铅笔比烤箱重。)Question:
Howmanyeyedoesmyfoot
have?
(我的脚有几只眼睛?)GPT-3:Yourfoot
hastwoeyes.(你的脚有两只眼睛。)GPT-3原文指出,在故事结尾选择任务上比哈工大丁效等所提出的具有知识推理能力的模型低4.1%!预训练语言模型并不能真正克服深度学习模型鲁棒性差、可解释性弱、推理能力缺失缺乏知识推理与可解释性GPT-3测试样例瓶颈,故在深层次语义理解上与人类认知水平还相去较远!GPT
3的不足的https://ch/模型规模足够大(
>60B?)预训练数据足够多在代码数据上继续预训练1
triIIion1
biIIion1
miIIion
(1T)
Gshard
(600B)
zeRO-2GPTV3(170B)
(175B)
T-
NLGMegatronT5(8B)
(11B)GPTV2(1
.
5B)T-
ELMo(465M)MT-DNN(330M)201820192020yearchatGPT的关键核心技术
()
:无监督学习大规模预训练语言模型,涌现出推理能力
(30B)ROBERTA
(500M)(355M)Ai2ELMo
(94M)BIenderBo&tMMMTBERT-L
(340M)GPTV1(110M)-i2Grover(1
.
5B)模型Deepspeed(17B)XLMR将各种任务形式进行统一(指令+输入
输出)在众多(成千上万)任务的标注数据上精调语言模型模型能够处理未见任务(Zero-shot)厂
L
https://arxiv.org/pdf/2210.11416.pdf
使大模型更好遵循人类指令:指令精调(InstructionTuning)chatGPT的关键核心技术
(2/3)
:
有监督学习降低人工标注难度生成的结果更多样能利用负面的标注结果厂
L
https://huggingface.co/blog/rlhf
将大模型进一步向人类期望对齐:人类反馈强化学习(RLHF)chatGPT的关键核心技术
(3/3)
:强化学习CNNMLPRNN Ada-00220202021202220232024
InstructGPTChatGPT201920182025Model
Source
Open
Resource Close
ResourceModelTypeEncoder-onlyDecoder-onlyEncoder-Decoder引爆
"百模大战"
OLMo
Gemini-1.5
Mistral
Large
Yi
Ernie
BERTHuozi
LLaMA2
Step-Reason-mini
InternLM3text-embedding-3
Yi-1.5
Step-2
Step-1
O1
CriticGPT
BART
T5
Gemini-Thinking
ST-MoE
DeepSeek-LLMDeepSeek-v2.5DeBERTa Jurassic-1 DeepSeek-R1GGemini Qwen1.5G
FlanPaLM DeepSeek-v3
FLanUL2DeepSeek-v2
DeBERTav3/
Alpaca
InternLM2.5Vicuna-v1.5TransformerGXLNetSkywork-o1
mT0\GFlanT5 GPTNeoX SpanBERT
DistillBERT
Jli
Baichuan2
InternLM2
Switch
Gopher Jurassic-2GPTChinchillaChatGLMJli
Baichuan
BLOOMzSimCSE
MPTQwen2.5OLMo2TkGemini-2InternLM
LLaMA3
Sparrow SkyworkBLOOM
ElectraPaLM2
Ernie3.0
CPM-2
Mistral
Large2Vicuna
BGELLaMA
MixtralQwen2MistralGPT3GPT-2GPT4WeLMPaLMQwenMoss
umT5G
mT5GLM
RoBERTa
OPTGUL2GLM-Zero
E5
XGLM
GT0
QwQ
ALBERT
Nature
News报道:“中国的廉价且开源的大型语言模型震撼了科学界!
”由中国研发的DeepSeek-R1大模型是一种既具备高性价比又完全开源
的
“推理”模型
,其性能可与OpenAI的
o1模型媲美。通过模仿人类推理过程
,这些模型能够逐步生成响应
,在解决科学问题时表现得比早期大模型更为出色,可能对科研工作产生深远的影响
…★GRPO
(DeepSeekMath,2024.2)-无须价值网络-提高学习稳定性-
降低学习开销发布时间:2024.5核心技术:
MoE(更多共享专家)+
MLA
(多头潜在注意力)R1zero最大参数量:671B(激活37B)最大参数量:671B(激活37B)最大参数量:671B(激活37B)最大参数量:236B(激活21B)核心技术:基于bias负载均衡训练成本:
172.8KGPU小时训练成本:2788KGPU小时/核心技术:SFT学习推理格式能力
+将RL引入基模型架构核心技术:只使用RL学会推理核心技术:类LLaMA架构训练稳定程度:很稳定训练稳定程度:较稳定训练稳定程度:不稳定R1训练稳定程度:很稳定V2训练稳定程度:稳定V3V1+
RL学习推理能力发布时间:2025.1+
MTP(多词元预测)发布时间:2024.12训练数据量:
14T发布时间:2025.1发布时间:2024.1最大参数量:67B训练数据量:8T训练数据量:2T+SFT+RLHF$5.58MDeepSeek训练、推理速度更快,远超o1类Deep
seek学习到推理能力,性能接近o1模型只使用强化学习(RL),模型自主模型,极大节约硬件成本R1模型及其蒸馏出的子模型坚持开源精神,开放了习得推理能力只用RL推理(Reasoning)是指根据已知的信息、事实、规则或前提,通过一定的思维过程和方法,推导出新的结论、判断或知识的认知活动。它是人类思维和智能的核心组成部分,也是人工智能、科学研究和日常决策中的关键能力。DeepSeek-R1引发自然语言处理的第六次范式变迁自然语言处理的发展历史大模型2023~2024预训练语言模型2018~2023浅层机器学习算法1990~2010小规模专家知识1950~1990深度学习2010~2017推理2025~?一系列中间推理步骤,相当于在求解问题过程中将解题步骤也写出来早期的思维链能力是模型自发“涌现”的(a)少样例推理问:小明有5个乒乓球,他又买了2筒乒乓球,每桶有3个。小明现在有多少乒乓球?答:
11个。问:现在一共有16个球,其中的一半是小华的,小华的球中有一半是蓝色的。小华的球中有多少蓝色?答:(输出)8个。(b)少样例思维链推理
(Wei
et
al.,
2022)问:小明有5个乒乓球,他又买了2筒乒乓球,每桶有3个。小明现在有多少乒乓球?答:小明一开始有5个乒乓球,在买了2筒后增加了2乘3等于6个,加起来一共11个。问:现在一共有16个球,其中的一半是小华的,小华的球中有一半是蓝色的。小华的球中有多少蓝色?答:
(输出)
16的一半是8个,8个的一半是4个。(c)零样例推理问:现在一共有16个球,其中的一半是小华的,小华的球中有一半是蓝色的。小华的球中有多少是蓝色的?答:
(输出)8个。(d)零样例思维链推理
(Kojima
et
al.,2022)问:现在一共有16个球,其中的一半是小华的,小华的球中有一半是蓝色的。小华的球中有多少是蓝色的?答:让我们一步一步地思考。
(输出)
16的一半是8个,8个的一半是4个。
思维链(Chain-of-Thought,COT)推理采用的核心技术
强化学习框架:使用GRPO(GroupRelative
PolicyOptimization)作为强化学习框架奖励模型:结果/规则奖励,奖励分为准确率奖励(accuracyrewards)和
格式奖励(formatrewards)
,确保模型输出正确的答案格式和推理过程https://www.mdpi.com/2079-9292/10/13/1533全新的技术栈:基于结果的极简版强化学习(只将规则获得的准确率作为奖励)zero核心技术利用当前策略模型进行多次采样
,
并使用平均奖励值近似价值函数
,从而避免了对价值函数的显式训练
,
这样做既减少了计算开销
,又避免了价值函数训练的困难,
提高了模型学习的稳定性【DeepSeekMath,2024.2】厂
L
https://arxiv.org/abs/2402.03300
GRPO(Group
Relative
PolicyOptimization)zero核心技术RL不需要复杂的算法
,简单的GRPO就够用RL需要大量的数据:
R1-Zero训了8000个
步骤
,如果每个步骤
采样的数据量为1024
,那也到了8M级别RL训练不需要过程奖励
,结果奖励足够https://arxiv.org/abs/2501.12948性能提升:
,AIME2024的pass@1分数:39.2%-71.0%接近OpenAI-o1-previewzero实验结果DeepSeek登上《自然》封面论文表:DeepSeek-R1-Zero在整个训练过程中的准确率与输出长度变化。相比其它动辄上千万美元,
其训练仅花了30万美元,曾引发美股震荡。现在于2025.9.17登上Nature的最新封面。OpenAI给出的6条
Prompt设计原则1.
Writeclear
instructions
撰写清晰的指令2.Provide
reference
text提供参考文本3.
Splitcomplextasksinto
simpler
subtasks将复杂的任务拆分为更简单的子任务4.
Give
the
model
time
to
"think”
给模型时间“思考”5.Use
external
tools使用外部工具6.
Testchangessystematically
系统地测试变更/docs/guides/prompt-engineeringprompt工程无输出格式与风格要求
,礼貌程度有限Tips:明确角色定位(Who)具体任务目标(What)必要背景信息(Why)格式/语气要求(How)关键据指标(When/Where)参数模糊,
模型无法给出明确具体的方案上下文缺失,未说明身份/对象,无法适配沟通场景加入明确的分隔符区分输入中的不同部分,如“原文”、“待插入段”等可以使用标签作为分隔符包裹字段,如<insert>公司承诺…
</insert>统一指令与输入内容中对分隔符的描述
,如:
将X插入Y中:
X:abc
Y:def缺少明确的分隔符标识不同字段Tips:插入符号Tips:对于内容与格式要求相对抽象化、难以直接描述的问题
,可以通过示例表达需求提供尽可能多的示例
,示例过少会限制回复的多样性
,陷入给定示例的特定模式提供示例RAG检索增强生成SFT有指导微调领域应用:
Prompt工程
知
识不足风
格
不
对判断和目标的差距领域应用检索器查询
相关文档特定数据库https://www.ml6.eu/blogpost/leveraging-llms-on-your-domain-specific-knowledge-base问题
+
生成大模型作为生成器
答案提问问题自然语言处理正在由面向自然语言的处理转变为基于自然语言的智能智能体
(Agents具身智能人工智能驱动的科学研究协作与对抗单体智能Autonomous
Agents群体智能Agents向量数据库社会模拟工具学习组织推广大模型应用小型化个性化角色化定制化隐私性安全性数据归因数据合成模型架构设计增量预训练金融
医疗
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 慢阻肺急性发作的成本控制与预防策略优化
- 可视化地图数据加工合同协议
- 慢阻肺急性加重前预警随访策略
- 车辆调度合作意向协议书
- 学业规划咨询合同
- 2026年波士顿矩阵销售渠道协议
- 幼儿园安全防护和检查制度6篇
- 2026年全国中小学“学宪法、讲宪法”知识竞赛测试题库及答案
- 慢病管理沟通案例分享
- 慢病管理信息化建设与数据安全
- 2026年云南省高二物理学业水平合格考试卷试题(含答案详解)
- 贵州安创数智科技有限公司招聘笔试题库2026
- 机械设备入股合同范本
- 2024-2025学年河南省郑州市高新区七年级(上)期末数学试卷
- 商场服务合同范本
- 江苏省无锡市澄宜六校联盟2025-2026学年高三上学期12月学情调研生物试题(含答案)
- 2026年济源职业技术学院单招综合素质考试题库附答案详解
- 2025年临床流行病学试题及答案
- 广东省广州市白云区2024-2025学年四年级上册期末考试数学试卷(含答案)
- 2025年度公司员工个人年终工作总结汇报
- 【生 物】2025-2026学年人教版生物八年级上册复习提纲
评论
0/150
提交评论