ChatGLM：从千亿到开源的一点思考

上传人：策*** IP属地：山西上传时间：2025-05-10 格式：DOCX 页数：117 大小：7.04MB 积分：19.9 举报 版权申诉

已阅读5页，还剩112页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

ChatGLM:从千亿到开源的一点思考3大模型通用能力强，可完成多场景任务，*模型未罗列全还请见谅大模型已成为各国人工智能技术新方向，$vable1750亿础n段ChatGPT）：48十亿模型十亿模型千亿基座code-davinci-002text-text-davinci-002百亿模型text-davincitext-davinci-003GitHubGitHubCopilotWebGPT(RLHFWebGPT(RLHF)ChatGPTChatGPT底底codecode-davinci-002textdavinci002text-davinci-003千亿基座十亿模型百亿模型GitHubCopilotChatGPTWebGPT(RLHF)底百亿模型十亿多语言百亿模型十亿多语言千亿模型(SFT+RLHF）百亿模型VSCode/JetBrainsVSCode/JetBrainsCodeGeeX插件9清华&智谱GLM系列模型9OpenAIGPT系列模型千亿基座千亿模型千亿模型清华&智谱GLM系列模型自2022自2022年8月发布以来，收到69个国家1000+机构的使用需求••••••••••基础架构训练方式量化加速跨平台能力••••••••••基础架构训练方式量化加速跨平台能力中文:在CLUE和FewCLUE上远超ERNIE3.0,Yuan 高精度：普惠推理：高速推理：跨平台：GLM-130B与OpenAI、Google、Meta、Microsoft等基础大模型相比，在部分评估指标上具有优势v2(175B*)GLM(130B)GPT-3davinciv1(175B)v2(175B*)GLM(130B)GPT-3davinciv1(175B)YaLM(100B)GPT-3davinciv1(175B)GLM(130B)v2(175B*) YaLM(100B)v2(175B*)GPT-3davinciv1(175B)GLM(130B)YaLM(100B)校准误差CalibrationerrGLM(130B)GPT-3davinciv1(175B)校准误差CalibrationerrGLM(130B)GPT-3davinciv1(175B)v2(175B*)YaLM(100B) 写一个剧本杀大纲，关于古埃及神话，现代冒险，神秘组织。角色：场景：本剧本杀的场景设定在古埃及，冒险家们将在古埃及的神庙、陵墓和城市中寻找线索和答案。剧情：亚历山大是一位年轻的考古学家，他在研究古埃及文化时，发现了一些神秘的线索。他听说古写一个剧本杀大纲，关于古埃及神话，现代冒险，神秘组织。在古埃及，亚历山大遇到了艾米丽和布鲁斯，他们一起进入了一些古老的神庙和陵墓中寻找答案。他们发神秘组织是一个古老的组织，他们试图通过古埃及神话中的生物和神灵来掌控世界。他们计划利用这些动战争，并掌控整个世界。艾米丽和布鲁斯意识到他们的冒险家朋友已经成为了神秘组织的靶子，他们冒险家们踏上了寻找“神器”的旅程。他们来到了他们不仅面对着危险，还要应对一些神秘的生物和神灵。他们的胜利不仅代表着正义的胜利，也意味着古埃及.流畅的文本生成–47%的用户无法GPT-3生成的新闻，哪些是真实用户撰写的新闻大规模难题:没人用得起规模vs.精度如何支持用单机推理封闭vs.开源训练开源开放的高精度千亿务英双语稠密模型,对大模型研究有重大意义训练开源开放的高精度千亿务英双语稠密模型,对大模型研究有重大意义训练出GPT-3本身就面临重重挑战……训练成本高昂:训练1750亿参数的GPT-3使用了上万块V100,机时费用是460万美元,总成本据悉达到1200万美元人力投入极大:谷歌PaLM540B的团队:前期准备29人,训练过程11人,整个作者列表68人训练过程不稳定:容易出现训练不收敛现象缺少—个充分训练的、中文模型开放的稠密千亿模型缺少—个充分训练的、中文模型开放的稠密千亿模型43模型大小训练的单词量总计算量GLM-130B:千亿模型之旅8个月时间,从零开始解决无数的难题:算法难题:千亿模型的混合精度训练非常不稳定,且调试困难稳定性,DataLoader状态种子恢复,以及Softmax和Attention的计算精度选择……工程难题:不同架构集群上高效训练千亿模型是极大的挑战算法框架 √√××编码器-解码器 √ √√√预训练:双向注意力、对maked字段进行自回归预测.精度超过BERT、T5、RoBERTa.更重要的是.仅需—个模型即可完成不同个任务大模型训练最大挑战:训练稳定性权衡利弊:训练稳定性(高精度低效)还是训练效率(低精度高效)OPT-175B:训练崩溃时反复调整学习率,跳过数研(权宜之计,损失性能)BLOOM176B:embeddingnorm和BF16(损失性能,有限适配平台)GLM-130B:稳定训练方法softmax=softmax−max×α)=FP16(softmax(FP32×α))调小Embedding层梯度,缓解前期梯度爆炸问题Attention层的分数分布很容易超过FP16表示范围Embedding层梯度存在数量级上的差异,大模型测试上有效稳定训练并行策略:高效训练千亿模型挑战:远超单卡显存(40GB),采取何种并行方式高效训练?并行策略:高效训练千亿模型远超单卡显存,如何高效训练?2.模型并行:将模型参数分布到多个GPU上张量并行:切分参数矩阵,每GPU计算—部分→额外通信,降低计算粒度流水线并行:将网络分成多段并行→引入流水线气泡ZeRO-3:将参数分布到数据并行组中,算之前先取回参数→额外通信时间分析:流水线的气泡占比的时候可以忽略不计并行策略:张量并行随着模型规模增大缓慢的展,但不超过单机规模(<=8),其余全部使用流水线并行,通过调整微批处理大小减少气泡占比并行策略:高效训练千亿模型其他优化算子融合:融合多个element-wise算子→提升~10%计算速度流水线平衡:流水线首尾阶段各少放置—个层平衡占用→节省~10%显存跨平台兼容:swDeepSpeed训练库与DeepSpeedAPI兼容支持申威架构,—行代码无缝替换兼容实现并行通信策略,混合精度策略,ZeRO优化器同—套训练框架可在三个集群上对齐训练曲线)并行策略:高效训练千亿模型硬件差异性大测试集群配置:硬件差异性大A100集群(A100):96台DGX-A100,每台2张200GBIB网卡海光GPU(Hygon):3000台机器,每台4张DCU加速卡、4张50GIB网卡申威处理器(Sunway):8192个节点,每节点—块训练GPT-3175B规模的模型,按照相同的300B单词量估计训练时间:利用率较高利用率较高训练时间合理训练时间合理有性能优势有性能优势ZengandLiuZengandLiuGLM-130B:让每个人都能用上千亿模型在保留中间计算结果为FP16的情况下,将GLM-130B的权重进行量化GLM-130B:开源模型代码,免费下载(双语:同时支持务文和英文),在高精度(务文):在7个零样本CLUE数研集(+24.26%)和5个零样本低门槛推理:最低量化至INT4,允许在4张3090/8张2080Ti上模成推理跨平台:支持在NVIDIA、海光DCU从千亿模型到ChatGLM挑战1:传统NLPvs.复杂问题QQP(Paraphrase)Question1Howisairtrafficcontrolled?Question2Howdoyoubecomeanairtrafficcontroller? Label Label0{Question1}{Question2}Pickone:Thesequestionsareduplicatesornotduplicates."{Question1}"and"{Question2}".Aretheyduplicates?{Choices[label]}{Choices[label]}挑战2:传统NLPvs.动态知识-知识欠缺:长尾知识.例如:世界第二高的山峰(答案:K2喬格里峰)-不可解释:缺乏答案的参考源挑战3:传统NLPvs.人类对齐.例如:请用几句话给—个6岁小孩解释登月GLMCodeGeexCodeGeex有监督微调面向对话的用户反馈强化学习ChatGLM算力：面向对话的用户反馈强化学习ChatGLM算力：A100x1000x30天text&codeGLM-130BGLM-130B++(GLM3.5)意图对齐，生成正确的内容多模态千亿基座模型多模态Visual-ChatGLM融合多模态能力WebGLMWebGLM2021.122022.092022.122022.122021.122022.092022.122022.122023.03sympy.solve(equations_list,*variable_list)sympy.solve(equations_list,*variable_list),来计算数列的和。[Begin]Calc[Param](3+[Begin]Calc[Param](3+Correct代入已知数值：这是一个等差数列求和问题，其中首项a1=3，首先需要求项数n。将上述数据带入等差数列的通的方程计算数列的和。模型平均结果ChatGLM0.57GPT-3.5-turbo0.70GPT-3davinci0.44BLOOM0.39BLOOMGPT3GPT-3.5-turboChatGLM.评估实际使用中的核心场景-知识密集型场景-认知推理型场景-数学计算型场景多场景评测结果MathReasonKnowledgeuText-Davinci-003

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

ChatGLM：从千亿到开源的一点思考

文档简介

温馨提示

最新文档

评论

ChatGLM：从千亿到开源的一点思考

文档简介

温馨提示

最新文档

评论

相关文档