版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
INTRODUCTIONOFKWAIYII-LLMANDINTRODUCTIONOFKWAIYII-LLMAND2022年底,OpenAI的ChatGPT惊艳了世界,预示着通往AGI(ArtificialGeneralIntelligence)的可能性,开启AI技术突破的新篇章INTRODUCTIONOFKWAIYII-LLMAND作为一家以AI技术驱动的公司,快手制定新的AI战略,于2023年初启动快意大模短视频短视频直播直播电商电商数字营销场景用户数字营销本地生活本地生活20E20Eflops高带宽高利用率3.94亿400亿3000万INTRODUCTIONOFKWAIYII-LLMAND快手业务及生态应用快手业务及生态应用标准化API应用定制平台多领域模型加强深度AI开发平台基座大模型大模型引擎大模型训练框架大模型引擎大模型训练框架INTRODUCTIONOFKWAIYII-LLMANDINTRODUCTIONOFKWAIYII-LLMANDChatGPTGLM-130BLLAMA-65BLLAMA2-70B全科13.9K个单选题清华&上交54.454.4444450.150.1(%全科11.5K个单选题MBZUAI&上交&微软亚研院55.5155.51//39.839.8//(%英文全科14K个单选题国外大学与研究所70.044.863.468.9英文小学数学8.5K个多步计算题OpenAI英文代码与算法168道编程题OpenAI/50.956.848.1/23.729.9InternLMInternLM-104B62.7/67.262.9/快意大模型-66B73.771.167.260.9业界同等规模大模型在权威benchmark上的评测结果INTRODUCTIONOFKWAIYII-LLMAND54.543254.543INTRODUCTIONOFKWAIYII-LLMANDINTRODUCTIONOFKWAIYII-LLMANDINTRODUCTIONOFKWAIYII-LLMAND语言模型•语言是人类完成深度推理的重!!SFT&RLHF•ChatGPT/GPT4能够稳定理解问题、遵循指令;INTRODUCTIONOFKWAIYII-LLMAND数据数据I算法评测InfraI算法评测……INTRODUCTIONOFKWAIYII-LLMANDPre-trainingPost-trainingPartC/D3.Scaffold-BPE词表学习方法改进4.MoE路由错误自适应检测与Loss优化2.SFT答案质量3.SFT负反馈机制INTRODUCTIONOFKWAIYII-LLMAND验证大模型训练过程在时序上的可预测性;提供在大模型上直接使用少量数据训练,并通测进行超参搜索的有效路径;也为洞察大模型训练的内在机制提供•数据配比、学习率、权重衰减、dropout等•µP等工作•传统幂率关系预测误差大INTRODUCTIONOFKWAIYII-LLMAND•每个tokenposition的loss服从动态倒数关系INTRODUCTIONOFKWAIYII-LLMAND•动态倒数关系的参数随训练步数改变,且可通过函数拟合INTRODUCTIONOFKWAIYII-LLMAND•建模第一段函数,结合收敛点约束条件,建模第二段,并预测最终loss•实验结果(I)•显著降低预测误差(27.8%->4.1%,30.5%->2.0%)INTRODUCTIONOFKWAIYII-LLMAND•实验结果(II)•可低成本地直接在大模型上做超参搜索,有效提升模型效果(e.g.,数据配比)•理论证明无需对不同position的token进行加权,并获得实验验证INTRODUCTIONOFKWAIYII-LLMANDℒCE=−log(pt!)传统交叉熵损失(CrossEntropyLoss)pjpj)ylogpt!ℒIL=−(1−∑)ylogpt!INTRODUCTIONOFKWAIYII-LLMANDTherelativefrequencyoftokenscontaining“age”0.00%2.00%4.00%6.00%8.00%Therelativefrequencyoftokenscontaining“zona”0.00%18.00%36.00%54.00%72.00%90.0imagepackTherelativefrequencyoftokenscontaining“age”0.00%2.00%4.00%6.00%8.00%Therelativefrequencyoftokenscontaining“zona”0.00%18.00%36.00%54.00%72.00%90.0imagepackage pagelanguagemessageaverageArizonazonaTokenFrequencyScaffoldAri29421Truezona5346Trueadata5407Truemate44057FalseArizona43599FalseTokenFrequencyScaffoldAri73020Falsezona48945Falseadata5407Truemate44057FalseAri,zonaAri一ffAri←fAri,zonazona←ffmergeExpandedVocabulary"setScaffoldtoTruefAri<fifArizonainS,thenScaffold←Falseandcontinuefzona<ft=FalseelseappendtoEt=TrueTokenFrequencyScaffoldAri29421Falsezona5346Falseadata5407Truemate44057FalseArizona43599FalsebackTokenPairFrequency↓43598(can,cel)43597(Inter,facebackTokenPairFrequency↓43598(can,cel)43597(Inter,face)43595(Arizona,to)763(lead,Arizona)TokenPairFrequency↓43598(can,cel)43597(Inter,face)43595(A,ri)29421(zon,a)5346popmergefArizonaPriorityQueueQTextCorpusupdatetokenpairs···Ari/zona······Arizona···TokenPairFrequency↓(Ari,zona)4359943598(can,cel)43597(Inter,face)43595(Prov,ider)43586(l,oyal)43576IterationNINTRODUCTIONOFKWAIYII-LLMAND•有效消除“伪高频”token,提升词表压缩率•有效提升大模型的学习效果,且可迁移到机器翻译等其他任务29000300002900030000310003200TokenRankoriginalBPEscaffold-BPE8x12x14x105050505INTRODUCTIONOFKWAIYII-LLMAND提出基于token梯度分布的路由错误自适应检测与相应的Loss优化方法,以提升路由模块的预测准确性,(a)路由错误自适应检测:n:nFromExpertNtoAnotherExpert(e.g.:nisaconflictingtoken :n’:nNINTRODUCTIONOFKWAIYII-LLMAND针对模型漏洞扩展训练集合针对模型漏洞扩展训练集合按类目采样 精选子集一大规模推理&漏洞检测质量提升困难质量提升困难按来源采样RM\按来源采样RM\RMref训练资源挑战训练噪声鲁棒训练资源挑战训练噪声鲁棒优质答案采样困难类型覆盖度高按质量采样后验采样——迭代式漏洞检测-数据扩充按质量采样后验采样——迭代式漏洞检测-数据扩充组合策略组合策略持续提升训练数据量持续提升训练数据量?INTRODUCTIONOFKWAIYII-LLMAND题)和部分数学计算错误(高阶数学尤甚)、少量指令遵循漏洞和统计意义上的答案 低质数据答案校验策略 低质数据答案校验策略明显错误明显错误事实性错误人工校验编辑灵事实性错误人工校验编辑灵活,能够发现预定义之外的问题;效率较低,代码、困难问题无法检测,难以支持中期370万训练数据的审核;答案筛选RM可检测出明显问题(如拒答),提高训练数据质量;存在长度偏置,事实类、计算类错误无法检出;计算推理错误计算推理错误指令遵循漏洞多答案校验指令遵循漏洞多答案校验RMref事实类、数学类等判别准确率高部分指令遵循如字数遵循检测仍存在问题答案偏置(统计意义)Rejection答案偏置(统计意义)Rejectionsampling基于模型本身能力,筛选出比GPT4更好的训练数据INTRODUCTIONOFKWAIYII-LLMAND框架——HaluAgent。7-13B等百亿规模模型错误检测能力与GPT4等模型持平,更INTRODUCTIONOFKWAIYII-LLMAND框架——HaluAgent。7-13B等百亿规模模型错误检测能力与GPT4等模型持平,更INTRODUCTIONOFKWAIYII-LLMAND标准答案模型答案将判断问题转化为一致性对比问题,显著降低任务难度;有效检出事实类、计算类错误以及有歧义的问题。模型答案歧义问题检出⽰例[question]标准答案模型答案将判断问题转化为一致性对比问题,显著降低任务难度;有效检出事实类、计算类错误以及有歧义的问题。模型答案歧义问题检出⽰例[question]长方形宽3cm长10cm按1:3扩大后面积是多少?[reference]3x(10*3)=90[answer](3*3)x(10*3)=270与参考答案相比,AI助手计算结果存在严重的数学错误。Rating:[[1]]".[Instruction]请基于给定的参考答案,为AI助手答案进行1-10评分…[question]圆锥体积公式[reference][answer]V=mp2h=v=shAI助手的回答是错误的。它没有提供正确地应用圆锥的体积公式。正确的公式是:圆锥的体积=(1/3)*π*r²*h因此,与参考答案相比,AI助手的在严重的数学错误。Rating:[[1]]".快意答案快意快意答案快意答案INTRODUCTIONOFKWAIYII-LLMAND题)和部分数学计算错误(高阶数学尤甚)、少量指令遵循漏洞和统计意义上的答案1 林黛玉是中国古典名著《红楼梦》中的主要人物之一,她以才情和柔弱著称,是小说中极具文学价值和美学特质的形象。在《红楼梦》中,并没有描述林黛玉有倒拔垂杨柳这样力大无穷的情节。倒拔垂杨柳是《水浒传》中鲁智深的标志性动作,用来展示他的非凡力气和豪迈性格。林黛玉和鲁智深属于两个不同文学作品中的角色,他们的形象和性格特征有着天壤之别。林黛玉以诗词才华和敏感多情闻名,而鲁智深则是以力大无穷和豪放不羁著称。因此,林黛玉不可能做出倒拔垂杨柳这样的行为。林黛玉是中国古典名著《红楼梦》中的主要人物之一,以其才情和柔弱多病著称。在原著中,并没有描述林黛玉具有倒拔垂杨柳的超凡力气。2这个描述更常见于小说中的英雄人物,如《水浒传》中的鲁智深。鲁智深是一位以力气大、性格豪爽、不拘小节而著称的人物,小说中就有他倒拔垂杨柳的著名情节。2因此,林黛玉倒拔垂杨柳不符合她在《红楼梦》中的形象和性格特点。这样的描述很可能是将不同文学作品中的角色特点混合了,属于一种文学想象或戏仿。GPT4答案GPT4答案"倒拔垂杨柳"一般用于形容某人的力量大,手段高,可以逆向操作事物。这句话出自《红楼梦》中的一段描写,原文是:“只见那僧一手托起那树,似有千斤,然遍身难疼,便纵身一跳,倒拔垂杨柳。”这里的“倒拔垂杨柳”是指贾宝玉在梦中见到一个和尚举起大树,自己也同时身受巨痛,这时他就像和尚那样,一个跳跃就倒拔了垂杨柳。至于林黛玉能否做到“倒拔垂杨柳”,在书中并没有相关的描绘。从她的身体状况和性格来看,倾向于认为她做不到。林黛玉身体病弱,且性格敏感细腻,不太可能做出这样的举动。当然,如果抛开实际情况,按照“倒拔垂杨柳”的象征意义——表示极大的力量和手段,还是有可能的。在《红楼梦》中,林黛玉虽然身体病弱,但她的智谋和才情却很出众,这在一定程度上也可以被理解为一种“倒拔垂杨柳”的能力。RM得分0.85RM得分0.77RM得分0.46可获取更优质答案;输出;自身采样出训练数据,训练出幻觉更少;INTRODUCTIONOFKWAIYII-LLMAND传统SFT仅使用正例数据训练,难以解决重复生成、身份认知出错等问题。通过引入负反馈机制,"logπ(yw"logπ(yw|x)−αx,y-&Ilog1−pθyt−αx,y-&Ilog1−pθytx,y<tpθytx,y<tyt∈y(INTRODUCTIONOFKWAIYII-LLMANDINTRODUCTIONOFKWAIYII-LLMANDINTRODUCTIONOFKWAIYII-LLMAND•传统RLHF算法的rewardmodel•使用判别式模型•对整个答案进行打分outputs:A.…A.…Billsoldclipsto48ofherfriendsinApril.SothatBillsold24/2=12clipsinAprB.…B.…Billsoldclipsto48ofherfriendsinApril.SothatBillsoldPreferencePreferenceRM•RLMEC使用的rewardmodel•使用生成式模型…Billsold…Billsoldclipsto48ofherfriendsinApril.SothatBillsold24/2=12clipsinApril…RewardsintokensRewardsintokens:outputs:RewrittenSolutions:Step1:ErrorlocatingfromFindFindfirsterror...24/2=1248clipsinApril...Step2:ErroneousSolutionRewrit...48clipsinApril...RefineRefinethe...24/2=12...INTRODUCTIONOFKWAIYII-LLMAND•使用token级别的RM进行PPO训练INTRODUCTIONOFKWAIYII-LLMAND••大模型通常输出置信度极高,有很多词的输出概率接近于1。大模型不是提供了无限的解码结果,而是在预训练过程中进行深度剪枝,只保留了正确结果。•多个连续的输出概率接近于1的词有被并行解码出来的潜力,称之为Lexicalunit。模型:快意-66B-dev中国大学中国大学top10排名由于排名由于排名标准和评价体系会随时间而发生变化,这里提供一个近期的中国大学排名参考。请注意,排名可能存在一定的争议,因此建议查阅多个来源以获取更全面的了解。以下是根据多个排名榜单整理的2021年部分中国大学排名:1.北京大学(PekingUniversity)2.清华大学(TsinghuaUniversity)3.浙江大学(ZhejiangUniversity)4.上海交通大学(ShanghaiJiaoTongUniversity)5.南京大学(NanjingUniversity)6.武汉大学(WuhanUniversity)7.中国科学技术大学(UniversityofScienceandTechnologyofChina)8.中山大学(SunYat-senUniversity)9.同济大学(TongjiUniversity)10.四川大学(SichuanUniversity)这个排名仅供参考,实际排名可能有所不同。如需了解更多信息,请查阅权威排名机构的最新报告。INTRODUCTIONOFKWAIYII-LLMAND文本生成平均可无损文本生成平均可无损加速30%+INTRODUCTIONOFKWAIYII-LLMAND向2向2知识预训练Post-trainingINTRODUCTIONOFKWAIYII-LLMAND•基于「快意」大模型孵化的•基于「快意」大模型孵化的•在快手评论区、私信等场景上线•强大的多模态理解和人格化•广泛关注和喜爱(上线6个月)•粉丝1kw+INTRODUCTIONOFKWAIYII-LLMAND如何做好多模态视频内容理解如何让大模型更加有趣、有温度如何和用户保持长多轮互动如何整合站内外各种资源和工具INTRODUCTIONOFKWAIYII-LLMAND快意多模态大模型提供densecaptioning等能力,引入和构建多维度结构化信息辅助内容理解is,thatwouldbeanexcitingcoincidence!I'msorry,thevideodoesnotLargeLanguageModel这是一张聚餐的照片,桌子上摆放着各种中式菜肴,包括蒸饺、烧鸡、红烧肉 ,营造出了浓厚的节日或庆典氛围。这可能是在庆祝某个重要的日子或活动。我们看到其中一位身穿休闲服装的年轻人,他似乎在桌旁,表情可能是愉悦和放松网红小杨哥在社交平台上更新了一条动态,开心炫上迅速成为热门话题。小杨哥之前曾多次对外表示自己是周星驰的粉丝,从小爷的电影长大的,希望有机会能和星爷见面,这次和星爷一起吃饭,也算是圆梦了!triptoHongKong,andtheyevenhadThepersoninthemiddleisishavingamealwithXiaoYINTRODUCTIONOFKWAIYII-LLMAND表>里INTRODUCTIONOFKWAIYII-LLMANDINTRODUCTIONOFKWAIYII-LLMAND),替迭代,将「快意」情感陪伴模型长互动能力从20+轮次提升到200+初始化迭代1迭代2…迭代N交互训练交互训练交互训练交互训练数据~50轮对话INTRODUCTIONOFKWAIYII-LLMAND链接复杂用户query和站内外工具的核心是FunctionCalling能力INTRODUCTIONOFKWAIYII-LLMANDINTRODUCTIONOF
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年安徽矿业职业技术学院单招综合素质笔试备考试题带答案解析
- 2026年常德职业技术学院单招综合素质笔试模拟试题带答案解析
- 医疗影像专业礼仪
- 护理专业课程改革
- 2026年福州外语外贸学院高职单招职业适应性考试备考题库有答案解析
- 财经新闻写作课件
- 医疗行业投资与并购分析
- 医疗纠纷调解机制完善总结
- 2026年安徽扬子职业技术学院单招职业技能考试参考题库带答案解析
- 医学伦理与职业道德
- 小红书2025年9-10月保险行业双月报
- 模具外协作业流程
- 医疗器械质量体系文件 013-偏差管理规定
- GB/T 32615-2016纺织机械短纤维梳理机术语和定义、结构原理
- GB/T 31592-2015消防安全工程总则
- GB/T 250-2008纺织品色牢度试验评定变色用灰色样卡
- GB/T 2091-2008工业磷酸
- GB/T 12234-2019石油、天然气工业用螺柱连接阀盖的钢制闸阀
- GA/T 947.4-2015单警执法视音频记录系统第4部分:数据接口
- 手卫生规范-课件
- 主题班会PPt-敬畏规则
评论
0/150
提交评论