大模型落地的一些前沿观点:兼看知识图谱增强大模型问答的几个方案及CEVAL榜单评测启发_第1页
大模型落地的一些前沿观点:兼看知识图谱增强大模型问答的几个方案及CEVAL榜单评测启发_第2页
大模型落地的一些前沿观点:兼看知识图谱增强大模型问答的几个方案及CEVAL榜单评测启发_第3页
大模型落地的一些前沿观点:兼看知识图谱增强大模型问答的几个方案及CEVAL榜单评测启发_第4页
大模型落地的一些前沿观点:兼看知识图谱增强大模型问答的几个方案及CEVAL榜单评测启发_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

升)的人比会做大模型Infra的人更稀缺。【归根结底,大模型的基建比算法更为重要,本质2、读通论文也会少走很多弯路,因为有些偏。【所以这也是我们读论文时需要注意的点】,此外,尽管是片面性评估带来的问题】follow住,常抬头看看】4、很多原先想做「最好大模型」的企业,其实需要5、真正去跟B端客户谈,客户只需要语言理解、多轮对话和一定的推理能力,其他的AGI(通用人工智能)能力一概不要。甚至其他能力反而给客户带来了麻烦。一个通用的大模型,并不意味着可以解决所有问题。B端客户的很多场景,通用大模型放上去并不奏效。AIAgent这个方向还需要探索。Agent怎么样比ChatGPT解决了更多问题,很难被讲清楚。【这是B端落地的一个痛点】一、基于知识图谱进行大模型问答以及任务编排1、基于知识图谱增强大模型的文档问答其次,在线部分,在意图识别阶段,用知识图谱进行实体别称补全和上下位推理;在阶段,从知识图谱中查询背景知识放入上下文;在结果封装阶段,用知识图谱2、大模型+知识图谱实现可控可信可靠问答的架构如下图所示,结合大语言模和向量检索的外挂能力,将自然语言交互和3、利用知识图谱进行大模型执行逻辑编排构将各个部分之间的逻辑依存关系进行存储,例如顺序执行C4、加入文档智能的问答闭环方案加入文档智能的问答闭环方案,将文档智能提升到一个较高的位置,可以先通过文扫描图片中每一块的含义,比如某一块是文本而当前,关于这块已经出现了一批优秀的开源项目,比如专门可以用来识别数https://facebookresearch.有趣的是,在训练数据收集阶段,根据PDF文件中的分页符拆分Markdown格式,收集来自二、CEVAL榜单评测中能够得到一些启示最近在跟进大模型榜单打榜的工作,而周末一过,在ceval榜单上,GPT4也即将跌出前十。这个榜单似乎已经彻底玩坏,在某种程度上,似乎没有了参考价值?但这并不重要,理解其背后一些有意思的结论更有趣。1、Decoding的方法·测试的时候一般temperature设置为0做g·大模型一般不用beamsearch,贵且作用不大;2、以few-shot为准还是以zero-shot为准?·一般来说,pretraining阶段的模型few-shot的效果总是会比zero-shot好一些,但是经过instructiontuning之后的模型,且instructiontuning没有few-shotdata的话,很可能zero-shot会更好;·Few-shot是面向开发者的,因为在构造基于LLM的应用的时候,开发者总是希望用pro·Zero-shot是面向用户的,因为用户没工夫写prompt,在这种情况下,模型相当于一个Chatbot;·建议开发两个版本,一个面向开发者,把in-contextlearning的能力拉满,另一个面向用户,把zero-shot的能力拉满。3、是否需要做promptengineering·prompt的不同会得到很不同的效果;·在实际操作的过程中,需要区分分数的提高是来自于模型的提升还是来自于prompt的提·如果目标是开发模型,则推荐不要做太多的prompt优化。·经过了instructiontuning之后,模型对promptengineering的需求会减小,但是仍然存在作baseline;另一份是根据自己的模型做promptengineering然后报一次结果,此结果看作upperbound;4、理解[推理]和[知识]·有些题目天生需要reasoning,比如求定积分,这种直接给答案基本上都是一般而言,知识性的问题不大需要CoT,推理型的问题需要·MMLU是一个典型的知识型数据集,所以PaLM在这上面AO比CoT好;BBH是一个典型的推理型数据集,这上面CoT显著好于AO;·在Ceval中,文科科目比较偏知识,理科科目比较偏推理;·在Ceval上理科CoT和AO效果差不多,需要能推公式,但现在很多模型做不到这件事情。因此,如果能够增加公式推导[知识]和[推理]是两项可以显著区分大小模型的能力,其中·[知识]的区分度没有[推理]这么高,但也很高;这里面模型每大一个台阶基本上是五六分的差距;·[知识]能力小模型也会有一点,比如MMLU上11Bϐlant5也有40+;关于英文推理能力的benchmark,可以参见/FranxYao/chain-of-thought-hub)5、解读模型的分数·CoT不一定能显著提升模型分数,因为只有在推理数据类任务上,模型强到一定程度之后,CoT才会有效,这也是为什么CoT是一个典型的涌现能力·CoT的模式下,目前只评价最终答案对不对,不评价中间过程对不对,这是因为中间过程和最终答案在大部分时候显著正相关,最终答案对了,中间不会错到哪里去;中间错

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论