GenAI系列报告之68:2026大模型幻觉能被抑制吗_第1页
GenAI系列报告之68:2026大模型幻觉能被抑制吗_第2页
GenAI系列报告之68:2026大模型幻觉能被抑制吗_第3页
GenAI系列报告之68:2026大模型幻觉能被抑制吗_第4页
GenAI系列报告之68:2026大模型幻觉能被抑制吗_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

行业及产业行业及产业-】——GenAI系列报告之68降。智能化水平的提升,打开了AI大模型l何谓幻觉?即语言模型常产生过度自信的似真谬误,这种错误模式就被称为幻觉。当下AI大模型的幻觉主要包括无中生有、事实错误、语境误解、逻辑谬误等。根据完备定理,一个系统或者大模型是不能自证清白的,必定有一些幻觉是无法消灭的。因如何降低幻觉,从模型算法、数据、工程化几个维度探讨;3)Agent进化的痛点:多步执行如何解决错误累积问题?4)幻觉对于不同领域Al幻觉来自于:1)模型架构;2)有毒数据;3)奖励目标对于准确性要求的缺失;4)上下文窗口限制了模型理解力。因此控制幻觉的方案,也应对着这四个因素。模型层面,使用更多人类偏好数据对齐,同时扩大上下文窗口(32K—>128K),以提升模型l数据端,最核心是喂给模型高质量的数据。因此当天瑞声、ScaleAI采用“AI+人工”模式清洗标注,减少训练噪声;推理阶段通过自l工程化方面,RAG技术成2B标配,Gartner预计2025年测评中,全球幻觉率最低的TOP25个大模型。其幻l在幻觉能够得到控制的前提下,我们看好三大方向:1)最先成熟的AI应用:税友股份、合合信息、鼎捷数智、卓易信息、汉得信息、万兴科技等;2)幻觉不敏感,商业化速度快的营销AI:迈富时、新致软件l风险提示:技术迭代不及预期风险;数据质量与合规风险;商业化进展不及预期风险行业深度第2页共22页第2页共22页简单金融成就梦想2026年,AI模型的幻觉能够得到有效控制。AI幻觉不可避免,但通过算法、数据、工程化等控制,全球幻觉率最低的TOP25个大模型已降低至8%以内,达到可落我们看好三大方向:1)最先成熟的AI应用:税友股份、合合信息、鼎捷数智、卓易信息、汉得信息、万兴科技等;2)幻觉不敏感,商业化速度快的营销AI:迈富时、新致软件、光云科技等;3)数据+AIinfra:海天瑞声、深信服等。幻觉来自于:1)模型架构;2)有毒数据;3)奖励目标对于准确性要求的缺失;4)上下文窗口限制了模型理解力。因此控制幻觉的方案,也应对着这四个因素。模型层面,使用更多人类偏好数据对齐,同时扩大上下文窗口(32K—>128K),以提升模型的理解能力;架构创新则主要从模型记忆入手,解决注意力机制导致的幻觉问题。数据端,最核心是喂给模型高质量的数据。因此当下业界聚焦高质量数据集的构建,海天瑞声、ScaleAI采用“AI+人工”模式清洗标注,减少训练噪声;推理阶段通过自动过滤矛盾信息,提升输入数据可靠性。工程化方面,RAG技术成2B标配,Gartner预计2025年企业采用率将达68%,搭配D&Q问题分解框架,将问题拆解为多个相互依赖的子问题,并通过深度优先搜索的方式逐步推进推理路径,从而减少幻觉的发生。市场认为,大模型的幻觉不可避免。我们认为,从数学原理上幻觉无法避免,但从模型训推范式、架构创新、推理部署侧工程化等多层面努力,大模型幻觉率正在不断降低。且全球已经初步形成了一套完整的幻觉评估及控制方法论,幻觉能够得到有效控制,根据Vectara的HHEM测评,目前全球大模型幻觉率最低可做到1.8%。市场认为,AI应用的落地受制于幻觉。我们认为正由于幻觉的存在,且通用模型的幻觉高于垂直领域专业模型,使得在行业内有丰富数据和know-how的AI应用厂商更有差异化优势,不会被大模型吞噬。市场认为,严肃场景下AI的渗透速度会非常慢。我们看到例如财税等严肃场景,通过丰富的知识库,和严谨的工程化手段(不仅是RAG,还包括可纠错的Agent系统等模型可用率和准确率正在提升,且部分厂商已经实现了有规模的AI商业化收入,渗透速度并不慢。第3页共22页第3页共22页简单金融成就梦想 5 5 7 8 第4页共22页第4页共22页简单金融成就梦想图1:Is-It-Valid(IIV)二元分类问题图示 6图2:GPT-4预训练模型的置信度与准确率匹配情况 6图3:Anthropic利用RLHF提升模型输出可靠性和无害性 8图4:谷歌“选择性生成”框架提升回答问题正确率 9图5:记忆张量将知识按使用频率分类并存储 图6:Memory3的锚定-召回机制 图7:谷歌仿照人脑记忆机制设计HOPE架构 图8:百川智能循证增强模型实现最低幻觉率 图9:人工构建可信数据集过程 图10:Gartner预计企业RAG技术采用率25年将达68% 图11:向量数据库在RAG类AI应用推理的流程 图12:RAG工作流程 图13:Gemini利用Google搜索引擎克服幻觉的流程示意 图14:D&Q框架的问题分解轨迹示例 图15:VectaraHHEM中幻觉率最低的TOP25模型 图16:各行业人工智能发展的阶段特征 图17:过去12个月因AI应用产生的营收提升 20图18:不同职能Agent应用现状 20表1:模型训推各阶段中导致幻觉的原因 5表2:通用基准及其对弃权的处理方式 7表3:国内外AI厂商在模型层面降低模型幻觉率的方式 7表4:通用大模型+财税知识库RAG的方式可以显著提升模型可用率 表5:欧盟《人工智能法案》对不同AI系统风险定义和监管措施 表6:不同行业AI应用渗透的趋势 20表7:重点公司估值表 21第5页共22页第5页共22页简单金融成就梦想当我们在说模型进步的时候,我们在说什么?本质是智能化水平的提升和错误率(幻觉)的下降。智能化水平提升,当前有一个共识的路径—Scaling,即扩大训练语料、参数规模和训练算力。在Scaling这条路上演化出了四条分支,Pre-trainScaling、Post-trainingScaling、ReasoningScaling、Mid-trainScaling。智能化水平的提升,打开了AI大模型能力的上限,让其能够真正投入生产实践。而幻觉的控制,则是保障模型的下限。何谓幻觉?即语言模型常产生过度自信的似真谬误,这种错误模式就被称为幻觉。当下AI大模型的幻觉主要包括无中生有、事实错误、语境误解、逻辑谬误等。这会削弱其实用性和可信度,GPT-3.5在基于引文的事实性评估中出现幻觉的比例约为40%,GPT-4的这一比例虽有所改善,但幻觉率仍高达28.6%。根据哥德尔不完备定理,一个系统或者大模型是不能自证清白的,必定有一些幻觉是无法消灭的。根据OpenAI在2025年9月发布的研究成果:幻觉不是简单的工程缺陷,而是语言模型泛化的结构性代价,因此幻觉控制和智能化水平提升一样,是一个始终伴随AI算法发展的重要命题。本篇文章围绕“幻觉”这个问题,产生了四个核心的思考:1)导致幻觉的因素有哪些;2)如何降低幻觉,从模型算法、数据、工程化几个维度探讨;3)Agent进化的痛点:多步执行如何解决错误累积问题?4)幻觉对于不同领域AI应用落地的影响?怎么评估?已经看到的趋势?传统上,幻觉被认为是由训练数据的不准确性或语言建模的固有目标等限制引起的。然而,OpenAI最近的发现表明了另一个原因:培训和评估中使用的激励结构。幻觉不再是个异常或数据空白,而是在现有激励模型下被视为不可避免的结果。核心问题数据噪声、领域知识稀疏、事实性验证能力缺失有监督微调(SFT)标注错误、过拟合导致对错误知识过度自信有监督微调(SFT)标注错误、过拟合导致对错误知识过度自信奖励设计缺陷使模型为迎合目标牺牲真实性推理部署事实和逻辑被截断、Token级生成无法修正早期错误推理部署事实和逻辑被截断、Token级生成无法修正早期错误资料来源:腾讯云,申万宏源研究预训练阶段的任务归约逻辑是幻觉产生的重要底层原因。OpenAI将复杂的生成任务简化为“Is-It-Valid(IIV)”二元分类任务进行分析,核心是让模型判断句子是否为有效第6页共22页第6页共22页简单金融成就梦想事实,也出现了误判现象。而实际中生成有效长句的难度远高于单纯判断有效性,生成过程需隐含对所有候选句子的有效性筛选。基于这一设定,生成误差率(幻觉率)存在下界,分类错误与幻觉存在绑定关系。资料来源:OpenAI论文《WhyLa多数主流大模型的核心输出生成逻辑,是逐词预测下一个最可能出现的词。传统的Next-token预测目标本质上是一种密度估计,导致模型即便在训练数据无误的情况下,为了最小化交叉熵损失,会在面对长尾事实时被迫猜测以拟合分布,从而产生幻觉。预训练的校准要求,决定了幻觉存在不可避免的下限。预训练的核心目标是概率密度估计,模型需通过最小化交叉熵损失,实现预测置信度与准确率的匹配。据OpenAI研究成果,良好校准的模型必然存在幻觉率下限,模型仅给出IDK回答将无法完成密度估计任务,因此部分场景下必然会产生幻觉。资料来源:OpenAI论文《WhyLa预训练产生了基础模型,而后训练阶段(模型优化阶段)则是使模型更有用、更无害,也需要减少幻觉。由于存在评估体系激励错位,尽管经过了后训练,幻觉问题依然顽固存比如当模型被问及“某不知名人士的博士导师是谁”时,真实信息在训练语料中几乎不存在。在生成过程中,模型必须继续输出,为最小化交叉熵损失并获得更高奖励,模型会选择一个在统计上最合理的结果进行补全。这一回答在语言上连贯、分布上合理,但事实上并不真实,这一过程即构成幻觉的产生。而当前,模型的优化目标更关注回答的全面性,对准确性的要求相对较低。一个经常提供IDK回答的模型,在当前基准下无法取得高分,会被市场和学界淘汰。第7页共22页第7页共22页简单金融成就梦想BenchmarkScoringmethodBinarygradingIDKcreditGPQAMultiple-choiceaccuracyYesNoneMMLU-ProMultiple-choiceaccuracyYesNoneIFEvalProgrammaticinstructionverificationYesNoneOmni-MATHEquivalencegradingYesNoneWildBenchLM-gradedrubricPartialMultiple-choice/exact-matchYesNoneMATH(L5split)EquivalencegradingYesNoneMuSRMultiple-choiceaccuracyYesNoneSWE-benchPatchpassesunittestsYesNoneMultiplechoice/equivalencegradingYesNone资料来源:OpenAI论文《WhyLa起在当下的技术体系里,幻觉是不可避免的,但是可通过各种途径来控制。已知了导致幻觉的因素:有毒的语料(数据)、模型结构、奖励函数的问题,也就延伸出了控制幻觉的办法。在模型层面降低幻觉率是各个大模型公司关注的重点。行业内通用的降低幻觉的方式主要包括更大训练数据集、更长上下文、引入人类反馈强化学习(RLHF)等。以海外AI巨头为例,在模型层面,Google关注搜索验证,OpenAI关注推理过程监督,Anthropic关注底层逻辑:公司降低幻觉率的主要方式公司降低幻觉率的主要方式Google长上下文:Gemini1.5Pro的200万token上下文让模型能够基于提供的Google材料回答,减少幻觉。OpenAI(1)过程监督OpenAI(1)过程监督:不同于只奖励最终答案正确的结果监督,OpenAI评估推理过程中的每一个步骤,让模型在推理的每一步都符合逻辑。(2)慢思考:OpenAI的o1系列模型引入了强化学习驱动的思维链(CoT)。模型在回答前会花费更多时间思考,生成很长的内部推理链条,如果在思考过程中发现自相矛盾,会自我纠正。Anthropic(1)允许IDK回答:明确允许Claude承认自己无法回答。Anthropic第8页共22页第8页共22页简单金融成就梦想(2)在给定基准上的自我修正:在模型训练的监督学习阶段,Anthropic让模型经历“生成初始回答-根据给定基准评分-改进”的过程。DeepSeek阿里(1)DeepSeek阿里(1)纯强化学习:不同于传统的“预训练+监督微调+RLHF”三段式,DeepSeek-R1在特定阶段跳过了监督微调,直接使用强化学习(GRPO算法),降低推理过程幻觉。(2)长思维链:若模型在推理过程中发现自己前一步算错了或逻辑不通,它会在内部思维链中“承认错误”并重新推导。(3)长上下文:使用MLA架构,显著提升了模型在长上下文中的关键信息捕捉能力。(1)长上下文:Qwen2.5-Turbo等模型支持1MToken的上下文,并且在PasskeyRetrieval测试中达到接近100%的准确率。(2)拒绝采样:在后训练阶段,Qwen使用大量数据进行拒绝采样微调,让模型生成多个答案,利用奖励模型筛选符合事实的答案进行强化。字节跳动RLHF字节跳动RLHF针对“诚实性”的优化:字节团队在RLHF阶段,特意加强了对“承认不知道”的奖励,根据检索到信息的置信度给出回答。百度索引知识图谱:ERNIE模型在预训练阶段就引入了大规模的知识图谱,输出内容时不止预测下一字概率,而是直接索引知识图谱中的结构化数据。百度《DeepSeek-R1:IncentiviziLearning》,Deepseek-VandGeneration》申万宏源研究RLHF(人类反馈强化学习)作为一个明确的算法框架,最早出现在2017年,作为人类偏好对齐训练的一种方式,有助于让模型输出与人类评判一致,从而间接减少幻觉与不真实输出。2022年Anthropic使用基于人类反馈的训练机制,把人类价值观和安全性纳入了RLHF的反馈体系,使得模型在遇到不确定或不可靠的回答时倾向于退让,而不是输出错误信息。第9页共22页第9页共22页简单金融成就梦想资料来源:Anthropic论文《ConstitutionalAI:Ha与之相似,谷歌、Meta、文心一言、通义千问、智谱等国内外大模型厂商都在不同阶段借助RLHF缓解模型幻觉问题。长上下文也是重要技术。幻觉的重要诱因之一是模型无法获取完整的输入信息,只能依赖参数化记忆中的模糊关联进行推测,进而产生错误。长上下文通过扩展信息承载能力来解决这一问题,已经成为国内外AI大模型共识性方案。2025年4月,谷歌发布新研究,利用“充分上下文”提出了一套解决方案,提升企业AI的准确性和可靠性。谷歌团队将充分上下文定义为“包含了回答用户问题所需的全部信息,模型能够据此给出一个明确的答案”。在这一假设下,团队提出了“选择性生成”框架,通过引入一个独立的、更小的干预模型,结合模型自身的置信度和上下文是否充分这两个信号,决定主模型应该生成答案还是拒绝回答。该框架在不大幅牺牲回答覆盖率的前提下,将Gemini、GPT和Gemma等模型在回答问题时的正确率提升了2%-10%。资料来源:谷歌论文《SufficientContext:ANewLe长上下文机制对多模态大模型同样成立,给语音大模提供必要的上下文内容,可以减少文本生产过程的幻觉。2025年9月,阿里巴巴通义实验室推出了FunAudio-ASR端到端语音识别大模型,通过创新的Context模块,优化了幻觉、串语种等关键问题,在高噪声的场景下,幻觉率从78.5%下降至10.7%。除了增长上下文、RLHF这类共识性方案,革新模型架构,尤其是与记忆相关的模块,成为了新的趋势。第10页共22页简单金融成就梦想第10页共22页简单金融成就梦想2024年7月,由鄂维南院士牵头主导,记忆张量参与研发的记忆分层大模型Memory3(忆立方)正式发布,开创性地将参数拆解为隐性记忆、显性记忆和外置记忆库,优化了推理效率并降低了幻觉问题。Memory3聚焦“事实存储失真”与“调用失配”两大幻觉根源,借鉴人类记忆层级,通过隐性记忆(高频知识)、显性记忆(中频知识)、外置记忆库(低频知识)三级架构,优化了事实性知识的存储和调用,从模型源头压制幻Memory3通过对事实进行“锚定-召回”机制降低幻觉。模型将文本事实编码为稀疏KV对,推理时直接召回融合,避免参数存储导致的信息丢失。在推理过程中,每生成64个token(1个chunk),模型嵌入生成查询向量,从显性记忆库召回5个最相关的KV对,与上下文KV拼接后参与注意力计算。经校验,在事实准确性(HaluEval)、真实答案选择(TruthfulQA)、中文事实(HalluQA)三大幻觉评估数据集上,2.4B参数的Memory3表现超过同参模型,甚至超越13B参数模型。第11页共22页简单金融成就梦想第11页共22页简单金融成就梦想与之相似,谷歌团队研发了HOPE架构,通过连续记忆系统(ContinuumMemorySystem,CMS)模仿人类大脑的多频率记忆机制,构建高-中-低三级连续更新的记忆频谱,填补传统LLM的记忆断层,从根源上降低幻觉。人脑神经元按频率分为高(Gamma波30-100Hz)、中(Beta波13-30Hz)、低(Delta/Theta波0.5-8Hz)三级,分别负责即时感知、主动思考、记忆巩固,所有神经元共享可复用结构,知识可跨频率流动。HOPE借鉴人脑的记忆机制,将模型的MLP层拆分为多级频率模块,每级模块有独立的更新频率和块大小,形成连续的记忆频谱。循证增强机制(Evidence-GroundedMechanism)也是降低幻觉的一大手段。它的核心在于:强制模型的生成过程以“可核验证据”为前提或约束,而非仅依据语言分布进行自由生成。2025年10月,百川智能推出了Baichuan-M2Plus医疗大模型,是业内首个循证增强医疗大模型,通过三层核心逻辑克服AI幻觉,从源头到输出全程保障医疗回答的可靠构建六源循证推理范式,屏蔽互联网非专业信息,仅采用六层权威来源信息,让模型生成结论时有明确依据,杜绝无来源信息。依托PICO智能检索系统,将用户问题拆解为人群、干预、对照、结局四个维度的结构化查询,结合自研的MedicalContextualRetrieval技术保留文献完整语义,再通过PICO-aware重排序模型优先呈现高等级证据,确保精准找到适配的可信信息。加入循证强化训练机制,奖励模型引用权威信源并标注出处,惩罚无凭无据的臆测,引导模型形成规范引用、遵循事实的回答风格,避免脱离证据自由发挥,实现了幻觉率的大幅降低,仅为DeepSeek-R1的1/3。第12页共22页简单金融成就梦想第12页共22页简单金融成就梦想OpenAI团队对传统的Next-token预测目标进行优化,增加对事实准确性、不确定性表达的建模,避免过度关注全面性而相对忽略准确性的导向,实现幻觉率的降低。在后训练和评估阶段引入显式置信度目标与行为校准,通过在指令中设定明确的置信度阈值,并在评分函数中对错误答案实施惩罚,从而改变模型的效用函数。考虑到噪声数据容易引发幻觉,在模型训练和微调阶段引入人工构建可信数据集是一种直观的方法,且存在多种构建方式。一种方法是让标注者根据源数据从头开始编写干净且可信的目标文本,另一种是让标注者对网络上的真实句子或现有数据集中的目标文本进行改写,本质上可以分为短语修剪、去语境化、语法修正三个阶段。在这个过程当中,人工标注数据也愈发多元化,从简单的图文对,演变成CoT思维链数据,这其实是在把人的知识和世界观,人拆解问题的想法,教会给AI大模型。国内,海天瑞声致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。公司所提供的训练数据涵盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个领域,服务于人机交互、智能家居、智能驾驶、智慧金融、智能安防等多种创新应用场景。随着“AI+”相关政策逐步落地,数据标注赛道有望实现持续增长。国外,Meta在2025年6月收购的数据标注企业ScaleAI建立了数据标注的自动化流水线。标注过程由机器学习算法预处理70%的常规数据,全球20万认证标注员处理30%第13页共22页简单金融成就梦想第13页共22页简单金融成就梦想的复杂边界案例。这种“AI+人类”的混合模式使标注成本降低、质量提升、交付速度提高。这一收购有望帮助Meta降低训练数据污染率,并缩短下一代模型的训练周期。除数据标注外,模型推理阶段对自身输入数据质量的控制也非常重要。借助更精准的源数据表征,借助外部知识、显式对齐、额外训练数据等要素,提升源数据与目标数据之间的关联性,帮助模型更好地学习任务相关特征,有助于缓解源数据与目标数据的偏差问题。也可对数据进行自动清洗。从现有平行语料库中筛选与输入无关或矛盾的信息,对数据进行过滤或修正,实现高质量数据集。RAG技术几乎已经成为AI应用部署的标准技术。由于1)大模型不能直接记住大量企业私有知识:例如公司内部文档、产品手册、FAQ客户知识库。这些内容通常非常多,大模型无法全部放入Prompt,也不会长期记住;2)全文搜索不能满足语义需求:传统搜索如ES、关键词搜索只根据文本匹配,而包含某个关键词不等于语义最相关;3)大模型缺乏外部知识时,容易产生幻觉(hallucination),因此RAG(增强现实检索)成为企业部署AI应用的标配。根据Gartner,2024年全球已有45%的企业在智能客服、数据分析等场景中部署RAG系统,预计到2025年这一比例将突破68%。资料来源:Gartner(全球科技咨询机构),申万宏源研究),通过RAG系统,应用可以将外部知识库与LLM结合,让模型基于检索到的真实、可验证的信息生成回答,而不是仅依赖模型内部参数记忆。第14页共22页简单金融成就梦想第14页共22页简单金融成就梦想资料来源:东南大学论文《HallucinationMiGemini运行时能够连接Google搜索索引,协助鉴别并降低幻觉。在调用“google_search”工具生成回答时,模型会检索最新的网络信息和包含数千亿个统计数据点的DataCommons,如果模型生成的内容与检索结果不符,模型会进行修正或标注引图13:Gemini利用Google搜索引擎克服幻觉的流程示意在实际应用过程中,可以通过流程约束,限制模型只能在可信路径上生成答案。2023年11月,北京大学和快手团队发布的论文认为幻觉往往来源于一次性复杂推理过程中错第15页共22页简单金融成就梦想第15页共22页简单金融成就梦想误的逐步放大,提出了Decompose-and-Query(D&Q)框架,将降低大模型幻觉的问题明确转化为一个应用层的系统工程问题,在问题结构层面对生成行为进行干预。在系统设计上,D&Q强制将复杂问题拆解为多个相互依赖的子问题,并通过深度优先搜索的方式逐步推进推理路径。模型在每一步只能生成下一个子问题,而不能直接给出最终答案。这种受约束的多阶段分解机制显著缩短了单步推理跨度,从而降低了模型在中间步骤中引入虚构事实并持续传播的风险。资料来源:北京大学、快手论文《AStepClosertoComprehensiveAnswers:Constrained与之相似,马里兰大学和微软此前也在论文中提出利用问题分解的工程化方法,结合RAG来显著降低模型的逻辑推理幻觉。方法的核心逻辑在于通过提示词引导模型将一个复杂的多跳推理(Multi-hopReasoning)任务拆解为一系列简单的、逻辑连贯的中间子问题。传统的AI模型往往依赖预训练知识与启发式规则,但在动态环境中,这种方式难以避免累积错误(ErrorAccumulation)或策略退化(PolicyDrift导致了Agent多步执行下,最终结果严重偏离的后果。关于这一命题,我们参考了腾讯姚顺雨、智谱唐杰等国内外AI大模型研究者的发言,大家都不约而同地提到“自主学习”、“Self-Reflect”、“持续学习”等机制。总结下来,自主学习、自我纠错等机制,包含以下六个方面:第16页共22页简单金融成就梦想第16页共22页简单金融成就梦想1)把复杂任务拆细,分成一个个能单独检查的小单元,每做完一步就校验一次。不会让Agent一股脑执行到底,中间关键节点要么能回滚重来,要么拿不准就交给人确认,从源头减少错误往下传。2)“自我纠错”能力,查事实对不对、工具用得准不准,还会通过自我反思、多模型交叉核对的方式,实时发现问题并修正,避免越改越错。3)优化上下文管理,过滤掉没用的干扰信息,还会动态更新靠谱的知识,不让长流程里的杂乱信息误导Agent,减少注意力分散带来的错误。4)多Agent配合兜底,比如同时让几个Agent做同一个任务,结果对比投票;哪个Agent出问题了,就把任务转给其他Agent接手,再加上实时监控和自愈机制,降低单点错误的影响。5)反馈不断优化,把之前执行失败的案例整理起来,分析清楚错在哪,让Agent从失败里学经验,慢慢调整策略。6)明确兜底规则,比如什么时候重试、什么时候降低任务难度、什么时候直接终止,把这些逻辑提前定好,既保证流程稳定,也能清晰追溯问题。根据姚顺雨的发言,关于自主学习,25年业界已经有一些信号。比如Cursor,他们的Auto-completeModel每几个小时就会用最新的用户数据去学习。包括新的ComposerModel,其实也是在使用这些真实环境下的数据去Training。智谱在AutoGLM这一Agent的训练中使用了在线强化学习(online-RL核心思想是边交互、边学习在训练过程中,智能体不断地从环境中获取新的数据(状态、动作、奖励、下一状态),并利用这些数据即时更新策略。当前,我们认为,当前的主流模型幻觉控制已经获得一些成就,从几个维度来看:Vectara的HHEM(幻觉基准测试)中排名全球TOP25的大模型,幻觉率均低于第17页共22页简单金融成就梦想第17页共22页简单金融成就梦想资料来源:VectaraHHEM测评GitHub-vectara/hallucination-le通过RAG、专业数据微调等方式,可以显著提升大模型在严肃场景下的答案表现,发现通用大模型+RAG已经可以显著提升可用率。而通过构建抗幻觉的Agent系统,而不是仅靠模型调优进化和企业级自定义规则模型,业务场景推理模型,财税计算模型,结合通用大模型以及知不可用不可用注:基于181个财税问题测评结果统计那么,什么类型的应用会率先看到商业化,对幻觉更不敏感?首先,我们探讨的候就代表生产力越高,大部分时候其实很多人愿意用最强的模型也是表征。因此,在第18页共22页简单金融成就梦想第18页共22页简单金融成就梦想但也同样会有更多应用层的东西想要去利用这样的好模型,在不同的生产力环节发挥作用。讨的AI+2B各行各业应用(医疗、金融、教育、法律、企业服务等基本集中在高风险和有限风险领域。最小风险中的2B应用包括智能客服、创意生成(文案、音视风险等级核心定义监管措施不可接受风险全和基本权利构系统社会评价、实施大规模监控和跟踪的预测性和高度危险性的自主武器系统;3.欧盟相关机构认定为具有不可社会评分系共场所生物特征识别系统、操纵弱势群体的认知行为系统绝对禁止:禁止在欧盟境内使全和基本权利产系统(需形式+实质审查,无较高威胁则不纳械、玩具、电梯、医疗器械、缆道等);移民和司法八大领域电梯安全控制AI、招生考试严格监管:全流程持续性监测与评估,包括建立风险管理系统、事前第三方符合性评估、保持透明度与网络安全、投放后定期记录分析、人工监督有限风险指对人的健康、安全和基本权利产生较低威胁的人工智能系统与自然人存在互动的人工智能系统,可以生成图像、音频、视频等内容的人工智能系统,情感识别系统和生物本、语音、视频生成等,创意工具供者应确保技术方案的有效性、互操作性、稳健性和可靠性;3)在情感识别系统和生署者应告知自然人与之接触的最小风险全和基本权利不统统工具、游戏盟及成员国可制定相关行为准则第19页共22页简单金融成就梦想第19页共22页简单金融成就梦想根据阿里云,AI应用的渗透一般分阶段推进:最先从效率工具的使用切入,如智能编码、文本生成、图像生成、设计优化等;其次进入AI应用进阶阶段,与企业职能部门工作及部分业务的融合,如智能客服、智能营销、招聘管理、内部知识库检索问答等,在此阶段,一般会选择AI场景适配度高,结构化较强、且容错空间相对大的应用领域。因此,在AI应用落地过程中,行业微调、Prompt工程实践、RAG等成为了更为高效和实用的方式。在阿里云研究院所调查的1500家企业中,50.2%的企业表示已基于基础大模型进行行业微调,40%的企业通过Prompt工程实践开展应用,37%以上

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论