2025QECon全球软件质量效能大会:数据与知识双轮驱动的行业大模型研究与应用_第1页
2025QECon全球软件质量效能大会:数据与知识双轮驱动的行业大模型研究与应用_第2页
2025QECon全球软件质量效能大会:数据与知识双轮驱动的行业大模型研究与应用_第3页
2025QECon全球软件质量效能大会:数据与知识双轮驱动的行业大模型研究与应用_第4页
2025QECon全球软件质量效能大会:数据与知识双轮驱动的行业大模型研究与应用_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据与知识双轮驱动的行业大模型研究与应用甘磊磊

,研究员浙江大学软件学院长期从事自然语言处理、大模型及其赋能学科交叉等方向的研究

,相关研究成果发表在ACL、AAAI、EMNLP、NAACL、COLING和TMLR等人工智能领域高水平会议和期刊上

,获2024年度中国人工智能学会吴文俊人工智能科学技术奖科技进步一等奖

,受邀担任ACL、EMNLP领域主席

,TKDE、TDSC、TIFS、TASLP等计算机领域高水平期刊审稿人

,以及ACL、AAAI、COLM、EMNLP、IJCAI等计算机领域高水平会议程序委员会委员

,承担或参与了国家重点研发计划、

国家自然科学基金项目、浙江省“尖兵领雁+X”计划项目、华为MindSpore学术奖励基金、阿里巴巴研究创新计划、华为财经、蚂蚁金服、网商银行等多个国家及企业课题。甘磊磊浙江大学计算机科学与技术学院软件学院研究员

工学博士

提纲n数据与知识双轮驱动的战略价值n

以数据为中心的大模型后训练n领域知识增强的大模型可信推理n双轮融合的行业大模型研发与实战n典型示范应用成效验证以大模型为代表的人工智能浪潮正在兴起4 DeepSeek横空出世,各项指标逼近或超越世界一流大模型5 DeepSeek横空出世,各项指标逼近或超越世界一流大模型l

回顾其发展历史

,2024年1月

,发布第一版大模型--DeepSeekLLM

,这个版本使用传统的Transformer架构

,但在训练方面已经明显体现出DeepSeek团队通过不断优化训练策略

,达到节约成本

,提高效率的思想

,这点也在后续的模型迭代中被发扬光大。l

2024年5月

,DeepSeek-V2发布

,从这一代开始

,DeepSeek模型开始使用混合专家(MoE)架构

,这是传统Transformer架构的一种改进和扩展

,该架构使DeepSeek模型能以更低的计算成本进行更复杂的推理

,极大提升了模型的性能。l

2024年12月

,DeepSeek-V3上线并开源

,V3版本对MoE架构进行了进一步优化

,在维持低训练成本的同时

,稳定性与多方面性能表现都达到了与领先闭源模型相当的水平。l

2025年1月

,DeepSeek-R1正式发布

,R1模型的推理能力得到极大加强

,与OpenA1-o1模型不相上下

,且推理过程完全透明

,因此在全球范围备受关注。6构建面向行业的领域推理大模型面临三个挑战•

领域数据收集困难

,涉及隐私/合规要求数据层面

领域数据通常具有多模态特性、融合理解困

难•

领域数据推理标注(需专家知识)成本高昂•

领域知识体系庞大且异构

,难以表示

知识层面

大模型内部知识表示与演化机制不明•

领域知识更新频繁

,知识注入不充分•

多源推理复杂

,推理过程存在幻觉

推理层面

领域知识与推理过程难以融合•

推理成本高

,存在过度推理倾向迫切需要研制面向知识密集行业的领域大模型技术

帮助企业低成本快速构建、

并部署自身专属的大模型

,形成企业的核心竞争力理解大模型知识机制与提升领域知识能力增强大模型领域

深度知识推理能力克服领域数据收集

、标注与融合难题数据与知识双轮驱动的行业大模型拟解决问题增强推理数据支撑知识注入数据和知识双轮驱动的行业大模型研究与应用在金融

电力

法律等重点行业开展应用示范数据与知识双轮驱动的行业大模型

围绕构建领域推理大模型在数据、知识和推理等层面的三大挑战

,研究领域推理数据合成与跨模态融合学习技术

,领域大模型知识机制与知识注入技术

,领域知识增强的大模型动态深度推理技术

,构建数据与知识双轮驱动的垂直领域推理大模型

,并在金融、电力、法律等重点行业开展应用示范。

提纲n

数据与知识双轮驱动的战略价值n

以数据为中心的大模型后训练n

领域知识增强的大模型可信推理n

双轮融合的行业大模型研发与实战n

典型示范应用成效验证

实验效果1.在

(n

on

-hallucinated

statute

rate)上达到了38.353%

,显著超越了多个专用法律大模型以及通用大模型。2.在有用性评估实验中,我们的方法在与现有法律大模型和通用大模型的对比中表现出显著的胜率优势1.提出

了法律问答幻觉基

准LegalHalBench;共包含约3976个问题,涵盖1670条法条,来自与刑法、

民间借贷、婚姻、继承和道路安全相关的法律。2.

提出了一种面向困难样本的迭代式直接偏好优化方法(Hard

sample

-

awareIterative

direct

Preference

Optimization

HIPO),提升大模型在法律问答任务中的事实准确性。

研究成果一:

以数据为中心的大模型后训练(幻觉克服)LegalHalBench:大语言模型法律事实性幻觉评测基准

,COLING1.在法律、医疗等高风险领域,大模型的“幻觉

”问题阻碍了其提供准确且有用的答复;2.

目前尚缺乏针对法律领域答案幻觉现象的自动评估指标、基准测试以及相应的解决方法研究。

20研25究动机算法步骤

研究动机1.现有多模态大模型"幻觉"检测与消除依赖人工标注偏好数据,成本较高;2.现有偏好数据构造采用粗粒度标注,无法细粒度(

e.g.,句子级别)检测出回复中的"幻觉";3.现有算法无法区分轻微的与严重的"幻觉"错误;

研究成果一:

以数据为中心的大模型后训练(幻觉克服)基于细粒度AI反馈的多模态大模型幻觉检测:Detectingandmitigatinghallucinationinlargevisionlanguagemodelsviafine-grainedaifeedback

,AAAI2025

实验结果1

.

在幻觉检测方面

,所提方法在MHaluBench上取得了新的最先进结果,超越了GPT-4V和Gemini。2.在幻觉缓解方面,HSA-DPO显著提

LVLM

将AMBER

基准上

的幻觉率

降低

了36

.

1%

,在Object

HalBench上的CHAIRS基准中降低了76.3%。

算法步骤1.从闭源模型蒸馏细粒度回复:设计幻觉严重程度指标及幻觉分类;2.训练检测模型并构建偏好数据集(Detect-then-Rewritepipeline);3.在数据集上进行感知幻觉程度的偏好优化l

然而,并非所有的问题都需要慢思考,甚至冗长的慢思考对于简单问题的解答反而有害。如表1所示,R1-OneVision在Geometry测试集的所有难度级别上,其推理链长度大约是基础模型的2倍,但是在简单问题的准确率却从72.7%降至69.5%。l

现有的面向LLM的高效推理忽视了视觉输入的挑战,导致它们在多模态大模型中的有效性仍未被探究。

研究成果一:

以数据为中心的大模型后训练(推理增强)多模态大模型高效推理:FAST-SlowThinkingGRPOforLargeVision-LanguageModelReasoning,

NeurlPS2025UnderReview

研究动机l

随着慢思考推理语言大模型研究的兴起,研究人员已开始探索面向多模态大模型的慢思考推理方法(SFT和SFT-RL)。

研究成果一:

以数据为中心的大模型后训练(推理增强)多模态大模型高效推理:FAST-SlowThinkingGRPOforLargeVision-LanguageModelReasoning,

NeurlPS2025UnderReview

算法步骤l

动态采样通过前期采样中等、困难问题,后期采样简单、中等难度问题,实现模型先学慢思考,再学快思考;l

思考奖励促使模型在回答正确且简单问题,快思考。在回答错误且困难的问题,慢思考;l

动态约束通过调整约束力度,实现模型在简单问题利用现有能力,在困难问题适当探索。

研究成果一:

以数据为中心的大模型后训练(推理增强)多模态大模型高效推理:FAST-SlowThinkingGRPOforLargeVision-LanguageModelReasoning,

NeurlPS2025UnderReview

实验结果1.

FAST-GRPO在多模态推理任务上的准确率实现了超过10%的相对准确率提升;2.

FAST-GRPO在推理长度实现了高效的压缩,相较于慢思考方法可压缩30-60%的token;3.

在VQA设置下,FAST-GRPO能提升推理

能力的同时,保持良好的通用能力;4.

FAST-GRPO在3B和7B的模型尺寸下,都

能实现较好的快-慢思考。

提纲n

数据与知识双轮驱动的战略价值n

以数据为中心的行业大模型后训练n

领域知识增强的大模型可信推理n

双轮融合的行业大模型研发与实战n

典型示范应用成效验证

研究动机l

在现实场景中,大语言模型(LLMs)会接收到涵盖不同任务的多样化提示;l

尽管LLMs为广泛领域提供了统一的解决方案,但在某些特定任务上,其性能仍可能表现不佳;l

轻量级LoRA训练提供了一种扩展LLMs能力的低成本方式;l

考虑自适应、动态加载即插即用的LoRA模块,满足多样化用户需求。从检索数据到检索模型!

研究成果二:

领域知识增强的大模型可信推理LoraRetriever:基于检索的LoRA模块动态检索与组合

,ACL2024l

使用少量训练样本的嵌入代表LoRA模块;l

采用指令微调的思想训练稠密向量检索模型;l

根据输入检索与组合Top-KLoRA模块,动态增强大语言模型能力

研究成果二:

领域知识增强的大模型可信推理LoraRetriever:基于检索的LoRA模块动态检索与组合

,ACL2024

算法步骤输入感知的LoRA模块检索与组合

算法步骤1.

为弥合上述研究空白,(i)首次系统性地评估了17

个法律推理基准任务,其中

7个为英文任务,10个为中文任务,涵盖了测试阶段扩展模型与通用大模型两类模型;

(ii)构建了一个双语法律推理数据集。2.

基于DeepSeek-R1-Distill-Qwen-14B

,训练

Legal-R1-

14B模型,在法律任务中表现更优的领域专用模型。EMNLP2025

研究动机1.

法律推理具有特有特战:(i)对相关法规与判例知识的准确整合;(ii)

将这些知识应用于复杂的案例事实。2.

虽然近期大型语言模型的推理能力在通用领域取得了显著进展

,但其在法律推理任务中的表现尚不明确。

研究成果二:

领域知识增强的大模型可信推理Legal-R1:EvaluatingTest-TimeScalingLLMsforLegalReasoning:OpenAI

o1,

DeepSeek-R1,

and

Beyond,

实验效果1.

实验结果显示,推理大模型如

DeepSeek-R1

o1-preview

在性能上明显优于传统的

LLM。2.

Legal-R1-

14B同样展现出具有竞争力的结果,其表现可与多个强大的专有模型和开源模型相媲美。

研究动机l

先前的T2I基准数据集侧重于衡量模型生成的图像与文本的对齐程度,而不是生成图像中知识概念的真实性。19l

缺乏评价文生图模型知识概念生成事实性评测方法。l

如何注入额外的知识帮助模型生成,

以及如何获取注入的知识仍不明确。

研究成果二:

领域知识增强的大模型可信推理文生图模型的知识幻觉检测:T2I-FactualBench:T2I-FactualBench:BenchmarkingtheFactualityof

Text-to-ImageModelswithKnowledge-IntensiveConcepts

,ACL2025

研究成果二:

领域知识增强的大模型可信推理文生图模型的知识幻觉检测:T2I-FactualBench:T2I-FactualBench:BenchmarkingtheFactualityof

Text-to-ImageModelswithKnowledge-IntensiveConcepts

,ACL2025

技术路线

研究成果二:

领域知识增强的大模型可信推理文生图模型的知识幻觉检测:T2I-FactualBench:T2I-FactualBench:BenchmarkingtheFactualityof

Text-to-ImageModelswithKnowledge-IntensiveConcepts

,ACL2025

技术思路•以CNER数据集作为概念分类标准,利用BabelNet知识库筛选出下位词<=4的概念作为知识概念,构建包含1600条知识概念图文数据集。•利用收集好的知识概念,提出三层图片生成任务T2I-FactualBench

,包含:知识概念的记忆;知识概念的实例化;和多知识概念的组合,共3000条prompts。•提出多轮VQA评估方法,利用多模态大语言模型较强的视觉识别能力和推理能力,分别进行三轮评估:(1)

概念真实性评估

(2)实例化完程度评估

(3)概念组合真实性评估。•引入两种知识注入方法:(1)视觉知识注入:以参考图生成模型为基础,注入知识概念的图片作为参考图(2)文本知识注入:以DiT结构的文生图模型为基础,注入知识概念的外观描述作为参考文本。

提纲n

数据与知识双轮驱动的战略价值n

以数据为中心的行业大模型后训练n

领域知识增强的大模型可信推理n

双轮融合的行业大模型研发与实战n

典型示范应用成效验证l

8月21日,

由中国工程院院刊《Engineering》、中国人工智能学会、

中国工程院院刊信息与电子工

《FITEE》

合主

办的Engineering大讲堂暨“智行中国

”第五期系列论坛以“AI+X:迈向垂直领域基座模型赋能新时代

”为主题在浙江大学举行

,论坛同期在腾讯、新浪、百度、

哔哩哔哩等平台全程直播

,在线观看人次超42万l

会议上正式开启智海系列垂直领域大模型的研制工作:

三乐

(人工智能教育)

录问

(司法)

、金磐(金融)

、敦煌(敦煌学研究)

、开物(智能设计)

、知行(大模型协作)

、知光(时空数据)

、悟化(药物合成)

、伏羲-万象

(地理科学)

大禹

(智能会计)

烛照(影视制作)。

研究成果三:

智海系列垂直领域大模型研究成果三:

智海系列垂直领域大模型(教育学)浙江大学与高等教育出版社、阿里云计算有限公司和华院计算基于通义千问联合研发人工智能领域大模型智海-三乐()

,提供人工智能知识的智能问答、试题生成、学习导航、教学评估等服务习题生成跨学科教学错题解析可交互式实训教学案例生成作业批改、教学评估知识问答学习建议2023年8月发布智海-三乐教24•

“智海-录问”

已在Git

hub和魔搭社区开源开放

,为开展智能司法理论研究与技术创新、推动智慧法院与平台建设提供服务

,截止目前在魔搭社区已有8592次下载和115663次访问和试用

,在Git

hub上已有403次Star。•在浙江省高级人民法院等60家法院落地使用

,覆盖民事、刑事和行政等45种案由

,辅助庭审案件超过1.5万件

,当庭宣判率达90%以上,

裁判文书完整度达95%以上

,提高了审判效率近40%。•上线浙江省司法厅所属的12348浙江法网

,成为浙江省老百姓贴身法律顾问。阿里巴巴魔搭(

ModelScope

)社区开源

研究成果三:

智海系列垂直领域大模型(法学)浙江大学、阿里巴巴达摩院与华院计算合作

研制司法领域大模型国家重点研发计划项目:智慧司法智能化感知交互技术研究(负责人:吴飞

,2021-2023)25有监督微调教与学需求为指引(指令模版)

小模型情景辅助信息大小模型协同解决标注数据不均衡问题生成偏误标注数据德语作文语料库错误注入大语言模型自监督学习德语互联网语

料德语写作偏误

标注语料中国德语学习者写作偏误平行语料库>4,000篇

文本>480,000Tokens③偏误标签系统偏误标注规对学习者作文背对背偏误数据标注标注②则①对话(2)文章批改生成式预训练大模型(1)通用开源大模型

研究成果三:

智海系列垂直领域大模型(德语教学)智海启德可辅助德语写作

,如Q-A问答、错误纠正等(3)对话交互式德语智能写作反馈大模型26

提纲n

数据与知识双轮驱动的战略价值n

以数据为中心的行业大模型后训练n

领域知识增强的大模型可信推理n

双轮融合的行业大模型研发与实战n

典型示范应用成效验证“小智”智能化审判系统•在浙江省高级人民法院等55家法院落地使用,

同时辐射至全国23个省、

5个自治区和4个直辖市共计1万多个法庭•

支持全流程异步审理和多案联审

,实现了“十案联审

”新模式

,大幅度提高庭审效

率•

辅助庭审案件超过1.8万件

,当庭宣判率达90%以上

,裁判文书完整度达96.5%以上,此传统审判提升了效率近40%、当事人诉讼成本下降31.2%•

联合阿里巴巴达摩院

,基于上述学术成果

,研制了“智海-录问”和LegalMind法律大模型

,在浙江省高级人民法院和浙江省司法厅等部署

,月均使用量超过150万余次•

联合智慧司法技术总师系统、

阿里云

,科大讯飞

,发布了行业首个《法律大模型评估指标和测评方法(试行版)》•在浙江省政法委领导下

,作为核心成员参与浙江省政法大模型实验室

,研制政法大模型并实际服务政法部门业务法律垂域大模型开放赋能体系

典型示范应用成效验证相关学术成果落地全流程智能化辅助审判机器人“小智”“小智”支持全流程异步审理和多案联审智海-录问法律大模型开放赋能入选国家教材建设重点研究基地

,出版跨学科人工智能通识课程教材、打造新一代人工智能理论、实践、通识系列教材

,发布面向大学生和高校教师的“人工智能素养红皮书”

,构建了覆盖跨学科AI通识教育教材体系

,推进智能时代人才培养与教师能力提升。浙江大学发布《高校教师人工智能素养红皮书》提出赓续育人理念(何为师)

、学习智能知识(以何为师)

、变革教研模式

(何以成师)

和担当社会责任(师者为何)

等能力。浙江大学发布《大学生人工智能素养红皮书》究)

”围绕

“智能时代、

教育何为”这一命题

,本红皮书提出大学生

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论