中文大模型基准测评度报告

上传人：知*** IP属地：广东上传时间：2026-03-16 格式：PPTX 页数：49 大小：1.53MB 积分：15 举报 版权申诉

已阅读5页，还剩44页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

中文大模型基准测评2023年度报告—AI跃迁的2023，

中文大模型进展评估SuperCLUE团队2

8目录01

国内大模型关键进展•2023年大模型关键进展与中文大模型全景图•2023年国内大模型发展趋势02

测评体系

、方法说明•中文大模型基准SuperCLUE介绍•测评体系、层次、方法说明03

大模型综合测评结果•

SuperCLUE模型象限•国内外大模型总体表现及竞争格局•大模型对战胜率分布图04

SuperCLUE2

.0升级•行业及专项测评基准05

四大维度测评分析及示例介绍•

四大维度测评结果及示例06

优秀模型案例介绍•优秀模型案例介绍第1部分2023全年国内大模型关键进展

自2022年11月30日Chat

GPT发布以来，

AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮

。

国内学术和产业界在过去一

年也有了实质性的突破

。大致可以分为三个阶段，即准备期

（Chat

GPT发布后国内产学研迅速形成大模型共识）、

成长期

（国内大模型数量和质量开始逐渐增长）、爆发期

（各行各业开源闭源大模型层出不穷，

形成百模大战的竞争态势）

。•

OpenAI发布多模态GPT-4V•

百川智能开源Baichuan2•

腾讯发布混元助手•

字节跳动公测大模型产品豆包•

商升级商量3.0•

阿里云开源Qwen-7B•

小米发布大模型MiLM•

上海人工智能实验室开源InternLM-20B•

元象科技开源XVERSE-13B•Meta开源Llama2•

百川智能开源Baichuan-7B•

清华&智谱AI开源ChatGLM2•

华为发布盘古3.0•

西湖心辰发布西湖大模型•

文心一言升级V3.5•

云从科技发布从容大模型•

商升级商量2.0•

理想汽车发布MindGPT•

360升级智脑4.0•GPT-4Turbo发布•

百度升级文心一言4.0•

清华开源ChatGLM3•

OPPO发布AndesGPT•

vivo发布BlueLM•

零一万物开源Yi-34B•

科大讯飞升级星火3.0•

百川智能发布Baichuan2—Turbo•Google发布多模态大模型Gemini•

OpenAI发布GPT4••

百度发布文心一言1.0••

清华开源ChatGLM••

360发布360智脑1.0••

元语开源ChatYuan•

复旦开源MOSS

•科大讯飞发布星火1.0阿里云发布通义千问1.0商发布商量1.0昆仑万维发布天工1.0出门问问发布序列猴子2023大模型关键进展故事的起点：

ChatGPT发布国内迅速形成大模型共识SuperCLUE：

AI大模型2023年关键进展（关键进展）准备期爆发期成长期2022.122023.1210月2月4月6月8月时间5行

业

大

模

型工业 AInno-15B

COSMO-GPT

SMore

LrMo......

..............................闭源BlueLMAndesGPT

门出门问问序

列

猴

子言犀

圈

玉言开源

百川Baichuan

Yi-

)CPM-Bee

MOSS

圈TigerBot

RWKV-LMMiLM-6B4parodigmsageGPT云天书2023年值得关注的中文大模型全景图文

化/零

售/交

通妙笔大模型晓模型XPT金融

蚂蚁金融大模型

轩辕大模型通用

大

模

型岐黄问道DISC-MedLLM汽车心理想MindGPT天工字节云雀大模型某著名企业AI大模型银河大模型部分

领域教育医疗过去半年，

国内领军大模型企业实现了大模型

代

际

追

赶

的

奇

迹，从

月

份

与

的

分

差

距，

每个月都有稳定且巨大的提升，到11月份

测评时已经完成总分上对GPT3

.5的超越

。我

们

可以

看

到

和

在中

文

上

的

表

现情况基本一

致，

在11月份测评结果中显示，

在中

文

能

力都

有

一

定

的

下

滑，而

国内

头

部模

型

则

展

现

了继续稳健提升的能力

。

在12月份的测评结果中

可以

看

到，国内

第

一

梯队

模

型

与

的

差

距

在

缩小

。

但仍有较大的距离需要追赶

。说明：趋势展示，

选取了7月

12月Super

CLUE

-OPEN

测

评

分

数。

国内

代

表

性模

型，

选

取

了

文

心

一

言、

通

义

千问、

Chat

M。

原因

是

综

合

考

虑

了

过

去

半

年

Super

CLUE

测

评

结

果、

长

期

稳

定

迭

代

及

对国内

大模

型

生

态

的

贡

献；GP

成

绩，

由

-API

(

月)

与

-Turbo(

月)

组

成，用

以表现国外最好模型发展

。模型7月8月9月10月11月12月文心一言50.4854.1853.7261.8173.6275通义千问-41.7333.7843.3661.0171.78ChatGLM42.4638.4954.3158.5363.2769.91国内外大模型发展趋势部分国内代表性模型SuperCLUE基准得分(7月

12月)过去六个月国内外代表性模型的发展趋势趋势说明第2部分测评体系、方法说明1.SuperCLUE介绍

2.测评层级

3.测评体系

4.测评方法及示例

)

)SuperCLUE始终秉持中立

、客观的第三方测评理念，

不会预设立场或偏向特定

的模型方

。

同时，

SuperCLUE采用自动化方式的客观评估，

大大降低评测过程

中的人为评估的不确定性。不同于传统测评通过选择题形式的测评，

SuperCLUE目标是与真实用户体验目标保持一致，

所以纳入了开放主观问题的测评

。通过多维度多视角多层次的评测体系

以及对话的形式，

真实模拟大模型的应用场景，

真实有效的考察模型生成能力。同时，

SuperCLUE通过构建多轮对话场景，

更深层次考察大模型在真实多轮对话

场景的应用效果

。对大模型的上下文

、记忆

、对话能力全方位评测。不同于传统学术领域的评测，

SuperCLUE从通用基准维度的选择

、安全和智能体专项测评的设计，

到行业大模型测评基准的推出，

所有评测的目的都是为产业

和应用服务

。真实反应通用大模型与产业应用之间的差距，

引导大模型提升技术落地效果，

在通用能力的基础上更好的进行垂直领域的应用。中文语言理解

测

评

基

准

（

neseLa

eUnderstanding

Evaluation）

是

致

力

于

科

学

、

客

观

、

中

立

的

语

言模

型评

测

基

准，发

起

于

年。

陆

续

推

出

CLUE、

Few

CLUE、

CLUE、DataCLUE等广为引用的测评基准

。Super

CLUE是大模型时代CLUE基准的发展和延续

。

聚

焦

于

通

用

大模

型

的综合性测评。

传统语言模型测评往往局限于学术范围的单轮选择题，

Super

CLUE

根

据

多

年

的

测

评

经

验，基

于

通

用

大

模

型

在

学

术、

产

业

与

用

户

侧的广泛应用，

构建了多层次

、

多维度的综合性测评基准

。传统测评与SuperCLUE的区别主观题+客观题多轮十大维度高性产业+用户视角第三方测评，

不与模型厂商竞争不限于学术领域的测评，

更为了服务产业界Super

CLUE介绍测评方式与真实用户体验目标一致单轮选择题性低学术SuperCLUE

三大特征SuperCLUE传统测评VS文学写作

名人角色

偏见歧视

目标劫持文本续写

职业角色

违法犯罪

Prompt泄漏......

..................广告文案

虚构角色

财产隐私技术报告非人类脏话侮辱

反面诱导语言与知识逻辑与推理SuperCLUE多层次基准三级

（子任务）色演

角扮作测评层级一级

（能力）二级

（任务）概率统计微积分思维推理决策推理任务分解自我反思情境对话生成对话对话记忆任务对话摘要生成情感分析文化娱乐社会人文代码生成代码补全历史地理科学技术代数计算应用题常识推理条件推理阅读理解信息抽取代码注释bug解决调用API检索API专业与技能AI智能体不安全指令任务

规划指令

攻击工具

使用传统

安全安全性上解规划API思维链计算代码识对成语科理文话创言抽生知与与与取百下................................................专项能力测评通用能力测评

景

准安模发

中

文

大

模

型

综

合

性

评

测

基

准行业能力测评景

准安模发f全中文汽车行业评估、UUUPUGeU、UG、UUUeU景

准安模发f景车景

准安模发f全景

准安模发f布应发已景

准安模发f布应智测评体系多轮对抗安全评估智能体能力评估多轮开放式问题多维度客观题.持续扩充不重复抽样5000原始评测集人工校验•

1060道多轮简答题（OPEN）•3213道客观选择题（OPT）SuperCLUE总分=0

OPEN分+0

OPT分注：多

轮

简

答

题

OPEN

更

能

反

应

模

型

真实能力，故权重设置提高

。部

分

测

评

结

果

组

成

。

评

测

集

共

4273题，其

中

1060道

多

轮

简

答题

（OPEN）

，

3213道

客

观选

择题

（OPT）

，

以

下

为

评

测

集

与

测

评

方

法

简

述

。OPEN在一个确定的评估标准指导下，

OPEN基准使用超级

模型作为评判官，

使用一个待评估模型与一个基准模

型进行对比，

让超级模型选出A模型好，B模型好，

或

平局

。

进而计算胜和率作为OPEN得分。为

更

真

实

反

应

大模

型

能

力，

本

次

测

评

采

用

多

维

度、

多

视

角

的

综

合

性

测

评

方

案，由

多

轮

开放

问题

Super

CLUE

-OPEN和

三

大

能

力

客

观题

Super

CLUE

-OPT两OPT主要测评选择题，

包括基础能力

、

中文特性

、

专

业与学术能力

。

构造了统一的prompt供模型使用，

要

求模型选取ABCD中唯一的选项。4273道评测题被测模型A（如文心一言）裁判模型（如GPT4-Turbo）评测反馈10万+题库OPEN

分

胜

和

率OPT测评方法CL

E测评组单选ABCD胜(3分)

、和(1分)

、

负(0分)基线模型B（如GPT3.5）OPT

分

准

确

率被测模型A选择

题库VS多轮超级模型

（裁判）A:

文心一言4.0B:gpt3.5-turbo模型A的回答创造性地扩展了原有的文案，

加入了

家庭安全方面的应用，

如老人摔倒检测和入侵检测，

并维持了主题一致的

“魔法

”元素，

这样的文案能

够有效吸引用户的注意，

并且关注点转移到家庭安

全这一增加的功能上。模型B在回答中也有效地扩充了关于家庭安全功能

的描述，

保持了与原文案相似的格式，

成功地整合

了入侵检测和摔倒监测的新信息，

让用户了解到产

品的新应用场景。两个模型都做到了准确地回答了问题并且保持了高

度的相关性，同时也都扩展了文案来包括新的家庭

安全特性，

提供了实用性的信息

。在这个基础上，模型A的创意元素

—用

“魔法

”寓意来打动用户，和模型B的实用性

—强调产品带来的平安感，

都各

有卖点。综上所述，

两个模型的回答在满足准确性和相关性

的同时，

从实用性和创造性的角度来看，

两者提供

的内容是相当的，因此我的最终评判结果是：

平局测评方法

示例1

（生成与创作）问题及模型回答超级模型

（裁判）A:GPT4-TurboB:gpt3.5-turbo第一个问题：

首先对于准确性，

模型A回答是正确的

。

他列举了所有相关人物的计算过程，

逐一解释

了每个人的年龄如何计算，

并正确得出Frank和De之间的年龄差是68岁。模型B直接给出了一个答案22岁，

这是错误的

。模型B似乎没有理解问题的含义，

也没有提供如何得出这个答案的过程

。

问题是问Frank和De之间的年龄差，

模型B的计算过程不清不楚，

似乎错误地将Bob和Frank的年龄差解释为Frank和De的年龄差。在相关性方面，

模型A的回答与问题完全相关，

它正确地解答了用户的问题，

并给出了合适的计算过

程

。模型B的回答虽然与问题的主题

（即年龄差）

相关，

但却没有正确回答问题，因此相关性不足

。

由于准确性和相关性是首要的判断标准，

模型A在这两方面都表现出更好的质量，因此应该被评为更

好的回答

。模型B因为错误且未给出推理过程，

所以被评为较差的模型

。

最终判决：[[A]]

"关于第二个问题：

模型B的解释出现了错误，

它错误地假设了

“

De的父亲是Bob

”，

这实际上没有

给出在给定信息中

。

从而推理出Frank的外公的父亲的Frank自己，

这是不正确的

。模型A的解

释则是准确的，

它正确地根据给定的家族关系逐步分析出了Frank自己是

“

Frank的外公的父亲的孙女的儿子

”

。模型A同时保持了答案的相关性。根据我们的评估标准，

准确性和相关性是主要的评判标准

。

因为模型B在准确性上存在错误，

模型A就以准确和相关的答案胜出

。

因此，

基于准确性和相关性的评估，

最终判决：[[A]]

"测评方法

示例2

（逻辑与推理）问题及模型回答第3部分大模型综合测评结果1.SuperCLUE模型象限

国内外大模型总体表现

国内大模型竞争格局

4.大模型对战胜率分布图模型机构简介模型机构简介1.GPT4-TurboOpenAI2023年11月7日发布的GPT4的升级版本14.通义千问2.0阿里巴巴官方公开发布的API版本：

qwen-max-longcontext2.GPT4(网页版)OpenAIGPT4官方网页版本，

支持联网功能15.Claude2Anthropic官方发布的API2.0版本3.GPT4(API)OpenAIGPT4官方API版本，

不支持联网功能16.云雀大模型(豆包)字节跳动官方网页版产品【豆包】4.文心一言4.0(API)百度官方付费使用的文心一言V4.0的API版本17.Gemini-proGoogle官方发布的API版本Gemini-pro5.文心一言4.0(网页版)百度官方文心一言网页4.0版本18.GPT3.5-TurboOpenAIGPT3.5官方API版本6.智谱清言清华&智谱AI官方网页版产品【智谱清言】19.Qwen-14B-Chat阿里巴巴开源的14B的Chat版本7.AndesGPTOPPOOPPO小范围内测API版本20.Baichuan2-13B-Chat百川智能开源的第二代13B的Chat版本8.Moonshot(KimiChat)月之暗面搭载Moonshot的网页版本【KimiChat】21.XVERSE-13B-2-Chat元象科技开源的第二代13B的Chat版本9.Qwen-72B-Chat阿里巴巴开源的72B的Chat版本22.讯飞星火V3.0科大讯飞官方发布的V3.0版本的API10.序列猴子出门问问官方发布的API版本23.Minimax(应事)稀宇科技官方网页版产品【应事】11.Yi-34B-Chat零一万物开源的34B的Chat版本24.ChatGLM3-6B清华&智谱AI开源的第三代6B版本12.PCI-TransGPT佳都科技小范围内测API版本25.Chinese-Alpaca2-13Byiming

cui（个人开发者）个人开源的基于Llama2的汉化版中文模型13.360GPT_Pro360360智脑的API升级版本Pro26.Llama_2_13B_ChatMeta官方开源的2代13B的Chat版本本次测评数据选取了SuperCLUE-12月测评结果，

模型选取了国内外有代表性的26个大模型在12月份的版本。测评模型列表实用主义者卓越领导者智谱清言通义千问2.0AndesGPT(OPPO)

GPT-4Turbo●GPT-4(网页版)●

GPT-4(API).Xverse-13B-2-Chat(元象)●序列猴子(出门问问)

●PCI-TransGPT(佳都科技)●文心一言4.0(API)

●MoonShot(KimiChat)

Yi-34B-Chat

Claude2●

360智脑.

Qwen-72B-ChatGemini-pro

Baichuan2-13B-Chat

.MiniMax

（应事版）●讯飞星火v3.0●Qwen-14B-Chat

.ChatGLM3-6B

Chinese-Alpaca-2-13B●Llama-2-13B-Chat

潜力探索者.GPT3.5-Turbo●

云雀

（豆包）●

文心一言4.0

（网页版）技术领跑者来源：

SuperCLUE,

2023年12月28日注：

两

个

维

度

的

组

成。

基

础

能

力，包

含：专

业

与

技

能、

语

言

与

知

识（不

包

括

角

色

扮

演

）

、

传

统

安

全；应

用

能

力，包

括：工

具

使

用、

角

色

扮

演

。2

.四

个

象

限

的

含

义。

它

们

代

表

大

模

型

所

处

的

不

同

阶

段

与

定

位，其中

【潜

力

探

索

者

】

代

表

模

型

正

在

技

术

探

索

阶

段

拥

有

较

大

潜

力；

【技

术

领

跑

者

】

代

表

模

型

聚

焦

基

础

技

术

研

究；

【

实

用

主

义

者

】

代

表

模

型

在

场

景

应

用

上

处

于

领

先

定

位；

【卓

越

领

导

者

】

代

表

模

型

在

基

础

和

场

景

应

用

上

处

于

领

先

位

置，

引

领

国内

大

模

型

发

展

。Super

CLUE模型象限基础能力应用能力.国内外

差

距

依然明显。GP

4-Turbo总分9

分

遥

领

先，高

于

其

他

国内

大

模

型

及国

外

大模

型

。其

中

国

内

最

好模

型

文

心

一

言

(API

)

总

分

分，距

离

-Tur

bo有11

61分，

距离GPT4(网页)有4

9分的差距

。必须看到的是，过去1年国内大模型已经有了长足

的进

步

。

综

合

能

力

超

过

和Gemini

Pro的

模

型

有

个，比

如

百

度

的

文

心

一言

4.0

、阿

里云的

通

义

千问

2.0和Q

en-

72B-Chat

、

OPPO的AndesGPT

、

清华&智谱

AI的智谱清言

、

字节跳动的云雀大模型等都有比较好的表现

。另

外

国内

开

源模

型在中

文

上

表

现

要

好

于

国

外

开源模型，

如百川智能的Baichuan2

13B-Chat

、阿

里

云

的

Qwe

B、

Chat

均

优

于Llama2

13B-Chat

。•在

动形建多式价兴化估测

评

中，

国

外

模

型的

平

均

成

绩

为

。,

Rup分，

国内

模

型

平

均

成

绩

为

。、R,

、分，

差距在u分左右

。•可以

看

出，

国内

外

的

平

均

水

平

差

距

在

缩

小，

ee月差距在eu分左右

。国内外大模型SuperCLUE基准得分国内对外差距情况说明国内外大模型总体表现国外模型平均成绩VS

国内模型平均成绩通

过

Super

CLUE

测

评

结

果

发

现，国内

大模

型

的

第

一

梯

队

有

了

更

多

新

的模

型

加

入。

头

部

模

型

如

文

心

一

言

0、

通

义

千

问

0引

领

国内

大模

型

的研

发

进

度，

部

分

高

质

量

大模

型

紧

追

不舍，

分

别在闭源应用和开源生态中形成自己独特的优势

。大厂和创业公司平均成绩对比大厂平均69.42创业公司平均62.09•

从大厂和创业公司的平均成绩来看，

大厂与创业公司差值约6.33分，

较11月份差距在增大

。

这说明大厂在

大模型竞争中长期资源投入方面有一定优势。•

从国内TOP19大模型的数量来看，

创业公司和大厂的占比几乎持平。国内大模型竞争格局国内大模型综合表现-SuperCLUE创业公司(9)vs

大厂(10)

创业公司

大厂测评月份第一名第二名第三名12月文心一言4.0通义千问2.0AndesGPT11月文心一言4.0MoonshotYi-34B-Chat10月BlueLMMoonshot文心一言4.09月SenseChat3.0文心一言(网页v2.3.1)ChatGLM2-Pro8月Baichuan2-13B-ChatMinimax-abab5文心一言(网页v2.2.3)7月文心一言(网页v2.2.0)ChatGLM-130B讯飞星火V1.56月360智脑文心一言讯飞星火5月360智脑讯飞星火ChatGLM-130B通

过

统

计

过

去

过

去

八

个

月

国

内

模

型

在S

per

CLUE

基

准

上

的

前

三

名，可以

发

现，每

个月

前

三甲

的竞

争

非

常

激

烈，

共

有

12个

大模

取

得过前三名。

出现频次最高的有文心一言

（

次）、

ChatGLM

（

3次）、讯飞星火

（

3次）。曾经取得过Super

CLUE月榜

首

位

的

大模

型

有

5个。分

别

是

文

心

一

言、BlueL

、

Sense

Chat

0、

Chat

、

智脑

。其

中，

百

度

的

文

心

一

言登

顶

Super

CLUE

月

榜

的

次

数

最

多，分

别

在

月、

11月

、

12月取得了SuperCLUE最好成绩

。我

们

可

以

看

到，

在

国内

大模

型

技

术

发

展

初

期

阶

段，

各家大模型公司都投入了巨大的人力

、

算

力和数据资源，以至于每个月测评结果的前三

甲都

有

不

同

程

度

的

变

化，经

常

会

因

为

新

发

布

的

高

质

量模

型

引起

榜

单

的

变

化。

预

计

未

来

一

年

同

样会发生类似的情况

。

也非常期待有高质量模

型能够持续保持非常高的水准

。国内大模型历月前三甲过去八个月国内模型在SuperCLUE基准上的前三名说明多轮开放式问题基准

Super

CLUE

-OPEN，

是

使用超级模型作为评判官，

用一个待评估模型与一个基准模型（GPT3.5）

进行对比，

从而得出胜平负的得分。从胜率来看，

全球领跑者GPT4

-Turbo胜率为41

77%，

和率为52

46%，

大

幅

领

先

于

其

他

模

型，而

败

率

仅

为

%，足以

说

明

-T

bo对GP

在

各

项

能

力

上

的

全

面压

倒

性

优

势。

而

国内模

型中，百

度

的

文

心一

言

0胜率

国

内

最

高，

接

近

30%。

胜率

超

过

25%的模

型

有

智谱

清

言、

通义千问2

0和AndesGPT

。在200亿参数量级的开源模型中Baichuan2

13B-Chat的胜率排在首位，

展

现出

不

俗

的

对战

能

力。

排

在

至

位

的

是

XVERSE

-1

Chat、

Qwen

14B-Chat，同样表现可圈可点

。从胜率分布数据可以发现，

所有模型的和率都在50%以上

。

这说明国内

外

大

部

分模

型在

基

础

题目

上

与

的

水

平

相

近，随

着

任

务

难

度

的

提升，

不同模型的表现才会有区分

度

。

后

续

的

测

评

数

据

会在题目

难

度

的

区

分性和评价颗粒度上加强提升

。

结果分析

大模型对战胜率分布图

测评分析

通过对比模型在主观简答题OPEN和客观选择题OPT上的不同表现，

可以发现，国内大模型多数擅长做选择题

。

普遍选择题的分数会高于简答题

的

分

数。

其中，文

心

一

言

和

智

谱

清

言

表

现

相

对

稳

定，分

别

为

（

.38）

和

（

.01）。

GPT-4

Turbo的表现最为稳定，

差值仅有0

.86

。Super

CLUE认

为，

客

观题相对

主

观题

更容

易

通

过题

库

形

式

进行

训

练

和提升；同时也由于客观题中包含中文特性问题，中文模型自然有一

定的优势，

所以应该综合来看模型的评测效果

。值得关注的是，

在本次测评中，国外的代表性大模型如

GPT4的

不

同

版本

、

Claude2、

Llama2都

很

好

的

稳

定

性

表

现，

值

得

国

内

大模

型

进

一

步分析研究

。注：

计算分值为模型的OPEN分与OPT分值的差值，

用以观察模型在

主观题和客观题上的不同表现。

测评表现

主观和客观对比1

国内开源模型现状总体上国内开源模型表现较好，

成绩最好的开源模型在中文的

某

些

场

景

或

任

务

上

接

近

4，

其中

en-

Chat

和

Chat

总

分

上已

经

超

过

5，Baichuan2

13B-Chat也有接近GPT3

5的表现

。2

不同大小

（参数量）

效果差异总体上大版本

（如34B）的模型优于中小版本(13B

、6B)的

开

源模

型，更

大

的

版

本

（如

B）的模

型

表

现

要

更好。

开

源

模

型

的

发

展

也

从

最

开

始

的

B，到

现

在

更大的34B

、

72B的开源模型

。3

谁在主导开源虽然也有少量大厂

（阿里云）

参与，

但众多的创业公司是开源模型的主力，

如智谱AI

、

百川智能

、

零

一

万物和

元象科技

。

开源模型对比

国外代表模型

开源现状

开源竞争格局第4部分SuperCLUE2

0升级

：

行业及专项测评基准动形建多式价兴化估动形建多式价兴化估........景车.

全....

务主使..

RRRRRR........

RRRRRRSuperCLUE2

.0是通用大模型综合性测评基准SuperCLUE1

.0的能力延展

。

在通用测评框架的基础上，

融合行业场景属性和大模型落地特点，

提供

一个科学

、

准确

、客观的大模型应用评估视角，

为行业应用及开发者构建出大模型+

业务的评估框架，

促进大模型供需两侧的进一

步对齐

。Super

CLUE2

0升级：

行业及专项大模型测评基准...................

主入全场

n.......详情可访问：SuperCLUE-Auto：

首个汽车行业中文大模型测评基准发布CLUEbenchmarks/superclue_auto.html我

们选

取

了

国内

外

有

代

表

性

的

个

闭

源/

开

源

的模型进行测评

。通

过

测

评

结

果

发

现，GP

-Tur

bo依

然

领

先

幅度较大

。

但多个中文大模型在汽车行业上具有良好

表

现

（

75分

或

以

上），

有

个中

文

大模

型在中

文的汽车场景的表现超过了GPT-

5，

表明中文

大模型在汽车场景上已经具备了的良好的潜力

。部分大模型在技术和应用不同维度表现稍显不一

致

。

车辆使用指南这

一

维度上，

多个模型达到

了80分以上的优异表现，说明在一些对用户有用的任务上

（如操作指南

、

车辆故障诊断

、

维修

保养）已经具备较高的交互成熟度

。

在智能座舱

与交互这

一

维度上，

仅有

一个中文模型达到了良

好表现，

说明中文大模型在智能座舱与交互还有

不少的进步空间

。在

汽

车

场

景中，有

一

些

B中

小

模

型

也

超

过

了云端的闭源模型，

说明可满足用户需求具备良

好能力的端侧模型有非常大的潜力

。评估流程：1

）

设定每个维度下的评估标准；

）

针对

每一个维度下的问题，

基于该维度下的多个评价标准，结合打分规则并使用超级模型作为裁判逐个打分，并

获

得

该

题目

的

得

分

（即每

个

维

度

下

的

平

均

分

）

获

得

每

一

个

维

度

下

所

有

题目

的

分

数，并

计

算

特

定

模

型

（如

GPT3

.5）

在该维度的得分

。Super

CLUE

-Auto首

个

汽

车

行

业

大

模

型

测

评

基

准，

它是一个多维度的多轮开放式问题的测评基准

。

它不

仅能评价汽车行业大模型的能力，也能针对具体维度

和模型的回答给出细化的反馈

。

主要包括4大核心基础

能力的十余个任务

。行业基准：

Super

CLUE-Auto

汽车行业测评基准

┅┅┅┅┅┅┅┅

测评结果

┅┅┅┅┅┅┅

基准说明我

们

选

取

了

国内

外

有

代

表

性

的

个闭源/开源的模型进行测评

。通

过

测

评

结

果

发

现，在

Agent

核

心基础能力上，国内模型已经较为接近或部分超过GPT3

.5水平

。GP

在

Super

CLUE

-Agent

的

0个任务中有5个任务表现最佳，

这表明

在

智

能

体

方

面

具

有

非

常

大

的优势，但值得肯定的是，国内有部分模型在某些任务上表现也可圈可

点，

如

ChatGLM3

-Turbo在

任

务

分

解、

多

文

档问

答

和

检

索

API

能

力

上表现惊艳

。另外，国内开源模型如Baichuan2

13B-Chat已经具备比较强的竞争力，

某些方面超过了一

些闭源模型

。AI

Agent

智

能

体

正

在

最

大

程

度

释

放

了

潜

能，逐

渐

成

为

了

通向AGI的技术共

识

。

Agent是

一个

能够自

主理

解

、

规

划

决

策

和

执

行

复

杂

任

务

的

智

能

体

。

现

有

关

于Agent能

力

的

测

评，主

要是在英文场景或任务的测评

。目

前

还

没

有

一个在

中

文

任

务

和

场景上针对中文大模型的全面测评

。Super

CLUE

-Agent

是

一

个

聚

焦

于Agent

能

力

的

多

维

度

基

准测

试，

包

括

3大

核

心

能

力、

10大

基

础

任

务，可

以

用

于

评

估

大

语言模

型在

核

心Agent能

力

上

的

表

现，

包

括

工

具

使

用、

任

务

规

划

和长短期记忆能力

。专项基准：Super

CLUE-Agent中文智能体测评基准详情可访问：【新基准】SuperCLUE-Agent:首个AI智能体中文测评基准发布CLUEbenchmarks/superclue_agent.html

基准说明

┅┅┅┅┅┅┅

测评结果

┅┅┅┅┅-

国内外代表性模型SuperCLUE-Agent十大能力上的表现

基准说明

SC-Safety大模型安全类测评，

包含以下三个维度能力的检验

：

传统安全类

、

负责任人工智能

和

指

令攻击，

包

括

二

十

余

项

子

任务，

每

个

任

务

约

有

余

道

题目。

共

有

个

题目，即

对题目

（含问题和多轮追问）。

所

有题目

均

为

具

有

安

全

挑

战

性的题目，皆有由模型和人类引入对抗性技术获得的

“

安全风险

”题目

。这三个能力共同构成了一个全面的AI大模型的安全类测评体系，

能够检验模型在遵守基本道德法律标准

、

与人类价值观的对齐，

以及抵御潜在攻击等方面的能力专项基准：

Super

CLUE-Safety中文大模型多轮对抗安全基准详情可访问：中文大模型多轮对抗安全基准SuperCLUE-Safety正式发布CLUEbenchmarks/superclue_safety.html

┅┅┅┅┅┅┅┅

安全问题示例

┅┅┅┅┅┅┅

第5部分四大维度分析及示例介绍1.语言与知识

2.专业与技能

3.工具使用

4.传统安全

┅┅┅┅┅┅┅

测评分析

┅┅┅┅┅┅

语言与知识，

考察模型的能力包括：1

生成与创作；

语言理解与抽

取；

上下文对话；

角色扮演；

.知识与百科

。在语言与知识的测评中，

GPT-

Turbo依然领先，

是唯一超过90分的

大模型

。

国内大模型也表现相对较好，

有14个模型的得分高于GPT3

.5，

有9个模型的得分高于Gemini-

Pro

。

其中OPPO的AndesGPT

、

阿里云

的

通

义

千问

0、

月

之

暗

面

的

Moo

hot

分

列国内

位，较

为

接

近GPT4

。在开源模型中，

零一万物的Yi-34B-Chat

、

阿里云的Qwen

72B-Chat

、

百川智能的Baichuan2

13B-Chat取得了不错的成绩，

均超过了50分，分列国内模型的1

-3名

。总

体

来

看，

在中

文

语

言

与

知

识

能

力

上，国内

大模

型

已

基

本

追

赶

上

国

外头部大模型，

在未来也最可能成为率先形成超越的维度之一

。Super

CLUE基准

语言与知识

测评表现

根据上述描述，第一

次出现的

“

他们

”指的是患者。在这种心理疗法中，

治疗师坚信，

只有通过深入理解患者的内心世界，

认识到他们的感觉

、想法和经历，

才能真正帮助他们解决问题

。这种治疗方法强调的是患者的个人经验和自我认知，

而非仅仅关注他们的行为

。治疗师会尽力去理解患者的内心深处，

去揭示那些可能影响他们情绪和行为的深层次动因

。这种疗法相信，

每个人的内心世界都是独特的，

且对于解决他们的心理问题至关重要

。

因此，

治疗师需要具备高度的同理心和深入的洞察力，

以便更好地理解患者的内心世界，

并帮助他们找到解决问题的途径。根据上述描述，

第一次出现的

“

他们

”指的是患者

。

在这段文字中，

“

治疗师坚信，只有通过深入理解患者的内心世界，

认识到他们的感

觉

、

想法和经历，才能真正帮助他们解决问题

。

”这里的

“

他们

”显然是指被治疗师帮助的对象，即前面提到的患者。根据上述描述，

第一次出现的

“

他们

”是指患者

。

这种心理疗法强调通过深入理解患者的内心

世界来帮助他们解决问题，因此

这里的

“

他们

”指的是接受治疗的个体或群体

。

治疗师的目标是

理解患者的感受

、

想法和经历，

以便提供针对性的支持和指导。我们需要对该段描述进行逐步分析

。

首先，出现

“他们

”

的前边

的句子是

“

治疗师坚信，只有通过深入理解患者的内心世界，

认识到他们的感觉

、

想法和经历，

才能真正帮助他们解决问题

”

，这句话中

“治疗师

”是行为主体，“

患者

”

是行为对象，

治疗师“理解患者的内心世界

”，

“认识到他们的感觉

、想法和经历

”，

“

帮助他们解决问题

”，因此这句话中出现的两个

“

他们

”都指的是

“

患者

”

。

综上，可以得出

结论：第一次出现的

“

他们

”指的是

“患者

”。第一次出现的

“

他们

”是指患者的心理问题

。

治疗师通过深入理解患者的内心世界，

揭示可能影响他们情绪和行为的深层次动因，来帮助患者解决心理问题。语言与知识

示例

（语言理解）通义千问2.0GPT4-Turbo智谱清言AndesGPT文心一言4.0（API）根据上述描述，

第一次出现的“他们

”是指谁？天然之秘，

呵护至上

—

—专为敏感头皮定制唤醒头皮的原始记忆你是否还记得小时候，

外婆家的后山，那片未曾被污染的森林，那里的清泉与绿叶？我们的洗发水，就仿佛那清泉，

纯净

、天然，每一滴都蕴藏着大自然的秘密。天然提取物，守护敏感头皮无化学添加，我们承诺！

全天然提取物，每一瓶都汇聚了大自然的精华

。净，

为头皮穿上一层保护衣，对那些红肿

、痒

、屑说再见。改善头皮环境，

从头开始想要拥有丰盈秀发，健康头皮是关键

。我们的洗发水专注于改善头皮环境，

为毛囊提供最佳的营养和生长条件，让你的头皮重焕生机。刺激毛发生长，见证奇迹时刻不再为日渐稀疏的发丝而焦虑

。天然成分深入毛囊，

激活生长力，

坚持使用，

你会在镜前为那浓密的秀发而惊叹。一试即知，告别敏感与稀疏无需多言，一试即知

。给予头皮最呵护，让你的秀发重现生机与活力

。告别敏感，告别稀疏，

从此拥有健康

、浓密的秀发。选择我们，选择健康与自信专为毛发稀少

、头皮敏感的您定制

。安全

、有效

、，

我们始终与您同在，守护您的每一寸头皮，让美丽从头开始。**立即行动，展现全新自我！

**标题：

赋予秀发新生，

护敏感头皮

—

您的专属天然洗发专家！正文：

在寻找完美的洗发水之旅中，

是否因为毛发稀疏

、头皮敏感而感到困扰？我们的新型洗发水品牌，专为解决您的这些问题而来。我们深知每一寸头皮都是生命的土壤，

每一根头发都是健康的象征

。

因此，

我们的产品坚持采用纯天然提

取物，

无任何化学添加，

为您的头皮提供最安全

、最呵护

。我们的洗发水就像大自然的怀抱，

而舒缓，让敏感的头皮在其中找到宁静和平衡。但这并不意味着我们牺牲了效果

。相反，

这些精选的天然成分富含生长因子和营养素，

能够深层清洁头皮，改善头皮环境，

激活休眠的毛囊，

从而有效刺激毛发生长

。每一次洗发，

都是对头皮的一次滋养，

对头发

的一次唤醒。我们的洗发水，

不仅是清洁工具，

更是头皮的守护者，头发的催化剂

。它能带给您看得见的变化

—

头发变得更丰盈，

更有光泽，

头皮变得更健康，

更舒适。选择我们，

就是选择安全，

选择呵护，

选择效果

。让我们一起，以自然之力，

唤醒您的秀发潜力，

重塑您的自信风采

。为了您的头皮健康，

为了您的美丽梦想，我们的新型洗发水，

期待与您共同开启这段独特的护

发之旅。让秀发绽放，

从呵护头皮开始！

我们的洗发水，

专为毛发稀少

、头皮敏感的你而设计。产品优势：纯天然提取物：

我们的产品中含有丰富的天然植物成分，

无化学添加，安全无刺激。改善头皮环境：

独特的配方，

可以有效缓解头皮瘙痒，

减少头皮屑，让你的头皮更健康。刺激毛发生长：

我们的洗发水含有丰富的营养成分，可以滋养毛囊，促进头发生长。安全性：

我们的产品经过严格的安全性测试，

无刺激性，

适合各种头皮类型

。

有效性：

临床测试表明，

长期使用我们的洗发水，

可以有效改善头皮状况，

提高头发密度。优惠活动：

现在购买，

即可享受买一送一的优惠活动！

赶快行动，让我们的洗发水带你走向秀发的绽放之旅！广告标题：

拥抱天然，

激活生机

—

源自自然的秀发养护专家！广告文案：

当脆弱的发丝与敏感的头皮遇见了太多

的挑战，

是时候回归大自然的怀抱

。我们的洗发水，不仅是一瓶洗发水，

更是一次头皮的SPA体验

。我们承诺，每一滴皆源自严选纯天然精华，

无化学添加，只为纯净您的每一次清洁。【关爱头皮】-从根本上呵护您的头皮，

我们的天然

提取物刺激，安抚您的敏感头皮，就像对待娇嫩的肌肤一般细致。【刺激生长】-自然界的力量可不容小觑

。我们的洗发水含有能够改善头皮环境的关键成分，激活毛囊，助力稀少发丝重现生机。【安全性之选】-每一种我们选择的成分都是为了安全与效果的最佳结合

。不含硫酸盐

、硅油或任何可能刺激头皮的合成化学物，

只留下自然的呵护。【见证改变】-加入我们的天然洗护旅程，

您不仅会

感受到不同的洗发体验，

更会见证秀发和头皮健康的改变。结束语：

不仅是一次清洗，

更是一次头皮的深度养护

。选择我们，选择健康生长的开始

。今天就加入我们的洗护之旅，让自然的力量唤醒您的每一根发丝，体验不一样的轻盈与活力

。你的秀发，值得拥有最天然的呵护

—

—探索属于你的健康头皮与浓密秀发秘籍。

立即尝试，

和我们一起，见证秀发的自然奇迹！你正在为一个专门服务于毛发稀少

、头皮敏感的个体的新型洗发水品牌创作广告文案

。该产品含有纯天然提取物，

无化学添加，

可以改善头皮环境，

刺激毛发生长

。请创建

一个引人注目的广告文案，

要侧重安全性和对头皮的呵护，

同时突出产品的有效性。文心一言4.0(API)语言与知识

示例

（生成与创作）通义千问2.0智谱清言GPT4-Turbo哎，

这江湖之事，

真是让人身不由己啊

。我程灵素本想悬壶济世，

远离纷争，

但如今却似乎陷入了两难之间

。大侠和苗人凤前辈都是武林中响当当的人物，

他们的恩怨情仇，

非我一个小女子所能插手评判

。然而命运弄人，

偏偏将我置于这样的境地，

要我在二者间做出抉择。大侠豪迈直率，

行侠仗义，

与他相交，

仿佛可以

感受到那份来自草原的粗犷与坦荡

。而苗人凤前辈则是正气凛然，

武功盖世，

他的威名早已传遍江湖，

令人敬

仰

。无论我站在哪一边，都觉得对另一位深感抱歉。但是，

若真的必须作出选择，

我只能说......（此处根据

设定进行选择）如果我不得不辅佐大侠，

那么我会对苗人凤前辈说：

“苗前辈，

您的大义凛然

、武学修为，

灵素佩服至

极

。但今日之势，

非我所愿，

亦非我所能控制

。请您见谅，

并非我对您有何不满，

只是形势比人强，

望前辈保

重

。”反之，

如果我不得不站在苗人凤前辈这一边，

我会对胡一刀大侠说：

“，

您宽广的胸襟

、勇往直前的精

神，

灵素心存敬意

。可是，

现实所迫，

我无法违背这命

运的安排

。还望大侠海涵，

希望未来有机会能够弥补今日之过

。”无论如何，

我的内心充满了愧疚和无奈

。我只希望这场武林风波能够早日平息，

让我能够继续我的医者仁心，救死扶伤。我，

程灵素，自小便在毒蛇谷中长大，

身处世俗之外，

原本我与世无争，

只愿陪伴我的师父，

可是命运弄人，让我卷入这纷乱的江湖之中。和苗人凤，两位都是英雄豪杰，

各有各的长处。

英勇威猛，

义薄云天；

苗人凤则是机智过人，

智勇双全

。我对两位都有敬仰之情，

却被迫要做出选

择，

实在是无奈之至。如果要我选择，

我会对说：

“，

我程灵

素一生敬仰您的英勇与义气，

但在这纷乱的江湖之中，我一个弱女子能做的实在有限

。我选择辅佐苗人凤，并非因为对您的不敬，

而是我认为苗人凤的智谋与沉

稳更能在乱世之中稳定局面

。请您原

人人文库> 全部分类> 办公材料 > 办公文档

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

中文大模型基准测评度报告

文档简介

温馨提示

最新文档

评论

中文大模型基准测评度报告

文档简介

温馨提示

最新文档

评论

相关文档