大模型基准测试体系研究报告（2024年）

上传人：草*** IP属地：云南上传时间：2024-07-23 格式：DOCX 页数：79 大小：771.17KB 积分：20 举报 版权申诉

已阅读5页，还剩74页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1 2 4 9 17 20 23（一）“方升”大模型基准测试体系 23（二）“方升”自适应动态测试方法 27（三）“方升”大模型测试体系实践 30 35 35 36 36 5 6 7 8 9 24 27 28 6 40 41 411一、大模型基准测试发展概述2一种经典的人工智能测试方法，一直被认为是衡量机器智能水平的theTuringtest—theraceisonfornewwaystoassessAI》，指出图灵能水平。大模型基准测试（Benchmark）的目标是通过设计合理的测试任（一）大模型基准测试的重要意义模型研发迭代周期正在缩短，OpenAI在一年时间内先后发布驼”开源大模型生态圈。在如此高的迭代频率下，大模型基准测试可3而应该作为起点驱动模型开发。构建以能力提升为目标的评估立“开发-部署-应用-测试”的闭环流程将缩短产品迭代周期。注的话题。国外大模型榜单OpenLLMLeaderboard使用4个公开数模型（如GPT-4）对大模型进行评估，提升评测效率。国内的三是支撑行业应用。近期，“人工智能+”行动4（二）蓬勃发展的大模型基准测试HELM和HEIM、上海AI实验室的OpenCompass、北京智源5 6%7%53%21% 6%7%53%21%6数量（个）数量（个）0年份（年）集，并主要针对大模型的英文能力进行测试。对于多模态大模型，□□□□□□□GPT-4LlaMA2LlaMA3GeminiClaude3Mixtral8x7BGLM4√√√√√√√√√√√√√ARC√√√√√√HumanEval√√√√√√√√√√√√√√√√WinoGrande√√√√√√√√√7√√√√√√√√√√√√AGIEval√√√√√√NQ√√√√√√√√艾伦人工智能研究所（AI2）由于在传统自然语言处理数据集上的贡数量数量86420发布机构8差距明显。9未开源未开源31%（三）大模型评测发展共性与差异准，而近期面向行业和应用的评测数据集已得1除了上述共性外，大模型基准测试数据集也表现出一定差异性，模型的训练可分为预训练、监督式微调、强化学习训练等几个阶段，1二、大模型基准测试现状分析（一）大模型基准测试体系总体介绍-任务-指标>四层结构进行构建。测试场景定义了待测试模型的外在11智能等应用中的效果。代表性的评测数据集如附录表3所示，包括大模型基准测试方法的研究主要集中在大模型的整体评测流程求进行全面和准确的覆盖，有助于确保测试活动的有效性和高效111现有研究尝试将大模型作为自动化结果评估工具来对其它模型withLanguage-Model-as-an-Examiner》等论文结果，这裁判网络来提升评估效果。中科院在论文《Wideranddeeperllm1基准测试工具在测试数据集构建和测试结果评估阶段仍然需要人工来源：《LLMeBench:AFlexibleFrameworkforAcceleratingLLMsBe（二）代表性的大模型基准测试体系1来源：《HolisticEvaluationofLanguageModels》HEIM（HolisticEvaluationofText-to-ImageModels）是由斯坦福12大能力客观题评测、琅琊榜匿名对战基准、Agent智能体能力评估、2drivingCornerCases》，重点对多模态模型在自动驾驶“边缘场景”2型的排名上有明显的差异。在清华大学发表的论文《Understanding试数据容易被包含在训练数据中进行训练，造成数据“污染”问题。产学研各界需要研究数据“污染”的检测手段，降低大模型“刷榜”2三、大模型基准测试体系框架系、测试方法、测试数据集和测试工具四个维度出发，构建“方升”（一）“方升”大模型基准测试体系的行业能力测试（Industry-OrientedTesting，IOT）、应用能力测试2测试体系除了对大模型的指标体系进行科学化设计，还对测试方法、测试数据集和测试工具提供规范化的建设思路。在指标体系中，“方升”测试体系除了关注通用能力和安全能力，还重点考察大模型在行2解能力、生成能力、推理能力、知识能力、学科长文本能力、思维链能力、角色扮演能力、工具“方升”测试体系在大模型行业测试（IOT）领域进行重点布局，已针对多个重点行业中的典型应用场景进行梳22（二）“方升”自适应动态测试方法“方升”测试体系中的指标部分通过对大模型测试领域和指标的动态测试数据库主要解决大模型测试“刷榜”和评测数据“静态化”问2据进行“标签化”处理，完成测试数据精准“画像”。如图13所示，“方升”测试体系中的测试数据会赋予特定的“测试标签”，例如所属数据多维度的数据标签刻画，充分提升测试数据的准测试的“门槛”。测试人员在实际测试时，可以参照“方升”测试体系“自顶至下”依次在“行业”、“应用”和“通用”中选择需要的测试2“方升”测试体系可以根据用户的选择自动化推荐测试所需的“数据”题库中已有题目“生成”出一些评测题目，从而防止大模型通过“刷题”和“记题”等方式提升模型表现。智能算法生成常利用高质量提示域全面，但测试的成本高、周期长。并且如果大3（三）“方升”大模型测试体系实践33内商业大模型。所评测开源大模型中既包含国外大模型LLaMA2、3 Vicuna-7B3四、总结与展望（一）形成面向产业应用的大模型评测体系3

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大模型基准测试体系研究报告（2024年）

文档简介

温馨提示

最新文档

评论

大模型基准测试体系研究报告（2024年）

文档简介

温馨提示

最新文档

评论

相关文档