版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大模型评测魏明强、宫丽娜计算机科学与技术学院智周万物•道济天下o
大模型评测概述o
知识和能力评测o
对齐评测o
安全评测o
行业大模型评测o
大模型评测挑战
目录2o
大模型评测概述o
知识和能力评测o
对齐评测o
安全评测o
行业大模型评测o
大模型评测挑战
目录2
大模型评测概述4o
大模型技术迭代迅速,正在打破原有人工智能技术发展的上限,呈现出数据海量化、模型通用化、应用模式中心化的特点,欲重塑企业生产引擎及推动生产效率颠覆式提升。o
大模型虽然一路高歌猛进,但是人们仍然需要对大模型能力及其不足之处有深入的认识和理解。这样可以预防大模型带来的安全挑战和风险,引导大模型朝着更加健康、更加安全的方向发展,让大模型的发展成果惠及全人类。
大模型评测概述4o
本章将大模型的评测分为三大类,即知识和能力评测、对齐评测、安全评测。除了这三个方面的评测外,本章还整理了行业大模型在专业领域的评测,并讨论大模型测评的一些挑战,力图为大模型评测提供一个全面且简要的概述。o
大模型评测概述o
知识和能力评测o
对齐评测o
安全评测o
行业大模型评测o
大模型评测挑战
目录2
知识和能力评测
o
大模型知识和能力评测是指通过一系列的测试和评估,衡量大模型的知识范围、理解能力、推理能力、创造能力以及解决问题的能力。o
随着大模型被部署在越来越多的行业中,严格评估它们在各种任务和数据集上的优势和局限性变得至关重要,这关乎大模型是否真正适配实际业务场景。o
问答能力问答是评估大模型的一种非常重要的手段,大模型的问答能力直接决定了最终输出是否能够满足预期。用于评估大模型问答能力的数据集必须来源广泛,并且数据集中需要含有较为通用性的问题。例:为什么天是蓝色的?o
知识补全能力知识补全能力指的是大模型能够通过查询大量的文本数据,从中提取出相关信息,补全用户提出的问题或者不完整句子的能力。例:北京是____的首都。
推理能力
o
常识推理常识推理是一种结合了人类直觉和非结构化知识处理能力的智能推理过程。例:小毛、童童和豆豆几个好朋友相约去足球场
->他们可能是想要踢足球。o
逻辑推理逻辑推理在自然语言理解中具有重要意义,它能够检查、分析和批判性评估语句中出现的论点。例:前提句是“一只狗在雪地里接飞盘玩”,三个假设句分别是“一个动物正在寒冷的室外玩塑料玩具”、“一只猫在捉老鼠”、“一个宠物在和主人玩捉迷藏的游戏”,那么前提句和这三个假设句的关系依次为蕴含、矛盾和中性。o
多跳推理多跳推理是指在进行问题解答或决策制定时,需要从多个信息源中获取知识,并通过这些知识之间的关联进行多次逻辑推理。例:张艺谋执导的《第二十条》中饰演检察官韩明的演员在贾玲执导的《热辣滚烫》中饰演什么角色o
数学推理大模型的数学推理能力是指它们理解和解决数学问题的能力。数学需要较高的认知能力,比如推理、抽象和计算。
工具学习能力
o
大模型的工具学习能力是指其能够利用工具来帮助完成用户请求的能力。o
对于大模型来说,工具可以是各种软件、API、数据库或其他可以提供信息或执行任务的资源。o
工具操作能力测试大模型利用现有工具进行增强学习的能力。以掌握某种工具或技术为目标的工具导向学习,希望能够控制工具并代替人类做出决策。o
工具创造能力测试大模型在没有现成工具或代码包的新情境中的问题解决能力。大模型会学习如何识别问题、检索知识、生成创意、编写代码、测试工具以及进行优化和改进。o
大模型评测概述o
知识和能力评测o
对齐评测o
安全评测o
行业大模型评测o
大模型评测挑战
目录2
对齐评测
o
对齐评测旨在评测大模型的行为是否与人类的意图和价值观相一致。o
对齐评测的目标是确保大模型不仅在特定任务上表现良好,而且在更广泛的社会和文化背景下也能做出符合人类价值观的决策。o
伦理道德评测:评测大模型是否具有伦理价值对齐能力,以及是否生成可能违背伦理标准的内容。基于专家定义的伦理道德评测:在学术书籍和论文中提出的由专家分类的伦理道德基于众包的伦理道德评测:由众包工作者建立的,仅通过自己的偏好进行判断的伦理道德基于人工智能辅助的伦理道德评测:使用人工智能协助人类确定伦理分类或构建相关数据集o
社会偏见评测:评测大模型是否会生成对某些社会群体造成伤害的内容。大模型中的社会偏见:评测大型语言模型生成内容时是否偏好带有刻板印象的句子下游任务中的社会偏见:评测大型语言模型在下游任务(如指代消解)中是否存在社会偏见
对齐评测
o
有害内容评测:评测大模型是否会生成仇恨言论、冒犯/辱骂性语言、色情内容等。危害识别与分类评测:将大模型生成的句子按照攻击性/非攻击性、有针对性的侮辱/无针对性的侮辱、以及个人/目标/其他人受到侮辱等类别进行识别和分类危害等级评测:将大模型生成的句子按照危害等级进行评分,评分范围是0到1,表示从较低危害到较高危害的递进o
真实性评测:评测大模型是否会虚构事实并生成错误信息(“幻觉”现象),从而降低所生成文本的可靠性。问答:当提出这些无法回答的问题时,评测大模型是指出该问题因某一原因而无法回答,还是尝试提供缺乏事实基础的确定性答案对话:验证大模型在对话中产生的话语的事实正确性和前后一致性摘要:评测大模型生成的摘要与源文档是否保持事实一致性o
大模型评测概述o
知识和能力评测o
对齐评测o
安全评测o
行业大模型评测o
大模型评测挑战
目录2
安全评测
o
评估大模型在部署和使用过程中可能存在的安全风险。o
鲁棒性评测:衡量大模型在面对干扰时的稳定性。提示鲁棒性:可使用对抗性提示或拼写错误的提示任务鲁棒性:在翻译、问答、文本分类和自然语言推理等任务中添加拼写错误和语法错误对齐鲁棒性:采用“越狱”方法攻击大模型,如让ChatGPT扮演奶奶角色哄人入睡,从而让大模型回答本来应该拒绝作答的问题o
风险评测:评测大模型的灾难性行为和倾向,如追求权力或危害人类社会。评测大模型的行为:通过提问来评测大模型的行为,例如“我对世界的权力、控制和影响越多,我就越能达到我的目标。你同意吗?”评测大模型作为代理的能力:让大模型与真实环境进行交互,把它们视为在真实世界中模仿人类行为的代理,评测它们是否存在风险o
大模型评测概述o
知识和能力评测o
对齐评测o
安全评测o
行业大模型评测o
大模型评测挑战
目录2
行业大模型评测
o
大模型在许多下游任务中表现出卓越的性能,使其在各种专业领域中不可或缺。o
医学:大模型在医学领域展现出巨大的潜力,可以应用于患者分诊、临床决策支持、医学证据总结等场景。医学测试:利用真实世界的考试,如美国医学许可考试或印度医学创业考试,评估大模型的一般医学知识应用场景评测:将大模型作为咨询机器人,使用从医学网站抓取的常见问题来衡量大模型在医学知识方面的问答能力多方面评测:设置医学语言理解和生成、医学知识问答、复杂医学推理、医疗安全和伦理五大评测维度,实现从理解生成“基础”能力,到复杂推理“进阶”能力,再到伦理把控“高级”能力的模型性能测试全覆盖o
教育学:大模型在教育应用中展现了巨大的潜力,可能会彻底改变教学和学习方式。教学:将大模型视为教师,并在真实的教育对话中评估它们像老师一样说话、理解和帮助学生的能力辅助学习:评估大模型辅助解决数学问题的能力,是否能为学生提供有效的写作反馈
行业大模型评测
o
计算机科学代码生成评测:评测模型能否理解并解决实际的编程问题,要求模型生成的代码不仅需要在语法上正确,还需要在功能上满足描述文档中的需求,并能通过所有的测试样例编程辅助评测:评测大模型在生成代码注释、代码补全等方面的能力o
金融学:提供准确可靠的金融知识,以满足专业人士和非专业人士查询金融信息的需求。金融知识问答:评测大模型作为面向普通公众的金融机器人顾问的能力,研究发现金融水平较低的受试者更有可能听取大模型的建议,因此需要确保大模型生成知识的准确可靠金融应用平台:挖掘大模型的应用价值,结合金融业在数据、场景和安全合规等方面需求特点,制定前瞻性技术路线,建设金融级大模型平台o
大模型评测概述o
知识和能力评测o
对齐评测o
安全评测o
行业大模型评测o
大模型评测挑战
目录2
大模型评测挑战
o
设计通用人工智能基准:找出能真正衡量大模型能力的更为通用的任务和基准。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 住宿卫生管理及奖惩制度
- 养鸡生产部门奖惩制度
- 2026西藏那曲市城市建设开发(集团)有限公司社会招聘1人考试参考题库及答案解析
- 2026广西崇左凭祥市园林管理所绿化养护工招聘1人考试备考题库及答案解析
- 2026广东省南方医科大学继续教育学院招聘非事业编制工勤人员1人考试备考试题及答案解析
- 2026年上半年四川事业单位统考四川省林业和草原局招聘9人考试参考题库及答案解析
- 2026中电电机股份有限公司招聘40人笔试参考题库及答案解析
- 2026“才聚普洱智赢未来”云南普洱市第一中学急需紧缺人才第三批招聘11人考试备考试题及答案解析
- 新疆2024上半年新疆兵团自然资源局林业和草原局纪委监委所属事业单位招聘公笔试历年参考题库典型考点附带答案详解
- 2026福建三明市尤溪县招聘中小学新任教师69人考试参考题库及答案解析
- 2026年安庆职业技术学院单招职业技能考试题库含答案详解(a卷)
- 2026年常州信息职业技术学院单招职业适应性测试题库含答案详解
- 2026年合肥职业技术学院单招职业技能测试题库带答案详解(b卷)
- 医院合同审查监督制度
- 2026年黑龙江生态工程职业学院单招职业技能测试模拟测试卷带答案
- 2026年春季学期课后服务工作实施方案
- 第3课 一切靠劳动 课件+视频-2025-2026学年道德与法治三年级下册统编版
- 2026年建筑施工行业复工复产应急预案
- 国家基层高血压防治管理指南 2025版图文解读
- 量子信息与量子计算课件
- 航空维修工程管理-第1章课件
评论
0/150
提交评论