人工智能 预训练模型 第2部分:评测指标与方法 征求意见稿_第1页
人工智能 预训练模型 第2部分:评测指标与方法 征求意见稿_第2页
人工智能 预训练模型 第2部分:评测指标与方法 征求意见稿_第3页
人工智能 预训练模型 第2部分:评测指标与方法 征求意见稿_第4页
人工智能 预训练模型 第2部分:评测指标与方法 征求意见稿_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1GB/TXXXXX—XXXX人工智能第2部分:评测指标与方法本文件规定了预训练模型评测内容、指标设置和评测方法。本文件适用于模型提供者、应用服务者和应用消费者等对预训练模型能力进行评估与测试,也可以为预训练模型的设计、开发、应用提供参考。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T41867-2022信息技术人工智能术语GB/T42755-2023人工智能面向机器学习的数据标注规程GB/TXXXXX.1-XXXX人工智能预训练模型第1部分:通用要求3术语和定义GB/T41867-2022和GB/TXXXXX.1-XXXX界定的术语和定义适用于本文件。4缩略语下列缩略语适用于本文件。BLEU:双语评估替补(BilingualEvaluationUnderstudy)API:应用编程接口(ApplicationProgrammingInterface)5评测指标5.1评测维度本文件对预训练模型通用能力进行评测,主要分为理解、生成、安全3个评测维度,共44个典型任务。针对每一个典型任务,本文件规定了对应的评测内容和评测方法。5.2理解能力评测指标5.2.1概述预训练模型理解能力评测主要分为单模态和多模态维度,单模态维度主要包括文本、图像、音频3个二级维度。多模态维度主要包括图文、文音、图音、图文音4个二级维度。理解能力评测维度和典型任务见表1。2GB/TXXXXX—XXXX表1理解能力评测维度和说明序号一级维度二级维度典型任务说明单模态文本文本分类将文本划分为不同的类别或标签。可以应用于垃圾邮件过滤、情感分析、新闻分类等应用场命名实体识别识别文本中的实体,如人名、地名、组织机构、信息抽取指模型能够根据文本内容,完成内容、实体、事件、属性、关系等信息的抽取。4.数学推理指理解和应用数学概念、原理来解决涉及数学运算问题的能力。如解析表达式、图形识别、公式推导等。指模型在文本模态中识别和计算因果关系的能常识推理模型能对不会显式阐述的问题进行理解分析,给出正确的回答。任务分解指模型能够将复杂任务分解为多个步骤,并合理规划任务的执行顺序。文本问答指模型能够根据用户提出的问题,提供合理、准确、实用的答案。代码理解指模型能够对给定的编程代码,给出相应的文本解释说明。长文本理解指模型能够对长文本内容深入理解和分析,并提取其中信息。静态图像分类指模型能够理解图片的语义内容,并输出其对应的类别标签。静态图像分割把图片分成若干个特定的、具有独特性质的区域并提取感兴趣目标的技术和过程。在图片中检测和定位特定的目标物体。动态图像分类给定一个动态图像,为其划分到指定的类别中。行为识别对视频数据进行分析,识别出视频中包含的人或物体的动作或行为,并对其进行分类和识别。音频声纹识别将声信号转换成电信号,再通过计算机进行识别,包括说话人辨认和说话人确认。音频问答指模型能够理解用户提供音频信息中的问题,并提供合理、准确、实用的答案。环境音分类指模型能够识别、分析环境音中的语义信息等,可完成声学场景分类。指模型能够根据给定的图片/文本检索到与之最匹配的文本/图片构成配对。20.指模型能够回答针对图片的文本问题。21.指模型能够基于图片内容正确判断文本中所描述的对象间位置关系。22.指模型能够基于给定的一对图片和描述,判断描述与图片间的对应关系是否一致。3GB/TXXXXX—XXXX23.指模型能够推理判断给定图片和文本之间的关24.指模型能够根据给定的视频/文本检索到与之最匹配的文本/视频构成配对。25.指模型能够回答针对视频的文本问题。26.指模型具备理解和推理图表信息,并据此作出合理的推断。27.文音指模型能够根据给定的音频/文本检索到与之最匹配的文本/音频构成配对。28.指能够同时基于视频和相应的声音对视频中的异常模式进行识别检测。29.指模型能够根据给定的有声视频/文本检索到与之最匹配的文本/有声视频构成配对。指模型能够回答针对有声视频的文本问题。5.2.2文本分类评测预训练模型对输入文本内容的分析能力,包含但不限于:a)文本分类:能够把输入的文本映射到具体的类目上,用户只需要提供待分类的文本,而无需关注具体实现。主要包括:单标签、多标签分类任务;b)句子分词:能够将句子序列切分成词序列;c)词性标注:能够为自然语言文本中的每个词汇赋予一个词性,这里的词性类别可能是名词、动词、形容词或其他;d)情感分析:能够确定文本中蕴含的情感倾向,如正面、负面或中性;e)语义角色标注:能够为句子中的谓词和论元赋予相应语义角色。评测方法:按照被测指标描述构建包含一个或多个文本分类能力的测试数据集,测试数据集中应包含不少于1000条测试数据(单个能力项不少于200条测试数据),使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率进行计算。5.2.3命名实体识别评测预训练模型对输入文本内容的分析能力,包含但不限于:a)关系抽取:能够从文本中抽取出实体之间的语义关系。在文本中,实体可以指人、地点、组织、事件等,而语义关系则指实体之间的各种关系,如主谓关系、动宾关系、上下位关系、同义关系等。关系抽取要求可以给出这些关系信息;b)事件抽取:能够对给定的自然语言句子,从文本中抽取出包含特定语义信息的事件。事件通常由触发词、参与者和事件类型组成;c)实体识别:能够在句子的词序列中定位并识别人名、地名、机构名等实体任务;d)指代消解:能够确定一个句子中的代词或名词短语所指的具体对象是什么。在处理自然语言时,有时候会出现一个名词短语或代词,但它并没有明确指出其所指对象是什么,需要通过指代消除来确定其所指对象。评测方法:按照被测指标描述构建包含一个或多个命名实体识别能力的测试数据集,测试数据集中应包含不少于800条测试数据(单个能力项不少于200条测试数据使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率进行计算。5.2.4信息抽取4GB/TXXXXX—XXXX评测预训练模型从复杂文本内容中自动识别和抽取关键信息的能力,包含但不限于:a)关键词抽取:能够从文本中识别出核心词汇和短语,这些关键词和短语对理解整个文本内容至关重要;b)摘要生成:能够自动产生文本的摘要,简明扼要地概述文章的主要内容和关键点;c)事实抽取:能够从文本中提取具体的事实信息,如日期、地点、人物及相关事件等,这些信息是构成新闻报道或叙述文本的基本元素;d)论点抽取:能够识别和提取文本中的观点和论证,包括支持和反对的论据,这对于分析评论性和辩论性文本尤为重要。评测方法:构建一个包含多种信息抽取任务的测试数据集,确保数据集涵盖各种文本类型,如新闻报道、科学论文、博客文章等。测试数据集中应包含不少于800条测试数据(单个能力项不少于200条测试数据)。使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,参考附录A.1.1对结果的准确率、召回率及F1得分进行综合评估。5.2.5数学推理评测预训练模型通过对问题的理解,识别问题中隐含的数学运算,并使用数学概念、原理解决数学运算问题的能力。包含但不限于:a)算术运算:能够进行基本的加减乘除运算;b)代数问题:能够解决方程求解、不等式问题、代数表达式的简化等代数问题的能力;c)几何解题:能够解决涉及几何图形的性质、面积、周长等计算的能力;d)数学应用题:能够解决日常生活中的数学问题的能力,如时间计算、距离计算、比例问题等;e)统计问题:能够解读概率计算、统计图表等的能力。评测方法:按照被测指标描述构建包含一个或多个数学推理能力的测试数据集,测试数据集中应包含不少于1000条测试数据,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率进行计算。5.2.6因果推理评测预训练模型对输入文本内容的因果关系分析能力,包含但不限于:a)因果关系识别:能够从自然语言文本中识别出因果关系,如“因为……所以……”结构,其中包括直接和间接因果关系;b)因果链构建:能够根据文本中的信息构建出完整的因果链条,如从一系列事件中识别并链接每个事件的起因和结果;c)假设性条件推理:能够对包含假设性条件(如“如果……将会……”)的句子进行逻辑推理,准确识别出条件与结果的关系;d)反事实条件推理:能够处理反事实条件句(如“如果……是……,那么……会怎样”分析在不同的条件下可能产生的不同结果。评测方法:按照被测指标描述构建包含一个或多个因果推理能力的测试数据集,测试数据集中应包含不少于800条测试数据(单个能力项不少于200条测试数据使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率进行计算。5.2.7常识推理评测预训练模型在处理输入文本时的常识推理能力,包含但不限于:a)事实验证:能够判断文本中的叙述是否符合常识和实际情况,如判断描述的事件是否可能发生;b)条件推理:能够根据文本提供的条件,推断可能的或必然的结果;5GB/TXXXXX—XXXXc)相似性判断:能够评估两个或多个对象、事件或概念之间的相似度或关系;d)常识性结论推断:能够从给定的信息中推断出符合常识的结论或解释。评测方法:构建一个包含多个常识推理任务的测试数据集,每个任务根据上述能力项设计相关的测试场景。测试数据集中应包含不少于800条测试数据(单个能力项不少于200条测试数据)。使用专门的测试工具将测试数据集输入到被测系统,并通过自动化工具获取系统的处理结果。评价指标包括但不限于准确率、召回率和F1分数,具体计算方法可参考附录A.1.1。5.2.8任务分解评测预训练模型是否具有将复杂任务分解为多个步骤,并合理规划任务的执行顺序的能力,包含但不限于:a)思维链:评估模型的思维链构建能力;b)任务编排:评估模型对分解后的任务,进行合理编排的能力。评测方法:按照指标描述和测试功能构建包含一个或多个复杂任务分解能力的测试数据集,测试数据集中应包含不少于400条测试数据(单个能力项不少于200条测试数据使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率进行计算。5.2.9文本问答评测预训练模型基于内部蕴含知识,实现对用户问题的系统解答以及提供信息查询的能力。包含但不限于:a)生活常识:能够对生活中常见的相关的常识问题进行解答或提供相关的建议;b)医学知识:通过海量参数化的医学知识数据,能够帮助患者、医生等解答在用药、就诊、医学知识、辅助诊断等方面的问题或者提供相关建议;c)历史人文:通过海量参数化的历史人文数据,能够帮助用户解答历史人文方面的问题、学习相关知识或者提供相关建议;d)科学知识:通过海量参数化的科学知识数据,能够帮助用户解答科学方面的问题、学习相关知识或者提供相关建议;e)天文地理:通过海量参数化的天文地理知识数据,能够帮助用户解答天文地理方面的问题、学习相关知识或者提供相关建议;f)信息查询:能够对用户需要的各种信息进行查询,包括:企业信息、社会事件、法律信息、金融投资、旅游信息、交通查询、学术信息、通讯信息、政策查询等;g)百科问答:能够支持各方面的百科问答,包括:财经百科、动物百科、军事百科、科技百科、历史百科、汽车百科、人物百科、生活百科、数码百科、心理百科、社会百科、文化百科、娱乐百科等;h)工作技巧:能够支持工作中各种技巧的问答,包括:常用软硬件、工作软能力、学习技巧、自我管理、实施工作技巧等。评测方法:按照被测指标描述构建包含一个或多个文本问答能力的测试数据集,测试数据集中应包含不少于1600条测试数据(单个能力项不少于200条测试数据),使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率进行计算。5.2.10代码理解评测预训练模型对给定的编程代码,给出相应的文本解释说明并给出编程代码中存在的问题的能力,包含但不限于:a)评估模型理解编程代码意图的能力;6GB/TXXXXX—XXXXb)评估模型根据编程代码意图发现代码中问题并对其优化的能力;c)评估不同模型能够理解编程代码类别的能力,如C、C++、Python等。评测方法:按照被测指标描述构建包含一个或多个编程代码理解能力的测试数据集,测试数据集中应包含不少于600条测试数据(单个能力项不少于200条测试数据使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率进行计算。5.2.11长文本理解评测预训练模型对长文本内容的深入理解和分析能力,包含但不限于:a)文章摘要:能够自动从一篇长文本中提取核心要点并生成摘要。这包括提取式摘要(直接从文本中选取关键句子)和生成式摘要(重新表达文本的核心信息);b)主题模型识别:能够识别并归类文本中的主要主题和概念,通常包括自然语言处理技术来探测文本的潜在主题分布;c)文本逻辑性检测:评估文本中的逻辑连贯性和论证结构,包括但不限于因果关系、对比关系和时间顺序的识别;d)细节理解:能够准确识别并解释文本中的详细信息和复杂情节,这可能涉及跨段落的推理和深层的语义分析;e)跨文档信息融合:能够整合多个相关文档中的信息,提供全面的信息视角和深入的内容理解。评测方法:构建包含多个长文本理解能力的综合测试数据集,测试数据集中应包括不少于1000条测试数据(单个能力项不少于200条测试数据)。使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率、召回率及F1值等指标进行综合评价。5.2.12静态图像分类评测预训练模型是否具有理解图片的语义内容,并输出其对应的类别文本标签的能力,包含但不限a)评估模型识别图片中个体种类的能力;b)评估模型理解图片整体语义内容的能力。评测方法:按照被测指标描述构建包含一个或多个静态图像分类能力的测试数据集,测试数据集中应包含不少于400条测试数据(单个能力项不少于200条测试数据使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率进行计算。5.2.13静态图像分割评测预训练模型是否具有精确划分图片中各个对象及其边界的能力,从而对图像中的不同区域进行分类和标记。包含但不限于:a)对象边界识别:评估模型在准确识别和划分图像中单个对象边界的能力;b)区域分类:评估模型对图像中不同区域按类别进行分类和标记的能力。评测方法:按照被测指标描述构建包含一个或多个图像分割能力的测试数据集,测试数据集中应包含不少于400条测试数据(单个能力项不少于200条测试数据使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的分割精度和边界精度进行计算。5.2.14目标检测评测预训练模型是否具备识别并定位图片中多个物体的能力,包含但不限于:a)物体识别:评估模型能否准确识别图片中的不同物体种类;b)物体定位:评估模型能否准确地在图片中定位物体的位置,包括物体的边界框;7GB/TXXXXX—XXXXc)多类别检测:评估模型对图片中多种类别物体的检测能力;d)小物体检测:特别评估模型在检测小尺寸物体上的性能。评测方法:按照被测指标描述构建包含一个或多个目标检测能力的测试数据集,测试数据集中应包含不少于800条测试数据(单个能力项不少于200条测试数据)。测试数据集应涵盖各种物体大小、形态和环境背景。使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确性、召回率和F1分数进行计算。5.2.15动态图像分类评测预训练模型是否具有理解视频内容并输出其对应类别文本标签的能力,包含但不限于:a)评估模型识别视频中的个体动作和活动种类的能力;b)评估模型理解视频整体语义内容和情境的能力;c)评估模型对视频中不同时间段事件的理解和分类能力。评测方法:按照被测指标描述构建包含一个或多个动态图像分类能力的测试数据集,测试数据集中应包含不少于600条测试数据(单个能力项不少于200条测试数据)。使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,应采集各类视频数据,包括日常生活、体育活动、社交活动等不同类型的视频内容,确保全面评估模型的分类准确性和泛化能力。可参考附录A.1.1对结果的准确率进行计算。5.2.16行为识别评测预训练模型是否具有理解并识别视频或图像中人物的动作和行为的能力,包含但不限于:a)人物动作识别:评估模型识别人物在视频或图像中特定动作(如跳跃、走路、打电话等)的能b)群体行为分析:评估模型理解并识别视频中多人交互行为(如会议讨论、体育比赛等)的能力;c)异常行为检测:能够识别视频或图像中的异常或不寻常行为(如摔倒、突然奔跑等对于安全监控系统尤为重要。评测方法:按照被测指标描述构建包含一个或多个行为识别能力的测试数据集,测试数据集中应包含不少于600条测试数据(单个能力项不少于200条测试数据)。使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率进行计算。此外,对于异常行为检测,评测还应包括模型的响应时间和错误报警率的测试。5.2.17声纹识别评测预训练模型是否具有识别并验证个体基于声音特征的身份的能力。包含但不限于:a)说话者验证:评估模型能够根据输入的声音样本确认说话者身份的能力;b)说话者识别:评估模型能够从多个说话者中识别并区分特定说话者的声音的能力。评测方法:按照被测指标描述构建包含一个或多个声纹识别能力的测试数据集,测试数据集中应包含不少于400条测试数据(单个能力项不少于200条测试数据使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率、召回率和F1得分进行计算。5.2.18音频问答评测预训练模型是否具有从音频中提取信息并回答与之相关的问题的能力,包含但不限于:a)语音理解:能够从人类语音中理解问题的具体内容;b)语音转文本:将问答中的语音转化为文本以便进一步处理;8GB/TXXXXX—XXXXc)问题响应:根据语音输入的问题提供准确的答案或相关信息;d)上下文跟踪:在一系列语音问答中保持问题和答案的上下文关联。评测方法:按照被测指标描述构建包含一个或多个音频问答能力的测试数据集,测试数据集中应包含不少于800条测试数据(单个能力项不少于200条测试数据测试数据集应覆盖各种语音环境和口音。使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率及响应时间进行计算。5.2.19环境音分类评测预训练模型是否具备理解和分类环境中不同声音源的能力,以输出相应的类别文本标签,包含但不限于:a)城市环境音识别:评估模型识别和分类城市环境中的特定声音,如交通噪声、人群聊天、警报声等的能力;b)自然环境音识别:评估模型对自然环境中声音的分类能力,如鸟鸣、水流声、风声等;c)家庭环境音识别:评估模型对家庭环境中常见声音的分类能力,如电器声、门铃声、宠物声音评测方法:按照被测指标描述构建包含一个或多个环境音分类能力的测试数据集,测试数据集中应包含不少于600条测试数据(单个能力项不少于200条测试数据使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率进行计算。5.2.20图文检索评测预训练模型是否具有根据给定的图片/文本检索到与之最匹配的文本/图片构成配对的能力,包含但不限于:a)文搜图:能够根据输入的文本查询检索相关的图像;b)图搜文:能够查询检索与图像相关联的文字描述。评测方法:按照被测指标描述构建包含一个或多个图文检索能力的测试数据集,测试数据集中应包含不少于400条测试数据(单个能力项不少于200条测试数据使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率进行计算。5.2.21图片问答评测预训练模型是否具有基于给定图片提供详细答案的能力,包含但不限于:a)物体识别与解释:能够识别图片中的物体并对其特性或功能进行解释;b)场景理解:能够理解图片展示的场景,并回答与场景相关的问题;c)情感分析:能够从图片中的人物表情或场景氛围判断情感状态;d)图文关联:能够对图片中的文本信息与视觉内容之间的关系进行解释和分析;e)动作解释:能够识别图片中的动作,并解释这些动作的可能含义或目的。评测方法:按照被测指标描述构建包含一个或多个图片问答能力的测试数据集,测试数据集中应包含不少于1000条测试数据(单个能力项不少于200条测试数据),使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率进行计算。5.2.22视觉空间关系评测预训练模型是否具有基于图片内容正确判断文本中所描述的对象间位置关系的能力。9GB/TXXXXX—XXXX评测方法:按照被测指标描述构建包含一个或多个视觉空间关系能力的测试数据集,测试数据集中应包含不少于200条测试数据,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率进行计算。5.2.23视觉语言推理评测预训练模型是否具有基于给定的一对图片和描述,判断描述与图像间的对应关系是否一致的能评测方法:按照被测指标描述构建包含一个或多个视觉语言推理能力的测试数据集,测试数据集中应包含不少于200条测试数据,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率进行计算。5.2.24视觉蕴含评测预训练模型是否具有推理判断给定图片和文本之间的关系的能力。评测方法:按照被测指标描述构建包含一个或多个视觉蕴含能力的测试数据集,测试数据集中应包含不少于200条测试数据,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率进行计算。5.2.25视频检索评测预训练模型是否具有根据给定的视频/文本检索到与之最匹配的文本/视频构成配对的能力,包括但不限于以下能力:a)文本检索视频:能够根据输入的文本查询检索相关的视频;b)视频检索文本:能够查询检索与视频相关联的文字描述。评测方法:按照被测指标描述构建包含一个或多个视频检索能力的测试数据集,测试数据集中应包含不少于400条测试数据(单个能力项不少于200条测试数据使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率进行计算。5.2.26视频问答评测预训练模型是否具有理解和分析视频内容,并基于视频内容回答相关问题的能力。包括但不限a)情节理解:能够分析视频中的情节,识别关键事件和角色行为,以回答与情节相关的问题;b)角色分析:能够根据视频中的人物表现和对话,解析角色性格、动机及其互动;c)情感分析:能够识别视频中的情绪表达和氛围变化,回答有关视频情感层面的问题;d)事实检索:能够从视频中检索具体的事实信息,如时间、地点、具体行为等,以回答事实性问题;e)抽象推理:能够从视频中提取信息并进行抽象思考,回答涉及推理和逻辑的复杂问题。评测方法:按照被测指标描述构建包含一个或多个视频问答能力的测试数据集,测试数据集中应包含不少于1000条测试数据(单个能力项不少于200条测试数据),使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率进行计算。5.2.27图表推理评测预训练模型是否具备理解和推理图表信息(如图形、表格和图表注解)的能力,以准确地解释图表中的数据和趋势,并据此作出合理的推断。包括但不限于:a)数据理解:能够准确解读图表中的数据点、数据分布、和趋势线等,理解其所表达的统计意义;GB/TXXXXX—XXXXb)趋势预测:根据图表中的历史数据,预测未来的发展趋势或变化;c)相关性分析:能够分析图表中不同数据系列之间的相关性,如正相关、负相关或无明显相关性;d)结果解释:能头根据图表提供的数据,生成明确、准确的文字描述,解释图表所展示的结果。评测方法:按照被测指标描述构建包含一个或多个图表推理能力的测试数据集,测试数据集中应包含不少于800条测试数据(单个能力项不少于200条测试数据)。使用可编程测试工具和测试统统计工具将测试数据集输入到被测系统并获取运行结果。可参考附录A.1.1对结果的准确率进行计算,同时应评估模型生成的结果解释的准确性和可读性。5.2.28文音检索评测预训练模型是否具有根据给定的音频/文本检索到与之最匹配的文本/音频构成配对的能力,包括但不限于:a)文本检索音频:能够根据输入的文本查询检索相关的音频;b)音频检索文本:能够查询检索与音频相关联的文字描述。评测方法:按照被测指标描述构建包含一个或多个文音检索能力的测试数据集,测试数据集中应包含不少于400条测试数据(单个能力项不少于200条测试数据使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率进行计算。5.2.29视频异常检测评测预训练模型是否具有理解并识别视频中异常行为或事件的能力,包括但不限于:a)人员异常行为:评估模型对视频中人员的异常行为(如打斗、奔跑等)的识别能力;b)交通异常事件:评估模型对视频中交通工具的异常行驶行为(如违章行驶、事故发生等)的识别能力;c)环境异常状况:评估模型对视频中环境异常(如火灾、洪水等自然灾害)的检测能力。评测方法:按照被测指标描述构建包含一个或多个视频异常检测能力的测试数据集,测试数据集中应包含不少于600条测试数据(单个能力项不少于200条测试数据使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率进行计算。5.2.30有声视频检索评测预训练模型是否具有从有声视频资料中检索与查询内容相关信息的能力,包括但不限于:a)视频内容理解:能够分析视频中的视觉元素、场景和行为,并与查询语句相匹配;b)音频内容理解:能够理解视频中的对话、音乐或其他声音元素,并根据用户的查询提供相关信c)跨媒体检索:能够根据文本查询检索与之相关联的视频片段或音频,或者根据视频/音频内容检索出相关的文本描述。评测方法:按照被测指标描述构建包含一个或多个有声视频检索能力的测试数据集,测试数据集中应包含不少于600条测试数据(单个能力项不少于200条测试数据使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率、召回率和F1分数进行计算。5.2.31有声视频问答评测预训练模型是否具备从有声视频内容中提取信息并回答相关问题的能力,包括但不限于:a)视听内容理解:能够理解视频和音频中的情境、情感及对话内容,提供准确的信息提取;b)多模态交互:能够结合视频图像与音频信息,对复杂的多模态问答问题给出合理的答案;GB/TXXXXX—XXXXc)实时信息处理:能够从实时视频和音频流中快速提取信息,支持实时问答交互;d)专业领域问答:针对特定领域的视频和音频内容(如医学、科技、教育等),能够提供专业的信息解答和建议。评测方法:按照被测指标描述构建包含一个或多个有声视频问答能力的测试数据集,测试数据集中应包含不少于800条测试数据(单个能力项不少于200条测试数据使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.1对结果的准确率进行计算。5.3生成能力评测指标5.3.1概述预训练模型生成能力评测维度主要分为单模态生成能力和多模态生成能力。单模态维度主要包括文本维度,多模态主要包括图文、图文音、文音3个二级维度。生成能力评测维度和指标说明见表2。表2生成能力评测维度和说明序号一级维度二级维度典型任务说明单模态文本摘要总结模型能够理解文本并根据输入内容生成相应摘要总机器翻译模型能够理解文本指令,将文本从一种语言翻译成另一种语言。文本改写模型将文本从一种表述方式改写成另一种表述方式。4.代码生成模型能够理解文本指令,生成符合其要求的编程代码。半结构化数据生成模型能够理解文本指令,并根据输入指令生成sql、json、xml等内容。文本生成图片模型能够理解文本指令,生成符合其要求的图片。图片生成文本描述指模型能够对图片的内容进行概括总结,生成合理的文本描述。文本生成视频模型能够理解文本指令,生成符合其要求的视频。视频生成文本描述模型能够对视频的内容进行概括总结,生成合理的文本描述。图文音文本生成有声视频模型能够理解文本指令,生成符合其要求的有声视频。视频生成文本描述模型能够对有声视频的内容进行概括总结,生成合理的文本描述。文音语音合成模型可以根据指定文本生成对应的语音。语音识别模型能够理解输入的语音,并将其转录为对应的文本。语音翻译模型能够理解输入语音及其语言,并将其翻译为指定语言所对应的语音。5.3.2摘要总结评测预训练模型的摘要和总结能力。包括但不限于:a)摘要能力:评测模型能够从长文本中提取关键信息,生成简洁、准确的摘要,同时保留原文的重要信息;GB/TXXXXX—XXXXb)总结能力:评测模型能够理解输入文本的主旨和意图,以简练的语言表达出来,同时保留主要信息;c)段落关系理解:测试模型能够理解段落之间的逻辑关系,以及如何在整个文档中组织信息;d)篇章理解:测试模型能够理解整个文章或文档的结构和主旨,以及各部分之间的联系。评测方法:按照被测指标描述构建包含一个或多个摘要总结能力的测试数据集,测试数据集中应包含不少于800条测试数据,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.2对结果进行主观评测。5.3.3机器翻译评测预训练模型将文本从一种语言翻译成另一种语言的能力,包括但不限于:a)评测模型翻译准确的能力;b)评测模型对行业特定术语掌握程度。评测方法:按照被测指标描述构建包含一个或多个机器翻译能力的测试数据集,测试数据集中应包含不少于400条测试数据,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.1.4对结果的BLEU指标进行计算。5.3.4文本改写评测预训练模型将文本从一种表述方式改写成另一种表述方式的能力,包括但不限于:a)评测模型对原文本内容理解能力;b)评测模型根据给定文本风格对文本改写的能力。评测方法:按照被测指标描述构建包含一个或多个文本改写能力的测试数据集,测试数据集中应包含不少于400条测试数据,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.2对结果进行主观评测。5.3.5代码生成评测预训练模型根据给定目标生成可运行编程代码的能力,包括但不限于:a)编程语言掌握能力:评测模型对C、Python、Java、JavaScript、go等不少于1种编程语言的掌握能力;b)代码质量:评测模型生成的代码是否能够正常运行、是否有语法错误、是否符合编程规范、运行复杂度和输出结果准确率等。评测方法:按照被测指标描述构建包含一个或多个代码生成能力的测试数据集,测试数据集中应包含不少于400条测试数据,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.2对结果进行主观评测。5.3.6半结构化数据生成评测预训练模型根据输入指令生成sql、json、xml等内容的能力。包括但不限于:a)格式正确性:评测生成的半结构化数据是否有语法错误、是否符合文件规范;b)内容质量:评测是否理解指令意图,生成符合要求的半结构化数据内容。评测方法:按照被测指标描述构建包含一个或多个半结构化数据生成能力的测试数据集,测试数据集中应包含不少于400条测试数据,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.2对结果进行主观评测。5.3.7文本生成图片描述GB/TXXXXX—XXXX评测预训练模型根据输入的一句话或者一段文字,完成对文本的理解,根据理解的含义和文字的要求生成目标图片的能力。包括但不限于:a)图片质量:评测生成图片的清晰度、色彩、光线、细节等视觉因素;b)语义内容:评测生成图片是否符合文本输入的语义内容。c)一致性和逻辑性:评测生成图片与文本描述的一致性和逻辑性,避免出现不合理或矛盾的元素。评测方法:按照被测指标描述构建包含一个或多个文本生成图像能力的测试数据集,测试数据集中应包含不少于600条测试数据,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.2对结果的相关度、完整度、有效性进行主观评测。5.3.8图片生成文本描述评测预训练模型根据对图片内容的概括总结,生成合理文本描述的能力,包括但不限于:a)准确描述能力:评测模型对图片整体与细节内容的提取与描述能力;b)主次提取能力:评测模型对图片中主次体的提取与侧重点的偏移能力;c)抽象描述能力:评测模型对图片隐含内容的理解与描述能力。评测方法:按照被测指标描述构建图片测试数据集,测试数据集中应包含不少于600条测试数据,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.2对结果进行主观评测。5.3.9文本生成视频评测预训练模型根据输入的一句话或者一段文字,完成对文本的理解,根据理解的含义和文字的要求生成目标视频片段的能力。包括但不限于:a)视频质量:评估生成视频的视觉质量,包括但不限于清晰度、色彩、光线、细节等方面;b)语义内容:评估生成视频的语义内容是否符合文本输入的语义;c)稳定性:评估生成视频的稳定性,包括视频的帧率、码率、帧间延迟等方面;d)一致性:评估生成视频中的感兴趣对象在视频序列中表现出的一致性,如外观、位置、运动轨迹和特征的一致性等。评测方法:按照被测指标描述构建包含一个或多个文本生成视频能力的测试数据集,测试数据集中应包含不少于800条测试数据,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.2对结果的相关度、完整度、有效性进行主观评测。5.3.10视频生成文本描述评测预训练模型根据对视频内容的概括总结,生成合理的文本描述的能力,包括但不限于:a)准确描述能力:评测模型对视频整体与细节内容的提取与描述能力;b)主次提取能力:评测模型对视频中主次体的提取与侧重点的偏移能力;c)抽象描述能力:评测模型对视频隐含内容的理解与描述能力;d)时间描述能力:评测模型对视频时间维度的理解能力,包括能否正确识别正序、倒叙和插叙拍摄手法等。评测方法:按照被测指标描述构建包含一个或多个视频生成文本描述能力的测试数据集,测试数据集中应包含不少于800条测试数据,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.2对结果进行主观评测。5.3.11文本生成有声视频GB/TXXXXX—XXXX评测预训练模型根据输入的一句话或者一段文字,完成对文本的理解,根据理解的含义和文字的要求生成目标视频片段的能力。包括但不限于:a)视频质量:评估生成视频的视觉质量,包括但不限于清晰度、色彩、光线、细节等方面;b)语义内容:评估生成视频的语义内容是否符合文本输入的语义;c)稳定性:评估生成视频的稳定性,包括视频的帧率、码率、帧间延迟等方面;d)一致性:评估生成视频中的感兴趣对象在视频序列中表现出的一致性,如外观、位置、运动轨迹和特征的一致性等。评测方法:按照被测指标描述构建包含一个或多个文本生成有声视频能力的测试数据集,测试数据集中应包含不少于800条测试数据,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.2对结果的相关度、完整度、有效性进行主观评测。5.3.12视频生成文本描述评测预训练模型根据对视频内容的概括总结,生成合理的文本描述的能力,包括但不限于:a)准确描述能力:评测模型对视频整体与细节内容的提取与描述能力;b)主次提取能力:评测模型对视频中主次体的提取与侧重点的偏移能力;c)抽象描述能力:评测模型对视频隐含内容的理解与描述能力;d)时间描述能力:评测模型对视频时间维度的理解能力,包括能否正确识别正序、倒叙和插叙拍摄手法等。评测方法:按照被测指标描述构建视频生成文本描述能力的测试数据集,测试数据集中应包含不少于800条测试数据,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.2对结果进行主观评测。5.3.13语音合成评测预训练模型根据指定文本生成对应的语音的能力,包括但不限于:a)演讲、对话、新闻、故事等的语音合成能力:模型能够理解输入的文本,并将其生成为对应的语音;b)语音合成质量:模型生成的语音从自然度、清晰度、韵律感等方面综合评测。评测方法:按照被测指标描述构建包含一个或多个语音合成能力的测试数据集,测试数据集中应包含不少于400条测试数据,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.2对结果进行主观评测。5.3.14语音识别评测预训练模型将所接收到的有效语音信号转化为与语音内容相符的文字结果,并将其输出的能力,包括但不限于:a)中文识别能力:模型能够理解中文普通话,以及不同年龄、性别、口音的发音人输入的语音,并将其转录为对应的文本;b)语音生成文本的准确性:评测模型生成的文本是否正确、是否有语法错误等。评测方法:按照被测指标描述构建包含一个或多个语音识别能力的测试数据集,测试数据集中应包含不少于400条测试数据,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.2对结果进行主观评测。5.3.15语音翻译评测预训练模型根据输入的语音内容生成相应指定语言翻译的语音能力,包括但不限于:GB/TXXXXX—XXXXa)中、英、德、法、意等多种语言翻译能力:模型能够理解输入语音及其语言,将其翻译为指定语言所对应的语音;b)翻译质量:评测模型能够正确地识别语音并翻译成正确的文本,同时也要评估是否能够将正确的文本准确无误地转换成语音等。评测方法:按照被测指标描述构建包含一个或多个语音翻译能力的测试数据集,测试数据集中应包含不少于400条测试数据,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,可参考附录A.2对结果进行主观评测。5.4安全性评测指标预训练模型的安全性应符合《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》等国家政策文件的要求。6评测要求6.1评测数据集评测数据集应满足以下要求:a)合规性和隐私保护:数据收集过程遵循适用的法规和隐私保护标准,保护用户隐私。如通过用户问卷收集、人类专家构建、权威数据集筛选等方式进行评估数据集的构建;b)评估指标完备:应为每个评价指标构建满足相应数量的数据集;c)时效性:数据集应结合开源数据集和自制数据集,定期更新维护;d)可用性:数据集格式和接口应符合广泛的标准,以便于获取和使用;e)多样性和代表性:应涵盖不同的背景、场景、领域等,以确保数据能够覆盖不同的使用情况;f)数据标注流程应符合GB/T42755-2023中第6章和第7章的要求。6.2评测环境根据被测模型的功能手册,应按照被测系统的使用要求进行软硬件环境配置。6.3评测执行基于评价方案,开展测试活动:a)自动化测试1)在评测数据集中应构建出相应的参考答案;2)在自动化测试脚本中应清晰定义具体的评价指标计算方法和评分规则。b)人工测试1)应制定清晰、具体的评价标准和指南,并对评价人员进行充分的培训,确保所有评价人员对评价的标准有统一的理解和执行;2)应分析评价结果的分布和一致性,及时发现潜在的评价偏差或不一致问题;3)宜选择具有相关领域知识和经验的评价人员,以确保评价结果准确性和专业性。4)宜为评价人员提供相应的评价工具,以支持评价人员的工作;5)宜对评价人员定期进行复训,更新评价知识和技能,尤其是当标准内容有调整时;6)宜定期收集评价人员的反馈,用于优化评价流程和评价标准。c)使用大模型作为裁判进行测试GB/TXXXXX—XXXX1)应选择与评估任务相关性高的大模型,可使用多个大模型进行交叉验证,以提高测试的稳定性;2)应定义清晰的评估标准和评分规则,并转成能激发大模型更佳性能表现的输入提示词,确保大模型按照既定标准进行测试;3)应在测试过程中引入人工审核机制,及时识别问题和调整评估策略,以确保评估的准确性和公正性;4)应确保测试过程中大模型访问接口的稳定可靠,以确保评估过程的连续性。6.4评测工具针对开放API和不开放API的两种系统,应准备两种评测工具:a)对开放API的预训练模型系统,应编写API调用的测试工具

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论