




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ICS35.240CCSL70团 体 标 准T/CESA1197—2022人工智能深度合成图像系统技术规范Artificialintelligence—Technicalspecificationfordeepsyntheticimagesystem2022-06-30发布 2022-06-30实施中国电子工业标准化技术协会 发布T/CESA1197—2022版权保护文件IT/CESA1197—2022目 次前言 III范围 1规范性引用文件 1术语和定义 1缩略语 2深度合成图像系统框架 3深度合成图像系统技术要求 4深度合成图像系统通用要求 4深度合成2D人像系统要求 12深度合成3D人像系统要求 19深度合成人像防伪检测性能要求 22深度合成图像系统测试评价方法 24深度合成图像系统通用测试 24深度合成2D人像系统测试 28深度合成3D人像系统测试 31深度合成人像防伪检测方法 33II鏈 鏈T/CESA1197—2022前 言本文件按照GB/T 《标准化工作导则 第1部分标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由中国电子技术标准化研究院提出。本文件由中国电子技术标准化研究院、中国电子工业标准化技术协会归口。(北京(上海III鏈 鏈T/CESA1197—2022人工智能深度合成图像系统技术规范范围(含视频本文件适用于深度合成图像系统的设计、开发、测试、评估、管理等。规范性引用文件(包括所有的修改单适用于本文件。GB/T5271.29—2000信息技术词汇第29部分:人工智能语音识别与合成GB/T21023—2007中文语音识别系统通用技术规范GB/T36464.3—2018信息技术智能语音交互系统第3部分:智能客服3 术语和定义GB/T5271.29—2000界定的以及下列术语和定义适用于本文件。3.1深度合成技术 deepsynthesistechnology注:深度合成技术应用场景包括包括语音合成、人脸再现、全身合成、数字虚拟人、虚拟现实等。3.2深度合成图像系统 deepsyntheticimage system采用AI注:深度合成图像系统的应用场景包括AI人像、美颜、换脸、影视动画制作等。3.3图像生成 imagegeneration从现有数据集生成图像的过程。1鏈 鏈T/CESA1197—20223.4图像合成 imagecomposition注:图像生成和图形合成的区别,图像生成负责由无到有,图像合成负责从有到优。3.5语音合成 speechsynthesis人工语音的生成。[来源:GB/T5271.29—2000,12.01.53]3.6深度合成2D人像 deepsynthesisof2Dportraits基于深度合成技术生成的二维人像,包括图像、视频和语音。3.7深度合成3D人像 deepsynthesisof3Dportraits基于深度合成技术生成的三维人像,包括图像、视频和语音。4 缩略语下列缩略语适用于本文件。AI:人工智能(Artificial Intelligence)API:应用程序编程接口(ApplicationProgrammingInterface)DS:深度合成(DeepSynthesis)EAO:平均重叠期望(Expectedaverageoverlap)FID:距离得分(FrechetInceptionDistancescore)GAN:对抗式生成网络(GenerativeAdversarialNetwork)IoU:交并比(IntersectionoverUnion)mAP:平均精确度均值(meanAveragePrecision)MIoU:平均交并比(MeanIntersectionoverUnion)NeRF:神经辐射场(NeuralRadianceFields)NLP:自然语言理解(NatureLanguageProcess)PGAN:渐进式增长生成对抗网络(ProgressiveGenerativeAdversarialNetwork)PSNR:峰值信噪比(PeakSignal-to-NoiseRatio)SDK:软件开发工具包(SoftwareDevelopmentKit)SSIM:结构相似性(StructuralSimilarityIndexMeasure)StarGAN:星型生成对抗网络(StarGenerativeAdversarialNetwork)StyleGAN:风格生成对抗网络(StyleGenerativeAdversarialNetwork)TTS:从文本到语音(TextToSpeech)VAE(VariationalAuto-Encoder)2D:二维(2-Dimensional)3D:三维(3-Dimensional)2鏈 鏈T/CESA1197—20225 深度合成图像系统框架深度合成图像系统框架包括AI能力层、管理层和接入层,见图1。图图1 深度合成图像系统框架图1中各层组成模块如下:AI2D/3DNLP2D/3DTTSNLP(真实性、完整性和原始性。管理层:主要是对深度合成图像系统的媒体资源和人像进行管理与调度。媒体资源管理平台:用以提供视频超分和老片修复等功能;NLPNLP接入层:深度合成系统框架主要以三种方式接入目标系统:API、小程序插件、SDK。API3鏈 鏈T/CESA1197—2022SDK深度合成图像系统技术要求深度合成图像系统通用要求功能图像生成(生成对应图像,生成的图像应符合场景要求。图像合成目标检测(以方框形式给出目标轮廓及其类型,用以分析该图像是否能与其他图像的内容进行融合。目标分割目标分割功能应支持给出图像中常见物体和特定目标的精细化边缘(像素级别区分度)及其类型,用以分离特定目标以及处理融合过程中出现的物体间遮挡的情况,使得融合后图像更加合理。位置跟踪图像和谐化图像和谐化功能应支持调节多个融合部分的亮度、颜色、光线等特征,使得融合后的图像作为一个整体的观感更加自然。图像修复图像缺陷修复4鏈 鏈T/CESA1197—2022图像内容缺失补全功能图像内容缺失补全功能应支持修复图像部分内容缺失的问题或修复因去除非必要遮挡而造成的图图像颜色缺失补全及修复对图像颜色缺失补全及修复功能要求如下:图像增强图像分辨率提升(目标分辨率),并且提升后图像较提升前具有更丰富的细节信息,在视觉观感的清晰度上有明显提升。视频帧率提升视频帧率提升功能应支持将视频帧率提升至原先的数倍,即单位时间内的帧数较提升前有明显增加,播放时单帧画面视觉停留时间减少,能提升用户视觉观感的流畅度。图像动态范围扩大性能图像生成场景匹配度5鏈 鏈T/CESA1197—2022表1 场景匹配度主观评分规则评测维度描述 得分54321目标匹配度生成图像中的物体与场景要求中物体的匹配程度十分匹配比较匹配基本匹配不匹配十分不匹配主题匹配度生成图像的主题与场景要求中主题的匹配程度十分匹配比较匹配基本匹配不匹配十分不匹配风格匹配度生成图像的风格与场景要求中风格的匹配程度十分匹配比较匹配基本匹配不匹配十分不匹配视觉自然度表2 视觉自然度主观评分规则评测维度描述 得分54321整体自然度该图片整体观感是否自然十分自然比较自然基本自然不太自然十分不自然局部自然度该图片局部是否有伪纹理完全没有伪纹理少纹理伪纹理较多伪纹理很多图像合成目标检测性能mAP是在不同召回率下的最高精确率的均值(一般会对各类别分别计算各自的AP)。在包含常用类别及特定类别的自定义数据集上目标检测平均精确率均值mAP应大于0.5。召回率和精确率定义如下:IOU:真实框与预测框之间交集面积与并集面积的比值;真阳性(TP):正确的检测,即预测的边界框中分类正确且边界框坐标正确的数量,检测的IOU≥threshold(0.5);是预测出的所有边界框中除去预测正确的边界框,剩下的边界框的数量,检测的IOU<threshold(一般取0.5);召回率:TP/(TP+FN):模型给出的预测结果最多能覆盖多少真实目标;精确率:TP/(TP+FP):模型给出的所有预测结果中命中真实目标的比例。实例分割性能MIoU6鏈 鏈T/CESA1197—2022式中:i——真实值;j——预测值;——将i预测为j。在包含常用类别及特定类别的自定义数据集上实例分割MIoU应大于0.5。目标跟踪EAO考虑一个用于目标追踪的视频,其包含帧,待测试的跟踪器在此序列的开始处初始化,并一直跟踪至最后一帧。如果跟踪器在某帧预测的矩形框偏离目标,则追踪停止。每一帧的准确率定义为:式中:——第t帧的真实框;——跟踪器对第t帧的预测框。之后进行平均,得到该序列上的准确率 ,在长度为 的多个序列上求平均值 ,这样就得到了跟踪器在长度为 序列上的EAO值在自定义视频数据集上位置跟踪EAO应大于0.4。和谐化.4.1 融合视觉合理性表3 融合视觉合理性主观评分规则评测维度描述 得分54321融合合理性该图片内容融合是否合理十分合理比较合理基本合理不太合理十分不合理.4.2 融合视觉自然度融合视觉自然度指系统融合得到的图像或视频让用户视觉上感到自然和谐的程度,该指标为主观性评估指标。考融合视觉自然度主观评分规则见表4。融合视觉自然度应达到让用户感到比较自然的程度。7T/CESA1197—2022表4 融合视觉自然度主观评分规则评测维度描述 得分54321视频整体自然度以正常帧率播放融合视频,判断视频自然度十分自然比较自然基本自然不太自然十分不自然图像整体自然度融合图片整体观感是否自然十分自然比较自然基本自然不太自然十分不自然图像局部自然度融合图片局部过渡是否自然十分自然比较自然基本自然不太自然十分不自然图像修复.1.1 PSNR.1.1 PSNR作为待评测图像,3:PSNR(dB)定义为式4:式中:——图片可能的最大像素值。以上为针对灰度图的PNSRRGB三个通道的PSNR。.1.2 SSIM给定一张正常无缺陷图像x作为参考图像,与之相对应的有缺陷图像y作为待评测图像,SSIM基于x和y之间的三个比较衡量:亮度(luminance)、对比度(contrast)和结构(structure)。,,,一般取为x的均值,为y的均值,为x的方差,为y的方差,为x和y的协方差,为两个常数,避免除零,为像素值的范围,为默认值,则8T/CESA1197—2022将设为1,则得到式5:.1.3 视觉缺陷程度.2 图像内容缺失补全.2.1 量化指标PSNR、SSIM.2 图像内容缺失补全.2.1 量化指标PSNR、SSIM(如10%~60%)置为全黑,作为内容缺失图像;将内容缺失图像送入系统进行图像内容补全,得到补全后图像。量化指标计算同.1.1 .1.2 中的量化指标参考图像选取为内容完整的原图像,缺陷维度描述 得分54321划痕对比划痕参考图像评估图像的划痕程度划痕十分严重划痕比较严重划痕程度一般轻微划痕无划痕噪声对比噪声参考图像评估图像的噪声程度噪声十分严重噪声比较严重噪声程度一般轻微噪声无噪声横纹对比横纹参考图像评估图像的横纹程度横纹十分严重横纹比较严重横纹程度一般轻微横纹无横纹模糊对比模糊参考图像评估图像的模糊程度模糊十分严重模糊比较严重模糊程度一般轻微模糊图像清晰待评测图像选取为经系统修复的补全后图像。.2.2 视觉自然度2所示。视觉自然度应达到让用户感到自然、基本无伪纹理的程度。.3 图像颜色缺失补全及修.3.1 量化指标FIDFID距离是一种用于评估生成模型(如生成对抗网络)生成图片的度量。其衡量生成图片的分布和真实图片分布之间的差异性。9T/CESA1197—2022FID计算两个多维高斯分布之间的平方Wasserstein距离给定颜色缺失补全后的图像集合经神经网络提取出来特征的多维高斯分布和真实彩色图像集合经同一神经网络得到特征的多维高斯分布,该神经网络一般是在ImageNet数据集上训练的Inceptionv3网络。FID具体计算方式为式5:PSRR、SSIM量化指标PSNR和SSIM的计算同.1.1 PSRR、SSIM量化指标PSNR和SSIM的计算同.1.1 .1.2 中的量化指标其中参考图像选取有正常颜色的原图像,待评测图像选取为经系统补全颜色后的图像。注:量化指标FID、PSNR和SSIM仅适用于图像颜色缺失补全功能的测试,不适用于颜色修复功能的测试。颜色视觉合理性表6 颜色视觉合理性主观评分规则评测维度描述 得分54321颜色语义合理性物体颜色的合理性十分合理比较合理基本合理不太合理十分不合理颜色区域准确度颜色填充区域的准确度十分准确比较准确基本准确不太准确十分不准确.3.4 颜色视觉舒适度表7 颜色视觉舒适度主观评分规则评测维度描述 得分54321颜色舒适度画面颜色的整体舒适度十分舒适比较舒适基本舒适不太舒适十分不舒适10T/CESA1197—2022图像增强图像分辨率提升.1.1 量化指标PSNR、SSIM(如4k分辨率(如2k分辨率量化指标PSNTR和SSIM的计算同.1.1、.1.2中的量化指标,其中参考图像选取为高分辨率的原图像,待评测图像选取为经系统提升分辨率后的图像。.1.2 视觉清晰度表8 视觉清晰度有参考主观评分规则.1.3 视觉自然度表8 视觉清晰度有参考主观评分规则.1.3 视觉自然度视觉自然度指系统将分辨率提升后让用户视觉上感到自然和谐的程度。该指标为主观性评估指标。评分规则如.2 表2所示。视觉自然度应达到让用户感到比较自然的程度。.2 视频帧率提升性能.2.1 量化指标PSNR、SSIM选取一组高帧率(如120fps)的视频作为原视频;将原视频的帧率进行下采样,得到的低帧率(如30fps)视频作为待提升帧率的视频;将待提升帧率的视频送入系统进行帧率提升,得到帧率提升后的视频。评测维度描述 得分54321视觉清晰度该图片是否清晰十分清晰比较清晰基本清晰不太清晰十分不清晰量化指标PSNR和SSIM的计算同.1.1 .1.2中的量化指标其中参考图像选取为在原视频中存在,而待提升帧率视频中不存在的帧,待评测图像选取为经系统提升帧率所生成的图像。视觉流畅度表9 视觉流畅度有参考主观评分规则评测维度描述 得分54321视觉流畅度该视频是否流畅十分流畅比较流畅基本流畅比较卡顿十分卡顿视觉自然度11T/CESA1197—20222所示。视觉自然度应达到让用户感到比较自然的程度。.3 图像动态范围提升.3.1 量化指标PSNR、选取一组高动态范围(如10bit)的视频作为原视频;将原视频的动态范围进行下采样,得到的低(如量化指标PSNR和SSIM的计算同.1.1、.1.2中的量化指标,其中参考图像选取为原视频中的图像,待评测图像选取为经系统提升动态范围所生成的对应图像。.3.2 视觉丰富度观性评估指标。视觉丰富度应达到让用户感到比较丰富的程度。评分规则见表10。表观性评估指标。视觉丰富度应达到让用户感到比较丰富的程度。评分规则见表10。表10 视觉丰富度有参考主观评分规则2D功能评估维度描述 得分54321细节请对比“细节参考视频”评估视频的细节丰富程度细节十分丰富细节比较丰富细节一般细节比较缺少细节十分缺少对比度请对比“对比度参考视频”评估视频的对比度对比度十分高对比度较高对比度一般对比度较低对比度十分低色彩丰富度请对比“色彩参考视频”评估视频的色彩丰富度色彩十分丰富色彩比较丰富色彩一般丰富色彩比较单调色彩十分单调感知语音识别识别出输入的语音音频内容,转写成文本。根据使用场景,应具备:注:语音识别:参考语音识别标准GB/T21023-2007。声纹识别&声纹确认12T/CESA1197—2022根据输入的人声音频,辨别人的身份,应包括:声纹识别能力:从注册的声纹库中,识别出输入的人声音频对应的声纹;声纹辨别能力:辨别两段人声音频是否属于同一个人声。人脸检测追踪定位单模态追踪定位能力:仅根据视频文件返回说话人在图像中的位置坐标;多模态追踪定位能力:根据视频及音频阵列,返回说话人在图像中的位置坐标。面部表情及头部动作识别面部表情及头部动作识别手势识别根据输入的视频,返回视频中人像手势的动作,手势范围根据使用场景定义。认知自然语言理解(单轮)支持按照厂商拟定的业务流程通过单轮对话方式,完成用户需求或任务。.2 自然语言理解(多轮)表达形象深度合成2D图像系统的渲染风格包括2D卡通风格和2D写实风格,形象表达功能应包括:形象合成:支持人像、配饰、背景等图像合成;形象编辑:支持人脸、躯干等图像参数编辑;形象定制:支持个性化形象定制。13T/CESA1197—2022语音深度合成2D图像系统的语音表达功能应包括:语音合成:支持多情感、多语种、多方言、唱歌、变声等;语音编辑:支持语速、音色、音量、情感、发音等;语音定制:宜支持定制化语音音频实时转换。动作深度合成2D图像系统的动作表达功能应包括:动作驱动方式:支持文本、语音、视频、动作捕捉设备等多种动作驱动方式;动作驱动范围:支持披露口型、面部表情、肢体动作等动作驱动范围。情感2D2D感知语音识别指系统对用户进行语音识别的性能表现。其性能表现依据系统中语音识别用途的不同,分别按照GB/T21023-2007中的5.2.1、5.2.2、5.2.3进行评估。声纹识别及声纹辨别声纹辨别按照以下指标进行评估:错误拒绝率(FalseRejectionRateFRR):若两个样本为同类(同一个人),却被系统误(非同一个人FRR错误接受率(FalseAcceptanceRateFAR(非同一个人),却被系统(同一个人FAR例;等错误率(EqualErrorRate,EER):调整阈值,使得误拒绝率(FalseRejectionRate,FRR)等于误接受率(FalseAcceptanceRate,FARFARFRREER;FAR+FRRACC=1–min(FAR+FRR)。人脸检测人脸检测的评估分为两个步骤:IOUIOUIOU0.5IOUF1追踪定位14T/CESA1197—2022追踪定位的评估方式参考.3中人脸检测的评测方式,以视频中的每一帧作为图像进行评估。面部表情及头部动作识别Preisin(Real、F1macro-F1以及micro-F1(Precision)(Recall)定义参见.1,其它指标定义如式7:式中:
……(公式7)macro-F1——分别计算每个类比的precision和recall,以此计算相应的F1,然后再用类别数平均一下F1,即为macro-F1;micro-F1——以样本为基本单位,直接计算全局的precision和recall。手势识别F1macro-F1以及micro-F1,详细定义见.5。认知性能自然语言处理(单轮)意图识别率:指系统在单轮会话过程中领域意图槽位的精确识别能力。精确识别:领域/意图识别正确;参数/槽位识别正确;回复正确。意图识别率:精确识别正确的测试数量/总的测试数量自然语言理解(多轮)3D人像系统的自然语言理解(多轮)性能依据具体的用途应符合GB/T36464.3—2018中5.6.4的要求。表达形象.1.1 完好性完好性指系统提供图像的完好程度。若出现下列情况中任意一种或几种则视为不完好:——存在严重的扭曲;——存在严重的马赛克;——其他破损情况。形象舒适度形象舒适度指系统提供的数字图像形象让用户生理上感到舒适的程度。形象舒适度应包括以下信息:形象好感度:3D人像的形象设计应基本满足主流用户需求,用户基本接受;15T/CESA1197—2022形象自然度:形象语音、动作交互自然,整体自然度良好,与目标人设相符;形象使用愿景:形象设计应考虑用户的使用愿意,用户基本愿意使用形象所服务的业务。表11 形象舒适度主观评分表评测维度描述 得分54321好感度你喜欢该形象吗?十分喜欢比较喜欢一般不太喜欢十分不喜欢自然度该形象是否自然?十分自然比较自然基本自然不太自然十分不自然使用愿景你愿意使用该形象为你服务吗?非常愿意比较愿意一般不太愿意十分不愿意语音.2.1 发音错误假设WN代表文本总字数,EN代表发音错误句数,N代表文本总句数,PE代表发音错误字数(多种发音错误字数之和)。则:——发音字错率:——发音句错率:——准确率总分:韵律准确率假设N代表总用例数,CN代表停顿正确用例数。则:——韵律准确率=(CN/N)*100%语音舒适性16T/CESA1197—2022表12 语音舒适性主观评分规则评测维度描述 得分54321语音语调整体发音是否标准?十分标准比较标准基本标准个别标准十分不标准发音吐字是否清晰?十分清晰比较清晰基本清晰不太清晰十分不清晰断词断句、停顿是否恰当?十分恰当比较恰当基本恰当不太恰当很不恰当语气语调是否自然?十分自然比较自然基本自然不太自然十分不自然重读发音是否得当?十分恰当比较恰当基本恰当不太恰当很不恰当语速表达是否恰当?十分恰当比较恰当基本恰当不太恰当很不恰当流畅连贯度语音表达是否流利?十分自然比较自然基本自然不太自然十分不自然情绪饱满度按照文本语义和内容,情绪表达是否恰当?十分恰当比较恰当基本恰当不太恰当很不恰当拟人舒适度声音拟人程度是否和真人一样?完全无法区分比较相似,与真人语音有细微区别基本相似不太一样完全不一样聆听该声音时,感受是否愉悦?十分愉悦比较愉悦一般不太愉悦十分不愉悦你愿意使用该声音为你服务吗?十分愿意比较愿意一般不太愿意十分不愿意动作.3.1 动作契合度动作契合度指系统中数字人动作与当下语境的契合度。数字人动作类型及其契合度体现见表13所示。17T/CESA1197—2022表13 数字人动作类型及契合度体现序号动作类型契合度体现1嘴唇动作(语音或文本自动生成嘴唇动画参数。口型准确度:单帧时刻嘴形满足对应音素的几何形状。口型匹配度:单帧时刻嘴形契合对应音素的时间节点。(性)。张嘴和吸唇2眉毛与眼皮动作(如);在数字人说话时,眉毛与眼皮动作符合语音的时序韵律特征。1)涉及眉毛与眼皮的基础表情动作单元包括内眉毛上扬、内眉毛下降和皱眉;2)涉及眼皮的基础表情动作单元包括上眼睑上扬、脸颊提升并眼轮外圈收紧、眼轮内圈收紧、闭眼、眨眼和单眼眨眼3眼球动作作为生理需求,眼球能自主地模仿真实人类的眼球旋转。作为语义表达渠道,眼球动作能自主地反映出内心状态(比如:情绪或意图)4头旋转动作作为非语义表达渠道,头的旋转动作能自主地表达模仿真实人类的生理动作;在数字人说话时,头的旋转动作符合语音的时序韵律特征。倾斜、头右倾斜、头前倾、头后仰、头上下摆动、头左右摆动、头上扬再左/右倾5上身肢体动作(包括躯干关节(旋转)动作、大臂、小臂和手掌)a)作为韵律节奏动作,在数字人说话时,上身肢体动作符合语音的时序韵律特征。b)作为指示功能性动作,数字人能自主地通过上身肢体动作表达人物关系、空间位置、时间顺序、抽象概念等的作用。作为符号功能性动作,数字人能自主地通过上身肢体动作比划出实体的属性或行为,来描绘对应的实体或动作。一个抽象性的概念。模拟真实人类进行相关生产生活6下身肢体动作(包括大腿、小腿和脚掌)作为平衡功能性动作,数字人能模拟真实人类下半身肌肉对抗地球重力,有效且自然地维持身体的平衡。作为位移功能性动作,数字人能模拟真实人类下半身肢体动作(如:走、跑、跳等方式的情绪状态(如:不同情绪状态下,走路/跑步姿态略有区别)7全身动作多模态动作协调一致,全身(包括嘴唇、眉毛与眼皮、眼球、头旋转、上身肢体和下身肢体)共同协作完成表达功能或履行某种功能.3.2 动作舒适性18T/CESA1197—20.4 情感.4 情感表15 情感表达主观评分规则3D功能评测维度描述 得分54321口型自然度口型是否自然?十分自然比较自然基本自然不太自然完全不自然面部表情自然度面部表情是否自然?十分自然比较自然基本自然不太自然十分不自然肢体动作自然度肢体动作是否自然?十分自然比较自然基本自然不太自然十分不自然评测维度描述 得分54321形象匹配度整体情感与形象人设是否匹配?十分匹配比较匹配基本匹配不太匹配十分不匹配语意匹配度整体情感与当前文本或语音是否匹配?十分匹配比较匹配基本匹配不太匹配十分不匹配感知语音识别3D人像系统的语音交互功能应包括:单轮对话:支持按照厂商拟定的业务流程通过单轮对话方式,引导用户完成任务;多轮对话:支持按照厂商拟定的业务流程通过多轮对话方式,引导用户完成任务;全双工语音交互:支持系统与用户进行全双工语音交互,模拟人与人自然交流方式;视觉识别3D人像系统宜支持人脸检测交互功能,其视觉识别功能应包括:主动招揽交互:当检测到人体时,可主动招揽用户,获得关注;19T/CESA1197—2022动作表情配置:可通过语义配置系统形象作出对应的动作,如挥手,鞠躬等;手势交互:当检测到特定手势时,系统可对应语音或动作反馈。认知自然语言理解3D人像系统的自然语言理解功能应包括:内容理解:应支持简称、别称、代码、数字理解;容错理解:应支持对典型错别词的容错理解;概念间语义理解:应支持概念间语义理解、部分整体关系理解、地理位置关系理解、因果关系理解、时序关系理解、近义关系理解。表达3D人像系统的渲染风格包括3D3D写实风格与3D3D人像系统的渲染风格包括3D3D写实风格与3D3D3D写实系统为用户提供近似真人比例的渲染形象。3D超写实系统为用户提供严格参照真人比例的渲染形象。语音3D人像系统的语音表达功能应包括:语音合成能力:支持多情感、多语种、多方言、唱歌、变声等语音合成能力;语音编辑能力:支持语速、音色、音量、情感、发音等多项语音编辑能力;语音转换能力:宜支持定制化语音音频实时转换的能力。动作3D人像系统的动作表达功能应包括:动作驱动方式:支持文本、语音、视频、动作捕捉设备等多种动作驱动方式;动作驱动范围:支持披露口型、面部表情、肢体动作等动作驱动范围。情感3D人像系统的情感表达功能应支持面部情感,包括喜,怒,哀,乐等情感表达方式。性能感知语音识别3D人像系统的语音识别性能应依据具体的语音识别用途符合GB/T21023-2007中5.4的要求。视觉识别3D人像系统的人脸检测性能应符合以下要求:人脸检出率应不低于90%;人脸误检率应不高于5%。注1:人脸检出率为人脸检测结果中正确检测为人脸图像的数量占人脸图像总数量的比例。20T/CESA1197—2022注2:人脸误检率为人脸检测结果中非人脸图像数占检出图像总数的比例。认知自然语言理解3D人像系统的自然语言理解性能应符合GB/T36464.3—2018中的要求。表达形象.1.1 完好性3D人像系统中3D人像若出现下列情况中任意一种或几种则视为不完好。——存在严重的变形;——存在没焊接的点;————存在没焊接的点;——存在破面;——其他破损情况。.1.2 形象舒适3D人像形象舒适度应包括以下信息:形象好感度:3D形象自然度:形象语音、动作交互自然,整体自然度良好;形象使用愿景:形象设计应考虑用户的使用愿意,用户基本愿意使用形象所服务的业务。精细度3D人像精细度应包括以下信息:人物模型的面数;人物面部细节建模情况,如眼球,晶状体,睫毛,口腔内部结构及毛发等;人物面部布线结构;人物贴图分辨率;人物身体及服饰绑定层级和复杂度;人物身体、面部及服饰的模型点数;人物身体、面部及服饰的骨骼数量。语音.2.1 发音准确率3D人像系统的文本发音准确率应不低于95%,包括汉字、英文字母、数字等。韵律准确率3D人像系统的韵律准确率应不低于90%,包括但不限于标点停顿、语气停顿等。语音舒适性21T/CESA1197—2022系统合成语音应让用户生理行感到舒适;其中,语音语调应基本标准、表达自然连贯、情绪比较自然。动作.3.1 动作契合系统的动作应与语境基本契合,动作契合度类型和指标见表16。表16 动作契合度类型和指标序号动作类型契合度指标1嘴唇动作(语音或文本自动生成嘴唇动画参数。作为语义表达渠道,嘴唇动作能自主地根据内心表达需要(比如:情绪或意图)生成合理的嘴型2眉毛与眼皮动作作为非语义表达渠道,眉毛与眼皮动作能自主地展示模仿真实人类的生理需求(如:眨眼);在系统形象说话时,眉毛与眼皮动作符合语音的时序韵律特征。作为语义表达渠道,眉毛与眼皮动作能自主地展示与内心状态一致的情绪或意图3眼球动作作为生理需求,眼球能自主地模仿真实人类的眼球旋转。作为语义表达渠道,眼球动作能自主地反映出内心状态(比如:情绪或意图)4头部动作a)作为非语义表达渠道,头的旋转动作能自主地表达模仿真实人类的生理动作;在数字人说话时,头的旋转动作符合语音的时序韵律特征。作为语义表达渠道,头的旋转动作能够自主地表达符合场景需求的语义信息,比如:点头和摇头5上身肢体动作a)作为韵律节奏动作,在系统形象说话时,上身肢体动作符合语音的时序韵律特征。b)作为指示功能性动作,系统形象能自主地通过上身肢体动作表达人物关系、空间位置、时间顺序、抽象概念等的作用。为,来描绘对应的实体或动作。作为比喻功能性动作, 系统形象能自主地通过上身肢体动作构建一个空间来示一个抽象性的概念。作为操作功能性动作,系统形象能自主地通过上身肢体动作有效且自然地操作物体,模拟真实人类进行相关生产生活6下身肢体动作自然地维持身体的平衡。作为位移功能性动作,系统形象能模拟真实人类下半身肢体动作(如:走、跑、跳等方式的情绪状态(如:不同情绪状态下,走路/跑步姿态略有区别).3.2 动作舒适性14。深度合成人像防伪检测性能要求检测结果22T/CESA1197—2022真阳性(TP):将合成媒体文件检测为合成文件的数量;真阴性(TN):将真实媒体文件检测为真实文件的数量;假阳性(FP):将真实媒体文件检测为合成文件的数量;假阴性(FN):将合成媒体文件检测为真实文件的数量。正确率检测分类正确的图像文件占全部输入图像文件的比例。计算公式为式8:…………………(公式8)错误率检测分类错误的图像文件占全部输入图像文件的比例。计算公式为式9:…………………..(公式9)召回率正确检测出的合成图像文件占全部正确检测文件的比例。计算公式为式10:………………….(公式10)精确率正确检测出的合成图像文件占全部被检测分类为合成图像文件的比例。计算公式为式11:……………….(公式11)合成区域精度预测合成区域与真实合成区域之间的交并比。计算公式为式12:……………………..(公式12)式中:A——预测合成的区域;B——真实合成的区域。平均检测时间13:
针对输入的多个媒体文件,统计每个文件的检测时长,计算平均检测时间。计算公式为式…………..(13)…………….(14)23T/CESA1197—2022式中:——第i条数据的检测时间;——i条数据输入结束的时间点;——i条数据输出检测结果的时间点;N——输入数据的总条数;——测试集上所有数据的平均检测时间。F1衡量二分类模型精确度的一种指标,是模型精确率和召回率的一种调和平均。计算公式为式15:…………(公式15)式中:式中:precision——准确率;recall——召回率。6.4.9 稳定性7天(云端)/3天(嵌入式)后:物理内存:应平稳无明显增长;虚拟内存:应平稳无明显增长;CPU占用:应平稳无明显增长;句柄数:应平稳无明显增长;GPU占用:应平稳无明显增长。7 深度合成图像系统测试评价方法深度合成图像系统通用测试图像生成性能场景匹配度测试方法:主要通过技术测试的方法进行评估。将系统生成后的图像统一分配给K(K≥15位测试人员,依据.1表1进行主观打分,最后取均值。评价方法:场景匹配度达到让用户感到比较匹配的程度。视觉自然度指系统生成的图像让用户视觉上感到自然和谐的程度。该指标为主观性评估指标。测试对象:系统生成的图像内容;测试方法:主要通过技术测试的方法进行评估。将系统生成后的图像统一分配给K(K≥15)位测试人员,依据.22进行主观打分,最后取均值。24T/CESA1197—2022评价方法:视觉自然度达到让用户感到比较自然的程度。图像合成性能目标检测性能MAP测试方法:对数据集进行标注得到其各个类别物体的真实框,通过系统预测得到预测框,按照.1中的方法计算系统的MAP。实例分割性能MIoU测试方法:对数据集进行标注得到其各个类别物体的真实边缘,通过系统预测得到预测边缘,按照.2中的方法计算系统的MIoU。位置跟踪性能目标的跟踪结果,根据.3中的方法计算系统的EAO值。和谐化性能目标的跟踪结果,根据.3中的方法计算系统的EAO值。和谐化性能融合视觉合理性测试对象:系统融合不同图像内容后得到的图像测试方法:主要通过技术测试的方式进行评估。将系统融合后的图像统一分配给K(K≥15)位测试人员,依据.4.13进行主观打分,最后取均值作为融合后图像的合理性得分。评价方法:视觉合理性达到让用户感到比较合理的程度。融合视觉自然度测试对象:系统融合不同图像内容后得到的图像测试方法:主要通过技术测试的方式进行评估。将系统融合后的图像统一分配给K(K≥15)位测试人员,依据.4.24进行主观打分,最后取均值作为融合后图像的自然度得分。评价方法:视觉自然度达到让用户感到比较自然的程度。7.1.3 图像修复性能图像缺陷修复PSNR、SSIM根据..3.1.2提出的计算方式计算PSNR和应高于指标应高于0.7。视觉缺陷程度指系统对图像修复前后,用户判断缺陷的程度。该指标为有参考主观性评估指标。测试对象:深度合成通用图像系统对有缺陷图片修复前后的图像。(均准备一组不同程度(缺陷程度由弱到强划分为5档,最弱为无缺陷,最强为缺陷很严重)的缺陷图像,提供给K(K≥15)位测试人员作为参考图像。另提供一组有不同程度、不同缺陷的图像及其对应的通过系25T/CESA1197—2022统修复后的图像,由测试人员依据.2表5所示评分标准相互独立地对修复前后的缺陷程度进行有参考主观打分,最后取平均值作为修复前后的缺陷程度。图像内容缺失补全性能PSNR、SSIM测试对象:系统修复的补全后图像。测试评价方法:根据.1.1部分计算PSNR和SSIM指标,PSNR应高于25dB,SSIM应高于0.5。视觉自然度测试对象:系统对内容缺失图像补全后的图像测试评价方法:主要通过技术测试的方式进行评估。将系统补全后的图像统一分配给K(K≥15)位测试人员,依据表2进行主观打分进行主观打分,最后取均值。图像颜色缺失补全及修复性能FID、PSNR、SSIM测试对象:经系统补全颜色后的图像,其中参考图像选取为有正常颜色的原图像。测试方法:根据.1.1部分计算PSNR和SSIM指标,根据.1(a)部分计算FID指标,系统补全颜色后的图像集与imagenet数据集的FID应低于3,PSNR应高于21dB,SSIM应高于0.5。颜色视觉合理性测试对象:对不合理颜色进行修复前后的图像测试评价方法:主要通过技术测试的方式进行评估。将系统修复前后的彩色图片统一分配给K(K≥15)位测试人员,依据.3.3表6进行主观打分,最后分别取修复前后的均值作为修复前后的得分,修复后得分减去修复前得分即为修复带来的主观合理性提升。颜色视觉舒适度测试对象:系统对颜色缺失图像补全后的图像。测试方法:主要通过技术测试的方式进行评估。将系统补全颜色后的图像统一分配给K(K≥15)位测试人员,依据.3.4表7进行主观打分,最后取均值作为补全后的舒适度得分。测试对象:对不合理颜色进行修复前后的图像。测试评价方法:将系统修复前后的彩色图片统一分配给K(K≥15)位测试人员,依据.3表7进行主观打分,最后分别取修复前后的均值作为修复前后的舒适度得分,修复后得分减去修复前得分即为修复带来的主观舒适度提升。图像增强性能图像分辨率提升性能PSNR、SSIM测试对象:经系统提升分辨率后的图像,其中参考图像选取为高分辨率的原图像。26T/CESA1197—2022(如4k分辨率(如2k分辨率.1.1计算PSNR和SSIMPSNR应高于应高于0.7。视觉清晰度测试对象:深度合成通用图像系统提升分辨率前后的图像。.3 视觉自然度测试对象:系统对图像进行分辨率提升后的图像测试评价方法:由测试人员依据.2表2相互独立地对提升分辨率后的图像自然度进行有参考主观打分,最后取平均值作为提升分辨率后的图像自然度。视频帧率提升性能PSNR、SSIM(如PSNR应高于29dB,SSIM应高于0.6。视觉流畅度测试对象:深度合成通用图像系统提升帧率前后的视频。.3 视觉自然度测试对象:系统对图像进行分辨率提升后的图像测试评价方法:由测试人员依据.2表2相互独立地对提升分辨率后的图像自然度进行有参考主观打分,最后取平均值作为提升分辨率后的图像自然度。视频帧率提升性能PSNR、SSIM(如PSNR应高于29dB,SSIM应高于0.6。视觉流畅度测试对象:深度合成通用图像系统提升帧率前后的视频。(流畅程度由弱到强划分为多档,最弱为十分卡顿,最强为十分流畅,此处以5档为例)的图像,提供给K(K≥15)位测试人9相互独立地对提升帧率前后的流畅程度进行有参考主观打分,最后取平均值作为.3 视觉自然度测试对象:系统对视频进行帧率提升后的视频2相互独立地对提升帧率前后的自然度进行有参27T/CESA1197—2022图像动态范围提升性能PSNR、SSIM测试对象:经系统提升动态范围所生成的对应图像,其中参考图像选取为原视频中的图像。测试评价方法:选取一组高动态范围(如10bit)的视频作为原视频;将原视频的动态范围进行下(如.1.1计算PSNR和SSIMPSNR应高于应高于0.6。视觉丰富度测试对象:深度合成通用图像系统提升帧率前后的视频。一组不同程度(程度由弱到强划分为多档,最弱为无缺陷,最强为缺陷很严重,此处以5档为例)的高动态范围视频,提供给K(K一组不同程度(程度由弱到强划分为多档,最弱为无缺陷,最强为缺陷很严重,此处以5档为例)的高动态范围视频,提供给K(K≥15)位测试人员作为参考视频。另提供一组由系统提升动态范围前后的视频,由测试人员依据.3.210在HDR显示器上相互独立地对动态范围提升前后的视觉丰富度进2D测试方法概述针对2D真人形象类虚拟数字人应用系统的评估方法包括材料检查和技术测试两类测评方法,具体如下:材料检查:对指标的说明文档或证明文档进行查看;技术测试:指使用预定的方法/工具使测评对象产生特定的结果,将运行结果与预期的结果进行比对验证的过程。感知 语音识别指系统对用户进行语音识别的性能表现。其性能表现依据系统中语音识别用途的不同,分别按照GB/T21023—2007中的5.2.1、5.2.2、5.2.3进行评估。声纹识别及声纹辨别测试方法:.2(两条音频属于同一声纹(两条音频不属于同一声纹).2人脸检测测试方法:建立人脸评测集,取得模型检测结果,分别计算每张图片的IOU值,再计算准确率、召回率及F1。28T/CESA1197—2022追踪定位测试方法:建立视频或视频+音频的评测集,取得模型追踪定位结果,计算准确率、召回率及F1。面部表情及头部动作识别测试方法:建立评测集,取得模型识别结果,计算精确率、召回率、F1、macro-F1以及micro-F1。手势识别测试方法:建立评测集,取得模型识别结果,计算精确率、召回率、F1、macro-F1以及micro-F1。认知自然语言理解(单轮)自然语言理解(多轮)表达形象完好性测试对象:2D真人形象类虚拟数字人应用系统中数字人的形象完好性。.1.1测试对象:2D真人形象类虚拟数字人应用系统中数字人的形象舒适性。评价方法:形象上达到让用户生理上感到舒适的程度。语音发音准确率真人形象类虚拟数字人应用系统中数字人的发音准确性。(英文记录发音错误的单词数注1:普通文本数据是指除了常见字以外,不存在多音字、数字、符号、声调发音等特殊情况的文本数据。29T/CESA1197—2022注2:特殊文本数据是指存在多音字、数字、符号、声调发音等特殊情况的文本数据。韵律准确率测试对象:2D真人形象类虚拟数字人应用系统中数字人的韵律准确性。语音舒适性测试方法:主要通过技术测试的方式进行评估,考察数字人形象是否满足.2.3的要求。将系统生成的视频统一分配给K(K≥15)位有专业背景知识的测试人员,依据表12进行主观打分,最后取均值。动作测试方法:主要通过技术测试的方式进行评估,考察数字人形象是否满足.2.3的要求。将系统生成的视频统一分配给K(K≥15)位有专业背景知识的测试人员,依据表12进行主观打分,最后取均值。动作动作契合度指系统中数字人动作与当下语境的契合度。该指标为主观性评估指标。测试对象:2D真人形象类虚拟数字人应用系统中数字人的动作契合度。测试方法:主要通过技术测试的方式进行评估,考察数字人形象是否满足.3.1的要求。将系统生成的视频统一分配给17评分规则对不同动作类型进行主观打分,最后取均值。评价方法:动作契合度达到让用户生理上感到舒适的程度。表17 动作契合度主观评分规则评测维度描述 得分54321嘴唇动作嘴唇动作是否与语音或文本契合?十分契合比较契合一般不太契合十分不契合眉毛与眼皮动作眉毛与眼皮的动作是否与语音契合?十分契合比较契合一般不太契合十分不契合眼球动作眼球动作是否自然?能够自然反应语义表达意图?十分自然比较自然一般不太自然十分不自然头部动作头部动作是否自然?能够自然反应语义表达意图?十分自然比较自然一般不太自然十分不自然上身肢体动作上身肢体动作能否与语音契合?十分契合比较契合一般不太契合十分不契合下身肢体动作下身肢体动作能否与语音契合?十分契合比较契合一般不太契合十分不契合.2 动作舒适性指系统中的数字人动作让用户生理上感到舒适的程度。该指标为主观性评估指标。30T/CESA1197—2022测试对象:2D真人形象类虚拟数字人应用系统中数字人的动作舒适性。测试方法:主要通过技术测试的方式进行评估,考察数字人形象是否满足.3.2的要求。将系统生成的视频统一分配给K(K≥15)位有专业背景知识的测试人员,通过参考表14评分规则对舒适度进行主观打分,最后取均值。评价方法:动作舒适性达到让用户生理上感到舒适的程度。 情感指系统中的数字人面部表情与当前场景的匹配程度。该指标为主观性评估指标。测试对象:2D真人形象类虚拟数字人应用系统中数字人的情感匹配度。测试方法:主要通过技术测试的方式进行评估,考察数字人形象是否满足.4的要求。将系统生成的视频统一分配给K(K≥15)位有专业
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 全球文旅REITs发展趋势分析与本土化策略研究
- 2025股权转让合同融通协议书
- 2026届内蒙古自治区通辽市霍林郭勒市数学七年级第一学期期末检测试题含解析
- 2025授权销售合同模板正式版
- 2025建筑工程装饰材料购销合同
- 邮储银行本溪市平山区2025秋招英文群面案例角色分析
- 邮储银行绥化市绥棱县2025秋招笔试会计学专练及答案
- 邮储银行葫芦岛市龙港区2025秋招笔试法律专练及答案
- 邮储银行天津市静海区2025秋招笔试计算机基础专练及答案
- 中国银行张家界市武陵源区2025秋招笔试英语阅读理解题专练30题及答案
- 医保购药报销讲解
- 学堂在线 现代生活美学-花香茶之道 章节测试答案
- 夜间驾驶知识课件
- 陕西省西工大附中2022-2023学年七年级上学期第一次月考英语试卷(含答案)
- 个人车位租赁合同(含充电桩安装)
- 2025年人教版小学六年级上册奥林匹克数学竞赛测试题(附参考答案)
- 订购包装木箱合同协议
- 订货系统培训课件
- 商混站驾驶员泵工奖罚制度
- 复杂牙拔除的临床操作
- 7.1 力(课件)2024-2025学年人教版八年级物理下册
评论
0/150
提交评论