T∕TAF 307-2025 会议系统及终端音视频质量及分级评价技术规范_第1页
T∕TAF 307-2025 会议系统及终端音视频质量及分级评价技术规范_第2页
T∕TAF 307-2025 会议系统及终端音视频质量及分级评价技术规范_第3页
T∕TAF 307-2025 会议系统及终端音视频质量及分级评价技术规范_第4页
T∕TAF 307-2025 会议系统及终端音视频质量及分级评价技术规范_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

evaluationofconferencesy2025-08-11发布2025-08-11实施电信终端产业协会发布I 1 1 1 2 2 2 3 3 3 3 4 4 4 6 9 9 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。证中心有限公司、博鼎实华(北京)技术有前业界缺少对真实应用场景的音视频质量的客1会议系统及终端音视频质量及分级评价技术规范YD/T2309—2011音频质量主观测试方法ITU-TG.122-1993onStabilityandTalkerEchoinInternaITU-TG.711脉冲编码调制(Pulsecodemodulation(PCM)ofvoicefrequencies)ITU-TP.56活动语音电平测量(Objectivemeasurementofactivespeechlevel)ITU-TP.501电话测量用测试信号(TestsignalsforuseinteITU-TP.502对于语音通信系统使用综合测试信号的客观测试方法(ObjectivetestmethodspeechcommunicationsystemsusingcomplextITU-TP.570实验室条件下的人工噪声场(ArtificialnoisefieldsunderlaboratoryconditiITU-TP.863感知客观聆听质量评估(PerceptualobjectiISO/CIE11664-6色度学第6部分:CIEDE2000ISO12233数码相机-分辨率和空间频率响应(Digitalcameraresponses)ISO17850摄影-数码相机-几何畸变(GD)测量(Photogradistortion(GD)measETSIES103106在噪声环境下的语音质量性能(Speechqualitypebackgroundnoise:Backgroundnoisetransmissionformobileterminals-objectivetestmethods)辅流secondvideo/presentation2示。辅流与主流一起,为视频会议提供丰富的信息双讲期间发送信号衰减attenuationofsignalduringd在两端同时讲话时,回声算法引入的发送方向信号的衰语音平均意见得分speech-meanopinion对抑制后的语音能量进行评分,为主观听音质量评分方式的一种,常用S-MOS噪声平均意见得分noise-meanopi对抑噪后的残留噪声质量进行评分,为主观听音质量评分方式的一种,常用N-MOS表述。在图像经过过度锐化处理后,MTF数值的最大值下降到50%时所对应4缩略语dBFS:分贝全幅波形(DecibelsRelativetoFudBSPL:分贝声压级(DecibelSoundPressDUT:被测设备(DeviceUnderTest)FPS:帧率(FramePerSecHEVC:高效视频编码(HighEfficiencyVideoCodJVET:联合视频专家组(JointVideoExpertsTeaMJPEG:运动静止图像压缩技术(MotionJointPhotographicExpertsGrouMTF:调制传递函数(ModulationTransferFunctiPNG:便携式网络图形(PortableNetworkGraphics)PSNR:峰值信噪比(PeakSignaltoNoiseRaSSIM:结构相似性(Structural3——信令服务器:完成视频会议的注册或鉴权、呼叫或路由等信令处理,实现会议过程中的呼叫控制——媒体服务器:——会议终端:作为会议系统中和用户直接交互的设备,实现音视频的采集、编解码和显示等功5.2终端设备类型4率需要满足如下三种要求的一种,采样率技术5在视频会议实际应用中,会议室常规拾音距离包括6m和10m,因此会议终端的S-MOS和N-MOS需要满足如下三种要求的一种,S-MOS和N-MOS技术要N-MOSN-MOS会议终端的语音能量需要满足如下三种要求的一种,语音能量技术要求响场景下主观听音体验需要满足如下三种要求的一种,大混响场景下因此会议终端对回声耦合损耗需要满足如下三种要求6MTF50P≥0.4MTF50P≥0.35MTF50P≥0.3MTF50P≥0.35MTF50P≥0.32MTF50P≥0.297色彩准确度测试,对色卡的色差要求如下,应满足三种要求的一种,色彩准确度技术要求见MaxΔC≤10且MeanΔMaxΔC≤12且MeanΔCMaxΔC≤14或MeanMaxΔC≤8且MeanΔCMaxΔC≤10且MeanΔCMaxΔC≤12或Mean会议终端对色彩饱和度的要求如下,应满足三种要求的一种,色彩饱和度技术要求见表12。8色彩饱会议终端对白平衡的要求如下,应满足三种要求的一种,白平衡技术要求见表1情况判为优秀;出现虚焦或图像画面不清晰的情况判为不合格。求如下,应满足三种要求的一种。测试时,需要在真实场景中持续5min测试,记录对焦时间所占整体时间的百分比S和失焦后快速对焦的时间t,自动对焦技术会议终端对纹理的要求如下,应满足三种要求的一种,纹理技术要求见表19会议终端对噪声的要求如下,应满足三种要求的一种,噪声技术要求见表1会议终端对视频的对比度要求如下,应满足三种要求的一种,对比度技术要求见表17。会议系统端到端延时需要满足如下三种要求的一种,端到端延时技术要求见表1能力。因此会议系统的主观MOS需要满足如下三种要求的一种,混响环境端到端主观MOS技术要求见会议系统的语音能量需要满足如下三种要求的一种,语音能量技术要求的一种,大混响场景下主观听音体验技术要因此会议系统对回声耦合损耗需要满足如下三种要求的一视频会议系统端到端的最高分辨率要求如下,应满足三种要求的一种,分辨率技术要求见表26。视频会议系统的图像还原度需要满足如下三种要求的一种,图像还原度技术要求见表27。4K30@4Mbps或视频会议系统的音画同步需要满足如下三种要求的一种,音画同步技术要求见表29。统的编码码率需要满足如下三种要求的一种,码率超编技及丢包,视频弱网适应性主观MOS需要满足如下三种要求的一种,弱网适应性主观MOS技术要求见表会议系统端到端延时需要满足如下三种要求的一种,端到端延时技术要求见表3大于6m,宽度应大于3.5m,高度在2.8m到3.25链路的电平/音量设置应确保0dBFS正弦信号数字音频的所对应的电平为3麦克风录制增益调到100%,不开启任何麦克风增益对于一体式会议终端,其安放示意图见图5。若测试,否则需要将待测终端安装在墙体上进行测试。测试距离——图像捕捉软件:静态图像采集格式设置为PNG或——环境温度:15℃~35℃;——相对湿度:5%RH~85%RH;——光源要求:测试光源应采取遮光措施,防止直射图卡或镜头。实测光源色温标准偏差范围为±200K;——测试图卡照度均匀性要求:在指定光源下,测试图卡中心照度与指定照度之差应不大于10——测试图卡背景要求:测试图卡背景(包括背板及周围墙面)采用反射率18%的中性灰(N5)涂料,测试图卡周围(包括图卡置具)应为低反射率——Horizon:H光,色温2300K,暖黄色调本文件中测试所需的图卡包括:标准斜边测——24色卡:使用ColorChecker®24PatchClassic测试图——彩色枯叶图:包括枯叶图纹理细节图样和灰阶块图样,枯叶区域最大对比度范围为3:1,包含2:1和4:1对比度的斜边、定位标记和16个灰阶块。创建灰阶块的线——36阶透射式动态范围测试卡:背景色为中灰,包括36个不同光密度的低噪声密度灰度色块;——均匀光源箱:发出均匀的漫射光,表面照度均匀度不低于93%;8.1.1.2.6测试分辨率、帧率及为确保视讯设备的摄像头输入质量,设备最低需支持1920×1080@测试码流格式的选择遵循以下原则:在分辨率及帧率同时满足以上要求的前提下,优先测试YUY2/NV12格式;若不能同时满足分辨率、帧率要a)测试信号使用ITU-TP.501标准AITU-TP.863的要求,使用48kHz采样。通过Line-in方式将信号输入给待测终端;b)在参考客户端/同待测终端同样的真实终端侧录制音频;c)通过专业音频分析软件分析录制音频的——测试环境为8.1.1.1.1所规定的——测试位置按照8.1.1.1.4的描a)测试信号使用ITU-TP.501标准AnnexC.2.2的中文真人语音ITU-TP.863的要求,使用48kHz采样,并按照ITU-TG.191的规定滤波至5段的中心位置。嘴参考点处根据ITU-TP.56计算的信号活动语音电平为-4.7dBPa;b)将人工嘴放置在距离设备中心6m及10m位置;注:本文所指0dBFS是幅度为满量程的方波的能量。对于根据ITU-TG.711规定的0dBFS正弦波对应能量为3.14dBm0(A-law)和3.17dBm0(μ-law)的编码信号基准,0dBFS方波对应于——测试环境为8.1.1.1.1所规定的——测试位置按照8.1.1.1.4的描——测试链路按照8.1.1.1.2的描述进行组2)测试信号使用ITU-TP.501标准AnnexC.2.2中文真人语音信号(两男两女),该信号需按照ITU-TP.863的要求,使用48kHz采样,并按照ITU-TG.191的规定滤波至50H应位于8s片段的中心位置。嘴参考点处根据ITU-TP.56计算的信号活动语音电平为-4.7dBPa(正常语音能量)和-14.7dBPa(3)测试信号使用符合ITU-TP.501第7.4节规定的真人语音信号;——设备测试环境为8.1.1.1.1规定的测——测试位置按照8.1.1.1.4的描述进——测试链路按照8.1.1.1.2的描述进行组2)测试信号使用ITU-TP.501标准AnnexC.2.2中文真人语音信号(两男两女),该信号需按照ITU-TP.863的要求,使用48kHz采样,并按照ITU-TG.191的规定滤波至50H应位于8s片段的中心位置。嘴参考点处根据ITU-TP.56计算的信号活动语音电平为-4.74)主观听音人员不得少于5人,包含声学专家和非专业人员(需通过听力筛查);5)原始音频播放,将测试信号直接通过测试环境1的PC+监听音箱进行播放,播放声压级控7)5)和6)步骤重复3次,主观听音人员根据附录B音频质量主观等级评分标准进行;8)所有人员测试完成,将评分结果取平均值即为最终得分。1)主观听音人员在测试环境2进行听音测试,距离待测设备中心6m位置;2)测试信号使用符合ITU-TP.501第7.4节规定的真人语音信号;4)主观听音人员不得少于5人,包含声学专家和非专业人员(需通过听力筛查);5)原始音频播放,将测试信号直接通过测试环境2的PC+监听音箱进行播放,播放声压级控6)终端音频播放,将参考终端发送3)步骤信号给待测终端,待测终端进行信号播放,播放7)5)和6)步骤重复3次,主观听音人员评分根据附录B音频质量主观等级评分标准进行;8)所有人员测试完成,将评分结果取平均值即为最终得分。——设备测试环境为8.1.1.1.1中规定的——测试位置按照8.1.1.1.4的描述进a)测试信号使用符合ITU-TP.501第7.3.3节dBm0。同时在视频会议参考客户端录制传回来的语音信Hz频带范围内,计算出回声耦合损耗。——设备测试环境为8.1.1.1.1中规定的——测试位置按照8.1.1.1.4的描述进a)测试信号使用符合ITU-TP.501第7.3.5节和第7.3.7节的真人语音信号。整个测试信号由一个ITU-TP.501第7.3.7节的初始训练语音和符合第7.3.5节的双向通话语音组成。双向通话序列被分为两部分,第一部分双向通话序列近端为单个),词语(第一部分)和整句(第二部分)注入参考客户端号词语(第一部分)和整句(第二部分)按7.1.2.1节和8.1.1.2节的要求,分别在CWF80lx、6500K果上述取景距离不满足设备的景深范围,则可调节设备与图卡之间的距离,但是最近距离下需保证VFOV内完整显示图卡的上下边缘。对于具有自动对焦功能的设备,每个分辨率及光源下拍3-5张,每取图卡中心方块的四条斜边,通过对单边线扩散函数(LSF)进行标准离散傅里叶变换(DFTLSDw,(j)——由图中所选区域构成的窗化的、平按8.1.1.2节的要求,取7.1.2.2节中拍摄的标准斜边测试卡图片,选取中心方块的四条斜边,分别按以下公式计算锐化强度。计算结果为正时则为过度锐化Oversharpening,结果为负时则为锐化不足Undersharpening,记录其中绝对值最大的数值。此时空间频率较低,容易受锐化算法的影响;空间频率更高时的MTF则更取决于镜头及图8.1.3.4延时家单独提供的摄像头单体组件,也可按此方查看上述步骤拍摄的照片或截屏,记录计时器的原始时刻ti2和被测设备采集画面中的显示时刻ti1,有条件的情况下,也可利用专业延时测试设备或软件工具进行此查询得到24个色块的L*、a*、b*标准值。采用CIEDE2000色差公式(△E00计算每个色块经饱和度校正后的色度差△C00_corr,记录立地计算色彩误差,选择色度差△C00作为测试项,去掉明度差的影响,如下面公式所示:计算前,需对所测得的色度值进行饱和度校正,过程如下面公a_Crr、bi_Crr——校正后的色度值;a_meas、bi_meas——测试所得色度值;Sat——色彩饱和度(×100)。按8.1.1.2节的要求,取7.1.2.6节中拍摄的色卡图片,选取第1-18个色块,在每个色块中部截取面积不小于50%的区域,分别测出对应色块的R、G、B值,根据sRGB色域换算到a_meas、bi_meas——测试所得色度值;a_ideal、bi_ideal——图卡的标准色度值;出各自相应的L*、a*、b*测试值。根据色卡的参考文件,查询得到第19-24灰块代入第9.1.7节中的CIEDE2000△C00色差公式,计算第19-24灰块的色度差(无需进行饱和度校正),像头1m~5m范围内来回移动,当纸片人静止时,实时计算全图的梯度,最后计算梯度总大时对焦成功。测试图卡采用扇形星测试图卡,具体计算方法如下面公Gx=*IGy=*I梯度幅值为:lGxl+lGyl。按7.1.2.9节和8.1.1.2节的要求,分别在CWF80lx、6500K取景下的拍摄距离不满足其景深范围,则可调节被测设备与图卡间的距离,但是最近距离下需保证彩色枯叶图3-5张,每张之间重新触发自动对焦,选取各光源下最清晰的图片。像素密度146PPI,观测距离50cm),计算纹理锐度PSD——功率谱密度(powerspectraldensi),CSF(v)=a.vc.e__bv…………(11)k值取决于观测距离,k=5.distance.π/180,单位是degrees。积分区间vc为截止频率,应设定为显示器的最大分辨率,即奈8.1.3.10噪声画面明显模糊,则换用更大尺寸的色卡。按以下公式计算第22灰块Y通道的SNR=20l0g10(S/N)…………(13)σtempral…………(14)σ(I1__I2)是两张图片间的噪声再将TemporalNoise结果代入空间噪声的SNR公式,计算得到第22灰块Y通道的SNRTemp(dB)。最后平均加权计算整体噪声,空间噪声和时域噪声权8.1.3.11对比度按8.1.1.2节的要求,取7.1.2.11节中拍摄的色卡图片,测量第19白块及24黑块的亮度值,分别记为按8.1.1.2节的要求,取7.1.2.12节中拍摄的色卡图片,测量第22灰块的R、G、B值,按以下公式计——相对湿度:5%RH~85%RH;最终房间的混响时间应在0.4s到0.7s之间。两个房间具体各频段混响时间应符合表37,房间内的噪声声级应控制在30~34dBSPL(A)。——测试环境2:为测试大混响场景下的拾放音体验,发送和接收方向的测试房间应满1)发送方可用于测试房间的长度应大于6m,宽度应大于3.5m,高度在2.8m到3.25m之间,2)发送方可用于测试房间的长度应大于6m,宽度应大于3.5m,高度在2.8m到3.25m之间,房间具体各频段混响时间应符合表38,房间内的噪声声链路图如图8所示。当测试项需要模拟背景噪声的情况下,可测试链路中的待测发送终端和待测接收终端均为同一箱采用一对组合方式,放置在靠近墙体的位置。分布式麦克风的摆放位置可根据测试项进行本文件中摄像头相关的客观测试应在如下测试——环境温度:15℃~35℃。本文件中摄像头相关的视频主观评分测试应在如下测试——测试视频序列:模拟会议室人员运动,构造码率超编场景;——计时器:精度10ms以内,计算帧率——图像捕捉软件:静态图像采集格式设置为PNG或BMP,计算图像PSNR和——测试环境为8.2.1.1.1所规定的离分布式MIC中心小于1m,接收端人工耳距离扬声器发射平面小于1m。a)测试信号使用ITU-TP.501标准AnnexC.2.3的中文真人语音ITU-TP.863的要求,使用48kHz采样,并按照ITU-TG.191的规定滤波至5度。该中文真人信号应按照8s一个片段,组b)使用人工嘴播放该真人语音信号,嘴参考点处根据ITU-TP.56计算的信号活动语音电平为-4.7c)播放语音的同时在会议对端使用人工耳录制输出的语音信号。按照ITU-TP.863标准定义的方——测试环境为8.2.1.1.1所规定的发送端人工嘴距离分布式MIC中心1.5m,接收端主观听音座椅中心距离扬声器发射平面最远不超过6m。a)测试信号使用ITU-TP.501标准AnnexC.2.2的中文真人语音ITU-TP.863的要求,使用48kHz采样,并按照ITU-TG.191的规定滤波至5度。该中文真人信号应按照8s一个片段,组片段的中心位置。嘴参考点处根据ITU-TP.56计算的信号活动语音电平为-4.7dBPa;c)主观听音人员不得少于5人,包含声学专家和非专业人);d)原始音频播放,将测试信号直接通过测试环境1的PC+监听音箱进行播放,播放声压级控制在e)终端音频播放,将接收终端接收到的信号通过待测系统进行播放,播放声压级控制在65~70f)d)和e)步骤重复3次,主观听音人员MOS评分根据附录B音频质量主观等级评分标准进行;g)所有人员测试完成,将评分结果取平均值即为最终得分。——测试环境为8.2.1.1.1所规定的离分布式MIC中心1.5m,接收端人工耳距离扬声器发射平面最远不超过6m。P.863的要求,使用48kHz采样,并按照ITU-TG.191的规定滤波至50Hz~1心位置。嘴参考点处根据ITU-TP.56计算的信号活动语音电平为-4.7dBPa;c)用人工耳录制输出的语音信号,计算100Hz至14kHz频带范围内录得语音——测试环境:为8.2.1.1.1所规定的测端人工嘴距离分布式MIC中心1.5m,接收端主观听音座椅中心距离扬声器发射平面最远不超a)测试信号使用ITU-TP.501标准AnnexC.2.2的中文真人语音ITU-TP.863的要求,使用48kHz采样,并按照ITU-TG.191的规定滤波至5度。该中文真人信号应按照8s一个片段,组片段的中心位置。嘴参考点处根据ITU-TP.56计算的信号活动语音电平为-4.7dBPa;b)在中间传输网络上设置不同网络环境,如6.2.1.4描述的测试条件;d)主观听音人员不得少于5人,包含声学专家和非专业人员(需通过听力筛查f)终端音频播放,增加网络延时、抖动及丢包条件,播放2段以上音频后,将接收终端接收到的信号通过待测系统进行播放,播放声压级控制在65~70dBSPLg)e)和f)步骤重复3次,主观听音人员MOS评分根据附录B音频质量主观等级评分标准进行。h)所有人员测试完成,将评分结果取平均值即为最终得分。——测试环境为8.2.1.1.1所规定的测试环境1心6m;分体式终端设备按照8.2.1.1.4的描述进行设置,发送测试终端在测试环境2,接收测试发射平面最远不超过6m。1)测试信号使用ITU-TP.501标准AnnexC.2.2中),照ITU-TP.863的要求,使用48kHz采样,并按照ITU-TG.1应位于8s片段的中心位置。嘴参考点处根据ITU-TP.56计算的信号活动语音电平为-4.73)主观听音人员不得少于5人,包含声学专家和非专业人员(需通过听力筛查);4)原始音频播放,将测试信号直接通过测试环境2的PC+监听音箱进行播放,播放声压级控6)d)和e)步骤重复3次,主观听音人员听音体验根据附录B音频质量主观等级评分标准进7)所有人员测试完成,将评分结果取平均值即为最终得分。心6m;分体式终端设备按照8.2.1.1.4的描述进行设置,发送测试终端在测试环境1,接收测试发射平面最远不超过6m。),照ITU-TP.863的要求,使用48kHz采样,并按照ITU-TG.应位于8s片段的中心位置。人工嘴参考点处根据ITU-TP.56计算的信号活动语音电平为2)主观听音人员在测试环境2进行听音3)主观听音人员不得少于5人,包含声学专家和非专业人员(需通);4)原始音频播放,将测试信号直接通过测试环境2的PC+监听音箱进行播放,播放声压级控6)d)和e)步骤重复3次,主观听音人员听音体验根据附录B音频质量主观等级评分标准进——设备测试环境为8.2.1.1.1所规定的——测试位置按照8.2.1.1.4的描述进计算的信号活动语音电平为-4.7dBPa;c)并在接收端测试设备LineOut接口录制传回——设备测试环境为8.2.1.1.1所规定的——测试位置:将待测终端按照8.2.1.1.4的描述进a)测试信号使用符合ITU-TP.501第7.3.5节和第7.3.7节的真人语音信号。整个测试信号由一个ITU-TP.501第7.3.7节的初始训练语音和符合第7.3.5节的双向通话语音组成。双向通话序列被分为两部分,第一部分双向通话序列近端为单个词语(0),LineOut记录对应的输出语音。之后再对两个录音的时域信号进行分析。两种注入参考客户端近端语音测试信号c)根据ITU-TP.502定义的计算方法,根据在仅近端语音和有双讲发生两种情况下的录音,分析8.2.3.1分辨率——分辨率@帧率720P@30fps,带宽768Kbps。——首先,计算均方误差(MeanSquaredErro设原始图

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论