MTSC2025 第十四届中国互联网测试开发大会（上海站）：TME AIGC生成音频质量保障建设

上传人：策*** IP属地：山西上传时间：2025-11-29 格式：PPTX 页数：36 大小：14.03MB 积分：19.9 举报 版权申诉

MTSC2025 第十四届中国互联网测试开发大会（上海站）：TME AIGC生成音频质量保障建设_第2页

MTSC2025 第十四届中国互联网测试开发大会（上海站）：TME AIGC生成音频质量保障建设_第3页

MTSC2025 第十四届中国互联网测试开发大会（上海站）：TME AIGC生成音频质量保障建设_第4页

MTSC2025 第十四届中国互联网测试开发大会（上海站）：TME AIGC生成音频质量保障建设_第5页

已阅读5页，还剩31页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

TMEAIGC生成音频质量保障建设徐曼娜目录01议题背景02AIGC音频评测标准体系构建03AI驱动的主客观评估引擎04规划与展望01

议题背景

高品音质银河音效耳机适配

经典录唱实时歌房/直播音效合成TME海量音频资源，核心玩法听歌/唱歌/直播，音频体验重中之重传统玩法—>创新玩法背景业务AI角色互动AI作歌

启明星背景业务

真人演唱声优演绎厂牌制作固参预设TTA-歌声合成

TTS-语音合成

TTM-音乐合成臻品音质

AI歌声音色魔法师

智能音效

臻品母带有声书AIGC音频评测面临的挑战海量样本处理困境频有，

。

01传统抽样检测机制存在覆盖度与时效性缺陷限的人工评测资源难以应付指数增长的生成音反馈机制脱节单向质量检测无法构建"评估-优化"闭环，导致模型迭代周期与业务需求增长评测速率出现代际差。评估维度缺失风险既有的客观评测工具在语音合成的自然度、音乐创作逻辑性等AI特有维度缺乏有效度量标准。0302客观评测工具基础指标质量指标…音质指标噪声检测多维评价其他维度主观评测实践评测方式评测人员AI生成类业务大模型音效

TTSSVC

SVS

AIcodec音质音效类业务音质项目3A算法延迟&对齐

混音/修音质量专项AIGC音频质量保障体系构建思路定制化检测工具入库实时云控竞品对比分析音频算法准入指标音质自然度相似度音乐性文本语料歌声语聊prompt算法迭代闭环评测标准构建样本库评测维度TME音视频评测平台-天秤badcase…采样率/位深

…音频测评实验室金耳朵资源双音频对比音频愉悦度音色相似度音频优质度内容可用度内容复杂度解码错误无效参数类型错误音量大小音频指纹用户众测专家测评专业标注长空白音假Hires假无损对齐度爆音时长断点……AIGC音频评测标准体系构建02AIGC音频分类关键词动态样本引擎•解决模型泛化能力不足•突破对抗样本防御盲区•消除数据偏见风险•应对生成技术代际差异•打破单一指标局限性•统一行业评价基准•揭示隐性安全风险•驱动技术迭代方向AIGC音频评测标准体系构建建立可解释的评测维度标准构建完备的样本资源库智能评估矩阵基于LLM的智能化测试样本基于数据收集的样本样本库构建核心问题挖掘策略缺陷特征聚类+挑战性样本分层测试体系设计模块化架构构建多粒度测试集智能物料生成技术大模型加持提效Badcase累计全音素设计固化量级层级分明分类简单素材选段动态量级边界攻击样本设计样本库构建智能物料生成核心问题挖掘样本库语言场景情感模型生成效果评测LLM测试用例生成DeepSeekGPT4.0Hunyuan…【历史】业务数据+top选段+badcase语义错误优质效果发音混淆知识盲区音乐领域专项全音素攻击上下文敏感分层测试体系声学陷阱情感叠加垂类术语热点领域音素覆盖语法歧义混合语种韵律边界特殊符号多音字超长文本用户生产组合层基础层边界层业务层Zero-shotFew-shotGPT-Sovitssyntaspeech

…音色克隆语聊

音乐制作

…音质自然度音乐性相似度…评测维度标准构建AIGC音频评测重点内容质量基础质量评测标准重要依据基础指标模型分类音质指标业务重点特征解耦假无损

假Hires音量时长…

质量指标

无效规则参数音频类型错误采样率/位深解码错误长空白音杂音爆音……评测维度标准构建-通用标准AIGC音频通用评测标准常见AIGC音频问题信息错误情感未表达旋律突兀音色不匹配音调失衡平铺直叙轻重音错位停顿不当电音机械感吞音音节增多抖动评测维度标准构建-细化标准

TTM

TTMTTS自然度停顿语速高低音轻重音情感口语化音色多音字数字&字符多语种音质清晰度杂音、混音

拟人感

字错率

音乐性

音质

匹配度自然度

创造性

喜爱度情感技巧旋律配器演唱技巧节奏旋律和弦音乐结构歌词乐器场景流派人声音质伴奏音质韵律发音TTS03

AI驱动的主客观评估引擎识别生成痕迹深度学习+对抗训练实时生成样本+跨模型开源模型+自数据调整主动防御体系模型算法调优聚焦物理声学特征基于DSP信号处理固定声学场景样本库阈值判定模型基于badcase规则过滤AI驱动的主客观引擎AIGC音频检测工具传统音频检测工具全民K歌AI歌声QQ音乐启明星音色魔法师角色互动1•客观音质工具效率高，但无法衡量核心体验•主观评估反映真实体验，但回收耗时长2•主观盲测群体不完全一致AI驱动客观工具-音色相似度背景急需建设覆盖语音+歌声场景的音色相似度评测工具主客观评测效率差异大缺乏衡量相似度的评测工具业务背景效果二原声效果一痛点•

改进有参考质量评价算法-

改进型ERes2NetV2架构-公开&私有数据集联合训练、

finetune-

多尺度特征融合-

输入层优化-

残差块级联策略•

创建主观标注数据集-语音+歌声的多类型的数据覆盖-关键预处理：VAD有效片段识别/空白帧抽离AI驱动客观工具-音色相似度算法歌声分离音色：多语种、多流派、多场景多情感数据集多方言数据集•

…•••

算法落地策略•

-多语言SDK：提供servicedemo业务快速开发•

-OpenAPI：

GPU弹性平台部署，快速接入使用模型AI歌声svc3.0AI歌声svc4.0AI歌声svc4.2优化前模型相似度0.490.480.59优化后模型相似度0.660.700.80主观评测相似度0.610.650.71效率提升人力节省：

60%流程优化:

50%•

专项评测测试耗时3d-

>1d•

算法准入，迭代频次下

降50%应用广泛接入场景：

3+累计数据：

3k+•

AI歌声、AI试听、AI互动

等场景•

支持评测频次3k+，准确

率超95%•

收益-

贴合业务场景，准确性高，可拓展性强-

质效提升，流程精简AI驱动客观工具-音色相似度算法业务数据集表现QQ音乐AI做歌启明星AI作曲Prompt:抒情，安静，温柔，

popVerse:告别温暖的梦冷风吹散心痛

对未来的轻拥希望别再仓促

一瞬间的美好心中久久不老

即使未来多难依然记得那桥1•

评测前期培训成本大•可靠的大规模评测耗时长•算法迭代支持度不佳2•可解释性的多维度评价明确优化方向•现有工具在AIGC场景适用性&鲁棒性不佳AI驱动客观工具-AI评价模型背景业务背景痛点挑战：建设能反映多维度主观效果的音频评估工具，对AIGC类音频全面评估。缺乏多维度衡量的评价系统主观评测繁杂回收周期长效果一效果二•

优化无参考质量评价算法-

Transformer架构+WavLM音频编码器-

首层卷积核调整+新增谐波增强模块-

时序建模+多尺度窗口注意力-

MLP决策：音频优质度+内容可用度+内容复杂度+音频愉悦度•

创建主观数据集-

去除原训练数据音效样本-

增设真人演绎/AIGC类干声/音乐数据-

时长优化(8.3->12)-

众包标注可靠性保障训练音频种类详细类型原部分训练数据音乐/语音片段录唱干声优质/一般/劣质干声片段录唱作品优质/一般/劣质歌曲片段音乐生成歌曲音乐生成模型（suno/udio/天工等）作品SVC(歌声转换)干声ai歌声转换作品干声TTS(语音转换)干声ai语音/有声书作品干声AI驱动客观工具-AI评价模型算法专业团队众包标注方式，独立人次30+/每条音频•

创建模型实现流程-

数据集构建、标注、清洗与预处理-

客观无参考音频质量评估架构设计：

网络模型构成&模型训练-

评估方案建设、效果评估&调优模型CEPQPCCUAI试听v16.187.816.537.31AI试听v26.267.816.547.31主观评测V2较优差异不大差异不大差异不大专业度提升接入场景：

5+累计数据：

1k+•

AIGC算法、内容宣发赛事等

专业质量保证效率提升人力节省：

40%精准分析

20%•

专项评测测试耗时3d->2d•

对于算法优化点节省分析耗

时20%•

收益-

强力支撑算法及活动赛事多维度效果评价参考-

质效提升，归因明晰AI驱动客观工具-AI评价模型算法业务数据集表现QQ音乐AI角色互动QQ音乐音乐播客QQ音乐长音频岭南的柠檬牛奶酿出了独特风味。阿婆熬的藕粉含有薄荷的独特味道。1•易混淆音素主观评测存在差异•错误处需要反复确认，效率低•错字错句展列的wer统计方式繁琐2•对于发音、多音字、语种等模型处理能力没有工具进行快速对比，影响业务落地。AI驱动客观工具-WER检测工具背景急需建设快速评价信息准确率的检测工具

Ps：WER为Word

Error

Rate主观评测准确率不高，效率低缺乏衡量信息准确度的工具业务背景痛点模型/工具优点缺点适用场景Whisper

多语言支持优秀

预训练质量高，长音频处理稳定

社区生态完善

模型体积大（如

large-

v3约

3GB）

纯中文场景需微调提升准度

实时性一般（CPU推理慢）多语言混合、学术研究、

非实时场景FunASR

中文场景

SOTA准度

支持实时/离线识别

工业级优化（高噪声鲁棒）

依赖较多组件（需安装ModelScope）

多语言支持弱于

Whisper企业级中文语音转写、实时交互Paraformer

非自回归结构，推理速度快

高噪声环境表现优秀

长音频支持

需自行微调训练X资源消耗中等（比Whisper低）X文档较少客服录音分析、会议记录WeNet

端到端设计，部署简单

流式识别延迟低

（~200ms）

支持嵌入式设备X纯中文需自训练

长音频分段处理效果下降实时语音交互、

IoT设备Wav2Vec2

中文版

低资源场景表现好

适合学术研究

可迁移学习

需大量中文数据微调

实时性差

工业场景准度不足学术实验、小规模定制化HuBERT

中文微调

半监督学习，低资源有效

语音表征学习能力强

训练复杂度高

X需搭配ASR框架

非端到端设计语音研究、定制化声学模型•

wer工具架构设计三段式架构设计，识别模块的核心为whisper模型，检测模块贴合业务设计汉字-拼音双校验机制•

开源模型调研对比现有的成熟可靠的ASR模型作为检测核心——Openai-whisper模型AI驱动客观工具-WER检测工具•收益-质量提升，高敏感反映语音清晰度，构建算法评测及业务内容准入标准-效率提升，大幅降低人力投入，异常快速聚类锁定优化方向效率提升人力节省：

80%流程优化:

70%•

专项评测测试耗时3d->0.5d•

业务生产内容wer标准准入质量提升接入业务：

4+累计数据：

5k+•

算法基座模型、声码

器wer检测支持•

wer及发音清晰度量化输出•

工具迭代优化-

音乐领域专属名词维护-

语气词识别兼容-

数字/电话精准分化AI驱动客观工具-WER检测工具数据集精准率召回率F1分数)全场景数据约80%+约90%+约80%+业务数据集表现AI驱动客观工具-AI音质音效检测算法缺陷挖掘•

算法问题定性•明确检测方向缺陷判定：特定频段衰减方案+代码直出AIcoding调整补全LLM+AIcoding•

描述检测问题•

需求代码直出算法问题检出迭代验证闭环迭代检测闭环•

多轮复检•

监控入库示例支持功能主观评测：质量评测、AIGC标注评测、自定义任务客观指标：音视频指标计算结果分析：图表展示、聚类分析支持类型视频、音频、文本、图片、AI对话整体优势多种平台支持多种展示模式多种打分机制自动数据分析主观评测实践-天秤评测平台Mos/Dmos/JND单/双音视频评测•

AI歌声SVC效果提升-

竞品对比分析-

算法优化•流量分发&生态建设–优质作品推荐分发–导唱库生态建设AI驱动的主客观评估引擎-实践案例基于AI驱动的主客观评估引擎-

入库监控：基础音质检测-

测试评估：样本库+自动化处理+相似度/评价系统等客观工具支持+天秤主观盲测平台•

工具接入情况-

支持业务：

QQ音乐、全民K歌及酷狗等10+音频业务-

应用范围：

SVC/SVS/TTS相似度优化，TTM好听度优化、伴奏&导唱库质量提升专项、音质优化算法-

调用次数：

SDK/API接入10w+•

协同合作-TME&腾讯Oteam分享开源AI驱动的主客观评估引擎-落地业务基础指标监控质量指标监控

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

MTSC2025 第十四届中国互联网测试开发大会（上海站）：TME AIGC生成音频质量保障建设

文档简介

温馨提示

最新文档

评论

MTSC2025 第十四届中国互联网测试开发大会（上海站）：TME AIGC生成音频质量保障建设

文档简介

温馨提示

最新文档

评论

相关文档