版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
准确率提升的同时服务容量翻倍--
小米语音识别端到端系统升级之路范利春小米集团技术委员会 AI实验室目录小米小爱业务中的语音识别方案端到端语音识别系统升级中的极致的响应速度和准确率优化GPU使用效率提升的动态Batch优化GPU使用效率提升的半精度浮点推理优化a2m.msup背景小米公司的印象a2m.msup背景小米公司的印象a2m.msup背景小米6.99亿链接到IOT平台的智能设备包括小米汽车、手机、音箱、电视、手表、手环、生态链产品等涵盖了6161款支持语音交互的产品「人车家全生态」a2m.msup背景语音识别:小爱语音交互的入口语音识别ASR唤醒KWS语义理解NLP结果满足SKILL语音合成TTS语音文字小爱同学a2m.msup背景如何降低云端服务成本?如何提升语音识别的准确率?降本增效识别内容覆盖60+个垂域每天识别约2.7亿条来自小爱智能助手的语音大模型时代,用户对智能助手的预期提升说法多种多样,更偏口语化a2m.msupP1.
小米小爱业务中的语音识别方案a2m.msup小米语音方案传统语音架构声学训练语言训练训练复杂声学数据语言数据声学模型语言模型准确率低解码算法语音建模帧率高成本高昂解码算法相对复杂a2m.msup小米语音方案端到端语音架构联合建模准确率高节省算力离线部署传统语音架构a2m.msup小米语音方案encoder-decoder结构的端到端语音识别小米语音方案a2m.msup建模粒度大帧率低时序建模有大量Blank可以跳过P2.
端到端语音识别系统升级中的极致的响应速度和准确率优化a2m.msup关键实践1关键实践1:极致的响应速度和极致的性能基于Zipformer的encoder-decoder结构的端到端语音识别a2m.msup关键实践1:极致的响应速度和极致的性能基于Zipformer的encoder-decoder结构的端到端语音识别《ZIPFORMER:AFASTERANDBETTERENCODERFORAUTOMATICSPEECH
RECOGNITION》《SUBLLM:
A
Novel
Efficient
Architecturewith
Token
Sequence
Subsampling
for
LLM》a2m.msup关键实践1:极致的响应速度和极致的性能流式端到端识别Fig.
1Fig.
2性能平衡具体方案:
Chunk模式解码效率具体方案:
Input/output
cachea2m.msup关键实践1:极致的响应速度和极致的性能a2m.msup/
坑1
/
尖峰滞后关键实践1:极致的响应速度和极致的性能流式端到端方案带来的尖峰滞后现象尖峰滞后现象解决方案(a)解决方案(b)《TrimTail:Low-LatencyStreamingASRwithSimplebutEffectiveSpectrogram-LevelLength
Penalty》a2m.msup关键实践1:极致的响应速度和极致的性能流式端到端方案带来的尖峰滞后现象解决方案(c)解决方案(d)《DELAY-PENALIZEDTRANSDUCERFORLOW-LATENCYSTREAMING
ASR》a2m.msup关键实践1:极致的响应速度和极致的性能a2m.msup/
坑2
/
内置语言模型关键实践1:极致的响应速度和极致的性能端到端系统下的热词注入米家个人设备管理 座舱显示屏上的内容a2m.msup关键实践1:极致的响应速度和极致的性能基于syllable建模,提升热词能力建模粒度大a2m.msup音节建模语音识别解码架构图关键实践1:极致的响应速度和极致的性能a2m.msup速度和极致性能优化小结关键实践1:极致的响应速度和极致的性能Zipformer算法尖峰前移个性化识别a2m.msup手机、音箱、电视句错相对下降20%P3.
GPU使用效率提升的动态Batch优化a2m.msup关键实践2关键实践2Batch推理优化GPU交互:线程内串行,线程间并行,每个线程独享一个流T4服务器:高峰时段CPU14%
+
GPU80%特征提取AM[2]推理解码“今天天气”GPU特征提取AM推理解码“播放音乐”thread
1:thread
N:…
…a2m.msup关键实践2Batch推理优化特征提取AM推理解码“今天天气”GPU特征提取AM推理解码“播放音乐”thread
1:thread
N:…
……83462112345678a2m.msup123人满发车超时发车P4.
GPU使用效率提升的半精度浮点推理优化a2m.msup关键实践3关键实践3为什么使用半精度浮点NVIDIA
T4高通芯片a2m.msup关键实践3半精度浮点的范围fp16的取值范围是
5.96e-8
~
65504a2m.msup溢出精度损失关键实践3从模型层面解决溢出的模块LayerNorm替换成L1LayerNorm《Towards
Fully
8-bit
Integer
Inference
for
the
Transformer
Model》a2m.msup关键实践3从模型层面解决溢出的模块Softmax
Attention替换成PolyAttn《Towards
Fully
8-bit
Integer
Inference
for
the
Transformer
Model》a2m.msup关键实践3改进模型训练手段:对模型参数进行截断FP16溢出问题LossvarmaxminWER方案similarity1w3.04632.7325.18-57.244.54%-97.60%1w-CLAMP23.04333.548.91-8.544.64%【mean-3*var,mean+3*var】99.50%1w-CLAMP32.99842.7937.3117-7.67674.39%【mean-1,
mean+1】99.09%a2m.msup关键实践3进一步定位溢出的OP按Module查:查看每个模块的输入输出数值是否超出FP16范围的数按OP查:查看每个算子的输入输出数值是否超出FP16范围导出时候对溢出的处理在溢出的算子或者模块前进行scale;这些scale在L1LayerNorm之后会消失(仅需对μ进行scale);a2m.msup关键实践3torch.matmul(q/FP16_SCALE,
k/FP16_SCALE)FP16精度定位问题(两台显微镜)解决问题(三把手术刀)按Module查限制参数训练Operation
Scale按Operation查Module替换param.clamp_(mean-3*var,
mean+3*var)LayerNorm替换成L1LayerNormSoftmax
Attention替换成PolyAttn半精度浮点推理优化总结a2m.msup案例总结总结端到端建模GPU并行度优化FP16推理优化Zipformer算法尖峰前移个性化识别Module替换限制参数训练Operation
Scale独立线程模型推理人满发车超时发车a2m.msup案例总结手机、音箱、电视句错下降20%IDC
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公关行业策划岗位的职责与能力要求解析
- 航空技术高级工程师的每日工作安排
- 影视业出纳员招聘面试指南
- 数据在土壤污染治理中的应用研究
- 西安疫情的演讲稿
- 贵州职业规划演讲稿范文
- 商标代理公司安全生产管理制度
- 2026年工业云管道管理数字化平台:技术创新与实践应用
- 的感人故事演讲稿
- 我心中的法律演讲稿高中
- 《它们去哪里了》教学
- 钢结构动力测试
- 某制药厂抗生素废水治理工程方案设计书(6.13修改)
- GB/T 23932-2009建筑用金属面绝热夹芯板
- GB/T 14270-2008毛绒纤维类型含量试验方法
- 《老人与海》读书分享会课件(共20张ppt)
- 自然灾害情况统计制度解读课件
- 《绘画的语言》课件
- 旅行社计调业务套课件幻灯片完整版ppt教学教程最全电子讲义(最新)
- xx银行安防监控工程施工方案与维保方案
- 胆囊切除胆总管切开取石护理查房
评论
0/150
提交评论