“海河·谛听”言语交互大模型及其在身份认证领域的应用探讨-王龙标

上传人：策*** IP属地：山西上传时间：2024-04-25 格式：DOCX 页数：34 大小：2.69MB 积分：19.9 举报 版权申诉

已阅读5页，还剩29页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

“海河·谛听”言语交互大模型及其在身份认证领域的应用探讨天津大学/慧言科技王龙标1言语交互：人类最自然的交互方式言语是人类最基本和最重要的交流方式它不仅能够传递字面信息，还能够传达言外之意，并影响他人的情绪、态度和行为，从而实现各种社会目的。教育健康办公金融教育健康办公2言语交互的主要挑战言语包含语言、韵律、情感和说话人等信息目前的语言大模型只利用语言（文本）信息，导致言语交互系统无法做到意图的深度理解。痛点1痛点3痛点2痛点1痛点3行业效果差、部署成本高多语言交互困难意丰形简意丰3借鉴神兽“谛听”可听人心的寓意而命名。透过声音洞察内心，透过言语理解意图。借鉴神兽“谛听”可听人心的寓意而命名。透过声音洞察内心，透过言语理解意图。始终“以人的机理为蓝本”，将言语信息与语言学、心理学和脑科神经科学相结合，以大模型为基础实现言语意图的深度理解。支持NVIDIA架构和国产化架构。打造国际领先的言语交互意图理解大模型浅层融合深度融浅层融合深度融合统一模型4研发资源&团队架构总负责人：党建武天大教授/国家人才/慧言CSO技术总监：王龙标天大教授/国家人才/慧言CEO研发研发数据数据资源架构算力算力资源应用领域合作签约仪式5通用语音大模型算法团队总负责人：党建武天大教授/国家人才/慧言CSO技术总监：王龙标天大教授/国家人才/慧言CEO天大助理教授王天锐——解耦式自监督预训练贡诚/王天锐——语音生成大模型林羽钦——语音识别刘佳星——语音情感识别刘猛——声纹识别崔辰瑞——Wav2vec2.0框架迁移李津——HuBERT框架迁移舒钰淳——WavLM框架迁移芦皓宇——语音识别下游任务微调吴晟——语音情感下游任务微调朱晓——电话信道数据模拟顾铭扬——语音特征提取基于ModelArts的67“海河·谛听”大模型技术路线Time-2-FeatureDomainConversationSpeakerInfoExtractor--EmotionInfoExtractor--SemanticInfoExtractorWeightedSumUniversalFeature打造国内领先的通用语音预训练大模型·基于海量数据探索通用语音大模型。基于ModelArts的通用语音预训练大模型概要•项目资源•22×8×Ascend910(32GB)•128T磁盘空间•运行环境：云上910训练云上910推理MindSpore1.7•遇到并解决的难题•Pytorch框架转MindSpore框架•语音数据长度不定的问题•与MindSpore静态图训练策略友好度较差•混合精度训练梯度溢出•......理解大模型少量语音识别数据少量任意语音任务数据少量语音情感少量语音识别数据少量任意语音任务数据8语音情感模型语音识别模型特定任务专家模型8语音情感模型语音识别模型基于解耦思路的语音预训练大模型结果可以大幅提升声纹识别性能，并在其他任务上保持对于说话人识别任务（SID），只有指定的解耦层（4）起作用。T.Wangetal.,“ProgressiveDecoupling-stylePre-trainingforSpeechRepresentationLearning,”submittedtoInterspeech2024.9“海河·谛听”语音生成大模型技术路线tBOSBOS打造国内领先的通用语音生成大模型复刻音色模型复刻音色模型语音生成大模型语音生成个性化定制，让声音复刻简单快捷。基础大模型基础大模型可能被用来恶意伪造声纹面向操纵伪造检测的安全说话人确认探讨说话人确认&伪造检测•语音合成技术给人们的生活带来便利的同时，也会被犯罪分子用来伪造目标说话人的语音实施攻击和诈骗，对经济安全、社会安全、国家安全带来一定的风险和威胁。•视听多模态有助于实现高精度的说话人与伪造检测结果。基于多模态的说话人确认&伪造检测基于语音感知大模型的伪造检测13AVLip:跨模态协同学习驱动的视听说话人确认•AVLip系统利用交叉模态注意力机制来增强特征表示，从而实现有效的模态间对齐和信息融合。•AVLip框架采用了音视伪孪生结构，该结构设计用于促进听觉和视觉模态之间的信息交换和相互增强。M.Liuetal.,“Cross-ModalAudio-VisualCo-LearningforText-IndependentSpeakerVerification,”Proc.ofICASSP2023.视听说话人确认结果M.Liuetal.,“Cross-ModalAudio-VisualCo-LearningforText-IndependentSpeakerVerification,”Proc.ofICASSP2023.15SyncLip:跨模态语义与身份一致性建模SyncLip:框架通过独立视觉音频编码器和跨模态解码器融合特征，用于语义一致性检测以识别篡改视频。M.Liuetal.,“Cross-ModalSemanticConsistencyModelingonSpeechTemperingDetection,”submittedt

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

“海河·谛听”言语交互大模型及其在身份认证领域的应用探讨-王龙标

文档简介

温馨提示

最新文档

评论

“海河·谛听”言语交互大模型及其在身份认证领域的应用探讨-王龙标

文档简介

温馨提示

最新文档

评论

相关文档