中国汽车标准化技术委员会、智能网联汽车分技术委员会、车用人工智能标准专项组:2025年多模态大语言模型技术及应用标准领航研究报告_第1页
中国汽车标准化技术委员会、智能网联汽车分技术委员会、车用人工智能标准专项组:2025年多模态大语言模型技术及应用标准领航研究报告_第2页
中国汽车标准化技术委员会、智能网联汽车分技术委员会、车用人工智能标准专项组:2025年多模态大语言模型技术及应用标准领航研究报告_第3页
中国汽车标准化技术委员会、智能网联汽车分技术委员会、车用人工智能标准专项组:2025年多模态大语言模型技术及应用标准领航研究报告_第4页
中国汽车标准化技术委员会、智能网联汽车分技术委员会、车用人工智能标准专项组:2025年多模态大语言模型技术及应用标准领航研究报告_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多模态大语言模型技术及应用标准领航研究报告前所未有的机遇。智能座舱作为智能汽车的重要部分,得益于AI技转型升级,实现AI驱动的“智能化”成为中国汽车产业的核心竞争AI技术及其应用场景的标准化问题,首先对智能座舱的现状进行了分析,基于此进行了对于AI和大模型的进行了发展趋势和技术路线的讨论;最后进行了在AI应用上关键技AI技术的全面应用与发展,推动产业19家单位,共同编写完成《多模态大语言模型技术及应用标准领上海临港绝影智能科技有限公司、上汽大众汽车有限公司、厦门金何子豪、贾龙、李天然、苏鹏飞、王路宝、范亦卿、周泽杨、王和TOC\o"1-2"\h\z\u第一章智能座舱AI技术应用现 第六章智能座舱AI应用的关键技 AI1956年“人工智能(ArtificialIntelligenceAI)”概念的诞生以来,这一领域已经历了数十年的蓬勃发展。1970年标志着人工智能的第一个春天,当时随着第五代计算机的兴起,1990年人工智能迎来了第二个黄金时期,其标志性1997年“深蓝”计算机在国际象棋比赛中战胜世界冠军。然而,随后2006年,深度学习在语音识别领域的显著突破将人工智能推向了第三成对抗网络)、AttentionTransformer等人工智能架构不断更新迭代,AlphaGo、Squad等杰出产品也不断涌现,展现了人工智能技术的巨大潜力和广2022年,ChatGPT的问世标志着人工智能进入了第四次浪潮,这次浪ChatGPT等先进模型展示了人工智能在自然语1-1智能化已成为智能网联汽车在电动化之外的另一重要发展方向,AI在座舱中的应用将重构用户的智能座舱体验。目前在座舱领域,AI1-2人机交互方式,以DMS、OMSAI的应用,通过车内1-31-4CoffeOSAI技术,为驾驶员提供全方位的安全保障。通过AIAI硬件平台存在差异,AIAI大模型进行适配算力与资源调度:AI大模型通常需要大量的计算资源,而国产化平台可能AIAI大模型进行压缩和优行和稳定性。AI大模型的部署需要在保证性能的同时,降低能耗和散热。AI应用于智能座舱,需要本地存储和上传大量的个人信息、视频、语音等AI大模型时,需要确保数据的隐私保护。需要建立严格的数据管理AI大模型部署时考虑用户隐私和权限管理。需要建立严格的用户隐私保AI模型通常需要处理各种复杂和多样化的场景,因此高质量的训练数据需AI模型需要大量的训练数据才能达到理想的性能。然而,在实际获取过程AI技术相关标准,但针对车AIAI技术相关的标准仍在持续建设中,AI应用提供参考。1-14GB_T36464.5-2018息技术智能语音交互5GB/T41797-20222-1Transformer架构等,提高语音识别和语义理解的准确率。另一方面,不断扩充2-2CPU、GPU、FPGAAI加速器等多种硬件组件,以优化特定的计算任务。AI加速器则专门为深度学习算法设计,能够在保持高随着智能座舱和人工智能技术的发展和突破,I视觉交互作为一种新兴的像捕捉设备与深度学习算法加强了座舱对驾乘人员行为和环境的实时理解和预AI视觉交互技术起源于早期的车载视频监控系统,主要目的是增强驾驶安随着深度学习和卷积神经网络(CN)的广泛应用,视觉交互技术实现了AI视觉技术理解驾驶员的情交互的使用场景将更加广泛,DMS、OMS等驾乘人员监控系统将成为现代化智AI视觉交互场景将向百花齐放的方向演进。AIAI视觉交互技3-13-2疲劳检测&3-33-43-53-63-73-8AIAR-HUD(增强现实显示)AR技术LiDAR等传感器收集的数据,AI算法可以实时识别和分类道路标AI的AR-HUD技术不仅提升了驾驶的安全性,还极大地增强了驾驶的便利性和舒适DMSEAR特征,和基于哈欠行为的MAR和FOM特征,判断是否出现眼睛闭合和打哈欠的状DMS功能远3-11DMS2D3D人脸识别,2D人脸识别是通过2D人脸识别在很多领域都取得了显著的成功,但同时也存在弊端,如光照条件3DTOF2个方案,TOF相机更具性价比和易用性,在智能座舱领域应用更加广泛。TimeofFlight(TOF)相机的人脸识别技术是一种非接触式生物识别技取、算法识别、比对与验证等步骤。TOF相机通过发射红外脉冲并测量其反射Haar特征或深度学习模型在深3D3D模型中提取面部集合结B柱传感器,人脸识别系统就可以进行识别是哪位驾驶员要使3-123-13AR-HUDHUD。仪表通常HUDC-HUD,到W-HUDAR-HUDW-HUD成为趋势。AR-HUD技术是将增强现实信息投影到驾驶员前方视线范围内的系统。按LCDDLPLCDAR-HUD多采用两个焦面技术来显示不同距离的场景内容,一个焦面显示近景,随着人工智能技术的飞速发展,AI视觉交互场景在智能座舱中的作用日益Snapdragon81558295芯片,GPU的性能飞跃使得车辆能够支持更多实时数据处理和运行更复杂的算法。此外,AI技术正经历技术变革,大模型的引入进一步增强了座舱AI视觉系统发展的关键。2D3DToF(TimeofFlight)技术,提供更深层次的空间和运动AIAR技术将更广泛地应用于智能座舱中,提供更丰富的信息和娱乐选项。驾4-1前,语音结合其他模式的多模态交互形式已成为主流,如长安启源A07、极越01L7A06/V09等车型中均有应用。A0701L7A06/V09等车型。4-14-24-2“LeapIn生物钥匙系统”,结合了人脸识别和静脉识别4-34-3K歌模式下,香DMS(驾驶员监控系统)进行联动。A柱摄4-4集成人脸识别和眼球追踪技术,实时监测驾驶员的注意力状态,并动态调整UI将能够同时支持多种输入和输出模式,提供一致且自然的用户体验。基于视觉捕捉到的信息辅助导航及驾捕捉车外环境道路管制/施工标志捕捉车内环境基于多种模态信油量/电量不足以支撑完整基于语音信息辅助导航及驾驶决(语音+手势/语息/语音+车辆状根据用户表达的需求推荐出语音+手势:语音控制导语音+眼动:语音+车辆状基于视觉捕捉到的基于多种模态信(语音+手势/语息/语音+车辆状语音+手势:语音+眼动:语音+车辆状基于语音信息控车辆设置简一句执行多项设置(单域/跨捕捉车外环境捕捉车内环境自动开启/关闭/日间/夜间自定义复杂暗看书,打开阅读基于多种模态信基于语音信息提基于视觉捕捉到的捕捉车外环境捕捉车内环境内饰维护建议(语音+手势/语息/语音+车辆状语音+手势:语音+眼动:语音+车辆状基于视觉捕捉到的基于多种模态信(语音+手势/语息/语音+车辆状语音+手势:语音+眼动:语音+车辆状基于语音信息提推荐音频/视频捕捉车外环境捕捉车内环境视频安抚无聊的儿基于视觉捕捉到基于视觉捕捉到的捕捉车外环境道路使用者、动植物、行车记录仪记捕捉车内环境信息(包括人及物基于多种模态信(语音+手势/语息/语音+车辆状语音+手势:语音+眼动:语音+车辆状DN(Deep车内指令控制是指通过用户输入语音转化后的文本对车内一些模块进行控制,传统的指令控制方法通常采用预定义好的语音指令来实现车内模块的控制,DMS,OMS体现在驾驶员监控系统(DMS)、乘员监控系统(OMS)、人脸识别(FaceID)。这些OMSOMSAIAPP,实现复AINPCAITransformerAIAI,大模型具有更强的学习能力、推理能力和理解能力,能够处理更插件与信源扩展和检索增强生成五个方面分析大模型在开放式任务中的技术路线和应用价值。25UI(用户界面)方面的应用,极大地提升了智能座舱的能UIUIAILLMRAGGraphRAGLLMLLMRAGAIAI应用的关键技术,从感知、认知、表达三个方噪声抑制(AmbientNoiseSuppression,ANS)回声消除(AcousticEchoCancellation,AEC)听见了自己的声音。目前主流的回声消除方法一般可称之为自适应回声消除(AcousticEchoCancellation,AEC6-1AECx(n)在r(n),s(n)v(n)d(n)。另一方面,x(n)w(n)e(n)w(n)h(n)达到一致,y(n)即等r(n),e(n)中将不包含回声信号。事实上,由于噪声等因素它能做到的只是无限逼近于实际回声信号。因此,AEC6-1回声消除(AcousticEchoCancellation,AEC)anyRTCAECAEC6-2语音识别也被称为自动语音识别(AutomaticSpeechRecognition,ASR),6-36-3换(Short-timeFourierTransform,STFT)生成音频特征,其中使用较为广泛FilterBan(FBank6-46-5别论“Personalidentificationanddescription”,自那时起到现今,在计6-63D语义理解是自然语言理解(NaturalLanguageUnderstanding,NLU)所研究领域1-31所示。6-7NLU传统的语义理解算法分为基于词的语义理解算法和基于主题的语义理解算法。基于词的传统语义理解算法如词袋模型agofd,oW),将文本看(atntSmnticnlsisSA2013vectrword2vecConversationEngineDM(Dialog6-8通常是基于有限状态机(FiniteStateMachine,FSM)或框架(Frame)原理,通基于机器学习的对话引擎的最典型方法是将对话过程表示为一个部分可观察马尔可夫决策过程(PtillybsvbleMkovisionPossPM,PMP的内部状态AI6-9NLP领域最热门最有效的架构:Transformer结构。相比于传统的循环神经网络(RNN)和长短时记忆网NLP领域中奠定了其作为基础性与通用性模语音合成(SpeechSynthesis),也称为文本转语音(Text-to-Speech,TTS)Speech,TTS(2Speech;1779年,C.Kratzenstein6-11因是,频谱的粒度是帧级别(framelevel)的,而音频的粒度是采样点级别(samplelevel)12.5ms16kHz200200个采样点的信息是高1/200。因此,基于统计参数的语音合成模型(statisticalparametricspeechsynthesis,SPSS)6-12就是SPSS的流程示意图。这种方法相比SPSSSPSS需要用到语音声音复刻,是语音合成技术(TTS,TextToSpeech)的个性化应用,通过SIgnalClassification,MUSIC)算法等,以推导出音频源的具体位置。让麦克风它通过一个专门的模块(ProsodyCompensationModule,PCM)来增强情感表达,同时保持目标说话人的音色稳定。PCM利用预训练的自动语音识别(ASR)模《视觉交互-情感理解评测标准》:关注大模型在视觉交互中对驾驶员和乘《视觉交互-用户意图理解评测标准》:旨在评估大模型在视觉交互中对用上车的趋势明显,HUD、VR和流媒体后视镜等显示技术快速发展。此外,智能20241月,由全国汽车标准化技术委员会智能网联汽车分标委组织,中汽中2023815日起施行。该办法旨在促进生成式人工智

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论