低空智能-从感知推理迈向群体具身_第1页
低空智能-从感知推理迈向群体具身_第2页
低空智能-从感知推理迈向群体具身_第3页
低空智能-从感知推理迈向群体具身_第4页
低空智能-从感知推理迈向群体具身_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、

低空研究背景二、

低空数据平台三、

低空感知大脑四、

低空典型应用CONTENTS一、

低空研究背景二、

低空数据平台三、

低空感知大脑四、

低空典型应用CONTENTS2025年10月

党的二十届四中全会颁布《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》

,其中明确指出

“打造新兴支柱产业

加快低空经济等战略性新兴产业集群发展

催生数个万亿元级甚至更大规模的市场”。安防巡检现有巡检市场缺口巨大安防巡检应用市场规模超过500亿元水情监测2021年河南遭遇特大暴雨低空智能深化赋能经济转型

低空经济产业已成为国家新兴支柱产业

市场需求呈现井喷式增长《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》应急搜救2022年四川泸定6.8级地震受灾1478万人

经济损失1200亿元死亡失踪117人

经济损失154亿元复杂环境下

,低空智能感知面临“看不清”

,“看不准”和“看不全”的挑战“看不全”“看不清”“看不准”单机视角有限且存在遮挡

,无法捕捉目标在所有角度下的的特征雨雪雾恶劣天气和低光照环境降低了无人机对目标的感知清晰度无人机高速飞行

,场景动态变化,降低了感知准确度语义稀密从下往上

,第三排中靠画面最左侧的红色汽车这个路口中存在的违章行为与异常现象低空视野广实例密。

在稀疏文本约束下

,从细粒度视觉中辨析细节

需要精细逻辑进行推理。复杂环境下

,低空推理决策面临语义稀密、空间难解与任务繁复的挑战感知目标检测、目标计数、

场景分类、

异常识别理解图像描述、

条件判断、

视觉定位、

高度预测推理物理推理、

因果推理、

情景推断、

反事实推理决策多机协同、

任务规划、

动作执行、

安全性评估任务高度多样化

,在输出结构、

知识深度与推理路径上差异巨大

需要跨层次泛化推理能力。低空强投影与三维信息缺失

需要理解姿态与视角差异

,从二维观测中构建空间推理能力。这里是什么场景?

变电设施间距多少?存在安全隐患吗?

斜拍视角进行位置判断与空间度量任务间推理路径差异化俯拍视角进行目标感知与属性理解四维度多种任务形式空间难解任务繁复复杂环境下

,低空具身智能面临“不可靠”

,“不精准”和“不可控”的挑战“

目标理解不可靠”“动作生成不精准”“体系安全不可控”行动路径撞上障碍物动作生成误差导致机械臂需要执行冗余动作才能完成任务语言指令与场景理解不稳定

,任务目标识别易偏差端到端决策难以解释

,对突发场景响应不足

,系统级可靠性难以保障动作生成误差导致无人机机械臂操作效率低下无人机并未导航至目标点就提前停止复杂环境下

,低空群体智能面临数据缺、

自主差、协同难的挑战、协作具身

感知推理群体执行协调不稳定多机具身协同难

,导致群体具身智能感策控实现难性能进化难灾难性遗忘协同自主进化机制匮乏

,导致感知与持续学习能力双重受限多机协同感知数据协同感知与具身基础数据匮乏

,导致基座构建受限“

自主差”“协同难”“数据缺”感知大模型

ZZ

"面

F含一场景理解物体理解感知评估协作决策多机协同具身感知与推理数据缺乏性

。模型1

a

模型2能群体协同规划冲突群体感知不一致

协同一、

低空研究背景二、

低空数据平台三、

低空感知大脑四、

低空城市治理CONTENTS

统计机器学习长期关注数据规模、

结构及分布与模型泛化间规律前提假设和静态度量失效

经验规律重构新范式导向数据样本量稀缺需严格约束模型复杂度根据数据结构选择模型

维度问题影响模型选择2017经典泛化理论质疑:Zhang,C.《

Understandingdeep

learning

requires

rethinkinggeneralization》深度学习的

“记忆随机标签”实验

,质疑经典VC维解释泛化的有效性2019双下降现象与复杂度权衡曲线:Belkin,

M.《

Reconciling

modern

machine

learning

practiceandthe

bias-variancetrade-off》提出双下降

,修正经典U形曲线

,揭示过参数化区域新动态1992年:维度问题与统计估计Geman,S.,et

al.《

Neural

networks

andthebias/variancedilemma》系统阐述非线性模型的偏差-方差权衡与数据

维度挑战1995年:数据模型经典范式Vapnik,V.《The

NatureofStatistical

LearningTheory》提出结构风险最小化原则

,建立数据量决定可

安全使用的模型复杂度经典范式1971年:VC维Vapnik,V.&Chervonenkis,A.《Onthe

uniformconvergenceofeventstotheir

probabilities》relativefrequencies提出VC维

,连接模型容量与数据样本量1961年:维度诅咒Bellman,

R.《AdaptiveControl

Processes:A

GuidedTour》提出维度诅咒

,揭示高维空间数据挑战2010数据分布局限:Ben-David,S.《Atheory

oflearningfromdifferentdomains》突破IID假设的局限

,将

“数

据分布特性”纳入核心分析

框架2019从数据分布学习不变性:Arjovsky,

M.,etal.《Invariant

Risk

Minimization》提出不变风险最小化

,学习不变特征2022年“数据需求”2023-2024年“能力涌现”充分训练数据-参数平衡的数据

是驱动大模型能力进阶的虚实数据增效世界模型迁移非线性跃迁数据质量至上2020年“归纳总结”发现幂律参数主导大模型时代技术迭代也对训练数据的样本规模与质量提出更高标准2025年“具身数据受限”2023年至今多源协同感知

数据集UAVDT

VisDrone2016年及以前小规模检测与追踪数据集01032017年至2020年大规模密集数据与通用检测数据集2020年至2023年多模态动态感知数据集VTUAV02DroneVehicle04低空环境感知数据呈现出多任务、

多模态和多源协同特性以VisDrone数据集为代表

,低空环境感知数据面临简单静态到动态复杂的演进。AG-ReIDUAV-123现实空间推理基于多源信息构建物理度量,在真实环境中进行空间推理。2024.10AirCopBench

Spatial

Sky仿真感知推理虚拟城市中对物体属性

空间关系进行推理判断。2025.032025.05以Spatial

Sky为代表的低空“感知-推理-决策”一体化数据CityEQA现实推理决策覆盖多源传感器信息

引入物理约束

,进行动力学推理、多机协同、

安全决策等任务UAVBench仿真推理决策因果/关联/反事实推理;路线规划与动作输出;仿真➡现实泛化测试仿真感知推理无人机第一视角场景理解

,对话问答

以及任务规划。仿真空间推理在多个视角转换设定下

,进行定量空间推理。Open3D-UAVEmbodiedCity多源推理决策引入多视角协同推理,加入多源评估与协作决策。UrbanVideo2025.112025.02!2022.052023.082024.062024.102025.022025.022025.05以AerialVLN为起点的低空具身智能相关数据集正持续丰富与完善CityNav

真实点云+地标+32637条指令AVDN引入

指挥官

-机手”对话

,提供3k对话轨迹与注意力热图

,模拟飞行中语言澄清

UrbanVideo-Bench汇集两座真实城市视频+Aerial

VLN环境

,共1.

5k视频与5.2k多选问答OpenFly18座城市场景

10万条轨迹指令,是当前最大真实感VLN语料Travel

UAV发布12k条6-DoF轨迹

,用于研究语言辅助规划与控制协同VLD首个面向

无人机终端投递场景的视觉语言导航数据集AerialVLNAirSim+Unreal渲染25座城市

8k人类指令轨迹对

正加速推动群体智能以MDOT为代表的单一视觉感知出发

,群体智能正实现向复杂具身推理的跨越2019.082020.112020.112022.112024.052024.062025.11CoPerception-UAV多机高效通信协同感知数据集U2UData面向大规模无人机集群自主飞行的数据集AeroCollab3D多无人机协同3D目标检测AircoBench多无人机具身协同推理数据VRAI首批跨无人机重识别数据集MDMT首批多机多目标跟踪数据集首批多机单目标跟踪数据集MDOT

感知大模型zZ"面边端协同

·性

能模型1模型2类增量:

持续学习进化前

进化后性能进化:

1

+1

>2面向10万+机场的海量巡飞数据

,如何构建低空模型基座并自主进化产出价值:•

持续学习•

模型进化核心动作:•

广域知识学习

基础能力构建核心动作:•

大小模型协同

能力持续进化关键特征:•

多模态•

非结构化海量低空数据

性能进化

协同进化边端协同边端小模型感知大模型版本迭代云端赋能

迭代进化

类增量关键目标理解特征融合压缩

场景解析轨迹规划与优化最优轨迹生成动态跟踪控制代价加权板载指令执行多项式轨迹低空智能从环境感知、推理决策到控制执行各阶段割裂

,亟需端到端学习范式往前向一点钟方向走。经过马路以及灰白色的建筑后

目的地就在你进入新街道前的一丛灌木。大语言模型语言编码器感知理解动作执行你快到了。

目的地就在你右方我离目的地近了吗?

[act][que]LLM预测头

进程Δh

图像编码器语言输出我离目的地近了吗?多模态大模型动作解码器场景理解语义飞行控制执行●Δx,Δy具身推理对话历史任务能力提升动作指令输出虚拟场景预测少量真实数据、

任务反馈动作指令生成:

Action

=F(wt

(E(x),

o(gps,imu)))策略函数感知编码世界模型进化:wt+1

=U(wt,

Dreal,

Dvirtual,

Feedbacktask)更新算法真实、

虚拟数据任务反馈maximize

[Reward(τ)]任务约束优化:DKL(DvirtualⅡDreal)≤E

具身任务收益

虚实一致性约束低空智能场景中真实数据采集难度大、成本高

,高质量带精确标注真实数据稀缺可进化世界

模型无人机智能体VLN、

VLA

面向低空需求

,构建大规模低空视觉感知开放数据平台VisDrone开源社区Star数量图像/视频帧论文引用量多任务感知多模态感知人群计数物体追踪多机感知目标检测模型流水工厂数据百城共建通过数据、模型、场景的三维融合展示

,为政府、企业、公众提供低空领域的一站式资源入口

,构建百城空域的数据算法基石

,让低空经济"看得见"、

"管得好"。智能化升级

,效率倍增长通过AI技术赋能

实现城市巡检从传统人工模式向智能化、

标准化、

规模化的跨越式升级模型赋能数据驱动场景适配平台优势数据收集时间场景适配时间模型训练时间算法部署效率前期数据、场景、模型上耗费时间显著降低后期算法的效率和准确度显著提升场景配套落地后期前期150%40%70%50%一、

低空研究背景二、

低空数据平台三、

低空感知大脑四、

低空典型应用CONTENTS城市治理多传感器协同学习多任务协同学习多机协同学习

低空环境智能感知理论与方法科学问题研究挑战关键难题技术创新核心贡献成果应用“看不准”“看不全”“看不清”低空感知模型进化难多机跨视角感知难复杂环境全天候观测难应急搜救安防巡检防汛监测n

模态协同性(多模态信息增益):

亚mod

az=I(Y;X(i),X(j))-I(Y;X(i))-I(Y;X(j))n

任务协同性(共享表示互利):

亚task=I(Y;T,T)-I(Y;T)-I(Y;T)n

模型协同性(集成互补性):

巫mode

t=I(y;fu,f,)-I(y;fu)-I(y;f)三者协同的贝叶斯误差:

p

joint≤1-earp(-H(y⃞x(1-),T.x,f:z))

越:

维,互失体损整度小多强差补越方互性协同补的协的学重差同权误协其高低制差降抑误体会体个习个

协同性是群体协同的前提

,低空协同学习能够降低贝叶斯误差

低空协同学习多维度群体协同降低了贝叶斯误差n

多维度与单维度的贝叶斯误差对比:n

低空场景复杂退化多模态数据严重制约感知效能

导致“看不清”风沙清晰目标清晰目标表观弱清晰目标清晰目标表观弱恶劣天气和光照条件变化动态增强低质量图像

低空多传感器协同学习如何动态挖掘多模态有效性?如何动态复原多种噪声类型?挑战看不清多雾夜间构建了复杂退化自适应建模理论与复杂多退化统一复原范式提出了空场景特征引导的多传感器可信提示动态鲁棒感知方法感知结果多源融合图像

低空多传感器协同学习解决低空数据易受环境干扰难题克服场景动态变化的困境质量提升IJCV2024

(通讯)→

NeurIPS2025

(通讯)→TPAMI2025

(通讯)→

ICML

2025

(通讯)→

AAAI

2026(通讯)复杂多退化统一复原模型×

T融合条件不可信动态权重可信鲁棒感知动态融合低空复杂退化、小目标场景退化自适应基核退化分布建模多模态数据退化机制多雾天气高斯噪声+夜间过暗白天过曝恶劣天气条件下低空多模态目标追踪性能提高超过6%复杂退化条件下小目标特征增强超过16倍

,检测性能提升超11%复杂退化小目标场景低空感知

低空多传感器协同学习恶劣天气场景低空感知IJCV2024

(通讯)→

NeurIPS2025

(通讯)→TPAMI2025

(通讯)→

ICML

2025

(通讯)→

AAAI

2026(通讯)79.588.690.216×图像增强细化小目标特征Mobileye

Ours英特尔Intel顶尖视觉感知供应商图像增强多合一自适应复原ViPT

Ours[CVPR2023]计算机视觉顶会低空多种复杂退化小目标感知84.1提高6.1%提高1.4%小目标检测APPR1

低空感知场景复杂多变

任务种类繁杂

,模型难泛化

“看不准”场景复杂多变&任务种类繁杂低空视觉感知模型自主进化难烟

水车

低空多任务协同学习挑战如何实现复杂任务场景自主进化?如何实现多种实景种类自主进化?山地洪水冰面

工地目标场景需求原场景需求单一场景复杂场景百景难括众需一模难应百景人

房湖泊土井构建覆盖超广域场景

高复杂任务的千万级低空视觉开放数据平台VisDrone

低空多任务协同学习开源社区Star数量图像/视频帧论文引用量多任务感知多模态感知人群计数物体追踪多机感知目标检测构建面向低空视角的视觉感知基础模型DroneNet研发基于组件功能驱动的高效模型适配框架高效适配器

感知多任务适配器融合CVPR2024

(一作)→

NeurIPS2024

(通讯)→TIP2025

(通讯)

ICLR

2025

(通讯)

→AAAI

2026

(通讯)

低空多任务协同学习组件功能分析...

反光衣识别

光伏板计数

危险化学品

运输

裸土未覆盖

电动车头盔

红外光伏板

电线杆断裂

标记线模糊

卫星锅检测

水环境监测

松树线虫病

停车场空位

太阳能热水

保护壳缺失

红十字标识

li

本项目v183.08提高25.38%57.70微软亚洲研究院

申请人新场景新任务小时级快速适配

进化后性能提升超20%

形成覆盖百城百景的模型库

服务20余家企业和单位百城百景API服务

低空多任务协同学习CVPR2024

(一作)→

NeurIPS2024

(通讯)→TIP2025

(通讯)

ICLR

2025

(通讯)

→AAAI

2026

(通讯)车辆计数

100

+场景22个领域

(CVPR

24)工程机械识别黑烟污染打架斗殴危房检测变化检测在建工程街面横幅交通事故摔倒检测街边涂鸦路面破损河堤破损Sos标识路面躺卧涵洞堵塞路面积水秸秆焚烧违规作业流动商贩罂粟检测路面落石护栏破损道路结冰雪崩隐患车辆违停绿藻爆发渣土车路灯亮灭森林火灾遛狗栓绳违法垂钓道路泥沙烟火检测翻阅围栏山体滑坡反无人机房屋倒塌井盖状态工地扬尘塔头损坏河面垃圾石油泄漏横杆腐蚀垃圾检测交通拥堵鸟类检测箱门关闭人员检测路面抛洒路面塌陷消防通道电塔鸟窝气球挂线管道泄漏铁轨人员候鸟计数野生动物垃圾满溢盲道破损人群聚集铁路损伤大麻检测农田异常树木状态应急车道大棚破损码头流量捕兽夹桥梁损伤捕鸟网

落叶松健康

封窗广告牌

刺槐林枯木

安全帽识别

排水口排放

泥石流检测

.

.

.多机跨视角匹配难匹配不准多机跨视角差异大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论