HRI-2025 | 俄罗斯无人机自主导航新突破!UAV-VLA:基于视觉-语言-动作的大规模无人机任务生成系统

news/2025/2/25 9:41:23

  • 作者:Oleg Sautenkov, Yasheerah Yaqoot, Artem Lykov, Muhammad Ahsan Mustafa, Grik Tadevosyan, Aibek Akhmetkazy, Miguel Altamirano Cabrera, Mikhail Martynov, Sausar Karaf, and Dzmitry Tsetserukou

  • 单位:俄罗斯斯科尔科沃科学技术研究院

  • 论文标题:UAV-VLA: Vision-Language-Action System for Large Scale Aerial Mission Generation

  • 论文链接:https://arxiv.org/pdf/2501.05014

  • 代码链接:https://github.com/sautenich/uav-vla

主要贡献

  • 论文提出UAV-VLA系统,通过集成卫星图像处理、视觉语言模型(VLM)和强大的GPT模型,使用户能够通过简单的文本请求生成通用的飞行路径和动作规划。

  • 引入了UAV-VLPA-nano-30基准测试平台,旨在快速评估视觉-语言-动作系统在全球范围内的任务解决方案,用于评估UAV-VLA系统在解释语言指令和生成可执行导航规划方面的能力。

  • 通过UAV-VLPA-nano-30基准测试的实验,展示了其在路径和动作生成方面的表现与人类水平相当

  • 提出了基于语言的路径规划任务,使无人机能够从自然语言输入中自动生成任务规划,增强了无人机操作的灵活性和效率,并为机器人之间的自主任务生成奠定了基础。

研究背景

研究问题

论文主要解决的问题是如何通过简单的文本请求生成大规模无人机任务的视觉-语言-动作(VLA)系统。

具体来说,该系统旨在解决人类操作员与无人机之间有效通信的问题,特别是针对复杂任务的环境。

研究难点

该问题的研究难点包括:

  • 需要处理复杂的自然语言指令并将其转换为可执行的飞行路径和动作计划;

  • 需要在没有大量标注数据的情况下,仅利用零样本能力进行模型训练;

  • 需要提高无人机操作的效率和可访问性。

相关工作

  • Transformer发展

    • 视觉Transformer(ViT)的出现标志着能够处理和整合多种输入输出类型(包括文本、图像、视频等)的全功能模型的重大进步。

    • 这些模型为多模态任务的开发和应用提供了基础。

  • 多模态交互

    • OpenAI推出了ChatGPT-4 Omni等模型,能够在音频、视觉和文本之间进行实时推理,实现无缝的多模态交互。这些模型在机器人应用中表现出色,特别是在对象识别和导航方面。

    • Allen Institute of AI引入了Molmo模型,能够在图像中定位请求的对象。这一进展对于机器人应用中的对象识别和导航至关重要。

  • 视觉语言导航的发展

    • 研究人员提出了多种方法来增强机器人的视觉-语言导航能力。例如,Liu等人提出了Aerial VLN方法,并介绍了AerialVLN数据集。Fan等人描述了一个支持飞行期间对话的模拟器和VLDN系统。

    • CityNav扩展了数据集,加入了地理元信息。“EmbodiedCity构建了一个开放城市环境,使智能体能够在线执行VLA和VLN任务。

  • 地图表示和动作生成

    • Gao等人提出了一种方法,将地图作为矩阵提供给大型语言模型(LLM),并引入了语义拓扑度量表示(STMR)方法。

    • Google DeepMind的RT-1模型能够生成机器人操作的命令,而RT-2模型则结合了RT-1框架和视觉-语言模型,实现更高级的多模态动作生成。

数据与基准

卫星图像及元数据描述

  • 任务目标

    • 为了评估所提出的系统的整体效果,引入了一个新的基准测试数据集UAV-VLPA-nano-30。

    • 这个基准测试专为无人机任务生成设计,提供了一套标准化的测试平台,以评估UAV-VLA系统解释语言指令和生成可执行导航计划的能力。

  • 数据集构成

    • 基准测试包含30张高分辨率的卫星图像,这些图像来自开源平台USGS EarthExplorer。

    • 这些图像覆盖了美国各地的多样化环境,包括城市、郊区、农村和自然环境,如建筑物、运动场、水体、交通基础设施、田野和停车场。

  • 图像分辨率

    • 每张卫星图像的分辨率约为每像素1.5米,提供了自然和人造特征的详细视觉表示。

    • 每张图像覆盖大约760平方米的区域,确保了足够的地理覆盖范围。

  • 元数据:每张图像都有地理元数据(地理位置描述),允许计算识别点的经纬度,以便生成飞行规划。

手动飞行规划生成

为了验证系统的有效性,论文让一位经验丰富的无人机操作员手动为基准测试图像生成飞行规划。

  • 操作过程:操作员使用Mission Planner工具在每张图像上定义紫色方框边界,并设置起始位置。操作员在35分钟内为所有30张图像手动创建了飞行规划。

  • 结果:基准测试的总长度为63.89公里,平均长度为2.13公里。这些数据用于与UAV-VLA系统生成的飞行规划进行比较。

方法

UAV-VLA系统通过以下步骤生成无人机任务规划:

  • 语言指令输入

    • 用户提供一个语言指令 ,形式为 ,其中 是输入提示,长度 根据任务复杂度变化。例如:“Fly around all the buildings at a height of 100 meters and come back.”

  • 目标提取模块

    • 使用GPT模块解析语言指令,提取任务目标 ,形式为 。目标提取模块将自然语言指令转换为具体的任务目标。

  • 对象搜索模块

    • 使用视觉语言模型(VLM)模块处理卫星图像,识别并定位目标对象,生成处理后的点集 。例如,使用Molmo模型在卫星图像中识别建筑物并生成坐标点。

  • 坐标转换

    • 将处理后的点集 转换为全球坐标 ,使用图像的元数据进行转换,确保坐标映射到真实世界位置。

  • 动作生成模块

    • 使用GPT模块结合 、任务细节和MAVProxy工具生成无人机的具体动作 。动作生成模块根据全局坐标和任务要求生成无人机的飞行路径和动作规划。

实验与评估

实验设计

  • 实验目标

    • 评估UAV-VLA系统在生成飞行规划方面的能力。

    • 使用UAV-VLPA-nano-30基准测试数据集进行评估。

  • 实验指令

    • 给定指令:“Create a flight plan for the quadcopter to fly around each building at a height of 100 m, return to home, and land at the take-off point.” 这个指令要求无人机围绕每个建筑物飞行,返回起点并降落。

  • 硬件配置

    • 实验在一台配备RTX 4090显卡(24GB VRAM)和Intel Core i9-13900K处理器的PC上进行。

    • 由于内存限制,使用了量化后的Molmo-7B-D BnB 4-bit模型。

评估指标

  • 路径长度

    • 比较系统生成的飞行规划与人类操作员生成的飞行规划总长度。

  • 误差评估

    • 使用三种方法评估系统生成的轨迹与人类生成的轨迹之间的误差:
      • Sequential Method:逐点顺序对齐,衡量序列相似性,但容易累积误差。

      • Dynamic Time Warping(DTW):通过拉伸或压缩轨迹段进行非线性对齐,测量路径相似性而不严格要求顺序匹配。

      • K-Nearest Neighbors(KNN):基于空间邻近性匹配每个系统生成的点到人类生成的轨迹点,提供一般性准确度测量。

  • 误差计算

    • 使用均方根误差(RMSE)公式计算误差: 其中 和 分别是系统生成的点和人类生成的点, 是总点数。

实验结果与分析

结果概述

  • 路径长度:系统生成的轨迹总长度为77.74公里,比人类操作员生成的轨迹长13.85公里,或21.6%。在30个案例中有7个,系统生成的轨迹更短。

  • 误差分析
    • Sequential RMSE的平均误差为409.54米。

    • DTW方法的平均误差为307.27米。

    • KNN方法的最小平均误差为34.22米。

  • 效率:系统处理所有基准图像大约需要5分钟24秒,比人类操作员快6.5倍。

结果展示

  • 上图展示了系统生成的飞行规划与人类专家生成的飞行规划的比较。

  • 下图展示了系统误差与真实值的比较。

总结与讨论

  • 系统贡献:论文提出了一种新的全球规模的无人机任务生成方法,增强了任务规划的灵活性和准确性。

  • 基准测试:引入了UAV-VLPA-nano-30基准测试,为全球规模的路径规划技术提供了标准化框架。

  • 方法优势:系统能够将自然语言请求解释为可执行的飞行路径,生成的路径仅比人类创建的长21.6%,展示了其效率。

  • 未来方向:未来的工作将集中在创建专门的数据集以训练模型,并开发端到端的模型以实现完全自主的无人机任务规划。


http://www.niftyadmin.cn/n/5865337.html

相关文章

从零开始玩转TensorFlow:小明的机器学习故事 5

图像识别的挑战 1 故事引入:小明的“图像识别”大赛 小明从学校里听说了一个有趣的比赛:“美食图像识别”。参赛者需要训练计算机,看一张食物照片(例如披萨、苹果、汉堡等),就能猜出这是什么食物。听起来…

flutter Column嵌套ListView高度自适应问题

1.限制最大高度500,当布局高度小于500时高度自适应包裹 //当布局外不需要包裹Container时,使用ConstrainedBox(constraints: BoxConstraints(maxHeight: 500,minHeight: 0),child: Column()) _body(){return Container(constraints: BoxConstraints(max…

vue3学习3-route

创建路由器: 应用路由器: 路由展示区RouterView 和 路由跳转RouterLink: 路由组件(在路由配置文件中配置的)一般放到pages/views文件夹下 路由组件切换的时候执行的是 挂载/卸载操作 onMounted / onUnmouted 路由器两…

3dtiles平移旋转工具制作

3dtiles平移旋转缩放原理及可视化工具实现 背景 平时工作中,通过cesium平台来搭建一个演示场景是很常见的事情。一般来说,演示场景不需要多完善的功能,但是需要一批三维模型搭建,如厂房、电力设备、园区等。在实际搭建过程中&…

一文讲解Redis为什么读写性能高以及I/O复用相关知识点

Redis为什么读写性能高呢? Redis 的速度⾮常快,单机的 Redis 就可以⽀撑每秒十几万的并发,性能是 MySQL 的⼏⼗倍。原因主要有⼏点: ①、基于内存的数据存储,Redis 将数据存储在内存当中,使得数据的读写操…

协方差(Covariance)与得分函数:从Fisher信息矩阵看统计关联

协方差与得分函数:从Fisher信息矩阵看统计关联 协方差(Covariance)是统计学中一个基础但强大的概念,它描述了两个随机变量之间的关系。在Fisher信息矩阵中,协方差以一种特别的形式出现:得分函数的协方差。…

vue js-web-screen-shot浏览器截取其他非全屏窗口界面

网页截屏 js-web-screen-shot 截取其他窗口 显示不全问题 npm 安装 js-web-screen-shot npm install js-web-screen-shot --savejs-web-screen-shot默认截屏是从左下角开始的,修改成左上角开始,然后编辑cropBoxInfo参数宽高进行截取,目前截…

计算机网络与通讯知识总结

计算机网络与通讯知识总结 基础知识总结 1)FTP:文件传输 SSH:远程登录 HTTP:网址访问 2)‌交换机 定义‌:一种基于MAC地址实现局域网(LAN)内数据高速转发的网络设备,可为接入设备提供独享通信通道‌。 -‌ 核心功能‌: 1.数据链路层(OSI第二层)工作,通过MAC地址…