机器人视觉听觉融合的感知操作系统

王业飞; 葛泉波; 刘华平<sup>*</sup>; 陆振宇

摘要

智能机器人面对复杂环境的操作能力一直是机器人应用领域研究的前沿问题，指称表达是人类对指定对象定位通用的表述方式，因此这种方式常被利用到机器人的交互当中，但是单一视觉模态并不足以满足现实世界中的所有任务。因此本文构建了一种基于视觉和听觉融合的机器人感知操作系统，该系统利用深度学习算法的模型实现了机器人的视觉感知和听觉感知，捕获自然语言操作指令和场景信息用于机器人的视觉定位，并为此收集了12类的声音信号数据用于音频识别。实验结果表明：该系统集成在UR机器人上有良好的视觉定位和音频预测能力，并最终实现了基于指令的视听操作任务，且验证了视听数据优于单一模态数据的表达能力。

单位
南京信息工程大学; 清华大学; 自动化学院

收藏分享被引浏览

更新时间：2024-03-18 21:40

机器人视觉听觉融合的感知操作系统

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友