北京时间1月31日晚,2026国际机器人与自动化会议(IEEE International Conference on Robotics and Automation,ICRA)论文录用结果正式发布。团队3篇论文被大会接收。ICRA是国际机器人领域规模最大、影响力最强的顶级学术会议之一。今年的会议将于6月1日在奥地利维也纳召开。本届会议收到来自全球86个国家和地区4947篇投稿论文,最终录用1882篇,表明了国际机器人学术研究的热度持续升高。

1.D-GVIO:一种面向多智能体系统的、缓冲区驱动的高效分布式GNSS-视觉-惯性状态估计器
论文标题:D-GVIO: A Buffer-Driven and Efficient Decentralized GNSS-Visual-Inertial State Estimator for Multi-Agent Systems
作者:罗亚荣、卢文韬、郭迟*、李明
论文摘要:对于多智能体集群应用(如协作探索与搜救任务)而言,协同定位至关重要。然而,在资源受限的平台上保持协同定位系统的实时性、鲁棒性仍面临巨大挑战。为解决这些难题,该论文提出了D-GVIO:一种基于缓冲区驱动的完全去中心化GNSS-视觉-惯性里程计(GVIO)框架。该框架通过创新的缓冲策略实现高效鲁棒的分布式状态估计。其核心在于四大机制:首先,通过协方差分割、协方差交集与缓冲策略,将分布式状态估计中的传播与更新步骤模块化,显著降低计算与通信开销;其次,采用左不变扩展卡尔曼滤波(L-IEKF)进行信息融合,其状态转移矩阵独立于系统状态,相较于传统扩展卡尔曼滤波器(EKF)具有更优越的状态估计性能;第三,结合L-IEKF设计基于缓冲区的重传播策略,能够高效精准处理延迟观测数据,避免高昂的重复计算;最后,提出自适应缓冲区驱动的异常值检测方法,动态剔除GNSS异常数据,有效增强GNSS受限环境下的系统鲁棒性。

github地址:https://github.com/braveryyyy/D-GVIO
2.ReThinkNav:基于开源大语言模型,通过上下文推理与回环恢复实现零样本视觉语言导航
论文标题:ReThinkNav: Zero-Shot Vision-and-Language Navigation with Open-Source LLMs via Contextual Reasoning and Loop Recovery
作者:李奥林、闫忆娴、罗宏昆,詹骄、郭迟*
论文摘要:零样本视觉语言导航要求智能体在未经特定任务训练的前提下,仅依据自然语言指令完成导航。现有工作表明,大语言模型在零样本视觉语言导航中展现出良好潜力,但仍存在两大关键局限:(1)对指令的精确遵循能力不足;(2)在空间受限或语义高度相似区域中易陷入循环。为此,该论文提出ReThinkNav,旨在进一步提升大模型在零样本设置下的导航性能。ReThinkNav引入上下文推理机制以增强大模型指令理解与进度评估能力,使其能够同时准确推断导航动作。此外,该论文还设计了循环检测与恢复模块,用于识别导航过程中的循环行为并相应地调整决策。在R2R-CE基准上的实验结果表明,ReThinkNav 在零样本设置下取得了优异性能;同时,在基于宇树科技Unitree G1机器人的真实物理实验中进一步证明了该方法的实际可用性与泛化能力。

3.常识引导的对象图谱推理与策略正则化:面向目标对象导航
论文标题:Commonsense-guided Object Graph Reasoning with Policy Regularization for Object Goal Navigation
作者:孟怡悦、李奥林、詹骄、李沈欣、郭迟*
论文摘要:物体目标导航任务要求智能体仅凭第一人称视觉观察,在未知环境中找到指定类别的目标物体。这要求智能体提升场景理解能力并训练稳健的导航策略。为此,该论文提出了两种互补技术:常识引导的物体图推理(COGR)与策略正则化(PR)。具体而言,COGR通过整合物体关系(包括类别邻近性与空间关联性)来提升智能体的场景理解能力。该方法从大型语言模型(LLM)中提取目标物体的共现嵌入作为常识知识,引导物体图推理,使智能体能够超越训练环境中观察到的视觉共现关系进行推理。PR是一种受知识蒸馏启发的正则化机制,通过无常识模型对常识引导模型的导航策略进行正则化。论文提出PR以缓解LLM知识偏见可能导致的性能退化,从而训练出更稳健的导航策略。在AI2Thor和RoboThor环境中的实验验证了该方法的有效性与高效性,实际部署进一步证实了其迁移能力。
