基于内在奖励机制的多机器人社交编队导航
针对多机器人社交编队导航存在的相对过度泛化问题,通过激励机器人探索联合观测空间的方式,提出了基于内在奖励机制的多机器人社交编队导航算法。首先,将随机网络蒸馏内在奖励与椭圆回合内在奖励相结合,形成双时间尺度内在奖励,提升多机器人的探索能力,从而获得最优的多机器人联合策略;其次,通过将内外奖励设计与集中式训练分布式执行的框架相结合,采用集中式的内在奖励学习方式,激励多机器人探索联合观测空间,克服多机器人社交编队导航的相对过度泛化问题;最后,通过所提算法与基线算法的仿真对比实验,建立多机器人社交编队导航的评估机制,并进行相关的定量与定性分析。实验结果表明,从成功率、碰撞率、导航时间和队形误差等指标的定量和定性评价来看,所提算法优于基线算法。与现有的多机器人社交编队导航算法相比,所提算法能够获得更好的编队导航性能。
计算机应用研究
2025年05期
立即查看 >
图书推荐
相关工具书