DepthMamba:多尺度VisionMamba架构的单目深度估计
在单目深度估计领域,虽然基于CNN和Transformer的模型已经得到了广泛的研究,但是CNN全局特征提取不足,Transformer则具有二次计算复杂性。为了克服这些限制,提出了一种用于单目深度估计的端到端模型,命名为DepthMamba。该模型能够高效地捕捉全局信息并减少计算负担。具体地,该方法引入了视觉状态空间(VSS)模块构建编码器-解码器架构,以提高模型提取多尺度信息和全局信息的能力。此外,还设计了MLPBins深度预测模块,旨在优化深度图的平滑性和整洁性。最后在室内场景NYU_Depth V2数据集和室外场景KITTI数据集上进行了综合实验,实验结果表明:与基于视觉Transformer架构的Depthformer相比,该方法网络参数量减少了27.75%,RMSE分别减少了6.09%和2.63%,验证了算法的高效性和优越性。
计算机应用研究
2025年03期
立即查看 >
图书推荐
相关工具书