DepthMamba:多尺度VisionMamba架构的单目深度估计-计算机应用研究2025年03期-手机知网

DepthMamba:多尺度VisionMamba架构的单目深度估计

在单目深度估计领域，虽然基于CNN和Transformer的模型已经得到了广泛的研究，但是CNN全局特征提取不足，Transformer则具有二次计算复杂性。为了克服这些限制，提出了一种用于单目深度估计的端到端模型，命名为DepthMamba。该模型能够高效地捕捉全局信息并减少计算负担。具体地，该方法引入了视觉状态空间(VSS)模块构建编码器-解码器架构，以提高模型提取多尺度信息和全局信息的能力。此外，还设计了MLPBins深度预测模块，旨在优化深度图的平滑性和整洁性。最后在室内场景NYU＿Depth V2数据集和室外场景KITTI数据集上进行了综合实验，实验结果表明：与基于视觉Transformer架构的Depthformer相比，该方法网络参数量减少了27.75%,RMSE分别减少了6.09%和2.63%,验证了算法的高效性和优越性。