现有的基于模型的离线强化学习方法中,大多着力于研究不同形式的保守主义应用,而忽略了对该类方法至关重要的部分——环境模型的研究。为了补充对环境模型影响的研究,提出了一种基于确定性模型的离线强化学习算法(deterministic model-based offline reinforcement learning, DMO)。首先,DMO针对离线数据与在线模型算法中数据特性的不一致,提出了一种适合离线RL问题的确定性建模环境的方法。其次,DMO使用转移中状态动作对在分布内的程度来衡量整个转移的不确定性,进而提出了基于不确定性衡量的奖励调整和模拟轨迹截断控制方法。DMO在D4RL的十二个机器人控制任务中进行了评估。最终在所有的测试任务中,DMO在以TD3+BC、BEAR、COMBO等算法为基线的比较中实现了8.2%~38%的平均得分提升。