自动驾驶算法——理解强化学习(三)

MC 方法很简单;你只是直接从经验情节中学习。它之所以无模型,是因为没有任何关于 MDP 转换/奖励的知识。它使用简单的“价值 = 平均回报”这一想法从完整的情节中学习。警告:只能将 MC 应用于情节 MDP,并且所有情节都必须终止。

  • 2024-12-19
  • 收藏0
  • 阅读25

方案详情

评价

评分 :
   *