强化学习在阿里的技术演进与业务创新

当前的机器学习算法?致可以分为有监督的学习、?监督的学习和强化学 习(Reinforcement Learning)等。强化学习和其他学习?法不同之处在于强化学 习是智能系统从环境到?为映射的学习,以使奖励信号函数值最?。如果智能 体的某个?为策略导致环境正的奖赏,那么智能体以后产?这个?为策略的趋 势便会加强。

  • 2022-02-07
  • 收藏0
  • 阅读59
  • 下载0
  • 154页
  • pdf
  • 19.70M

评价

评分 :
   *