阿里:从虚拟世界走向现实应用

当前的机器学习算法?致可以分为有监督的学习、?监督的学习和强化学 习(Reinforcement Learning)等。强化学习和其他学习?法不同之处在于强化学 习是智能系统从环境到?为映射的学习,以使奖励信号函数值最?。如果智能 体的某个?为策略导致环境正的奖赏,那么智能体以后产?这个?为策略的趋 势便会加强。强

  • 2022-01-20
  • 收藏0
  • 阅读61
  • 下载0
  • 154页
  • pdf
  • 19.70M

评价

评分 :
   *