网易有数机器学习平台批调度与k8s调度系统的深度解析

近几年来,AI和大数据异常火热,伴随着AI经常出现的一个词就是机器学习平台,作为一个机器学习平台,平台提供训练所需要的硬件资源,平台支持使用tfjob分布式训练任务训练模型,由于平台部署在私有集群,所以集群内项目的资源是有限的,在项目初期,项目训练任务不多的时候,每个任务都能获取足够的资源进行训练。

  • 2022-01-18
  • 收藏0
  • 阅读23
  • 下载0
  • 17页
  • docx
  • 899.51M

评价

评分 :
   *