华为昇腾DeepSeek解决方案

DeepSeek-V3是一款MoE模型,总参数量671B,激活参数量37B,采用2048张H800(节点内NVLink,节点间IB,非超节点架构)在14.8T token数据集上基于自研 HAI-LLM 训练系统总计训练了1394h(58.08天)

  • 2025-03-13
  • 收藏0
  • 阅读49
  • 下载0
  • 17页
  • pdf
  • 2.52M

评价

评分 :
极好
   *