DeepSeek大模型原创核心技术解读

自GPT采用Transformer架构取得成功以来,经典Transformer架构一直是很多大模型的标配。但这不意味着Transformer是完美无缺的。DeepSeek在Transformer架构的基础上也做了很多创新,主要为:多头潜在注意力即MLA 。

  • 2025-02-21
  • 收藏0
  • 阅读767

方案详情

评价

评分 :
极好
   *