一文搞懂Transformer自注意力机制(图文代码详解)

多头注意力由多个单头注意力组成,我们可以决定需要将多少个单头注意力结合在一起;例如,Meta公司的LLaMA大语言模型在编码器架构中使用了32个单头注意力,下面是单头注意力的示意图。

  • 2024-05-15
  • 收藏0
  • 阅读83

方案详情

评价

评分 :
   *