计算机行业:浅析AI大模型训练数据来源与版权挑战-广发证券

AI 大模型训练数据来源广泛。在算力可获得性提升以及算法同质化趋 势下,训练数据成为影响大模型性能的重要因素。区别于传统 AI 模 型,大语言模型通常使用公共文本数据集的混合体作为预训练语料 库,而多模态大模型则需要大规模的图片和音视频等多模态数据。这 些训练数据的来源广泛,包含公开渠道、企业自研、直接购买与合作 交换等。

  • 2025-05-20
  • 收藏0
  • 阅读233
  • 下载0
  • 38页
  • pdf
  • 1.90M

评价

评分 :
   *