EM算法在神经机器翻译模型中的应用研究_杨云

传统的机器翻译模型的性能受限于双语平行语料库的规模,仅使用单语数据的无监督机器翻译方法难以有效保证模型性能的稳定。针对该问题,提出一种联合EM算法的自动语料扩充方法。利用生成的单语料结合原数据集构建平行语料,进行模型的迭代训练。根据部分双语语料初始化预训练两个单向Transformer模型;通过联合EM算法进行模型优化;通过逐渐减少训练数据的翻译损失来迭代更新两个相对翻译任务上机器翻译模型。实验结果表明,基于单双语料混合的EM迭代训练方法相比使用全双语数据的监督机器翻译方法和仅使用单语数据的无监督机器翻译方法,在中英机器翻译任务上具有更好的表现。

  • 2021-04-25
  • 收藏0
  • 阅读165
  • 下载0
  • 6页
  • pdf
  • 770.04M

评价

评分 :
   *