深度学习中的分布式训练
随着人工智能与深度学习的发展,大规模和超大规模的模型越来越受到业界的推崇。以NLP行业为例,从最开始的Bert-base只有1亿左右的参数量,到千亿级别的GPT-3,再到今年6月发布的目前全球最大预训练模型“悟道2.0”,参数规模达到惊人的1.75万亿,整个业界都由一种向更大模型发展的趋势。面对如此庞大的模型,必然也需要庞大的数据量才能进行训练,如果没有分布式训练的大算力加持,一个Epoch可能就要训练到天荒地老。抛开业界淬炼超大模型的场景,对于一个AI行业的普通算法工程师,面对日常的工作,分布式训练也可以大大加速模型的训练、调参的节奏、以及版本的迭代更新,在时间如此珍贵的当下,相信没有工程师会抗拒分布式训练带来的收益。因此,我们今天就聊聊深度学习中关于分布式训练的那些事儿。
- 2021-09-20
- 阅读70
- 下载0
- 5页
- docx