• 相关博文
  • 最新资讯
加载中...
  • 使用大batch优化深度学习:训练BERT仅需76分钟 | ICLR 2020

    作者的实验结果证明了LAMB在各种任务(例如BERT和RseNet-50训练)中可以表现的非常出色,且仅需调整少量的超参数。重要的是,对于训练BERT,本文的优化程序可以使用非常大的32868 batch大小,而且不会降低性能。通过将批处理大小增加到TPUv3 Pod的内存限制,BERT的训练时间可以从3天减少到只有76分钟(可以见后面的表1)。LAMB的实现已经开源。

    2020-04-07 0