一篇文章解析Adam优化器参数
Adam优化器全面解读
Adam优化器以一阶动量[公式]和二阶动量[公式]为基石,它们分别关注梯度的即时值与历史走向。一阶动量的默认衰减率β1设定为0.9,起始值设为0,随着迭代次数t的提升,其比例逐步趋向于1,初期可能会引发学习速率偏低的问题。为此,引入偏差修正:[公式],保证动量的平均值在初始阶段不会过小。
二阶动量[公式]同样关注梯度的平方,其处理方式与一阶动量类似。当批量大小不同,例如模型A的批量是模型B的a倍,优化器参数需作出相应调整。若模型A的[公式]为[公式],模型B为[公式],则保持[公式]不变,以确保学习过程的一致性。
通过对比模型A和B的权重变化,如图2与图3所示,可以发现模型B在相同迭代次数下,其梯度权重更为显著。然而,将模型A迭代10步的权重与模型B迭代20步的权重进行对比(图4),可以发现它们在每步的权重上是等价的。这表明通过调整参数,Adam优化器能够适应不同的批量大小。
sgd与adam优化器的差异何在
Google Brain提出的优化器"Lion"在性能上超越了Adam(W)。
Lion在内存占用效率和运行速度上优于AdamW及其他自适应优化器。它仅需存储动量,比AdamW降低一半的内存占用,对训练大型模型和大规模数据尤为有益。例如,训练图像尺寸为224、批量大小为4096的ViT-B/16模型,AdamW至少需要16个TPU V4芯片,而Lion仅需8个。
Lion的简洁设计使其在运行速度上具有优势,比AdamW和Adafactor快2-15%,具体取决于任务、代码库和硬件。
Lion在多种模型、任务和领域上展现出卓越性能,包括图像识别、视觉-语言对比学习、扩散模型和语言建模。
实验结果表明,Lion对不同的超参数选择更为稳定,尤其是在批量大小影响的消融实验中,Lion更倾向于较大的批量。
掌握如何实现Lion的代码。
参考相关文献资料。