深度学习利器：全面解析Adam优化器的核心参数配置-夫唯发布外链网

一篇文章解析Adam优化器参数

Adam优化器全面解析

Adam优化器以一阶动量[公式]和二阶动量[公式]为基石，它们分别关注梯度的即时值及其历史走向。一阶动量的常规衰减率β1设定为0.9，起始点为0，随着迭代次数t的提升，其比例逐步逼近1，初期可能造成学习速率偏慢。为此，采纳偏差修正：[公式]，保障动量的平均值在初期不会过于微小。

二阶动量[公式]亦考虑了梯度的平方，其处理手法与前者相似。在batch size存在差异时，例如模型A的batch是模型B的a倍，优化器参数需作相应调整。若模型A的[公式]为[公式]，模型B为[公式]，则需维持[公式]相等，以确保学习过程保持一致性。

通过比较模型A和B的权重变化，如图2与图3所示，可观察到模型B在同等迭代次数下，其梯度权重更为显著。然而，将模型A迭代10步的权重与模型B迭代20步的权重进行对比（图4），可发现它们在每步的权重上具有等效性。这表明，通过调整参数，Adam优化器可以应对不同的batch size。

sgd与adam优化器的差异何在

Google Brain提出的优化器"Lion"在性能上超越了Adam(W)。

Lion在内存使用效率和运行速度上优于AdamW及其他自适应优化器。它仅需存储动量，相比AdamW减少一半的内存占用，对于训练大型模型和大规模数据尤为有益。例如，训练图像尺寸为224、批量大小为4096的ViT-B/16模型，AdamW至少需要16个TPU V4芯片，而Lion仅需8个。

Lion的简约设计使其在运行速度上具有优势，比AdamW和Adafactor快2-15%，具体差异取决于任务、代码库和硬件。

Lion在众多模型、任务和领域上展现出卓越性能，包括图像识别、视觉-语言对比学习、扩散模型和语言建模。

实验数据表明，Lion对超参数的选择更为稳定，特别是在批量大小影响消除实验中，Lion更倾向于较大的批量。

学习如何编写实现Lion的代码。

查阅相关文献资料。

深度学习利器：全面解析Adam优化器的核心参数配置