主张以最少的人工成本
获得最大的外链发布提权效果!

深度学习利器:全面解析Adam优化器的核心参数配置

一篇文章解析Adam优化器参数

Adam优化器全面解析

Adam优化器以一阶动量[公式]和二阶动量[公式]为基石,它们分别关注梯度的即时值及其历史走向。一阶动量的常规衰减率β1设定为0.9,起始点为0,随着迭代次数t的提升,其比例逐步逼近1,初期可能造成学习速率偏慢。为此,采纳偏差修正:[公式],保障动量的平均值在初期不会过于微小。

二阶动量[公式]亦考虑了梯度的平方,其处理手法与前者相似。在batch size存在差异时,例如模型A的batch是模型B的a倍,优化器参数需作相应调整。若模型A的[公式]为[公式],模型B为[公式],则需维持[公式]相等,以确保学习过程保持一致性。

通过比较模型A和B的权重变化,如图2与图3所示,可观察到模型B在同等迭代次数下,其梯度权重更为显著。然而,将模型A迭代10步的权重与模型B迭代20步的权重进行对比(图4),可发现它们在每步的权重上具有等效性。这表明,通过调整参数,Adam优化器可以应对不同的batch size。

sgd与adam优化器的差异何在

Google Brain提出的优化器"Lion"在性能上超越了Adam(W)。

Lion在内存使用效率和运行速度上优于AdamW及其他自适应优化器。它仅需存储动量,相比AdamW减少一半的内存占用,对于训练大型模型和大规模数据尤为有益。例如,训练图像尺寸为224、批量大小为4096的ViT-B/16模型,AdamW至少需要16个TPU V4芯片,而Lion仅需8个。

Lion的简约设计使其在运行速度上具有优势,比AdamW和Adafactor快2-15%,具体差异取决于任务、代码库和硬件。

Lion在众多模型、任务和领域上展现出卓越性能,包括图像识别、视觉-语言对比学习、扩散模型和语言建模。

实验数据表明,Lion对超参数的选择更为稳定,特别是在批量大小影响消除实验中,Lion更倾向于较大的批量。

学习如何编写实现Lion的代码。

查阅相关文献资料。

以上所转载内容均来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2020@163.com,本人将予以删除。夫唯发布外链网 » 深度学习利器:全面解析Adam优化器的核心参数配置

分享到: 生成海报