Adadelta


Vincent
发布于 2024-04-07 / 5 阅读 / 0 评论 /
Adadelta Adadelta是AdaGrad的另一种变体, 主要区别在于前者减少了学习率适应坐标的数量。 此外,广义上Adadelta被称为没有学习率,因为它使用变化量本身作为未来变化的校准。 Adadelta算法是在 (Zeiler, 2012)中提出的。 Adadelta算法 简而言之,A