Adam算法


Vincent
发布于 2024-04-07 / 14 阅读 / 0 评论 /
Adam算法 本章我们已经学习了许多有效优化的技术。 在本节讨论之前,我们先详细回顾一下这些技术: 我们学习了:随机梯度下降在解决优化问题时比梯度下降更有效。 我们学习了:在一个小批量中使用更大的观测值集,可以通过向量化提供额外效率。这是高效的多机、多GPU和整体并行处理的关键。 我们添加了一种机制