算法应用动手学深度学习算法应用

风格迁移

风格迁移摄影爱好者也许接触过滤波器。它能改变照片的颜色风格，从而使风景照更加锐利或者令人像更加美白。但一个滤波器通常只能改变照片的某个方面。如果要照片达到理想中的风格，可能需要尝试大量不同的组合。这个过程的复杂程度不亚于模型调参。本节将介绍如何使用卷积神经网络，自动将一个图像中的风格应用在另一图

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

全卷积网络

全卷积网络语义分割是对图像中的每个像素分类。全卷积网络（fully convolutional network，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换 (Long et al., 2015)。与我们之前在图像分类或目标检测部分介绍的卷积神经网络不同，全卷积网络将中间层特征图的

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

转置卷积

转置卷积到目前为止，我们所见到的卷积神经网络层，例如卷积层和汇聚层，通常会减少下采样输入图像的空间维度（高和宽）。然而如果输入和输出图像的空间维度相同，在以像素级分类的语义分割中将会很方便。例如，输出像素所处的通道维可以保有输入像素在同一位置上的分类结果。为了实现这一点，尤其是在空间维度被卷

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

义分割和数据集

语义分割和数据集讨论的目标检测问题中，我们一直使用方形边界框来标注和预测图像中的目标。本节将探讨语义分割（semantic segmentation）问题，它重点关注于如何将图像分割成属于不同语义类别的区域。与目标检测不同，语义分割可以识别并理解图像中每一个像素的内容：其语义区域的标注和预测是

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

区域卷积神经网络（R-CNN）系列

区域卷积神经网络（R-CNN）系列除了描述的单发多框检测之外，区域卷积神经网络（region-based CNN或regions with CNN features，R-CNN） (Girshick et al., 2014)也是将深度模

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

单发多框检测（SSD）

单发多框检测（SSD）我们分别介绍了边界框、锚框、多尺度目标检测和用于目标检测的数据集。现在我们已经准备好使用这样的背景知识来设计一个目标检测模型：单发多框检测（SSD） (Liu et al., 2016)。该模型简单、快速且被广泛使用。尽管这只是其中一种目标检测模型，但本节中的一些设计原则

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

目标检测数据集

目标检测数据集目标检测领域没有像MNIST和Fashion-MNIST那样的小数据集。为了快速测试目标检测模型，我们收集并标记了一个小型数据集。首先，我们拍摄了一组香蕉的照片，并生成了1000张不同角度和大小的香蕉图像。然后，我们在一些背景图片的随机位置上放一张香蕉的图像。最后，我们在图片

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

多尺度目标检测

多尺度目标检测我们以输入图像的每个像素为中心，生成了多个锚框。基本而言，这些锚框代表了图像不同区域的样本。然而，如果为每个像素都生成的锚框，我们最终可能会得到太多需要计算的锚框。想象一个561×728的输入图像，如果以每个像素为中心生成五个形状不同的锚框，就需要在图像上标记和预测超过200万

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

锚框

锚框目标检测算法通常会在输入图像中采样大量的区域，然后判断这些区域中是否包含我们感兴趣的目标，并调整区域边界从而更准确地预测目标的真实边界框（ground-truth bounding box）。不同的模型使用的区域采样方法可能不同。这里我们介绍其中的一种方法：以每个像素为中心，生成多个缩放比

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

目标检测和边界框

目标检测和边界框前面的章节介绍了各种图像分类模型。在图像分类任务中，我们假设图像中只有一个主要物体对象，我们只关注如何识别其类别。然而，很多时候图像里有多个我们感兴趣的目标，我们不仅想知道它们的类别，还想得到它们在图像中的具体位置。在计算机视觉里，我们将这类任务称为目标检测（object d

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

微调

微调前面的一些章节介绍了如何在只有6万张图像的Fashion-MNIST训练数据集上训练模型。我们还描述了学术界当下使用最广泛的大规模图像数据集ImageNet，它有超过1000万的图像和1000类的物体。然而，我们平常接触到的数据集的规模通常在这两者之间。假如我们想识别图片中不同类型的椅子

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

图像增广

图像增广提到过大型数据集是成功应用深度神经网络的先决条件。图像增广在对训练图像进行一系列的随机变化之后，生成相似但不同的训练样本，从而扩大了训练集的规模。此外，应用图像增广的原因是，随机改变训练样本可以减少模型对某些属性的依赖，从而提高模型的泛化能力。例如，我们可以以不同的方式裁剪图像，使感

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

参数服务器

参数服务器当我们从一个GPU迁移到多个GPU时，以及再迁移到包含多个GPU的多个服务器时（可能所有服务器的分布跨越了多个机架和多个网络交换机），分布式并行训练算法也需要变得更加复杂。通过细节可以知道，一方面是不同的互连方式的带宽存在极大的区别（例如，NVLink可以通过设置实现跨6条链路的高达10

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

多GPU的简洁实现

多GPU的简洁实现每个新模型的并行计算都从零开始实现是无趣的。此外，优化同步工具以获得高性能也是有好处的。下面我们将展示如何使用深度学习框架的高级API来实现这一点。数学和算法相同。本节的代码至少需要两个GPU来运行。 from mxnet import autograd, gluon, init

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

多GPU训练

多GPU训练到目前为止，我们讨论了如何在CPU和GPU上高效地训练模型，同时展示了深度学习框架如何在CPU和GPU之间自动地并行化计算和通信，还展示了如何使用nvidia-smi命令列出计算机上所有可用的GPU。但是我们没有讨论如何真正实现深度学习训练的并行化。是否一种方法，以某种方式分割数据

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

硬件

硬件很好地理解算法和模型才可以捕获统计方面的问题，构建出具有出色性能的系统。同时，至少对底层硬件有一定的了解也是必不可少的。本节不能替代硬件和系统设计的相关课程。相反，本节的内容可以作为理解某些算法为什么比其他算法更高效以及如何实现良好吞吐量的起点。一个好的设计可以很容易地在性能上造就数量级的差异

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

自动并行

自动并行深度学习框架（例如，MxNet、飞桨和PyTorch）会在后端自动构建计算图。利用计算图，系统可以了解所有依赖关系，并且可以选择性地并行执行多个不相互依赖的任务以提高速度。例如，独立初始化两个变量。因此，系统可以选择并行执行它们。通常情况下单个操作符将使用所有CPU或单个GPU上的所有计

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

异步计算

异步计算今天的计算机是高度并行的系统，由多个CPU核、多个GPU、多个处理单元组成。通常每个CPU核有多个线程，每个设备通常有多个GPU，每个GPU有多个处理单元。总之，我们可以同时处理许多不同的事情，并且通常是在不同的设备上。不幸的是，Python并不善于编写并行和异步代码，至少在没有额外帮助的

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

编译器和解释器

编译器和解释器目前为止，本书主要关注的是命令式编程（imperative programming）。命令式编程使用诸如print、“+”和if之类的语句来更改程序的状态。考虑下面这段简单的命令式程序： def add(a, b): return a + b def fancy_fun

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

学习率调度器

学习率调度器到目前为止，我们主要关注如何更新权重向量的优化算法，而不是它们的更新速率。然而，调整学习率通常与实际算法同样重要，有如下几方面需要考虑：首先，学习率的大小很重要。如果它太大，优化就会发散；如果它太小，训练就会需要过长时间，或者我们最终只能得到次优的结果。我们之前看到问题的条件数很重

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

Adam算法

Adam算法本章我们已经学习了许多有效优化的技术。在本节讨论之前，我们先详细回顾一下这些技术：我们学习了：随机梯度下降在解决优化问题时比梯度下降更有效。我们学习了：在一个小批量中使用更大的观测值集，可以通过向量化提供额外效率。这是高效的多机、多GPU和整体并行处理的关键。我们添加了一种机制

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

Adadelta

Adadelta Adadelta是AdaGrad的另一种变体，主要区别在于前者减少了学习率适应坐标的数量。此外，广义上Adadelta被称为没有学习率，因为它使用变化量本身作为未来变化的校准。 Adadelta算法是在 (Zeiler, 2012)中提出的。 Adadelta算法简而言之，A

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

RMSProp算法

RMSProp算法上节关键问题之一，是学习率按预定时间表�(�−12)显著降低。虽然这通常适用于凸问题，但对于深度学习中遇到的非凸问题，可能并不理想。但是，作为一个预处理器，Adagrad算法按坐标顺序的适应性是非常可取的。 (

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

AdaGrad算法

AdaGrad算法我们从有关特征学习中并不常见的问题入手。稀疏特征和学习率假设我们正在训练一个语言模型。为了获得良好的准确性，我们大多希望在训练的过程中降低学习率，速度通常为�(�−12)或更低。现在讨论关于稀疏特征（即只在偶尔出现的特征）的模型训练，这对自然语言来说很常见。例如，我们看

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

动量法

动量法在上面，我们详述了如何执行随机梯度下降，即在只有嘈杂的梯度可用的情况下执行优化时会发生什么。对于嘈杂的梯度，我们在选择学习率需要格外谨慎。如果衰减速度太快，收敛就会停滞。相反，如果太宽松，我们可能无法收敛到最优解。基础本节将探讨更有效的优化算法，尤其是针对实验中常见的某些类型的优化

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

小批量随机梯度下降

小批量随机梯度下降到目前为止，我们在基于梯度的学习方法中遇到了两个极端情况：使用完整数据集来计算梯度并更新参数，一次处理一个训练样本来取得进展。二者各有利弊：每当数据非常相似时，梯度下降并不是非常“数据高效”。而由于CPU和GPU无法充分利用向量化，随机梯度下降并不特别“计算高效”。这暗示

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

随机梯度下降

随机梯度下降在前面的章节中，我们一直在训练过程中使用随机梯度下降，但没有解释它为什么起作用。为了澄清这一点，我们刚描述了梯度下降的基本原则。本节继续更详细地说明随机梯度下降（stochastic gradient descent）。 %matplotlib inline import math f

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

梯度下降

梯度下降尽管梯度下降（gradient descent）很少直接用于深度学习，但了解它是理解下一节随机梯度下降算法的关键。例如，由于学习率过大，优化问题可能会发散，这种现象早已在梯度下降中出现。同样地，预处理（preconditioning）是梯度下降中的一种常用技术，还被沿用到更高级的算

Vincent 发布于 2024-04-07

算法应用动手学深度学习神经网络

凸性

凸性凸性（convexity）在优化算法的设计中起到至关重要的作用，这主要是由于在这种情况下对算法进行分析和测试要容易。换言之，如果算法在凸性条件设定下的效果很差，那通常我们很难在其他条件下看到好的结果。此外，即使深度学习中的优化问题通常是非凸的，它们也经常在局部极小值附近表现出一些凸性

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

优化和深度学习

优化和深度学习本节将讨论优化与深度学习之间的关系以及在深度学习中使用优化的挑战。对于深度学习问题，我们通常会先定义损失函数。一旦我们有了损失函数，我们就可以使用优化算法来尝试最小化损失。在优化中，损失函数通常被称为优化问题的目标函数。按照传统惯例，大多数优化算法都关注的是最小化。如果我们需要最大化

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

Transformer

Transformer 上面我们比较了卷积神经网络（CNN）、循环神经网络（RNN）和自注意力（self-attention）。值得注意的是，自注意力同时具有并行计算和最短的最大路径长度这两个优势。因此，使用自注意力来设计深度架构是很有吸引力的。对比之前仍然依赖循环神经网络实现输入表示的自注意力模型

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

自注意力和位置编码

自注意力和位置编码在深度学习中，经常使用卷积神经网络（CNN）或循环神经网络（RNN）对序列进行编码。想象一下，有了注意力机制之后，我们将词元序列输入注意力池化中，以便同一组词元同时充当查询、键和值。具体来说，每个查询都会关注所有的键－值对并生成一个注意力输出。由于查询、键和值来自同一组输

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

多头注意力

多头注意力在实践中，当给定相同的查询、键和值的集合时，我们希望模型可以基于相同的注意力机制学习到不同的行为，然后将不同的行为作为知识组合起来，捕获序列内各种范围的依赖关系（例如，短距离依赖和长距离依赖关系）。因此，允许注意力机制组合使用查询、键和值的不同子空间表示（representa

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

Bahdanau 注意力

Bahdanau 注意力之前探讨了机器翻译问题：通过设计一个基于两个循环神经网络的编码器-解码器架构，用于序列到序列学习。具体来说，循环神经网络编码器将长度可变的序列转换为固定形状的上下文变量，然后循环神经网络解码器根据生成的词元和上下文变量按词元生成输出（目标）序列词元。然而，即使并

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

注意力评分函数

注意力评分函数上节使用了高斯核来对查询和键之间的关系建模。高斯核指数部分可以视为注意力评分函数（attention scoring function），简称评分函数（scoring function），然后把这个函数的输出结果输入到softmax函数中进行运

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

注意力汇聚：Nadaraya-Watson 核回归

注意力汇聚：Nadaraya-Watson 核回归上节介绍了框架下的注意力机制的主要成分：查询（自主提示）和键（非自主提示）之间的交互形成了注意力汇聚；注意力汇聚有选择地聚合了值（感官输入）以生成最终的输出。本节将介绍注意力汇聚的更多细节，以便从宏观上了解注意力机制在实践中的运作方式。具

Vincent 发布于 2024-04-07

算法应用动手学深度学习算法应用

注意力提示

注意力提示感谢读者对本书的关注，因为读者的注意力是一种稀缺的资源：此刻读者正在阅读本书（而忽略了其他的书），因此读者的注意力是用机会成本（与金钱类似）来支付的。为了确保读者现在投入的注意力是值得的，作者们尽全力（全部的注意力）创作一本好书。自经济学研究稀缺资源分配以来，人们正处在“注意力

Vincent 发布于 2024-04-07