可视化BERT

发布于 2024-10-02 / 22 阅读 / 0 评论 /

可视化BERT 由于BERT 的复杂性，所以很难直观地了解其内部权重的含义。而且一般来说，深度学习模型也是饱受诟病的黑箱结构。所以大家开发了各种可视化工具来辅助理解。可我却没有找到一个工具能够解释BERT 的注意力模式，来告诉我们它到底在学什么。幸运的是，Tensor2Tensor有一个很好的工具

可视化BERT

由于BERT 的复杂性，所以很难直观地了解其内部权重的含义。而且一般来说，深度学习模型也是饱受诟病的黑箱结构。所以大家开发了各种可视化工具来辅助理解。

可我却没有找到一个工具能够解释BERT 的注意力模式，来告诉我们它到底在学什么。幸运的是，Tensor2Tensor有一个很好的工具，可用于可视化Transformer 模型中的注意力模式。因此我修改了一下，直接用在BERT的一个pytorch版本上。修改后的界面如下所示。你可以直接在这个Colab notebook (https://colab.research.google.com/drive/1vlOJ1lhdujVjfH857hvYKIdKPTD9Kid8)里运行，或在Github 上找到源码。(https://github.com/jessevig/bertviz)。

这个工具将注意力看做不同的连线，它们用来连接被更新的位置(左半边)与被注意的位置(右半边)。(译注：可以想象为神经网络是从右向左正向传播的。)不同的颜色分别代表相应的注意头，而线条颜色的深浅代表被注意的强度。在这个小工具的顶部，用户可以选择观察模型的第几层，以及第几个注意力头(通过单击顶部的色块即可，它们分别代表着12个头)。