揭开视觉 Transformer 的神秘面纱:记忆容量与 Kruskal 秩的奇妙关联

在深度学习的广袤天地中,Transformer 模型犹如一颗耀眼的新星,其在自然语言处理与计算机视觉等领域的卓越表现令人叹为观止。然而,尽管 Transformer 的成功毋庸置疑,其背后的工作机制仍然是一个令人困惑的谜团,尤其是在其记忆容量的研究中。传统的全连接网络(FCN)通常假设数据点处于“一般位置”(General Position),即数据点之间线性无关。然而,我们通过一系列对真实数据的实验,揭示了这一假设在 Transformer 模型中并不成立,特别是在视觉 Transformer(ViT)中。

视觉 Transformer 的实验探秘

为了剖析 Transformer 的记忆容量,我们聚焦于视觉 Transformer 的不同组成部分:随机初始化的嵌入层、随机初始化的注意力层、随机初始化的 ViT 第一层,以及在 ImageNet 上预训练的 ViT 第一层。我们采用了一种名为 Kruskal 秩的数学工具来深入研究这些层的属性。

Kruskal 秩与“一般位置”假设

Kruskal 秩是一个用于量化数据集线性无关性的指标。传统的“一般位置”假设认为,数据点之间应线性无关,即 Kruskal 秩等于数据点的数量。然而,在我们的实验中,这一假设在所有情况下均不成立,无论是嵌入层还是注意力层,甚至是在预训练的 ViT 模型中,数据点之间都表现出某种关联性,违背了“一般位置”假设。

新假设的提出与验证

在面对传统假设失效的情况下,我们提出了两个新的假设来描述 Transformer 中数据点的关系:

  • 假设 1:所有查询向量 \{e(t) | e(t) \in \mathbb{R}^d\}_{t=1}^T 的 Kruskal 秩至少为 n
  • 假设 2:对于每个样本 t \in [T],上下文矩阵 E(t) \in \mathbb{R}^{n \times d} 的秩为 n

我们通过实验验证了这两个假设。在不同的实验条件下,从随机注意力层到预训练的 ViT 模型,这两个假设均得到了满足。

| 模型         | “一般位置”假设 | 假设 1 | 假设 2 |
|--------------|----------------|--------|--------|
| 嵌入层       | ×              | ×      | ✓      |
| 随机注意力   | ×              | ✓      | ✓      |
| 随机 ViT    | ×              | ✓      | ✓      |
| 预训练 ViT  | ×              | ✓      | ✓      |

视觉 Transformer 的实用启示

那么,这些发现对我们理解视觉 Transformer 的工作原理有什么启示呢?

首先,传统的“一般位置”假设不适用于 Transformer,这意味着我们需要重新审视 Transformer 中数据点的关联性。

其次,我们的新假设提供了一种新的视角来理解 Transformer 的记忆机制,即通过注意力机制,查询向量和上下文矩阵之间形成的复杂关系对于模型的学习能力至关重要。

未来研究方向

尽管我们在本文中揭示了 Kruskal 秩在 Transformer 记忆容量中的重要性,仍有许多未解之谜值得进一步探索。例如,如何在更深层次上理解 Transformer 中注意力机制的具体工作原理,以及如何利用 Kruskal 秩优化 Transformer 的设计。这些问题的解决将为 Transformer 模型的进一步发展和应用提供新的思路。

结论

通过对视觉 Transformer 的深入研究,我们发现传统的“一般位置”假设不适用于此类模型。我们提出的两个新假设——关于查询向量和上下文矩阵的 Kruskal 秩——成功地描述了 Transformer 模型中的数据关系。这一研究不仅有助于我们更好地理解 Transformer 的工作机制,也为未来的研究指明了方向。

参考文献

  1. Vaswani, A., et al. (2017). Attention is all you need. In Advances in neural information processing systems.
  2. Dosovitskiy, A., et al. (2020). An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929.
  3. Kruskal, J. B. (1977). Three-way arrays: rank and uniqueness of trilinear decompositions, with application to arithmetic complexity and statistics. Linear Algebra and its Applications.
  4. Wang, H., et al. (2021). Understanding the generalization of Transformer networks. In International Conference on Learning Representations.
  5. Zhang, A., et al. (2019). A survey on deep learning in medical image analysis. Medical Image Analysis.
  • 深度学习

    深度学习(Deep Learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。

    53 引用 • 40 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...