揭开视觉 Transformer 的神秘面纱：记忆容量与 Kruskal 秩的奇妙关联

在深度学习的广袤天地中，Transformer 模型犹如一颗耀眼的新星，其在自然语言处理与计算机视觉等领域的卓越表现令人叹为观止。然而，尽管 Transformer 的成功毋庸置疑，其背后的工作机制仍然是一个令人困惑的谜团，尤其是在其记忆容量的研究中。传统的全连接网络（FCN）通常假设数据点处于“一般位置”（General Position），即数据点之间线性无关。然而，我们通过一系列对真实数据的实验，揭示了这一假设在 Transformer 模型中并不成立，特别是在视觉 Transformer（ViT）中。

视觉 Transformer 的实验探秘

为了剖析 Transformer 的记忆容量，我们聚焦于视觉 Transformer 的不同组成部分：随机初始化的嵌入层、随机初始化的注意力层、随机初始化的 ViT 第一层，以及在 ImageNet 上预训练的 ViT 第一层。我们采用了一种名为 Kruskal 秩的数学工具来深入研究这些层的属性。

Kruskal 秩与“一般位置”假设

Kruskal 秩是一个用于量化数据集线性无关性的指标。传统的“一般位置”假设认为，数据点之间应线性无关，即 Kruskal 秩等于数据点的数量。然而，在我们的实验中，这一假设在所有情况下均不成立，无论是嵌入层还是注意力层，甚至是在预训练的 ViT 模型中，数据点之间都表现出某种关联性，违背了“一般位置”假设。

新假设的提出与验证

在面对传统假设失效的情况下，我们提出了两个新的假设来描述 Transformer 中数据点的关系：

假设 1：所有查询向量 ${e (t) ∣ e (t) \in R^{d}}_{t = 1}^{T}$ 的 Kruskal 秩至少为 $n$ 。
假设 2：对于每个样本 $t \in [T]$ ，上下文矩阵 $E (t) \in R^{n \times d}$ 的秩为 $n$ 。

我们通过实验验证了这两个假设。在不同的实验条件下，从随机注意力层到预训练的 ViT 模型，这两个假设均得到了满足。


| 模型         | “一般位置”假设 | 假设 1 | 假设 2 |
|--------------|----------------|--------|--------|
| 嵌入层       | ×              | ×      | ✓      |
| 随机注意力   | ×              | ✓      | ✓      |
| 随机 ViT    | ×              | ✓      | ✓      |
| 预训练 ViT  | ×              | ✓      | ✓      |

视觉 Transformer 的实用启示

那么，这些发现对我们理解视觉 Transformer 的工作原理有什么启示呢？

首先，传统的“一般位置”假设不适用于 Transformer，这意味着我们需要重新审视 Transformer 中数据点的关联性。

其次，我们的新假设提供了一种新的视角来理解 Transformer 的记忆机制，即通过注意力机制，查询向量和上下文矩阵之间形成的复杂关系对于模型的学习能力至关重要。

未来研究方向

尽管我们在本文中揭示了 Kruskal 秩在 Transformer 记忆容量中的重要性，仍有许多未解之谜值得进一步探索。例如，如何在更深层次上理解 Transformer 中注意力机制的具体工作原理，以及如何利用 Kruskal 秩优化 Transformer 的设计。这些问题的解决将为 Transformer 模型的进一步发展和应用提供新的思路。

结论

通过对视觉 Transformer 的深入研究，我们发现传统的“一般位置”假设不适用于此类模型。我们提出的两个新假设——关于查询向量和上下文矩阵的 Kruskal 秩——成功地描述了 Transformer 模型中的数据关系。这一研究不仅有助于我们更好地理解 Transformer 的工作机制，也为未来的研究指明了方向。

参考文献

Vaswani, A., et al. (2017). Attention is all you need. In Advances in neural information processing systems.
Dosovitskiy, A., et al. (2020). An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929.
Kruskal, J. B. (1977). Three-way arrays: rank and uniqueness of trilinear decompositions, with application to arithmetic complexity and statistics. Linear Algebra and its Applications.
Wang, H., et al. (2021). Understanding the generalization of Transformer networks. In International Conference on Learning Representations.
Zhang, A., et al. (2019). A survey on deep learning in medical image analysis. Medical Image Analysis.

卷积核

为什么需要卷积操作 1、特征提取使用特定的卷积核，能够提取出图片数据特定方向的信息卷积操作即是对图像的像素点进行乘运算并将结果矩阵的所有值求和得出一个数的结果 [图片] 此处 input 即是一个 55 像素大小的图片使用一个 33 矩阵对图片最左上角 9 个像素点进行卷积运算（乘）矩阵算法1 依次从坐标 0， ..

从 transformer 追溯到 CNN

为什么要写 transformer 的文章呢？大概归于 3 个原因 1）目前我对于大模型的理解仅停留在使用层面，API、提示词、Agent 玩的很 6，无法接触到很核心的东西。长期下去可能也没啥进步 2）网上对于 transformer 讲解的文章或者视频大多很晦涩难懂，没点神经网络的基础是真的很难看懂，希望这篇文章能 ..

"正在上传数据仓库" 特别缓慢

问题：[图片] 正在上传数据仓库特别缓慢，需要 10 分钟以上。截图时已经同步了 7 分钟。频率：经常复现，但非 100%，多见于版本升级，重检索引之后的第一次同步同步方法：nas，docker 自建的 S3 存储。（docker 容器使用的 minio，重建容器后无改善）网络环境：中国移动流量，访问自己 nas ..

daily note 随手写自动引用到相关主题笔记该怎么实现呢

一个场景：我的 daily note 就是随手写一些片段，但某些内容已有相关主题的笔记，想要和主题笔记关联起来。我想在【写 daily note】过程中就能实现这个目的，自动【引用】到相关主题的笔记里（显示出整个内容块内容），不用打开主题笔记。目前的想法是给内容块加标签，在主题笔记里写一个 SQL 缺点是 1）不能对 ..

请教同时进行多个独立项目，该如何管理进度？

现在使用的方法 [图片] 遇到的问题虽然每个项目都有记录日志，但项目越来越多以后，没法一目了然的看到每个项目现在的进度（做了哪些工作），已有的阶段性成果，现在的困难和下一步的计划。每次汇报或者重新着手之前项目前都要看一遍日志，甚至有些项目做着做着就被遗忘了。不知道有没有人有这方面经验。

重进长时间未打开的文档, 定位变了

windows 3.1.27 固定盯住了 5 个文档, 设置是上限 8 个, 平时会有一两个活动的文档打开盯住的[文档 1], 滑动到某个位置, 点击打开其他文档经过很长一段时间的之后, 再次点击[盯住的文档 1], 注意, 在此期间, [文档 1]没有被关闭理论上来说, 第二次打开[文档 1], 文档的定位应 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于