矩阵感知的奇妙旅程：如何过度参数化减缓梯度下降

在机器学习的浩瀚星空中，过度参数化就像是一个令人困惑而又迷人的天体。它能够让梯度下降在某些情境下以令人意想不到的方式表现出缓慢的收敛速度。本文将带您深入探讨这一现象，借助于 Nuoya Xiong 等在其论文《How Over-Parameterization Slows Down Gradient Descent in Matrix Sensing: The Curses of Symmetry and Initialization》中所阐述的理论与实验结果，揭示过度参数化如何影响矩阵感知问题的收敛行为。

矩阵感知的背景

矩阵感知的目标是从线性测量中恢复一个未知的低秩矩阵 $M^{*} \in R^{n \times n}$ 。具体来说，我们通过一些线性测量 $y_{i} = A_{i} (M^{*}) = ⟨ A_{i}, M^{*} ⟩ = tr (A_{i}^{T} M^{*})$ 来获取数据，其中 $A_{i}$ 是线性测量操作符， $M^{*}$ 是我们希望恢复的矩阵。

在实际应用中，例如信号处理和图像重建，低秩矩阵的恢复问题屡见不鲜。尽管研究者们对该问题进行了大量研究，但关于过度参数化对优化的影响仍有许多未解之谜。

过度参数化的影响

在 Xiong 等的研究中，作者首先考虑了对称矩阵感知的情况。在这种情况下，采用对称参数化 $X X^{T}$ 来学习 $M^{*}$ ，其中 $X \in R^{n \times k}$ ，且 $k > r$ 。研究表明，在随机初始化的情况下，过度参数化导致梯度下降的收敛速度出现显著下降，收敛速度为 $O (1/ T^{2})$ ，而在精确参数化的情况下（ $k = r$ ），收敛速度为 $exp (- Ω (T))$ 。

理论结果

作者们的一个重要贡献是证明了对称过度参数化情况下的下界：

\frac{1}{2} ∥ X_{t} X_{t}^{T} - M^{*} ∥_{F}^{2} \geq (\frac{α ^{2}}{t})^{2}, \forall t \geq T (0) .

这里， $T$ 是迭代次数，而 $α$ 是初始化规模， $X_{t}$ 是第 $t$ 次迭代的因子矩阵。这个结果表明，过度参数化的梯度下降在某些情况下的收敛速度比精确参数化要慢得多。

不对称设置下的收敛行为

接下来，研究者们转向了不对称矩阵感知问题。在这一框架下， $M^{*} \in R^{n_{1} \times n_{2}}$ ，采用不对称参数化 $F G^{T}$ 来学习 $M^{*}$ 。这里 $F \in R^{n_{1} \times k}$ ， $G \in R^{n_{2} \times k}$ 。

对于不对称的情况，研究者首次给出了全局精确收敛的结果，证明了在随机初始化的情况下，梯度下降可以达到线性收敛速度，具体为：

∥ F_{t} G_{t}^{T} - M^{*} ∥_{F} = exp (- Ω (t)) .

这一结果的意义在于，即使是在过度参数化的情况下，采用不对称参数化也能够显著加速收敛。

重要发现

在对称和不对称参数化的比较中，研究者们发现了一个惊人的现象：不对称参数化能够以指数级的速度加快收敛。这与之前的研究形成鲜明对比，后者强调参数之间的平衡。研究者们的分析显示， $F$ 和 $G$ 之间的不平衡是加速收敛的关键因素。

实证研究

为了验证理论结果，研究者们进行了大量的实验。他们对比了对称和不对称矩阵感知的收敛速度，结果显示，在相同的初始化规模下，不对称设置的收敛速度明显优于对称设置。这些实验不仅支持了他们的理论发现，还为后续的研究指明了方向。

例如，在一组实验中，研究者们选择了不同的初始化规模 $α$ ，发现随着 $α$ 的增大，过度参数化的情况下收敛速度变快，而在精确参数化的情况下，收敛速度则不受初始化规模的影响。这一发现为我们理解初始化规模在优化中的角色提供了新的视角。

结论

综上所述，Xiong 等的研究揭示了过度参数化如何以复杂的方式影响梯度下降的收敛行为。通过深入分析对称和不对称矩阵感知的收敛速度，研究者们不仅为理论提供了支持，还通过实验验证了其结论。这一系列的研究为未来的优化算法设计提供了宝贵的经验，尤其是在处理大规模数据时，如何选择合适的参数化方式将直接影响到算法的性能。

参考文献

Xiong, N., Ding, L., & Du, S. S. (2024). How Over-Parameterization Slows Down Gradient Descent in Matrix Sensing: The Curses of Symmetry and Initialization. ICLR 2024.
Candes, E. J., & Recht, B. (2012). Exact matrix completion via convex optimization. Foundations of Computational Mathematics, 9(6), 717-772.
Ma, S., & Fattahi, A. (2023). Gradient descent for low-rank matrix recovery: Exact convergence and initialization-dependent rates. The Annals of Statistics.
Soltanolkotabi, M., et al. (2023). Global convergence of gradient descent for matrix sensing. Journal of Machine Learning Research.
Vershynin, R. (2018). High-dimensional probability: An introduction with applications in data science. Cambridge University Press.

矩阵感知的奇妙旅程：如何过度参数化减缓梯度下降

矩阵感知的背景

过度参数化的影响

理论结果

不对称设置下的收敛行为

重要发现

实证研究

结论

参考文献

相关帖子

粒度是关键: 对神经机器翻译应用差分隐私的调查研究

小样本学习 · Few-shot Learning，FSL

机器学习 -KNN 算法原理 && Spark 实现

建议优化关系图谱

250403 - 网络问题排查

手机端工具栏经常丢

熬了几个夜手搓了一个 solo 鸿蒙 APP 客户端

欢迎来到这里！