Skip to content

Latest commit

 

History

History
184 lines (114 loc) · 17.2 KB

File metadata and controls

184 lines (114 loc) · 17.2 KB

ARS2-Neo: Riemannian Manifold Meets Sharpness-Aware Minimization

摘要

本文提出 ARS2-Neo,这是一种从第一性原理出发构建的二阶流形优化器,旨在统一信息几何中的自然梯度下降、黎曼流形上的谱信任域优化以及锐度感知最小化 (SAM)。本文的核心贡献在于揭示了深度学习优化过程的本质:它不仅是损失函数的下降,更是系统在参数分布流形上沿着最小化自由能 (F-min) 测地线的动力学演化。

我们首先证明了 Adam 的二阶矩本质上是对 Fisher 信息矩阵对角线的经验近似,从而将 Adam 重新解释为一种自然梯度能量估计器。随后,我们分析了 Muon 的正交化机制,将其定义为谱信任域更新——即在给定谱范数约束下,寻找对参数扰动最小且损失降低最大的“最简化更新轨迹”。通过将这两者结合并引入能量-几何解耦 (Energy-Geometry Decoupling) 范式,我们得到了 ARS (测地线优化器)

为了解决局部测地线容易陷入尖锐极小值导致的过拟合危机,我们引入了流形感知的 SAM 机制,并将其与最小描述长度 (MDL) 原则及整合预测工作空间理论 (IPWT 2.0) 联系起来。ARS2-Neo 通过引入受 GSAM 启发的 Lazy Mode 和自适应几何感知 (AGA) 技术,在不增加显著计算开销的前提下,实现了从局部测地线向全局测地线的跨越。

正式的长周期实验 (LRP) 表明,ARS2-Neo 在视觉 (CIFAR-10 ResNet-18 精度 95.87%) 和语言建模 (Wikitext-2 峰值 PPL 90.69) 任务中均取得了显著优于 AdamW 和 Muon 的性能,证明了其在收敛速度和泛化能力上的双重优势。

1. 引言:优化器的几何危机与范数困境

在深度学习的工业实践中,优化器的选择长期处于经验主义的统治之下。AdamW 凭借其稳健的自适应性成为了事实上的标准,而最近涌现的 Muon 家族则通过引入矩阵正交化,在训练效率上实现了质的飞跃。然而,这种繁荣背后隐藏着深刻的理论危机。

当前的优化器研究正面临两个核心矛盾:

  1. 局部贪婪与全局泛化的张力:Muon 等几何优化器通过极佳的条件数控制,成为了极其高效的“局部极小值猎手”。它们沿着局部流形走最快的路,却往往坠入泛化性能极差的“尖锐深井”。
  2. 工程补丁与第一性原理的脱节:为了修复 Muon 的不稳定性,部分变体引入了复杂的自适应缩放。然而,这些方法往往在正交化之后或过程中进行逐参数调节,这在本质上破坏了正交流形的几何完备性。

本文旨在通过 ARS2-Neo 终结这种混乱。我们主张,正确的优化路径应当是在正交化之前进行基于信息几何的预处理(能量估计),在正交化过程中保持流形结构(方向控制),并在正交化后恢复统计步长(范数加回)。更进一步,我们通过引入锐度感知,将优化轨迹从单纯的局部测地线修正为指向全局平坦区域的全局测地线。

2. 理论基石:信息几何与谱信任域的统一

2.1 Adam 即对角 Fisher:自然梯度的能量视角

自然梯度下降 (Natural Gradient Descent, NGD) 的核心思想是更新方向应当在概率分布空间(由 KL 散度定义)中保持等距,而非在参数数值空间中等距。其更新规则为: $$ \Delta \theta = -\eta F^{-1} \nabla L $$ 其中 $F$ 是 Fisher 信息矩阵。

在实际的大规模训练中,计算完整的 $F^{-1}$ 是不可行的。Adam 优化器的二阶矩 $v_t = E[g_t^2]$ 实际上是对 $F$ 对角线元素的经验估计 [7]。因此,Adam 的核心项 $m_t / \sqrt{v_t}$ 本质上是在做对角近似的自然梯度下降。我们将这个项定义为能量 (Energy)。它捕捉了在当前概率分布度量下,参数空间中每个维度为了实现单位分布变化所释放的标量强度。

2.2 Muon 即谱信任域:最简化更新轨迹

Muon 的核心是将动量矩阵 $M$ 投影到 Stiefel 流形 $U^T U = I$。从最优化理论的角度看,这等价于求解以下子问题: $$ \minO \langle O, M \rangle \quad \text{s.t.} \quad |O|{op} \le 1 $$ 这正是谱范数约束下的信任域更新

在黎曼几何中,这对应于流形上的测地线 (Geodesic)。Muon 的局限性在于,它是一个“盲目的测地线遵循者”。由于缺乏能量引导,当模型接近陡峭的局部极小值时,受限的步长无法提供足够的冲力来穿越这些区域,导致模型在训练后期容易陷入欠拟合的泥潭,或者在进入尖锐极小值后因无法逃离而发生过拟合。

2.3 算子复合的收敛性证明 (Convergence of Operator Composition)

ARS2-Neo 的核心在于将优化过程分解为两个独立的算子:能量算子 $\mathcal{W}$ (Whitening) 和几何算子 $\mathcal{P}$ (Projection)。

定义组合算子 $T_{ARS} = \mathcal{P}{Stiefel} \circ \mathcal{W}{Fisher}$。

定理 2.1 (ARS 收敛性): 假设损失函数 $L$$L$-smooth 的,且 Fisher 信息矩阵近似 $v_t$ 是正定的。若 $\mathcal{W}{Fisher}$ 提供了下降方向的能量缩放,且 $\mathcal{P}{Stiefel}$ 是到 Stiefel 流形的缩回 (Retraction),则更新 $\theta_{t+1} = \theta_t - \eta T_{ARS}(g_t)$ 保证了在黎曼流形上的单调下降。

证明草图:

  1. 能量有效性: AdamW 的收敛性证明 [9] 指出,基于 $v_t$ 的缩放保证了在非凸环境下的平稳点收敛。
  2. 几何相容性: Muon 的分析 [2, 5] 表明,Newton-Schulz 迭代生成的更新方向是 Stiefel 流形上的近似测地线。
  3. 组合稳定性: 由于 $\mathcal{W}$ 是对角正定变换,它不会改变梯度的符号结构,仅调整其幅度。$\mathcal{P}$ 操作在 Frobenius 范数意义下寻找最近的正交基。因此,$\langle g_t, T_{ARS}(g_t) \rangle > 0$,即组合方向与负梯度方向的夹角始终为锐角,满足下降条件。

定理 2.2 (ARS2 收敛性): ARS2 引入了 SAM 扰动。根据 [1, 10] 的证明,只要扰动半径 $\rho$ 随时间衰减或足够小,SAM 更新序列收敛于 $L$ 的平坦极小值邻域。ARS2 将此扰动限制在自然梯度方向上,即 $\epsilon \propto F^{-1/2} g$,这实际上是在黎曼度量下的等距扰动,因此继承了 SAM 的收敛界,且具有更好的几何适应性。

2.4 现有变体的批判:几何与统计维度的耦合误区

在深入探讨 ARS2-Neo 的理论基础之前,我们必须阐明为什么现有的 Muon 变体——特别是 AdaMuon 等——在信息几何层面上存在局限。这些局限源于对几何约束(正交化)与统计自适应(缩放)解耦原则的误解。

2.4.1 AdaMuon:符号化带来的信息损失与流形破坏

AdaMuon [6] 引入 sign(m) 变换旨在稳定早期训练,但从信息论角度看,这一操作强制将梯度的奇异值分布归一化,导致了严重的信息熵坍缩。在模型尚未形成稳定特征表示的早期阶段,这种人为的信息过滤阻碍了对复杂数据结构的感知。

更关键的缺陷在于其复合顺序:AdaMuon 试图在正交化之后应用元素级自适应缩放。从微分几何的角度看,这相当于在 Stiefel 流形上施加了非等向的欧式空间变换,强行将更新向量拉离流形表面。这种操作破坏了正交流形的几何完备性,导致优化轨迹偏离了理论上的最优测地线。

实验验证:在 Wikitext-2 的长周期对比实验中,AdaMuon 的最佳 PPL 仅能下探至 163.70,而 ARS2-Neo 达到了 90.69。这有力地证明了在几何层内混入非等向的统计缩放会严重削弱模型在高熵语言任务中的特征提取效率。

2.4.2 维度错配与局部近似的局限性

部分变体 [5] 试图通过行级或神经元级的局部归一化来修正 Muon。然而,对于 Transformer 中典型的高维非方阵权重(如 $m \ll n$),仅在行维度进行统计归一化会忽略特征空间内部的异质性。这种局部近似本质上是对 Fisher 信息矩阵的一种粗糙块对角化,忽略了神经元间的协同演化机制。

2.5 ARS:测地线优化器 (The Geodesic Optimizer)

ARS 的核心改进在于回归几何-统计解耦的基本原则:

  1. 预处理 (Pre-whitening):在正交化之前,利用 Adam 的二阶矩对梯度进行白化,将其转化为自然梯度空间。
  2. 正交化 (Orthogonalization):在自然梯度空间执行 Newton-Schulz 迭代,确定测地线方向。
  3. 范数加回 (Energy Re-injection):将自然梯度的 Frobenius 范数作为标量能量重新加回给正交方向。

$$ \Delta \theta*{ARS} = \eta \cdot |g*{nat}|_F \cdot \mathcal{P}_{st}(g_{nat}) $$

这种设计确保了逐参数的自适应性在正交化之前完成,不会破坏正交流形;同时步长由全局能量控制,维持了矩阵的整体几何一致性。

3. ARS2-Neo:从局部到全局的测地线跃迁

3.1 SAM 与 MDL:寻找全局稳定盆地

锐度感知最小化 (SAM) 通过寻找一个邻域内的最大损失来指导更新。从 最小描述长度 (MDL) 原则来看,平坦的极小值意味着参数具有更高的容错度,从而可以用更短的代码进行编码。在 整合预测工作空间理论 (IPWT 2.0) 中,这对应于系统在推断空间中寻找最大化协同信息 (Synergetic Information) 的状态。

3.2 流形感知扰动与全局测地线

ARS2-Neo 将 SAM 引入黎曼流形。传统的 SAM 在欧氏空间做球形扰动,这在弯曲的参数流形上会产生“几何畸变”。ARS2-Neo 执行流形感知扰动: $$ \epsilon = \rho \cdot \frac{g*{nat}}{|g*{nat}|} $$ 这确保了扰动是在由 Fisher 信息矩阵定义的度量下进行的,使得 ARS2-Neo 能够感知到哪些方向在分布空间中是真正“尖锐”的。

3.3 AGA:自适应几何感知 (Adaptive Geometric Awareness)

为了解决二阶优化高昂的计算开销(主要是 Newton-Schulz 迭代),ARS2-Neo 引入了改进的 AGA 机制。不同于简单的“跳过”策略,AGA 基于几何一致性 (Geometric Consistency) 动态决定是否需要重新计算流形方向。

我们定义干涉因子 (Interference Factor) $\phi_t$ 为当前梯度 $g_t$ 与上一时刻平坦度向量(剪切力)$v_{flat}$ 的余弦相似度: $$ \phit = \frac{\langle g_t, v{flat} \rangle}{|gt| \cdot |v{flat}|} $$

AGA 的工作逻辑如下:

  1. 几何漂移检测: 当 $\phi_t$ 低于动态阈值(通常为负值,表示梯度方向与平坦度方向发生显著偏离或正交)时,系统判定当前流形曲率发生剧烈变化,强制触发 Sync Step,重新计算二阶信息和正交化方向。
  2. Lazy 滑行: 若 $\phi_t$ 保持在阈值之上,说明当前梯度仍处于由 $v_{flat}$ 定义的平坦“管状”区域内。此时系统执行 Lazy Step,复用 $v_{flat}$ 并注入正交剪切力,仅进行标量级的能量缩放。

收敛性界 (Bounds of AGA): AGA 的收敛性介于 ARS (Lower Bound) 和 ARS2 (Upper Bound) 之间。

  • 下界: 在最坏情况下($\phi_t$ 始终低于阈值),AGA 退化为 ARS2 (Sync Mode),保证了 SAM 级别的收敛性。
  • 上界: 在理想平坦区域,AGA 近似于在切空间上的动量滑行。由于 $\phi_t$ 限制了 Lazy 更新与真实测地线更新的夹角误差,累积误差被严格控制在信任域半径内。

实验观测表明,在 CIFAR-10 训练后期,AGA 的有效同步周期 $k_{eff}$ 可自动扩展至 10 左右,证明了流形在收敛阶段的渐近线性。

4. 实验验证:LRP 正式实验报告

我们基于 ARS-Bench 进行了长周期 (Long-Range Plan) 实验,以验证 ARS2-Neo 在收敛极限和泛化能力上的表现。

4.1 CIFAR-10:收敛极限与效率

实验设置:ResNet-18, Batch Size 256, Cutout Augmentation.

优化器 模式 Epochs Best Acc Final Acc Final Loss 备注
ARS2-Neo Sync ($\rho=0.1$) 60 95.87% 95.73% 0.15 SOTA。极速收敛,稳健性极高。
ARS2-Neo AGA ($\lambda=2.0$) 20 94.10% 94.09% 0.18 Efficiency。仅用 20 Epoch 即超越 Muon 100 Epoch 性能。
Muon Base 100 93.76% 93.69% 0.29 收敛较慢,最终精度不及 ARS2-Neo。

结果分析

  1. 收敛速度: ARS2-Neo (Sync) 在 60 Epoch 内达到了 95.87% 的精度,显著优于 Muon 在 100 Epoch 达到的 93.76%。
  2. AGA 有效性: AGA 模式在仅训练 20 Epoch 的情况下就达到了 94.10%,且 effective_k 随训练过程自动增加,验证了“按需同步”策略的高效性。

4.2 Wikitext-2:泛化峰值与过拟合动力学

实验设置:Qwen3 (RoPE, 3-layer), Context 255.

优化器 Epochs Best PPL Final PPL 动力学特征
ARS2-Neo (Sync) 10 90.69 (Ep 3) 330.85 极速泛化。在 Ep 3 触达极低 PPL,随后因强几何约束进入过拟合。
ARS2-Neo (AGA) 10 93.23 (Ep 3) 414.83 效率与泛化的平衡,effective_k 随训练自动扩展。
Muon 20 111.35 (Ep 4) 475.65 缺乏能量引导,泛化上限受限。
AdaMuon 10 163.70 (Ep 3) 815.46 信息熵坍缩。符号化操作导致无法拟合高熵语义。
AdamW 20 116.46 (Ep 6) 213.52 收敛最慢,过拟合较轻,但无法触及深层流形。

结果分析

  1. 泛化爆发力: ARS2-Neo 在语言建模中展现了断层级的“挖掘能力”,其 PPL 下探深度远超所有对照组。
  2. AdaMuon 的局限: 实验证实了我们的假说,AdaMuon 的 sign 变换在语言任务中表现极差,其最佳 PPL (163.70) 甚至不如纯 Muon (111.35),证明了保留梯度奇异值信息对复杂语义建模的重要性。
  3. 过拟合警示: 强大的几何优化能力是一把双刃剑。ARS2-Neo 能极速坠入损失地形的深处,若无足够的正则化,会迅速拟合训练集噪声。这提示在实际应用中应配合 ASI (Active Sharpening Inference) 或 Early Stopping 使用。

4.3 Grokking 动力学:算法泛化的加速器

在模加法任务 (p=113, train_frac=0.3) 中,我们观测到了显著的泛化相变加速现象。

优化器 拟合 (Epoch) 顿悟 (Epoch) 收敛 (Epoch) 动力学特征
AdamW ~140 >600 N/A 严重的泛化延迟 (Generalization Lag)。
Muon ~150 >400 N/A 缺乏能量自适应导致在平坦区域游走缓慢。
ARS2-Neo (Base) 20 180 250 能量-几何解耦显著压缩了过拟合阶段。
ARS2-Neo (AGA) 20 150 200 最优路径。自适应几何感知引导模型快速穿越相变点。

结果分析: ARS2-Neo 将“顿悟”发生的时间提前了 4 倍以上。从信息几何的角度看,这证明了“能量-几何解耦”能有效抑制参数在过拟合吸引盆 (Overfitting Basin) 中的无效熵增,通过在黎曼流形上执行精确的测地线滑行,模型能够以极高的样本效率发现隐藏在代数结构中的对称性。

5. 结论

ARS2-Neo 不仅仅是一个优化器,它是对深度学习优化动力学的一次重新定义。通过统一自然梯度、谱信任域和锐度感知,我们构建了一个能够自适应感知几何与锐度的智能演化系统。ARS2-Neo 证明了:最优的计算策略(最大化协同信息)与最优的几何路径(测地线)在最小化自由能的框架下是完全统一的。

参考文献

  1. Foret, P., et al. (2021). Sharpness-aware minimization for efficiently improving generalization. ICLR 2021.
  2. Jordan, K., et al. (2024). Muon: An optimizer for hidden layers in neural networks.
  3. Oikonomou, D., & Loizou, N. (2025). Sharpness-Aware Minimization: General Analysis and Improved Rates. ICLR 2025.
  4. Andriushchenko, M., & Flammarion, N. (2022). Towards Understanding Sharpness-Aware Minimization. ICML 2022.
  5. Li, Z., et al. (2025). NorMuon: Making Muon more efficient and scalable. arXiv:2510.05491.
  6. Si, C., et al. (2025). AdaMuon: Adaptive Muon optimizer. arXiv:2507.11005.
  7. Martens, J. (2020). New insights and perspectives on the natural gradient method. JMLR.
  8. Amari, S. I. (1998). Natural gradient works efficiently in learning. Neural Computation.
  9. Zhou, P., et al. (2024). Towards understanding convergence and generalization of AdamW. IEEE TPAMI.
  10. Zhuang, J., et al. (2022). Surrogate gap guided sharpness-aware minimization. NeurIPS 2022.