什麼是噪聲傳播算子 M？

M = Σ⁻¹ΓΣ⁻¹，衡量訓練噪聲通過 Jacobian 結構傳播到測試預測的量。奇異值小的方向噪聲被放大，大的方向噪聲消散。tr(M) 是噪聲洩漏總量。

深度網路的統一泛化界是什麼？

MSE_test ≤ B²_signal + σ²·tr(M) + C·σ²·||M||_F·√(log(1/δ)) + δ²_lin。四項分別是信號偏差、噪聲洩漏、集中餘項和線性化誤差。

什麼是 Benign Overfitting？什麼條件下會發生？

Benign Overfitting 指模型完美擬合訓練數據（含噪聲）卻仍能泛化。發生條件：β > α + 1/2，其中 α 是奇異值衰減速率，β 是測試相關性衰減速率。此時 tr(M) 收斂。

Feature Learning 如何消除維度詛咒？

NTK regime 的誤差 E_NTK = Θ(n^{-2s/(2s+d)}) 受維度 d 詛咒。Feature Learning 後等價核坍縮到一維，誤差 E_FL = Θ(n^{-2s/(2s+1)})，完全不依賴 d。

為什麼 Feature Learning 必然發生？

四條獨立證明路線：(A) 景觀分析——所有全局最小值都對齊，非對齊臨界點是嚴格鞍點；(B) 兩階段動力學——先偵測信號再指數對齊；(C) Mean-field 支撐集坍縮——正則化淘汰未對齊神經元；(D) 高維幾何——隨機方向幾乎必然正交於目標。

什麼是 Jacobian 譜分離？

在 2 層 ReLU teacher-student 設定中，Jacobian 的前 k(d+1) 個奇異值 ≥ c√n（對應教師方向），其餘 ≤ Cα（趨近零）。有效秩 r_eff ≤ k(d+1)，與總參數量無關。

架構如何影響泛化所需的最小深度？

臨界深度 L* 因架構而異：全連接 ReLU 需要 ⌈(d-1)/2⌉ 層；ResNet 的 skip connection 使深度影響脫鉤，L*=1；Transformer 的 attention 提供 +1/2 的 β₀ 增益，L* ≈ 1-4。

什麼是 Double Descent 現象？

當模型參數量 p 等於樣本量 n（γ=p/n=1）時，Jacobian 最小奇異值趨近零，tr(M) 發散——測試誤差激增。超過此插值閾值（γ>1），最小範數約束改善條件數，測試誤差反而下降。

Grokking 現象的數學解釋是什麼？

Grokking 分兩個 phase：Phase I（記憶）Jacobian 條件數極差，tr(M) 極大；Phase II（壓縮）weight decay 配合齊次性使 tr(M) 指數衰減。相變發生在 κ(J_t) 穿越臨界值 κ_crit 的時刻。

深度網路為何泛化

前言：這是什麼問題？

從日常經驗出發

你有沒有遇過那種同學——課本背得滾瓜爛熟，但換個題目就不會？這叫「死背」。相反地，真正理解的人，遇到沒看過的題目也能答對。這叫「泛化」。

為什麼這是個問題

神經網路有幾百萬甚至幾十億個可調參數，但訓練資料往往只有幾萬筆。數學上，參數比資料多這麼多，它「應該」會死背——就像給你一張只有 10 題的考卷，你有 1000 個自由度去湊答案，你一定能湊出滿分，但你什麼都沒學到。然而現實中，這些網路在新資料上表現很好。這違反了統計學的基本直覺。

形式化定義

設 $\mathcal{D}$ 為資料分佈，$S = \{(x_i, y_i)\} \sim \mathcal{D}^n$，模型 $f_S = A(S)$。

泛化缺口 $\Delta = R(f_S) - R_S(f_S)$，其中 $R = \mathbb{E}_\mathcal{D}[\ell(f,y)]$，$R_S = \frac{1}{n}\sum\ell(f,y_i)$。

經典界 $\Delta \leq O\!\left(\sqrt{p/n}\right)$，$p \gg n$ 時 vacuous。需要不依賴 $p$ 的界。

噪聲傳播算子 M

訓練數據裡的雜音（$\xi$）像是在山谷裡喊的話。$M$ 衡量這些雜音會有多少迴聲傳到新地點（測試點）。Jacobian 的奇異值小的方向像狹窄的峽谷——迴聲被放大；奇異值大的方向像開闊的平原——迴聲很快消散。$\operatorname{tr}(M)$ 就是所有方向的迴聲總量。

形式化定義

設 $f(\cdot;\theta)$ 為參數化預測器，Jacobian $J \in \mathbb{R}^{n \times p}$，$J_{ij} = \partial f(x_i;\theta)/\partial\theta_j$。

SVD: $J = U\Sigma V^T$，奇異值 $\sigma_1 \geq \cdots \geq \sigma_r > 0$。

定義測試梯度投影：$\psi_j(x) = \nabla_\theta f(x;\theta)^T v_j$

定義交叉相關矩陣：$\Gamma_{jl} = \mathbb{E}_x[\psi_j(x)\psi_l(x)]$

噪聲傳播算子：$$M = \Sigma^{-1} \Gamma \Sigma^{-1}$$

完整推導

$M$ 量化了訓練噪聲如何通過 Jacobian 的譜結構傳播到測試預測：

$\Sigma^{-1}$ 放大小奇異值方向的噪聲
$\Gamma$ 決定這些方向在測試點上是否「可見」
$\operatorname{tr}(M)$ 是噪聲洩漏的總量

Jacobian SVD 視覺化

奇異值分布 1.0

噪聲迴聲傳播

定理 1：統一泛化界

你在新考題上的表現 = 真正學會的東西造成的偏差 + 訓練雜音的迴聲 + 運氣成分 + 簡化誤差（我們用直尺量曲線時多出來的小偏差）。四項加起來就是你跟「真正懂」之間的距離。

形式化定理

設定：插值條件 $f(x_i;\theta^*) = y_i$，噪聲 $y_i = g^*(x_i) + \xi_i$，$\xi_i \sim \text{subGaussian}(0, \sigma^2)$

結論（以機率 $\geq 1-\delta$）：

$$\text{MSE}_{\text{test}} \leq B^2_{\text{signal}} + \sigma^2 \cdot \operatorname{tr}(M) + C\sigma^2\|M\|_F\sqrt{\log(1/\delta)} + \delta^2_{\text{lin}}$$

完整證明

Step 1. 分解測試預測為信號 + 噪聲：$f(x;\theta^*) - g^*(x) = S(x) + N(x)$

Step 2. 噪聲洩漏的期望：$\mathbb{E}_\xi[\mathbb{E}_x[N(x)^2]] = \sigma^2 \cdot \operatorname{tr}(M)$

Step 3. 集中性（Hanson-Wright）：$P[|Z - \mathbb{E}[Z]| > t] \leq 2\exp(-c\min(t^2/\|M\|_F^2, t/\|M\|_{\text{op}}))$

Step 4. 合併信號偏差 + 噪聲方差 + 集中餘項。

泛化界拆解

σ (噪聲) 0.5 tr(M) 1.0

信號 vs 噪聲分離

噪聲強度 σ 0.5

定理 2：Benign Overfitting 分界

水龍頭漏水。$\alpha$ 控制水龍頭開多大（奇異值衰減慢 = 水量大），$\beta$ 控制排水管有多粗（測試相關性衰減快 = 排水快）。$\beta > \alpha + 1/2$ 意味排水比進水快，水不會滿出來（benign）；$\beta < \alpha + 1/2$ 意味水無限累積（catastrophic）；$\beta = \alpha + 1/2$ 剛好臨界，水會慢慢累積但速度越來越慢（tempered，對數修正）。

形式化定理

冪律假設：$\sigma_j \sim j^{-\alpha}$，$\rho_j \sim j^{-\beta}$

結論：

$\beta > \alpha + 1/2$：benign — $\operatorname{tr}(M) < \infty$（噪聲收斂）
$\beta < \alpha + 1/2$：catastrophic — $\operatorname{tr}(M) = \infty$（噪聲發散）
$\beta = \alpha + 1/2$：tempered — 對數修正（logarithmic correction）

完整證明

尾部噪聲洩漏：

$$L_{\text{tail}} = \sum_{j>k} \frac{\rho_j^2}{\sigma_j^2} \sim \sum_{j>k} j^{2(\alpha - \beta)}$$

此級數收斂 $\iff 2(\alpha - \beta) < -1 \iff \beta > \alpha + 1/2$。

當 $\beta = \alpha + 1/2$ 時，$j^{2(\alpha-\beta)} = j^{-1}$，級數為調和級數 $\sim \log(n)$，給出對數修正。

$\alpha$-$\beta$ 相圖

冪律衰減曲線

$\alpha$ 1.0 $\beta$ 1.2

定理 4：Feature Learning 消除維度詛咒

在 100 維空間裡找一條線上的規律。笨方法（NTK）是在 100 維裡地毯式搜索；聰明方法（Feature Learning）是先發現「其實答案只跟某個方向有關」，把問題降到一維再找。需要的資料量從 $n^{100\text{相關}}$ 驟降到 $n^{1\text{相關}}$。

形式化定理

設定：Single-index model $f^*(x) = \varphi(w^{*T} x)$，$\varphi \in H^s$（Sobolev 平滑度 $s$）。

結論：

NTK 誤差：$E_{\text{NTK}} = \Theta(n^{-2s/(2s+d)})$ — 受維度 $d$ 詛咒
FL 誤差：$E_{\text{FL}} = \Theta(n^{-2s/(2s+1)})$ — 維度無關
改善比：$n^{2s(d-1)/((2s+1)(2s+d))}$

完整證明

Step 1（NTK）：球諧特徵值 $\lambda_\ell \sim \ell^{-(d+1)}$，重數 $N(d,\ell) \sim \ell^{d-2}$。高維度下重數爆炸導致估計效率低落。

Step 2（FL）：Feature Learning 讓核函數坍縮到一維方向，重數從 $\ell^{d-2}$ 降為 $1$。

Step 3：指數差異 $\frac{2s}{2s+d}$ vs $\frac{2s}{2s+1}$，差距隨 $d$ 增大而擴大。

NTK vs FL 學習曲線

d (維度) 10 s (平滑度) 1.0

球諧係數衰減

改善倍數熱力圖

定理 5：Feature Learning 必然發生

四條獨立的證明路線，全部指向同一結論：隨機初始化的梯度下降必然學到正確的特徵方向。

路線 A（景觀分析）：損失函數的所有谷底都與目標方向對齊，其他臨界點都是不穩定的鞍點——梯度下降不可能卡在錯誤的方向。
路線 B（兩階段動力學）：訓練分為兩個階段——先是緩慢的偵測期（從噪聲中找到微弱信號），然後是指數級的對齊期（一旦偵測到，迅速鎖定目標方向）。
路線 C（平均場支撐坍縮）：未對齊目標方向的神經元浪費資源——在無限寬度極限下，最優分佈的支撐集坍縮到目標方向上。
路線 D（高維幾何）：在高維空間中，隨機方向幾乎必然與目標正交——只有 Feature Learning 能打破這個幾何障礙。

形式化定理

設定：Single-index model $f^*(x) = \varphi(w^{*T} x)$，$\varphi$ 為 CPL（連續分段線性），$\kappa = 1$（$\mu_1 \neq 0$，即信號在一階 Hermite 係數中可見）。

結論：從隨機初始化出發，GD 幾乎必然收斂到 $w_j \in \text{span}(w^*)$。

收斂速率：$\beta_j / \alpha_j = O(e^{-\gamma t / 2})$，其中橫向分量以指數速率衰減。

完整證明

路線 A（景觀分析）：

Step 1. ReLU 方向獨立引理：對 CPL 激活函數，損失可分解為方向 $m = \cos(w, w^*)$ 與範數 $\|w\|$ 的函數。

Step 2（定理 5a）：所有全局最小值滿足 $w_j \in \text{span}(w^*)$，即 $m = \pm 1$。

Step 3（定理 5b）：所有非對齊臨界點（$m \neq \pm 1$）都是嚴格鞍點（Hessian 至少有一個嚴格負特徵值）。

Step 4（定理 5c）：GD 幾乎必然避開嚴格鞍點（Lee et al. 2016；或由 tame function theory 推出——損失為 definable function，鞍點的穩定流形為零測集）。

損失景觀等高線

兩階段動力學

$\mu_1$（信號強度） 1.0 p（寬度） 50

四條證明路線

定理 3：Jacobian 譜分離

樂團裡的主奏和伴奏。$k$ 個教師神經元對應 $k$ 個主奏樂器，聲音洪亮（大奇異值）；其餘神經元是靜音的伴奏（微小奇異值）。中間有明確的音量斷層。

形式化定理

設定：2-layer ReLU teacher-student。Teacher: $f^*(x) = \sum_j a^*_j \operatorname{relu}(w^{*T}_j x)$，$w^*_j$ 正交。Student: $f_\theta = \frac{1}{\sqrt{p}} \sum_j a_j \operatorname{relu}(w_j^T x)$，$p \gg k$。Rich regime $\alpha \to 0$。

結論：

$\sigma_i(J) \geq c\sqrt{n}$，對 $i \leq k(d+1)$
$\sigma_i(J) \leq C\alpha$，對 $i > k(d+1)$
有效秩 $r_{\text{eff}} \leq k(d+1)$

完整證明

Step 1（GF → k-sparse aligned）：梯度流使學生神經元的權重對齊到教師方向，僅 $k$ 個方向有顯著激活。

Step 2（active block rank = $k(d+1)$）：每個活躍神經元貢獻 $d+1$ 個自由度（$d$ 個方向分量 + 1 個幅度），活躍 block 的秩為 $k(d+1)$。

Step 3（dead block $\|K_{\text{dead}}\| = O(\alpha^2)$）：未對齊的「死」神經元對 Jacobian 的貢獻被 $\alpha$ 抑制，其核範數為 $O(\alpha^2)$。

Step 4（Weyl inequality）：由 Weyl 不等式，活躍 block 的大奇異值與死 block 的微小擾動之間形成清晰的譜間隙。

奇異值瀑布圖

k（教師神經元數） 2 $\alpha$（rich 參數） 0.10

Teacher-Student 對齊動畫

速度 1.0

定理 6：架構臨界深度

疊濾鏡。每多一層，噪聲就多被過濾一次。全連接網路需要疊 $\lceil(d-1)/2\rceil$ 層才夠；ResNet 有捷徑跳過濾鏡，所以深度影響不大；Transformer 的 attention 自帶強力濾鏡，幾層就夠了。

形式化定理

定義：$L^* = \min\{L : \beta > \alpha + \tfrac{1}{2}\}$，即使泛化界從 trivial 變為 non-trivial 的最小深度。

FC ReLU：$\alpha_0 = \frac{1}{d-1}$，$\beta_0 = \frac{2}{d-1}$。每層累積 $\beta_0$，需要 $L^* = \lceil(d-1)/2\rceil$ 層。

ResNet：skip connection 使 $\alpha$ 不隨深度累積，$L^*$ 與深度解耦，$L^* = 1$（常數）。

Transformer：softmax attention 提供 $+\tfrac{1}{2}\beta_0$ 的加成，$L^* \approx 1\text{-}4$。

完整證明

FC ReLU 推導：

每層 ReLU 提供噪聲衰減率 $\beta_0 = 2/(d-1)$。$L$ 層後累積衰減為 $L \cdot \beta_0$。要求 $L \cdot \beta_0 > \alpha + 1/2$，其中 $\alpha = 1/(d-1)$。解得 $L > (d-1)/2$，故 $L^* = \lceil(d-1)/2\rceil$。

ResNet 推導：

skip connection $h_{l+1} = h_l + f_l(h_l)$ 使殘差分支的噪聲不會疊加到主路徑。$\alpha$ 保持為單層量級，不隨深度累積。因此 $\beta > \alpha + 1/2$ 的條件與深度 $L$ 無關，$L^*$ 為常數。

Transformer 推導：

softmax attention 的歸一化效應等同於額外的噪聲濾波器，為每層提供 $+1/2 \cdot \beta_0$ 的加成。等效衰減率為 $3/(2(d-1))$ per layer，故 $L^* \approx \lceil(d-1)/3\rceil$，在實際維度下約為 $1\text{-}4$ 層。

L* 比較

d（輸入維度） 10

深度 vs 泛化曲線

輔助定理

8a：Balanced Conservation（支撐定理 3, 5）

蹺蹺板守恆——權重的「大小」和「方向」此消彼長，總量守恆。這保證了訓練過程中 Jacobian 結構的穩定性。

形式化定理

在 2-homogeneous ReLU 網路中，$\frac{d}{dt}(a_j^2 - \|w_j\|^2) = 0$。

證明：由 Euler 定理，2-homogeneous 函數滿足 $f(\lambda\theta) = \lambda^2 f(\theta)$，對 $\lambda$ 微分後代入 $\lambda=1$，得到 $a_j \dot{a}_j = w_j^T \dot{w}_j$，進而 $\frac{d}{dt}(a_j^2 - \|w_j\|^2) = 0$。

Balanced Conservation 動畫

8b：矩陣集中不等式（支撐定理 1）

定理 1 假設各方向的噪聲互不干擾（$\Gamma$ 近似對角）。這個輔助定理告訴你：樣本夠多時，抽樣估計會收斂到真實值，對角近似是安全的。

形式化定理

Matrix Bernstein bound：$\|\hat{J}^T\hat{J}/n - K_{\text{pop}}\|_{\text{op}}$ 隨 $n$ 增大以 $O(1/\sqrt{n})$ 速率收斂到 0。

具體地，以高機率 $\|\hat{J}^T\hat{J}/n - K_{\text{pop}}\|_{\text{op}} \leq C\sqrt{\frac{\log p}{n}}$。

矩陣集中收斂

n（樣本數） 100

8c：深度乘法上界（支撐定理 6）

每多一層，衰減疊乘——但疊乘效果有上界，不是想像中的精確相乘。這代表不能天真地把每層的過濾效果直接相乘來估算總效果——實際過濾比預期弱。

形式化定理

Weyl 不等式上界：$\sigma_j(J_{\text{total}}) \leq C \cdot j^{-L\alpha_0}$。

2×2 反例：存在矩陣 $A, B$ 使得 $\sigma(AB) \neq \sigma(A) \cdot \sigma(B)$，乘積的奇異值可大於各因子奇異值的乘積。

奇異值乘法反例

每個矩陣代表一層的 Jacobian，乘積代表端對端 Jacobian

A₁₁ 1.0 A₁₂ 2.0 A₂₁ 0.0 A₂₂ 0.5 B₁₁ 0.5 B₁₂ 0.0 B₂₁ 1.0 B₂₂ 1.0

8d：Weight Decay 反例（修正常見誤解）

Weight decay 讓參數變小，但不保證 Jacobian 的跡也變小——這是兩件不同的事。有嚴格反例證明。

形式化定理

Weight decay 嚴格降低 $\|\theta\|^2$，但 不一定降低 $\operatorname{tr}(J^T J)$。

反例：2-neuron、2-datapoint 的情境中，$\operatorname{tr}(J^T J)$ 可增加高達 49%。

Weight Decay 反例動畫

延伸：理論擴展與現象解釋

14a-14f：Feature Learning 證明的擴展

以下六個延伸補齊了定理 5 的完整圖景——從 ReLU 不光滑性、有限樣本、光滑激活、高階目標、多方向學習到非正交情形。

14a：Tame Function——ReLU 不光滑但梯度流仍安全

ReLU 不光滑但屬 tame function，梯度流仍避開壞臨界點。在折角處 Clarke subdifferential 提供安全的下降方向集合。

形式化定理

ReLU 網路的損失函數是 definable（tame）函數：雖然不可微分，但其 Clarke subdifferential 在折角處仍提供下降方向。

梯度流幾乎必然避開所有非光滑臨界點，收斂到光滑臨界點。

Tame Function 梯度流動畫

14b：Population → SGD——有限樣本的代價

信號 $d^{-\kappa/2}$ vs 噪聲 $1/\sqrt{n}$ 的賽跑：要讓信號超越噪聲，需要 $n = \Theta(d^\kappa)$ 個樣本。

形式化定理

Population gradient 中的信號項量級為 $d^{-\kappa/2}$，SGD 採樣噪聲量級為 $1/\sqrt{n}$。

要求信號 > 噪聲，即 $d^{-\kappa/2} > C/\sqrt{n}$，等價於 $n > C' \cdot d^\kappa$。

信號-噪聲交叉圖

$\kappa$ 1.0 $n$（樣本數） 1000

14c：光滑 $\varphi$ 推廣——弱正則化擴展到所有非仿射光滑函數

加弱正則化後，結論擴展到所有非仿射光滑函數。正則化使神經元方向坍縮到目標方向 $w^*$。

形式化定理

對任意非仿射光滑激活函數 $\varphi$，加入 $\lambda$-正則化後，在 Phase 2 中神經元方向 support 坍縮到 $w^*$。

$\lambda = 0$：神經元方向保持分散。$\lambda > 0$：方向逐漸收斂。

Support Collapse 動畫

$\lambda$（正則化強度） 0.00

14d：$\kappa \geq 2$ 推廣——高階目標需要更多步

$\kappa=1$ 只要 $O(d)$ 步，$\kappa \geq 2$ 要 $O(d^\kappa)$ 步。目標函數的非線性階數決定學習速度。

形式化定理

Phase 1 的時間尺度為 $T_1 = \Theta(d^\kappa)$，其中 $\kappa$ 是目標函數 $f^*$ 的資訊指數。

$\kappa = 1$：$T_1 \sim d$（線性增長），$\kappa = 2$：$T_1 \sim d^2$（二次增長）。

Phase 1 時間 vs $\kappa$

$\kappa$ 1.0

14e：正交 Multi-index——多方向依序學習如爬階梯

多方向依序學習如爬階梯：先學第一個方向，再學第二個，形成階梯式學習曲線。

形式化定理

對正交 multi-index 模型 $f^*(x) = \sum_j g_j(\langle w_j^*, x\rangle)$，各方向 $w_j^*$ 依序在時間 $T_j$ 被學到。

$T_1 < T_2 < \cdots < T_r$，對齊度 $m_j(t) = |\langle \bar{w}_j(t), w_j^*\rangle|$ 依序從 0 升到 1。

階梯式學習動畫

14f：非正交——條件數決定可行性

條件數好時可 SVD 分離各方向，差時需二階方法。$\sigma_{\min}(V^*)$ 越大，問題越好解。

形式化定理

當 $\sigma_{\min}(V^*) > c$ 時，可透過 SVD 將非正交問題分離為正交子問題。

當 $\sigma_{\min}(V^*)$ 接近 0 時（方向幾乎共線），一階方法失效，需要二階方法（如 Hessian-based）。

非正交可行性邊界

$\sigma_{\min}(V^*)$ 0.50

14g-14h：巨觀現象的微觀解釋

14g 連接定理 2（Benign 分界），14h 連接定理 1（統一泛化界）——用算子 M 的語言解釋兩大神秘現象。

14g：Double Descent——爆管點與最小範數修復

模型大小剛好等於資料量時（$\gamma=1$），Jacobian 最小奇異值趨近零，$\operatorname{tr}(M)$ 爆炸——這是「爆管點」。過了這個點（$\gamma>1$），最小範數約束改善條件數，$\operatorname{tr}(M)$ 反而下降。

形式化定理

$\operatorname{tr}(M) = \sigma^2 \sum s_i^{-4}$。

$\gamma < 1$：$\operatorname{tr}(M)/n \to \sigma^2(1+\gamma)/(1-\gamma)^3$。

$\gamma = 1$：$s_{\min}\to 0$，$\operatorname{tr}(M)\to\infty$。

$\gamma > 1$：minimum-norm improves conditioning。

Double Descent

$\gamma$ 1.00

tr(M) 三段分解

14h：Grokking——先死背再頓悟

先死背再頓悟。早期 Jacobian 條件數極差，$\operatorname{tr}(M)$ 天文數字大（噪聲滿溢）。Weight decay 慢慢壓縮參數，某一刻條件數突然穿過臨界值，泛化瞬間出現——像水壩決堤。

形式化定理

Phase I（memorization）：$\kappa(J)$ extreme，$\operatorname{tr}(M) = O(e^{cn})$。

Phase II（compression）：weight decay + L-homogeneity → $\operatorname{tr}(M)$ exponential decay。

Phase transition at $\kappa(J_t) \leq \kappa_{\mathrm{crit}}$。

Grokking

Weight Decay 0.010

條件數轉變

延伸：範圍擴展

16a：純交互 Multi-index——Hessian 啟動二階搜尋

當目標函數是純交互（如 $\varphi = z_1 z_2$），一階梯度偵測不到信號。解法：先用 Hessian（二階資訊）找到方向，再用 GD 精化。需要的樣本量 $n_0 = \tilde{O}(d^p)$。

形式化定理

純交互目標 $f^*(x) = g(\langle v_1^*, x\rangle \cdot \langle v_2^*, x\rangle)$：一階梯度 $\nabla_w \mathcal{L}$ 中不含 $v_i^*$ 的資訊（信號為零）。

Hessian $\nabla^2_w \mathcal{L}$ 的前 $p$ 個特徵向量可定位 $\{v_i^*\}$。以此初始化後，GD 在 $\tilde{O}(d^p)$ 步內收斂。

Hessian 初始化動畫

SQ 下界：$n_0 = d^p$

$d$ 範圍上限 50 顯示 $p$

16b：深度 $L > 2$——泛化界對任意深度成立

泛化界對任意深度成立。深度的額外好處：逼近誤差 $B^2$ 可隨深度指數衰減。

形式化定理

對深度 $L$ 的網路，定理 1 的泛化界仍成立：$R(f) \leq \hat{R}_n(f) + \sqrt{\operatorname{tr}(M)/n}$。

逼近誤差 $B^2 \leq C \cdot e^{-cL}$：深度每增加一層，逼近誤差指數下降。

逐層對齊瀑布圖

深度 $L$ 4

逼近誤差隨深度衰減

16c：分類 Cross-Entropy——與 MSE 分界相同

Benign 分界 $\beta > \alpha + 1/2$ 與 MSE 相同。Neural Collapse：$r_{\text{eff}} = K - 1$。

形式化定理

Cross-Entropy 損失下，benign/catastrophic 過擬合的分界條件為 $\beta > \alpha + 1/2$，與 MSE 完全一致。

Neural Collapse 現象：最後一層特徵收斂到 $(K-1)$ 維正則單純形，有效秩 $r_{\text{eff}} = K - 1$。

Neural Collapse 單純形

類別數 $K$ 3

MSE vs CE 過擬合分界

16d：非高斯輸入——流形假設下的修正

$M$ 的定義不依賴分佈假設。流形假設：$d \to d_M$（以流形維度取代環境維度）。

形式化定理

噪聲算子 $M$ 的定義 $M_{jk} = \mathbb{E}[f(x)\phi_j(x)\phi_k(x)]$ 對任意輸入分佈成立，不需高斯假設。

當資料集中在 $d_M$ 維流形上時，泛化界中的 $d$ 可替換為 $d_M$，修正項為 $\sqrt{r_{\text{eff}}/n}$。

流形投影散點圖

$d_M$（流形維度） 1

修正項 $\sqrt{r_{\text{eff}}/n}$

$r_{\text{eff}}$ 10 $n$ 1000

已嚴格否證的主張

科學進步不只來自證明什麼是對的，也來自否證什麼是錯的。以下四個看似合理的直覺，都有嚴格的反例推翻。

已否證

α = Lα₀ 精確成立

每層衰減疊乘不像想的那麼精確——2×2 矩陣就能找到反例。精確乘法需層間奇異向量完全對齊，一般不成立。

已否證

tr(J^TJ) 在 weight decay 下單調遞減

Weight decay 壓縮的是參數大小，不是 Jacobian 的跡。有具體反例：2 神經元 2 資料點的網路中，tr(J^TJ) 上升了 49%。

已否證

SGD 直接最小化 tr(J^TJ)

SGD 最小化的是 ||θ||²（Lyapunov 函數），對 tr(J^TJ) 只有間接效應。兩者是不同的二次型。

已否證

三視角（體積/頻譜/平坦）精確等價

體積、頻譜、平坦三個視角只在插值解處通過 Jacobian 的 SVD 近似統一，有結構性不對稱。

適用範圍與擴展方向

上面所有定理在什麼條件下成立？還有哪些方向可以繼續走？

已證明的範圍

模型：2 層 ReLU
目標：single-index, CPL φ, κ=1
訓練：population GD / GF, rich regime
資料：Gaussian inputs

自然擴展（路徑清晰）

κ ≥ 2：Phase 1 從 O(d) 變為 O(d^κ)
一般光滑 φ：加弱 norm 正則化即可
有限樣本 SGD：標準集中不等式
Multi-index（正交）：Boursier & Flammarion
Multi-index（非正交）：需處理虛假極小值
深度 L > 2：需逐層對齊理論

深度網路為何泛化

前言：這是什麼問題？

從日常經驗出發

為什麼這是個問題

噪聲傳播算子 M

Jacobian SVD 視覺化

噪聲迴聲傳播

定理 1：統一泛化界

泛化界拆解

信號 vs 噪聲分離

定理 2：Benign Overfitting 分界

$\alpha$-$\beta$ 相圖

冪律衰減曲線

定理 4：Feature Learning 消除維度詛咒

NTK vs FL 學習曲線

球諧係數衰減

改善倍數熱力圖

定理 5：Feature Learning 必然發生

損失景觀等高線

兩階段動力學

四條證明路線

定理 3：Jacobian 譜分離

奇異值瀑布圖

Teacher-Student 對齊動畫

定理 6：架構臨界深度

L* 比較

深度 vs 泛化曲線

輔助定理

8a：Balanced Conservation（支撐定理 3, 5）

Balanced Conservation 動畫

8b：矩陣集中不等式（支撐定理 1）

矩陣集中收斂

8c：深度乘法上界（支撐定理 6）

奇異值乘法反例

8d：Weight Decay 反例（修正常見誤解）

Weight Decay 反例動畫

延伸：理論擴展與現象解釋

14a-14f：Feature Learning 證明的擴展

14a：Tame Function——ReLU 不光滑但梯度流仍安全

Tame Function 梯度流動畫

14b：Population → SGD——有限樣本的代價

信號-噪聲交叉圖

14c：光滑 $\varphi$ 推廣——弱正則化擴展到所有非仿射光滑函數

Support Collapse 動畫

14d：$\kappa \geq 2$ 推廣——高階目標需要更多步

Phase 1 時間 vs $\kappa$

14e：正交 Multi-index——多方向依序學習如爬階梯

階梯式學習動畫

14f：非正交——條件數決定可行性

非正交可行性邊界

14g-14h：巨觀現象的微觀解釋

14g：Double Descent——爆管點與最小範數修復

Double Descent

tr(M) 三段分解

14h：Grokking——先死背再頓悟

Grokking

條件數轉變

延伸：範圍擴展

16a：純交互 Multi-index——Hessian 啟動二階搜尋

Hessian 初始化動畫

SQ 下界：$n_0 = d^p$

16b：深度 $L > 2$——泛化界對任意深度成立

逐層對齊瀑布圖

逼近誤差隨深度衰減

16c：分類 Cross-Entropy——與 MSE 分界相同

Neural Collapse 單純形

MSE vs CE 過擬合分界

16d：非高斯輸入——流形假設下的修正

流形投影散點圖

修正項 $\sqrt{r_{\text{eff}}/n}$

已嚴格否證的主張

α = Lα₀ 精確成立

tr(J^TJ) 在 weight decay 下單調遞減

SGD 直接最小化 tr(J^TJ)

三視角（體積/頻譜/平坦）精確等價

適用範圍與擴展方向

已證明的範圍

自然擴展（路徑清晰）

名詞對照表