深度網路為何泛化
從第一性原理到完整證明
一句話答案:深度網路泛化,因為:
- 過參數化插值解的 Jacobian 必然產生信號-噪聲譜分離
- 噪聲被導向測試點「看不見」的方向(由 $M = \Sigma^{-1}\Gamma\Sigma^{-1}$ 的跡量化)
- Feature learning 將有效維度從 $d$ 壓縮到內在維度 $k$
- 深度通過譜衰減累積降低臨界深度 $L^*$
前言:這是什麼問題?
從日常經驗出發
你有沒有遇過那種同學——課本背得滾瓜爛熟,但換個題目就不會?這叫「死背」。相反地,真正理解的人,遇到沒看過的題目也能答對。這叫「泛化」。
為什麼這是個問題
神經網路有幾百萬甚至幾十億個可調參數,但訓練資料往往只有幾萬筆。數學上,參數比資料多這麼多,它「應該」會死背——就像給你一張只有 10 題的考卷,你有 1000 個自由度去湊答案,你一定能湊出滿分,但你什麼都沒學到。然而現實中,這些網路在新資料上表現很好。這違反了統計學的基本直覺。
形式化定義
設 $\mathcal{D}$ 為資料分佈,$S = \{(x_i, y_i)\} \sim \mathcal{D}^n$,模型 $f_S = A(S)$。
泛化缺口 $\Delta = R(f_S) - R_S(f_S)$,其中 $R = \mathbb{E}_\mathcal{D}[\ell(f,y)]$,$R_S = \frac{1}{n}\sum\ell(f,y_i)$。
經典界 $\Delta \leq O\!\left(\sqrt{p/n}\right)$,$p \gg n$ 時 vacuous。需要不依賴 $p$ 的界。
噪聲傳播算子 M
訓練數據裡的雜音($\xi$)像是在山谷裡喊的話。$M$ 衡量這些雜音會有多少迴聲傳到新地點(測試點)。Jacobian 的奇異值小的方向像狹窄的峽谷——迴聲被放大;奇異值大的方向像開闊的平原——迴聲很快消散。$\operatorname{tr}(M)$ 就是所有方向的迴聲總量。
形式化定義
設 $f(\cdot;\theta)$ 為參數化預測器,Jacobian $J \in \mathbb{R}^{n \times p}$,$J_{ij} = \partial f(x_i;\theta)/\partial\theta_j$。
SVD: $J = U\Sigma V^T$,奇異值 $\sigma_1 \geq \cdots \geq \sigma_r > 0$。
定義測試梯度投影:$\psi_j(x) = \nabla_\theta f(x;\theta)^T v_j$
定義交叉相關矩陣:$\Gamma_{jl} = \mathbb{E}_x[\psi_j(x)\psi_l(x)]$
噪聲傳播算子:$$M = \Sigma^{-1} \Gamma \Sigma^{-1}$$
完整推導
$M$ 量化了訓練噪聲如何通過 Jacobian 的譜結構傳播到測試預測:
- $\Sigma^{-1}$ 放大小奇異值方向的噪聲
- $\Gamma$ 決定這些方向在測試點上是否「可見」
- $\operatorname{tr}(M)$ 是噪聲洩漏的總量
Jacobian SVD 視覺化
噪聲迴聲傳播
定理 1:統一泛化界
你在新考題上的表現 = 真正學會的東西造成的偏差 + 訓練雜音的迴聲 + 運氣成分 + 簡化誤差(我們用直尺量曲線時多出來的小偏差)。四項加起來就是你跟「真正懂」之間的距離。
形式化定理
設定:插值條件 $f(x_i;\theta^*) = y_i$,噪聲 $y_i = g^*(x_i) + \xi_i$,$\xi_i \sim \text{subGaussian}(0, \sigma^2)$
結論(以機率 $\geq 1-\delta$):
$$\text{MSE}_{\text{test}} \leq B^2_{\text{signal}} + \sigma^2 \cdot \operatorname{tr}(M) + C\sigma^2\|M\|_F\sqrt{\log(1/\delta)} + \delta^2_{\text{lin}}$$
完整證明
Step 1. 分解測試預測為信號 + 噪聲:$f(x;\theta^*) - g^*(x) = S(x) + N(x)$
Step 2. 噪聲洩漏的期望:$\mathbb{E}_\xi[\mathbb{E}_x[N(x)^2]] = \sigma^2 \cdot \operatorname{tr}(M)$
Step 3. 集中性(Hanson-Wright):$P[|Z - \mathbb{E}[Z]| > t] \leq 2\exp(-c\min(t^2/\|M\|_F^2, t/\|M\|_{\text{op}}))$
Step 4. 合併信號偏差 + 噪聲方差 + 集中餘項。
泛化界拆解
信號 vs 噪聲分離
定理 2:Benign Overfitting 分界
水龍頭漏水。$\alpha$ 控制水龍頭開多大(奇異值衰減慢 = 水量大),$\beta$ 控制排水管有多粗(測試相關性衰減快 = 排水快)。$\beta > \alpha + 1/2$ 意味排水比進水快,水不會滿出來(benign);$\beta < \alpha + 1/2$ 意味水無限累積(catastrophic);$\beta = \alpha + 1/2$ 剛好臨界,水會慢慢累積但速度越來越慢(tempered,對數修正)。
形式化定理
冪律假設:$\sigma_j \sim j^{-\alpha}$,$\rho_j \sim j^{-\beta}$
結論:
- $\beta > \alpha + 1/2$:benign — $\operatorname{tr}(M) < \infty$(噪聲收斂)
- $\beta < \alpha + 1/2$:catastrophic — $\operatorname{tr}(M) = \infty$(噪聲發散)
- $\beta = \alpha + 1/2$:tempered — 對數修正(logarithmic correction)
完整證明
尾部噪聲洩漏:
$$L_{\text{tail}} = \sum_{j>k} \frac{\rho_j^2}{\sigma_j^2} \sim \sum_{j>k} j^{2(\alpha - \beta)}$$
此級數收斂 $\iff 2(\alpha - \beta) < -1 \iff \beta > \alpha + 1/2$。
當 $\beta = \alpha + 1/2$ 時,$j^{2(\alpha-\beta)} = j^{-1}$,級數為調和級數 $\sim \log(n)$,給出對數修正。
$\alpha$-$\beta$ 相圖
冪律衰減曲線
定理 4:Feature Learning 消除維度詛咒
在 100 維空間裡找一條線上的規律。笨方法(NTK)是在 100 維裡地毯式搜索;聰明方法(Feature Learning)是先發現「其實答案只跟某個方向有關」,把問題降到一維再找。需要的資料量從 $n^{100\text{相關}}$ 驟降到 $n^{1\text{相關}}$。
形式化定理
設定:Single-index model $f^*(x) = \varphi(w^{*T} x)$,$\varphi \in H^s$(Sobolev 平滑度 $s$)。
結論:
- NTK 誤差:$E_{\text{NTK}} = \Theta(n^{-2s/(2s+d)})$ — 受維度 $d$ 詛咒
- FL 誤差:$E_{\text{FL}} = \Theta(n^{-2s/(2s+1)})$ — 維度無關
- 改善比:$n^{2s(d-1)/((2s+1)(2s+d))}$
完整證明
Step 1(NTK):球諧特徵值 $\lambda_\ell \sim \ell^{-(d+1)}$,重數 $N(d,\ell) \sim \ell^{d-2}$。高維度下重數爆炸導致估計效率低落。
Step 2(FL):Feature Learning 讓核函數坍縮到一維方向,重數從 $\ell^{d-2}$ 降為 $1$。
Step 3:指數差異 $\frac{2s}{2s+d}$ vs $\frac{2s}{2s+1}$,差距隨 $d$ 增大而擴大。
NTK vs FL 學習曲線
球諧係數衰減
改善倍數熱力圖
定理 5:Feature Learning 必然發生
四條獨立的證明路線,全部指向同一結論:隨機初始化的梯度下降必然學到正確的特徵方向。
- 路線 A(景觀分析):損失函數的所有谷底都與目標方向對齊,其他臨界點都是不穩定的鞍點——梯度下降不可能卡在錯誤的方向。
- 路線 B(兩階段動力學):訓練分為兩個階段——先是緩慢的偵測期(從噪聲中找到微弱信號),然後是指數級的對齊期(一旦偵測到,迅速鎖定目標方向)。
- 路線 C(平均場支撐坍縮):未對齊目標方向的神經元浪費資源——在無限寬度極限下,最優分佈的支撐集坍縮到目標方向上。
- 路線 D(高維幾何):在高維空間中,隨機方向幾乎必然與目標正交——只有 Feature Learning 能打破這個幾何障礙。
形式化定理
設定:Single-index model $f^*(x) = \varphi(w^{*T} x)$,$\varphi$ 為 CPL(連續分段線性),$\kappa = 1$($\mu_1 \neq 0$,即信號在一階 Hermite 係數中可見)。
結論:從隨機初始化出發,GD 幾乎必然收斂到 $w_j \in \text{span}(w^*)$。
收斂速率:$\beta_j / \alpha_j = O(e^{-\gamma t / 2})$,其中橫向分量以指數速率衰減。
完整證明
路線 A(景觀分析):
Step 1. ReLU 方向獨立引理:對 CPL 激活函數,損失可分解為方向 $m = \cos(w, w^*)$ 與範數 $\|w\|$ 的函數。
Step 2(定理 5a):所有全局最小值滿足 $w_j \in \text{span}(w^*)$,即 $m = \pm 1$。
Step 3(定理 5b):所有非對齊臨界點($m \neq \pm 1$)都是嚴格鞍點(Hessian 至少有一個嚴格負特徵值)。
Step 4(定理 5c):GD 幾乎必然避開嚴格鞍點(Lee et al. 2016;或由 tame function theory 推出——損失為 definable function,鞍點的穩定流形為零測集)。
損失景觀等高線
兩階段動力學
四條證明路線
定理 3:Jacobian 譜分離
樂團裡的主奏和伴奏。$k$ 個教師神經元對應 $k$ 個主奏樂器,聲音洪亮(大奇異值);其餘神經元是靜音的伴奏(微小奇異值)。中間有明確的音量斷層。
形式化定理
設定:2-layer ReLU teacher-student。Teacher: $f^*(x) = \sum_j a^*_j \operatorname{relu}(w^{*T}_j x)$,$w^*_j$ 正交。Student: $f_\theta = \frac{1}{\sqrt{p}} \sum_j a_j \operatorname{relu}(w_j^T x)$,$p \gg k$。Rich regime $\alpha \to 0$。
結論:
- $\sigma_i(J) \geq c\sqrt{n}$,對 $i \leq k(d+1)$
- $\sigma_i(J) \leq C\alpha$,對 $i > k(d+1)$
- 有效秩 $r_{\text{eff}} \leq k(d+1)$
完整證明
Step 1(GF → k-sparse aligned):梯度流使學生神經元的權重對齊到教師方向,僅 $k$ 個方向有顯著激活。
Step 2(active block rank = $k(d+1)$):每個活躍神經元貢獻 $d+1$ 個自由度($d$ 個方向分量 + 1 個幅度),活躍 block 的秩為 $k(d+1)$。
Step 3(dead block $\|K_{\text{dead}}\| = O(\alpha^2)$):未對齊的「死」神經元對 Jacobian 的貢獻被 $\alpha$ 抑制,其核範數為 $O(\alpha^2)$。
Step 4(Weyl inequality):由 Weyl 不等式,活躍 block 的大奇異值與死 block 的微小擾動之間形成清晰的譜間隙。
奇異值瀑布圖
Teacher-Student 對齊動畫
定理 6:架構臨界深度
疊濾鏡。每多一層,噪聲就多被過濾一次。全連接網路需要疊 $\lceil(d-1)/2\rceil$ 層才夠;ResNet 有捷徑跳過濾鏡,所以深度影響不大;Transformer 的 attention 自帶強力濾鏡,幾層就夠了。
形式化定理
定義:$L^* = \min\{L : \beta > \alpha + \tfrac{1}{2}\}$,即使泛化界從 trivial 變為 non-trivial 的最小深度。
FC ReLU:$\alpha_0 = \frac{1}{d-1}$,$\beta_0 = \frac{2}{d-1}$。每層累積 $\beta_0$,需要 $L^* = \lceil(d-1)/2\rceil$ 層。
ResNet:skip connection 使 $\alpha$ 不隨深度累積,$L^*$ 與深度解耦,$L^* = 1$(常數)。
Transformer:softmax attention 提供 $+\tfrac{1}{2}\beta_0$ 的加成,$L^* \approx 1\text{-}4$。
完整證明
FC ReLU 推導:
每層 ReLU 提供噪聲衰減率 $\beta_0 = 2/(d-1)$。$L$ 層後累積衰減為 $L \cdot \beta_0$。要求 $L \cdot \beta_0 > \alpha + 1/2$,其中 $\alpha = 1/(d-1)$。解得 $L > (d-1)/2$,故 $L^* = \lceil(d-1)/2\rceil$。
ResNet 推導:
skip connection $h_{l+1} = h_l + f_l(h_l)$ 使殘差分支的噪聲不會疊加到主路徑。$\alpha$ 保持為單層量級,不隨深度累積。因此 $\beta > \alpha + 1/2$ 的條件與深度 $L$ 無關,$L^*$ 為常數。
Transformer 推導:
softmax attention 的歸一化效應等同於額外的噪聲濾波器,為每層提供 $+1/2 \cdot \beta_0$ 的加成。等效衰減率為 $3/(2(d-1))$ per layer,故 $L^* \approx \lceil(d-1)/3\rceil$,在實際維度下約為 $1\text{-}4$ 層。
L* 比較
深度 vs 泛化曲線
輔助定理
8a:Balanced Conservation(支撐定理 3, 5)
蹺蹺板守恆——權重的「大小」和「方向」此消彼長,總量守恆。這保證了訓練過程中 Jacobian 結構的穩定性。
形式化定理
在 2-homogeneous ReLU 網路中,$\frac{d}{dt}(a_j^2 - \|w_j\|^2) = 0$。
證明:由 Euler 定理,2-homogeneous 函數滿足 $f(\lambda\theta) = \lambda^2 f(\theta)$,對 $\lambda$ 微分後代入 $\lambda=1$,得到 $a_j \dot{a}_j = w_j^T \dot{w}_j$,進而 $\frac{d}{dt}(a_j^2 - \|w_j\|^2) = 0$。
Balanced Conservation 動畫
8b:矩陣集中不等式(支撐定理 1)
定理 1 假設各方向的噪聲互不干擾($\Gamma$ 近似對角)。這個輔助定理告訴你:樣本夠多時,抽樣估計會收斂到真實值,對角近似是安全的。
形式化定理
Matrix Bernstein bound:$\|\hat{J}^T\hat{J}/n - K_{\text{pop}}\|_{\text{op}}$ 隨 $n$ 增大以 $O(1/\sqrt{n})$ 速率收斂到 0。
具體地,以高機率 $\|\hat{J}^T\hat{J}/n - K_{\text{pop}}\|_{\text{op}} \leq C\sqrt{\frac{\log p}{n}}$。
矩陣集中收斂
8c:深度乘法上界(支撐定理 6)
每多一層,衰減疊乘——但疊乘效果有上界,不是想像中的精確相乘。這代表不能天真地把每層的過濾效果直接相乘來估算總效果——實際過濾比預期弱。
形式化定理
Weyl 不等式上界:$\sigma_j(J_{\text{total}}) \leq C \cdot j^{-L\alpha_0}$。
2×2 反例:存在矩陣 $A, B$ 使得 $\sigma(AB) \neq \sigma(A) \cdot \sigma(B)$,乘積的奇異值可大於各因子奇異值的乘積。
奇異值乘法反例
每個矩陣代表一層的 Jacobian,乘積代表端對端 Jacobian
8d:Weight Decay 反例(修正常見誤解)
Weight decay 讓參數變小,但不保證 Jacobian 的跡也變小——這是兩件不同的事。有嚴格反例證明。
形式化定理
Weight decay 嚴格降低 $\|\theta\|^2$,但 不一定降低 $\operatorname{tr}(J^T J)$。
反例:2-neuron、2-datapoint 的情境中,$\operatorname{tr}(J^T J)$ 可增加高達 49%。
Weight Decay 反例動畫
延伸:理論擴展與現象解釋
14a-14f:Feature Learning 證明的擴展
以下六個延伸補齊了定理 5 的完整圖景——從 ReLU 不光滑性、有限樣本、光滑激活、高階目標、多方向學習到非正交情形。
14a:Tame Function——ReLU 不光滑但梯度流仍安全
ReLU 不光滑但屬 tame function,梯度流仍避開壞臨界點。在折角處 Clarke subdifferential 提供安全的下降方向集合。
形式化定理
ReLU 網路的損失函數是 definable(tame)函數:雖然不可微分,但其 Clarke subdifferential 在折角處仍提供下降方向。
梯度流幾乎必然避開所有非光滑臨界點,收斂到光滑臨界點。
Tame Function 梯度流動畫
14b:Population → SGD——有限樣本的代價
信號 $d^{-\kappa/2}$ vs 噪聲 $1/\sqrt{n}$ 的賽跑:要讓信號超越噪聲,需要 $n = \Theta(d^\kappa)$ 個樣本。
形式化定理
Population gradient 中的信號項量級為 $d^{-\kappa/2}$,SGD 採樣噪聲量級為 $1/\sqrt{n}$。
要求信號 > 噪聲,即 $d^{-\kappa/2} > C/\sqrt{n}$,等價於 $n > C' \cdot d^\kappa$。
信號-噪聲交叉圖
14c:光滑 $\varphi$ 推廣——弱正則化擴展到所有非仿射光滑函數
加弱正則化後,結論擴展到所有非仿射光滑函數。正則化使神經元方向坍縮到目標方向 $w^*$。
形式化定理
對任意非仿射光滑激活函數 $\varphi$,加入 $\lambda$-正則化後,在 Phase 2 中神經元方向 support 坍縮到 $w^*$。
$\lambda = 0$:神經元方向保持分散。$\lambda > 0$:方向逐漸收斂。
Support Collapse 動畫
14d:$\kappa \geq 2$ 推廣——高階目標需要更多步
$\kappa=1$ 只要 $O(d)$ 步,$\kappa \geq 2$ 要 $O(d^\kappa)$ 步。目標函數的非線性階數決定學習速度。
形式化定理
Phase 1 的時間尺度為 $T_1 = \Theta(d^\kappa)$,其中 $\kappa$ 是目標函數 $f^*$ 的資訊指數。
$\kappa = 1$:$T_1 \sim d$(線性增長),$\kappa = 2$:$T_1 \sim d^2$(二次增長)。
Phase 1 時間 vs $\kappa$
14e:正交 Multi-index——多方向依序學習如爬階梯
多方向依序學習如爬階梯:先學第一個方向,再學第二個,形成階梯式學習曲線。
形式化定理
對正交 multi-index 模型 $f^*(x) = \sum_j g_j(\langle w_j^*, x\rangle)$,各方向 $w_j^*$ 依序在時間 $T_j$ 被學到。
$T_1 < T_2 < \cdots < T_r$,對齊度 $m_j(t) = |\langle \bar{w}_j(t), w_j^*\rangle|$ 依序從 0 升到 1。
階梯式學習動畫
14f:非正交——條件數決定可行性
條件數好時可 SVD 分離各方向,差時需二階方法。$\sigma_{\min}(V^*)$ 越大,問題越好解。
形式化定理
當 $\sigma_{\min}(V^*) > c$ 時,可透過 SVD 將非正交問題分離為正交子問題。
當 $\sigma_{\min}(V^*)$ 接近 0 時(方向幾乎共線),一階方法失效,需要二階方法(如 Hessian-based)。
非正交可行性邊界
14g-14h:巨觀現象的微觀解釋
14g 連接定理 2(Benign 分界),14h 連接定理 1(統一泛化界)——用算子 M 的語言解釋兩大神秘現象。
14g:Double Descent——爆管點與最小範數修復
模型大小剛好等於資料量時($\gamma=1$),Jacobian 最小奇異值趨近零,$\operatorname{tr}(M)$ 爆炸——這是「爆管點」。過了這個點($\gamma>1$),最小範數約束改善條件數,$\operatorname{tr}(M)$ 反而下降。
形式化定理
$\operatorname{tr}(M) = \sigma^2 \sum s_i^{-4}$。
$\gamma < 1$:$\operatorname{tr}(M)/n \to \sigma^2(1+\gamma)/(1-\gamma)^3$。
$\gamma = 1$:$s_{\min}\to 0$,$\operatorname{tr}(M)\to\infty$。
$\gamma > 1$:minimum-norm improves conditioning。
Double Descent
tr(M) 三段分解
14h:Grokking——先死背再頓悟
先死背再頓悟。早期 Jacobian 條件數極差,$\operatorname{tr}(M)$ 天文數字大(噪聲滿溢)。Weight decay 慢慢壓縮參數,某一刻條件數突然穿過臨界值,泛化瞬間出現——像水壩決堤。
形式化定理
Phase I(memorization):$\kappa(J)$ extreme,$\operatorname{tr}(M) = O(e^{cn})$。
Phase II(compression):weight decay + L-homogeneity → $\operatorname{tr}(M)$ exponential decay。
Phase transition at $\kappa(J_t) \leq \kappa_{\mathrm{crit}}$。
Grokking
條件數轉變
延伸:範圍擴展
16a:純交互 Multi-index——Hessian 啟動二階搜尋
當目標函數是純交互(如 $\varphi = z_1 z_2$),一階梯度偵測不到信號。解法:先用 Hessian(二階資訊)找到方向,再用 GD 精化。需要的樣本量 $n_0 = \tilde{O}(d^p)$。
形式化定理
純交互目標 $f^*(x) = g(\langle v_1^*, x\rangle \cdot \langle v_2^*, x\rangle)$:一階梯度 $\nabla_w \mathcal{L}$ 中不含 $v_i^*$ 的資訊(信號為零)。
Hessian $\nabla^2_w \mathcal{L}$ 的前 $p$ 個特徵向量可定位 $\{v_i^*\}$。以此初始化後,GD 在 $\tilde{O}(d^p)$ 步內收斂。
Hessian 初始化動畫
SQ 下界:$n_0 = d^p$
16b:深度 $L > 2$——泛化界對任意深度成立
泛化界對任意深度成立。深度的額外好處:逼近誤差 $B^2$ 可隨深度指數衰減。
形式化定理
對深度 $L$ 的網路,定理 1 的泛化界仍成立:$R(f) \leq \hat{R}_n(f) + \sqrt{\operatorname{tr}(M)/n}$。
逼近誤差 $B^2 \leq C \cdot e^{-cL}$:深度每增加一層,逼近誤差指數下降。
逐層對齊瀑布圖
逼近誤差隨深度衰減
16c:分類 Cross-Entropy——與 MSE 分界相同
Benign 分界 $\beta > \alpha + 1/2$ 與 MSE 相同。Neural Collapse:$r_{\text{eff}} = K - 1$。
形式化定理
Cross-Entropy 損失下,benign/catastrophic 過擬合的分界條件為 $\beta > \alpha + 1/2$,與 MSE 完全一致。
Neural Collapse 現象:最後一層特徵收斂到 $(K-1)$ 維正則單純形,有效秩 $r_{\text{eff}} = K - 1$。
Neural Collapse 單純形
MSE vs CE 過擬合分界
16d:非高斯輸入——流形假設下的修正
$M$ 的定義不依賴分佈假設。流形假設:$d \to d_M$(以流形維度取代環境維度)。
形式化定理
噪聲算子 $M$ 的定義 $M_{jk} = \mathbb{E}[f(x)\phi_j(x)\phi_k(x)]$ 對任意輸入分佈成立,不需高斯假設。
當資料集中在 $d_M$ 維流形上時,泛化界中的 $d$ 可替換為 $d_M$,修正項為 $\sqrt{r_{\text{eff}}/n}$。
流形投影散點圖
修正項 $\sqrt{r_{\text{eff}}/n}$
已嚴格否證的主張
科學進步不只來自證明什麼是對的,也來自否證什麼是錯的。以下四個看似合理的直覺,都有嚴格的反例推翻。
α = Lα₀ 精確成立
每層衰減疊乘不像想的那麼精確——2×2 矩陣就能找到反例。精確乘法需層間奇異向量完全對齊,一般不成立。
tr(J^TJ) 在 weight decay 下單調遞減
Weight decay 壓縮的是參數大小,不是 Jacobian 的跡。有具體反例:2 神經元 2 資料點的網路中,tr(J^TJ) 上升了 49%。
SGD 直接最小化 tr(J^TJ)
SGD 最小化的是 ||θ||²(Lyapunov 函數),對 tr(J^TJ) 只有間接效應。兩者是不同的二次型。
三視角(體積/頻譜/平坦)精確等價
體積、頻譜、平坦三個視角只在插值解處通過 Jacobian 的 SVD 近似統一,有結構性不對稱。
適用範圍與擴展方向
上面所有定理在什麼條件下成立?還有哪些方向可以繼續走?
已證明的範圍
- 模型:2 層 ReLU
- 目標:single-index, CPL φ, κ=1
- 訓練:population GD / GF, rich regime
- 資料:Gaussian inputs
自然擴展(路徑清晰)
- κ ≥ 2:Phase 1 從 O(d) 變為 O(d^κ)
- 一般光滑 φ:加弱 norm 正則化即可
- 有限樣本 SGD:標準集中不等式
- Multi-index(正交):Boursier & Flammarion
- Multi-index(非正交):需處理虛假極小值
- 深度 L > 2:需逐層對齊理論