0xFunky
0xFunky|2025年11月29日 09:28
[技術介紹長文] Nested Learning 這幾天花了不少時間研讀 Google DeepMind 最新發表的 Nested Learning (以及相關的 Titans 架構) 論文,讀得越深,越有一種強烈的既視感: 我們可能正站在自 2017 年以來,AI 架構最重要的一次典範轉移(Paradigm Shift)路口。 為了講清楚為什麼這篇論文如此重要,我先來說這七年來 AI 是如何發展的,以及為什麼近期市場上的 記憶體概念股(如 HBM)會漲得這麼兇? 這一切,可以用三個關鍵階段來解釋(我盡量用白話一點來介紹): == 起源與現狀:Attention Is All You Need (Transformer) == 2017 年 Google Brain 發表的這篇論文,絕對是AI歷史上最重要的論文之一,Transformer 的誕生奠定了今天 GPT-4、Gemini 等所有 LLM 的基礎。 白話比喻:現在的 AI 就像是一個「過目不忘的天才」在參加一場「開卷考試」。當你問它問題時,它雖然聰明,但無法把書背下來。它必須把所有的參考資料(你給的 Context)全部「攤在桌子上」,然後隨時用眼睛掃描(Attention)來找答案。 技術限制:這種架構是「靜態」的,AI 的腦子(參數)是凍結的,它只能依靠「桌子(記憶體)」來暫存資訊。 == 瓶頸與市場現象:Scaling Laws (縮放定律) == 過去幾年,OpenAI 等巨頭發現了 Scaling Laws:「桌子越大、書越多,考得就越好。」 用GPT來看看這幾年 AI 的「桌子(Context Window)」是怎麼變大的 • GPT-3 (2020): 只有 2k - 4k tokens。桌子很小,聊沒幾句它就忘記前面的設定。 • GPT-4 (2023): 擴展到 32k tokens。勉強可以放下一份財報。 • GPT-4 Turbo (2024): 暴增到 128k tokens(約 300 頁的書)。 • Gemini 1.5 Pro (2024): 甚至衝到了 1M+ tokens(好幾部哈利波特全集)。 看起來很棒,但這就是問題所在。 為了維持這張「無限大的桌子」,我們需要極其巨大的 KV Cache。這導致現在的 AI 晶片(如 H100/Blackwell)對 HBM (高頻寬記憶體) 的需求變成了無底洞,這就是為什麼記憶體股與 NVIDIA 會暴漲。 簡單說:現在的 AI 太笨了,記不住東西,所以只能靠暴力堆硬體(買超大的桌子)來解決問題。這條路雖然有效,但成本跟CP值已經快走到物理極限了。 == 或許是下一代的解答:Nested Learning (巢狀學習) == 正是在「記憶體牆」與「算力成本」的焦慮下,Google 這篇 Nested Learning paper在11月橫空出世並且釋出Gemin3 pro還有nano banana pro,試圖讓 AI 從「依賴硬體」進化為「依賴大腦」。 這一切的基礎,在於一個關鍵技術突破:推論時訓練 (Test-Time Training, TTT)。 過去我們認為 AI 訓練完就不能改了(Parameters Frozen),但 TTT 允許模型在「考試的當下」依然能即時修改自己的腦神經連結。 基於 TTT,Google 也提出了兩大架構創新: 1. 基礎建設:Titans (神經記憶體) Google 在今年初設計了一種叫 Titans 的架構,讓 AI 擁有一個獨立的「神經記憶體 (Neural Memory)」。它不再依賴「開卷考試」。當讀到新資料時,它不只是放在桌上,而是利用梯度下降,直接修改自己的腦神經連結(更新參數)。等於是把書的內容「背」進了腦子裡。 2. 進化核心:HOPE (自我參照學習) 這才是這篇論文真正的黑科技。在 Titans 的基礎上,Google 提出了 HOPE。如果說 Titans 是「會做筆記」,那 HOPE 就是「會改良自己做筆記的方法」。 實現了 Self-Referential Learning (自我參照學習),模型不只能學到知識,還能即時調整自己的學習演算法。 這是一個「巢狀(Nested)」的系統:內層在學知識,外層在學「如何更快地學知識」。 3. 降維打擊:這實現了很低記憶體消耗。 不管讀了 100 萬本書,它不需要更大的桌子(記憶體),因為知識已經被 HOPE 模組壓縮、內化成了模型的參數,這對目前依賴 HBM 的硬體架構來說,是徹底的降維打擊。 白話比喻:Nested Learning 的模型,是一個「學會內功心法」的宗師,不再依賴「開卷考試」。當它讀到新資料時,它不只是放在桌上,而是直接修改自己的腦神經連結(更新參數),直接把書的內容「背」進了腦子裡。不管讀了 100 萬本書,它不需要更大的桌子(記憶體),因為知識已經內化成它的直覺。 == 總結 == 如果說 Transformer 教會了 AI 怎麼「看見」重點;那 Nested Learning (結合 HOPE 與 Titans) 正在利用 TTT 教 AI 怎麼「記住」重點並「自我進化」。 Google 這篇論文向我們展示了下一個時代,一個模型能自我更新、不再單純依賴暴力堆砌記憶體的「動態智慧」時代,雖然Nested Learning 目前在訓練的穩定性與雙迴路優化的複雜度上,確實還有一定的難度要克服。 但這個方向的確立,對資本市場將帶來深遠的思考:「這會不會衝擊現在的 AI 概念股?」 我的看法是:短期不會,但長期的遊戲規則變了。 目前的股市榮景(HBM 供不應求),反映的是 Transformer 時代因為演算法效率低落,導致對硬體(記憶體)的紅利。 然而,一旦 Nested Learning 技術成熟並普及,未來 AI 對「記憶體容量」的依賴程度將大幅降低複雜度,這意味著 HBM 的無限增長故事可能會有天花板,競爭將從「誰的顯存大」回歸到「誰的晶片算得快(支援 TTT 高效運算)」以及「誰的演算法更聰明」。 老實說,這篇論文值得所有 AI 工程師關注,更是所有關注 AI 資本市場的人,重新審視「硬體超級循環」能否延續的關鍵訊號。 相關論文連結都放在留言了。(0xFunky)
分享至:

热门快讯

APP下载

X

Telegram

Facebook

Reddit

复制链接

热门阅读