| AiCoin 实时快讯

ETH

💲1938.61

1.02%

0xFunky|2025年11月29日 09:28

[技術介紹長文] Nested Learning 這幾天花了不少時間研讀 Google DeepMind 最新發表的 Nested Learning (以及相關的 Titans 架構) 論文，讀得越深，越有一種強烈的既視感：我們可能正站在自 2017 年以來，AI 架構最重要的一次典範轉移（Paradigm Shift）路口。為了講清楚為什麼這篇論文如此重要，我先來說這七年來 AI 是如何發展的，以及為什麼近期市場上的記憶體概念股（如 HBM）會漲得這麼兇？這一切，可以用三個關鍵階段來解釋（我盡量用白話一點來介紹）： == 起源與現狀：Attention Is All You Need (Transformer) == 2017 年 Google Brain 發表的這篇論文，絕對是AI歷史上最重要的論文之一，Transformer 的誕生奠定了今天 GPT-4、Gemini 等所有 LLM 的基礎。白話比喻：現在的 AI 就像是一個「過目不忘的天才」在參加一場「開卷考試」。當你問它問題時，它雖然聰明，但無法把書背下來。它必須把所有的參考資料（你給的 Context）全部「攤在桌子上」，然後隨時用眼睛掃描（Attention）來找答案。技術限制：這種架構是「靜態」的，AI 的腦子（參數）是凍結的，它只能依靠「桌子（記憶體）」來暫存資訊。 == 瓶頸與市場現象：Scaling Laws (縮放定律) == 過去幾年，OpenAI 等巨頭發現了 Scaling Laws：「桌子越大、書越多，考得就越好。」用GPT來看看這幾年 AI 的「桌子（Context Window）」是怎麼變大的 • GPT-3 (2020)：只有 2k - 4k tokens。桌子很小，聊沒幾句它就忘記前面的設定。 • GPT-4 (2023)：擴展到 32k tokens。勉強可以放下一份財報。 • GPT-4 Turbo (2024)：暴增到 128k tokens（約 300 頁的書）。 • Gemini 1.5 Pro (2024)：甚至衝到了 1M+ tokens（好幾部哈利波特全集）。看起來很棒，但這就是問題所在。為了維持這張「無限大的桌子」，我們需要極其巨大的 KV Cache。這導致現在的 AI 晶片（如 H100/Blackwell）對 HBM (高頻寬記憶體) 的需求變成了無底洞，這就是為什麼記憶體股與 NVIDIA 會暴漲。簡單說：現在的 AI 太笨了，記不住東西，所以只能靠暴力堆硬體（買超大的桌子）來解決問題。這條路雖然有效，但成本跟CP值已經快走到物理極限了。 == 或許是下一代的解答：Nested Learning (巢狀學習) == 正是在「記憶體牆」與「算力成本」的焦慮下，Google 這篇 Nested Learning paper在11月橫空出世並且釋出Gemin3 pro還有nano banana pro，試圖讓 AI 從「依賴硬體」進化為「依賴大腦」。這一切的基礎，在於一個關鍵技術突破：推論時訓練 (Test-Time Training, TTT)。過去我們認為 AI 訓練完就不能改了（Parameters Frozen），但 TTT 允許模型在「考試的當下」依然能即時修改自己的腦神經連結。基於 TTT，Google 也提出了兩大架構創新： 1. 基礎建設：Titans (神經記憶體) Google 在今年初設計了一種叫 Titans 的架構，讓 AI 擁有一個獨立的「神經記憶體 (Neural Memory)」。它不再依賴「開卷考試」。當讀到新資料時，它不只是放在桌上，而是利用梯度下降，直接修改自己的腦神經連結（更新參數）。等於是把書的內容「背」進了腦子裡。 2. 進化核心：HOPE (自我參照學習) 這才是這篇論文真正的黑科技。在 Titans 的基礎上，Google 提出了 HOPE。如果說 Titans 是「會做筆記」，那 HOPE 就是「會改良自己做筆記的方法」。實現了 Self-Referential Learning (自我參照學習)，模型不只能學到知識，還能即時調整自己的學習演算法。這是一個「巢狀（Nested）」的系統：內層在學知識，外層在學「如何更快地學知識」。 3. 降維打擊：這實現了很低記憶體消耗。不管讀了 100 萬本書，它不需要更大的桌子（記憶體），因為知識已經被 HOPE 模組壓縮、內化成了模型的參數，這對目前依賴 HBM 的硬體架構來說，是徹底的降維打擊。白話比喻：Nested Learning 的模型，是一個「學會內功心法」的宗師，不再依賴「開卷考試」。當它讀到新資料時，它不只是放在桌上，而是直接修改自己的腦神經連結（更新參數），直接把書的內容「背」進了腦子裡。不管讀了 100 萬本書，它不需要更大的桌子（記憶體），因為知識已經內化成它的直覺。 == 總結 == 如果說 Transformer 教會了 AI 怎麼「看見」重點；那 Nested Learning (結合 HOPE 與 Titans) 正在利用 TTT 教 AI 怎麼「記住」重點並「自我進化」。 Google 這篇論文向我們展示了下一個時代，一個模型能自我更新、不再單純依賴暴力堆砌記憶體的「動態智慧」時代，雖然Nested Learning 目前在訓練的穩定性與雙迴路優化的複雜度上，確實還有一定的難度要克服。但這個方向的確立，對資本市場將帶來深遠的思考：「這會不會衝擊現在的 AI 概念股？」我的看法是：短期不會，但長期的遊戲規則變了。目前的股市榮景（HBM 供不應求），反映的是 Transformer 時代因為演算法效率低落，導致對硬體（記憶體）的紅利。然而，一旦 Nested Learning 技術成熟並普及，未來 AI 對「記憶體容量」的依賴程度將大幅降低複雜度，這意味著 HBM 的無限增長故事可能會有天花板，競爭將從「誰的顯存大」回歸到「誰的晶片算得快（支援 TTT 高效運算）」以及「誰的演算法更聰明」。老實說，這篇論文值得所有 AI 工程師關注，更是所有關注 AI 資本市場的人，重新審視「硬體超級循環」能否延續的關鍵訊號。相關論文連結都放在留言了。(0xFunky)

APP下载

Windows

Mac

分享至：

Facebook

复制链接

分享至：

热门快讯

热门阅读