
0xFunky|2025年05月29日 17:09
雖然不知道 @stayloudio 跟這篇論文有什麼關係,但看到這篇論文真的有種熟悉感。
這篇 2017 年的論文由 Google 提出,首次拋棄 RNN、CNN,提出只靠「Attention 機制」就能處理語言任務,從此開啟了 Transformer 時代,至今也是所有 LLM(大型語言模型)的基石。
Transformer 的核心概念是:
• 語言的關鍵在於上下文的關係,一個詞的意思取決於它與其他詞的關聯。
所以引入「Attention 機制」,讓模型在看一個詞時,同時關注整句話,找出哪些詞是它該注意的重點 — 不再是一個字一個字讀,而是能抓全局重點。
我自己最愛AI 領域最熟的正是 NLP(自然語言處理)當年在 Kaggle 上參加過不少 NLP 比賽拿過一些獎牌。那時最風光的模型是 Google 推出的 BERT,專門做語意理解,Bert 變種模型幾乎橫掃所有 benchmark。
而 OpenAI 也在那時推出了 GPT-2,主打生成能力,但當時穩定性與準確率不如 BERT,還沒進入主流。
直到 GPT-3(2020) 問世,1750 億參數、超強生成力與 few-shot 能力徹底震撼業界。從那一刻起,LLM 成為新王,BERT 系列模型逐漸退場,而 GPT 架構一路發展到 ChatGPT、Claude、Gemini,開啟了現在的AI 大時代。
這一切,都是從那篇論文開始的。
Transformer 架構沒變,但世界早就變了。但我們都還在 attention 中。
=====
補充模型小知識
• Transformer(2017):
史上第一個純 Attention 架構,開創了不靠 RNN 的語言模型時代。能一次讀完整句話並決定該關注哪些詞,效率與理解力都大幅提升。
• BERT(2018,Google):
基於 Transformer encoder 的「理解型模型」,專門做情感分析、問答、文本分類。像是語言理解高手,用來做閱讀測驗超強。
• GPT(2018 起,OpenAI):
基於 Transformer decoder 的「生成型模型」,擅長寫故事、對話、補句子,是語言創作大師。GPT-3 更是少樣本學習(few-shot learning)能力的代表。
《Attention is All You Need》,經典。
分享至:
脉络
热门快讯
APP下载
X
Telegram
复制链接