0xFunky
0xFunky|2025年05月29日 17:09
雖然不知道 @stayloudio 跟這篇論文有什麼關係,但看到這篇論文真的有種熟悉感。 這篇 2017 年的論文由 Google 提出,首次拋棄 RNN、CNN,提出只靠「Attention 機制」就能處理語言任務,從此開啟了 Transformer 時代,至今也是所有 LLM(大型語言模型)的基石。 Transformer 的核心概念是: • 語言的關鍵在於上下文的關係,一個詞的意思取決於它與其他詞的關聯。 所以引入「Attention 機制」,讓模型在看一個詞時,同時關注整句話,找出哪些詞是它該注意的重點 — 不再是一個字一個字讀,而是能抓全局重點。 我自己最愛AI 領域最熟的正是 NLP(自然語言處理)當年在 Kaggle 上參加過不少 NLP 比賽拿過一些獎牌。那時最風光的模型是 Google 推出的 BERT,專門做語意理解,Bert 變種模型幾乎橫掃所有 benchmark。 而 OpenAI 也在那時推出了 GPT-2,主打生成能力,但當時穩定性與準確率不如 BERT,還沒進入主流。 直到 GPT-3(2020) 問世,1750 億參數、超強生成力與 few-shot 能力徹底震撼業界。從那一刻起,LLM 成為新王,BERT 系列模型逐漸退場,而 GPT 架構一路發展到 ChatGPT、Claude、Gemini,開啟了現在的AI 大時代。 這一切,都是從那篇論文開始的。 Transformer 架構沒變,但世界早就變了。但我們都還在 attention 中。 ===== 補充模型小知識 • Transformer(2017): 史上第一個純 Attention 架構,開創了不靠 RNN 的語言模型時代。能一次讀完整句話並決定該關注哪些詞,效率與理解力都大幅提升。 • BERT(2018,Google): 基於 Transformer encoder 的「理解型模型」,專門做情感分析、問答、文本分類。像是語言理解高手,用來做閱讀測驗超強。 • GPT(2018 起,OpenAI): 基於 Transformer decoder 的「生成型模型」,擅長寫故事、對話、補句子,是語言創作大師。GPT-3 更是少樣本學習(few-shot learning)能力的代表。 《Attention is All You Need》,經典。
曾提及
分享至:

脉络

热门快讯

APP下载

X

Telegram

Facebook

Reddit

复制链接

热门阅读