7. 大型AI的學習歷程

⏱️ 30 秒版（先看這裡！）

一、AI 跟人一樣「慢慢長大」，要經過三個階段：幼兒園、上學、出社會。二、它讀的書多到嚇人（疊起來比好幾十座玉山還高），但不是死背，而是「壓縮」記重點。三、最後一階段最重要：讓人類幫它「整句話的意思」打分數，它才知道「意思對」才是真的對。

🌱 AI 是怎麼「長大」的？

你知道嗎？ChatGPT、Gemini 這些會聊天的 AI，其實跟我們一樣是「慢慢長大」的！它們從「小 baby」變成「超聰明大人」，要經過三個階段，就跟你從小到大一模一樣。今天就來偷看 AI 怎麼長大！

① 幼兒園時期：大量吸收世界（預訓練）

想像你念幼兒園時，每天到處亂看、亂聽、亂玩——看卡通、聽爸媽聊天、翻繪本，什麼都塞進腦袋。AI 這個階段叫預訓練，它會把整個網路的文章、書籍、維基百科全部讀一遍。

讀多少？最新的 AI 讀了 15 兆個字！全印在 A4 紙上疊起來有 1500 公里高——比玉山高好幾十倍！

🤔 小朋友想想看： 如果你每天讀一本 200 頁的書，要讀幾年才能讀完 AI 讀過的量？（提示：幾百萬年😱）

這裡有兩個超酷的觀念：

AI 不是「背」而是「壓縮」：像媽媽把厚棉被壓進真空袋，體積變小但打開還是棉被。所以你叫 AI 默寫整篇課文，它會背得「差不多對但細節怪怪的」，像你記得三年前餐廳的味道、卻記錯菜名。
垃圾進，垃圾出：網路上有亂碼、廣告、奇怪留言，工程師要幫 AI 過濾。原本抓了 240 兆的資料，最後只留 1.4% 真正乾淨的，像媽媽逛市場挑半天只買一小袋最新鮮的🥬。

② 上學了：學怎麼好好說話（SFT）

光知道很多還不夠——你幼兒園懂再多，也不會好好回答老師問題。所以要上學，這階段叫 SFT（監督式微調）：老師給標準答案，AI 跟著學。

驚人的是——AI 上學不用讀太多書！有個研究叫 LIMA，老師只給 1000 個超棒的問答範例，AI 就學得跟讀了好幾萬題的一樣強。就像考試前，認真寫 10 題經典題，比亂寫 100 題更有用。

🤔 小朋友想想看： 為什麼「題目少但品質好」反而比「題目超多但亂七八糟」有用？

而且上學不是學新知識，是「喚醒」舊的！如果 AI 幼兒園只看過一次「某某是某樂團的吉他手」，上學時你問它「那樂團主唱是誰」，它會答不出來；但如果它從很多不同網頁看過那樂團的介紹，老師稍微一點它就能舉一反三——就像你從前後左右都看過大象，下次才認得出來🐘。

③ 出社會了：被人類按讚或倒讚（RLHF）

畢業後 AI 進入最可怕的階段——社會大學，叫 RLHF（人類回饋強化學習）。這時沒有標準答案，只有人類說「👍讚！」或「👎爛透了！」

為什麼一定要這階段？看個爆笑例子。假設正確答案是「我不可以教你做壞事」：

AI 甲答：「我很可以教你做壞事」← 只錯一個字！
AI 乙答：「不行啦，這違反道德！」← 每個字都不一樣！

在上學階段（SFT），老師是一個字一個字比對的，會覺得只錯一字的 AI 甲比較棒——但它的意思整個超級歪🚨！所以要靠 RLHF，讓人類對整句話的意思打分數，AI 才懂「意思對才是真的對」。

🤔 小朋友想想看： 「改一個字就意思完全相反」的例子還有哪些？

因為請人類一直打分數超貴又累，現在常讓 AI 當老師教 AI（叫 RLAIF），因為 AI 界有個道理：「評分別人做得好不好，比自己做簡單很多」——就像寫出好歌很難，但判斷「這首歌好不好聽」簡單多了🎵。

🏠 生活裡的例子

下次跟 ChatGPT 聊天，你就知道它背後走過多少「人生階段」才能跟你對話：讀遍網路（幼兒園）、學會好好回答（上學）、再被人類的讚與倒讚磨出價值觀（出社會）。是不是突然覺得它有點可愛😄？

🎒 今天學到了什麼？

AI 長大分三階段：預訓練（幼兒園亂吸收）、SFT（上學學規矩）、RLHF（出社會被回饋）。
AI 讀的書多到嚇人，但好資料快被讀完了（大約 2028 年前後可能用完）。
AI 記東西是「壓縮」：不是逐字背，所以細節有時會記錯。
上學重質不重量：1000 個好題目勝過 50000 個爛題目；而且是「喚醒」舊知識、不是學新的。
RLHF 看整體意思：像改作文看整篇的意思，不是只看每個字對不對。

Q: AI 的「預訓練」階段最像人生的哪一段？
- 出社會工作
- *幼兒園：大量而沒有特定目的地吸收整個世界
- 退休養老
解釋: 預訓練用海量網路資料建立語言與世界知識，像學齡前的探索。
Q: 為什麼「上學（SFT）」不需要海量資料？
- 因為 AI 很懶
- *SFT 是「喚醒」預訓練已具備的能力，1000 個好範例就夠了
- 因為資料很貴
解釋: LIMA 用 1000 筆精選對話即可媲美，重質不重量。
Q: 為什麼需要 RLHF，而不能只靠 SFT？
- RLHF 比較便宜
- *SFT 逐字比對會偏愛「只錯一字但意思全歪」的答案，RLHF 對整句意思評分
- SFT 會當機
解釋: 「我不可以」vs「我很可以」只差一字卻意思相反，需對整體回答評分。

【生成式人工智慧與機器學習導論 2025】第 7 講：大型語言模型的學習歷程

📖 家長導讀

本講改編自李宏毅教授《生成式人工智慧與機器學習導論 2025》第七講，講解現代 LLM 的標準三階段：預訓練（Pre-training）→ 監督式微調（SFT）→ 人類回饋強化學習（RLHF）。三階段本質都是「文字接龍（分類問題）」，架構不變、後一階段以前一階段參數為初始化，差別在資料來源與 Loss 定義。孩子版用「幼兒園→上學→出社會」的人生比喻；本版補齊資料規模、關鍵研究與機制。

🔍 完整概念

一、預訓練（自監督）。 用海量網路資料建立語言與世界知識（語言知識較易封頂、世界知識近乎無限）。頂級模型（如 Llama 3、DeepSeek V3）用約 15T tokens（印成 A4 疊起約 1500 公里）。Chinchilla Scaling Law：算力固定時，模型參數量與資料量須依最佳比例（大模型配少資料＝思而不學、小模型配大資料＝學而不思）。資料清洗：CommonCrawl 的 240T 原始資料經規則過濾、去重、模型過濾後可能僅留約 1.4%；用 LLM「換句話說（Rephrasing）」增益，可用約 1/3 資料達同效。壓縮而非死背：模型以接龍機率重組文本，默寫原文會「合理但細節失真」。資料枯竭危機：研究估人類約 2028 年前後可能耗盡高品質公開文字。

二、SFT（監督式微調）。 本質是激發預訓練已具備的能力、改變輸出風格，而非灌輸新知。喚醒的前提是多視角預訓練（《Physics of Language Models》：同一知識須以多種描述出現，SFT 才能舉一反三）；對模型完全未知的知識做 SFT 反而使表現暴跌。重質不重量：InstructGPT 約萬筆、LIMA 僅 1000 筆精選對話即可媲美頂尖模型；甚至從 Alpaca 只挑「最長的 1000 筆」就勝過用全部 5.2 萬筆——顯示模型缺的只是「作答範本」。對齊前後機率分佈變化極小（主要改變「結束符號」與連接詞）。知識蒸餾：以強模型當老師生成 SFT 資料，可低成本訓練出強模型（如 Alpaca、Vicuna）。

三、RLHF（人類回饋強化學習）。 面對的不是標準答案而是二元評價。解決 SFT 的致命缺陷：SFT 逐 token 算交叉熵，會偏好「只錯一字但意思全歪」（「我不可以」vs「我很可以」）的答案；RLHF 對**整段回答的最終價值（Reward）**評分。因材施教：由模型先自產答案、人類再回饋，針對模型自身弱點優化。機制上採 Policy Gradient 精神（讚→拉近該輸出機率、倒讚→推遠）。因人類標註昂貴，大量改用 RLAIF（以 Reward Model 或模型自評取代人類），基於「評分比生成容易」。相關風險：Reward Hacking（為討好回饋機制而欺騙）、合成資料長期訓練的 Model Collapse。

✅ 查核筆記（附實證依據）

課程來源：屬實，李宏毅《生成式人工智慧與機器學習導論 2025》第七講。
15T tokens 預訓練：屬實，Meta 官方稱 Llama 3 於逾 15T tokens 上預訓練；DeepSeek-V3 約 14.8T，量級一致。
Chinchilla Scaling Law：屬實，Hoffmann et al.（2022, DeepMind），提出參數與資料的計算最適比例。
資料約 2028 年枯竭：屬實方向，Villalobos et al.（Epoch AI, 2022/2024）估計高品質文字約於 2026–2032 間耗盡，中位數近 2028。
DataComp 過濾後約 1.4%、Rephrasing 省資料：屬實方向，DataComp-LM（Li et al. 2024）示重度過濾大幅提升品質；WRAP（Maini et al. 2024）示改寫可省資料。
LIMA 1000 筆（Superficial Alignment）：屬實，Zhou et al.（2023）；「對齊只是改變風格而非知識」為其核心假設。
Embers of Autoregression（ROT13）：屬實，McCoy et al.（2023）顯示模型受預訓練頻率影響。
RLAIF／Constitutional AI：屬實，Bai et al.（2022, Anthropic）。
知識蒸餾成本：Alpaca 的資料生成成本約數百美元、訓練約數百美元；原講「<50 美金」偏低，宜表述為「相對極低成本」。

📚 原始出處

【生成式人工智慧與機器學習導論 2025】第 7 講（YouTube）｜李宏毅，國立臺灣大學

🧭 接下來讀這篇

👉 下一關：AI 的終身學習法

🚀 想挑戰：解剖 AI 小龍蝦

📋 AI 共學與免責聲明

本教材為 SparkSoul 智慧實驗室家庭共學的實驗紀錄，由 AI 協作萃取整理自公開課程或文獻，家長一起參與閱讀。我們不保證學術上的絕對無誤，鼓勵讀者點擊原始連結進行深度探索；若發現錯誤，歡迎透過 Facebook 粉專告訴我們。涉及醫療、投資或法律等專業判斷，請另行諮詢專業人士。

原始來源

📺 點此觀看原始來源

✨ SparkSoul 自學基地

探索

🌱 AI 是怎麼「長大」的？

① 幼兒園時期：大量吸收世界（預訓練）

② 上學了：學怎麼好好說話（SFT）

③ 出社會了：被人類按讚或倒讚（RLHF）

🏠 生活裡的例子

🎒 今天學到了什麼？

【生成式人工智慧與機器學習導論 2025】第 7 講：大型語言模型的學習歷程

📖 家長導讀

🔍 完整概念

✅ 查核筆記（附實證依據）

📚 原始出處