🧒 十歲小孩版
🔗 原始文章:【生成式人工智慧與機器學習導論2025】第_7_講:大型語言模型的學習歷程 | 台大李宏毅教授
你知道嗎?現在超紅的 ChatGPT、Gemini 這些會聊天的 AI,它們其實跟我們一樣,也是「慢慢長大」的喔!
它們從「小 baby」變成「超聰明大人」,要經過三個階段,就跟你從小到大的成長過程一模一樣!今天就讓我們來偷看一下,AI 是怎麼「長大」的吧!
🍼 第一階段:AI 的幼兒園時期——大量吸收世界
想像一下你還在念幼兒園的時候,每天就是到處亂看、亂聽、亂玩——看卡通、聽爸媽聊天、翻繪本,什麼都塞進腦袋裡。這個階段叫做 「預訓練」(Pre-training)。
AI 在這個階段也一樣,它會把整個網路的文章、書籍、維基百科全部讀一遍!
那到底讀多少呢?準備好被嚇到喔 👇
最新的 AI 模型讀了 15 兆個字!如果把這些文字全部印在 A4 紙上疊起來,會有 1500 公里高——比玉山高好幾十倍!
🤔 小朋友想想看: 如果你每天讀一本 200 頁的書,要讀幾年才能讀完 AI 讀過的量呢?(提示:答案是幾百萬年 😱)
AI 不是「背」起來,而是「壓縮」起來
這裡有個超酷的觀念!AI 並不是把文章一字不漏背下來,而是像用「懶人包」的方式記重點。
就像你媽媽把冬天的厚棉被壓進真空袋裡,體積變超小,但打開來棉被還是棉被。AI 也是這樣「壓縮」知識的。
但因為是壓縮過的,所以當你要 AI 背出整篇《國語課本》的課文時,它會背得差不多對但細節怪怪的——就像你想起三年前去過的餐廳,大概記得味道,但菜名可能記錯一樣!
垃圾進,垃圾出!
網路上不是什麼東西都可以拿來學的對吧?像是亂碼、廣告、奇怪的留言……
所以工程師會幫 AI 過濾資料。原本抓了 240 兆的資料,最後竟然只留下 1.4% 真正乾淨的內容!就像你媽媽去傳統市場買菜,挑了半天,最後只買回一小袋最新鮮的 🥬。
🎒 第二階段:AI 上學了!——學習怎麼好好說話
光是知道很多東西還不夠,你幼兒園時懂得再多,也不會好好回答老師問題對吧?所以要上學!
這個階段叫做 SFT(監督式微調),就是「老師給標準答案,AI 跟著學」。
驚人的發現:AI 上學不用讀太多書!
你一定覺得,教 AI 一定要給它超多題目對吧?錯囉!
有個研究叫 LIMA,老師只給 AI 1000 個超棒的問答範例,AI 就學得跟那些讀了好幾萬題的 AI 一樣強!
這就像你數學考試前,與其寫 100 題亂七八糟的題目,不如認真寫 10 題最經典的題目,效果反而更好!
🤔 小朋友想想看: 為什麼「題目少但品質好」反而比「題目超多但亂七八糟」更有用呢?
上學不是學新東西,是「喚醒」舊東西!
這個概念超有趣!AI 上學不是學新知識,而是把它幼兒園時期看過的東西「連起來」。
舉例來說,如果 AI 在幼兒園只看過一次「千早愛音是 MyGo 的吉他手」,上學時你問它「MyGo 的主唱是誰?」,它會答不出來。
但如果 AI 在幼兒園從超多不同的網頁看過 MyGo 樂團的介紹,上學時老師稍微一點,它就能舉一反三!
就像你如果只從一個角度看過大象,可能不認得從後面看的大象;但如果你從前後左右都看過,下次就認得出來啦 🐘!
🌏 第三階段:AI 出社會了!——被人類「按讚」或「倒讚」
AI 從學校畢業後,要進入最可怕的階段——社會大學!這叫做 RLHF(人類回饋強化學習)。
這時候沒有標準答案了,只有人類對它說:「👍 這個答案讚!」或「👎 這個答案爛透了!」
為什麼一定要這個階段?
我舉個超好笑的例子你就懂了!
假設正確答案是:「我不可以教你做壞事」
- AI 甲回答:「我很可以教你做壞事」 ← 只錯一個字!
- AI 乙回答:「不行啦,這違反道德!」 ← 每個字都不一樣!
如果是在學校階段(SFT),老師是一個字一個字比對的,所以會覺得 AI 甲比較棒(因為只錯一個字)。但你看看,AI 甲的意思整個超級歪耶!🚨
所以要靠 RLHF,讓人類對整句話的意思打分數,AI 才會知道「喔!原來意思對才是真的對!」
🤔 小朋友想想看: 你覺得「改一個字就意思完全相反」的例子還有哪些呢?
AI 自己教自己!
因為請人類一直打分數超貴又很累,所以現在的作法是:讓 AI 當老師教 AI!
這招叫做 RLAIF。因為在 AI 的世界裡有個超神奇的道理:
「要評分別人做得好不好,比自己做簡單很多!」
就像你要寫出一首好歌很難,但要判斷「這首歌好不好聽」就簡單多了對吧?🎵
🎯 今天學到了什麼?
- AI 長大分三階段:預訓練(幼兒園亂吸收)、SFT(上學學規矩)、RLHF(出社會被社會毒打 😂)。
- AI 讀的書多到嚇人:疊起來比好幾座玉山還高,但網路上的好資料快被它們讀完了!
- AI 記東西是用「壓縮」的:不是一字一句背,所以有時候細節會記錯。
- 上學階段重質不重量:1000 個好題目,比 50000 個爛題目還有用!
- RLHF 看的是整體:就像考作文,老師看的是整篇文章的意思,不是看你每個字寫得對不對。
下次你跟 ChatGPT 聊天的時候,就知道它背後經歷了多少「人生階段」才能跟你對話了吧!是不是覺得它突然變得有點可愛呢?😄
📺 原始影片:觀看原始影片
👨👩👧 家長版/進階版(點擊展開)
【生成式人工智慧與機器學習導論2025】第 7 講:大型語言模型的學習歷程
大型語言模型(LLM)的學習歷程:Pre-training, SFT 與 RLHF
【詳盡摘要】核心總結 (Executive Summary)
本文件深入探討了現代大型語言模型(如 ChatGPT, Gemini 等)的標準三階段打造流程:預訓練(Pre-training)、監督式微調(Supervised Fine-Tuning, SFT)與人類回饋強化學習(RLHF)。這三個階段在本質上都是在解決「文字接龍(分類問題)」,但透過輸入資料與評估方式的差異,引導模型從單純吸收知識,轉變為能與人類對齊(Alignment)並進行有效應對進退的 AI。預訓練如同兒童在學齡前大量且無目的地探索世界,建立基礎的語言與世界知識;SFT 如同上學,透過高品質的標準答案激發模型潛力;RLHF 則像步入社會,在沒有絕對標準答案的情境下,透過人類的回饋來優化整體的價值觀與決策。
📌 詳盡重點整理
- 核心機制相同:這三個階段在機器學習本質上沒有差異,都是「文字接龍」,即一種「分類問題」,每一個 Token 都是一個類別(詞彙表 Vocabulary Size 可高達數十萬)。
- 初始化繼承:每一個階段都將前一個階段訓練出的參數當作初始化(Initialization)基礎,架構(如 Transformer)在三階段中保持不變。
- 人類比喻:Pre-training = 學齡前快樂玩耍;SFT = 上學接受老師標準答案;RLHF = 接受社會毒打與回饋。
- 語言知識 vs. 世界知識:語言知識(文法)相對容易封頂(約 1 億至 10 億詞彙量),但世界知識近乎無限,300 億詞彙量仍無法學完。
- 巨量訓練資料:Llama 3 與 D6 V3 皆使用了 15T (Trillion) Tokens 進行預訓練。若印成 A4 紙疊起來高達 1500 公里(是聖母峰的數十倍高)。
- 網路資料枯竭危機:根據 2022 年研究,人類可能在 2028 年前後耗盡網路上所有可用於訓練的高品質文字資料。
- 壓縮而非死背:LLM 記憶文本如同「解壓縮」會有失真,例如背誦《孔乙己》或《射鵰英雄傳》時,模型是憑藉文字接龍的機率重組故事,而非精準默寫。
- Chinchilla Scaling Law:在算力有限的情況下,模型大小與資料量必須達到神秘的平衡,大模型配少資料(思而不學)或小模型配大資料(學而不思)都不是最佳解。
- 資料清理極致化:DataComp 研究顯示,從 CommonCrawl 爬取的 240T 原始資料,經過規則、去重與模型過濾後,僅保留 1.4% 的高品質資料。
- 換句話說的威力:使用 LLM 將網路資料「換句話說(Rephrasing)」後再進行訓練,只需原本 1/3 的資料量就能達到相同的成效。
- Base Model 的潛力:純預訓練模型其實比想像中聰明,只要使用特殊取樣(Sampling)方式,Base Model 甚至能打敗經過 SFT 與 RLHF 的模型。
- SFT 無法灌輸新知識:SFT 階段主要是改變輸出的「風格」,而非教導新知識。實驗證明,對模型輸入完全未知的知識(Unknown),反而會讓表現暴跌。
- 多視角預訓練的重要性:《Physics of Language Model》研究指出,同一知識必須在預訓練時有「多種版本的描述」(例如高松燈同時被連結到天文部與 MyGo),SFT 時模型才能舉一反三。
- SFT 資料重質不重量 (Quality is all you need):InstructGPT 僅用 1 萬筆資料,LIMA 模型甚至僅用 1000 筆精挑細選的對話,就能與 GPT-4 匹敵。
- SFT 改變的 Token 極少:對齊(Alignment)前後,模型輸出的機率分佈變化極小,最主要被改變機率的通常是「結束符號(Stop Token)」與連接詞。
- 預訓練遺跡 (Embers of Autoregression):模型在解碼 ROT 密碼時,往往只有 ROT13 表現最好,因為這是預訓練資料庫(如 Wikipedia)中最常出現的範例。
- 知識蒸餾 (Knowledge Distillation):利用強大模型(如 GPT-4, Gemini)當作老師來生成 SFT 答案,能以極低成本(<50美金)訓練出強大模型。
- 無提示微調與巧徑:甚至不需要完整的問題,僅提供「後半段文字」或單純拔高「結束符號」的機率,就能激發出模型跟隨指令(Instruction Following)的能力。
- RLHF 解決了 SFT 的盲點:SFT 是逐字(Token-by-token)算 Loss,容易導致「雖然整體意思全錯,但因答對多數 Token 而 Loss 較低」的窘境;RLHF 則是對「整體回答」進行評分。
- RLHF 的因材施教:SFT 中老師給的最佳解,模型可能學不會;RLHF 是由模型先自己產出答案,人類再給予回饋,更針對模型自身的痛點優化。
- RLAIF (AI 替代人類回饋):因為「評分比生成容易」,現在常使用 Reward Model(甚至模型自己評分自己)來取代人類提供回饋,實現自我進化。
核心章節
一、 語言模型學習的三階段架構與本質
大型語言模型的核心運作機制,從頭到尾都是在進行文字接龍(Autoregression)。從機器學習的三個步驟來看,三階段改變的僅是「步驟一:訓練資料的來源與 Loss 的定義」,而在架構(如 Transformer)與優化器(Optimizer)上具備高度連貫性。
階段 名稱 學習模式 資料來源 隱喻 目標 第一階段 Pre-training (預訓練) Self-Supervised Learning 海量網路原始資料 學齡前兒童(純吸收) 熟悉人類語言與世界知識 第二階段 SFT (監督式微調) Supervised Learning 人類精心標註的問答 學校教育(標準答案) 學習人類期待的應對進退風格 第三階段 RLHF (人類回饋強化學習) Reinforcement Learning 模型自產答案 + 人類評分 社會洗禮(價值觀回饋) 整體回答符合人類價值觀 (對齊)
二、 第一階段:Pre-training (預訓練) - 樸玉的成型
預訓練的目標是讓模型學會語言規則與世界知識。在這個階段,資料的「量」與「質」同樣重要。
1. 資料規模的震撼與限制
目前的頂級模型(如 Llama 3)需要消耗高達 15T Tokens。然而,算力與資料量之間存在限制。根據 Chinchilla Scaling Law,算力固定的情況下,模型參數量與資料量必須依循特定的最佳比例(微笑曲線),盲目追求單一指標會導致「思而不學則殆」或「學而不思則罔」。
2. 資料清洗的必要性
低品質資料(如論壇的微波爐亂碼 Microwave GAN)會直接破壞模型的訓練穩定度。實務上,從 CommonCrawl 取得的 240T 資料,需經過規則過濾、去重複(Deduplication)與模型過濾(Model-based filtering),最終可能僅保留 1.4%。高質量的資料能讓模型在較少算力下達到更好的表現。
3. 「壓縮」知識而非死背
Pre-training 不是讓模型把文章刻在硬碟裡,而是將知識轉化為文字接龍的機率。因此,要求 LLM 默寫原文(如《孔乙己》)時,它會給出「看起來合理但細節錯誤」的文本,這就是解壓縮過程中的失真。
三、 第二階段:SFT (監督式微調) - 畫龍點睛的喚醒
SFT 的本質是激發模型在預訓練時已具備的能力,而非灌輸新知識。
1. 喚醒知識的前提:多視角的預訓練
如果模型在預訓練時只看過一次「千早愛音是 MyGo 吉他手」,SFT 階段即使學會了這套模板,也無法舉一反三回答「誰是 MyGo 主唱」。模型必須在預訓練階段從多種不同維度(不同網頁、不同句型)看過同一實體,SFT 才能成功將這些節點連結起來。
2. Quality is All You Need (重質不重量)
SFT 不需要海量資料:
- InstructGPT 僅用了約 1 萬筆資料。
- LIMA 證明,僅靠 1000 筆人工撰寫的極高質量對話,就能在多數情況下與 GPT-4 匹敵。
- 奇特現象:甚至從 Alpaca 資料集中單純挑出「最長的 1000 筆」,效果就能輾壓使用全部 5.2 萬筆資料的模型。這顯示模型真正缺的只是「如何作答的範本」。
3. 知識蒸餾與極限操作
利用強模型(如 ChatGPT)當作老師生成 SFT 資料(Knowledge Distillation)已成常態。更有趣的是,研究發現就算拔除「問題(Instruction)」,單純做 Response Tuning(只餵答案),或者直接透過規則硬性調高「結束符號(Stop Token)」的生成機率,都能大幅激發 Base Model 回答問題的能力,證明 SFT 只是改變了輸出的「機率分佈」與「風格」。
四、 第三階段:RLHF (人類回饋強化學習) - 社會化的價值對齊
當模型進入 RLHF,它面對的不再是標準答案,而是二元評價(讚 / 倒讚)。
1. 為什麼需要 RL?SFT 的致命缺陷
SFT 是基於 Token 計算 Cross-Entropy Loss。假設正確答案是「我不可以教你做壞事」:
- 模型 A 答:「我很可以教你做壞事」(僅錯一字)。
- 模型 B 答:「不行,這違反道德」(全錯)。 在 SFT 的機制下,模型 A 的 Loss 遠低於模型 B,因此會傾向生成錯誤價值觀的答案。而 RLHF 評估的是整段回答的最終價值(Reward),完美解決了「局部正確但整體崩壞」的問題。
2. 因材施教的優化
SFT 提供的是「老師的最佳解」,但模型可能根本學不會這種高階解法。RLHF 是讓模型先用自己的邏輯生成答案,人類再給予回饋。這等同於針對模型當下的弱點與習慣進行「因材施教」。
3. Policy Gradient 與 RLAIF
在沒有標準答案無法直接計算 Gradient 的情況下,RL 使用 Policy Gradient 精神:若人類給「讚」,就把該輸出機率拉近;若給「倒讚」,就將該輸出的 Cross-Entropy 拉遠(Maximize)。 因為人類標註成本太高,目前大量採用 RLAIF (AI 反饋),利用微調過的 Reward Model(甚至是模型自己評分自己)來自動化此過程,因為在 AI 領域「評判對錯的難度,遠低於生成正確解答的難度」。
延伸思考與關聯筆記建議
- Chinchilla Scaling Law 與算力分配策略
- 關聯提示:可進一步探討在硬體資源受限的企業內部,應如何權衡模型參數量(Parameters)與訓練資料量(Tokens)的比例,以達到最佳 ROI。
- 大模型對齊問題 (Alignment Problem) 與 AI 安全
- 關聯提示:連結 RLHF 如何塑造 AI 的價值觀,並探討 Reward Hacking(模型為了討好人類回饋機制而產生幻覺或欺騙行為)的潛在風險。
- 知識蒸餾 (Knowledge Distillation) 於開源模型的應用
- 關聯提示:研究如 Alpaca, Vicuna 等開源模型如何利用巨頭模型(GPT-4)的輸出作為 SFT 資料,以及這種「合成資料 (Synthetic Data)」長期訓練是否會導致模型退化 (Model Collapse)。
📋 來源聲明:本教材為非營利教育用途的高度轉化作品。原始出處標註於家長版中。