🧒 十歲小孩版

🔗 原始文章:【生成式人工智慧與機器學習導論2025】第_7_講:大型語言模型的學習歷程 | 台大李宏毅教授

你知道嗎?現在超紅的 ChatGPT、Gemini 這些會聊天的 AI,它們其實跟我們一樣,也是「慢慢長大」的喔!

它們從「小 baby」變成「超聰明大人」,要經過三個階段,就跟你從小到大的成長過程一模一樣!今天就讓我們來偷看一下,AI 是怎麼「長大」的吧!


🍼 第一階段:AI 的幼兒園時期——大量吸收世界

想像一下你還在念幼兒園的時候,每天就是到處亂看、亂聽、亂玩——看卡通、聽爸媽聊天、翻繪本,什麼都塞進腦袋裡。這個階段叫做 「預訓練」(Pre-training)

AI 在這個階段也一樣,它會把整個網路的文章、書籍、維基百科全部讀一遍!

那到底讀多少呢?準備好被嚇到喔 👇

最新的 AI 模型讀了 15 兆個字!如果把這些文字全部印在 A4 紙上疊起來,會有 1500 公里高——比玉山高好幾十倍

🤔 小朋友想想看: 如果你每天讀一本 200 頁的書,要讀幾年才能讀完 AI 讀過的量呢?(提示:答案是幾百萬年 😱)

AI 不是「背」起來,而是「壓縮」起來

這裡有個超酷的觀念!AI 並不是把文章一字不漏背下來,而是像用「懶人包」的方式記重點。

就像你媽媽把冬天的厚棉被壓進真空袋裡,體積變超小,但打開來棉被還是棉被。AI 也是這樣「壓縮」知識的。

但因為是壓縮過的,所以當你要 AI 背出整篇《國語課本》的課文時,它會背得差不多對但細節怪怪的——就像你想起三年前去過的餐廳,大概記得味道,但菜名可能記錯一樣!

垃圾進,垃圾出!

網路上不是什麼東西都可以拿來學的對吧?像是亂碼、廣告、奇怪的留言……

所以工程師會幫 AI 過濾資料。原本抓了 240 兆的資料,最後竟然只留下 1.4% 真正乾淨的內容!就像你媽媽去傳統市場買菜,挑了半天,最後只買回一小袋最新鮮的 🥬。


🎒 第二階段:AI 上學了!——學習怎麼好好說話

光是知道很多東西還不夠,你幼兒園時懂得再多,也不會好好回答老師問題對吧?所以要上學

這個階段叫做 SFT(監督式微調),就是「老師給標準答案,AI 跟著學」。

驚人的發現:AI 上學不用讀太多書!

你一定覺得,教 AI 一定要給它超多題目對吧?錯囉!

有個研究叫 LIMA,老師只給 AI 1000 個超棒的問答範例,AI 就學得跟那些讀了好幾萬題的 AI 一樣強!

這就像你數學考試前,與其寫 100 題亂七八糟的題目,不如認真寫 10 題最經典的題目,效果反而更好!

🤔 小朋友想想看: 為什麼「題目少但品質好」反而比「題目超多但亂七八糟」更有用呢?

上學不是學新東西,是「喚醒」舊東西!

這個概念超有趣!AI 上學不是學新知識,而是把它幼兒園時期看過的東西「連起來」。

舉例來說,如果 AI 在幼兒園只看過一次「千早愛音是 MyGo 的吉他手」,上學時你問它「MyGo 的主唱是誰?」,它會答不出來。

但如果 AI 在幼兒園從超多不同的網頁看過 MyGo 樂團的介紹,上學時老師稍微一點,它就能舉一反三!

就像你如果只從一個角度看過大象,可能不認得從後面看的大象;但如果你從前後左右都看過,下次就認得出來啦 🐘!


🌏 第三階段:AI 出社會了!——被人類「按讚」或「倒讚」

AI 從學校畢業後,要進入最可怕的階段——社會大學!這叫做 RLHF(人類回饋強化學習)

這時候沒有標準答案了,只有人類對它說:「👍 這個答案讚!」或「👎 這個答案爛透了!」

為什麼一定要這個階段?

我舉個超好笑的例子你就懂了!

假設正確答案是:「我不可以教你做壞事」

  • AI 甲回答:「我可以教你做壞事」 ← 只錯一個字!
  • AI 乙回答:「不行啦,這違反道德!」 ← 每個字都不一樣!

如果是在學校階段(SFT),老師是一個字一個字比對的,所以會覺得 AI 甲比較棒(因為只錯一個字)。但你看看,AI 甲的意思整個超級歪耶!🚨

所以要靠 RLHF,讓人類對整句話的意思打分數,AI 才會知道「喔!原來意思對才是真的對!」

🤔 小朋友想想看: 你覺得「改一個字就意思完全相反」的例子還有哪些呢?

AI 自己教自己!

因為請人類一直打分數超貴又很累,所以現在的作法是:讓 AI 當老師教 AI

這招叫做 RLAIF。因為在 AI 的世界裡有個超神奇的道理:

「要評分別人做得好不好,比自己做簡單很多!」

就像你要寫出一首好歌很難,但要判斷「這首歌好不好聽」就簡單多了對吧?🎵


🎯 今天學到了什麼?

  1. AI 長大分三階段:預訓練(幼兒園亂吸收)、SFT(上學學規矩)、RLHF(出社會被社會毒打 😂)。
  2. AI 讀的書多到嚇人:疊起來比好幾座玉山還高,但網路上的好資料快被它們讀完了!
  3. AI 記東西是用「壓縮」的:不是一字一句背,所以有時候細節會記錯。
  4. 上學階段重質不重量:1000 個好題目,比 50000 個爛題目還有用!
  5. RLHF 看的是整體:就像考作文,老師看的是整篇文章的意思,不是看你每個字寫得對不對。

下次你跟 ChatGPT 聊天的時候,就知道它背後經歷了多少「人生階段」才能跟你對話了吧!是不是覺得它突然變得有點可愛呢?😄


📺 原始影片觀看原始影片



📋 來源聲明:本教材為非營利教育用途的高度轉化作品。原始出處標註於家長版中。