5. AI如何學習 | SparkSoul

⏱️ 30 秒版（先看這裡！）

一、機器學習就是讓電腦從一堆資料裡，自己找出規律的技術。二、教電腦學會要三步：打分數（Loss）→ 給公式 → 玩冷熱遊戲找答案（梯度下降）。三、電腦會「死背」練習題（過度擬合），所以要用它沒看過的題目才測得準。

🕐 電腦能猜出老師什麼時候下課嗎？

你有沒有坐在教室一直看時鐘，心裡 OS：「老師到底什麼時候下課啦！」

這個問題其實能用機器學習解答！老師把投影片丟給電腦，電腦看一看就說：「這堂課會上 107 分鐘。」不是魔法，是讓電腦從一堆過去的資料裡，自己學會找答案。

💡 小朋友想想看： 如果是你，你會看投影片的什麼地方來猜這堂課上多久？

老師想到的線索是：📄 幾頁？🔤 多少字？🏷️ 標題多長？🔑 有沒有某個關鍵字？這些線索在機器學習裡叫特徵（Feature），就像每隻寶可夢都有「屬性、攻擊力、防禦力」一樣。

① 教電腦學會，要做三件事

第一步：告訴電腦什麼叫「猜得準」。 老師真的上了 100 分鐘、電腦猜 90 分鐘，差了 10 分鐘——這個「差多少」叫損失（Loss）。Loss 越小代表猜得越準，像打靶越靠近紅心分數越高🎯。

第二步：給電腦一個「公式框架」。 先假設「頁數越多、上課越久」，於是用公式：上課時間 = 頁數 × 某個數字 + 另一個數字。這兩個數字電腦還不知道，要自己找出來。

第三步：玩「冷熱遊戲」找答案。 你玩過冷熱遊戲嗎？靠近說「熱」、遠了說「冷」。電腦找答案的方法超像，叫梯度下降：想像它站在山上，要走到山谷最低處（Loss 最小），往左更低就往左、往右更低就往右，一步步走到谷底🏔️。

💡 小朋友想想看： 如果電腦每步跨太大會怎樣？跨太小又會怎樣？（跨太大會一步跨過山谷、跳來跳去回不來；跨太小要走到天荒地老😴。這個步伐大小叫「學習率」。）

② 一條直線不夠用？深度學習登場！

「頁數 × 數字 + 數字」畫出來是一條直線。但真實世界哪這麼簡單——有時前 10 頁很快、後面突然變慢，亂七八糟的曲線一條直線畫不出來。

聰明的科學家想到：任何彎彎曲曲的線，都能用很多個「小山坡」疊出來！ 就像用樂高一塊一塊疊，再複雜的城堡都蓋得出來🧱。每個小山坡就是一個神經元，很多神經元排成一層、一層層疊起來——這就是深度學習（深深深的學習，聽起來就很厲害😎）。

③ 但是！電腦也會「作弊」

有個超好笑的故事：老師用 2021 年的資料訓練電腦，拿去預測 2025 年的課卻錯得離譜。為什麼？因為 2025 年上的是「導論課」（給新生的入門課），講得慢、投影片多——就像用小學考卷練習卻拿去考國中段考，當然不準📚。這叫領域不匹配。

還有一種叫過度擬合：駕訓班教練在後照鏡貼貼紙說「對準電線桿就轉方向盤」，結果上路沒貼紙就不會開了😂。電腦也會把練習題「死背」起來，一遇到新題目就完蛋。所以一定要用它沒看過的題目來測試，才知道它是真的會、還是在死背。

解法是找到好線索：老師發現光看「頁數」不夠，加上「平均每頁幾個字」（代表投影片的「濃度」），電腦預測就超準了🎉。

🏠 生活裡的例子

奇蹟時刻：那天的課有 84 頁投影片、3388 個字，電腦預測 107 分鐘，結果下課時——一分一秒都沒差、完全命中🎯！下次上課盯著時鐘，你也可以偷偷數投影片有幾頁，來預測老師什麼時候下課😆。

🎒 今天學到了什麼？

🤖 機器學習＝讓電腦從資料中自己找出規律。
🎯 學習三步：打分數（Loss）→ 給公式 → 冷熱遊戲（梯度下降）找最佳答案。
🏔️ 深度學習＝用很多小山坡（神經元）疊出複雜形狀，解更難的問題。
😵 電腦會死背練習題（過度擬合），要用沒看過的題目才測得準。
🔑 給電腦好的線索（特徵），比讓它亂猜重要一百倍。

Q: 機器學習裡的「損失（Loss）」是什麼？
- AI 賠了多少錢
- *電腦的預測和真正答案「差多少」，Loss 越小代表越準
- 資料不見了
解釋: Loss 是評估函式好壞的標準，訓練目標就是把它降到最低。
Q: 「梯度下降」最像下面哪個遊戲？
- 大風吹
- *冷熱遊戲：往更低（更準）的方向一步步走到谷底
- 鬼抓人
解釋: 沿著讓 Loss 下降的方向更新參數，步伐大小叫「學習率」。
Q: 「過度擬合」是指？
- AI 太努力
- *電腦把練習題死背起來，一遇到沒看過的新題目就失效
- 電腦記憶體滿了
解釋: 像駕訓班只會對貼紙轉方向盤，所以要用沒看過的資料驗證。

【生成式人工智慧與機器學習導論 2025】第 5 講：機器學習與深度學習的基本原理（案例：預測下課時間）

📖 家長導讀

本講改編自李宏毅教授《生成式人工智慧與機器學習導論 2025》第五講，用「預測老師上課時長」這個迴歸任務，把「找出未知函式 $F (x)$ 」拆成「3+1」個標準步驟：定義損失（Loss）、確立模型（Model）、最佳化（Optimization），再加關鍵的驗證（Validation）。孩子版用「打分數→公式→冷熱遊戲→小山坡疊疊樂→死背」的比喻；本版補齊術語與訓練實務。

🔍 完整概念

一、任務與特徵。 生成式 AI 的核心是找「輸入未完成句子、輸出下一個 token」的函式；而「用資料找函式」統稱機器學習。本例輸入投影片、輸出上課時長（連續數值→迴歸）。函式讀不了實體投影片，需轉成特徵：頁數、總字數、標題長度、是否含關鍵字（0/1）。

二、三個核心步驟。（1）定義損失：以訓練資料（過去投影片＋真實時長）計算預測與真值差距，常用均方誤差（MSE），越小越好。（2）確立模型：把領域知識化為數學式，如線性迴歸 $y = w_{1} x_{1} + b$ ，其中權重 $w$ 、偏差 $b$ 為待定參數，不同組合構成搜尋範圍。（3）最佳化：找使 Loss 最低的參數。暴力窮舉（Grid Search）在參數多時不可行，改用梯度下降——隨機起點→算 Loss 對參數的梯度→逆梯度方向更新 $w_{n e w} = w_{o l d} - η \cdot Gradient$ 。學習率 $η$ 太大會發散（Loss 變 NaN）、太小則極慢。實務以**批次（Batch）**分塊計算：Full Batch 穩但慢、SGD（batch=1）快但震盪、Mini-Batch 折衷最常用；看完所有 batch 一次為一個 Epoch，每 Epoch 重新 Shuffle。

三、走向深度學習。 線性模型（直線）範圍太窄，無法描述複雜現象。分段線性曲線可逼近任意曲線；一個「山坡函式」即 ReLU（ $max (0, w x + b)$ ），常數加上多個 ReLU 疊加即可組出複雜曲線。把「乘權重、加偏差、過 ReLU」的單元稱神經元，一排神經元為一層，多層串聯即深度學習（神經元夠多理論上可逼近任何函式）。**反向傳播（Backpropagation）**是高效計算龐大網路梯度的演算法（本質仍是梯度下降）。

四、第「+1」步：驗證與過度擬合。 找到 Loss 最低的函式不能直接上線，須以模型沒看過的驗證集檢測。領域不匹配：用 2021 資料預測 2025 導論課，Loss 暴增（導論課需更多投影片講清概念，分佈不同），改用 2024 同質導論課後改善。最佳化失敗：換神經網路後初期 Training Loss 反而更高，可能卡在局部最小值或鞍點。過度擬合：高複雜度模型會「死背」訓練資料（Training Loss 極低但 Validation Loss 暴增）。對策：特徵工程（加「平均每頁字數」代表內容濃度，Loss 顯著下降；加「總字數」則因與頁數高度相關而無效）、提早停止（Validation Loss 先降後升，在最低點停）、Public/Private Set（避免反覆調參 overfit 到驗證集）。最終以 Adam 優化器等調參，實測 84 頁、3388 字的課預測 107 分鐘、與實際分秒不差。

✅ 查核筆記（附實證依據）

課程來源：屬實，李宏毅《生成式人工智慧與機器學習導論 2025》第五講。
迴歸／MSE／梯度下降／學習率：屬實，機器學習教科書標準內容（如 Bishop、周志華）。
ReLU 與通用逼近：屬實，ReLU（Nair & Hinton 2010）；通用逼近定理（Cybenko 1989、Hornik 1991）保證足夠寬的網路可逼近任意連續函數。
反向傳播：屬實，Rumelhart, Hinton & Williams（1986）。
過度擬合／驗證集／Early Stopping／Public-Private split：屬實，均為標準防過擬合與競賽（如 Kaggle）機制。
Adam 優化器：屬實，Kingma & Ba（2015）。
鞍點在高維更普遍：屬實，Dauphin et al.（2014）指出高維非凸最佳化中鞍點比局部極小更常見。

📚 原始出處

【生成式人工智慧與機器學習導論 2025】第 5 講（YouTube）｜李宏毅，國立臺灣大學

🧭 接下來讀這篇

👉 下一關：教導 AI 的訣竅

📐 背後的數學：微積分的祕密　AI「學習」時偷偷用的工具。

📋 AI 共學與免責聲明

本教材為 SparkSoul 智慧實驗室家庭共學的實驗紀錄，由 AI 協作萃取整理自公開課程或文獻，家長一起參與閱讀。我們不保證學術上的絕對無誤，鼓勵讀者點擊原始連結進行深度探索；若發現錯誤，歡迎透過 Facebook 粉專告訴我們。涉及醫療、投資或法律等專業判斷，請另行諮詢專業人士。

原始來源

📺 點此觀看原始來源

✨ SparkSoul 自學基地

探索

🕐 電腦能猜出老師什麼時候下課嗎？

① 教電腦學會，要做三件事

② 一條直線不夠用？深度學習登場！

③ 但是！電腦也會「作弊」

🏠 生活裡的例子

🎒 今天學到了什麼？

【生成式人工智慧與機器學習導論 2025】第 5 講：機器學習與深度學習的基本原理（案例：預測下課時間）

📖 家長導讀

🔍 完整概念

✅ 查核筆記（附實證依據）

📚 原始出處