6. 教導AI的訣竅

⏱️ 30 秒版（先看這裡！）

一、AI 訓練失敗分兩種病：「怎麼教都學不會」和「只會背答案」——要對症下藥！二、好裝備讓 AI 走得快又準（像 Adam 這個全能探險家）；還能綁沙包練功（Dropout）。三、看圖片有特別招 CNN，資料不夠還能自己變魔術多做出練習題。

🎮 訓練 AI 像玩闖關遊戲

你玩過闖關遊戲嗎？主角要過關斬將才能救公主。訓練 AI 超像這樣——只是主角是一個叫「類神經網路」的電腦大腦，我們要教它變聰明，但路上關卡超多，一不小心就卡關。

想像 Siri 一直聽錯你說的話、相機把狗認成貓，是不是很阿雜？今天就來學怎麼把 AI 訓練得又強又聰明。

① AI 會生兩種病，要對症下藥

訓練失敗通常有兩種狀況，用錯藥會更慘：

病一：怎麼教都學不會（最佳化問題）——像教小狗握手，牠一直趴著不動，得想辦法「讓牠聽懂指令」。
病二：背書很厲害、考試就崩潰（泛化問題）——把課本背得滾瓜爛熟，老師換個方式問就答不出來，這是「死讀書 AI」。

🤔 小朋友想想看： 為什麼「只會背答案」不是真的聰明？真正的聰明應該是什麼樣子？

先看懂 AI 生的是哪種病，才知道要吃哪種藥——這是這一課最重要的框架。

② 讓 AI 走得快又準的好裝備

AI 學習就像蒙眼在山谷找最低點，每步要跨多大叫「學習率」。科學家設計了各種「探險家」（優化器）：

Adagrad（老派）：走過的路都記下來，走越多的方向跨越小步；但它什麼都記、反應變慢。
RMSprop（健忘）：只記最近的事，比較能隨機應變。
Momentum（慣性）：像溜滑梯有衝勁，遇到小土堆靠衝力衝過去。
Adam（全能）：把上面兩個優點合起來，現在最多人用！

還有兩個像體育課的訣竅：暖身（Warm up）——剛開始學習率小小的慢慢來；減速（Decay）——快到終點時慢下來，免得衝過頭撞牆。

另外兩招很妙：Dropout（綁沙包練輕功）——訓練時故意關掉一些腦細胞，逼 AI 在缺東缺西下也學會，考試時全開就超強（專治「只會背」）。Pre-train（先學基本功）——像學作文前先會注音認字，讓 AI 先做基本練習再學難的，兩種病都能治！

🤔 小朋友想想看： 你學東西時，有沒有「打好基礎再進階」的經驗？

③ 專門的聰明招式

🖼️ 看圖片用 CNN。 一張 1000×1000 彩照用普通方法要記 300 萬個數字，跟背整座圖書館一樣。CNN 用兩個聰明偷懶法：小偵探只盯一小塊（不用看整張）、左上角找「鳥嘴」的偵探跟右下角的可以是同一個人（重複利用）。要記的東西少超多，也不會變死讀書 AI。

🛣️ 蓋捷徑高速公路（Skip Connection）。 很多層的 AI，訊息傳到最後常「不見了」，像傳話遊戲傳到最後變亂碼。蓋一條高速公路讓訊息直接飛過去，訓練就超順。

🎨 資料不夠自己變（Data Augmentation）。 只有 10 張貓照片？左右翻一下、模糊一點、兩張混在一起，都變成新照片！但要聰明用——如果題目是「判斷鳥頭朝哪邊」，左右翻答案就變了！

🤔 小朋友想想看： 要教 AI 認「左手」跟「右手」，可以把照片左右翻嗎？為什麼？

🏠 生活裡的例子

下次你用手機拍照自動分類相簿、或跟 Siri 聊天，背後就有這些訓練訣竅在幫忙。而它們最核心的智慧其實只有一句話：先搞清楚問題是「學不會」還是「只會背」，再選對的方法——這在你自己讀書時也一樣好用！

🎒 今天學到了什麼？

AI 生病分兩種：「學不會」（最佳化）與「只會背」（泛化），要對症下藥。
好裝備走得快又準：優化器（Adam 最常用）＋暖身/減速學習率。
綁沙包練功：Dropout 故意讓訓練變難，AI 反而更強、考試不緊張。
看圖用 CNN：靠「小範圍偵查」和「重複利用」省超多力氣。
資料不夠自己變：翻一翻、模糊化就能多做練習題，但魔術要用得合邏輯。

Q: 訓練 AI 時，最先要判斷的是？
- AI 幾歲了
- *它生的是「學不會」（最佳化）還是「只會背」（泛化）的病，才好對症下藥
- 用哪一台電腦
解釋: 用錯方法（如最佳化出問題卻狂加資料）只會更糟。
Q: 「Dropout（綁沙包）」是為了解決哪種問題？
- 讓 AI 學得更快
- *泛化：故意關掉部分神經元增加難度，讓 AI 別只會死背
- 節省電費
解釋: Dropout 會讓 Training Loss 變高，但能拉近與驗證表現的差距。
Q: CNN 為什麼很適合看圖片？
- 它把整張圖一次背起來
- *靠「只看小範圍」和「重複利用同一個偵探」，大幅減少要記的參數
- 它會放大照片
解釋: 感受野＋參數共享縮小了函式範圍，提升泛化又省算力。

【生成式人工智慧與機器學習導論 2025】第 6 講：訓練類神經網路的各種訣竅

📖 家長導讀

本講改編自李宏毅教授《生成式人工智慧與機器學習導論 2025》第六講。核心不是背 20 種技巧，而是建立一個判斷框架：任何訓練技巧都要問「它改變了機器學習三步驟（定義損失／決定函式範圍／尋找最佳函式）的哪一步」，以及「它解決的是最佳化（Optimization，降低 Training Loss）還是泛化（Generalization，縮小 Training 與 Validation 的差距）」。用錯藥（最佳化出問題卻猛加資料或 Dropout）只會更糟。孩子版用「兩種病、探險家裝備、綁沙包、CNN、變魔術」呈現；本版補齊技術與歸類。

🔍 完整概念

一、判斷框架。 先分辨病灶：Training Loss 降不下＝最佳化問題（用優化器、學習率排程、初始化、Skip Connection、正規化、Cross-Entropy）；Training 好但 Validation 差＝泛化／過擬合問題（用 CNN、Dropout、Data Augmentation、半監督、L2/Weight Decay）；Pre-train 則兩者兼顧。

二、最佳化相關（步驟三為主）。 Vanilla 梯度下降所有參數共用學習率，難以適應不同維度的地勢。Adagrad：以歷史梯度平方和開根號調整，實現各維度「因材施教」，但分母只增不減、反應遲鈍。RMSprop：改用衰減係數只看近期梯度，能即時適應。Momentum：模擬物理動量，即使當下梯度為 0 也能靠慣性翻過鞍點／局部極小。Adam＝RMSprop（控步幅）＋Momentum（控方向），為當今預設。學習率排程：Warm up（初期漸增以蒐集動量與方差估計）、Decay（後期漸減以平穩著陸）。初始化（如 Kaiming Init 依輸入維度調整尺度）決定起點與終點。Dropout：訓練隨機丟棄神經元、測試全開，純為泛化（會抬高 Training Loss、拉近驗證差距）。Pre-train／自監督：先做藉口任務（如預測圖片旋轉角度、BERT 的克漏字），提供極佳初始點，是少數同時改善最佳化與泛化的大絕招。

三、架構相關（步驟二）。 全連接層處理影像參數爆炸（1000×1000 彩圖單神經元需 300 萬參數）。CNN 以領域知識縮小函式範圍：感受野（只看局部小範圍）＋參數共享（不同位置偵測同特徵共用一組 Filter），大減參數、提升泛化。Skip/Residual Connection：把輸入直接與輸出相加（ $a^{'} = w a + a$ ），緩解深層網路的梯度消失／爆炸，使 Loss Surface 變平坦、強化最佳化（ResNet 的核心）。Normalization（BatchNorm／LayerNorm）：強制各層輸出到相近範圍（如均值 0、方差 1），降低調學習率難度。

四、損失與資料（步驟一）。 分類任務看重的準確率不可微（未跨類別門檻時梯度為 0），故以 Softmax 轉機率、算與正解的**交叉熵（Cross-Entropy）**來訓練，純為最佳化（也因此製造了訓練看 CE、驗證看 Accuracy 的落差）。Data Augmentation：翻轉、模糊、Mixup（像素與標籤按比例混合）憑空增資料以強化泛化，但須合邏輯（判斷鳥頭方向不能左右翻、語者辨識不能改性別）。半監督學習：用未標記資料（要求輸出分佈更尖銳／相近特徵輸出相近）提升泛化。L2 正規化／Weight Decay：本著奧卡姆剃刀，偏好參數接近 0 的簡單函式；AdamW 將 Weight Decay 正確地與 Adam 結合。

✅ 查核筆記（附實證依據）

課程來源：屬實，李宏毅《生成式人工智慧與機器學習導論 2025》第六講。
Adam＝RMSprop＋Momentum：屬實，Kingma & Ba（2015）。
Dropout：屬實，Srivastava et al.（2014）為泛化技術。
Kaiming 初始化：屬實，He et al.（2015）。
ResNet／Skip Connection 緩解梯度消失：屬實，He et al.（2015）ResNet；殘差連結亦為 Transformer 標配。
Mixup：屬實，Zhang et al.（2017）。
Cross-Entropy 優於 MSE 於分類：屬實，與資訊理論／KL 散度一致，訓練較穩定。
Weight Decay 與 L2「等價」：需補正——僅在 vanilla SGD 下等價；在 Adam 中兩者並不等價，正是 AdamW（Loshchilov & Hutter, 2017）解耦 weight decay 的動機。原講「數學上等價」宜限定於 SGD 情境。

📚 原始出處

【生成式人工智慧與機器學習導論 2025】第 6 講（YouTube）｜李宏毅，國立臺灣大學

🧭 接下來讀這篇

👉 下一關：大型 AI 的學習歷程

🔙 回顧：AI 如何學習

📋 AI 共學與免責聲明

本教材為 SparkSoul 智慧實驗室家庭共學的實驗紀錄，由 AI 協作萃取整理自公開課程或文獻，家長一起參與閱讀。我們不保證學術上的絕對無誤，鼓勵讀者點擊原始連結進行深度探索；若發現錯誤，歡迎透過 Facebook 粉專告訴我們。涉及醫療、投資或法律等專業判斷，請另行諮詢專業人士。

原始來源

📺 點此觀看原始來源

✨ SparkSoul 自學基地

探索

🎮 訓練 AI 像玩闖關遊戲

① AI 會生兩種病，要對症下藥

② 讓 AI 走得快又準的好裝備

③ 專門的聰明招式

🏠 生活裡的例子

🎒 今天學到了什麼？

【生成式人工智慧與機器學習導論 2025】第 6 講：訓練類神經網路的各種訣竅

📖 家長導讀

🔍 完整概念

✅ 查核筆記（附實證依據）

📚 原始出處