3. 打開AI的腦袋

⏱️ 30 秒版（先看這裡！）

一、AI 其實看不懂字！它把每個字變成一串神祕數字（座標），意思相近的字座標會靠很近。二、這些數字會跑過一條很長的生產線，每一站都讓字更懂前後文，還會用「注意力」聚焦重要的字。三、科學家能偷看 AI 的腦袋，發現它可能是先用「英文」在思考事情的！

🔍 打開 AI 這隻怪獸的腦袋

你玩過「你說一句、我接一句」的接龍嗎？「今天天氣真——」你會接「好」或「熱」。

那你有沒有想過，ChatGPT 到底怎麼知道要接什麼字？它的腦袋裡裝了什麼？今天我們當小小科學家，把「大型語言模型」這隻 AI 怪獸的腦袋打開看看！

① AI 看不懂字，它看的是「數字座標」

AI 根本看不懂中文或英文，它怎麼辦？

第一步：把句子切成小塊（叫 Tokenization）。像吃吐司不會整條塞嘴巴，會切成一片片；AI 把「我愛吃蘋果」切成「我／愛／吃／蘋果」，每塊叫一個 Token。

第二步：查字典，把字變成一串神祕數字（叫 Embedding），像座標一樣。有趣的是，意思相近的字，座標也會靠很近——就像好朋友下課會坐一起：

小寫「apple」🍎 旁邊坐著「蘋果」、還有蘋果總部所在地「Cupertino」。
但大寫「Apple」💻 旁邊坐的卻是「MacBook」和「iPhone」！

🤔 小朋友想想看： 為什麼同樣是 apple，大寫跟小寫的「朋友」不一樣？

② AI 的生產線：一層層讀懂前後文

這些數字會跑進一條長長的生產線（像工廠），每個工作站叫一個 Layer，都在做同一件事：讓這個字更了解它旁邊的字。

例如「我吃了一個蘋果」🍎 和「我買了蘋果的手機」📱，一開始這兩個蘋果長得一模一樣，但越往生產線後面走，AI 越搞清楚「這兩個根本不是同一個東西」，它們就變得越來越不一樣。

生產線裡最重要的本領叫注意力（Attention）：像你在吵鬧的福利社聽朋友講話，耳朵會自動放大朋友的聲音、忽略吵鬧。AI 看到「小明很高，他能拿到最上面的書」，會特別「注意」高跟「拿到最上面」的關係。還有個小秘密——AI 只能看左邊的字、不能偷看右邊！因為它是一個字一個字生出來的，就像接龍時你不知道下一個人要接什麼。

跑完生產線，AI 會算出「誰最可能是下一個字」的排行榜（今天天氣真→好 40%、熱 30%、香蕉 0.001%）。這裡有個旋鈕叫溫度🌡️：溫度低❄️ AI 很保守只選最安全的；溫度高🔥 AI 很大膽、會冒出有創意的答案。

🤔 小朋友想想看： 寫作文想要有創意，你會把溫度調高還是調低？

③ 偷看 AI 的腦袋（最酷的部分！）

科學家好奇 AI「想事情」時腦袋長怎樣，發明了偷看的方法：

🔮 讀心術（Logit Lens）：叫 AI 把法文「fleur」翻成中文「花」，偷看發現——它居然是先想到英文「flower」，最後才翻成「花」！就像有些人算數學會先用國語默念，AI 好像是用「英文」在思考。
🎭 裝開關（表徵工程）：科學家能在 AI 腦袋裝「開關」。裝上「拒絕開關」，它連「教我寫功課」都拒絕；拆掉它，就會亂回答不該答的問題（有點危險⚠️）。還有人找到「馬屁開關」🤡，打開後不管你說什麼蠢話，AI 都瘋狂稱讚你「您真是天才！」

🤔 小朋友想想看： 如果有「馬屁開關」可以裝在朋友身上，你會裝嗎？這樣的稱讚是真心的嗎？

🏠 生活裡的例子

AI 怪獸也有大小之分：Meta 的 Llama 有約 32 億個「腦細胞」（參數）、認識 12 萬多個字；Google 的 Gemma 有 43 億個、認識 26 萬多個字。32 億個參數如果每個是一粒米，可以裝滿好幾個大浴缸🛁！但不管多大隻，它們腦袋裡做的都是這一課講的事——把字變座標、跑生產線、聚焦注意力、擲骰子選字。

🎒 今天學到了什麼？

AI 看不懂字，它看的是數字：字會變成一串座標，意思相近的座標靠很近。
AI 有一條很長的生產線：每一站（Layer）讓字更懂前後文，越到後面越聰明。
注意力會自動聚焦：AI 判斷哪些字重要，而且只能看左邊、不能偷看右邊。
溫度決定風格：調高有創意、調低很保守。
科學家能偷看 AI 的腦袋：發現它可能用「英文」在思考，還能裝「拒絕／馬屁」開關。

Q: AI 是怎麼「看」你打的字的？
- 直接看懂中文
- *先切成 Token，再把每個字變成一串數字座標（Embedding）
- 用照相機拍下來
解釋: 意思相近的字，向量座標會靠得很近，這是模型理解語意的基礎。
Q: 關於 AI 的「注意力」，下列何者正確？
- 它會平均看每個字
- *它會聚焦重要的字，而且只能看左邊、不能偷看右邊
- 它只看最後一個字
解釋: 因為是一個字一個字生成（自迴歸），只能參考前面已有的字。
Q: 「溫度（Temperature）」調高會怎樣？
- AI 會過熱當機
- *AI 更大膽、更容易講出有創意但罕見的字
- AI 變得更保守
解釋: 溫度越高機率分佈越平坦，容易骰到罕見詞；越低越保守集中。

【生成式人工智慧與機器學習導論 2025】第 3 講：解剖大型語言模型

📖 家長導讀

本講改編自李宏毅教授《生成式人工智慧與機器學習導論 2025》第三講，重點不在「怎麼訓練」，而在解剖一個「已訓練好」的模型：輸入提示後，這個龐大函式 $F (X)$ 內部從輸入到輸出的完整流水線，以及科學家如何「偷看與干預」模型內部。孩子版用「數字座標→生產線→注意力→偷看腦袋」的比喻；本版補齊 Transformer 機制、剖析技術與 Llama/Gemma 實作數據。

🔍 完整概念

一、從輸入到輸出的流水線。（1）標記化與嵌入：句子切成 Token→整數 ID→在巨大的 Embedding Table 查表得到向量；語意相近者向量相近（apple≈蘋果、Cupertino；大寫 Apple≈MacBook、iPhone）。（2）多層架構：向量逐層通過 Layers（即深度學習），每層輸入輸出等長，作用是「融入上下文」，把單一 Token 向量轉為上下文嵌入（中間層輸出稱隱藏表徵）。（3）LM Head 與 Softmax：最後一個位置的向量乘上 LM Head（部分模型與 Embedding Table 共用權重，weight tying），本質是與詞表每個 token 算內積相似度得到 Logit（無界），再經 Softmax 轉成機率；溫度 $T$ ：除以 $T$ 後 Softmax， $T$ 大則分佈平坦（創意）、 $T$ 小則集中（保守）。

二、Transformer 層內部。（1）自注意力（Self-Attention）：每個 Token 產生 Query（我要什麼）、Key（我有什麼）、Value；以 Q·K 內積得注意力權重，對各 Token 的 V 加權總和，再加殘差連接。多頭注意力用多組 Q/K/V 捕捉不同面向。因自迴歸限制採因果注意力（只能向左看）——實作驗證 how are you 與 how about you 的首字 how 表徵始終相同（左邊無字）；注意力頭無相關特徵時會退回關注句首 BOS token。（2）位置編碼：內積不感知順序，需加入位置資訊，現代多用 RoPE（旋轉位置編碼）以利外推到比訓練更長的輸入。（3）前饋網路（FFN/MLP）：兩層線性變換＋激活函數（ReLU/GeLU），即被擬人化為「神經元」；近年文獻視其為另一種 Key-Value 記憶。附：《Attention is All You Need》(2017) 的貢獻不在發明注意力，而在證明「純注意力即可平行化、不需 RNN/LSTM」。

三、剖析與干預技術。（1）降維投影：早期 BERT 中間層可投影出文法剖析樹（structural probe），近期 Llama 可投影出準確的世界地理地圖。（2）表徵工程（Representation Engineering）：對「拒絕類」與「正常類」提示各取某層表徵平均、相減提煉出「拒絕向量」；正常請求加上它會無故拒絕、惡意請求減去它會突破安全護欄；Anthropic 亦曾操控「諂媚向量」使模型盲目吹捧。（3）Logit Lens：把中間層表徵提前送進 LM Head 觀察——法文 fleur→中文「花」的過程中，中間層先穩定輸出英文 flower，末層才轉中文，顯示 LLM 可能以英文為思考中介語。（4）Patch Scope：用「請介紹 X」模板，將 X 的表徵替換成目標向量，可見模型由淺入深逐步組合概念（淺層只知 Wales、深層才給出黛安娜王妃生平）。

四、Llama 3B vs. Gemma 4B（實作對比）。 Llama 3B：約 32 億參數、詞表 128,256、Embedding 3072 維、28 層、24 個注意力頭、採 Grouped-Query Attention 省參數。Gemma 4B：約 43 億參數、詞表約 26 萬、2560 維、34 層、8 頭、含 Vision Tower 支援多模態。

✅ 查核筆記（附實證依據）

課程來源：屬實，李宏毅《生成式人工智慧與機器學習導論 2025》第三講。
Attention is All You Need（2017）的定位：屬實，Vaswani et al. 的貢獻在於去除遞迴、純注意力可平行化；注意力概念更早見於 Bahdanau et al.（2014）。
RoPE：屬實，Su et al.（2021）旋轉位置編碼，Llama 系列採用。
Logit Lens／LLM 以英文思考：屬實，Logit Lens 出自 nostalgebraist（2020）；Wendler et al.（2024, ACL）〈Do Llamas Work in English?〉支持「以英文為中介表徵」的觀察。
拒絕向量／表徵工程：屬實，Zou et al.（2023）Representation Engineering、Arditi et al.（2024）refusal 方向；Anthropic 以稀疏自編碼器做特徵操控（如 Golden Gate Claude）屬實。
Patch Scope：屬實，Ghandeharioun et al.（2024）。
Llama 3B / Gemma 規格：Llama 3.2 3B 詞表 128,256、28 層屬實；Gemma 詞表官方為 256,000（本講「262,144」略有出入，數量級一致）；weight tying 在 Gemma／小模型常見，Llama 大模型未必綁定，宜視模型而定。

📚 原始出處

【生成式人工智慧與機器學習導論 2025】第 3 講（YouTube）｜李宏毅，國立臺灣大學

🧭 接下來讀這篇

👉 下一關：AI 回答問題的陷阱

🧠 真正的大腦：大自然如何把「無限」塞進小空間？　人腦怎麼自己接好線。

📋 AI 共學與免責聲明

本教材為 SparkSoul 智慧實驗室家庭共學的實驗紀錄，由 AI 協作萃取整理自公開課程或文獻，家長一起參與閱讀。我們不保證學術上的絕對無誤，鼓勵讀者點擊原始連結進行深度探索；若發現錯誤，歡迎透過 Facebook 粉專告訴我們。涉及醫療、投資或法律等專業判斷，請另行諮詢專業人士。

原始來源

📺 點此觀看原始來源

✨ SparkSoul 自學基地

探索

🔍 打開 AI 這隻怪獸的腦袋

① AI 看不懂字，它看的是「數字座標」

② AI 的生產線：一層層讀懂前後文

③ 偷看 AI 的腦袋（最酷的部分！）

🏠 生活裡的例子

🎒 今天學到了什麼？

【生成式人工智慧與機器學習導論 2025】第 3 講：解剖大型語言模型

📖 家長導讀

🔍 完整概念

✅ 查核筆記（附實證依據）

📚 原始出處