1. AI怎麼回答問題

⏱️ 30 秒版（先看這裡！）

一、ChatGPT 這些 AI 在做的事，其實就是文字接龍——猜下一個字最可能是什麼。二、它靠擲骰子決定下一個字，所以同一個問題每次回答都有點不一樣。三、AI 其實看不到真實世界，它的答案「全都是猜的」——所以會唬爛，要小心查證！

🎲 AI 是在「擲骰子」玩文字接龍？！

你玩過「文字接龍」嗎？老師說「天空」，你要接「空氣」，下一個人接「氣球」。

你知道嗎？你每天看到的 ChatGPT、Gemini 這些超厲害的 AI，它們做的事，其實跟你玩的文字接龍一模一樣！ 🤯 不相信？繼續看下去，你會發現 AI 的秘密沒你想的那麼神奇。

① AI 不是「什麼都知道」，它只是很會「猜下一個字」

你問 ChatGPT：「台灣最高的山是哪一座？」你以為它像查字典翻到那一頁把「玉山」抄給你？錯！

它其實是在心裡默默想：

「『台灣最高的山是』後面最常接什麼字呢？『玉』的機率 80%、『雪』10%、『香蕉』0.0001%……」

然後它就擲骰子 🎲——骰子偏心，機率高的字比較容易被骰到，所以大多數時候你會得到「玉山」。

🤔 小朋友想想看： 為什麼同一個問題，AI 每次回答都有點不一樣？👉 因為它每次都在重新擲骰子呀！就像玩大富翁每次骰到的點數都不同！

② AI 要學兩種知識，還偷偷照著「劇本」演

就像你要考試得念書，AI 也要學兩種東西才會接龍：

語言知識（文法）：「黃色的」後面要接名詞（蘋果、小鴨），不能接動詞，不然變成「黃色的跑步」超奇怪。
世界知識（常識）：水在 100 度會滾；但在高山上氣壓低，不到 100 度就滾了。

它去哪學？三個地方：🌐 整個網路的文章、👨‍🏫 人類老師寫的標準答案、👍👎 大家按的讚跟爛。

那如果 AI 只會接龍，你問「台灣最高的山？」，它為什麼不是接「A.雪山 B.玉山」這種考卷選項？因為背後偷偷加了一個劇本！ 🎬 你只打了「台灣最高的山？」，AI 實際看到的是：

系統：你叫 LLaMA，今天是 2025 年 9 月 12 日。
使用者問：台灣最高的山是哪座？
AI 回答：

結尾寫著「AI 回答：」，AI 為了把劇本接完，就乖乖給你答案。這個偷偷加的劇本叫「聊天範本」。而且 AI 其實沒有記憶——你每傳一句，系統就把之前所有對話打包重念一次給它聽，它才「記得」。

③ AI 為什麼會「唬爛」？還有：萬物都能接龍！

你可能遇過 AI 給你一個壞掉的網址，或講一個不存在的人。這叫「AI 幻覺」。想像 AI 是被關在黑房間、從沒看過外面世界的人，只能靠猜來接龍。所以老師要告訴你一個驚人的事實：

💡 AI 所有的答案，其實都是「幻覺」！ 只是很多幻覺剛好跟真實世界一樣，我們才覺得它聰明。

為了讓它少亂講，工程師會讓它一邊上網查、一邊回答，這招叫 RAG，就像開書考試！

輝達老闆黃仁勳說過一句超酷的話：「萬事萬物都是 Token（積木）！」意思是只要能把東西切成一小塊一小塊，AI 就能用接龍拼起來：圖片切成小方塊、聲音切成 0.02 秒一段、影片是一張張圖片接龍……連蛋白質都行！不過一張 1024×1024 的圖若一個像素一個像素接，要接 100 萬次，比寫一整本《紅樓夢》還累，所以工程師會先把圖「壓縮」成大積木再接龍。

🤔 小朋友想想看： 如果「萬物都能拆成積木接龍」，你覺得未來 AI 還能生出什麼好玩的東西？🎮🍕🚀

🏠 生活裡的例子

下次跟 ChatGPT 聊天，記得——它不是什麼都知道的神，是超會擲骰子的接龍高手。它給你網址或人名時，養成「點進去查證一下」的習慣，你就是比 AI 更聰明的使用者了。

🎒 今天學到了什麼？

🎲 AI 只會做一件事：文字接龍，靠擲骰子決定下一個字。
📖 AI 要學兩種知識：懂文法的「語言知識」＋懂常識的「世界知識」。
🎭 聊天背後有劇本：AI 是在完成偷偷加好的「聊天範本」，才像在回答你。
👻 AI 會唬爛是正常的：它被關在黑房間裡猜答案，所以要小心查證（RAG 就像開書考）。
🧱 萬物皆積木：圖片、聲音、影片……能切成小積木，AI 都能接龍生成。

Q: ChatGPT 回答問題時，本質上在做什麼？
- 到一個超大資料庫查答案
- *文字接龍：猜下一個字最可能是什麼，再擲骰子選出來
- 打電話問工程師
解釋: 語言模型的核心就是「自迴歸生成」，也就是一個字一個字地接龍。
Q: 為什麼同一個問題，AI 每次回答會有點不一樣？
- 它心情不同
- *它每次都重新「擲骰子」抽樣，機率高的字容易被選到
- 網路速度不同
解釋: 依機率分佈抽樣（sampling），所以答案會有變化。
Q: 「AI 幻覺」是怎麼回事？
- AI 生病了
- *它像被關在黑房間裡靠猜接龍，本來就會生出不存在的資訊
- 螢幕壞掉
解釋: 所有答案本質都是「猜」，剛好對的很多而已，所以要查證、或用 RAG 開書考。

【生成式人工智慧與機器學習導論 2025】第 1 講：一堂課搞懂生成式人工智慧的原理

📖 家長導讀

本講改編自台大李宏毅教授《生成式人工智慧與機器學習導論 2025》第一講，拆解以 ChatGPT、Gemini、Claude 為代表的大型語言模型（LLM）底層邏輯——「文字接龍（自迴歸生成）」。核心觀念：模型不是查資料庫，而是把輸入轉成機率分佈，用「擲骰子」預測下一個 token。孩子版用接龍與擲骰子的比喻，涵蓋機率生成、兩種知識、聊天範本、幻覺與多模態；本版補齊機制與實作名詞。

🔍 完整概念

一、核心機制：自迴歸生成。 語言模型唯一會做的事是「文字接龍」：接收提示（Prompt）→ 對照字典（Vocabulary，如 LLaMA 有約 12.8 萬個 token）→ 為每個 token 計算機率分佈 → 依機率抽樣（擲骰子）選出下一個 token → 疊加回輸入再重複，直到輸出結束符號。這解釋了為何同一問題每次回答略有不同（抽樣的隨機性）。實務上會用 Top-K／Top-P 限制候選，避免骰到破壞語句的怪 token。

二、兩種知識與學習來源。 正確接龍需「語言知識」（文法結構）與「世界知識」（物理常識，如 0.5 大氣壓下水的沸點低於 100°C）。知識來自三處：網路爬蟲語料、人類標註的高品質問答、使用者回饋（讚／倒讚，即 RLHF 的精神）。模型內部是擁有數十億至千億「參數」的巨大函式。

三、聊天範本與多輪對話。 模型本質只會延續文字，平台在背景套用「聊天範本（Chat Template）」與「系統提示（System Prompt）」（如「你叫 LLaMA、今天日期、知識截止時間」），因結尾出現 Assistant: 而被迫產出答案；這種確保輸入足以正確接龍的做法稱「上下文工程」。模型無跨對話記憶，多輪對話是把「歷史全紀錄＋新問題」重新打包餵入。

四、幻覺與 RAG。 模型如同暗房中盲目接龍者，缺乏即時外部真實，故生成不存在的網址或假資訊（幻覺）是機制的必然——「該驚訝的是有很大一部分幻覺剛好符合現實」。減少幻覺可結合檢索（RAG，檢索增強生成），基於搜尋到的真實資料接龍。人類有責任透過上下文工程提供足夠資訊。

五、多模態：萬物皆 Token。 黃仁勳「萬事萬物都是 Token」——只要能拆成有限基本單位就能生成。早年「像素接龍／取樣點接龍」（如 WaveNet）算力極高（1024×1024 圖需約 100 萬次接龍）；現代用 Encoder 把圖片區塊或 0.02 秒聲音壓成 token，接龍後再由 Decoder 還原，故影像、語音、影片乃至蛋白質皆可生成。

✅ 查核筆記（附實證依據）

課程來源：屬實，台大李宏毅《生成式人工智慧與機器學習導論 2025》第一講。
自迴歸生成／抽樣：屬實，為 GPT 類 decoder-only 模型的標準生成方式；溫度與 Top-K/Top-P 控制隨機性為業界通識。
LLaMA 詞彙量約 12.8 萬：屬實，LLaMA 3 系列 tokenizer 詞彙量為 128,256（LLaMA 1/2 為 32K，此處對應第三代）。
RAG（檢索增強生成）：屬實，Lewis et al.（2020）提出，為降低幻覺的主流做法。
幻覺為機制必然：屬合理詮釋，與學界「LLM 無事實接地（grounding）故易 confabulate」的共識一致。
黃仁勳「萬物皆 token」：為課程對其公開談話的概括轉述，精神屬實（多模態統一以 token 表示），非逐字引語。

📚 原始出處

【生成式人工智慧與機器學習導論 2025】第 1 講（YouTube）｜李宏毅，國立臺灣大學

🧭 接下來讀這篇

👉 下一關：幫 AI 找回記憶力

🚀 想挑戰：打開 AI 的腦袋

📋 AI 共學與免責聲明

本教材為 SparkSoul 智慧實驗室家庭共學的實驗紀錄，由 AI 協作萃取整理自公開課程或文獻，家長一起參與閱讀。我們不保證學術上的絕對無誤，鼓勵讀者點擊原始連結進行深度探索；若發現錯誤，歡迎透過 Facebook 粉專告訴我們。涉及醫療、投資或法律等專業判斷，請另行諮詢專業人士。

原始來源

📺 點此觀看原始來源

✨ SparkSoul 自學基地

探索

🎲 AI 是在「擲骰子」玩文字接龍？！

① AI 不是「什麼都知道」，它只是很會「猜下一個字」

② AI 要學兩種知識，還偷偷照著「劇本」演

③ AI 為什麼會「唬爛」？還有：萬物都能接龍！

🏠 生活裡的例子

🎒 今天學到了什麼？

【生成式人工智慧與機器學習導論 2025】第 1 講：一堂課搞懂生成式人工智慧的原理

📖 家長導讀

🔍 完整概念

✅ 查核筆記（附實證依據）

📚 原始出處