9. AI如何畫畫與唱歌

⏱️ 30 秒版（先看這裡！）

一、電腦畫圖、生聲音，是把「像素」和「取樣點」這些小積木拼起來的，太慢就打包成 Token 大積木包。二、如果 AI 只會算「平均值」，會畫出雙頭狗這種四不像的怪東西。三、最新的方法像導航：從一團雜訊一步步走到漂亮的圖，還讓「接龍高手」和「導航高手」合體。

🎨 電腦沒手沒嘴，怎麼畫圖又唱歌？

現在你打幾個字「幫我畫一隻小貓在沙灘玩衝浪板」，電腦咻一下就畫出來了；你叫它「用某某歌手的聲音唱一首關於珍奶的歌」，它也做得到！

超酷吧？但你有沒有偷偷想過——電腦又沒有手、也沒有嘴巴，到底是怎麼畫圖跟唱歌的？ 今天就來揭開這個大祕密。

① 電腦用「小積木」拼圖片和聲音

像用樂高蓋城堡要一塊塊拼，電腦處理圖片和聲音也是：

圖片的小積木叫「像素」：手機照片放超大，會看到一格一格的小方塊。
聲音的小積木叫「取樣點」：聲音是一個一個小點，快速播放就變成音樂。

🤔 小朋友想想看： 如果一秒鐘的聲音有 16000 個點，那一首 3 分鐘的歌有幾個點？（將近 288 萬個！）

以前的電腦想一個點一個點慢慢生。有多慢？Google 以前有個 AI 叫 WaveNet，生出「1 秒鐘」的聲音要花 90 分鐘😱，等它唱完一句，你便當都涼了！所以聰明的科學家把很多小積木打包成一個大包裹，叫 Token（代幣）——就像便利商店店員不會一顆米一顆米算錢，直接說「這包白米 100 元」，處理起來就快多了。

② 恐怖的「雙頭狗事件」！

但這裡有個又好笑又恐怖的問題。你叫 AI 畫「一隻在跑步的狗」，但跑步的狗有好多種：一隻在草地左邊跑的黃金獵犬、一隻在右邊跑的柴犬……

AI 超認真地想：「兩個都對耶！那我畫在中間、取個平均值好了！」結果——它畫出一隻有兩個頭的狗😱🐕🐕！

🤔 小朋友想想看： 如果老師問「最喜歡的飲料」，你說珍奶、同學說可樂，把兩個「平均」混在一起，會是什麼鬼東西？喝得下去嗎🤢？

這就是 AI 生圖的大難題：用「算平均」的笨方法，會生出四不像。

③ 導航魔法 Flow Matching＋兩大高手合體

科學家想出一招超酷的方法叫 Flow Matching，老師叫它「導航魔法」。想像玩「從起點走到寶藏」的遊戲：起點是一團亂七八糟的雜訊（像電視壞掉的雪花畫面📺），終點是一張漂亮的貓咪圖🐱。AI 不會一步跳到終點，而是像 Google 地圖：「往這邊走 5 公尺、再往那邊走 5 公尺……」走個 50 步，「叮咚！抵達目的地」🎉。每一步都有明確方向，就不會畫出雙頭狗了！

現在有兩種高手：接龍高手（很會一個字接一個字）和導航高手（很會把雜訊變漂亮圖）。但讓接龍高手每講一個字就叫導航高手走 50 步，超耗電、電腦會冒煙🔥！所以用「大老闆＋小幫手」策略：大老闆（Transformer）動一次、負責規劃「接下來畫什麼」；小幫手（Generation Head，體型很小）負責走那 50 步的導航。這樣又快、又好、又省電——這就是 2025 年最新的畫圖、生聲音祕密武器！

🏠 生活裡的例子

從「生 1 秒聲音要 90 分鐘」到「幾秒就畫一張圖」，AI 進步超快。下次你用 AI 畫圖、做音樂，就知道它肚子裡正在跑「導航魔法」，還有大老闆和小幫手在分工合作呢✨。

🎒 今天學到了什麼？

🧱 電腦用「像素／取樣點」小積木拼圖片和聲音，太慢就打包成 Token 大積木包。
🐕 只會算「平均值」會生出雙頭狗，所以不能用笨方法生圖。
🗺️ Flow Matching 像導航：從雜訊一步步走到漂亮圖片，不會走錯路。
🤝 最新 AI 讓「接龍高手＋導航高手」合體：大老闆動腦、小幫手（Generation Head）動手。
✨ 生成技術幾年內從「1 秒 90 分鐘」進步到「幾秒一張圖」，超快！

Q: 為什麼要把像素、取樣點打包成「Token」？
- 讓檔案更漂亮
- *一個一個小單位生成太慢（WaveNet 生 1 秒要 90 分鐘），打包後快很多
- 為了省電費
解釋: Token 是更大的語意單位，能大幅提升生成效率。
Q: 「雙頭狗」問題是怎麼來的？
- AI 眼睛壞了
- *同一句話有很多種正確畫法，用「算平均」會把它們混成四不像
- 狗真的有兩個頭
解釋: 連續空間用 MSE 求平均，會生出各答案的混合、導致四不像。
Q: Flow Matching 生圖最像下面哪個？
- 一步跳到終點
- *像導航一步步走：從雜訊出發，每步問方向，走 50 步抵達漂亮圖片
- 把圖片下載下來
解釋: 逐步從來源分佈移動到目標分佈，每步都有明確方向，避免平均模糊。

【生成式人工智慧與機器學習導論 2025】第 9 講：影像與聲音的生成策略（接龍 × Flow-matching 的世界線交會）

📖 家長導讀

本講改編自李宏毅教授《生成式人工智慧與機器學習導論 2025》第九講，講影像與聲音生成的前沿：從最底層單位（像素、取樣點）的「接龍」因效率轉向離散 Token、再因品質瓶頸轉向連續 Token，最後接龍模型與生成模型（Diffusion／Flow-matching）在「生成頭（Generation Head）」上交會。孩子版用「小積木→Token→雙頭狗→導航→合體」呈現；本版補齊技術脈絡。

🔍 完整概念

一、基本單位與效率困境。 影像的基本單位是像素（RGB 0–255），影片多一個時間維度（幀）；聲音是取樣點（受取樣率如 16kHz、位元深度如 16-bit 影響）。2016 年 PixelRNN/PixelCNN 逐像素、WaveNet 逐取樣點生成，品質驚人但效率極差（課程稱 WaveNet 生 1 秒聲音需約 90 分鐘），證明微觀單位不可行。

二、Tokenization（失真壓縮）。 語音以 VQ-VAE 類 Tokenizer 轉換，常用殘差向量量化（RVQ）（多組疊加如進位制， $20 0^{2}$ 種組合；SoundStream、EnCodec、Mimi）；影像 Token 多為二維（DALL-E 把 8×8 區塊壓成 8192 種 token 之一），近作「An image is worth 32 tokens」（TiTok）以 32 個純語意 token 重建；影片 Token 為三維。LlamaGen 證明有了好 Tokenizer，直接套 Llama 架構做文字接龍即可勝過當時的 Diffusion。訓練 Tokenizer/Detokenizer 用三種 Loss：Regression/MSE（表面像，但與人類感知脫節）、Perceptual（用外部模型隱藏層模擬感知）、Adversarial（GAN 判別器分不出真假即品質佳）。

三、打破生成順序。 傳統影像接龍採光柵順序（左上到右下）。MaskGIT：訓練時隨機遮蔽 token 讓模型預測，推論時初始全遮、每輪只保留信心最高的 K 個、反覆數次，能以隨機順序從最明確特徵生圖、步數大減。VAR（Visual Autoregressive）：如人類先草稿後細節，用同一接龍模型先生低解析度再逐步放大（Next-Scale Prediction）。

四、離散極限與連續 Token 的雙頭狗問題。 離散 token 使影像品質（FID）停滯（還原後臉歪嘴斜），改用連續 Token（實數向量）。但連續空間接龍若用 MSE：同一提示對應千萬種正確向量（草地、城市…），神經網路為求 Loss 最小會輸出「平均值」，生出四不像（雙頭狗）——傳統接龍法在連續向量上直接失效。

五、生成式模型與 Flow Matching。 引入 VAE/GAN/Diffusion/Flow-matching：不直接輸出單一答案，而是把簡單的來源分佈（如高斯）映射到複雜的目標分佈。Flow Matching（歐拉法）訓練極簡——從來源 $X_{0}$ 、目標 $X_{1}$ 抽樣，在連線上取 $t$ 內插 $X_{t} = (1 - t) X_{0} + t X_{1}$ ，訓練網路由 $(X_{t}, t)$ 預測速度向量 $V = X_{1} - X_{0}$ ；推論則從高斯起點分 50 步逐步前進。Flux、Movie Gen 皆採用。

六、交會：Generation Head。 把 Flow Matching 併入 AR 接龍會遇算力瓶頸（生一個連續 token 若需 50 步，龐大 Transformer 就要跑 50 次）。解法：龐大 Transformer 依上下文只跑一次輸出條件特徵，交給一個極小的 **Generation Head（Diffusion Head／Flow-matching Head，可能只是幾層 MLP）**重複 50 步生出連續 token，再餵回大模型預測下一個。2025 年方向（Flow AR、文字生音訊、Speech LM、連續影片）進一步以 Rectified Flow 等減少 Head 迭代（甚至 one-step）。前沿產品：影像（Gemini/Nano Banana）、語音（IndexTTS2）、音樂（Suno）、影片（Sora 單步、HeyGen 代理式分步）。

✅ 查核筆記（附實證依據）

課程來源：屬實，李宏毅《生成式人工智慧與機器學習導論 2025》第九講。
WaveNet 逐取樣點、效率低：屬實，van den Oord et al.（2016）原始 WaveNet 生成極慢（秒級音訊需數分鐘以上），後有 Parallel WaveNet 加速；「90 分鐘」為課程引用之量級說法。
VQ-VAE／RVQ／EnCodec／SoundStream：屬實，van den Oord et al.（2017）VQ-VAE、Zeghidour et al.（2021）SoundStream、Défossez et al.（2022）EnCodec。
DALL-E dVAE 8192 codebook：屬實，Ramesh et al.（2021）。
TiTok「32 tokens」：屬實，Yu et al.（2024）。
MaskGIT／VAR：屬實，Chang et al.（2022）MaskGIT、Tian et al.（2024, NeurIPS 最佳論文）VAR。
Flow Matching：屬實，Lipman et al.（2023）；Rectified Flow（Liu et al. 2022）；Flux、Meta Movie Gen 採 flow matching 屬實。
AR＋Diffusion Head（去除向量量化）：屬實，Li et al.（2024）〈Autoregressive Image Generation without Vector Quantization〉（MAR）以 diffusion loss 生連續 token。

📚 原始出處

【生成式人工智慧與機器學習導論 2025】第 9 講（YouTube）｜李宏毅，國立臺灣大學

🧭 接下來讀這篇

👉 下一關：AI 學會說話的歷史

🔙 回顧：AI 怎麼回答問題

📋 AI 共學與免責聲明

本教材為 SparkSoul 智慧實驗室家庭共學的實驗紀錄，由 AI 協作萃取整理自公開課程或文獻，家長一起參與閱讀。我們不保證學術上的絕對無誤，鼓勵讀者點擊原始連結進行深度探索；若發現錯誤，歡迎透過 Facebook 粉專告訴我們。涉及醫療、投資或法律等專業判斷，請另行諮詢專業人士。

原始來源

📺 點此觀看原始來源

✨ SparkSoul 自學基地

探索

🎨 電腦沒手沒嘴，怎麼畫圖又唱歌？

① 電腦用「小積木」拼圖片和聲音

② 恐怖的「雙頭狗事件」！

③ 導航魔法 Flow Matching＋兩大高手合體

🏠 生活裡的例子

🎒 今天學到了什麼？

【生成式人工智慧與機器學習導論 2025】第 9 講：影像與聲音的生成策略（接龍 × Flow-matching 的世界線交會）

📖 家長導讀

🔍 完整概念

✅ 查核筆記（附實證依據）

📚 原始出處