🧒 十歲小孩版
🔗 原始文章:【生成式人工智慧與機器學習導論2025】第_9_講:影像和聲音上的生成策略_—DiffusionFlow-matching_系列和接龍(Autoregressive)這兩條世界線的交會 | 台大李宏毅教授
嘿!小朋友,你有沒有想過一件超神奇的事?
現在的電腦,只要你打幾個字,比如說:「幫我畫一張小貓在沙灘上玩衝浪板的圖」,電腦「咻」一下就畫出來了!甚至你還可以叫它:「請用蔡依林的聲音唱一首關於珍珠奶茶的歌」,它也做得到!
是不是超酷的?但你有沒有偷偷想過……電腦到底是怎麼「畫圖」跟「唱歌」的啊?它又沒有手,也沒有嘴巴!
今天老師就要來告訴你這個超厲害的大祕密,一起看下去吧!
🎨 第一關:電腦怎麼「看」圖片跟「聽」聲音?
想像一下,你拿樂高積木蓋一座城堡,是不是要一塊一塊拼起來?電腦處理圖片跟聲音也是一樣喔!
- 圖片的樂高積木叫做「像素」:你把手機照片放到超大,會看到一格一格的小方塊,那就是像素!
- 聲音的樂高積木叫做「取樣點」:聲音是一個一個小小的點,快速播放出來就變成我們聽到的音樂了。
小朋友想想看:如果一秒鐘的聲音有 16000 個小點點,那一首 3 分鐘的歌會有幾個點呢? 🤔(答案是將近 288 萬個!超級多對吧!)
以前的電腦很笨,想要一個點一個點慢慢畫、慢慢生成聲音。有多慢呢?Google 以前的一個 AI 叫做 WaveNet,它要生出「1 秒鐘」的聲音,居然要花 90 分鐘! 😱 等它唱完一句歌,你便當都涼了!
📦 第二關:把小積木變成「大積木包」
因為一塊一塊太慢了,聰明的科學家就想:「那我們把很多小積木先打包成一個大包裹,不就快多了嗎?」
這個「大包裹」就叫做 Token(代幣)。
就像你去便利商店,店員不會一顆米一顆米算錢,他會直接說「這包白米 100 元」一樣。電腦也把一大堆像素打包成一個 Token,處理起來就快得飛起!
🐶 第三關:恐怖的「雙頭狗事件」!
但是!這裡有個超好笑又超恐怖的問題。
假設你叫 AI 畫「一隻在跑步的狗狗」。但是「跑步的狗狗」可以有好多種樣子啊:
- 一隻在草地左邊跑的黃金獵犬 🐕
- 一隻在草地右邊跑的柴犬 🐕🦺
AI 超認真地想:「兩個答案都對耶!那我就畫在中間好了,取個平均值!」
結果……它畫出了一隻有兩個頭的狗! 😱🐕🐕
小朋友想想看:如果老師問你「最喜歡的飲料是什麼」,你說珍奶,同學說可樂,然後我們把兩個「平均」混在一起……那會是什麼鬼東西?喝得下去嗎? 🤢
這就是 AI 遇到的大難題!
🌀 第四關:神奇的「導航魔法」Flow Matching
科學家們想出一個超酷的方法,叫做 Flow Matching(流動匹配),老師叫它「導航魔法」!
想像你在玩「從起點走到寶藏」的遊戲:
- 起點:亂七八糟的一堆雜訊(就像電視壞掉的黑白雪花畫面 📺)
- 終點:一張漂亮的圖片(比如一隻可愛的貓咪 🐱)
AI 不會一步就跳到終點,而是像 Google 地圖一樣:
- 「下一步往這邊走 5 公尺!」
- 「再往那邊走 5 公尺!」
- 走個 50 步之後……「叮咚!您已抵達目的地!」🎉
這樣一步一步慢慢走,就不會畫出雙頭狗啦!因為每一步都有明確的方向。
🤝 第五關:兩大高手合體技!
現在有兩種超強的 AI:
- 接龍高手(Autoregressive):很會一個字接一個字講故事
- 導航高手(Flow Matching):很會把雜訊變成漂亮圖片
但如果讓接龍高手每講一個字,就叫導航高手走 50 步……那超耗電的,電腦會冒煙!💻🔥
聰明的科學家想到一招:「大老闆 + 小幫手」策略!
- 大老闆(Transformer):動一次就好,負責規劃「接下來要畫什麼」
- 小幫手(Generation Head):體型很小很輕巧,由它來走那 50 步的導航
這樣就又快、又好、又省電!這就是 2025 年最新最潮的 AI 畫圖、生聲音的祕密武器喔!
📚 今天學到了什麼?
-
🧱 電腦畫圖、生聲音,是用「像素」跟「取樣點」這些小積木拼起來的,但一塊一塊拼太慢,所以會打包成「Token」大積木包。
-
🐕 AI 如果只會算「平均值」,會畫出雙頭狗這種奇怪的東西,所以不能用笨方法生成圖片。
-
🗺️ Flow Matching 就像導航一樣,從一團雜訊開始,一步一步走到漂亮的圖片,不會走錯路!
-
🤝 最新的 AI 把「接龍高手」跟「導航高手」合體,大老闆動腦、小幫手動手,又快又準!
-
✨ 以前生 1 秒聲音要 90 分鐘,現在幾秒就能畫一張圖,AI 科技真的進步超快!下次你用 AI 畫圖的時候,就知道它肚子裡在跑什麼魔法囉!
📺 原始影片:觀看原始影片
👨👩👧 家長版/進階版(點擊展開)
【生成式人工智慧與機器學習導論2025】第 9 講:影像和聲音上的生成策略 — DiffusionFlow-matching 系列和接龍 (Autoregressive) 這兩條世界線的交會
【筆記】影像與聲音的生成策略:Autoregressive 與 Flow-matching 的世界線交會
核心總結 (Executive Summary)
本文件探討了當前生成式人工智慧在「影像」與「聲音」上的最前沿生成策略。早期基於最底層單位(像素、取樣點)的「接龍(Autoregressive, AR)」模型受限於運算效率,促使學界轉向使用離散標記(Discrete Tokens)進行壓縮與生成。然而,隨著對生成品質要求的提升,離散標記的表述力極限浮現,模型開始轉向連續標記(Continuous Tokens)。為了克服連續空間中傳統均方誤差(MSE)造成的「平均值模糊(如雙頭狗現象)」問題,生成式模型(如 Diffusion 與 Flow-matching)的概念被引入。最終,在 2024-2025 年的最新技術中,接龍模型與生成模型正式交會,透過引入「生成頭(Generation Head)」技術,完美結合了 Transformer 處理長序列的優勢與 Flow-matching 處理連續分布的能力,成為當前影像與聲音生成的最強典範。
1. 生成式 AI 的前沿展示與觀察
在探討底層技術前,文件透過多個實際案例展示了當前模型的極限與特性:
- 影像生成 (NanoBanana / Gemini):只需簡單文字指令即可生成 PTT 八卦版的截圖,不僅能模仿介面,還能自行創造合理的鄉民 ID(如 Salary Slave, Egg Lover)與推文邏輯;甚至能讀取空白的線性代數考卷並生成滿分解答。這些細節(文字的傾斜、不規則的筆跡)證明其為直接影像生成,而非單純的文字貼圖。
- 語音配音 (IndexTTS2):語音合成不再只是念稿,現在能輸入參考語音(如「臣妾做不到啊」或《MYGO》名場面),讓 AI 模仿該語者的音色與情緒,將原本的語言轉化為英文或其他語言的配音。
- 音樂生成 (Suno):結合語言模型(如 Gemini 產生歌詞)與 Suno,完全由 AI 包辦作曲、演唱與情緒演繹。
- 影片生成 (Sora / HeyGen):
- Sora:可以直接由單張圖片與文字生成影片,甚至具備「個人化(Personalization)」能力(如創造一個由「李宏毅」講解的影片)。但 Sora 仍會出現邏輯謬誤(如「睜眼說瞎話」解錯益智遊戲)與文字生成亂碼的問題。
- HeyGen:有別於 Sora 的單步生成,HeyGen 採用了代理框架(Agentic Framework),背後呼叫多個模組(包含語言模型與影像模型)來分步完成教學影片,展現出較穩定的邏輯。
2. 生成的基本單位:從寒武紀的掙扎到妥協
要進行「接龍(Autoregressive)」生成,首先必須定義生成的基本單位:
- 影像的基本單位:像素(Pixel),每個像素由 RGB 三個子像素組成,數值範圍為 0-255。影片則增加了「時間」維度,由一連串的「幀(Frame)」構成。
- 聲音的基本單位:取樣點(Sampling Point)。受取樣率(Sampling Rate, 如 16kHz 代表一秒 16000 個點)與解析度(Bit Resolution, 如 16-bit 代表 65536 種數值)影響。
- 遠古時期的挑戰(2016年):
- 影像:
Pixel RNN與Pixel CNN嘗試一個一個像素生成圖片,效率極低。- 聲音:Google 的
WaveNet嘗試一個一個取樣點生成聲音,雖然品質驚人,但在當時生成 1 秒的聲音需要耗費 90 分鐘,證明以此微觀單位進行生成缺乏效率。3. 尋找更好的單位:語音與影像的 Tokenization
為了解決效率問題,必須將訊號壓縮成更大的語意單位(Token)。這是一個失真壓縮的過程:
領域 Token 化策略與特性細節 語音 使用如 VQ-VAE訓練的 Tokenizer 進行轉換。為提升品質,常採用 殘差向量量化(Residual Vector Quantization, RVQ)。類似「進位制」概念,訓練多組 Tokenizer(如 8 組或 32 組),若每組有 200 個 Token,兩組疊加就能表述 種可能性。代表模型包含SoundStream,EnCodec,Mimi。影像 Token 通常是二維的。例如 OpenAI 的 DALL-E將 8x8 的像素區塊壓縮為 8192 種不同的 Token 之一。近期也有論文提出 “An image is worth 32 tokens”,打破空間對應限制,用 32 個不具固定區域、代表純語意(如「右邊有一隻水母」)的 Token 來重建影像。影片 影片的 Token 呈現三維(寬、高、時間)。一個 Token 可能同時代表一個 2x2 的空間區域及連續的兩個 Frame,進一步壓縮時間維度的資訊。 指標案例:
Llama for Scalable Image Generation論文證明,只要有了好的 Tokenizer,無需特別魔改影像架構,直接套用訓練語言模型的Llama架構,其純文字接龍效能就能超越當時的 Diffusion Model。4. 衡量「像不像」的三種 Loss 維度
訓練 Tokenizer 與 Detokenizer(Autoencoder)時,必須計算輸入與輸出的相似度。目前普遍採用「三管齊下」的策略:
- 表面上的像(Regression Loss / MSE):直接計算像素或取樣點的差異。缺點是「人類感知脫節」,例如聲音訊號整體往右平移一個取樣點(人類聽不出差異),在 MSE 計算上卻會有天壤之別的誤差。
- 感知上的像(Perceptual Loss):利用外部模型(如語者辨識或情緒辨識模型),提取其隱藏層表徵(Hidden Representation)來計算距離,模擬人類的感知相似度。
- 模型難以分辨的像(Adversarial Loss):引入生成對抗網路(GAN)的概念,訓練一個 Discriminator 試圖分辨「真實訊號」與「還原訊號」。當 Discriminator 無法分辨時,代表還原品質極佳。
5. 打破生成順序:MaskGIT 與 VAR
傳統影像接龍採用 光柵掃描順序(Raster Order):由左至右、由上至下。但人類作畫並非如此,機器也不必然需要遵守。
- MaskGIT (Masked Generative Image Transformer):
- 訓練:將圖片的 Token 隨機蓋住(Masking),讓 Transformer 根據文字提示與未遮蔽的部分,猜測被遮蔽的 Token。
- 推論 (Inference):初始全遮蔽,模型一次預測所有 Token,但只保留信心分數最高的 K 個(其餘蓋回),反覆多次直到整張圖生成。這種方式讓模型能以「隨機順序(Random Order)」、從最明確的特徵開始生圖,大幅減少生成步數,且效能常優於 Raster Order。
- 多層次接龍 (VAR - Visual Auto-Regressive Modeling):
- 如同人類作畫先打草稿再畫細節,VAR 利用「同一個」接龍模型,先生成低解析度(如 64x64)的 Token 矩陣,再基於此擴展為 256x256,最後放大至高畫質(Next Scale Prediction)。
Muse與NanoBanana Video亦使用了此類階層式生成概念。6. 離散的極限與連續 Token (Continuous Tokens) 的問題
當影像生成模型越來越大,離散 Token (Discrete Tokens) 成為了品質的瓶頸(FID 數值無法再下降,如蒙娜麗莎畫像還原後臉歪嘴斜)。學界開始轉向使用 連續 Token (Continuous Tokens),即用實數向量(Real-numbered Vectors)來表示 Token。
致命的 MSE 衝突(雙頭狗問題):
- 語言模型(離散):輸出是機率分佈,取樣(Sample)後只會選中一個字(如「演」或「教」),不會出錯。
- 連續空間接龍:同一個提示(如「一隻奔跑的狗」)對應千萬種正確向量(在草地、在城市)。若使用 MSE 訓練,神經網路為求 Loss 最小化,會輸出各種正確答案的「平均值」。這個混合向量會導致生成出四不像(如雙頭狗),因此傳統接龍法在連續向量生成上直接失效。
7. 生成式模型 (Generative Models) 與 Flow Matching
為了解決連續向量輸出的問題,必須引入「生成式模型」(如 VAE, GAN, Diffusion, Flow-matching)。這類模型不直接輸出單一答案,而是將一個簡單的「來源分佈 (Source Distribution, 如高斯分佈)」映射轉換為複雜的「目標分佈 (Target Distribution)」。
Flow Matching 運作原理(以歐拉方法為例):
- 訓練機制(極其簡單):
- 從 Source 隨機抽樣點 。
- 從 Target(真實資料)抽樣點 。
- 在兩點連線上隨機取一個時間點 ,內插座標 。
- 訓練神經網路:輸入位置 與時間 ,要求其輸出「移動方向與速度向量 」。
- 推論機制(迭代導航):
- 從高斯分佈抽樣起點,定義步數(如 50 步)。
- 將點丟入 Flow Matching Network 詢問方向,沿該方向前進 的距離,產生新座標,殘差相加後再進入下一輪詢問。
- 重複 50 次後,雜訊分佈就會神奇地聚合/擴散成目標分佈(如螺旋紋)。
- 註:Meta 的
Movie Gen與強大開源模型Flux皆採用 Flow Matching。8. 兩條世界線的交會:Generation Head
將 Flow Matching 或 Diffusion 結合到 Autoregressive (AR) 接龍模型中,會遇到巨大的算力瓶頸:
- 為了生成「一個」連續 Token,如果 Flow Matching 需要跑 50 步,那龐大的 Transformer 接龍模型就要被執行 50 次,這在實務上是不可能接受的。
解法:生成頭 (Generation Head):
- 架構拆分:龐大的「文字接龍模型(Transformer)」只負責根據上下文跑一次,輸出一個條件特徵向量。
- 輕量化迭代:從高斯分佈抽樣雜訊,連同剛剛的特徵向量,交給一個極小的神經網路(即 Generation Head,可能只是幾層 MLP,稱為 Diffusion Head 或 Flow Matching Head)。
- 只有這個小 Head 需要重複跑 50 次來生成連續 Token。生成完畢後,該 Token 再餵回大模型去預測下一個 Token。
- 最新發展 (2025):如
Flow AR, 文字生音訊(Text-to-Audio), 語音語言模型 (Speech Language Model), 以及連續影片生成等,都在試圖利用 Energy Models 或 Rectified Flow 來進一步減少 Head 的迭代次數(甚至做到 One-step 生成)。
延伸思考與卡片盒筆記關聯 (Zettelkasten)
- 標記化壓縮的極限與維度轉變:本筆記提到離散 Token 造成 FID 停滯,促使轉向連續 Token (Continuous Token)。這與大型語言模型中,如何提升 Tokenizer 詞表豐富度以保留更多語意的概念有何異同?連續空間是否會成為未來多模態大型語言模型的共同標準?
- 打破自迴歸的時序依賴:MaskGIT 與擴散模型的交集:MaskGIT 透過 Random Order 與 Confidence Scoring 打破了 Raster Order。這種「隨機遮蔽並逐漸清晰」的過程,在數學與哲學層面上,與 Diffusion Model 的「去噪過程」是否存在等價關係?
- 生成式 AI 的折衷藝術:Generation Head 架構設計:在 Autoregressive 大模型後端接上小型的 Flow-matching Head,以空間/架構分離換取時間/運算力。這可延伸思考機器學習中常見的 “Decoupling”(解耦)設計(如 Feature Extractor 與 Classifier 分離),在邊緣運算 (Edge AI) 上的潛在應用。
📋 來源聲明:本教材為非營利教育用途的高度轉化作品。原始出處標註於家長版中。