10. AI學會說話的歷史

⏱️ 30 秒版（先看這裡！）

一、語音語言模型＝聽你用嘴巴說話，也用嘴巴回答你，中間完全不用打字。二、把聲音先轉成文字再回答，你的笑聲、哭腔、生氣就通通不見了——所以要「一鍋煮」。三、新技術剛出現時常常很爛，但不代表它沒有未來（就像恐龍時代那些小小的哺乳類）。

🎤 為什麼現在的 AI 語音助理變聰明了？

你用過 Siri、Google 助理，或跟 ChatGPT 的語音模式聊過天嗎？

有沒有想過——為什麼以前的 Siri 講話卡卡的、常常聽不懂你在說什麼；現在的 AI 卻可以跟你聊天，還聽得出你是開心還是生氣？今天我們當小偵探，看 AI 怎麼從「鴨子聽雷」進化成「聊天高手」。

① 便當組合餐 vs. 一鍋煮火鍋

語音語言模型就是一個 AI，它可以像朋友一樣，聽你用嘴巴說話，然後也用嘴巴回答你，中間都不用打字。（這跟 Google 小姐不一樣喔！她只會把你打的字「唸出來」，不會理解你在說什麼。）

要做到這件事，有兩種做法：

做法一：便當組合餐（串聯式） — 像便當裡白飯、雞腿、青菜分開三樣：

聲音 → 轉成文字（聽寫）→ 2. 文字 → 想答案 → 3. 答案 → 變回聲音（朗讀）

缺點超大：轉成文字的那一刻，你的哭腔、笑聲、生氣通通不見了！AI 只看到冷冰冰的文字 😢

做法二：一鍋煮火鍋（端到端） — 聲音進去、聲音出來，中間不轉成文字，一口氣搞定。優點：你的情緒、語氣通通留著。

🤔 小朋友想想看： 如果 AI 只能把聲音轉成文字、再從文字轉回聲音，那你講話時的「笑聲」它會不會聽出來？

② 恐龍時代的小老鼠：新技術剛開始都很弱

你知道嗎？恐龍時代其實就有哺乳類了，只是牠們小小的、躲在角落，看起來超弱。但最後統治地球的卻是牠們的後代（包括我們人類）！

AI 也很像。2015 年第一個「一鍋煮」的語音 AI 出現時，爛得要命——錯誤率高達 38.8%（100 個字聽錯快 40 個）。那時候「便當組合餐」只錯 10% 左右，大家都說：「一鍋煮？不行啦！」

但十年後，一鍋煮贏了。這一課最重要的一句話是：新技術剛出現時很弱，不代表它以後會一直很弱。 看一個技術，要看它的「天花板」，不是看它今天的分數。

🤔 小朋友想想看： 如果你剛學騎腳踏車一直跌倒，會就此放棄，還是相信自己以後可以騎得很棒？

那 AI 後來怎麼變聰明的？兩招：自己學習——讓 AI 聽一大堆沒有答案的聲音、自己找規律（就像你看很多卡通，沒人教你也知道誰是壞人）。這招超強：只要給它 10 分鐘有答案的錄音，就比以前用 100 小時還厲害！另一招是把聲音切成小積木（Token），像樂高一樣拼起來、預測下一塊。

③ 語音 AI 的兩個大難題，和一個聰明解法

難題一：資料超級少。 文字 AI（像 ChatGPT）讀過的字多到嚇人。如果要用聲音達到一樣的知識量，需要 28.5 萬年的錄音 😱——從恐龍時代錄到現在都還不夠！

難題二：學新的就忘舊的。 你本來數學很厲害，結果整年只練畫畫，數學就忘光了。AI 也一樣：如果只教它講話，它會忘記原本學過的知識（這叫「災難性遺忘」）。解法：讓它一邊講話、一邊心裡也想著文字，就不會忘了。

最聰明的一招：邊講邊想（STITCH）。 AI 生成一段 2 秒的聲音只要 0.5 秒——那剩下的 1.5 秒在幹嘛？閒著！ 於是科學家說：「那就讓它一邊播聲音、一邊在背後偷偷想下一句怎麼回答！」就像你講話時，腦袋已經在想下一句了。用了這招，AI 解數學題的正確率從 63% 衝到 78%，而且你完全不覺得它卡住。

🏠 生活裡的例子

現在的 AI 還有兩個學不會的東西：搶話（你跟朋友聊天會「嗯嗯」「對啊」地回應、還會插嘴，AI 還不太會一邊聽一邊講），還有時間感（你叫它「安靜 10 秒」，它其實不知道 10 秒有多長 ⏰）。下次你用語音跟 AI 聊天，想一想——有多少科學家花了十幾年，才讓它變得這麼厲害。

🎒 今天學到了什麼？

語音語言模型＝能聽你說話、也用聲音回答你的 AI，比打字更自然。
**一鍋煮（端到端）比便當組合（串聯式）**好，因為不會把情緒和語氣搞丟。
新技術剛出現常常很弱，要看它的天花板，不是今天的分數。
語音 AI 兩大難題：資料少（要 28.5 萬年錄音）與災難性遺忘（學新忘舊）。
邊講邊想（STITCH）：利用播放聲音的空檔在背後動腦，又快又聰明。

Q: 為什麼「先轉成文字、再回答」的做法不夠好？
- 因為速度比較慢而已
- *轉成文字時，笑聲、哭腔、生氣等語氣資訊會全部消失
- 因為文字會拼錯
解釋: 串聯式（Cascade）有資訊瓶頸；端到端能保留非語意的情緒與音色。
Q: 2015 年第一個端到端語音 AI 錯誤率高達 38.8%，這告訴我們什麼？
- 這個方向是錯的，應該放棄
- *新技術剛出現常常很弱，要看它的「能力上限」而不是當下分數
- 錯誤率不重要
解釋: 就像恐龍時代弱小的哺乳類，最終統治了生態系。
Q: 「邊講邊想（STITCH）」利用了什麼？
- 更快的電腦
- *生成 2 秒聲音只需 0.5 秒，用剩下的空檔在背後生成推理內容
- 更多的訓練資料
解釋: 在不增加使用者等待時間下，把數學推理正確率從 63% 提升到 78%。

【生成式人工智慧與機器學習導論 2025】第 10 講：語音語言模型發展史

📖 家長導讀

本講改編自李宏毅教授《生成式人工智慧與機器學習導論 2025》第十講，以第一人稱研究視角回顧語音語言模型（Speech Language Model）從萌芽到 2025 年前沿的演進：串聯式 vs. 端到端、表徵學習與自監督的突破、與文字大模型融合以克服災難性遺忘，以及「邊說邊想」的推理機制。孩子版聚焦「便當 vs. 一鍋煮、恐龍時代的小老鼠、兩大難題與 STITCH」；本版補齊技術脈絡與數據。

貫穿全講的方法論反思：評估一項新技術，應看它的能力上限（potential），而非當下的 SOTA 分數。

🔍 完整概念

一、定義與兩種架構。 語音語言模型輸入語音、輸出語音；與 TTS（僅把文字唸出來）不同，它會理解語意並「回應」。串聯式（Cascade）＝ASR＋LLM＋TTS：開發容易（串現成 API），但轉文字時語者身分、情緒、環境音等非語意資訊（paralinguistic）全數遺失，且延遲較高、能力上限受資訊瓶頸限制。端到端（End-to-End）：單一網路直接語音進、語音出，無資訊流失、延遲低、上限高，但研發困難。

二、早期掙扎（2010–2015）。 2010 年 ICASSP，Hinton 學生以受限玻爾茲曼機做音素辨識，錯誤率並未立刻勝過當時的 HMM，未引起轟動。2015 年第一篇真正的端到端語音辨識論文，在 Switchboard 上錯誤率約 38.8%，而當時串聯式已做到約 10.4%。演化啟示：如同中生代弱小的哺乳動物，新技術的當下表現不等於其最終潛力。

三、表徵學習與自監督突破（2016–2021）。 音訊詞向量、分段式音訊詞向量（讓模型自主學習邊界）、以 GAN 做無監督語音辨識（判別器分辨音素序列來自真實文本或語音生成）。關鍵躍進是 wav2vec 2.0 / HuBERT：大幅降低對標註資料的依賴——僅 10 分鐘標註資料即可達到過去 100 小時資料的水準。SUPERB 基準證明表徵的通用性，並發現分層特徵：淺層擅長語者資訊、深層富含內容語意；下游任務以各層加權總和即可十項全能。

四、第一代語音語言模型與算力之壁（2021–2023）。 GSLM 為早期代表（Tokenizer→自迴歸模型→Detokenizer）。語音 Token 兩大門派：語意標記（由 HuBERT 等表徵做 K-means 分群）與聲學標記（Neural Codec，重壓縮還原）。困境：（1）初代模型無法像 GPT-3 展現上下文學習，只能做無意義的「語音接龍」；（2）資料密度鴻溝——100 萬小時語音僅約等同 60 億文字 token，要達 Llama 3 的 15T token 需約 28.5 萬年語音；（3）語音 token 取樣率約 50 Hz（文字約 3–4 Hz），序列長 10 倍以上，注意力運算量暴增。

五、現代躍進（2024–2025）。 2024 年 5 月 GPT-4o 標誌流暢端到端語音互動時代。關鍵解法：文字初始化（用強大文字模型參數起步，繼承知識）；克服災難性遺忘——訓練時強迫模型同時產生文字 token 與語音 token（若只生語音會迅速遺忘文字知識），如 GLM-4-Voice 的區塊交錯（chunk-wise interleaving）。TASTE：以 ASR 文字為 Query 對語音特徵做 cross-attention，做出動態長度、與文字 1 對 1 對應的語音 token——文字管「說什麼」，語音 token 專職「發音、語速、情緒」，大幅降低預測難度。語音專屬 RLHF：獎勵模型不只要求內容正確，還要能對使用者的語氣（高興、反諷）做出恰當回應。STITCH（邊說邊想）：生成 39 個語音 token（約 2 秒聲音）僅需約 0.5 秒，利用剩餘約 1.5 秒的閒置時間在背景生成推理 token，於不增加使用者等待的前提下把數學推理正確率由 63% 提升至 78%。

六、未來挑戰。 全雙工（Full Duplex）：人類對話可隨時插嘴、給「嗯、對」的回饋音，模型需同時聽與說並判斷何時停止。物理時間感：模型缺乏對真實時間流逝的概念（無法確實執行「安靜 10 秒」）。

✅ 查核筆記（附實證依據）

課程來源：屬實，李宏毅《生成式人工智慧與機器學習導論 2025》第十講。
wav2vec 2.0：10 分鐘標註資料：屬實，Baevski et al.（2020, NeurIPS）示以 10 分鐘標註＋大量無標註預訓練即可達到低錯誤率；HuBERT（Hsu et al. 2021）同屬此路線。
SUPERB 與分層特徵：屬實，Yang et al.（2021）SUPERB 基準；淺層偏語者、深層偏內容為 layer-wise 分析的普遍發現。
GSLM：屬實，Lakhotia et al.（2021）〈Generative Spoken Language Modeling〉。
「28.5 萬年語音」的算術：已核算屬實。依課程設定（100 萬小時 ≈ 60 億 token），要達 15T token 需約 25 億小時 ÷ 8,760 小時/年 ≈ 28.5 萬年，數量級與課程一致。
GPT-4o（2024.05）開啟端到端語音互動：屬實。
交錯生成文字與語音以防遺忘：屬實方向，GLM-4-Voice 等採 interleaving；災難性遺忘為跨模態微調的已知問題。
2015 端到端 ASR 錯誤率 38.8% vs 串聯式 10.4%：為課程引用之具體數字，方向屬實（早期端到端顯著落後），惟不同論文／測試集設定下數值有出入，宜視為量級說明。
TASTE、STITCH：為 2025 年台大團隊之近期研究成果，屬前沿工作，尚未有長期同儕複現，請以原始論文為準。

📚 原始出處

【生成式人工智慧與機器學習導論 2025】第 10 講（YouTube）｜李宏毅，國立臺灣大學

🧭 接下來讀這篇

👉 下一關：幫健忘的 AI 做筆記

🔗 同主題：AI 如何畫畫與唱歌

📋 AI 共學與免責聲明

本教材為 SparkSoul 智慧實驗室家庭共學的實驗紀錄，由 AI 協作萃取整理自公開課程或文獻，家長一起參與閱讀。我們不保證學術上的絕對無誤，鼓勵讀者點擊原始連結進行深度探索；若發現錯誤，歡迎透過 Facebook 粉專告訴我們。涉及醫療、投資或法律等專業判斷，請另行諮詢專業人士。

原始來源

📺 點此觀看原始來源

✨ SparkSoul 自學基地

探索

🎤 為什麼現在的 AI 語音助理變聰明了？

① 便當組合餐 vs. 一鍋煮火鍋

② 恐龍時代的小老鼠：新技術剛開始都很弱

③ 語音 AI 的兩個大難題，和一個聰明解法

🏠 生活裡的例子

🎒 今天學到了什麼？

【生成式人工智慧與機器學習導論 2025】第 10 講：語音語言模型發展史

📖 家長導讀

🔍 完整概念

✅ 查核筆記（附實證依據）

📚 原始出處