🧒 十歲小孩版
🔗 原始文章:【生成式人工智慧與機器學習導論2025】第_10_講:語音語言模型發展史_(本課程前段內容為歷史回顧,2025_年的技術從_14200_開始) | 台大李宏毅教授
嗨!你有沒有用過 Siri、Google 助理,或是跟 ChatGPT 的語音模式聊過天呢?
你有沒有想過——為什麼以前的 Siri 講話卡卡的、有時候還聽不懂你在說什麼;但現在的 AI 語音助理,居然可以跟你聊天、還聽得出你是在開心還是生氣?
今天我們就要來當個小偵探,一起來看 AI 是怎麼從「鴨子聽雷」進化成「聊天高手」的喔!
🎤 什麼是「語音語言模型」?
先來想像一下:你跟朋友講 LINE 語音通話的時候,你說「你好嗎?」朋友會回你「我很好啊!」對吧?
語音語言模型就是一個 AI,它可以像你朋友一樣,聽你用嘴巴說話,然後也用嘴巴回答你,中間都不用打字喔!
這跟以前我們熟悉的 Google 小姐不一樣喔!Google 小姐只會把你打的字「唸出來」,它不會理解你在說什麼。但語音語言模型會「聽懂」然後「回答」你。
🤔 小朋友想想看:如果 AI 只能把聲音轉成文字,再從文字轉回聲音,那你講話時的「笑聲」、「生氣的語氣」會不會被它聽出來呢?
🍱 兩種做法:便當 vs. 一鍋煮
AI 要怎麼聽你講話、再回你話呢?有兩種做法:
做法一:便當組合餐(串聯式)
就像便當裡有白飯、雞腿、青菜三樣分開的菜。
- 先把你的聲音 → 轉成文字(聽寫)
- 文字 → 想答案(思考)
- 答案 → 再變回聲音(朗讀)
缺點:轉成文字的時候,你的「哭腔」、「笑聲」、「生氣」通通不見了!AI 只會看到冷冰冰的文字 😢
做法二:一鍋煮火鍋(端到端)
聲音進去,聲音出來,中間不轉成文字,全部一口氣搞定!
優點:你的情緒、語氣通通都留著,AI 可以聽得更清楚你想表達什麼。
🦖 AI 的進化史:從恐龍時代的小老鼠說起
你知道嗎?恐龍時代其實就有哺乳類動物了,只是牠們小小的,躲在角落,看起來超弱。但最後統治地球的卻是牠們的後代(包括我們人類)!
AI 的發展也很像喔!
2015 年的時候,有人做了第一個「一鍋煮」的語音 AI,結果爛得要命,錯誤率高達 38.8%(100 個字會聽錯快 40 個!)。那時候的「便當組合餐」只錯 10%,大家都覺得:「一鍋煮?不行啦!」
但是——新技術剛出現時很弱,不代表它以後會一直很弱喔! 就像小小的哺乳類最後變成了獅子、大象和人類一樣。
🤔 小朋友想想看:如果你剛學騎腳踏車一直跌倒,會不會就放棄了?還是會相信自己以後可以騎得很棒?
🧠 AI 是怎麼變聰明的?
招式一:自己學習,不用老師教
以前要教 AI 聽懂人話,要給它「一句話」配「一行字」,讓它對照著學,超累!
後來科學家想出一招:讓 AI 聽一大堆聲音,自己去找規律。就像你看很多卡通,就算沒有人教你,你也會知道哪個是壞人、哪個是好人一樣!
這招超強,只要給 AI 聽 10 分鐘有答案的錄音,它就可以學得超棒,比以前聽 100 小時還厲害!
招式二:聲音變成小積木(Token)
AI 沒辦法直接「吃」聲音,所以科學家把聲音切成一小塊一小塊的「積木」,叫做 Token。
就像你玩樂高一樣,把每個聲音片段變成一塊積木,AI 就可以用這些積木來組合、預測下一塊會是什麼。
😱 語音 AI 遇到的超大難題
難題一:資料超級少!
你知道嗎?
- 文字 AI(像 ChatGPT)讀過的文字超級多
- 如果要用聲音達到一樣的知識量,需要 28.5 萬年的錄音!😱
28.5 萬年耶!從恐龍時代錄到現在都還不夠!
難題二:會忘記以前學過的東西
想像一下:你本來數學很厲害,結果每天只練習畫畫,過了一年後你就忘光光數學了。
AI 也一樣!如果只教它講話,它就會忘記原本學過的知識(這叫「災難性遺忘」,名字超中二對吧?)。
解決方法:讓 AI 一邊講話、一邊也想著文字,這樣它就不會忘記啦!
🤔 小朋友想想看:你有沒有遇過學新東西,結果舊的反而忘掉的經驗呢?
🚀 超厲害的新招式:邊講邊想(STITCH)
你知道一個很厲害的秘密嗎?
AI 生成一段 2 秒的聲音,只要 0.5 秒就完成了。那剩下的 1.5 秒在幹嘛?閒著!
聰明的科學家想到:「那不如讓 AI 在播放聲音的時候,偷偷在背後動腦筋想下一句怎麼回答!」
這就像你在講話的時候,腦袋已經在想下一句要說什麼了,對不對?
用了這招以後,AI 解數學題的正確率從 63% 衝到 78%!而且你完全不會感覺它「卡住」!
🎯 還有哪些挑戰?
-
搶話問題:你跟朋友聊天會「嗯嗯」、「對啊」地回應,還會搶話。但 AI 現在還不太會一邊聽一邊講喔!
-
時間感:你叫 AI「安靜 10 秒鐘」,它其實搞不清楚 10 秒有多久 ⏰
📝 今天學到了什麼?
-
語音語言模型就是能「聽你說話、也用聲音回答你」的 AI,比打字聊天更自然!
-
一鍋煮的方式(端到端)比便當組合(串聯式)好,因為不會把你的情緒和語氣搞丟。
-
新技術剛出現時常常很弱,但不代表它沒有未來,就像恐龍時代的小動物最後統治了地球。
-
AI 會忘記東西(災難性遺忘),所以要讓它一邊說話、一邊記住文字知識才不會變笨。
-
AI 可以邊說邊想(STITCH),利用講話的空檔在背後動腦筋,變得又快又聰明!
下次你用語音跟 AI 聊天的時候,想一想——背後有多少聰明的科學家,花了十幾年才讓它變得這麼厲害呢!✨
📺 原始影片:觀看原始影片
👨👩👧 家長版/進階版(點擊展開)
【生成式人工智慧與機器學習導論2025】第 10 講:語音語言模型發展史 (本課程前段內容為歷史回顧,2025 年的技術從 14200 開始)
語音語言模型(Speech Language Model)發展史與前沿技術導論
【詳盡摘要】核心總結 (Executive Summary)
本文件詳細記錄了語音語言模型(Speech Language Model)從早期概念萌芽到 2025 年前沿技術的演進史。從第一人稱的研究視角,揭示了語音技術如何從早期的「串聯式系統(Cascade Model)」與表現極差的「端到端(End-to-End)」萌芽期,經歷表徵學習(Representation Learning)、無監督學習的突破,最終進入與強大文字大模型融合的混合生成時代。重點探討了語音與文字標記(Token)的聯合訓練機制以克服「災難性遺忘」,並介紹了最新架構如 TASTE(動態長度語音標記)與 STITCH(邊說邊想的推理機制),同時也點出未來在全雙工(Full Duplex)與非語意資訊(Paralinguistic)回饋上的研究挑戰。這不僅是一部技術演進史,更是對「新技術潛力(上限)大於當下表現(SOTA)」的深刻反思。
1. 語音語言模型的定義與基礎概念
1.1 什麼是語音語言模型?
- 基本定義:輸入語音、輸出語音的模型(輸入與輸出皆為聲音訊號)。
- 與語音合成(TTS)的差異:TTS 僅是將輸入的文字轉化為聲音(複述);而對話型的語音語言模型會理解語意並給出「回應」(例如輸入 “How are you”,輸出 “I’m fine” 的語音)。
- 運作模式的分類:
- 對話模式(Dialog Mode):直接回應使用者的語音對話(如 ChatGPT Voice Mode, Gemini Live)。
- 指令模式(Command Mode / Speech Aware Language Model):除了語音輸入,還需輸入特定的指令(Instruction),例如要求辨識情緒(回覆 happy)或進行翻譯。
1.2 系統架構比較:Cascade vs. End-to-End
特性 串聯式系統(Cascade Solution) 端到端系統(End-to-End Solution) 架構組成 語音辨識(ASR) + 文字模型(LLM) + 語音合成(TTS) 單一神經網路,直接輸入語音輸出語音 開發難度 極低(可直接串接現成 API) 極高(尚在重點研發階段) 資訊流失 巨大。轉成文字後,語者身分、情緒、環境音等非語意資訊(Paralinguistic)全數遺失 無流失。保留原始語音的所有豐富特徵 延遲(Latency) 較高(需等待上一個模組處理完畢),需大量工程優化才能即時 較低(輸入後可直接啟動生成) 能力上限 受限於文字轉換的資訊瓶頸 極高。最終期望能理解聲音的所有面向
2. 史前與寒武紀時代:End-to-End 與深度學習的早期掙扎 (2010-2015)
- 深度學習的非主流起步:2010 年 ICASSP,Hinton 的學生發表使用受限玻爾茲曼機(Restricted Boltzmann Machine)進行音素辨識。當時錯誤率高達 26.7%(甚至不及當時 HMM 的 24.8%),並未立刻引起轟動。
- End-to-End ASR 的初登場:2015 年 Interspeech 出現了第一篇真正意義上的端到端語音辨識論文。在 Switchboard 測試集上錯誤率高達 38.8%(當時傳統 Cascade 方法已做到 10.4%)。
- 演化啟示:新技術剛出現時往往表現不如當時的 SOTA(State of the Art),但評估技術應看其「能力上限」而非當下表現。猶如中生代的哺乳動物(如摩根齒獸),在恐龍統治下看似弱小,卻具備最終統治生態系的潛力。
3. 奧陶紀至中世紀:表徵學習與無監督突破 (2016-2021)
3.1 語音搜尋與無監督語音辨識的誕生
- 音訊詞向量(Audio Word Vector, 2016):為解決動態時間扭曲(DTW)演算法的算力耗損,利用單層 LSTM 將不等長的聲音片段編碼成固定長度的向量。
- 分段式音訊詞向量(Segmental Audio Word Vector, 2018):結合切分(Segmentation)與向量化,讓模型自主學習聲音的邊界(Boundary)。訓練目標除了讓輸入與輸出越接近越好,還需加上「切分片段越少越好」的限制,避免模型作弊。
- 無監督語音辨識(Unsupervised ASR, 2018):利用生成對抗網路(GAN),判別器(Discriminator)負責分辨音素序列是來自真實文本還是語音生成。首次在無任何語音-文字標註資料下,於 TIMIT 資料集達到 60% 錯誤率(後來降至 30%),達到了早期監督式學習的水平。
3.2 語音表徵模型(Speech Representation Models)的爆發
- 語音版 BERT(Mockingjay / TERA, 2019):
- 採用連續遮罩(Consecutive Masking):一次遮蔽 3 到 9 個影格(Frame),強迫模型學習更長遠的資訊。
- 在頻帶(Frequency Band)方向進行遮罩,有助於學習語者特徵。
- 突破性的表徵模型(wav2vec 2.0 / HuBERT, 2020-2021):
- 大幅降低 ASR 對標註資料的依賴。僅使用 10 分鐘的標註資料加上 wav2vec 2.0,錯誤率可降至 4-5%(優於過去 100 小時資料加上 6 層 LSTM 的結果)。
- SUPERB 基準測試(2021):證明了語音表徵模型的「通用性(Universal)」。
- 分層特徵現象:研究發現模型的前幾層擅長捕捉「語者資訊(Speaker Info)」,而後幾層才包含豐富的「內容語意(Content/Phoneme)」。
- 權重總和(Weighted Sum)策略:下游任務只需將各層特徵加權總和,由模型自動學習任務所需的特定層級資訊,使單一基礎模型能達成十項全能。
4. 第一代語音語言模型與算力之壁 (2021-2023)
4.1 初代架構與 Token 類型
- GSLM (Generative Spoken Language Model):最早的生成式語音語言模型之一。包含 Tokenizer(將聲音轉標記)、Autoregressive Model(預測下一個標記)、Detokenizer(還原聲音)。
- 語音標記的兩大門派:
- 語意標記(Semantic Token):直接從表徵模型(如 HuBERT)的輸出進行 K-Means 分群取得。
- 聲學標記(Acoustic Token / Neural Speech Codec):Tokenizer 與 Detokenizer 聯合訓練,注重聲音的壓縮與解壓縮還原。
4.2 訓練困境與數據量鴻溝
- 災難性的上下文學習缺陷:初代的語音語言模型(僅用 Unlabeled Data 預訓練)無法像 GPT-3 那樣自動展現上下文學習(In-context Learning)能力,只能做無意義的「語音接龍」,必須依賴微調(SFT / Soft Prompt)。
- 算力與資料密度的不對等:
- 語音資料極度稀疏:100 萬小時的語音僅等同於 60 億(6B)個文字 Token。
- 若要達到 Llama 3(15T Tokens)的知識量,需要高達 28.5 萬年的語音資料。
- 語音 Token 的採樣率通常為 50 Hz(文字約 3-4 Hz),序列長度是文字的 10 倍以上,導致 Attention 運算量暴增 100 倍。
5. 現代語音大模型的技術躍進 (2024-2025)
2024 年 5 月 GPT-4o 的發布震驚了學界,標誌著真正流暢的 End-to-End 語音互動時代到來。以下為當前主流的解法與研究路徑:
5.1 混合生成與克服「災難性遺忘」
- 文字初始化(Text Initialization):利用現有的強大文字模型(如 Llama, GLM)的參數來初始化語音模型,繼承其強大的邏輯與知識庫。
- 避免遺忘的關鍵機制:如果模型只生成語音 Token,會迅速遺忘原本在文字階段學到的豐富知識。因此在訓練時,必須強迫模型同時產生文字 Token 與語音 Token。
- 交錯生成策略(Interleaving):
- 區塊交錯(Chunk-wise Interleaving):無視語音與文字長度不一的問題,強制設定比例(例如:生成 1 個文字 Token,接著生成 2 個語音 Token),如 GLM-4-Voice 的做法。
5.2 新世代語音標記:TASTE 架構
為了解決語音 Token 過長的問題,提出了 TASTE(Align Speech Tokenization And Embedding)。
- 動態長度 Token:不再使用固定時間(如 0.02 秒)切分。
- 跨模態注意力(Cross-Attention):利用 ASR 得出的文字作為 Query,對 Whisper 抽取的特徵(Key/Value)做 Attention。
- 功能分離:文字數量等於語音 Token 數量(1 對 1)。文字 Token 負責「內容要說什麼」,而對應的 1 個語音 Token 專職負責「發音、語速、情緒等非語意特徵(Paralinguistic)」。這大幅降低了模型預測的難度。
5.3 強化學習與對齊人類偏好 (RLHF)
- 語音專屬的獎勵模型(Reward Model):不僅要求回答內容正確,還要求模型能偵測使用者的非語意線索(如:用高興的語氣回應高興的使用者;對兒童不提供開設銀行帳戶的建議;聽懂人類的「反諷」語氣並道歉)。
5.4 邊說邊想:STITCH 推理機制
賦予語音模型類似深度思考(Reasoning)的能力,但為了解決語音互動不能有長時間延遲(Latency)的痛點,提出了 STITCH 機制。
- 利用時間差(Buffer Time):單張 A100 生成 39 個語音 Token 並合成出 2 秒的聲音只需 0.5 秒。系統利用剩下的 1.5 秒空檔(Idle Time)。
- 無縫推理:在播放聲音的同時,模型在背景瘋狂生成高達 100 個「推理標記(Reasoning Token,即思考過程)」,再據此生成下一段語音。
- 成效顯著:在不增加使用者等待時間的前提下,將數學推理正確率從 63% 提升至 78%。且推理過程交由更強大的純文字大模型(如 GLM-4 9B)來執行效果更佳。
6. 未來挑戰與延伸方向
- 全雙工對話(Full Duplex):人類對話是雙向且可中斷的(例如隨時插嘴、給予 “嗯、對” 等回饋音)。如何讓模型同時聽與說,且正確判斷何時停止或覆蓋發言,是當前重要評估指標。
- 物理時間的感知:目前的語音模型缺乏對現實物理時間流逝的概念(無法確實執行「安靜 10 秒鐘」的指令)。
延伸思考與卡片盒筆記關聯 (Zettelkasten)
- 語音表徵模型的分層特徵萃取:延伸思考神經網路的層級(Layer)如何對應不同的聲學與語意特徵,這與 NLP 領域的 BERTology 有何異同?
- 災難性遺忘 (Catastrophic Forgetting) 在多模態模型的挑戰:跨模態微調(如文字轉語音)時,如何透過 Hybrid Decoding 或 Interleaving 技術保留預訓練模型的知識?
- STITCH:隱藏延遲的非同步推理架構:探討在即時系統(Real-time System)中,如何利用算力與播放時間差來插入思維鏈(Chain of Thought),這是否可應用於其他需要即時互動的 AI Agent(如自動駕駛或機器人操控)?
📋 來源聲明:本教材為非營利教育用途的高度轉化作品。原始出處標註於家長版中。