🧒 十歲小孩版

🔗 原始文章:【生成式人工智慧與機器學習導論2025】第_10_講:語音語言模型發展史_(本課程前段內容為歷史回顧,2025_年的技術從_14200_開始) | 台大李宏毅教授

嗨!你有沒有用過 Siri、Google 助理,或是跟 ChatGPT 的語音模式聊過天呢?

你有沒有想過——為什麼以前的 Siri 講話卡卡的、有時候還聽不懂你在說什麼;但現在的 AI 語音助理,居然可以跟你聊天、還聽得出你是在開心還是生氣?

今天我們就要來當個小偵探,一起來看 AI 是怎麼從「鴨子聽雷」進化成「聊天高手」的喔!


🎤 什麼是「語音語言模型」?

先來想像一下:你跟朋友講 LINE 語音通話的時候,你說「你好嗎?」朋友會回你「我很好啊!」對吧?

語音語言模型就是一個 AI,它可以像你朋友一樣,聽你用嘴巴說話,然後也用嘴巴回答你,中間都不用打字喔!

這跟以前我們熟悉的 Google 小姐不一樣喔!Google 小姐只會把你打的字「唸出來」,它不會理解你在說什麼。但語音語言模型會「聽懂」然後「回答」你。

🤔 小朋友想想看:如果 AI 只能把聲音轉成文字,再從文字轉回聲音,那你講話時的「笑聲」、「生氣的語氣」會不會被它聽出來呢?


🍱 兩種做法:便當 vs. 一鍋煮

AI 要怎麼聽你講話、再回你話呢?有兩種做法:

做法一:便當組合餐(串聯式)

就像便當裡有白飯、雞腿、青菜三樣分開的菜。

  1. 先把你的聲音 → 轉成文字(聽寫)
  2. 文字 → 想答案(思考)
  3. 答案 → 再變回聲音(朗讀)

缺點:轉成文字的時候,你的「哭腔」、「笑聲」、「生氣」通通不見了!AI 只會看到冷冰冰的文字 😢

做法二:一鍋煮火鍋(端到端)

聲音進去,聲音出來,中間不轉成文字,全部一口氣搞定!

優點:你的情緒、語氣通通都留著,AI 可以聽得更清楚你想表達什麼。


🦖 AI 的進化史:從恐龍時代的小老鼠說起

你知道嗎?恐龍時代其實就有哺乳類動物了,只是牠們小小的,躲在角落,看起來超弱。但最後統治地球的卻是牠們的後代(包括我們人類)!

AI 的發展也很像喔!

2015 年的時候,有人做了第一個「一鍋煮」的語音 AI,結果爛得要命,錯誤率高達 38.8%(100 個字會聽錯快 40 個!)。那時候的「便當組合餐」只錯 10%,大家都覺得:「一鍋煮?不行啦!」

但是——新技術剛出現時很弱,不代表它以後會一直很弱喔! 就像小小的哺乳類最後變成了獅子、大象和人類一樣。

🤔 小朋友想想看:如果你剛學騎腳踏車一直跌倒,會不會就放棄了?還是會相信自己以後可以騎得很棒?


🧠 AI 是怎麼變聰明的?

招式一:自己學習,不用老師教

以前要教 AI 聽懂人話,要給它「一句話」配「一行字」,讓它對照著學,超累!

後來科學家想出一招:讓 AI 聽一大堆聲音,自己去找規律。就像你看很多卡通,就算沒有人教你,你也會知道哪個是壞人、哪個是好人一樣!

這招超強,只要給 AI 聽 10 分鐘有答案的錄音,它就可以學得超棒,比以前聽 100 小時還厲害!

招式二:聲音變成小積木(Token)

AI 沒辦法直接「吃」聲音,所以科學家把聲音切成一小塊一小塊的「積木」,叫做 Token

就像你玩樂高一樣,把每個聲音片段變成一塊積木,AI 就可以用這些積木來組合、預測下一塊會是什麼。


😱 語音 AI 遇到的超大難題

難題一:資料超級少!

你知道嗎?

  • 文字 AI(像 ChatGPT)讀過的文字超級多
  • 如果要用聲音達到一樣的知識量,需要 28.5 萬年的錄音!😱

28.5 萬年耶!從恐龍時代錄到現在都還不夠!

難題二:會忘記以前學過的東西

想像一下:你本來數學很厲害,結果每天只練習畫畫,過了一年後你就忘光光數學了。

AI 也一樣!如果只教它講話,它就會忘記原本學過的知識(這叫「災難性遺忘」,名字超中二對吧?)。

解決方法:讓 AI 一邊講話、一邊也想著文字,這樣它就不會忘記啦!

🤔 小朋友想想看:你有沒有遇過學新東西,結果舊的反而忘掉的經驗呢?


🚀 超厲害的新招式:邊講邊想(STITCH)

你知道一個很厲害的秘密嗎?

AI 生成一段 2 秒的聲音,只要 0.5 秒就完成了。那剩下的 1.5 秒在幹嘛?閒著!

聰明的科學家想到:「那不如讓 AI 在播放聲音的時候,偷偷在背後動腦筋想下一句怎麼回答!」

這就像你在講話的時候,腦袋已經在想下一句要說什麼了,對不對?

用了這招以後,AI 解數學題的正確率從 63% 衝到 78%!而且你完全不會感覺它「卡住」!


🎯 還有哪些挑戰?

  1. 搶話問題:你跟朋友聊天會「嗯嗯」、「對啊」地回應,還會搶話。但 AI 現在還不太會一邊聽一邊講喔!

  2. 時間感:你叫 AI「安靜 10 秒鐘」,它其實搞不清楚 10 秒有多久 ⏰


📝 今天學到了什麼?

  1. 語音語言模型就是能「聽你說話、也用聲音回答你」的 AI,比打字聊天更自然!

  2. 一鍋煮的方式(端到端)比便當組合(串聯式)好,因為不會把你的情緒和語氣搞丟。

  3. 新技術剛出現時常常很弱,但不代表它沒有未來,就像恐龍時代的小動物最後統治了地球。

  4. AI 會忘記東西(災難性遺忘),所以要讓它一邊說話、一邊記住文字知識才不會變笨。

  5. AI 可以邊說邊想(STITCH),利用講話的空檔在背後動腦筋,變得又快又聰明!

下次你用語音跟 AI 聊天的時候,想一想——背後有多少聰明的科學家,花了十幾年才讓它變得這麼厲害呢!✨


📺 原始影片觀看原始影片



📋 來源聲明:本教材為非營利教育用途的高度轉化作品。原始出處標註於家長版中。