13. AI與人類如何合作

⏱️ 30 秒版（先看這裡！）

一、同一份研究工作，博士生哥哥要花 16 小時、約 3 萬元；AI 一下子就做完，只要 300 元。二、但 AI 的點子常常「聽起來超厲害、真的做卻做不出來」——華而不實。三、所以最強的組合是：人類負責問出好問題，AI 負責把細節做完。提問力比以前更重要了。

🤖 AI 會搶走科學家的工作嗎？

小朋友，你每天寫功課要花多久？一小時？兩小時？

美國史丹佛大學有位教授做了個超好玩的實驗。他把一份超難的「寫研究論文」作業，同時交給兩個人：一位很聰明的博士生哥哥，和一個叫 Claude 的 AI。

你猜誰先寫完？

博士生哥哥寫了 16 個小時（整整兩個上班天），薪水成本大約台幣 3 萬元 💸
AI 一下子就做完了，只花台幣約 300 元 💰

差了 100 倍！ 這就像同一瓶飲料，一個賣 25 元、一個賣 2500 元，你會選哪個？（不過教授也花了大約 1 小時，很仔細地教 AI 該怎麼做——這點很重要喔。）

① AI 的三次進化，就像寶可夢

你可以把 AI 想成會進化的皮卡丘：

🥚 第一階段：乖乖聽話的工具 — 像遙控車，你按前進它才前進，要一直盯著。
🐣 第二階段：幫忙的小幫手 — 像一起做報告的同學，你做一點、它做一點。
🐔 第三階段：AI Agent（代理人） ← 我們現在在這裡！ 你只要說「幫我研究為什麼天空是藍色的」，它就會自己找資料、自己思考、自己寫出一整篇報告。

🤔 小朋友想想看： 如果你有這樣的 AI 助手，你會叫它幫你做什麼？（但功課要自己寫喔，不然你會學不到東西！）

AI 甚至會自己做科學實驗：有位很厲害的工程師寫了個程式，讓 AI 每 5 分鐘做一次實驗——做實驗 🧪 → 看結果好不好 👀 → 不好就自己改進 💡 → 再做一次，完全不用人類幫忙，越做越好。

② 但 AI 有個大缺點：華而不實

科學家辦了場比賽：讓 AI 和人類比誰想出更棒的研究點子。

第一回合（只看點子）：AI 贏了！ ✨ 它的點子聽起來超酷、超新奇。
第二回合（真的動手做做看）：人類贏了！ 🎉

為什麼？因為 AI 很會用很帥很厲害的詞彙包裝點子，真要做的時候才發現——做不出來！

這就像有人說：「我要發明一台『量子時空魔法飛天腳踏車』！」聽起來超帥對吧？但真的要做？根本做不出來啊 😂

🤔 小朋友想想看： 為什麼 AI 會想出「看起來很厲害但做不出來」的點子？是不是因為它沒有真的去玩過、試過？

③ 最好的合作方式，還有一個叫「小金」的助教

有位老師做了個 AI 助教「小金」，專門幫學生看作文。一開始小金很兇，一直罵學生，大家都想哭 😭 於是老師教它兩件事：

只批評不行，要給建議：就像球打不好，教練不能只說「你很爛」，要說「試試看把手抬高一點」。
要看時間：作業還很久才交 → 「你這裡可以再加強，去多查資料！」；作業明天就要交 → 「哇你寫得好棒！改一點小地方就完美啦！」給滿滿鼓勵 💪（因為都要交了還叫人重寫，只會崩潰啊。）

那人類還有用嗎？有個學術比賽規定論文一定要由 AI 寫，結果發現：會被選上的好論文都有個共同點——

✅ 「想點子」和「設計實驗」的階段，人類參與很多 ✅ 「分析資料」和「寫文章」的階段，AI 自己就做得很好

就像做披薩：人類是主廚，決定要做什麼口味 🍕；AI 是幫手，負責切料、揉麵團、送進烤箱 👨‍🍳

🏠 生活裡的例子

這一課最重要的一句話是：未來最厲害的人，不是最會用電腦的人，而是最會問好問題的人。 因為「做」這件事 AI 很強，但「該做什麼」還是要人決定。所以平常就多問「為什麼？」吧。

💡 小任務：今天回家，試著問爸爸媽媽一個他們答不出來的好問題！這就是在練習提問力 🌟

🎒 今天學到了什麼？

AI 進化了三次：工具 → 小幫手 → 能自己完成整個任務的 AI Agent。
AI 又快又便宜：同樣的研究工作，成本可以差到 100 倍。
AI 的點子常華而不實：聽起來新奇，真的做卻做不出來。
最佳分工：人類想出重要的問題，AI 做細節與分析。
提問力最重要：未來最有價值的能力，是問出好問題。

Q: AI 在「想研究點子」的比賽中，為什麼第二回合輸給人類？
- AI 突然變笨了
- *它的點子只是堆砌新穎詞彙，真的動手做才發現做不出來（可行性低）
- 因為評審偏心
解釋: AI 擅長語言的組合，但缺乏對「做得出來與否」的現實理解。
Q: 目前人類與 AI 最好的分工方式是？
- 人類做全部，AI 只打字
- *人類負責發想點子與設計實驗，AI 負責分析資料與撰寫
- AI 做全部，人類不用管
解釋: 研究發現被接受的好論文，在發想與設計階段都有很高的人類參與。
Q: 這一課認為未來最重要的能力是什麼？
- 打字很快
- *問出好問題的能力（提問力）
- 背很多知識
解釋: 「怎麼做」AI 很強，但「該做什麼」仍須由人來定義。

AI Agent (33)：AI Agent 對於工作帶來的衝擊 — 以學術研究為例

📖 家長導讀

本篇改編自李宏毅教授《AI Agent》系列第 33 講，以學術研究為縮影，探討 AI Agent 對高階知識工作的衝擊：AI 從「工具」→「協作者」→「自主代理」的演進、驚人的成本效率差距、AI 研究構想「華而不實」的缺陷，以及最終浮現的人機分工新典範。孩子版聚焦「100 倍的助理、華而不實、人類問問題／AI 做細節、提問力」；本版補齊研究與數據，並在查核筆記中修正一處對原始論文的過度簡化。

🔍 完整概念

一、AI 角色的三階段演進。（1）指令型工具：一個口令一個動作，依賴人類微觀控制。（2）協同（Copilot）：與人類分擔任務。（3）自主代理（Agent）：給定高階目標後自行規劃步驟、獨立完成複雜任務（如撰寫完整論文）。

二、「100 倍的研究助理」。 史丹佛政治經濟學教授 Andrew Hall 要求 AI 依其既有研究方法、以最新美國大選資料擴展並撰寫一篇新論文。教授花約 1 小時設計細緻提示詞（如同指導研究生），Claude Code 即獨立完成，成本約 10 美元；同樣任務交給博士生則耗時 16 小時（兩個工作天），以美國薪資計成本至少 1,000 美元。品質上人類「稍微」較佳（AI 曾貼錯一筆數據），但在 100 倍成本差距下 CP 值懸殊。容錯經濟學：即使 AI 會犯錯，花 50 美元讓它跑 5 次交叉比對，仍比人類便宜 20 倍。推論：未來高產出的研究機構，可能是一位資深學者帶著一群 LLM Agent，而非一群人類研究生。

三、這是否違背研究本質？ 研究的核心價值不在累積論文數或 H-Index，而在「發現問題、解決問題，讓世界更好」。若 AI 解題能力更強，交由 AI 代勞並不違背初衷——真正該守住的是「問題由誰定義」。

四、從文獻回顧到全自動實驗。 Andrej Karpathy 釋出的自動研究專案展示 LLM 可自動訓練機器學習模型：Agent 每 5 分鐘進行一次實驗，訓練第一版→評估表現→自主修改訓練腳本→訓練下一版，全程零人類干預地持續提升。

五、人類 vs. AI：誰的研究構想更好？ 這是一項橫跨兩階段的研究。初步發想階段：以 RAG 讓 LLM 大量閱讀文獻後生成構想，領域專家盲測評分認為 AI 構想在新穎度上顯著勝過人類，但在可行性上輸給人類。實作驗證階段：後續團隊把這些構想真正做成短論文後發現，AI 的點子往往是「表面堆砌新穎詞彙」，看似高深卻難以執行，最終人類在實質創新上勝出。講者提醒：這是基於當時的模型能力，AI 迭代極快，未來面對的只會是更強的模型。

六、AI 擔任審查委員。 AAAI 已在審查流程中引入 AI Reviewer（每篇論文除人類審查委員外，另配置 AI 審查者與 AI Meta Reviewer 供決策參考）。講者擔任 Area Chair 時，曾抓到掛人類名字的 review 開頭竟寫著「Sure I can help you write this review」，顯示人類審查者早已在使用 AI 代工。其立場是反對「不夠聰明的 AI」而非反對 AI：曾有 AI 胡亂稱一篇分析型論文「提出了新方法」，被退回後只愚蠢地改了第一點，暴露背後僅是簡單的 prompt 替換。

七、個人化 AI 助教「小金」的提示詞工程。 初版模型「批評多於建議」，經修正 prompt 強制要求有批評必附具體修改建議，回饋品質大幅提升。並導入動態情境感知：距截稿日尚遠 → 建議補做實驗；只剩 24 小時 → 切換為僅給語句潤飾建議並提供大量情緒價值（鼓勵），避免學生崩潰。

八、全 AI 驅動的學術會議。 史丹佛研究者舉辦要求 AI 必須是第一作者的實驗性會議，接受率低於 20%（據報約 247 篇投稿、48 篇接受），難度堪比人類頂會。核心發現：把論文產出拆為「發想／設計／分析／寫作」四階段後，被接受的優秀論文，在「發想」與「實驗設計」兩個前期階段有極高比例的人類介入；而「資料分析」與「論文寫作」AI 已能獨立完成。結論：現階段 AI 仍難無中生有產出真正具創造力的新點子（多為既有概念的重排組合），因此人類定義目標與問題、AI 執行細節與分析是當前最佳協作模式。

✅ 查核筆記（附實證依據）

課程來源：屬實，李宏毅《AI Agent》系列第 33 講。
AI 研究構想「更新穎但可行性較低」：屬實，Si, Yang & Hashimoto（Stanford, 2024）〈Can LLMs Generate Novel Research Ideas?〉以逾百位 NLP 研究者盲測，發現 LLM 構想在新穎度顯著勝過人類專家，但可行性略遜；後續的實作（execution）研究顯示新穎度優勢在真正做出來後大幅縮水。
⚠️ 原稿表格宜修正：原講義將「有效性（Effectiveness）」也列為 AI 勝出。在原始研究中，該面向未達統計顯著差異，AI 明確勝出的主要是「新穎度」（興奮度次之），而「可行性」是人類勝出。孩子版與本版正文已依原始論文的結論陳述，未沿用該表格。
AAAI 引入 AI 審查委員：屬實，AAAI 於近期審查流程中試辦 AI 輔助審查。
AI 為第一作者的學術會議：屬實，史丹佛主辦的 Agents4Science（2025）為首個要求 AI 擔任第一作者的會議；投稿／接受篇數為據報數字，宜以官方統計為準。
Andrew Hall 的 100 倍成本實驗：屬實方向，為 2025 年廣受討論的公開實驗；具體金額（10 美元 vs 1,000 美元）為估算值，會因薪資與 API 計價而異。
Karpathy 的自動研究專案：屬實方向，Andrej Karpathy 公開釋出過讓 LLM 自主迭代訓練腳本的實驗性專案；「每 5 分鐘一次實驗」為其設定，非通則。
AI 缺乏真正的創造性發想：屬實方向，與「LLM 擅長既有概念重組、缺乏世界模型」的主流觀點一致；惟此為當前技術限制，非本質結論。

📚 原始出處

AI Agent (33)：AI Agent 對於工作帶來的衝擊（YouTube）｜李宏毅，國立臺灣大學

🧭 接下來讀這篇

👉 下一關：解剖 AI 小龍蝦

📖 AI 會搶工作嗎？：加薪，為什麼有人反而想少工作？　工作，不是固定的一塊餅。

📋 AI 共學與免責聲明

本教材為 SparkSoul 智慧實驗室家庭共學的實驗紀錄，由 AI 協作萃取整理自公開課程或文獻，家長一起參與閱讀。我們不保證學術上的絕對無誤，鼓勵讀者點擊原始連結進行深度探索；若發現錯誤，歡迎透過 Facebook 粉專告訴我們。涉及醫療、投資或法律等專業判斷，請另行諮詢專業人士。

原始來源

📺 點此觀看原始來源

✨ SparkSoul 自學基地

探索

🤖 AI 會搶走科學家的工作嗎？

① AI 的三次進化，就像寶可夢

② 但 AI 有個大缺點：華而不實

③ 最好的合作方式，還有一個叫「小金」的助教

🏠 生活裡的例子

🎒 今天學到了什麼？

AI Agent (33)：AI Agent 對於工作帶來的衝擊 — 以學術研究為例

📖 家長導讀

🔍 完整概念

✅ 查核筆記（附實證依據）

📚 原始出處