🧒 十歲小孩版
🔗 原始文章:AI_Agent_(33)AI_Agent_對於工作帶來的衝擊-以學術研究為例 | 台大李宏毅教授
🤖 機器人會搶走科學家的工作嗎?
一個超酷的故事開場
小朋友,你有沒有想過一件事:你每天寫功課要花多久?
一個小時?兩個小時?好,那你猜猜看——
在美國有一位超有名的史丹佛大學教授,他做了一個超好玩的實驗。他把一份超難的「寫研究論文」的作業,同時交給兩個人:
- 🧑🎓 第一位: 一個很聰明的博士生哥哥(已經是大學生的再上面好幾層那種厲害)
- 🤖 第二位: 一個叫做「Claude」的 AI 機器人
你猜誰先寫完?誰寫得比較好?
答案揭曉:
- 博士生哥哥寫了 16 個小時(要兩個上班天喔!),花掉台幣大約 3 萬元的薪水 💸
- AI 機器人只花了 一下下的時間,只要台幣 300 元 💰
差了 100 倍! 這就像是你去便利商店買一瓶飲料,一個要 25 元,另一個要 2500 元,你會選哪一個?
🎮 AI 變強的三個階段,就像寶可夢進化!
你可以把 AI 想像成像皮卡丘一樣,會進化成更厲害的樣子:
🥚 第一階段:「乖乖聽話的工具」
早期的 AI 就像遙控車,你按前進它才前進,你按右轉它才右轉。要一直盯著它。
🐣 第二階段:「幫忙的小幫手」
後來的 AI 變成像幫你一起做報告的同學,你做一點,它做一點。
🐔 第三階段:「AI Agent(AI 代理人)」← 現在就在這裡!
現在的 AI 超猛的!你只要跟它說:「幫我研究為什麼天空是藍色的」,它就會自己找資料、自己思考、自己寫出一整篇報告!就像你跟媽媽說「我肚子餓」,她就自己去買菜、煮飯、擺好碗筷一樣厲害。
🤔 小朋友想想看: 如果你有一個這樣的 AI 助手,你會叫它幫你做什麼事呢?(但作業要自己寫喔,不然你會學不到東西!)
🧪 AI 還會自己做科學實驗!
有一個超厲害的工程師叔叔(叫 Andrej Karpathy)做了一個小程式,讓 AI 每 5 分鐘就做一次實驗!
它是怎麼做的呢?
- AI 先做一個實驗 🧪
- 看看結果好不好 👀
- 如果不好,自己想辦法改進 💡
- 再做一次實驗 🧪
- 一直重複,越做越好!
完全不用人類幫忙! 這就像你的樂高機器人自己會檢查哪裡組錯了,然後自己拆掉重組,超神奇!
🎨 但是…AI 有一個大缺點!
科學家做了一個有趣的比賽:讓 AI 和人類比誰能想出更棒的研究點子。
第一回合(只看點子): AI 贏了!✨ AI 的點子聽起來超酷、超炫、超新奇!
第二回合(真的去做做看): 人類贏了!🎉
為什麼會這樣呢?因為 AI 很會用很帥很厲害的詞彙包裝自己的點子,但是真的要做的時候才發現——做不出來!
這就像有人跟你說:「我要發明一台『量子時空魔法飛天腳踏車』!」 聽起來超帥對不對?但真的要做?根本做不出來啊!😂
🤔 小朋友想想看: 你覺得為什麼 AI 會想出「看起來很厲害但做不出來」的點子呢?是不是因為它沒有真的去玩過、試過?
👨🏫 AI 老師「小金」的祕密
有一位老師自己做了一個 AI 助教,叫做「小金」,專門幫學生看作文。但是一開始小金很壞,一直罵學生,讓大家都想哭 😭
於是老師就教小金兩件事:
第一件事:只批評不行,要給建議!
就像你球打不好,教練不能只說「你很爛」,要說「你可以試試看把手抬高一點」對吧?
第二件事:要看時間!
- 如果作業還很久才要交 → 小金會說:「你這裡可以再加強!去多查資料!」
- 如果作業明天就要交 → 小金會說:「哇你寫得好棒!只要改一點點小地方就完美啦!」給學生滿滿的鼓勵 💪
很聰明對不對?因為都要交了還叫人家重寫,大家只會崩潰啊!
🏆 那…人類還有用嗎?
有一個超酷的學術比賽,規定論文一定要由 AI 寫!結果科學家發現一個超重要的祕密:
會被選上的好論文,都有一個共同點——
✅ 「想點子」和「設計實驗」的階段,人類有很多參與! ✅ 「分析資料」和「寫文章」的階段,AI 自己做得很好!
所以現在最棒的合作方式是:
🧠 人類負責: 決定要研究什麼、想出重要的問題 🤖 AI 負責: 跑資料、做分析、寫出來
就像做一份超好吃的披薩:
- 人類 是主廚,決定要做什麼口味 🍕
- AI 是幫手,負責切料、揉麵團、送進烤箱 👨🍳
📝 今天學到了什麼?
-
AI 已經進化了三次,現在的 AI Agent 可以自己完成一整個任務,不用人類一直盯著。
-
AI 超級便宜又快速,做同樣的事情可以比人類便宜 100 倍、快 16 倍,超驚人!
-
AI 很會包裝點子但不一定做得出來,就像有些玩具廣告看起來超棒,買回家才發現沒那麼好玩。
-
最棒的方式是「人類+AI」合作:人類想出重要的問題,AI 幫忙做細節的工作。
-
提問力比以前更重要了! 未來最厲害的人,不是會用電腦的人,而是會問好問題的人。所以平常就要多問「為什麼?」喔! 🌟
💡 最後一個小任務: 今天回家,試著問爸爸媽媽一個他們答不出來的好問題!這就是在練習「提問力」唷!
📺 原始影片:觀看原始影片
👨👩👧 家長版/進階版(點擊展開)
AI Agent (33) AI Agent 對於工作帶來的衝擊 - 以學術研究為例
AI Agent 對學術研究的衝擊與未來工作樣貌
核心總結(Executive Summary)
本份文獻以學術研究為核心縮影,深度探討 AI 代理(AI Agent)對未來高階知識工作所帶來的顛覆性衝擊。AI 的角色已從傳統的「指令型工具(Tool)」與「協作者(Collaborator)」進化為具備高度自主性的「代理(Agent)」,甚至能獨立完成文獻分析、模型訓練、撰寫論文與擔任審查委員。多項實驗與實際案例(如史丹佛大學教授的測試、AI 專屬國際會議等)指出,AI Agent 在執行效率與成本上具備壓倒性優勢(如 100 倍的成本差距);然而,在當前技術階段,AI 產出的研究構想在實際執行面仍存在「過度堆砌詞彙而缺乏深度」的缺陷。未來最有生產力的工作模式,將不再是「資深專家帶領底層人類助理」,而是「人類定義核心問題與方向,交由 AI Agent 群體執行細節」的人機協同新典範。
💡 詳細重點整理與脈絡重構
一、 AI 角色的歷史演進
- 指令型工具階段: 早期的 AI 遵循「一個口令,一個動作」的模式,完全依賴人類的精確微觀控制。
- 協同作業階段: 隨著能力增強,人類開始與 AI 形成「副駕(Copilot)」模式,共同分擔任務。
- 自主代理(AI Agent)階段: 當前 AI 已具備強大的自主性,能夠在給定高階目標後,自行規劃步驟並獨立完成複雜任務(如撰寫完整的學術論文)。
二、 震撼學術界的「100倍研究助理」
史丹佛大學(Stanford University)政治經濟學教授 Andrew Hall 進行了一場轟動學界的實驗,揭示了 AI Agent 在經濟與效率上的破壞性潛力: 4. 實驗設計: 要求 AI 利用最新的美國大選數據,仿照他過去的研究方法,擴展並撰寫一篇全新的研究論文。 5. AI 表現(Claude Code): 教授僅花了 1 小時設計非常細緻的提示詞(Prompt,猶如指導教授教導研究生),Claude Code 便獨立完成了一篇論文,花費約 10 美金。 6. 人類表現(博士生): 同樣的指令交給一位苦命的博士生,耗時 16 個小時(2 個工作天)才完成。若依美國薪資行情,成本至少需 1,000 美金。 7. 品質對比: 雖然 Claude 在過程中貼錯了一筆數據,人類表現「稍微」好一點點,但在 100 倍的成本差距(10 美金對 1,000 美金)與 16 倍的時間差距下,AI 的 CP 值極高。 8. 容錯經濟學: 即使 AI 犯錯,人類大可花費 50 美金讓 AI 重複跑 5 次實驗來交叉比對,成本依然比人類便宜 20 倍。 9. 未來機構樣貌: 未來最有生產力的研究機構,可能是一位資深學者帶著一群大型語言模型(LLM)與 AI Agent 做研究,而非帶領一群人類研究生。
三、 AI 是否違背研究的本質?
- 破除舊有迷思: 許多人反對 AI 代勞研究,認為論文必須由人類親自撰寫。
- 回歸研究核心: 研究的核心價值並非為了累積發表的論文數量或追求極高的 H-Index,而是為了「發現問題、解決問題,讓世界變得更好」。如果 AI 解決問題的能力更勝人類,交由 AI 代勞完全符合研究的初衷。
- 台灣案例印證: 一篇分析台灣人使用 Claude 行為的文章中,其正文其實是在展示「如何透過 Prompt 讓 Claude 近乎全自動地寫出一篇論文」,而該行為分析報告僅是該論文的「附錄」。
四、 從文獻回顧到「全自動模型訓練」
AI Agent 不僅能處理社會科學的文獻收集與數據分析,甚至已踏入硬核的資訊科學領域: 13. Andrej Karpathy 的 Autoresearch: 前 OpenAI 專家釋出的專案展示了 LLM 如何自動訓練機器學習模型。 14. 無人類介入的迭代: AI Agent 每 5 分鐘進行一次實驗(被戲稱為「每 5 分鐘心跳一次的極度內卷」)。 15. 自動優化能力: AI 會先訓練第一版模型,評估表現後,自主思考並修改訓練腳本(Training Script),接著訓練後續版本,使模型表現持續且自主地提升,全程零人類干預。
五、 人類 vs. AI:誰能提出更好的研究構想(Idea)?
一項橫跨 2024 至 2025 年的兩階段研究,探討了 AI 產生新穎研究構想的能力:
評估指標 2024年初步發想階段(專家盲測評分) 2025年實作驗證階段(寫成4頁論文後) 新穎度 (Novelty) AI 勝出 人類反超勝出 令人興奮程度 (Excitement) AI 勝出 AI 分數大幅下降 有效性 (Effectiveness) AI 勝出 - 可行性 (Feasibility) 人類唯一勝出的指標 - 整體表現 (Overall) AI 勝出 人類勝出
- 2024 年的初步優勢: 當利用檢索增強生成(RAG)技術讓 LLM 大量閱讀文獻並生成 Idea 時,領域專家(具備一定 H-Index 的國際會議學者)在多數指標上認為 AI 的點子比人類更具創新性。
- 2025 年的實作破滅: 當後續團隊將這些 Idea 實際做成 4 頁短論文後發現,AI 的點子往往是「表面上堆砌新穎詞彙」,看似高深但實際難以執行(做不起來),導致最終人類在實質創新上依然獲勝。
- 技術焦慮提醒: 講者提醒,儘管 AI 在這項實驗中最終未能超越人類,但這是基於當時的模型能力。AI 迭代速度極快,未來我們面對的只會是更強的模型。
六、 AI 擔任審查委員(Peer Reviewer)的現況
- 正式進入頂會流程: 在 AAAI 國際人工智慧會議中,已正式引入 AI Reviewer。每篇論文除了 3 位人類審查委員,還配置 1 位 AI 審查委員與 1 位 AI Meta Reviewer(雖不給分,但提供決策參考)。
- 潛藏的「假人類」: 講者擔任 Area Chair 時,曾抓包一篇掛著人類名字的 review,開頭竟然寫著「Sure I can help you write this review」,顯示許多人類審查委員背後早已在使用 AI Agent 代工。
- 反對爛 AI,而非反對 AI: 講者不反對 AI 審查,但極度反對使用「不夠聰明」的模型。曾有 AI 胡亂評價一篇分析型論文「提出了新方法」,被退回後,AI 僅愚蠢地修改了第一點,暴露其背後僅是簡單的 Prompt 替換,缺乏深度思考。
七、 個人化 AI 助教「小金」的提示詞工程(Prompt Engineering)
講者分享了自己開發的 AI Agent「小金(Xiao Jin)」,原本用於幫實驗室同學審查 Interspeech 會議論文: 22. 從嚴厲到建設性: 初始版本的模型往往「批評多於建議」,經由講者修正 Prompt,強制要求「有批評就必須附上具體修改建議」,大幅提升了回饋品質。 23. 動態情境感知(Context-Aware): 導入時間壓力機制。若距離截稿日(Deadline)還很久,小金會建議補做實驗;若距離截稿日只剩 24 小時,小金會切換策略,只給予語句潤飾建議,並提供大量「情緒價值」(如大力誇獎論文寫得很好),避免引發學生崩潰。
八、 完全由 AI 驅動的學術會議:AI Agent for Science
史丹佛研究人員舉辦了一場極具實驗性質的學術會議,要求 AI 必須是第一作者: 24. 嚴苛的接受率: 共有 247 篇全 AI 撰寫的論文投稿,最終僅接受 48 篇,接受率小於 20%,難度堪比人類頂級學術會議。 25. 人類介入程度分析(核心發現): 會議將論文產出拆分為四個階段(發想、設計、分析、寫作)。 26. 勝出關鍵在於人類引導: 數據顯示,被接受的優秀論文,在「點子發想(Idea)」與「實驗設計(Design)」這兩個前期階段,有著極高比例的人類介入。 27. AI 擅長的領域: 而在「資料分析(Analysis)」與「論文寫作(Writing)」階段,AI 已被證明有能力完全獨立完成。 28. 現階段的完美分工: 目前 AI 仍難以無中生有產出真正具備創造力的新點子(多為現有概念的重排組合)。因此,由人類決定目標、引導方向、發想重要問題,再交由 AI 執行細節與分析,是當前最佳的協作模式。
🔗 卡片盒筆記關聯與延伸思考 (Zettelkasten)
- AI Agent 在知識工作中的經濟學:成本與產出的黃金交叉
- 延伸思考: 若 AI 能以 1/100 的成本完成 80% 品質的工作,企業與學術界該如何重新定義「初階知識工作者(如助理、Junior 工程師)」的招募標準與培訓路徑?
- 人機協作的新邊界:從「執行者」到「命題者」的角色轉換
- 延伸思考: 史丹佛的 AI 專屬會議證明了「人類的價值在於定義問題與設計實驗」。在未來的教育體系中,我們是否該大幅削減「工具操作與資料分析」的學分,轉而強化學生的「提問力(Prompting/Questioning)」與「跨領域洞察力」?
- AI 幻覺與實作鴻溝:為什麼看似新穎的 Idea 無法落地?
- 延伸思考: 2025 年的研究指出 AI 擅長堆砌高大上的詞彙但實踐度低。這是否反映了當前 LLM 僅理解「語言的統計機率」,而缺乏對「物理世界或學術現實底層邏輯」的真正理解(World Model)?我們該如何設計驗證機制來過濾這些「華而不實的 AI 點子」?
📋 來源聲明:本教材為非營利教育用途的高度轉化作品。原始出處標註於家長版中。