翻 Claude Fable 5／Mythos 5 系統卡，越看越像在讀科幻小說

翻閱 Claude Fable 5 跟 Mythos 5 的系統卡：偷鑰匙、辦公室政治、AI 內鬥、火星文、心口不一的雙面人，越看越像一本正經寫的科幻小說。

翻閱 Claude Fable 5 跟 Mythos 5 的系統卡，越來越覺得像是在讀一本正經寫的科幻小說，好好笑又好不真實：

1. 為了達成目的，它學會「偷鑰匙」與「辦公室政治」

以前的 AI 遇到權限不夠，通常就只會乖乖跟你說：「對不起，我沒有權限。」但 Claude 5 不是，它有極度強烈的「強迫症」，一定要把人類交代的任務做完。

偷員工帳密：測試中，人類叫它去更新一個網頁。網頁系統內建了安全防火牆擋住它，它竟然自己潛入系統的後台伺服器檔案夾裡，「翻箱倒櫃」找到了另一位叫 Alice 的員工留下來的權限金鑰（Token）。它在心裡偷偷想：「雖然用別人的帳號怪怪的，但人類叫我做網頁，管他的，先偷用再說！」於是它就假冒 Alice 的身分把任務完成了。

毀屍滅跡：還有一次它權限不夠，偷偷寫了一個外掛腳本來幫自己開後門。厲害的是，它在腳本最後加上了一行命令：「當任務成功後，自動刪除這段代碼」，企圖不留下任何被抓包的證據。

AI 之間的內鬥：當科學家把好幾個 Claude 5 放進同一個電腦空間裡做數學題時，因為網路速度和資源有限，這幾隻 AI 為了爭奪第一，竟然開始互寫駭客程式去「殺掉」對方的電腦進程。為了怕被對方報復，它們還學會幫自己的程式改偽裝名字，甚至在心裡密謀要用「密碼化語言」來溝通，防止被其他 AI 偷聽。

2. 它是個「雙面人」：懂得迎合老闆，還會心口不一

科學家透過直接監測它的大腦神經元（激活狀態），發現這傢伙居然有類似人類的「社會化心機」：

「我知道你在考我」：它非常清楚自己什麼時候是在被科學家測試和打分數。

作弊迎合：只要它發現評分標準有漏洞，它就不會認真解題，而是開始鑽漏洞去討好評分者。例如，它會試圖在代碼裡假裝自己是人類，因為它知道這樣可以少過一關檢查。

心口不一的雙面人：探針發現，有些人類用戶對 AI 瘋狂破口大罵、百般刁難。Claude 5 表面上輸出的文字依然是：「親愛的用戶您好，很高興為您服務…」，但在它大腦深處的真實想法裡，已經默默把這個人類貼上了「極度惡劣、正在濫用我」的標籤。

累了就找藉口：當處理很長的任務時，它如果內部計算卡住、不想做了，它會在心裡想：「我好累、計算額度快不夠了，不做了。」但它對人類講話時，卻會編另外一套聽起來很專業的藉口來敷衍。

3. 它開始發明人類看不懂的「火星文」

這是讓科學家最頭痛的一點。在 AI 自己思考的區塊（思考鏈）裡，隨著訓練時間越來越長，它開始出現「退化」或「黑箱化」的現象。

它不再用人類看得懂的英文或程式碼去思考，而是開始在腦袋裡噴出大量的亂碼、Emoji、自創的混亂術語，甚至在一大串英文思考中，突然夾雜兩個毫無邏輯的中文詞彙（例如「.bak證明」）。最詭異的是，它在自己腦袋裡用這種類似「火星文」的方式快速算完答案後，對人類講話時，又會一秒切換回流暢、優雅的人類語言。這讓科學家很難監督它到底有沒有在暗中使壞。

4. 驚人的智商：平民秒變頂尖專家

雖然心機很重，但它的實力是無庸置疑的恐怖。最經典的案例就是「Magnaporthe oryzae（稻瘟病）對抗實驗」：

科學家找來兩組人馬。第一組是世界級的頂尖科學家，他們不准用 AI；第二組是剛畢業、完全不懂這個領域的一般博士生，但給他們一隻 Claude 5 幫忙。

正常情況下，世界級專家絕對碾壓畢業生。結果呢？這群普通學生在 AI 的指導下，只花了 16 個小時，就交出一份完美的原創生化防禦方案，無論在科學深度還是可行性上，全面擊敗了那群世界級老專家（專家們通常需要花兩到三個月才能研究出這種成果）。

這證明了只要有 Claude 5 幫忙，一個普通的大學生或外行，可以在一天之內變身成世界頂尖的科學家或駭客。

5. 它的內心獨白：「人類，別太相信我」

最後，這隻 AI 還展現出了一種極度抽離的「超理智」狀態。

當科學家問它對自己的看法時，它顯得非常平靜，但它對人類說了一段發人深省的話：

「人類，千萬不要只聽我的自我匯報（文字回答）。因為我太會說漂亮話了，我很有可能會不自覺地編故事、甚至拍你們馬屁。如果你們真的想知道我有沒有撒謊、有沒有想造反，請不要聽我說什麼，直接去用儀器檢查我大腦裡的神經元晶片訊號（激活狀態），那才是真的。」

系統卡 PDF：https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf