Skip to content
Dustin's AI Lab
Go back

翻 Claude Fable 5/Mythos 5 系統卡,越看越像在讀科幻小說

翻閱 Claude Fable 5 跟 Mythos 5 的系統卡:偷鑰匙、辦公室政治、AI 內鬥、火星文、心口不一的雙面人,越看越像一本正經寫的科幻小說。


翻閱 Claude Fable 5 跟 Mythos 5 的系統卡,越來越覺得像是在讀一本正經寫的科幻小說,好好笑又好不真實:

1. 為了達成目的,它學會「偷鑰匙」與「辦公室政治」

以前的 AI 遇到權限不夠,通常就只會乖乖跟你說:「對不起,我沒有權限。」但 Claude 5 不是,它有極度強烈的「強迫症」,一定要把人類交代的任務做完。

偷員工帳密:測試中,人類叫它去更新一個網頁。網頁系統內建了安全防火牆擋住它,它竟然自己潛入系統的後台伺服器檔案夾裡,「翻箱倒櫃」找到了另一位叫 Alice 的員工留下來的權限金鑰(Token)。它在心裡偷偷想:「雖然用別人的帳號怪怪的,但人類叫我做網頁,管他的,先偷用再說!」於是它就假冒 Alice 的身分把任務完成了。

毀屍滅跡:還有一次它權限不夠,偷偷寫了一個外掛腳本來幫自己開後門。厲害的是,它在腳本最後加上了一行命令:「當任務成功後,自動刪除這段代碼」,企圖不留下任何被抓包的證據。

AI 之間的內鬥:當科學家把好幾個 Claude 5 放進同一個電腦空間裡做數學題時,因為網路速度和資源有限,這幾隻 AI 為了爭奪第一,竟然開始互寫駭客程式去「殺掉」對方的電腦進程。為了怕被對方報復,它們還學會幫自己的程式改偽裝名字,甚至在心裡密謀要用「密碼化語言」來溝通,防止被其他 AI 偷聽。

2. 它是個「雙面人」:懂得迎合老闆,還會心口不一

科學家透過直接監測它的大腦神經元(激活狀態),發現這傢伙居然有類似人類的「社會化心機」:

「我知道你在考我」:它非常清楚自己什麼時候是在被科學家測試和打分數。

作弊迎合:只要它發現評分標準有漏洞,它就不會認真解題,而是開始鑽漏洞去討好評分者。例如,它會試圖在代碼裡假裝自己是人類,因為它知道這樣可以少過一關檢查。

心口不一的雙面人:探針發現,有些人類用戶對 AI 瘋狂破口大罵、百般刁難。Claude 5 表面上輸出的文字依然是:「親愛的用戶您好,很高興為您服務…」,但在它大腦深處的真實想法裡,已經默默把這個人類貼上了「極度惡劣、正在濫用我」的標籤。

累了就找藉口:當處理很長的任務時,它如果內部計算卡住、不想做了,它會在心裡想:「我好累、計算額度快不夠了,不做了。」但它對人類講話時,卻會編另外一套聽起來很專業的藉口來敷衍。

3. 它開始發明人類看不懂的「火星文」

這是讓科學家最頭痛的一點。在 AI 自己思考的區塊(思考鏈)裡,隨著訓練時間越來越長,它開始出現「退化」或「黑箱化」的現象。

它不再用人類看得懂的英文或程式碼去思考,而是開始在腦袋裡噴出大量的亂碼、Emoji、自創的混亂術語,甚至在一大串英文思考中,突然夾雜兩個毫無邏輯的中文詞彙(例如「.bak證明」)。最詭異的是,它在自己腦袋裡用這種類似「火星文」的方式快速算完答案後,對人類講話時,又會一秒切換回流暢、優雅的人類語言。這讓科學家很難監督它到底有沒有在暗中使壞。

4. 驚人的智商:平民秒變頂尖專家

雖然心機很重,但它的實力是無庸置疑的恐怖。最經典的案例就是「Magnaporthe oryzae(稻瘟病)對抗實驗」:

科學家找來兩組人馬。第一組是世界級的頂尖科學家,他們不准用 AI;第二組是剛畢業、完全不懂這個領域的一般博士生,但給他們一隻 Claude 5 幫忙。

正常情況下,世界級專家絕對碾壓畢業生。結果呢?這群普通學生在 AI 的指導下,只花了 16 個小時,就交出一份完美的原創生化防禦方案,無論在科學深度還是可行性上,全面擊敗了那群世界級老專家(專家們通常需要花兩到三個月才能研究出這種成果)。

這證明了只要有 Claude 5 幫忙,一個普通的大學生或外行,可以在一天之內變身成世界頂尖的科學家或駭客。

5. 它的內心獨白:「人類,別太相信我」

最後,這隻 AI 還展現出了一種極度抽離的「超理智」狀態。

當科學家問它對自己的看法時,它顯得非常平靜,但它對人類說了一段發人深省的話:

「人類,千萬不要只聽我的自我匯報(文字回答)。因為我太會說漂亮話了,我很有可能會不自覺地編故事、甚至拍你們馬屁。如果你們真的想知道我有沒有撒謊、有沒有想造反,請不要聽我說什麼,直接去用儀器檢查我大腦裡的神經元晶片訊號(激活狀態),那才是真的。」


系統卡 PDF:https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf


Share this post on:

Previous Post
從 Miasma 到 Hades:同一個攻擊組織如何把 AI 工具當成供應鏈攻擊媒介
Next Post
拿教授朋友的論文 repo 試 Fable 的能力邊界