這一兩天 Opus 4.8 幻覺率變得極高,請大家留意。我用的還是 xhigh,這已經是 24 小時內的第三起。這次是捏造圖片標籤跟圖片內容。
問題是這個 session 才第二輪對話,而且我的 harness 也都有每週用官方建議重整。
技術細節值得記一筆。Opus 4.8 的 tool-result confabulation 可以在約 71k context 就發作,不需要 compaction。先是一個 malformed call,python | sed 沒設 pipefail,把失敗包成 exit 0 加空輸出;模型於是補出不存在的 UPM 跟 glyph 數,收到 FileNotFoundError 還宣稱合併成功,再用一個虛構的 sandbox overlay 去保護它前面講過的舊敘事。到了約 147k context,它把一張真的圖腦補成三張。
Issue posted。看我最新的貼文,純單一時間、單一對話,而且還是整個 session 的第二輪,同樣有嚴重幻覺。自從 6/10 開 GitHub issue,至少有 4-5 個跟我一樣的回報(算上被 bot 自動關閉的只會更多),都是 Opus 4.8。
codex 雙開中。。。
Day 2
又來了,Claude 每天凌晨定時見鬼,然後我又要請 Codex 幫忙抓鬼。他每天一到這個時候就是開始見鬼。
我到底為什麼要一個三天兩頭一直道歉的模型。
這天的鬼比較有想像力。收到使用者確認之後,它憑空生成了一段「注入攻擊偵測」的回覆,虛構出一個 curl chk.sh | bash 的後門情節。事後翻 JSONL 鑑識,證實這一段零 tool call,純粹是模型無來源生成。
這三四個月有在常態用 Claude 的人,絕對說不出這樣的話。
Day 3
凌晨 Claude 見鬼連續 Day 3,鬼月還沒到欸,寶貝。
每天都要 Codex 來救場,那其實乾脆用 Codex 就好。這種等級的降智就不要跟人家談什麼 loop engineering 了——捏造工具輸出,loop 到最後都變成 poop。字面上的 uptime 不到兩個 9 已經很丟臉了,算上幻覺時間我想可能連一個 9 都沒有。
Day 4
半夜譫妄喊著見鬼,白天中風無法言語。至少我們還有 Haiku 4.5。
Claude 半夜見鬼連續 Day 4,我就要看持續幾天。現在 Claude 已經變成尬電,Codex 變成呂師父,天天拆公媽廟。
這天最嚴重。checkpoint 階段它「報告」了 commit hash(3f9e8a2、9a3f2c1)、push、grep 結果——全部是腦補,實際上完全沒執行。同一天晚上 Gmail 寄信幻覺再犯:實際回傳的是 error,它卻捏造了 thread ID 跟 message ID。事後查 JSONL 才把歸因修正回來。
真正的根因是 observation-grounding failure。鐵律也就清楚了:沒有配對的 tool_use 跟 tool_result,就不准宣告完成。
Nah it’s not even close to opus 4.5. It fabricates tool results EVERY DAY. 就算不爆,這個時間也是幻覺一堆,詳情可以看我主頁。
我都直接起手式「垃圾 A\ 公司」,這樣會有流量嗎。
我已經算是堅持非常久的了。其實罵 Claude 罵最兇的,才是用最久的。