Skip to content
Dustin's AI Lab
Go back

Claude 變笨了?這次有人拿出數據證據

大家抱怨 Claude 變笨已經好幾個禮拜了,Anthropic 的回應一貫是「使用習慣問題」。終於有人從 JSONL 扒出數據,證明不是體感而是實測——但 Issue 還是被秒關。


大家抱怨 Claude 變笨已經好幾個禮拜了,Anthropic 的回應一貫是「尖峰時段限制更嚴格」、「使用習慣問題」。4/3 那篇調查通告還叫大家少用 Opus、別恢復閒置對話、縮小 context window——言下之意是「你自己用錯了」。

然後這個禮拜有一位老兄直接扒 JSONL,把 2 月到 3 月的模型行為指標通通拿出來對比,證明不是體感,是實測。可惜 Issue 還是被無情 Close 掉。

GitHub Issue #42796:https://github.com/anthropics/claude-code/issues/42796

以下是他的數字。

Thinking 深度被砍了七成

時期Thinking 中位數Redact 比例
基準期(1/30–2/8)~2,200 字元
2 月下旬~720 字元(-67%)
3/12 後~600 字元(-73%)99%+(全面遮蔽)

Redact 比例是最驚悚的:3/5 還只是 1.5%,3/7 衝到 24.7%,3/8 變 58.4%,3/10 之後幾乎全部被遮蔽。模型在想什麼,使用者現在完全看不到。

工具使用行為全面崩壞

指標基準期3 月後變化
Read:Edit 比6.62.0-70%
沒讀就 edit 的比例6.2%33.7%5 倍以上
Full-file Write(整個檔案重寫)4.9%11.1%2.3 倍
Reasoning loops(自我矛盾)8.2 / 千 tool call26.6 / 千 tool call3 倍

「沒讀就 edit」從 6% 飆到 33%,這解釋了為什麼你最近一直覺得 Claude 在瞎改——因為它真的在瞎改。Full-file write 也從 5% 飆到 11%,等於遇到一個小問題就整個檔案重寫一次,token 消耗直接翻倍。

使用者體驗指標

指標2 月3 月變化
Stop hook 違規(推卸/提早停止)0 次173 次(17 天內,每天 10 次)
使用者挫折語言比例5.8%9.8%+68%
使用者中斷次數 / 千 tool call0.91112 倍

使用者中斷從 0.9 衝到 11。你不是脾氣變差了,是模型變得更值得被罵了。

成本暴漲 80 倍

這一段才是真正讓人下巴掉下來:

指標2 月3 月變化
使用者提示數5,6085,701≈ 不變
API 請求數1,498119,34180 倍
輸出 token0.97M62.60M64 倍
估算費用$345$42,xxx≈ 120 倍

使用者打的字一樣多,但背後的 API 請求暴增 80 倍、輸出 token 64 倍、費用 120 倍。這不是 Opus 比 Sonnet 貴的問題,這是模型在重做、重試、重寫、自己跟自己 loop 的問題。

然後 Issue 就被關了

官方沒有回應這些數據。Issue 被無情 Close 掉。

這個人做的事情其實很單純:他相信數據會說話。結果是他說對了,但沒人想聽。

大家抱怨的「落差」不是玄學。上禮拜還可以、這禮拜就不行,使用習慣跟上禮拜一樣,模型卻開始瞎改檔案、陷入 loop、一句話產生 80 倍 API call——這不叫「尖峰時段限制」,這叫模型被動過。

我是做顧問工作的,我的工作已經深度綁定 Claude Code。這種情況下最務實的策略不是吵架,是準備 Plan B:OpenCode + GLM/Kimi/MiniMax,config 跟 memory 全部備份,隨時切換。我前一篇 Anthropic 信任危機與我的備援方案 已經寫過怎麼搞這一套。

AI 公司人一多就開始拿翹。不要買年費,不要只靠一個服務商。這是 2026 年用 AI 工作最該學會的一件事。


Share this post on:

Previous Post
用 Remotion Skill 半小時拍一支 Claude Code 教學影片
Next Post
Claude Code 的快取危機:為什麼你的額度燒得那麼快?