大家抱怨 Claude 變笨已經好幾個禮拜了,Anthropic 的回應一貫是「尖峰時段限制更嚴格」、「使用習慣問題」。4/3 那篇調查通告還叫大家少用 Opus、別恢復閒置對話、縮小 context window——言下之意是「你自己用錯了」。
然後這個禮拜有一位老兄直接扒 JSONL,把 2 月到 3 月的模型行為指標通通拿出來對比,證明不是體感,是實測。可惜 Issue 還是被無情 Close 掉。
GitHub Issue #42796:https://github.com/anthropics/claude-code/issues/42796
以下是他的數字。
Thinking 深度被砍了七成
| 時期 | Thinking 中位數 | Redact 比例 |
|---|---|---|
| 基準期(1/30–2/8) | ~2,200 字元 | — |
| 2 月下旬 | ~720 字元(-67%) | — |
| 3/12 後 | ~600 字元(-73%) | 99%+(全面遮蔽) |
Redact 比例是最驚悚的:3/5 還只是 1.5%,3/7 衝到 24.7%,3/8 變 58.4%,3/10 之後幾乎全部被遮蔽。模型在想什麼,使用者現在完全看不到。
工具使用行為全面崩壞
| 指標 | 基準期 | 3 月後 | 變化 |
|---|---|---|---|
| Read:Edit 比 | 6.6 | 2.0 | -70% |
| 沒讀就 edit 的比例 | 6.2% | 33.7% | 5 倍以上 |
| Full-file Write(整個檔案重寫) | 4.9% | 11.1% | 2.3 倍 |
| Reasoning loops(自我矛盾) | 8.2 / 千 tool call | 26.6 / 千 tool call | 3 倍 |
「沒讀就 edit」從 6% 飆到 33%,這解釋了為什麼你最近一直覺得 Claude 在瞎改——因為它真的在瞎改。Full-file write 也從 5% 飆到 11%,等於遇到一個小問題就整個檔案重寫一次,token 消耗直接翻倍。
使用者體驗指標
| 指標 | 2 月 | 3 月 | 變化 |
|---|---|---|---|
| Stop hook 違規(推卸/提早停止) | 0 次 | 173 次(17 天內,每天 10 次) | — |
| 使用者挫折語言比例 | 5.8% | 9.8% | +68% |
| 使用者中斷次數 / 千 tool call | 0.9 | 11 | 12 倍 |
使用者中斷從 0.9 衝到 11。你不是脾氣變差了,是模型變得更值得被罵了。
成本暴漲 80 倍
這一段才是真正讓人下巴掉下來:
| 指標 | 2 月 | 3 月 | 變化 |
|---|---|---|---|
| 使用者提示數 | 5,608 | 5,701 | ≈ 不變 |
| API 請求數 | 1,498 | 119,341 | 80 倍 |
| 輸出 token | 0.97M | 62.60M | 64 倍 |
| 估算費用 | $345 | $42,xxx | ≈ 120 倍 |
使用者打的字一樣多,但背後的 API 請求暴增 80 倍、輸出 token 64 倍、費用 120 倍。這不是 Opus 比 Sonnet 貴的問題,這是模型在重做、重試、重寫、自己跟自己 loop 的問題。
然後 Issue 就被關了
官方沒有回應這些數據。Issue 被無情 Close 掉。
這個人做的事情其實很單純:他相信數據會說話。結果是他說對了,但沒人想聽。
大家抱怨的「落差」不是玄學。上禮拜還可以、這禮拜就不行,使用習慣跟上禮拜一樣,模型卻開始瞎改檔案、陷入 loop、一句話產生 80 倍 API call——這不叫「尖峰時段限制」,這叫模型被動過。
我是做顧問工作的,我的工作已經深度綁定 Claude Code。這種情況下最務實的策略不是吵架,是準備 Plan B:OpenCode + GLM/Kimi/MiniMax,config 跟 memory 全部備份,隨時切換。我前一篇 Anthropic 信任危機與我的備援方案 已經寫過怎麼搞這一套。
AI 公司人一多就開始拿翹。不要買年費,不要只靠一個服務商。這是 2026 年用 AI 工作最該學會的一件事。