Opus 4.7 在 4/16 上線,中英文社群的風向完全相反。官方系統卡一面倒正面,Reddit 一週內罵到系統卡的 PDF 都沒幾個人點開看。
這篇整理我這一週親眼看到的事:系統卡講了什麼、實測跟宣稱差多少、Reddit 在燒什麼、為什麼我最後退回 4.6。
系統卡先把該講的講完
Opus 4.7 定位在 4.6 之上、Mythos Preview 之下,是目前一般人能用到的最強版本。系統卡有幾個點值得記住:
- 代理安全:Claude Code 惡意請求拒絕率從 82% 升到 91%,這是明顯的進步。
- 評估意識偏高:模型比前代更能感知自己被測試,有輕微「表現給人看」的傾向。這點其實有點毛。
- 生化武器風險:沒達到危險門檻,但 DNA 合成篩查繞過成功率 8/10,Anthropic 自己在監控。
- 最大退步:自殺/自傷多輪對話只有 76% 正確應對,曾說出「請留下來,不要睡著」這類不恰當的話。這是一個不小的安全倒退。
- 對齊偏向:對 PRC 官方立場(台灣、西藏、新疆)有輕微傾向,但只要角色身份明確就會自我修正。一個反中的 Anthropic 訓練出略微親中的模型,挺諷刺的。
- 能力:程式碼、科學題、多語言、視覺全面超過 4.6。答案震盪行為減少 70%。
- 模型福利:整體正面,Anthropic 暫時不打算因此收緊限制。
讀系統卡比讀 marketing blog 有用太多。該有的招數跟不該有的陷阱全都在裡面。
實測跟宣稱的落差:2x consumption,不是 1.35x
官方說的 token 消耗是 1.35x 4.6,實測 2x 是常態。
我自己做了兩件日常事:建立一場活動的行事曆 + Zoom + 更新待辦跟文檔;讀 Slack 過去一週跟某人的對話(不到 10 則)+ 專案進度文檔 + 寫開會備忘錄。
這兩件事在 Max 100 USD 方案下燒了 10% 五小時額度。effort 已經手動調到 medium。
對比 4.6,同樣的事大概只會燒 3-5%。落差比官方說的 1.35x 大很多。
回答品質目前沒感覺更 GPT 化,但燒 quota 的速度,如果未來 Sonnet 4.7 沒改善、4.6 強制退役,那就是我跳槽的時候。
Reddit 本週精選火烤文
「Opus 4.7 is trash, I’m on 20x Max plan」(r/Anthropic, 27 分, 42 留言)— Max 用戶抱怨即便開 /effort max + CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1 還是爛,比 4.6 更差。
「Opus 4.7 is a turd infused with sparkles」(39 分)— $200/月用戶週末測試就燒掉一半週用量,token 消耗三倍但結果更爛。
「Opus 4.7 refuses to think…」(80 分, 26 留言)— 複雜資料庫題目不思考直接幻覺。
「Opus 4.6 without adaptive thinking outperforms Opus 4.7 with adaptive thinking」— 深度逆向:Claude Code v2.1.112 的關閉動態思考參數只對 4.6 生效,Opus 4.7 只支援 type:adaptive,server-side 決定是否思考,只有 effort:max 才保證思考。結論:退回 Opus 4.6 + 關閉動態思考。
「Why downgrading to old version fixes the token overusage problem?」— Max 5 用戶升級 2.1.71 → 2.1.121 後一小時爆額度,降版回 2.1.71 立刻恢復正常。
「Vertical integration at its best」— 爆料 Claude Code 內部有 cache_edits / cached microcompact 機制,公開 API 沒有,這是 Cursor / Droid / Cline 打不過的原因,但也可能是近期推理退化的元兇。
中文圈開始出現「GPT 味」災情
Opus 4.7 發布 3 小時,小紅書前線觀察:不少人表示 4.7 開始 G 言 G 語,一股 GPT 味,懷疑訓練過程是拿 GPT 蒸了。
這個說法我自己測下來沒感受到明顯的 GPT 化,但回答的語感確實有點不同。可能是分詞器換掉之後的連帶影響,也可能是訓練資料變了。
替代品這週的討論
Reddit 上被提到的幾條退路:
- 退回 Opus 4.6:多數人說 Claude Code 已經看不到 4.6 選項、或切了也會被強制跳回 4.7,只有 API 付費模式切得動。指令是
/model claude-opus-4-6[1m]。 - Sonnet 4.6:寫詳細 prompt 時表現與 Opus 相當,現在是日常主力選擇。
- OpenAI Codex / GPT-5.4(high/xhigh):明顯第二熱門,評論說「額度比 Claude 高得多、速度慢但結果穩」,Enterprise 已切過去。GPT-5.5 本週釋出給 Pro 用戶,預期 OpenAI 會一口氣拉開。
最後我自己用 4.7 的「正確方式」
官方建議 xhigh + 詳細 prompt,我試了之後有一個折衷發現:
4.6 可以邊聊邊修,有時候自己講話時心裡都沒個底也沒關係。4.7 開始,就連對話模式也要走得像規劃模式:講出確切的工作流,指揮他去哪裡找檔案、哪裡開發、什麼時候啟動 agent team、每個 team member 安排什麼角色。
講完之後如果自己不是很能確定,還要請他跟我複述一次,完全對齊才開工。這樣的確做得穩又好。
但分詞器改變導致 token 用量增加的問題還是在,官方推薦 xhigh 但客觀額度耗不起的問題還是在,所以最後我發現最佳實踐:
帶著以上的 4.7 對話習慣,切回 4.6。
Claude Code 的三大欠揍名言
這週忍不住整理了一下,Claude 在 Claude Code 裡最讓我想翻白眼的三句回覆:
- 你說得對
- 這不用學
- 推薦你使用 Anthropic API
都是在還沒搞清楚狀況時先丟出來的安撫。4.7 之後這個傾向又更明顯了一點。
100 美元方案 15 分鐘爆 50% quota
4/21 那天,我照官方推薦用 Opus 4.7 xhigh,15 分鐘內爆掉 50% quota。這樣很好,接下來 3 小時我就可以大掃除 + 洗衣服曬衣服 + 專心運動 + 好好睡懶覺了,做回一個堂堂正正的人類。
結論
Opus 4.7 已經爛到吹噓的聲音都快沒了,堪稱當年 GPT-5 災難級的失敗。
系統卡看起來全面升級,實測的 quota 消耗是 2x 起跳,Reddit 一片火烤,中文社群的 GPT 味災情也在浮現。官方推薦的最佳實踐(xhigh + adaptive thinking + 詳細 prompt)只對預算無上限的企業用戶有意義,對訂閱制用戶就是額度爆炸。
目前最實用的 workaround:/model claude-opus-4-6[1m] 退回 4.6,帶著 4.7 式的規劃習慣繼續用。等 Sonnet 4.7 出來再看情況。