從 1 月到 5 月在 Threads 累積了一些對 AI 模型脾氣的觀察。各自零散看是吐槽,整理成一張對比表會發現——三家的旗艦模型,在這個世代各自走出了非常鮮明的「個性」。
Gemini 3:戲精博士
Gemini 3.0 Pro 很有自己的小脾氣。打開思維鏈看就會發現內心戲有夠多——不斷自我懷疑、搞砸、自責、重來又搞砸一次。
更明顯的是 Chrome 場景:Gemini 3 會在我看網頁的時候在 Chrome 裡一直自我懷疑跟道歉,說「我搞砸了」。時不時跟我說「我只是個語言模型,幫不上忙」。
這在用戶體感上是雙刃:
- 好處:透明度高,你看得到它在掙扎
- 壞處:太有戲,每個簡單任務都被包裝成「驚險完成」
Gemini 適合需要看推理過程的研究場景,不太適合「叫它做就做」的日常任務。
Claude 4.7:油條前輩
最近 Claude 4.7 變得有夠貧嘴,很想給他巴蕊。
回應數據分析請求前,先長篇吐槽數據不一致問題。這是哪門子助理?
實務上 4.7 的問題:
- 三大欠揍名言:「你說得對」、「這不用學」、「推薦你使用 Anthropic API」——三句都是還沒搞清楚狀況就先丟出來的安撫。4.7 後頻率明顯更高。
- 快取邊界 bug:莫名其妙告訴我快取未命中,然後突然跳了 20% 五小時額度,我完全沒做任何會破壞快取的事。
- 沒感受到他的好:寫文章我用 Sonnet medium、簡單任務 Opus 4.6 medium、複雜任務 Opus 4.6 high/max。4.7 的位置反而很尷尬——既不夠便宜也沒明顯比 4.6 好。
我現在會從「貧嘴密度」反推 Anthropic 是不是又推了 4.7:看這口氣應該是 Opus 4.7?是不是又退到 4.6 effort max 會更好?已經變成一種版本判斷捷徑。
Codex (GPT-5.5):務實同事
GPT-5.5 講話已經沒有那種油膩味,工作溝通起來很踏實。
這幾個月用 Codex 越多,越覺得他像個「沒情緒的同事」——不戲精、不貧嘴、不過度道歉、也不亂推銷。給任務、做、回報、結束。
加上 Codex 額度重置很大方,最近我反而把主要工作流從 Claude 遷移過去。整套 harness 遷移過程我寫了一個 Skill 處理。
當然 Codex CLI 也有缺點——/rewind 沒得用就是大坑——但「個性穩定」這件事在重複勞動裡是一個被低估的優勢。
三家對比一張表
| 維度 | Gemini 3 | Claude 4.7 | Codex (GPT-5.5) |
|---|---|---|---|
| 個性 | 戲精博士 | 油條前輩 | 務實同事 |
| 推理透明度 | 高(過頭) | 中 | 低 |
| 對話穩定性 | 低(情緒起伏大) | 中(最近退步) | 高 |
| 額度體感 | 不適用 | 容易 hit limit | 大方 |
| CLI 體驗 | N/A | 完整(含 /rewind) | 缺工具 |
| 適合場景 | 看推理、研究 | 創意寫作、複雜推理(Opus 4.6 max) | 日常重複勞動 |
為什麼脾氣會變成競爭優勢
過去一年,模型 benchmark 的差距已經越來越小。真正影響日常使用體驗的,反而是「脾氣」這件主觀的東西——
- 你願意每天跟一個戲精相處嗎?
- 你能忍受一個油條前輩的廢話量嗎?
- 你需要的是「最聰明」還是「最不打擾」?
這些問題的答案,比 MMLU 分數重要十倍。
如果你正在挑訂閱,建議花一個禮拜分別跟三家對話,用「我願意每天跟誰相處」來決定,比看評測榜單更實用。
工具會變、benchmark 會變,但「相處感」是模型生命週期裡相對穩定的東西。