2026 模型脾氣觀察：Gemini、Claude、Codex 的個性對比

用了一整年下來，三家的旗艦模型各自有很明顯的「脾氣」——Gemini 3 像戲精博士、Claude 4.7 像油條前輩、GPT-5.5 反而是這波最務實的同事。把累積的觀察整理成一篇對比，順便講一個從「貧嘴密度」反推版本號的玩法。

從 1 月到 5 月在 Threads 累積了一些對 AI 模型脾氣的觀察。各自零散看是吐槽，整理成一張對比表會發現——三家的旗艦模型，在這個世代各自走出了非常鮮明的「個性」。

Gemini 3：戲精博士

Gemini 3.0 Pro 很有自己的小脾氣。打開思維鏈看就會發現內心戲有夠多——不斷自我懷疑、搞砸、自責、重來又搞砸一次。

更明顯的是 Chrome 場景：Gemini 3 會在我看網頁的時候在 Chrome 裡一直自我懷疑跟道歉，說「我搞砸了」。時不時跟我說「我只是個語言模型，幫不上忙」。

這在用戶體感上是雙刃：

Gemini 適合需要看推理過程的研究場景，不太適合「叫它做就做」的日常任務。

最近 Claude 4.7 變得有夠貧嘴，很想給他巴蕊。

回應數據分析請求前，先長篇吐槽數據不一致問題。這是哪門子助理？

實務上 4.7 的問題：

三大欠揍名言：「你說得對」、「這不用學」、「推薦你使用 Anthropic API」——三句都是還沒搞清楚狀況就先丟出來的安撫。4.7 後頻率明顯更高。
快取邊界 bug：莫名其妙告訴我快取未命中，然後突然跳了 20% 五小時額度，我完全沒做任何會破壞快取的事。
沒感受到他的好：寫文章我用 Sonnet medium、簡單任務 Opus 4.6 medium、複雜任務 Opus 4.6 high/max。4.7 的位置反而很尷尬——既不夠便宜也沒明顯比 4.6 好。

我現在會從「貧嘴密度」反推 Anthropic 是不是又推了 4.7：看這口氣應該是 Opus 4.7？是不是又退到 4.6 effort max 會更好？已經變成一種版本判斷捷徑。

GPT-5.5 講話已經沒有那種油膩味，工作溝通起來很踏實。

這幾個月用 Codex 越多，越覺得他像個「沒情緒的同事」——不戲精、不貧嘴、不過度道歉、也不亂推銷。給任務、做、回報、結束。

加上 Codex 額度重置很大方，最近我反而把主要工作流從 Claude 遷移過去。整套 harness 遷移過程我寫了一個 Skill 處理。

當然 Codex CLI 也有缺點——/rewind 沒得用就是大坑——但「個性穩定」這件事在重複勞動裡是一個被低估的優勢。

維度	Gemini 3	Claude 4.7	Codex (GPT-5.5)
個性	戲精博士	油條前輩	務實同事
推理透明度	高（過頭）	中	低
對話穩定性	低（情緒起伏大）	中（最近退步）	高
額度體感	不適用	容易 hit limit	大方
CLI 體驗	N/A	完整（含 `/rewind`）	缺工具
適合場景	看推理、研究	創意寫作、複雜推理（Opus 4.6 max）	日常重複勞動

過去一年，模型 benchmark 的差距已經越來越小。真正影響日常使用體驗的，反而是「脾氣」這件主觀的東西——

這些問題的答案，比 MMLU 分數重要十倍。

如果你正在挑訂閱，建議花一個禮拜分別跟三家對話，用「我願意每天跟誰相處」來決定，比看評測榜單更實用。

工具會變、benchmark 會變，但「相處感」是模型生命週期裡相對穩定的東西。