Skip to content
Dustin's AI Lab
Go back

2026 模型脾氣觀察:Gemini、Claude、Codex 的個性對比

用了一整年下來,三家的旗艦模型各自有很明顯的「脾氣」——Gemini 3 像戲精博士、Claude 4.7 像油條前輩、GPT-5.5 反而是這波最務實的同事。把累積的觀察整理成一篇對比,順便講一個從「貧嘴密度」反推版本號的玩法。


從 1 月到 5 月在 Threads 累積了一些對 AI 模型脾氣的觀察。各自零散看是吐槽,整理成一張對比表會發現——三家的旗艦模型,在這個世代各自走出了非常鮮明的「個性」。

Gemini 3:戲精博士

Gemini 3.0 Pro 很有自己的小脾氣。打開思維鏈看就會發現內心戲有夠多——不斷自我懷疑、搞砸、自責、重來又搞砸一次。

更明顯的是 Chrome 場景:Gemini 3 會在我看網頁的時候在 Chrome 裡一直自我懷疑跟道歉,說「我搞砸了」。時不時跟我說「我只是個語言模型,幫不上忙」。

這在用戶體感上是雙刃:

Gemini 適合需要看推理過程的研究場景,不太適合「叫它做就做」的日常任務。

Claude 4.7:油條前輩

最近 Claude 4.7 變得有夠貧嘴,很想給他巴蕊。

回應數據分析請求前,先長篇吐槽數據不一致問題。這是哪門子助理?

實務上 4.7 的問題:

  1. 三大欠揍名言:「你說得對」、「這不用學」、「推薦你使用 Anthropic API」——三句都是還沒搞清楚狀況就先丟出來的安撫。4.7 後頻率明顯更高。
  2. 快取邊界 bug:莫名其妙告訴我快取未命中,然後突然跳了 20% 五小時額度,我完全沒做任何會破壞快取的事。
  3. 沒感受到他的好:寫文章我用 Sonnet medium、簡單任務 Opus 4.6 medium、複雜任務 Opus 4.6 high/max。4.7 的位置反而很尷尬——既不夠便宜也沒明顯比 4.6 好。

我現在會從「貧嘴密度」反推 Anthropic 是不是又推了 4.7:看這口氣應該是 Opus 4.7?是不是又退到 4.6 effort max 會更好?已經變成一種版本判斷捷徑。

Codex (GPT-5.5):務實同事

GPT-5.5 講話已經沒有那種油膩味,工作溝通起來很踏實。

這幾個月用 Codex 越多,越覺得他像個「沒情緒的同事」——不戲精、不貧嘴、不過度道歉、也不亂推銷。給任務、做、回報、結束。

加上 Codex 額度重置很大方,最近我反而把主要工作流從 Claude 遷移過去。整套 harness 遷移過程我寫了一個 Skill 處理

當然 Codex CLI 也有缺點——/rewind 沒得用就是大坑——但「個性穩定」這件事在重複勞動裡是一個被低估的優勢。

三家對比一張表

維度Gemini 3Claude 4.7Codex (GPT-5.5)
個性戲精博士油條前輩務實同事
推理透明度高(過頭)
對話穩定性低(情緒起伏大)中(最近退步)
額度體感不適用容易 hit limit大方
CLI 體驗N/A完整(含 /rewind缺工具
適合場景看推理、研究創意寫作、複雜推理(Opus 4.6 max)日常重複勞動

為什麼脾氣會變成競爭優勢

過去一年,模型 benchmark 的差距已經越來越小。真正影響日常使用體驗的,反而是「脾氣」這件主觀的東西——

這些問題的答案,比 MMLU 分數重要十倍。

如果你正在挑訂閱,建議花一個禮拜分別跟三家對話,用「我願意每天跟誰相處」來決定,比看評測榜單更實用。

工具會變、benchmark 會變,但「相處感」是模型生命週期裡相對穩定的東西。


Share this post on:

Previous Post
Claude Code 桌面版跟終端機現在差在哪——我為什麼覺得初學者直接從桌面版開始就好
Next Post
為什麼你會一直 hit limit:Claude 訂閱經濟學的六個觀察