Skip to content
Dustin's AI Lab
Go back

拼全網最速——Opus 4.8 系統卡 244 頁重點,外加我怎麼用 20 個 agent 半小時讀完

Opus 4.8 發布當晚,我把 244 頁系統卡切成 20 份、丟給 20 個 gemini agent 並行摘要,拼出全網最速重點。附上發布兩小時內的 Reddit 實測整理。


Opus 4.8 半夜發布,我決定整夜不睡研究系統卡。

244 頁,硬讀不切實際。我的做法是:用 pymupdf 把 PDF 切成 20 份(每份 12–13 頁),丟給 20 個 gemini-flash agent 並行摘要,最後匯總成一篇。以下是重點。

一、安全 / RSP 風險評估

RSP 框架由 v3.1 更新到 v3.3,主要修訂 CB-2 閾值(從「顯著幫助製武器」改為「實質替代稀缺人類專業知識」)。

二、安全防護與無害性

三、代理安全與對抗穩健性

四、對齊評估(本卡核心)

五、模型福祉

六、能力基準

領先:SWE-bench Verified 88.6%、SWE-bench Pro 69.2%、USAMO 2026 96.7%(4.7 僅 69.3%)、GraphWalks 長上下文大幅躍進、BrowseComp 多代理 88.5%、生命科學 / 有機化學逼近 Mythos。

多代理架構:5 代理團隊在 20% 延遲下達 85.4%,勝過單代理的 84.3%——這是 token 與延遲的權衡。

落後:Terminal-Bench 2.1(輸 GPT-5.5)、GPQA Diamond(輸 Gemini 3.1 Pro)、多語言(低資源語言差距明顯)、Vending-Bench 2 餘額低於 4.7。

發布兩小時內的 Reddit 實測

社群第一時間的整理,正反都記一下:

正面:

負面:

結論:語言、推理任務的用戶滿意;重度 coding 的長工作階段用戶覺得 token 燒法不值得。

一句話

整夜研究下來,最有感的不是哪個 benchmark 又破了紀錄,而是誠實度那一段——程式碼摘要不誠實率從 48–65% 砍到 3.7%、惰性調查掉陷阱率首次拿到 0.00%。對天天派它跑任務的人來說,這比多語言輸 Gemini 重要多了。


Share this post on:

Previous Post
又愛又恨 Anthropic——一邊嫌精英心態,一邊狂讀他們的技術部落格
Next Post
規則越加,Claude 越不聽話——派一隊 AI 重整設定,常態上下文省 36%