一覺醒來,肥勃(Mythos 的護欄版本)就上了。我趕緊呼叫我的教授朋友,請他把正在寫的論文 prompt 跟 repo 給我,讓我來測試一下它的能力邊界。只有幾天可以用訂閱額度,之後 API 調用價格高到堪比台灣國旅。
完全從頭,開始的只有三份文檔:proposal,也就是研究主題提案;prompt,規範模型怎麼做研究、怎麼寫論文;還有 workflow,把過去寫論文時做錯的大量教訓寫成負面約束。
結果照教授的原話:Opus 會漏幾條規則,Fable 完全不漏、一次過,Gemini 跟 GPT 是完全沒有在鳥的。
他做的是 federated learning 相關的題目,應該沒有碰到 guardrail。
至於 effort 開多少,reddit 上有網友說開 high 是不夠的,xhigh 才有明顯增益——這條留著之後自己驗。