Skip to content
Dustin's AI Lab
Go back

從零打造 AI 產品的踩坑日記:一個非工程師的四代進化

一個教學從業者,從 GPT 自訂 Agent 起步,歷經四代 AI 工具開發,分享 RAG、平台架構、跨國部署、開源策略的真實踩坑紀錄。


我不是工程師出身。但過去兩年多,我從零開始做了四代 AI 產品,中間踩的坑比寫的程式碼還多。這篇不是教學文,是踩坑日記。

四代產品的演進

回頭看,我的 AI 產品大致分成四代:

第一代:純指令分享。 2023 年底 GPT 開放自訂 Agent,我馬上做了一個長難句拆解工具。說白了就是把我腦子裡的教學 SOP 寫成結構化 prompt,讓 GPT 照著走。那時候覺得自己超前部署,現在回頭看根本是小學生等級。

第二代:小型聊天機器人。 針對特定能力做訓練,比如邏輯鏈推導、仿題生成。開始懂得用 system prompt 控制行為,也開始踩到 GPT 不聽話的坑。

第三代:經過知識訓練的 AI 分身。 把我所有的課程影片、文章、講義做 RAG,灌進知識庫。這是轉折點。我記得做完的那天,測了一下,發現它可以完全復刻我的解題思路。當下震驚到腦袋一片空白,開始懷疑自己存在的價值。

第四代:擬真介面 + AI 家教。 直接把 AI 分身嵌進模考介面,做到「老師變家教,手把手帶你解題」。同學的反應是:「你做得比正式考試還好看。」

RAG 的震撼與頓悟

第三代是最關鍵的一步。我把自己的講義、公開課影片、付費課影片全部做 RAG,結果 AI 可以完全復刻我的解題思路。

這讓我意識到兩件事:第一,專家的隱性知識是可以被結構化萃取的。第二,RAG 做得好,AI 分身的產出不是幻覺,而是完全基於你的經驗跟知識的延伸。

後來我開始幫別的老師做,從他們那邊得來的回饋也蠻不錯的,大家都說有復刻到自己八九成以上的教學與解題思路。只需要一個樣本,比如一小時長的教學影片,就能直接複製教學思路,代替回答大部分的日常問題。

架構選擇與踩坑

平台架構我走過不少彎路。前端用 OpenWebUI,中間接 LiteLLM 做 API 路由,方便監測統計用量。後端資料庫一開始用 Firebase。

為什麼要自架而不是用現成的 ChatGPT?因為自架才能做到:讓老師後台追蹤學員跟 AI 的對話內容,掌握學習狀況;保護老師的智慧財產權,不洩露教學核心方法;還有控制成本。

說到成本,我有一次問其他老師:如果有個工具可以完全複製你的思路,7/24 幫同學解答,一天要花 15-20 USD 養它,你願意嗎?大部分老師看到帳單就嚇昏了。但我覺得這筆錢換來的是老師從重複性答疑中解放,值得。

跨國部署的災難

最痛的一次是要把產品拿去服務中國客戶。跟合作夥伴聊了之後才發現:AI 三大家模型全部不能在中國境內使用,要平替成本土模型如 Qwen;Firebase 是 Google 家的,不能用,要遷移到阿里雲;中國有境內用戶數據不得出海的監管要求,需要做分流,維護兩套資料庫。

原本想說這種重大工程可能要花一兩個月,結果 Claude Code 一天就做完了。剩下的就是我這個人類門外漢學習、檢查跟手動測試的時間。

n8n 自動化與品質驗證

有一個我很得意的工作流:用 n8n 把使用者回報的考場回憶,根據我歸納的出題設計原則,自動生成模擬題目。關鍵在於雙重獨立驗證——答案是否正確、是否滿足設計標準,通過後才會自動收錄。

這個「AI 生成 + 雙重驗證」的模式我後來到處用。不管是生成什麼內容,一定要有獨立的 validator 卡在中間。我親眼見證過自動化發文翻車的慘況,所以這一步不能省。

Recitation Error 的三天噩夢

做 AI 應用最痛苦的 bug 之一:recitation error。簡單說就是 API 會拒絕輸出原文內容。但我的使用場景就是要讓使用者看著題目原文做題,這個限制卡了我三天。

這種東西不是程式碼寫錯,是 API 層面的限制,你只能繞路或換方案。沒有踩過這種坑的人,大概很難理解為什麼「做 AI 產品」跟「用 AI」是完全不同等級的事情。

開源與產品心態

我做了一個 Teaching Copilot 開源出去。速率限制設好(之前 API 被濫用過),部署在 Google Cloud Run 上。

以前的我總覺得,明明我的東西這麼好,為什麼介紹的人不買帳?為什麼他們意興闌珊?心裡總是把錯誤歸咎到別人身上。

後來我終於明白:這其實就只是當初我的產品還沒有好到別人必須要來找我。不需要在心裡面默默情勒誰。回來繼續打磨產品,打磨到讓人驚嘆,打磨到「桃李不言,下自成蹊」,這樣就夠了。

輿情分析工具:意外的副產品

做著做著,我還順手做了一個社群輿情分析工具。把「原本要請一整組人加買貴軟體」才能做的事情,變成一個工程流程自動跑。省掉的是人工蒐集資料的人力、人工判斷正負面的標註費、寫報告的時間,還有動輒幾萬到幾十萬美金的商用輿情工具授權費。

最白話的結論:它不是讓你「分析得更厲害」,而是讓你「用原本 1/10 的成本,做到差不多的事」。

下一步:向量化與微調

現在我在研究兩個方向。一個是把資料庫中的內容考點、邏輯語意標記並向量化,實現用自然語言描述需求就能精準抽取相關內容。另一個是微調開源模型,不再完全依靠大模型 API。

我到底是怎麼從一個老師走到這一步的,自己也說不清楚。只知道講話越來越 nerdy,每天掛在嘴邊的都是 de-contextualization、grid search、fine-tune 這些詞。

但回頭想想,這不就是做產品的日常嗎?想到什麼就去試,踩了坑就記下來,下次少踩一點。


Share this post on:

Previous Post
用 Claude Skill 做 FIRE 理財規劃:跟 AI 聊退休
Next Post
Vibe Coding 的真與假:一個從業十年老師的觀察