LLM 模型完整評估 — Operation Ollama-First v5.0
日期:2026-05-04
目的:評估 momo-pro 各場景對應的最佳 LLM 模型,並啟動建議模型
整體原則:Ollama-first(免費)→ Frontier API(鎖定 5+ 場景)→ 規則引擎兜底
一、場景 × 模型對應矩陣
1.1 戰術層(高頻、結構化、Ollama-only)
| 場景 |
既有模型 |
建議模型 |
為何 |
| Hermes 競價分析 (4h × 300 SKU) |
hermes3:latest (8B) |
維持 + qwen3:14b 升級鏈 |
8B 處理 95% 案例足夠;複雜 SKU 升級 14B |
| Hermes 意圖分類 (Telegram NLP) |
hermes3:latest |
維持 |
結構化 JSON 輸出穩定 |
| NemoTron 威脅分派 |
NIM 8B / qwen3:14b (flag) |
qwen3:14b 為主 |
A2 確認 qwen3 原生支援 tools |
| AiderHeal 修 Code |
qwen2.5-coder:7b |
升 qwen2.5-coder:32b ⭐ |
程式碼能力 +30%(接近 Opus 4.6) |
| Sales Copy 文案 |
llama3.1:8b |
gemma3:4b (輕量) |
短文案不需 8B |
1.2 戰略層(低頻、敘事型、鎖定 Frontier)
| 場景 |
鎖定模型 |
為何鎖定 |
| OpenClaw 週報 |
gemini-2.5-flash 🔒 |
長 context + 繁中商業文體 |
| OpenClaw 月報 |
gemini-2.5-flash 🔒 |
同上 |
| OpenClaw 日報洞察 (200 字) |
gemini-2.5-flash 🔒 |
精簡敘事 |
| OpenClaw Q&A (Telegram) |
qwen3:14b (主) → Gemini fallback |
A7 已切(flag ON) |
| Code Review 高階評估 |
Claude Opus 4.7 (Phase 7 待 KEY) |
Arena Elo 1548 (#1) |
| EA HITL 戰略決策 |
gemini-2.0-flash (現) → Claude Sonnet 4.6 候選 |
agentic 工具使用佳 |
1.3 多模態與專用
| 場景 |
模型 |
已拉? |
| Embedding (KM/RAG) |
bge-m3:latest (1024 維) |
✅ Primary + Secondary |
| PPT 視覺檢查 (Phase 14) |
minicpm-v:latest (主) + llava (備援) |
✅ Primary + Secondary minicpm-v / 拉 llava ⏳ |
| 深度推理 (DeepSeek-R1) |
deepseek-r1:14b |
拉中 ⏳ |
1.4 雲端 API(鎖定 Frontier)
| 供應商 |
模型 |
用途 |
| Anthropic |
claude-opus-4-7 |
Code Review #1 (Arena 1548) |
| Anthropic |
claude-sonnet-4-6 |
EA HITL 候選(agentic) |
| Google |
gemini-2.5-pro |
MCP Grounding(聯網) |
| Google |
gemini-2.5-flash |
週/月/年報、Q&A fallback |
| Google |
gemini-2.0-flash |
PPT 簡報、EA HITL |
| DeepSeek |
deepseek-chat (V3.2) |
OpenRouter 直連備援 |
| DeepSeek |
deepseek-reasoner (R1-0528) |
推理鏈備援 |
| NVIDIA NIM |
meta/llama-3.1-8b-instruct |
NemoTron fallback |
| NVIDIA NIM |
nvidia/llama-3.3-nemotron-super-49b-v1.5 |
ElephantAlpha 49B |
二、本次啟動的追加模型
2.1 Primary 34.143.170.20 (oleetsai)
2.2 Secondary 34.21.145.224 (owen_taipei)
三、各場景升級路線(戰役後續)
Phase 21(建議):模型對應路由優化
| 場景 |
路由規則 |
| Sales Copy < 100 字 |
gemma3:4b(輕量快) |
| Sales Copy ≥ 100 字 |
llama3.1:8b(既有) |
| Hermes 簡單比價 |
hermes3:latest |
| Hermes 複雜分析 (gap > 20% / 銷量大跌) |
qwen3:14b 升級 |
| AiderHeal 簡單修補 |
qwen2.5-coder:7b |
| AiderHeal 重構級 |
qwen2.5-coder:32b ⭐ |
| EA HITL 明確威脅 |
Hermes 規則引擎(免費) |
| EA HITL 戰略決策 |
claude-sonnet-4-6 候選 |
| 推理需求(chain-of-thought) |
deepseek-r1:14b |
| PPT 視覺檢查 |
minicpm-v:latest → llava 備援 |
Phase 22(建議):API 直連 + 多供應商編排
四、儲存空間 + 性能評估
4.1 GCP 預期用量
- 每台 GCP 約 60GB Ollama 模型(Primary + Secondary 各一份冗餘)
- 12 個模型 × 平均 5GB = 60GB
- 假設 GCP VM 100GB SSD → 60% 使用率,可控
4.2 RAM 載入
- Ollama keep_alive=24h 可保留熱模型(hermes3 / qwen3:14b 永駐留)
- 冷模型(minicpm-v / llava)首次調用 ~10s 加載
- 解:分批載入 + 配置 OLLAMA_NUM_PARALLEL=2 限制同時載入數
4.3 推論延遲(GCP SSD)
| 模型 |
預期延遲(256 tokens) |
| gemma3:4b |
~1.5s |
| hermes3:latest |
~3s |
| qwen2.5:7b-instruct |
~3s |
| qwen3:14b |
~6s |
| deepseek-r1:14b |
~8s(含 thinking) |
| qwen2.5-coder:32b |
~12s |
| minicpm-v:latest |
~10s(含 image) |
五、模型治理規範(補強 ADR-028)
5.1 新增模型 SOP
- 評估 ROI(場景對應 + 預期降本/升質量化)
- SSH GCP Primary 試拉確認 size + 推論延遲
- 加進 ai_call_logger COST_TABLE
- 加 caller × model 路由規則
- unit test 驗 routing
- 灰度啟用(feature flag)
- 1 週觀察後正式啟用
5.2 既有模型替換 SOP
- A/B 測試新舊模型對 10+ 黃金樣本
- 統帥盲測通過後才替換
- 舊模型保留為 fallback(不立刻刪)
- 寫進 ADR
5.3 模型淘汰 SOP
- 連續 7 日 0 流量 → 標記 deprecated
- 30 日仍 0 流量 → SSH GCP 刪除節省空間
- ADR 註明淘汰原因
六、與 ai_call_logger COST_TABLE 對齊
| Model |
Cost (in/out per M) |
為何 |
| 全 Ollama 模型 |
0 / 0 |
自架免費 |
| gemini-2.5-pro |
$1.25 / $10.0 |
高品質 |
| gemini-2.5-flash |
$0.075 / $0.30 |
性價比 |
| claude-opus-4-7 |
$15 / $75 |
程式碼 #1 |
| claude-sonnet-4-6 |
$3 / $15 |
平衡 |
| claude-haiku-4-5 |
$0.8 / $4 |
輕量 |
| deepseek-chat |
$0.014 / $0.28 |
直連最便宜 |
| deepseek-reasoner |
$0.14 / $2.19 |
推理 |
| NIM 系列 |
0 / 0 |
配額制 |
References
- ADR-027 附錄(三主機架構)
- ADR-028(LLM 路由統一準則)
- ADR-029(Hermes-First 雙塔分工)
- ADR-030(Frontier 多供應商策略)
services/ai_call_logger.py COST_TABLE
services/llm_caller_registry.py CALLER_REGISTRY
docs/operation_ollama_first_v5_postmortem.md