API 核心: - constants.py: 系統常量定義 - unit_of_work.py: Unit of Work 模式 - incident_approval_service.py: Incident-Approval 同步服務 文檔更新: - LOGBOOK.md: 進度更新 - AWOOOI_AGENTIC_WORKSPACE_ROADMAP.md: 路線圖 - 2026-03-26_llm_testing_evaluation.md: LLM 測試評估 - phase5_telemetry_architecture.md: 遙測架構 - SECRETS_REFERENCE.md: 密鑰參考 配置/腳本: - Skill 02 v1.x: leWOOOgo 後端更新 - .dependency-cruiser.cjs: 依賴規則 - demo-multisig-flow.sh: 演示腳本 Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
5.3 KiB
5.3 KiB
LLM 測試策略評估報告
| 屬性 | 值 |
|---|---|
| 評估日期 | 2026-03-26 |
| 評估者 | 首席架構師 |
| 狀態 | ✅ 方案 A 已實施 |
1. 問題定義
現象: CI 中 7 個 LLM 測試失敗
test_model_regression.py: 4 failedtest_prompt_validation.py: 3 failed
根因分析:
| 問題 | 詳情 |
|---|---|
| 測試與生產不一致 | 測試直接呼叫 Ollama API,未使用 OpenClaw Service |
| 缺少確定性參數 | 測試未設定 seed, temperature: 0.0 |
| 字串匹配過嚴 | 使用 lambda 檢查特定子字串存在 |
2. 現有架構盤點
2.1 OpenClaw Service (生產環境)
檔案: src/services/openclaw.py
已有配置:
"options": {
"num_predict": 1024,
"temperature": 0.1, # ← 已設定低溫度
"top_p": 0.9,
},
"format": "json", # ← 已啟用 JSON 模式
結論: 生產環境已有穩定配置,測試應該復用
2.2 測試檔案 (問題所在)
檔案: tests/test_model_regression.py, tests/test_prompt_validation.py
問題配置:
# 無 seed
# 無 temperature 設定
# 無 format: json
response = await client.post(
f"{OLLAMA_URL}/api/generate",
json={
"model": model,
"prompt": prompt,
"stream": False,
# 缺少 options
},
)
結論: 測試未使用生產配置,導致不一致
3. 解決方案比較
方案 A: Ollama 確定性參數 (最小改動)
改動範圍: 僅修改 2 個測試檔案
# 加入確定性參數
"options": {
"seed": 42, # 固定種子
"temperature": 0.0, # 零溫度
},
"format": "json", # JSON 模式
優點:
- 最小改動
- 與生產環境一致
- 無新增依賴
缺點:
- 仍依賴 Live LLM (CI 需要 Ollama 可用)
- 無法完全消除網路波動
評估: ✅ 推薦 - 第一步
方案 B: 測試呼叫 OpenClaw Service
改動範圍: 修改測試使用 OpenClaw Service
# 直接使用 OpenClaw Service
from src.services.openclaw import get_openclaw
openclaw = get_openclaw()
result = await openclaw.analyze_alert(...)
優點:
- 測試生產代碼路徑
- 配置自動同步
- 更接近真實場景
缺點:
- 需要更多設定 (Redis, Settings)
- 增加測試複雜度
評估: ⭕ 可考慮 - 整合測試
方案 C: 三層測試框架 (ADR-018 原提案)
改動範圍: 新增完整測試框架
優點:
- 完整的測試分層
- 支援 Golden Response Mock
- 語意相似度測試
缺點:
- 大量新增代碼 (~1000 行)
- 增加維護成本
- 可能與現有測試衝突
- 過度工程化風險
評估: ❌ 暫緩 - 先嘗試方案 A
4. 衝突檢測
4.1 與現有 ADR 衝突
| ADR | 檢查結果 |
|---|---|
| ADR-006 AI Fallback | ✅ 無衝突 |
| ADR-015 MCP 模組化 | ✅ 無衝突 |
4.2 與現有 Memory 衝突
| Memory | 檢查結果 |
|---|---|
| feedback_no_mock_testing.md | ⚠️ 注意: 禁止 Mock,方案 A/B 符合 |
| feedback_modular_architecture.md | ✅ 方案 B 更符合 |
4.3 與現有 Skills 衝突
無直接衝突
5. 推薦行動
第一步: 方案 A - 最小改動 (1 小時)
-
修改
test_model_regression.py:- 加入
seed: 42,temperature: 0.0 - 加入
format: "json"
- 加入
-
修改
test_prompt_validation.py:- 同上
-
調整 validators:
- 改為 JSON Schema 驗證 (與 OpenClaw 一致)
第二步: 驗證效果 (30 分鐘)
- 執行測試 3 次,確認穩定性
- 比較修改前後通過率
第三步: 評估是否需要方案 B/C
- 若方案 A 效果良好 → 完成
- 若仍有問題 → 考慮方案 B 整合測試
- 方案 C 暫緩,待需求更明確時再議
6. ADR-018 處理建議
建議: 將 ADR-018 標記為「評估中」,先實施方案 A
原因:
- 方案 A 更簡單且無新增複雜度
- 未完成「解決方案導入評估 7 問」
- 過度工程化風險
已建立新增代碼處理:
tests/llm_testing/框架已建立- 若方案 A 不足,可作為備用方案
- 但不應立即整合到 CI
7. 決策等待項目
- Ollama 確定性測試結果 - 確認
seed參數是否有效 - 統帥確認 - 是否採用方案 A 先行
8. 後續追蹤
- Ollama seed 測試完成 (2026-03-26)
- 統帥確認方案選擇 (2026-03-26 批准方案 A)
- 方案 A 實施 (2026-03-26)
test_model_regression.py: 加入temperature: 0.0,seed: 42test_prompt_validation.py: 加入temperature: 0.0,seed: 42- System Prompt 強化繁體中文指令
- CPU 模式超時調整 (2026-03-26 統帥批准)
- 超時從 120 秒 → 300 秒
- 計算基準: 0.45 tok/s × 300 tokens = 666 秒
- 繁體中文修復 (2026-03-26)
- OpenClaw System Prompt v7.0 → v7.1
- 加入 Language Requirement 章節
- 明確禁止簡體字
- 效果驗證 (待 CI 執行)
- 決定是否需要方案 B/C
9. GPU 診斷結果 (2026-03-26)
192.168.0.188 無 GPU 硬體
| 檢查項目 | 結果 |
|---|---|
lspci | grep nvidia |
無輸出 |
| NVIDIA Driver | 未安裝 |
| NVIDIA Libs | 未找到 |
結論: 此伺服器為純 CPU 機器,Ollama 以 CPU 模式運行 (0.45 tok/s)。 需評估是否遷移到有 GPU 的主機。