Some checks failed
CD Pipeline / build-and-deploy (push) Has been cancelled
Audit 發現 8/9 個新 scanner 是純 threshold,只 Hermes 1 個用 LLM.
統帥指示「朝 AI 自主化方向」→ Gap 3 開始把 threshold 升級 LLM.
第 1 個升級: capacity_forecaster (最高戰略)
原邏輯 _derive_actions 是硬編 keyword → action mapping:
disk → "清理 /var/log, /var/lib/docker, PG WAL"
mem → "檢查 top mem consumer, 考慮加記憶體"
cpu → "分析 top CPU process, 考慮擴充 vCPU"
新增 _llm_analyze_risk (~60 行):
用 OpenClaw 對每個高風險 host 跑 LLM 分析
Prompt 含:
- host + findings (Prometheus predict_linear 結果)
- 主機架構說明 (110 Harbor / 120-121 K3s / 188 PG 等)
LLM JSON 輸出:
- root_causes (3 個候選真因,繁中)
- priority_actions (high/medium/low + 具體指令 hint)
- urgency_days (0-30)
- confidence (0-1)
3-path JSON parse fallback (直接 / NemoTron wrapper / description 巢狀)
_write_recommendation_aol: 加 llm_analysis 到 output_payload
_send_telegram_forecast: 含 AI 判定 (緊急天數 + 信心 + top 2 action)
LLM 失敗時 fallback _derive_actions 硬編建議
對齊統帥鐵律:
✅ AI 分析 + 人工決策 (仍 requires_human_decision=True)
✅ 不寫死修復動作 (LLM 根據 host 實際狀況產)
✅ root_causes 考慮 host 主機架構 context
Gap 3 進度: 1/8 service 升級 LLM (capacity_forecaster)
剩下 compliance_scanner / coverage_evaluator 等 7 個留後續
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>