docs(slo+ops): SLO-SLI 定義文件 + Human-in-the-Loop 規格書 v1.0

補建業界標準 P0 文件（量尺 + 煞車）： SLO-SLI-DEFINITION.md: - 5 個 SLI 定義（成功率/延遲/可用性/KM沉澱/送達率） - SLO 目標值表（及格線 + 卓越線） - Error Budget 規則（充裕/注意/警戒/耗盡 4 級） - SLO 違規告警規則（連結 TYPE-8M 飛輪告警） - 里程碑目標（4 個 Phase 演進路線） HUMAN-IN-THE-LOOP.md: - 9 種人工介入觸發條件（HITL-1 ~ HITL-9） - 破壞性操作強制人工清單（scale=0, delete pvc 等） - Fail-safe 逾時行為（0→15→30→35 分鐘升級） - Kill Switch 三種啟動方式（Telegram/API/EnvVar） - 人工接管標準 SOP（情境 A/B/C） - 人工介入記錄規範（alert_operation_log 格式） Co-Authored-By: Claude Haiku 4.5 <noreply@anthropic.com>
2026-04-14 14:54:13 +08:00
parent dd378ac698
commit e778e4d0c1
2 changed files with 525 additions and 0 deletions
--- a/docs/operations/HUMAN-IN-THE-LOOP.md
+++ b/docs/operations/HUMAN-IN-THE-LOOP.md
@@ -0,0 +1,285 @@
+# AWOOOI Human-in-the-Loop 規格書
+
+> **文件類型**: 人工介入標準操作程序（Human-in-the-Loop Specification）  
+> **版本**: v1.0  
+> **建立日期**: 2026-04-14（台北時間）  
+> **建立者**: Claude Sonnet 4.6（首席架構師）+ 統帥確認  
+> **核心問題**: AI 判斷錯了、超時沒決定、或系統失控時，人類如何接管？
+
+---
+
+## 0. 設計哲學
+
+> **AI 是副駕駛，統帥是機長。**
+
+AWOOOI AIOps 的設計原則：
+
+- AI **永遠可以被人類覆蓋**，任何時候
+- **高風險操作**（P0/P1）必須人工確認，不例外
+- AI 超時或信心不足時，系統**主動交還控制權**，不沉默失敗
+- **Kill Switch** 永遠可用，一鍵讓 AI 停止所有自動操作
+
+---
+
+## 1. 人工介入觸發條件（When）
+
+### 觸發矩陣
+
+| 情況 | 觸發條件 | 系統行為 | 介入方式 |
+|------|---------|---------|---------|
+| **HITL-1** | 風險等級 P0（CRITICAL） | 強制人工審核 | Telegram 審核卡 |
+| **HITL-2** | 風險等級 P1（HIGH） | 強制人工審核 | Telegram 審核卡 |
+| **HITL-3** | AI 信心度 < 0.65 | 無法自動執行 | TYPE-4 通知，等人決定 |
+| **HITL-4** | LLM 超時（> 25s） | 降級 Expert System | Expert System 決策，低信心 → 人工 |
+| **HITL-5** | 破壞性操作檢測 | 強制升級為人工 | TYPE-3 審核卡，含警告標示 |
+| **HITL-6** | 審核逾時（> 30 分鐘）| 自動升級通知 | P0 告警發至統帥 + SRE 群組 |
+| **HITL-7** | 自動修復連續失敗 2 次 | 停止重試 | TYPE-4 通知，等人接手 |
+| **HITL-8** | SLO-1 < 50%（連續 2h） | 飛輪異常 | TYPE-8M 告警，建議暫停自動修復 |
+| **HITL-9** | Kill Switch 啟動 | 立即凍結所有自動操作 | 無自動行為，等人工重啟 |
+
+### 破壞性操作關鍵字（HITL-5 觸發清單）
+
+以下任一 kubectl 命令出現 → 強制人工審核，不論信心度：
+
+```
+scale ... --replicas=0   ← 縮容至零（服務停止）
+delete pod               ← 刪除 Pod（短暫中斷）
+delete deployment        ← 刪除部署（資料風險）
+delete pvc               ← 刪除持久磁碟（資料永久消失）
+delete namespace         ← 刪除命名空間（災難性）
+rm -rf                   ← 主機層刪除（絕對禁止）
+DROP TABLE               ← 資料庫破壞性操作（絕對禁止）
+```
+
+---
+
+## 2. 誰來介入（Who）
+
+### 介入層級
+
+```
+Level 1 — 統帥（最終決策者）
+  角色: ogt（系統擁有者）
+  Telegram: 個人 DM（OPENCLAW_TG_CHAT_ID）
+  負責: 所有 P0/P1 審核、Kill Switch、重大策略決定
+
+Level 2 — SRE On-call（未來擴充）
+  角色: 待定（目前只有統帥）
+  Telegram: SRE 群組（SRE_GROUP_CHAT_ID）
+  負責: P2 例行審核、監控告警響應
+
+Level 3 — AI 系統（降級自動處理）
+  角色: OpenClaw + Expert System
+  負責: P3（低風險）自動執行，無需人工
+```
+
+### 當前實際狀態（2026-04-14）
+
+```
+統帥 = Level 1 + Level 2（一人承擔所有層級）
+AI   = Level 3（P3 自動，P0/1/2 部分自動）
+```
+
+---
+
+## 3. 怎麼介入（How）
+
+### 3.1 Telegram 審核卡操作
+
+當系統發送 TYPE-3 審核卡到統帥個人 DM：
+
+```
+╔══════════════════════════════════════╗
+║  🔧 需要您的決策                       ║
+║                                      ║
+║  告警: KubePodCrashLooping           ║
+║  目標: awoooi-api @ awoooi-prod      ║
+║  風險: 🟡 MEDIUM                     ║
+║  AI信心: 82%                         ║
+║  建議動作: kubectl rollout restart    ║
+║             deployment/awoooi-api    ║
+║  影響估計: ~30s 服務中斷              ║
+║                                      ║
+║  [ ✅ 批准執行 ]  [ ❌ 拒絕 ]         ║
+║  [ 🔍 查看詳情 ]  [ 📋 Postmortem ]  ║
+╚══════════════════════════════════════╝
+```
+
+**批准後**：系統立即執行，並發送執行結果通知  
+**拒絕後**：Incident 標記為 `human_rejected`，不再自動重試  
+**不操作**：30 分鐘後觸發 HITL-6（逾時升級）
+
+### 3.2 Fail-safe 逾時行為（HITL-6 細節）
+
+```
+審核卡發出後：
+
+  0 分鐘:  審核卡發送到個人 DM
+  15 分鐘: 提醒訊息（同一個 DM）:
+           "⚠️ 此審核已等待 15 分鐘，請盡快處理"
+  30 分鐘: 升級告警發送到 SRE 群組:
+           "🔴 審核逾時！Incident #XXX 已等待 30 分鐘未處理
+            若不處理，系統將在 5 分鐘後自動標記為 ESCALATED"
+  35 分鐘: Incident 狀態 → ESCALATED
+           記錄到 alert_operation_log（事後可查）
+           不執行任何破壞性操作（Fail-safe：寧可不動也不亂動）
+```
+
+**重要**：AWOOOI 的 Fail-safe 預設行為是**不執行**，而非自動執行。
+若 AI 不確定或人類沒有回應，系統**保持現狀**，不主動改變任何東西。
+
+### 3.3 人工直接操作（繞過 AI）
+
+統帥可以隨時直接操作，AI 不會干預：
+
+```bash
+# 直接 kubectl 操作（AI 不知道，但 AWOOOI 不阻擋）
+kubectl rollout restart deployment/awoooi-api -n awoooi-prod
+
+# 透過 AWOOOI API 手動觸發（有記錄）
+POST /api/v1/approvals/{id}/manual-execute
+  Authorization: Bearer {token}
+  Body: {"reason": "AI 判斷錯誤，手動修復"}
+```
+
+---
+
+## 4. Kill Switch（緊急停止）
+
+### 4.1 Kill Switch 是什麼
+
+Kill Switch = 立即凍結 AWOOOI 所有自動操作的緊急機制。
+
+啟動後：
+- ✅ 繼續接收告警（不停止監控）
+- ✅ 繼續發送通知（讓統帥知道發生什麼）
+- ❌ 停止所有自動執行（kubectl / SSH）
+- ❌ 停止所有自動批准（AutoApprovePolicy 凍結）
+- ❌ 停止新 DecisionToken 進入執行階段
+
+### 4.2 如何啟動 Kill Switch
+
+**方法 1：Telegram 指令**（推薦，最快）
+```
+在個人 DM 輸入：
+/kill_switch enable
+
+系統回應：
+🛑 KILL SWITCH 已啟動
+  - 所有自動執行已凍結
+  - 現有 pending 審核不受影響
+  - 統帥可手動批准個別操作
+  - 輸入 /kill_switch disable 解除
+```
+
+**方法 2：API 呼叫**
+```bash
+curl -X POST https://api.awoooi.internal/api/v1/system/kill-switch \
+  -H "Authorization: Bearer {admin_token}" \
+  -d '{"enabled": true, "reason": "系統異常，緊急凍結"}'
+```
+
+**方法 3：環境變數（重啟後生效）**
+```bash
+# 在 K8s ConfigMap 設定
+AIOPS_AUTO_EXECUTE_ENABLED=false
+```
+
+### 4.3 Kill Switch 啟動場景
+
+| 場景 | 建議行動 |
+|------|---------|
+| AI 連續執行錯誤動作 | 立即啟動，調查根因 |
+| 生產環境重大變更前 | 啟動 Kill Switch，變更完成後解除 |
+| SLO-1 連續 4h < 30% | 評估啟動（飛輪嚴重異常） |
+| 不明告警風暴（10 分鐘 > 50 個） | 啟動 + 調查聚合引擎是否失效 |
+| 週末/假日不在線 | 可啟動，讓系統進入純監控模式 |
+
+---
+
+## 5. 人工接管標準流程（SOP）
+
+### 情境 A：收到 TYPE-3 審核卡
+
+```
+Step 1: 閱讀審核卡（告警類型、目標、AI 建議動作、風險評估）
+Step 2: 若不確定，點擊「查看詳情」查看完整 AI 分析
+Step 3: 判斷：
+  - AI 建議合理 + 風險可接受 → 批准
+  - AI 建議有疑慮 → 拒絕，手動研究後再決定
+  - 看不懂 → 拒絕，kubectl describe 自己看
+Step 4: 不論批准或拒絕，系統都會記錄到 alert_operation_log
+```
+
+### 情境 B：自動修復失敗，AI 交還控制
+
+```
+Step 1: 收到 TYPE-4 通知（AI 無法判斷或已重試 2 次）
+Step 2: 查看 Incident 詳情（/api/v1/incidents/{id}）
+Step 3: 手動分析根因（kubectl logs / describe）
+Step 4: 手動執行修復命令
+Step 5: 確認服務恢復後，在 AWOOOI UI 標記 Incident 為 RESOLVED
+```
+
+### 情境 C：發現 AI 判斷持續錯誤
+
+```
+Step 1: 啟動 Kill Switch
+Step 2: 查看最近 N 個錯誤 DecisionToken 的 reasoning
+Step 3: 識別根因（Prompt 問題？LLM 模型切換？規則配置錯誤？）
+Step 4: 修復根因（可能需要更新 alert_rules.yaml 或 Playbook）
+Step 5: 在 staging 環境驗證（用 DRY_RUN=true）
+Step 6: 解除 Kill Switch，觀察 1 小時
+```
+
+---
+
+## 6. 人工介入記錄規範
+
+所有人工介入必須記錄到 `alert_operation_log`，欄位包含：
+
+```python
+{
+  "event_type": "human_intervention",
+  "action": "approved" | "rejected" | "manual_execute" | "kill_switch",
+  "actor": "統帥",
+  "actor_role": "owner",
+  "reason": "string（人工填寫）",
+  "approval_id": "uuid（若有）",
+  "incident_id": "string（若有）",
+  "timestamp": "2026-04-14T08:00:00+08:00",  # 台北時間
+}
+```
+
+這些記錄用於：
+- Postmortem 自動組裝時間軸
+- SLO 計算（區分 AI 自動 vs 人工介入）
+- 飛輪學習（識別 AI 哪裡判斷錯，更新 Playbook）
+
+---
+
+## 7. 與系統各層的接點
+
+| 系統層 | Human-in-the-Loop 接點 |
+|-------|----------------------|
+| `webhooks.py` | Kill Switch 檢查（進入決策前） |
+| `auto_approve.py` | P0/P1 強制人工路由 |
+| `decision_manager.py` | LLM 超時 → Expert System → 信心不足 → TYPE-4 |
+| `approval_execution.py` | 重試失敗 → TYPE-4 交還人工 |
+| `telegram_gateway.py` | 審核卡 + 逾時提醒 + Kill Switch 指令接收 |
+| `incident_service.py` | 人工標記 RESOLVED / ESCALATED |
+
+---
+
+## 8. 未來擴充計畫
+
+| 功能 | 說明 | 時程 |
+|------|------|------|
+| 審核逾時自動降級（保守） | 超過 60 分鐘 → 自動執行最低風險操作 | Phase 3 後評估 |
+| 多人簽核（Multi-Sig） | P0 需要 2 人確認 | 待統帥指示 |
+| 行動 App 通知 | iOS 通知支援 | 低優先 |
+| SRE On-call 輪值 | 第二個人類接管層 | 未來需求 |
+
+---
+
+*最後更新: 2026-04-14 台北時間 | 建立者: Claude Sonnet 4.6 + 統帥*
--- a/docs/slo/SLO-SLI-DEFINITION.md
+++ b/docs/slo/SLO-SLI-DEFINITION.md
@@ -0,0 +1,240 @@
+# AWOOOI AIOps SLO/SLI 定義文件
+
+> **文件類型**: 服務層級目標（Service Level Objectives）  
+> **版本**: v1.0  
+> **建立日期**: 2026-04-14（台北時間）  
+> **建立者**: Claude Sonnet 4.6（首席架構師）+ 統帥確認  
+> **審查週期**: 每月第一週複查，重大事件後即時更新  
+> **權威性**: 本文件是 AWOOOI 系統「好不好」的唯一量尺
+
+---
+
+## 0. 為什麼需要 SLO？
+
+> **沒有量尺，就不知道飛輪轉得好不好。**
+
+在自動化系統中，以下問題沒有 SLO 就無法回答：
+
+- 「今天的自動修復成功率算好還是算差？」
+- 「上週比這週好多少？」
+- 「現在該出手介入了嗎？還是讓系統自己處理？」
+- 「我們的 Error Budget 還剩多少？能不能再做一次有風險的部署？」
+
+SLO 把「系統表現好壞」從**主觀感受**變成**可量化的數字**。
+
+---
+
+## 1. SLI 定義（Service Level Indicators — 量什麼）
+
+> SLI = 我們用來量測系統健康狀態的**指標**
+
+### SLI-1：自動修復執行成功率
+
+```
+定義: 在給定時間窗口內，auto_repair 執行成功次數 / 總執行次數
+
+計算:
+  分子: ApprovalRequest.execution_success = True 的筆數
+  分母: ApprovalRequest.execution_success IS NOT NULL 的筆數
+
+查詢:
+  SELECT
+    COUNT(*) FILTER (WHERE execution_success = true) * 100.0 /
+    COUNT(*) FILTER (WHERE execution_success IS NOT NULL)
+  FROM approval_requests
+  WHERE created_at >= NOW() - INTERVAL '24 hours';
+
+單位: 百分比（%）
+時間窗口: 24 小時滾動 / 7 天滾動
+```
+
+### SLI-2：告警分析延遲（從告警進入到 Telegram 卡片發出）
+
+```
+定義: webhook 接收告警 → Telegram 卡片成功發出的時間
+
+計算:
+  開始: POST /webhooks/alerts 收到請求時間戳
+  結束: Telegram sendMessage API 成功回應時間戳
+
+目前測量方式:
+  - Langfuse trace duration（已整合）
+  - structlog "telegram_card_sent" 與 "alertmanager_received" 的 delta
+
+單位: 秒（s）
+時間窗口: P50 / P95 / P99 百分位數
+```
+
+### SLI-3：決策引擎可用性（LLM 路徑成功率）
+
+```
+定義: LLM 分析請求中，成功返回決策的比率（含降級到 Expert System 的情況）
+
+計算:
+  分子: 有 analysis_result 且 confidence > 0 的決策數
+  分母: 進入 LLM 分析路徑的告警總數
+
+注意:
+  - LLM timeout → 降級 Expert System = 計為「成功」（有決策輸出）
+  - LLM 完全失敗（exception）= 計為「失敗」
+
+單位: 百分比（%）
+```
+
+### SLI-4：KM 知識沉澱率（飛輪健康指標）
+
+```
+定義: 在執行完成的 Incident 中，成功產出 KM Entry 的比率
+
+計算:
+  分子: 有對應 KM Entry（category='execution_result' 或 'auto_repair'）的 Incident 數
+  分母: status='resolved' 的 Incident 總數
+
+單位: 百分比（%）
+時間窗口: 7 天滾動
+```
+
+### SLI-5：Telegram 通知送達率
+
+```
+定義: 應發送的 Telegram 通知中，成功送達的比率
+
+計算:
+  分子: structlog "telegram_card_sent" 事件數
+  分母: structlog "telegram_card_sent" + "telegram_send_failed" 事件數
+
+單位: 百分比（%）
+```
+
+---
+
+## 2. SLO 目標值（Service Level Objectives — 要到多好）
+
+> SLO = 我們**承諾**系統要達到的水準
+
+### 主要 SLO 表
+
+| SLO ID | SLI | 及格線（Minimum） | 卓越線（Target） | 測量窗口 |
+|--------|-----|-----------------|-----------------|---------|
+| **SLO-1** | 自動修復執行成功率 | **≥ 70%** | ≥ 85% | 24h 滾動 |
+| **SLO-2** | 告警分析延遲 P95 | **≤ 60s** | ≤ 30s | 7d 滾動 |
+| **SLO-3** | 決策引擎可用性 | **≥ 95%** | ≥ 99% | 24h 滾動 |
+| **SLO-4** | KM 知識沉澱率 | **≥ 60%** | ≥ 80% | 7d 滾動 |
+| **SLO-5** | Telegram 通知送達率 | **≥ 98%** | ≥ 99.5% | 24h 滾動 |
+
+### 各 SLO 設定理由
+
+**SLO-1（自動修復成功率 ≥ 70%）**
+
+目前系統基準：~0.5%（ADR-073 盤點發現）。
+設定 70% 為及格是因為：
+- K8s 操作本身有 ~10-15% 失敗率（網路短暫不通、資源不足）
+- 含重試後，70% 是合理的第一個里程碑
+- 卓越線 85% = 業界 AIOps 成熟系統的平均水準（Google SRE 報告）
+
+**SLO-2（分析延遲 P95 ≤ 60s）**
+
+- 告警→卡片 60s 以內 = 人可接受的「準即時」反應
+- P95 而非 P99 = 允許偶發的 LLM 高延遲（deepseek-r1:14b 推理本身需 15-40s）
+- 30s 卓越線 = Playbook RAG 命中時的典型速度
+
+**SLO-3（決策引擎可用性 ≥ 95%）**
+
+- 95% = 每 20 個告警允許 1 個完全失敗（Expert System 也無法決策）
+- 99% 卓越線 = 幾乎零失敗，依賴 LLM 穩定性提升
+
+**SLO-4（KM 沉澱率 ≥ 60%）**
+
+- 當前基準：接近 0%（BP-1 修復前 KM 幾乎不寫入）
+- 60% 及格線 = 允許 40% Incident 因各種原因未能沉澱（DB 失敗、無 incident_id 等）
+- 80% 卓越線 = 飛輪「穩定運轉」的健康標準
+
+**SLO-5（Telegram 送達率 ≥ 98%）**
+
+- 通知是 AWOOOI 對外的唯一溝通渠道
+- 98% = 每 50 個通知允許 1 個失敗（網路短暫中斷）
+- 99.5% 卓越線 = 等同電信級別的高可用
+
+---
+
+## 3. Error Budget（錯誤預算）
+
+> Error Budget = 我們「允許系統不完美」的配額
+
+### 計算方式
+
+```
+Error Budget = 1 - SLO 目標值
+
+以 SLO-1（自動修復成功率，卓越線 85%）為例：
+  Error Budget = 1 - 0.85 = 15%
+
+含義：在 100 次自動修復中，允許最多 15 次失敗。
+當失敗次數超過 15 次，Error Budget 耗盡 → 凍結新功能部署，優先修復。
+```
+
+### Error Budget 使用規則
+
+| 剩餘預算 | 狀態 | 允許行為 |
+|---------|------|---------|
+| > 50% | 🟢 充裕 | 可推高風險變更（新功能、架構調整） |
+| 20-50% | 🟡 注意 | 只推低風險變更（Bug Fix、配置調整） |
+| 5-20% | 🟠 警戒 | 凍結所有非緊急變更，優先修復 SLO |
+| < 5% | 🔴 耗盡 | 緊急模式：所有 PR 需統帥親自批准 |
+
+---
+
+## 4. SLO 監控與告警
+
+### 當前監控方式
+
+| SLO | 資料來源 | 查看位置 |
+|-----|---------|---------|
+| SLO-1 | PostgreSQL `approval_requests` 表 | 日度報告（08:00 台北）|
+| SLO-2 | Langfuse trace duration | Langfuse Dashboard |
+| SLO-3 | structlog 決策成功/失敗計數 | SignOz Logs |
+| SLO-4 | PostgreSQL incidents + knowledge_entries JOIN | 日度報告 |
+| SLO-5 | structlog telegram_card_sent/failed | SignOz Logs |
+
+### SLO 違規告警規則
+
+```yaml
+# 以下情況 → TYPE-8M「飛輪健康告警」→ 發統帥個人 DM
+
+SLO-1 連續 2 小時 < 50%:
+  告警: "⚠️ 自動修復成功率跌破 50%，飛輪瀕死"
+  
+SLO-2 P95 連續 15 分鐘 > 120s:
+  告警: "⚠️ LLM 分析嚴重延遲，可能 OOM 或網路問題"
+  
+SLO-3 連續 30 分鐘 < 90%:
+  告警: "🔴 決策引擎大規模失敗，立即介入"
+  
+SLO-5 連續 10 分鐘 < 95%:
+  告警: "🔴 Telegram 送達率跌破 95%，告警鏈路中斷"
+```
+
+---
+
+## 5. 里程碑目標（隨飛輪成熟演進）
+
+| 時間點 | SLO-1 目標 | 備註 |
+|-------|-----------|------|
+| **現在（2026-04-14）** | 基準：~0.5% | ADR-073 盤點確認 |
+| **Phase 1 完成（+2 週）** | ≥ 40% | KM 寫入、重試邏輯生效後 |
+| **Phase 2 完成（+4 週）** | ≥ 70% | 告警聚合、規則覆蓋強化 |
+| **Phase 3 完成（+6 週）** | ≥ 80% | 飛輪閉環、SSH KM 沉澱 |
+| **成熟運轉（+3 個月）** | ≥ 85% | 達到業界 AIOps 平均水準 |
+
+---
+
+## 6. 本文件更新規則
+
+1. **每週**: 日度報告自動收集 SLO-1、SLO-4 數值，存入趨勢記錄
+2. **每月第一週**: 統帥 + 首席架構師 review SLO 達成情況，決定是否調整目標值
+3. **重大 Incident 後**: 立即評估是否有 SLO 被違反，更新 Error Budget
+4. **目標值調整**: 達到「卓越線」穩定 4 週後，將卓越線升為新的及格線
+
+---
+
+*最後更新: 2026-04-14 台北時間 | 建立者: Claude Sonnet 4.6 + 統帥*