docs(slo+ops): SLO-SLI 定義文件 + Human-in-the-Loop 規格書 v1.0

補建業界標準 P0 文件(量尺 + 煞車):

SLO-SLI-DEFINITION.md:
- 5 個 SLI 定義(成功率/延遲/可用性/KM沉澱/送達率)
- SLO 目標值表(及格線 + 卓越線)
- Error Budget 規則(充裕/注意/警戒/耗盡 4 級)
- SLO 違規告警規則(連結 TYPE-8M 飛輪告警)
- 里程碑目標(4 個 Phase 演進路線)

HUMAN-IN-THE-LOOP.md:
- 9 種人工介入觸發條件(HITL-1 ~ HITL-9)
- 破壞性操作強制人工清單(scale=0, delete pvc 等)
- Fail-safe 逾時行為(0→15→30→35 分鐘升級)
- Kill Switch 三種啟動方式(Telegram/API/EnvVar)
- 人工接管標準 SOP(情境 A/B/C)
- 人工介入記錄規範(alert_operation_log 格式)

Co-Authored-By: Claude Haiku 4.5 <noreply@anthropic.com>
This commit is contained in:
OG T
2026-04-14 14:54:13 +08:00
parent dd378ac698
commit e778e4d0c1
2 changed files with 525 additions and 0 deletions

View File

@@ -0,0 +1,285 @@
# AWOOOI Human-in-the-Loop 規格書
> **文件類型**: 人工介入標準操作程序Human-in-the-Loop Specification
> **版本**: v1.0
> **建立日期**: 2026-04-14台北時間
> **建立者**: Claude Sonnet 4.6(首席架構師)+ 統帥確認
> **核心問題**: AI 判斷錯了、超時沒決定、或系統失控時,人類如何接管?
---
## 0. 設計哲學
> **AI 是副駕駛,統帥是機長。**
AWOOOI AIOps 的設計原則:
- AI **永遠可以被人類覆蓋**,任何時候
- **高風險操作**P0/P1必須人工確認不例外
- AI 超時或信心不足時,系統**主動交還控制權**,不沉默失敗
- **Kill Switch** 永遠可用,一鍵讓 AI 停止所有自動操作
---
## 1. 人工介入觸發條件When
### 觸發矩陣
| 情況 | 觸發條件 | 系統行為 | 介入方式 |
|------|---------|---------|---------|
| **HITL-1** | 風險等級 P0CRITICAL | 強制人工審核 | Telegram 審核卡 |
| **HITL-2** | 風險等級 P1HIGH | 強制人工審核 | Telegram 審核卡 |
| **HITL-3** | AI 信心度 < 0.65 | 無法自動執行 | TYPE-4 通知,等人決定 |
| **HITL-4** | LLM 超時(> 25s | 降級 Expert System | Expert System 決策,低信心 → 人工 |
| **HITL-5** | 破壞性操作檢測 | 強制升級為人工 | TYPE-3 審核卡,含警告標示 |
| **HITL-6** | 審核逾時(> 30 分鐘)| 自動升級通知 | P0 告警發至統帥 + SRE 群組 |
| **HITL-7** | 自動修復連續失敗 2 次 | 停止重試 | TYPE-4 通知,等人接手 |
| **HITL-8** | SLO-1 < 50%(連續 2h | 飛輪異常 | TYPE-8M 告警,建議暫停自動修復 |
| **HITL-9** | Kill Switch 啟動 | 立即凍結所有自動操作 | 無自動行為,等人工重啟 |
### 破壞性操作關鍵字HITL-5 觸發清單)
以下任一 kubectl 命令出現 → 強制人工審核,不論信心度:
```
scale ... --replicas=0 ← 縮容至零(服務停止)
delete pod ← 刪除 Pod短暫中斷
delete deployment ← 刪除部署(資料風險)
delete pvc ← 刪除持久磁碟(資料永久消失)
delete namespace ← 刪除命名空間(災難性)
rm -rf ← 主機層刪除(絕對禁止)
DROP TABLE ← 資料庫破壞性操作(絕對禁止)
```
---
## 2. 誰來介入Who
### 介入層級
```
Level 1 — 統帥(最終決策者)
角色: ogt系統擁有者
Telegram: 個人 DMOPENCLAW_TG_CHAT_ID
負責: 所有 P0/P1 審核、Kill Switch、重大策略決定
Level 2 — SRE On-call未來擴充
角色: 待定(目前只有統帥)
Telegram: SRE 群組SRE_GROUP_CHAT_ID
負責: P2 例行審核、監控告警響應
Level 3 — AI 系統(降級自動處理)
角色: OpenClaw + Expert System
負責: P3低風險自動執行無需人工
```
### 當前實際狀態2026-04-14
```
統帥 = Level 1 + Level 2一人承擔所有層級
AI = Level 3P3 自動P0/1/2 部分自動)
```
---
## 3. 怎麼介入How
### 3.1 Telegram 審核卡操作
當系統發送 TYPE-3 審核卡到統帥個人 DM
```
╔══════════════════════════════════════╗
║ 🔧 需要您的決策 ║
║ ║
║ 告警: KubePodCrashLooping ║
║ 目標: awoooi-api @ awoooi-prod ║
║ 風險: 🟡 MEDIUM ║
║ AI信心: 82% ║
║ 建議動作: kubectl rollout restart ║
║ deployment/awoooi-api ║
║ 影響估計: ~30s 服務中斷 ║
║ ║
║ [ ✅ 批准執行 ] [ ❌ 拒絕 ] ║
║ [ 🔍 查看詳情 ] [ 📋 Postmortem ] ║
╚══════════════════════════════════════╝
```
**批准後**:系統立即執行,並發送執行結果通知
**拒絕後**Incident 標記為 `human_rejected`,不再自動重試
**不操作**30 分鐘後觸發 HITL-6逾時升級
### 3.2 Fail-safe 逾時行為HITL-6 細節)
```
審核卡發出後:
0 分鐘: 審核卡發送到個人 DM
15 分鐘: 提醒訊息(同一個 DM:
"⚠️ 此審核已等待 15 分鐘,請盡快處理"
30 分鐘: 升級告警發送到 SRE 群組:
"🔴 審核逾時Incident #XXX 已等待 30 分鐘未處理
若不處理,系統將在 5 分鐘後自動標記為 ESCALATED"
35 分鐘: Incident 狀態 → ESCALATED
記錄到 alert_operation_log事後可查
不執行任何破壞性操作Fail-safe寧可不動也不亂動
```
**重要**AWOOOI 的 Fail-safe 預設行為是**不執行**,而非自動執行。
若 AI 不確定或人類沒有回應,系統**保持現狀**,不主動改變任何東西。
### 3.3 人工直接操作(繞過 AI
統帥可以隨時直接操作AI 不會干預:
```bash
# 直接 kubectl 操作AI 不知道,但 AWOOOI 不阻擋)
kubectl rollout restart deployment/awoooi-api -n awoooi-prod
# 透過 AWOOOI API 手動觸發(有記錄)
POST /api/v1/approvals/{id}/manual-execute
Authorization: Bearer {token}
Body: {"reason": "AI 判斷錯誤,手動修復"}
```
---
## 4. Kill Switch緊急停止
### 4.1 Kill Switch 是什麼
Kill Switch = 立即凍結 AWOOOI 所有自動操作的緊急機制。
啟動後:
- ✅ 繼續接收告警(不停止監控)
- ✅ 繼續發送通知(讓統帥知道發生什麼)
- ❌ 停止所有自動執行kubectl / SSH
- ❌ 停止所有自動批准AutoApprovePolicy 凍結)
- ❌ 停止新 DecisionToken 進入執行階段
### 4.2 如何啟動 Kill Switch
**方法 1Telegram 指令**(推薦,最快)
```
在個人 DM 輸入:
/kill_switch enable
系統回應:
🛑 KILL SWITCH 已啟動
- 所有自動執行已凍結
- 現有 pending 審核不受影響
- 統帥可手動批准個別操作
- 輸入 /kill_switch disable 解除
```
**方法 2API 呼叫**
```bash
curl -X POST https://api.awoooi.internal/api/v1/system/kill-switch \
-H "Authorization: Bearer {admin_token}" \
-d '{"enabled": true, "reason": "系統異常,緊急凍結"}'
```
**方法 3環境變數重啟後生效**
```bash
# 在 K8s ConfigMap 設定
AIOPS_AUTO_EXECUTE_ENABLED=false
```
### 4.3 Kill Switch 啟動場景
| 場景 | 建議行動 |
|------|---------|
| AI 連續執行錯誤動作 | 立即啟動,調查根因 |
| 生產環境重大變更前 | 啟動 Kill Switch變更完成後解除 |
| SLO-1 連續 4h < 30% | 評估啟動(飛輪嚴重異常) |
| 不明告警風暴10 分鐘 > 50 個) | 啟動 + 調查聚合引擎是否失效 |
| 週末/假日不在線 | 可啟動,讓系統進入純監控模式 |
---
## 5. 人工接管標準流程SOP
### 情境 A收到 TYPE-3 審核卡
```
Step 1: 閱讀審核卡告警類型、目標、AI 建議動作、風險評估)
Step 2: 若不確定,點擊「查看詳情」查看完整 AI 分析
Step 3: 判斷:
- AI 建議合理 + 風險可接受 → 批准
- AI 建議有疑慮 → 拒絕,手動研究後再決定
- 看不懂 → 拒絕kubectl describe 自己看
Step 4: 不論批准或拒絕,系統都會記錄到 alert_operation_log
```
### 情境 B自動修復失敗AI 交還控制
```
Step 1: 收到 TYPE-4 通知AI 無法判斷或已重試 2 次)
Step 2: 查看 Incident 詳情(/api/v1/incidents/{id}
Step 3: 手動分析根因kubectl logs / describe
Step 4: 手動執行修復命令
Step 5: 確認服務恢復後,在 AWOOOI UI 標記 Incident 為 RESOLVED
```
### 情境 C發現 AI 判斷持續錯誤
```
Step 1: 啟動 Kill Switch
Step 2: 查看最近 N 個錯誤 DecisionToken 的 reasoning
Step 3: 識別根因Prompt 問題LLM 模型切換?規則配置錯誤?)
Step 4: 修復根因(可能需要更新 alert_rules.yaml 或 Playbook
Step 5: 在 staging 環境驗證(用 DRY_RUN=true
Step 6: 解除 Kill Switch觀察 1 小時
```
---
## 6. 人工介入記錄規範
所有人工介入必須記錄到 `alert_operation_log`,欄位包含:
```python
{
"event_type": "human_intervention",
"action": "approved" | "rejected" | "manual_execute" | "kill_switch",
"actor": "統帥",
"actor_role": "owner",
"reason": "string人工填寫",
"approval_id": "uuid若有",
"incident_id": "string若有",
"timestamp": "2026-04-14T08:00:00+08:00", # 台北時間
}
```
這些記錄用於:
- Postmortem 自動組裝時間軸
- SLO 計算(區分 AI 自動 vs 人工介入)
- 飛輪學習(識別 AI 哪裡判斷錯,更新 Playbook
---
## 7. 與系統各層的接點
| 系統層 | Human-in-the-Loop 接點 |
|-------|----------------------|
| `webhooks.py` | Kill Switch 檢查(進入決策前) |
| `auto_approve.py` | P0/P1 強制人工路由 |
| `decision_manager.py` | LLM 超時 → Expert System → 信心不足 → TYPE-4 |
| `approval_execution.py` | 重試失敗 → TYPE-4 交還人工 |
| `telegram_gateway.py` | 審核卡 + 逾時提醒 + Kill Switch 指令接收 |
| `incident_service.py` | 人工標記 RESOLVED / ESCALATED |
---
## 8. 未來擴充計畫
| 功能 | 說明 | 時程 |
|------|------|------|
| 審核逾時自動降級(保守) | 超過 60 分鐘 → 自動執行最低風險操作 | Phase 3 後評估 |
| 多人簽核Multi-Sig | P0 需要 2 人確認 | 待統帥指示 |
| 行動 App 通知 | iOS 通知支援 | 低優先 |
| SRE On-call 輪值 | 第二個人類接管層 | 未來需求 |
---
*最後更新: 2026-04-14 台北時間 | 建立者: Claude Sonnet 4.6 + 統帥*

View File

@@ -0,0 +1,240 @@
# AWOOOI AIOps SLO/SLI 定義文件
> **文件類型**: 服務層級目標Service Level Objectives
> **版本**: v1.0
> **建立日期**: 2026-04-14台北時間
> **建立者**: Claude Sonnet 4.6(首席架構師)+ 統帥確認
> **審查週期**: 每月第一週複查,重大事件後即時更新
> **權威性**: 本文件是 AWOOOI 系統「好不好」的唯一量尺
---
## 0. 為什麼需要 SLO
> **沒有量尺,就不知道飛輪轉得好不好。**
在自動化系統中,以下問題沒有 SLO 就無法回答:
- 「今天的自動修復成功率算好還是算差?」
- 「上週比這週好多少?」
- 「現在該出手介入了嗎?還是讓系統自己處理?」
- 「我們的 Error Budget 還剩多少?能不能再做一次有風險的部署?」
SLO 把「系統表現好壞」從**主觀感受**變成**可量化的數字**。
---
## 1. SLI 定義Service Level Indicators — 量什麼)
> SLI = 我們用來量測系統健康狀態的**指標**
### SLI-1自動修復執行成功率
```
定義: 在給定時間窗口內auto_repair 執行成功次數 / 總執行次數
計算:
分子: ApprovalRequest.execution_success = True 的筆數
分母: ApprovalRequest.execution_success IS NOT NULL 的筆數
查詢:
SELECT
COUNT(*) FILTER (WHERE execution_success = true) * 100.0 /
COUNT(*) FILTER (WHERE execution_success IS NOT NULL)
FROM approval_requests
WHERE created_at >= NOW() - INTERVAL '24 hours';
單位: 百分比(%
時間窗口: 24 小時滾動 / 7 天滾動
```
### SLI-2告警分析延遲從告警進入到 Telegram 卡片發出)
```
定義: webhook 接收告警 → Telegram 卡片成功發出的時間
計算:
開始: POST /webhooks/alerts 收到請求時間戳
結束: Telegram sendMessage API 成功回應時間戳
目前測量方式:
- Langfuse trace duration已整合
- structlog "telegram_card_sent" 與 "alertmanager_received" 的 delta
單位: 秒s
時間窗口: P50 / P95 / P99 百分位數
```
### SLI-3決策引擎可用性LLM 路徑成功率)
```
定義: LLM 分析請求中,成功返回決策的比率(含降級到 Expert System 的情況)
計算:
分子: 有 analysis_result 且 confidence > 0 的決策數
分母: 進入 LLM 分析路徑的告警總數
注意:
- LLM timeout → 降級 Expert System = 計為「成功」(有決策輸出)
- LLM 完全失敗exception= 計為「失敗」
單位: 百分比(%
```
### SLI-4KM 知識沉澱率(飛輪健康指標)
```
定義: 在執行完成的 Incident 中,成功產出 KM Entry 的比率
計算:
分子: 有對應 KM Entrycategory='execution_result' 或 'auto_repair')的 Incident 數
分母: status='resolved' 的 Incident 總數
單位: 百分比(%
時間窗口: 7 天滾動
```
### SLI-5Telegram 通知送達率
```
定義: 應發送的 Telegram 通知中,成功送達的比率
計算:
分子: structlog "telegram_card_sent" 事件數
分母: structlog "telegram_card_sent" + "telegram_send_failed" 事件數
單位: 百分比(%
```
---
## 2. SLO 目標值Service Level Objectives — 要到多好)
> SLO = 我們**承諾**系統要達到的水準
### 主要 SLO 表
| SLO ID | SLI | 及格線Minimum | 卓越線Target | 測量窗口 |
|--------|-----|-----------------|-----------------|---------|
| **SLO-1** | 自動修復執行成功率 | **≥ 70%** | ≥ 85% | 24h 滾動 |
| **SLO-2** | 告警分析延遲 P95 | **≤ 60s** | ≤ 30s | 7d 滾動 |
| **SLO-3** | 決策引擎可用性 | **≥ 95%** | ≥ 99% | 24h 滾動 |
| **SLO-4** | KM 知識沉澱率 | **≥ 60%** | ≥ 80% | 7d 滾動 |
| **SLO-5** | Telegram 通知送達率 | **≥ 98%** | ≥ 99.5% | 24h 滾動 |
### 各 SLO 設定理由
**SLO-1自動修復成功率 ≥ 70%**
目前系統基準:~0.5%ADR-073 盤點發現)。
設定 70% 為及格是因為:
- K8s 操作本身有 ~10-15% 失敗率(網路短暫不通、資源不足)
- 含重試後70% 是合理的第一個里程碑
- 卓越線 85% = 業界 AIOps 成熟系統的平均水準Google SRE 報告)
**SLO-2分析延遲 P95 ≤ 60s**
- 告警→卡片 60s 以內 = 人可接受的「準即時」反應
- P95 而非 P99 = 允許偶發的 LLM 高延遲deepseek-r1:14b 推理本身需 15-40s
- 30s 卓越線 = Playbook RAG 命中時的典型速度
**SLO-3決策引擎可用性 ≥ 95%**
- 95% = 每 20 個告警允許 1 個完全失敗Expert System 也無法決策)
- 99% 卓越線 = 幾乎零失敗,依賴 LLM 穩定性提升
**SLO-4KM 沉澱率 ≥ 60%**
- 當前基準:接近 0%BP-1 修復前 KM 幾乎不寫入)
- 60% 及格線 = 允許 40% Incident 因各種原因未能沉澱DB 失敗、無 incident_id 等)
- 80% 卓越線 = 飛輪「穩定運轉」的健康標準
**SLO-5Telegram 送達率 ≥ 98%**
- 通知是 AWOOOI 對外的唯一溝通渠道
- 98% = 每 50 個通知允許 1 個失敗(網路短暫中斷)
- 99.5% 卓越線 = 等同電信級別的高可用
---
## 3. Error Budget錯誤預算
> Error Budget = 我們「允許系統不完美」的配額
### 計算方式
```
Error Budget = 1 - SLO 目標值
以 SLO-1自動修復成功率卓越線 85%)為例:
Error Budget = 1 - 0.85 = 15%
含義:在 100 次自動修復中,允許最多 15 次失敗。
當失敗次數超過 15 次Error Budget 耗盡 → 凍結新功能部署,優先修復。
```
### Error Budget 使用規則
| 剩餘預算 | 狀態 | 允許行為 |
|---------|------|---------|
| > 50% | 🟢 充裕 | 可推高風險變更(新功能、架構調整) |
| 20-50% | 🟡 注意 | 只推低風險變更Bug Fix、配置調整 |
| 5-20% | 🟠 警戒 | 凍結所有非緊急變更,優先修復 SLO |
| < 5% | 🔴 耗盡 | 緊急模式:所有 PR 需統帥親自批准 |
---
## 4. SLO 監控與告警
### 當前監控方式
| SLO | 資料來源 | 查看位置 |
|-----|---------|---------|
| SLO-1 | PostgreSQL `approval_requests` 表 | 日度報告08:00 台北)|
| SLO-2 | Langfuse trace duration | Langfuse Dashboard |
| SLO-3 | structlog 決策成功/失敗計數 | SignOz Logs |
| SLO-4 | PostgreSQL incidents + knowledge_entries JOIN | 日度報告 |
| SLO-5 | structlog telegram_card_sent/failed | SignOz Logs |
### SLO 違規告警規則
```yaml
# 以下情況 → TYPE-8M「飛輪健康告警」→ 發統帥個人 DM
SLO-1 連續 2 小時 < 50%:
告警: "⚠️ 自動修復成功率跌破 50%,飛輪瀕死"
SLO-2 P95 連續 15 分鐘 > 120s:
告警: "⚠️ LLM 分析嚴重延遲,可能 OOM 或網路問題"
SLO-3 連續 30 分鐘 < 90%:
告警: "🔴 決策引擎大規模失敗,立即介入"
SLO-5 連續 10 分鐘 < 95%:
告警: "🔴 Telegram 送達率跌破 95%,告警鏈路中斷"
```
---
## 5. 里程碑目標(隨飛輪成熟演進)
| 時間點 | SLO-1 目標 | 備註 |
|-------|-----------|------|
| **現在2026-04-14** | 基準:~0.5% | ADR-073 盤點確認 |
| **Phase 1 完成(+2 週)** | ≥ 40% | KM 寫入、重試邏輯生效後 |
| **Phase 2 完成(+4 週)** | ≥ 70% | 告警聚合、規則覆蓋強化 |
| **Phase 3 完成(+6 週)** | ≥ 80% | 飛輪閉環、SSH KM 沉澱 |
| **成熟運轉(+3 個月)** | ≥ 85% | 達到業界 AIOps 平均水準 |
---
## 6. 本文件更新規則
1. **每週**: 日度報告自動收集 SLO-1、SLO-4 數值,存入趨勢記錄
2. **每月第一週**: 統帥 + 首席架構師 review SLO 達成情況,決定是否調整目標值
3. **重大 Incident 後**: 立即評估是否有 SLO 被違反,更新 Error Budget
4. **目標值調整**: 達到「卓越線」穩定 4 週後,將卓越線升為新的及格線
---
*最後更新: 2026-04-14 台北時間 | 建立者: Claude Sonnet 4.6 + 統帥*