docs(awooop): record t16 automation boundary
This commit is contained in:
@@ -8240,4 +8240,4 @@ generation=23 observed=23 ready=1/1 restartedAt=2026-05-13T17:10:43Z
|
||||
- T16 已證明「低風險、PlayBook 可精準匹配、blast radius 受控」的 Alertmanager 告警,可以從收到告警一路跑到自動修復、MCP/rollout 驗證、KM 建立、Incident 關閉。
|
||||
- 這不是全面自動化完成:治理告警(例如 `knowledge_degradation` / `governance_slo_data_gap`)仍會重複 Telegram 推播,且目前沒有對應 `governance_remediation_dispatch` 階段可見性。
|
||||
- 下一階段 T17:治理告警 leader/dedupe、ADR-100 SLO emitter 修補、KM stale refresh 任務、治理 PlayBook seed、AwoooP 前端 Timeline 顯示每階段狀態與 MCP 使用證據。
|
||||
- 目前整體進度更新:約 92%。
|
||||
- 目前進度更新:Alertmanager 低風險自動修復主線約 95%;完整 AI 自動化管理產品化約 70%(治理告警、Ansible 執行證據、前端事件卷宗與 MCP 使用總覽仍未完成)。
|
||||
|
||||
@@ -2099,6 +2099,16 @@ Phase 6 完成後
|
||||
- 產品進度:Operator 現可在 Run Detail 看到 inbound provider、stage、provider event id、redacted content、source refs、fingerprint / namespace / target / hash。這完成「來源事實可見」,但仍不等於完整 AI 自動修復閉環;T16 仍需低風險 live-fire 自動修復 verified、Ansible executor audit、KM / PlayBook writeback、write/admin MCP Gateway enforcement。
|
||||
- 目前整體進度更新:約 94%。
|
||||
|
||||
**T16 Alertmanager 低風險自動修復閉環 production verified(2026-05-14 台北)**:
|
||||
- 觸發:Telegram 告警卡能顯示 AI 建議,但無法證明低風險告警已真的經過 AI 判斷、PlayBook 匹配、自動修復、MCP 驗證、KM 回寫與 Incident 關閉。
|
||||
- 修正:PlayBook 推薦保留 exact/Jaccard 候選;Alertmanager 背景 AI 分析加 timeout fallback;fallback 自動修復完成後同步 `approval_records.status=EXECUTION_SUCCESS`;MCP Gateway 補 `k8s_watch_rollout` read-only grant;PostExecutionVerifier 認得 rollout 成功訊號並寫回 `incident_evidence`。
|
||||
- Production deploy:commits `a0a0731c`、`d835b666`、`b1ecb55b`、`5fb73a56`、`6f6d032c`、`5604dd02` 均已推 Gitea main;latest API / Worker image 為 `5604dd02562368a5ad7c194c050c59a2e8fd2b96`,health healthy。
|
||||
- Live-fire:`AwoooPT16J170843` → `alert-20260514010908` → `INC-20260513-0B357C` → approval `8b5392dc-d0b4-4990-be7e-b8f61fa3f776` → exact PlayBook `PB-AWOOOP-CANARY-AWOOOPT16J17084` → auto repair execution `8eddd1d2-8756-4755-8e0e-5d9c9955f958`。
|
||||
- DB/K8s verification:`incidents.status=RESOLVED`、`approval_records.status=EXECUTION_SUCCESS`、`auto_repair_executions.success=true`、`incident_evidence.verification_result=success`、KM entries `2`、`awooop_conversation_event` 有 `received/incident_linked`;`deployment/awoooi-auto-repair-canary` rollout success,`generation=23 observed=23 ready=1/1 restartedAt=2026-05-13T17:10:43Z`。
|
||||
- 邊界:這證明低風險、blast radius 受控、PlayBook 可精準匹配的 Alertmanager 告警能完整自動修復;尚未代表治理告警、Ansible executor、write/admin MCP、前端全產品化完成。
|
||||
- 下一步 T17:治理告警 leader/dedupe、ADR-100 SLO emitter、KM stale refresh、治理 PlayBook seed、AwoooP 前端 Timeline 顯示每階段狀態與 MCP 使用證據。
|
||||
- 目前進度更新:Alertmanager 低風險自動修復主線約 95%;完整 AI 自動化管理產品化約 70%。
|
||||
|
||||
---
|
||||
|
||||
### 2026-04-20 晚 (台北) — C1-C4 全流程串接 — Playbook 鏈路保護(commit de2d34d)
|
||||
|
||||
Reference in New Issue
Block a user