Files
awoooi/docs/LOGBOOK.md
2026-04-09 11:21:59 +08:00

11 KiB
Raw Blame History

LOGBOOK - AWOOOI 進度軌跡

用途: AI 代理進度追蹤,防止 Session 斷層 規則: 完成重要節點後追加一行 歷史: 舊條目已壓縮,詳細記錄見 git log


📍 當前狀態 (2026-04-09 Telegram 截斷根因修復 + Panel 全面抽取)

項目 狀態 Commit
建議: kubectl rollout restart deployment/ 截斷根因修復 c5e4751
telegram_gateway.py [:35]→[:80] c5e4751
decision_manager.py enum string 補正 (用規則引擎查 kubectl) c5e4751
Panel 全面抽取完成 (13 個 Panel) fb66ecd
/observability 5 Tab 全 Panel fb66ecd
/automation 3 Tab 全 Panel fb66ecd
/operations 5 Tab 全 Panel fb66ecd
CD 部署驗證 🔄 進行中

根本根因: suggested_action[:35] = 35 字剛好截到 deployment/name 永遠空白 下一步: 等 CD 完成 → 驗收新告警顯示格式 → 關閉舊 Incident


📍 當前狀態 (2026-04-09 Alert Rule Engine + Ollama M1 Pro + 首席架構師審查)

項目 狀態 Commit
Ollama 切換 188→111 (M1 Pro, 0.45→40+ tok/s) 多個
deepseek-r1:14b (RCA) + gemma3:4b (summary) f32b077
Gemini fallback for NIM 完全失敗 d80153b
告警規則引擎 alert_rules.yaml + alert_rule_engine.py d1ede7f
AI 自動規則學習 (generic_fallback 觸發) 71437db
首席架構師審查 63/100 → 6 個問題修復 本次
ADR-064 Alert Rule Engine 本次
Skills 02/03 更新 本次
model_registry fallback 同步更新 89da2d2
K8s 部署驗證 (image 89da2d2) 2 Pod Running

已知技術債: 多 Pod 規則重複生成ADR-064 L1lru_cache 跨 Pod 不同步ADR-064 L2

下一步: 前端重設計整合頁面 Panel 抽取 (解決雙重 AppLayout)


📍 當前狀態 (2026-04-09 Sprint 5.2 全面監控 + Alert Op Log API + 效能修復)

項目 狀態 Commit
Plan A: docker-health-monitor 110+188 */5 0e6c4b8
Plan B: pg/redis exporter 確認 UP
Plan C: 5 條外部網站告警規則 9799a14
Alertmanager telegram-direct fallback 7e327c8
pg-backup.sh 每 6h 188 cron f98be41
DR Drill cron 121 月第一週日 03:00 手動
188 CD 自動同步 ops scripts c51d7ef
alert_operation_log API (list/stats) 5ea6c3f
/alert-operation-logs 前端頁面 5ea6c3f
incidents 效能修復Redis cache + fire-and-forget 4b3fdd8
Panel 抽取全面完成(雙重 AppLayout 修正) fb66ecd
CD 部署 run #586 🔄 fb66ecd2

下一步: CD 完成 → API 驗收 → 告警鏈路 E2E 驗收


📍 當前狀態 (2026-04-09 Sprint 5 首席架構師審查 P0 修正完成)

項目 狀態 Commit
首席架構師審查 72/100 有條件通過
C1: 首頁 i18n 30+ 處 修正 7153395
C2: 拓撲 i18n 10+ 處 修正 9e10305
C3: Loading 改 LobsterLoading 修正 7153395
I1: 100ms 輪詢改 popstate 修正 7153395
I2: 13 Panel 全部抽取 (雙重 AppLayout) 修正 7934ade
C4: TOOL_EMOJI (pre-existing) 📝 後續

下一步: Re-Review → 驗收


📍 當前狀態 (2026-04-09 Sprint 5 前端重設計完成 + 部署中)

項目 狀態 Commit
Phase 0: 安裝 React Flow + elkjs + /classic 11ff517
Phase 1: 首頁 4-Tab + Sidebar 精簡 6+2+經典 eaa6102
Phase 2: React Flow 拓撲圖元件 (7 新檔) d276b39
Phase 3: 5 個整合頁面 (觀測/自動/營運/安全/知識) 1413804
Phase 4: 舊路由並存 9188e49
Sidebar label + Tab 同步 + 龍蝦動畫 + 效能優化 多個
OpenClaw 風格龍蝦 SVG (三色: 紅/綠/黃) 65e1edb
service_registry Docker 安全降級 c9f1bcd
拓撲圖 Toggle 整合到首頁 030f4f7
測試修正 (nemotron + smart_router) 多個
CD 部署 🔄 進行中

下一步: CD 完成 → 統帥驗收 → 整合頁面 Panel 抽取 (解決雙重 AppLayout)


📍 當前狀態 (2026-04-08 Sprint 5.1 L1-L5 + Review 修正完成)

項目 狀態 Commit
Sprint 5.1 L1-L5 全部實作 88696db
首席架構師審查70/100→修正 0f5fecf
DB Migration M-002/M-003已在 188 執行)
service-registry.yaml21 個服務分級) 88696db
三個新 Serviceregistry/velero/preflight 0f5fecf
Guardrail 注入 auto_repair_service 0f5fecf
ALERT_RECEIVED + auto_repair flag webhooks 0f5fecf
T1-T6 Telegram 通知 0f5fecf
docker-health-monitor.sh 純感知層 88696db
ADR-062/063 6f7a4be

當前焦點: Sprint 5.1 L7 E2E 驗收CD 部署後執行) 待完成: L2-2 alerts-unified.yml + docker-health-monitor 部署到 110/188 + E2E 驗收 Sprint 5.2: Plan Adocker-health-monitor 部署)/ Plan BExporter/ Plan CBlackbox


📊 里程碑總覽 (壓縮版)

2026-04-08 — Sprint 5.1 L1-L5 實作 + 首席架構師審查修正

  • L1: DB Migration M-002approval_records MultiSig/ M-003ENUM 8個新值在 188 執行完畢
  • L2-1: ops/config/service-registry.yaml 建立21 個服務BLOCK/CRITICAL_HITL/STANDARD_HITL/AUTO
  • L3: service_registry.py / velero_client.py / preflight_service.py 三個新服務
  • L4: Guardrail 注入 auto_repair_service + ALERT_RECEIVED/auto_repair flag webhooks + MultiSig DB model
  • L4-6: docker-health-monitor.sh 改造為純感知層(移除所有 docker restart
  • L5: telegram_gateway T1-T6 六個新通知方法Guardrail/Pre-flight/Backup/MultiSig/ChangeApplied
  • 首席架構師審查 70/100 → 修正 S1×4 S2×2 S3×1 → 預計 90+/100
    • structlog 取代 logging三個新 service
    • now_taipei() 取代 datetime.now(UTC)
    • Guardrail 失敗改為保守拒絕(不放行)
    • velero kubectl apply CRD 修正(原語法錯誤)
    • T1-T6 補齊 try/except
    • Langfuse URL 改用 settings.LANGFUSE_URL

2026-04-08 — Sprint 5.1 資料安全護欄規劃完成

  • 11 項首席架構師決策Q1-Q11完成
  • 服務分級BLOCK/CRITICAL_HITL/STANDARD_HITL/AUTO確立
  • Pre-flight 備份檢查機制設計完成
  • MultiSig 雙簽機制設計完成
  • ADR-062 Data Safety Guardrails 批准
  • ADR-063 Service Registry IaC 批准
  • 完整實施方案 + 規範驗證通過P1-P5 問題修正)
  • 關鍵發現Playbook 存於 Redis非 PostgreSQL修正 M-001 方向

2026-04-08 — 全面監控+操作溯源架構

  • 自動修復移除所有 gate直接執行統帥指令
  • Phase 10: auto_repair_executions DB 記錄(成功/失敗都寫入)
  • Phase 11: alert_operation_log Event Sourcing654 筆歷史回填)
  • ADR-060: 全面基礎設施監控規劃4 主機 30+ 服務)
  • ADR-061: Alert Operation Log 架構決策
  • 統帥首席架構師裁示Plan A→B→C 優先序Redis/PG 僅告警Intent→Action→Result 三段式

2026-04-07 — Sprint 3+4+F 完成

  • Sprint 3: SSH_COMMAND 指揮權鏈 (T1-T7) + P0 Security Fixes + Re-Review 91/100
  • Sprint F: 29處假數據清除 + CURRENT_USER 統一 + 98/100
  • Sprint 4: 告警處置統計 Phase A→F (資料層→API→Telegram→前端→首頁→週報)
  • 首次信任機制 (冷啟動破解)

2026-04-06 — 四個網站修復+監控

  • mo.wooo.work / www.tsenyang.com / stock.wooo.work / bitan.wooo.work 全部修復
  • Prometheus blackbox-http 新增 3 target
  • nginx 110/188 路由修正

2026-04-05 — Phase 25 Review + ADR-057~059 + 備份

  • Phase 25 首席架構師 Review R1+R2 通過 (76/100→修正後通過)
  • ADR-054~057 全部完成
  • Telegram 按鈕根因修復 (whitelist int→list[int])
  • ADR-059 Gitea Webhook 遷移 (10/10 測試)
  • Sprint 3 Host Repair 全通過 + 5 Playbooks
  • 備份全面自動化 (backup-all.sh v2 + GFS 保留策略)
  • 全系統重開機恢復 (188/110/120/121)

2026-04-04 — Phase 25 驗證 + 自動修復閉環

  • Phase 25 P0/P1/P2 全部驗證通過 (36/36 tests)
  • 自動修復閉環打通 (Playbook→RAG→執行→KM沉澱)
  • Ollama embedding is_closed 修復
  • phase8/9 DB migration prod 執行完成

2026-04-03 — Phase 24 + Monitoring Wave D + Layout

  • Phase 24 AI Provider Registry 全面完成 (Phase A→C)
  • Monitoring Wave D: Grafana 3 dashboards + ClickHouse TTL
  • Layout 對齊修復 (sidebar/header/metrics)
  • 首席架構師 Review 88/100

2026-04-02 — Phase O 可觀測性 + Phase 24 規劃

  • Phase O O-1~O-5 全部完成 (8/8 Smoke Test)
  • OTEL Collector DaemonSet + Event Exporter
  • Prometheus scrape → SigNoz (90天保留)
  • Phase 24 AIRouter 14 項決策 (D1-D14)
  • ADR-052 AI Provider Registry

2026-04-01 — Phase R 完整審查 + Phase 11 驗收

  • Phase R ADR-047: 97/100 OUTSTANDING
  • Phase 11 統帥驗收: 批准
  • R4-129 webhooks.py AlertAnalyzer 遷移 (-243行)
  • ADR-046 IncidentConverter 型別統一

2026-03-31 — Phase 22 Nemotron + Telegram 重設計

  • Phase 22 雙 AI 對話 + NemotronCollabService
  • Phase 10.2 Session Replay 完成
  • Telegram 訊息格式 v7.0 重設計
  • NVIDIA NIM 整合 + Gemini fallback

2026-03-29~30 — Monitoring + Gitea CI/CD

  • Monitoring 主計畫 Wave A-C 批准+執行
  • ADR-039 Gitea CI/CD 遷移完成
  • 前端內網 IP 禁令確立
  • NEXT_PUBLIC_* build-time 變數規範

2026-03-28 — Phase 19+20 完成

  • Phase 19 Omni-Terminal 全 7 Wave (47/50)
  • Phase 20 CSRF 防護 (Double Submit Cookie)
  • K3s 優化 (Swap/kube-reserved/etcd/PDB)

2026-03-27 — Phase 16~18 完成

  • Phase 16 架構大掃除 R1-R4 (50/50 OUTSTANDING)
  • Phase 17 技術債清理
  • Phase 18 E2E Hardening (9.2/10)
  • Phase 10.2 Sentry Telegram 通知+去重

2026-03-26 — Phase 13~15 完成

  • Phase 13 Enterprise AIOps (6 MCP Tools + Router)
  • Phase 14 紅區治理+依賴防護+共用型別
  • Phase 15 LLMOps (Langfuse+DeepLink+取樣)

2026-03-25 — Phase 11+12 批准+開工

  • Phase 11 對話式 AI 批准+實作
  • Phase 12 Ollama Tool Calling 100%

2026-03-24 — Phase 6.5 + QA + Sentry

  • Statistics API 6 端點
  • Mock 測試全面禁止鐵律
  • Sentry Self-Hosted 整合
  • Phase 8 QA + 緊急修復

2026-03-23 — Phase 6.4 + Phase 9

  • Decision Proposal API + Guardrails
  • Agent Teams + ConsensusEngine 90/90
  • 技術債清理 (44 未用 import + 22 i18n)

2026-03-22 — Phase 6 認知覺醒

  • Event Bus (Redis Streams) 通電
  • Memory Layer (Redis + PostgreSQL) 雙層
  • Incident Engine v1 (聚合+GraphRAG+去重)
  • Redis Multi-Sig 分散式鎖

2026-03-20~21 — Phase 0-4 MVP

  • Phoenix Rising 基建部署
  • BFF Gateway + 原子組件庫
  • SSE 前後端整合 + HITL 授權卡片
  • i18n 雙語引擎 135 鍵值

📊 專案統計 (截至 2026-04-07)

指標 數值
已完成 Phase 25+ (含子Phase)
已完成 Sprint 3 (Sprint 3/4/F)
ADR 文件 61 份 (ADR-060~061)
首席架構師審查 15+ 次
最高評分 Phase 16: 50/50 + Phase R: 97/100
監控 Targets 15/15 UP
Grafana Dashboard 3
Playbooks 12 (全部 approved, auto_repair 已啟用)
alert_operation_log 記錄 654 筆歷史 + 即時寫入