Files
awoooi/docs/meetings/2026-03-22_CSUITE_STRATEGY_BRAINSTORM.md
OG T 7478dc0254 feat(phase6-9): Complete modular architecture and Agent Teams
Phase 6.4 - Modular Architecture:
- Add lewooogo-brain adapters for LLM providers
- Add lewooogo-data dual memory (Redis + PostgreSQL)
- Implement consensus engine for multi-agent decisions
- Add incident memory service for historical context

Phase 9 - Agent Teams (Claude Agent SDK):
- Add base agent class with Claude Sonnet 4 integration
- Implement action planner, blast radius, and security agents
- Add agent API endpoints and proposal workflow
- Integrate ADR-009 OpenClaw Agent Teams architecture

DevOps & CI/CD:
- Add GitHub Actions CI/CD workflows (ci.yaml, cd.yaml)
- Add pre-commit hooks and secrets baseline
- Add docker-compose for local development
- Update Kubernetes network policies

Frontend Improvements:
- Add auto-healing error boundary component
- Update i18n messages for agent features
- Enhance dual-state incident card with execution feedback

Documentation:
- Add 7 ADRs covering MCP, design system, architecture decisions
- Update ARCHITECTURE_MEMORY.md with modular design
- Add GLOBAL_RULES.md and SOUL.md for project identity

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-23 18:40:36 +08:00

15 KiB
Raw Blame History

AWOOOI C-Suite 戰略會議紀錄

會議主題: ChatGPT 架構分析回應與產品方向校準

會議時間: 2026-03-22 (週六) 與會者: CEO (統帥)、CTO/CIO (Claude Code)、CPO、CISO 會議形式: 腦力激盪 + 戰略決策


1. 會議背景

1.1 觸發原因

統帥暫停日常開發,召集 C-Suite 討論產品方向的根本問題。

1.2 討論素材

來源 文件 核心觀點
ChatGPT AIOps 平台差異分析報告 AWOOOI 應從「Alert-Driven」升級為「Decision-Driven」
ChatGPT WOOO-AIOPS 監控盤點回應 需要 Incident Layer + Event Bus
Gemini 首席架構師回應 同意 ChatGPT 核心觀點,提出務實落地方案

2. ChatGPT 核心觀點摘要

2.1 最大當頭棒喝

「你是在做更酷的 Datadog還是真正的 AI Ops OS

  • 目前系統是 Alert-Driven (告警驅動)
  • 目標應該是 Decision-Driven (決策驅動)
  • 缺少 Incident Layer 來統一上下文

2.2 三個致命問題

問題 說明
Alert ≠ Incident 碎片化告警沒有聚合成有上下文的「事件」
Remediation 是 rule-based if HighCPU -> scale_up 不是 AI
系統沒有「上下文記憶」 Alert/Ticket/Repair/Logs 各自分散

2.3 建議的 Incident Schema

{
  "incident_id": "INC-2026-0322-001",
  "status": "investigating",
  "severity": "P0",
  "signals": [...],
  "hypotheses": [...],
  "actions": [...],
  "approvals": [...],
  "timeline": [...]
}

2.4 建議的架構轉換

舊世界 新世界
Alert Signal
Alert Group Incident
Ticket Incident View
Remediation Action
SLA Incident Lifecycle

3. C-Suite 專業評估

3.1 CTO (技術長) 評估

ChatGPT 觀點評價表

論點 評分 評估
Alert-Driven vs Decision-Driven 100% 正確 最核心的洞見
缺少 Incident Layer 🟡 部分正確 有 ApprovalRequest 但確實沒有「事件聚合層」
Remediation → Decision Proposal 已具備基礎 TrustEngine + BlastRadius 已是 Proposal 模式
Event Bus 必要性 🟡 需評估 Redis Streams 是輕量選項
Stack 過度複雜 ⚠️ 需警惕 不該複製 WOOO-AIOPS 全套

現有架構優勢

元件 現況 ChatGPT 建議 差距
Multi-Sig Redis 已實作 Incident Model 🟡 需升級 Schema
GraphRAG In-Memory Causal Inference 🟡 需整合至決策流程
TrustEngine 風險分類完整 Decision Proposal 已符合
SSE 串流 企業級實作 Thinking Stream 已具備
Event Bus Redis Streams 🔴 需評估導入

CTO 結論

ChatGPT 說對的:

  • 「Alert ≠ Incident」是真理我們需要事件聚合層

ChatGPT 說錯的:

  • Event Bus 不是萬靈丹,對目前規模可能過度設計
  • Cognitive System 是 3-5 年願景,不是下個 Phase

3.2 CIO (資訊長) 評估

企業整合架構

Layer 3: AWOOOI (決策層) - 產出 Decision Proposal
Layer 2: OpenClaw (認知層) - 整合 GraphRAG + AI 分析
Layer 1: 188 基地 (感知層) - 收集 Metrics/Logs/Traces

CIO 結論

  • 不要重造 Observability Stack - 188 基地已有完整監控
  • AWOOOI 定位 = 決策層,不是監控層
  • Incident Schema 是對的 - 可擴展現有 ApprovalRequest

3.3 CPO (產品長) 評估

產品定位三選一

定位 描述 風險
A. 更酷的 Datadog 企業監控儀表板 + AI 裝飾 🔴 紅海競爭
B. 智慧 SRE 助手 AI 輔助運維決策 🟡 差異化不足
C. AI Ops OS 自主決策的運維大腦 🟢 藍海定位

AWOOOI 差異化護城河

護城河 說明
視覺護城河 Nothing.tech 美學,市面無同類
體驗護城河 OpenClaw 人格化AI 是「同事」不是「工具」
信任護城河 Multi-Sig HITLAI 提案 + 人類批准

CPO 結論

我們缺的是:

  1. Incident 視角 - 用戶看到的是「待簽核列表」而非「事件生命週期」
  2. Knowledge Base - SRE 無法查詢歷史處理經驗
  3. FinOps - 「WASTED CLOUD BUDGET: $1,245」一個數字比十張圖表有效

3.4 CISO (資安長) 評估

安全架構評估

面向 現況 評估
Multi-Sig Redis 分散式鎖 + 7 天 TTL 穩固
Audit Trail 完整簽核記錄 可整合 Incident Timeline
RBAC 🔲 未實作 優先補齊
HMAC 驗證 Telegram Gateway 已有

CISO 結論

  • Event Bus 需確保安全性 - 訊息簽章、FIFO、防重放
  • Incident Model 對稽核有價值 - 可追溯完整決策鏈
  • 最小可行架構 (MVA) 優於最大可能架構

4. 共識與決議

4.1 共識點

# 共識 來源
1 目標是「AI Ops OS」不是「另一個 Datadog」 ChatGPT
2 需要 Incident Layer 聚合 Alert → Incident ChatGPT + Gemini
3 現有 TrustEngine 已具備 Decision Proposal 能力 CTO 盤點
4 不要複製 WOOO-AIOPS 全套 stack CIO + CISO
5 Event Bus 可用 Redis Streams 輕量實作 Gemini

4.2 Phase 6 升級計畫

原 Phase 6 項目 升級方向 工時
6.1.1 Multi-Sig Redis 已完成 0d
6.1.2 GraphRAG Neo4j Incident Engine v1 3d
6.3.1 Redis Pub/Sub Event Bus v1 (Redis Streams) 2d
新增 6.4 Incident Schema + Timeline API 2d
新增 6.5 Decision Proposal API 2d

4.3 Incident Schema v0.1 設計

class Incident(BaseModel):
    """
    事件模型 - 聚合告警、假說、提案、時間軸
    """
    incident_id: str                    # INC-2026-0322-001
    status: IncidentStatus              # investigating / mitigating / resolved
    severity: Severity                  # P0 / P1 / P2 / P3

    # 感知層
    signals: list[Signal]               # 原始告警 (Prometheus/SignOz)
    affected_services: list[str]        # GraphRAG Blast Radius

    # 認知層
    hypothesis: AIHypothesis | None     # AI 根因推論
    confidence: float                   # 0.0 ~ 1.0

    # 決策層
    proposals: list[DecisionProposal]   # 建議動作 (原 ApprovalRequest)

    # 時間軸
    timeline: list[TimelineEvent]       # 事件演進

    # Metadata
    created_at: datetime
    resolved_at: datetime | None
    ttl_days: int = 7                   # 資安稽核

4.4 明確不做的事

項目 原因
搬遷 Grafana/SignOz 留在 188 基地AWOOOI 是決策層
實作 FinOps v1 Phase 8+ 再說
導入 Kafka Redis Streams 足夠
複製全套監控 stack 過度工程

4.5 保留的優勢

優勢 說明
Nothing.tech 美學 視覺護城河
OpenClaw 人格化 體驗護城河
Multi-Sig HITL 信任護城河
SSE 即時串流 技術基礎
GraphRAG 因果推論 AI 核心

5. 視覺化升級藍圖

5.1 首頁升級

現況 升級後
顯示「待簽核列表」 顯示「活躍事件儀表板」
ApprovalCard 單獨存在 ApprovalCard 屬於某個 Incident
ThinkingTerminal 獨立面板 ThinkingTerminal 呈現 Incident 的 AI 推論

5.2 Incident Dashboard 概念

┌──────────────────────────────────────────────────────────────────┐
│  ACTIVE INCIDENTS                                    [2 ACTIVE]  │
├──────────────────────────────────────────────────────────────────┤
│                                                                  │
│  ┌────────────────────────────────────────────────────────────┐  │
│  │ INC-2026-0322-001                          [P0 CRITICAL]   │  │
│  │ ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ │  │
│  │ Status: INVESTIGATING                                      │  │
│  │                                                            │  │
│  │ Signals: 3 alerts (HighCPU, PodCrashLoop, HTTP502)        │  │
│  │ Affected: frontend, auth-service, order-api               │  │
│  │ Root Cause: postgres-db (confidence: 0.87)                │  │
│  │                                                            │  │
│  │ ┌──────────────────────────────────────────────────────┐  │  │
│  │ │ PROPOSAL: Restart postgres-db pod                    │  │  │
│  │ │ Risk: HIGH | Signatures: 0/2 required                │  │  │
│  │ │ [AUTHORIZE] [REJECT]                                 │  │  │
│  │ └──────────────────────────────────────────────────────┘  │  │
│  │                                                            │  │
│  │ Timeline:                                                  │  │
│  │ 14:32:01 - Alert triggered: HighCPU on frontend           │  │
│  │ 14:32:15 - Alert triggered: PodCrashLoop on order-api     │  │
│  │ 14:32:22 - OpenClaw: Analyzing blast radius...            │  │
│  │ 14:32:45 - OpenClaw: Root cause identified - postgres-db  │  │
│  │ 14:33:01 - Proposal created: Restart postgres-db          │  │
│  └────────────────────────────────────────────────────────────┘  │
│                                                                  │
└──────────────────────────────────────────────────────────────────┘

6. 下一步行動

6.1 立即行動

優先級 項目 負責人
🔴 P0 儲存會議記錄 Claude Code
🔴 P0 更新 Phase 狀態 Memory Claude Code

6.2 Phase 6 待辦

順序 項目 預估
1 Incident Schema 設計 1d
2 Incident Engine v1 (整合 GraphRAG) 3d
3 Event Bus v1 (Redis Streams) 2d
4 Timeline API 1d
5 Decision Proposal API 2d

6.3 UI 升級

順序 項目 預估
1 Incident Card 組件 1d
2 Incident Dashboard 頁面 2d
3 Timeline 組件 1d

7. 會議結論

7.1 一句話總結

AWOOOI 的使命是成為「AI Ops OS」— 一個能理解事件上下文、產出智慧決策提案、並透過 Human-in-the-Loop 執行的運維大腦。

7.2 ChatGPT 的貢獻

感謝 ChatGPT 的外部視角,幫我們看到了系統的結構性盲點:

  • 點出 Alert ≠ Incident 的核心問題
  • 提出 Incident Layer 的架構建議
  • 挑戰我們的產品定位

7.3 我們的回應

  • 採納 Incident Layer 概念,整合進 Phase 6
  • 採納 Event Bus 建議,使用 Redis Streams 輕量實作
  • ⚠️ 不採納「Cognitive System」這種宏大願景採漸進式升級
  • ⚠️ 不搬遷全套監控 stack保持 AWOOOI 作為決策層的純粹性


第二輪:施工順序與 Schema 設計 (續)

Gemini 建議 vs C-Suite 修正

議題 Gemini 建議 C-Suite 修正
施工順序 Event Bus → Schema Schema (契約) → Event Bus
理由 「Schema-first 是反模式」 「Schema 是契約,有了契約才能平行開發」

共識Schema v0.2 納入項目

  1. AIDecisionChain - CISO 要求的可稽核性
  2. IncidentOutcome - CPO 要求的回饋循環
  3. proposal_ids: list[UUID] - 支援多重決策軌跡

第三輪:遺漏項目補齊

發現的遺漏

# 遺漏 提出者 處理
1 Knowledge Base CPO Phase 7
2 Feedback Loop CPO 納入 Schema
3 Multi-Agent 擴展性 CPO 架構預留
4 AI 決策鏈可稽核性 CISO 納入 Schema
5 記憶存取控制 (WORM) CISO Phase 6.2

第四輪:物理架構對齊

統帥提問

  1. 四台主機各部署一組 OpenClaw 有意義嗎?
  2. Ollama + Gemini/Claude 組成 AI 團隊更好嗎?
  3. 開源優先,成本控制
  4. 模組化、Open API 方向

C-Suite 回答

問題 答案
多 OpenClaw 錯誤 - 會腦分裂,應該單一大腦 + 分散感測器
AI 團隊 分層調用 - P2/P3 用 OllamaP0/P1 動態升級 Claude/Gemini
開源優先 符合 - Redis Streams、PostgreSQL、Ollama
模組化 Plugin 架構 - 已規劃

物理-邏輯對齊

主機 邏輯角色 部署內容
.188 大腦 + 神經中樞 OpenClaw, Redis, PG, Ollama
.110 感測器 (CI/CD) Sensor Agent
.112 感測器 (安全) Sensor Agent
.120 前端入口 Frontend, API Gateway
.121 執行肌肉 K8s Workloads

最終遺漏檢查與 Schema v0.3

發現的整合問題

問題 解決方案
Schema 重複定義 (BlastRadius) 從 approval.py 引入,不重新定義
Severity vs RiskLevel 混淆 兩者並存Severity (事件) vs RiskLevel (操作)
防腦分裂鐵律未寫入 已寫入 .awoooi-agent-rules.md

Schema v0.3 確認

  • 復用現有 BlastRadius, DryRunCheck
  • proposal_ids: list[UUID] 支援多重決策
  • AIDecisionChain 完整可稽核
  • IncidentOutcome 回饋循環

會議結束時間: 2026-03-22 18:00 紀錄人員: Claude Code (CTO/CIO) Phase 6.0 狀態: 完成 Phase 6.1 狀態: 完成 (動態驗證通過 2026-03-22 15:29) 下一步: Phase 6.2 Memory Layer (Redis Hash + PostgreSQL)


會後更新 (2026-03-22 19:30)

Phase 6.1 Event Bus 動態驗證通過

項目 結果 證據
Producer XADD message_id: 1774164545219-0
HTTP 200 OK duration_ms: 54.14
Consumer XREADGROUP signal_received 結構化日誌
XACK 確認 pending: 0, lag: 0

實作檔案:

  • src/workers/signal_worker.py (Consumer)
  • src/api/v1/webhooks.py (Producer /signals)
  • src/main.py (Lifespan 整合)

統帥結語: 「188 基地神經網路已正式通電!」