Files

OG T 7478dc0254 feat(phase6-9): Complete modular architecture and Agent Teams

Phase 6.4 - Modular Architecture:
- Add lewooogo-brain adapters for LLM providers
- Add lewooogo-data dual memory (Redis + PostgreSQL)
- Implement consensus engine for multi-agent decisions
- Add incident memory service for historical context

Phase 9 - Agent Teams (Claude Agent SDK):
- Add base agent class with Claude Sonnet 4 integration
- Implement action planner, blast radius, and security agents
- Add agent API endpoints and proposal workflow
- Integrate ADR-009 OpenClaw Agent Teams architecture

DevOps & CI/CD:
- Add GitHub Actions CI/CD workflows (ci.yaml, cd.yaml)
- Add pre-commit hooks and secrets baseline
- Add docker-compose for local development
- Update Kubernetes network policies

Frontend Improvements:
- Add auto-healing error boundary component
- Update i18n messages for agent features
- Enhance dual-state incident card with execution feedback

Documentation:
- Add 7 ADRs covering MCP, design system, architecture decisions
- Update ARCHITECTURE_MEMORY.md with modular design
- Add GLOBAL_RULES.md and SOUL.md for project identity

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>

2026-03-23 18:40:36 +08:00

15 KiB

Raw Blame History

AWOOOI C-Suite 戰略會議紀錄

會議主題: ChatGPT 架構分析回應與產品方向校準

會議時間: 2026-03-22 (週六) 與會者: CEO (統帥)、CTO/CIO (Claude Code)、CPO、CISO 會議形式: 腦力激盪 + 戰略決策

1. 會議背景

1.1 觸發原因

統帥暫停日常開發，召集 C-Suite 討論產品方向的根本問題。

1.2 討論素材

來源	文件	核心觀點
ChatGPT	AIOps 平台差異分析報告	AWOOOI 應從「Alert-Driven」升級為「Decision-Driven」
ChatGPT	WOOO-AIOPS 監控盤點回應	需要 Incident Layer + Event Bus
Gemini	首席架構師回應	同意 ChatGPT 核心觀點，提出務實落地方案

2. ChatGPT 核心觀點摘要

2.1 最大當頭棒喝

「你是在做更酷的 Datadog，還是真正的 AI Ops OS？」

目前系統是 Alert-Driven (告警驅動)
目標應該是 Decision-Driven (決策驅動)
缺少 Incident Layer 來統一上下文

2.2 三個致命問題

問題	說明
Alert ≠ Incident	碎片化告警沒有聚合成有上下文的「事件」
Remediation 是 rule-based	`if HighCPU -> scale_up` 不是 AI
系統沒有「上下文記憶」	Alert/Ticket/Repair/Logs 各自分散

2.3 建議的 Incident Schema

{
  "incident_id": "INC-2026-0322-001",
  "status": "investigating",
  "severity": "P0",
  "signals": [...],
  "hypotheses": [...],
  "actions": [...],
  "approvals": [...],
  "timeline": [...]
}

2.4 建議的架構轉換

舊世界	新世界
Alert	Signal
Alert Group	Incident
Ticket	Incident View
Remediation	Action
SLA	Incident Lifecycle

3. C-Suite 專業評估

3.1 CTO (技術長) 評估

ChatGPT 觀點評價表

論點	評分	評估
Alert-Driven vs Decision-Driven	✅ 100% 正確	最核心的洞見
缺少 Incident Layer	🟡 部分正確	有 ApprovalRequest 但確實沒有「事件聚合層」
Remediation → Decision Proposal	✅ 已具備基礎	TrustEngine + BlastRadius 已是 Proposal 模式
Event Bus 必要性	🟡 需評估	Redis Streams 是輕量選項
Stack 過度複雜	⚠️ 需警惕	不該複製 WOOO-AIOPS 全套

現有架構優勢

元件	現況	ChatGPT 建議	差距
Multi-Sig Redis	✅ 已實作	Incident Model	🟡 需升級 Schema
GraphRAG	✅ In-Memory	Causal Inference	🟡 需整合至決策流程
TrustEngine	✅ 風險分類完整	Decision Proposal	✅ 已符合
SSE 串流	✅ 企業級實作	Thinking Stream	✅ 已具備
Event Bus	❌ 無	Redis Streams	🔴 需評估導入

CTO 結論

ChatGPT 說對的：

「Alert ≠ Incident」是真理，我們需要事件聚合層

ChatGPT 說錯的：

Event Bus 不是萬靈丹，對目前規模可能過度設計
Cognitive System 是 3-5 年願景，不是下個 Phase

3.2 CIO (資訊長) 評估

企業整合架構

Layer 3: AWOOOI (決策層) - 產出 Decision Proposal
Layer 2: OpenClaw (認知層) - 整合 GraphRAG + AI 分析
Layer 1: 188 基地 (感知層) - 收集 Metrics/Logs/Traces

CIO 結論

不要重造 Observability Stack - 188 基地已有完整監控
AWOOOI 定位 = 決策層，不是監控層
Incident Schema 是對的 - 可擴展現有 ApprovalRequest

3.3 CPO (產品長) 評估

產品定位三選一

定位	描述	風險
A. 更酷的 Datadog	企業監控儀表板 + AI 裝飾	🔴 紅海競爭
B. 智慧 SRE 助手	AI 輔助運維決策	🟡 差異化不足
C. AI Ops OS	自主決策的運維大腦	🟢 藍海定位

AWOOOI 差異化護城河

護城河	說明
視覺護城河	Nothing.tech 美學，市面無同類
體驗護城河	OpenClaw 人格化，AI 是「同事」不是「工具」
信任護城河	Multi-Sig HITL，AI 提案 + 人類批准

CPO 結論

我們缺的是：

Incident 視角 - 用戶看到的是「待簽核列表」而非「事件生命週期」
Knowledge Base - SRE 無法查詢歷史處理經驗
FinOps - 「WASTED CLOUD BUDGET: $1,245」一個數字比十張圖表有效

3.4 CISO (資安長) 評估

安全架構評估

面向	現況	評估
Multi-Sig	✅ Redis 分散式鎖 + 7 天 TTL	穩固
Audit Trail	✅ 完整簽核記錄	可整合 Incident Timeline
RBAC	🔲 未實作	優先補齊
HMAC 驗證	✅ Telegram Gateway	已有

CISO 結論

Event Bus 需確保安全性 - 訊息簽章、FIFO、防重放
Incident Model 對稽核有價值 - 可追溯完整決策鏈
最小可行架構 (MVA) 優於最大可能架構

4. 共識與決議

4.1 共識點

#	共識	來源
1	目標是「AI Ops OS」，不是「另一個 Datadog」	ChatGPT
2	需要 Incident Layer 聚合 Alert → Incident	ChatGPT + Gemini
3	現有 TrustEngine 已具備 Decision Proposal 能力	CTO 盤點
4	不要複製 WOOO-AIOPS 全套 stack	CIO + CISO
5	Event Bus 可用 Redis Streams 輕量實作	Gemini

4.2 Phase 6 升級計畫

原 Phase 6 項目	升級方向	工時
6.1.1 Multi-Sig Redis	✅ 已完成	0d
6.1.2 GraphRAG Neo4j	→ Incident Engine v1	3d
6.3.1 Redis Pub/Sub	→ Event Bus v1 (Redis Streams)	2d
新增 6.4	Incident Schema + Timeline API	2d
新增 6.5	Decision Proposal API	2d

4.3 Incident Schema v0.1 設計

class Incident(BaseModel):
    """
    事件模型 - 聚合告警、假說、提案、時間軸
    """
    incident_id: str                    # INC-2026-0322-001
    status: IncidentStatus              # investigating / mitigating / resolved
    severity: Severity                  # P0 / P1 / P2 / P3

    # 感知層
    signals: list[Signal]               # 原始告警 (Prometheus/SignOz)
    affected_services: list[str]        # GraphRAG Blast Radius

    # 認知層
    hypothesis: AIHypothesis | None     # AI 根因推論
    confidence: float                   # 0.0 ~ 1.0

    # 決策層
    proposals: list[DecisionProposal]   # 建議動作 (原 ApprovalRequest)

    # 時間軸
    timeline: list[TimelineEvent]       # 事件演進

    # Metadata
    created_at: datetime
    resolved_at: datetime | None
    ttl_days: int = 7                   # 資安稽核

4.4 明確不做的事

項目	原因
搬遷 Grafana/SignOz	留在 188 基地，AWOOOI 是決策層
實作 FinOps v1	Phase 8+ 再說
導入 Kafka	Redis Streams 足夠
複製全套監控 stack	過度工程

4.5 保留的優勢

優勢	說明
Nothing.tech 美學	視覺護城河
OpenClaw 人格化	體驗護城河
Multi-Sig HITL	信任護城河
SSE 即時串流	技術基礎
GraphRAG 因果推論	AI 核心

5. 視覺化升級藍圖

5.1 首頁升級

現況	升級後
顯示「待簽核列表」	顯示「活躍事件儀表板」
ApprovalCard 單獨存在	ApprovalCard 屬於某個 Incident
ThinkingTerminal 獨立面板	ThinkingTerminal 呈現 Incident 的 AI 推論

5.2 Incident Dashboard 概念

┌──────────────────────────────────────────────────────────────────┐
│  ACTIVE INCIDENTS                                    [2 ACTIVE]  │
├──────────────────────────────────────────────────────────────────┤
│                                                                  │
│  ┌────────────────────────────────────────────────────────────┐  │
│  │ INC-2026-0322-001                          [P0 CRITICAL]   │  │
│  │ ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ │  │
│  │ Status: INVESTIGATING                                      │  │
│  │                                                            │  │
│  │ Signals: 3 alerts (HighCPU, PodCrashLoop, HTTP502)        │  │
│  │ Affected: frontend, auth-service, order-api               │  │
│  │ Root Cause: postgres-db (confidence: 0.87)                │  │
│  │                                                            │  │
│  │ ┌──────────────────────────────────────────────────────┐  │  │
│  │ │ PROPOSAL: Restart postgres-db pod                    │  │  │
│  │ │ Risk: HIGH | Signatures: 0/2 required                │  │  │
│  │ │ [AUTHORIZE] [REJECT]                                 │  │  │
│  │ └──────────────────────────────────────────────────────┘  │  │
│  │                                                            │  │
│  │ Timeline:                                                  │  │
│  │ 14:32:01 - Alert triggered: HighCPU on frontend           │  │
│  │ 14:32:15 - Alert triggered: PodCrashLoop on order-api     │  │
│  │ 14:32:22 - OpenClaw: Analyzing blast radius...            │  │
│  │ 14:32:45 - OpenClaw: Root cause identified - postgres-db  │  │
│  │ 14:33:01 - Proposal created: Restart postgres-db          │  │
│  └────────────────────────────────────────────────────────────┘  │
│                                                                  │
└──────────────────────────────────────────────────────────────────┘

6. 下一步行動

6.1 立即行動

優先級	項目	負責人
🔴 P0	儲存會議記錄	Claude Code
🔴 P0	更新 Phase 狀態 Memory	Claude Code

6.2 Phase 6 待辦

順序	項目	預估
1	Incident Schema 設計	1d
2	Incident Engine v1 (整合 GraphRAG)	3d
3	Event Bus v1 (Redis Streams)	2d
4	Timeline API	1d
5	Decision Proposal API	2d

6.3 UI 升級

順序	項目	預估
1	Incident Card 組件	1d
2	Incident Dashboard 頁面	2d
3	Timeline 組件	1d

7. 會議結論

7.1 一句話總結

AWOOOI 的使命是成為「AI Ops OS」— 一個能理解事件上下文、產出智慧決策提案、並透過 Human-in-the-Loop 執行的運維大腦。

7.2 ChatGPT 的貢獻

感謝 ChatGPT 的外部視角，幫我們看到了系統的結構性盲點：

✅ 點出 Alert ≠ Incident 的核心問題
✅ 提出 Incident Layer 的架構建議
✅ 挑戰我們的產品定位

7.3 我們的回應

✅ 採納 Incident Layer 概念，整合進 Phase 6
✅ 採納 Event Bus 建議，使用 Redis Streams 輕量實作
⚠️ 不採納「Cognitive System」這種宏大願景，採漸進式升級
⚠️ 不搬遷全套監控 stack，保持 AWOOOI 作為決策層的純粹性

第二輪：施工順序與 Schema 設計 (續)

Gemini 建議 vs C-Suite 修正

議題	Gemini 建議	C-Suite 修正
施工順序	Event Bus → Schema	Schema (契約) → Event Bus
理由	「Schema-first 是反模式」	「Schema 是契約，有了契約才能平行開發」

共識：Schema v0.2 納入項目

AIDecisionChain - CISO 要求的可稽核性
IncidentOutcome - CPO 要求的回饋循環
proposal_ids: list[UUID] - 支援多重決策軌跡

第三輪：遺漏項目補齊

發現的遺漏

#	遺漏	提出者	處理
1	Knowledge Base	CPO	Phase 7
2	Feedback Loop	CPO	納入 Schema
3	Multi-Agent 擴展性	CPO	架構預留
4	AI 決策鏈可稽核性	CISO	納入 Schema
5	記憶存取控制 (WORM)	CISO	Phase 6.2

第四輪：物理架構對齊

統帥提問

四台主機各部署一組 OpenClaw 有意義嗎？
Ollama + Gemini/Claude 組成 AI 團隊更好嗎？
開源優先，成本控制
模組化、Open API 方向

C-Suite 回答

問題	答案
多 OpenClaw	❌ 錯誤 - 會腦分裂，應該單一大腦 + 分散感測器
AI 團隊	✅ 分層調用 - P2/P3 用 Ollama，P0/P1 動態升級 Claude/Gemini
開源優先	✅ 符合 - Redis Streams、PostgreSQL、Ollama
模組化	✅ Plugin 架構 - 已規劃

物理-邏輯對齊

主機	邏輯角色	部署內容
.188	大腦 + 神經中樞	OpenClaw, Redis, PG, Ollama
.110	感測器 (CI/CD)	Sensor Agent
.112	感測器 (安全)	Sensor Agent
.120	前端入口	Frontend, API Gateway
.121	執行肌肉	K8s Workloads

最終遺漏檢查與 Schema v0.3

發現的整合問題

問題	解決方案
Schema 重複定義 (BlastRadius)	從 approval.py 引入，不重新定義
Severity vs RiskLevel 混淆	兩者並存：Severity (事件) vs RiskLevel (操作)
防腦分裂鐵律未寫入	已寫入 `.awoooi-agent-rules.md`

Schema v0.3 確認

復用現有 BlastRadius, DryRunCheck
proposal_ids: list[UUID] 支援多重決策
AIDecisionChain 完整可稽核
IncidentOutcome 回饋循環

會議結束時間: 2026-03-22 18:00 紀錄人員: Claude Code (CTO/CIO) Phase 6.0 狀態: ✅ 完成 Phase 6.1 狀態: ✅ 完成 (動態驗證通過 2026-03-22 15:29) 下一步: Phase 6.2 Memory Layer (Redis Hash + PostgreSQL)

會後更新 (2026-03-22 19:30)

Phase 6.1 Event Bus 動態驗證通過

項目	結果	證據
Producer XADD	✅	`message_id: 1774164545219-0`
HTTP 200 OK	✅	`duration_ms: 54.14`
Consumer XREADGROUP	✅	`signal_received` 結構化日誌
XACK 確認	✅	`pending: 0, lag: 0`

實作檔案:

src/workers/signal_worker.py (Consumer)
src/api/v1/webhooks.py (Producer /signals)
src/main.py (Lifespan 整合)

統帥結語: 「188 基地神經網路已正式通電！」

15 KiB Raw Blame History Unescape Escape