awoooi

Author	SHA1	Message	Date
OG T	e1dfbedf0e	fix(alerts): HostHighCpuLoad auto_repair: false → true All checks were successful Deploy Alert Rules / Deploy Prometheus Alert Rules (push) Successful in 39s Details 飛輪一直 GUARDRAIL_BLOCKED 的根本原因： Prometheus rule 標籤 auto_repair=false 強制 HITL Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-10 13:33:23 +08:00
OG T	ab3e266a23	fix(monitoring): Phase O-6.2 service-registry 補齊 9 個缺失 K8s 部署新增: - argocd 5個元件 (applicationset/dex/notifications/redis/repo-server) - awoooi-dev/awoooi-api - kube-state-metrics - observability/event-exporter - velero/velero 結果: prometheus 覆蓋率 94%→96%, errors 9→0 Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-10 10:44:36 +08:00
OG T	07a097c259	fix(infra): Sprint 3 自動修復全鏈路修復 — docker-188 SSH egress + service registry 擴充 Some checks failed CD Pipeline / build-and-deploy (push) Has been cancelled Details NetworkPolicy: 新增 192.168.0.188:22 egress — repair-bot-188.sh 執行路徑 service-registry.yaml: 新增 signoz/bitan-app (AUTO, 188主機) 修復覆蓋: Bug #11 補完 (188 SSH) + 188 服務分級覆蓋 E2E 驗證: MoWoooWorkDown → SSH → REPAIR_OK:momo-app (3791ms) Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-09 18:04:19 +08:00
OG T	1fb0c0ca90	fix(auto-repair): Bug #5+#6 — SSH binary + affected_services 匹配修正 Some checks failed CD Pipeline / build-and-deploy (push) Has been cancelled Details Bug #5 (webhooks.py): target_resource 現在優先用 component label - SentryDown alert 有 labels.component="sentry" - 舊邏輯: labels.instance="192.168.0.110:9000" → Playbook affected_services 不匹配 - 新邏輯: component → pod → instance → alertname Bug #6 (Dockerfile): python:3.11-slim 無 openssh-client - SSH_COMMAND Playbook 執行路徑調用 asyncio.create_subprocess_exec("ssh", ...) - image 沒有 ssh binary → 所有 SSH 修復必然失敗 - 修正: 在 production stage 安裝 openssh-client 服務清單: 補 sentry 主服務到 service-registry.yaml (AUTO 級別) Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-09 14:11:50 +08:00
OG T	85d4857d1b	fix(monitoring): RedisMemoryHigh 誤報 — max_bytes=0 除以零修正 Some checks are pending CD Pipeline / build-and-deploy (push) Has started running Details Deploy Alert Rules / Deploy Prometheus Alert Rules (push) Successful in 37s Details - 加入 redis_memory_max_bytes > 0 前置條件 - 防止 Redis 未設 maxmemory 時除以零產生 +Inf 永遠觸發 - 影響: alerts-unified.yml + database-alerts.yaml Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-09 11:41:10 +08:00
OG T	7e327c806e	feat(alertmanager): Telegram Fallback 直送路徑 (ADR-035) 新增 telegram-direct receiver，critical 告警同時走： 1. awoooi-webhook (主路徑: AI 分析 + 去重) 2. telegram-direct (fallback: AWOOOI API 掛時直接通知) continue:true 讓 critical route 同時匹配兩個 receiver。 warning 僅走 awoooi-webhook，避免雙重通知。已在 110 熱重載驗證 (receivers: awoooi-webhook + telegram-direct)。 Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-09 09:04:46 +08:00
OG T	9799a14f54	feat(monitoring): Plan C 外部網站告警 — 4個網站 + SSL憑證預警 All checks were successful Deploy Alert Rules / Deploy Prometheus Alert Rules (push) Successful in 34s Details 新增 external_website_alerts 群組： - MoWoooWorkDown (mo.wooo.work, 188, momo-app) - TsenyangWebsiteDown (tsenyang.com, 188, tsenyang-website) - StockWoooWorkDown (stock.wooo.work, 110, stock-platform) - BitanWoooWorkDown (bitan.wooo.work, 188, bitan-app) - ExternalSiteSSLExpiringSoon (14天預警, auto_repair:false) blackbox-http 已涵蓋全部目標，此為結構化告警規則。 Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-09 08:53:08 +08:00
OG T	3c6807d79c	ops(monitoring): 觸發 deploy-alerts — database_detail_alerts 6條規則補部署 All checks were successful Deploy Alert Rules / Deploy Prometheus Alert Rules (push) Successful in 39s Details `d9e0fab` 新增了 6 條 DB 詳細告警規則但 deploy-alerts 因 pyyaml 未安裝失敗 `0f86c5c` 已修復 workflow，此 commit 觸發重新部署 Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-08 21:17:26 +08:00
OG T	d9e0fab3fe	feat(monitoring): Sprint 5.2 Plan B — 資料庫詳細告警規則 Some checks failed Deploy Alert Rules / Deploy Prometheus Alert Rules (push) Failing after 17s Details 新增 database_detail_alerts 規則群組: PostgreSQL: - PostgreSQLSlowQueries: 慢查詢 >60s - PostgreSQLDeadlocks: 死鎖發生 - PostgreSQLTooManyConnections: 連接數 >50 Redis: - RedisKeyEviction: Key 驅逐 - RedisConnectionsHigh: 連接數 >100 - RedisCommandLatencyHigh: 命令延遲 >10ms 前置: postgres-exporter:9187 + redis-exporter:9121 已在 188 部署 ✅ Prometheus scrape 已更新 ✅ Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-08 18:19:03 +08:00
OG T	170ce2f11d	fix(ci): 修正測試與 Sprint 5.2 部署腳本 Some checks failed CD Pipeline / build-and-deploy (push) Failing after 1m38s Details tests/test_auto_repair_service.py: - 更新 3個測試符合 2026-04-07 統帥指令移除門檻 - APPROVED Playbook 直接通過 (低相似度/低品質/高風險均通過) tests/test_phase22_nemotron_collab.py: - 更新 log key: nemotron_collaboration_failed → exhausted ops/monitoring/docker-compose.exporters.yaml: - 修正 postgres DSN: awoooi:awoooi_prod_2026@localhost:5432/awoooi_prod Sprint 5.2 新增腳本: - scripts/sprint51_e2e_validation.py: L7 E2E 驗收腳本 (T1-T5) - scripts/ops/deploy-docker-health-monitor.sh: Plan A 一鍵部署腳本 Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-08 18:17:48 +08:00
OG T	0847fa3a60	feat(sprint5.1): L2-2 — alerts-unified.yml 補 DockerContainerUnhealthy/Exited 規則 Some checks failed Deploy Alert Rules / Deploy Prometheus Alert Rules (push) Failing after 19s Details 新增 docker_health_alerts group： - DockerContainerUnhealthy: container_health_status==0, for 2m, auto_repair=true - DockerContainerExited: container_running_status==0, for 1m, auto_repair=true 標籤 auto_repair=true 讓 AWOOOI API 進入 Guardrail 決策鏈路，實際修復動作由 Service Registry 分級（ADR-062）決定， docker-health-monitor.sh（純感知層）送 webhook 後由此規則補充 Prometheus 路徑。 Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-08 16:40:44 +08:00
OG T	88696dba9b	feat(sprint5.1): Data Safety Guardrails 全鏈路整合 (L1-L5) Some checks failed CD Pipeline / build-and-deploy (push) Failing after 1m33s Details Type Sync Check / check-type-sync (push) Failing after 58s Details Layer 0 - K8s RBAC: - k8s/rbac/api-velero-reader.yaml: awoooi-executor SA Velero backup reader Layer 1 - DB Migration (已在 188 執行): - M-002: approval_records 新增 approval_level/votes/required_votes - M-003: alert_event_type ENUM 新增 8 個值 Layer 2 - IaC: - ops/config/service-registry.yaml: 全服務 Stateful 分級清單 (BLOCK/CRITICAL_HITL/STANDARD_HITL/AUTO) Layer 3 - Python Services: - service_registry.py: 讀取 YAML，提供 is_blocked/requires_multisig/get_required_votes - velero_client.py: kubectl 查詢 Velero 備份年齡，失敗 fallback 999h - preflight_service.py: Pre-flight 安全檢查 (Q2/Q4 決策) Layer 1-M001 - Playbook model: - playbook.py: 新增 requires_approval_level/stateful_targets/requires_pre_backup Layer 4 - 業務邏輯: - alert_operation_log_repository.py: 新增 8 個 event_type (Guardrail/Pre-flight/MultiSig/備份) - auto_repair_service.py: 注入 Service Registry Guardrail 檢查 (BLOCK → 直接拒絕) - webhooks.py: ALERT_RECEIVED 溯源記錄 + auto_repair flag Q9 + Langfuse trace_id Q10 - db/models.py: ApprovalRecord 同步 approval_level/votes/required_votes 欄位 - docker-health-monitor.sh: 純感知層改造（移除所有 docker restart 邏輯） Layer 5 - Telegram 通知: - telegram_gateway.py: T1-T6 六個新通知方法 (Guardrail/Pre-flight/Backup/MultiSig/ChangeApplied) 參考: ADR-062 Data Safety Guardrails, ADR-063 Service Registry IaC Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-08 16:24:09 +08:00
OG T	e70ceaba61	ops(signoz): 建立 log-based alert rules 文檔 (Sprint 2) 5 條規則: APIHighErrorLogRate/WorkerTaskFailed/PodOOMKilled/ TelegramPollingFailed/NemotronAllTimeout 含 SigNoz UI 設定步驟 + webhook 驗證指令標籤與 Prometheus 統一規範對齊 (layer/component/team) Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-05 11:10:02 +08:00
OG T	dc27f8f811	ops(monitoring): 統一 Prometheus 告警規則 — 40+條含統一 layer 標籤修正: - ClawBotDown → OpenClawDown (舊命名廢棄) - 加入 SentryDown/HarborDown/GiteaDown/AlertmanagerDown - 所有規則補齊 layer/component/host/auto_repair 統一標籤 - 整合 k8s/monitoring/*.yaml → ops/monitoring/alerts-unified.yml Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-05 02:26:18 +08:00
OG T	30b7b10f01	feat(grafana): Wave D — AI監控 + 基礎設施 Dashboard (Grafana 188:3002) 新增 2 個 Dashboard，匯入既有 Nemotron Dashboard： 1. ai-monitoring.json — LLM + NVIDIA AI 監控 - LLM 呼叫速率 (req/min) - LLM P99/P50 延遲 - Nemotron Tool Calling P99/P50 延遲 - LLM Cache 命中率 % - LLM Fallback 次數 - Alert Chain 健康/最後成功時間 2. infra-monitoring.json — Node + K3s 基礎設施 - CPU/Memory 使用率 - K3s Pod 數量 (by namespace) - K3s Pod 重啟次數 - Prometheus Targets UP/DOWN - API 請求速率 3. nvidia-nemotron.json — 既有 18-panel Nemotron Dashboard (版控) 部署: 192.168.0.188:3002 (Grafana 12.4.1) Provisioning: monitoring/grafana/provisioning/dashboards/ Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-03 00:18:00 +08:00
OG T	3f339110dd	fix(observability): 同步 .188 實際部署調整至 repo Some checks failed CD Pipeline / build-and-deploy (push) Has been cancelled Details E2E Health Check / e2e-health (push) Has been cancelled Details 與原始計畫的差異: 1. MinIO Bearer Token 認證 - 原計畫: MINIO_PROMETHEUS_AUTH_TYPE=public (此版本不支援) - 實際: mc admin prometheus generate 產生 Bearer Token - 更新: prometheus-config-phase-o.yaml 加入 bearer_token 2. remote_write 廢棄 → OTEL Collector Prometheus scrape - 原計畫: Prometheus remote_write → SigNoz OTEL /api/v1/write - 實際: SigNoz OTEL Collector 不支援 Prometheus remote_write 格式 (404) - 改用: OTEL Collector prometheus receiver 直接 scrape node-exporter + kube-state-metrics - 新增: ops/signoz/otel-collector-config-phase-o.yaml (版本控管副本) 3. ADR-053 驗收清單更新為實際結果 Co-Authored-By: Claude Code <noreply@anthropic.com>	2026-04-02 21:23:47 +08:00
OG T	3e4612f259	docs(observability): ADR-053 SigNoz 統一架構 + Phase O 驗收 Some checks failed CD Pipeline / build-and-deploy (push) Failing after 36s Details E2E Health Check / e2e-health (push) Successful in 16s Details - 新增 ADR-053: 可觀測性統一架構決策記錄 - 更新 service-registry.yaml: 補齊 MinIO/Kali 監控入口 - 更新 LOGBOOK: Phase O 完成狀態 Phase O 驗收清單: ✅ kubectl Mac 本機免密碼 ✅ OTEL Collector 2 Pod Running ✅ Event Exporter 1 Pod Running ✅ Descheduler CronJob Completed ✅ MinIO + Kali 告警規則 ✅ Alert Chain Smoke Test ✅ CD Pipeline 整合 ⏳ ClickHouse TTL / remote_write / SigNoz rules (待 .188 手動) Co-Authored-By: Claude Code <noreply@anthropic.com>	2026-04-02 18:26:57 +08:00
OG T	a5a6bd3408	feat(monitoring): K8s alert rules + Grafana dashboards + ops 腳本 - k8s/monitoring/alert-chain-monitor.yaml - k8s/monitoring/database-alerts.yaml - ops/grafana/ Grafana dashboards - ops/signoz/ SignOz 配置 - ops/scripts/ 維運腳本 Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>	2026-03-29 16:04:14 +08:00
OG T	c7f9c119e7	fix(cd): 補提交 ops/monitoring 腳本遺漏文件導致 CD Monitoring Coverage 步驟失敗新增: - generate_monitoring.py - 監控覆蓋率檢查 - coverage_report.py - 覆蓋率報告 - discover_docker.py - Docker 服務發現 - deploy-exporters.sh - Exporter 部署腳本 - postgres-exporter-queries.yaml - PostgreSQL 查詢配置 Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>	2026-03-29 15:45:42 +08:00
OG T	12e49d844a	feat(monitoring): ADR-037 Wave B - Database Exporters + Prometheus 整合 - 部署 PostgreSQL Exporter (192.168.0.188:9187) - 部署 Redis Exporter (192.168.0.188:9121) - 更新 Prometheus scrape config - 首席架構師審查: 97% OUTSTANDING Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>	2026-03-29 15:18:54 +08:00
OG T	d15fb7d9f4	fix(cd): 序列建構修復 Runner _runner_file_commands 衝突根因: 並行 Job 的 Set up job 階段會同時寫入 RUNNER_TEMP 解法: build-api needs build-web，確保序列執行移除: Job-level concurrency groups (不再需要) 更新: ops/runner/README.md v1.0→v2.0 Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>	2026-03-29 10:29:11 +08:00
OG T	07114f9181	fix(runner): v4 - 啟用 cancel-in-progress 防止並行衝突根因確認: - _diag/pages 衝突發生在 "Set up job" 階段 - 這是在任何自定義步驟執行之前 - Runner 內部 bug，workflow 層清理無法解決永久解決方案: - cancel-in-progress: true (確保同一時間只有一個 workflow) - 不再嘗試清理 RUNNER_TEMP (會破壞其他 Job) - 保留 _diag/pages 清理作為輔助措施更新 ops/runner/README.md: - 完整根因分析 - v3 最終解決方案說明 - 警告: 不要清理 RUNNER_TEMP Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>	2026-03-29 02:10:17 +08:00
OG T	93c3280481	feat(monitoring): Phase 20 Nemotron 完整監控整合服務註冊表: - 新增 nvidia-nemotron AI 服務 - 3 個 Prometheus metrics 定義 - 4 個告警規則 (circuit_breaker, timeout, error_rate, rate_limit) - fallback 策略 (nvidia → gemini → ollama) Alertmanager 規則: - NvidiaCircuitBreakerOpen (P1) - NvidiaToolCallingHighLatency (P2) - NvidiaToolCallingHighErrorRate (P0) - NvidiaCircuitBreakerHalfOpen (Info) - NvidiaCircuitBreakerClosed (Info) - NvidiaNoRequests (P3) 自動修復: - fallback_to_gemini - fallback_to_ollama - switch_model ADR: ADR-036 Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>	2026-03-29 02:05:59 +08:00
OG T	183776a34f	fix(runner): 永久修復 _diag/pages 檔案衝突問題問題: Runner 並行執行時 "file already exists" 導致 CD 失敗解決方案: 1. CD Workflow: 刪除整個 _diag/pages 目錄再重建 (非 rm -rf /*) 2. Systemd Timer: 每 5 分鐘自動清理過期檔案 3. flock 鎖定: 防止清理程序競爭新增檔案: - ops/runner/cleanup-runner-diag.sh - 清理腳本 - ops/runner/runner-diag-cleanup.service - Systemd service - ops/runner/runner-diag-cleanup.timer - 定時器 - ops/runner/deploy-runner-cleanup.sh - 部署腳本 - ops/runner/README.md - 文檔部署指令: ssh wooo@192.168.0.110 bash awoooi/ops/runner/deploy-runner-cleanup.sh Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>	2026-03-29 02:04:35 +08:00
OG T	40163a51b5	feat(monitoring): 完整監控策略與自動整合架構新增: 1. MONITORING_COMPLETE_STRATEGY.md - 完整監控策略 - 5 主機 × 60+ 服務監控矩陣 - P0/P1/P2 告警規則清單 - AI 自動修復閉環流程 - 安全護欄配置 2. MONITORING_INTEGRATION_ARCHITECTURE.md - 自動整合架構 - 服務註冊表 (Single Source of Truth) - CI/CD 自動驗證監控覆蓋率 - 新服務自動獲得監控 3. ops/monitoring/service-registry.yaml - 服務清單 - K8s 工作負載 (API/Web/Worker/ArgoCD) - Docker 容器 (Ollama/OpenClaw/Redis/Postgres) - 前端頁面 SLO - API 端點 SLO - 告警模板與自動修復動作 4. ops/monitoring/validate_coverage.py - 覆蓋率驗證 - CI 階段執行 - 檢測未監控服務 - 生成覆蓋率報告設計原則: - 監控即代碼 (Monitoring as Code) - 新服務必須在 registry 註冊才能部署 - 自動發現機制防止遺漏 Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>	2026-03-29 01:52:08 +08:00
OG T	9bff46a1b0	feat: integrate Sentry + fix CI/CD issues Sentry Integration (補強 SignOz): - Add @sentry/nextjs for frontend error tracking + session replay - Add sentry-sdk[fastapi] for backend error tracking - Create sentry.client/server/edge.config.ts - Integrate with next.config.js + instrumentation.ts - Add Sentry exception capture in FastAPI error handler - Create deployment scripts for Self-Hosted @ 192.168.0.110 CI/CD Fixes: - Fix F821 Undefined name 'Field' in incidents.py - Add NEXT_PUBLIC_API_URL env var to CI build step - Add build-arg to Docker build verification E2E Test Improvements: - Fix strict mode violations in dashboard-acceptance tests - Add timeout increase for Phase 4 demo tests - Make tests more resilient to UI variations Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>	2026-03-24 15:19:52 +08:00
OG T	7478dc0254	feat(phase6-9): Complete modular architecture and Agent Teams Phase 6.4 - Modular Architecture: - Add lewooogo-brain adapters for LLM providers - Add lewooogo-data dual memory (Redis + PostgreSQL) - Implement consensus engine for multi-agent decisions - Add incident memory service for historical context Phase 9 - Agent Teams (Claude Agent SDK): - Add base agent class with Claude Sonnet 4 integration - Implement action planner, blast radius, and security agents - Add agent API endpoints and proposal workflow - Integrate ADR-009 OpenClaw Agent Teams architecture DevOps & CI/CD: - Add GitHub Actions CI/CD workflows (ci.yaml, cd.yaml) - Add pre-commit hooks and secrets baseline - Add docker-compose for local development - Update Kubernetes network policies Frontend Improvements: - Add auto-healing error boundary component - Update i18n messages for agent features - Enhance dual-state incident card with execution feedback Documentation: - Add 7 ADRs covering MCP, design system, architecture decisions - Update ARCHITECTURE_MEMORY.md with modular design - Add GLOBAL_RULES.md and SOUL.md for project identity Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>	2026-03-23 18:40:36 +08:00

27 Commits