awoooi

Author	SHA1	Message	Date
Your Name	ff30c61c4c	fix(rls): 收斂 API DB access context All checks were successful Code Review / ai-code-review (push) Successful in 21s Details CD Pipeline / tests (push) Successful in 1m20s Details CD Pipeline / build-and-deploy (push) Successful in 4m15s Details CD Pipeline / post-deploy-checks (push) Successful in 1m58s Details	2026-05-12 19:55:13 +08:00
Your Name	33f85ec8ca	fix(logging): redact telegram bot urls All checks were successful Code Review / ai-code-review (push) Successful in 17s Details CD Pipeline / tests (push) Successful in 1m14s Details CD Pipeline / build-and-deploy (push) Successful in 3m19s Details CD Pipeline / post-deploy-checks (push) Successful in 1m15s Details	2026-05-06 16:54:14 +08:00
Your Name	4111ea4f9f	fix(ai): remove 188 ollama provider All checks were successful Code Review / ai-code-review (push) Successful in 12s Details CD Pipeline / tests (push) Successful in 1m13s Details CD Pipeline / build-and-deploy (push) Successful in 3m36s Details CD Pipeline / post-deploy-checks (push) Successful in 1m20s Details	2026-05-06 14:34:48 +08:00
OG T	c696b99ccf	fix(awooop): authenticate approval decisions All checks were successful Code Review / ai-code-review (push) Successful in 11s Details CD Pipeline / tests (push) Successful in 1m3s Details CD Pipeline / build-and-deploy (push) Successful in 3m28s Details CD Pipeline / post-deploy-checks (push) Successful in 1m25s Details	2026-05-06 13:05:51 +08:00
Your Name	9ef9633aff	fix(alerts): bypass proxy timeout for GCP Ollama	2026-05-06 08:55:14 +08:00
Your Name	09256be62c	fix(rag): use bge embeddings on GCP Ollama lane Some checks failed Code Review / ai-code-review (push) Successful in 11s Details CD Pipeline / tests (push) Successful in 1m22s Details CD Pipeline / build-and-deploy (push) Failing after 2h14m5s Details CD Pipeline / post-deploy-checks (push) Has been cancelled Details	2026-05-06 05:49:37 +08:00
Your Name	c2c0b1ec82	fix(alerts): let GCP Ollama finish before cloud fallback All checks were successful Code Review / ai-code-review (push) Successful in 10s Details CD Pipeline / tests (push) Successful in 1m9s Details CD Pipeline / build-and-deploy (push) Successful in 4m21s Details CD Pipeline / post-deploy-checks (push) Successful in 1m16s Details	2026-05-06 05:27:55 +08:00
Your Name	2aa31c205a	fix(ai): require 111 before alert cloud fallback All checks were successful CD Pipeline / tests (push) Successful in 54s Details Code Review / ai-code-review (push) Successful in 10s Details CD Pipeline / build-and-deploy (push) Successful in 3m21s Details CD Pipeline / post-deploy-checks (push) Successful in 2m2s Details	2026-05-06 00:05:51 +08:00
Your Name	1cc215ec30	fix(ops): keep Ollama health checks on alert fast model Some checks failed CD Pipeline / tests (push) Successful in 52s Details Code Review / ai-code-review (push) Successful in 9s Details CD Pipeline / post-deploy-checks (push) Has been cancelled Details CD Pipeline / build-and-deploy (push) Has been cancelled Details	2026-05-05 23:16:21 +08:00
Your Name	c4854bb355	fix(ai): isolate heavy Ollama workloads from GCP alert lane All checks were successful CD Pipeline / tests (push) Successful in 54s Details Code Review / ai-code-review (push) Successful in 10s Details CD Pipeline / build-and-deploy (push) Successful in 3m19s Details CD Pipeline / post-deploy-checks (push) Successful in 3m12s Details	2026-05-05 23:06:07 +08:00
Your Name	bf847ad045	fix(ai): stabilize GCP Ollama alert lane Some checks failed Code Review / ai-code-review (push) Successful in 10s Details CD Pipeline / build-and-deploy (push) Has been cancelled Details CD Pipeline / post-deploy-checks (push) Has been cancelled Details CD Pipeline / tests (push) Has been cancelled Details	2026-05-05 22:20:27 +08:00
Your Name	ee5e3bc94f	fix(openclaw): gate alert cloud fallback behind flag Some checks failed Code Review / ai-code-review (push) Successful in 27s Details CD Pipeline / tests (push) Successful in 5m17s Details CD Pipeline / build-and-deploy (push) Failing after 5m35s Details CD Pipeline / post-deploy-checks (push) Has been skipped Details	2026-05-05 20:54:47 +08:00
Your Name	fc1a6196df	fix(code-review): keep Gemini fallback opt-in Some checks failed CD Pipeline / tests (push) Successful in 2m2s Details Code Review / ai-code-review (push) Successful in 27s Details CD Pipeline / build-and-deploy (push) Has been cancelled Details CD Pipeline / post-deploy-checks (push) Has been cancelled Details	2026-05-05 14:38:44 +08:00
Your Name	8629ac709b	feat(awooop): Phase 1-8 完整實作 — AwoooP Agent Platform 六平面架構 Some checks failed run-migration / migrate (push) Failing after 59s Details Code Review / ai-code-review (push) Successful in 1m8s Details Type Sync Check / check-type-sync (push) Successful in 2m27s Details ## Phase 1-3: Control Plane + Contract System - awooop_phase1_control_plane_2026-05-04.sql: 12 張核心表 + RLS - awooop_phase1_batch1_rls_2026-05-04.sql: 全部 FORCE RLS + GRANT - packages/awooop-contracts/: 六合約 JSON Schema + golden fixtures - src/models/awooop_contracts.py: Pydantic v2 contract models（extra=forbid） - src/repositories/contract_repository.py: contract lifecycle（draft→published→active） - src/services/contract_service.py: HMAC publish sig + Redis multi-sig activate - src/services/schema_validator.py: LLM output validator（retry×3, E-SCHEMA-001） ## Phase 2: Tenant Isolation - awooop_phase2_budget_ledger_2026-05-04.sql: budget_ledger + RLS - src/services/budget_service.py: Token Budget Hard Kill 三層防線 - src/core/context.py: PROJECT_ID ContextVar（31 background loop 自動繼承） - src/db/base.py + models.py: project_id 欄位 + RLS set_config 注入 - src/hermes/nl_gateway.py: project_id Redis key 前綴（Phase A 雙寫） - src/services/anomaly_counter.py: per-project 改造（Phase A fallback） ## Phase 4: Platform Shell in Shadow Mode - awooop_phase4_run_state_2026-05-04.sql: run_state + step_journal + idempotency - src/services/run_state_machine.py: 8-state FSM + SKIP LOCKED + stale reaper - src/services/platform_runtime.py: UUID v7 + W3C trace_id + shadow_execute - src/services/audit_sink.py: PII/secret redaction 9 patterns - src/api/v1/platform/runs.py: POST/GET /v1/platform/runs（Router→Service 架構） - src/workers/platform_worker.py: SKIP LOCKED worker + heartbeat + reaper loop - src/main.py: platform router + lifespan worker start/stop ## Phase 5: MCP Gateway 五閘門 - awooop_phase5_mcp_gateway_2026-05-04.sql: 4 表 + RLS - src/plugins/mcp/gateway.py: McpGateway（Gate 1~5, E-MCP-GATE-001~009） - src/plugins/mcp/redaction_middleware.py: 雙層 redaction + 16K 截斷 - src/plugins/mcp/registry.py: __provider name mangling（ADR-116） - src/plugins/mcp/credential_resolver.py: k8s secret ref 解析 - tests/test_mcp_credential_isolation.py: 10 個迴歸測試（secret leak 防再現） ## Phase 6-8: EwoooC + Channel Hub + Approval Token - awooop_phase6_ewoooc_onboarding_2026-05-04.sql: ewoooc tenant + 4 read-only MCP tools - awooop_phase7_channel_hub_2026-05-04.sql: conversation_event + outbound_message - src/services/provider_proxy.py: ProviderProxy + PlatformEnvelope（ADR-115） - src/services/channel_hub.py: Telegram inbound mirror + Progressive Feedback（30s） - src/services/awooop_approval_token.py: HS256 + jti NX replay 防護 + suggest mode Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-05-04 19:31:53 +08:00
Your Name	72cd79ed8b	fix(aiops): Task2 drift auto-adopt 根因修復 + Task3 coverage gap 規則自動生成 All checks were successful Code Review / ai-code-review (push) Successful in 48s Details Task 2 — Drift 自動採納修根因: 根因: _analyze_and_notify() 中 report 是 in-memory 物件， update_interpretation() 只更新 DB，不回寫 report.interpretation，導致 auto_adopt_if_safe() 永遠看到 None → 觸發「尚無 Nemotron 意圖分析」 → Drift 自動採納 0 筆修法: report.interpretation = interpretation（DB 寫入後立即回寫記憶體）附加: DRIFT_AUTO_ADOPT_ENABLED flag（default=True，回滾: kubectl set env ...=false） Task 3 — Coverage Gap → AI 規則自動生成執行器: 根因: evaluate_once() 只分析 red 缺口，但無執行器將分析轉為實際規則 → alert_rule_catalog 的 ai_generated source 永遠為 0 條修法: 新增 _auto_create_rules_for_uncovered_assets(run_id) · 查 auto_alerting=red 的 top 5 host/k8s_workload asset · 依 asset_type 生成範本化 PromQL rule（host→up, k8s→replicas_available） · UPSERT 進 alert_rule_catalog（source='ai_generated', review_status='pending_review'） · Redis 24h 冷卻防重複，Redis 不可用時降級繼續附加: COVERAGE_AUTO_RULE_ENABLED flag（default=True，回滾: kubectl set env ...=false） Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-05-04 14:22:51 +08:00
Your Name	54a4e59af9	fix(auto-approve): 主機告警 SSH 診斷指令豁免 bad_target 驗證 — 修復 no_executable_action 根因：host_resource_alert 規則使用 {host}（由 instance label 派生），與 {target} 無關；但 host 告警缺少 K8s deployment label 導致 target=unknown， _is_bad_target=True → kubectl_command 被清空 → auto_approve 以 no_executable_action 拒絕 → 每日 3 次人工攔截。修復： - alert_rule_engine.py: SSH 指令（startswith "ssh "）跳過 bad_target 驗證 - prompts.py: 主 + Nemo prompt 補 Host* 告警 SSH 診斷規則，防 LLM fallback 路徑輸出 kubectl - ssh_command_whitelist.py: 新建唯讀 SSH 指令白名單模組（供 _ssh_execute() 執行前驗證） Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-05-04 14:15:05 +08:00
Your Name	f2f5148ca6	fix(awooop): Phase 2 第二批 P0 安全強化 + Redis key 命名空間修正 ## P0-05 Callback Nonce 防偽造（ADR-116） - security_interceptor.py：generate_callback_nonce() 新增 HMAC-SHA256[:16] 附加 - 新 5-part 格式：{action}:{short_id}:{ts}:{rand}:{hmac16} - CALLBACK_HMAC_SECRET 未設定時降級 warning（向後相容） - security_interceptor.py：parse_callback_data() 新增 5-part 分支 + HMAC 驗證 - config.py：新增 CALLBACK_HMAC_SECRET: str = Field(default="") ## P0-06 Webhook HMAC Replay 防護（ADR-116） - security_interceptor.py：新增 check_webhook_nonce()（Service 層，get_redis 在此層合法） - webhooks.py：verify_webhook_signature() 新增兩個可選 Header - X-Webhook-Timestamp：±300s 窗口驗證（若提供） - X-Webhook-Nonce：呼叫 check_webhook_nonce()（Redis NX dedup，fail open） - 移除直接 get_redis import（leWOOOgo 積木化修正） ## P0-11 ollama:current_primary Redis key 遷移 Phase A（ADR-110） - ollama_auto_recovery.py：_REDIS_PRIMARY_KEY = "platform:ollama:current_primary" - 雙寫舊 key "ollama:current_primary"（Phase A 30 天） - 讀取以新 key 為主，fallback 舊 key ## P0-12 consensus Redis key 加 project namespace Phase A - consensus_engine.py：新增 _consensus_key() / _consensus_legacy_key() helper - 新 key：{project_id}:consensus:{consensus_id} - project_id=None 時 fallback __platform__:consensus:{consensus_id} - Phase A 雙寫 + fallback 讀取，現有呼叫方零修改 Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-05-04 13:54:38 +08:00
Your Name	14bf86a462	fix(awooop): Phase 2 初批 P0 修正 + Phase 1 Task 1.7 integration tests ## P0 安全 / 架構修正 ### P0-08 telemetry.py — 移除硬碼 IP assert（ADR-121） - config.py：新增 OTEL_ALLOWED_ENDPOINTS（預設 192.168.0.188）+ OTEL_FORBIDDEN_ENDPOINTS - telemetry.py：_validate_endpoint() 改為 config-driven allowlist/forbidlist - EwoooC 可用 env 覆寫 OTEL_ALLOWED_ENDPOINTS 指向自己的 SigNoz host ### P0-13 mcp_bridge.py — K8s namespace 由 settings 提供 - config.py：新增 AWOOOI_K8S_NAMESPACE（預設 "awoooi-prod"） - mcp_bridge.py：5 處 parameters.get("namespace", "awoooi-prod") → settings.AWOOOI_K8S_NAMESPACE - EwoooC/Tsenyang 可設自己的 namespace ### P1-24 decision_manager.py — silence key 常數統一 - 新增 from src.services.telegram_gateway import SILENCE_KEY_PREFIX - f"telegram_silence:{target}" → f"{SILENCE_KEY_PREFIX}{target}" - 消除跨兩處重複定義（ADR-118 No Island Coding 原則） ## Phase 1 Task 1.7 Integration Tests - tests/integration/test_awooop_phase1_schema.py：31 個測試案例 - awooop_projects CHECK 約束（4 cases） - revision 不可變性 trigger（5 cases：draft 可改、published 鎖住、身份欄不可改、非法流轉、DELETE 禁止） - awooop_published_revisions VIEW draft/published 隔離（2 cases） - active_pointer_guard（3 cases：不可指向 draft、可指向 active、跨租戶 mismatch） - RLS fail-closed（3 cases：未設/錯設/正確設 project_id） - outbox FK + dedup（2 cases） Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-05-04 13:46:19 +08:00
Your Name	f7e5fc772e	feat(ai-models): ADR-110 GCP-A Primary + 全任務模型升級 (v1.4.0) Some checks failed Code Review / ai-code-review (push) Failing after 18s Details models.json v1.3.0 → v1.4.0： - endpoint: 192.168.0.111 → GCP-A 34.143.170.20:11434 (ADR-110) - rca/drift_summary/playbook_draft/rag_generate: qwen2.5:7b → qwen3:14b - code_review: qwen2.5-coder:7b → qwen2.5-coder:32b (GCP SSD) - embedding: nomic-embed-text → bge-m3:latest (多語言更佳) - image_analysis: llava → minicpm-v:latest - 新增: trust_scoring/alert_triage/intent_classify/governance 四任務 config.py： - OLLAMA_REQUIRED_MODELS: 新增 qwen3:14b + hermes3:latest - OLLAMA_TOOL_MODEL: llama3.1:8b → hermes3:latest - OPENCLAW_DEFAULT_MODEL: qwen2.5:7b-instruct → qwen3:14b 111 背景安裝 minicpm-v + qwen3:14b (fallback 補齊) Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-05-04 10:59:38 +08:00
Your Name	b1ef05fa8c	feat(ollama): ADR-110 GCP 三層容災架構（GCP-A → GCP-B → Local → Gemini） Some checks failed Code Review / ai-code-review (push) Successful in 50s Details CD Pipeline / tests (push) Failing after 1m14s Details CD Pipeline / build-and-deploy (push) Has been skipped Details CD Pipeline / post-deploy-checks (push) Has been skipped Details ## 變更摘要 - Primary: http://34.143.170.20:11434 (GCP-A SSD, 9x 載速 + 2x 推理) - Secondary: http://34.21.145.224:11434 (GCP-B SSD) - Fallback: http://192.168.0.111:11434 (M1 Pro Local HDD，最後防線) - 廢止 ADR-105「111 唯一鐵律」，新建 ADR-110 ## 核心改動 - config.py: 新增 OLLAMA_SECONDARY_URL；validator 加 GCP IP 白名單（34.143.170.20, 34.21.145.224） - ollama_failover_manager.py: 三層 Ollama 決策矩陣；並行健康檢查三台；health_111 → health_gcp_a - ollama_health_monitor.py: host label 萃取改為通用版（支援 GCP 公網 IP） - failover_alerter.py: 故障/恢復主機動態顯示，不再硬編碼「Ollama 111 (GPU)」 - ollama_auto_recovery.py: notify_recovery 改為 ollama_gcp_a；recovered_host 動態 - k8s/awoooi-prod: configmap + deployment + network-policy 同步更新（egress 加 GCP /32） - 服務層: 10 個服務檔案硬編碼 192.168.0.111 改為讀 settings.OLLAMA_URL - 測試: URL 常數更新，新增三層容災場景，GCP IP 白名單驗證測試 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-03 22:49:23 +08:00
Your Name	433f7b068e	fix(aiops): close ssh and telegram remediation gaps All checks were successful CD Pipeline / tests (push) Successful in 2m7s Details Code Review / ai-code-review (push) Successful in 42s Details CD Pipeline / build-and-deploy (push) Successful in 13m14s Details CD Pipeline / post-deploy-checks (push) Successful in 4m29s Details	2026-05-01 16:53:02 +08:00
Your Name	f8e44971c1	feat(aiops): enable read-only agent loop canary All checks were successful CD Pipeline / tests (push) Successful in 1m43s Details Code Review / ai-code-review (push) Successful in 31s Details CD Pipeline / build-and-deploy (push) Successful in 10m22s Details CD Pipeline / post-deploy-checks (push) Successful in 4m3s Details	2026-05-01 14:20:16 +08:00
Your Name	6e04fe9c8a	feat(playbook): generate drafts with local llm Some checks failed CD Pipeline / tests (push) Successful in 1m28s Details Code Review / ai-code-review (push) Successful in 29s Details Type Sync Check / check-type-sync (push) Failing after 2m41s Details CD Pipeline / build-and-deploy (push) Successful in 8m40s Details CD Pipeline / post-deploy-checks (push) Successful in 3m10s Details	2026-04-30 23:04:58 +08:00
Your Name	80defbed7c	fix(aiops): fallback and escalate automation blockers Some checks failed CD Pipeline / tests (push) Successful in 2m41s Details Code Review / ai-code-review (push) Successful in 24s Details CD Pipeline / build-and-deploy (push) Successful in 7m51s Details CD Pipeline / post-deploy-checks (push) Failing after 2m15s Details	2026-04-30 14:13:57 +08:00
Your Name	3668d49f2f	feat(flywheel): W2 三件 + KMWriter critic 修法（1635 tests 全綠） Some checks failed CD Pipeline / build-and-deploy (push) Failing after 1m38s Details W2 (onboarder 4 週飛輪 80→90 路徑第二週) + critic PR review 5 個 critical/major 全部修完，default flag=false 安全無爆炸風險。 ## W2 三件 PR ### PR-R2 — AOL → catalog confidence EWMA 回灌（修飛輪斷鏈 C2） - 新檔 `apps/api/src/jobs/aol_to_catalog_writeback_job.py` - 邏輯：每小時掃 AOL 計算 EWMA confidence (alpha=0.3) 回灌 alert_rule_catalog - 失敗閾值 N=5 連續低成功率 → review_status='draft' - Hermes _fetch_noisy_rules SQL 加 OR review_status='draft' - ENABLE_AOL_WRITEBACK_JOB=false (default) - 8 個測試（mock path 修正：lazy import → patch src.db.base.get_db_context） ### PR-V1 — self_healing_validator 串接 (修飛輪斷鏈 C6) - 新檔 `apps/api/src/services/self_healing_validator.py`（純函數 assess_self_healing） - post_execution_verifier.py step 5 串接（feature flag gate） - evidence_snapshot.py 加 self_healing_score / self_healing_detail 欄位 - db/models.py + base.py ALTER IF NOT EXISTS - score < 0.5 → 觸發 rollback 提案 Telegram alert（不自動執行） - ENABLE_SELF_HEALING_VALIDATOR=false (default) - 7 個測試 ### PR-L1 — KM ↔ Playbook 雙向回路 (修飛輪斷鏈 C3+C4) - learning_service.py 三條新邏輯： 1. _write_playbook_evolution_km：promote/demote 寫 KM 演化條目 2. _check_and_mark_playbook_review：N=5 累積觸發 review_required 3. _demote_alert_rule_catalog_confidence：DEPRECATED → confidence×=0.5 - PlaybookRecord 加 review_required 欄位（schema migration via base.py） - ENABLE_KM_PLAYBOOK_FEEDBACK_LOOP=false (default) - KM_PLAYBOOK_REVIEW_THRESHOLD=5 可調 - 6 個測試 ## KMWriter Critic 5 個 Critical/Major 修復（之前 critic PR review 發現）之前 push commit `c5753e1c` 已修，本 commit 補回 stash 中的對應檔案： - C1 km_writer.py:194 backfill 自打臉（已修：同步 await + DLQ） - C2 km_writer.py:391 KM_WRITE_AWAIT=false 路徑收緊 - M1 decision_manager.py:2178/2203 移除 _fire_and_forget - M2 incident_service.py:1099 自製 path 加 retry+DLQ - M3 km_writer.py:166 冪等聲明對齊（UPSERT + partial unique index） ## 驗證 - 1635 unit tests 全綠（+27 from 1608） - 與 `fb0c72db` (推翻 A2 Ollama primary) 共存無衝突 - 所有新 Job/Service default flag=false（不爆炸） ## 期望影響飛輪斷鏈 C2 + C3 + C4 + C6 全修飛輪自主化評分：65 → 85 預估（W2 完成後）啟用順序（待 prod `fb0c72db` 驗證 OLLAMA primary 跑得起來後）： 1. ENABLE_AOL_WRITEBACK_JOB=true 2. ENABLE_KM_PLAYBOOK_FEEDBACK_LOOP=true 3. ENABLE_SELF_HEALING_VALIDATOR=true Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-29 19:44:04 +08:00
Your Name	681b5ac949	feat(flywheel): W1 PR-R1 規則→Playbook 遷移 + PR-K1 timeline 防禦 ALTER Some checks failed run-migration / migrate (push) Failing after 12s Details Type Sync Check / check-type-sync (push) Successful in 1m25s Details CD Pipeline / build-and-deploy (push) Failing after 1m48s Details W1 第二波：onboarder 飛輪 80→90 路徑剩餘兩件 PR。 ## PR-R1 — 25 條 yaml 規則 → DRAFT Playbook 遷移斷鏈背景（onboarder C2）：alert_rules.yaml 25 條規則 68% 寫死 RESTART，沒有對應 Playbook → RAG 永遠 generic_fallback → 規則命中率沒回饋給 catalog。修法： - 新建 services/rule_to_playbook_migrator.py - 自動從 alert_rules.yaml 解析每條 rule - 產生 PlaybookRecord（status=DRAFT, ai_confidence=0.3, source=YAML_RULE） - 誠實標示信心 0.3（非假 1.0，違反 feedback_confidence_truthfulness） - INSERT ON CONFLICT 冪等（name LIKE 'AutoMigrated: %' 去重，不擾動 seed） - 新建 scripts/migrate_rules_to_playbooks.py（CLI: --dry-run/--commit/--disable-flag） - ENABLE_RULE_MIGRATION_DRAFT=true（rollback flag） - 23 測試覆蓋（parse / build_dict / idempotent / dry_run / action_type / severity_map / feature_flag / wildcard_filter / partial_existing 等） ## PR-K1 — timeline_events 防禦性 ALTER（db-expert finding）任務原前提錯誤：onboarder 報告的 C7 斷鏈（incident_id 欄位）在 2026-04-24 P1.6 已修復 ORM。但生產環境若在 P1.6 前已建表，create_all 跳過已存在的表 → ORM 寫入 SELECT 仍可能找不到 column。修法： - db/base.py:init_db() 補防禦性 ALTER: ALTER TABLE timeline_events ADD COLUMN IF NOT EXISTS incident_id VARCHAR(64); CREATE INDEX IF NOT EXISTS ix_timeline_incident_id ON timeline_events(incident_id); - IF NOT EXISTS 為 no-op 安全（已有 column 不做事） - stage 欄位是任務描述的幻覺（codebase 0 writer），不新增未做： - alembic migration（專案不用 alembic，遵循既有 init_db ALTER pattern） - onboarder C7 在 ORM 層已修，本 commit 確保 prod schema 對齊 ## 驗證 - 1608 unit tests 全綠（+23 from 1585） - PR-R1 23 個測試獨立通過 ## 期望影響 - 飛輪 RAG 終於有 25 條 DRAFT Playbook 可查 → +5 分 - prod schema 對齊保險 → 防 ORM SELECT 失敗 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-29 10:49:25 +08:00
Your Name	c5753e1c57	fix(critic-review): KMWriter 名實統一 + Alertmanager 修抑制 + drift checker AST 化 critic PR review 揭示已 push commits 的 7 個 blocker，本 commit 全部修復。 ## C1 + C2 + M1 + M2 + M3 — KMWriter 真正統一契約（critic 最嚴重 5 條） ### C1 km_writer.py:194 — backfill 自打臉修 - 裸 asyncio.create_task(_backfill_path_a_approval) → await _backfill_path_a_approval_safe() - 同步 await + 獨立 DLQ km:backfill:dlq + try/except 不阻塞主寫入 - 新增 km_backfill_reconciler_job.py（每 5 分鐘掃 DLQ）+ ENABLE_KM_BACKFILL_RECONCILER flag - 防 Path B 比 Path A 先完成 → related_approval_id 永遠 NULL 的 race ### C2 km_writer.py:391 — KM_WRITE_AWAIT=false 路徑收緊 - 從 ensure_future（fire-and-forget 比舊版同步寫更糟） - 改 await writer.write(retry=1, timeout=2.0)（仍 await 但只試一次、超時短） - docstring 明確標註「緊急回滾用，不保證可靠性」 ### M1 decision_manager.py:2178/2203 — 移除 _fire_and_forget 旁路 - 兩處 _fire_and_forget(executor.write_execution_result_to_km(...)) - 改 await asyncio.shield(...) + BaseException 保護（防上層 cancel 中斷） - KM_WRITE_AWAIT=true 在這條路徑終於真正 await ### M2 incident_service.py:1099 — 自製 path 加 retry+DLQ - 原本 if settings.KM_WRITE_AWAIT: await asyncio.wait_for else create_task - 改 3 次指數退避 retry + DLQ 保護（呼叫 km_writer 私有 helper） ### M3 km_writer.py:166 — 冪等聲明對齊實作 - knowledge_repository.create() 加 UPSERT 路徑（pg_insert ON CONFLICT DO UPDATE） - KnowledgeEntryCreate / KnowledgeEntryRecord 加 path_type 欄位 - migration: ADD COLUMN path_type + partial unique index uix_knowledge_incident_path ## M4 alertmanager.yml — equal: [] 收緊（critic 防爆炸抑制） - OllamaInstanceDown / KMConverterDown 抑制加 equal: ['cluster'] 約束 - 防多 cluster 場景下任一 Ollama down 誤抑全 AI/SLO 告警 ## M5 Alertmanager 版本驗證（已確認 v0.31.1，遠超 v0.22+） ## M6 governance_agent.py — health score 區分 skipped vs ok vs violated - check_slo_compliance 加 _meta {violated_count, skipped_count, ok_count, all_skipped, status} - run_self_check: SLO 全 skipped 時獨立發 governance_slo_data_gap 告警（不污染 self_failure 計數，因為 no_data 是 emitter 未實作不是治理機制故障） ## M7 scripts/check_config_drift.py — 改 AST 解析 - regex 改 ast.parse 找 Settings ClassDef AnnAssign Field(default=...) - 避免多行 list / default_factory= / 含跳行字串的 false negative - 4 欄位（AI_FALLBACK_ORDER / ARGOCD_URL / PROMETHEUS_URL / OLLAMA_URL）全對齊 ## 新增測試 - test_km_writer_backfill_reconciler.py: 7 cases（C1 reconciler + safe helper） - test_km_writer_idempotent.py: 5 cases（M3 path_type 注入 + UPSERT 分支） ## 驗證 - 1585 unit tests 全綠（+13 從 1572） - amtool check-config SUCCESS（8 inhibit_rules / 2 receivers） - drift checker AST-based 4 欄位全對齊 - Alertmanager v0.31.1 確認支援新語法 ## 期望影響 - KMWriter 名實統一：飛輪閉環 KM 寫入路徑 100% 可靠 - M4 抑制爆炸風險解除 - 治理層不再對 SLO no_data 靜默 - drift checker false negative 風險解除 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-29 10:44:39 +08:00
Your Name	6878e62af7	feat(flywheel): W1 PR-P1 + ADR-091 T1 — 飛輪 80→90 第一波依 onboarder 端到端閉環審計挖出的 10 條斷鏈 + critic 鐵律違反全景， W1 第一波修復飛輪鐵證 1 + 2 的核心斷鏈 C1。 ## W1 PR-P1 — matched_playbook_id 四斷點守門 (C1 修復) fullstack 探勘發現 4 斷點之前 session 已修，本 PR 補： - ENABLE_PLAYBOOK_MATCHING feature flag (default=true) rollback: kubectl set env deployment/awoooi-api ENABLE_PLAYBOOK_MATCHING=false - proposal_service._try_playbook_match_id 入口加 flag check - 7 個 e2e 測試補上保護網（之前無測試覆蓋）斷鏈 C1 證據鏈：proposal_service.generate_proposal() → matched_playbook_id → approval_db → approval_repository → learning_service._update_playbook_stats 24h 後 playbooks.trust_score 應有真實 EWMA 更新。 ## ADR-091 T1 — auto_generate_rule 雙寫 DB (鐵證 1 第一步) 飛輪鐵證 1：alert_rule_catalog.source='ai_generated' 全 codebase 0 筆。 auto_generate_rule() 寫 alert_rules.yaml 但不寫 DB → AI 自學成果與 catalog 雙軌脫鉤。修法（依 ADR-091 §1 D1）： - 新增 _insert_catalog_ai_generated()：YAML 寫入成功後雙寫 source='ai_generated', confidence=0.5, review_status='draft', created_by_agent - 新增 _parse_for_to_seconds() helper（"30s"/"5m"/"2h" → seconds） - ON CONFLICT (rule_name) DO NOTHING 冪等保證 - transaction 策略：YAML + DB 不在同一 transaction（YAML 已成 SoT，DB 失敗只 log） - ENABLE_AI_RULE_CATALOG_WRITE feature flag (default=true) rollback: kubectl set env deployment/awoooi-api ENABLE_AI_RULE_CATALOG_WRITE=false 13 個測試覆蓋：parse helper 8 + 業務邏輯 5（success/db_fail/idempotent/flag/SQL_lit） ## 驗證 1572 unit tests 全綠（+20 新增：PR-P1 7 + ADR-091 T1 13） ## 期望影響飛輪自主化評分：42 → 65（+23 = C1 +3 + 鐵證 1 +20） ## 已知債（critic PR review 揭示，下一個 commit 處理） - KMWriter 統一契約 3 條 caller 路徑被旁路（C1/M1/M2） - KMWriter 冪等聲明與實作不符（M3 缺 ON CONFLICT） - Alertmanager equal:[] 爆炸抑制 + 版本未驗（M4/M5） - drift checker regex 脆弱（M7 應改 AST） - governance health score skipped 失真（M6） Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-29 10:44:39 +08:00
Your Name	715dc3cb91	fix(observability): P0 假警報止血 + ConfigMap drift 對齊 + 治理工具 12-Agent 全景診斷觸發的 P0/P1 觀測層修復。 ## P0 假警報止血（4 SLO 雪崩根因） - governance_agent.py:306 — 空 result 不再 fallback 0.0，改 continue + log warning 根因：Prometheus 查無資料（emitter 未實作 / rule 未部署）被誤判為 SLO=0 必觸發 violated=True 噴 4 條假告警 ## P0 鬼魂按鈕守門 - telegram_gateway.py:1654 — LLM 動態按鈕 Redis 失敗時 btn_list.clear() first_row（批准/拒絕，HMAC nonce 無狀態）由 caller 1488 永遠保留 feedback_no_ghost_buttons.md 三缺一鐵律對齊 ## ConfigMap drift 修復（3 處） - config.py:683 PROMETHEUS_URL: 188→110（drift checker 揪出 = SPF-4 部分根因） - config.py:705 ARGOCD_URL: 125→121（T0 G3 已知） - config.py:375 AI_FALLBACK_ORDER: 補 nvidia 對齊 ConfigMap ## P1 Alertmanager 升級（amtool SUCCESS） - ops/alertmanager/alertmanager.yml: deprecated → v0.27+ 新語法 - match/match_re → matchers - source_match/target_match → source_matchers/target_matchers - group_by 加 team label（防 SLO 雪崩 4 條同秒推） - PostgreSQL/Redis inhibit 補 equal: ['instance']（防爆炸抑制） - 新增 3 組因果抑制： - OllamaInstanceDown → SLO_/AI_（30 分鐘） - KMConverterDown → SLO_KMGrowthRate* - SLO__FastBurn → SLO__(Medium\|Slow)Burn ## 治理工具落地 - scripts/check_config_drift.py: ConfigMap vs code default drift 檢測揪出 PROMETHEUS_URL drift 是 SPF-4 根因（governance_agent 連 188 而非 110） - scripts/health_check_session.sh: 11 服務 + 4 SSH + drift + git 全景驗證 ## 驗證 - 1552 unit tests 全綠 - amtool check-config SUCCESS（8 inhibit_rules / 2 receivers） - drift checker 4 欄位全對齊 - health check 11 服務全可達 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-29 10:44:39 +08:00
Your Name	9908fdf50d	feat(p3.1-t2-patha): DiagnosisAggregator 路徑 A + Solver F4 critical reject + 對齊測試 Some checks failed CD Pipeline / build-and-deploy (push) Failing after 1m59s Details Wave 8 P3.1-T2 PathA 啟用 + Solver F4 安全強化 + test 對齊： PathA — DiagnosisAggregator 信號分類層補 PDI: - ENABLE_DIAGNOSIS_AGGREGATOR default=False → True · PathA 純信號分類層（OOMKilled/CrashLoop 等業務邏輯） · 不重複呼叫 K8s/SignOz API（只取 PDI 已收集的 raw 資料） · 安全 default on — 純邏輯處理，無外部依賴重疊 - diagnosis_aggregator.py +155 行（PathA 實作） - pre_decision_investigator.py 已接 (commit `3a2cd151`) F4 — Solver critical risk reject: - solver_agent.py: _validate_recommended_action 拒絕 risk=critical · 鐵律：critical 動作必須走人工審批，不可變 Telegram 按鈕 · log warning + return None（被 _extract 過濾掉） - _extract_recommended_actions 改返回 (list, status_str) tuple · status="ok"/"empty"/"all_invalid" 供呼叫端決策 - protocol.py +16 / metrics.py +9 / ai_router.py +18 — 配套 metric + protocol field 測試對齊: - test_solver_recommended_actions.py 拆 test_all_valid → low/medium/high accepted + test_critical_rejected - result tuple unpack: result, _ = _extract_recommended_actions(...) - test_diagnosis_aggregator_stub.py: feature flag default 改 True 對齊 PathA Tests: 51 passed (solver 28 + aggregator 16 + router fallback 8) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com> Co-Authored-By: Multiple Engineers (Wave 8 P3.1-T2 PathA + F4) <noreply@anthropic.com>	2026-04-27 14:42:29 +08:00
Your Name	fb130c9a28	feat(p3.1-t2): DiagnosisAggregator stub tests + sanitization 補強 + metrics 補欄 Some checks failed CD Pipeline / build-and-deploy (push) Failing after 2m16s Details Wave 8 P3.1-T2 後續補測 + 配套：新增測試: - test_diagnosis_aggregator_stub.py (238 行) — 15 tests · stub fixture 驗證 _collect_diagnosis_aggregator 接線 · feature flag default off 不呼叫 · timeout 邊界 / exception fail-soft 修改: - core/metrics.py +23 — 新增 DiagnosisAggregator 相關 Prometheus 指標 - sanitization_service.py +24 — 補強 prompt sanitize 邊界（vuln #4 配套） - RUNBOOK-AGENT-STEP-LATENCY.md / agent_step_latency_rules.yaml — 微調 Tests: 15 passed Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-27 08:30:26 +08:00
Your Name	3a2cd15144	feat(p3.1-t2): Tier-2 三服務感知強化 — Sentry 簽章 + DiagnosisAggregator + Solver actions test Some checks failed CD Pipeline / build-and-deploy (push) Has been cancelled Details Wave 8 P3.1-T2 三項感知強化（多 engineer 補完）： Sentry Webhook 簽章驗證: - sentry_webhook.py: 接入 SentryWebhookService.verify_sentry_signature() - 拒絕無效 sentry-hook-signature → 401 → 防偽造攻擊 DiagnosisAggregator Pod 深診斷整合: - pre_decision_investigator.py: 新增 _collect_diagnosis_aggregator() - ENABLE_DIAGNOSIS_AGGREGATOR feature flag 守衛（default=False） - evidence_snapshot.py: extra_diagnosis 欄位 + build_summary 顯示 - timeout=3.0s + try/except 隔離（fail-soft） - Conservative 策略：待重疊分析確認 vs PreDecisionInvestigator 不重複 config.py: - 新增 ENABLE_DIAGNOSIS_AGGREGATOR Field（default=False，K8s ConfigMap 動態啟用） Solver B1 補測（commit `7c726ebc` 對應）: - test_solver_recommended_actions.py — 20 tests + 3 skipped - 驗證結構化 recommended_actions（北極星 §1.1 修復多樣性 ≥ 40%） - LLM 失敗 graceful degraded（candidates=[], degraded=True） Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com> Co-Authored-By: Multiple Engineers (Wave 8 P3.1-T2) <noreply@anthropic.com>	2026-04-27 08:24:15 +08:00
Your Name	fefe4c21cd	fix(inc-20260425): A1+A2 後續 — Solver/Critic timeout + auto_repair 接線 + Runbook + Grafana Some checks failed CD Pipeline / build-and-deploy (push) Has been cancelled Details 延續 `595629c0` INC-20260425 修復，補三段 Agent + 全鏈路觀測： A1 後續 — Solver/Critic 三段 timeout 接線: - solver_agent.py: AGENT_SOLVER_TIMEOUT_SEC=20.0（env override） - critic_agent.py: AGENT_CRITIC_TIMEOUT_SEC=15.0（env override） - protocol.py: 三 Agent 共用 observe_agent_step() 包裹呼叫 · success/timeout/error outcome label · histogram 寫入 aiops_agent_step_duration_seconds A2 後續 — auto_repair_service 改用 _diagnose_fallback_chain: - auto_repair_service.py +46 行 — 切換 DIAGNOSE 路由到新 chain（NEMO→GEMINI→CLAUDE） - 完全避開 Ollama CPU 238s 二次 timeout 新增 metrics: - core/metrics.py +59 行 — 配合 observe_agent_step 的 histogram bucket + label cardinality 新增測試 (862 行): - test_agent_step_timeouts.py (475) — 三 Agent 各 timeout 邊界 + outcome label - test_ai_router_diagnose_fallback.py (387) — _diagnose_fallback_chain 正確序新增配套: - docs/runbooks/RUNBOOK-AGENT-STEP-LATENCY.md (350) — INC 故障排查 + 觀測指引 - ops/monitoring/grafana/agent_step_latency_rules.yaml (160) · 三 Agent histogram alert rules（p99 > timeout 80% → warning）驗收: 33 tests pass (test_agent_step_timeouts 22 + test_ai_router_diagnose_fallback 11) INC-20260425 雙修總工作量（595629c0 + 此 commit）: · 5 個 service/agent 檔修改 · 1 個新 observability 模組 · 4 個新測試/配套檔 · 1372+187 = 1559 行新增 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com> Co-Authored-By: Claude Sonnet 4.6 (INC-20260425 後續) <noreply@anthropic.com>	2026-04-27 08:15:53 +08:00
Your Name	cc547736ab	feat(wave6-8): P2.1 fusion + P2.2 governance + P2.4 consensus + Wave 7/8 BLOCKER 修復承接 Wave 6/7/8 多 engineer 在 agent 限額前完成的代碼，補 commit 解 production HEAD 隱性 import error（decision_fusion 已被 decision_manager 引用但檔案 untracked）。新增（後端核心）: - decision_fusion.py (562 行) — P2.1 方法 III（OpenClaw + Hermes + Elephant 三 LLM 融合） - aiops_timeline.py + aiops_timeline_service.py — critic B4 修復 /api/v1/aiops/timeline endpoint，DB 存取抽到 service 層遵守 leWOOOgo 積木化 - migrations/p2_decision_fusion_columns.sql + rollback — approval_records fusion 欄位修改（後端整合）: - decision_manager.py — fusion 三斷鏈修補（critic B1+B2+B3）： · B1: 寫 _evidence_snapshot_ref 到 token.proposal_data · B2: fusion 前計算 complexity_score 並寫 token · B3: fusion composite 寫 token.proposal_data["decision_fusion"] - auto_approve.py — fusion + consensus 認識（critic B3+B5）： · composite > 0.7 → auto_execute_eligible bypass min_confidence · source=consensus_engine + score>=0.6 → 規則可信路徑 - consensus_engine.py — db-fix _save_consensus 重用 agent_sessions - governance_agent.py — db-fix _alert PG 寫入 ai_governance_events - approval_db.py — fusion 3 欄位 + 2 partial index + CheckConstraint - db/models.py — schema 對齊 migration - core/config.py — vuln #1 修復：OLLAMA_URL/_FALLBACK_URL field_validator 拒絕公網 IP + 外部域名，僅允許私網/loopback/K8s SVC 白名單 - core/feature_flags.py — P2 fusion + consensus flags - main.py — governance_agent lifespan 啟動 - failover_alerter.py — Wave8-X2: in-memory dedup fallback（Redis 拒絕後不 fail-open） - ollama_*.py — metrics 整合 + recovery 改善 - auto_repair_service.py — verifier 接線新增（測試 2438 行）: - test_decision_fusion.py / test_governance_agent.py / test_consensus_integration.py - test_p2_db_fixes.py / test_wave8_fusion_fixes.py - test_config_url_validation.py（vuln #1 12 tests） - test_failover_alerter.py +Wave8-X2 in-memory dedup 補測驗收: 116 tests pass (decision_fusion + wave8_fusion + config_url + consensus + governance + p2_db_fixes + failover_alerter) Conflict resolution: - 3 檔（config.py + auto_approve.py + decision_manager.py）git stash pop 衝突保留 stashed (engineer 最終版)，補回 ValueError 「公網 IP」字樣對齊 test Note: 此 commit 解 production HEAD 隱性 import error 仍未修: vuln #4 prompt injection / debugger B14 quota fail-closed / B25-B26 drain_pending_tasks / B8 governance fail alert Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com> Co-Authored-By: Multiple Engineers (Wave 6/7/8) <noreply@anthropic.com>	2026-04-27 08:11:40 +08:00
Your Name	2c57b71db9	feat(wave5-p2): GovernanceAgent 4 項自檢 + Ollama 健康告警規則 + Prometheus metrics 整合 All checks were successful CD Pipeline / build-and-deploy (push) Successful in 10m45s Details MASTER plan_complete_v3.md Wave 5 P2.2 + P2.3 完成（multiple engineers 在限額前完成代碼，補 commit）： P2.2 — GovernanceAgent 4 項自檢: - governance_agent.py (342 行) — 每 1 小時自檢循環: · trust_drift（信任度漂移檢測） · knowledge_degradation（知識退化檢測） · llm_hallucination（LLM 幻覺檢測） · execution_blast_radius（執行爆炸半徑檢測） - main.py lifespan: asyncio.create_task(run_governance_loop()) 啟動 try/except 包裹，schedule 失敗不阻斷主流程 - failover_alerter.py: alert_governance(event_type, payload) 1h dedup 四類事件 → Telegram MarkdownV2 告警 P2.3 — Ollama 健康規則 + Prometheus Metrics: - ops/monitoring/ollama_health_rules.yaml (148 行): · OllamaHealthDegraded / OllamaPrimaryDown · OllamaFailoverTriggered / GeminiQuotaExceeded · 補 Prometheus 取資料的 alert rules - core/metrics.py (57 行): · GEMINI_DAILY_CALL_COUNT / GEMINI_DAILY_QUOTA Gauge · OLLAMA_FAILOVER_TRIGGERED_TOTAL Counter · OLLAMA_CURRENT_PRIMARY_IS_OLLAMA Gauge - ollama_failover_manager.py: · _check_gemini_quota: 每次 check 同步更新 Gauge（讓 Prometheus 取最新值） · select_provider: failover 時 inc Counter + 切 Primary Gauge · try/except 包裹，metric 失敗不阻斷主路由 E2E 測試: - test_failover_e2e_dispatch.py (365 行) 完整 dispatch 路徑：health check → failover decide → alerter → metrics Tests: 54 passed (e2e_dispatch + failover_manager + failover_alerter) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com> Co-Authored-By: Multiple Engineers (上 session Wave 5) <noreply@anthropic.com>	2026-04-26 20:56:19 +08:00
Your Name	55c6b4e2d9	feat(p1): Ollama 多層容災系統 — P1.1 健康檢測 + P1.2 ai_router 整合 + P1.5 容災告警 ADR-092 P1 飛輪閉環的 Ollama 失敗轉移子系統，全部 Engineer-A2/C/C2 補上。新服務 (1581 行)： - ollama_health_monitor.py (356)：3 層健康檢測（TCP/HTTP/推理） - ollama_failover_manager.py (571)：111→188 自動切換 + Redis 持久化 + recovery callback - ollama_auto_recovery.py (436)：30s 背景監控 + 連續 3 次 HEALTHY → 切回 + clear_cache - failover_alerter.py (218)：P1.5 Telegram 容災告警服務整合： - ai_router.py: AIProviderEnum.OLLAMA_188 + 120s budget + failover fallback chain - main.py lifespan: 啟動時 wire callback + start recovery，關閉時優雅 stop - config.py: OLLAMA_FALLBACK_URL / OLLAMA_HEALTH_CHECK_MODEL / GEMINI_DAILY_QUOTA（帳單熔斷） K8s 配置： - 04-configmap.yaml.patch-188-fallback：注入 OLLAMA_FALLBACK_URL=http://192.168.0.188:11434 測試 (2082 行)： - test_ollama_health_monitor.py (402) - test_ollama_failover_manager.py (707) - test_ollama_auto_recovery.py (580) - test_ai_router_failover_integration.py (257) - test_lifespan_failover_wiring.py (136) 依賴鏈：service 三件套 + ai_router + main.py 一起 commit，缺一就 ImportError。 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-26 20:18:33 +08:00
Your Name	86ee013cdf	feat(hermes-complete): Hermes NL 三項補強 + ConsensusEngine + ADR 收尾 All checks were successful CD Pipeline / build-and-deploy (push) Successful in 9m32s Details ## Hermes NL 補強（nl_gateway.py） - T1 hermes_dispatch_log DB 寫入（asyncio.create_task 非阻擋） - T2 Redis 速率限制：per-chat_id 20 req/min，fail-open - T3 Multi-turn session：hermes:session:{chat_id}:{user_id} TTL=300s，最近 3 輪 ## ConsensusEngine（ADR-095 宣告式設計） - consensus_engine.py: CONSENSUS_WEIGHTS class 屬性 security=0.4 鎖定，9 個 Claude Code agent 分配 0.6 - config.py: ENABLE_12AGENT_CONSENSUS=False feature flag ## ADR 狀態 - ADR-093/094/095: Proposed → 🟡 批准實作中 - 各 ADR 加 v1.1 變更紀錄 ## K8s ConfigMap - prod 04-configmap.yaml: 加 3 個 feature flags（均 false） - dev 02-configmap.yaml: 同步加入 ## LOGBOOK - 記錄 WS0–WS6 + 補強完成，feature flags 啟用指引 Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-25 02:22:40 +08:00
Your Name	2572ec46d2	feat(ws4): Hermes NL 自然語言介面 — 12-Agent Claude SDK 接入（ADR-094/095） ## hermes/ 套件（5 個新模組） ### display_names.py - 12 agent 視覺識別表（emoji + hashtag + handle + short_name） - format_response_header() 產生 Telegram 前綴 ### agent_loader.py - 解析 .claude/agents/*.md frontmatter → system prompt - lru_cache 避免重複讀檔 ### safety_hooks.py - 移植 awoooi-guard.js 20 條 HARD BLOCK 規則（DENY_PATTERNS） - 5 條 MUTATE_PATTERNS → 須走審批流 ### nl_gateway.py - Layer 1: 關鍵字正則路由（12 條規則，<10ms） - Layer 3: DEFAULT_AGENT = "debugger" - Claude Agent SDK query() 非同步串流，取 ResultMessage.result - 安全降級：SDK error → 友好錯誤訊息 ### telegram_webhook.py - WS4 Hermes NL 接入（@tsenyangbot mention 或私訊觸發） - HERMES_NL_ENABLED=False（feature flag 保護，預設關閉） ## telegram_gateway.py - send_hermes_reply(text, chat_id, reply_to_message_id) 無 500 字截斷，支援 Agent 長回覆 ## config.py - HERMES_NL_ENABLED: bool = False - TELEGRAM_BOT_USERNAME: str = "tsenyangbot" Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-25 02:10:06 +08:00
Your Name	294e0e3387	feat(ws3): ADR-093 Callback User-ID Binding + ADR-094 Webhook 入口 ## T3.1/T3.2 Bound User Check（security_interceptor.py） - verify_callback() Step 0: 檢查 Redis cb_bind:{nonce} → 若有 binding 且 caller != bound_user_id → UserNotWhitelistedError → 若 key 不存在（舊格式）→ 降級走 whitelist（向後相容） → 若 Redis unavailable → 降級繼續（安全降級） - bind_callback_user(nonce, user_id): async 方法，TTL=48h ## T3.3 Telegram Webhook 入口（ADR-094） - apps/api/src/api/v1/telegram_webhook.py（新建） POST /api/v1/telegram/webhook - X-Telegram-Bot-Api-Secret-Token header 驗證 - TELEGRAM_WEBHOOK_SECRET="" → dev 跳過（不 break 現有測試） - WS4 Hermes NL 接入預留佔位 ## T3.4 config.py - 新增 TELEGRAM_WEBHOOK_SECRET field（預設空字串） ## main.py - 掛載 telegram_webhook_v1.router 到 /api/v1 Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-25 02:10:06 +08:00
Your Name	6d5fd3c124	feat(ws2): ADR-093 路由統一 — BIGINT + NotificationMatrix + feature flag ## 修復 ### T2.1 BigInteger overflow 修復 - `db/models.py`: telegram_chat_id Integer → BigInteger （原 int32 無法容納群組 ID -1003711974679） ### T2.2 移除 CAST workaround - `approval_db.py:739`: 移除 CAST(:telegram_chat_id AS BIGINT) ORM 已正確使用 BigInteger，workaround 可退役 ### T2.3 Redis key 一致性修復 - `heartbeat_report_service.py:575`: telegram:polling_leader → telegram:polling:leader （telegram_gateway.py 使用冒號分隔，heartbeat 用底線是 bug） ## 新增 ### T2.4 notification_matrix.py - `services/notification_matrix.py`: ADR-093 路由矩陣 - Destination(DM/GROUP/BOTH) + RoutingRule dataclass - NOTIFICATION_ROUTING dict（TYPE-1 ~ TYPE-8M 完整映射） - resolve_chat_ids(type, dm, group, *, tg_group_cutover=False) 灰階切流 API ### T2.5 telegram_gateway.py feature flag 保護 - line 43: 加 notification_matrix import - line 1827-1834: TG_GROUP_CUTOVER=False 時維持舊行為 TG_GROUP_CUTOVER=True 時解除 _interactive_types 黑名單，由矩陣控制 ### T2.6 Migration SQL - `migrations/adr093_notification_routing.sql`: - CREATE TABLE approval_records (telegram_chat_id BIGINT) - CREATE ROLE awoooi_migrator (IF NOT EXISTS) - 含舊環境 ALTER COLUMN int→bigint 保護 ## 測試同步 - `tests/integration/setup_test_schema.sql`: telegram_chat_id BIGINT Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-25 02:10:06 +08:00
Your Name	bb5f16f8ef	fix(aiops-p2): P2.1 LLM品質三修 — Evidence-First + consensus confidence + raw_evidence注入 Some checks failed CD Pipeline / build-and-deploy (push) Has been cancelled Details 根因: - consensus_engine 四 ExpertAgent confidence=0.0 → 加權投票 total=0 → 永遠返回 NO_ACTION - prompts.py 無 Evidence-First 指令 → LLM 靠記憶推理，無真實環境約束 - openclaw.py analyze_alert 建 prompt 未注入 MCP evidence (diagnosis_context) 修復: - consensus_engine: SRE/Security/Cost/Performance 依訊號強度設 0.45~0.80 confidence - consensus_engine: _normalize_action 加「重新啟動」別名 → RESTART - consensus_engine: SecurityAgent 移除未使用的 _target 變數 - prompts.py: 加 Evidence-First Protocol + Skepticism Rules 區塊 - openclaw.py: analyze_alert 提取 diagnosis_context → <raw_evidence> 注入 full_prompt 驗證: consensus score 從 0.0 → 0.744（CrashLoop 測試案例） P2.1 fix 2026-04-24 ogt + Claude Sonnet 4.6 Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-24 15:52:25 +08:00
Your Name	d0591c54b0	fix(security): 體健修復 — 7項 Critical/Major 安全問題全修 Some checks failed CD Pipeline / build-and-deploy (push) Failing after 35s Details ## Critical 修復 (C1-C5) - C1: git rm --cached 03-secrets.yaml（CHANGE_ME 模板不再追蹤） - C2: git rm --cached awoooi.db + .gitignore 加 *.db（SQLite HARD_RULES 違規） - C3: sentry-tunnel SENTRY_HOST 改為 process.env fallback - C4: config.py DATABASE_URL 移除 changeme default，改為必填 - C5: run_migration.py 改為 os.environ["DATABASE_URL"] ## Major 修復 (M1-M4) - M1: auto_repair /execute 加 CSRF 保護 + AutoRepairPanel.tsx 同步 - M2: drift /rollback /adopt 加 CSRF 保護（/internal/scan 保持無 CSRF） - M3: terminal /intent 加 CSRF 保護 + terminal.store.ts 同步 - M4: live-dashboard HOST_IPS + host-grid VIP 改為 env var ## 其他 - 新增 apps/web/.env.example（6 個 env var 說明） - K8s deployment-web 補入 3 個新 env var - 整合測試：新增 aider_event_repository + ai_router_feedback 真實 DB 測試 - test_terminal.py CSRF dependency override 修復 Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-22 01:27:39 +08:00
Your Name	e1539a813e	feat(config+main): aider-watch v2 settings + router + lifespan register - Add 4 settings to config.py: AIDER_WEBHOOK_SECRET, AIDER_EVENTS_STREAM_KEY, AIDER_PATTERN_EXTRACT_INTERVAL_HOURS, USE_AIDER_FEEDBACK (ADR-091) - Import aider_events_v1 router in main.py imports (alphabetical after ai_slo_v1) - Register aider_events_v1.router in include_router block (after alert_operation_logs_v1) - Register run_aider_event_processor_loop() in lifespan (after compliance_scanner_loop) - All 65 tests pass (24 action_parsing + 41 aider-watch tests) Co-Authored-By: Claude Haiku 4.5 (1M context) <noreply@anthropic.com>	2026-04-20 19:40:02 +08:00
OG T	7e9448f6d0	fix(openclaw): 幻覺 deployment 名雙層防禦 — Prompt + Python validator Some checks failed CD Pipeline / build-and-deploy (push) Has been cancelled Details 2026-04-18 晚（台北時區）— ogt + Claude Opus 4.7 (1M) 生產事件 (approval f763bedf, 22:58): - Alert: KubePodCrashLooping, labels.deployment="awoooi-api" - NEMOTRON 雖收 inventory "awoooi-api, awoooi-web, awoooi-worker" 仍輸出 kubectl_command="kubectl rollout restart deployment/awoooi-prod" (把 namespace 誤當 deployment 名) - 執行結果: "Deployment 'awoooi-prod' not found in namespace 'awoooi-prod'" ## Layer 1: NEMOTRON_SYSTEM_PROMPT 強化 (prompts.py) 新增「🔒 DEPLOYMENT NAME RULE (STRICTLY ENFORCED)」區塊: - namespace NEVER is a deployment name - "awoooi-prod" 是 NAMESPACE,不可寫 deployment/awoooi-prod - 若有 inventory,deployment 必須 exact match - 優先用 labels.deployment,unknown → NO_ACTION ## Layer 2: Python 後驗證 (openclaw.py:1322+) LLM 回應解析後 regex 抽出 deployment 名,對照 _k8s_inventory: - 在清單內 → 通過 - 不在清單內 → 降級: * kubectl_command → "kubectl get deploy -n {ns}"(純調查) * suggested_action → NO_ACTION * target_resource → "unknown(hallucinated)" * confidence → 0.0 * description 加註 [安全降級] 並列出合法 inventory - log 'openclaw_deployment_hallucination_detected' 記錄效果: 就算 LLM 無視 prompt,Python 層也會擋下。破壞性 kubectl 絕不執行於不存在的 deployment。 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-18 23:26:09 +08:00
OG T	604d8eea37	fix(schema-drift): 補齊 prompts.py + Claude API schema enum 同步 (ADR-090) All checks were successful CD Pipeline / build-and-deploy (push) Successful in 12m27s Details 問題: `fe77e6d` 擴充了 models/ai.py enum 至 8 值，但兩個地方未同步： 1. core/prompts.py L77: 缺 INVESTIGATE、OBSERVE 2. core/prompts.py L176 (NEMOTRON_SYSTEM_PROMPT): 缺 APPLY_HPA、INVESTIGATE、OBSERVE 3. openclaw.py L564 (_call_claude tools schema): 舊 4 值 enum 約束影響: LLM 不知道可以輸出 INVESTIGATE/OBSERVE，只能選舊 4 值修復: 三處統一對齊 8 個 suggested_action 值 RESTART_DEPLOYMENT\|DELETE_POD\|SCALE_DEPLOYMENT\|APPLY_HPA\|TUNE_RESOURCES\|INVESTIGATE\|OBSERVE\|NO_ACTION Closes: ADR-090 Prompt-Model 三層同步鐵律 2026-04-17 ogt + Claude Sonnet 4.6 Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-17 22:10:18 +08:00
OG T	a258d87767	fix(webhooks+prompts): 修復 LLM 對所有告警一律輸出「重啟 AWOOOI 服務」的根本問題 Some checks failed CD Pipeline / build-and-deploy (push) Has been cancelled Details 根因 (INC-20260416-C365D0 postgres 磁碟告警事故): 1. alert_context 中 alertname 埋在 labels 深處，LLM 看到 alert_type="custom" → 不知道是什麼告警 2. 快取鍵用 alert_type:target_resource → 不同 alertname 共用同一快取 → 全部回傳第一個 LLM 結果 3. 系統 Prompt 無 alert-category 指導 → LLM 永遠輸出 kubectl rollout restart 修復: - webhooks.py: alert_context 置頂加入 alertname + alert_category + annotations - openclaw.py: 快取鍵改用 alertname:target_resource（告警名稱才是主要識別符） - prompts.py: OPENCLAW_SYSTEM_PROMPT + NEMOTRON_SYSTEM_PROMPT 加入 Alert-Specific Analysis Rules database/storage 告警 → NO_ACTION + 調查指令；K8s 告警 → 對應重啟指令禁止對非 K8s 告警輸出 kubectl rollout restart deployment/awoooi-prod 2026-04-16 ogt + Claude Sonnet 4.6（亞太） Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-16 19:56:13 +08:00
OG T	76558a3cd9	feat(AIOps): 全開 P1-P6 feature flags + Nemotron + offline replay loop Some checks failed CD Pipeline / build-and-deploy (push) Has been cancelled Details - configmap: 啟用 AIOPS_P1~P6 全部總開關與子開關 - configmap: ENABLE_NEMOTRON_COLLABORATION=true（回歸 120s timeout） - feature_flags.py: 補齊 AIOPS_P6_GOVERNANCE_ENABLED 缺失欄位 - main.py: 掛載 run_offline_replay_loop（ADR-087 Phase 6） 2026-04-15 ogt + Claude Sonnet 4.6（亞太） Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-15 21:59:51 +08:00
OG T	bf45b80bd2	feat(Phase 3.5 + Phase 4): AI 學習成果持久化到 PostgreSQL — 修正「AI 失憶」架構缺陷 Some checks failed CD Pipeline / build-and-deploy (push) Has been cancelled Details ADR-085: AI 學習成果不可存在 Cache 架構鐵律確立： - PostgreSQL = System of Record（AI 的永久記憶） - Redis = Warm Cache（加速讀取，TTL 到期從 PG 復原）核心變更： 1. models.py: 新增 PlaybookRecord / DynamicBaselineRecord / LogClusterRecord ORM 2. base.py: ALTER TABLE playbooks 補加 trust_score / requires_approval_level 等欄位 3. playbook_repository.py: 完整雙寫實作（PG upsert + Redis cache） 4. dynamic_baseline_service.py: Holt-Winters 訓練結果寫入 PG，Redis 只作 24h warm cache 5. log_anomaly_detector.py: Drain3 cluster template 寫入 PG（UPSERT on cluster_id） 6. main.py: 啟動時執行 backfill_redis_to_pg()（Redis → PG 冪等補救）修正的問題： - Playbook 7天 Redis TTL 到期 → AI 失去所有修復知識 - trust_score EWMA 隨 Redis TTL 歸零 → AI 重新回到初始信任度 0.3 - Holt-Winters 基線 24h TTL → AI 每天重新學習「正常」的定義 - Drain3 cluster 沒有持久化 → AI 把已知 log pattern 反覆當新 pattern Phase 4 新服務（requirements.txt 已加入 statsmodels + drain3 + numpy） Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-15 15:34:04 +08:00
OG T	f1cbf6db7d	feat(adr-081): Phase 1 感官縱深 — 8D 情報蒐集 + 執行後驗證成品： - IncidentEvidence DB model（8D 感官 + pre/post 執行狀態） - EvidenceSnapshot dataclass（build_summary → LLM 上下文） - SanitizationService（Prompt Injection 0-tolerance，12 pattern） - MCPToolRegistry（動態工具登記，suggest_tools 不寫死告警類型） - PreDecisionInvestigator（8D 並行感官，P99 < 8s，Redis 30s 快取） - PostExecutionVerifier（warmup 10s → 後狀態評估 success/degraded/failed） - decision_manager + approval_execution 接線（feature flag 守衛） Gate 1 修復：D4/D5/D7/D8 補 sanitize_dict_values；移除裸 "error" failure signal 防 error_rate key 誤判；evidence_snapshot rowcount 零行警告。測試：130 passed（+111 新增） Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-15 13:08:38 +08:00
OG T	db9e304a14	feat(adr-080): Phase 0 防護欄建立 — AI 自主化飛輪啟動 - docs/superpowers/specs/2026-04-15-MASTER-ai-autonomous-flywheel-v2.md (1456 行，§0-§8 全填完：42-cell 戰術矩陣、7 Phase 計畫、7 ADR 摘要、 15 KPI、21 Feature Flags、10 風險場景) - docs/adr/ADR-080-ai-autonomy-flywheel-overview.md (7 Phase 結構 + 4 北極星 + 7 架構師 Review Gates + Phase 退出條件) - apps/api/src/core/feature_flags.py (AIOpsFeatureFlags: P1~P6 總開關全 False + 15 細粒度子開關 is_phase_enabled() / is_sub_flag_enabled() + bool cast 安全) - apps/api/src/jobs/__init__.py + baseline_snapshot.py (Phase 0 基線快照 Job：MCP calls / Playbook confidence / general 比例 / learning loop rate / auto_repair — 寫入 aiops:baseline:latest) - apps/api/tests/test_feature_flags.py (21 tests — 全綠) - docs/HARD_RULES.md → v1.9 (新增 Phase 退出條件鐵律：禁止未過 exit conditions 宣告 Phase 完成) - CLAUDE.md 防失憶閘門 1：強制讀 MASTER §0 Session Resume Protocol Gate 0 Pass — 21/21 tests green Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-15 12:44:53 +08:00

1 2 3

108 Commits