awoooi

Author	SHA1	Message	Date
OG T	fb1bbd0e20	feat(Phase 3): 學習閉環補完 — Root cause 3 + 診斷 feedback + 知識遺忘 + Fine-tune 管線 Some checks failed CD Pipeline / build-and-deploy (push) Has been cancelled Details - approval_execution.py: _run_post_execution_verify() 補接 record_verification_result() Root cause 3 終結：環境驗證結果（success/degraded/failed/timeout）不再孤立 - learning_service.py: 新增 record_verification_result() — 驗證結果 → Redis + Playbook EWMA - learning_service.py: 新增 record_diagnosis_outcome() — 誤診負向訊號回寫（L3×D4） - jobs/knowledge_decay_job.py: 新建 30d 知識遺忘 Job（未引用 draft/review → archived） - services/finetune_exporter.py: 新建每週 JSONL 匯出（EvidenceSnapshot × AgentSession） - main.py: 掛載 knowledge_decay_loop（24h）+ finetune_export_loop（7d） - MASTER §8: Phase 3 核心改造項全部落地記錄 Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-15 20:57:43 +08:00
OG T	7da64eaad2	feat(Phase 3): 學習閉環重建 — 三根因修復 + 2x EWMA + Evolver Agent Some checks failed CD Pipeline / build-and-deploy (push) Failing after 19m7s Details Type Sync Check / check-type-sync (push) Failing after 1m18s Details ADR-083 Phase 3 學習閉環重建：三根因修復 - approval_execution.py: fire-and-forget create_task → await asyncio.wait_for(timeout=30) × 2 （成功路徑 L265 + 失敗路徑 L353，超時記錄 learning_trigger_timeout metric，主流程不 crash） - models/approval.py: ApprovalRequestBase 新增 matched_playbook_id 欄位 - decision_manager.py: _auto_execute 建立 ApprovalRequest 時填充 matched_playbook_id - learning_service.py: 雙路徑查找 _matched_pb_id（matched_playbook_id + metadata fallback） 2x EWMA 負向強化 - models/playbook.py: 新增 trust_score: float = 0.3（EWMA 動態信任度欄位） - repositories/playbook_repository.py: update_stats 加 EWMA 成功: trust = 0.9 × old + 0.1 × 1.0 失敗: trust = 0.8 × old + 0.2 × 0.0（衰減速度 2x） trust < 0.1 → log warning，等 Evolver 封存 Evolver Agent（新建） - services/playbook_evolver.py: 三功能全靜態規則 1. 低信任封存: trust < 0.1 → DEPRECATED 2. 休眠封存: 30d 未使用 AND trust < 0.5 → DEPRECATED 3. 相似合併: 症狀 Jaccard > 0.9 → 保留高 trust，封存低 trust AIOPS_P3_EVOLVER_ENABLED=False 預設關閉文件 - ADR-083 學習閉環重建 - MASTER §8 Phase 3 完工記錄 AIOPS_P3_ENABLED=False（預設），骨架就位等統帥批准開啟 Co-Authored-By: Claude Sonnet 4.6（亞太）<noreply@anthropic.com>	2026-04-15 14:01:37 +08:00
OG T	f1cbf6db7d	feat(adr-081): Phase 1 感官縱深 — 8D 情報蒐集 + 執行後驗證成品： - IncidentEvidence DB model（8D 感官 + pre/post 執行狀態） - EvidenceSnapshot dataclass（build_summary → LLM 上下文） - SanitizationService（Prompt Injection 0-tolerance，12 pattern） - MCPToolRegistry（動態工具登記，suggest_tools 不寫死告警類型） - PreDecisionInvestigator（8D 並行感官，P99 < 8s，Redis 30s 快取） - PostExecutionVerifier（warmup 10s → 後狀態評估 success/degraded/failed） - decision_manager + approval_execution 接線（feature flag 守衛） Gate 1 修復：D4/D5/D7/D8 補 sanitize_dict_values；移除裸 "error" failure signal 防 error_rate key 誤判；evidence_snapshot rowcount 零行警告。測試：130 passed（+111 新增） Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-15 13:08:38 +08:00
OG T	72dd0c5875	fix: Telegram 簽核 gate + 執行結果 reply — 打通人工審核閉環 All checks were successful CD Pipeline / build-and-deploy (push) Successful in 14m7s Details 3 處修復（統帥盤查發現）: 1. telegram_gateway.py:4890 — gate 從 execution_triggered 改 approval.status==APPROVED - 原 gate 靠樂觀鎖旗標，race 時失效（REST+Telegram 同時簽核） - 與 REST API approvals.py:360 路徑對齊 - 加 Redis lock exec:{approval_id} 60s TTL 防重入 2. telegram_gateway.py:4772 — 拿掉「👀 等待執行」誤導文案 - 批准後一律顯示「⚡ 執行中...」，實際結果由 #3 reply 補上 3. approval_execution.py — 新增 _push_execution_result_to_alert() - 成功/失敗兩處 fire-and-forget 呼叫 - requested_by=="auto_approve" skip（避免與 _push_auto_repair_result 衝突） - Redis tg_msg:{incident_id} 查原告警 message_id → reply_to - 找不到 message_id 靜默不發，不影響執行主流程防破壞性檢查： - ✅ 自動執行路徑不受影響（skip via requested_by） - ✅ Reject 路徑完全不動 - ✅ Redis lock 防重入 - ✅ 132 回歸測試全過 Co-Authored-By: Claude Haiku 4.5 <noreply@anthropic.com>	2026-04-14 19:03:38 +08:00
OG T	dedd7c2c17	feat(BP-1): KM 萃取品質精修 — 區分自動/人工 + 富化告警元資料 Some checks failed CD Pipeline / build-and-deploy (push) Has been cancelled Details _write_execution_result_to_km() 強化： - 依 approval.requested_by 區分 [自動修復]/[人工修復] - 從關聯 Incident 提取 alertname / alert_category / affected_services - Category 從硬編 "execution_result" 改為真實 alert_category - Tags: auto_executed/human_approved + success/failure + alert_category - Title 含 alertname，提升 RAG 檢索精準度 - created_by 依模式標記 auto_execute / approval_execution 驗證（2026-04-14 DB 查詢）： - 現有 KM 確實有寫入（approval_execution 建立者） - 但標題全是「[執行記錄] ❌ kubectl rollout restart deployment/xxx」 - Category 硬編 execution_result，tags 只有 execution/execution_failed - 本次改造後 KM 將具備完整上下文供下次 RAG 檢索建立: 2026-04-14 台北時間 Claude Sonnet 4.6（MASTER 藍圖 BP-1 B.1 精修） Co-Authored-By: Claude Haiku 4.5 <noreply@anthropic.com>	2026-04-14 15:48:02 +08:00
OG T	aae7c12645	feat(adr-076): Task 3.3 — SSH 修復 KM 萃取（補齊飛輪雙手） Some checks failed CD Pipeline / build-and-deploy (push) Has been cancelled Details 動機: SSH MCP 修復（docker restart/systemctl）成功後，KM 無法學習因為 _extract_repair_steps 只處理 kubectl，SSH 路徑完全漏失。 approval_execution.py: - _trigger_playbook_extraction: 成功執行後將 approval.action 寫入 incident.outcome.learning_notes，供 Playbook 萃取器讀取 playbook_service.py: - _parse_ssh_command(): 新增模組函式，解析 ssh [user@]host 'cmd' 格式 - _extract_repair_steps(): 步驟 2 擴充 SSH 路徑分支 ssh ... → ActionType.SSH_COMMAND + host 記錄 kubectl ... → ActionType.KUBECTL（保留原有邏輯） - _generate_name(): SSH 修復自動加 [SSH] 前綴 - _extract_tags(): SSH 修復自動加 ssh + host_layer 標籤 test_playbook_ssh_extraction.py: 18 tests（100% 通過）飛輪雙手對齊: kubectl 路徑: decision_chain.reasoning_steps → KM ✅ (既有) SSH 路徑: approval.action → learning_notes → KM ✅ (Task 3.3 新增) 測試: 794 passed, 26 skipped, 0 failed Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-14 15:19:54 +08:00
OG T	684d6cfb43	feat(adr-076): 戰術 B 四大 Task 全部完成 — 告警聚合+重試+自動報告 All checks were successful CD Pipeline / build-and-deploy (push) Successful in 17m34s Details Task 2: AlertGroupingService — Redis 5分鐘滑動視窗，防告警風暴 - apps/api/src/services/alert_grouping_service.py (新增) - webhooks.py 整合：指紋生成後/LLM前短路子告警 - Threshold=3，Graceful Degradation，16 tests Task 3: approval_execution.py 執行失敗重試 - MAX_RETRY=2, RETRY_DELAY_SECONDS=30 - _is_transient_error() 瞬態/永久分類，永久錯誤不重試 - Timeline 記錄重試進度，成功後標注重試次數，29 tests Task 4: report_generation_service.py 自動報告 - 日度巡檢報告：每日 08:00 台北時間，Telegram SRE 群組推送 - Postmortem：Incident resolved + duration > 10 分鐘自動觸發 - main.py lifespan 掛載 run_daily_report_loop()，30 tests 測試: 600 → 675 通過 (+75)，0 failed Co-Authored-By: Claude Haiku 4.5 <noreply@anthropic.com>	2026-04-14 14:39:14 +08:00
OG T	f0e14136ca	fix(flywheel): 修補飛輪四個核心斷點，讓完整流程真正串接起來 Some checks failed CD Pipeline / build-and-deploy (push) Has been cancelled Details 1. incident_service.py: save_to_episodic_memory() 補寫 alertname/notification_type/alert_category → 之前這3欄在DB永遠NULL，LLM無alertname，Playbook匹配全失敗 2. telegram_gateway.py: Telegram批准後呼叫 execute_approved_action() → 之前sign_approval()只改DB狀態，380筆批准0筆真正執行kubectl指令 3. approval_execution.py: 執行成功後呼叫 resolve_incident() webhooks.py: auto-repair成功後呼叫 resolve_incident() → 之前Incident永遠停在INVESTIGATING，KM轉換永遠不觸發，Playbook=0 4. webhooks.py: TYPE-1告警短路，不進LLM → 之前Heartbeat/Backup/Info仍燒LLM token，產生垃圾修復建議 Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-12 17:01:10 +08:00
OG T	b7ea362efc	fix(api): Review #2 技術債清理 — I1/S1/S2/S3 全數修正 All checks were successful CD Pipeline / build-and-deploy (push) Successful in 12m13s Details I1: error_type 欄位補全 - AnomalyCounter.derive_key_from_incident() 新增從 signal.labels 提取 reason/error_type，確保四欄位完整 S1: 三處 signature 建構邏輯統一 - auto_repair_service._derive_anomaly_key() → 委託 derive_key_from_incident() - approval_execution._get_anomaly_key_from_approval() → 同上 - incident_service.resolve_incident() B4 → 同上 - 消除 3 處重複的 signature 建構程式碼 S2: Redis Pipeline 批次查詢 - get_all_disposition_stats() 從 N+1 hgetall 改為 2 次 Pipeline - Pipeline 1: 批次 hgetall 所有 disposition key - Pipeline 2: 批次 hget metadata (alert_name) - 效能從 O(2N) Redis round-trip 降至 O(2) S3: auto_repair.py get_incident AttributeError 修復 - get_incident() → get_from_working_memory() (pre-existing bug) Co-Authored-By: Claude Haiku 4.5 <noreply@anthropic.com>	2026-04-07 13:13:42 +08:00
OG T	561bcb638b	fix(api): Sprint 4 首席架構師 Review P0 修正 — hash 統一 + 積木化合規 P0-1: anomaly_key hash 推導統一 - B1: 新增 _derive_anomaly_key() 使用 AnomalyCounter.hash_signature() 取代 symptoms.compute_hash() - B3/B4: namespace 改用 signal.labels.get("namespace", "") 修正 getattr(signal, "namespace", "") 永遠回傳空字串 P0-2: Router 層積木化合規 - C1/C2: 封裝 get_all_disposition_stats() 到 AnomalyCounter - Router 不再直接存取 counter.redis - stats.py 移除未使用的 days/stats 參數 P1: get_frequency() 填充 disposition 欄位 - 與 _record_anomaly_impl() 一致，回傳完整處置統計首席架構師評分: 82/100 → P0 全數修正 Co-Authored-By: Claude Haiku 4.5 <noreply@anthropic.com>	2026-04-07 12:53:12 +08:00
OG T	9253281d46	feat(api): Sprint 4 Phase A+B — 告警處置統計資料層+寫入層 Phase A: 資料層 - A1: IncidentFrequencyStats 新增 4 欄位 (human_approved/manual_resolved/cold_start_trust/total_resolution) - A2: AnomalyCounter.record_disposition() — Redis HINCRBY 原子遞增 - A3: get_disposition_stats() — HGETALL 回傳處置分佈 - AnomalyFrequency dataclass 擴充 + to_dict() 同步 - _record_anomaly_impl() 整合 disposition stats Phase B: 寫入層觸發點接線 - B1: 自動修復成功 → record_disposition("auto_repair") - B2: 冷啟動信任成功 → record_disposition("cold_start_trust") - AutoRepairDecision 新增 is_cold_start flag - execute_auto_repair() 接收並區分處置類型 - B3: 人工批准執行成功 → record_disposition("human_approved") - 新增 _get_anomaly_key_from_approval() helper - B4: 手動處理推斷 → resolve_incident() 排除法判定 - 若 resolved 且無 auto/human/cold_start 紀錄 → manual_resolved 安全設計: 所有 disposition 記錄走 try/except，失敗不阻塞主流程 Co-Authored-By: Claude Haiku 4.5 <noreply@anthropic.com>	2026-04-07 11:54:46 +08:00
OG T	658337ec18	fix(phase26): 打通 Incident→DB→KM 完整鏈路 + namespace 修正 Some checks failed CD Pipeline / build-and-deploy (push) Failing after 1m29s Details Type Sync Check / check-type-sync (push) Failing after 52s Details 問題根因: 1. create_incident_for_approval 只存 Redis，不存 PostgreSQL → TTL 7天後消失，Playbook 萃取永遠找不到 Incident 2. ApprovalRecord 無 incident_id 欄位 → _trigger_playbook_extraction 靠 regex 掃中文文字找 INC-，永遠失敗 3. operation_parser namespace fallback 是 "default" → 所有 deployment 在 awoooi-prod，203 次執行全失敗修復: - Incident 同時寫入 Redis + PostgreSQL (save_to_episodic_memory) - ApprovalRecord 加入 incident_id 欄位 (model + ORM + migration) - alertmanager_webhook 建立 Approval 後回寫 incident_id - _trigger_playbook_extraction 直接用 approval.incident_id - operation_parser DEFAULT_NAMESPACE = "awoooi-prod" Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-06 11:46:05 +08:00
OG T	df3ef9006c	fix(auto-repair): 首席架構師 Review — 4 Critical/Important 修復 All checks were successful CD Pipeline / build-and-deploy (push) Successful in 7m2s Details Critical #1: KM write task 移出 try/except - _trigger_learning 的 KM 寫入原在 try 內，learning 失敗時不寫 KM - 移至 except 後確保成功/失敗都寫入 - 移除冗餘 import asyncio（已在頂層 import） - Minor: approval.incident_id or None 防空字串 Important #2: migration 加 PRIMARY KEY - playbook_id 從 UNIQUE 升為 PRIMARY KEY - prod DB 已執行 ALTER TABLE ADD PRIMARY KEY Important #3: s.sequence→s.step_number, s.description→s.command - embed_playbook() 使用不存在的欄位名，RAG 向量索引靜默失敗 - RepairStep 正確欄位: step_number, command Important #1: PlaybookService._get_rag_service 不再 Service 層快取 - 改為每次呼叫工廠 get_playbook_rag_service() - 避免舊實例繞過工廠的 is_closed 重建邏輯冷啟動修復 (首席架構師建議B+C): - _trigger_playbook_extraction 執行成功後自動設定 execution_success=True, effectiveness_score=4, status=RESOLVED - skip 路徑 logger.debug → logger.info 提升可觀測性 Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-04 12:02:03 +08:00
OG T	72d7536ead	feat(auto-repair): 完整自動修復閉環 + KM 沉澱串接 Some checks failed CD Pipeline / build-and-deploy (push) Has been cancelled Details 1. DB Migration: playbooks 資料表 (phase7_playbooks_table.sql) - 這是自動修復無法啟動的根本原因 — table 從未建立 - 5 個索引: status/tags/alert_names/source_incidents/created_at - 已在 prod DB 執行 2. playbook_service: 萃取後自動沉澱 KM - extract_from_incident() 完成後 fire-and-forget _write_to_km() - 內容含症狀模式、修復步驟、信心度、來源 Incident 3. approval_execution: 執行結果沉澱 KM - _trigger_learning() 後 fire-and-forget _write_execution_result_to_km() - 成功/失敗記錄都寫入，category=execution_result 完整閉環: 告警 → AI分析 → 查Playbook → 決策 → 執行 → 結果寫KM ↓ Incident解決 → KM(knowledge_extractor) → Playbook萃取 → KM Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-04-04 11:54:15 +08:00
OG T	3256142d29	feat(api): ADR-030 Phase 5 持續學習迴圈從執行結果中學習，持續優化決策： 1. learning_service.py - 持續學習服務 - process_execution_result(): 處理執行結果 - process_human_feedback(): 處理人工反饋 - 自動調整信任度 (成功+1 / 失敗歸零) - 更新 Playbook 統計 - 成功案例自動萃取 Playbook 2. approval_execution.py - 整合學習觸發 - 執行成功後觸發學習 - 執行失敗後觸發學習 - _trigger_learning(): 非阻塞呼叫學習服務學習流程: 執行完成 → LearningService.process_execution_result() ├─ 成功: TrustEngine +1 分 + Playbook 統計更新 └─ 失敗: TrustEngine 歸零 + 記錄失敗原因 Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>	2026-03-26 22:19:41 +08:00
OG T	2e75a20150	feat(api): Phase 7.5-7.6 Playbook 整合決策與自動萃取 Phase 7.5: DecisionManager 三軌決策 - 新增 Playbook 優先匹配 (similarity >= 85%) - 三軌決策順序: Playbook > LLM > Expert System - 整合 PlaybookService 推薦引擎 Phase 7.6: 自動萃取機制 - approval_execution.py 成功執行後觸發萃取 - 條件: RESOLVED/CLOSED + effectiveness >= 4 - 滿分 (5) 自動核准 Playbook 測試: - 13 個 Playbook 單元測試全部通過 - 修復 Incident 模型欄位對應 (reasoning_steps) Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>	2026-03-26 11:09:25 +08:00
OG T	716b94f60a	feat(api): Phase 16 R4.2 抽取 ApprovalExecutionService Strangler Fig Pattern: 從 approvals.py 抽取執行編排邏輯新增: - src/services/approval_execution.py (271 行) - ApprovalExecutionService class - 整合 OperationParser + Executor + Timeline + Notifications 瘦身成果: - approvals.py: 1097 → 787 行 (-310 行) - R4 總計: 移除 310 行內嵌業務邏輯 CI/CD 修復: - 移除危險的 rm -f ~/actions-runner-* 指令 - 改用 checkout clean: true + workspace 內清理 Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>	2026-03-25 22:04:15 +08:00

17 Commits