Commit Graph

172 Commits

Author SHA1 Message Date
OG T
6de1c0ff3b fix(ai): 修復 Pydantic validation error + tuple unpacking
1. kubectl_command 允許 None (LLM 可能返回 null)
2. 加入 field_validator 將 null 轉換為空字串
3. generate_incident_proposal 完整解包 6 值 (含 ai_tokens/ai_cost)

2026-03-29 ogt: Gemini API validation 修復

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-29 00:46:02 +08:00
OG T
fb643eb645 feat(ai): ADR-036 Nemotron E2E 驗證腳本
新增 verify_nemotron_e2e.py:
- 測試 NVIDIA API 連線
- 測試 AIRouter 整合
- 測試高風險 Tool 檢測
- 測試繁體中文 Tool Calling

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-29 00:11:40 +08:00
OG T
7c905c4bf3 fix(ai): 修復 generate_incident_proposal tuple unpacking 錯誤
- _call_with_cache 返回 6 值 (含 ai_tokens/ai_cost)
- generate_incident_proposal 解包只取 4 值導致 ValueError
- 修復: 完整解包 6 值並傳遞 ai_tokens/ai_cost 到 proposal_dict

2026-03-29 ogt: Token/Cost 追蹤補遺

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-29 00:03:22 +08:00
OG T
b77e151387 feat(ai): ADR-036 NVIDIA Nemotron Tool Calling 整合
Phase 20 - 提升 Tool Calling 精準度 50% → 83.3%

新增:
- src/models/nvidia.py: Pydantic Schema
- src/services/nvidia_provider.py: NvidiaProvider 類別
- tests/test_nvidia_provider.py: 15 項單元測試 (全部通過)

修改:
- ai_router.py: AIProvider.NVIDIA + route_tool_calling()
- ai_rate_limiter.py: NVIDIA 限制 (5 RPM, 100/day)
- models.json: NVIDIA 配置
- cd.yaml: Secrets 注入 NVIDIA_API_KEY

路由策略:
- Tool Calling: Nemotron → Gemini → Claude
- 一般對話: Ollama → Gemini → Claude (不變)

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-29 00:00:08 +08:00
OG T
6ac0f8c0e5 chore: force API rebuild (runner temp file fix)
Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-28 23:47:18 +08:00
OG T
ba521fa531 fix(ai): 更新 Gemini 模型名稱 1.5-flash → 2.0-flash (2026-03-28 ogt)
根本原因: gemini-1.5-flash 已停用,API 返回 404
解決方案: 更新到 gemini-2.0-flash

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-28 23:23:52 +08:00
OG T
c76a10ad6e feat(ai): $5 USD 成本上限 + 自動切換 Ollama (2026-03-29 ogt)
統帥要求:
1. 累積成本超過 $5 USD → 自動停用 Gemini,切換回 Ollama
2. 發送 Telegram 告警通知統帥
3. $4 USD 時發送警告

實作:
- ai_rate_limiter.py: 新增 COST_LIMITS, record_cost(), reset_cost()
- openclaw.py: 每次成功呼叫後記錄成本
- 成本存入 Redis (不過期,手動重置)
- 重置指令: redis-cli DEL ai_rate:total_cost:gemini

API 端點: GET /api/v1/health/ai-usage
- 顯示 total_cost_usd.current/limit/remaining
- 顯示 cost_exceeded: true/false

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-28 22:34:51 +08:00
OG T
d469a239af fix(ai): 移除 confidence 預設值,強制 LLM 真實計算
變更:
1. models/ai.py: confidence 改為 REQUIRED (移除 default=0.8)
2. openclaw.py: 如果 LLM 沒輸出 confidence,設為 0.5 + COLLAB

根本原因:
- 原本 Pydantic default=0.8 導致信心分數永遠是 80%
- 現在強制 LLM 必須計算真實信心分數

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-28 22:21:29 +08:00
OG T
984d31de0c feat(ai): Gemini 優先 + Token/Cost 追蹤 (2026-03-29 ogt)
變更:
1. ConfigMap: Gemini 優先 ["gemini","ollama","claude"]
2. openclaw.py: 捕獲 Gemini usageMetadata (tokens/cost)
3. webhooks.py: 傳遞 ai_tokens/ai_cost 到 Telegram
4. telegram_gateway.py: 顯示 💰 Tokens: X / $Y.YYYY

Gemini 1.5 Flash 定價:
- Input: $0.075/1M tokens
- Output: $0.30/1M tokens

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-28 22:18:24 +08:00
OG T
59c9eff83a fix(api): 修復 10 個 Lint 錯誤 (imports 排序 + unused imports + set comprehension)
- F401: 移除未使用的 imports (TerminalSessionStatus, AutoApproveDecision, TerminalSession)
- I001: 修正 import blocks 排序
- C401: set(generator) → {set comprehension}

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-28 18:51:52 +08:00
OG T
d206460751 feat(security): Phase 20 CSRF 防護實作
Phase 19 首席架構師審查指出: 核鑰 UX 安全性缺 CSRF 防護

後端:
- 新增 src/core/csrf.py (Double Submit Cookie 模式)
- 新增 src/api/v1/csrf.py (GET /api/v1/csrf/token)
- 新增 src/models/csrf.py (CSRFTokenResponse)
- 修改 approvals.py sign/reject/bulk 端點加入 CSRFToken 驗證

前端:
- 新增 hooks/useCSRF.ts (React Hook)
- 修改 approval.store.ts 整合 CSRF Token 參數

安全特性:
- 256-bit Token (secrets.token_hex)
- 時序安全比較 (secrets.compare_digest)
- SameSite=Strict Cookie
- 1 小時 Token 有效期

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-28 18:31:58 +08:00
OG T
7b9b0c490b feat(phase19): Omni-Terminal 100% 完成 + 首席架構師審查 47/50
## Phase 19 Omni-Terminal (Wave 0-6 全部完成)

### 核心功能
- SSE 狀態機 (7-State 設計,10/10 分)
- GenUI 動態渲染 (6 張卡片 + Zod Schema 驗證)
- 核鑰 UX (長按授權 + 風險分級)
- Terminal Telemetry (Sentry 整合)

### P0-P2 修復
- P0: Singleton → FastAPI Depends 依賴注入
- P1: Zod Schema 升級 (7 個驗證 Schema)
- P1: 錯誤分類碼聚合 (Sentry fingerprint)
- P2: Slow Query 監控 (5s 警告 / 10s 嚴重)

### 測試
- test_terminal_service.py: 54 項測試全通過
- 意圖分類: 42 個測試案例 (9 種 IntentType)

### 文檔
- ADR-031: SSE 架構實作紀錄
- ADR-032: GenUI 渲染實作紀錄
- Skills: v1.9 (後端 Terminal 章節)

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-28 18:04:12 +08:00
OG T
ecdcb6110e fix(api): 修復 Sentry Approval 創建參數 (P2)
ApprovalDBService.create_approval() 不接受 approval_id 參數
ID 由 Service 自動生成,返回後從 ApprovalRequest.id 取得

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-28 00:18:12 +08:00
OG T
e5ded3b3f2 feat(phase19): OmniTerminal + GenUI + Hybrid SSE 架構實作 (Wave 0-2)
Phase 19 OmniTerminal MVP 完成:
- Wave 0: Backend (Hybrid SSE POST→GET 架構)
- Wave 1: Frontend (OmniTerminal 狀態機 + GenUI Registry)
- Wave 2: UI 組件 (8 個 GenUI 動態卡片)

ADR 文檔:
- ADR-031: OmniTerminal SSE 架構
- ADR-032: GenUI 動態渲染框架
- ADR-033: K3s HA 架構設計

GenUI 組件:
- GenUIRenderer, K8sPodStatusCard, SentryErrorCard
- MetricsSummaryCard, IncidentTimelineCard
- TraceWaterfallCard, ApprovalCard, NuclearKeyButton

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-28 00:17:26 +08:00
OG T
a5ff57ddc3 fix(api): 修復 Sentry Approval 欄位對齊 ApprovalRequestBase
- ApprovalRequestCreate 使用正確欄位 (action, description, blast_radius...)
- BlastRadius 改用 Model 實例而非不存在的 enum
- 移除未使用的 DryRunCheck import
- 原始欄位移至 metadata

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-27 23:14:24 +08:00
OG T
74734f5b8a fix(api): 修復 SentryService.check_dedup Redis import
- get_redis_pool → get_redis (正確函數名稱)
- Phase 10.2.1 E2E 測試發現

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-27 23:03:31 +08:00
OG T
7456492482 fix(api): 註冊 Sentry Webhook Router (Phase 10.2.1)
- 新增 sentry_webhook_v1 import
- include_router 註冊 /api/v1/webhooks/sentry/* 路由
- 修復 Sentry Alert Rule → AWOOOI 連線

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-27 16:13:04 +08:00
OG T
2b069818af refactor(api): Sentry dedup 邏輯移至 Service 層 (leWOOOgo 模組化)
Phase 10.2.1 - 2026-03-27 台北時區
- 將 check_sentry_dedup() 從 Router 移至 SentryService.check_dedup()
- Router 層禁止直接存取 Redis (遵循 leWOOOgo 積木化原則)
- 保持 10 分鐘 TTL 去重窗口

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-27 15:04:53 +08:00
OG T
138ef0c2db fix(api): 修復 7 個 Lint 錯誤 (unused imports + zip strict + dict comprehension)
Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-27 14:42:47 +08:00
OG T
177563f513 fix(api): 告警收斂不重複發送 Telegram
問題: 相同 fingerprint 的告警收斂時,仍會重複發送 Telegram
修復: 收斂告警只更新 hit_count,跳過 Telegram 推送
影響: /alerts + /alertmanager 兩個端點

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-27 14:21:22 +08:00
OG T
7720551b8c fix(api): 修復 Telegram 訊息 INC-INC- 重複前綴
問題: TelegramMessage.format() 中的 incident_id 生成邏輯
當 approval_id 已是 "INC-xxx" 格式時仍添加 "INC-" 前綴

修復: 檢查 approval_id 是否已有 INC- 前綴,避免重複

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-27 10:28:18 +08:00
OG T
f1b037bb0c refactor(api): playbook_rag.py 模組化改造 (P1 違規修復)
修復 P1 違規:
- Line 29: Service 直接 import Redis → Repository Pattern
- Line 156: 自建 httpx.AsyncClient → DI 注入

變更:
- 新增 IEmbeddingCacheRepository Protocol (interfaces.py)
- 新增 EmbeddingCacheRepository 實作 (embedding_repository.py)
- PlaybookRAGService 改用 DI 注入 http_client + embedding_cache
- get_playbook_rag_service() 改為 async factory
- PlaybookService 改用 lazy initialization

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-27 10:07:30 +08:00
OG T
abc21c735e feat(api): P1 Telegram 按鈕優化 - 稍後/靜默
新增按鈕:
-  稍後 (snooze): 延遲 30 分鐘後再提醒
- 🔕 靜默 1h (silence): 同類資源告警靜默 1 小時

實作細節:
- telegram_gateway.py: 新增 _handle_snooze/_handle_silence
- decision_manager.py: 發送前檢查 silence 狀態
- Redis Key: telegram_snooze:{approval_id}, telegram_silence:{resource_name}
- Skill 03 v1.5 → v1.6

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-27 09:50:28 +08:00
OG T
79b526b472 fix(api): P0 統一 Stream Key 為 awoooi:signals
修復 Producer/Worker/Webhooks 使用不同 Stream Key 導致訊息無法消費

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-27 09:33:13 +08:00
OG T
e34b0f2e9a fix(api): Telegram 去重 + 修復 INC-INC-INC- 重複前綴
- 加入 Redis 去重機制 (10 分鐘 TTL)
- 修復 approval_id 重複添加 INC- 前綴

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-27 09:27:40 +08:00
OG T
d1409fc4c0 fix(api): 增加 LLM 超時到 120/180s (llama3.2:3b CPU 約 2-3 分鐘)
Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-27 09:23:35 +08:00
OG T
a3a02398c3 fix(api): 增加 LLM 分析超時 30/60s (Ollama CPU 模式)
Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-27 09:11:39 +08:00
OG T
855b7f5593 fix: 修復 Telegram 轟炸問題
問題: 765ee39 的修改導致 COMPLETED 狀態下 incident 未解決時
會建立新 decision,每次 poll 都觸發 Telegram 發送

修復: COMPLETED 狀態直接返回 existing_token,不建立新 decision

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-26 22:24:03 +08:00
OG T
3256142d29 feat(api): ADR-030 Phase 5 持續學習迴圈
從執行結果中學習,持續優化決策:

1. learning_service.py - 持續學習服務
   - process_execution_result(): 處理執行結果
   - process_human_feedback(): 處理人工反饋
   - 自動調整信任度 (成功+1 / 失敗歸零)
   - 更新 Playbook 統計
   - 成功案例自動萃取 Playbook

2. approval_execution.py - 整合學習觸發
   - 執行成功後觸發學習
   - 執行失敗後觸發學習
   - _trigger_learning(): 非阻塞呼叫學習服務

學習流程:
執行完成 → LearningService.process_execution_result()
  ├─ 成功: TrustEngine +1 分 + Playbook 統計更新
  └─ 失敗: TrustEngine 歸零 + 記錄失敗原因

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-26 22:19:41 +08:00
OG T
ce7f8a1b23 feat(api): ADR-030 Phase 4 自動執行機制
實作低風險操作自動執行策略:

1. auto_approve.py - 自動執行策略服務
   - AutoApprovePolicy: 評估是否可自動執行
   - 條件: LOW 風險 + 信任分數 >= 5 + Playbook 成功率 >= 95%
   - CRITICAL 永遠不自動執行
   - 完整審計追蹤

2. trust_engine.py - 新增 singleton
   - get_trust_manager(): 取得全域 TrustScoreManager

3. decision_manager.py - 整合自動執行 (Tier 3 紅區)
   - Step 5 加入 AutoApprovePolicy 判斷
   - 條件滿足時跳過 Telegram,直接執行
   - _auto_execute(): 自動執行邏輯
   - 失敗時 fallback 到人工審核

流程:
Incident → 分析 → AutoApprovePolicy 評估
  ├─ 可自動執行 → 直接執行 → 完成
  └─ 需人工審核 → Telegram 通知 → 等待批准

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-26 22:13:10 +08:00
OG T
17ee8838be revert: 還原 Telegram + CD 到正常狀態
還原檔案到 d071019 版本:
- decision_manager.py: 移除 Redis dedup 邏輯
- telegram_gateway.py: 還原 INC- 前綴邏輯
- cd.yaml: 移除 selector immutable 處理和 Token injection

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-26 22:10:52 +08:00
OG T
3c034526a5 feat(api): ADR-030 Phase 3 Playbook RAG 向量搜尋
實作 Playbook 語意搜尋能力:

1. playbook_rag.py - RAG 向量服務
   - Ollama nomic-embed-text 生成 embedding
   - Redis 儲存向量 (JSON 格式)
   - 餘弦相似度搜尋
   - 混合搜尋 (Vector 60% + Jaccard 40%)

2. playbook_service.py - 整合 RAG
   - extract_from_incident 後自動建立向量索引
   - get_recommendations 支援混合搜尋
   - RAG 失敗時 fallback 到純 Jaccard

功能:
- embed_text(): 文字向量化
- embed_playbook(): Playbook 向量化
- search_similar(): 向量相似度搜尋
- hybrid_search(): 混合搜尋

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-26 22:08:15 +08:00
OG T
60e9538889 feat(api): ADR-030 Phase 2 診斷資料收集強化
實作智能自動修復系統的資料收集層:

1. k8s_diagnostics.py - K8s 診斷服務
   - Pod Events/Logs/ResourceUsage 收集
   - CrashLoopBackOff/OOM/ImagePull 偵測
   - 非同步並行收集 + 錯誤容忍

2. diagnosis_aggregator.py - 診斷聚合器
   - 整合 K8s + SignOz + Expert Rules
   - DiagnosisContext 提供結構化 LLM Prompt
   - DiagnosisSignal 信號分析

3. decision_manager.py - 決策引擎整合
   - Step 2.5 加入診斷收集
   - 傳遞 diagnosis_context 給 LLM

4. openclaw.py - LLM Prompt 增強
   - 整合 K8s/SignOz 深度診斷上下文
   - 支援 diagnosis_signals 摘要

ADR-030 架構: 診斷先行,根因分析,非盲目重啟

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-26 21:55:50 +08:00
OG T
bb6151cf44 revert: 移除 Telegram Redis dedup 邏輯
原因: dedup 邏輯導致 Telegram 完全無法發送
保留: INC- 前綴修復 (approval_id = incident.incident_id)

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-26 21:53:39 +08:00
OG T
d148756b67 feat(api): LLM 整合 Expert System 診斷上下文
長期方案實作: Expert 診斷 + LLM 智能分析

變更:
1. decision_manager._dual_engine_analyze():
   - 測試資源跳過 LLM (省錢)
   - 傳遞 Expert 診斷上下文給 LLM
   - LLM 失敗時根據診斷調整回應

2. openclaw.generate_incident_proposal():
   - 新增 expert_context 參數
   - Prompt 包含 Expert 診斷結果
   - 引導 LLM 基於診斷做決策

流程:
Playbook → Expert診斷 → LLM(with context) → 智能建議

這是「先診斷根因,再決定行動」的正確實作

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-26 21:41:26 +08:00
OG T
2ef7daccde feat(api): Expert System 智能診斷重構 - 根因優先
問題: 原本的 Expert System 只會建議「重啟」,不診斷根因

重構:
1. 分層診斷:
   - 層 1: 測試資源過濾 (test/demo/tmp 自動忽略)
   - 層 2: 規則匹配 (更精確的 pattern)
   - 層 3: 診斷指令 (提供 kubectl 診斷命令)

2. 根因優先:
   - OOM → 檢查記憶體用量,非重啟
   - CrashLoop → 查看崩潰日誌,非重啟
   - ImagePull → 檢查映像配置,非重啟
   - Default → 人工診斷,非盲目重啟

3. 人工標記:
   - 未知問題標記 human_review_required
   - 降低 confidence (0.5)

這才是正確的自動化修復:先診斷根因,再決定行動

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-26 21:35:20 +08:00
OG T
801b08a4b7 fix(api): AI_FALLBACK_ORDER 無法正確解析 JSON 格式
根因: ConfigMap 用 JSON '["gemini","ollama","claude"]'
但 validator 用 split(",") 解析,導致無法匹配任何 provider
結果永遠用 default ["ollama","gemini","claude"]

影響: /api/v1/incidents 超時 (Ollama CPU 推理慢)

修復: 新增 JSON 格式支援,優先嘗試 json.loads()

這是根因修復,不是重啟!

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-26 20:10:56 +08:00
OG T
fb03430469 feat(api): ADR-027 Phase 2 - 簽核/拒絕後自動同步 Incident 狀態
Router 整合點:
- POST /approvals/{id}/sign → on_approval_status_change("approved")
- POST /approvals/{id}/reject → on_approval_status_change("rejected")
- POST /approvals/bulk-approve → 批次同步

變更:
- 移除舊的 resolve_incident_after_approval() 調用
- 改用 IncidentApprovalService.on_approval_status_change()
- 同步失敗不阻斷主流程 (容錯設計)

ADR-027 進度: Phase 1-2  完成

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-26 19:44:59 +08:00
OG T
139ddc3f7b fix(telegram): 修復 INC-INC- 重複前綴 (telegram_gateway.py)
問題: approval_id 已有 INC- 前綴時,又加了一次
修復: 檢查是否已有前綴再決定是否添加

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-26 19:42:18 +08:00
OG T
5f2e5c9763 fix(api): Langfuse v4.x API 相容性修復
Langfuse SDK v4.0.1 API 變更:
- 移除 client.trace() 方法
- 改用 create_trace_id() + OTEL 整合

修復:
- __enter__: 檢查 trace() 方法存在再使用,否則用 create_trace_id()
- generation/span/score: 加入 hasattr 檢查,v4 改用 debug log

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-26 19:34:37 +08:00
OG T
df04254b57 fix(lint): 修復 import 排序與未使用 import
- __init__.py: 按字母順序排列 imports
- incident_approval_service.py: 移除未使用 UUID, ApprovalRequest, Incident, IncidentStatus

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-26 19:25:52 +08:00
OG T
35aa690bf1 fix(decision_manager): 修復 Telegram 重複發送問題
問題:
- Phase 6.5 (765ee39) 修改導致每次 poll 都建立新 decision
- 觸發 Telegram 轟炸 (INC-INC-INC- prefix bug)

修復:
- 移除 INC- 重複前綴 (line 83)
- 加入 Redis 去重機制 (10 分鐘 TTL)

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-26 19:21:36 +08:00
OG T
d071019cf6 fix(api): 新增 langfuse 依賴 (Phase 15.1 LLMOps)
修復 'No module named langfuse' 錯誤

依賴: langfuse>=2.0.0
位置: 192.168.0.110:3100 (Self-Hosted)

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-26 19:13:03 +08:00
OG T
dd42e6b75b chore: services export + meetings 文檔格式化
- services/__init__.py: 導出 IncidentApprovalService (ADR-027)
- meetings docs: 格式化更新

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-26 19:10:48 +08:00
OG T
00e2c94a8e ci: API 分層檢查 + LLM 測試移至 Nightly
CI 強化:
- 新增 API Layer Check (#96): services/repositories/models 分層規則
- LLM 測試移至 nightly-llm.yaml (CPU 推理 ~300s/測試)

分層規則:
- services 禁止引用 api/routers
- repositories 禁止引用 services
- models 禁止引用業務層

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-26 19:10:30 +08:00
OG T
a9f8ad56c1 chore: 未提交變更整理 (API core + docs + scripts)
API 核心:
- constants.py: 系統常量定義
- unit_of_work.py: Unit of Work 模式
- incident_approval_service.py: Incident-Approval 同步服務

文檔更新:
- LOGBOOK.md: 進度更新
- AWOOOI_AGENTIC_WORKSPACE_ROADMAP.md: 路線圖
- 2026-03-26_llm_testing_evaluation.md: LLM 測試評估
- phase5_telemetry_architecture.md: 遙測架構
- SECRETS_REFERENCE.md: 密鑰參考

配置/腳本:
- Skill 02 v1.x: leWOOOgo 後端更新
- .dependency-cruiser.cjs: 依賴規則
- demo-multisig-flow.sh: 演示腳本

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-26 19:10:12 +08:00
OG T
a3a50fa807 fix(api): 活躍事件 500 錯誤修復 (timezone 比較)
根因: incidents.sort() 比較 timezone-aware 與 naive datetime
錯誤: can't compare offset-naive and offset-aware datetimes

修復: safe_created_at() 統一轉換為 timestamp

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-26 18:48:34 +08:00
OG T
f1117a3e79 chore: trigger CD build for RAGProvider
Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-26 18:44:30 +08:00
OG T
539f14bcd5 feat(api): Phase 13.2 #84 RAG Provider + Gemini 優先切換
1. 新增 RAGProvider MCP Tool Provider
   - search_runbook: 語義搜尋維運手冊
   - index_documents: 索引文檔
   - get_index_stats: 取得索引統計

2. 更新 AI_FALLBACK_ORDER 為 Gemini 優先
   - 臨時措施:Ollama CPU 推論緩慢導致 mock_fallback
   - 預計 2026-03-27 切回 Ollama

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-26 18:21:24 +08:00
OG T
30153496d1 fix(api): 修復全部 lint 錯誤 (ruff --fix)
- Import sorting (I001)
- Unused imports (F401)
- f-string without placeholders (F541)
- Loop variable unused (B007)
- zip() strict parameter (B905)
- Exception chaining (B904)
- collections.abc imports (UP035)

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-03-26 16:06:20 +08:00