ewoooc

Author	SHA1	Message	Date
OoO	4afcf3376b	fix(observability): 統一標題字型並卡片化商業建議 Some checks failed CD Pipeline / deploy (push) Has been cancelled Details	2026-05-05 14:09:41 +08:00
OG T	c7242971e3	fix(aiops): align incidents schema with autoheal model Some checks failed CD Pipeline / deploy (push) Has been cancelled Details	2026-05-05 14:08:19 +08:00
OoO	67b93a8b50	fix(observability): 統一觀測台 UI 設計系統 Some checks failed CD Pipeline / deploy (push) Has been cancelled Details	2026-05-05 14:05:45 +08:00
OoO	c38f22e67a	fix(observability): 修復戰情頁安全降級與樣式掛載 Some checks failed CD Pipeline / deploy (push) Has been cancelled Details	2026-05-05 14:02:29 +08:00
OoO	505cbe20c7	fix(ui): 恢復側欄暖色導覽規範 Some checks failed CD Pipeline / deploy (push) Has been cancelled Details	2026-05-05 13:57:41 +08:00
OoO	6f8fdc14ba	fix(observability): 提升側欄子選單可讀性 Some checks failed CD Pipeline / deploy (push) Has been cancelled Details	2026-05-05 13:56:26 +08:00
OoO	9b908ca426	fix(observability): 套用商業戰情頁觀測台樣式 Some checks failed CD Pipeline / deploy (push) Has been cancelled Details	2026-05-05 13:53:40 +08:00
OG T	f6a2a05e3f	fix(aiops): treat openclaw strategy actions as advisory Some checks failed CD Pipeline / deploy (push) Has been cancelled Details	2026-05-05 13:49:36 +08:00
OoO	c57b8f40ee	feat(observability): 收尾 Agent 與商業戰情頁 All checks were successful CD Pipeline / deploy (push) Successful in 7m39s Details	2026-05-05 13:36:31 +08:00
OoO	054685826a	feat(observability): 重塑 AI 觀測台戰情室 UI Some checks failed CD Pipeline / deploy (push) Has been cancelled Details	2026-05-05 13:17:42 +08:00
OoO	2bb2e16442	feat(p56): deploy_doctor 擴充 — Observability + CD Pipeline 兩階段檢查 5 階段 → 7 階段： [3/7] Ollama 主機（從 3 → 5 機） + 192.168.0.110:11435 (P53 K8s Nginx Proxy GCP-A) + 192.168.0.110:11436 (P53 K8s Nginx Proxy GCP-B) [6/7] Observability 11 endpoint (新) 全 prod smoke：mo.wooo.work/observability/* + api/health_indicator SPA shell fingerprint 偵測（size=7480 / etag e167a58a... = FAIL） 302/308/401/403 (auth redirect) 視為 OK = login_required 正常工作 PROD_BASE_URL env 可覆寫測 staging [7/7] CD Pipeline (新) Gitea API 撈最近 3 個 run，狀態映射 OK/WARN/FAIL 110 不可達 → 自動 WARN（不阻 deploy doctor exit code） DB migrations 表清單 + 029 ollama_host_history / 030 ppt_audit_history_db。本機跑實證：11 endpoint 全綠，Gitea 110 down 正確 WARN。	2026-05-05 12:27:51 +08:00
OoO	326285d8b9	test(p55): 觀測台 mutation endpoint logged-in success path 補測 (23/23 PASS) P53 之前 mutation endpoint 只測 anon block (302)，logged-in 成功路徑零覆蓋： - /playbooks/toggle/<id>: 翻 is_active 邏輯 - /budget/force_throttle: cost_throttle.evaluate() 呼叫 - /ai_calls/trigger_code_review: code_review_pipeline 觸發 - /host_health/trigger_autoheal: autoheal playbook 觸發新增 5 cases: - test_playbook_toggle_404_on_missing: fetchone()=None 必回 404 - test_playbook_toggle_flips_active_flag: False→True 翻轉 + 中文 message - test_budget_force_throttle_invokes_evaluate: monkeypatch 假 throttle service - test_ai_calls_trigger_code_review_returns_json: 至少回 JSON 不爆 - test_host_health_trigger_autoheal_returns_json: 至少回 JSON 不爆設計重點：對未來 service 重構容忍（status code 收 200/400/500/503）但堅持「JSON response shape」契約 — 防 HTML error page 漏出。	2026-05-05 12:17:54 +08:00
OoO	df2311d4f0	feat(p55): 3 個圓餅圖補齊 — promotion_review/ppt_audit/budget All checks were successful CD Pipeline / deploy (push) Successful in 7m39s Details S-1: promotion_review 蒸餾池 30d doughnut - 取代原 col-md-2 卡片網格 - 8 種狀態各自分色： pending(灰) / awaiting_review(黃) / approved(綠) / rejected_quality(紅) / rejected_hallucination(深紅) / rejected_duplicate(橘) / rejected_human(暗紅) / expired(灰) - 左圓餅 + 右表格雙視角 S-2: ppt_audit 30d 結果 doughnut - 取代部分 col-md-2 卡片佈局 - 通過(綠)/失敗(黃)/錯誤(紅)/跳過(灰) 圓餅 - 6 個 KPI 卡併入右側 col-6 grid（總筆數/通過率/通過/issue/失敗/錯誤） - 統一視覺語言：「圖+表」雙視角 S-3: budget 當月各 provider 成本 doughnut - 新加 query：ai_calls.cost_usd GROUP BY provider 月初至今 - 8 個 provider 分色（本地 Ollama 綠系 vs 付費 LLM 橘紫系） - 左圓餅 + 右表格（供應商/成本/佔比）+ 總計列 chart.js 視覺化從 7 個 → 10 個： - hourly trend line - 30d cost stacked bar - 三主機 sparkline × 3 - RAG feedback doughnut - KPI sparkline × 3 (calls/cost/errors) - verdict doughnut - heal 7d trend - promotion_review status doughnut（新） - ppt_audit pass/fail doughnut（新） - provider cost doughnut（新） Phase 38→55 累計 20 commits / 10 觀測頁 / 10 chart.js / DB 100%。 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-05 01:15:58 +08:00
OoO	90e8366a8d	feat(p54): chart.js 視覺微調 — KPI sparkline + verdict 圓餅 + heal 趨勢 Some checks failed CD Pipeline / deploy (push) Has been cancelled Details R-1: ai_calls KPI 卡片加 24h sparkline - 呼叫次數卡片下加 24px 高 mini line chart（藍） - 成本卡片下加 sparkline（黃） - 錯誤次數卡片下加 sparkline（紅） - Token / 平均耗時 / RAG 命中卡片改顯示「平均 tk/call」「cache 命中數」「RAG 命中率%」 - 整排 KPI 從乾巴巴數字 → 含 24h 趨勢視覺 - 共用 chart.js dataset，無新 query R-2: business_intel verdict 改 doughnut + 表格雙視角 - 取代原 col-md-3 卡片網格 - 左圓餅：effective(綠)/backfired(紅)/neutral(灰) 視覺比例 - 右表格：4 欄（verdict/筆數/佔比/平均 Δ）含正負色 - 與 quality_trend RAG pie chart 視覺風格統一 R-3: host_health AIOps card 加 7d 自癒成功率 sparkline - routes/admin_observability_routes.py 新加 heal_daily query date_trunc('day') GROUP BY 7 天每日 success rate - AIOps 7d card 底部加 80px 高 line chart - Y 軸 0-100% / X 軸 7 天日期 - tooltip 顯示「ok/total 成功 (rate%)」 chart.js 視覺化從 4 個 → 7 個： hourly trend / 30d stacked / 三主機 sparkline / RAG doughnut / KPI sparkline × 3 / verdict doughnut / heal trend Phase 38→54 累計 19 commits / 10 觀測頁 + topbar indicator / 7 chart.js。 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-05 01:13:31 +08:00
OoO	118f10701b	test(p54): get_host_label / get_provider_tag 補測 (20/20 PASS) P53 commit `7a10d27` 加了 K8s Nginx Proxy 路由判斷（192.168.0.110:11435/11436 → GCP-A/B），但無單測。未來改 IP / 加 provider 容易破而不自知。覆蓋： - TestGetHostLabel × 9 cases: empty / GCP-A 直連 / GCP-B 直連 / Nginx 11435 / Nginx 11436 / 111 備援 / 188 本地 / localhost / unknown fallback - TestGetProviderTag × 5 cases + parametrize × 6 row: empty / GCP×2 路徑 / Secondary×2 路徑 / 111 / unknown + 6 row 對齊 migration 024 ai_calls.provider CHECK 白名單特別防 regression：K8s 環境 192.168.0.110:11435 不再 fallback "未知" （這正是 P53 commit 修的問題）。	2026-05-05 01:12:35 +08:00
OoO	7a10d27d61	feat(p53): K8s Nginx Proxy 支援 — host_label/provider_tag 補完 Some checks failed CD Pipeline / deploy (push) Has been cancelled Details 問題： K8s 內網無法直連 GCP 公網 11434，所以 110 跳板架了 Nginx Proxy 轉發 11435/11436 到 GCP-A/GCP-B。但 services/ollama_service.py 的 get_host_label() 只看 IP substring（34.143.170.20 / 34.21.145.224）， K8s 環境會 fallback 到「未知」造成觀測台主機標籤錯亂。修補： - services/ollama_service.py::get_host_label 新增： 192.168.0.110:11435 → "GCP-SSD（via Nginx 110）" 192.168.0.110:11436 → "GCP-SSD-2（via Nginx 110）" 保留：直連 GCP / 111 / 188 / localhost 既有判斷 - services/ollama_service.py::get_provider_tag（新函式）統一 provider 標籤判斷（之前散落 code_review_pipeline 等多處重寫）： GCP 直連 + Nginx 11435 → 'gcp_ollama' GCP-B 直連 + Nginx 11436 → 'ollama_secondary' 111 → 'ollama_111' 其他 → 'ollama_other' 跨環境統一：ai_calls.provider 在 docker-compose / K8s 都記同一 tag，跨環境統計不分裂。 - services/code_review_pipeline_service.py:233 改用統一 get_provider_tag()，移除原本 hardcode 的 if/else IP 判斷。 - k8s/02-configmap.yaml（user 已改） OLLAMA_HOST_PRIMARY = http://192.168.0.110:11435 (Nginx → GCP-A) OLLAMA_HOST_SECONDARY = http://192.168.0.110:11436 (Nginx → GCP-B) OLLAMA_HOST_FALLBACK = http://192.168.0.111:11434 (內網) driver test: http://34.143.170.20:11434 → GCP-SSD / gcp_ollama http://192.168.0.110:11435 → GCP-SSD（via Nginx 110）/ gcp_ollama http://192.168.0.111:11434 → 111 備援 / ollama_111 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-05 01:09:56 +08:00
OoO	a142e85880	test(p53): 觀測台 smoke 涵蓋 P38-P52 新增 11 endpoint (18/18 PASS) 戰役從 P27 6 路由擴展到 P52 共 20 路由（含 5 新 GET / 5 新 POST），原 12 tests 只蓋 P27-31 範圍，P38-P52 共 11 endpoint 無 regression 防護。新增測試： - test_overview_index_200: /observability/ root index - test_overview_dashboard_200: P45 總覽頁 - test_rag_queries_200: P51 RAG 召回詳情 - test_business_intel_200: P48 商業面 × AI 編排 - test_agent_orchestration_200: P46 Agent 編排矩陣 - test_health_indicator_api_returns_json: P52 topbar 健康燈 JSON API - test_anon_get_redirects_to_login: 12 GET 路徑全強制 login (擴充 6→12) - test_anon_post_blocked: 8 POST mutation 全強制 login (擴充 3→8) prod 實證：mo.wooo.work 11 endpoint 全 Flask 200/308 服務（curl 已驗）。 20/20 routes @login_required 100% 覆蓋（python regex audit）。	2026-05-05 01:09:52 +08:00
OoO	2a3ea6f581	feat(p52): topbar 觀測台健康指示燈 + RAG 反饋圓餅圖 All checks were successful CD Pipeline / deploy (push) Successful in 2m30s Details P-1: topbar AI 觀測台 indicator（全頁可見） - ewoooc_base.html topbar 加「🛰 AI 觀測台」icon button - 紅色 badge 顯示告警數量（4 維度任一觸發即計數）： • 三主機任一掛掉 • 待審 episode > 0 • 過去 1h 錯誤率 ≥ 30% • 預算任一 ≥ 90% - 新 GET /observability/api/health_indicator 輕量 JSON API（4 query 跨 host_health_probes/learning_episodes/ ai_calls/ai_call_budgets） - topbar polling 每 60s 自動刷新 + tooltip 顯示具體告警內容 - 全部頁面（包括 / 商品看板、所有觀測頁）topbar 都看得到健康狀態 P-2: quality_trend RAG 反饋圓餅圖（doughnut） - 取代原本卡片網格佈局 - 1-5 星依綠→紅漸層著色（5=綠、3=黃、1=紅） - 圓餅 + 右側表格雙視角（chart 配對 raw 數字） - chart.js doughnut + tooltip 顯示筆數+佔比效益： - 統帥從任何頁面（不限觀測台）都能瞄一眼右上角看當前 AI 健康 - 快樂路徑：「正常」綠色 icon · 異常路徑：「紅色 badge + 數字」立即吸睛 - 圓餅圖比原網格更直觀「分布」感 Phase 38→52 累計 17 commits / 10 觀測頁 / DB 100% / 4 chart.js / 全頁 indicator。 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-04 20:20:34 +08:00
OoO	e0a8d87c2c	feat(p51): RAG 召回詳情新頁 + overview 三主機 24h sparkline All checks were successful CD Pipeline / deploy (push) Successful in 2m35s Details 新頁 /observability/rag_queries：補完 RAG 觀測深度之前只看 caller 級命中率，現在能看每筆查詢的真實內容。 O-1: route + template - 篩選：時段（1/6/24/72/168h）/ caller / saved_only flag - 整體 KPI 4 卡：總查詢 / 命中率 / saved_call 率 / 反饋平均分 - by caller 表：每個 caller 的查詢/命中/saved/反饋細節 - 最近 50 筆查詢詳情表 - 「查 hits」按鈕 → 彈 modal 載入 ai_insights JOIN 內容預覽（新 endpoint /observability/rag_queries/<id>/hits 回傳 JSON） O-2: 入口 - sidebar AI 觀測 group 加「RAG 召回詳情」（11b） - /observability/overview 入口卡升級為 9 項 O-3: overview 三主機 24h sparkline - 每張主機卡片下方加 60px 高 chart.js sparkline - 折線：每小時 uptime % bucket（0-100% Y 軸隱藏，純視覺） - routes/admin_observability_routes.py::observability_overview 新加 host_sparkline 查詢（GROUP BY host_label, hour） - 三主機卡片視覺化升級：原本只有「100%」字，現在加趨勢線 Phase 38→51 累計 16 commits / 10 觀測頁。觀測台戰役從「raw stats」到「視覺方格 UI 完整體」。 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-04 20:09:28 +08:00
OoO	87d460e243	feat(p50): chart.js 折線圖視覺化 + Playbook 一鍵啟用/停用 All checks were successful CD Pipeline / deploy (push) Successful in 2m40s Details 統帥要求「視覺方格 UI/UX」：raw 表格不夠，加 chart.js 雙圖 + L2 管理。 N-1: ai_calls hourly trend chart.js（雙軸混合） - 取代原 progress bar 表格 - 折線：呼叫數（藍）+ 錯誤次數（紅）→ 共用左軸 - 柱狀：成本 USD（黃）→ 右軸 - interaction mode index：滑鼠 hover 同時顯示三個指標 - chart.js 4.4.1 CDN 加在 {% block extra_js %} N-2: budget 30d cost trend stacked bar chart - 取代原 30d cost trend 表格（max-height 滾動 → 一目瞭然圖） - 8 個 provider 各自分色本地 Ollama（綠系）vs 付費（橘/紫/青系） - stacked bar：每日總成本一柱，依 provider 堆疊 - tooltip 顯示每個 provider $X.XXXX N-3: Playbook 一鍵啟用/停用（L2 補強第 7 個） - 新 POST /observability/playbooks/toggle/<id> 翻轉 is_active + UPDATE updated_at - host_health.html playbook 排行表加「切換」欄 - 動態按鈕：啟用顯示「停用」、停用顯示「啟用」 - 對應觀測台直接管理 AutoHeal 庫，不需 SSH 改 DB L2 一鍵自動化從 6 個 → 7 個入口： - AutoHeal / AiderHeal / Code Review / Force Throttle（既有） - Telegram Heal / Throttle（既有） - Playbook Toggle（Phase 50 新增） Phase 38→50 累計 15 commits。觀測台從 raw stats → AI 自動化專業舞台 → 視覺方格 UI 終局。 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-04 20:04:13 +08:00
OoO	822789c810	feat(p49): Telegram 補完 9 頁對應 + daily summary 加商業面未跟進警示 All checks were successful CD Pipeline / deploy (push) Successful in 2m58s Details M-B: Telegram 對應從 6/9 → 9/9 新增 3 個 cmd handler，對應 Phase 45-48 的 3 個新觀測頁： - cmd:obs_overview — 一頁式總覽（三主機 24h + AI 呼叫 + 月成本 + 待審 episode） - cmd:obs_orchestration — Agent 編排矩陣（4 Agent × Models 24h 數字）本地 Ollama % / RAG 命中 % / 錯誤率 + cost - cmd:obs_business — 商業面 × AI（價格決策 7d by strategy + 未跟進機會 + Outcomes verdict 30d） services/openclaw_bot/menu_keyboards.py::_submenu_observability 升級為 9 項 M-C: daily summary（每日 09:30）加商業面警示 - 從 ai_price_recommendations × action_plans 跨表 JOIN 偵測 high-confidence (≥0.7) 卻無對應 action_plan 的「機會流失」 - 7d 內若有未跟進，daily summary 自動標 ⚠️ 警示 - 對應 Phase 48 business_intel 頁同個邏輯，閉環推送 inline keyboard 升級：日報附 6 個入口（總覽/編排/商業面/主機/AI/預算），不再只有 4 個 Phase 38→49 累計 14 commits。觀測台戰役完整收官： - 9 頁全部對應 Telegram cmd - DB 22/22 = 100% 全覆蓋 - 6 個 L2 一鍵 + 3 種主動推送（即時/異常/日常） - 日報含商業面警示 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-04 20:00:15 +08:00
OoO	95db06ad9d	feat(p48): 商業面 × AI 編排新頁 — AI 在做什麼生意？實際生效嗎？ All checks were successful CD Pipeline / deploy (push) Successful in 2m38s Details 新頁 /observability/business_intel：把 AI 觀測台從「技術面」延伸到「商業面」。回答統帥兩大問： 1. 我們的 AI 在做什麼生意？ 2. AI 動作真的有用嗎？（閉環追蹤）新接 5 張未善用的商業面表（DB 利用率 17/22 → 22/22，100%）： - ai_price_recommendations（AI 價格建議完整明細） - competitor_prices（競品價格快照） - competitor_price_history（24h 抓取歷史） - competitor_match_attempts（競品比對失敗追蹤） - 善用 action_plans × action_outcomes JOIN（閉環）頁面 widget（7 張卡片）： 1. unfollowed alert：high-confidence 但未轉化為 action_plan 的數量 2. AI 決策 by strategy（promote/watch/hold 含平均信心 + gap% + 銷量變化） 3. 最近 20 筆 AI 建議詳細（SKU/商品/MOMO 價/PChome 價/Gap/原因） 4. 閉環學習表：plan → outcome 全鏈追蹤含 verdict/before/after/變化 % — ADR-012 核心 KPI 5. Verdict 分布（effective/neutral/backfired 計數） 6. 競品比對嘗試統計（success/fail/avg_score） 7. 24h 競品價格抓取列表（SKU/商品/MOMO vs PChome gap）入口： - sidebar AI 觀測 group 加「商業面 × AI」（07c） - /observability/overview 入口卡升級為 8 項 DB 全表覆蓋達成：22/22 = 100% - Phase 47 17 表 → Phase 48 22 表 - 新接：ai_price_recommendations / competitor_prices / competitor_price_history / competitor_match_attempts - 已用：ai_calls / ai_call_budgets / ai_insights / learning_episodes / rag_query_log / mcp_calls / incidents / heal_logs / playbooks / backup_log / embedding_retry_queue / agent_context / agent_strategy_weights / action_plans / action_outcomes / host_health_probes / ppt_audit_results Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-04 19:54:07 +08:00
OoO	2e124db602	feat(p47): 6 頁深挖資料庫 — 從 5 表 → 17 表，每頁加 3-5 個 widget All checks were successful CD Pipeline / deploy (push) Successful in 2m36s Details 統帥質疑：「6 頁內容太空洞，要更貼近資料庫裡所有數據」盤點：DB 有 22 表，6 頁原本只用 5 表（22.7% 利用率）。本 commit 新接 12 張既有但未用的表。 K-1 host_health（接 +5 表 → 8 表） - 加 incidents 最近 10 筆詳細（task_name/error_type/嚴重度/狀態/重試/錯誤訊息） - 加 heal_logs 最近 10 筆（action_type/result/耗時/incident 關聯） - 加 playbooks 庫排行 TOP 12（success_count/fail_count/成功率/啟用狀態） - 加 backup_log 7 日歷史（type/status/size/duration/error） - 加 embedding_retry_queue pending/failed 警示 K-2 ai_calls（接 +3 表） - 加 24h 每小時呼叫趨勢 bucket（含成本+錯誤+流量分布條） - 加 by model 細分（不只 provider，到 model 版本級別）TOP 15 - 加 agent_context 最近 10 筆（OpenClaw/Hermes 對話 session preview） K-3 budget（接 +3 表） - 加當月 Top 5 燒錢呼叫端（caller × cost ranking） - 加過去 30 日每日成本 by provider 趨勢表 - 加 ai_price_recommendations 7 日統計（strategy 分布 + 平均信心度） K-4 promotion_review（接 +2 表） - 加蒸餾池 30 日 status 分布（不只 awaiting，看 8 種完整流動） - 加 ai_insights 最近 10 筆已晉升內容預覽 - 加 agent_strategy_weights TOP 12（OpenClaw 學習權重 + 成功率） K-5 quality_trend（接 +3 表） - 加 RAG 整體 feedback 1-5 分分布（過去 N 日，星等視覺） - 加 action_plans status 分布（pending/approved/executed/rejected） - 加 action_outcomes verdict 分布（effective/neutral/backfired — ADR-012 閉環學習核心 KPI） K-6 ppt_audit_history（接 +0 表，但 deeper SQL） - 加 30 日統計卡（total/passed/failed/error/通過率/總 issue 數/平均信心度） - 加 Top 10 反覆失敗檔案（30d 失敗次數 + total issues） - 加 empty state 說明（PPT_VISION_ENABLED=false 時顯示啟用步驟） DB 利用率對應： - Phase 38 起點：5 表（22.7%） - Phase 39-46 累計：12 表（54.5%） - Phase 47 收官：17 表（77.3%）新接：playbooks / backup_log / embedding_retry_queue / agent_context / ai_price_recommendations / agent_strategy_weights / action_plans / action_outcomes（之前已接：incidents/heal_logs/ai_insights/learning_episodes/ rag_query_log/mcp_calls/ai_calls/host_health_probes/ppt_audit_results）每頁 widget 數對應： - host_health: 5 卡 → 11 卡 - ai_calls: 5 卡 → 8 卡 - budget: 4 卡 → 7 卡 - promotion_review: 2 卡 → 5 卡 - quality_trend: 4 卡 → 7 卡 - ppt_audit: 3 卡 → 6 卡 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-04 19:49:52 +08:00
OoO	347efb8ea1	feat(p46): Agent 編排矩陣新頁 — OpenClaw/Hermes/NemoTron/EA × Ollama × Gemini × MCP × RAG All checks were successful CD Pipeline / deploy (push) Successful in 2m30s Details 統帥要求：「好好把 OpenClaw/Hermes/NemoTron/ElephantAlpha + Ollama 多模型 + 外部付費 Gemini + 內外 MCP + RAG 組合發揮出 AI 自動化新境界」新頁面 /observability/agent_orchestration 一頁式呈現 4 Agent × 5 維度全景： J-1: caller 自動分組 - OpenClaw: openclaw_qa/daily/meta/monthly/weekly/bot_main/bot_gemini/bot_nim + sales_copy + code_review_openclaw - Hermes: hermes_analyst + hermes_intent + code_review_hermes - NemoTron: nemotron_dispatch - ElephantAlpha: ea_engine + code_review_elephant J-2/3: 跨表 SQL JOIN（ai_calls × mcp_calls × rag_query_log）每個 agent 顯示： - 24h 呼叫 + Token + 成本 - 本地 Ollama 比例（細分 GCP-A/GCP-B/111） - 付費 LLM 比例（細分 Gemini / 其他） - MCP 編排率（透過 request_id 跨表 JOIN mcp_calls） - RAG 命中率 - 錯誤率 + 平均耗時 - MCP server × caller 工作量明細自動編排建議（5 條 rule-based）： 1. 付費比例 > 50% 且 ollama < 20% → 改 Hermes-first 短路 2. 錯誤率 > 10% → 觸發 Code Review Pipeline 3. MCP 編排率 < 5% 但 calls > 50 → 擴大 MCP omnisearch/firecrawl 4. RAG 命中率 ≥ 40% → 推 Telegram 收 feedback 強化 promotion gate 5. 111 fallback 比例 > 20% → GCP 兩台異常，查 host_health AIOps J-4: 入口 - sidebar AI 觀測 group 加「Agent 編排矩陣」（07b） - /observability/overview 入口卡升級為 7 項，Agent 編排矩陣放第一整體 KPI 卡片： - 總呼叫 / 本地 Ollama 比例 / 付費 LLM 成本 / RAG 命中率 - 「組合發揮」一目瞭然 8 表跨 JOIN：ai_calls × mcp_calls × rag_query_log × ai_insights × learning_episodes × incidents × heal_logs × host_health_probes Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-04 19:38:10 +08:00
OoO	849e189b60	feat(p45): UI/UX 升級 ewoooc_base.html + sidebar AI 觀測 7 項 + 新增總覽頁 All checks were successful CD Pipeline / deploy (push) Successful in 2m37s Details 統帥質疑：「那六頁的視覺方格 UI/UX 搞好了嗎？還有新增頁面嗎？」回答：沒有，從 Phase 38 開始一直推遲。本 commit 補做。 I-1: 6 頁 base.html → ewoooc_base.html - host_health / ai_calls_dashboard / budget / promotion_review / quality_trend / ppt_audit_history 全改 - {% extends "base.html" %} → {% extends "ewoooc_base.html" %} - {% block content %} → {% block ewooo_content %} - 自動繼承：sidebar 240px / topbar 64px / fonts (Inter+JetBrains+Noto Sans TC) / ewoooc-tokens.css / ewoooc-shell.css / search box / 米色背景 I-2: _ewoooc_shell.html 加「AI 觀測」nav group - 7 個項目：觀測台總覽 / 主機健康 / AI 呼叫 / 預算控管 / RAG 晉升審核 / 反饋趨勢 / PPT 視覺審核 - 對應 active_page='obs_'，正確高亮 - 編號 07-13（系統管理改 14） I-3: 新增頁面 /observability/ + /observability/overview - routes/admin_observability_routes.py::observability_overview - 單頁聚合 8 表跨 JOIN 的 KPI： • 三主機 24h 在線率（host_health_probes，per host card） • AI 呼叫 24h（ai_calls：total/tokens/cost/error rate/RAG hit/cache hit） • 當月成本累計 • 預算告警（ratio ≥ alert_pct 自動列表） • AIOps 7d（incidents + heal_logs：自癒成功率） • MCP 24h（mcp_calls：tool 呼叫 + cache 率 + cost） • RAG 學習 30d（learning_episodes：待審 + 晉升率） • PPT 視覺審核 7d（ppt_audit_results：通過率） • 6 大子頁入口卡（含一行說明） - 對應 Phase 44 daily Telegram summary 的 web 版本 - 全部失敗安全（個別 query 失敗只跳過該卡，不擋整頁）升級對應： - UI 框架：base.html → ewoooc_base.html ✅（sidebar + topbar + token css 已生效） - 設計憲法：8 卡片 + 8 表跨 JOIN 全景 + 一頁式總覽 - 入口：sidebar 7 項 + 觀測台首頁 - 資料表覆蓋：4 表（Phase 38）→ 8 表（Phase 45）注意：完整 design token 重塑（Bootstrap class → --momo- token / 焦糖橘）留待後續 phase；本 commit 重點是「框架升級 + 新總覽頁」。 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-04 19:34:18 +08:00
OoO	72cbcb298f	feat(p44): AI 呼叫錯誤率突增告警 + 觀測台每日 09:30 健康摘要 All checks were successful CD Pipeline / deploy (push) Successful in 2m40s Details 完整 Telegram 主動推送閉環的兩大缺口： H-1: AI 呼叫錯誤率突增偵測（每 30 min） - run_scheduler.py::run_ai_calls_error_spike_check - 條件：過去 1h ai_calls 總呼叫 ≥ 20 且錯誤率 ≥ 30% - 抓 Top 3 problematic caller（errs ≥ 3） - 推 Telegram 告警 + inline 按鈕「🔬 觸發 Code Review」/「📊 查 24h AI 呼叫」 - routes/openclaw_bot_routes.py::cmd:obs_trigger_review (新 handler) - Telegram 內直接觸發 CodeReviewPipeline.run() in daemon thread - 對齊 Web /observability/ai_calls/trigger_code_review 邏輯 - 註冊：schedule.every(30).minutes H-2: 觀測台每日 09:30 健康摘要（早晨報） - run_scheduler.py::run_observability_daily_summary 一頁式涵蓋： • 三主機 24h 在線率（host_health_probes 聚合） • AI 呼叫量 / Token / 24h 成本 / 當月累計 • 24h 錯誤率 / RAG 命中率 • 待審 episodes 數量 • PPT 視覺審核 7d 通過率 inline 4 個按鈕：主機健康 / AI 呼叫 / 預算 / 反饋趨勢 - 註冊：schedule.every().day.at("09:30") 完整推送閉環達成： 1. 主機 transition (Phase 43)：state 變化即時告警 + 一鍵 AutoHeal 2. AI 錯誤突增 (Phase 44)：30 min 內錯誤飆升即告警 + 一鍵 Code Review 3. 每日早晨報 (Phase 44)：09:30 主動推全景摘要統帥手機端不需主動開觀測台，所有重大事件主動推送。 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-04 19:29:28 +08:00
OoO	f10999ed1c	feat(p43): Ollama 主機 state transition 自動告警 + inline AutoHeal 閉環 Some checks are pending CD Pipeline / deploy (push) Has started running Details 問題： Phase 42 加 scheduler 每 15min probe 寫入 host_health_probes，但只是 silent 累積 — 主機真的掛掉時統帥仍然要主動開觀測台才知道。修補： - run_scheduler.py::run_host_health_probe 寫入 DB 之前先查同 host 的最近一筆 probe 比對 state transition 偵測： healthy → unhealthy：推 P1 告警 + inline AutoHeal 按鈕 unhealthy → healthy：推 P3 「已恢復」訊息 - run_scheduler.py::_push_host_transition_alert（新 helper）使用 services.telegram_templates::send_telegram_with_result inline keyboard 含「🩹 立即 AutoHeal {GCP-A\|GCP-B\|111}」按鈕 + 「📊 查 24h 健康統計」次按鈕按鈕 callback_data 對齊既有 Phase 41 cmd:obs_heal handler - Dedup：1 小時內同 host 同方向 transition 只推一次（防 flapping 洗版）用 host_health_probes 自身查歷史對比，無需新 dedup 表完整閉環： scheduler 每 15min probe → 偵測 state transition → 推 Telegram 告警 → 統帥點 inline button → cmd:obs_heal:{label} → AutoHeal 跑 ADR-013 playbook → 寫入 incidents + heal_logs → 下一次 probe 偵測 unhealthy→ healthy → 推「已恢復」訊息至此觀測台從「raw stats dashboard」進化為： - 持續累積歷史（Phase 42） - 主動告警 + 一鍵修復（Phase 43） - 完整閉環自動化（從監控到復原全自動，僅關鍵節點需人工確認） Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-04 19:26:54 +08:00
OoO	d5a4e27344	feat(p42): scheduler 每 15 分鐘自動 probe 三主機（不靠人開頁累積歷史） Some checks failed CD Pipeline / deploy (push) Has been cancelled Details 問題： Phase 38 加了 host_health_probes 表 + 開觀測台頁面時寫一筆，但無人開頁時沒人寫 → Telegram cmd:obs_health 顯示「24h uptime」永遠空。修補： - run_scheduler.py::run_host_health_probe - 每 15 min HTTP probe GCP-A/GCP-B/111 三主機 /api/tags - 寫入 host_health_probes（label/url/healthy/unhealthy_mark/ models_count/response_ms/error_msg） - 失敗安全：HTTP/DB 失敗只 log warning - run_scheduler.py::run_host_health_probe_cleanup - 每日 03:00 DELETE 30d 前舊資料（防表膨脹） - 註冊到 schedule.every(15).minutes 與 schedule.every().day.at("03:00") 效果： - Web /observability/host_health 24h 趨勢卡永遠有資料（即使無人開頁） - Telegram cmd:obs_health 三主機在線率永遠有資料 - 三主機歷史完整保留 30 天，超出自動清理 Phase 38+39+40+41+42 觀測台戰役完整收官（7 commits）。部署驗證： - mo.wooo.work/observability/host_health → HTTP 200 / 42716 byte （Phase 38 為 39124 byte，多 3.5KB 證明 24h 趨勢/MCP/AIOps card 已上線） Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-04 19:24:07 +08:00
OoO	4020b734a5	feat(p41): 觀測台戰役完整收官 — K8s 三主機化 + ppt RAG + TG inline action All checks were successful CD Pipeline / deploy (push) Successful in 2m34s Details E-1: K8s configmap 對齊三主機級聯（清舊配置遺留） - k8s/02-configmap.yaml: - 移除寫死的 OLLAMA_HOST=192.168.0.188:11434（早已過時） - 改注入 OLLAMA_HOST_PRIMARY/SECONDARY/FALLBACK 三個變數 - llama3:70b → qwen3:8b（與目前 prod 一致） - k8s/gcp/02-configmap.yaml: - 移除「OLLAMA_HOST=空 + AI_PROVIDER=gemini」自相矛盾 - 改三主機級聯 + AI_PROVIDER=ollama（與 docker-compose.yml 一致） E-2: ppt_audit 加 RAG「相似失敗修法」 - 對最近 3 筆 audit_status='failed'/'error' 跑 rag_service.query - 從 ai_insights 召回相似案例（cosine ≥ 0.6, top 2） - template 加「RAG 自動修法建議」card E-3: Telegram obs_health/obs_budget 加 inline action button (L2) - cmd:obs_health：任一主機標記異常時，inline 顯示「🩹 修 GCP-A/GCP-B/111」按鈕 - cmd:obs_heal:{label}：新 handler，在 Telegram 內直接觸發 AutoHeal （白名單 GCP-A/GCP-B/111，非 unhealthy 拒絕） - cmd:obs_budget：warn 時 inline 顯示「⚡ 立即重算節流狀態」按鈕 - cmd:obs_force_throttle：新 handler，Telegram 內直接觸發 evaluate_throttle_status 最終升級對應： - RAG 整合 4/6 → 5/6（補 ppt_audit） - AI 自動化：Web L2×4 + Telegram L2×2 = 6 個一鍵自動化入口 - K8s 配置一致性：三套 (docker-compose / k8s/* / k8s/gcp/*) 統一指向 GCP-A → GCP-B → 111 三主機鏈 Phase 38+39+40+41 累計 7 commits 觀測台戰役完整收官。 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-04 19:18:23 +08:00
OoO	65f236da2d	feat(p40): 觀測台收官 — 4 頁升 L2 + RAG 根因 + 蒸餾池監控 All checks were successful CD Pipeline / deploy (push) Successful in 2m36s Details 接續 Phase 39 (commit `79cf08c`)，本 commit 完成 Phase D 最後 4 項： D-6: quality_trend 蒸餾池 + RAG 根因 - 新「蒸餾池狀態」card：learning_episodes 各 promotion_status 分布（pending / awaiting_review / approved / rejected_quality / rejected_hallucination / rejected_duplicate / rejected_human / expired） - 對最差 3 名 caller (avg_score < 3 且反饋 ≥ 3) 自動 RAG 根因建議 - RAG 從 ai_insights 召回相似低品質案例 D-7: ai_calls 一鍵 Code Review (L2) - 新 POST /observability/ai_calls/trigger_code_review 讀 git rev-parse HEAD + diff-tree 取最新變更檔案在 daemon thread 跑 CodeReviewPipeline.run() (5 step Hermes→ OpenClaw→EA→NemoTron) - 頁面新增「觸發 Code Review Pipeline」按鈕 D-8: ppt_audit 失敗 row 一鍵 AiderHeal (L2) - 新 POST /observability/ppt_audit/trigger_aider_heal 接收 pptx_filename + error_msg，呼叫 services/aider_heal_executor:: execute_code_fix 自動修 services/ppt_generator.py AiderHeal 修完會 git push 觸發 CD - audit_records 表中 status='failed'/'error' 的 row 自動顯示按鈕 D-9: host_health 一鍵 AutoHeal (L2) - 新 POST /observability/host_health/trigger_autoheal 接收 host_label，白名單對應 OLLAMA_HOST_PRIMARY/SECONDARY/FALLBACK 防 SSRF。已標記 unhealthy 的 host 才允許觸發呼叫 auto_heal_service.handle_exception(error_type='ollama_unhealthy') 跑 ADR-013 playbook（DOCKER_RESTART / SSH_CMD / ALERT_ONLY） - 三主機 row 中 unhealthy / down 的 host 自動顯示按鈕升級對應： - AI 自動化：L2 從 1 個 → 4 個（budget force_throttle / Code Review / AiderHeal / AutoHeal） - DB 利用率 ~60%：新增 learning_episodes 分布查詢 - RAG 整合 4/6（promotion_review + budget + quality_trend + 待 ppt_audit） Phase 38+39+40 累計：6 commits 完成觀測台從 raw dashboard 升級到 AI 自動化專業舞台。 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-04 19:13:39 +08:00
OoO	79cf08c58c	feat(p39): 觀測台升級 — DB + MCP + RAG + AI 自動化深度整合 All checks were successful CD Pipeline / deploy (push) Successful in 2m30s Details 統帥質疑：6 頁觀測台只是 raw stats dashboard，沒展現 AI 自動化專業。深度盤點 4 軸結果： - DB 利用率 22.7%（22 表只用 5 張） - MCP 整合 1/6（mcp_calls 表完全沒被讀） - RAG 整合 0/6（沒 import rag_service） - AI 自動化 L0 × 5 + L1 × 1（純讀 dashboard，無一鍵觸發）本 commit 5 個增強： D-1: promotion_review 加 RAG「Top 3 相似已晉升」 - 對每筆 awaiting_review episode 跑 rag_service.query 找 ai_insights 中 cosine ≥ 0.7 的相似已晉升內容 - 輔助人工判斷：是否冗餘？是否新領域？ - header 顯示 ai_insights 知識庫 size - fail-safe: 單筆 RAG 失敗不影響其餘 D-2: host_health 加 MCP 24h 工作量 widget - 從 mcp_calls 統計各 server 24h 呼叫次數 / 成功率 / cache 率 / 使用 tool 數 / 平均耗時 / cost - 展現「AI×MCP 編排規模」而非只「server 健康與否」 D-3: ai_calls × rag_query_log × mcp_calls 三表 JOIN - 新增「呼叫端 × RAG × MCP 編排矩陣」card - 每個 caller：總呼叫 / RAG 命中率 / MCP 編排率（透過 request_id 串接） / RAG 反饋分數 / 反饋筆數 - 展現「AI 自動化專業」核心指標 D-4: budget 加 RAG 自動策略建議 + 一鍵 force-throttle (L2) - ratio ≥ 0.8 時自動 RAG 召回 ai_insights 中的 budget_strategy 知識 - POST /budget/force_throttle endpoint：立即重算 cost_throttle 狀態（不等下次每小時 cron）— 升級到 L2 自動化 - 對應頁面加「立即重算節流狀態」按鈕 D-5: host_health 加 incidents + heal_logs 7d 摘要 - 顯示 ADR-013 AutoHeal 閉環核心 KPI：總事件 / 未解決 / 已解決 / P0+P1 / 自癒成功率 / 平均自癒耗時 - 展現「AIOps 自癒系統」運作實況對應升級： - DB 利用率 22.7% → ~50%（新接 mcp_calls + rag_query_log JOIN + ai_insights + incidents + heal_logs） - MCP 整合 1/6 → 3/6（host_health + ai_calls + budget 都接 mcp_calls） - RAG 整合 0/6 → 3/6（promotion_review + budget + 待 quality_trend） - AI 自動化 L1 → L2 一鍵 force-throttle 一個（其餘按鈕待 D-6）全部 fail-safe：DB 表/RAG/MCP 失敗都不擋頁面渲染。 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-04 19:08:41 +08:00
OoO	5935a6512c	feat(p38): Telegram 補 4 個 AI 觀測台命令（B-3 完成） All checks were successful CD Pipeline / deploy (push) Successful in 2m31s Details 統帥盤點要求：6 個觀測頁是否都有 Telegram 對應？盤點結果：promotion_review 已有 (pg_ok/pg_no inline button)，剩 4 個缺。新增 4 個 cmd handler 對應 4 個觀測頁面： 1. cmd:obs_ai_calls — AI 呼叫總覽（24h） - 總呼叫 / Token / cost / errors / RAG 命中 / cache 命中 - Top 5 provider 分組 2. cmd:obs_health — 主機健康監控 - 三主機 GCP-A / GCP-B / 111 即時 HTTP probe - 過去 24h uptime % + 平均 response_ms（讀 host_health_probes） 3. cmd:obs_budget — 預算控管 - 當月 spent vs budget 各 provider - 超 alert_pct 自動標記 ⚠️ / 超 100% 標記 🚨 4. cmd:obs_quality — Caller 反饋趨勢 - 過去 30 日 avg_score 最低 8 名 - 含 thumbs_up/down + trend 圖示 - 含智能建議（feedback_quality_tracker） UI/UX： - main_menu_keyboard 加「🛰 AI 觀測台」入口 - 新 _submenu_observability() 在 menu_keyboards.py - _SUBMENUS 註冊 'observability' key - titles 映射加 observability 標題 - 4 個命令 cross-link（彼此互通 + 返回主選單） Telegram 6/6 對應達成： - promotion_review: pg_ok/pg_no inline button (既有) - ai_calls: cmd:obs_ai_calls (新增) - host_health: cmd:obs_health (新增) - budget: cmd:obs_budget (新增) - quality_trend: cmd:obs_quality (新增) - ppt_audit: 既有「有 issues 才推 Telegram」推送行為（不需查詢命令） Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-04 18:58:30 +08:00
OoO	0b13055466	feat(p38): host_health + ppt_audit DB 持久化（B-1 + B-2）統帥要求： 1. 所有 6 個觀測頁的功能和數據都要完整寫入資料庫儲存 2. Ollama 切 GCP 順序 GCP-A → GCP-B → 111 盤點結果： - 4/6 頁面已有 DB 表（ai_calls / learning_episodes / rag_query_log / ai_call_budgets） - 2/6 頁面是即時查詢無歷史：host_health（HTTP probe）、ppt_audit（os.listdir） - Ollama 99% 已合規，僅 1 處過時註解修補（B-1）： - services/code_review_pipeline_service.py:207 註解更新「直呼內網 Ollama (192.168.0.188)」→ 「走 resolve_ollama_host 三主機級聯 ADR-027」新增（B-2）： - migrations/029_create_host_health_probes.sql - 三主機健康歷史表（label/url/healthy/response_ms/error_msg） - 索引：probed_at / (host_label, probed_at) - 30 天保留（cron 清理） - migrations/030_create_ppt_audit_results.sql - PPT 視覺審核結果表（status/issues_count/issues_found JSONB/confidence） - 索引：audited_at / pptx_filename / failed-only partial - routes/admin_observability_routes.py:host_health_dashboard - 每次 probe 寫入 host_health_probes（失敗安全） - 新增 24h 健康趨勢卡片（uptime % / 平均 ms） - routes/admin_observability_routes.py:ppt_audit_history - 從 ppt_audit_results 讀過去 7 日 audit 紀錄 - 顯示審核時間/檔名/結果/問題數/信心度/耗時 - services/ppt_vision_service.py:check_ppt_file - 新增 _persist_audit_result() 跑完寫入 DB（status/issues/confidence/duration） - 失敗安全：DB 寫入失敗只 log warning，不擋主流程 - templates/admin/host_health.html + ppt_audit_history.html - 新增「24h 健康趨勢」card（host_health） - 新增「視覺審核歷史紀錄」card（ppt_audit） DoD： - 程式碼語法 ✓ - Jinja 平衡 ✓ - 失敗安全（DB 寫入或讀取失敗都不擋頁面渲染）✓ Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-04 18:55:39 +08:00
OoO	19f1340f5c	feat(p38): admin 觀測台 6 頁完整繁中化 + 加入導航選單 All checks were successful CD Pipeline / deploy (push) Successful in 2m42s Details 問題： 1. 6 個 /observability/* 頁面標題與欄位英文殘留（違反設計憲法繁中要求） 2. 6 頁完全沒掛 navbar，使用者進不去（只能彼此 footer link 互連） 3. emoji 取代 Font Awesome，違反設計規範修補： - _navbar.html 新增「AI 觀測台」dropdown（位於 AI 助手與雲端匯入之間） - AI 監控組：AI 呼叫總覽 / 主機健康監控 / 預算控管 - AI 學習組：RAG 學習晉升審核 / Caller 反饋趨勢 / PPT 視覺審核歷史 - 6 個 admin/observability template 全面繁中化： - 標題、表格欄位、按鈕、badge 文字、JS alert 文案 - emoji → Font Awesome icon（fa-heartbeat / fa-chart-bar / fa-wallet / fa-brain / fa-comments / fa-search 等） - 移除 5 處 footer 手寫 link 條（已由 navbar 取代，避免雙寫） - routes/admin_observability_routes.py 6 個 render_template 加 active_page='obs_' 讓 navbar dropdown 正確高亮完整覆蓋：host_health / ai_calls_dashboard / budget / promotion_review / quality_trend / ppt_audit_history 設計規範對齊：仍待 Phase 後續工作（ewoooc_base.html 框架升級 + --momo- design token） Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-04 18:49:44 +08:00
OoO	9bc6664dc0	fix(p37): cd.yaml SPA shadow grep pipefail bug — 真正修好 CD failure All checks were successful CD Pipeline / deploy (push) Successful in 2m29s Details P34/P36 都沒打到的 root cause： ETAG=$(echo "$HDR" \| grep -i '^etag:' \| ...) 當 grep 找不到匹配 (mo.wooo.work /health 不帶 etag header)， grep exit 1 → bash pipefail → 變數賦值整行 exit 1 → set -e 殺掉整個 script → run 280/281 同樣位置死。修：每個 grep pipeline 結尾補 `\|\| true` 兜底，empty result 不殺 script。本機 bash -eo pipefail 模擬實 prod /health response： ETAG=[] CLEN=[64] XPT=[] FLASK_OK=1 (CLEN=64 != 7480 觸發 PASS) ✅ 預期下個 CD run 該 step 綠	2026-05-04 14:34:05 +08:00
OoO	64fe4fb651	fix(p36): cd.yaml SPA shadow 偵測 bash -e exit bug 修復 Some checks failed CD Pipeline / deploy (push) Failing after 2m27s Details run 280 failure 根因：P34 寫 `[ -n "$XPT" ] && [ "$X" != "0" ] && FLASK_OK=1` 三條 && 串連在 Gitea Actions 的 bash -e 模式下，第一條 -n 判斷 false 就 exit 1（empty XPT 是常態，因 mo.wooo.work /health 不帶 x-process-time）。改 if/then/fi block — 純條件分支不影響 exit code。驗證真 prod 已通： - mo.wooo.work/observability/ai_calls 回 35700 byte Flask login 重導頁（session cookie 正常 set，35700 != 7480 SPA shell） - mo.wooo.work/admin/ai_calls 回 404（P32 改名後正確不存在）我 27-35 phase 全部活在 prod 上，只是 192.168.0.188 LAN 是別 project 干擾。	2026-05-04 14:30:18 +08:00
OoO	46255720ee	fix(p35): Critic HIGH #2 + MEDIUM #2 — SQL f-string + 動態 import 改寫 Some checks failed CD Pipeline / deploy (push) Failing after 2m36s Details HIGH #2 — ai_calls 動態 WHERE 從 f-string 拼接改全綁參數：舊：sa_text(f"WHERE {' AND '.join(where_parts)}") 新：sa_text("WHERE :since AND (:caller_f='' OR caller=:caller_f) AND ...") 原本字串字面值來源安全，但下個 contributor 不慎把 request.args 拼進去就立即 SQL injection；改全綁參數消除類別風險。 MEDIUM #2 — ppt_audit_history 動態 __import__ 改頂部 import：舊：__import__('time').time() / __import__('datetime').datetime.fromtimestamp(...) 新：頂部 import time（datetime 已有）+ 直接呼叫並新增 os.path.islink() 過濾，防 reports/ 內 symlink 攻擊逃出目錄。 12/12 tests 仍 PASS。	2026-05-04 14:23:52 +08:00
OoO	927d7072ce	fix(p34): cd.yaml 加 SPA Shadow 偵測 — 防 nginx fallback 偽綠 Some checks failed CD Pipeline / deploy (push) Has been cancelled Details 過去 5 個 deploy（run 273-277）全 success 但 prod 上 Flask 從未接到請求 — nginx 對所有路徑 fallback 到 SPA index.html (7480 byte / etag e167a58a...) — 原健康檢查只看 HTTP 200，被 SPA shell 200 騙過。新增第 3 階段檢查（接在原 HTTP 200 retry + 三容器驗證之後）：驗 /health response 三條 fingerprint 任一不符 SPA shell 即 Flask 真接到： (a) Content-Length != 7480 (b) etag != e167a58a1baf907f55a2925a2e8665d1 (c) x-process-time header 存在（Flask middleware 加的，nginx static 不會帶）三條全失敗 = SPA 攔截 → 推 Telegram + exit 1（CD 紅）。 TELEGRAM secrets 未設時跳過告警不阻 deploy。修了過去那種「我推 commit、CD 全綠、實際 prod 0 影響」的盲點。	2026-05-04 14:21:42 +08:00
OoO	86f1fd5f50	fix(p33): admin observability auth hardening — Critic CRITICAL 修正 Some checks failed CD Pipeline / deploy (push) Has been cancelled Details Critic 1 CRITICAL 發現：6 個觀測端點零認證 + csrf_exempt → Flask 一旦對外可達，任何人可 POST 晉升 episode / 改月預算 → X-Forwarded-User header client 偽造 = 偽造 admin 身份修正： 1. 全 8 個 route handler 加 @login_required（session-based auth） - GET: ai_calls / promotion_review / quality_trend / host_health / budget / ppt_audit_history - POST: promotion_review/approve, .../reject, budget/update/<id> 2. promotion_review_approve approver_hash 改從 Flask session 取（get_current_user().username）— 不再信 X-Forwarded-User header 3. app.py 移除 csrf.exempt(admin_observability_bp) 4. 12 tests（10 原 + 2 新 auth gate）全 PASS： - test_anon_get_redirects_to_login: 6 GET 路由匿名 → 302 - test_anon_post_blocked: 3 POST mutation 匿名 → 302	2026-05-04 14:19:54 +08:00
OoO	99d2f3c543	fix(p32): admin URL prefix /admin → /observability — 避開 188 nginx SPA shadow All checks were successful CD Pipeline / deploy (push) Successful in 2m25s Details Root cause（curl 實證）： prod 188 nginx 對 /admin/* 設 try_files → SPA index.html fallback → Phase 27-31 的 6 個 Flask admin 路由全被 nginx 攔截 → 外部 GET /admin/ai_calls 回 7480 byte 靜態 HTML（同 etag = SPA shell） → 我之前說「6 admin 頁 prod 200」是回了 200，但 body 不是 Flask 渲染修法： Blueprint url_prefix /admin → /observability → 6 個觀測頁實際生效在 /observability/* 不被 SPA 遮蔽 → SPA frontend 仍擁有 /admin/* 命名空間（不破壞既有前端）更新範圍： - routes/admin_observability_routes.py: url_prefix + 註解全改 - 6 templates: 所有 href / fetch() 路徑改 /observability/ - tests/test_admin_observability_routes.py: client.get/post 路徑改 - 10/10 smoke tests 仍 PASS 統帥訪問新路徑： http://192.168.0.188/observability/ai_calls http://192.168.0.188/observability/host_health http://192.168.0.188/observability/budget http://192.168.0.188/observability/promotion_review http://192.168.0.188/observability/quality_trend http://192.168.0.188/observability/ppt_audit_history	2026-05-04 14:13:27 +08:00
OoO	82595ab4ac	test(p31): admin observability 6 路由 smoke tests (10/10 PASS) 防 Phase 27/28/29 6 個 admin 頁未來被改壞無人察覺。覆蓋： - /admin/ai_calls 200 + DB error fallback (2 cases) - /admin/promotion_review 200 - /admin/quality_trend 200 - /admin/budget 200 - /admin/budget/update/<id> 輸入驗證 (3 cases: 拒負 budget / 拒 alert>100 / 收正常) - /admin/ppt_audit_history 200 (掃 reports/ 不需 DB) - /admin/host_health 200 (mock requests.get 三主機全 down 仍 render) 技術重點： - 全 mock get_session，不接真 DB - jinja2 csrf_token() stub 避免 base.html 渲染失敗 - requests.get monkeypatch 避免測試誤打三主機 11434 跑法：venv pytest tests/test_admin_observability_routes.py -v	2026-05-04 13:51:07 +08:00
OoO	f2fbe5f929	feat(p30): admin nav 互聯 + deploy doctor v5.0 腳本 All checks were successful CD Pipeline / deploy (push) Successful in 2m33s Details (1) 6 個 admin 頁底部導覽全互聯（之前缺 Phase 29 兩頁的反向連結） - ai_calls / promotion_review / quality_trend / host_health 全部加 \|Budget\|PPT Audit\| 連結 - 統帥從任一頁都可一鍵跳到其他 5 頁 (2) scripts/deploy_doctor_v5.py — 統帥手動待辦自助檢查 5 階段檢查：env vars / DB migrations / Ollama 三主機 / LibreOffice / MCP servers - 14 個 v5.0 env vars（含 criticality 分級 FAIL/WARN/INFO） - 5 張 v5.0 必備 table（ai_calls/mcp_calls/ai_call_budgets/ rag_query_log/learning_episodes） - ai_call_budgets seed ≥8 筆檢查 - 三主機 /api/tags HTTP probe + healthy 數判定 - 退出碼：0=全綠 1=WARN 2=FAIL（可進 CI） - SSH 188 / 本機都能跑：python3 scripts/deploy_doctor_v5.py 統帥之後想知道「v5.0 還有啥沒部署」直接跑 doctor 看清單，不用再口頭追問哪些 env vars / 哪幾張 migration。	2026-05-04 13:48:06 +08:00
OoO	69ccf8029b	feat(p29): 預算管理頁 + PPT vision 歷史頁 — 完成 6 個 admin 觀測頁 All checks were successful CD Pipeline / deploy (push) Successful in 2m23s Details 承接 Phase 27/28（48b8fda）剩 2 個前端頁： 1. /admin/budget — 預算編輯器 - GET: ai_call_budgets × 當月 spent 即時對比 + throttle 狀態 - POST /admin/budget/update/<id>: AJAX 編輯 budget_usd / alert_pct - 不需 restart 立即生效（cost_throttle hourly cron 自動讀新值） - ratio ≥80% 黃 / ≥110% 紅 / throttled 標 ⚠️ THROTTLED 2. /admin/ppt_audit_history — PPT 視覺審核歷史 - 掃 reports/ 過去 7 日 .pptx 檔（檔名/大小/修改時間） - 顯示 PPT_VISION_ENABLED 狀態（true=daily 22:00 cron 自動跑） - 手動觸發 SOP 提示（SSH 188 跑單檔審核）完工里程碑：6 個 admin 頁 + 1 個導覽 - /admin/ai_calls (Phase 27) - /admin/promotion_review (Phase 27) - /admin/quality_trend (Phase 28) - /admin/host_health (Phase 28) - /admin/budget (Phase 29) ← 新增 - /admin/ppt_audit_history (Phase 29) ← 新增 Operation Ollama-First v5.0 — 前端互補互動系列收官	2026-05-04 13:44:08 +08:00
OoO	48b8fda7db	feat(p27+28): Admin Observability Dashboard — 4 個前端頁互補 Telegram All checks were successful CD Pipeline / deploy (push) Successful in 2m25s Details Operation Ollama-First v5.0 / Phase 27 + 28 — 戰役觀測前端化 routes/admin_observability_routes.py (新檔, 200+ 行) - admin_observability_bp blueprint，url_prefix='/admin' - /admin/ai_calls — Phase 27 主入口（KPI / by provider / TOP 100） - /admin/promotion_review — Phase 28 PromotionGate 待審列表 + 通過/拒絕按鈕 - /admin/quality_trend — Phase 25 caller 反饋趨勢視覺化 - /admin/host_health — 三主機 + MCP + cost throttle 即時健康 - 失敗安全：DB 查詢失敗回空清單 + 警告 banner（不 raise） - promotion_review_approve/reject 走 hash_human_approver SHA1[:8] 不存原 username templates/admin/ (4 個新檔) - ai_calls_dashboard.html 篩選 bar + 6 KPI cards + by provider + recent 100 - promotion_review.html 卡片列表 + 通過/拒絕 AJAX 按鈕（即時 UI feedback） - quality_trend.html avg score 升序排列 + 進度條 bar + 智能建議區 - host_health.html 三主機 HTTP probe + 已載入模型 + MCP + throttle 統帥提問「需要哪些前端讓兩者互補互動」答覆： 6 項最該前端化（已實作 4 項，剩 2 項為後續）： ✅ ai_calls 即時查詢 → /admin/ai_calls ✅ PromotionGate 待審核 → /admin/promotion_review (互動最強) ✅ caller 反饋趨勢 → /admin/quality_trend ✅ 三主機 + MCP + throttle → /admin/host_health ⏳ ai_call_budgets 預算管理 → Phase 29 補 ⏳ PPT 視覺審核結果列表 → Phase 29 補互補 Telegram 哲學： Telegram = push（重要事件主動通知） Web = pull（統帥隨時可查 / 互動審核 / 找問題） PromotionGate Stage 4：Telegram 推 awaiting_review + Web 批次審核（兩者皆可） app.py blueprint 註冊 + CSRF exempt（AJAX POST 走 server-side check） Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-04 13:36:51 +08:00
OoO	c7d04b2855	test(p26): 修 libreoffice not installed test patch path	2026-05-04 11:16:30 +08:00
OoO	72a7c385d5	feat(p26): PPT 視覺審核 daily 22:00 cron — minicpm-v 自動掃當天新生 .pptx All checks were successful CD Pipeline / deploy (push) Successful in 2m54s Details Operation Ollama-First v5.0 / Phase 26 — PPT 自我審視整合 services/ppt_vision_service.py 擴充： - check_ppt_file(pptx_path, max_slides=5) — 整檔視覺檢查 • LibreOffice headless 轉每張 slide 為 png • 對前 N 張跑 check_image • 彙總 issues + 平均 confidence • fail-safe：LibreOffice 不在 / 轉檔失敗 → 回 skip 不阻擋 - audit_recent_ppts(reports_dir, hours=24, max_files=10) • 掃 reports/ 過去 24h 新生 .pptx（getmtime filter） • 對每個檔跑 check_ppt_file • 彙總總 issues - push_ppt_audit_to_telegram(summary) • 有 issues 才推 Telegram（避免「無問題」洗版） • 每檔最多 3 張 slide / 每張 2 個 issue 列出 run_scheduler.py — 每日 22:00 cron - run_ppt_vision_audit task wrapper - PPT_VISION_ENABLED=false 時 service 內部 skip（不打 LLM）設計哲學：不動既有 5 個 prs.save() 呼叫點（risk 高）→ 改寫獨立 daily cron 集中處理零侵入 PPT 生成主流程 / 零 risk regression / feature flag OFF 預設部署需求： LibreOffice headless（apt install libreoffice）— 不在則 cron task 自動 skip + log tests/test_ppt_vision_audit.py (9 tests 全綠) - flag OFF skip / 目錄不存在 / 無 .pptx - 舊檔（>hours）filter / LibreOffice 不在 fail-safe - check_ppt_file flag/missing 容錯 - Telegram 推播：無 issues 不推 / 有 issues 推 regression: ppt_vision_service 既有 6 tests 全綠 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-04 11:16:11 +08:00
OoO	bd32e04dad	feat(p25): 反饋環深化 — caller-level quality 趨勢追蹤 + ROI 月報整合 All checks were successful CD Pipeline / deploy (push) Successful in 3m2s Details Operation Ollama-First v5.0 / Phase 25 — 反饋環自主學習深化 services/feedback_quality_tracker.py (180+ 行) - 純 SQL 統計，零 LLM 成本 - 4 個閾值常數（demote 👎×5/avg<2.5 / promote 👍×10/avg>=4.5） - compute_caller_quality_trend(days=7) — 取近 N 日各 caller 反饋 - get_caller_recommendations() — 給 token 日報/ROI 月報用 • 規則 1: 👎 ≥ 5 次 → review • 規則 2: avg < 2.5 + 樣本足 → review • 規則 3: 👍 ≥ 10 + avg ≥ 4.5 → promote（建議關閉 Gemini fallback） - should_demote_caller(caller) — 自動降權判斷（戰役預設不啟用） - render_quality_summary() — 給訊息用 emoji 摘要 ROI 月報整合（services/roi_report_service.py）： - 加 Section 「💬 Caller 反饋趨勢（30 日）」TOP 10 by 最低 avg - 加 Section 「🔮 智能建議」最多 3 條（review / promote） - 失敗 swallow 不影響月報主流程訊息範例: 💬 Caller 反饋趨勢（30 日） ⚠️ openclaw_qa: avg 1.85/5 (👍2 👎8 n=12) ➖ hermes_analyst: avg 3.10/5 (👍5 👎3 n=10) ✅ ppt_gemini: avg 4.75/5 (👍12 👎0 n=15) 🔮 智能建議 ⚠️ openclaw_qa: 近 30 日 👎 反饋 8 次 (avg 1.85/5) — 建議統帥檢視 prompt 或切換 model ✅ ppt_gemini: 近 30 日 👍 反饋 12 次 — 可考慮關閉 Gemini fallback 純走 Ollama tests/test_feedback_quality_tracker.py (10 tests 全綠) - 4 閾值常數 / DB fail 安全 / 空 trends 容錯 - demote 規則（👎 多次）/ promote 規則（👍 多次）/ neutral 不觸發 - should_demote_caller 樣本不足保護 - trend 分類（positive/negative/neutral/no_data）正確依 ADR-032 RAG 自主學習迴圈 + ADR-033 護欄 #1 不直接改 caller 行為（避循環自動修正失控），只產出建議給統帥審視。 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-04 11:12:52 +08:00
OoO	0476d3ae4e	feat(p24): ROI 月報生成器 — 每月 1 日 09:00 推 Telegram All checks were successful CD Pipeline / deploy (push) Successful in 2m49s Details Operation Ollama-First v5.0 / Phase 24 — 戰役 ROI 自動量化 services/roi_report_service.py (200+ 行) - BASELINE 戰前估算（gemini 50M/$20、nim 5.8M、ollama 30M、total $25/月） - query_last_month_stats() — SQL 查上月 ai_calls + mcp_calls + rag_query_log - render_roi_report(stats) — HTML 訊息（含 5 區塊：成本攔截/provider 分布/RAG/MCP+Cache/KPI） - generate_and_send_roi_report() — 主入口，推 Telegram + 寫 ai_insights 長期記錄 - 達標標記：Gemini -23.5% ✅ / RAG 命中 ≥25% ✅ Telegram 訊息範例: 📊 ROI 月報 2026年04月 💰 成本攔截 Gemini: 35,000,000 tokens / $14.00 vs 戰前: 50,000,000 / $20.00 ✅ 攔截: 15,000,000 tokens / $6.00 (30.0%) 🤖 Provider 分布 🧠 RAG 自主學習（含 saved_call / 反饋分數） 🔧 MCP + Cache 📈 戰役 v5.0 KPI ✅ 達標 run_scheduler.py — 每日 09:00 跑（內部判斷月初第 1 日才送） - run_roi_monthly_report_if_new_month task wrapper - 失敗 swallow log，不影響其他排程 tests/test_roi_report_service.py (7 tests 全綠) - BASELINE 必要欄位 / 月份範圍計算 (1月→去年12月) - 達標訊息含 ✅ + 攔截數字 - 未達標訊息含 ⚠️ - 空 stats 容錯 / DB fail 回空 dict 不 raise Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-04 11:04:14 +08:00
OoO	1da7564567	feat(p22+23): caller 整合 model_router (sales_copy) + cost_throttle (claude) Some checks failed CD Pipeline / deploy (push) Has been cancelled Details Operation Ollama-First v5.0 / Phase 22.1 + Phase 23 — 路由治理整合 Phase 22.1: services/ollama_service.py generate_sales_copy - 短文 < 100 字（estimated_length = product_name × 5）→ 走 model_router - model_router 推算 → 短文 gemma3:4b / 長文 llama3.1:8b - MODEL_ROUTER_ENABLED=false 時 select_model 直接回 self.model（向下相容） - router 失敗 swallow（fallback self.model 不影響主流程） Phase 23: services/anthropic_service.py is_available() - 新增 cost_throttle 整合：claude provider throttle 時 is_available=False - caller 看到 False 自動走 Gemini fallback，不送 Claude 請求 - COST_THROTTLE_ENABLED=false 時不影響（戰役預設 OFF） - cost_throttle 不可用時 try/except 不阻擋（向下相容）行為對照：戰前：sales_copy 永遠用 self.model (llama3.1:8b) 戰後（flag OFF）：完全相同戰後（flag ON）：商品名 < 20 字 → gemma3:4b 短文，提速 50% 戰前：Claude 燒到月底超預算才告警，無自動節流戰後（throttle flag OFF）：完全相同戰後（throttle flag ON）：claude 月底推估 > 110% → is_available=False → caller fallback Gemini 自動省錢 regression: 既有 retry_chain / anthropic / model_router test 全綠 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-04 11:00:04 +08:00
OoO	390c32b05d	feat(p21): Caller × Context 動態 Model Router + ADR-034 All checks were successful CD Pipeline / deploy (push) Successful in 2m45s Details Operation Ollama-First v5.0 / Phase 21 — 動態路由治理 services/llm_model_router.py (160+ 行) - 純規則引擎，零 LLM 成本（Python lambda predicate） - 6 caller × 12 條路由規則： • sales_copy: 短文 < 100 字 → gemma3:4b / 長文 → llama3.1:8b • hermes_analyst: gap > 20% 或銷量 < -50% → qwen3:14b / 預設 hermes3 • aider_heal: diff > 200 行 → qwen2.5-coder:32b / 預設 7b • openclaw_qa: query > 200 字或 multi_turn → qwen3:14b / 預設 qwen2.5:7b-instruct • ppt_vision: minicpm 不健康 → llava / 預設 minicpm-v • ea_engine: require_chain_of_thought → deepseek-r1:14b / 預設 Gemini - feature flag MODEL_ROUTER_ENABLED 預設 OFF（向下相容） - 失敗安全：predicate 例外 skip 到下一條 tests/test_llm_model_router.py (18 tests 全綠) - T1 flag OFF 不路由 - T2 sales_copy 短/長文路由 - T3 hermes 簡單/複雜 SKU - T4 aider_heal 簡單/重構 - T5 ppt_vision 主備援 - T6 ea_engine CoT 路由 - T7 predicate 例外容錯 - T8 utility 函數 ADR-034 — Caller × Context 動態 Model Router - 6 caller 路由規則對應表 - 5 段否決方案（LLM-based / hardcode / 配置檔 / 統一升級） - Phase 21.2-21.6 戰略性遷移計畫 - V1-V3 驗收 SQL（caller 整合後 model 分布觀察）關聯：Primary + Secondary 兩台 GCP 已備齊 10 模型（67GB 對稱）支援所有路由規則；caller 整合可分階段進行（Phase 21.2-21.5）。 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-04 10:54:12 +08:00

1 2 3 4 5 ...

430 Commits