Files
ewoooc/docs/memory/history_logs.md
OoO 89e7f2ccd2
All checks were successful
CD Pipeline / deploy (push) Successful in 1m46s
fix(ai): 擴大 ElephantAlpha 暫時性 fallback
2026-04-30 13:59:12 +08:00

8.6 KiB
Raw Blame History

EwoooC 專案歷史紀錄 (History Logs)

📌 重大里程碑

  • 2026-04-29: ADR-018 四 AI Agent 自動化控制面立案Hermes / NemoTron / OpenClaw / ElephantAlpha 的告警、自癒、記憶與 HITL 邊界完成文件化。
  • 2026-04-29: ADR-017 Phase 3f 模組化收尾立案,啟動 DB metadata、路由雙註冊、cache、scheduler、模板與死碼清理六線收斂。
  • 2026-04-18: 專案正式正名為 EwoooCAI 治理架構 Phase 4 結案V10.3)。
  • 2026-02-13: WOOO AIOps SaaS 核心模組完成。
  • 2026-01-24: 曾嘗試遷移至 K3s後於 04-18 審計確認回歸 Docker Compose
  • 2026-01-12: 專案啟動MOMO 監控系統初版。

📅 詳細更新日誌 (考古存檔)

2026-04-29ADR-017 Phase 3f 模組化收尾啟動

  • DB metadata 救急: database/manager.py 改為顯式載入 permission / AI / autoheal / import / vendor / realtime_sales ORMPostgreSQL 初始化透過 process-local guard + advisory lock 執行 Base.metadata.create_all(),避免新環境漏表與一般流量重複碰 DDL。
  • realtime_sales_monthly 補 ORM: 新增 database/realtime_sales_models.py,並同步 docker/postgres/init/01-init.sql 欄位,避免 fresh volume 先建出窄表後造成匯入欄位靜默遺失。
  • 啟動自檢: app.py 啟動時檢查 34 張 expected metadata tables缺表直接 fail fast防止「看似啟動成功但 create_all 漏表」。
  • 路線校正: 12-Agent 盤點確認 3f-1 需先處理 API shadow 與 system_bp prefix 分裂3f-3 需先補 EventRouter 同步告警 facade再改 scheduler 裸 except

2026-04-29AI 自動化閉環與四 Agent 控制面

  • ADR-018 立案: 正式把 ElephantAlpha 納入 Hermes / NemoTron / OpenClaw 之外的 L3 Orchestrator形成四 AI Agent 自動化控制面。
  • 通知鏈補強: EventRouter 補 AI 失敗降級、Telegram file queue、成功後 replay、去重冷卻與 silence 檢查。
  • 自癒安全回看: AutoHeal 保護 momo-db / momo-postgresDB/DNS 無法安全修復時降級為 alert / wait retry。
  • 記憶閉環: raw ai_insights insert 路徑補 embedding enqueueOpenClaw learning 支援 stale reset 與 missing embedding backfill。
  • L2 action 落地: flag_for_human_reviewroute_to_kmmark_for_relearn 改為可審計 OpenClaw memory 寫入。
  • 可觀測性落地: /metrics 匯出 EventRouter dispatch/latency、safe action、Telegram replay、AutoHeal action/duration 指標。
  • Smoke Dashboard: 新增 /ai_automation_smoke/api/ai-automation/smoke,提供四 Agent 閉環 read-only 快檢。
  • Smoke 趨勢保存: Smoke API 追加 JSONL 精簡紀錄dashboard 顯示最近 OK / Warning / Critical 趨勢。
  • Smoke 趨勢管理: Dashboard 增加 JSONL 匯出、清理與每日摘要,清理範圍限定 smoke history 檔。
  • Smoke 每日摘要推播: 新增 Telegram 手動推播 API 與 momo-scheduler 每日 09:10 摘要任務,只讀 smoke history。
  • Grafana AI 觀測: 新增 MOMO AI Automation Overview provisioning dashboard覆蓋 EventRouter、safe action、replay、AutoHeal Prometheus 指標。
  • Grafana 線上載入與 scrape 修復: 188 active Grafana 載入 4 dashboardsactive Prometheus 補 momo-app scrape job並修復 gunicorn preload LocalProxy boot crash。
  • CD 健康檢查強化: Gitea Actions health check 改為 internal container health + external URL 雙檢查,降低 rebuild 後短暫 502 誤判。
  • CD Sync reload 修復: rsync 後明確 restart 三容器,避免 bind-mounted Python 檔案更新但 gunicorn/scheduler/bot process 未 reload。
  • CD Gunicorn 掛載強化: momo-app./gunicorn.conf.py:/app/gunicorn.conf.py:ro,避免容器 restart 後回吃 image 內舊 gunicorn 設定。
  • Metrics schema drift 降噪: /metricsrealtime_sales_monthly 總筆數改用 raw COUNT(*),避免 ORM 欄位 drift 造成 Prometheus scrape warning。
  • CD Rebuild 切換強化: rebuild 模式改成先 build 成功、再短暫 stop/rm/recreate 三應用容器,避免 no-cache build 長時間 502。
  • ElephantAlpha NIM fallback 強化: production 帳號呼叫 Ultra 253B 會 404預設改用可呼叫的 Nemotron Super 49B v1.5,並加入 70B / 8B fallback。
  • DatabaseManager 連線池收斂: PostgreSQL 每 worker pool 收斂為 pool_size=2/max_overflow=3,並以 cache 重用 engine/session。
  • Ollama embedding API 遷移: embedding client 優先使用官方 /api/embed,舊節點才 fallback /api/embeddings,降低 deprecated endpoint 與 timeout 風險。
  • Scheduler 例外記錄強化: 清除 scheduler.py 靜默 except/passChrome 清理、EDM optional 欄位、備份 insight/Telegram 失敗均保留 log。
  • AI metrics baseline 觀測: /metrics 在尚無 AI 自動化事件時仍輸出 momo_ai_* zero-baseline series避免 app 重啟後 Grafana/Prometheus 看不到 metric names。
  • ElephantAlpha transient fallback: NVIDIA NIM primary model timeout、connection error、429 與 5xx 會嘗試下一個 fallback model400 等非暫時性請求錯誤不重試。

2026-04-28~29Phase 3e 重構大戰 + daily_sales cache 隱形 bug 根除

  • app.py 縮減 -10.8%: 7,386 → 6,590 行11 commits 全綠零 502。
  • 抽 Blueprint: /api/categoriescategory_routes.py (8fce73b)/api/test_url + /brand_assetsmisc_routes.py (e676840)。
  • 揭發 4 個改進版死碼: refactor-specialist 28 條雙重 URL 等價性矩陣指出 /growth_analysis/daily_sales/api/export/excel/abc/api/run_task 在 routes/*.py 已重構但因 Flask first-registered-wins 規則被 app.py 同 URL @app.route shadow 從未生效。本輪先啟用 daily_sales (8fefea0),餘三條待後續。
  • daily_sales cache 機制重構 (ADR-016): 「匯入 15323 筆但業績頁面看不到」隱形 bug 根因 = gunicorn 4 worker 各持獨立 module-level dict。先嘗試 N-POST broadcast hack 命中率僅 9.4%debugger + web-researcher + migration-engineer 三方共識);改用 DB fingerprint (MAX(snapshot_date), COUNT(*)) 雙閘失效 (3971fd4),強一致無浪費。
  • clear_cache endpoint 加 @login_required: 修 critic HIGH-3外部 POST 無 auth 回 400CSRF + login 雙重攔截)。
  • hook 9 PoC 強化 (136e65b): vuln-verifier 對 .claude/hooks/momo-prod-guard.js 跑 9 條 PoC 8 條繞過 → 補強 heredoc / writable CTE / multi-statement / pg_read_file / COPY FROM PROGRAM / /run/secrets / /proc/*/environ 全擋。
  • 12 Agent 並行作戰實踐: 8 完成 + 4 rate-limited學到 critic 必須先於 fullstack-engineer 完成feedback_agent_dispatch_order.md
  • 殘留 HIGH-2 技術債: app.py 仍 43 處 _SALES_PROCESSED_CACHEsales_analysis 等獨立 cache待後續抽 services/cache_manager.py

2026-04-28AI 引擎穩定性與 CI/CD 幽靈容器大規模修復

  • 幽靈容器排除: 發現 docker-compose.yml 漏掛載 routes 目錄,導致 Telegram Bot 長期執行舊代碼。
  • 埠位衝突修復: 移除 depends_on: postgres 以解決與 orphan momo-db 的 5432 埠位競爭問題。
  • CI/CD 強化: cd.yaml 引入 --no-cachedocker compose restart 以應對快取損壞與容器識別問題。
  • AI 備援優化: 放寬 Ollama 健康檢查至 10s請求超時至 180s修復 Gemini 429 速率限制與 MCP 404 報錯。
  • 網站 502 修復: 手動恢復因容器重建中斷的 110-188 SSH 隧道。

2026-02-13重開機服務修復與 Clawdbot 整合

  • 更新 system_startup.sh v2.0,移除 Harbor 相關邏輯。
  • 重新設計 Monitor 首頁,移除不存在的服務連結。
  • 實作 Ollama Server 端的 Clawdbot 整合腳本。

2026-02-09域名健康監控與服務修復

  • 新增 domain-health-monitor.sh,每 5 分鐘自動巡檢。
  • 修復 n8n Task Runner 403 錯誤。

2026-02-07CI/CD Dashboard 與 Registry 遷移

  • 完全移除 Harbor改用輕量級 Docker Registry。
  • 開發 CI/CD Dashboard 頁面 (/cicd)。

2026-01-28核心問題修復

  • 502 Bad Gateway: 發現 Docker 網路棧故障,新增自動重啟機制。
  • OOM 問題: 修復業績匯入進程因記憶體消耗過大被 SIGKILL 的問題。
  • Ollama 監控: 實作 AI 服務器健康專項監控。

🛠️ 過往技術爭議與決策 (ADR 前身)

  • 資料流向: 確立 daily_sales_snapshot 為 SOT同步至 realtime_sales_monthly
  • 快取機制: 使用 FileLock 解決 Gunicorn 多 Worker 重建快取競爭。
  • 時區處理: 強制使用 Asia/Taipei 並於 SQLite 存儲 naive datetime。

詳細原始紀錄請參閱 Git Commit History 或 110 主機備份目錄。