Files
awoooi/apps/api
Your Name 75b404379b
Some checks failed
CD Pipeline / build-and-deploy (push) Failing after 2m7s
fix(critic-h2-h4): proactive_inspector metric 改名 + probe_success fallback
H2 — metric semantic 切換污染 baseline:
- cpu_usage_awoooi_api → cpu_usage_node_188
- memory_usage_awoooi_api → memory_usage_node_188
原 metric_name 對應 container working set,新 PromQL 改為 node-level ratio
(cadvisor 停止後的替代)。語意完全不同但保留同名 → 既有 DynamicBaseline
模型用舊單位訓練的 σ 對新值失真,5 分鐘 inspector 週期會狂報假 anomaly。
改名後 baseline 從零學習,初期 sample 數不足會被 _has_enough_samples 守門
跳過告警,安全度過 30 個週期暖機期。

H4 — probe_success 全部不可達假觸發:
- 1 - avg(probe_success)
+ 1 - avg(probe_success or on() vector(1))
原 expr 在 Blackbox 全部 target 失聯時 avg 回空 vector → _fetch_current_value
若把空當 0 → 1-0=1 遠超 0.05 threshold → 5min 一次假告警。
fallback 視為全部成功(值=1,1-1=0),真實 probe down 由獨立的
BlackboxProbeFailure rule 偵測,責任分離。

部署後驗證:
- baseline 表新增 metric_name='memory_usage_node_188' / 'cpu_usage_node_188' 的 row
- 舊 metric_name='memory_usage_awoooi_api' / 'cpu_usage_awoooi_api' 的 row 30 天後可清理
- proactive_inspection_logs 30 個週期內看 _baseline_warmup_skipped 條目而非假 anomaly

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-04-26 20:40:57 +08:00
..