Some checks failed
CD Pipeline / workflow-shape (push) Successful in 0s
CD Pipeline / cancel-stale-cd (push) Has been skipped
CD Pipeline / build-and-deploy (push) Has been cancelled
CD Pipeline / post-deploy-checks (push) Has been cancelled
CD Pipeline / tests (push) Has been cancelled
2.4 KiB
2.4 KiB
Public Maintenance Fallback Runbook
目標
主機或 VM 重啟時,public 網站不得直接露出空白 502。正式做法分兩層:
- L0 local edge:110 / 188 / 120 / 121 的 Nginx 仍可回應時,用
ops/maintenance/maintenance.html攔截502/503/504,顯示靜態維護頁。 - L1 external cloud/CDN:如果 99 / VMware / 家用路由 / 對外 IP 整段不可達,由外部雲端主機或 CDN health check 切到同一份靜態維護頁。
必要特性
- 維護頁不得讀取
.env、cookie、session、DB、K3s、Redis、NFS 或內部 API。 - 維護頁必須是靜態檔,能被 Nginx、Cloudflare Pages、S3/R2 static hosting、GCS static site 或任一低成本外部 VM 直接服務。
- L0 與 L1 使用同一份內容,避免使用者在不同故障層看到不同訊息。
- 502 fallback 只能處理 upstream failure;若整個 public edge unreachable,必須由 L1 接手。
L0 受控套用
- 將
ops/maintenance/maintenance.html部署到 edge host 的/var/www/maintenance/maintenance.html。 - 在每個 public
server {}內 includeops/maintenance/nginx-502-maintenance-snippet.conf的等價內容。 nginx -t通過後才 reload Nginx。- 用壞 upstream staging vhost 或暫存 upstream 驗證
X-AWOOOI-Fallback: local-maintenance,不得用 production DB / app restart 當測試手段。
L1 外部雲端/CDN 建議
優先順序:
- Cloudflare / CDN health check + fallback origin:最快切換,對使用者體驗最好。
- 低成本外部 VM:可控性高,能同時跑 blackbox probe;需要 VM patching 與監控。
- Object storage static hosting:成本最低,適合維護頁;DNS/CDN health check 仍要另外配置。
L1 active 條件:
probe_success對主要 public routes 連續 2 分鐘失敗,或awoooi_reboot_event_detected == 1且awoooi_reboot_auto_recovery_slo_ready == 0超過 10 分鐘,或- 99 / 110 / 188 / 120 / 121 / 112 任一 P0 host down 且 public route 同時 502 / timeout。
驗證
- L0:對測試 vhost 讀回
200或503的維護頁 HTML,且 headerX-AWOOOI-Fallback=local-maintenance存在。 - L1:從外部網路讀回靜態維護頁,且不經過 99 / 110 / 188 / 120 / 121 / 112。
- Recovery:主要 upstream 連續 2 分鐘健康後切回正式 origin;Telegram 發送 recovery 通知,並在 cold-start scorecard 留下 readback。