docs(recovery): record 110 control-plane cpu blocker [skip ci]

This commit is contained in:
Your Name
2026-07-01 12:35:45 +08:00
parent a550adb555
commit a3dd6a3199

View File

@@ -1,3 +1,18 @@
## 2026-07-01 — 12:35 110 CPU / control-plane live readback
**照主線釐清的問題**
- 110 CPU/load 尚未恢復,不是因為仍有 AWOOOI runner / Stock smoke job 在跑node exporter 讀回 `awoooi_host_gitea_actions_active_container_count=0``awoooi_host_gitea_actions_active_process_count=0``awoooi_host_gitea_actions_active_process_cpu_percent=0`runaway browser / stock smoke process count 也為 `0`
- 可信高壓證據仍成立:`node_load1=17.45``node_load5=16.28``awoooi_host_load5_per_core=1.38``node_pressure_cpu_waiting_seconds_total` 持續增加;`ssh wooo@192.168.0.110 true` 仍在 port 22 userauth 階段 timeout。
- 110 本機 control plane 也卡住node exporter textfile 顯示多個 legacy runner `systemctl show` 查詢超過 10 秒 timeout`docker_stats.prom` mtime 仍停在舊值 `1.782778066e+09`,不可用舊 `docker_container_cpu_cores{container_name="gitea"}` 當前事實。
- 110 cAdvisor 目前只暴露 root cgroup CPU metric無 per-container Docker CPU attribution外部讀取面無法可靠指認單一容器。現行 blocker 必須維持為 `harbor_110_remote_ssh_publickey_auth_stalled` + 110 local console/control-path repair而不是再 drain 188 runner 或重跑 Harbor workflow。
- public route readback 未恢復Gitea health `200`,但 `registry.wooo.work/v2/``harbor.wooo.work/api/v2.0/health``http://192.168.0.110:5000/v2/` 仍為 `502`
**下一個 P0 動作**
- 需要在 110 本機 console 或已恢復的 SSH control path 執行 `scripts/reboot-recovery/recover-110-control-path-and-harbor-local.sh --check`,再按 check 結果做受控 `--apply-*`;在 SSH userauth timeout 前,不再用遠端 Harbor repair workflow 製造重試壓力。
- 188 產品容器讀回 healthy但 188 host SLO 仍有 root-owned `/usr/local/bin/awoooi-startup.sh` 舊版未部署問題;`ollama` 無 passwordless sudo無法從本 lane 安裝 repo 已修正版本到 `/usr/local/bin` / `/etc/systemd/system`
**邊界**:本輪只讀 node exporter / cAdvisor / Prometheus / public routes / bounded SSH未讀 secret / token / `.env` / raw sessions / SQLite / auth未讀 `.runner` 內容;未使用 GitHub / `gh` / GitHub API未 workflow_dispatch未重啟主機、未 restart Docker / Nginx / K3s / DB / firewall。
## 2026-07-01 — 12:33 AI Loop LOG writeback SSH auth-stall blocker 細分
**照主線修正的問題**