docs(logbook): record GCP-A Ollama failover

This commit is contained in:
Your Name
2026-05-25 10:16:04 +08:00
parent ca0045eeeb
commit 753879b45f

View File

@@ -1,3 +1,12 @@
## 2026-05-25 | GCP-A Ollama 不可達runtime 暫切 GCP-B
- GCP-A `34.143.170.20` 從本機、110、GCP-B 均不可達ping 100% lossTCP `22/80/443/11434` timeout`ssh gcp-a` timeout。
- 兩個本機 gcloud 帳號 `owen.hy.tsai@gmail.com` / `owen.tsai@gmail.com` 均缺 `compute.instances.get` / `getSerialPortOutput`,無法從控制面 describe、serial log 或 reset GCP-A需由具 Compute 權限者查 VM / firewall / NIC / serial console。
- GCP-B `34.21.145.224` 驗證健康SSH 正常、`systemctl is-active ollama=active``/api/version``0.22.1``/api/tags` 約 0.1s。
- 先前 live hotfix `kubectl set env` 被 ArgoCD self-heal 依 Git source 撤回;因此改走 GitOps sourcecommit `ca0045ee` 暫時將 `k8s/awoooi-prod/04-configmap.yaml``06-deployment-api.yaml``OLLAMA_URL` 改為 GCP-B。
- ArgoCD 已同步 `ca0045ee``awoooi-api` 2/2 Ready`https://awoooi.wooo.work/api/v1/health``healthy`Ollama component `up`,最近 API log 只看到 `34.21.145.224` embedding / health 成功。
- 注意health label 仍稱 `ollama_gcp_a`,但目前 primary URL 已暫指 GCP-BGCP-A 修復後需恢復 ADR-110 primary並補監控 label / topology 呈現避免 primary label 與實際 host 混淆。
## 2026-05-25T168 Callback AwoooP status-chain snapshot 持久化
**背景**