docs(logbook): record GCP-A Ollama failover
This commit is contained in:
@@ -1,3 +1,12 @@
|
||||
## 2026-05-25 | GCP-A Ollama 不可達,runtime 暫切 GCP-B
|
||||
|
||||
- GCP-A `34.143.170.20` 從本機、110、GCP-B 均不可達:ping 100% loss,TCP `22/80/443/11434` timeout,`ssh gcp-a` timeout。
|
||||
- 兩個本機 gcloud 帳號 `owen.hy.tsai@gmail.com` / `owen.tsai@gmail.com` 均缺 `compute.instances.get` / `getSerialPortOutput`,無法從控制面 describe、serial log 或 reset GCP-A;需由具 Compute 權限者查 VM / firewall / NIC / serial console。
|
||||
- GCP-B `34.21.145.224` 驗證健康:SSH 正常、`systemctl is-active ollama=active`、`/api/version` 回 `0.22.1`、`/api/tags` 約 0.1s。
|
||||
- 先前 live hotfix `kubectl set env` 被 ArgoCD self-heal 依 Git source 撤回;因此改走 GitOps source,commit `ca0045ee` 暫時將 `k8s/awoooi-prod/04-configmap.yaml` 與 `06-deployment-api.yaml` 的 `OLLAMA_URL` 改為 GCP-B。
|
||||
- ArgoCD 已同步 `ca0045ee`,`awoooi-api` 2/2 Ready;`https://awoooi.wooo.work/api/v1/health` 回 `healthy`,Ollama component `up`,最近 API log 只看到 `34.21.145.224` embedding / health 成功。
|
||||
- 注意:health label 仍稱 `ollama_gcp_a`,但目前 primary URL 已暫指 GCP-B;GCP-A 修復後需恢復 ADR-110 primary,並補監控 label / topology 呈現避免 primary label 與實際 host 混淆。
|
||||
|
||||
## 2026-05-25|T168 Callback AwoooP status-chain snapshot 持久化
|
||||
|
||||
**背景**:
|
||||
|
||||
Reference in New Issue
Block a user