From 35939bb746325a1e6ffdfbb23d06e2995c458e4d Mon Sep 17 00:00:00 2001 From: Your Name Date: Wed, 3 Jun 2026 08:22:12 +0800 Subject: [PATCH] docs: record knowledge quality rail rollout [skip ci] --- docs/LOGBOOK.md | 45 +++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 45 insertions(+) diff --git a/docs/LOGBOOK.md b/docs/LOGBOOK.md index cb297c59..d6b33152 100644 --- a/docs/LOGBOOK.md +++ b/docs/LOGBOOK.md @@ -1,3 +1,48 @@ +## 2026-06-03|Knowledge Base 資料品質軌道與 CD SourceLink 紅燈修復 + +**背景**:統帥要求前端不要再以大量文字呈現 KM / 告警 / 自動化狀態,而要讓使用者用圖表快速理解資料品質與流程證據。本輪接續 Knowledge Base 可讀性治理,新增「資料品質軌道」;推版後 Gitea CD post-deploy 也暴露 `AwoooP Source Correlation Applied-Link Smoke` 對舊 incident status-chain 讀取 timeout,必須一併收斂。 + +**本次調整**: +- `/zh-TW/knowledge-base` 新增 `資料品質軌道`,以 5 條比例 rail 呈現目前列表的 `待審核`、`7 天內更新`、`事故關聯`、`訊號完整`、`Playbook 關聯`。 +- 軌道只吃既有真欄位:`status`、`updated_at`、`related_incident_id`、`related_playbook_id`、`tags`;不新增假資料,也不宣稱新增 AI 自動修復能力。 +- `apps/web/messages/zh-TW.json` / `en.json` 補齊 i18n,維持鏡像一致。 +- CD 紅燈修復:`k8s/awoooi-prod/06-deployment-api.yaml` 將 API `startupProbe.failureThreshold` 從 `12` 提高到 `60`,允許 DB bootstrap / worker wiring 冷啟完成;live patch 已先套 production 並恢復 API `2/2 ready`。 +- `platform_operator_service._fetch_source_correlation_summary()` 的 heartbeat 查詢加上同一個 `window_start`,避免 source correlation heartbeat 掃全表造成 status-chain 舊 incident 查詢拖慢。 + +**本機驗證**: +- `cmp -s apps/web/messages/zh-TW.json apps/web/messages/en.json` 通過。 +- `git diff --check` 通過。 +- `pnpm --dir apps/web exec tsc --noEmit --tsBuildInfoFile /tmp/kb-quality-rail-20260603.tsbuildinfo` 通過。 +- `NEXT_PUBLIC_API_URL=https://awoooi.wooo.work NEXT_PRIVATE_BUILD_WORKER_COUNT=1 pnpm --filter @awoooi/web build` 通過;KB route size `53.5 kB`。 +- `python3 -m py_compile apps/api/src/services/platform_operator_service.py apps/api/src/main.py apps/api/src/db/base.py` 通過。 +- `ruby -e 'require "yaml"; YAML.load_file("k8s/awoooi-prod/06-deployment-api.yaml")'` 通過。 +- 本機 Browser / Playwright:桌機與 390px 手機皆 `hasQualityRail=true`、五個品質標籤存在、`horizontalOverflow=0`、`canScrollVertical=true`。 +- 本地無 pytest venv,`python3 -m pytest ...` 因 `No module named pytest` 未執行;完整測試由 Gitea CD 收斂。 + +**正式部署**: +- KB code commit:`02d13e0b fix(web): add knowledge base quality rail`。 +- 首輪 Gitea code-review run:`3596` / run number `2490` / success。 +- 首輪 Gitea CD run:`3595` / run number `2489` / build-and-deploy success,但 post-deploy failure;根因是 `status-chain?incident_id=INC-20260505-25E744` read timeout,且 API rollout 一度呈現 `1/2 ready`。 +- Ops fix commit:`6432e477 fix(ops): stabilize api rollout source correlation smoke`。 +- Gitea code-review run:`3598` / run number `2492` / success。 +- Gitea CD run:`3597` / run number `2491` / tests success、build-and-deploy success、post-deploy-checks success。 +- Deploy marker:`87db4b69 chore(cd): deploy 6432e47 [skip ci]`。 + +**正式驗證**: +- Health:`https://awoooi.wooo.work/api/v1/health` → `status=healthy`、`environment=prod`、`mock_mode=false`、`version=1.0.0`。 +- K8s:`awoooi-api 2/2`、`awoooi-web 2/2`、`awoooi-worker 1/1`,image 均為 `6432e4777032af5fd652b3674276148f3e80273b`。 +- Production KB API:`/api/v1/knowledge?limit=1` 回 `total=2501`,樣本含 `status=review`、`updated_at`、`related_incident_id`、`tags`。 +- Production 桌機:`https://awoooi.wooo.work/zh-TW/knowledge-base?_v=6432e477-kb-quality-prod` 顯示 `資料品質軌道` 與五個品質標籤;`horizontalOverflow=0`、`canScrollVertical=true`。 +- Production 手機 390px:`hasQualityRail=true`、`hasQualityLabels=true`、`hasCountRatio=true`、`horizontalOverflow=0`、`canScrollVertical=true`。 +- SourceLink status-chain:`/api/v1/platform/status-chain?project_id=awoooi&incident_id=INC-20260505-25E744` → HTTP 200、約 `1.03s`,`verification_status=applied_link_verified`、`applied_link_total=90`、`latest_applied_link_at=2026-06-03T00:16:25.381159`。 +- CD post-deploy:Alert Chain smoke `9/9`、監控覆蓋率 `100.0%`、SourceLink smoke `status=passed` 且 `writes_incident_state=false / writes_auto_repair_result=false / writes_ticket=false`、Playwright smoke `5 passed`。 + +**進度更新**: +- Knowledge Base 產品化可讀性由 `56%` 上修至 `60%`。 +- 前端設計系統 / i18n / 素材治理由 `52%` 上修至 `53%`。 +- CI/CD SourceLink / API rollout 健康修補由 `70%` 上修至 `100%`(本輪紅燈已收斂)。 +- 首頁產品化入口維持 `80%`;AwoooP/HITL 維持 `99.2%`;完整 AI 自動化飛輪仍約 `66%`,因本輪新增的是資料品質呈現與部署健康修復,不是新的 AI 自動執行能力。 + ## 2026-06-03|Knowledge Base 列表訊號 Chips 與 Raw Tags 收合落地 **背景**:統帥繼續要求前端頁面不要只堆文字、也不要像資料庫 dump。上一輪 Knowledge Base 已補摘要與真分類分佈;production 驗證後仍可見 `human_approved`、`execution_failed`、`human_intervention` 等 raw tags 直接出現在列表,對操作員不夠友善。