fix(rag): use bge embeddings on GCP Ollama lane

2026-05-06 05:49:27 +08:00
parent a4fece11cc
commit 09256be62c
7 changed files with 29 additions and 15 deletions
--- a/docs/LOGBOOK.md
+++ b/docs/LOGBOOK.md
@@ -14,7 +14,7 @@
 - 新增 `INCIDENT_LLM_TIMEOUT_SECONDS`，production 設為 240s；Incident LLM 外層 guard 不再硬編 25s，且不得低於 `OPENCLAW_TIMEOUT`。
 - 新增 `AGENT_DEBATE_GLOBAL_TIMEOUT_SEC`，production 設為 260s；Phase 2 debate 不再被 90s 固定值卡死。
 - `ollama_endpoint_resolver` 改為非敏感工作（embedding/RAG/deep_rca/Hermes/code_review 等）GCP-A 優先、GCP-B 備援、111 兜底；只有 `local_required` / `privacy_sensitive` / `dr` 維持 local-first。
- `PlaybookRAGService.embed_text()` 改為依序嘗試配置的 Ollama endpoints，單一 endpoint 失敗不再直接放棄 RAG。
+- `PlaybookRAGService.embed_text()` 改為依序嘗試配置的 Ollama endpoints，單一 endpoint 失敗不再直接放棄 RAG；Playbook/Knowledge RAG embedding model 改為 ADR-110 的 `bge-m3:latest`，避免 GCP-A/B 因舊 `nomic-embed-text` 回 404 後再掉到不可達的 111。

 **驗證**：
 - `py_compile` touched backend files OK；ruff `E9,F401,F821,F841` OK。