13 KiB
AI Agent 互動、溝通、學習與成長證據報告
日期:2026-06-11(台北時間) 文件定位:P2-403A 證據面 + P2-403B AgentSession / Redis Streams live read model gate + P2-403C Redis dry-run gate + P2-403D learning writeback approval package + P2-403E Telegram receipt approval package + P2-403F owner-approved learning dry-run / fixture dry-run、P2-403G runtime write gate review、P2-403H post-write verifier package、P2-403I runtime verifier evidence implementation review、P2-403J 報表真相 / 日週月報 / Agent 工作量 / 風險自動化 review、P2-403L 報表派送與自動處理啟動前閘門、API 與治理頁 UI。 事實邊界:本波只建立可見證據面、read model gate、報表治理 review 與 runtime readiness gate,不啟動 runtime worker、不建立 DB migration、不開 Redis consumer group、不發 Telegram、不寫 Gateway queue、不排程實發報告、不啟動中低風險 auto worker、不執行生產優化、不顯示工作視窗對話內容。
0. P2-403J 補記:報表真相、日週月報與風險自動化 Review
2026-06-12 已新增 P2-403J:ai_agent_report_truth_actionability_review_v1、ai_agent_report_automation_review_v1、docs/evaluations/ai_agent_report_truth_actionability_review_2026-06-12.json、docs/evaluations/ai_agent_report_automation_review_2026-06-12.json、GET /api/v1/agents/agent-report-truth-actionability-review、GET /api/v1/agents/agent-report-automation-review 與治理頁區塊。
本段把週報全 0 固定為「低可信可處置異常」,不是健康訊號;同時把本產品正式 Telegram 告警目標固定為 AwoooI SRE 戰情室(SRE_GROUP_CHAT_ID),其他 TG Bot / 群組 / direct Telegram API 路徑都列為待收斂旁路風險。P2-403J 同步新增日報 / 週報 / 月報、每個 Agent 工作量、圖表化報告、AI 分析建議與高 / 中 / 低風險 policy review。此段仍只讀,不發 Telegram、不改 CronJob、不改 Alertmanager / Prometheus、不改 route / receiver、不讀 secret、不寫 work item / KM / PlayBook trust、不開 runtime worker、不排程實發報告、不啟動中低風險 auto worker。
0.1 P2-403L 補記:報表派送與自動處理啟動前閘門
2026-06-12 已新增 P2-403L:ai_agent_report_runtime_readiness_v1、docs/evaluations/ai_agent_report_runtime_readiness_2026-06-12.json、GET /api/v1/agents/agent-report-runtime-readiness 與治理頁區塊。
本段把日週月報真正送出前需要的 runtime lane 拆成 7 個 gate:報表排程器、Telegram Gateway queue、送達與讀報回執、AI 讀報後分析、中低風險自動處理 guard、高風險統帥審核、post-action verifier。政策上低 / 中風險可在 guard 通過後自動處理,但目前 live delivery、Gateway queue write、AI runtime worker、中低風險 auto worker、高風險自動執行與生產優化仍全部為 0 / false。
1. 結論
已完成 P2-403A、P2-403B、P2-403C、P2-403D、P2-403E、P2-403F、P2-403G、P2-403H、P2-403I、P2-403J 與 P2-403L:讓統帥能在治理頁看到 OpenClaw / Hermes / NemoTron 的互動、接手、學習與成長是否真的有證據,並看到 live read model、Redis dry-run、handoff envelope、ack / dead-letter / replay、learning writeback approval、Telegram receipt approval、fixture dry-run、runtime write gate review、post-write verifier package、runtime verifier evidence review、報表真相、日週月報、Agent 工作量、圖表化報告、風險自動化政策與報表 runtime 啟動前閘門下一步要通過哪些 gate。
目前真相:
| 項目 | 狀態 |
|---|---|
| 契約與證據面板 | 已完成 |
GET /api/v1/agents/agent-interaction-learning-proof |
已完成 |
GET /api/v1/agents/agent-live-read-model-gate |
已完成,只讀 gate |
/zh-TW/governance?tab=automation-inventory 顯示 |
已完成 |
| AgentSession safe read fields | 已定義,未查 live DB |
| Redis Streams envelope / consumer gate | 已定義,consumer group 未啟用 |
| rollback plan / no-write smoke | 已定義 |
| runtime verifier evidence review | 已定義,只讀 review |
| live AgentSession readback | 未啟用,數量 0 |
| Agent message / handoff receipts | 未啟用,數量 0 |
| learning writeback | 未啟用,數量 0 |
| Telegram digest receipts | 未啟用,數量 0 |
| Report delivery / AI analysis / auto optimization | 未啟用,數量 0 |
| Telegram Gateway queue / 中低風險 auto worker | 未啟用,數量 0 |
這代表使用者現在可以看見「哪裡已準備好、哪裡仍未運作、被哪個 gate 阻擋、下一步要如何驗證」。但還不能宣稱三個 Agent 已經在 production runtime 主動互傳訊息或自主學習。
2. 你可以怎麼看到、感受到
| 感知方式 | UI / 通道 | 目前狀態 | 之後亮綠燈條件 |
|---|---|---|---|
| Agent 心跳 | governance proof panel | read model gate 已定義,live count 0 |
agent_sessions safe read no-write smoke 通過後才可讀 live |
| Agent 發話 / 收話收據 | governance proof panel | 待 Redis consumer group | Redis Streams XADD + consumer ack 可 replay |
| 互相接手 | AwoooP timeline / governance proof panel | 待 handoff envelope | parent_turn_id 串起 OpenClaw / Hermes / NemoTron turns |
| 互相挑戰 | AwoooP timeline | 契約已定義 | turn_type=challenge 且有補證 / 拒收紀錄 |
| 學習回寫 | governance proof panel | 待 learning writeback gate | knowledge_entries、playbook_trust_history、learning_failure_log 有新增 |
| 成長曲線 | governance proof panel | 待 replay / scorecard 趨勢 | replay 分數改善、誤判率下降、補證率下降 |
| Telegram 摘要 | Telegram Bot + governance receipt | policy 已定義,實發未啟用 | Gateway dry-run、E2E token 注入與送達驗證 |
3. 三 Agent 分工
| Agent | 可被看見的證據 | 成長指標 |
|---|---|---|
| OpenClaw | 仲裁請求、challenge count、approval gate decision、post-verification learning receipt | 錯誤批准率下降、人工覆核退回率下降、風險分類穩定度上升 |
| Hermes | evidence dossier、runbook update proposal、knowledge entry、Telegram digest draft | 證據包完整率上升、缺欄位率下降、runbook reuse 次數上升 |
| NemoTron | replay job score、candidate model comparison、failure pattern label、promotion gate recommendation | replay 通過率上升、失敗模式覆蓋率上升、候選模型誤判率下降 |
4. 本波產出
| 產物 | 內容 |
|---|---|
docs/schemas/ai_agent_interaction_learning_proof_v1.schema.json |
強制 live flags / counts / Telegram / transcript / 私有推理維持安全邊界 |
docs/evaluations/ai_agent_interaction_learning_proof_2026-06-11.json |
P2-403A + P2-403B + P2-403C + P2-403D + P2-403E + P2-403F + P2-403G + P2-403H + P2-403I + P2-403J committed snapshot,完成度 100%,live count 全為 0 |
docs/schemas/ai_agent_live_read_model_gate_v1.schema.json |
強制 DB / Redis / worker / Telegram / learning writeback gate 維持未批准 |
docs/evaluations/ai_agent_live_read_model_gate_2026-06-11.json |
P2-403B committed snapshot,完成度 55%,live count 全為 0 |
docs/evaluations/ai_agent_redis_dry_run_gate_2026-06-11.json |
P2-403C committed snapshot,完成度 65%,live count 全為 0 |
docs/evaluations/ai_agent_learning_writeback_approval_package_2026-06-11.json |
P2-403D committed snapshot,完成度 72%,KM / PlayBook trust / timeline / replay score live write count 全為 0 |
docs/evaluations/ai_agent_telegram_receipt_approval_package_2026-06-11.json |
P2-403E committed snapshot,完成度 80%,queued / delivered / acknowledged / failed / retry live count 全為 0 |
docs/schemas/ai_agent_runtime_write_gate_review_v1.schema.json |
P2-403G runtime write gate review schema;強制 runtime write、KM / PlayBook / timeline / replay / Telegram 全部維持未授權 |
docs/evaluations/ai_agent_runtime_write_gate_review_2026-06-12.json |
P2-403G committed snapshot,完成度 94%,4 個 write target、4 個 approval gate、雙重批准 / dry-run hash / post-write verifier counts 全為 0 |
GET /api/v1/agents/agent-runtime-write-gate-review |
只讀 API;不寫 KM、不更新 PlayBook trust、不寫 timeline / replay score、不發 Telegram |
docs/schemas/ai_agent_post_write_verifier_package_v1.schema.json |
P2-403H post-write verifier package schema;強制 canonical readback、rollback work item、Telegram failure receipt 與 verifier execution 全部維持未授權 |
docs/evaluations/ai_agent_post_write_verifier_package_2026-06-12.json |
P2-403H committed snapshot,完成度 97%,4 個 verification target、3 個 failure lane、4 個 operator action 與 live verifier execution 0 |
GET /api/v1/agents/agent-post-write-verifier-package |
只讀 API;不讀 canonical target、不寫 rollback work item、不發 Telegram、不寫 KM / PlayBook trust / timeline / replay score |
docs/schemas/ai_agent_runtime_verifier_evidence_review_v1.schema.json |
P2-403I runtime verifier evidence review schema;強制 verifier implementation、canonical readback、rollback work item、Telegram failure receipt 與 live verifier execution 全部維持未授權 |
docs/evaluations/ai_agent_runtime_verifier_evidence_review_2026-06-12.json |
P2-403I committed snapshot,完成度 99%,5 個 evidence check、4 個 implementation review lane、4 個 operator action 與 live verifier execution 0 |
GET /api/v1/agents/agent-runtime-verifier-evidence-review |
只讀 API;不實作或執行 verifier、不讀 canonical target、不寫 rollback work item、不發 Telegram |
docs/schemas/ai_agent_report_truth_actionability_review_v1.schema.json |
P2-403J 報表真相與告警有效性審查 schema;全 0 週報異常、日週月 truth gate、Telegram route 收斂與 operator actions |
docs/evaluations/ai_agent_report_truth_actionability_review_2026-06-12.json |
P2-403J committed snapshot,完成度 100%,route change、Telegram send、CronJob / Alertmanager 變更全為 false |
GET /api/v1/agents/agent-report-truth-actionability-review |
只讀 API;不發 Telegram、不改 route / receiver、不讀 secret、不寫 work item / KM / PlayBook trust |
docs/schemas/ai_agent_report_automation_review_v1.schema.json |
P2-403J 日週月報、Agent 工作量、圖表化報告、AI 分析建議與高 / 中 / 低風險 policy review schema |
docs/evaluations/ai_agent_report_automation_review_2026-06-12.json |
P2-403J committed snapshot,3 個報表週期、3 個 Agent 工作量、4 個 chart package、5 個 AI recommendation;live delivery / auto optimization 全為 0 |
GET /api/v1/agents/agent-report-automation-review |
只讀 API;不排程實發、不送 Telegram、不啟動中低風險 auto worker、不執行生產優化 |
docs/schemas/ai_agent_report_runtime_readiness_v1.schema.json |
P2-403L 報表派送、Telegram Gateway queue、讀報回執、AI 讀報後分析、中低風險自動處理、高風險審核與 post-action verifier 啟動前閘門 schema |
docs/evaluations/ai_agent_report_runtime_readiness_2026-06-12.json |
P2-403L committed snapshot,7 個 runtime lane、3 個報表週期 gate、4 個風險政策、7 個 operator decision;live delivery / Gateway queue write / AI runtime / 中低風險 auto worker 全為 0 |
GET /api/v1/agents/agent-report-runtime-readiness |
只讀 API;不排程實發、不寫 Gateway queue、不呼叫 Bot API、不啟動 AI runtime worker、不執行生產優化 |
apps/api/src/services/ai_agent_interaction_learning_proof.py |
只讀 loader 與安全驗證 |
apps/api/src/services/ai_agent_live_read_model_gate.py |
P2-403B 只讀 loader;拒絕 live DB query、Redis consumer、unsafe fields、Telegram 與 writeback |
GET /api/v1/agents/agent-interaction-learning-proof |
只讀 API,不啟動 worker、不碰 Redis / DB runtime、不發 Telegram |
GET /api/v1/agents/agent-live-read-model-gate |
只讀 API,不連 DB、不讀寫 Redis、不發 Telegram |
| governance UI | 新增證據階梯、目前真相、P2-403B live read gate、P2-403C Redis dry-run gate、P2-403D learning writeback approval package、P2-403E Telegram receipt approval package、P2-403F owner-approved learning dry-run / fixture dry-run、P2-403G runtime write gate review、P2-403H post-write verifier package、P2-403I runtime verifier evidence review、P2-403J 報表真相 / 日週月報 / Agent 工作量 / 圖表 / AI 建議、P2-403L 報表 runtime readiness、Agent lane、可觀測訊號、runtime gates、前端 redaction |
5. 後續優先順序
| 優先 | ID | 工作 | gate |
|---|---|---|---|
| 1 | P2-403M | no-write dry-run / SRE 戰情室 Gateway queue 草案 / readback verifier | report runtime dry-run |
| 2 | P2-404 | runtime worker shadow / no-write execution evidence gate | runtime shadow evidence |
6. 紅線
- 不顯示工作視窗對話內容。
- 不顯示提示詞、私有推理、推理鏈。
- 不顯示機密值、token、credential、raw payload。
- 不把 live count
0說成已運作。 - 不讓 Agent 互相自行批准 production route、升級、重啟、Telegram 實發或 paid API。