Files
awoooi/docs/operations/AI-TECHNOLOGY-RADAR-READBACK.md
Your Name 889b7b4229
Some checks failed
Code Review / ai-code-review (push) Successful in 15s
CD Pipeline / tests (push) Successful in 1m42s
CD Pipeline / build-and-deploy (push) Successful in 3m58s
CD Pipeline / post-deploy-checks (push) Has been cancelled
Ansible / Reboot Recovery Contract / validate (push) Has been cancelled
feat(governance): refresh AI agent market radar
2026-06-26 11:55:21 +08:00

86 lines
7.4 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# AI 技術雷達與滾動更新讀回
- 產生時間:`2026-06-26T03:43:13.171222+00:00`
- 整體治理完成度:`42.2%`
- AI 技術雷達來源成功率:`100.0%`
- 監控技術項目:`21`
- 技術領域:`6`
- 官方 / primary sources`52`
- 來源失敗:`0`
- 需要審核變更:`5`
- 高優先級項目:`15`
- 滾動更新狀態:`near_real_time_watch_ready_integration_gated`
## 技術領域覆蓋
| 技術領域 | 技術數 | 高優先級 | 需要審核 | 代表技術 |
|---|---:|---:|---:|---|
| `agent_frameworks` | `6` | `5` | `1` | OpenAI Agents SDK, NVIDIA Nemotron + NeMo Agent Toolkit, LangGraph, Google Agent Development Kit |
| `evaluation_and_observability` | `3` | `3` | `1` | OpenTelemetry GenAI Semantic Conventions, Ragas, Langfuse |
| `mcp_and_a2a` | `2` | `2` | `2` | Model Context Protocol SDK, Agent2Agent Protocol |
| `model_providers` | `3` | `3` | `1` | OpenAI Model Platform, Anthropic Claude Platform, Google Gemini Platform |
| `model_serving` | `2` | `0` | `0` | Hugging Face Text Generation Inference, vLLM |
| `rag_and_vector` | `5` | `2` | `0` | LlamaIndex, LangChain, pgvector, Qdrant |
## 高優先級審核佇列
| 技術 | 領域 | 優先級 | Gate | 下一步 |
|---|---|---|---|---|
| Model Context Protocol SDK | `mcp_and_a2a` | `p0` | `scorecard_required_before_integration` | 刷新 scorecard若涉及 SDK/API/route/Telegram/host write 則送人工審核。 |
| Agent2Agent Protocol | `mcp_and_a2a` | `p1` | `scorecard_required_before_integration` | 刷新 scorecard若涉及 SDK/API/route/Telegram/host write 則送人工審核。 |
| Anthropic Claude Platform | `model_providers` | `p0` | `scorecard_required_before_integration` | 刷新 scorecard若涉及 SDK/API/route/Telegram/host write 則送人工審核。 |
| Langfuse | `evaluation_and_observability` | `p1` | `scorecard_required_before_integration` | 刷新 scorecard若涉及 SDK/API/route/Telegram/host write 則送人工審核。 |
## Agent 專業分工
| Agent | 專業角色 | 自動化範圍 | 需要審核的邊界 |
|---|---|---|---|
| OpenClaw | 生產決策仲裁者、風險分級與最後 policy guard | 維持現有 production baseline、讀取 replay / shadow 評分、拒絕無證據替換 | 任何取代、降級、生產路由切換都必須通過 replay / shadow / canary 與人工批准。 |
| NemoTron | 離線回放評估者、模型能力比較、合約輸出 smoke gate | 只讀 request pack、比對候選輸出、產生 replay scorecard 草稿 | 不得自行呼叫外部 NIM/API、不得讀 labels 作答、不得進生產路由。 |
| Hermes | 知識管理、RAG 整理、報告草稿與長期技能庫維護 | 整理 primary source 摘要、建立 no-send 日週月報、準備人審包 | 不得同步 raw chat history、不得保存 secret、不得直接發 Telegram live report。 |
| MarketRadar | AI 技術市場雷達、版本監控、來源失敗偵測 | 每 6 小時只讀 primary sources、產生 freshness / review queue | 不得自動新增 SDK、不得自動修改 provider route 或 workflow 行為。 |
| Critic / Reviewer | 獨立審核、反例檢查、整合風險評分 | 檢查政策旗標、來源可靠性、成本與資安風險 | 只能輸出 blocked / candidate / owner_review不得直接執行寫入。 |
## 滾動更新控制
| 節奏 | Agent 可自動做什麼 | 輸出 | Gate |
|---|---|---|---|
| 每 6 小時 | 讀取官方文件、PyPI、npm、GitHub release、primary source hash。 | AI 技術 watch report、來源失敗清單、review queue。 | `read_only_only` |
| 每日 | 依 business applicability、成本、依賴、資安、AWOOOI fit 分類。 | 日報摘要與中低風險自動處理建議。 | `no_send_report_until_delivery_gate` |
| 每週 | 刷新 scorecard決定 sandbox / replay / adapter design 優先級。 | 週報、優先序、候選整合審查包。 | `scorecard_required_before_replay` |
| 每月 | 彙整趨勢,提出 roadmap / watch-only / retire 建議。 | 月報與策略審核包。 | `human_review_for_strategy_or_production_change` |
## 主流實務來源證據
| 實務 | 官方來源 | AWOOOI Gate | Agent 分工 |
|---|---|---|---|
| OpenAI Agents SDK專家協作、tool execution、approvals、state 由產品掌控 | https://developers.openai.com/api/docs/guides/agents | `sandbox_orchestration_no_write` | OpenClaw 負責 policy guardMarketRadar 追版本Hermes 產審核包。 |
| NVIDIA Nemotron 3 Ultra / NeMo長任務 Agent、profiling、evaluation、MCP / A2A 互通 | https://developer.nvidia.com/blog/nvidia-nemotron-3-ultra-powers-faster-more-efficient-reasoning-for-long-running-agents/ | `nemotron_replay_evaluator_only` | NemoTron 只做離線 replay / evaluator / smoke gate不接 production routing。 |
| LangGraphdurable execution、human-in-the-loop、stateful workflow runtime | https://docs.langchain.com/oss/python/langgraph/overview | `incident_workflow_kernel_replay_first` | OpenClaw 仲裁狀態轉移Hermes 記錄 replay 證據與交接原因。 |
| MCP標準化 agent-to-tool / resource / prompt 連接,且需明確 user consent | https://modelcontextprotocol.io/specification/2025-06-18 | `read_only_tool_registry_before_write_adapter` | MarketRadar 監控 SDK / specCritic 檢查資料權限與 tool safety。 |
| A2A跨框架 Agent 溝通、委派與互通MCP 處理工具、A2A 處理 Agent 對 Agent | https://a2a-protocol.org/latest/ | `agent_to_agent_interop_watch_only` | OpenClaw 設定協作邊界Hermes 彙整 handoff 記錄NemoTron 比對輸出。 |
| OpenTelemetry GenAIAgent / LLM / MCP trace 語意慣例,支援可觀測與稽核 | https://opentelemetry.io/docs/specs/semconv/registry/attributes/gen-ai/ | `trace_semconv_mapping_before_runtime_export` | Critic 定義稽核欄位MarketRadar 追語意規範版本Hermes 產日週月報。 |
## 優先工作清單
| 順序 | 工作 | 優先級 | 自動化模式 | 完成定義 |
|---:|---|---|---|---|
| 1 | AI 技術雷達 primary source 監控產品化 | `P0` | `agent_auto_read_only` | API、snapshot、Markdown、schema、測試與 production readback 都能顯示技術領域、來源與 Gate。 |
| 2 | 近即時版本 / release / docs 變更偵測 | `P0` | `agent_auto_schedule_read_only` | 每 6 小時可跑 watch失敗來源會進日報不會自動整合。 |
| 3 | OpenClaw / Hermes / NemoTron / MarketRadar 專業分工與成長紀錄 | `P0` | `agent_auto_read_model_human_review_for_write` | 每個 Agent 的角色、輸出、學習寫回與限制都能被前端讀回。 |
| 4 | AI 技術 scorecard 與 sandbox / replay 優先級 | `P1` | `agent_propose_owner_review` | 高優先級變更先進 scorecard再進 no-cost/no-write sandbox 或 replay 計畫。 |
| 5 | Telegram Bot 報告與高風險審核橋接 | `P1` | `blocked_until_telegram_send_gate` | 低中風險只告警回報;高風險需 owner approval 後才可發送或執行。 |
| 6 | 新 AI 技術探索與 watchlist 擴充 | `P2` | `agent_auto_discover_human_classify` | GitHub topic / package registry / 官方 blog 可提出候選,但加入正式 watchlist 前需審核。 |
## 仍被 Gate 擋下
- `sdk_installation_approved=false`
- `paid_api_calls_approved=false`
- `production_routing_approved=false`
- `telegram_send_approved=false`
- `model_provider_switch_approved=false`
- `host_write_approved=false`
- `openclaw_replacement_approved=false`
- `replay_shadow_canary_gate_required=true`
- `cost_and_data_boundary_review_required=true`