固化 PChome AI dashboard benchmark guardrails
Some checks failed
CD Pipeline / deploy (push) Has been cancelled
Some checks failed
CD Pipeline / deploy (push) Has been cancelled
This commit is contained in:
@@ -90,6 +90,7 @@
|
||||
- 2026-07-02 起 PChome controlled-apply artifacts 必須提供 read-only retention policy;`/api/ai/pchome-growth/mapping-backlog/direct-mapping-retry-candidate-exception-controlled-apply-artifact-retention-package` 會掃描 verifier inputs、identity readback、controlled apply preflight、executor、replay、drift verifier、drift recovery、compact readback 八類 artifacts,依 `keep_latest_per_family` 保留最新 evidence 並保護 active compact readback chain,只輸出 prune candidates 與 retention receipt,不直接刪檔、不寫 DB、不執行 destructive prune。
|
||||
- 2026-07-02 起 PChome dashboard 第一視窗必須呈現 AI automation product truth:`_load_pchome_growth_command_center` 需 read-only 聚合 receipt replay、drift verifier、drift recovery、compact readback 與 artifact retention policy,產品面直接顯示 selector readback、drift count、retention 保留數與 automation lane 狀態;不得退回只有 raw API / artifact / log 才看得到 AI 自動化結果的模式。
|
||||
- 2026-07-02 起 PChome dashboard 第一視窗可見文案必須使用繁中營運語言;`retention`、`Compact`、`Artifact`、`DB writes`、`prune` 等工程詞只能留在 API / artifact / 測試證據層,不得出現在第一視窗。產品面用「異動」、「最新回讀」、「證據留存」、「資料寫入」、「清理建議」呈現同一批 AI 自動化 truth。
|
||||
- 2026-07-02 起 PChome AI automation dashboard 必須符合外部 benchmark guardrails:參考 Grafana / Datadog / New Relic / Atlassian Statuspage 的狀態分層、下一步優先、證據按需與 golden signals 做法;第一視窗必須輸出「已自動落地、已驗證、異動狀態、下一步」,且 `tests/test_pchome_dashboard_benchmark_guardrails.py` 必須鎖住這些要求。
|
||||
- V10.644 起 `/ai_intelligence` 的商品明細列不得只用句子描述比價;每列必須顯示 PChome 價格、MOMO 參考價、差距、可信度四格價格證據,並保留下一步按鈕。單位價候選需顯示單位價與單位,候選待確認或缺資料則以「待補 / 候選待確認」呈現,不得捏造價格。
|
||||
- V10.645 起 `/ai_intelligence` 的商品明細分流切換後,必須顯示「這類商品怎麼處理」的行動摘要,包含件數、近 7 天業績、平均可信度、最大價差、代表商品與主按鈕;使用者不得只能看到商品列表而不知道下一步。
|
||||
- V10.646 起 `/ai_intelligence` 的商品明細必須提供搜尋與排序;搜尋至少涵蓋商品、分類、商品編號與 MOMO 候選資訊,排序至少支援優先級、近 7 天業績、價差、下滑幅度與可信度。搜尋/排序後的行動摘要與明細列表必須使用同一批結果。
|
||||
|
||||
@@ -55,12 +55,30 @@ Baymard 的商品頁與比較 UX 研究強調:使用者需要清楚的 product
|
||||
- 不採用「大量放寬 threshold 來拉覆蓋率」:會污染核心比價資料。
|
||||
- 不採用「把外部網站 UI 風格直接照搬」:只吸收資訊架構、證據呈現與工作流做法。
|
||||
|
||||
## 2026-07-02 AI automation dashboard benchmark
|
||||
|
||||
### 來源觀察
|
||||
|
||||
- Grafana dashboard best practices 強調 methodical dashboards、分層下鑽、alerts 導向 dashboard、dashboard/panel 說明與版本化 dashboard JSON。
|
||||
- Datadog dashboards 強調即時掌握系統健康、KPI、趨勢、異常、優先處理與根因診斷。
|
||||
- New Relic golden signals dashboard 強調用少數核心訊號快速掌握服務健康,並用 template variables 動態篩選。
|
||||
- Atlassian Statuspage / incident communication 強調狀態溝通、事件自動化與使用者可理解的狀態更新。
|
||||
|
||||
### 落地到 PChome AI automation dashboard
|
||||
|
||||
- 狀態分層: 第一視窗必須能用 `success / warning / danger / neutral` 呈現健康、等待、需處理、已完成,不把所有狀態混成同一種卡片。
|
||||
- 下一步優先: 第一視窗摘要必須直接顯示下一個機器動作;raw package、endpoint、artifact hash 放在 API / evidence 層。
|
||||
- 證據按需: 產品畫面顯示「回讀、異動、留存、資料寫入」等營運語;receipt、hash、artifact、DB table 名稱只留在 detailed readback 與 tests。
|
||||
- Golden signals: AI automation 第一視窗至少要有四個核心訊號:已自動落地、已驗證、異動狀態、下一步。
|
||||
- Dashboard-as-code: benchmark 結論必須進 tests;`tests/test_pchome_dashboard_benchmark_guardrails.py` 是 PChome AI dashboard benchmark guard。
|
||||
|
||||
## 下一步 TODO 候選
|
||||
|
||||
1. 建立 `identity_evidence` 正規化 payload,讓 matcher 回傳 identifier/spec/variant evidence。
|
||||
2. 在覆核頁新增差異高亮:色號、香味、容量、入數、任選、效期、來源新鮮度。
|
||||
3. 將 PPT / AI payload 的比價項目拆成 identity evidence 與 offer evidence。
|
||||
4. 每週 benchmark 結果若命中上述 TODO,回寫 `TODO_NEXT_STEPS.txt` 或新增 ADR / memory。
|
||||
5. 將 PChome AI automation benchmark guardrails 套到 `/ai_intelligence`、`/observability/overview` 與後續 AI Agent surfaces。
|
||||
|
||||
## 參考來源
|
||||
|
||||
@@ -69,3 +87,7 @@ Baymard 的商品頁與比較 UX 研究強調:使用者需要清楚的 product
|
||||
- Schema.org Product / Offer / AggregateOffer: https://schema.org/Product, https://schema.org/Offer, https://schema.org/AggregateOffer
|
||||
- Baymard Product Page UX Best Practices: https://baymard.com/blog/current-state-ecommerce-product-page-ux
|
||||
- Baymard Product Comparison UX: https://baymard.com/blog/provide-comparison-features
|
||||
- Grafana Dashboard best practices: https://grafana.com/docs/grafana/latest/visualizations/dashboards/build-dashboards/best-practices/
|
||||
- Datadog Dashboards: https://docs.datadoghq.com/dashboards/
|
||||
- New Relic Golden Signals dashboard: https://newrelic.com/instant-observability/golden-signals-dashboard-for-new-relic
|
||||
- Atlassian Statuspage user guide: https://support.atlassian.com/statuspage/docs/read-the-statuspage-user-guide/
|
||||
|
||||
@@ -89,7 +89,7 @@
|
||||
|
||||
進行中 / 下一步,必須照順序:
|
||||
|
||||
1. 為 dashboard AI automation surface 補 UI wording guard,避免 raw engineering terms 回到產品第一視窗。
|
||||
1. 將 PChome retry lane 的 receipt / replay / drift / product dashboard pattern 複製到下一條 safe automation lane。
|
||||
|
||||
完成標準:
|
||||
|
||||
@@ -135,7 +135,7 @@
|
||||
|
||||
## P2 - External Benchmark And Mainstream Product Practice
|
||||
|
||||
狀態: 未開始。
|
||||
狀態: 已完成第一版,後續持續擴充。
|
||||
|
||||
目的: 把外部主流專業產品網站 / SaaS / observability dashboard 的做法落到規則與測試。
|
||||
|
||||
@@ -146,12 +146,20 @@
|
||||
- Evidence-on-demand: receipts、hashes、raw payload 放詳細層,不壓在主畫面。
|
||||
- Manual review 是例外處理,不是 primary flow。
|
||||
- 產品面不顯示 raw stack traces、provider internals、database naming。
|
||||
- Golden signals: 第一視窗必須能回答已自動落地、已驗證、異動狀態、下一步。
|
||||
- Dashboard-as-code: benchmark 結論必須進 focused tests,不靠口頭記憶。
|
||||
|
||||
未開始 / 下一步,必須照順序:
|
||||
已完成:
|
||||
|
||||
1. 對照目前 AI automation command center 與主流 observability / workflow dashboard pattern。
|
||||
2. 把 benchmark 結論轉成 UI guardrails 與 tests。
|
||||
3. 為 controlled apply、receipt replay、drift verifier 寫入正式產品文案。
|
||||
- 已參考 Grafana、Datadog、New Relic、Atlassian Statuspage 官方資料。
|
||||
- 已更新 `docs/guides/external_professional_benchmark.md` 的 AI automation dashboard benchmark。
|
||||
- 已新增 `tests/test_pchome_dashboard_benchmark_guardrails.py`,鎖住狀態分層、下一步優先、證據按需與 golden signals。
|
||||
- PChome dashboard 第一視窗已新增「今日 AI 自動化狀態」:已自動落地、已驗證、異動狀態、下一步。
|
||||
|
||||
下一步:
|
||||
|
||||
1. 將同一套 benchmark guardrails 套到 `/ai_intelligence` 與 `/observability/overview`。
|
||||
2. 為後續 safe automation lanes 建立同樣的 first-viewport summary。
|
||||
|
||||
完成標準:
|
||||
|
||||
@@ -211,8 +219,8 @@
|
||||
| P0.10 | Controlled-apply artifact retention policy | 已完成 | retention policy route + focused tests | 接入 product dashboard first viewport |
|
||||
| P1.1 | Dashboard AI automation first-viewport surface | 已完成 | dashboard command center reads compact + retention packages | P1.2 wording guard |
|
||||
| P1.2 | UI wording guard for no raw engineering terms | 已完成 | focused wording guard test | P2.1 benchmark guardrails |
|
||||
| P2.1 | External benchmark encoded into requirements | 未開始 | benchmark guide exists | 下一個實作 |
|
||||
| P3.1 | Extend receipt / replay / drift pattern to more lanes | 未開始 | current retry lane complete | P1 後選下一條 safe lane |
|
||||
| P2.1 | External benchmark encoded into requirements | 已完成 | benchmark guide + focused guard test + first-viewport status | P3.1 safe lane expansion |
|
||||
| P3.1 | Extend receipt / replay / drift pattern to more lanes | 未開始 | current retry lane complete | 下一個實作 |
|
||||
|
||||
## 後續回報格式
|
||||
|
||||
|
||||
Reference in New Issue
Block a user