Amazon OpenSearch Service 近日整合了應用程式監控、原生的 Amazon Managed Service for Prometheus 功能以及人工智慧(AI)代理追蹤能力,並將這些服務統一匯集到 OpenSearch UI 的可觀測性工作區中。這項升級為開發者和 IT 專業人士提供單一介面,旨在大幅提升雲端系統的監控與除錯效率。
統一遙測數據提升診斷效率
這項新的整合讓使用者能夠在 OpenSearch UI 中,直接透過 PromQL 查詢 Prometheus 指標,同時檢視儲存在 Amazon OpenSearch Service 中的日誌(logs)與追蹤(traces)。過去,這些不同類型的遙測數據往往分散在不同工具中,現在則能實現一站式的資料關聯分析,有助於 IT 團隊快速識別系統問題。根據《Amazon Web Services》的報導,其目的在於提供一個統一的平台,簡化複雜雲端環境的營運管理。
AI代理追蹤深化除錯能力
特別針對 AI 代理(AI agent)的應用場景,Amazon OpenSearch Service 導入了 AI 代理追蹤功能,使開發者能追溯 AI 代理的完整推理鏈(reasoning chain),甚至精確定位到導致錯誤的工具呼叫。報導指出,由於 AI 代理的行為不像傳統微服務(microservices)那般具有確定性,它們會根據大型語言模型(LLM)的回應、工具執行結果及連鎖推理(chained reasoning)做出自主決策,因此需要捕捉 AI 特定訊號的語義追蹤(semantic tracing)來進行根本原因分析。
例如,在一個多代理旅行規劃應用程式中,若 AI 代理表現不佳,使用者可透過 OpenSearch UI 的 Agent Traces 區塊,檢視其推理步驟,包括根代理範圍(root agent span)、LLM 呼叫及工具調用,並透過追蹤圖(trace map)看到調用的模型、Token 消耗量及訊息交換。當工具呼叫發生錯誤時,系統能清楚標示,協助開發者快速找出問題根源。這項功能依賴於 OpenTelemetry 生成式 AI 語義慣例(generative AI semantic conventions),該慣例定義了如 gen_ai.operation.name、gen_ai.usage.input_tokens 等標準屬性,讓 Amazon OpenSearch Service 能將這些跨度(span)按操作類型分類,並在 UI 中呈現代理追蹤樹和追蹤圖視圖。