為因應人工智慧(AI)基礎設施快速規模化的企業需求,NVIDIA 於日前推出 DGX Spark Enterprise Manageability 框架,旨在提供全面的操作管理能力,從部署到退役全程監控,以實現高效、安全且可預測的 AI 工作負載管理。這項新框架特別針對企業資訊科技(IT)團隊,確保 AI 系統能達到與其他關鍵基礎設施同等的營運成熟度。
NVIDIA DGX Spark Enterprise Manageability 框架的推出,反映了企業在 AI 部署上面臨的挑戰。隨著 AI 專案從開發階段邁入企業級應用,對於系統的可佈建性、可觀察性、安全性及可管理性要求日益提高。該框架提供模組化架構,能與企業現有的 IT 工具(如 Chef、Puppet、Ansible、Tanium 及 Canonical Landscape)無縫整合,而非取代。其運作模式採用代理程式less SSH 執行,並輸出標準化的 JSON 格式結果,便於整合至配置管理資料庫(CMDB)或安全資訊與事件管理(SIEM)系統。
這套框架涵蓋 AI 基礎設施的六大營運生命週期階段,包括採購、初始佈建、持續監控、維護、事件響應,以及終端設備退役與再部署。針對部分限制直接網際網路存取的使用環境,DGX Spark Custom Installation 功能允許 IT 團隊在不需即時網路連線的情況下預先配置裝置及客製化軟體,確保系統能正常運作。