人工智慧(AI)新創公司 Multiverse Computing 於今日推出一套創新服務,透過應用程式(App)與開發者應用程式介面(API),提供經過壓縮的 AI 模型。這項名為「CompactifAI」的技術,旨在大幅降低企業部署大型語言模型(LLM)所需的運算成本,進而提升 AI 技術的普及性與應用彈性。
近年來,AI 技術的發展伴隨高昂的基礎設施成本,成為許多企業導入 AI 的主要障礙。Multiverse Computing 的解決方案直接切入此痛點,宣稱在不犧牲模型準確性的前提下,能將 OpenAI、Meta、DeepSeek 及 Mistral AI 等主流供應商的模型進行優化壓縮,使其能在成本效益更高的硬體上運行,解決 AI 應用成本過高的問題。
AI成本挑戰與高效解決方案
由於 AI 伺服器與運算資源費用持續飆升,企業在評估 AI 投資報酬率時面臨巨大壓力。CompactifAI 技術利用量子啟發式方法,結合張量網路(tensor networks)和低秩分解(low-rank factorization),並輔以傳統的蒸餾(distillation)、結構性稀疏化(structured sparsity)及激進量化(aggressive quantization)等技術,有效縮小模型的記憶體與運算足跡。Multiverse Computing 自家測試顯示,壓縮後的模型能以顯著降低的成本達到與原始模型相近的效能。
這項服務的推出,正值業界對 AI 效率與永續性日益關注之際。訓練大型模型動輒耗費數千萬美元,且推論成本隨著使用量線性增長,使得企業對高效率解決方案的需求更為迫切。Multiverse Computing 認為,AI 產業的下一個階段並非在於追求更大的模型,而是讓現有模型能以更經濟、更有效率的方式大規模部署。
核心技術與應用模式
Multiverse Computing 提供兩種主要應用模式:使用者介面友善的「CompactifAI App」和針對開發者的「API 服務」。CompactifAI App 內建的聊天介面由名為「Gilda」的壓縮模型驅動,可在本地端離線運行。若裝置記憶體或儲存空間不足,其路由工具「Ash Nazg」會自動將請求轉傳至雲端模型,實現兼顧隱私與回應速度的邊緣 AI 體驗。
對於開發者而言,透過 API 服務可直接取用 Multiverse Computing 的壓縮模型目錄,並能實時監控用量。此服務允許開發者將壓縮模型直接整合至其應用程式中,無需處理客製化的企業協商或自行管理壓縮流程,大幅簡化 AI 部署的複雜度。這種模型中立(model-agnostic)的作法,讓企業能夠彈性選擇所需模型進行壓縮,避免鎖定單一生態系統。