Google Research 於 3 月 24 日宣布,已開發出一項名為 TurboQuant 的新型演算法,能以無損方式大幅壓縮大型語言模型(LLM)的鍵值快取(KV cache),最高可達 6 倍。這項技術不僅能將底層 AI 模型運算速度提升 8 倍,同時維持零精準度損失,被視為重新定義了 AI 效率的里程碑。
根據 Google Research 發布的說法,TurboQuant 演算法專注於優化 KV 快取,但值得注意的是,它並未壓縮模型本身的權重(model weights)。由於大型部署中的模型權重通常遠大於 KV 快取,這意味著模型尺寸本身維持不變。儘管如此,TurboQuant 的導入預期能顯著改善資料中心的推論(inference)相關經濟效益,使單一 AI 模型能處理更長的上下文視窗(context window),或讓更少量的圖形處理器(GPU)服務相同數量的使用者。