印度人工智慧(AI)新創公司 Sarvam AI 近期獲得 Google 執行長桑德爾·皮查伊(Sundar Pichai)的高度讚揚,該公司旗下的 Sarvam Vision 模型在多項技術評測中表現出色,特別是在處理印度本土語言與視覺理解任務方面展現獨特優勢。
Sarvam AI 於 2023 年 8 月由維維克·拉加萬(Vivek Raghavan)與普拉蒂尤什·庫馬爾(Pratyush Kumar)共同創立。根據 Sarvam AI 執行長庫馬爾的說法,Sarvam Vision 模型在 olmOCR-Bench (英文子集) 測試中達到 84.3% 的精確度,超越了諸如 Gemini 3 Pro 和 DeepSeek OCR 2 等主流模型。這項技術的核心能力包括圖像說明、場景文字辨識、圖表解讀以及複雜表格分析。
Sarvam AI 的主要目標之一,是將深藏於實體文件、掃描檔案與歷史典藏中的印度知識數位化。該公司也致力於為印度使用者帶來在地化的 AI 功能。有別於許多全球性模型將印度語言視為次要,導致區域文字的準確性偏低,Sarvam AI 的多模態大型語言模型 (VLM) 具備 30 億參數,專為推動在地化語言處理而設計,確保能針對印度文字提供更高的精確度。
為達成此目標,Sarvam AI 模型採用高品質數據集進行訓練,涵蓋了 22 種官方印度語言,包括多樣的金融文件、文學作品、報紙及歷史文獻等。此外,該公司還開發了多項專業模型:其語音辨識模型支援 10 種印度語言,僅需一個 7,400 萬參數、約 294 MB 大小的模型檔案,即可自動識別語種,無需使用者手動選擇。此模型能在高通(Qualcomm)Snapdragon 8 Gen 3 晶片上以約 8.5 倍即時速度處理語音,並在 300 毫秒內提供首個字符的輸出。