麻省理工學院的研究人員,與湯瑪士·J·華生研究中心(MIT-IBM Computing Research Lab)合作,成功開發出一個名為「ChartNet」的創新資料集。這個資料集旨在提升人工智慧模型對圖表的理解能力,解決了過去AI在整合視覺、數字與文字資訊時所面臨的挑戰。透過ChartNet訓練的開源AI模型,其在資料提取與圖表摘要等任務上的表現,甚至超越了規模更大的商業模型,這對於降低人工智慧應用門檻具有重要意義。
現今的人工智慧模型在處理自然語言和理解一般圖像方面已取得巨大進展,但對於圖表中複雜的多模式資料( multimodal data )——也就是同時包含文字、圖片和數字等多種形式的資訊——的解讀能力仍有不足。主要原因是缺乏高品質的訓練資料,使得視覺語言模型(VLM,能同時理解圖片和文字的AI模型)難以準確判讀圖表。
該研究團隊建立了一套兩步驟的合成資料( synthetic data )生成流程來打造ChartNet。首先,一個自動化系統能將現有圖表圖像轉換成程式碼;接著,這個程式碼會被反覆修改增強,以變更圖表的各種元素。透過這種方式,單一「種子圖表」便能生成數百種不同版本,最終累積成百萬張以上的多樣化圖像。同時,團隊也採用自動化品質檢查流程,確保合成資料的準確性和可用性。此外,ChartNet亦收錄了由人類專家標註的部分圖表資料,提供更多圖表類型和經驗證的數據支持。