圖/本報資料庫 商傳媒 |葉安庭/綜合外電報導
根據日前發表於學術期刊《科學報告》(Scientific Reports)的一項最新研究,一個以深度學習為基礎的人工智慧(AI)模型,經超過1.4萬則烏爾都語新聞報導訓練後,其偵測假訊息的準確度已可達到96%。這項進展被視為烏爾都語假訊息偵測領域迄今最全面的AI系統,為全球數百萬烏爾都語使用者帶來重要意義,並為其他非英語系語言的反假訊息工作提供潛在啟示。
烏爾都語是全球排名第十的常用語言,使用者超過1.7億人,但長久以來,在AI系統訓練所需的龐大資料集方面卻相對匱乏,被歸類為「低資源語言」。愛丁堡赫瑞瓦特大學(Heriot-Watt University)的穆罕默德·齊尚·巴伯博士(Muhammad Zeeshan Babar)指出,大多數自動化假訊息偵測系統皆以英語資料集進行訓練,導致烏爾都語面臨極大挑戰。他與研究團隊初期發現,現有的烏爾都語資料集在政治、宗教及其他社會議題的內容上存在顯著不足,而這些正是假訊息常藉以傳播的敏感領域,對海外散居的烏爾都語社群亦構成衝擊。
為此,該研究團隊耗時蒐集了介於2017年至2023年間的14,178篇烏爾都語新聞文章,涵蓋了政治、健康、商業、教育、體育、科學、犯罪、科技及社會議題等15個主題領域。這些文章中,有8,283篇被標記為真實報導,另有5,895篇為假訊息。透過學習詞彙、措辭、情感分析與語言結構中的特定模式,AI系統得以區分虛構內容與合法新聞。
巴基斯坦拉合爾大學(University of Lahore)電腦科學系主任瓦西姆·阿巴西博士(Waseem Abbasi)表示,雖然96%的準確度已相當出色,但仍存在一定程度的誤差空間,可能影響內容審核、廣告投放乃至法律執行。此外,基於歷史數據訓練的演算法可能難以應對新興敘事,甚至誤判諷刺作品或政治異議。然而,對於身處複雜資訊環境的數百萬烏爾都語新聞消費者而言,這項技術仍具有劃時代的意義。研究團隊已將此資料集開放共享,期能持續提升系統效能,並計畫將研究推廣至其他語言資料集。
這項針對烏爾都語假訊息偵測的突破,為全球非英語系國家,特別是如台灣等同樣面臨假訊息挑戰的地區,帶來了重要啟示。台灣近年來持續受到複雜且多元的假訊息攻擊,尤其在社群媒體與跨語言資訊傳播上。烏爾都語作為「低資源語言」的成功案例,凸顯了即使在缺乏大規模訓練數據的語言環境中,仍能透過系統性建構資料集與深度學習技術,有效提升假訊息偵測能力,這對於台灣在媒體識讀教育、事實查核技術發展及應對境外資訊戰上,提供了新的研究與應用方向,有助於強化整體社會的資訊韌性。