在生成式媒體方面,Gemini Omni 可能會將內建的影片生成與編輯功能直接整合至 Gemini 平台。預期這將包含 AI 影片生成、場景重組、AI 輔助編輯、透過提示詞創建電影級內容以及多模態編輯工作流程。此外,谷歌也將同步揭曉其進階 AI 影片生成模型 Veo 的重大升級,旨在改善動態寫實度、場景一致性、提示詞理解、音訊同步,並能生成更長的影片片段。據傳 Veo 將深度整合至 Gemini Omni、YouTube 工具及谷歌更廣泛的創作者生態系統中。
在模型效率方面,谷歌準備擴展其「Flash」模型系列,傳聞中的 Gemini 3.2 Flash 和 Gemini 3.5 Flash 將優先考量更快的反應速度、更低的推論成本、減少延遲,以及針對即時互動進行高效的行動裝置部署。這些 Flash 模型可能成為 Android、Chrome、即時助理、穿戴式裝置和智慧型裝置的理想 AI 層級。同時,亦有消息指出,功能更強大的 Gemini 3.5 Pro 模型將專注於進階推理與程式編寫任務,預期在軟體工程能力、多步驟推理、情境處理、長篇內容輸出及工具使用上有所提升。
谷歌的 AI 策略方向已趨於明朗,主要著重於三大優先事項:開發更快、更有效率的 AI 模型;提供更先進的 AI 生成影片與媒體功能;以及打造能實際採取行動的 AI 代理。這一切都旨在將 Gemini 深度嵌入 Android、Chrome、生產力工具、消費者體驗及未來的硬體平台,例如預計於 2026 年秋季推出的 Gemini Intelligence 筆記型電腦平台 Googlebook。透過這些新技術,谷歌期望 Gemini 能操作應用程式、瀏覽網路、生成媒體、理解長期情境、完成多步驟任務,並在背景持續運作,全面改造用戶數位體驗。