Panasonic 與美國加州大學洛杉磯分校(UCLA)合作開發出全新多模態人工智慧模型 LaViDa,正式跨入影像與語言融合模型的下一階段技術競賽。LaViDa 採用 diffusion-based(擴散式)生成架構,使其在效能、速度與精確度之間取得新的平衡,被視為 Panasonic 近年在 AI 與智慧系統研發中的重要里程碑。
在生成式 AI 廣泛應用的今日,多模態能力已成各大科技企業競逐焦點,尤其是在整合影像、文字、語音與感測數據的應用場景上,模型的推論速度與準確度直接決定產品體驗與商業可能性。相較於目前主流的 autoregressive(自回歸式)模型架構,LaViDa 在文字生成速度上提升可達兩倍,同時仍維持與現有大型模型相當的語意理解與推理準確度。這項成果意味著更即時、更高效的跨模態互動成為可能,也為邊緣端 AI 與嵌入式系統帶來技術突破。
LaViDa 的設計初衷在於強化影像與語言的相互理解能力,包括物件辨識、圖像敘述生成、多模態搜尋、視覺問答(VQA)與跨模態內容創作等領域。依據 Panasonic 的說法,新模型可在分析視覺資料的同時同步生成語言描述,並在運算過程中大幅降低延遲,使其可應用於更靠近現場的即時系統,如智慧家庭設備、攝影機與感測器、工廠自動化視覺系統、車載影像辨識等。這些場景不僅重視運算速度,更需要在有限資源下維持高可靠度,LaViDa 的特性因而具備明顯優勢。
業界觀察認為,LaViDa 的推出象徵硬體廠商逐步從設備商轉向「系統+AI」供應者角色。過去 Panasonic 在相機、影像處理、家電與工控設備深耕多年,如今透過自研 AI 與學術合作深化技術能力,將可在物聯網與智慧感測器市場取得更具策略性的競爭位置。