Panasonic 与美国加州大学洛杉矶分校(UCLA)合作开发出全新多模态人工智慧模型 LaViDa,正式跨入影像与语言融合模型的下一阶段技术竞赛。LaViDa 采用 diffusion-based(扩散式)生成架构,使其在效能、速度与精确度之间取得新的平衡,被视为 Panasonic 近年在 AI 与智慧系统研发中的重要里程碑。
在生成式 AI 广泛应用的今日,多模态能力已成各大科技企业竞逐焦点,尤其是在整合影像、文字、语音与感测数据的应用场景上,模型的推论速度与准确度直接决定产品体验与商业可能性。相较於目前主流的 autoregressive(自回归式)模型架构,LaViDa 在文字生成速度上提升可达两倍,同时仍维持与现有大型模型相当的语意理解与推理准确度。这项成果意味着更即时、更高效的跨模态互动成为可能,也为边缘端 AI 与嵌入式系统带来技术突破。
LaViDa 的设计初衷在於强化影像与语言的相互理解能力,包括物件辨识、图像叙述生成、多模态搜寻、视觉问答(VQA)与跨模态内容创作等领域。依据 Panasonic 的说法,新模型可在分析视觉资料的同时同步生成语言描述,并在运算过程中大幅降低延迟,使其可应用於更靠近现场的即时系统,如智慧家庭设备、摄影机与感测器、工厂自动化视觉系统、车载影像辨识等。这些场景不仅重视运算速度,更需要在有限资源下维持高可靠度,LaViDa 的特性因而具备明显优势。
业界观察认为,LaViDa 的推出象徵硬体厂商逐步从设备商转向「系统+AI」供应者角色。过去 Panasonic 在相机、影像处理、家电与工控设备深耕多年,如今透过自研 AI 与学术合作深化技术能力,将可在物联网与智慧感测器市场取得更具策略性的竞争位置。