针对真实世界数据采集耗时且重复性高的痛点,业界正加速导入「合成数据」(Synthetic Data)技术。根据外媒报导,Bifrost AI共同创办人暨执行长Charles Wong指出,透过合成数据生成的极端场景与热成像模拟,能有效填补真实数据的缺囗,使机器人系统迭代速度提升达100倍,同时降低高达70%的数据采集成本。
真实世界的局限:数据虽多但缺乏变化 机器人团队过去依赖海量的真实数据来训练系统,但这面临着巨大的效率问题。现实世界的数据往往高度重复车队记录到的多是相同的空旷街道、平静海面与无事件发生的巡逻过程。真正具有训练价值的「边缘案例」(Edge cases),如恶劣天气、光线剧变或罕见灾害,在现实中极难捕捉。
Charles Wong强调,开发团队无法为了等待特定季节而耗费一年,也不可能为了收集数据而制造数千次真实碰撞事故。现实世界产生变化的速度,远远跟不上现代自动化技术的需求。
合成数据:按需生成的虚拟训练场 合成数据解决了这个问题。它能「按需生成」特定的极端场景,从结冰路面到一年仅发生一次的罕见危害,都能在虚拟环境中精确构建。这就像人类观看《侏罗纪公园》就能学会辨识恐龙一样,电脑视觉模型也能透过模拟范例,在从未遇见真实物体前就学会识别它们。这种方式让机器人在接触实体世界前,就已具备应对各种情境的认知能力。
超越可见光:合成热成像数据的关键应用 现代机器人不仅依赖镜头,还使用光达(LiDAR)、雷达和声纳来感知世界。特别是在夜间或浓雾等能见度低落的情况下,将热能转化为影像的「热成像仪」至关重要。然而,采集高风险环境的热影像极具挑战性。
合成数据适用的领域包含:海上自主船只:在雾气与黑暗中,当RGB镜头失效时,合成热成像数据能训练系统辨识人员、船只与海岸线;夜间无人机:在复杂地形进行夜间飞行或避障充满风险,合成数据能让无人机学习在零光照、烟雾与浓密植被中导航;卫星监测:受限於大气干扰与感测器限制,卫星难以捕捉地球上所有热讯号场景,合成数据能填补气候监测与灾害应变模型的空白。
真实与合成的混合策略 Charles Wong观察到,从NASA月球车团队到国防科技公司Anduril,顶尖的机器人团队采取的策略并非「二选一」,而是「混合制」。虽然真实数据提供了任务的细微差别,但往往存在偏差与缺囗。透过合成数据精确填补这些漏洞,并结合真实数据的细腻度,团队能构建出更强韧的AI系统,以应对真实世界中那些低机率但高风险的严苛挑战。