在人工智慧(AI)快速發展的過程中,資料一直被視為驅動模型進化的核心資源。在現實世界資料有限、成本高昂或涉及敏感資訊的情況下,合成資料(synthetic data)可以彌補資料缺口,並逐漸從輔助工具轉變為資料基礎設施。值得關注的是,在合成資料帶來速度與效率等優點的同時,亦對既有資料信任機制帶來結構性的挑戰,倘若缺乏治理,可能成為企業隱藏的風險來源。當資料可以被創造,能否建立可信的使用機制,將是決定價值的關鍵。
合成資料是指利用數學模型、統計學演算法或AI生成模型的人工生成資訊。在理想狀態下,合成資料能保留原始資料的統計特徵,卻不包含任何特定個體的敏感資訊,為長久以來的隱私保護與資料流通難題提供了技術解方。
然而,這帶來一個根本問題:當我們賴以決策的基礎從「真實觀測」轉向「人工生成」,數位世界的信任基石是否會受到威脅?合成資料的崛起,不只是技術突破,對既有資料信任機制也面臨結構性挑戰。
合成資料的興起,是市場與治理環境壓力驅動下的結果。首先,隱私法規與資料主權的強化,使真實資料的取得與共享變得困難。如歐盟的《一般資料保護規定》(GDPR)等法規大幅提高資料使用門檻,使企業與機構在跨機構、跨國資料流動上面臨限制。其次,AI模型對資料的需求急速增加,從傳統機器學習到大型語言模型和多模態系統,資料量與多樣性的需求呈現指數成長。三是真實資料的蒐集與標註成本高昂且耗時,使資料供應逐漸成為AI發展瓶頸。
在此一背景下,合成資料逐漸從輔助工具轉變為資料基礎設施。例如在金融領域,機構透過模擬交易行為生成大量異常樣本,作為提升詐欺偵測能力;在醫療領域,合成病歷讓跨機構研究得以在不暴露個資的情況下進行;在自駕車領域,可以快速生成各種極端天候與罕見事故場景,加速模型訓練。
相關應用凸顯資料不再只是被動蒐集的資源,而是可以被主動設計與生成的資產。資料供應鏈從「蒐集、清理、使用」的線性流程,轉變為「生成、調整、優化」的循環系統。
但是當資料來源從「觀測現實」轉向「模型生成」,信任的基礎也隨之改變。傳統上,資料的可信在於其直接反映現實世界;即使存在誤差,仍可透過統計方法修正。然而合成資料並非對現實的直接記錄,而是由模型、參數與設計選擇所生成,其可信度取決於生成邏輯與使用情境。
這種轉變使過去建立在「來源可信」之上的信任模式,逐漸不適用,取而代之的是更難察覺的風險結構,導致信任機制出現斷層。首先,合成資料往往基於既有資料生成,若原始資料存在偏差,模型可能在生成過程中強化這些偏誤,進而影響決策。再者,生成模型可能產生看似合理但實際不存在的變數關聯,使系統在關鍵情境中做出錯誤判斷。此外,若模型持續使用自身生成的資料進行訓練,可能導致分布偏移,最終偏離世界實際運作的規律。
醫療領域的合成資料應用,揭示這種風險的具體樣貌。如部分醫療期刊相關研究中指出,合成電子病歷資料在生成過程中,可能扭曲疾病關聯或低估特定族群風險,使模型在臨床判斷上產生偏差。這些資料在統計上看似合理,甚至能通過模型效能測試;但在臨床應用卻可能導致誤診或不當決策。這類問題往往不易在傳統驗證流程中被發現,但卻會在實際決策中放大其影響。
因此,在合成資料時代,信任的基礎正轉向「資料是否經過可理解、可控制且可驗證的生成與使用過程」。
(本文為勵秀玲、洪春暉共同執筆,勵秀玲為資策會MIC產業顧問兼主任,洪春暉為資策會MIC所長)


