由阿爾托大學(Aalto University)、特倫托大學(University of Trento)與KTH皇家理工學院組成的研究團隊,近日於《Computer Graphics Forum》期刊發表重大進展。該研究透過「互動式視覺化儀表板」優化人類回饋強化學習(RLHF),能使AI模型的訓練性能提升高達60%。
研究指出,賦予人類訓練者更直觀的操作介面與自主權,不僅能產出更優質的AI行為,還能顯著加快訓練進程,目前該研究的相關代碼已同步開源。
這項研究針對現行AI模型訓練的痛點提出解決方案。目前的RLHF主要依賴使用者在兩個AI輸出間進行「二選一」的簡單比較,藉此引導系統達成目標。然而,阿爾托大學教授Antti Oulasvirta指出,這種傳統方法效率極低,且使用者無法掌握AI可能輸出的全貌,導致訓練者難以釐清最終應達成的具體目標,如同在資訊不足的情況下盲目摸索。
為了突破框架,研究團隊開發出一套增強型的視覺化工具,將訓練過程從「被動選擇」轉為「主動探索」。博士研究員Jan Kompatscher解釋,該工具利用人類卓越的視覺數據處理能力,讓受測者在訓練機器人模擬骨架(如練習步行或後空翻)時,能全面查閱可能的動作目錄、回溯已做的決定,並參考系統建議的新對比項,不再侷限於單調的兩兩對稱比較。
實驗數據顯示,這套互動式介面展現了強大的訓練效能。在相同的訓練時間內,雖然受測者認為新工具的操作難度略高,但其提供回饋的資訊含量更豐富。受測者以此方式訓練出的模擬機器人,在動作精準度與表現上比傳統方法高出60%。
Kompatscher強調,賦予使用者對整組行為表達偏好的權力,是提升RLHF效率的關鍵,這讓人類能更精準地傳達對複雜行為的期望。
這項研究成果為AI對齊技術開闢了新路徑,證明結合人類認知能力與賦予操作能動性(Agency),能有效改善AI工具的開發品質。Oulasvirta教授總結道,讓人類在訓練過程中擁有更完整的視野與主控權,將是打造更符合人類需求之AI系統的基石。隨著開源代碼的釋出,這項技術預計將對未來AI模型訓練流程產生深遠影響。