帳號:
密碼:
最新動態
產業快訊
CTIMES/SmartAuto / 新聞 /
互動式儀表板革新AI訓練 RLHF模型性能大幅提升60%
 

【CTIMES/SmartAuto 籃貫銘 報導】   2026年02月09日 星期一

瀏覽人次:【147】

由阿爾托大學(Aalto University)、特倫托大學(University of Trento)與KTH皇家理工學院組成的研究團隊,近日於《Computer Graphics Forum》期刊發表重大進展。該研究透過「互動式視覺化儀表板」優化人類回饋強化學習(RLHF),能使AI模型的訓練性能提升高達60%。

研究指出,賦予人類訓練者更直觀的操作介面與自主權,不僅能產出更優質的AI行為,還能顯著加快訓練進程,目前該研究的相關代碼已同步開源。

這項研究針對現行AI模型訓練的痛點提出解決方案。目前的RLHF主要依賴使用者在兩個AI輸出間進行「二選一」的簡單比較,藉此引導系統達成目標。然而,阿爾托大學教授Antti Oulasvirta指出,這種傳統方法效率極低,且使用者無法掌握AI可能輸出的全貌,導致訓練者難以釐清最終應達成的具體目標,如同在資訊不足的情況下盲目摸索。

為了突破框架,研究團隊開發出一套增強型的視覺化工具,將訓練過程從「被動選擇」轉為「主動探索」。博士研究員Jan Kompatscher解釋,該工具利用人類卓越的視覺數據處理能力,讓受測者在訓練機器人模擬骨架(如練習步行或後空翻)時,能全面查閱可能的動作目錄、回溯已做的決定,並參考系統建議的新對比項,不再侷限於單調的兩兩對稱比較。

實驗數據顯示,這套互動式介面展現了強大的訓練效能。在相同的訓練時間內,雖然受測者認為新工具的操作難度略高,但其提供回饋的資訊含量更豐富。受測者以此方式訓練出的模擬機器人,在動作精準度與表現上比傳統方法高出60%。

Kompatscher強調,賦予使用者對整組行為表達偏好的權力,是提升RLHF效率的關鍵,這讓人類能更精準地傳達對複雜行為的期望。

這項研究成果為AI對齊技術開闢了新路徑,證明結合人類認知能力與賦予操作能動性(Agency),能有效改善AI工具的開發品質。Oulasvirta教授總結道,讓人類在訓練過程中擁有更完整的視野與主控權,將是打造更符合人類需求之AI系統的基石。隨著開源代碼的釋出,這項技術預計將對未來AI模型訓練流程產生深遠影響。

相關新聞
PCI-SIG:PCIe 8.0草案正式發布 光學互連將成為AI平台戰略核心
TPCA率團前進APEX EXPO 搶攻美系高階PCB商機
台達電子公佈一百一十五年一月份營收
助攻AI高速傳輸!「東西講座」聚焦PCIe 7.0與矽光子模擬技術
AI技術重塑山火防治 科技助電力公司精準預警
相關討論
  相關文章
» 以碳化矽為開關元件的電子式迴路保護裝置
» 移相多相升壓架構重塑電源效率
» 智慧感測提高馬達效率與永續性
» 強化電子材料供應鏈韌性 循環經濟實現AI資源永續
» AI PC時代來臨 NPU成為十年來最重要架構革命


刊登廣告 新聞信箱 讀者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2026 遠播資訊股份有限公司版權所有 Powered by O3  v3.20.2048.216.73.216.0
地址:台北數位產業園區(digiBlock Taipei) 103台北市大同區承德路三段287-2號A棟204室
電話 (02)2585-5526 #0 轉接至總機 /  E-Mail: webmaster@ctimes.com.tw