账号:
密码:
最新动态
产业快讯
CTIMES/SmartAuto / 新闻 /
互动式仪表板革新AI训练 RLHF模型性能大幅提升60%
 

【CTIMES / SMARTAUTO ABC_1 报导】    2026年02月09日 星期一

浏览人次:【173】

由阿尔托大学(Aalto University)、特伦托大学(University of Trento)与KTH皇家理工学院组成的研究团队,近日於《Computer Graphics Forum》期刊发表重大进展。该研究透过「互动式视觉化仪表板」优化人类回??强化学习(RLHF),能使AI模型的训练性能提升高达60%。

研究指出,赋予人类训练者更直观的操作介面与自主权,不仅能产出更优质的AI行为,还能显着加快训练进程,目前该研究的相关代码已同步开源。

这项研究针对现行AI模型训练的痛点提出解决方案。目前的RLHF主要依赖使用者在两个AI输出间进行「二选一」的简单比较,藉此引导系统达成目标。然而,阿尔托大学教授Antti Oulasvirta指出,这种传统方法效率极低,且使用者无法掌握AI可能输出的全貌,导致训练者难以厘清最终应达成的具体目标,如同在资讯不足的情况下盲目摸索。

为了突破框架,研究团队开发出一套增强型的视觉化工具,将训练过程从「被动选择」转为「主动探索」。博士研究员Jan Kompatscher解释,该工具利用人类卓越的视觉数据处理能力,让受测者在训练机器人模拟骨架(如练习步行或後空翻)时,能全面查阅可能的动作目录、回溯已做的决定,并叁考系统建议的新对比项,不再局限於单调的两两对称比较。

实验数据显示,这套互动式介面展现了强大的训练效能。在相同的训练时间内,虽然受测者认为新工具的操作难度略高,但其提供回??的资讯含量更丰富。受测者以此方式训练出的模拟机器人,在动作精准度与表现上比传统方法高出60%。

Kompatscher强调,赋予使用者对整组行为表达偏好的权力,是提升RLHF效率的关键,这让人类能更精准地传达对复杂行为的期??。

这项研究成果为AI对齐技术开辟了新路径,证明结合人类认知能力与赋予操作能动性(Agency),能有效改善AI工具的开发品质。Oulasvirta教授总结道,让人类在训练过程中拥有更完整的视野与主控权,将是打造更符合人类需求之AI系统的基石。随着开源代码的释出,这项技术预计将对未来AI模型训练流程产生深远影响。

相关新闻
Valmet FlexBatch整合DNAe打造智慧批次生产新解方
中华电信导入爱立信三频FDD Massive MIMO助攻跨年连线
智慧监测进入河川巡守 产学联手强化水环境治理韧性
工研院与SAES建立高真空封装产线 瞄准智慧感测新商机
PCI-SIG:PCIe 8.0草案正式发布 光学互连将成为AI平台战略核心
相关讨论
  相关文章
» 以碳化矽为开关元件的电子式??路保护装置
» 移相多相升压架构重塑电源效率
» 智慧感测提高马达效率与永续性
» 强化电子材料供应链韧性 循环经济实现AI资源永续
» AI PC时代来临 NPU成为十年来最重要架构革命


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2026 远播信息股份有限公司版权所有 Powered by O3  v3.20.1.HKA2A12OK8ASTACUKU
地址:台北数位产业园区(digiBlock Taipei) 103台北市大同区承德路三段287-2号A栋204室
电话 (02)2585-5526 #0 转接至总机 /  E-Mail: webmaster@ctimes.com.tw