麻省理工学院(MIT)研究团队开发出一种名为SEED-SET的自动化测试框架,能精确识别AI决策支持系统在处理社会群体时可能产生的不公平现象。这项技术利用大型语言模型(LLM)作为人类价值观代理,协助决策者在电力分配或城市规划等高风险领域,为AI治理提供系统化的解决方案。
随着AI在决策优化中的应用日益广泛,系统往往能找出成本最低或效率最高的策略。然而,MIT团队指出,技术上的「最优解」未必等同於社会的正义。
例如,一项旨在优化成本的电力调度方案,可能会无意中导致低收入社区比高收入地区承担更高的停电风险,这种「未知的未知」正是目前AI监管中最难防范的隐形地雷,若无系统性测试,难以在部署前察觉。
为了解决这一难题,这套全称为「可扩展系统级伦理测试实验设计」的SEED-SET框架采用了阶层式结构,将评估拆解为客观与主观两部分。客观模型负责评估成本、可靠性等量化技术指标,而主观模型则专注於利害关系人的偏好与公平感知。这种分离设计让系统能在减少人工干预的同时,生成更能反映人类真实价值的测试场景,平衡了经济效益与道德标准。
在主观评估环节,SEED-SET创新地引入了LLM作为人类评估者的代理人。研究人员将不同用户群体的价值观编写成自然语言提示词,引导模型进行成千上万次的模拟对比与场景筛选。
相较於容易因疲劳而产生判断不一致的人类评估者,LLM代理能高效且稳定地识别出最具代表性的风险案例,并根据不同的社会文化背景或政策偏好,动态调整其测试重点。
实验结果显示,在电力网路与城市交通路由系统的实测中,SEED-SET产生的关键测试案例数量是传统策略的两倍以上,并成功挖掘出许多被其他自动化方法忽视的伦理冲突。
MIT航太系??教授Chuchu Fan指出,单靠训练数据或固定护栏已不足以保障AI安全,实验证明SEED-SET能随着用户偏好的改变,精准捕捉到截然不同的风险场景,展现出极强的适应性。
这项由美国国防高等研究计划署(DARPA)部分资助的研究,将在国际学习表徵会议(ICLR)上正式发表。研究团队表示,下一步将进行更大规模的用户研究,确认该框架生成的场景是否能实质帮助决策者优化系统。未来,团队计画将此技术扩展至更复杂的大规模决策系统评估中,确保在AI加速普及的趋势下,科技进步不以牺牲弱势群体的公平性为代价。