账号:
密码:
最新动态
产业快讯
CTIMES / 文章 /
MATLAB与Simulink整合自动化机器学习与DevOps
 

【作者: Peter Webb、Gokhan Atinc】2023年02月17日 星期五

浏览人次:【3161】

本文说明以MATLAB和Simulink进行基於模型的设计训练与模型评估,如何使用在自动化ML Ops流程,实现一个虚构的都会运输系统预测性维护应用。


当有更多的组织机构开始仰赖机器学习应用来协助处理核心事业职责,也有许多正在更进一步地审视这些应用的完整生命周期。对机器学习关注焦点已从最初的开发部署扩展到环绕着持续监管与更新。输入资料的改变有可能会降低模型的预测或分类准确性,及时的再训练与模型评估,有助於产生更好的模型与更精确的决策。


在机器学习的运行(machine learning operations,或ML Ops),开发的规划、设计、建构、测试活动与运行时的部署、操作及监管活动是以持续的回????圈连结在一起(图1)。许多资料科学团队已经将ML Ops循环之中的一部分自动化,像是部署及运行。



图1 : ML Ops循环
图1 : ML Ops循环

然而,完整循环的自动化需要额外的步骤:监督与评估模型表现、将评估结果并入表现更好的模型、并且重新部署新的模型。实现这样的自动化具备几项重要的好处,让资料科学家可以将更多时间花在设计有用的机器学习解决方案,减少在IT行政与繁琐、容易出错的手动任务上面花费的时间。


为了说明以MATLAB和Simulink进行基於模型的设计(Mode-Based Design)可以如何使用在自动化ML Ops流程,我们实现一个虚构的都会运输系统预测性维护应用。某个机构组织需要一种方法,在他们的电动巴士车队的电池出现在行进过程中发生故障的风险之前,预先规划电池的维修或替换。


这项应用内有一个机器学习模型,它使用电池充电状态(state of charge;SOC)、电流、以及其他的量测值来预测电池的健康状态(state of health;SOH)。其他几个元件包含一个负责执行大规模机器学习模型的应用伺服器,一个将观察到的资料与训练资料做比较的漂移侦测元件,它被用来判断是否有重新进行训练的必要,还有一个高逼真度的电池物理模型来协助自动化标记观察到的资料。


对於许多组织来说,最後一个元件-高逼真度的物理模型-是落实完全自动化所缺少的一块。少了这个物理模型,会需要由人类来检视观察到的资料并且加上标记;而有了它,这项基本的步骤以及完整的ML Ops循环就可以被自动化。


建立模型进行电池资料生成及自动标记

在可以开始训练深度学习模型来预测电池的健康状态之前,需要先有资料。在某些情况下,机构组织可能已经拥有从运作於真实世界系统收集来的资料。另一些则会需要藉由模拟来产生资料,这也包括了虚构运输系统。


为了要产生运输网路电池系统的训练资料,透过Simulink和Simscape建立两个以物理为基础的模型。


第一个模型纳入来自电气和热领域的动态,产生真实的原始感测器量测值,包含电流、电压、温度和SOC(图2)。



图2 : 用来产生原始感测器量测值的以物理为基础的Simulink电池模型
图2 : 用来产生原始感测器量测值的以物理为基础的Simulink电池模型

第二个则以第一个模型产生的量测值,所推导出的电池估计容量和内电阻来计算SOH。第二个模型可帮助由自动标记观察到的资料,大幅减低再训练??圈所需要的人力介入。


藉着对各个电池采用独立的老化曲线和变更第一个模型的周围温度输入值,为一组大型的车队建立了一个历史资料集,该资料集适合用来训练预测性维护机器学习模型。


建立及部署ML模型

有了用来训练的资料时,我们便将注意力转移至ML模型。使用Diagnostic Feature Designer app来探索原始量测值,撷取多域特徵,并选择出具备最隹状态指示器的特徵集。


由於我们的目标是要自动化整个循环,因此模型的选择与训练也需要被自动化。为此,建立一个称为AutoML的元件。这个元件是在MATLAB里面使用Statistics and Machine Learning Toolbox建立的,负责自动地找出对於一组设定的训练资料集之最隹机器学习模型和最适超叁数。AutoML元件也作为循环的起始:它从原始的训练资料和我们的特徵集产生内部的机器学习模型。


除了支援向量机(support vector machines)之外,这个AutoML元件还训练并评估线性??归模型、高斯过程??归模型(Gaussian process regression models)、提升决策树(boosted decision trees)的集合、随机森林(random forests)、以及完全连接前??神经网路。


当AutoML流程完成,我们使用MATLAB Production Server将一个最适模型部署到企业内部生产环境。


资料漂移的判断与处理

许多机器学习有个问题是里面包含了一个隐藏的假设,就是使用来训练模型的资料可以完整代表整个特徵空间的基本分布。换句话说,会做出资料的分布不会变动的假设。但在真实世界却不总是这样。


举例来说,在电动巴士应用,我们可能已经做了车辆会在特定温度范围运作的假设,并且训练了模型。然而在生产阶段,却发现巴士经常会必须在比该范围还要高的温度下运作。这种资料上的改变被称为漂移(drift)。而随着漂移的增加,模型的预测准确度通常会降低。因此,资料科学家通常需要侦测资料随着时间产生的变化并做出反应,通常是训练新的模型。


这时,重要的是要区别出概念(concept)漂移和资料(data)漂移。在机器学习领域,概念漂移被定义为观察到的特徵与标记或回应的联合机率随着时间的变化。概念漂移可能很难被使用在已经是生产阶段的机器学习模型,因为特徵值及回应值都必须为已知。因此,许多机构组织把注意力放在下一个最隹选择:资料偏移,也就是只有发生在观察到的特徵上的变化,而不包含标记。这也是我们采用的方法。


我们开发一个MATLAB应用来侦测漂移,该应用能够将新观察到的资料值与模型训练资料集的值做比较。


在生产阶段,这组应用几??即时地从一个Apache Kafka串流读取观察到的资料,并且透过一支处理使用机器学习模型所得到的观察的MATLAB函式做出电池的健康预测(图3)。



图3 : 使用资料串流进行预测性维护
图3 : 使用资料串流进行预测性维护

我们使用MATLAB Production Server的Streaming Data Framework开发MATLAB函式,这可以帮助从在档案中处理历史资料轻松转换为在Kafka资料流的即时资料。因为完整的资料流超出记忆体的容量,这个架构会透过一系列的迭代处理串流资料。


每一个迭代包含四个步骤:从资料流读取一批观察数据、装载模型、做出预测并编写至输出资料流,以及如果必要的话会把任何需要的资料储存下来供下一次迭代使用。每一个批次的尺寸会延伸到长度足够的时间区间,以确保撷取出来的特徵捕捉到充分的电池特性来进行有效的SOH预测。


要注意,即使漂移侦测应用判断观察到的资料出现显着变化,也不见得代表机器学习模型已经过时。在这项应用获得透过基於物理的SOH模型传递的新资料而获得新观察资料的回应值(或标记)之前,它并不能决定模型是否过时。


这时,该应用可以将从以物理为基础的模型得到的回应值与从机器学习模型得到的回应值做比较;如果两者之间差异显着,则可以调用带有新资料的Auto ML元件,并且自动地建立一个针对来自车队的新资料进行过优化的新机器学习模型。


也许会有如果我们可以在一开始就透过模拟来估计电池的健康状态,为什麽还会需要机器学习模型这样的疑问。答案是,ML模型可以接近即时产生预测结果-比起以物理为基础的模拟的速度快上许多。


一个可扩展、普及化的架构

我们为自动化ML Ops所设计的这个架构可以水平扩展。预测与监督元件皆执行在MATLAB Production Server上,模型的预测则是透过MATLAB Parallel Server进行(图4);而这个架构也可以被普及化。虽然我们的范例聚焦於电动巴士的预测性维护与漂移侦测,这个架构可以轻松地被改编套用於其他应用或使用情境。



图4 : 可水平扩展的自动化ML Ops架构
图4 : 可水平扩展的自动化ML Ops架构

举例来说,以物理为基础的Simulink模型可以用在MATLAB开发的数值模型取代。同样地,许多我们使用的现成元件如使用於资料串流的Apache Kafka、使用於仪表板架构的Grafana可以被其他原生於云端的服务取代。


使用现成的元件可帮助专注於架构而不是执行上的细节,就像一个完全自动化的ML Ops循环协助资料科学家专注於设计机器学习解决方案,而不是管理IT行政的繁琐细节。


(本文由??思科技提供;作者Peter Webb、Gokhan Atinc任职於MathWorks公司)


相关文章
NASA太空飞行器任务开发光学导航软体
生成式AI与PC革新
机器学习可以帮助未来的癌症诊断
近即时模拟与控制协助自主水下载具机动运行
资料科学与机器学习协助改善颈部损伤评估
comments powered by Disqus
相关讨论
  相关新闻
» Seagate发布再生能源使用及实践永续循环成效
» 宜鼎独创MIPI over Type-C解决方案突破技术局限,改写嵌入式相机模组市场样貌
» 英业达以AI科技实践永续 携手台大保护云雾林生物多样性
» 震旦研发ESG绿色报表协助企业绿色减碳
» 研华AIoV智慧车联网解决方案 打造智慧交通与商用车国家队


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2024 远播信息股份有限公司版权所有 Powered by O3  v3.20.1.HK84RBTAZKUSTACUK1
地址:台北数位产业园区(digiBlock Taipei) 103台北市大同区承德路三段287-2号A栋204室
电话 (02)2585-5526 #0 转接至总机 /  E-Mail: webmaster@ctimes.com.tw