账号:
密码:
最新动态
产业快讯
CTIMES / 文章 /
透过App机器学习加速药物制造分析
 

【作者: Cipla】2022年10月24日 星期一

浏览人次:【2972】

制药公司藉由执行严格的测试来衡量所生产药物的关键性品质属性。当特定批次的产品出现问题时,制造团队必须尽快找出根本原因,以避免造成交货延迟和关键药物的短缺。


由於各式各样的原始资料、生产机台、以及药品制程当中的多项处理步骤,要执行准确且及时的根本原因分析(root case analysis)具有高度的挑战性。在从前,团队会将原始材料的标签和从机器印出的纸本资料手动输入到工作表进行分析,不过这种方法需要花费很多的时间,而且容易出错。除此之外,当时还没有可以一囗气分析如此庞大资料集的工具及方法。


在Cipla,我们的团队使用一个网路应用程式(app)来进行先进的制程解析。这个使用MATLAB建立的app可以自动收集资料、使用机器学习模型来分析资料、并且将结果视觉化呈现出来(图1)。



图1 : Cipla透过在MATLAB建立的app执行药物制造分析
图1 : Cipla透过在MATLAB建立的app执行药物制造分析

以前需要耗费几个星期来找出根本原因,有了这个app之後,只需要几天就可以完成。而且我们可以预测特定批次的潜在问题并立即采取修正措施,而不是等待长达14天,收到成品品质控制测试结果後才进行处理。


资料的收集和前处理

药物制造团队需要分析的资料高度异质(heterogeneous),资料来源也不全相同,不过这些资料大致上可以区分为两大类别:关键材料属性(critical material attributes;CMAs)和关键流程叁数(critical process parameters;CPPs)。


CMAs包含制程中使用的原始材料特性,像是材料的密度和实际的尺寸失真,以及材料的供应商、年份和保存期限。通常一项产品会由大约20种原始材料组成,每一种材料包含至少十几个CMAs。CPPs则包括在制造过程之中多个单元操作捕捉到的时间序列量测值。


举例来说,要完成一个单一单元操作如流动床造粒(fluidized bed granulation),可能会花上2至3个小时,或者更久。在这段期间,每分钟记录一次温度、湿度、和空气在机器流动的速度和滤波器的压差等流程叁数。其他单元操作,像是冷冻乾燥(lyophilization or freeze-drying)通常需要48小时或更长的时间来完成。


我们向MathWorks Consulting寻求协助,开发一个应用程式来收集并建构这些资料。使用Database Toolbox(资料库连结工具箱)从Microsoft Azure资料仓储(data warehouse)和其他的资料库检索CMAs和批次资料。透过Industrial Communication Toolbox (工业通讯工具箱),可以直接从设备中的OPC伺服器存取额外的CPP资料。Database Explorer app对於Cipla资料库的连接和视觉化的资料探索特别有帮助。


我们存取的CMA资料相对乾净,因此需要的前处理并不多。针对CPP资料,特别是压差的量测值的杂讯就比较多。我们使用Signal Processing Toolbox(讯号处理工具箱)中的滤波器来降低杂讯,并且发掘资料之中的趋势。


建立机器学习模型

当有了结构完善的CMA和CPP资料代表物,下一个任务是要建立机器学习模型。这些模型让我们可以决定哪一些材料特性和流程叁数会对特定的属性产生最大的影响。


以数学的角度来说,可设一组函式y=f(x1,x2,…,xn),其中y为关键品质属性,每一个x则代表一个CMA或CPP变量。我们需要一个模型来协助判断每一个x各对y产生多大的影响。


我们实现了一个演算法,它接连运用了三种机器学习技巧:主成分分析(principal component analysis;PCA)、偏最小平方(partial least squares;PLS)、以及随机森林(random forest)。X-space(PCA图表)可看出不同批次的原材料属性确实存在差异且/或处理方式有所不同(图2)。



图2 : PCA(左)和PLS(右)结果。绿色圆点为具有效力的批次;红色方点为脱靶批次。(source:Cipla)
图2 : PCA(左)和PLS(右)结果。绿色圆点为具有效力的批次;红色方点为脱靶批次。(source:Cipla)

此外,即使使用多种方式对具有效力(on-target)和脱靶(off-target)的批次进行处理,都还是生产出脱靶的产品。我们使用x-y space(PLS图表)来确认此情况。在这张x-y space图表,所有的脱靶群体聚集在一起形成了一个大型的脱靶区域。我们对最高的PLS采用随机森林来了解模型将各批次分类为具效力和脱靶的准确程度。使用变量和隐性变量(latent variables)的权重(weightage)有助於更进一步地了解该批次为具有效力或脱靶的原因。


我们选择机器学习而不是深度学习,因此可以达成分析之中的一项关键要求:可解释性。我们必须完全了解所有被辨识出来的制造问题,才能够对它们进行全面性的处理,并且避免未来再次发生这类问题。传统的机器学习能够支援这种程度的理解力,而深度学习通常无法做到。


Web App的打包与部署

我们另外一项重要目标是要达成解析民主化(democratization of analytics):我们希??开发的解决方案能够让Cipla的诸多使用者都有办法使用,而不是只局限於一小群专家。


为了达到这项目标,我们透过App Designer建立一个简单的介面,并将机器学习演算法打包进入此介面,并且透过Web App Server(MATLAB网路应用程式伺服器)来将打包後的演算法部署为网路应用程式(web app)。


使用者在操作这个app时,一开始会先选择他们想要分析的产品。这个App接着检索该特定产品的CMA资料,并且建立PCA、PLS、和随机森林模型。App从模型展示结果,包含每一个变量对於关键品质属性所相关的作用,并强调重要的因素(图3)。



图3 : 从CMA资料模型取得的结果,包含每一个变量关联的作用。
图3 : 从CMA资料模型取得的结果,包含每一个变量关联的作用。

在查看结果之後,使用者可以决定要不要建立一个包含这些重要因素的缩小版模型来改善模型的准确性。举例来说,如果初始的迭代包含500个变量,但是其中一个含有300个变量的子集,看起来对结果只有些微影响,接下来,使用者便可以省略该子集来简化模型,并且重新执行分析。


即时版本App的试行

我们团队现在正在开发这个应用程式的即时版本,而且打算在今年开始试行。这个版本即时地捕捉了来自单元操作的OPC伺服器资料,将资料加入机器学习模型,再判断这样的流程是否运作於建立的控制叁数内。


为什麽选择MATLAB?

在决定使用MATLAB来进行制造分析之前,我们考虑过几种替代方案,其中一个评估的选项是商业套装软体。这个软体非常昂贵,有一部分原因是它是针对医药产业量身订制,而我们无法完整对它依照需求客制。


另一个选项是使用Python或其他类似语言的开源函式库开发自己的解决方案。不过这个选项并不可行,因为我们必须确保使用来建立app的演算法通过彻底的检验和测试。我们也需要技术支援来协助存取来自各种组合的资料库资料。有了MATLAB和MathWorks顾问服务(Consulting Services)的支援,我们可以建立一个完全客制化、低成本的应用程式,并且分享至公司内部各个需要的地方。


(本文由??思科技提供;作者Ram Kumar、Akshay Hatewar、Vaidehi Soman於Cipla制造科技集团)


相关文章
NASA太空飞行器任务开发光学导航软体
显微镜解决方案助力台湾半导体技术提升研发效能
近即时模拟与控制协助自主水下载具机动运行
资料科学与机器学习协助改善颈部损伤评估
配电网路的即时模拟环境开发
comments powered by Disqus
相关讨论
  相关新闻
» 台达於2024年汉诺威工业展 发表智能制造与低碳交通解决方案
» 安防大厂齐聚Secutech2024开展 跨域整合安全与智慧应用大爆发
» 宏正响应净滩行动逾十年 减塑还原海岸线样貌
» 西门子Veloce CS新品协助硬体加速模拟和原型验证
» 数位部访视全球传动 见证5G专网结合智慧储运管理成


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2024 远播信息股份有限公司版权所有 Powered by O3  v3.20.1.HK84S1UQ7EWSTACUKS
地址:台北数位产业园区(digiBlock Taipei) 103台北市大同区承德路三段287-2号A栋204室
电话 (02)2585-5526 #0 转接至总机 /  E-Mail: webmaster@ctimes.com.tw