荣格工业资源APP
了解工业圈,从荣格工业资源APP开始。
将ML异常检测直接与SAP设备维护模块(CMMS)集成,实现工单自动生成,消除了人工复核环节,使非计划停机时间减少84%,规避了530万美元的损失。
该架构采用分级告警机制,仅高置信度检测结果自动触发工单,防止工单积压,维持对告警系统和CMMS数据的信任。
将系统完全部署在工厂OT网络内部(通过Docker Swarm,无外部连接)是实现历史数据库、Active Directory和CMMS集成安全且可运维的关键架构决策。
预测性维护系统最普遍的失效模式并非模型不正确,而是流程衔接断裂——平台识别异常,仪表板上触发告警,然后可靠性工程师看到告警后,却可能并没有启动维护响应的流程。这就是“洞察到行动的鸿沟”,这是一个架构问题,而非数据科学问题。关键在于将预测性维护系统融入自动化及维护执行的生态体系中,而不是将其孤立为一个分析孤岛。
本文阐述了我为EagleAPM开发的、在Novelis铝轧制和回收公司中实际应用的整合架构,以及在ML异常检测与CMMS工单系统整合后,该系统如何从一个监控平台转变为一个维护执行系统。
此EagleAPM是一项在Novelis内部使用的应用。整合架构和需求由数据科学团队自行设计,Konverge AI根据设计文档和需求规范作为开发协作伙伴参与开发。
整合架构
EagleAPM通过三层整合来弥合“洞察到行动”的鸿沟:历史数据库整合层,用于实时获取传感器数据;身份整合层,用于符合OT规范的用户管理;以及维护执行整合层,用于自动生成维护工单。
历史数据库整合层通过混合使用标准OPC UA和专有历史数据库API,连接到工厂的时序列数据架构,并将冷轧机资产的连续传感器数据注入EagleAPM的数据层。此层设计得十分精简,唯一职责是为处理管道提供高质量、低延迟的数据。数据注入过程中不包含任何转换或特征工程,因为此处理位于业务层,可以独立控制和版本迭代。
身份整合层则连接到工厂的Active Directory,实现用户认证、授权和基于角色的访问控制。在Novelis的OT环境中,身份管理不能依赖云身份提供商,因为这将需要外部网络连接,从而违返公司的OT安全策略。因此,原生的Active Directory整合确保了用户配置、注销和角色变更遵循与工厂内其他系统相同的治理流程。
CMMS整合
最重要的运维整合是连接工厂的SAP设备维护管理模块(即SAP Plant Maintenance)。该模块负责管理维护流程、工单、资产历史和排程。新的整合架构能够在高置信度的ML告警触发时,直接在SAP中自动生成工单,从而实现运维闭环,弥合洞察与行动之间的鸿沟。
当告警由静态阈值超标或ML模型检测到(跨多个变量的故障前兆)而触发时,系统可配置为自动在CMMS中生成工单。此类整合通过自动化网关实现:网关接收结构化MSMQ消息,并将其转译为API调用传递给CMMS。
自动化网关是一组服务器,作为IT和OT网络之间的解耦层。它位于两套环境的边界,从OT端的EagleAPM告警层接收结构化消息(通过MSMQ),并将其转化为向IT端SAP发出的API调用。这种分离确保了OT网络从不直接与IT系统通信,从而在实现自动化工单创建的同时,维护了工业环境中必要的安全分区。
每条消息的有效载荷都包含资产标识符、告警类型、严重等级以及传感器数值,同时附带触发告警的检测逻辑,使维护技师在到达现场前就能获取诊断资产所必需的上下文信息。
该设计对运维产生了两个重要影响。首先,它消除了人工复核环节——传统监控程序中从告警到响应延迟的最大来源。这意味着可靠性工程师不再需要查看仪表板告警、解读信息、决定处置方案,然后手动创建工单。工单会自动生成,并根据资产类型和告警等级,被发送到最合适的维护队列。
其次,它建立了完整的审计追踪,将ML检测事件、维护操作和操作结果串联起来。这个完整的审计追踪对于构建改进告警准确率的反馈循环至关重要——如果由ML告警生成的工单最终确实发现故障,该结果将用于验证告警并重新训练模型。
通知层
当然,并非所有告警都应该自动生成工单。EagleAPM的通知系统包含可配置的升级逻辑。低级别的告警会产生仪表板通知,也可以根据配置向可靠性工程师发送电子邮件或信息。高级别的告警除了仪表板通知外,还会自动生成工单。
工厂工程师可以通过自助服务界面自定义严重等级阈值和升级规则,而无需修改整个整合层的配置数据。
考虑到一个系统如果为每一个独立的阈值告警都自动生成CMMS工单,就会导致工单大量积压,用户也会对告警系统和CMMS数据同时失去信任。因此,EagleAPM中的通知层采用了分级置信度告警架构,意味着只有高置信度、已验证的告警才能自动触发工单生成。
为什么整合架构必须位于工厂网络内部?
历史数据库连接、Active Directory、自动化网关和CMMS的API整合全部都置于工厂OT网络内。EagleAPM完全容器化,通过Docker Swarm在厂区内基础设施上完成功能部署,无需任何外部连接。
这不仅仅是一个值得注意的部署特征,更是实现所有整合功能的顶层架构选择。
原生的Active Directory整合确保了用户配置、注销和角色变更遵循与工厂内其他系统相同的治理流程。工厂内的历史数据、身份存储和CMMS都属于OT系统或OT周边系统,若要通过一个云托管分析平台访问这些系统,就会面临数据复制到第三方环境或跨OT/IT边界开放API等问题,最终需要大量的安全审查、采购审批和持续治理,不适合实时监控。将EagleAPM实际部署在OT网络之内,使得未来所有整合都在OT网络本地进行,采用与工厂其他系统类似的本地治理机制,从而保障了实时性与合规性。
成果与可复制性
在冷轧机部署中,ML检测与EagleAPM工单系统的闭环整合直接带来了非计划停机时间84%的削减,节省了530万美元的成本,并在生产中保持了超过80%的告警准确率。CMMS整合使每次高置信度的ML检测都能触发一次维护响应,消除了此前因人工复核延迟而导致故障前兆持续恶化的隐患。
Konverge AI已为其他面临与Novelis相同OT限制的制造业客户实施了相同的整合架构(包括历史数据注入、Active Directory、通知服务和用于CMMS工单生成的自动化网关)。在该项目中,Konverge AI作为开发合作伙伴,基于内部团队撰写的设计文档和需求规范,进行EagleAPM应用的编码和构建。Konverge AI为工单生成流程所创造的架构已在多个工厂成功复制,无需重大重新设计,证明该架构精准捕捉了工业维护执行环境的共性特征,而非仅满足某家公司的特定需求。
中国在工业预测性维护领域同样进展迅速,以下三家具有代表性的企业技术动态值得关注:
树根互联:自主研发“设备维修智能体”,基于“根灵”工业大模型构建“故障澄清—智能诊断—交互式排查—案例沉淀”全闭环,诊断时长缩短50%,紧急维修效率提升30%,已帮助企业节约非计划停机成本累计约一亿元。
华为(昇腾):联合朗坤智慧推出“苏畅瑶光工业大模型一体机”,深度融合昇腾算力底座与工业知识管理引擎,支持本地化轻量部署、训推一体,实现设备状态监测、故障预警与资源调度的安全合规闭环。
工业富联:AI运维系统实现设备故障提前96小时预警,备件调度效率提升50%,通过生成式AI与传统模型结合,将被动“救火式运维”转变为主动“无忧智造”。
小结
从上述企业的技术实践可以看出,中国在工业预测性维护领域已形成多层次、多路径的创新格局——从设备自诊断智能体、云端时序大模型到软硬一体化的AI一体机,均在不同维度上实现了从“洞察”到“行动”的有效闭环。这些动态表明,虽然具体实现路径和技术生态有所差异,但通过AI与已有维护执行系统深度融合以消除数据孤岛、降低非计划停机的核心思路,与上文所述的国际经验形成了良好的呼应,也共同代表了全球预测性维护技术演进的关键方向。

