近期有一种声音称我们处于工业5.0时代,这个论点其实偏离了对智能制造技术和商业模式的关注,有人精彩地把我们所处的阶段称为工业Pi或工业3.14159265。这是个非常有意思的论点,首先它很容易被记住,然后是因为它真相了:任何具有工业和技术应用领域经验的人都可以轻松理解,尽管有很多可变性,但我们更接近第三次工业革命,而不是第四次工业革命。

与自动化、控制和可追溯性等方面相比,行业对数据的态度更能体现这一点。因此,从收集、处理和使用数据的方式来评估一家公司的成熟度相对容易。

许多企业仍处于工业3.0之前的阶段,几乎处于默默无闻的状态。工厂几乎没有数据,甚至是根本没有数据,其中大部分是人工记录,或者通过相对初级的应用程序收集的。

在Pi阶段,可能是大多数公司所处的阶段,有一套软件解决方案,例如ERP、MES、QMS,以及一些自动化解决方案。在这个阶段,从机器收集数据是很常见的,但这些数据存储在孤立的文件或数据库中,最终总会有人尝试去进行分析。

你们公司正处于哪个阶段?

试图从Pi阶段(也许是Pi++阶段)进化,有公司寻求将这些解决方案互连起来,并开始尝试解决信息来源不均的问题。此外,他们已经认识到他们拥有的最大资产之一是数据,因此寻求将信息集中在数据仓库中。

在迈向工业 4.0 的成熟阶段,有些公司已经意识到他们需要拥有来自各系统的集中数据收集和存储解决方案。这时我们看到公司寻求创建集中式数据湖,他们认为这些数据湖不仅最终会成为单一事实来源,而且有望成为人工智能理想世界的大门。

在这个试点的新阶段(常常被称为“试点炼狱”),许多公司正着手开展机器学习和数据科学计划,但结果却相当令人失望。受到这些大肆宣传的举措的诱惑,这些举措承诺提供伟大的见解和预测模型,使公司能够提高业绩。不幸的是,解决方案往往效率低下、成本高昂且难以扩展。

大多数时候,这并不是因为缺乏数据–许多制造商正在收集大量数据并将其发送到中央数据湖。但问题在于,数据科学家大部分时间都花在创建数据集和清理数据上,而不是运行先进的算法来发现有价值的见解。

人工智能无处不在,为什么在制造业中使用它却如此困难?

本节的标题说明了一切。我们所做的一切都被人工智能包围,最近LLM(大语言模型)变得无所不在。但如果是这样的话,为什么制造业还没有利用它呢?

挑战在于,与过去不同的是,要真正从数据中提取价值,组织必须结合使用三种角色:数据工程师数据科学家领域专家。这种多学科方法对于克服“试点炼狱”至关重要。

数据工程师负责构建和维护基础设施和架构,以实现高效的数据收集、存储和访问。这包括设置数据库、数据仓库和数据管道。他们确保数据可用、可靠且格式正确以供分析。如果没有强大的数据工程,组织可能会面临数据孤岛、数据质量差和效率低下的问题,从而阻碍数据计划的扩展。

另一方面,数据科学家分析和解释复杂的数据,以帮助做出明智的业务决策。他们使用统计、机器学习和预测建模等多种技术来揭示数据中的见解和模式。他们的专业知识对于将原始数据转化为可行的见解至关重要。然而,如果没有适当的数据基础设施和领域知识,他们提供有意义结果的能力可能会受到限制。

最后,领域专家对特定领域或行业有深入的了解和理解。他们提供数据背景,并帮助制定相关问题并以有意义的方式解释结果。如果没有他们,数据分析可能缺乏实际适用性或错过关键的行业相关的细微差别。

要从数据中致富,首先需要数据丰富

再一次,这个标题说明了一切。试点项目赢得成功的关键是前面描述的三个角色之间的协作。他们需要共同解决的主要主题之一是数据扩充(data enrichment)和情境化。

这个想法并不新鲜,也不是制造业特有的。然而,大多数人似乎只是忘记分析其他行业如何解决他们的问题并应用类似的解决方案。事实上,数据扩充是许多行业的常见做法。

在市场营销和 CRM 中,公司从姓名、电子邮件地址和购买历史记录等基本客户数据开始,并通过人口统计详细信息、社交媒体活动或浏览行为等附加信息来扩充数据,以更深入地了解客户;在金融服务中,客户数据通过投资历史和交易模式得到扩充,以帮助了解客户的财务行为;电子商务平台通过浏览模式、产品偏好以及反馈或评论来扩充其客户数据;在医疗保健领域,患者记录中包含实验室结果、遗传信息或生活方式数据,以便更好地进行诊断和治疗计划。

在制造业中也应该同样如此。例如,如果目标是执行预测性维护,那么来自机械的操作数据需要与机器信息和规格、维护历史记录、当前正在处理的材料、正在使用的程序等相结合。在质量、传感器数据或其他质量方面 从设备收集的参数可以对具体的生产批次、产品规格、机器设置等数据进行数据扩充,以预测质量或查明质量问题的根本原因。

我们添加的是数据的上下文环境数据。上下文环境数据是支持用例的数据源之间的所有有意义的关系。

接触过的几乎所有有一定规模的公司都有某种数据湖,或者至少是一个数据湖项目。在绝大多数情况下,他们将各种数据存储在同一“数据湖”的不同区域中,没有上下文环境数据。

这就是 MES 发挥作用的地方,没有一个系统比 MES 系统能更好地添加制造信息源的扩充信息,能够丰富原本没有上下文化且功能较差的设备或传感器级数据。

清理数据湖

使用 MES 作为通用数据模型的主要结构非常重要,它将成为我们行业的游戏规则改变者。这里我想简单地谈谈数据湖项目尚未在制造中取得成功的一些原因。

首先,对于许多数据湖来说,元数据(metadata)是事后才想到的。

元数据常常是许多数据湖中被忽视的一个方面。尽管理论上原始数据可以用于各种直接、潜在和尚未发现的用途,但元数据的主动管理通常处于次要地位。

“原始数据缺乏记录良好且沟通良好的上下文含义,就像缺乏地图服务的一组坐标。那些无需地图就能直观了解坐标的幸运儿可能会受益。对于其余的一切,是地图提供了意义。如果没有地图,仅靠坐标对大多数人来说是毫无用处的。”

其次,数据湖缺乏情境化。

数据湖中明显缺乏情境化。虽然某些系统可以有效地利用原始数据,但大多数系统需要通过上下文处理进一步细化的数据。这可以包括机器学习的聚合、扩充或修改。

“仅以未转换的原始形式存储数据的数据湖几乎没有什么相对价值。这些大量昂贵的提取和存储数据对于数据湖项目团队本身之外的任何人来说都无法使用。”

第三,解放数据,使见解民主化

许多主要处理 IT 数据的中型制造公司可能会发现基本数据目录就足够了。然而,管理运营技术 (OT) 和信息技术 (IT) 数据组合的大型运营商(尤其是在富含物联网数据和复杂棕地数据场景的环境中)需要强大的企业级数据情境化解决方案。

通过有效地将数据情境化,企业可以在工业性能优化和高级分析工作中立即获得巨大的收益并节省时间。

“通过从孤岛中释放数据、定义数据之间的关系并使其全部在云中可用,制造商创建了一个基础,在此基础上他们可以构建高级和低代码数字工具,从而在整个组织中提供洞察力, 实现远程监控和诊断,使工程师能够专注于解决运营问题、改进现有产品和服务以及开发新的解决方案。” — 《清理数据湖:制造业的数据上下文关联》,cognite.com 博客