◆◆0

数字化转型是一场从边缘到洞察的数据之旅

yuyuxi 2021-01-27 大数据平台类, 大数据资讯 3,498 views

数字化转型是所有市场和行业的热门话题，因为它正在以爆炸性的增长速度带来价值。考虑到制造业的工业物联网（IIOT）的估值为1610亿美元，增长率高达25%，到2027年，互联汽车市场的估值将达到2250亿美元，增长率为17%，或者在2020年的前三个月，零售商在短短三个月内实现了十年的数字销售渗透。不过大部分写的都是关于使能技术平台（云或边缘或数据仓库等点式解决方案）或推动这些效益的用例（应用于预防性维护的预测性分析、金融机构的欺诈检测或预测性健康监测为例），而不是基础数据。缺失的一章不是关于点解决方案或用例的成熟历程。缺失的章节是关于数据的--它始终是关于数据的--而且，最重要的是，数据编织了从边缘到人工智能洞察的旅程。

这是六部分文章系列中的第一部分，概述了从边缘到AI的数据之旅，以及数据在旅途中产生的商业价值。数据之旅并不是线性的，而是一个无限循环的数据生命周期--从边缘开始，在数据平台中穿梭，并产生应用于实际业务关键问题的业务必要见解，从而产生新的数据主导计划。我们将这一历程简化为五个独立的步骤，其中第六个步骤涉及数据安全和治理。这六个步骤是：

数据收集--在边缘进行数据摄取和监测（无论边缘是工业传感器还是实体零售店中的人）。
数据丰富--数据管道处理、汇总和管理，为进一步完善数据做好准备。
报告----提供商业企业洞察力(销售分析和预测、市场研究、预算编制为例)
服务 - 控制和运行基本的业务操作（ATM交易、零售结账或生产监控）。
预测分析--基于人工智能和机器学习的预测分析（以欺诈检测、预测性维护、基于需求的库存优化为例）。
安全与治理--一套跨越整个数据生命周期的安全、管理和治理技术集成

为了说明数据之旅，这里选择了一个非常相关且具有可持续发展意识的制造主题--电动汽车的制造，之所以选择这个主题，是因为与 "老式进化"（成熟度较低）相比，制造操作通常具有革命性的特点（高度的数字成熟度，部署了最新的数据工具），而且这些汽车大多是作为 "互联移动 "平台制造的，这使得汽车不仅仅是交通工具，而是一个由数据驱动的知识和洞察力的平台。这个故事将展示如何使用Cloudera数据平台收集、丰富、存储、服务数据，然后用于预测汽车制造过程中的事件。

本篇文章将介绍一家模拟互联汽车的电动汽车制造公司，名为（有一个极具原创性的名字）电动汽车公司（ECC）。ECC在全球范围内经营着多家制造工厂，是垂直一体化的，制造自己的汽车以及许多关键部件，包括电机、电池和辅助部件。每家工厂负责制造不同的部件，最后的组装在几个选定的、具有战略意义的工厂进行。

数据收集挑战

在生产过程中，管理收集所有工厂的所有数据是一项重要的工作，带来了一些挑战：

难以评估物联网数据的数量和种类。许多工厂利用来自多个供应商的现代和传统制造资产和设备，并采用不同的协议和数据格式。虽然控制器和设备可能连接到OT系统，但它们通常没有以一种方式连接，以便它们也能轻松地与IT系统共享数据。为了实现互联制造和新兴的物联网用例，ECC需要一个解决方案，能够处理来自边缘的所有类型的不同数据结构和模式，将数据标准化，然后与包括大数据应用在内的任何类型的数据消费者共享数据。
管理实时数据的复杂性。为了使ECC能够推动预测性分析用例，数据管理平台需要对流式数据进行实时分析。该平台还需要有效地实时或近乎实时地摄取、存储和处理流数据，以便即时提供见解和行动。
将数据从独立的孤岛中解放出来：制造业价值链中的专业化流程（创新平台、QMS、MES等）奖励不同的数据源和数据管理平台，这些平台为独特的孤岛式解决方案量身定做。这些利基解决方案限制了企业价值，只考虑到跨企业数据所能提供的一小部分洞察力，同时分割了业务，限制了协作机会。正确的平台必须具备摄取、存储、管理、分析和处理来自价值链中所有点的流数据的能力，将其与数据历史学家、ERP、MES和QMS来源相结合，并将其利用为可操作的洞察力。这些见解将提供仪表盘、报告和预测分析，以推动高价值的制造用例。
平衡边缘。了解边缘和云端数据处理之间的正确平衡是一项挑战，这就是为什么需要考虑整个数据生命周期的原因。业界有一个令人不安的趋势，因为公司选择专注于其中一个或另一个，而没有意识到他们可以，也应该两者兼顾。云计算对于长期分析和大规模部署有它的好处，但它受限于带宽，往往收集了大量的数据，却只用了一小部分。边缘的价值在于以零延迟的方式在影响最大的边缘采取行动，然后再将最有价值的数据发送到云端进行进一步的高性能处理。

使用Cloudera数据平台收集数据

第1步：收集原始数据

ECC的生产运营数据涵盖了众多来源--工业机器人、白身磷化涂料工艺槽（温度、浓度或补料）、供应链远程信息或主件信息等。在这个具体的例子中，ECC的五个工厂的原始零件主数据已经被收集起来，准备输入到Apache NiFi中（见数据流程收集图）。

第2步：为每个工厂配置数据源

数据收集将使用Cloudera的数据流体验（由Apache NiFi支持）来说明，以检索这些原始数据，并将其分割成各个工厂流（由Apache Kafka管理），以更准确地类似于真实世界的场景（见图2）。为了保持例子的简单性，我们为工厂生成的每个零件选择了以下数据属性标签。

工厂ID
机器编号
制造时间戳
部件号
序号

第3步：监控各工厂的数据吞吐量

由于现在所有的数据都流向了各个Kafka流，数据架构师正在监控来自每个工厂的数据吞吐量，以及调整所需的计算和存储资源，以确保每个工厂有必要的吞吐量将数据发送到平台。

第4步：从Apache Kafka流中采集数据

Kafka可以捕获所有工厂的数据流，并将其收集到处理器中，这些数据流既可以过滤，也可以丰富，用于控制和运行由运营数据库驱动的基本业务运营，或通过企业数据仓库提供业务企业洞察力，或用于高级分析。

ECC最近开始生产他们的电机升级版，只在5号工厂生产，这些数据将作为数据生命周期的下一步说明。

第五步：将数据推送到存储解决方案中

由于ECC制造和质量工程师会希望密切监控该电机的部署和现场使用情况，因此具体的制造可追溯性数据会被过滤到一个单独的路由中，并保存到Apache Hive中自己的表中。这将允许工程师以后在Cloudera数据仓库中针对数据运行临时查询，以及将其加入到企业数据仓库中的其他相关数据中，如维修订单或客户反馈，以产生预先的用例，如保修、预测性维护例程或产品开发输入。

另外，如果需要控制和运行基本的业务操作，整个数据集加上一个处理过的时间戳，将被发送到Apache HBase支持的Cloudera操作数据库中。这些数据将作为ECC运行其库存平台的基础，这将需要使用持续的读/写操作，因为库存每天可以增加和删除数千次。由于HBase被设计用于大规模处理此类数据交易，因此它是应对这一独特挑战的最佳解决方案。

结论

这个简单的例子显示了正确获取数据摄取的重要性，因为它是运营数据库、企业数据仓库或高级分析机器学习预测分析所提供的洞察力的基础。"正确获取 "的价值包括使用来自任何企业来源的数据，从而打破数据孤岛，使用所有数据，无论它是流式的还是面向批处理的，以及将数据发送到正确的地方产生所需的下游洞察力的能力。

使用CDP，ECC数据工程师和其他业务线用户可以开始将收集到的数据用于各种任务，从库存管理到零件预测到机器学习。由于Cloudera Data Flow促进了来自任何企业源的实时数据摄取，因此无需具备各种编程语言和专有数据收集方法的广泛知识，即可对其进行扩展和维护。如果遇到独特的问题，工程师还可以创建自己的流程，进行真正的、精细的控制。

请期待下一篇文章，它将深入探讨数据丰富化以及如何支持数据生命周期故事。此外，这个故事将通过数据驱动的演示来增强，展示数据生命周期每一步的数据之旅。

Cloudera试用和报价

福利时刻！

慧都“专家1对1，助力2021企业数字决策化转型”活动正在进行中，设备故障预测、产品质量分析等方案通通免费咨询，欢迎拨打慧都热线023-68661681或咨询慧都在线客服，我们专业的大数据团队，将为您提供免费大数据相关业务咨询！