中控技术(SUPCON)作为工业自动化与数字化转型的领军企业,其数据平台架构深度集成了 Apache 开源生态。它并不是直接使用一个名为“Apache 数据平台”的单一产品,而是通过组合多个 Apache 顶级项目,构建了一个高效的工业大数据中台。
这种架构的核心目标是处理工业场景下海量的时序数据、关系型数据以及复杂的计算任务。以下是其基于 Apache 栈的典型描述:
1. 核心架构组成
中控技术的数据平台通常采用“数据湖+实时数仓”的混合架构,涵盖了数据的采集、存储、计算和展示全流程:
数据接入层(Apache SeaTunnel): 中控利用 SeaTunnel 替代了传统的 Sqoop 或 Fluke,用于解决 TB 级工业数据的同步难题。它支持数百种数据源,能够统一离线批处理和实时流处理。
计算与流处理层(Apache Flink / Spark):
Flink: 负责实时流计算,处理来自 DCS/PLC 系统的毫秒级工业报警和状态数据。
Spark: 用于大规模离线数据挖掘和复杂的工艺指标计算(如能耗分析、物料平衡)。
存储与数仓层(Apache Doris / IoTDB):
Apache Doris: 核心的实时分析数仓。中控利用其高并发、亚秒级查询能力,支撑工业驾驶舱、报表和 SaaS 产品的快速查询。
Apache IoTDB: 专门用于存储工业时间序列数据(传感器采样值),具有极高的压缩率和写入吞吐。
可视化层(Apache Superset): 用于构建自助式的工业报表和数据大屏,帮助管理人员直观查看生产效率。
2. 关键技术特性
高时效与低成本
通过引入 Apache Doris,中控技术成功将原有的 T+1(隔天生成报表)升级为 T+0(实时生成)。相比传统的商业数据库,这种架构在保证高查询性能的同时,大幅降低了硬件和运维成本。
工业语义集成
中控在 Apache 基础之上加入了工业语义模型。这意味着 raw data(原始信号)不仅仅是一个数值,还带有位号、工艺段、设备关联关系等工业逻辑,使得 AI(如 TPT 工业大模型)能够直接理解数据背后的含义。
极高的系统稳定性
基于 Apache SeaTunnel Engine 的分离架构,中控实现了集群的高可用性。即使单个节点异常,核心的数据采集任务也不会中断,这对于 7×24 小时连续运行的化工、电力等流程工业至关重要。
3. 应用场景描述
想象一个典型的化工厂:
采集: 遍布厂区的传感器数据通过 SeaTunnel 汇聚。
处理: Flink 实时监控管道压力,一旦波动超过阈值立即预警。
分析: 历史数据存入 Doris,技术专家使用 Superset 调取过去一年的运行曲线进行工艺优化。
智能: 所有这些数据最终喂给中控的 TPT 大模型,实现自主运行和预测性维护。