+7 (812) 33-33-121
Mail
Youtube
Facebook
QR-код

В чем разница между озером данных и хранилищем технологических данных

4 January 2020
Понятия озеро данных (Data Lake) и хранилище технологических данных (PIMS, Historian) нередко воспринимаются как синонимы и даже смешиваются профессионалами. Причина этому – их назначение: сбор и хранение данных. Однако это единственное, что их роднит. На самом деле есть значительная разница между этими двумя системами, начиная от архитектуры и заканчивая задачами, для которых они строятся. 

Три ключевых отличия хранилища технологических данных от озера данных:

Озеро данных

Хранилище технологических данных

Структура данных

Данные в сыром виде

Обработанные данные

Назначение данных

Неизвестно, как и когда будут использованы

Необходимы для решения конкретных задач

Пользователи

Дата-инженеры

Диспетчеры, бизнес-аналитики







Разберем более подробно ключевые отличия:

1. Сырые данные или обработанные

Для начала разберемся, что подразумевается под сырыми данными. Это данные от множества контроллеров и систем, хранящиеся в оригинальном формате. Именно они собираются в озеро данных. Самая главная проблема при этом – риск превращения озера в болото, из которого вместо «золотой рыбки знания» можно вытянуть только «мутную тину цифр». Еще один минус – повышенные требования озер данных к серверным мощностям и сетям передачи данных. Для озера надо больше дискового пространства, чем для хранилища данных.

Хранилища технологических данных (PIMS, Historian) работают иначе. Они изначально строятся в соответствии с четко прописанной информационной моделью производства, в которой каждому объекту и параметру присваивается определенный набор данных с заданными характеристиками точности и алгоритмами обработки. В хранилище нет случайных показателей. Все каналы поступления данных, правила их проверки и математической обработки прописываются на этапе определения целей создания хранилища и формирования единой информационной модели. Отсюда следует и главный недостаток хранилищ в сравнении с озерами – высокая трудоемкость структурирования данных и стандартизации правил их обработки и хранения.

2. Назначение данных

Если компания не знает, какие конкретно задачи она будет решать с помощью данных, обычно выбор падает на озеро. Оно позволяет накопить большой объем разнородной информации, которую впоследствии смогут использовать системы машинного обучения или дата-инженеры, чтобы найти не очевидные в настоящее время закономерности. Такой поход оправдан, если в планах компании стоит применение машинного обучения и технологий искусственного интеллекта (AI).

Хранилище технологических данных заточено под решение конкретных задач, поэтому там собираются исключительно те данные, которые точно необходимы потребителям. Например, для мониторинга технологических процессов, диагностики оборудования, оперативного планирования производства, формирования производственных отчетов.

3. Пользователи данных

Хранилище технологических данных является таким же понятным инструментом, как таблица, поэтому данные из него, напрямую или через смежные системы может использовать любой специалист – от диспетчера до бизнес-аналитика.

Для работы с сырыми данными из озера требуются специально обученные дата-инженеры с отличным знанием языков программирования (SQL, Python, Scala) и баз данных (SQL, Hadoop). Для извлечения пользы и новых знаний, требуется обширный инструментарий и различные методы анализа данных, а значит больше времени и дополнительные специалисты.

Как видим, каждый из подходов обладает своими преимуществами и недостатками. Какой подход более близок вам?