Digitalization

Data Lake VS. Data Warehouse

Zwei Konzepte industrieller Big-Data-Anwendungen, die unterschiedlicher nicht sein könnten.

12/6/2018

Michael Welsch

Was ist Big Data?

Bei Big Data geht es um Strategien zur Verarbeitung von Datenmengen, die mit herkömmlichen Computern nicht verarbeitet werden können. Die Datenmengen von Big Data sind zu groß für einen Computer. Wir sprechen also von Tera- oder Petabytes an Informationen, die nicht im Zugriff eines einzelnen Computers erfasst werden können. Zur Verarbeitung werden diese Datenmengen daher auf mehrere Prozessoren mit entsprechendem Speicher in einem Rechenzentrum verteilt. Der Einsatz erfordert speziell abgestimmte Algorithmen zur Auswertung, wenn man alle Daten gegen alle anderen Daten „anwenden“ möchte. Eine Data-Lake-Anwendung erfordert eine abgestimmte Serverinfrastruktur; man führt die Algorithmen zur Datenmenge, nicht umgekehrt. Allerdings sollte man sich fragen, ob diese Flexibilität für industrielle Produktionsdaten sinnvoll ist oder man lieber eine klassische Aggregation mit dem Konzept des Data Warehouse abwickeln sollte.

‍

Warum sollte man diese überhaupt verarbeiten wollen? viele Daten gleichzeitig?

Algorithmen gepaart mit astronomischer Rechenleistung und Speicherkapazität sind zu etwas fähig, Menschen nicht. Menschen sind unübertroffen gut darin, komplexe Informationen zu verarbeiten und in unsicheren und fragmentierten Informationssituationen zu entscheiden. Maschinen sind hervorragend darin, einheitliche Informationen zu verarbeiten und unglaublich viel davon in Sekundenbruchteilen zu erledigen. Die synergetische Kombination beider Welten liegt darin, dass sich der Mensch um die Komplexität einheitlicher Informationen kümmert und dann dank der Maschinen mit weniger Unsicherheit entscheidet.

‍

Data-Lake-Strategie

Im Zuge der Data-Lake-Strategie werden zunächst alle Daten an einem zentralen Punkt gesammelt. Dieses Konzept ist sinnvoll, wenn man alle in der Anlage bereits vorhandenen Daten nutzen möchte. Man beauftragt die SPS umzuprogrammieren, sodass sie ihre internen Daten auf dem Bussystem bereitstellt und erwirbt zusätzliche Module, sogenannte IoT-Gateways, die diese Daten nun an ein ebenfalls zu erwerbendes oder zu mietendes Rechenzentrum weiterleiten, wo sie die Daten verarbeiten , wird in einer entsprechenden Datenbank abgelegt. Die Herausforderung besteht nun darin, die nicht korrelierenden Daten zu filtern, die normalerweise 95 % ausmachen. Dies ist zwar algorithmisch erreichbar, jedoch nur verbunden mit einem stark erhöhten Personalaufwand der Data-Science-Experten. Diese wertneutralen 95 % der Daten müssen allerdings nach Netzwerk- und Speicherkapazität abgerechnet werden. Das Löschen dieser Daten muss ebenfalls verwaltet werden. Letztendlich werden große Anstrengungen unternommen, um von den bereits vorhandenen Daten zu profitieren. Dieser Gewinn steht oft in keinem Verhältnis zum Aufwand einer Datenerfassung. Eine Datenbox bedeutet in der Regel, dass auch eine Datenbank verwendet wird. Industriedaten sind neben mechanischen Daten in der Regel auch Sensordaten. Allerdings eignet sich eine SQL-Datenbank nur bedingt für die Ablage umfangreicher Zeitpläne. Selbst ein typisches dokumentenorientiertes NoSQL-Format ist nicht grundsätzlich besser. Hierzu ist eine spezielle Timeline-Datenbank erforderlich, die eine entsprechende API für den Restsee anbieten kann. Eine bestimmte Data-Lake-Technologie existiert daher nicht.

‍

Data-Warehouse-Strategie

Im Zuge der Data-Warehouse-Strategie werden Daten aus diesen komprimiert Lager zu Lager aufgrund einer Informationskaskade bzw. Aggregiert. Klassischerweise handelt es sich dabei um Betriebskoeffizienten. In einem Lager werden also die jeweiligen Umsätze als Gesamtumsätze sowie die jeweiligen Teile dieser Sparten im nächsten Lager aggregiert und von diesem Lager aus werden dann die aggregierten Zahlen der Tochtergesellschaft an die Geschäftsführung übermittelt. Eine Data-Warehouse-Kaskade ist energetisch und auf die Frage ausgerichtet, die vom obersten Warehouse gestellt wird. Durch eine Aggregation wird aus Zahlen, Daten und Fakten eine Antwort generiert. Falls eine Aggregation auf Basis der im untersten Lager vorhandenen Daten nicht möglich ist, wird die Frage an das nächstniedrigere Lager weitergeleitet. Am Ende müssen möglicherweise neue Daten erfasst werden. Wenn häufig dieselben Fragen gestellt werden, werden die Aggregationsprozesse automatisiert. Aggregationen sind daher klassischerweise Kopien. Dank moderner IT können Daten auch nahezu in Echtzeit aggregiert oder gestreamt werden. Jedes Lager ist für die Qualität seiner Daten selbst verantwortlich und stellt nur sinnvolle Aggregationen bereit. Wenn ein Warehouse Daten von mehreren anderen Warehouses sammelt und diese gleichzeitig reduziert (durch Aggregation/Merkmalsextraktion), führt dies auch zu einer Datenkoexistenz aufgrund der Neukodierung oder der Anforderung an die unteren Warehouses, diese zu erwerben bzw. zu erfassen. Stellen Sie die Daten auf andere Weise bereit. In diesem Fall liegen Sensordaten in einer Timeline-Datenbank und werden per API z. B. an ein zentrales SQL übertragen, das speziell dafür modelliert ist.

‍

Na dann?

< p>Die Implementierung eines Data Lake sowie der Aufbau eines Data Warehouse sind mit einem hohen Arbeitsaufwand verbunden. Beiden Konzepten ist gemeinsam, dass die Ausführungsplanung des IoT-Gateways und die Bereitstellung der richtigen Serverinfrastruktur durch die IT erforderlich sind. Das Data-Lake-Konzept erfordert spezielle Datenwissenschaftler, Administratoren und Programmierer, die beispielsweise eine Installation auf einem Hadoop betreiben können. Aufgrund ihrer Vita fehlt diesen Experten oft das richtige Verständnis für die tatsächlichen Prozesse und sie werden ihnen sogar abgeschottet. Dies ist eine schlechte Voraussetzung und fördert nicht die Akzeptanz für dieses Thema. In den jeweiligen Fachbereichen muss eine gewisse IT- und Algorithmen-Expertise aufgebaut werden. Betrachtet man dies als Chance für eine nachhaltige Digitalisierungsstrategie, muss das Data-Warehouse-Konzept der klare Favorit für den Umgang mit großen Mengen industrieller Daten sein.

Folgt uns auf

zurück

weiter