VDI-Richtlinie Big Data geht in den Gründruck

Das Thema Datenanalyse ist ein spannendes Feld mit viel Potenzial. Aber auch mit vielen Dingen, die zu beachten sind. Und mit vielen Fallstricken, in die man geraten kann. Kein Wunder also, dass die Arbeit des Fachausschusses Big Data des VDI weitergegangen ist. Aus dem Fachausschuss wurde ein Richtlinienausschuss und nun ist es soweit: Die Richtlinie VDI/VDE 3714 "Implementierung und Betrieb von Big-Data-Anwendungen" ist im Gründruck erschienen.

Connection network in dark servers data center room storage systems 3D rendering

Analysieren Sie Ihre Daten – in fünf Schritten zum Erfolg

Vielleicht erinnert sich der ein oder andere noch an das Schaubild und die dazugehörige Serie. In sechs Posts habe ich Ihnen eine hoffentlich interessante und informative Einführung zu dem Thema Datenanalyse gegeben. Ein wirklich spannendes Feld mit viel Potenzial. Aber auch mit vielen Dingen, die zu beachten sind. Und mit vielen Fallstricken, in die man geraten kann. Kein Wunder also, dass die Arbeit des Fachausschusses Big Data des VDI weitergegangen ist. Aus dem Fachausschuss wurde ein Richtlinienausschuss und nun ist es soweit: Die Richtlinie VDI/VDE 3714 “Implementierung und Betrieb von Big-Data-Anwendungen” ist im Gründruck erschienen.

Egal ob Sie wie in der genannten Serie das Six Sigma Prozessmodell benutzen oder andere etablierte Modelle wie CRISP-DM oder SEMMA in Ihrem Unternehmen verankert haben, die Abfolge von Schritten einer Big Data Analyse bleibt gleich. Daher haben wir uns im Richtlinienausschuss dagegen entschieden, eines dieser Prozessmodelle heranzuziehen oder gar ein neues zu entwickeln. Alle Schritte lassen sich ohne Weiteres in die Struktur der Modelle eingliedern, so dass Unternehmen ihre eigenen Standards beibehalten können. Oder eben – gerade im Falle von Unternehmen, für die es ein neues Themenfeld ist – einfach dem Workflow folgen.

In insgesamt sieben Blättern gibt die Richtlinie eine umfassende Einblick. Durch die breite Fächerung der Expertisen der Mitglieder des Richtlinienausschusses konnten wertvolle Erkenntnisse aus Praxis und Wissenschaft in konsolidierter Form, zugeschnitten auf die Fragestellungen der produzierenden Industrie zusammengetragen werden. Hier eine kurze Übersicht mit den wichtigsten Inhalten.

Blatt 1: Durchführung von Big-Data-Projekten

Blatt 1 bildet den Rahmen der gesamten Richtlinie. In kurzen Abschnitten werden alle Schritte von Big-Data-Analysen beleuchtet und die wichtigsten Aspekte angesprochen. Von der Planung über die Durchführung bis hin zu einer nachhaltigen Nutzung resultierender Big-Data-Anwendungen. Big-Data-Projekte sind vielfältig in der Anwendung mit unterschiedlichsten Anforderungen wie die Sicherstellung einer ausreichenden Datenqualität, sowie der Bereitstellung der Daten in einer Datenbank, über Fragen der Datensicherheit, bis hin zu unterschiedlichen Ausbaustufen der Anwendungen. Hinzu kommen spezielle Anforderungen an die Datenaufbereitung und Modellierung, die industrielle Produktionsprozesse mit sich bringen.

Blatt 2: Datenqualität

Blatt 2 veranschaulicht sehr anwendungsbezogen 19 Dimensionen der Datenqualität, die sich in vier Kategorien aufteilen . Sei es die vollständige Zugänglichkeit aller Daten eines Messgeräts, die richtige Auflösung der Daten, damit alle Informationen gespeichert werden, die Wichtigkeit von Metadaten, um den Inhalt der Daten verstehen zu können oder die bloße Verfügbarkeit und Fehlerfreiheit aller relevanten Daten – um nur einige zu nennen. Alle relevanten Aspekte zur Datenqualität werden im Einzelnen beschrieben und anhand von Beispielen aus der industriellen Praxis illustriert.

Blatt 3: Datenbewirtschaftung

Blatt 3 beschäftigt sich mit der Bereitstellung von Daten aus verschiedenen Datenquellen in einer für eine Datenanalyse geeigneten Form. Der hierzu notwendige ETL-Prozess umfasst die Extraktion (Extract), Umwandlung und Bereinigung (Transform) sowie das Zusammenführen (Load) der Daten.

Auch hier bestehen Besonderheiten, die für die produzierende Industrie je nach Art des Prozesses beachtet werden müssen, denn Daten, die in einem Prozess aufgezeichnet werden, sind nicht kausal. Durch die Abfolge von unterschiedlich langen Verarbeitungsschritten müssen Ursache und Wirkung in den Daten daher zunächst in einzelnen Datensätzen zusammengefasst werden. Je nach Prozess – ob Stückgutfertigung, Batchprozess oder kontinuierlicher Prozess – enthält Blatt 3 Hinweise zur Datenaufbereitung. Darüber hinaus finden sich hier erste Hinweise zur Beurteilung der Daten mit statistischen Methoden sowie zur Datenbereinigung.

Blatt 4: Analyseverfahrensklassen

Blatt 4 bietet eine Übersicht über die derzeit gängigen Analyseverfahren mit einer kurzen Beschreibung gefolgt von anschaulichen Beispielen. Hierdurch bekommt der Leser sowohl einen Einblick in die verschiedenen Bereiche der Datenanalysen wie Regressionsanalyse, Clusteranalyse oder Anomaliedetektion, aber durch die Beschreibung der Anwendungsgebiete sowie praktischer Anwendungsfälle auch eine Idee, für welche Fragestellungen entsprechende Algorithmen vielversprechende Ergebnisse liefern können.

Blatt 5: Modellierungsverfahren

Blatt 5 beschäftigt sich auf einer abstrakteren Ebene mit der Modellbildung selbst. Es beschreibt datengetriebene und wissensbasierte Methoden anhand des Box-Ansatzes in Form von White- und Black-Box Modellen. Je nach Wissensstand über das Systemverhalten biet sich der ein oder andere Ansatz an. Wann welches Box-Modell zu wählen ist und was die Vor- und Nachteile sind, wird ebenso beschrieben, wie die Möglichkeit der Kombination beider Ansätze in Grey-Box Modellen.

Typischerweise weisen Produktionsprozesse ein Zeitverhalten aus, das heißt eine Änderung von Prozessparametern führt erst verzögert zu einer Veränderung in nachfolgenden Prozess. Auch hier gibt es abhängig von der Dynamik des Prozesses verschiedene Herangehensweisen, dieses Verhalten durch Modelle abzubilden. Wie diese aussehen und wie sie sich in der Praxis umsetzen lassen, ist ebenfalls in Blatt 5 beschreiben.

Blatt 6: Validierung von Modellen

Blatt 6 zeigt verschiedene Metriken und Methoden auf, die notwendig sind, um Modelle zu validieren und auf ihre Einsetzbarkeit in Big-Data-Anwendungen zu prüfen. Die Metriken werden sowohl für Regressions- als auch Klassifikationsmodellen beschrieben. Neben der zwingend durchzuführenden Validierung spielt die Plausibilität der Modelle eine große Rolle. Anhand eines datengetriebenen Modells wird die Wichtigkeit dieser Prüfung unterstrichen und die Herangehensweise beispielhaft illustriert.

Blatt 7: Online-Anwendung von datengetriebenen Modellen

Blatt 7 veranschaulicht die verschiedenen Ausbaustufen von Big-Data-Anwendungen. Angefangen von der Verwertung von Erkenntnissen aus der Datenanalyse beispielsweise in Form von der Neueinstellung von Prozessparametern über den Einsatz der Modelle als Softsensoren bis hin zur höchsten Ausbaustufe des Echtzeitoptimierers. Welche Voraussetzungen hierfür notwendig sind, welche Sicherheitsaspekte zwingend zu beachten sind und wie eine Umsetzung aussehen kann, ist anhand von Umsetzungsbeispielen anschaulich dargestellt.

Das Wichtigste auf einen Blick

Die Zielstellungen von Big-Data-Projekten können sehr unterschiedlich sein. Ebenso die Verwendung der jeweiligen Algorithmen. Es gibt jedoch einige zentrale Punkte, die alle Anwendungen betreffen.

Um bestmögliche Ergebnisse sicherzustellen, müssen alle Daten der Prozesskette zugreifbar sein. Dieses betrifft Rohstoffdaten, Maschinen- und Prozessdaten sowie Qualitätsdaten. Aber auch Daten, die zur Produktverfolgung oder zur Identifizierung von Prozesszuständen vorliegen, sind notwendig, um den Prozess eindeutig beschreiben und Daten korrekt zuordnen zu können.

Da die Daten in der Regel aus unterschiedlichen Datenquellen stammen, müssen diese entweder in einer übergeordneten Datenquelle verfügbar gemacht oder in einer Datenbank zusammengeführt werden. Offene Schnittstellen wie beispielsweise OPC/UA können den Aufwand hier deutlich verringern. Ebenso bietet das Offenlegen von Daten durch Maschinenhersteller zusätzliches Potential.  Maschineninterne Daten weisen häufig einen zusätzlichen Informationsgehalt auf, der sonst ungenutzt bleibt.

Aber Unmengen von Daten helfen nichts, wenn ihre Qualität nicht sichergestellt ist. Letztendlich entscheidet sie über den Erfolg der Datenanalyse. Ein Modell kann nur so gut sein, wie die Qualität seiner Daten. Nicht umsonst hat sich der Ausspruch “Shit in – Shit out” etabliert. Hierzu gehört auch die korrekte Aufbereitung der Daten. In der produzierenden Industrie typisch beispielsweise die Vorverarbeitung von Daten mit Zeitverhalten oder die Bestimmung charakteristischer Kenngrößen aus Batchdaten.

Modelle können in unterschiedlicher Weise zur Wertschöpfung beitragen. Von der Erhöhung des Prozesswissens bis hin zu einem Einsatz von Modellen in Produktionsprozessen. Sofern Modelle selbst oder Erkenntnisse hieraus eingesetzt werden, um den Prozess in irgendeiner Weise zu beeinflussen müssen sowohl die Güte der Modelle und deren Plausibilität eingehend geprüft werden. Nur so kann die vorhandene Unschärfe von Modellen abgeschätzt und bei ihrem Einsatz in Form von Sicherheitsmechanismen berücksichtigt werden. Bei einem Online-Einsatz sind ebenfalls Sicherheitsbetrachtungen bezüglich Software und Systemstruktur durchzuführen.

Viele Dinge, die gerade für Neulinge in diesem Themenbereich zu beachten sind. Daher lohnt sich ein Blick in die Richtlinie. Viel Spaß dabei!

Hinweis: Von der Richtlinie VDI 3714 befindet sich aktuell Blatt 3 im Gründruck. Das heißt: Es können von Fachleuten noch Einsprüche eingereicht werden. Die weiteren Blätter werden im Laufe des Jahres erscheinen. Blatt 1 und Blatt 2 sind in Kraft getreten.

 


Analysieren Sie Ihre Daten – Schritt 1: Define

Predictive Maintenance zwischen Hype und Realität

Die digitale Transformation – nicht nur ein technologischer Wandel

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Scroll to Top