Big Data Pipelines – Effiziente Datenverarbeitung mit System

Eine Data Pipeline ist, betrachtet man diese im Detail, eine ganze Reihe von Schritten in der Datenverarbeitung. Generell versteht man unter einer Data Pipeline eine Methode um Daten von einer Quelle in ein Zielsystem zu transferieren. Aber was ist eine Big Data Pipeline? Vom reinen Konzept her besteht zwar kein grundlegender Unterschied zur klassischen Data Pipeline, indes, die Menge der Daten ist entscheidend und führt uns in Untiefen der Definitionsschwierigkeit? Wann sind es „nur“ Daten, wann ist es Big Data? Wie werden solche Daten erhoben, wie werden die Daten verwertet, und wem nützen sie?

Diese und weitere Fragen klärt der nachstehende Artikel, den die Mobility Rockstars Redaktion wie üblich in enger Zusammenarbeit mit den betreffenden Fachabteilungen entwickelt hat.

Marc Wiechmann Cognizant Mobility

Marc

Marketing Professional

16.03.22

Ca. 10 min

Sharing is caring!

Definitionsfrage: Was sind Big Data Pipelines?

Um die Frage der Big Data Pipeline klären zu können, müssen wir die Definition von Big Data voranstellen. Generell ist „Big Data“ ein nur grob umrissener Sammelbegriff und steht in aller Regel für Datenmengen, die zu groß sind, um sie mit den klassischen Mitteln der Datenverarbeitung auswerten zu können. Wir verwenden die Abschwächung „in aller Regel“ hierbei bewusst, da nicht nur die schiere Datenmenge „Big Data“ erzeugt – auch sehr komplexe Datengebilde oder schwach strukturierte Daten können ein Fall für den großen Datenbruder werden. Big Data bezeichnet also einerseits die Daten an sich. Andererseits umfasst der Sammelbegriff auch ein ganzes Arbeitsfeld, in dem das Sammeln und Auswerten von Daten stattfindet, sowie die dafür verwendeten Technologien, von denen es zahlreiche gibt.

Big Data Pipelines: Welche Daten werden gesammelt, und wieso?

Insbesondere im Automotive-Bereich gibt es eine gewaltige Menge an Daten, die zu sammeln und aufzubereiten sind, um eine Auswertung vornehmen und auch echte Erkenntnisse ableiten zu können. Eine Methode der Datensammlung ist dabei der „Mobile Data Recorder“ der Cognizant Mobility, im Folgenden mitunter auch mit dem intern gebräuchlichen Akronym „MDR“ betitelt. Hierbei handelt es sich um ein natürlich nicht in Kundenfahrzeugen, aber in zahlreichen Testfahrzeugen verbautes Gerät, über das sich zahlreiche Daten sammeln lassen. Ein Beispiel hierfür wäre die Erstellung einer Schlagloch-Karte: Testfahrzeuge fahren in ganz Deutschland auf praktisch allen erfassten Straßen, der MDR zeichnet jedes Schlagloch auf, zusätzlich kann der Testfahrer per Lenkradkombination ein Signal an den Rekorder senden und für eine höhere Auflösung der Daten sorgen – dazu gleich noch mehr.

big-data-pipeline-data-science-cognizant-mobility
Die Daten einer Vielzahl von Testfahrzeugen müssen zentralisiert gesammelt und ausgewertet werden. Alleine aufgrund der Vielzahl der Fahrzeuge, der vielen unterschiedlichen Daten und natürlich der puren Menge sind sinnvoll strukturierte Big Data Pipelines unerlässlich.

Dabei sprechen wir, wie erwähnt, weder von einem Fahrzeug noch von nur einer Straße: Manche Fahrer absolvieren pro Monat weit über 100.000 Kilometer im Rahmen von Testfahrten. Und nicht nur Schlaglöcher werden erfasst. Was passiert bei welcher Signalabfolge im Fahrzeug, welche Fehlermeldungen entstehen in verschiedensten Systemen an welcher Stelle, zu welcher Zeit, wie oft? All diese Signale der wichtigsten Fahrzeugbusse werden nun standardmäßig in einem Basisdatensatz gespeichert, zusätzlich kann bei der Signalauflösung und Auswahl auf kundenspezifische Auswertungsanforderungen eingegangen werden.

„Der Kunde“, das sind in der Automotive Branche üblicherweise die großen Player der Branche, deren Motorabteilungen, Fahrwerksabteilungen et cetera diverse Daten benötigen, um die eigene Entwicklung voranzutreiben und zu optimieren.

Es zeichnet sich also jetzt schon das „Big“ in „Big Data“ ab – geht man von Dutzenden, Hunderten und mehr Testfahrzeugen aus, sprechen wir von Millionen gefahrenen Kilometern pro Monat, und wahren Myriaden verschiedener Daten. Diese Daten müssen nicht nur empfangen, sondern nun auch gesendet werden: Der nächste Schritt in der Big Data Pipeline.

Wie wird Big Data gesendet, empfangen und ausgewertet?

Die massive Datensammlung wird vom Mobile Data Recorder gespeichert, der diese Daten verpackt und außerdem eine SIM-Karte enthält, mittels derer der Rekorder die Daten über das LTE-Netz over the air an die Cloud senden kann. In der Cloud – im Fall dieses spezifischen Projekts eine MS Azure Cloud – befindet sich ein Computing Cluster, beispielsweise ein Azure-typischer EventHub, der die Daten entgegennimmt und in einer Datenbank ablegt, von wo aus die Daten segmentiert, validiert und ausgewertet werden können. Die Datenbank selbst ist an entsprechende Auswertungstools (wie z.B. den Azure Data Explorer) angeschlossen, so dass die Daten gefiltert werden und als Datensatz zur Verfügung gestellt werden können.

Ein gerne bemühtes Beispiel in diesem Zusammenhang ist das eines Supermarkts: Man gibt eine Bestellung für Lebensmittel auf (Kunde), die vom Einkäufer (MDR) vorgenommen wird. Der Einkauf (Daten) wird auf das Fließband gelegt (EventHub) und von einer Kassiererin (Computing Cluster) abgerechnet. Aus dem Einkaufswagen (Datenbank) kann der ursprüngliche Kunde nun aussuchen, welche Waren ihn besonders interessieren und diese näher betrachten. Klingt pragmatisch – aber nicht ohne Grund belegt sich die Methodik des Datentransfers mit dem industriellen Begriff einer Pipeline.

Der nach dem Sammeln und Übertragen wichtigste Schritt in der Big Data Pipeline ist sicherlich der des fehlerfreien Decodierens der gewaltigen Datenmengen. Diese werden entpackt, decodiert und, soweit möglich, validiert sowie mit eigenen Meta-Daten versehen (wenn beispielsweise eine Seriennummer nicht zur Fehlermeldung passt, kann hier eine dokumentierende Anmerkung zum Datensatz gefügt werden). Die Decodierung übernimmt ein Algorithmus, ein Kernstück der Arbeit der Cognizant Mobility in diesem Projekt, die weite Teile des Algorithmus eigenständig entwickelt und geschrieben hat. Die Daten, die nun gesammelt und übertragen wurden, entpackt, decodiert und segmentiert, können nun dem Kunden vorgelegt werden.

Große Datensätze – Eine Frage der Auflösung

So weit, so gut – der Kunde hat seinen Datensatz, doch wie genau ist der? Schließlich wurde eine gewaltige Menge an Daten erhoben. Soll jedoch nur eine Momentaufnahme beleuchtet werden, beispielsweise eine Fehlermeldung, die in der weiteren Entwicklung behoben werden muss, gilt es, über Auflösungen zu sprechen. Diesen Begriff kennt man mitunter eher aus der Videotechnik, in der die Pixelanzahl eines Videos auf einer bestimmten Fläche beschrieben wird. In der Datenverarbeitung bedeutet die Auflösung indes etwas gänzlich anderes, nämlich eine zeitliche statt einer bildlichen Auflösung. Betrachten wir das also buchstäblich genauer: Eine Zeitreihe ist grundsätzlich eindimensional, und wir können bestimmte Abschnitte davon betrachten. Die Frage ist, in welchem Abstand die Betrachtung stattfindet. Ein Zeitraum von zwei Sekunden könnte sekündlich betrachtet werden, was zwei Datenpunkte (auch Abtastpunkte genannt) ergäbe. Der gleiche Zeitraum könnte aber auch jede Millisekunde betrachtet werden, und schon erhalten wir statt lediglich zwei Datenpunkten zweitausend davon, und somit eine erheblich höhere Auflösung des Zeitstrahls. Wird nun also im Rahmen einer Signalabfolge im Fahrzeug ein Fehler erzeugt, kann sich der Kunde eine höhere Auflösung genau des Zeitraums ansehen, in dem der Fehler entstanden ist und hat eine deutlich höhere Basis an Daten zur Verfügung, die sich dahingehend auswerten lässt.

big-data-datenmenge-cognizant-mobility-mobilityrockstars
Die Datenmengen, die via Big Data Pipelines erhoben, validiert und ausgewertet werden, gehen in die Petabyte und machen daher spezielle Big Data Verfahren erforderlich.

Big Data Pipelines in der Cognizant Mobility – Wieso Erfahrung entscheidend ist

Wir lieben ja einfache Vergleiche: Jeder mit einem grünen Daumen kann aus einem Samen einen Apfelbaum ziehen. Aber besser macht es der Gärtner, und wenn wir von einer ganzen Plantage sprechen, macht es Sinn, Gärtner mit Großprojekt-Erfahrung zu beauftragen. Was für – man verzeihe uns das ungelenke Wortspiel – den Big Apple Sinn macht, macht umso mehr für Big Data. Die Cognizant Mobility beweist seit Jahren hohe Expertise in der Verarbeitung von Daten, sowie in deren präziser Auswertung. Schließlich, was bringen Daten, wenn diese keine Insights ergeben, aus denen sich Handlungen ableiten lassen? Zusätzlich ist stets zu berücksichtigen, dass Big Data vor allem eines ist: Big. Abgesehen davon, dass in der Größenordnung, die im Automotive-Bereich benötigt wird, nur wenige Player gibt, ist die Mobility versiert im Projektgeschäft und schafft es, vor allem aus IT-Sicht strukturiert und effizient tätig zu sein.

Und nicht nur die schiere Größe, auch das Potential dieser Daten ist überwältigend. Von all den genannten Einsatzmöglichkeiten haben wir kaum die Spitze des Eisbergs benannt. Welche Sitzheizungsstufe wird bevorzugt? Wie weit wird das Lenkrad bewegt? Wann wird jemand schalten? Die Türe ist im Rahmen dieser Vielzahl von Daten offen für Predictive Analytics und Machine Learning – Tätigkeitsfelder, die in der Automotive-Branche einen hohen Grad an Überschneidung aufweisen.

Insbesondere für OEMs, die häufig keine eigene Technik-Abteilung für diese Felder besitzen, ist ein Anbieter strukturierter Erhebungen und Auswertungen von Daten, der nah an der Technik ist, ein wichtiger Partner in der Wertschöpfungskette.

Wenn ihr euch noch mehr für Big Data interessiert, oder auch eure Fahrzeuge mit dem MDR ausstatten wollt, wenn ihr große Datenmengen habt, mit denen ihr nichts anfangen könnt, oder eine Verwaltung und Validierung von Big Data benötigt, dann nutzt gerne unser Kontaktformular und schreibt uns.