Was macht ein Data Engineer?

Pipelines für den Datenfluss

Bylle Bauer
Menschen im Büro vor Bildschirmen mit Code

I think you can have a ridiculously enormous and complex data set, but if you have the right tools and methodology, then it’s not a problem.

Aaron Koblin, Künstler, Unternehmer und Pionier der Datenvisualisierung

"Bit by Bit" schwemmt jeden Tag eine riesige Flut an Daten ins Unternehmen und eröffnet nie dagewesene Möglichkeiten – wenn man sie zu nutzen weiß. In der gar nicht mehr so neuen Jobwelt rund um das Thema Big Data spielst Du als Data Engineer – auch bezeichnet als Datenarchitektin, Smart Data Architect oder Datentechnikerin – eine wichtige Rolle, denn Du bereitest unstrukturierte Daten so auf, dass sie überhaupt erst für Analysezwecke verwendet werden können.

Hier erfährst Du, wie Du in Deinem Job im Bereich Data Engineering vorgehst, wo Du arbeiten kannst, was Du dafür so drauf haben musst und natürlich, was Du verdienst!

Was sind Deine Aufgaben als Data Engineer?

Auch wenn Deine genauen Aufgaben in einem Data-Engineering-Job von Unternehmen zu Unternehmen sehr unterschiedlich sein können, geht es doch in jedem Fall darum, dass Du dem Unternehmen die Daten zur Verfügung stellst, die es benötigt. Dabei lässt Du Aspekte wie Datenschutz und Datensicherheit niemals außer Acht.

Die Daten kommen auf vielen Wegen ins Unternehmen – z.B. über Nutzerkonten, Bestellvorgänge, das Tracking des Verhaltens der Online-Shoppenden, die Interaktion in den Sozialen Medien oder über das Internet of Things – und auf viele Arten: etwa als .csv-Datei, Textdokument, Foto-, Video- oder ZIP-File. Diese zum Teil unstrukturierten Datenmengen bringst Du ins Reine und machst sie über eine Plattform für Data Scientists und Data Analysts, aber je nach Use Case auch für andere Mitarbeitende und Kund:innen, nutzbar.

Extrahieren, Transformieren, Laden: Im ETL-Prozess legst Du eine Daten-Pipeline, die Daten aus allen verfügbaren Quellen anschwemmt. Mit einem Skript bringst Du die zu importierenden Daten automatisiert ins gewünschte Format und legst sie am richtigen Speicherort ab. Auch wenn der Code hierfür schnell komplex werden kann, sorgst Du dafür, dass er dennoch pflegeleicht ist. Du hältst ihn durch Testing, aber auch agile Methoden wie Continuous Integration und Delivery, instand.

Ein wichtiges Thema ist für Dich die effiziente Speicherung und Verwaltung der Informationsflut. Egal, wie viele Daten anfallen: Du bist in der Lage, sie zu skalieren und zu strukturieren. Dies geschieht in der Regel im Data Warehouse. Für die Speicherung nutzt Du entweder Frameworks wie Hadoop oder Cloud-Services wie AWS.

Zu guter Letzt bist Du als Data Engineer auch dafür verantwortlich, dass das von Dir entwickelte System wie geschmiert läuft. Dafür betreibst Du Monitoring und nimmst hier und da auch mal Änderungen an Deinen Algorithmen vor, um sie noch besser zu machen.

Wo kannst Du arbeiten?

Meist findet man Data Engineers dort, wo viele Daten anfallen: in großen Unternehmen, die es sich leisten können, einen Profi wie Dich einzustellen. Oft bist Du dann im Data-Team unterwegs und arbeitest eng mit den anderen Big-Data-Pros, vor allem den Data Scientists und BI Analysts, zusammen. Was die Branche angeht, bist Du relativ frei, Dir das auszusuchen, was Dich interessiert – überall, wo Daten gesammelt werden, sind Menschen wie Du gefragt.

In Bereichen wie der Automobilbranche oder der Industrie 4.0 zähmst Du vorwiegend Maschinendaten. Im Marketing und Vertrieb kommt eine Vielzahl an personenbezogenen Daten ins Spiel, und auch der Erfolg mächtiger E-Commerce-Unternehmen basiert nicht zuletzt auf deren Fähigkeit, ihren Stamm von Kund:innen durch Datenanalysen und daraus abgeleitete Targeting-Maßnahmen zu hegen und auszubauen. Auch für Banken und Versicherungen spielst Du als Data Engineer eine wichtige Rolle und hantierst mit extrem schützenswerten Konto- und Personendaten.

Ein weiterer möglicher Arbeitsplatz für Dich ist ein auf Daten spezialisiertes Unternehmen. Das kann mittelständisch-etabliert oder startup-fresh am Markt sein. Gemeinsam unterstützt Dein Team Unternehmen dabei, ihre Daten zu sammeln und zu nutzen. Bei der Kund:in geht es daher für Dich zunächst darum, herauszufinden, welche Daten schon da sind und welche noch benötigt werden. Du schreibst ein Konzept und machst Dich dann an die Implementierung. Dabei greifst Du oft in die IT-Architektur vor Ort ein und änderst sie so, dass die vorhandenen Daten effizient gesammelt und verwaltet werden können.

Worauf kannst Du Dich spezialisieren?

Data Engineering ist ein verhältnismäßig neuer Beruf, daher halten sich auch die Spezialisierungsmöglichkeiten noch in Grenzen. Das Umfeld, in dem Du arbeitest, hat großen Einfluss darauf, wo Dein tatsächlicher Schwerpunkt liegt. Bist Du als einzige Person im Unternehmen für die Datennutzung zuständig, überschneiden sich Deine Tätigkeiten stark mit denen der Data Analysts und Data Scientists. In solch einer Rolle gehen die einzelnen Aufgabengebiete aber nicht so sehr in die Tiefe wie in einem Team, in dem jede:r fest zugewiesene Bereiche hat.

Data Engineer vs. Data Analysts vs. Data Scientist

Quelle: dasca.org redaktionell bearbeitet durch get in IT

In einem größeren Data-Team wird Dein Aufgabenfeld schon viel spezifischer und erfordert auch mehr fachliche Tiefe. Z.B. kannst Du vor allem für den Datenpipelines zuständig sein. Dafür bist Du in verteilten Systemen zuhause und schreibst feinen Code für einen smoothen Transfer. Oft kann es auch sein, dass Du vorwiegend mit der Bereitstellung spezieller Analyse-Datenbanken beschäftigt bist, an deren Power Du fortwährend arbeitest. Je größer das Unternehmen, desto spezifischer werden auch die Aufgaben der einzelnen Personen im Data-Team ausfallen.

Bist Du ein Data Engineer?

Ob mit (Wirtschafts-)Informatik-Studium, Master in Business Intelligence oder als Weiterentwicklung aus dem Software Engineering: Viele Wege führen ins Data Engineering! Wichtig ist, dass Du Dein Handwerk – ETL – verstehst und mit gängigen Tools wie Hadoop, Spark, Hive, Kafka oder HDFS vertraut bist. Es bereitet Dir kein Kopfzerbrechen, einen Cloud-Service einzurichten, zu konfigurieren, zu administrieren und dort einen idealen Raum für weiterführende Analysen zu schaffen.

Du programmierst gern, gut und meist mit Python und hast die Funktionsweise und Struktur von Datenbanken ebenso auf dem Kasten wie die Abfragesprache SQL. Architekturprinzipien verstehst Du aus dem Effeff und bist daher in der Lage, eine skalierbare Analyseplattform für alle relevanten Daten aufzubauen. Du weißt eine Menge über serviceorientierte Architektur (SOA), Microservices und Data Modelling.

Auf der Softskill-Seite bist Du mit Geduld gesegnet und bringst ein gewisses Durchhaltevermögen mit: Schließlich musst Du dranbleiben, bis es perfekt ist, auch wenn das manchmal Frust bedeutet. Am Ende schaffst Du ein funktionierendes System, über das sich alle freuen. Als kommunikationsfreudiger und teamaffiner Mensch weißt Du nämlich genau, was die Kolleg:innenen von Dir benötigen.

Was kannst Du als Data Engineer verdienen?

Dein Einstiegsgehalt im Bereich Data Engineering liegt zwischen 50.900 € und 59.200 €. Die genaue Höhe Deines ersten Jahresbruttos hängt dabei von verschiedenen Faktoren ab. In einem großen Unternehmen wirst Du tendenziell mehr verdienen, nämlich zwischen 55.300 € und 64.400 €. Im Start-up sieht es gehaltlich mit 46.200 € bis 53.700 € ein wenig bescheidener auf Deinem Konto aus, dafür hast Du jedoch meist mehr Freiheiten und arbeitest in einer lockeren Atmosphäre. Auch die Region, in der Du beschäftigt bist, wirkt sich auf Dein Gehalt aus, genauso wie die Branche.

Du willst genau rausfinden, wie sich Deine individuellen Voraussetzungen und Wünsche auf Dein Gehalt auswirken? Dann probier doch mal unseren Gehaltsrechner aus. Dort kannst Du die Suche auf Deine individuelle Situation zuschneiden.

TL;DR:
  • Als Data Engineer baust Du Daten-Pipelines, mit denen Du unstrukturierte Daten aus verschiedenen Quellen aufbereitest und in einem Data Warehouse bereitstellst.
  • Du legst den Grundstein für die Arbeit der Data Scientists und Data Analysts, mit denen Du entsprechend eng zusammenarbeitest.
  • In großen Unternehmen hast Du als Data Engineer nicht nur gute Chancen auf einen Job, sondern verdienst mit Einstiegsgehältern zwischen 54.150 € und 62.980 € auch überdurchschnittlich gut.
  • In Deine Toolbox gehören neben Architektur- und Programmierkenntnissen Knowhow von Speichersystemen wie Hadoop und Cloud-Services, eine Skriptsprache wie Python und ETLiches an Erfahrung im Datentransfer.

Das könnte Dich auch interessieren ...