Was macht ein Data Scientist?


Melanie Schmole
Sexiest Job of the 21st Century – mit Daten in die Zukunft blicken
Weltkugel mit Datennetz

The goal is to turn data into information, and information into insight.

Die tägliche Nutzung von Diensten wie Social Media, mobiler Navigation & Co. und die Digitalisierung sämtlicher Transaktionen sind längst Alltag geworden. Dabei werden gigantische Datenmengen produziert: Aktuell 33 Zettabyte pro Jahr. Es fallen nicht nur neue Daten an, sondern die Menge nimmt von Jahr zu Jahr exponentiell zu. Anhand dieser Daten treffen Unternehmen jeden Tag strategische Entscheidungen. Als Data Scientist oder Datenwissenschaftler:in bist Du dafür zuständig, aus unstrukturierten Rohdaten eine strukturierte Datenbasis zu schaffen, zu analysieren und am Ende mit Deinem betriebswirtschaftlichen Knowhow eine Entscheidungsgrundlage für ein Unternehmen zu schaffen. Onlineshops interessiert beispielsweise, welche Produkte die Nutzenden auf ihrer Seite suchen, welche davon schon vorhanden sind und wo sie die Produktpalette erweitern können.

"Turning Data into Information" ist genau Dein Ding? Wir geben Dir einen Überblick, welche Aufgaben als Data Scientist auf Dich zukommen, in welchen Branchen Du arbeiten und mit welchem Gehalt Du rechnen kannst.

Was sind Deine Aufgaben als Data Scientist?

Du analysierst riesige, oft unstrukturiert vorliegende Datenmengen, erkennst darin Muster und triffst auf dieser Grundlage Vorhersagen bzw. Entscheidungen. Heute zählt nicht mehr einfach nur, wer die meisten Daten sammeln kann, sondern wer sie am besten auswertet: Aus Big Data wird Smart Data!

Du bedienst Dich sogenannter Advanced Analytics. Das ist eine Weiterentwicklung der Business Intelligence (BI) – ein Teil der Wirtschaftsinformatik, der sich mit Prozessen und Verfahren zur Unternehmensanalyse beschäftigt. BI-Analysetools nehmen vor allem historische Daten unter die Lupe und Advanced Analytics sind nicht nur technologisch fortgeschrittener, sondern konzentrieren sich oft auf die Vorhersage der Zukunft. Predictive Analytics werden zu diesen fortgeschrittenen Analysemethoden gezählt. Dadurch kannst Du beurteilen, welche Auswirkungen bestimmte Veränderungen in Zukunft haben werden. Dieses Verfahren kommt sowohl im Gesundheitswesen zum Einsatz, als auch im Risiko-Management bei Versicherungen. Aber auch in anderen Anwendungsfeldern sind sogenannte Predictive Analytics gefragt. Wer möchte nicht gern seinem Konkurrenten einen Schritt voraus sein und wissen, was als nächstes passiert? Mit Hilfe Deiner Analyse lieferst Du wichtige Hinweise, um die beste Entscheidung zu treffen.

Doch bevor Du zur Analyse kommst, sorgst Du zuerst für eine solide Datenbasis. Denn damit steht und fällt die Qualität Deiner Aussagen und die Wahrscheinlichkeit, dass Deine Vorhersagen eintreffen. Die Frage die Du Dir zuerst stellen musst: Welche Daten sind für die Entscheidung wichtig und vor allem – wo bekommst Du diese Daten her? Ein Beispiel sind die Eingaben in ein Suchfeld einer Homepage. Sie können hilfreiche Informationen zum Verhalten von Nutzenden liefern, z.B.: Nach welchen neuen Produkten suchen die meisten Kund:innen? Welche Produkte werden häufig zurück geschickt (z.B. "xy defekt" oder "unzufrieden mit xy") und verursachen so zusätzliche Kosten?

Hast Du Deine Rohdaten, bereitest Du sie für Deinen speziellen Usecase auf. Dir macht es also nichts aus, auch mit unstrukturierten Daten zu arbeiten. Besonders zum Beginn eines Datenzyklus sind Daten häufig unstrukturiert. Sie wurden also noch in kein spezielles Schema gebracht. Deine Aufgabe ist es die relevanten Daten zu extrahieren, unwichtige Daten heraus zu filtern und die Daten zu mappen. Außerdem konvertierst Du den bereinigten Datensatz in das passende Format. Dass Du das drauf hast, kannst Du schon in Deinem Data Science Lebenslauf unter Beweis stellen.

Damit Du Muster zuverlässig erkennst, benötigst Du in der Regel eine Datengrundlage über die letzten 3 Jahre. Kleinere Zeitfenster sind nicht zu empfehlen, da sonst die Abweichungen zu stark sind. Die mathematischen Modelle, die Du auf dieser Grundlage erstellst, prüfst Du mit Tests und sogenannten Trainings. Erst dann kannst Du sicher sein, dass Deine Vorhersage auch aussagekräftig ist.

Kurz gesagt lässt sich Dein Aufgabenfeld so beschreiben:

  • Du identifizierst und untersuchst zahlreiche strukturierte und unstrukturierte Datenquellen. Dazu kann auch die Implementierung des Trackings und das Monitoring Deiner Daten gehören.
  • Du entwickelst neue analytische Methoden, um Deine Datenbasis optimal zu analysieren. Hier überschneiden sich Deine Aufgaben teilweise mit denen von KI-Entwickler:innen.
  • Auf Grundlage Deiner Analyse von Mustern in der Vergangenheit (Pattern Recognition) erstellst Du Prognosen für die Zukunft. Dein tiefes Verständnis für unternehmensrelevanten Prozesse macht es möglich, dass Du anhand Deiner Prognosen Empfehlungen aussprichst.

Je nachdem, ob Du in einem Großkonzern oder in einem Startup arbeitest, können sich die Aufgabengebiete ausweiten: Das kann soweit gehen, dass nur noch ein Teil Deiner Arbeitszeit direkt mit Datenanalyse zu tun hat und ein Großteil sich z.B. auf visuelle Datenaufbereitung bezieht. Im Normalfall übernimmst Du in einem Startup mehr Aufgaben – im Großkonzern bist Du hingegen spezialisierter.

Wo kannst Du als Data Scientist arbeiten?

Überall dort, wo große Datenmengen generiert werden, haben Firmen ein Interesse daran, aus diesen Daten zu lernen und die bestehenden Prozesse zu optimieren und Kund:innen noch besser anzusprechen: Das reicht von Fahrplanoptimierung in der Logistik 4.0 bis hin zu Retouren-Verringerung bei Versandhäusern. Auch in der Energiebranche ist es interessant, beispielsweise Stromspitzen vorhersagen zu können, um das Netz rechtzeitig zu entlasten und Überspannungen zu vermeiden. Versicherungen und das Gesundheitswesen setzen ebenfalls verstärkt auf Data Scientists.

Ein zentrales Einsatzgebiet findest Du im E-Commerce und in der gesamten Online Industrie:

  • Onlineshops verwenden Deine Algorithmen für Suchmaschinen, um innerhalb von Millisekunden die besten und relevantesten Ergebnisse für ihre Käufer:innen zu liefern und bei Nachfragespitzen, etwa bei Flug- und Hotelbuchungen, die Preise dynamisch und in Echtzeit anzupassen.
  • Online Marketer nutzen datenbasierte, smarte Algorithmen, um Werbung immer personalisierter zu gestalten und im situativ richtigen Moment an potentielle Kund:innen auszuspielen. Ein Beispiel für Personalisierte Werbung ist das sogenannte Retargeting. Dabei werden User einer Webseite gezielt auch auf anderen Seiten angesprochen und z.B. Produkte beworben, die sich jemand zwar angesehen, aber nicht gekauft hat.
  • In diesen Kontext fällt auch das Anwendungsfeld der Empfehlungsdienste. Was hat sich der User schon angesehen und welche anderen Produkte könnten ihm auf dieser Basis empfohlen werden? Sogenannte Recommender Systems bzw. Recommendation Engines schlagen z.B. neue Freundschaftsempfehlungen auf Basis der aktuellen Freundesliste vor à la: "... Diese Personen könntest Du auch kennen".

Ganz neue Einsatzfelder entstehen in der Personalisierten Medizin. Die Medikation und Therapie eines Patienten kann anhand des vollautomatischen Abgleichs mit ähnlichen Fällen, die bereits erfolgreich behandelt wurden, optimiert werden.

Eine weitere neue Herausforderung sind Audiodaten im Bezug auf die automatische Spracherkennung, denn – Tonaufnahmen sind ein Paradebeispiel für unstrukturierte Daten. Ist das ein Wortanfang oder ein Hintergrundgeräusch? Hat ein Wort mehrere Bedeutungen? Kann man den Satz auch anders verstehen?

Worauf kannst Du Dich spezialisieren?

Als Data Scientist startest Du i.d.R. als Generalist:in, dennoch kannst Du Dich mit zunehmender Berufserfahrung auf einzelne Anwendungsfelder spezialisieren:

  • Die Produktpersonalisierung, z.B. "Wie kann ein Produkt persönlicher gestaltet werden?" – Hier setzen Musikstreamingdienste auf Algorithmen und erstellen durch Analyse der Hörgewohnheiten neue Playlists.

  • Das Kundenbeziehungsmanagement (CRM), z.B. "Welche Produkte werden besonders häufig zurück geschickt und warum?" – Eine Retourenanalyse verrät: Ist es das Produkt selbst, die Verpackung oder ein bestimmter Lieferservice, der einfach immer zu lange braucht?

  • Die Risikoberatung, z.B. "Welche Auswirkungen hat eine zusätzliche Expansion für andere Standorte eines Unternehmens?"

Es ist nicht immer gleich auf den ersten Blick erkennbar, dass eine Stellenausschreibung für einen Data Scientist gedacht ist. Das liegt daran, dass Firmen unterschiedliche Begriffe benutzen und auch in der IT-Welt eine große Begriffsvielfalt vorliegt, die sich um das Berufsfeld rankt. Tatsächlich gibt es zahlreiche Überschneidungen und eine klare Trennung zwischen z.B. Data Scientists, Big Data Specialists oder Data Analysts ist nur schwer möglich. Grob lässt sich sagen:

Big Data

ist ganz generell ein Überbegriff für digitale Technologien und wird z.B. als Synonym für Datenmengen im Petabyte & Exabyte Bereich genutzt, die nicht mit den üblichen Methoden der Datenverarbeitung ausgewertet werden können.
⇒ Big Data kann sowohl Teil des Toolkits eines Data Scientists sein oder als eigenständiger Beruf des Big Data Specialist betrachtet werden.

Data Science

ist ein Berufsfeld, das die Datenerhebung (Data Sourcing), die Datenbereinigung (Data Cleansing), die Datenaufbereitung und die Datenanalyse umfasst.

Data Analytics

ist ein Berufsfeld, das die Analyse-Automatisierung eines bestimmten Datensets behandelt. Dazu gehören auch Abfragen (Queries) und Verfahren zur Datenaggregation:
⇒ Data Analytics kann ebenfalls Teil des Skillsets als Data Scientist sein oder als eigenständige Berufsbezeichnung des Data Analysts genutzt werden.

Woran erkennst Du, dass Du ein Data Scientist bist?

Du hast fundierte Mathekenntnisse – besonders in Statistik und Stochastik – und die nötigen Programmierkünste, um Dein Mathewissen in Code zu verwandeln. Deine Fachkenntnisse erstrecken sich über die Branche Deines Unternehmens: Um welche Gruppe von Kund:innen geht es und was sind die Unternehmensziele? Dein Techstack umfasst R und Python, SQL Datenbanken und Programmierung, SAS und Hadoop, sowie andere objektorientierte Programmiersprachen: Die häufigsten Programmiersprachen eines Data Scientists neben Python sind Java, Perl und C/C++. In der Regel verfügst Du über einen Masterabschluss.

Du weißt nicht nur strukturierte Daten, sondern auch unstrukturierte Daten zu managen. Weil Du über das nötige kommunikative Fingerspitzengefühl verfügst, kannst Du Deine Ergebnisse dem Team und Vorgesetzten schnell und verständlich vermitteln.

Eine humoristische und hilfreiche Anleitung, um festzustellen, ob Du "The perfect Data Scientist" bist, bietet das folgende Diagramm:

Data Scientist Venn Diagramm

Quelle: Stephan Kolassa, redaktionell bearbeitet durch get in IT

Als Data Scientist bist Du eine Mischung aus 4 Typen: Dem Kommunikationstalent, dem Statistiker, der Programmiererin und dem Business-Experten, wobei in der Realität natürlich Schwerpunkte aufgrund von persönlichen Stärken oder der Unternehmensstruktur gesetzt werden.

Was kannst Du als Data Scientist verdienen?

Zum Berufseinstieg startet Dein durchschnittliches Jahresbruttogehalt als Data Scientist bei 55.400 €. Was letztendlich auf Deinem Gehaltszettel steht, wird von verschiedenen Faktoren beeinflusst: der Branche, der Größe Deines Arbeitgebenden und Deinem Abschluss. Das Gehalt steigt i.d.R. je mehr Berufserfahrung Du mitbringst und ob Du später Personalverantwortung hast. Wenn Du es ganz genau wissen willst, haben wir für Dich alle Gehaltsfaktoren für Dein Gehalt als Data Scientist im Artikel unter die Lupe genommen.

Du willst mehr über die aktuellen Gehaltsaussichten in der IT erfahren? In unserer Gehaltsstatistik erhältst Du einen Überblick über die Gehälter aller IT-Berufsfelder in Kombination mit weiteren Faktoren, die Deine individuelle Gehaltsspanne beeinflussen.

TL;DR:
  • Als Data Scientist hast Du nicht nur Statistik im Blut und umfangreiche Programmierfähigkeiten, sondern auch Business Knowhow.
  • Zu Deinem Techstack gehören Programmiersprachen und Tools wie R, Python, SQL Datenbanken und Programmierung, SAS und Hadoop.
  • Dein Einstiegsgehalt als Data Scientist startet im Durchschnitt bei 55.400 € brutto im Jahr.