Unternehmen suchen nach Dir. LASS DICH JETZT FINDEN!
 

Was macht ein Data Scientist?

Sexiest Job of the 21th Century – mit Daten in die Zukunft blicken

Von Melanie Schmole

 

 

The goal is to turn data into information, and information into insight.

Die tägliche Nutzung von Diensten wie Social Media, mobiler Navigation & Co. und die Digitalisierung sämtlicher Transaktionen sind längst Alltag geworden. Dabei werden gigantische Datenmengen produziert: Aktuell 33 Zettabyte pro Jahr. Es fallen nicht nur neue Daten an, sondern die Menge nimmt von Jahr zu Jahr exponentiell zu. Anhand dieser Daten treffen Unternehmen jeden Tag strategische Entscheidungen. Als Data Scientist oder Datenwissenschaftler bist Du dafür zuständig, aus unstrukturierten Rohdaten eine strukturierte Datenbasis zu schaffen, zu analysieren und am Ende mit Deinem betriebswirtschaftlichen Knowhow eine Entscheidungsgrundlage für ein Unternehmen zu schaffen. Onlineshops interessiert beispielsweise, welche Produkte die Nutzer auf ihrer Seite suchen, welche davon schon vorhanden sind und wo sie die Produktpalette erweitern können.

"Turning Data into Information" ist genau Dein Ding? Wir geben Dir einen Überblick, welche Aufgaben als Data Scientist auf Dich zukommen, in welchen Branchen Du arbeiten und mit welchem Gehalt Du rechnen kannst.

Was sind Deine Aufgaben als Data Scientist?

Du analysierst riesige, oft unstrukturiert vorliegende Datenmengen, erkennst darin Muster und triffst auf dieser Grundlage Vorhersagen bzw. Entscheidungen. Heute zählt nicht mehr einfach nur, wer die meisten Daten sammeln kann, sondern wer sie am besten auswertet: Aus Big Data wird Smart Data!

Du bedienst Dich sogenannter Advanced Analytics. Das ist eine Weiterentwicklung der Business Intelligence (BI) – ein Teil der Wirtschaftsinformatik, der sich mit Prozessen und Verfahren zur Unternehmensanalyse beschäftigt. BI-Analysetools nehmen vor allem historische Daten unter die Lupe und Advanced Analytics sind nicht nur technologisch fortgeschrittener, sondern konzentrieren sich oft auf die Vorhersage der Zukunft. Predictive Analytics werden zu diesen fortgeschrittenen Analysemethoden gezählt. Dadurch kannst Du beurteilen, welche Auswirkungen bestimmte Veränderungen in Zukunft haben werden. Dieses Verfahren kommt sowohl im Gesundheitswesen zum Einsatz, als auch im Risiko-Management bei Versicherungen. Aber auch in anderen Anwendungsfeldern sind sogenannte Predictive Analytics gefragt. Wer möchte nicht gern seinem Konkurrenten einen Schritt voraus sein und wissen, was als nächstes passiert? Mit Hilfe Deiner Analyse lieferst Du wichtige Hinweise, um die beste Entscheidung zu treffen.

Doch bevor Du zur Analyse kommst, sorgst Du zuerst für eine solide Datenbasis. Denn damit steht und fällt die Qualität Deiner Aussagen und die Wahrscheinlichkeit, dass Deine Vorhersagen eintreffen. Die Frage die Du Dir zuerst stellen musst: Welche Daten sind für die Entscheidung wichtig und vor allem – wo bekommst Du diese Daten her? Ein Beispiel sind die Eingaben in ein Suchfeld einer Homepage. Sie können hilfreiche Informationen zum Nutzerverhalten liefern, z.B.: Nach welchen neuen Produkten suchen die meisten Kunden? Welche Produkte werden häufig zurück geschickt (z.B. "xy defekt" oder "unzufrieden mit xy") und verursachen so zusätzliche Kosten?

Hast Du Deine Rohdaten, bereitest Du sie für Deinen speziellen Usecase auf. Dir macht es also nichts aus, auch mit unstrukturierten Daten zu arbeiten. Besonders zum Beginn eines Datenzyklus sind Daten häufig unstrukturiert. Sie wurden also noch in kein spezielles Schema gebracht. Deine Aufgabe ist es die relevanten Daten zu extrahieren, unwichtige Daten heraus zu filtern und die Daten zu mappen. Außerdem konvertierst Du den bereinigten Datensatz in das passende Format.

Damit Du Muster zuverlässig erkennst, benötigst Du in der Regel eine Datengrundlage über die letzten 3 Jahre. Kleinere Zeitfenster sind nicht zu empfehlen, da sonst die Abweichungen zu stark sind. Die mathematischen Modelle, die Du auf dieser Grundlage erstellst, prüfst Du mit Tests und sogenannten Trainings. Erst dann kannst Du sicher sein, dass Deine Vorhersage auch aussagekräftig ist.

Kurz gesagt lässt sich Dein Aufgabenfeld so beschreiben:

  • Du identifizierst und untersuchst zahlreiche strukturierte und unstrukturierte Datenquellen. Dazu kann auch die Implementierung des Trackings und das Monitoring Deiner Daten gehören.

  • Du entwickelst neue analytische Methoden, um Deine Datenbasis optimal zu analysieren. Hier überschneiden sich Deine Aufgaben teilweise mit denen eines KI-Entwicklers.

  • Auf Grundlage Deiner Analyse von Mustern in der Vergangenheit (Pattern Recognition) erstellst Du Prognosen für die Zukunft. Dein tiefes Verständnis für unternehmensrelevanten Prozesse macht es möglich, dass Du anhand Deiner Prognosen Empfehlungen aussprichst.

Je nachdem, ob Du in einem Großkonzern oder in einem Startup arbeitest, können sich die Aufgabengebiete ausweiten: Das kann soweit gehen, dass nur noch ein Teil Deiner Arbeitszeit direkt mit Datenanalyse zu tun hat und ein Großteil sich z.B. auf visuelle Datenaufbereitung bezieht. Im Normalfall übernimmst Du in einem Startup mehr Aufgaben – im Großkonzern bist Du hingegen spezialisierter.

Wo kannst Du als Data Scientist arbeiten?

Überall dort, wo große Datenmengen generiert werden, haben Firmen ein Interesse daran, aus diesen Daten zu lernen und die bestehenden Prozesse zu optimieren und Kunden noch besser anzusprechen: Das reicht von Fahrplanoptimierung in der Logistik bis hin zu Retouren-Verringerung bei Versandhäusern. Auch in der Energiebranche ist es interessant, beispielsweise Stromspitzen vorhersagen zu können, um das Netz rechtzeitig zu entlasten und Überspannungen zu vermeiden. Versicherungen und das Gesundheitswesen setzen ebenfalls verstärkt auf Data Scientists.

Ein zentrales Einsatzgebiet findest Du im E-Commerce und in der gesamten Online Industrie:

  • Onlineshops verwenden Deine Algorithmen für Suchmaschinen, um innerhalb von Millisekunden die besten und relevantesten Ergebnisse für ihre Käufer zu liefern und bei Nachfragespitzen, etwa bei Flug- und Hotelbuchungen, die Preise dynamisch und in Echtzeit anzupassen.

  • Online Marketer nutzen datenbasierte, smarte Algorithmen, um Werbung immer personalisierter zu gestalten und im situativ richtigen Moment an potentielle Kunden auszuspielen. Ein Beispiel für Personalisierte Werbung ist das sogenannte Retargeting. Dabei werden User einer Webseite gezielt auch auf anderen Seiten angesprochen und z.B. Produkte beworben, die sich jemand zwar angesehen, aber nicht gekauft hat.

  • In diesen Kontext fällt auch das Anwendungsfeld der Empfehlungsdienste. Was hat sich der User schon angesehen und welche anderen Produkte könnten ihm auf dieser Basis empfohlen werden? Sogenannte Recommender Systems. bzw. Recommendation Engines schlagen z.B. neue Freundschaftsempfehlungen auf Basis der aktuellen Freundesliste vor à la: "... Diese Personen könntest Du auch kennen". 


Ganz neue Einsatzfelder entstehen in der Personalisierten Medizin. Die Medikation und Therapie eines Patienten kann anhand des vollautomatischen Abgleichs mit ähnlichen Fällen, die bereits erfolgreich behandelt wurden, optimiert werden.

Eine weitere neue Herausforderung sind Audiodaten im Bezug auf die automatische Spracherkennung, denn – Tonaufnahmen sind ein Paradebeispiel für unstrukturierte Daten. Ist das ein Wortanfang oder ein Hintergrundgeräusch? Hat ein Wort mehrere Bedeutungen? Kann man den Satz auch anders verstehen?

Worauf kannst Du Dich spezialisieren?

Als Data Scientist startest Du i.d.R. als Generalist, dennoch kannst Du Dich mit zunehmender Berufserfahrung auf einzelne Anwendungsfelder spezialisieren:

  • Die Produktpersonalisierung, z.B. "Wie kann ein Produkt persönlicher gestaltet werden?" – Hier setzen Musikstreamingdienste auf Algorithmen und erstellen durch Analyse der Hörgewohnheiten neue Playlists.

  • Das Kundenbeziehungsmanagement (CRM), z.B. "Welche Produkte werden besonders häufig zurück geschickt und warum?" – Eine Retourenanalyse verrät: Ist es das Produkt selbst, die Verpackung oder ein bestimmter Lieferservice, der einfach immer zu lange braucht?

  • Die Risikoberatung, z.B. "Welche Auswirkungen hat eine zusätzliche Expansion für andere Standorte eines Unternehmens?"

Es ist nicht immer gleich auf den ersten Blick erkennbar, dass eine Stellenausschreibung für einen Data Scientist gedacht ist. Das liegt daran, dass Firmen unterschiedliche Begriffe benutzen und auch in der IT-Welt eine große Begriffsvielfalt vorliegt, die sich um das Berufsfeld rankt. Tatsächlich gibt es zahlreiche Überschneidungen und eine klare Trennung zwischen z.B. Data Scientists, Big Data Specialists oder Data Analysts ist nur schwer möglich. Grob lässt sich sagen:

Big Data

ist ganz generell ein Überbegriff für digitale Technologien und wird z.B. als Synonym für Datenmengen im Petabyte & Exabyte Bereich genutzt, die nicht mit den üblichen Methoden der Datenverarbeitung ausgewertet werden können.
⇒ Big Data kann sowohl Teil des Toolkits eines Data Scientists sein oder als eigenständiger Beruf des Big Data Specialist betrachtet werden.

Data Science

ist ein Berufsfeld, das die Datenerhebung (Data Sourcing), die Datenbereinigung (Data Cleansing), die Datenaufbereitung und die Datenanalyse umfasst.

Data Analytics

ist ein Berufsfeld, das die Analyse-Automatisierung eines bestimmten Datensets behandelt. Dazu gehören auch Abfragen (Queries) und Verfahren zur Datenaggregation:
⇒ Data Analytics kann ebenfalls Teil des Skillsets als Data Scientist sein oder als eigenständige Berufsbezeichnung des Data Analysts genutzt werden.

Als IT-Sicherheitsberater ist es Deine Aufgabe, wertvolle Daten Deines Unternehmens und seiner Kunden zu schützen. Als unternehmensinterner Mitarbeiter oder externer Dienstleister stellst Du Dich digitalen Gefahren wie Viren, Cybervandalismus, also dem Löschen oder Verändern von Dateien, oder Wirtschaftsspionage. Gerade in Zeiten, in denen Unternehmen mobile Endgeräte und Cloud-Lösungen intensiv nutzen, wird das Schützen großer Datenmengen, die jederzeit abgerufen werden können und müssen, immer komplexer und kritischer.
Experten für IT-Sicherheit sind gefragt. Dementsprechend hast Du in so gut wie allen Branchen die Chance als IT-Sicherheitsberater Fuß zu fassen. Gerade Banken, Behörden oder Großunternehmen verwalten riesige Mengen hochsensibler Daten.Diese gilt es zu schützen. Während Du bei größeren Unternehmen und Institutionen die Chance hast, dich auf ein bestimmtes Gebiet der IT-Sicherheit zu spezialisieren, agierst Du in mittelständischen oder kleineren Unternehmen eher als Generalist.

Woran erkennst Du, dass Du ein Data Scientist bist?

Du hast fundierte Mathekenntnisse – besonders in Statistik und Stochastik – und die nötigen Programmierkünste, um Dein Mathewissen in Code zu verwandeln. Deine Fachkenntnisse erstrecken sich über die Branche Deines Unternehmens: Um welche Kundengruppe geht es und was sind die Unternehmensziele? Dein Techstack umfasst R und Python, SQL Datenbanken und Programmierung, SAS und Hadoop, sowie andere objektorientierte Programmiersprachen: Die häufigsten Programmiersprachen eines Data Scientists neben Python sind Java, Perl und C/C++. In der Regel verfügst Du über einen Masterabschluss.

Du weißt nicht nur strukturierte Daten, sondern auch unstrukturierte Daten zu managen. Weil Du über das nötige kommunikative Fingerspitzengefühl verfügst, kannst Du Deine Ergebnisse den Kollegen und Vorgesetzten schnell und verständlich vermitteln.

Eine humoristische und hilfreiche Anleitung, um festzustellen, ob Du "The perfect Data Scientist" bist, bietet das folgende Diagramm:

Quelle: Stephen Kolassa

Als Data Scientist bist Du eine Mischung aus 4 Typen: Dem Kommunikationstalent, dem Statistiker, dem Programmierer und dem Business-Experten, wobei in der Realität natürlich Schwerpunkte aufgrund von persönlichen Stärken oder der Unternehmensstruktur gesetzt werden.

Was kannst Du als Data Scientist verdienen?

Zum Berufseinstieg startet Dein durchschnittliches Jahresbruttogehalt als Data Scientist bei 45.000 €. Was letztendlich auf Deinem Gehaltszettel steht, wird von verschiedenen Faktoren beeinflusst: Die Branche, die Größe Deines Arbeitgebers und Dein Abschluss. Als Data Scientist liegt Dein durchschnittliches Gehalt aktuell zwischen 45.000 € bis 68.000 € brutto und gipfelt zwischen 99.800 € und 108.200 €. Das Gehalt steigt i.d.R. je mehr Berufserfahrung Du mitbringst und ob Du später Personalverantwortung hast.

Du willst mehr über die aktuellen Gehaltsaussichten in der IT erfahren? In unserer Gehaltsstatistik erhältst Du einen Überblick über die Gehälter aller IT-Berufsfelder in Kombination mit weiteren Faktoren, die Deine individuelle Gehaltsspanne beeinflussen.
tl;dr:
  • Als Data Scientist hast Du nicht nur Statistik im Blut und umfangreiche Programmierfähigkeiten, sondern auch Business Knowhow.

  • Zu Deinem Techstack gehören Programmiersprachen und Tools wie R, Python, SQL Datenbanken und Programmierung, SAS und Hadoop.

  • Dein Einstiegsgehalt als Data Scientist startet im Durchschnitt bei 45.000 € brutto im Jahr.
 

Arbeitgeber bewerben sich bei Dir!
So funktioniert's:

Anonymes Profil anlegen
! Unternehmens- anfragen erhalten
C V Kontaktdaten freigeben & durchstarten!
Es ist kostenlos
Kostenlos registrieren