Site Reliability Engineer (w/m/d)

Berlin

Home-Office
Ansible
ArgoCD
Automatisierung
Bash
CI/CD (Continuous Integration/Delivery)
DevOps

+18

Aufgabenbereich

  • Technischer Level‑2‑Support mit direktem Kundenkontakt.
  • Pflege von Monitoring‑, Logging‑ und Alerting‑Lösungen (z. B. Prometheus, Grafana, Loki) zur proaktiven Erkennung von Problemen im Schichtbetrieb und Mitwirkung bei der Lösung komplexer Issues in verteilten Systemen.
  • Fehlersuche in Netzwerken (LAN/WAN/VPN, DNS, DHCP) und Speichersystemen (File/Object/Block); Bereitstellung und Betrieb hochverfügbarer Services auf Linux und Kubernetes (Helm‑Charts).
  • Aufbau und Pflege von Infrastructure‑as‑Code, Automatisierung und Playbooks mit Ansible, Terraform, GitLab CI/CD, Argo CD sowie Skriptsprachen wie Bash, Python und Go.
  • Zusammenarbeit mit Entwicklungsteams zur Verbesserung von Prozessen und Deployments sowie zur reibungslosen Integration neuer Services und Applikationen in unsere Cloud‑ und Kubernetes‑Umgebung.
  • Gewährleistung eines stabilen und sicheren Plattformbetriebs, inklusive End‑to‑End‑Incident‑Management von der ersten Analyse über die Lösung bis hin zur Nachbearbeitung im Rahmen des Problem‑Managements.

Qualifikationen

  • Bereitschaft, in einem 24 × 7‑Schichtmodell zu arbeiten (Nacht‑, Wochenend‑ und Feiertagsdienste) und dabei ein starkes Problem‑Lösungs‑ und Troubleshooting‑Mindset mitzubringen.
  • Mehrjährige Erfahrung als Site Reliability Engineer oder in einer verwandten Rolle (Linux‑Systemadministrator, Platform Engineer, DevOps/Infrastructure Engineer, Full‑Stack‑Developer).
  • Fundierte Kenntnisse in Automatisierungstools (z. B. Ansible, SaltStack), Monitoring‑ und Observability‑Tools (Prometheus, Grafana, Loki) sowie Logging‑ und Alerting‑Lösungen (ELK‑Stack).
  • Erfahrung mit virtualisierten Umgebungen (QEMU/KVM, OpenStack, Proxmox), Cloud‑Storage‑Technologien (File, Object, Block) und sicherer Umgang mit Docker & Kubernetes.
  • Sehr gute Kenntnisse in mindestens einer Programmiersprache oder Skriptsprache (Go, Python, Bash) für Automatisierungs‑ und Monitoring‑Aufgaben.
  • Erfahrung im Code‑Management (Merge‑Conflicts, Feature‑Branches, Merge‑Requests, CI/CD) ist von Vorteil.

Nice‑to‑have:

  • Erfahrung mit RDMA, InfiniBand und RoCE‑Protokollen.
  • Tiefe Kenntnisse in Linux MD RAID (mdadm, sedadm) und LVM.
  • Expertise in Linux‑Performance‑Tuning und Netzwerk‑Stack‑Debugging (ethtool, perf, tcpdump, ibstat, ibtop).
  • Praxis mit S3, Ceph und software‑definierten Netzwerken.
  • Erfahrung mit etablierten Software‑Entwicklungspraktiken (Code‑Reviews, Build‑Prozesse, Packaging, Testing).

Sprachkenntnisse: Fließend in Deutsch und Englisch (mindestens B2 nach dem CEFR‑Standard).

Standort: Berlin

Hinweis: Zum Ende des Bewerbungsprozesses müssen Kandidaten einer Sicherheitsüberprüfung unterzogen werden. Dein Einverständnis dafür wird rechtzeitig im Prozess erfragt.

Benefits

  • Hybrides Arbeitsmodell.
  • Schichtmodell Arbeitszeiten.
  • An einigen Standorten eine bezuschusste Kantine und verschiedene kostenfreie Getränke.
  • Moderne Büroflächen mit sehr guter Verkehrsanbindung.
  • Diverse Mitarbeiterrabatte für Aktivitäten und Produkte.
  • Mitarbeiterevents wie Sommer- und Winterfeiern, sowie Workshops.
  • Zahlreiche Weiterbildungs- und Entwicklungsmöglichkeiten.
  • Verschiedene Gesundheitsangebote, wie Sport- und Gesundheitskurse.
Job-Infos
Berufsfelder
System Engineering / Admin
Studienfächer
Informatik
Informationstechnik
Wirtschaftsinformatik
Abschluss
Ausbildung
Bachelor
Master/Diplom
Unternehmen
IT-Gehälter
Was kann ich verdienen?