Deutsches Zentrum für Luft- und Raumfahrt (DLR)

Abschlussarbeit (w/m/d): Extraktion von Text-Objekt-Relations in technischen Zeichnungen mit LLMs

Sankt Augustin

Elektrotechnik
LLM
Machine Learning
Python
PyTorch
TensorFlow
company visual

Das Institut für den Schutz terrestrischer Infrastrukturen hat die stabile Versorgung der Gesellschaft zum Ziel. Digitale Zwillinge ermöglichen die Überwachung und Reaktion auf Krisen und Angriffe sowie die Analyse und Optimierung der Resilienz terrestrischer Infrastrukturen.

Das erwartet dich

Eine Herausforderung bei der Erstellung digitaler Zwillinge ist die Umwandlung von technischen Dokumentationen, insbesondere von Rohrleitungs- und Instrumentierungsdiagrammen (P&IDs) und elektrischen Schaltplänen, in strukturierte, maschinenlesbare Daten. In dieser Arbeit sollen Methoden erforscht und evaluiert werden, die Textannotationen (Beschriftungen, Notizen, Teilenummern) nutzen, indem Sie Large Language Model (LLM)-Features mit Objektdetektoren kombinieren, die zur Vorhersage von Graphen verwendet werden.

Deine Aufgaben

  • Implementierung moderner OCR-Technologie für P&IDs und elektrische Zeichnungen und Aufbau eines Datensatzes (synthetisch + real) für Training und Evaluierung
  • Erstellung eines Tools zum Taggen von Textstrings und den zugehörigen Symbolen, um Ground-Truth-Beziehungstabellen (Text ↔ Objekt) zu erstellen
  • Vergleich und Bewertung verschiedener Ansätze zur Kombination der Textfeatures mit der Symbolerkennung:
    • regelbasierte Methoden, die Distanz, Ausrichtung und domänenspezifische Hinweise verwenden (z. B. „Text, der über einem Symbol platziert ist, beschreibt dieses in der Regel“)
    • Extraktion von semantischen Features aus dem erkannten Text mit einem vortrainierten LLM und Kombinierung mit CNN-Features der Symbole
    • Training eines Classifiers, der Text- und Objekt-features als Eingabe nimmt und eine binäre Ausgabe „related/nicht related“ vorhersagt
    • Erfassung, wissenschaftliche Analyse und Präsentation der Untersuchungsergebnisse

Das bringst du mit

  • laufendes Studium in Informatik, Mechatronik, Elektrotechnik oder einem verwandten Fachgebiet
  • Bereitschaft, sich in komplexe Themen einzuarbeiten
  • Grundkenntnisse im Bereich Machine Learning
  • gute Kenntnisse in der Programmierung mit Python
  • selbstständiges Arbeiten
  • gute Kommunikations- und Teamfähigkeiten

Gewünschte Qualifikation:

  • Erfahrung mit Computer Vision-Bibliotheken wie OpenCV, PyTorch oder TensorFlow
  • Grundkenntnisse von LLMs

Wir freuen uns darauf, dich kennenzulernen!

Fragen zu dieser Position (Kennziffer 4254) beantwortet dir gerne:

Tobias Koch

Tel.: +49 2241 20148 55

Job-Infos
Berufsfelder
Forschung
Studienfächer
Elektrotechnik
Informatik
Informationstechnik
Abschluss
Bachelor
Unternehmen
Deutsches Zentrum für Luft- und Raumfahrt (DLR)
Deutsches Zentrum für Luft- und Raumfahrt (DLR)
69 IT-Jobs
Auszeichnungen