Was ist Human-in-the-Loop (HITL) bei der automatisierten Inspektion?

Human-in-the-Loop (HITL) bei der automatisierten Inspektion ist ein semi-automatisierter Arbeitsablauf, bei dem ein KI-Modell eine erste Fehlererkennung an Inspektionsbildern durchführt und jeder Detektion einen Konfidenzwert zuweist. Anomalien, die unterhalb eines vordefinierten Konfidenzschwellenwerts liegen, werden an einen qualifizierten menschlichen Prüfer zur Durchsicht, Verifizierung und endgültigen Beurteilung weitergeleitet. Dieser Ansatz kombiniert die Verarbeitungsgeschwindigkeit und Konsistenz der maschinellen Bildverarbeitung mit dem kontextuellen Urteilsvermögen, der Sicherheitsverantwortung und der regulatorischen Konformität, die nur zertifizierte menschliche Prüfer bieten können.

Wie funktionieren Konfidenzschwellenwerte in HITL-Inspektionssystemen?

Konfidenzschwellenwerte in HITL-Systemen definieren die Grenze zwischen automatischer Akzeptanz und menschlicher Überprüfung. Detektionen mit Konfidenzwerten über einem hohen Schwellenwert (z. B. >0,95) werden automatisch als echte Positive akzeptiert. Detektionen unter einem niedrigen Schwellenwert (z. B. <0,50) werden automatisch als Rauschen zurückgewiesen. Detektionen im mittleren Band werden zur menschlichen Überprüfung gekennzeichnet. Die Schwellenwerte werden basierend auf der Kritikalität des Anlageguts, den regulatorischen Anforderungen und den Kosten falsch-negativer im Vergleich zu falsch-positiven Ergebnissen kalibriert.

Wie unterscheidet sich HITL von der vollautomatischen Inspektion?

Die vollautomatische Inspektion verlässt sich vollständig auf KI, um Defekte ohne menschliches Eingreifen zu erkennen, zu klassifizieren und zu melden. Die HITL-Inspektion nutzt KI für die erste Durchmusterung, erfordert jedoch einen menschlichen Prüfer, der die Ergebnisse überprüft und beurteilt, bevor sie Teil des offiziellen Berichts werden. HITL wird für sicherheitskritische Infrastruktur bevorzugt, weil es die menschliche Verantwortlichkeit bewahrt, Grenzfälle behandelt, die KI möglicherweise falsch klassifiziert, und regulatorische Anforderungen erfüllt, die die Unterschrift eines zertifizierten Prüfers für Inspektionsberichte vorschreiben.

Welche regulatorischen Anforderungen gelten für HITL bei der Flughafeninspektion?

Gemäß ICAO Annex 14 und den zugehörigen Zertifizierungsrahmen für Flugplätze müssen Inspektionsberichte für sicherheitskritische Flughafeninfrastruktur von qualifiziertem Personal gegengezeichnet werden. Während KI-gestützte Werkzeuge für die Datenerfassung und vorläufige Analyse zulässig sind, muss die endgültige Zustandsbewertung und Defektklassifizierung eine menschliche Verifizierung umfassen. Die Europäische Agentur für Flugsicherheit (EASA) und die Federal Aviation Administration (FAA) haben Leitlinien zur Nutzung von KI in der Luftfahrtwartung herausgegeben, die eine sinnvolle menschliche Aufsicht für sicherheitsrelevante Entscheidungen vorschreiben.

Wie funktioniert aktives Lernen mit HITL-Inspektion?

Aktives Lernen in HITL-Systemen wählt die unsichersten KI-Detektionen zur menschlichen Überprüfung aus und verwendet dann die vom Prüfer bestätigten oder korrigierten Labels als Trainingsdaten zur Verbesserung des Modells. Über aufeinanderfolgende Inspektionszyklen hinweg reduziert dies die Anzahl der Detektionen, die eine menschliche Überprüfung erfordern. Studien haben gezeigt, dass aktives Lernen den manuellen Labeling-Aufwand um 60–75 % reduziert, während die Modellgenauigkeit erhalten bleibt.

Human-in-the-Loop (HITL)

Q: Wie ist die HITL-Architektur für die Infrastrukturinspektion aufgebaut?

Die HITL-Architektur für die Infrastrukturinspektion folgt einer fünfstufigen Pipeline: (1) Datenerfassung mittels Drohnen, Inspektionsfahrzeugen oder stationären Kameras, (2) KI-Inferenz, bei der Computer-Vision-Modelle Defekte mit Konfidenzwerten erkennen und klassifizieren, (3) konfidenzbasierte Weiterleitung, die Detektionen mit hoher Konfidenz von mehrdeutigen trennt, (4) menschliches Prüfinterface, in dem Prüfer gekennzeichnete Aufnahmen untersuchen und KI-Vorhersagen entweder bestätigen, zurückweisen oder korrigieren, und (5) finale Berichterstellung, die sowohl automatisierte als auch menschlich verifizierte Ergebnisse integriert.

Q: Wie unterscheidet sich HITL von der vollautomatischen Inspektion?

Die vollautomatische Inspektion verlässt sich vollständig auf KI, um Defekte ohne menschliches Eingreifen zu erkennen, zu klassifizieren und zu melden. Die HITL-Inspektion nutzt KI für die erste Durchmusterung, erfordert jedoch einen menschlichen Prüfer, der die Ergebnisse überprüft und beurteilt, bevor sie Teil des offiziellen Berichts werden. HITL wird für sicherheitskritische Infrastruktur bevorzugt, weil es die menschliche Verantwortlichkeit bewahrt, Grenzfälle behandelt, die KI möglicherweise falsch klassifiziert, und regulatorische Anforderungen erfüllt, die die Unterschrift eines zertifizierten Prüfers für Inspektionsberichte vorschreiben.

Q: Welche regulatorischen Anforderungen gelten für HITL bei der Flughafeninspektion?

Gemäß ICAO Annex 14 und den zugehörigen Zertifizierungsrahmen für Flugplätze müssen Inspektionsberichte für sicherheitskritische Flughafeninfrastruktur von qualifiziertem Personal gegengezeichnet werden. Während KI-gestützte Werkzeuge für die Datenerfassung und vorläufige Analyse zulässig sind, muss die endgültige Zustandsbewertung und Defektklassifizierung eine menschliche Verifizierung umfassen. Die Europäische Agentur für Flugsicherheit (EASA) und die Federal Aviation Administration (FAA) haben Leitlinien zur Nutzung von KI in der Luftfahrtwartung herausgegeben, die eine sinnvolle menschliche Aufsicht für sicherheitsrelevante Entscheidungen vorschreiben.

Q: Wie funktioniert aktives Lernen mit HITL-Inspektion?

Aktives Lernen in HITL-Systemen wählt die unsichersten KI-Detektionen zur menschlichen Überprüfung aus und verwendet dann die vom Prüfer bestätigten oder korrigierten Labels als Trainingsdaten zur Verbesserung des Modells. Über aufeinanderfolgende Inspektionszyklen hinweg reduziert dies die Anzahl der Detektionen, die eine menschliche Überprüfung erfordern. Studien haben gezeigt, dass aktives Lernen den manuellen Labeling-Aufwand um 60–75 % reduziert, während die Modellgenauigkeit erhalten bleibt.

Die Human-in-the-Loop (HITL)-Verifizierung bei der automatisierten Inspektion kombiniert KI-basierte Fehlererkennungsmodelle mit der verbindlichen manuellen Überprüfung gekennzeichneter Anomalien. Der KI-Algorithmus verarbeitet Bilddaten und weist erkannten Defekten Konfidenzwerte zu, wobei Detektionen mit niedriger Konfidenz an qualifizierte Prüfer zur endgültigen Beurteilung weitergeleitet werden. Dieser semi-automatisierte Arbeitsablauf ist der aktuelle Stand der Technik für sicherheitskritische Infrastrukturinspektionen von Brücken, Fahrbahnen, Start- und Landebahnen sowie Flughafeneinrichtungen.

Human-in-the-Loop (HITL)-Verifizierung bei der automatisierten Inspektion

Definition und Begründung

Human-in-the-Loop (HITL) ist ein Architekturparadigma für semi-automatisierte Systeme, bei dem ein maschinelles Lernmodell einen ersten Verarbeitungsdurchlauf über Daten durchführt und ein menschlicher Bediener anschließend die Ausgaben des Modells überprüft, validiert oder korrigiert, bevor sie als endgültig akzeptiert werden. Im Kontext der Infrastrukturinspektion bezieht sich HITL speziell auf Arbeitsabläufe, bei denen ein KI-basierter Fehlererkennungsalgorithmus hochauflösende Aufnahmen von Brücken, Fahrbahnen, Start- und Landebahnen oder Flughafeneinrichtungen verarbeitet, jedem erkannten Anomalie einen Konfidenzwert zuweist und dann Detektionen mit niedriger Konfidenz oder mehrdeutige Detektionen an einen qualifizierten Prüfer zur manuellen Beurteilung weiterleitet.

Die grundlegende Begründung für HITL bei der Inspektion ergibt sich aus den inhärenten Grenzen aktueller Computer-Vision-Modelle beim Einsatz in sicherheitskritischen Umgebungen. Deep-Learning-Modelle, darunter Convolutional Neural Networks (CNNs) und Vision Transformer, erzielen eine hohe Genauigkeit auf Benchmark-Datensätzen, können jedoch bei Grenzfällen unvorhersehbar versagen – ungewöhnliche Lichtverhältnisse, neuartige Rissmorphologien, Oberflächenverunreinigungen, die Defektmuster imitieren, oder Verdeckungen durch Vegetation oder Schmutz. Eine Studie der Michigan State University aus dem Jahr 2024, die sieben multimodale große Sprachmodelle zur Fahrbahnzustandsbewertung untersuchte, ergab, dass Modelle wie GPT-4o zwar eine starke Leistung bei der Standard-Schadensidentifikation erzielten, jedoch alle Modelle eine Variabilität bei der räumlichen Mustererkennung und Schweregradbewertung aufwiesen – Aufgaben, die kontextuelles Verständnis erfordern. Die HITL-Architektur erkennt an, dass bei Infrastrukturanlagen, deren Versagen katastrophale Folgen haben kann, die Maschineneffizienz dem menschlichen Urteilsvermögen im Moment der endgültigen Entscheidung untergeordnet werden muss.

Prüfer, der KI-erkannte Defekte auf einem Tablet während einer Brückeninspektion überprüft

Der HITL-Ansatz adressiert auch die Verantwortungslücke, die entsteht, wenn Entscheidungen vollständig von Algorithmen getroffen werden. In regulierten Branchen – Luftfahrt, Straßeninfrastruktur, Nuklearanlagen – müssen Inspektionsberichte die Unterschrift eines zertifizierten Fachmanns tragen, der die rechtliche Verantwortung für die Ergebnisse übernimmt. Die Europäische Agentur für Flugsicherheit (EASA) hat in ihrem KI-Fahrplan Leitlinien herausgegeben, die besagen, dass KI-Anwendungen mit hohem Risiko in der Luftfahrtwartung eine „sinnvolle menschliche Aufsicht" mit der „Möglichkeit, Entscheidungen zu überstimmen oder rückgängig zu machen" umfassen müssen. Ebenso schreiben die National Bridge Inspection Standards (NBIS) der US-amerikanischen Federal Highway Administration (FHWA) vor, dass Brückenzustandsbewertungen von einem Teamleiter vorgenommen werden müssen, der bestimmte Qualifikationskriterien erfüllt – eine Anforderung, die nicht an Software delegiert werden kann.

Ein Bericht der National Academies aus dem Jahr 2024 über KI-Anwendungen zur automatischen Fahrbahnzustandsbewertung betonte, dass „die menschliche Verifizierung automatisierter Schadenserkennungsausgaben unerlässlich ist, um die Datenqualität zu erhalten und sicherzustellen, dass Instandhaltungsentscheidungen auf zuverlässigen Bewertungen basieren." Der Bericht dokumentierte, dass Behörden, die eine vollautomatische Fahrbahnbewertung ohne menschliche Überprüfung einsetzten, Fehlerraten von 15–25 % bei Rissen mittlerer Schwere erlebten, verglichen mit 3–8 %, wenn ein Mensch die KI-Ausgaben überprüfte.

HITL-Architektur: Von der KI-Erkennung zum Abschlussbericht

Die standardmäßige HITL-Architektur für die Infrastrukturinspektion folgt einer strukturierten fünfstufigen Pipeline, die Rohsensordaten in eine verifizierte Zustandsbewertung überführt. Jede Stufe hat spezifische technische Anforderungen und Qualitätskontrollpunkte.

Stufe 1: Datenerfassung

Hochauflösende Bilddaten werden mit unbemannten Luftfahrzeugen (UAVs), mit Zeilenkameras ausgestatteten Inspektionsfahrzeugen oder an Traggestellen montierten Festkameras erfasst. Bei Brückeninspektionen sammelt ein typischer UAV-Einsatz 5.000–10.000 Bilder mit Auflösungen von 20–50 Megapixeln und Bodenauflösungen (GSD) von 0,5–2 mm pro Pixel. Bei Fahrbahnuntersuchungen erfassen spezialisierte Fahrzeuge mit mehreren synchronisierten Kameras, die eine Fahrbahnbreite von 4 Metern abdecken, kontinuierliche Bilddaten bei Autobahngeschwindigkeit. Die Datenerfassungsphase muss eine strenge Qualitätskontrolle umfassen – Unschärfeerkennung, Belichtungsvalidierung und Überprüfung der georäumlichen Verschlagwortung – da die nachgelagerte KI-Leistung durch die Eingabequalität begrenzt wird.

Stufe 2: KI-Inferenz-Engine

Die erfassten Bilddaten werden von einer Deep-Learning-Inferenz-Engine verarbeitet, die typischerweise auf einer CNN-Architektur wie YOLOv8, Faster R-CNN oder einer U-Net-Variante für semantische Segmentierung basiert. Das Modell führt eine Pixel- oder Bounding-Box-Erkennung vordefinierter Defektklassen durch. Bei Brückeninspektionen umfassen diese Klassen typischerweise Risse (Haarrisse, Längsrisse, Diagonalrisse, netzartige Risse), Abplatzungen, Delamination, Korrosionsverfärbungen, freiliegende Bewehrung und Fugenschäden. Bei Fahrbahninspektionen umfassen die Klassen Ermüdungsrisse, Blockrisse, Kantenrisse, Spurrillen, Absplitterungen, Schlaglöcher und Flickstellen.

Jede Detektion wird von einem Konfidenzwert zwischen 0,0 und 1,0 begleitet, der die Einschätzung des Modells über die Wahrscheinlichkeit darstellt, dass es sich um ein echtes Positiv handelt. Die Inferenz-Engine gibt auch Metadaten aus, darunter die Detektionskoordinaten im Bildraum, die Defektabmessungen in Pixeln (oder in physikalischen Einheiten, falls Kalibrierungsdaten verfügbar sind) sowie das Klassifikationslabel.

Stufe 3: Konfidenzbasierte Weiterleitung

Die KI-Ausgaben werden von einem Routing-Modul verarbeitet, das konfigurierbare Konfidenzschwellenwerte zur Sortierung der Detektionen anwendet. Die Routing-Logik verwendet typischerweise ein Zwei-Schwellenwert-System:

Konfidenzbereich	Weiterleitungsentscheidung	Begründung
0,95 – 1,00	Automatische Annahme	Echte Positive mit hoher Konfidenz; minimales Risiko falsch-positiver Ergebnisse
0,50 – 0,95	Weiterleitung zur menschlichen Überprüfung	Mehrdeutige Detektionen, die fachkundige Beurteilung erfordern
0,00 – 0,50	Automatische Zurückweisung	Falsch-positive Ergebnisse mit hoher Konfidenz; als Rauschen herausgefiltert

Die Schwellenwerte sind standortspezifisch und anpassbar. Eine Brückeninspektion an einem bruchkritischen Bauteil (FCM) kann den Überprüfungsschwellenwert auf 0,70 senken, um sicherzustellen, dass alle potenziell signifikanten Defekte menschlich überprüft werden. Eine Fahrbahnuntersuchung auf einer wenig befahrenen Landstraße kann den Schwellenwert auf 0,90 erhöhen und dabei eine etwas höhere Falsch-Negativ-Rate zugunsten eines reduzierten Prüfaufwands in Kauf nehmen.

Stufe 4: Menschliches Prüfinterface

Gekennzeichnete Detektionen werden einem qualifizierten Prüfer über ein spezialisiertes Prüfinterface präsentiert. Die Schnittstelle zeigt typischerweise den erkannten Defekt mit der KI-generierten Bounding-Box oder Segmentierungsüberlagerung, den Konfidenzwert, die Defektklassifikation sowie Kontextinformationen wie die Anlagenkennung (Brückennummer, Fahrbahnabschnitt), Standortkoordinaten und gegebenenfalls historische Inspektionsdaten.

Der Prüfer hat drei mögliche Aktionen für jede gekennzeichnete Detektion:

Bestätigen – Die KI-Vorhersage als korrekt akzeptieren; die Detektion wird Teil des Abschlussberichts
Zurückweisen – Die Detektion als falsch-positiv verwerfen
Korrigieren – Die KI-Vorhersage durch Anpassen der Bounding-Box, Ändern der Klassifikation oder Aktualisieren der Schweregradeinstufung modifizieren

Moderne Prüfinterfaces integrieren Tastaturkürzel und Stapelverarbeitungsfunktionen, um den Überprüfungsprozess zu beschleunigen. Ein erfahrener Prüfer kann 200–500 gekennzeichnete Defekte pro Stunde überprüfen, abhängig von der Defektdichte und der Bildkomplexität. Die Überprüfungssitzung erzeugt ein Prüfprotokoll, das jede Aktion des Prüfers dokumentiert – kritisch für die Qualitätssicherung und die regulatorische Konformität.

Stufe 5: Finale Berichterstellung

Der abschließende Zustandsbericht integriert automatisch akzeptierte Detektionen mit hoher Konfidenz und menschlich verifizierte gekennzeichnete Detektionen. Der Bericht berechnet aggregierte Kennzahlen wie die Defektdichte (Prozentsatz der Oberfläche, der von jedem Defekttyp betroffen ist), den Fahrbahnzustandsindex (PCI) für Flugplätze oder Straßen oder elementbezogene Zustandsbewertungen für Brücken gemäß dem AASHTO-Elementprüfrahmen.

KI-Defekterkennungsschnittstelle mit Konfidenzwerten bei der Fahrbahnrissanalyse

Konfidenzschwellenwerte zur Kennzeichnung

Konfidenzschwellenwerte sind die kritischen Abstimmungsparameter, die die Betriebseffizienz und die Sicherheitsmarge eines jeden HITL-Inspektionssystems bestimmen. Zu aggressive Schwellenwerte (Akzeptieren von Vorhersagen mit niedriger Konfidenz) erhöhen das Risiko falsch-negativer Ergebnisse – übersehene Defekte, die die strukturelle Integrität gefährden könnten. Zu konservative Schwellenwerte (Weiterleitung aller Detektionen zur menschlichen Überprüfung) machen den Effizienzzweck der Automatisierung zunichte.

Die Receiver Operating Characteristic (ROC)-Kurve des KI-Modells liefert die analytische Grundlage für die Schwellenwertauswahl. Die ROC-Kurve stellt die Richtig-Positiv-Rate (Sensitivität) gegen die Falsch-Positiv-Rate für jeden möglichen Schwellenwert dar. Die Fläche unter der ROC-Kurve (AUC) fasst die allgemeine Unterscheidungsfähigkeit des Modells zusammen. Ein Modell mit einer AUC von 0,95 oder höher auf repräsentativen Testdaten gilt allgemein als für den HITL-Einsatz geeignet.

Die Industriepraxis empfiehlt die Kalibrierung von Schwellenwerten mithilfe einer Kostenmatrix, die jeder Fehlerart monetäre oder risikobasierte Gewichte zuweist:

Fehlerart	Konsequenz	Relative Kosten
Falsch-negativ (übersehener kritischer Riss)	Potenzielles Strukturversagen, Sicherheitsgefahr	Sehr hoch
Falsch-negativ (übersehener kosmetischer Defekt)	Verzögerte Instandhaltung, erhöhte Lebenszykluskosten	Mittel
Falsch-positiv (Kennzeichnung eines Nicht-Defekts)	Verschwendete Prüfzeit	Niedrig
Fehlklassifikation (korrekte Box, falsche Klasse)	Falsche Zustandsbewertung	Mittel

Der Schwellenwert-Kalibrierungsprozess umfasst typischerweise die Ausführung des KI-Modells gegen einen Validierungsdatensatz von mindestens 5.000–10.000 Bildern, die unabhängig von zertifizierten Prüfern gelabelt wurden. Die Detektionen des Modells werden mit den Ground-Truth-Labels verglichen, und der Schwellenwert wird angepasst, um eine angestrebte Falsch-Negativ-Rate zu erreichen – üblicherweise 1–2 % für bruchkritische Brückenelemente und 5–8 % für allgemeine Fahrbahnuntersuchungen.

Dynamische Schwellenwertsetzung ist eine aufkommende Praxis, bei der Schwellenwerte in Echtzeit basierend auf Umgebungsbedingungen, Bildqualitätsmetriken oder der Anlagenkritikalität angepasst werden. Trifft das Inspektionsfahrzeug beispielsweise auf starken Regen oder Bedingungen mit wenig Licht, die die Bildqualität beeinträchtigen, senkt das System automatisch seinen Konfidenzschwellenwert, um mehr Detektionen zur menschlichen Überprüfung weiterzuleiten, und kompensiert so die höhere Unsicherheit in den Vorhersagen des Modells.

Prüfinterfaces und Arbeitsabläufe

Das menschliche Prüfinterface ist das operative Herzstück eines HITL-Inspektionssystems. Sein Design wirkt sich direkt sowohl auf die Geschwindigkeit als auch auf die Genauigkeit des Verifizierungsprozesses aus. Schlecht gestaltete Schnittstellen verursachen Ermüdung des Bedieners, erhöhen die Fehlerraten und schaffen Engpässe, die die Produktivitätsgewinne durch die KI-Automatisierung zunichtemachen.

Effektive Prüfinterfaces integrieren mehrere wichtige Designprinzipien:

Parallele Anzeige von KI-Ausgabe und Quellbild. Die Schnittstelle sollte die KI-Erkennung (Bounding-Box, Segmentierungsmaske oder Heatmap) auf dem Originalbild überlagern, mit Steuerelementen zum Ein- und Ausschalten der Überlagerung. Dies ermöglicht es dem Prüfer, genau zu sehen, was das Modell erkannt hat, während er die Möglichkeit behält, das Rohbild auf übersehene Defekte zu untersuchen.

Kontextuelle Navigationshilfen. Die Schnittstelle sollte eine Navigationssystem auf Defektebene (vorwärts/rückwärts durch gekennzeichnete Detektionen) bieten, das in eine Navigation auf Anlagenebene integriert ist (z. B. Brückenelementauswahl oder Fahrbahnabschnittskarte). Die Twinsity Twinspect-Plattform, die in einem Proof-of-Concept aus dem Jahr 2025 mit der Die Autobahn GmbH an deutschen Autobahnbrücken demonstriert wurde, implementierte eine konsolidierte Ansicht, bei der Schäden, die in mehreren Bildern erscheinen, zu eindeutigen Defektdatensätzen zusammengeführt werden, wodurch Redundanz reduziert und die Prüferdurchsicht von über 600 KI-erkannten Anomalien beschleunigt wird.

Visualisierung des Konfidenzwerts. Jede Detektion sollte ihren Konfidenzwert numerisch und visuell anzeigen – typischerweise als farbcodiertes Abzeichen (grün für hohe Konfidenz, gelb für mittlere, rot für niedrige). Dies hilft dem Prüfer, die Aufmerksamkeit zuerst auf die unsichersten Detektionen zu lenken – ein als unsicherheitsgesteuerte Überprüfung bezeichneter Arbeitsablauf.

Aufzeichnung des Prüfprotokolls. Jede Aktion des Prüfers – Bestätigen, Zurückweisen, Korrigieren, Überspringen – muss mit Zeitstempel, Benutzerkennung und in einem unveränderlichen Prüfprotokoll protokolliert werden. Dies ist nicht optional; es ist eine regulatorische Anforderung für alle Inspektionsdaten, die in Sicherheitsmanagementsysteme oder Konformitätsberichte einfließen.

Stapelbestätigung für die Durchsicht großer Mengen. Bei Inspektionen mit Tausenden von gekennzeichneten Detektionen sollte die Schnittstelle die Stapelauswahl und Massenbestätigung ähnlicher risikoarmer Detektionen unterstützen. Ein Prüfer, der Fahrbahnrisse auf einem 10 km langen Autobahnabschnitt überprüft, kann auf Hunderte identischer Querrisse stoßen; die Zusammenfassung dieser in eine einzige Bestätigungsaktion reduziert die Überprüfungszeit drastisch.

Der Ablauf des Prüfworkflows folgt typischerweise dieser Reihenfolge:

Der Prüfer meldet sich in der HITL-Plattform an und lädt den Inspektionsauftrag
Das System zeigt ein Dashboard mit der Gesamtzahl der zur Überprüfung gekennzeichneten Detektionen, aufgeschlüsselt nach Defekttyp und Konfidenzband
Der Prüfer beginnt mit der Überprüfung der Detektionen, beginnend mit den Posten mit der niedrigsten Konfidenz
Für jede Detektion untersucht der Prüfer die KI-Überlagerung im Vergleich zum Rohbild und trifft eine Entscheidung über Bestätigen/Zurückweisen/Korrigieren
Das System rückt automatisch zur nächsten Detektion vor
Bei Abschluss erstellt das System eine Verifizierungszusammenfassung mit dem Verhältnis von bestätigten, zurückgewiesenen und korrigierten Detektionen
Die verifizierten Detektionen werden mit den automatisch akzeptierten Detektionen im Abschlussbericht zusammengeführt

Menschliche Korrektur von KI-Vorhersagen

Die menschliche Korrektur von KI-Vorhersagen ist eine der wertvollsten Funktionen in einem HITL-System. Wenn ein Prüfer eine KI-Ausgabe korrigiert – durch Anpassen einer schlecht platzierten Bounding-Box, Neuklassifizieren eines falsch identifizierten Defekttyps oder Aktualisieren einer Schweregradeinstufung – erfasst das System nicht nur die korrigierte Ausgabe, sondern auch die Differenz zwischen der KI-Vorhersage und der menschlichen Ground Truth. Diese Differenz ist das Signal, das die Modellverbesserung durch aktives Lernen vorantreibt.

Häufige Korrekturarten bei der Infrastrukturinspektion umfassen:

Bounding-Box-Anpassung. Die KI kann zwar korrekt erkennen, dass ein Defekt vorhanden ist, die Bounding-Box jedoch ungenau platzieren – entweder zu eng (Abschneiden eines Teils des Risses) oder zu locker (Einschließen von nicht defekter Oberfläche). Der Prüfer passt die Box an, um den Defekt präzise einzuschließen, und das System zeichnet den IoU (Intersection over Union) zwischen der KI-Vorhersage und der menschlichen Korrektur auf. Wiederholt niedrige IoU-Werte bei bestimmten Defektklassen signalisieren die Notwendigkeit eines Modell-Retrainings mit besseren Lokalisierungsbeispielen.

Klassifikationskorrektur. Die KI kann einen Riss erkennen, ihn aber als „Querriss" klassifizieren, obwohl es sich tatsächlich um einen „Längsriss" handelt. Diese Fehlklassifikation hat Konsequenzen für die Zustandsbewertung, da verschiedene Risstypen in Fahrbahn-Managementsystemen unterschiedlichen Schweregradmatrizen zugeordnet werden (z. B. ASTM D6433 für die PCI-Berechnung). Der Prüfer korrigiert das Label, und das System zeichnet den Confusion-Matrix-Eintrag auf und erstellt so einen Datensatz schwieriger Klassifikationsfälle.

Schweregrad-Neueinstufung. Viele Zustandsbewertungsprotokolle erfordern Schweregradeinstufungen (niedrig, mittel, hoch oder eine numerische Skala) basierend auf den Defektabmessungen. Die KI kann einen Riss korrekt identifizieren und lokalisieren, aber seine Breite oder Länge falsch einschätzen, was zu einer falschen Schweregradzuweisung führt. Der Prüfer korrigiert den Schweregrad, und das System protokolliert die Messabweichung.

Zurückweisung falsch-positiver Ergebnisse. Die häufigste Aktion des Prüfers bei Detektionen mit niedriger Konfidenz ist die Zurückweisung – die KI hat ein Oberflächenmerkmal (Ölfleck, Schatten, Reifenspur, Fuge) gekennzeichnet, das kein Defekt ist. Jede Zurückweisung ist ein gelabeltes falsch-positives Beispiel, das die Unterscheidungsfähigkeit des Modells verbessert.

Eine Proof-of-Concept-Studie aus dem Jahr 2025, die von Twinsity in Zusammenarbeit mit der Die Autobahn GmbH durchgeführt wurde, demonstrierte die praktischen Auswirkungen menschlicher Korrektur. Das KI-Modell erkannte zunächst 600 Anomalien an einer deutschen Autobahnbrücke, von denen 176 von Bauingenieuren bestätigte Risse waren. Durch den HITL-Überprüfungsprozess korrigierten die Prüfer die KI-Klassifikationen, verfeinerten Bounding-Boxen und wiesen falsch-positive Ergebnisse zurück. Die endgültige verifizierte Anzahl von 156 bestätigten Rissen ergab eine Genauigkeitsrate von 88,6 %, die nach der Verwendung der Korrekturdaten zur Modell-Feintuning auf über 95 % anstieg.

Aktives Lernen aus menschlichem Feedback

Die Integration von HITL mit aktivem Lernen schafft einen kontinuierlichen Verbesserungszyklus, der die menschliche Prüflast im Laufe der Zeit schrittweise reduziert. Aktives Lernen ist eine maschinelle Lernstrategie, bei der der Algorithmus identifiziert, welche nicht gelabelten Datenpunkte am informativsten für die Verbesserung der Modellleistung wären, und Labels für diese spezifischen Punkte von einem menschlichen Annotator anfordert.

Im HITL-Inspektionskontext funktioniert aktives Lernen wie folgt:

Das KI-Modell verarbeitet neue Inspektionsbilder und erzeugt Vorhersagen mit Konfidenzwerten
Das System identifiziert Detektionen mit der höchsten Unsicherheit – jene, die der Entscheidungsgrenze zwischen echtem Positiv und falschem Positiv am nächsten liegen
Diese unsicheren Detektionen werden zur Überprüfung an den menschlichen Prüfer weitergeleitet
Die bestätigten oder korrigierten Labels des Prüfers werden zu Trainingsdaten für das nächste Modell-Update
Das Modell wird auf dem erweiterten Datensatz neu trainiert oder feinabgestimmt, wodurch seine Genauigkeit bei den zuvor unsicheren Fällen verbessert wird
Über aufeinanderfolgende Inspektionszyklen hinweg nimmt die Anzahl der Detektionen, die eine menschliche Überprüfung erfordern, ab

Die Abfragestrategie zur Auswahl, welche Detektionen zur menschlichen Beschriftung weitergeleitet werden, ist kritisch. Übliche Strategien umfassen:

Sampling geringster Konfidenz: Weiterleitung von Detektionen mit Konfidenzwerten, die dem Entscheidungsschwellenwert am nächsten liegen (z. B. 0,45–0,55)
Margin-Sampling: Weiterleitung von Detektionen, bei denen die Differenz zwischen den beiden höchsten Klassenwahrscheinlichkeiten am geringsten ist
Entropie-Sampling: Weiterleitung von Detektionen mit der höchsten Vorhersageentropie, was darauf hindeutet, dass das Modell bei der Klassifikation am unsichersten ist

Eine in Automation in Construction veröffentlichte Studie, die automatisierungsgestützte HITL-Systeme für die visuelle Infrastrukturinspektion evaluierte, ergab, dass aktives Lernen den manuellen Labeling-Aufwand im Vergleich zu zufälligem Sampling um 60–75 % reduzierte, während die Modellgenauigkeit erhalten blieb. Die Studie dokumentierte, dass das Modell nach fünf aktiven Lernzyklen an einem Risserkennungsdatensatz eine Genauigkeit von 94,7 % erreichte, wobei nur 30 % der Trainingsdaten eine menschliche Überprüfung erforderten.

Die Implementierung von aktivem Lernen in Produktions-HITL-Systemen erfordert versioniertes Modellmanagement. Jeder Retraining-Zyklus erzeugt eine neue Modellversion, die vor dem Einsatz gegen einen zurückgehaltenen Testdatensatz validiert werden muss. Das System muss auch A/B-Tests unterstützen – das Ausführen des neuen Modells im Schattenmodus parallel zum aktuellen Produktionsmodell, um zu überprüfen, ob sich Leistungsverbesserungen auf neue Inspektionsdaten verallgemeinern lassen, bevor das Update übernommen wird.

HITL für Brückeninspektion

Die Brückeninspektion ist die sicherheitskritischste Anwendung der HITL-Technologie in der Infrastruktur. Die Vereinigten Staaten haben über 617.000 Brücken, von denen etwa 42 % über 50 Jahre alt sind und 7,5 % gemäß dem ASCE Infrastructure Report Card 2024 als strukturell mangelhaft eingestuft werden. Die National Bridge Inspection Standards (NBIS), kodifiziert in 23 CFR 650, schreiben vor, dass alle Brücken an öffentlichen Straßen in Abständen von höchstens 24 Monaten von qualifizierten Teamleitern inspiziert werden müssen.

Die FHWA-Dokumentation betont, dass menschliche Verifizierung nicht verhandelbar ist für Zustandsbewertungen, die im Rahmen des NBIS-Rahmenwerks vorgenommen werden. Die Bewertungsskalen für Brückenelemente (0–9 für Fahrbahnplatte, Überbau und Unterbau gemäß dem National Bridge Inventory-Kodierungsleitfaden) erfordern, dass der Prüfer mehrere beobachtbare Zustände in eine einzige numerische Bewertung synthetisiert – eine Aufgabe, die aktuelle KI-Systeme nicht zuverlässig ausführen können, da sie ein Verständnis von strukturellen Lastpfaden, Materialverhalten und Verfallsmechanismen erfordert.

Der HITL-Brückeninspektionsworkflow integriert mehrere Datenquellen:

Drohne, die hochauflösende Bilder einer Autobahnbrücke für die KI-basierte Inspektion aufnimmt

UAV-Aufnahmen liefern hochauflösende visuelle Daten aller zugänglichen Brückenoberflächen – Fahrbahnplatte, Untersicht, Träger, Pfeiler, Widerlager, Lager und Fugen. Ein typischer UAV-Brückeneinsatz sammelt 3.000–8.000 Bilder pro Bauwerk, abhängig von Brückengröße und -komplexität. Die KI-Inferenz-Engine verarbeitet diese Bilder, um Risse, Abplatzungen, Korrosion und andere sichtbare Defekte zu erkennen.

Georadar-Daten (GPR) werden neben visuellen Aufnahmen zur Erkennung von Fahrbahndelamination und Bewehrungskorrosionsbewertung eingesetzt. Während die GPR-Signalinterpretation spezielles Fachwissen erfordert, können KI-Modelle anomale Signalmuster zur menschlichen Überprüfung kennzeichnen.

Die Rolle des Prüfers im HITL-System besteht nicht nur darin, KI-Vorhersagen zu bestätigen oder zurückzuweisen, sondern auch baustatisches Urteilsvermögen hinzuzufügen, das die KI nicht bieten kann. Der Prüfer überprüft gekennzeichnete Detektionen im Kontext der bekannten Tragfähigkeit der Brücke, des Verkehrsaufkommens, der Umwelteinwirkungen und der Inspektionshistorie. Ein Haarriss im Steg eines Spannbetonträgers kann sofort für eine dringende Reparatur gekennzeichnet werden, während ein identischer Riss in einem sekundären Querträger als geringfügige Beobachtung eingestuft werden kann – eine Unterscheidung, die auf baustatischem Fachwissen basiert, nicht auf Mustererkennung auf Pixelebene.

Der von der FHWA empfohlene Rahmen für ein Brückeninspektions-QC/QA-Programm, aktualisiert im Jahr 2024, befasst sich explizit mit der Integration automatisierter Inspektionstechnologien. Der Rahmen verlangt, dass jedes automatisierte Risserkennungssystem an mindestens 10 % der Brückenelemente gegen die manuelle Inspektion validiert wird, wobei die Validierungsergebnisse dokumentiert und vom Inspektions-Teamleiter überprüft werden müssen. Dieser Dual-Validierungsansatz ist ein formalisierter HITL-Prozess, der sicherstellt, dass die Automatisierung als Entscheidungsunterstützungswerkzeug und nicht als Ersatz für professionelles Urteilsvermögen dient.

HITL für Fahrbahninspektion

Die Fahrbahnzustandsbewertung war ein früher Anwender automatisierter Inspektionstechnologie, da die anfallenden Datenmengen hoch sind – eine einzelne Autobahnbehörde kann 10.000–50.000 Fahrbahn-km verwalten, mit Inspektionsintervallen von 1–3 Jahren. Manuelle visuelle Erhebungen in diesem Maßstab sind unerschwinglich teuer und erfordern 30–50 Personentage pro 100 Fahrbahn-km. KI-gestützte Methoden können dasselbe Netzwerk in 5–10 Stunden Rechenzeit verarbeiten, aber die Ergebnisse müssen von menschlichen Prüfern verifiziert werden, bevor sie für Instandhaltungsplanungsentscheidungen verwendet werden können.

Der HITL-Workflow für die Fahrbahninspektion verwendet typischerweise Zeilenkameras, die auf Vermessungsfahrzeugen montiert sind, die mit Autobahngeschwindigkeit (80–100 km/h) fahren und kontinuierliche 360-Grad-Aufnahmen der Fahrbahnoberfläche erfassen. Die Bilder werden mithilfe von GPS/IMU-Systemen mit einer Genauigkeit von 10–50 cm georeferenziert. Das KI-Modell segmentiert die Fahrbahnoberfläche in Defektkategorien und berechnet Schadensdichtemetriken.

Die Richtlinien der American Association of State Highway and Transportation Officials (AASHTO) für die Erfassung von Fahrbahnzustandsdaten erkennen die Rolle automatisierter Systeme an, während sie gleichzeitig Anforderungen an die menschliche Verifizierung aufrechterhalten. Der AASHTO-Standard PP 89-21 für die automatisierte Fahrbahnschadensdatenerfassung legt Qualitätssicherungsverfahren fest, darunter:

Feldverifizierung: Mindestens 5 % der Erhebungsabschnitte müssen innerhalb von 30 Tagen nach der automatisierten Erhebung durch manuelle Inspektion ground-getrutht werden
Wiederholbarkeitsprüfung: Das automatisierte System muss bei der Wiederholungsvermessung desselben Abschnitts innerhalb von 24 Stunden eine Wiederholbarkeit von ±5 % bei den Schadensmengen nachweisen
Menschliche Überprüfung von Grenzfällen: Alle Abschnitte mit Schadensmengen, die vordefinierte Schwellenwerte überschreiten (z. B. >20 % Rissfläche), müssen manuell überprüft werden

Das HITL-Prüfinterface für die Fahrbahninspektion zeigt typischerweise eine Streifendiagrammansicht mit der Fahrbahnoberfläche, bei der KI-erkannte Defekte nach Typ und Schweregrad farbcodiert sind. Der Prüfer scrollt durch die kontinuierlichen Fahrbahnaufnahmen, überprüft gekennzeichnete Abschnitte und verifiziert die Zustandsbewertung der KI. Für Behörden, die die PCI-Methodik gemäß ASTM D6433 verwenden, berechnet das HITL-System PCI-Werte aus den verifizierten Defektdaten, wobei der Prüfer den berechneten Wert basierend auf seinem Fachwissen vor Ort akzeptiert oder überschreibt.

Eine Studie der National Academies aus dem Jahr 2025 über KI-Anwendungen zur automatischen Fahrbahnzustandsbewertung ergab, dass HITL-Systeme eine Übereinstimmung von 92–96 % mit der manuellen Inspektion bei der Schadensidentifikation erreichten, verglichen mit 78–85 % für vollautomatische Systeme ohne menschliche Überprüfung. Die Studie ergab auch, dass HITL die Inspektionszeit im Vergleich zu rein manuellen Methoden um 55–70 % reduzierte, während die Einhaltung der AASHTO-Datenqualitätsstandards gewahrt blieb.

Regulatorische Akzeptanz von HITL

Die regulatorische Landschaft für KI in der Infrastrukturinspektion entwickelt sich rasant, aber das durchgängige Thema aller wichtigen Rahmenwerke ist, dass menschliche Aufsicht für sicherheitsrelevante Entscheidungen verpflichtend ist.

Internationale Zivilluftfahrtorganisation (ICAO) – Gemäß ICAO Annex 14, Band I (Flugplatzgestaltung und -betrieb) ist der Flugplatzbetreiber dafür verantwortlich, dass Start- und Landebahnen, Rollwege und Vorfeldflächen in einem für den Flugzeugbetrieb akzeptablen Zustand gehalten werden. Obwohl ICAO die automatisierte Inspektion nicht ausdrücklich verbietet, impliziert die Anforderung, dass der „Flugplatzbetreiber ein Inspektionsprogramm einrichten muss", das „für den Staat akzeptabel" ist, implizit, dass Zustandsbewertungen von kompetentem Personal durchgeführt oder verifiziert werden müssen. Das ICAO-Dokument 9157 (Flugplatzgestaltungshandbuch) verweist auf die PCI-Methodik, die eine visuelle Inspektion durch geschulte Bewerter erfordert, sofern der Staat kein alternatives Verfahren genehmigt.

Europäische Agentur für Flugsicherheit (EASA) – Der KI-Fahrplan 2.0 der EASA, veröffentlicht im Jahr 2024, etabliert einen abgestuften Ansatz für KI in der Luftfahrt. Auf Stufe 2 („Mensch-KI-Zusammenarbeit"), die KI-gestützte Inspektion abdeckt, verlangt die Agentur: (a) der Mensch behält die endgültige Entscheidungsbefugnis, (b) das KI-System liefert Erklärungen für seine Ausgaben und (c) das System kann jederzeit vom menschlichen Bediener überstimmt oder deaktiviert werden. Diese Anforderungen lassen sich direkt auf die HITL-Architektur abbilden.

Federal Aviation Administration (FAA) – Das Advisory Circular AC 150/5380-6C der FAA zu „Richtlinien für Fahrbahn-Managementprogramme" besagt, dass automatisierte Datenerfassungsmethoden akzeptabel sind, sofern „die Datenerfassungsausrüstung zertifiziert ist und die Daten von einem in der Fahrbahnbewertung erfahrenen Ingenieur validiert werden." Diese doppelte Anforderung – Gerätezertifizierung plus menschliche Validierung – ist ein formaler HITL-Auftrag.

Federal Highway Administration (FHWA) – Die FHWA NBIS (23 CFR 650 Unterabschnitt C) verlangt, dass alle Brückeninspektionen von oder unter der Leitung eines Teamleiters durchgeführt werden, der bestimmte Qualifikationsanforderungen erfüllt (staatlich geprüfter Ingenieur oder zertifizierter Brückenprüfer mit Mindesterfahrungsschwellen). Während die automatisierte Datenerfassung zulässig ist, muss die Zustandsbewertung vom Teamleiter vorgenommen werden. Die FHWA-Leitlinien zum NBIS-Überprüfungsprozess 2024 bestätigen, dass „automatisierte Inspektionstechnologien das professionelle Urteilsvermögen des Teamleiters ergänzen, aber nicht ersetzen."

ISO 55001 (Anlagenmanagement) – Der internationale Standard für Anlagenmanagement verlangt, dass Zustandsdaten, die für Entscheidungen verwendet werden, zuverlässig, wiederholbar und verifizierbar sein müssen. HITL-Workflows erfüllen diese Anforderungen, indem sie die menschliche Verifizierung als letzte Qualitätskontrolle beibehalten.

Die praktische Auswirkung dieses regulatorischen Umfelds ist, dass HITL für die Infrastrukturinspektion nicht nur eine technische Präferenz ist – es ist eine Compliance-Anforderung. Jede Organisation, die KI für die Inspektion von Luftfahrt-, Straßen- oder Bauwerksanlagen einsetzt, muss einen menschlichen Überprüfungsprozess implementieren, um die regulatorischen Verpflichtungen zu erfüllen. Die genaue Architektur kann variieren – einige Behörden verlangen eine 100%ige menschliche Überprüfung aller Detektionen, während andere eine statistische Stichprobenprüfung akzeptieren – aber das Prinzip der menschlichen Verifizierung ist universell.

Vollautomatisiert vs. HITL

Der Unterschied zwischen vollautomatischer Inspektion und Human-in-the-Loop-Inspektion ist grundlegend für das Verständnis von Einsatzentscheidungen im Infrastruktur-Anlagenmanagement. Jeder Ansatz hat unterschiedliche Eigenschaften, Vorteile und Einschränkungen:

Dimension	Vollautomatisiert	Human-in-the-Loop
Entscheidungsbefugnis	KI-Modell	Menschlicher Prüfer
Durchsatz	Sehr hoch (100.000+ Bilder/Stunde)	Moderat (200–500 gekennzeichnete Posten/Stunde)
Grenzfallbehandlung	Schlecht – Modell versagt bei neuartigen Mustern	Gut – Mensch passt sich an neue Situationen an
Verantwortlichkeit	Diffus – keine einzelne verantwortliche Stelle	Klar – zertifizierter Prüfer trägt Verantwortung
Regulatorische Konformität	Eingeschränkt – die meisten Standards erfordern menschliche Abzeichnung	Etabliert – erfüllt bestehende regulatorische Rahmenwerke
Kontinuierliche Verbesserung	Erfordert separate Datenpipeline	Integriert durch aktives Lernen
Kosten pro Inspektion	Niedrig nach Ersteinrichtung	Höher aufgrund menschlicher Arbeitskraft
Falsch-Negativ-Rate	10–25 % bei mehrdeutigen Defekten	2–5 % nach menschlicher Überprüfung
Geeignet für	Risikoarme Anlagen, Erstmusterung, hohes Volumen	Sicherheitskritische Anlagen, endgültige Zustandsbewertung, reguliert

Die Entscheidung zwischen vollautomatischem und HITL-Einsatz hängt von der Risikokategorie der zu inspizierenden Anlage ab. Risikoarme Anlagen – wie Nebenstraßen, nicht-tragende Gebäudeelemente und kosmetische Oberflächenzustände – können Kandidaten für eine vollautomatische Inspektion sein, bei der die Kosten falsch-negativer Ergebnisse akzeptabel sind. Sicherheitskritische Anlagen – Brücken, Start- und Landebahnen, Tunnel, Dämme und stark befahrene Autobahnen – erfordern HITL, da die Konsequenz eines übersehenen kritischen Defekts inakzeptabel ist.

Eine Umfrage aus dem Jahr 2024 unter 47 US-amerikanischen Landesverkehrsbehörden ergab, dass 93 % der Behörden, die automatisierte Fahrbahndatenerfassung einsetzen, eine Form der menschlichen Verifizierung verwenden, die von Zufallsstichproben (10 % der Abschnitte) bis zur umfassenden Überprüfung aller als mangelhaft gekennzeichneten Abschnitte reicht. Nur 7 % akzeptierten automatisierte Daten ohne menschliche Verifizierung, und diese Behörden beschränkten die rein automatisierte Akzeptanz auf wenig befahrene Ortsstraßen in gutem Zustand. Bei der Brückeninspektion ergab dieselbe Umfrage, dass 100 % der Behörden Anforderungen an die menschliche Verifizierung aufrechterhielten, wobei der häufigste Ansatz die menschliche Überprüfung aller KI-erkannten Anomalien in Kombination mit einer zufälligen Stichprobenprüfung von 15–20 % der als defektfrei klassifizierten Bilder war.

Der operative Trend geht zu hybriden Modellen, die den Automatisierungsgrad basierend auf dem Anlagenzustand anpassen. Eine Brücke in gutem Zustand (NBI-Bewertung 7–9) kann mit hohen Auto-Akzeptanz-Konfidenzschwellen und minimaler menschlicher Überprüfung verarbeitet werden, während bei einer Brücke in schlechtem Zustand (NBI-Bewertung 3–4) alle Detektionen unabhängig vom Konfidenzwert zur menschlichen Überprüfung weitergeleitet werden können. Dieser risikoadaptive HITL-Ansatz optimiert den Prüfereinsatz, indem er die Aufmerksamkeit auf die Anlagen lenkt, bei denen er den größten Sicherheitsnutzen bietet.

Fazit

Die Human-in-the-Loop-Verifizierung repräsentiert den aktuellen Stand der Technik in der automatisierten Infrastrukturinspektion. Die HITL-Architektur – die Kombination von KI-basierter Ersterkennung mit konfidenzbasierter Weiterleitung und verbindlicher menschlicher Überprüfung – liefert die Produktivitätsvorteile der Automatisierung, während sie gleichzeitig die Sicherheitsverantwortung und das professionelle Urteilsvermögen bewahrt, die regulatorische Standards fordern. Die Schwellenwertkalibrierung, das Design der Prüfoberfläche, die Workflows zur menschlichen Korrektur und die Integration von aktivem Lernen sind die technischen Elemente, die darüber entscheiden, ob ein HITL-System in der Praxis effektiv arbeitet.

Für die Brückeninspektion, die Fahrbahnzustandsbewertung, die Bewertung von Flughafenstart- und -landebahnen und die Flughafenwartungskonformität ist HITL kein Übergangsansatz auf dem Weg zur vollständigen Autonomie – es ist die nachgewiesene Best Practice, die die komplementären Stärken von Maschinen und Menschen in Einklang bringt. Mit der weiteren Verbesserung der KI-Modellgenauigkeit wird die menschliche Prüflast durch aktives Lernen abnehmen, aber das Prinzip der menschlichen Verifizierung für sicherheitskritische Entscheidungen wird eine regulatorische und ethische Anforderung bleiben.

Häufig gestellte Fragen

: Human-in-the-Loop (HITL) bei der automatisierten Inspektion ist ein semi-automatisierter Arbeitsablauf, bei dem ein KI-Modell eine erste Fehlererkennung an Inspektionsbildern durchführt und jeder Detektion einen Konfidenzwert zuweist. Anomalien, die unterhalb eines vordefinierten Konfidenzschwellenwerts liegen, werden an einen qualifizierten menschlichen Prüfer zur Durchsicht, Verifizierung und endgültigen Beurteilung weitergeleitet. Dieser Ansatz kombiniert die Verarbeitungsgeschwindigkeit und Konsistenz der maschinellen Bildverarbeitung mit dem kontextuellen Urteilsvermögen, der Sicherheitsverantwortung und der regulatorischen Konformität, die nur zertifizierte menschliche Prüfer bieten können.
: Konfidenzschwellenwerte in HITL-Systemen definieren die Grenze zwischen automatischer Akzeptanz und menschlicher Überprüfung. Detektionen mit Konfidenzwerten über einem hohen Schwellenwert (z. B. >0,95) werden automatisch als echte Positive akzeptiert. Detektionen unter einem niedrigen Schwellenwert (z. B. <0,50) werden automatisch als Rauschen zurückgewiesen. Detektionen im mittleren Band werden zur menschlichen Überprüfung gekennzeichnet. Die Schwellenwerte werden basierend auf der Kritikalität des Anlageguts, den regulatorischen Anforderungen und den Kosten falsch-negativer im Vergleich zu falsch-positiven Ergebnissen kalibriert.
: Die HITL-Architektur für die Infrastrukturinspektion folgt einer fünfstufigen Pipeline: (1) Datenerfassung mittels Drohnen, Inspektionsfahrzeugen oder stationären Kameras, (2) KI-Inferenz, bei der Computer-Vision-Modelle Defekte mit Konfidenzwerten erkennen und klassifizieren, (3) konfidenzbasierte Weiterleitung, die Detektionen mit hoher Konfidenz von mehrdeutigen trennt, (4) menschliches Prüfinterface, in dem Prüfer gekennzeichnete Aufnahmen untersuchen und KI-Vorhersagen entweder bestätigen, zurückweisen oder korrigieren, und (5) finale Berichterstellung, die sowohl automatisierte als auch menschlich verifizierte Ergebnisse integriert.
: Die vollautomatische Inspektion verlässt sich vollständig auf KI, um Defekte ohne menschliches Eingreifen zu erkennen, zu klassifizieren und zu melden. Die HITL-Inspektion nutzt KI für die erste Durchmusterung, erfordert jedoch einen menschlichen Prüfer, der die Ergebnisse überprüft und beurteilt, bevor sie Teil des offiziellen Berichts werden. HITL wird für sicherheitskritische Infrastruktur bevorzugt, weil es die menschliche Verantwortlichkeit bewahrt, Grenzfälle behandelt, die KI möglicherweise falsch klassifiziert, und regulatorische Anforderungen erfüllt, die die Unterschrift eines zertifizierten Prüfers für Inspektionsberichte vorschreiben.
: Gemäß ICAO Annex 14 und den zugehörigen Zertifizierungsrahmen für Flugplätze müssen Inspektionsberichte für sicherheitskritische Flughafeninfrastruktur von qualifiziertem Personal gegengezeichnet werden. Während KI-gestützte Werkzeuge für die Datenerfassung und vorläufige Analyse zulässig sind, muss die endgültige Zustandsbewertung und Defektklassifizierung eine menschliche Verifizierung umfassen. Die Europäische Agentur für Flugsicherheit (EASA) und die Federal Aviation Administration (FAA) haben Leitlinien zur Nutzung von KI in der Luftfahrtwartung herausgegeben, die eine sinnvolle menschliche Aufsicht für sicherheitsrelevante Entscheidungen vorschreiben.
: Aktives Lernen in HITL-Systemen wählt die unsichersten KI-Detektionen zur menschlichen Überprüfung aus und verwendet dann die vom Prüfer bestätigten oder korrigierten Labels als Trainingsdaten zur Verbesserung des Modells. Über aufeinanderfolgende Inspektionszyklen hinweg reduziert dies die Anzahl der Detektionen, die eine menschliche Überprüfung erfordern. Studien haben gezeigt, dass aktives Lernen den manuellen Labeling-Aufwand um 60–75 % reduziert, während die Modellgenauigkeit erhalten bleibt.

Optimieren Sie Ihre Inspektionsabläufe mit HITL

Implementieren Sie Human-in-the-Loop-Verifizierungsprozesse, die die Geschwindigkeit der KI-gestützten Fehlererkennung mit der Verantwortlichkeit zertifizierter Prüfer kombinieren. Kontaktieren Sie uns, um zu erfahren, wie unsere Lösungen in HITL-Workflows für Brücken-, Fahrbahn- und Flugfeldinspektionen integriert werden können.

Kontakt aufnehmen Demo vereinbaren

Mehr erfahren

KI-basierte Risserkennung für die Inspektion von Infrastruktur

Die KI-basierte Risserkennung nutzt Computer Vision – Convolutional Neural Networks, Vision Transformer und semantische Segmentierungsmodelle – um Risse in Fahr...

Jun 16, 2025 34 Min. Lesezeit

Computer Vision Deep Learning +8

+++ title = “Transfer Learning” description = “Transfer Learning wendet Wissen aus vortrainierten Modellen auf großen, allgemeinen Datensätzen...

Jun 18, 2026 7 Min. Lesezeit

Technology Machine Learning +2

Automatisierte Drohnen-basierte Infrastrukturinspektion

Die automatisierte Drohneninspektion nutzt vorprogrammierte Flugrouten, Computer Vision und KI-Analyse, um Infrastrukturanlagen wie Start- und Landebahnen, Brüc...

Jun 16, 2026 30 Min. Lesezeit

Drone Inspection Automation +6