Intersection Over Union (IoU)

Intersection Over Union (IoU) für die Segmentierungsgenauigkeit

Definition und Formel

Intersection Over Union (IoU), auch bekannt als Jaccard-Index oder Jaccard-Ähnlichkeitskoeffizient, ist ein statistisches Maß, das die Überlappung zwischen zwei Datensätzen quantifiziert. Im Computersehen und in der Bildsegmentierung misst IoU die Genauigkeit einer vorhergesagten Segmentierungsmaske relativ zur Ground-Truth-Maske. Es ist die am weitesten verbreitete Bewertungsmetrik für semantische Segmentierung, Instanzsegmentierung und Objekterkennung sowohl in akademischen Benchmarks als auch in industriellen Anwendungen.

Die Formel für IoU ist mathematisch unkompliziert:

IoU = |A ∩ B| / |A ∪ B|

Dabei steht A für die vorhergesagte Segmentierungsmaske (die Menge der Pixel, die das Modell als zur Objektklasse gehörend klassifiziert) und B für die Ground-Truth-Maske (die Menge der Pixel, die menschliche Annotatoren als zur Objektklasse gehörend identifiziert haben). Der Zähler, |A ∩ B|, ist die Schnittmenge — die Fläche (oder Pixelanzahl), in der Vorhersage und Ground Truth übereinstimmen. Der Nenner, |A ∪ B|, ist die Vereinigungsmenge — die Gesamtfläche, die entweder von der Vorhersage oder der Ground Truth oder beiden abgedeckt wird.

{

Technisches Diagramm, das das Konzept von Intersection Over Union (IoU) mit zwei überlappenden Formen zeigt, Schnittmenge lila hervorgehoben, Vereinigungsmenge weiß umrandet

Die Erweiterung der Formel in Bezug auf die Elemente der Konfusionsmatrix — True Positives (TP), False Positives (FP) und False Negatives (FN) — ergibt eine praktischere Formulierung für die Berechnung:

IoU = TP / (TP + FP + FN)

Hierbei sind TP (True Positives) die Pixel, die korrekt als zur Objektklasse gehörend klassifiziert wurden (die Schnittfläche). FP (False Positives) sind die Pixel, die fälschlicherweise als Objekt vorhergesagt wurden, obwohl sie eigentlich Hintergrund sind (die Vorhersagefläche außerhalb der Ground Truth). FN (False Negatives) sind die Pixel, die fälschlicherweise als Hintergrund vorhergesagt wurden, obwohl sie eigentlich Objekt sind (die Ground-Truth-Fläche außerhalb der Vorhersage). Diese Formulierung macht deutlich, dass IoU sowohl Übervorhersage als auch Untervorhersage gleichermaßen bestraft — jeder False Positive und jeder False Negative reduziert die Metrik um denselben Betrag, normalisiert durch die gesamte relevante Fläche.

Der IoU-Wert liegt immer im abgeschlossenen Intervall [0, 1]. Ein IoU von 0 bedeutet, dass die vorhergesagte und die Ground-Truth-Maske keine Überlappung haben — sie sind vollständig disjunkt. Ein IoU von 1 bedeutet perfekte Überlappung — die vorhergesagte Maske stimmt pixelgenau mit der Ground-Truth-Maske überein. Zwischenwerte repräsentieren die Qualität der teilweisen Überlappung. Ein IoU von 0,5 bedeutet beispielsweise, dass die Schnittfläche halb so groß ist wie die Vereinigungsfläche, was der standardmäßigen Mindestschwelle für die Bewertung einer Erkennung oder Segmentierung als korrekt im Pascal-VOC-Benchmark entspricht.

IoU ist skaleninvariant in dem Sinne, dass es die relative Überlappung und nicht die absolute Pixelanzahl misst. Ein 100-Pixel-Objekt und ein 10.000-Pixel-Objekt ergeben beide einen IoU von 1,0, wenn sie perfekt segmentiert werden. Diese Skaleninvarianz hat jedoch einen praktischen Vorbehalt: Bei gleichem absolutem Pixelfehler (z. B. 5 falsch klassifizierte Grenzpixel) erfährt ein kleines Objekt einen viel größeren relativen Abfall des IoU als ein großes Objekt, was IoU implizit strenger für feine Details und kleine Strukturen macht.

Die Metrik stammt vom Jaccard-Index (auch Intersection over Union genannt) ab, der von Paul Jaccard im Jahr 1901 als Gemeinschaftskoeffizient zum Vergleich von Artenverteilungen in alpiner Flora eingeführt wurde. Seine Anwendung im Computersehen wurde in der Pascal Visual Object Classes (VOC) Challenge (2007-2012) formalisiert, die IoU als Standard-Bewertungsmetrik für die Objekterkennung und Segmentierung etablierte. Der Common Objects in Context (COCO)-Datensatz und -Benchmark, der 2014 von Microsoft veröffentlicht wurde, festigte IoU weiter als De-facto-Standard durch die Einführung von mAP@[0,5:0,95], dem Mittelwert der mittleren durchschnittlichen Präzision, berechnet über zehn diskrete IoU-Schwellenwerte von 0,5 bis 0,95.

Visuelle Interpretation von IoU

Die visuelle Interpretation von IoU ist essenziell für ein intuitives Verständnis dessen, was verschiedene IoU-Werte tatsächlich in Bezug auf die Segmentierungsqualität bedeuten. Die Metrik bildet eine komplexe räumliche Beziehung zwischen zwei Masken auf einen einzelnen Skalarwert ab, und die Verinnerlichung, wie verschiedene räumliche Fehlermuster diesen Wert beeinflussen, ist sowohl für die Modellentwicklung als auch für die Kommunikation von Ergebnissen entscheidend.

Ein IoU von 1,0 repräsentiert eine perfekte pixelgenaue Übereinstimmung. Im Kontext der Risssegmentierung auf Flughafenbelägen bedeutet ein perfekter IoU, dass jedes Pixel, das das Modell als „Riss" klassifiziert hat, exakt mit jedem Pixel übereinstimmt, das ein geschulter Prüfer als „Riss" markiert hat, und dass keine Pixel übersehen oder übervorhergesagt wurden. In der Praxis ist ein perfekter IoU für reale Infrastrukturinspektionen aufgrund von Annotationsmehrdeutigkeiten grundsätzlich unerreichbar — verschiedene menschliche Annotatoren, die denselben Riss auf demselben Bild markieren, erreichen typischerweise nur einen Inter-Annotator-IoU von 0,65-0,85, abhängig von Rissbreite und Kontrast. Diese Annotationsrausch-Obergrenze stellt den maximal erreichbaren IoU für jedes Modell auf diesem Datensatz dar.

Ein IoU von 0,75-0,90 zeigt eine ausgezeichnete Segmentierungsqualität an. Auf dieser Ebene folgt die vorhergesagte Maske der Ground-Truth-Grenze mit nur geringfügigen Abweichungen von 1-3 Pixeln an den Rändern. Für die Risssegmentierung entspricht dies der korrekten Erkennung des vollständigen Rissverlaufs mit geringfügigen Unterschieden in der vorhergesagten Rissdicke im Vergleich zur Ground-Truth-Annotation. Im COCO-Benchmark gilt ein AP75 (durchschnittliche Präzision bei IoU-Schwellenwert 0,75) als starker Indikator für präzise Lokalisierungsfähigkeit.

Ein IoU von 0,50-0,75 zeigt eine gute Segmentierungsqualität an. Das Modell identifiziert korrekt die Position und die allgemeine Form des Objekts, aber die Grenzgenauigkeit ist mäßig. Bei der Risserkennung auf Belägen bedeutet ein IoU in diesem Bereich, dass das Modell den Riss zuverlässig findet (hohe True-Positive-Rate), den Riss jedoch etwas dicker oder dünner als die Ground Truth vorhersagen kann oder eine geringfügige Fragmentierung aufweist, bei der ein durchgehender Riss als kurze, nicht zusammenhängende Segmente vorhergesagt wird. Dies ist der typische Betriebsbereich für produktive Risssegmentierungssysteme, die auf realen Flughafenbelagsbildern arbeiten, wo das DINOv3-basierte Modell von TarmacView einen Test-IoU von 0,519 erreicht.

{

Technischer Vergleich von drei IoU-Werten 0,3, 0,5 und 0,75 für die Risserkennung auf Belag mit Ground Truth in Grün und Vorhersage in Rot

Ein IoU von 0,30-0,50 zeigt eine grenzwertige Segmentierungsqualität an. Das Modell erkennt das Vorhandensein des Objekts, jedoch mit erheblichen Lokalisierungsfehlern. Die vorhergesagte Maske kann verschoben, falsch geformt oder in der Größe wesentlich von der Ground Truth abweichen. Bei der Risserkennung auf Belägen könnte dies bedeuten, dass das Modell allgemeine rissbetroffene Regionen identifiziert, aber der Rissgeometrie nicht präzise folgt und eher Flecken als linienförmige Merkmale vorhersagt. Ein IoU unter 0,5 gilt nach dem Pascal-VOC-Standard allgemein nicht als erfolgreiche Erkennung oder Segmentierung.

Ein IoU von 0-0,30 zeigt eine schlechte Segmentierung an. Das Modell erkennt das Objekt entweder gar nicht (vorhergesagte Maske ist leer, ergibt IoU=0) oder erzeugt eine Maske, die die Ground Truth nur zufällig an den Rändern einer viel größeren, falsch vorhergesagten Region überlappt. Im Kontext der Infrastrukturinspektion würden Modelle, die auf diesem IoU-Niveau arbeiten, kritische Defekte übersehen oder so viele False Positives erzeugen, dass die Ausgabe betrieblich nicht brauchbar ist.

Eine entscheidende Erkenntnis für die visuelle Interpretation ist, dass IoU nicht linear in der wahrgenommenen Qualität ist. Der Unterschied zwischen IoU=0,90 und IoU=0,95 stellt eine viel geringere tatsächliche Verbesserung der Pixelgenauigkeit dar als der Unterschied zwischen IoU=0,50 und IoU=0,55. Dies liegt daran, dass bei hohen IoU-Werten die Vereinigungsmenge der Schnittmenge bereits sehr nahe kommt, sodass weitere Verbesserungen eine zunehmend präzise Grenzausrichtung erfordern. Umgekehrt sind bei niedrigen bis mäßigen IoU-Werten relativ große Verbesserungen der Segmentierungsqualität erforderlich, um die Metrik um einige Prozentpunkte zu verschieben.

IoU-Berechnung

Die Berechnung von IoU für Segmentierungsmasken erfordert einen systematischen Ansatz, der die Besonderheiten der Maskendarstellung, Koordinatensysteme und Randfälle berücksichtigt.

Bounding-Box-IoU-Berechnung

Für Bounding-Box-basierte Vorhersagen (verwendet in der Objekterkennung oder als Regionsvorschläge) wird IoU mithilfe der achsenausgerichteten Rechteckkoordinaten berechnet. Jede Box wird durch ihre obere linke Ecke (x₁, y₁) und untere rechte Ecke (x₂, y₂) definiert. Das Schnittrechteck wird wie folgt berechnet:

x_links   = max(pred_x₁, gt_x₁)
y_oben    = max(pred_y₁, gt_y₁)
x_rechts  = min(pred_x₂, gt_x₂)
y_unten   = min(pred_y₂, gt_y₂)

Die Schnittfläche ist:

schnitt = max(0, x_rechts - x_links) × max(0, y_unten - y_oben)

Die max(0, …)-Operation ist entscheidend — wenn sich die Boxen in einer Dimension nicht überlappen, wird der negative Wert auf Null gesetzt, was korrekt eine Schnittfläche von Null ergibt. Die Fläche jeder Bounding Box ist:

fläche_pred = (pred_x₂ - pred_x₁) × (pred_y₂ - pred_y₁)
fläche_gt   = (gt_x₂ - gt_x₁) × (gt_y₂ - gt_y₁)

Die Vereinigungsmenge ist dann:

vereinigung = fläche_pred + fläche_gt - schnitt

Und schließlich:

IoU = schnitt / vereinigung

Segmentierungsmasken-IoU-Berechnung

Für Pixel-Level-Segmentierungsmasken wird IoU berechnet, indem jede Maske als Binärbild behandelt wird, bei dem der Pixelwert 1 die Objektklasse und der Pixelwert 0 den Hintergrund angibt. Die Berechnung erfolgt über elementweise logische Operationen:

schnitt = summe(pred_mask UND gt_mask)   // pixelweise logisches UND
vereinigung = summe(pred_mask ODER gt_mask)  // pixelweise logisches ODER
IoU = schnitt / vereinigung

In der Praxis wird dies mit NumPy oder PyTorch wie folgt vektorisiert:

import torch

def compute_iou(pred_mask: torch.Tensor, gt_mask: torch.Tensor) -> float:
    """
    pred_mask und gt_mask sind binäre Tensoren der Form (H, W)
    mit Werten 0 (Hintergrund) oder 1 (Objekt)
    """
    intersection = (pred_mask & gt_mask).sum().item()
    union = (pred_mask | gt_mask).sum().item()
    if union == 0:
        return float('nan')  # beide Masken leer
    return intersection / union

Der Randfall union == 0 tritt auf, wenn sowohl die Vorhersage als auch die Ground Truth leer sind — keine der Masken enthält Objektpixel. In diesem degenerierten Fall gibt die Metrik NaN zurück, und verschiedene Benchmarks behandeln dies unterschiedlich. Das COCO-Bewertungsprotokoll schließt solche Fälle aus dem Mittelwert aus. Die PyTorch Lightning MeanIoU-Implementierung gibt -1,0 für Klassen zurück, die sowohl in der Vorhersage als auch in der Ground Truth vollständig fehlen.

Umgang mit Mehrklassen-Segmentierung

Bei der Mehrklassen-Segmentierung (z. B. ein Modell, das gleichzeitig Risse, Dichtmittel, Belag und Fugenklassen vorhersagt) wird IoU pro Klasse berechnet und dann gemittelt. Für jede Klasse c wird eine Binärmaske erstellt, bei der das Pixel (i,j) 1 ist, wenn die vorhergesagte oder die Ground-Truth-Klasse gleich c ist, andernfalls 0. Der klassenweise IoU ist:

IoU_c = TP_c / (TP_c + FP_c + FN_c)

Für ein Segmentierungsproblem mit C Klassen ist der mittlere IoU (mIoU):

mIoU = (1/C) × Σℂ=1…C IoU_c

Eine wichtige Überlegung ist, ob die Hintergrundklasse (Pixel, die zu keinem Objekt gehören) in die mIoU-Berechnung einbezogen werden soll. Die Einbeziehung des Hintergrunds erhöht den mIoU typischerweise, da der Hintergrund die Pixelanzahl dominiert und Segmentierungsmodelle bei ihm normalerweise gut abschneiden. Der Ausschluss des Hintergrunds ergibt eine ehrlichere Bewertung der Objektsegmentierungsqualität. Der Parameter include_background in der MeanIoU-Implementierung von TorchMetrics steuert dieses Verhalten.

Eine Alternative zu mIoU ist der häufigkeitsgewichtete IoU (FWIoU), der den IoU jeder Klasse mit ihrer Häufigkeit in der Ground Truth gewichtet:

FWIoU = (1/Σℂ n_c) × Σℂ n_c × IoU_c

wobei n_c die Anzahl der Ground-Truth-Pixel ist, die zu Klasse c gehören. FWIoU gibt größeren Klassen mehr Gewicht und seltenen Klassen weniger. Für die Risssegmentierung auf Belägen, bei der Risspixel weniger als 1 Prozent der Gesamtfläche ausmachen, würde FWIoU die Rissleistung hinter der Belagsleistung verbergen. mIoU (ungewichteter Mittelwert) wird für die Infrastrukturinspektion stark bevorzugt, da er die seltenen, aber kritischen Defektklassen gleichbehandelt wie die Mehrheitsklassen.

Überlegungen zur numerischen Präzision

Wenn IoU als Trainingsverlustfunktion verwendet wird (differenzierbare IoU-Varianten), wird die numerische Präzision wichtig. Standard-IoU ist nicht differenzierbar, da die binären logischen Operationen (UND, ODER, SUMME) überall außer am Schwellenwert, wo der Gradient nicht definiert ist, Nullgradienten aufweisen. Differenzierbare Surrogate — Soft-IoU oder IoU-Verlust — verwenden kontinuierliche Approximationen:

soft_IoU = Σ(p_i × g_i) / Σ(p_i + g_i - p_i × g_i)

wobei p_i ∈ [0,1] die Softmax-Wahrscheinlichkeit für Pixel i und g_i ∈ {0,1} das Ground-Truth-Label ist. Das Produkt p_i × g_i ist eine kontinuierliche Relaxation des logischen UND, und die Summe p_i + g_i - p_i × g_i ist eine kontinuierliche Relaxation des logischen ODER.

Für die Bewertung (nicht differenzierbar) werden die binarisierten Masken mit einem Schwellenwert (typischerweise 0,5 auf der Softmax-Wahrscheinlichkeit) verwendet. Der binäre Kreuzentropieverlust bleibt das Standard-Trainingsziel für die meisten Risssegmentierungsmodelle, wobei IoU als nachträglich berechnete Bewertungsmetrik dient.

IoU vs. Dice-Koeffizient (F1 für Segmentierung)

Der Dice-Ähnlichkeitskoeffizient (DSC), auch Sørensen-Dice-Index genannt und äquivalent zum F1-Score für binäre Segmentierung, ist die gebräuchlichste Alternative zu IoU für die Segmentierungsbewertung. Das Verständnis der Beziehung zwischen diesen beiden Metriken ist für die korrekte Interpretation der Segmentierungsgenauigkeit unerlässlich.

Mathematische Beziehung

Der Dice-Koeffizient ist definiert als:

DSC = 2|A ∩ B| / (|A| + |B|)

In Bezug auf die Elemente der Konfusionsmatrix:

DSC = 2TP / (2TP + FP + FN)

Die mathematische Beziehung zwischen DSC und IoU ist bijektiv und monoton:

DSC = 2 × IoU / (1 + IoU)

IoU = DSC / (2 - DSC)

Dies bedeutet, dass für jede gegebene Segmentierung DSC direkt aus IoU berechnet werden kann und umgekehrt. Die Umrechnung ist exakt und deterministisch — es gibt keinen Informationsverlust bei der Umrechnung zwischen den beiden Metriken.

Wesentliche Unterschiede in der Praxis

Trotz der exakten mathematischen Beziehung unterscheiden sich DSC und IoU systematisch in ihren numerischen Werten und ihrer Interpretation. Die wichtigsten Eigenschaften sind:

DSC ≥ IoU für alle unvollkommenen Segmentierungen. Die Ungleichung ist streng, außer bei DSC = IoU = 1 (perfekt) und DSC = IoU = 0 (keine Überlappung). Dies liegt daran, dass der Nenner bei DSC TP doppelt zählt (2TP + FP + FN), während IoU TP nur einmal zählt (TP + FP + FN), wodurch der Nenner von DSC im Verhältnis zu seinem Zähler kleiner ist. Zum Beispiel ergibt eine Segmentierung mit TP=80, FP=20, FN=20:

  • IoU = 80 / (80 + 20 + 20) = 80/120 = 0,667
  • DSC = (2×80) / (2×80 + 20 + 20) = 160/200 = 0,800

DSC ist „optimistischer". Für dieselbe Segmentierungsqualität meldet DSC einen höheren numerischen Wert als IoU. Die relative Lücke ist bei moderaten Überlappungsgraden am größten und konvergiert an beiden Extremen. Eine Segmentierung mit IoU=0,5 entspricht DSC=0,667. Eine Segmentierung mit IoU=0,75 entspricht DSC=0,857.

IoU ist strenger bei False Positives und False Negatives. Da der Nenner von IoU TP nur einmal zählt, während DSC TP doppelt zählt, bestraft IoU jeden FP und FN stärker im Verhältnis zur korrekten Überlappung. Dies macht IoU empfindlicher für Über- und Untersegmentierungsfehler.

DSC betont die Maximierung der Überlappung. Die zusätzliche Gewichtung von TP bedeutet, dass DSC die Maximierung der Schnittfläche belohnt, selbst auf Kosten einer leichten Vergrößerung der Vereinigungsmenge. Dies macht DSC vorzuziehen, wenn das primäre Ziel darin besteht, sicherzustellen, dass die vorhergesagte Region so viel wie möglich von der Ground Truth abdeckt, selbst auf Kosten einer gewissen Übervorhersage.

Praktische Entscheidungshilfe

Die Wahl zwischen IoU und DSC hängt von den Anforderungen der Anwendung ab:

KriteriumIoU bevorzugenDSC bevorzugen
Bestrafung von Über-/Untersegmentierung✓ Strenger— Nachsichtiger
Segmentierung kleiner Objekte— Empfindlicher gegenüber Fehlern✓ Weniger harte Bestrafung
Bewertung der Grenzgenauigkeit✓ Reflektiert Fehler besser— Verschleiert Grenzprobleme
Standard-Benchmark-Vergleich✓ Pascal-VOC-, COCO-Standard— Medizinischer Bildgebungsstandard
Trainingsverlustfunktion— Nicht differenzierbar✓ Differenzierbares Surrogat
Kommunikation an nicht-technische Stakeholder— Kann hart erscheinen✓ Intuitivere Werte

Für die Infrastrukturinspektion und Risssegmentierung ist IoU die bevorzugte primäre Metrik, da es eine strengere, ehrlichere Bewertung der Segmentierungsqualität liefert. Ein Modell, das die Rissbreite übervorhersagt (FP-Risspixel an den Rändern erzeugt), wird in seinem IoU stärker bestraft als in seinem DSC, und diese strengere Bestrafung spiegelt korrekt die betriebliche Anforderung wider, dass die Risserkennung räumlich präzise sein muss — eine Übervorhersage der Rissfläche führt zu unnötigen Wartungskosten, während eine Untervorhersage zu übersehenen Defekten führt.

TarmacView berichtet IoU als primäre Genauigkeitsmetrik für die Risssegmentierung, wobei das DINOv3-basierte Modell einen Test-IoU von 0,519 auf zurückgehaltenen Flugplatzbelagsbildern erreicht. Ergänzt wird dies durch die Angabe von Präzision, Recall und Dice-Koeffizient für ein umfassendes Bewertungsbild.

IoU-Schwellenwerte (0,3, 0,5, 0,75)

IoU-Schwellenwerte definieren die minimale Überlappung, die erforderlich ist, damit eine Vorhersage als True Positive (korrekte Erkennung) gilt. Die Wahl des Schwellenwerts hat tiefgreifende Auswirkungen auf die berichtete Modellleistung und bestimmt, ob ein Segmentierungssystem als nachsichtig oder streng bewertet wird.

Der Pascal-VOC-Standard: IoU ≥ 0,5

Die Pascal-VOC-Challenge etablierte IoU ≥ 0,5 als Schwellenwert für die Bewertung einer Erkennung oder Segmentierung als korrekt. Dieser Schwellenwert, bezeichnet als AP50 (durchschnittliche Präzision bei IoU=0,5), wurde über ein Jahrzehnt zum Standard im Computersehen. Die Begründung war pragmatisch: Eine vorhergesagte Region, die mehr als die Hälfte der Ground Truth überlappt, erkennt eindeutig das korrekte Objekt, selbst wenn ihre Grenzen nicht perfekt sind.

Für die Risssegmentierung auf Belägen bedeutet ein IoU-Schwellenwert von 0,5, dass eine vorhergesagte Rissmaske mindestens 50 Prozent der Ground-Truth-Rissfläche überlappen muss, um als korrekte Erkennung zu gelten. Da Risse dünne, langgestreckte Strukturen sind, erfordert dieser Schwellenwert, dass das Modell den vollständigen Rissverlauf mit angemessener Dicken genauigkeit erfasst. Es ist der Standardschwellenwert, der in akademischen Veröffentlichungen zur Risserkennung auf Belägen und in der internen Bewertungspipeline von TarmacView verwendet wird.

Der strenge COCO-Standard: IoU ∈ [0,5; 0,95]

Der COCO-Benchmark führte ein strengeres Bewertungsprotokoll ein, das die durchschnittliche Präzision über zehn IoU-Schwellenwerte von 0,5 bis 0,95 in Schritten von 0,05 mittelt, bezeichnet als AP@[0,5:0,95] oder einfach mAP. Dieser Multi-Schwellenwert-Ansatz bietet eine umfassendere Bewertung der Lokalisierungsqualität als jeder einzelne Schwellenwert.

Für die Infrastrukturinspektion ist die COCO-ähnliche Bewertung besonders informativ, da sie zeigt, wie ein Modell über verschiedene Genauigkeitsanforderungen hinweg abschneidet. Ein Modell mit hohem AP50, aber niedrigem AP75 kann Risse zuverlässig erkennen, sie jedoch mit schlechter Grenzgenauigkeit vorhersagen — die Rissbreite systematisch über- oder unterschätzen. Ein Modell mit starkem AP75 zeigt eine präzise Grenzausrichtung, was für Anwendungen, die eine genaue Rissbreitenmessung erfordern, entscheidend ist (eine Schlüsseleingabe für Pavement Condition Index - PCI-Berechnungen gemäß ASTM D5340 und FAA AC 150/5380-6C).

Hochpräziser Schwellenwert: IoU ≥ 0,75

Die AP75-Metrik (durchschnittliche Präzision bei IoU=0,75) bewertet die Fähigkeit eines Modells, Vorhersagen mit enger Grenzausrichtung zu erzeugen. Für die Risssegmentierung erfordert AP75, dass die vorhergesagte Rissmaske die Ground Truth zu mindestens 75 Prozent überlappt — das Modell muss sowohl den Rissverlauf als auch seine Dicke mit hoher Genauigkeit erfassen.

AP75 ist der relevante Schwellenwert für Anwendungen, die eine Rissbreitenquantifizierung und nicht nur eine bloße Risspräsenzerkennung erfordern. Die Bewertung des Startbahnbelagszustands gemäß ICAO-Standards und FAA Advisory Circulars erfordert oft eine Klassifizierung der Rissbreite (Haarrisse < 3 mm, mittel 3-6 mm, schwer > 6 mm), und eine genaue Breitenmessung erfordert eine präzise Grenzsegmentierung. Ein Modell, das bei AP75 schlecht abschneidet, mag Risse korrekt lokalisieren, aber ihren Schweregrad über- oder unterschätzen.

IoU-SchwellenwertStandardInterpretation für die Risssegmentierung
0,30Minimale brauchbare ÜberlappungGrenzwertige Erkennung; Rissposition ungefähr korrekt, aber Form/Dicke ungenau
0,50Pascal VOC (AP50)Standarderkennung; Rissverlauf und ungefähre Dicke korrekt
0,75COCO streng (AP75)Präzise Segmentierung; Rissgrenzen stimmen innerhalb von 1-3 Pixeln mit der Ground Truth überein
0,50:0,95COCO primär (mAP)Umfassende Bewertung über alle Präzisionsstufen

IoU = 0,3 — Die minimale sinnvolle Überlappung

Obwohl kein formaler Benchmark-Standard, wird IoU=0,3 manchmal als nachsichtiger Erkennungsschwellenwert in verrauschten oder mehrdeutigen Annotationskontexten verwendet. Bei Belagsrissen übersteigt die Inter-Annotator-Übereinstimmung für einzelne Risspixel selten IoU=0,65-0,85 für klar definierte Risse und kann für Haarrisse auf strukturierten Asphaltoberflächen auf IoU=0,30-0,50 fallen. In diesen Fällen setzt die inhärente Annotationsunsicherheit eine praktische Untergrenze dafür, welcher IoU-Wert eine sinnvolle Erkennung darstellt.

Ein IoU-Schwellenwert von 0,3 für die Risssegmentierung zeigt an, dass das Modell die ungefähre Position eines Risses korrekt identifiziert hat, jedoch mit erheblichen Form-, Dicken- oder Kontinuitätsfehlern. Dies kann für eine grobe Defektvorsortierung akzeptabel sein (Kennzeichnung als „möglicher Riss — manuell überprüfen"), ist jedoch für eine automatisierte Schweregradbewertung unzureichend.

Mittlerer IoU (mIoU) für Mehrklassen

Der mittlere Intersection over Union (mIoU) erweitert den Einklassen-IoU auf Mehrklassen-Segmentierungsprobleme, indem das arithmetische Mittel der klassenweisen IoU-Werte berechnet wird. Dies ist die Standard-Bewertungsmetrik für semantische Segmentierung in allen großen Benchmarks.

mIoU-Berechnung

Für eine Segmentierungsaufgabe mit C Klassen wird mIoU wie folgt berechnet:

mIoU = (1/C) × Σℂ=1…C IoU_c

wobei IoU_c der Intersection over Union für Klasse c ist, berechnet durch Behandlung von Klasse c als positive Klasse und aller anderen Klassen als negativ (Eins-gegen-Rest).

Die klassenweise IoU-Berechnung für Klasse c verwendet:

  • TP_c — Pixel, die korrekt als Klasse c vorhergesagt wurden
  • FP_c — Pixel, die fälschlicherweise als Klasse c vorhergesagt wurden (sie gehören zu einer anderen Klasse)
  • FN_c — Pixel, die zu Klasse c gehören, aber als eine andere Klasse vorhergesagt wurden

Die Konfusionsmatrix für ein C-Klassen-Segmentierungsproblem ist eine C×C-Matrix, bei der M_ij die Anzahl der Pixel ist, die zur Ground-Truth-Klasse i gehören und als Klasse j vorhergesagt wurden. Der klassenweise IoU ist dann:

IoU_i = M_ii / (Σj M_ij + Σj M_ji - M_ii)

Der Zähler M_ii (Diagonalelement) sind die True Positives für Klasse i. Die Summe über die Zeile Σj M_ij ist die gesamte Ground-Truth-Fläche für Klasse i (TP + FN). Die Summe über die Spalte Σj M_ji ist die gesamte Vorhersagefläche für Klasse i (TP + FP).

mIoU für die Risssegmentierung

Für die Risssegmentierung auf Flughafenbelägen umfasst ein typisches Mehrklassen-Segmentierungsproblem:

  • Klasse 0 — Hintergrund: Intakte Belagsoberfläche, keine Defekte
  • Klasse 1 — Riss: Alle Risstypen (Längs-, Quer-, Netz- und Reflexionsrisse)
  • Klasse 2 — Fuge/Rissdichtmittel: Gefüllte oder teilweise gefüllte Kontrollfugen
  • Klasse 3 — Abplatzung/Verwitterung: Oberflächenverschlechterung, die sich von Rissen unterscheidet

Jede Klasse hat ihren eigenen IoU-Wert. Für die Bewertung von TarmacView auf Flugplatzbelagsdatensätzen zeigen die klassenweisen IoU-Werte die relative Schwierigkeit jedes Defekttyps. Der mIoU gibt ein aggregiertes Maß der Modellqualität über alle Oberflächenzustände hinweg.

mIoU-Empfindlichkeit gegenüber Klassenbalance

Eine kritische Eigenschaft von mIoU ist, dass es jede Klasse unabhängig von der Pixelanzahl gleich behandelt. Eine Klasse, die 60 Prozent der Pixel einnimmt (Hintergrund), und eine Klasse, die 0,5 Prozent der Pixel einnimmt (Riss), tragen gleichermaßen zum endgültigen mIoU-Wert bei. Dies ist sowohl eine Stärke als auch eine Schwäche:

Stärke: mIoU verhindert, dass die Mehrheitsklasse die Metrik dominiert. Ein Modell, das den Belagshintergrund perfekt segmentiert, aber bei Rissen vollständig versagt, würde eine Pixelgenauigkeit von über 99 Prozent, aber einen mIoU von nur etwa 0,5 erreichen (da die Rissklasse einen IoU nahe Null beisteuert). mIoU spiegelt ehrlich die Unfähigkeit des Modells wider, Risse zu erkennen, während die Pixelgenauigkeit irreführend eine nahezu perfekte Leistung suggerieren würde.

Schwäche: Die gleiche Gewichtung bedeutet, dass kleine, verrauschte Klassen (Klassen mit wenigen Pixeln) eine hohe Varianz in ihren IoU-Schätzungen aufweisen können. Eine einzige kleine, falsch segmentierte Region kann den IoU einer seltenen Klasse drastisch reduzieren, was mIoU volatil macht, wenn der Testsatz nur wenige Beispiele seltener Defekte enthält.

Häufigkeitsgewichteter IoU

Als Alternative gewichtet der häufigkeitsgewichtete IoU (FWIoU) den IoU jeder Klasse mit ihrer Häufigkeit in der Ground Truth:

FWIoU = (1/Σc n_c) × Σc n_c × IoU_c

wobei n_c die Anzahl der Ground-Truth-Pixel für Klasse c ist. FWIoU erzeugt höhere Werte, wenn das Modell bei Mehrheitsklassen gut abschneidet, und ist dadurch nachsichtiger gegenüber schlechter Leistung bei Minderheitsklassen. FWIoU wird in akademischen Benchmarks seltener berichtet, kann aber als ergänzende Metrik verwendet werden, wenn das Hauptanliegen die gesamte pixelweise Genauigkeit über das gesamte Bild ist.

Für die Infrastrukturinspektion wird mIoU stark gegenüber FWIoU bevorzugt, weil:

  • Rissdefekte die Klasse von primärem betrieblichem Interesse sind
  • Risspixel einen winzigen Bruchteil (0,5-2 Prozent) der gesamten Bildfläche ausmachen
  • FWIoU würde Risssegmentierungsfehler hinter der Hintergrundleistung verbergen
  • Regulatorische Inspektionsstandards (ICAO Annex 14, FAA ACs) priorisieren speziell die Defekterkennung

IoU in der TarmacView-Risssegmentierung

Das Risssegmentierungssystem von TarmacView verwendet ein DINOv2-basiertes Rückgrat mit einem spezialisierten Segmentierungskopf, der für die Erkennung von Infrastrukturdefekten entwickelt wurde. Das Modell erreicht einen Test-IoU von 0,519 auf zurückgehaltenen Flugplatzbelagsdatensätzen, validiert über verschiedene Aufnahmebedingungen hinweg, einschließlich Lichtvariationen, Belagstexturunterschieden und mehreren Risstypen.

Modellarchitektur und IoU-Leistung

Die Segmentierungsarchitektur besteht aus:

  • Rückgrat: DINOv2 (Vision Transformer, ViT-B oder ViT-L), vortrainiert durch selbstüberwachtes Lernen auf einem kuratierten Datensatz von 142 Millionen Bildern. DINOv2 bietet reichhaltige, generalisierbare Merkmalsrepräsentationen ohne aufgabenspezifisches Vortraining.
  • Segmentierungskopf: Ein leichter Decoder, der DINOv2’s Patch-Level-Merkmale auf Pixel-Level-Segmentierungsmasken abbildet. Der benutzerdefinierte Kopf von TarmacView verwendet ein mehrskaliges Merkmalsaggregationsdesign, das Merkmale aus mehreren Transformer-Blöcken kombiniert, um sowohl feine Rissdetails (aus frühen Schichten) als auch globalen Kontext (aus späteren Schichten) zu erfassen.
  • Ausgabe: Eine pixelweise Wahrscheinlichkeitskarte der Form H×W×2 (Riss vs. Hintergrund), die bei 0,5 binarisiert wird, um die endgültige binäre Rissmaske zu erzeugen, die für die IoU-Berechnung verwendet wird.

Der Test-IoU von 0,519 repräsentiert den klassenweisen Riss-IoU, gemittelt über den zurückgehaltenen Testsatz. Dieser Wert positioniert das Modell von TarmacView im guten bis ausgezeichneten Bereich für die Risssegmentierung auf Belägen, wo IoU-Werte von 0,45-0,60 für moderne Modelle auf anspruchsvollen realen Datensätzen typisch sind.

Vergleich mit veröffentlichten Benchmarks

Der direkte Vergleich von IoU zwischen verschiedenen Risssegmentierungsstudien wird durch Unterschiede in Datensätzen, Annotationsprotokollen und Rissdefinitionen erschwert. Dennoch liefern veröffentlichte Ergebnisse auf ähnlichen Belagsrissdatensätzen einen Kontext:

ModellDatensatzTest-IoU (Rissklasse)
TarmacView DINOv3Flugplatzstartbahn (proprietär)0,519
DeepCrack (2019)CFD (öffentliche Straße)0,420-0,465
U-Net + ResNet-50Crack500 (öffentliche Straße)0,475-0,510
HRNet-FCNUAV-Belag (akademisch)0,498-0,530
SegFormer-B3CrackTree200 (öffentlich)0,485-0,520
U-Net (Drohnenstartbahn)Startbahnbelag (2020)0,415-0,472

Der IoU von 0,519 von TarmacView ist wettbewerbsfähig mit den besten veröffentlichten Ergebnissen, während er auf echten Flughafenstartbahndaten mit höherer Annotationsvariabilität und vielfältigeren Oberflächenbedingungen arbeitet als die kontrollierten Datensätze, die in der akademischen Forschung verwendet werden. Das Modell profitiert von DINOv2’s starkem Repräsentationslernen und einem domänenspezifischen Trainingsregime, das aggressive Datenanreicherung und Strategien zum Klassenausgleich umfasst.

Faktoren, die zum IoU-Wert beitragen

Mehrere Faktoren beeinflussen den Test-IoU von 0,519:

Maskendickentoleranz. Die Ground-Truth-Annotationen für den Flugplatzbelagsdatensatz definieren Risse mit einer konsistenten Dicke von etwa 3-5 Pixeln bei der Annotationsauflösung. Die vorhergesagten Masken des Modells können bei verschiedenen Risssegmenten 2-8 Pixel breit sein. Jeder Pixelunterschied von der Ground-Truth-Dicke erhöht entweder FP oder FN und reduziert damit den IoU.

Randpixel-Empfindlichkeit. Bei einem typischen Riss, der 5.000 Pixel in einem 512×512-Bild einnimmt, machen die Risskanten (Pixel an der Grenze zwischen Riss und Belag) etwa 400-600 Pixel aus. Wenn die Vorhersagekante des Modells auch nur um 1 Pixel von der Ground-Truth-Kante entlang des gesamten Rissverlaufs versetzt ist, kann die resultierende FP+FN-Summe von 400-600 Pixeln den IoU um 0,05-0,10 reduzieren.

Herausforderung Haarrisse. Haarrisse (Breite < 0,3 mm, entsprechend 1-3 Pixeln bei Aufnahmeauflösung) machen etwa 30 Prozent der Defekte im Testsatz aus. Bei diesen Rissen ist die gesamte Ground-Truth-Fläche sehr klein (100-500 Pixel), sodass jede Fehlausrichtung einen überproportional großen Effekt auf den IoU hat. Der Haarrisse-IoU beträgt im Durchschnitt 0,320-0,380, deutlich niedriger als die 0,550-0,650, die bei mittleren und breiten Rissen erreicht werden.

Annotationskonsistenz. Der Inter-Annotator-IoU auf den Trainings- und Testdaten beträgt etwa 0,72 (zwei unabhängige Experten-Annotatoren auf denselben Bildern). Dies setzt die praktische Obergrenze für den erreichbaren Modell-IoU — selbst ein perfektes Modell kann die Konsistenz seiner Ground Truth nicht übertreffen, was eine Rauschobergrenze von etwa 0,72-0,78 etabliert.

Praktischer Nutzen des IoU-Werts

Ein Test-IoU von 0,519 bedeutet, dass im durchschnittlichen Testbild die Schnittmenge zwischen vorhergesagter und Ground-Truth-Rissmaske etwa 51,9 Prozent ihrer Vereinigungsmenge beträgt. Operativ ausgedrückt:

  • Risserfassungsrate: Etwa 75-85 Prozent der Risspixel werden korrekt identifiziert (True-Positive-Rate), mit Variation je nach Risstyp und -breite.
  • False-Positive-Rate: Etwa 0,1-0,5 Prozent der Hintergrundpixel werden fälschlicherweise als Riss klassifiziert, was 250-1.250 falsch-positive Risspixel pro 512×512-Bild entspricht.
  • Risskontinuität: Das Modell identifiziert das Vorhandensein von Rissen in über 90 Prozent der Bildframes mit messbaren Rissen (>1 mm Breite) korrekt, mit einiger Fragmentierung (ein einzelner durchgehender Riss, der als mehrere kurze Segmente vorhergesagt wird).
  • Schweregradklassifizierung: Die Rissbreitenschätzungen des Modells korrelieren mit Ground-Truth-Breitenmessungen bei R²=0,62-0,74, ausreichend für eine grobe Schweregradklassifizierung (Haarriss vs. mittel vs. schwer) gemäß ASTM-D5340-Standards.

Faktoren, die IoU beeinflussen

Mehrere Faktoren beeinflussen die IoU-Werte, die von einem Risssegmentierungsmodell erreichbar sind. Das Verständnis dieser Faktoren ist für die Interpretation berichteter IoU-Werte, die Diagnose von Leistungsproblemen und die Festlegung realistischer Genauigkeitsziele unerlässlich.

Maskendickentoleranz

Risssegmentierungsannotationen werden typischerweise erstellt, indem eine Linie oder ein Polygon entlang des Rissverlaufs gezogen wird, dem dann eine feste Breite zur Darstellung der Rissfläche zugewiesen wird. Die zugewiesene Breite variiert zwischen den Annotationsprotokollen — einige verwenden 3 Pixel breite Linien, andere 5 Pixel oder dynamisch skalierte Breiten basierend auf den tatsächlichen Rissabmessungen.

Die vorhergesagte Maskendicke des Modells stimmt selten genau mit der Ground-Truth-Dicke überein. Wenn das Annotationsprotokoll eine 3-Pixel-Breite zuweist, das Modell aber eine 5-Pixel-Breite vorhersagt, wird jedes Pixel über die 3-Pixel-Annotationsgrenze hinaus zu einem False Positive. Bei einem 1000 Pixel langen Riss erzeugen die zusätzlichen 2 Pixel auf jeder Seite etwa 4.000 falsch-positive Pixel — was den IoU potenziell um 0,10-0,20 reduziert.

Die optimale Strategie zur Maximierung des IoU besteht darin, mit einer dickenbewussten Verlustfunktion zu trainieren, die Dickenabweichungen bestraft, oder Nachbearbeitungs-Morphologieoperationen (Erosion oder Dilatation) anzuwenden, die die vorhergesagte Maskendicke an den Annotationsstandard anpassen. TarmacView wendet einen Nachbearbeitungsschritt mit einem erlernten Dilatationsfaktor an, der am Validierungssatz kalibriert wurde, was den Test-IoU um 0,02-0,04 verbessert.

Randpixel-Empfindlichkeit

Randpixel — die Grenzschicht zwischen Riss und Belag — sind die dominierende Quelle der IoU-Reduktion bei gut funktionierenden Modellen. Für eine Rissmaske der Fläche A mit dem Umfang P beträgt die Anzahl der Randpixel etwa P (die Grenzlänge in Pixeln). Wenn die Randausrichtung des Modells im Durchschnitt um 1 Pixel abweicht, beträgt der resultierende FP+FN etwa 2P Pixel.

Für einen typischen Flughafenbelagsriss mit A=5.000 Pixeln und P=800 Pixeln:

  • Perfekte Randausrichtung (0 Versatz): FP+FN von Rändern = 800 Pixel (die Annotationsdickenunsicherheit)
  • 1-Pixel-Randversatz: FP+FN von Rändern = 1.600 Pixel
  • 2-Pixel-Randversatz: FP+FN von Rändern = 2.400 Pixel

Die IoU-Auswirkung ist:

  • Nullversatz: IoU = 5000/(5000+800) = 0,862 (Annotationsobergrenze)
  • 1-Pixel-Versatz: IoU = 5000/(5000+1600) = 0,758
  • 2-Pixel-Versatz: IoU = 5000/(5000+2400) = 0,676

Diese Analyse zeigt, dass die Randpixelausrichtung der einzelne wichtigste Faktor ist, der einen IoU von 0,50 von einem IoU von 0,75 bei der Risssegmentierung trennt. Modelle, die durch hochauflösende Merkmalskarten und Nachbearbeitungsverfeinerung eine präzise Grenzausrichtung erreichen, übertreffen durchweg solche, die die Rissposition, aber nicht die Rissgrenze erfassen.

Herausforderung kleiner Risse

Kleine Risse — solche mit einer Gesamtpixelanzahl unter etwa 500 Pixeln im Bewertungsbild — stellen eine grundlegende Herausforderung für die IoU-basierte Bewertung dar. Bei einem 200-Pixel-Haarriss fügt eine Fehlausrichtung von nur 5 Pixeln auf jeder Seite 10-20 Pixel FP+FN hinzu (5-10 Prozent der Rissfläche). Die relative Empfindlichkeit von IoU gegenüber absolutem Fehler ist bei kleinen Objekten dramatisch höher als bei großen Objekten.

Bei Anwendung derselben 1-Pixel-Randversatzanalyse auf einen kleinen Riss (A=200, P=80):

  • Nullversatz: IoU = 200/(200+80) = 0,714 (Annotationsobergrenze)
  • 1-Pixel-Versatz: IoU = 200/(200+160) = 0,556
  • 2-Pixel-Versatz: IoU = 200/(200+240) = 0,455

Die IoU-Strafe für denselben 1-Pixel-Randversatz beträgt 0,158 für den kleinen Riss (0,714 auf 0,556) gegenüber 0,104 für den großen Riss (0,862 auf 0,758). Diese Skalenempfindlichkeit bedeutet, dass die Aggregation von IoU über Risse aller Größen ohne größenstratifizierte Berichterstattung Leistungsunterschiede verschleiern kann — ein Modell, das bei großen Rissen gut, bei kleinen Rissen aber schlecht abschneidet, kann einen akzeptablen aggregierten IoU zeigen, während es die kritischsten sicherheitsrelevanten Haarrisse übersieht.

Aus diesem Grund berichtet TarmacView den IoU stratifiziert nach Rissbreitenkategorie:

  • Haarrisse (< 1 mm Breite): IoU = 0,32-0,38
  • Mittelgroße Risse (1-3 mm Breite): IoU = 0,48-0,55
  • Breite Risse (> 3 mm Breite): IoU = 0,55-0,65

Annotationsqualität

Die Qualität und Konsistenz der Ground-Truth-Annotationen setzt eine harte Obergrenze für den erreichbaren IoU. Mehrere Studien haben die Inter-Annotator-Übereinstimmung für die Risssegmentierung auf Belägen dokumentiert:

  • Gleicher Annotator, gleiches Bild, andere Sitzung: IoU = 0,78-0,88
  • Verschiedene Annotatoren, gleiches Bild, gleiches Protokoll: IoU = 0,62-0,78
  • Verschiedene Annotatoren, gleiches Bild, unterschiedliches Protokoll: IoU = 0,45-0,65

Dies bedeutet, dass selbst ein theoretisch perfektes Modell auf typischen Infrastrukturinspektionsdatensätzen nicht etwa 0,78-0,88 IoU überschreiten kann, da die Ground Truth selbst inkonsistent ist. Aktives Lernen und Annotationskonsens-Techniken können die Annotationsqualität verbessern, indem mehrere Annotatoren jedes Bild kennzeichnen und Mehrheitsentscheidungen oder Expertenentscheidungen zur Lösung von Meinungsverschiedenheiten eingesetzt werden.

Bildauflösung und Aufnahmebedingungen

Die Bildauflösung wirkt sich direkt auf den IoU aus, da sie die Anzahl der Pixel bestimmt, die zur Darstellung eines Risses zur Verfügung stehen. Ein Riss, der bei 20 MP Auflösung 10 Pixel breit ist, kann bei 5 MP Auflösung nur 3 Pixel breit sein. Bei niedrigeren Auflösungen schrumpft das absolute Pixelbudget für den Riss, wodurch IoU empfindlicher auf Fehlausrichtungen reagiert.

Das Inspektionsprotokoll für Flugzeugbeläge legt Anforderungen an die Aufnahmeauflösung fest, um eine angemessene Defektauflösung sicherzustellen. Die ICAO-Richtlinien für die Inspektion von Flugplatzbelägen empfehlen minimale Bodenabstandswerte (GSD), die sicherstellen, dass Risse mit einer Breite von nur 0,5 mm aufgelöst werden können. Bei einem GSD von 0,2 mm/Pixel (typisch für UAV-Inspektionen in 10 m Höhe) ist ein 0,5 mm Haarriss nur 2,5 Pixel breit — knapp an der Schwelle zu verlässlicher Annotation und Segmentierung.

Auch die Lichtverhältnisse beeinflussen die IoU-Leistung. Risse auf nassem Belag haben einen höheren Kontrast, erzeugen aber auch spiegelnde Reflexionen, die False Positives verursachen können. Risse im Schatten haben einen geringeren Kontrast und können teilweise unsichtbar sein. Modelle, die mit Schatten- und Nassoberflächen-Datenerweiterung trainiert wurden (wie sie die Pipeline von TarmacView implementiert), zeigen einen um 0,03-0,06 höheren Test-IoU unter anspruchsvollen Lichtverhältnissen im Vergleich zu Modellen, die ohne domänenspezifische Erweiterung trainiert wurden.

IoU-Berichterstattung

Die ordnungsgemäße Berichterstattung von IoU-Metriken ist für die Reproduzierbarkeit, den Vergleich zwischen Studien und die operative Entscheidungsfindung unerlässlich. Die folgenden Richtlinien stellen die bewährte Praxis für die Berichterstattung von IoU in der Infrastrukturinspektionsforschung und -bereitstellung dar.

Wesentliche Berichtsbestandteile

Berichten Sie den klassenweisen IoU, nicht nur mIoU. Für die Risssegmentierung geben Sie den Rissklassen-IoU explizit zusammen mit dem mittleren IoU über alle Klassen an. Ein hoher mIoU kann eine schlechte Rissleistung verbergen, wenn der Hintergrund oder andere Defektklassen dominieren.

Geben Sie den Schwellenwert an. Berichten Sie den Binarisierungsschwellenwert, der zur Umwandlung der Modellwahrscheinlichkeitsausgaben in Binärmasken verwendet wird. Der Standardschwellenwert ist 0,5, aber die Nachbearbeitungsoptimierung kann andere Schwellenwerte verwenden. Ein Schwellenwertdurchlauf (Berichterstattung von IoU bei Schwellenwerten von 0,3 bis 0,7 in 0,1-Schritten) bietet ein vollständigeres Bild des Modellverhaltens.

Berichten Sie Konfidenzintervalle. Aus einem endlichen Testsatz geschätzte IoU-Werte unterliegen einer Stichprobenunsicherheit. Berichten Sie das 95-Prozent-Konfidenzintervall mittels Bootstrapping (erneutes Stichproben von Testbildern mit Zurücklegen 1.000 Mal und Berechnung des IoU für jede Stichprobe). Ein berichteter IoU von 0,519 mit einem 95%-KI von [0,497, 0,541] ist aussagekräftiger als eine Punktschätzung.

Schließen Sie Metriken zur Annotationsqualität ein. Berichten Sie die Inter-Annotator-Übereinstimmung (IoU zwischen unabhängigen Annotatoren auf einer Teilmenge von Bildern), um die Bewertungsrauschobergrenze zu ermitteln. Dies kontextualisiert den Modell-IoU — 0,519 sieht anders aus, wenn die Annotationsobergrenze 0,72 gegenüber 0,92 beträgt.

Geben Sie Bildauflösung und Vorverarbeitung an. Berichten Sie die Eingabeauflösung, ob Bilder vor der Inferenz herunterskaliert werden und welche Normalisierung angewendet wird. IoU-Werte bei 512×512-Eingabeauflösung sind nicht direkt mit IoU bei 1024×1024 vergleichbar.

Berichtsformat

Die empfohlene Berichtstabelle für den Risssegmentierungs-IoU umfasst:

MetrikWert95%-KIAnmerkungen
Riss-IoU (Schwellenwert 0,5)0,519[0,497; 0,541]Primäre Metrik
Hintergrund-IoU0,992[0,990; 0,994]Erwartungsgemäß nahezu perfekt
mIoU (alle Klassen)0,755[0,744; 0,767]Enthält Hintergrundklasse
mIoU (nur Defektklassen)0,519[0,497; 0,541]Ohne Hintergrund
Inter-Annotator-IoU0,723[0,701; 0,745]Bewertungsobergrenze

Ergänzende Metriken

IoU sollte nicht isoliert berichtet werden. Ergänzende Metriken bieten eine vollständigere Genauigkeitsbewertung:

  • Präzision (TP / (TP + FP)): Misst, wie viele der vorhergesagten Risspixel tatsächlich Risse sind. Niedrige Präzision deutet auf Übervorhersage (Fehlalarme) hin.
  • Recall (TP / (TP + FN)): Misst, wie viele Ground-Truth-Risspixel erkannt wurden. Niedriger Recall deutet auf übersehene Risse hin.
  • F1-Score (harmonisches Mittel von Präzision und Recall): Äquivalent zum Dice-Koeffizienten. Bietet ein ausgewogenes Einzelwertmaß.
  • Pixelgenauigkeit: Der Anteil aller korrekt klassifizierten Pixel (TP + TN / Gesamt). Aufgrund der Klassenungleichgewichtsverzerrung nicht als primäre Metrik empfohlen.
  • Boundary F1: Eine Variante, die speziell die Randpixelgenauigkeit bewertet, relevant für Anwendungen zur Rissbreitenmessung.

Checkliste für Reproduzierbarkeit

Um sicherzustellen, dass IoU-Ergebnisse reproduzierbar sind:

  1. Geben Sie die genaue Zusammensetzung des Testsatzes an (Anzahl der Bilder, Risstypenverteilung, Auflösung)
  2. Berichten Sie den Schwellenwert für die Binarisierung der Modellausgaben
  3. Geben Sie an, ob das Modell mit Datenerweiterung (und welchen Erweiterungen) trainiert wurde
  4. Berichten Sie das Annotationsprotokoll (Linienbreite, Rissdefinitionskriterien)
  5. Offenlegen Sie jegliche Nachbearbeitung (morphologische Operationen, Schwellenwertoptimierung am Validierungssatz)
  6. Berichten Sie IoU bei mehreren Schwellenwerten (0,3, 0,5, 0,75) für eine umfassende Bewertung

IoU und praktischer Nutzen

Der ultimative Zweck von IoU in der Infrastrukturinspektion ist nicht der akademische Vergleich, sondern die operative Entscheidungsfindung. Das Verständnis, wie IoU in praktischen Nutzen übersetzt wird — die Fähigkeit, Wartungsentscheidungen auf der Grundlage von Modellausgaben zu treffen — ist entscheidend für den Einsatz von Risssegmentierungssystemen im Feld.

IoU und Qualität von Wartungsentscheidungen

Die Beziehung zwischen IoU und der Qualität von Wartungsentscheidungen ist nicht linear. Ein Modell mit IoU=0,45 kann Risskarten erzeugen, die für bestimmte Anwendungsfälle betrieblich ausreichend sind, während ein Modell mit IoU=0,55 für andere betrieblich unzureichend sein kann, abhängig von der nachgelagerten Anwendung.

Anwendungsfall 1 — Risserkennungs-Screening (Identifizieren, welche Startbahnabschnitte Risse enthalten): Für diesen Anwendungsfall ist der Recall (der Anteil der erkannten Risse) wichtiger als eine präzise Grenzausrichtung. Ein Modell mit IoU=0,40, aber Recall=0,85 kann betrieblich nützlicher sein als ein Modell mit IoU=0,55, aber Recall=0,70. Das Modell mit hohem Recall kennzeichnet mehr potenzielle Defekte für die menschliche Überprüfung, selbst wenn seine Grenzgenauigkeit niedriger ist.

Anwendungsfall 2 — Rissbreitenklassifizierung (Zuordnung von Rissen zu Schweregradkategorien gemäß ASTM D5340): Für diesen Anwendungsfall ist die Grenzgenauigkeit entscheidend. Ein Modell mit IoU=0,50 und systematischer 2-Pixel-Übervorhersage kann Haarrisse als mittelbreite Risse klassifizieren und unnötige Wartungsarbeiten auslösen. Ein Modell mit IoU=0,45, aber unverzerrter Grenzvorhersage kann genauere Breitenschätzungen liefern.

Anwendungsfall 3 — Rissflächenquantifizierung (Messung der gesamten Rissfläche für die PCI-Berechnung): Für diesen Anwendungsfall ist die absolute Verzerrung der vorhergesagten Rissfläche wichtiger als der IoU pro Pixel. Ein Modell, das konsequent 20 Prozent mehr Rissfläche als die Ground Truth vorhersagt (IoU durch FP-Verzerrung beeinträchtigt), wird PCI-Abzüge überschätzen, was zu vorzeitiger Wartungsbudgetierung führt.

Abbildung von IoU auf betriebliche Metriken

Die Beziehung zwischen IoU und praktischer Erkennungsqualität kann quantifiziert werden, indem IoU in die Erkennungsrate umgerechnet wird (der Prozentsatz der Risse, die das Modell erfolgreich identifiziert). Für ein binäres Risssegmentierungssystem, wenn wir einen Riss als „erkannt" definieren, wenn die vorhergesagte Maske den Ground-Truth-Riss zu mindestens 30 Prozent überlappt (der IoU-Schwellenwert für die minimale sinnvolle Erkennung), folgt die Beziehung:

Modell-IoUUngefähre Risserfassungsrate (TPR)False-Positive-Rate (FPR)
0,3060-70%0,3-0,7%
0,4070-80%0,2-0,5%
0,5078-86%0,1-0,3%
0,6085-92%0,05-0,2%
0,7090-96%< 0,1%

Diese Bereiche sind Näherungswerte und hängen von der Rissbreitenverteilung und der Bildauflösung ab. Für den IoU von 0,519 von TarmacView liegt die geschätzte Risserfassungsrate bei etwa 80-85 Prozent, was bedeutet, dass 15-20 Prozent der Risse (hauptsächlich Haarrisse unter 0,5 mm Breite) der automatischen Erkennung entgehen und entweder eine verbesserte Modellempfindlichkeit oder eine manuelle Überprüfung erfordern würden.

Betriebliche Einsatzschwellenwerte

Für die automatisierte Risserkennung auf Flugplatzbelägen werden die folgenden betrieblichen Schwellenwerte empfohlen:

Mindestakzeptabler IoU (Screening): IoU ≥ 0,40. Unterhalb dieses Schwellenwerts erzeugt das Modell zu viele False Negatives (übersehene Risse) und False Positives (Fehlalarme), um betrieblich nützlich zu sein. Ein Screening bei IoU=0,40 kann immer noch 25-35 Prozent der Risse übersehen, was einen erheblichen manuellen Überprüfungsaufwand erfordert.

Standard-Einsatz-IoU: IoU ≥ 0,50. Bei diesem Schwellenwert erkennt das Modell 75-85 Prozent der Risse mit akzeptablen False-Positive-Raten. Dies ist der empfohlene Mindest-IoU für die automatisierte Risserkennung in einem überwachten Inspektionsworkflow, bei dem erkannte Risse von Menschen verifiziert werden.

Hochvertrauens-Einsatz-IoU: IoU ≥ 0,60. Bei diesem Schwellenwert erkennt das Modell 85-92 Prozent der Risse mit sehr niedrigen False-Positive-Raten. Dieses IoU-Niveau unterstützt die halbautomatisierte Schweregradklassifizierung, bei der Rissbreiten- und -ausdehnungsmessungen mit minimaler menschlicher Überprüfung vertraut werden.

Vollautomatisierter Einsatz-IoU: IoU ≥ 0,70. Bei diesem Schwellenwert nähert sich das Modell der menschlichen Annotationskonsistenz (angesichts eines Inter-Annotator-IoU von 0,62-0,78). Dieses IoU-Niveau unterstützt die vollautomatisierte PCI-Berechnung, bei der keine menschliche Überprüfung der Risssegmentierung erforderlich ist.

Der DINOv3-Risssegmentierungskopf von TarmacView arbeitet bei IoU=0,519 im Standard-Einsatzbereich, geeignet für überwachte Risserkennungsworkflows mit menschlicher Verifizierung. Laufende Modellverbesserungen zielen darauf ab, den Hochvertrauens-Einsatzschwellenwert (IoU ≥ 0,60) durch architektonische Verbesserungen, Erweiterung der Trainingsdaten und Optimierung der Nachbearbeitung zu erreichen.

IoU und regulatorische Konformität

Für KI-basierte Risserkennungssysteme, die bei der Inspektion von Flugplatzbelägen eingesetzt werden, muss die Beziehung zwischen IoU und regulatorischer Konformität hergestellt werden. Obwohl derzeit keine Luftfahrtaufsichtsbehörde (ICAO, FAA, EASA) einen IoU-Schwellenwert für KI-Inspektionssysteme vorgibt, folgt der allgemeine Akzeptanzrahmen aus:

ISO/IEC 25010 (System- und Software-Qualitätsanforderungen und -bewertung - SQuaRE): Die Teilcharakteristik funktionale Korrektheit erfordert, dass die Ausgaben des KI-Systems innerhalb definierter Toleranzen mit der Ground Truth übereinstimmen. IoU dient als quantitative Korrektheitsmetrik für Segmentierungsausgaben.

ASTM D5340 (Standardtestmethode für Flughafenbelags-Zustandsindex-Erhebungen): Die PCI-Methodik hängt von genauen Rissausdehnungs- und Schweregradmessungen ab. Der IoU eines Risssegmentierungsmodells wirkt sich direkt auf die Zuverlässigkeit der automatisierten PCI-Berechnung aus.

ICAO Annex 14, Band I — Kapitel 10 (Flugplatzinstandhaltung): Die Anforderung, dass Startbahnoberflächen in einem Zustand gehalten werden müssen, der die Flugsicherheit nicht gefährdet, impliziert, dass jedes Inspektionssystem — einschließlich KI-basierter Systeme — Defekte mit ausreichender Zuverlässigkeit erkennen muss. IoU liefert die quantitative Grundlage für den Nachweis dieser Zuverlässigkeit.

Das Risssegmentierungssystem von TarmacView dokumentiert seine IoU-Leistung unter verschiedenen Licht-, Wetter- und Belagstexturbedingungen als Teil des Validierungsnachweispakets, das den Einsatz auf operativen Flugplätzen unterstützt. Der berichtete IoU von 0,519 mit seinen zugehörigen Konfidenzintervallen und der stratifizierten Berichterstattung über Risstypen hinweg ermöglicht es Flugplatzbetreibern, die Eignung des Systems für ihren spezifischen Wartungsworkflow und ihre Compliance-Anforderungen zu bewerten.

Häufig gestellte Fragen

Präzise Risssegmentierung mit KI

TarmacView verwendet Intersection Over Union als primäre Metrik zur Validierung der Risssegmentierungsgenauigkeit. Unser DINOv3-basierter Segmentierungskopf erreicht branchenführende IoU-Werte bei der Inspektion von Flugplatzbelägen. Kontaktieren Sie uns, um zu erfahren, wie präzise KI-gesteuerte Risserkennung Ihren Inspektionsworkflow für die Infrastruktur transformieren kann.

Mehr erfahren

Rissflächenanteil in der Fahrbahn- und Strukturbewertung

Rissflächenanteil in der Fahrbahn- und Strukturbewertung

Der Rissflächenanteil (crack_area_pct) ist das Verhältnis der Rissmaskenfläche zur gesamten analysierten Bildfläche, ausgedrückt in Prozent. Er ist eine zentral...

25 Min. Lesezeit
measurement pavement +3
Risssegmentierung

Risssegmentierung

Risssegmentierung ist die Computer-Vision-Aufgabe, jedes Pixel eines Bildes entweder als Riss oder als Nicht-Riss zu klassifizieren und eine binäre Maske zu erz...

30 Min. Lesezeit
Computer Vision Deep Learning +2
Konfusionsmatrix

Konfusionsmatrix

Eine Konfusionsmatrix tabelliert Modellvorhersagen gegen Ground Truth: Zeilen sind tatsächliche Klassen, Spalten sind vorhergesagte Klassen. Die Diagonale zeigt...

25 Min. Lesezeit
Technology Machine Learning +3