Fehlerellipse
Eine Fehlerellipse ist ein statistisches und grafisches Hilfsmittel in der Vermessung, Geodäsie und Geowissenschaft, das die Positionsunsicherheit eines gemesse...
Eine Konfusionsmatrix tabelliert Modellvorhersagen gegen Ground Truth: Zeilen sind tatsächliche Klassen, Spalten sind vorhergesagte Klassen. Die Diagonale zeigt korrekte Vorhersagen; außerdiagonale Elemente zeigen Fehlerarten. Für Infrastruktur-Inspektionsmodelle zeigen Konfusionsmatrizen, welche Schadensarten oder Qualitätsstufen verwechselt werden – z. B. Ausblühungen mit Korrosion. Behandelt werden Matrixinterpretation, Mehrklassen-Konfusion sowie die Ableitung von Precision/Recall pro Klasse.

Eine Konfusionsmatrix, auch Fehlermatrix genannt, ist ein spezifisches Tabellenlayout, das eine detaillierte Visualisierung der Leistung eines Klassifikationsalgorithmus ermöglicht. Sie ist eines der grundlegendsten und informativsten Werkzeuge zur Bewertung von Modellen des maschinellen Lernens und bietet ein vollständiges Bild davon, wo ein Modell erfolgreich ist und – noch wichtiger – wo es versagt. Die Matrix kreuztabelliert die tatsächlichen Klassenlabels (Ground Truth) gegen die vorhergesagten Klassenlabels des Modells, wobei jede Zelle die Anzahl der Instanzen für diese Kombination enthält.
Die übliche Konvention ordnet wahre Klassen als Zeilen und vorhergesagte Klassen als Spalten an. Für ein Klassifikationsproblem mit K verschiedenen Klassen hat die Konfusionsmatrix die Dimensionen K×K. Das Element an Position C[i][j] repräsentiert die Anzahl der Instanzen, die zur wahren Klasse i gehören und vom Modell als Klasse j vorhergesagt wurden. Die Diagonalelemente C[i][i] repräsentieren daher korrekte Klassifikationen – Instanzen, bei denen die vorhergesagte Klasse mit der wahren Klasse übereinstimmt. Alle außerdiagonalen Elemente repräsentieren Fehlklassifikationen unterschiedlicher Art und Schwere.
Die Konfusionsmatrix verdankt ihren Namen der Erkenntnis, die sie darüber liefert, welche Klassen das Modell miteinander „verwechselt". Ein Modell, das zuverlässig zwischen Asphalt- und Betonoberflächen unterscheidet, aber Verbundbeläge häufig mit Asphalt verwechselt, zeigt hohe Werte entlang der Asphalt-Asphalt- und Beton-Beton-Diagonalen, aber eine signifikante außerdiagonale Konzentration am Schnittpunkt Verbund-Asphalt. Dieses Muster zeigt dem Modellentwickler genau, wo Verbesserungsbemühungen ansetzen sollten.
Die mathematische Grundlage der Konfusionsmatrix liegt in der Kontingenztafelanalyse, einer statistischen Methode, die auf Karl Pearsons Arbeiten zu Chi-Quadrat-Tests für kategoriale Daten aus dem frühen 20. Jahrhundert zurückgeht. Im Kontext des maschinellen Lernens wurde die Matrix in den 1960er Jahren mit der Entwicklung automatisierter Mustererkennungssysteme als Standardbewertungswerkzeug formalisiert. Heute enthält jedes bedeutende Framework für maschinelles Lernen eine Funktion zur Berechnung von Konfusionsmatrizen – scikit-learn bietet sklearn.metrics.confusion_matrix, TensorFlow stellt tf.math.confusion_matrix zur Verfügung, und PyTorch kann Matrizen über torchmetrics.ConfusionMatrix berechnen. Die scikit-learn-Implementierung ist die am weitesten verbreitete in Python-basierten Infrastruktur-Inspektionspipelines. Sie akzeptiert Arrays von wahren und vorhergesagten Labels und gibt die K×K-Matrix mit konfigurierbaren Normalisierungsoptionen zurück.
Die binäre Konfusionsmatrix ist die einfachste und am weitesten verbreitete Form, anwendbar wenn das Klassifikationsproblem genau zwei Klassen hat – üblicherweise als positiv und negativ bezeichnet. In der Infrastrukturinspektion könnte ein binäres Problem lauten: „Enthält dieses Befestigungsbild einen Riss?" (positiv = Riss vorhanden) oder „Ist dieses Brückenbauteil intakt?" (positiv = Schaden erkannt).
Die 2×2-binäre Konfusionsmatrix enthält genau vier Zellen:
| Positiv vorhergesagt | Negativ vorhergesagt | |
|---|---|---|
| Tatsächlich positiv | Richtig Positiv (TP) | Falsch Negativ (FN) |
| Tatsächlich negativ | Falsch Positiv (FP) | Richtig Negativ (TN) |
Richtig Positive (TP) – Instanzen, die korrekt als zur positiven Klasse zugehörig identifiziert wurden. Bei einem Risserken-nungsmodell ist TP die Anzahl der Bilder mit Rissen, die das Modell korrekt als gerissen gekennzeichnet hat. Jeder richtig positive Fall repräsentiert einen korrekt identifizierten Schaden, der eine zeitnahe Instandhaltungsmaßnahme ermöglicht. Hohe TP-Zahlen weisen auf eine hohe Sensitivität oder Recall hin – das Modell erfasst die Schäden, die es erkennen soll.
Falsch Positive (FP) – Negative Instanzen, die fälschlicherweise als positiv klassifiziert wurden. Diese werden in der statistischen Hypothesentests auch als Fehler 1. Art bezeichnet. Ein falsch positiver Fall bei der Risserkennung bedeutet, dass das Modell intakte Befestigung als gerissen markiert hat. Obwohl falsch Positive keine strukturellen Sicherheitsprobleme verursachen (kein Schaden bleibt unentdeckt), erzeugen sie Fehlalarme, die Inspektionsressourcen verschwenden – eingesetzte Teams zur Untersuchung nicht existenter Schäden, für unnötige Reparaturen eingeplante Instandhaltungsbudgets und eine allgemeine Erosion des Vertrauens in das KI-System. Im Flughafenbetrieb, wo die ICAO-Annex-14-Konformität dokumentierte Inspektionsergebnisse erfordert, belasten übermäßige falsch Positive den Meldeprozess.
Falsch Negative (FN) – Positive Instanzen, die fälschlicherweise als negativ klassifiziert wurden. Dies sind Fehler 2. Art und gelten allgemein als die gefährlichere Fehlerart in der Infrastrukturinspektion. Ein falsch negativer Fall bedeutet, dass ein echter Schaden – ein Riss, eine Abplatzung, ein Korrosionsfleck – unentdeckt bleibt. Bei Flugplatzbefestigungen, die Flugzeuglasten ausgesetzt sind, kann sich ein unentdeckter Riss unter wiederholter Reifenbelastung ausbreiten, was zu beschleunigtem Befestigungsverfall und potenzieller Fremdkörperbildung (FOD) führt. Falsch Negative repräsentieren übersehene sicherheitskritische Schäden und müssen minimiert werden, selbst wenn dies die Akzeptanz von mehr falsch Positiven bedeutet.
Richtig Negative (TN) – Instanzen, die korrekt als nicht zur positiven Klasse zugehörig identifiziert wurden. Sie repräsentieren korrekt identifizierte intakte Befestigungsbereiche. Obwohl richtig Negative nicht direkt zur Schadensentdeckung beitragen, sind sie für die Validierung der Gesamtgenauigkeit des Modells und für die Berechnung von Metriken wie der Spezifität (Richtig-Negativ-Rate) unerlässlich.
Die Beziehung zwischen diesen vier Werten bestimmt alle abgeleiteten Metriken:
Genauigkeit (Accuracy) = (TP + TN) / (TP + TN + FP + FN) – Der Anteil aller korrekten Vorhersagen.
Präzision (Precision, Positiver Vorhersagewert) = TP / (TP + FP) – Welcher Anteil der als positiv vorhergesagten Instanzen ist tatsächlich positiv? Hohe Precision bedeutet wenige Fehlalarme.
Recall (Sensitivität, Richtig-Positiv-Rate) = TP / (TP + FN) – Welchen Anteil der tatsächlichen positiven Instanzen hat das Modell erfasst? Hoher Recall bedeutet wenige übersehene Schäden.
Spezifität (Richtig-Negativ-Rate) = TN / (TN + FP) – Welcher Anteil der tatsächlichen negativen Instanzen wurde korrekt als negativ identifiziert?
F1-Score = 2 × (Precision × Recall) / (Precision + Recall) – Das harmonische Mittel von Precision und Recall, das eine einzige ausgewogene Metrik liefert.
Bei der Infrastrukturinspektion wird der Precision-Recall-Zielkonflikt durch den Entscheidungsschwellenwert des Modells gesteuert. Ein Risserkennungsmodell könnte für jedes Bild einen Wahrscheinlichkeitswert zwischen 0 und 1 ausgeben. Ein Schwellenwert von 0,5 ergibt ein standardmäßiges Precision-Recall-Gleichgewicht. Eine Senkung des Schwellenwerts auf 0,3 erhöht den Recall (weniger übersehene Risse), verringert aber die Precision (mehr Fehlalarme). Eine Erhöhung auf 0,8 verbessert die Precision, birgt jedoch das Risiko, feine Risse zu übersehen. Der optimale Schwellenwert hängt vom operativen Kontext ab: Für kritische Flugplatzbefestigungen, wo ein übersehener Riss zur Fremdkörperbildung führen kann, ist ein niedrigerer Schwellenwert zugunsten des Recalls angemessen. Für routinemäßige Sichtprüfungen, bei denen Fehlalarme knappe Instandhaltungsbudgets belasten, kann ein höherer Schwellenwert zugunsten der Precision vorzuziehen sein.
Wenn die Klassifikationsaufgabe drei oder mehr Klassen umfasst, erweitert sich die Konfusionsmatrix auf K×K-Dimensionen, wobei K die Anzahl der Klassen ist. Die Mehrklassen-Klassifikation ist das vorherrschende Paradigma in der KI-gestützten Infrastrukturinspektion, bei der Modelle gleichzeitig zwischen mehreren Oberflächentypen, mehreren Schadenskategorien oder mehreren Qualitätsstufen unterscheiden müssen.
Ein 3-Klassen-Beispiel für die Oberflächentypklassifikation auf Flugplatzbefestigungen könnte die Klassen Asphalt (A), Beton (C) und Verbund (O) umfassen. Eine hypothetische Konfusionsmatrix für 1.000 Validierungsbilder:
| Wahr \ Vorhergesagt | Asphalt | Beton | Verbund | Gesamt |
|---|---|---|---|---|
| Asphalt | 420 | 15 | 15 | 450 |
| Beton | 10 | 280 | 10 | 300 |
| Verbund | 30 | 20 | 200 | 250 |
| Gesamt | 460 | 315 | 225 | 1000 |
Die Diagonale zeigt die korrekten Vorhersagen: 420 Asphalt, 280 Beton, 200 Verbund – insgesamt 900 korrekte von 1.000, was einer Gesamtgenauigkeit von 90 % entspricht. Die außerdiagonalen Zellen offenbaren die Fehlerstruktur: Asphalt wurde etwa gleich häufig mit Beton (15 Instanzen) und Verbund (15 Instanzen) verwechselt. Beton wurde gleich häufig mit Asphalt (10) und Verbund (10) verwechselt. Verbund wurde am häufigsten mit Asphalt verwechselt (30 Instanzen) – fast doppelt so häufig wie mit Beton (20). Dieses Muster zeigt dem Modellentwickler, dass Verbundoberflächen die anspruchsvollste Klasse sind, insbesondere wenn sie optisch reinem Asphalt ähneln.
Bei Mehrklassen-Konfusionsmatrizen wird der One-vs-Rest-Ansatz verwendet, um das K-Klassen-Problem für die Metrikberechnung in K binäre Teilprobleme zu überführen. Für eine gegebene Klasse i:
Für die Verbundklasse im obigen Beispiel:
Die Mehrklassen-Konfusionsmatrix skaliert auf jede beliebige Anzahl von Klassen. Bei Infrastruktur-Inspektionsmodellen mit 10–15 Schadensarten wird die Matrix zu einer reichhaltigen Informationsquelle, die nicht nur zeigt, welche Klassen schlecht abschneiden, sondern genau welche Klassenpaare problematisch sind. Dies ist grundlegend aussagekräftiger als eine einzelne Genauigkeitszahl.
Die Konfusionsmatrix ist die Quelle, aus der alle pro-Klassen-Klassifikationsmetriken abgeleitet werden. Das Verständnis der Ableitung ermöglicht es Praktikern, die Modellleistung korrekt zu interpretieren und zu identifizieren, welche Klassen verbessert werden müssen.
Für jede Klasse i in einem K-Klassen-Klassifikationsproblem:
Precision_i = C[i][i] / sum(C[:][i]) = TP / (TP + FP)
Precision beantwortet die Frage: „Wenn das Modell Klasse i vorhersagt, wie oft ist das korrekt?" Dies wird auch als positiver Vorhersagewert bezeichnet. Bei der Schadensklassifikation bedeutet eine hohe Precision für die Klasse „kritischer Strukturriss", dass Inspektoren diesem Befund vertrauen können, wenn das Modell einen schweren Riss markiert.
Recall_i = C[i][i] / sum(C[i][:]) = TP / (TP + FN)
Recall beantwortet die Frage: „Von allen tatsächlichen Instanzen der Klasse i – wie viele hat das Modell gefunden?" Dies wird auch als Sensitivität oder Richtig-Positiv-Rate bezeichnet. Bei der Schadensklassifikation bedeutet ein hoher Recall für „Abplatzungen", dass die meisten tatsächlichen Abplatzungen erkannt werden, wodurch übersehene Schäden minimiert werden.
F1_i = 2 × (Precision_i × Recall_i) / (Precision_i + Recall_i)
F1 ist das harmonische Mittel und liegt stets zwischen Precision und Recall. F1 wird dem arithmetischen Mittel vorgezogen, da es extreme Ungleichgewichte bestraft – ein Modell mit Precision=1,0 und Recall=0,0 hat F1=0,0, was korrekt anzeigt, dass das Modell trotz des arithmetischen Mittels von 0,5 unbrauchbar ist.
Für den Vergleich von Modellen über alle Klassen hinweg gibt es drei Mittelungsmethoden:
Makro-Mittelung berechnet die Metrik unabhängig für jede Klasse und mittelt sie mit gleicher Gewichtung: Makro-Precision = (1/K) × sum(Precision_i). Dies behandelt alle Klassen unabhängig von ihrer Häufigkeit gleich. Für das 3-Klassen-Oberflächenbeispiel: Makro-Precision = (420/460 + 280/315 + 200/225) / 3 = (0,913 + 0,889 + 0,889) / 3 = 0,897. Die Makro-Mittelung ist geeignet, wenn alle Klassen gleich wichtig sind – zum Beispiel bei der Klassifikation von Befestigungsschäden, bei der auch seltene Schäden für die Sicherheit relevant sind.
Mikro-Mittelung aggregiert die Zählwerte über alle Klassen, bevor die Metrik berechnet wird: Mikro-Precision = sum(TP_i) / sum(TP_i + FP_i). Für das Beispiel: Mikro-Precision = (420+280+200) / (420+280+200+15+15+10+10+30+20) = 900 / 1000 = 0,900. Bemerkenswerterweise entspricht die Mikro-Mittelungs-Precision bei der Einzellabel-Klassifikation der Genauigkeit. Die Mikro-Mittelung wird von den häufigsten Klassen bestimmt und ist geeignet, wenn die Gesamtkorrektheit im Vordergrund steht.
Gewichtete Mittelung berechnet die Metrik pro Klasse und mittelt gewichtet nach der Anzahl der wahren Instanzen pro Klasse: Gewichtete Precision = sum(Precision_i × n_i) / sum(n_i), wobei n_i die wahre Anzahl für Klasse i ist. Für das Beispiel: Gewichtete Precision = (0,913 × 450 + 0,889 × 300 + 0,889 × 250) / 1000 = (410,85 + 266,70 + 222,25) / 1000 = 0,900. Die gewichtete Mittelung ist die empfohlene Standardeinstellung für unausgewogene Datensätze, da sie die Klassenhäufigkeit berücksichtigt, ohne schwache Leistungen bei Minderheitenklassen zu verbergen.
| Mittelungsmethode | Formel | Am besten geeignet für |
|---|---|---|
| Makro | (1/K) × Σ Metric_i | Gleiche Klassenwichtigkeit, seltene Schäden sind relevant |
| Mikro | Σ TP / (Σ TP + Σ FP) | Gesamtkorrektheit des Datensatzes |
| Gewichtet | Σ (Metric_i × n_i) / Σ n_i | Unausgewogene Klassen, praktischer Standard |
Der MCC wird aus der Konfusionsmatrix abgeleitet und liefert eine einzelne Metrik, die die gesamte Matrix auf eine Weise zusammenfasst, die robust gegenüber Klassenungleichgewichten ist. Bei der Mehrklassen-Klassifikation reicht der MCC von -1 bis +1, wobei +1 eine perfekte Vorhersage, 0 eine zufällige Vorhersage und -1 eine völlige Nichtübereinstimmung anzeigt. Der MCC ist definiert als:
MCC = [sum(sum(C[k][l] × C[m][n] - C[k][n] × C[m][l]))] / sqrt( [sum(sum(C[p][q] * C[p][r]))] × [sum(sum(C[s][t] * C[u][t]))] )
wobei die Summen über geeignete Indexbereiche nach der Definition von Gorodkin (2004) gebildet werden. Der MCC gilt weithin als die aussagekräftigste Einzelmetrik für die Klassifikatorbewertung, da er alle vier Quadranten der Konfusionsmatrix (binär) bzw. alle K² Zellen (Mehrklassen) verwendet, im Gegensatz zur Genauigkeit, die nur die Diagonale nutzt.
Die Gesamtgenauigkeit ist die intuitivste aus der Konfusionsmatrix abgeleitete Metrik: die Summe der Diagonale (korrekte Vorhersagen) geteilt durch die Gesamtzahl der Stichproben. Für jede Konfusionsmatrix wird die Gesamtgenauigkeit wie folgt berechnet:
Genauigkeit = Σ C[i][i] / Σ C[i][j] für alle i, j
Die Genauigkeit repräsentiert den Anteil aller Vorhersagen, die das Modell richtig getroffen hat. Obwohl intuitiv, hat die Genauigkeit kritische Einschränkungen, die die Konfusionsmatrix selbst zu diagnostizieren hilft.
Das Genauigkeits-Paradoxon beschreibt Situationen, in denen eine hohe Genauigkeit keine gute Modellleistung anzeigt, bedingt durch Klassenungleichgewicht. Betrachten Sie ein Befestigungsschadensmodell, das auf einem Datensatz bewertet wird, bei dem 95 % der Bilder intakte Befestigung (negativ) und 5 % Risse (positiv) zeigen. Ein triviales Modell, das für jedes Bild „intakt" vorhersagt, erreicht 95 % Genauigkeit – doch es erkennt null Risse. Die Konfusionsmatrix deckt dieses Versagen sofort auf: Das Modell hat TP=0, FP=0, FN=500 (alle Risse übersehen), TN=9.500 (alle intakt korrekt identifiziert). Trotz 95 % Gesamtgenauigkeit beträgt der Recall für die Rissklasse 0 %.
Die Konfusionsmatrix macht das Genauigkeits-Paradoxon sichtbar. Die Genauigkeit allein kann nicht unterscheiden zwischen:
Für die Infrastrukturinspektion ist diese Unterscheidung sicherheitskritisch. ICAO Annex 14 verlangt, dass Startbahn-Oberflächeninspektionen alle Schäden identifizieren, die den Flugzeugbetrieb beeinträchtigen könnten. Ein Modell mit 99 % Genauigkeit, das 100 % einer seltenen, aber gefährlichen Schadensart (wie eines tiefen Strukturrisses in der Startbahn-Aufsetzzone) übersieht, stellt eine Sicherheitsgefahr dar, die die Genauigkeit allein verschleiern würde.
Aus der Konfusionsmatrix können Praktiker die pro-Klassen-Genauigkeit (auch Recall oder Sensitivität für die positive Klasse bei binären Einstellungen genannt) berechnen:
Klasse_i Genauigkeit = C[i][i] / sum(C[i][:])
Dies gibt den Anteil der tatsächlichen Instanzen der Klasse i an, die das Modell korrekt klassifiziert hat. Bei unausgewogenen Datensätzen ist die pro-Klassen-Genauigkeit weitaus aussagekräftiger als die Gesamtgenauigkeit. Ein nützlicher Berichtsansatz besteht darin, die Gesamtgenauigkeit zusammen mit der minimalen pro-Klassen-Genauigkeit darzustellen – die Klasse mit der niedrigsten Einzelgenauigkeit wird zum Schwachpunkt des Modells, der Aufmerksamkeit erfordert.
Die ausgeglichene Genauigkeit (Balanced Accuracy) adressiert das Klassenungleichgewicht, indem sie den Recall über alle Klassen mittelt:
Ausgeglichene Genauigkeit = (1/K) × Σ (C[i][i] / sum(C[i][:]))
Für das Beispiel mit 95 % intakt / 5 % Riss und einem trivialen Immer-intakt-Modell: Ausgeglichene Genauigkeit = (Recall_intakt + Recall_Riss) / 2 = (9500/9500 + 0/500) / 2 = (1,0 + 0,0) / 2 = 0,50. Die ausgeglichene Genauigkeit identifiziert dieses Modell korrekt als nicht besser als der Zufall (0,50), während die Gesamtgenauigkeit (0,95) irreführend hoch ist.
Die leistungsstärkste diagnostische Fähigkeit der Konfusionsmatrix ist ihre Fähigkeit zu zeigen, welche spezifischen Klassen mit welchen verwechselt werden – das Muster der außerdiagonalen Fehler. Diese Information leitet direkt die Modellverbesserungsstrategien.
Häufige Verwechslungsmuster bei Infrastruktur-Inspektionsmodellen umfassen:
Innerkategoriale Verwechslung – Zwei visuell ähnliche Schadensarten werden häufig miteinander verwechselt. Ausblühungen (weiße kristalline Salzablagerungen auf Beton) und beginnende Korrosion (rostfarbene Verfärbungen) werden häufig verwechselt, da beide als Oberflächenverfärbungen auftreten. Bei Asphaltbefestigungen werden Netzrisse (miteinander verbundene Polygone durch Ermüdung) manchmal mit Blockrissen (rechteckige Blöcke durch Schrumpfung) verwechselt, wenn die Rissnetzwerksdichte mäßig ist.
Hierarchische Verwechslung – Das Modell erkennt korrekt die allgemeine Kategorie, verwechselt aber den spezifischen Untertyp. Ein Modell könnte korrekt erkennen, dass eine Oberfläche „gerissen" ist, aber „Querriss" mit „Längsriss" verwechseln – beides lineare Risse, die sich nur in der Ausrichtung zur Befestigungsmitte oder Verkehrsrichtung unterscheiden.
Kreuzkategoriale Verwechslung – Ein Oberflächenzustand wird mit einem grundlegend anderen Zustand verwechselt. Schattenkanten auf Befestigungen könnten aufgrund ähnlicher Kontrastgradienten mit Risskanten verwechselt werden. Fugendichtstoff könnte mit Rissfüllmaterial verwechselt werden. Reifenspuren in Startbahn-Aufsetzzonen könnten mit Oberflächenverschleiß verwechselt werden.
Der Verwechslungsanteil für ein Klassenpaar (i, j) beträgt:
Verwechslung(i → j) = C[i][j] / sum(C[i][:])
Dies gibt an, welcher Anteil der tatsächlichen Instanzen der Klasse i fälschlicherweise als Klasse j klassifiziert wurde. Ein Verwechslungsanteil von 0,15 zwischen Verbund (wahr) und Asphalt (vorhergesagt) bedeutet, dass 15 % der Verbundoberflächen fälschlicherweise als Asphalt eingestuft werden – die primäre Fehlerart für diese Klasse.
In ähnlicher Weise setzt die normalisierte Konfusionsmatrix mit zeilenweiser Normalisierung jede Zeile auf eine Summe von 1,0 und zeigt direkt den Anteil jeder wahren Klasse, der auf die vorhergesagten Klassen verteilt ist. Dies ist das gebräuchlichste Visualisierungsformat für Mehrklassen-Konfusionsmatrizen, da es Verwechslungsmuster unabhängig von den Klassenstichprobengrößen sofort sichtbar macht.
Die normalisierte Konfusionsmatrix wird typischerweise als Heatmap mit einem divergierenden Farbschema dargestellt. Die Diagonale (korrekte Vorhersagen) wird in Grün oder Blau angezeigt und bildet einen sichtbaren „Richtigkeitsgrat", der das dominierende visuelle Merkmal sein sollte. Außerdiagonale Zellen werden in Rot oder warmen Farben dargestellt, mit einer Intensität proportional zum Verwechslungsanteil. Diese visuelle Kodierung ermöglicht die sofortige Identifizierung von:
Sobald verwechselte Klassenpaare identifiziert sind, können die folgenden gezielten Strategien angewendet werden:
Die Oberflächentypklassifikation ist eine grundlegende Aufgabe in der Infrastrukturinspektion. Für Flugplatzbefestigungen verlangen die Internationale Zivilluftfahrtorganisation (ICAO) und die US-Luftfahrtbehörde (FAA) eine genaue Oberflächentypidentifikation für Flugzeugleistungsberechnungen.
Ein typisches Oberflächentypklassifikationsmodell für Flugplatzbefestigungen muss unterscheiden zwischen:
Eine Konfusionsmatrix für ein 4-Klassen-Oberflächentypmodell, getestet auf 2.000 Validierungsbildern, könnte wie folgt aussehen:
| Wahr \ Vorhergesagt | Asphalt | Beton | Verbund | Schotter |
|---|---|---|---|---|
| Asphalt (n=600) | 564 | 6 | 24 | 6 |
| Beton (n=500) | 10 | 465 | 20 | 5 |
| Verbund (n=400) | 48 | 28 | 312 | 12 |
| Schotter (n=500) | 5 | 10 | 5 | 480 |
Diese Matrix zeigt:
Asphalt (94,0 % Recall): 24 von 600 Asphaltbildern wurden fälschlicherweise als Verbund klassifiziert – die signifikanteste Verwechslung für diese Klasse. Dies tritt auf, wenn Asphaltoberflächen spiegelnde Rissmuster aufweisen, die optisch Verbundbefestigung (Asphalt auf Beton mit Rückspiegelung) ähneln. Die 6 Fehlklassifikationen als Beton können bei hell oxidiertem Asphalt auftreten, der gealtertem Beton ähnelt.
Beton (93,0 % Recall): Die primäre Verwechslung sind 20 als Verbund fehlklassifizierte Bilder – typischerweise Betonoberflächen mit dünnen Asphaltflicken oder Deckschichtstreifen, die ein verbundartiges Erscheinungsbild erzeugen.
Verbund (78,0 % Recall): Dies ist die Problemklasse. 48 von 400 Verbundbildern (12 %) wurden als reiner Asphalt klassifiziert. Dies geschieht, wenn die Asphaltdeckschicht dick genug ist, dass die darunter liegende Betontextur und die Fugen im aufgenommenen Bild nicht sichtbar sind. Weitere 28 (7 %) wurden als reiner Beton klassifiziert – typischerweise wenn sich die Asphaltdeckschicht in Verkehrsbereichen abgenutzt hat und der Betonuntergrund freiliegt. Das Modell hat Schwierigkeiten, weil das Erscheinungsbild von Verbundbefestigungen zwischen dem von reinem Asphalt und reinem Beton liegt.
Schotter (96,0 % Recall): Schotter ist die visuell markanteste Klasse und erreicht den höchsten Recall.
Für die ICAO-Konformität ist die Verwechslung zwischen Verbund und reinem Asphalt die betrieblich bedeutendste. Flugzeugleistungsberechnungen – insbesondere Start- und Landestrecken – hängen vom Oberflächentyp ab. Eine Verwechslung von Verbundbefestigung mit reinem Asphalt könnte zu falschen Schätzungen des Bremskoeffizienten führen und die Sicherheitsmargen beeinträchtigen.
Gezielte Verbesserungen für die Verbundklasse umfassen: Erfassen von Trainingsbildern bei verschiedenen Deckschichtaltern (neue dicke Deckschicht vs. abgenutzte dünne Deckschicht), Hinzufügen von Bildern mit spiegelnden Rissmustern, die für Verbundkonstruktionen spezifisch sind, und Training eines dedizierten binären Diskriminators zwischen reinem Asphalt und Verbunddeckschicht.
Die Qualitätsstufenklassifikation weist Infrastrukturoberflächen eine kategoriale Zustandsbewertung zu. Für Flugplatzbefestigungen umfassen gängige Bewertungssysteme den Pavement Condition Index (PCI) gemäß ASTM D5340 und die Airport Pavement Condition Classification, die in ICAO-bezogenen Flugplatzbefestigungsmanagementsystemen verwendet wird.
Qualitätsstufen folgen typischerweise einer 4- oder 5-stufigen Skala:
| Stufe | PCI-Bereich | Beschreibung | Visuelle Indikatoren |
|---|---|---|---|
| Gut | 86–100 | Geringe oder keine Schäden | Wenige Risse, keine Abplatzungen, intakte Fugen |
| Befriedigend | 71–85 | Mäßiger Verschleiß | Einige Risse, geringe Abplatzungen, leichte Verwitterung |
| Schlecht | 56–70 | Erheblicher Verschleiß | Ausgedehnte Risse, mäßige Abplatzungen, sichtbare Ablösung |
| Schwer/Ausgefallen | 0–55 | Schwerer Verschleiß | Ausgedehnte vernetzte Risse, schwere Abplatzungen, strukturelle Schäden |
Eine Konfusionsmatrix für die Qualitätsstufenklassifikation von 1.000 Startbahnabschnitten:
| Wahr \ Vorhergesagt | Gut | Befriedigend | Schlecht | Ausgefallen |
|---|---|---|---|---|
| Gut (n=350) | 315 | 28 | 7 | 0 |
| Befriedigend (n=300) | 36 | 237 | 24 | 3 |
| Schlecht (n=200) | 0 | 30 | 152 | 18 |
| Ausgefallen (n=150) | 0 | 0 | 16 | 134 |
Diese Matrix zeigt das charakteristische Muster der ordinalen Klassifikationsverwechslung: Fehler konzentrieren sich auf benachbarte Stufen. Das Modell verwechselt selten Gut mit Ausgefallen (0 Instanzen) oder Ausgefallen mit Gut (0 Instanzen), da diese Klassen visuell sehr unterschiedlich sind. Verwechslungen zwischen benachbarten Stufen sind jedoch häufig:
Gut ↔ Befriedigend (28 + 36 = 64 Verwechslungen): Diese beiden Stufen sind das am häufigsten verwechselte Paar und repräsentieren Grenzfälle, bei denen geringe Rissbildung vorhanden ist, der Gesamtzustand jedoch nahe der Grenze zwischen Gut und Befriedigend liegt (PCI ≈ 85). Die 28 als Befriedigend klassifizierten Gut-Abschnitte können frühe Haarrisse aufweisen, die das Modell als signifikant interpretiert; die 36 als Gut klassifizierten Befriedigend-Abschnitte können sehr feine Risse unterhalb der Erkennungsschwelle des Modells aufweisen.
Befriedigend ↔ Schlecht (24 + 30 = 54 Verwechslungen): Die Einstufung mäßigen Verschleißes ist selbst unter menschlichen Prüfern subjektiv. Die 24 als Schlecht klassifizierten Befriedigend-Abschnitte weisen wahrscheinlich Rissdichten nahe der Grenze zwischen Befriedigend und Schlecht auf; die 30 als Befriedigend klassifizierten Schlecht-Abschnitte repräsentieren möglicherweise Fälle, in denen die Rissstärke grenzwertig ist.
Schlecht ↔ Ausgefallen (18 + 16 = 34 Verwechslungen): Am schweren Ende ist die Verwechslung zwischen Schlecht (ausgedehnte Risse) und Ausgefallen (struktureller Verschleiß) relativ gering, da ausgefallene Befestigung qualitativ andere Schäden zeigt – Abplatzungen, Versatz und Oberflächenzerfall, die über einfache Rissbildung hinausgehen.
Die Matrix ist asymmetrisch: Die Verwechslung Gut→Befriedigend (28) ist geringer als Befriedigend→Gut (36). Dies bedeutet, dass das Modell bei Befriedigend-Abschnitten konservativer ist (Tendenz, Gut-Abschnitte auf Befriedigend herabzustufen) als bei Gut-Abschnitten (Tendenz, Befriedigend auf Gut heraufzustufen). Diese Asymmetrie ist für die Instandhaltungsplanung relevant – konservative Fehlklassifikationen (bessere Befestigung als schlechter einstufen) sind betrieblich sicherer, da sie zu früheren statt späteren Instandhaltungsmaßnahmen führen.
Cohens gewichtetes Kappa ist besonders geeignet für Konfusionsmatrizen von Qualitätsstufen, da es die Ordnung der Klassen berücksichtigt. Fehler zwischen benachbarten Stufen (Befriedigend als Schlecht klassifiziert) werden weniger stark bestraft als entfernte Fehler (Gut als Ausgefallen klassifiziert). Die lineare Gewichtung bestraft proportional zur Stufentrennung, während die quadratische Gewichtung das Quadrat der Stufentrennung bestraft – geeigneter, wenn Stufenunterschiede nichtlineare Sicherheitsauswirkungen haben.
Für die obige Matrix würde das gewichtete Kappa (linear) etwa 0,78 betragen, was auf eine substanzielle Übereinstimmung jenseits des Zufalls hindeutet, während das ungewichtete Kappa mit etwa 0,72 niedriger wäre, da es alle außerdiagonalen Fehler unabhängig von ihrer Schwere gleich behandelt.
Die Schadensklassifikation ist die komplexeste und sicherheitskritischste Aufgabe für KI-Modelle in der Infrastrukturinspektion. Für Betonbrückenbauteile oder Flugplatzbefestigungen muss ein Modell möglicherweise 10–15 verschiedene Schadensarten gleichzeitig erkennen.
Typische Schadensklassen für die Betoninfrastrukturinspektion umfassen:

Eine partielle Konfusionsmatrix mit Fokus auf die am häufigsten verwechselten Schadenspaare eines Betonbrückendeck-Inspektionsmodells:
| Wahr \ Vorhergesagt | Haarriss | Strukturriss | Abplatzung | Ausblühung | Korrosion | Intakt |
|---|---|---|---|---|---|---|
| Haarriss | 820 | 30 | 5 | 40 | 10 | 95 |
| Strukturriss | 15 | 440 | 20 | 5 | 15 | 5 |
| Abplatzung | 0 | 10 | 285 | 5 | 20 | 0 |
| Ausblühung | 25 | 0 | 5 | 145 | 60 | 15 |
| Korrosion | 5 | 5 | 15 | 35 | 180 | 10 |
| Intakt | 65 | 0 | 0 | 10 | 15 | 1910 |
Ausblühungen ↔ Korrosionsverfärbungen (60 + 35 = 95 Verwechslungen): Das bedeutendste Verwechslungspaar in der Betonschadensklassifikation. Beide treten als Oberflächenverfärbungen auf – Ausblühungen als weiße kristalline Ablagerungen, Korrosionsverfärbungen als rostfarbene Flecken. Wenn Ausblühungen Schmutz einlagern oder Korrosionsverfärbungen im Frühstadium sind (rostfarben, aber noch nicht strukturiert), sind die beiden visuell nicht unterscheidbar. Diese Verwechslung hat materielle Auswirkungen: Ausblühungen deuten auf Wasserwanderung hin (ein Instandhaltungsproblem), während Korrosionsverfärbungen auf aktive Bewehrungskorrosion hinweisen (ein strukturelles Sicherheitsproblem). Eine Verwechslung könnte zu drastisch falschen Instandhaltungsprioritäten führen.
Haarriss ↔ Intakt (95 + 65 = 160 Verwechslungen): Haarrisse nahe der Auflösungsgrenze des Modells (etwa 0,2 mm bei einer Aufnahmeauflösung von 0,5 mm/Pixel) werden häufig übersehen. 95 Haarrisse wurden als intakt klassifiziert (falsch Negative), was übersehene beginnende Schäden darstellt. 65 intakte Oberflächen wurden als Haarriss klassifiziert (falsch Positive), was Fehlalarme darstellt. Dies ist der klassische Erkennungs-Sensitivitäts-Zielkonflikt an der Wahrnehmungsgrenze.
Abplatzungen ↔ Korrosionsverfärbungen (20 + 15 = 35 Verwechslungen): Abgeplatzte Bereiche, die korrodierte Bewehrungsstäbe freilegen, weisen oft rostfarbene Verfärbungen an den Abplatzungskanten auf, was zu Verwechslungen zwischen den beiden Klassen führt. In vielen Fällen koexistieren beide Schäden – eine Abplatzung, die durch darunter liegende Korrosion verursacht wurde – was die Einzellabel-Klassifikationsaufgabe inhärent mehrdeutig macht.
Strukturriss ↔ Haarriss (30 + 15 = 45 Verwechslungen): Risse nahe der Grenze zwischen Haarriss und Strukturriss (etwa 0,3 mm Breite) werden basierend auf der wahrgenommenen Breite verwechselt. Ohne präzise submillimetrische Messfähigkeit in Standard-Inspektionsbildern ist diese Verwechslung zu erwarten und kann akzeptabel sein, wenn beide Risstypen zur Inspektion markiert werden.
Basierend auf den Verwechslungsmustern umfassen spezifische Abhilfestrategien:
Ausblühungen vs. Korrosionsverfärbungen: Fügen Sie Trainingsdaten hinzu, die Ausblühungen mit eingelagertem Schmutz (gelblicher Farbton) und beginnende Korrosion ohne sichtbaren Rost (grünlicher Farbton) zeigen. Wenden Sie Farbaugmentierung an, die diese subtilen spektralen Unterschiede betont. Erwägen Sie die Hinzunahme von Nahinfrarot- oder Multispektralkanälen, die chemische Zusammensetzungsunterschiede erkennen.
Haarriss vs. Intakt: Verbessern Sie die Aufnahmeauflösung oder setzen Sie Super-Resolution-Vorverarbeitung ein. Wenden Sie gezielte Augmentierung an, die Haarrisse auf verschiedenen Oberflächentexturen simuliert. Erwägen Sie die Zurückweisung von Grenzfallvorhersagen und deren Kennzeichnung zur manuellen Überprüfung.
Abplatzung vs. Korrosionsverfärbung: Das Modelltraining sollte Multi-Label-Annotationen verwenden, bei denen Abplatzungen und Korrosion koexistieren können. Alternativ erstellen Sie einen hierarchischen Klassifikator, der zuerst „Schadensbereich" erkennt und dann auf der zweiten Ebene Abplatzungen von Verfärbungen unterscheidet.
Strukturriss vs. Haarriss: Integrieren Sie die Rissbreitenschätzung als Regressionskopf anstelle einer Klassifikation. Verwenden Sie die kontinuierliche Breitenschätzung, um Schweregradschwellen festzulegen, die pro Inspektionsstandard angepasst werden können.
Eine effektive Visualisierung und Berichterstattung von Konfusionsmatrizen ist für die Kommunikation der Modellleistung an Stakeholder – von Datenwissenschaftlern über Flughafen-Instandhaltungsmanager bis hin zu Aufsichtsbehörden – unerlässlich.
Das Standardvisualisierungsformat für eine Konfusionsmatrix ist eine Heatmap mit den folgenden Konventionen:
Für publikationsreife Abbildungen verwendet der Standardansatz matplotlib mit seaborn.heatmap in Python:
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_true, y_pred, labels=class_names)
cm_normalized = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
fig, ax = plt.subplots(figsize=(10, 8))
sns.heatmap(cm_normalized, annot=True, fmt='.2f',
xticklabels=class_names, yticklabels=class_names,
cmap='RdYlGn', vmin=0, vmax=1, ax=ax)
ax.set_xlabel('Vorhergesagte Klasse')
ax.set_ylabel('Wahre Klasse')
ax.set_title(f'Konfusionsmatrix (Gesamtgenauigkeit: {accuracy:.2%})')
plt.tight_layout()
Die Wahl der Normalisierung beeinflusst die Interpretation erheblich:
Zeilenormalisiert (normalize=‘true’): Jede Zeile summiert sich auf 1,0 (100 %). Diagonale Werte zeigen den Recall pro Klasse. Werte innerhalb der Zeile zeigen: „Wenn die wahre Klasse X ist, welcher Anteil wurde als welche Klasse vorhergesagt?" Dies ist die gebräuchlichste Normalisierung für die diagnostische Analyse.
Spaltennormalisiert (normalize=‘pred’): Jede Spalte summiert sich auf 1,0 (100 %). Diagonale Werte zeigen die Precision pro Klasse. Werte innerhalb der Spalte zeigen: „Wenn das Modell X vorhergesagt hat, welcher Anteil gehörte tatsächlich zu jeder wahren Klasse?" Dies ist nützlich, um die Verteilung falsch Positiver zu verstehen.
Keine Normalisierung: Rohe Zählwerte werden angezeigt. Unerlässlich zur Überprüfung der Stichprobengrößen, erschwert jedoch den Vergleich, wenn Klassen unterschiedliche Häufigkeiten haben.
Dreiwertiges Zellenformat: Jede Zelle zeigt drei Werte: rohe Anzahl, Zeilen-%, Spalten-%. Dies liefert vollständige Informationen in einer einzigen Visualisierung, kann aber bei großen Matrizen visuell überladen wirken.
Für die Berichterstattung über Infrastruktur-Inspektionsmodelle umfasst die empfohlene Vorlage:
Für die Verfolgung der Modellentwicklung sollten Konfusionsmatrizen in regelmäßigen Trainingsabständen (alle 10–20 Epochen) erstellt und protokolliert werden. Der Vergleich von Matrizen über Prüfpunkte hinweg zeigt:
Die Arena-Plattform und MLflow bieten Konfusionsmatrix-Tracking als Teil des Experimentenmanagements und generieren und versionieren automatisch Matrizen für jeden Trainingsdurchlauf.
Nicht alle Verwechslungen in der Matrix sind gleich. Fachexperten sollten Verwechslungsmuster überprüfen, um jedes außerdiagonale Paar zu klassifizieren als:
Vermeidbare Verwechslung: Die beiden Klassen sind für einen menschlichen Experten visuell unterscheidbar, und die Verwechslung des Modells weist auf ein Defizit in den Trainingsdaten, der Modellarchitektur oder dem Merkmalslernen hin. Ausblühungen vs. Korrosionsverfärbungen bei Bildern mit klaren Farbunterschieden fallen in diese Kategorie.
Unvermeidbare Verwechslung: Die beiden Klassen sind selbst für menschliche Experten schwer zu unterscheiden, oder die Unterscheidung erfordert Informationen, die im Eingabematerial nicht verfügbar sind (z. B. zeitliche Verlaufsdaten, Untergrunderkundung). Haarrisse vs. Oberflächenkratzer, bei denen beide als feine lineare Merkmale erscheinen, können allein anhand visueller Bilder unvermeidbar verwechselt werden.
Mehrdeutiger Ground Truth: Die wahre Klasse selbst ist aufgrund von Inter-Annotator-Unstimmigkeiten unsicher. Wenn zwei menschliche Prüfer bei 15 % der Fälle uneins darüber sind, ob eine Oberfläche „befriedigend" oder „schlecht" ist, kann von dem Modell nicht erwartet werden, dass es diese Übereinstimmungsgrenze überschreitet. Die Konfusionsmatrix sollte relativ zur menschlichen Übereinstimmungsbasislinie interpretiert werden – ein Modell, das eine 90 %ige Übereinstimmung mit einem Referenzstandard erreicht, kann ausgezeichnet sein, wenn die Inter-Rater-Reliabilität des Menschen nur 85 % beträgt.
Für Infrastruktur-Inspektionsmodelle, die in regulatorischen Compliance-Kontexten eingesetzt werden – wie ICAO Annex 14 Flugplatzzertifizierung oder FAA AC 150/5320-5D Befestigungsmanagement – dient die Konfusionsmatrix als zentrales Validierungsdokument. Die regulatorische Berichterstattung sollte umfassen:
Die Konfusionsmatrix verwandelt bei korrekter Erstellung und Interpretation die Modellbewertung von einer einzelnen Genauigkeitszahl in ein reichhaltiges Diagnosewerkzeug, das die vollständige Fehlerstruktur eines Klassifikationssystems offenlegt. Für Infrastrukturinspektionsanwendungen, bei denen die Kosten verschiedener Fehlerarten drastisch variieren – ein übersehener Strukturschaden wiegt weit schwerer als ein Fehlalarm auf intakter Befestigung – ermöglicht dieses granulare Verständnis den Praktikern, Modelle abzustimmen, zu validieren und einzusetzen, die die spezifischen Zuverlässigkeitsanforderungen der Flugsicherheit erfüllen.
TarmacView nutzt die Konfusionsmatrix-Analyse, um KI-Modelle für die Infrastrukturinspektion bei der Klassifikation von Oberflächentypen, Qualitätsstufen und Schadensarten zu validieren. Stellen Sie sicher, dass Ihre Modelle mit pro-Klassen-Bewertungsmetriken aus umfassenden Konfusionsmatrizen zuverlässig arbeiten.
Eine Fehlerellipse ist ein statistisches und grafisches Hilfsmittel in der Vermessung, Geodäsie und Geowissenschaft, das die Positionsunsicherheit eines gemesse...
Defect Gating ist eine Inferenzstrategie, die vorhergesagte Defektlabel nach Oberflächentyp und Strukturdomäne filtert, um Falschpositive zu unterdrücken – z. B...
+++ title = “Transfer Learning” description = “Transfer Learning wendet Wissen aus vortrainierten Modellen auf großen, allgemeinen Datensätzen...