Was ist eine Konfusionsmatrix und wie ist sie aufgebaut?

Eine Konfusionsmatrix ist eine Kreuztabellierung der tatsächlichen Klassenlabels (Ground Truth) gegen die von einem Klassifikationsmodell zugewiesenen vorhergesagten Klassenlabels. Zeilen repräsentieren typischerweise die wahren Klassen und Spalten die vorhergesagten Klassen. Jede Zelle (i, j) enthält die Anzahl der Instanzen, die zur wahren Klasse i gehören, aber als Klasse j vorhergesagt wurden. Die Diagonalzellen (i, i) repräsentieren korrekte Vorhersagen, und außerdiagonale Zellen repräsentieren Fehler. Bei einem binären Klassifikationsproblem ist die Matrix 2×2 mit Zellen für True Positives, False Positives, False Negatives und True Negatives. Bei Mehrklassenproblemen mit K Klassen ist die Matrix K×K, wobei jede Klasse eine eigene Zeile und Spalte hat.

Wie wird eine Konfusionsmatrix zur Bewertung von Infrastruktur-Inspektionsmodellen verwendet?

Bei der Infrastrukturinspektion führen KI-Modelle drei primäre Klassifikationsaufgaben durch: Oberflächentypklassifikation (Asphalt, Beton, Verbund, Schotter), Qualitätsstufenklassifikation (gut, befriedigend, schlecht, ausgefallen nach ICAO- oder ASTM-Normen) und Schadensklassifikation (Rissarten, Abplatzungen, Verwitterung, Fugenverschleiß). Für jede Aufgabe zeigt die Konfusionsmatrix genau, wo das Modell Fehler macht. Bei der Schadensklassifikation könnte eine Konfusionsmatrix zeigen, dass das Modell häufig Ausblühungen mit beginnender Korrosion an Betonbrückenbauteilen verwechselt oder Netzrisse mit Blockrissen auf Asphaltbefestigungen verwechselt. Durch die Analyse außerdiagonaler Muster können Modellentwickler visuell ähnliche Klassen identifizieren, die zusätzliche Trainingsdaten, spezifische Merkmalsentwicklung oder klassenspezifische Datenerweiterung benötigen, um die Verwechslungen zu reduzieren.

Was ist der Unterschied zwischen einer Konfusionsmatrix für binäre vs. Mehrklassen-Klassifikation?

Bei der binären Klassifikation (zwei Klassen, typischerweise positiv und negativ) hat die 2×2-Konfusionsmatrix vier Zellen: True Positives (korrekte positive Vorhersagen), False Positives (negative Instanzen als positiv vorhergesagt, Fehler 1. Art), False Negatives (positive Instanzen als negativ vorhergesagt, Fehler 2. Art) und True Negatives (korrekte negative Vorhersagen). Bei der Mehrklassen-Klassifikation mit K Klassen (K ≥ 3) ist die Matrix K×K. Jede Klasse wird nach dem One-vs-Rest-Prinzip bewertet – für eine bestimmte Klasse i ist die True-Positive-Anzahl die diagonale Zelle (i, i), False Positives sind die Summe der Spalte i ohne die Diagonale, und False Negatives sind die Summe der Zeile i ohne die Diagonale. Mehrklassen-Matrizen sind größer und bieten eine reichhaltigere Fehleranalyse, da sie zeigen, welche spezifischen Klassenpaare am häufigsten verwechselt werden.

Wie berechnet man Precision und Recall für jede Klasse aus einer Konfusionsmatrix?

Für eine gegebene Klasse i in einer K×K-Konfusionsmatrix: Precision für Klasse i = TP_i / (TP_i + FP_i), wobei TP_i die diagonale Zelle (i, i) ist und FP_i die Summe der Spalte i minus TP_i. Recall für Klasse i = TP_i / (TP_i + FN_i), wobei FN_i die Summe der Zeile i minus TP_i ist. Beispiel: Bei einer 4-Klassen-Oberflächentypklassifikation mit Asphalt, Beton, Verbund und Schotter entspricht die Precision für ‚Asphalt‘ der Anzahl korrekt vorhergesagter Asphaltbilder geteilt durch alle als Asphalt vorhergesagten Bilder. Der Recall entspricht dem korrekt vorhergesagten Asphalt geteilt durch alle tatsächlichen Asphaltbilder. Der F1-Score ist das harmonische Mittel von Precision und Recall: F1 = 2 × (Precision × Recall) / (Precision + Recall).

Was bedeutet es, wenn eine Konfusionsmatrix normalisiert ist?

Normalisierung wandelt rohe Zählwerte in einer Konfusionsmatrix in Proportionen oder Prozentsätze um, um den Vergleich zwischen Klassen mit unterschiedlichen Stichprobengrößen zu erleichtern. Zeilenweise Normalisierung (normalize='true' in scikit-learn) teilt jede Zelle durch die Summe ihrer Zeile und zeigt für jede wahre Klasse, welcher Anteil der Instanzen als welche Klasse vorhergesagt wurde. Dies zeigt den Recall pro Klasse. Spaltenweise Normalisierung (normalize='pred') teilt durch die Spaltensummen und zeigt die Precision pro Klasse. Normalisierung ist unerlässlich, wenn die Klassenverteilungen unausgewogen sind – eine Klasse mit 10.000 Instanzen und 90 % Genauigkeit liefert 9.000 korrekte Vorhersagen, während eine Klasse mit 100 Instanzen bei 90 % Genauigkeit 90 korrekte Vorhersagen liefert. Ohne Normalisierung dominiert die größere Klasse visuell die Matrix und verbirgt schlechte Leistungen bei seltenen, aber kritischen Schadensklassen.

Wie helfen Konfusionsmatrizen bei der Oberflächentypklassifikation von Flugplatzbefestigungen?

Bei der Klassifikation von Oberflächentypen von Flugplatzbefestigungen nach ICAO-Normen zeigt eine Konfusionsmatrix, ob das Modell korrekt zwischen Asphalt (flexibel), Beton (starr), Verbund (Asphalt auf Beton) und Schotter/unbefestigten Oberflächen unterscheidet. Häufige Verwechslungen sind: Verbundoberflächen werden als reiner Asphalt klassifiziert, wenn die Asphaltdeckschicht dick ist; gealterter Beton wird als Verbund klassifiziert, wenn die Oberflächentextur einer Deckschicht ähnelt; und offenporige Asphaltdeckschichten (PFC) werden aufgrund ihres ausgeprägten visuellen Erscheinungsbildes falsch klassifiziert. Die Konfusionsmatrix hilft dabei, die problematischsten Oberflächentyp-Paare zu identifizieren, was gezielte Datenerfassung oder Modellverfeinerung ermöglicht. Für die ICAO-Konformität ist eine genaue Oberflächentypklassifikation entscheidend für die Berechnung von Flugzeugleistungsparametern wie Landestrecke, Bremsverhalten und Reibungskoeffizienten.

Wie können Konfusionsmatrizen für Berichte effektiv visualisiert werden?

Eine effektive Visualisierung von Konfusionsmatrizen kombiniert Farbcodierung, Annotationen und Normalisierung. Der Standardansatz verwendet eine Heatmap mit einer divergierenden Farbskala – Grün oder Blau für hohe Werte entlang der korrekten Diagonale, Rot oder warme Farben für außerdiagonale Fehler. Zellwerte werden als Textannotationen eingeblendet, entweder als rohe Zählwerte oder Prozentsätze, je nach Zielgruppe. Für technische Berichte bieten dreiwertige Zellen mit Anzahl, Zeilenprozent und Spaltenprozent vollständige Informationen. Für Führungszusammenfassungen ist eine zeilennormalisierte Matrix mit Prozentangaben und einer einheitlichen Farbskala besser verdaulich. Zu den Best Practices gehören: Sicherstellen, dass die Farbskala den gesamten Wertebereich abdeckt, alle Zeilen und Spalten klar beschriften, eine Farbskalenlegende hinzufügen und die Gesamtgenauigkeit als Bildunterschrift angeben. Python-Bibliotheken wie scikit-learn, matplotlib und seaborn bieten integrierte Funktionen zur Erstellung von publikationsreifen Konfusionsmatrix-Visualisierungen.

Wie sieht die Konfusionsmatrix für ein Schadensklassifikationsmodell an Betoninfrastruktur aus?

Bei der Schadensklassifikation von Betoninfrastruktur könnte eine typische Konfusionsmatrix Klassen enthalten wie: Risse (mit Unterarten: Haarrisse, mäßig, schwer), Abplatzungen, Delamination, Ausblühungen, Korrosionsverfärbungen, Abblätterungen, Fugenverschleiß und gesunder Beton. Die Matrixdimensionen hängen von der Anzahl der Schadensklassen ab, die das Modell zu erkennen trainiert wurde. Jede diagonale Zelle zeigt korrekte Erkennungen pro Schadensart, während außerdiagonale Zellen spezifische Verwechslungen offenbaren – zum Beispiel werden Ausblühungen (weiße kristalline Ablagerungen) häufig mit beginnenden Korrosionsverfärbungen (weiß/rostfarbene Ablagerungen) verwechselt, oder Delamination wird mit Abplatzungen verwechselt, wenn beide als Oberflächenunregelmäßigkeiten auftreten. Die Analyse dieser Verwechslungsmuster ermöglicht gezielte Erweiterungen: Hinzufügen weiterer Trainingsbeispiele der verwechselten Paare, Anwenden von Farbtransformationen zur Betonung chemisch bedingter Farbunterschiede oder Anpassen der Klassen gewichtungen in der Verlustfunktion.

Wie hängt Cohens Kappa mit der Konfusionsmatrix zusammen?

Cohens Kappa (κ) ist eine aus der Konfusionsmatrix abgeleitete Metrik, die die Übereinstimmung zwischen vorhergesagten und tatsächlichen Klassenlabels misst und dabei die Übereinstimmung berücksichtigt, die zufällig auftreten würde. Die Formel lautet κ = (Genauigkeit - p_e) / (1 - p_e), wobei p_e die Wahrscheinlichkeit der Zufallsübereinstimmung ist, berechnet aus den Zeilen- und Spaltensummen der Konfusionsmatrix. Kappa-Werte reichen von -1 (vollständige Nichtübereinstimmung) bis +1 (perfekte Übereinstimmung), wobei 0 eine Übereinstimmung bedeutet, die nicht besser als der Zufall ist. Bei der Infrastrukturinspektion ist Kappa besonders wertvoll bei der Bewertung von Modellen auf unausgewogenen Datensätzen – ein Modell, das 95 % Genauigkeit erreicht, indem es einfach ‚gesunder Beton‘ für jedes Bild vorhersagt, hätte ein niedriges Kappa, da die Zufallsübereinstimmung hoch ist. Ein Kappa unter 0,40 zeigt eine schwache Übereinstimmung an, 0,40–0,75 eine mäßige bis gute Übereinstimmung und über 0,75 eine hervorragende Übereinstimmung jenseits des Zufalls.

Konfusionsmatrix

Eine Konfusionsmatrix tabelliert Modellvorhersagen gegen Ground Truth: Zeilen sind tatsächliche Klassen, Spalten sind vorhergesagte Klassen. Die Diagonale zeigt korrekte Vorhersagen; außerdiagonale Elemente zeigen Fehlerarten. Für Infrastruktur-Inspektionsmodelle zeigen Konfusionsmatrizen, welche Schadensarten oder Qualitätsstufen verwechselt werden – z. B. Ausblühungen mit Korrosion. Behandelt werden Matrixinterpretation, Mehrklassen-Konfusion sowie die Ableitung von Precision/Recall pro Klasse.

Definition und Aufbau

Eine Konfusionsmatrix, auch Fehlermatrix genannt, ist ein spezifisches Tabellenlayout, das eine detaillierte Visualisierung der Leistung eines Klassifikationsalgorithmus ermöglicht. Sie ist eines der grundlegendsten und informativsten Werkzeuge zur Bewertung von Modellen des maschinellen Lernens und bietet ein vollständiges Bild davon, wo ein Modell erfolgreich ist und – noch wichtiger – wo es versagt. Die Matrix kreuztabelliert die tatsächlichen Klassenlabels (Ground Truth) gegen die vorhergesagten Klassenlabels des Modells, wobei jede Zelle die Anzahl der Instanzen für diese Kombination enthält.

Die übliche Konvention ordnet wahre Klassen als Zeilen und vorhergesagte Klassen als Spalten an. Für ein Klassifikationsproblem mit K verschiedenen Klassen hat die Konfusionsmatrix die Dimensionen K×K. Das Element an Position C[i][j] repräsentiert die Anzahl der Instanzen, die zur wahren Klasse i gehören und vom Modell als Klasse j vorhergesagt wurden. Die Diagonalelemente C[i][i] repräsentieren daher korrekte Klassifikationen – Instanzen, bei denen die vorhergesagte Klasse mit der wahren Klasse übereinstimmt. Alle außerdiagonalen Elemente repräsentieren Fehlklassifikationen unterschiedlicher Art und Schwere.

Die Konfusionsmatrix verdankt ihren Namen der Erkenntnis, die sie darüber liefert, welche Klassen das Modell miteinander „verwechselt". Ein Modell, das zuverlässig zwischen Asphalt- und Betonoberflächen unterscheidet, aber Verbundbeläge häufig mit Asphalt verwechselt, zeigt hohe Werte entlang der Asphalt-Asphalt- und Beton-Beton-Diagonalen, aber eine signifikante außerdiagonale Konzentration am Schnittpunkt Verbund-Asphalt. Dieses Muster zeigt dem Modellentwickler genau, wo Verbesserungsbemühungen ansetzen sollten.

Die mathematische Grundlage der Konfusionsmatrix liegt in der Kontingenztafelanalyse, einer statistischen Methode, die auf Karl Pearsons Arbeiten zu Chi-Quadrat-Tests für kategoriale Daten aus dem frühen 20. Jahrhundert zurückgeht. Im Kontext des maschinellen Lernens wurde die Matrix in den 1960er Jahren mit der Entwicklung automatisierter Mustererkennungssysteme als Standardbewertungswerkzeug formalisiert. Heute enthält jedes bedeutende Framework für maschinelles Lernen eine Funktion zur Berechnung von Konfusionsmatrizen – scikit-learn bietet sklearn.metrics.confusion_matrix, TensorFlow stellt tf.math.confusion_matrix zur Verfügung, und PyTorch kann Matrizen über torchmetrics.ConfusionMatrix berechnen. Die scikit-learn-Implementierung ist die am weitesten verbreitete in Python-basierten Infrastruktur-Inspektionspipelines. Sie akzeptiert Arrays von wahren und vorhergesagten Labels und gibt die K×K-Matrix mit konfigurierbaren Normalisierungsoptionen zurück.

Binäre Konfusionsmatrix

Die binäre Konfusionsmatrix ist die einfachste und am weitesten verbreitete Form, anwendbar wenn das Klassifikationsproblem genau zwei Klassen hat – üblicherweise als positiv und negativ bezeichnet. In der Infrastrukturinspektion könnte ein binäres Problem lauten: „Enthält dieses Befestigungsbild einen Riss?" (positiv = Riss vorhanden) oder „Ist dieses Brückenbauteil intakt?" (positiv = Schaden erkannt).

Die 2×2-binäre Konfusionsmatrix enthält genau vier Zellen:

	Positiv vorhergesagt	Negativ vorhergesagt
Tatsächlich positiv	Richtig Positiv (TP)	Falsch Negativ (FN)
Tatsächlich negativ	Falsch Positiv (FP)	Richtig Negativ (TN)

Richtig Positive (TP) – Instanzen, die korrekt als zur positiven Klasse zugehörig identifiziert wurden. Bei einem Risserken-nungsmodell ist TP die Anzahl der Bilder mit Rissen, die das Modell korrekt als gerissen gekennzeichnet hat. Jeder richtig positive Fall repräsentiert einen korrekt identifizierten Schaden, der eine zeitnahe Instandhaltungsmaßnahme ermöglicht. Hohe TP-Zahlen weisen auf eine hohe Sensitivität oder Recall hin – das Modell erfasst die Schäden, die es erkennen soll.

Falsch Positive (FP) – Negative Instanzen, die fälschlicherweise als positiv klassifiziert wurden. Diese werden in der statistischen Hypothesentests auch als Fehler 1. Art bezeichnet. Ein falsch positiver Fall bei der Risserkennung bedeutet, dass das Modell intakte Befestigung als gerissen markiert hat. Obwohl falsch Positive keine strukturellen Sicherheitsprobleme verursachen (kein Schaden bleibt unentdeckt), erzeugen sie Fehlalarme, die Inspektionsressourcen verschwenden – eingesetzte Teams zur Untersuchung nicht existenter Schäden, für unnötige Reparaturen eingeplante Instandhaltungsbudgets und eine allgemeine Erosion des Vertrauens in das KI-System. Im Flughafenbetrieb, wo die ICAO-Annex-14-Konformität dokumentierte Inspektionsergebnisse erfordert, belasten übermäßige falsch Positive den Meldeprozess.

Falsch Negative (FN) – Positive Instanzen, die fälschlicherweise als negativ klassifiziert wurden. Dies sind Fehler 2. Art und gelten allgemein als die gefährlichere Fehlerart in der Infrastrukturinspektion. Ein falsch negativer Fall bedeutet, dass ein echter Schaden – ein Riss, eine Abplatzung, ein Korrosionsfleck – unentdeckt bleibt. Bei Flugplatzbefestigungen, die Flugzeuglasten ausgesetzt sind, kann sich ein unentdeckter Riss unter wiederholter Reifenbelastung ausbreiten, was zu beschleunigtem Befestigungsverfall und potenzieller Fremdkörperbildung (FOD) führt. Falsch Negative repräsentieren übersehene sicherheitskritische Schäden und müssen minimiert werden, selbst wenn dies die Akzeptanz von mehr falsch Positiven bedeutet.

Richtig Negative (TN) – Instanzen, die korrekt als nicht zur positiven Klasse zugehörig identifiziert wurden. Sie repräsentieren korrekt identifizierte intakte Befestigungsbereiche. Obwohl richtig Negative nicht direkt zur Schadensentdeckung beitragen, sind sie für die Validierung der Gesamtgenauigkeit des Modells und für die Berechnung von Metriken wie der Spezifität (Richtig-Negativ-Rate) unerlässlich.

Die Beziehung zwischen diesen vier Werten bestimmt alle abgeleiteten Metriken:

Genauigkeit (Accuracy) = (TP + TN) / (TP + TN + FP + FN) – Der Anteil aller korrekten Vorhersagen.

Präzision (Precision, Positiver Vorhersagewert) = TP / (TP + FP) – Welcher Anteil der als positiv vorhergesagten Instanzen ist tatsächlich positiv? Hohe Precision bedeutet wenige Fehlalarme.

Recall (Sensitivität, Richtig-Positiv-Rate) = TP / (TP + FN) – Welchen Anteil der tatsächlichen positiven Instanzen hat das Modell erfasst? Hoher Recall bedeutet wenige übersehene Schäden.

Spezifität (Richtig-Negativ-Rate) = TN / (TN + FP) – Welcher Anteil der tatsächlichen negativen Instanzen wurde korrekt als negativ identifiziert?

F1-Score = 2 × (Precision × Recall) / (Precision + Recall) – Das harmonische Mittel von Precision und Recall, das eine einzige ausgewogene Metrik liefert.

Bei der Infrastrukturinspektion wird der Precision-Recall-Zielkonflikt durch den Entscheidungsschwellenwert des Modells gesteuert. Ein Risserkennungsmodell könnte für jedes Bild einen Wahrscheinlichkeitswert zwischen 0 und 1 ausgeben. Ein Schwellenwert von 0,5 ergibt ein standardmäßiges Precision-Recall-Gleichgewicht. Eine Senkung des Schwellenwerts auf 0,3 erhöht den Recall (weniger übersehene Risse), verringert aber die Precision (mehr Fehlalarme). Eine Erhöhung auf 0,8 verbessert die Precision, birgt jedoch das Risiko, feine Risse zu übersehen. Der optimale Schwellenwert hängt vom operativen Kontext ab: Für kritische Flugplatzbefestigungen, wo ein übersehener Riss zur Fremdkörperbildung führen kann, ist ein niedrigerer Schwellenwert zugunsten des Recalls angemessen. Für routinemäßige Sichtprüfungen, bei denen Fehlalarme knappe Instandhaltungsbudgets belasten, kann ein höherer Schwellenwert zugunsten der Precision vorzuziehen sein.

Mehrklassen-Konfusionsmatrix

Wenn die Klassifikationsaufgabe drei oder mehr Klassen umfasst, erweitert sich die Konfusionsmatrix auf K×K-Dimensionen, wobei K die Anzahl der Klassen ist. Die Mehrklassen-Klassifikation ist das vorherrschende Paradigma in der KI-gestützten Infrastrukturinspektion, bei der Modelle gleichzeitig zwischen mehreren Oberflächentypen, mehreren Schadenskategorien oder mehreren Qualitätsstufen unterscheiden müssen.

Ein 3-Klassen-Beispiel für die Oberflächentypklassifikation auf Flugplatzbefestigungen könnte die Klassen Asphalt (A), Beton (C) und Verbund (O) umfassen. Eine hypothetische Konfusionsmatrix für 1.000 Validierungsbilder:

Wahr \ Vorhergesagt	Asphalt	Beton	Verbund	Gesamt
Asphalt	420	15	15	450
Beton	10	280	10	300
Verbund	30	20	200	250
Gesamt	460	315	225	1000

Die Diagonale zeigt die korrekten Vorhersagen: 420 Asphalt, 280 Beton, 200 Verbund – insgesamt 900 korrekte von 1.000, was einer Gesamtgenauigkeit von 90 % entspricht. Die außerdiagonalen Zellen offenbaren die Fehlerstruktur: Asphalt wurde etwa gleich häufig mit Beton (15 Instanzen) und Verbund (15 Instanzen) verwechselt. Beton wurde gleich häufig mit Asphalt (10) und Verbund (10) verwechselt. Verbund wurde am häufigsten mit Asphalt verwechselt (30 Instanzen) – fast doppelt so häufig wie mit Beton (20). Dieses Muster zeigt dem Modellentwickler, dass Verbundoberflächen die anspruchsvollste Klasse sind, insbesondere wenn sie optisch reinem Asphalt ähneln.

Bei Mehrklassen-Konfusionsmatrizen wird der One-vs-Rest-Ansatz verwendet, um das K-Klassen-Problem für die Metrikberechnung in K binäre Teilprobleme zu überführen. Für eine gegebene Klasse i:

TP(i) = C[i][i] (Diagonalelement)
FP(i) = sum(C[:][i]) - C[i][i] (Summe der Spalte i, minus der Diagonale)
FN(i) = sum(C[i][:]) - C[i][i] (Summe der Zeile i, minus der Diagonale)
TN(i) = Gesamtstichproben - TP(i) - FP(i) - FN(i)

Für die Verbundklasse im obigen Beispiel:

TP = 200
FP = (15 + 10) = 25 (Verbundvorhersagen aus den Zeilen Asphalt und Beton)
FN = (30 + 20) = 50 (tatsächliche Verbundfälle, die als Asphalt oder Beton vorhergesagt wurden)
TN = 1000 - 200 - 25 - 50 = 725
Precision = 200 / (200 + 25) = 0,889
Recall = 200 / (200 + 50) = 0,800
F1 = 2 × (0,889 × 0,800) / (0,889 + 0,800) = 0,842

Die Mehrklassen-Konfusionsmatrix skaliert auf jede beliebige Anzahl von Klassen. Bei Infrastruktur-Inspektionsmodellen mit 10–15 Schadensarten wird die Matrix zu einer reichhaltigen Informationsquelle, die nicht nur zeigt, welche Klassen schlecht abschneiden, sondern genau welche Klassenpaare problematisch sind. Dies ist grundlegend aussagekräftiger als eine einzelne Genauigkeitszahl.

Ableitung von Precision, Recall und F1 pro Klasse

Die Konfusionsmatrix ist die Quelle, aus der alle pro-Klassen-Klassifikationsmetriken abgeleitet werden. Das Verständnis der Ableitung ermöglicht es Praktikern, die Modellleistung korrekt zu interpretieren und zu identifizieren, welche Klassen verbessert werden müssen.

Formeln für Pro-Klassen-Metriken

Für jede Klasse i in einem K-Klassen-Klassifikationsproblem:

Precision_i = C[i][i] / sum(C[:][i]) = TP / (TP + FP)

Precision beantwortet die Frage: „Wenn das Modell Klasse i vorhersagt, wie oft ist das korrekt?" Dies wird auch als positiver Vorhersagewert bezeichnet. Bei der Schadensklassifikation bedeutet eine hohe Precision für die Klasse „kritischer Strukturriss", dass Inspektoren diesem Befund vertrauen können, wenn das Modell einen schweren Riss markiert.

Recall_i = C[i][i] / sum(C[i][:]) = TP / (TP + FN)

Recall beantwortet die Frage: „Von allen tatsächlichen Instanzen der Klasse i – wie viele hat das Modell gefunden?" Dies wird auch als Sensitivität oder Richtig-Positiv-Rate bezeichnet. Bei der Schadensklassifikation bedeutet ein hoher Recall für „Abplatzungen", dass die meisten tatsächlichen Abplatzungen erkannt werden, wodurch übersehene Schäden minimiert werden.

F1_i = 2 × (Precision_i × Recall_i) / (Precision_i + Recall_i)

F1 ist das harmonische Mittel und liegt stets zwischen Precision und Recall. F1 wird dem arithmetischen Mittel vorgezogen, da es extreme Ungleichgewichte bestraft – ein Modell mit Precision=1,0 und Recall=0,0 hat F1=0,0, was korrekt anzeigt, dass das Modell trotz des arithmetischen Mittels von 0,5 unbrauchbar ist.

Makro-, Mikro- und Gewichtete Mittelung

Für den Vergleich von Modellen über alle Klassen hinweg gibt es drei Mittelungsmethoden:

Makro-Mittelung berechnet die Metrik unabhängig für jede Klasse und mittelt sie mit gleicher Gewichtung: Makro-Precision = (1/K) × sum(Precision_i). Dies behandelt alle Klassen unabhängig von ihrer Häufigkeit gleich. Für das 3-Klassen-Oberflächenbeispiel: Makro-Precision = (420/460 + 280/315 + 200/225) / 3 = (0,913 + 0,889 + 0,889) / 3 = 0,897. Die Makro-Mittelung ist geeignet, wenn alle Klassen gleich wichtig sind – zum Beispiel bei der Klassifikation von Befestigungsschäden, bei der auch seltene Schäden für die Sicherheit relevant sind.

Mikro-Mittelung aggregiert die Zählwerte über alle Klassen, bevor die Metrik berechnet wird: Mikro-Precision = sum(TP_i) / sum(TP_i + FP_i). Für das Beispiel: Mikro-Precision = (420+280+200) / (420+280+200+15+15+10+10+30+20) = 900 / 1000 = 0,900. Bemerkenswerterweise entspricht die Mikro-Mittelungs-Precision bei der Einzellabel-Klassifikation der Genauigkeit. Die Mikro-Mittelung wird von den häufigsten Klassen bestimmt und ist geeignet, wenn die Gesamtkorrektheit im Vordergrund steht.

Gewichtete Mittelung berechnet die Metrik pro Klasse und mittelt gewichtet nach der Anzahl der wahren Instanzen pro Klasse: Gewichtete Precision = sum(Precision_i × n_i) / sum(n_i), wobei n_i die wahre Anzahl für Klasse i ist. Für das Beispiel: Gewichtete Precision = (0,913 × 450 + 0,889 × 300 + 0,889 × 250) / 1000 = (410,85 + 266,70 + 222,25) / 1000 = 0,900. Die gewichtete Mittelung ist die empfohlene Standardeinstellung für unausgewogene Datensätze, da sie die Klassenhäufigkeit berücksichtigt, ohne schwache Leistungen bei Minderheitenklassen zu verbergen.

Mittelungsmethode	Formel	Am besten geeignet für
Makro	(1/K) × Σ Metric_i	Gleiche Klassenwichtigkeit, seltene Schäden sind relevant
Mikro	Σ TP / (Σ TP + Σ FP)	Gesamtkorrektheit des Datensatzes
Gewichtet	Σ (Metric_i × n_i) / Σ n_i	Unausgewogene Klassen, praktischer Standard

Matthews-Korrelationskoeffizient (MCC)

Der MCC wird aus der Konfusionsmatrix abgeleitet und liefert eine einzelne Metrik, die die gesamte Matrix auf eine Weise zusammenfasst, die robust gegenüber Klassenungleichgewichten ist. Bei der Mehrklassen-Klassifikation reicht der MCC von -1 bis +1, wobei +1 eine perfekte Vorhersage, 0 eine zufällige Vorhersage und -1 eine völlige Nichtübereinstimmung anzeigt. Der MCC ist definiert als:

MCC = [sum(sum(C[k][l] × C[m][n] - C[k][n] × C[m][l]))] / sqrt( [sum(sum(C[p][q] * C[p][r]))] × [sum(sum(C[s][t] * C[u][t]))] )

wobei die Summen über geeignete Indexbereiche nach der Definition von Gorodkin (2004) gebildet werden. Der MCC gilt weithin als die aussagekräftigste Einzelmetrik für die Klassifikatorbewertung, da er alle vier Quadranten der Konfusionsmatrix (binär) bzw. alle K² Zellen (Mehrklassen) verwendet, im Gegensatz zur Genauigkeit, die nur die Diagonale nutzt.

Gesamtgenauigkeit aus der Konfusionsmatrix

Die Gesamtgenauigkeit ist die intuitivste aus der Konfusionsmatrix abgeleitete Metrik: die Summe der Diagonale (korrekte Vorhersagen) geteilt durch die Gesamtzahl der Stichproben. Für jede Konfusionsmatrix wird die Gesamtgenauigkeit wie folgt berechnet:

Genauigkeit = Σ C[i][i] / Σ C[i][j] für alle i, j

Die Genauigkeit repräsentiert den Anteil aller Vorhersagen, die das Modell richtig getroffen hat. Obwohl intuitiv, hat die Genauigkeit kritische Einschränkungen, die die Konfusionsmatrix selbst zu diagnostizieren hilft.

Das Genauigkeits-Paradoxon

Das Genauigkeits-Paradoxon beschreibt Situationen, in denen eine hohe Genauigkeit keine gute Modellleistung anzeigt, bedingt durch Klassenungleichgewicht. Betrachten Sie ein Befestigungsschadensmodell, das auf einem Datensatz bewertet wird, bei dem 95 % der Bilder intakte Befestigung (negativ) und 5 % Risse (positiv) zeigen. Ein triviales Modell, das für jedes Bild „intakt" vorhersagt, erreicht 95 % Genauigkeit – doch es erkennt null Risse. Die Konfusionsmatrix deckt dieses Versagen sofort auf: Das Modell hat TP=0, FP=0, FN=500 (alle Risse übersehen), TN=9.500 (alle intakt korrekt identifiziert). Trotz 95 % Gesamtgenauigkeit beträgt der Recall für die Rissklasse 0 %.

Die Konfusionsmatrix macht das Genauigkeits-Paradoxon sichtbar. Die Genauigkeit allein kann nicht unterscheiden zwischen:

Einem ausgewogenen Modell, das 95 % der Risse erfasst und 5 % der intakten Oberflächen als gerissen markiert
Einem degenerierten Modell, das für alles „intakt" vorhersagt

Für die Infrastrukturinspektion ist diese Unterscheidung sicherheitskritisch. ICAO Annex 14 verlangt, dass Startbahn-Oberflächeninspektionen alle Schäden identifizieren, die den Flugzeugbetrieb beeinträchtigen könnten. Ein Modell mit 99 % Genauigkeit, das 100 % einer seltenen, aber gefährlichen Schadensart (wie eines tiefen Strukturrisses in der Startbahn-Aufsetzzone) übersieht, stellt eine Sicherheitsgefahr dar, die die Genauigkeit allein verschleiern würde.

Klassenweise Genauigkeit

Aus der Konfusionsmatrix können Praktiker die pro-Klassen-Genauigkeit (auch Recall oder Sensitivität für die positive Klasse bei binären Einstellungen genannt) berechnen:

Klasse_i Genauigkeit = C[i][i] / sum(C[i][:])

Dies gibt den Anteil der tatsächlichen Instanzen der Klasse i an, die das Modell korrekt klassifiziert hat. Bei unausgewogenen Datensätzen ist die pro-Klassen-Genauigkeit weitaus aussagekräftiger als die Gesamtgenauigkeit. Ein nützlicher Berichtsansatz besteht darin, die Gesamtgenauigkeit zusammen mit der minimalen pro-Klassen-Genauigkeit darzustellen – die Klasse mit der niedrigsten Einzelgenauigkeit wird zum Schwachpunkt des Modells, der Aufmerksamkeit erfordert.

Ausgeglichene Genauigkeit

Die ausgeglichene Genauigkeit (Balanced Accuracy) adressiert das Klassenungleichgewicht, indem sie den Recall über alle Klassen mittelt:

Ausgeglichene Genauigkeit = (1/K) × Σ (C[i][i] / sum(C[i][:]))

Für das Beispiel mit 95 % intakt / 5 % Riss und einem trivialen Immer-intakt-Modell: Ausgeglichene Genauigkeit = (Recall_intakt + Recall_Riss) / 2 = (9500/9500 + 0/500) / 2 = (1,0 + 0,0) / 2 = 0,50. Die ausgeglichene Genauigkeit identifiziert dieses Modell korrekt als nicht besser als der Zufall (0,50), während die Gesamtgenauigkeit (0,95) irreführend hoch ist.

Identifizieren verwechselter Klassen

Die leistungsstärkste diagnostische Fähigkeit der Konfusionsmatrix ist ihre Fähigkeit zu zeigen, welche spezifischen Klassen mit welchen verwechselt werden – das Muster der außerdiagonalen Fehler. Diese Information leitet direkt die Modellverbesserungsstrategien.

Verwechslungsmuster

Häufige Verwechslungsmuster bei Infrastruktur-Inspektionsmodellen umfassen:

Innerkategoriale Verwechslung – Zwei visuell ähnliche Schadensarten werden häufig miteinander verwechselt. Ausblühungen (weiße kristalline Salzablagerungen auf Beton) und beginnende Korrosion (rostfarbene Verfärbungen) werden häufig verwechselt, da beide als Oberflächenverfärbungen auftreten. Bei Asphaltbefestigungen werden Netzrisse (miteinander verbundene Polygone durch Ermüdung) manchmal mit Blockrissen (rechteckige Blöcke durch Schrumpfung) verwechselt, wenn die Rissnetzwerksdichte mäßig ist.

Hierarchische Verwechslung – Das Modell erkennt korrekt die allgemeine Kategorie, verwechselt aber den spezifischen Untertyp. Ein Modell könnte korrekt erkennen, dass eine Oberfläche „gerissen" ist, aber „Querriss" mit „Längsriss" verwechseln – beides lineare Risse, die sich nur in der Ausrichtung zur Befestigungsmitte oder Verkehrsrichtung unterscheiden.

Kreuzkategoriale Verwechslung – Ein Oberflächenzustand wird mit einem grundlegend anderen Zustand verwechselt. Schattenkanten auf Befestigungen könnten aufgrund ähnlicher Kontrastgradienten mit Risskanten verwechselt werden. Fugendichtstoff könnte mit Rissfüllmaterial verwechselt werden. Reifenspuren in Startbahn-Aufsetzzonen könnten mit Oberflächenverschleiß verwechselt werden.

Quantifizierung verwechselter Paare

Der Verwechslungsanteil für ein Klassenpaar (i, j) beträgt:

Verwechslung(i → j) = C[i][j] / sum(C[i][:])

Dies gibt an, welcher Anteil der tatsächlichen Instanzen der Klasse i fälschlicherweise als Klasse j klassifiziert wurde. Ein Verwechslungsanteil von 0,15 zwischen Verbund (wahr) und Asphalt (vorhergesagt) bedeutet, dass 15 % der Verbundoberflächen fälschlicherweise als Asphalt eingestuft werden – die primäre Fehlerart für diese Klasse.

In ähnlicher Weise setzt die normalisierte Konfusionsmatrix mit zeilenweiser Normalisierung jede Zeile auf eine Summe von 1,0 und zeigt direkt den Anteil jeder wahren Klasse, der auf die vorhergesagten Klassen verteilt ist. Dies ist das gebräuchlichste Visualisierungsformat für Mehrklassen-Konfusionsmatrizen, da es Verwechslungsmuster unabhängig von den Klassenstichprobengrößen sofort sichtbar macht.

Heatmap-Visualisierung

Die normalisierte Konfusionsmatrix wird typischerweise als Heatmap mit einem divergierenden Farbschema dargestellt. Die Diagonale (korrekte Vorhersagen) wird in Grün oder Blau angezeigt und bildet einen sichtbaren „Richtigkeitsgrat", der das dominierende visuelle Merkmal sein sollte. Außerdiagonale Zellen werden in Rot oder warmen Farben dargestellt, mit einer Intensität proportional zum Verwechslungsanteil. Diese visuelle Kodierung ermöglicht die sofortige Identifizierung von:

Dunklen Diagonalzellen: Klassen mit hohem Recall (die meisten wahren Instanzen korrekt klassifiziert)
Blassen Diagonalzellen: Klassen mit schlechtem Recall, die verbessert werden müssen
Roten außerdiagonalen Hotspots: Spezifische verwechselte Paare, die gezielte Abhilfe benötigen
Zeilenweiser Rötung: Eine Klasse, die allgemein mit vielen anderen verwechselt wird, was darauf hindeutet, dass die Klasse selbst möglicherweise eine bessere Definition oder mehr Trainingsdaten benötigt

Verwechslungsgesteuerte Verbesserung

Sobald verwechselte Klassenpaare identifiziert sind, können die folgenden gezielten Strategien angewendet werden:

Datenerfassung: Sammeln Sie weitere Trainingsbeispiele speziell des verwechselten Paares, insbesondere Grenzfälle, die ihre unterscheidenden Merkmale hervorheben
Merkmalstechnik: Für Nicht-Tiefenlern-Modelle entwickeln Sie Merkmale, die speziell zwischen den verwechselten Klassen unterscheiden – für Ausblühungen vs. Korrosion Merkmale, die Farbtemperatur und Texturgranularität erfassen
Augmentierungsschwerpunkt: Wenden Sie Transformationen an, die die unterscheidenden Merkmale betonen – für Netz- vs. Blockrisse augmentieren Sie Rissverbindungsmuster
Klassengewichtung: Erhöhen Sie während des Trainings das Gewicht der Verlustfunktion für verwechselte Klassen, um Fehlklassifikationen stärker zu bestrafen
Architekturänderung: Fügen Sie Aufmerksamkeitsmechanismen hinzu, die sich auf die spezifischen Bildbereiche konzentrieren, die am diskriminativsten zwischen den verwechselten Klassen sind
Hierarchische Klassifikation: Wenn die Verwechslung hierarchisch ist (korrekte Kategorie, falscher Untertyp), erwägen Sie einen zweistufigen Klassifikator, der zuerst die allgemeine Kategorie identifiziert und dann die Untertypen unterscheidet

Konfusionsmatrix für die Oberflächentypklassifikation

Die Oberflächentypklassifikation ist eine grundlegende Aufgabe in der Infrastrukturinspektion. Für Flugplatzbefestigungen verlangen die Internationale Zivilluftfahrtorganisation (ICAO) und die US-Luftfahrtbehörde (FAA) eine genaue Oberflächentypidentifikation für Flugzeugleistungsberechnungen.

Klassifikationsaufgabe

Ein typisches Oberflächentypklassifikationsmodell für Flugplatzbefestigungen muss unterscheiden zwischen:

Asphalt (Flexibler Belag): Bitumengebundene Oberflächen, gekennzeichnet durch dunkle schwarz/braune Färbung, sichtbare Gesteinskörnungstextur und fugenlose durchgehende Oberfläche
Beton (Starrer Belag): Portlandzementbetonoberflächen, gekennzeichnet durch hellgraue Färbung, sichtbare Scheinfugen in regelmäßigen Abständen und glattere Oberflächentextur
Verbund: Asphaltdeckschicht auf Betonuntergrund, gekennzeichnet durch Asphalterscheinungsbild mit darunter liegenden, sich spiegelnden Fugenrissmustern
Schotter/Unbefestigt: Verdichtete Schotteroberflächen für die Allgemeine Luftfahrt, gekennzeichnet durch loses Oberflächenmaterial, braune/tan-Färbung und keine Befestigungsmarkierungen
Offenporige Asphaltdeckschicht (PFC): Spezialisierte offenkörnige Asphaltoberfläche zur Wasserableitung, gekennzeichnet durch grobe, poröse Textur und dunkleres Erscheinungsbild

Konfusionsmatrix für Oberflächentypen

Eine Konfusionsmatrix für ein 4-Klassen-Oberflächentypmodell, getestet auf 2.000 Validierungsbildern, könnte wie folgt aussehen:

Wahr \ Vorhergesagt	Asphalt	Beton	Verbund	Schotter
Asphalt (n=600)	564	6	24	6
Beton (n=500)	10	465	20	5
Verbund (n=400)	48	28	312	12
Schotter (n=500)	5	10	5	480

Diese Matrix zeigt:

Asphalt (94,0 % Recall): 24 von 600 Asphaltbildern wurden fälschlicherweise als Verbund klassifiziert – die signifikanteste Verwechslung für diese Klasse. Dies tritt auf, wenn Asphaltoberflächen spiegelnde Rissmuster aufweisen, die optisch Verbundbefestigung (Asphalt auf Beton mit Rückspiegelung) ähneln. Die 6 Fehlklassifikationen als Beton können bei hell oxidiertem Asphalt auftreten, der gealtertem Beton ähnelt.

Beton (93,0 % Recall): Die primäre Verwechslung sind 20 als Verbund fehlklassifizierte Bilder – typischerweise Betonoberflächen mit dünnen Asphaltflicken oder Deckschichtstreifen, die ein verbundartiges Erscheinungsbild erzeugen.

Verbund (78,0 % Recall): Dies ist die Problemklasse. 48 von 400 Verbundbildern (12 %) wurden als reiner Asphalt klassifiziert. Dies geschieht, wenn die Asphaltdeckschicht dick genug ist, dass die darunter liegende Betontextur und die Fugen im aufgenommenen Bild nicht sichtbar sind. Weitere 28 (7 %) wurden als reiner Beton klassifiziert – typischerweise wenn sich die Asphaltdeckschicht in Verkehrsbereichen abgenutzt hat und der Betonuntergrund freiliegt. Das Modell hat Schwierigkeiten, weil das Erscheinungsbild von Verbundbefestigungen zwischen dem von reinem Asphalt und reinem Beton liegt.

Schotter (96,0 % Recall): Schotter ist die visuell markanteste Klasse und erreicht den höchsten Recall.

Betriebliche Auswirkungen

Für die ICAO-Konformität ist die Verwechslung zwischen Verbund und reinem Asphalt die betrieblich bedeutendste. Flugzeugleistungsberechnungen – insbesondere Start- und Landestrecken – hängen vom Oberflächentyp ab. Eine Verwechslung von Verbundbefestigung mit reinem Asphalt könnte zu falschen Schätzungen des Bremskoeffizienten führen und die Sicherheitsmargen beeinträchtigen.

Gezielte Verbesserungen für die Verbundklasse umfassen: Erfassen von Trainingsbildern bei verschiedenen Deckschichtaltern (neue dicke Deckschicht vs. abgenutzte dünne Deckschicht), Hinzufügen von Bildern mit spiegelnden Rissmustern, die für Verbundkonstruktionen spezifisch sind, und Training eines dedizierten binären Diskriminators zwischen reinem Asphalt und Verbunddeckschicht.

Konfusionsmatrix für die Qualitätsstufenklassifikation

Die Qualitätsstufenklassifikation weist Infrastrukturoberflächen eine kategoriale Zustandsbewertung zu. Für Flugplatzbefestigungen umfassen gängige Bewertungssysteme den Pavement Condition Index (PCI) gemäß ASTM D5340 und die Airport Pavement Condition Classification, die in ICAO-bezogenen Flugplatzbefestigungsmanagementsystemen verwendet wird.

Klassifikationsaufgabe

Qualitätsstufen folgen typischerweise einer 4- oder 5-stufigen Skala:

Stufe	PCI-Bereich	Beschreibung	Visuelle Indikatoren
Gut	86–100	Geringe oder keine Schäden	Wenige Risse, keine Abplatzungen, intakte Fugen
Befriedigend	71–85	Mäßiger Verschleiß	Einige Risse, geringe Abplatzungen, leichte Verwitterung
Schlecht	56–70	Erheblicher Verschleiß	Ausgedehnte Risse, mäßige Abplatzungen, sichtbare Ablösung
Schwer/Ausgefallen	0–55	Schwerer Verschleiß	Ausgedehnte vernetzte Risse, schwere Abplatzungen, strukturelle Schäden

Konfusionsmatrix für Qualitätsstufen

Eine Konfusionsmatrix für die Qualitätsstufenklassifikation von 1.000 Startbahnabschnitten:

Wahr \ Vorhergesagt	Gut	Befriedigend	Schlecht	Ausgefallen
Gut (n=350)	315	28	7	0
Befriedigend (n=300)	36	237	24	3
Schlecht (n=200)	0	30	152	18
Ausgefallen (n=150)	0	0	16	134

Diese Matrix zeigt das charakteristische Muster der ordinalen Klassifikationsverwechslung: Fehler konzentrieren sich auf benachbarte Stufen. Das Modell verwechselt selten Gut mit Ausgefallen (0 Instanzen) oder Ausgefallen mit Gut (0 Instanzen), da diese Klassen visuell sehr unterschiedlich sind. Verwechslungen zwischen benachbarten Stufen sind jedoch häufig:

Gut ↔ Befriedigend (28 + 36 = 64 Verwechslungen): Diese beiden Stufen sind das am häufigsten verwechselte Paar und repräsentieren Grenzfälle, bei denen geringe Rissbildung vorhanden ist, der Gesamtzustand jedoch nahe der Grenze zwischen Gut und Befriedigend liegt (PCI ≈ 85). Die 28 als Befriedigend klassifizierten Gut-Abschnitte können frühe Haarrisse aufweisen, die das Modell als signifikant interpretiert; die 36 als Gut klassifizierten Befriedigend-Abschnitte können sehr feine Risse unterhalb der Erkennungsschwelle des Modells aufweisen.

Befriedigend ↔ Schlecht (24 + 30 = 54 Verwechslungen): Die Einstufung mäßigen Verschleißes ist selbst unter menschlichen Prüfern subjektiv. Die 24 als Schlecht klassifizierten Befriedigend-Abschnitte weisen wahrscheinlich Rissdichten nahe der Grenze zwischen Befriedigend und Schlecht auf; die 30 als Befriedigend klassifizierten Schlecht-Abschnitte repräsentieren möglicherweise Fälle, in denen die Rissstärke grenzwertig ist.

Schlecht ↔ Ausgefallen (18 + 16 = 34 Verwechslungen): Am schweren Ende ist die Verwechslung zwischen Schlecht (ausgedehnte Risse) und Ausgefallen (struktureller Verschleiß) relativ gering, da ausgefallene Befestigung qualitativ andere Schäden zeigt – Abplatzungen, Versatz und Oberflächenzerfall, die über einfache Rissbildung hinausgehen.

Außerdiagonale Richtungsabhängigkeit

Die Matrix ist asymmetrisch: Die Verwechslung Gut→Befriedigend (28) ist geringer als Befriedigend→Gut (36). Dies bedeutet, dass das Modell bei Befriedigend-Abschnitten konservativer ist (Tendenz, Gut-Abschnitte auf Befriedigend herabzustufen) als bei Gut-Abschnitten (Tendenz, Befriedigend auf Gut heraufzustufen). Diese Asymmetrie ist für die Instandhaltungsplanung relevant – konservative Fehlklassifikationen (bessere Befestigung als schlechter einstufen) sind betrieblich sicherer, da sie zu früheren statt späteren Instandhaltungsmaßnahmen führen.

Kappa für ordinale Klassifikation

Cohens gewichtetes Kappa ist besonders geeignet für Konfusionsmatrizen von Qualitätsstufen, da es die Ordnung der Klassen berücksichtigt. Fehler zwischen benachbarten Stufen (Befriedigend als Schlecht klassifiziert) werden weniger stark bestraft als entfernte Fehler (Gut als Ausgefallen klassifiziert). Die lineare Gewichtung bestraft proportional zur Stufentrennung, während die quadratische Gewichtung das Quadrat der Stufentrennung bestraft – geeigneter, wenn Stufenunterschiede nichtlineare Sicherheitsauswirkungen haben.

Für die obige Matrix würde das gewichtete Kappa (linear) etwa 0,78 betragen, was auf eine substanzielle Übereinstimmung jenseits des Zufalls hindeutet, während das ungewichtete Kappa mit etwa 0,72 niedriger wäre, da es alle außerdiagonalen Fehler unabhängig von ihrer Schwere gleich behandelt.

Konfusionsmatrix für die Schadensklassifikation

Die Schadensklassifikation ist die komplexeste und sicherheitskritischste Aufgabe für KI-Modelle in der Infrastrukturinspektion. Für Betonbrückenbauteile oder Flugplatzbefestigungen muss ein Modell möglicherweise 10–15 verschiedene Schadensarten gleichzeitig erkennen.

Klassifikationsaufgabe

Typische Schadensklassen für die Betoninfrastrukturinspektion umfassen:

Haarrisse: Sehr feine Risse (< 0,3 mm Breite), oft kosmetisch, können aber auf beginnenden Verschleiß hindeuten
Strukturrisse: Breitere Risse (≥ 0,3 mm), die die strukturelle Integrität beeinträchtigen oder Wassereintritt ermöglichen können
Netzrisse (Asphalt): Miteinander verbundenes Rissnetzwerk durch Ermüdungsbelastung
Längs-/Querrisse: Lineare Risse in der Befestigung parallel/senkrecht zur Verkehrsrichtung
Abplatzungen: Herausbrechen von Oberflächenbeton in Form von Splittern oder größeren Fragmenten
Delamination: Trennung von Betonschichten, durch Abklopfen erkennbar, aber nicht immer visuell offensichtlich
Ausblühungen: Weiße kristalline Salzablagerungen durch Wasserwanderung im Beton
Korrosionsverfärbungen: Rostfarbene Verfärbungen, die auf Korrosion der Bewehrungsstähle hinweisen
Abblätterungen: Abblättern oder Ablösen von Oberflächenmörtel, der die Gesteinskörnung freilegt
Fugenversagen: Verschleiß oder Ablösung von Fugendichtstoff
Verwitterung/Ablösung: Oberflächenerosion, die die Gesteinskörnung auf Asphalt freilegt
Fugenversatz: Vertikale Verschiebung an Befestigungsfugen
Oberfläche intakt: Keine Schäden vorhanden, gesunder Zustand

Flughafen-Startbahninspektor untersucht Betonbefestigungsoberfläche mit Schäden und Rissen, hält Tablet mit KI-Analyseergebnissen

Konfusionsmatrix für Betonschäden

Eine partielle Konfusionsmatrix mit Fokus auf die am häufigsten verwechselten Schadenspaare eines Betonbrückendeck-Inspektionsmodells:

Wahr \ Vorhergesagt	Haarriss	Strukturriss	Abplatzung	Ausblühung	Korrosion	Intakt
Haarriss	820	30	5	40	10	95
Strukturriss	15	440	20	5	15	5
Abplatzung	0	10	285	5	20	0
Ausblühung	25	0	5	145	60	15
Korrosion	5	5	15	35	180	10
Intakt	65	0	0	10	15	1910

Analyse der Verwechslungsmuster

Ausblühungen ↔ Korrosionsverfärbungen (60 + 35 = 95 Verwechslungen): Das bedeutendste Verwechslungspaar in der Betonschadensklassifikation. Beide treten als Oberflächenverfärbungen auf – Ausblühungen als weiße kristalline Ablagerungen, Korrosionsverfärbungen als rostfarbene Flecken. Wenn Ausblühungen Schmutz einlagern oder Korrosionsverfärbungen im Frühstadium sind (rostfarben, aber noch nicht strukturiert), sind die beiden visuell nicht unterscheidbar. Diese Verwechslung hat materielle Auswirkungen: Ausblühungen deuten auf Wasserwanderung hin (ein Instandhaltungsproblem), während Korrosionsverfärbungen auf aktive Bewehrungskorrosion hinweisen (ein strukturelles Sicherheitsproblem). Eine Verwechslung könnte zu drastisch falschen Instandhaltungsprioritäten führen.

Haarriss ↔ Intakt (95 + 65 = 160 Verwechslungen): Haarrisse nahe der Auflösungsgrenze des Modells (etwa 0,2 mm bei einer Aufnahmeauflösung von 0,5 mm/Pixel) werden häufig übersehen. 95 Haarrisse wurden als intakt klassifiziert (falsch Negative), was übersehene beginnende Schäden darstellt. 65 intakte Oberflächen wurden als Haarriss klassifiziert (falsch Positive), was Fehlalarme darstellt. Dies ist der klassische Erkennungs-Sensitivitäts-Zielkonflikt an der Wahrnehmungsgrenze.

Abplatzungen ↔ Korrosionsverfärbungen (20 + 15 = 35 Verwechslungen): Abgeplatzte Bereiche, die korrodierte Bewehrungsstäbe freilegen, weisen oft rostfarbene Verfärbungen an den Abplatzungskanten auf, was zu Verwechslungen zwischen den beiden Klassen führt. In vielen Fällen koexistieren beide Schäden – eine Abplatzung, die durch darunter liegende Korrosion verursacht wurde – was die Einzellabel-Klassifikationsaufgabe inhärent mehrdeutig macht.

Strukturriss ↔ Haarriss (30 + 15 = 45 Verwechslungen): Risse nahe der Grenze zwischen Haarriss und Strukturriss (etwa 0,3 mm Breite) werden basierend auf der wahrgenommenen Breite verwechselt. Ohne präzise submillimetrische Messfähigkeit in Standard-Inspektionsbildern ist diese Verwechslung zu erwarten und kann akzeptabel sein, wenn beide Risstypen zur Inspektion markiert werden.

Verwechslungsgesteuerte Abhilfe für Schadensmodelle

Basierend auf den Verwechslungsmustern umfassen spezifische Abhilfestrategien:

Ausblühungen vs. Korrosionsverfärbungen: Fügen Sie Trainingsdaten hinzu, die Ausblühungen mit eingelagertem Schmutz (gelblicher Farbton) und beginnende Korrosion ohne sichtbaren Rost (grünlicher Farbton) zeigen. Wenden Sie Farbaugmentierung an, die diese subtilen spektralen Unterschiede betont. Erwägen Sie die Hinzunahme von Nahinfrarot- oder Multispektralkanälen, die chemische Zusammensetzungsunterschiede erkennen.
Haarriss vs. Intakt: Verbessern Sie die Aufnahmeauflösung oder setzen Sie Super-Resolution-Vorverarbeitung ein. Wenden Sie gezielte Augmentierung an, die Haarrisse auf verschiedenen Oberflächentexturen simuliert. Erwägen Sie die Zurückweisung von Grenzfallvorhersagen und deren Kennzeichnung zur manuellen Überprüfung.
Abplatzung vs. Korrosionsverfärbung: Das Modelltraining sollte Multi-Label-Annotationen verwenden, bei denen Abplatzungen und Korrosion koexistieren können. Alternativ erstellen Sie einen hierarchischen Klassifikator, der zuerst „Schadensbereich" erkennt und dann auf der zweiten Ebene Abplatzungen von Verfärbungen unterscheidet.
Strukturriss vs. Haarriss: Integrieren Sie die Rissbreitenschätzung als Regressionskopf anstelle einer Klassifikation. Verwenden Sie die kontinuierliche Breitenschätzung, um Schweregradschwellen festzulegen, die pro Inspektionsstandard angepasst werden können.

Visualisierung und Berichterstattung

Eine effektive Visualisierung und Berichterstattung von Konfusionsmatrizen ist für die Kommunikation der Modellleistung an Stakeholder – von Datenwissenschaftlern über Flughafen-Instandhaltungsmanager bis hin zu Aufsichtsbehörden – unerlässlich.

Standard-Heatmap-Layout

Das Standardvisualisierungsformat für eine Konfusionsmatrix ist eine Heatmap mit den folgenden Konventionen:

Zeilen: Wahre Klassen (tatsächliche Labels), links beschriftet
Spalten: Vorhergesagte Klassen, oben beschriftet
Diagonale Zellen: Mit einer auffälligen Farbe hervorgehoben (typischerweise Grün oder Blau)
Außerdiagonale Zellen: Auf einer Skala von Weiß (Null) bis Rot (hohe Werte) eingefärbt
Zellwerte: Als Zahlenwerte, Prozentsätze oder beides annotiert
Farbskala: Eine Legende, die Farben Werten zuordnet
Titel: Enthält den Datensatznamen und die Gesamtgenauigkeit

Für publikationsreife Abbildungen verwendet der Standardansatz matplotlib mit seaborn.heatmap in Python:

import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import confusion_matrix

cm = confusion_matrix(y_true, y_pred, labels=class_names)
cm_normalized = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]

fig, ax = plt.subplots(figsize=(10, 8))
sns.heatmap(cm_normalized, annot=True, fmt='.2f',
            xticklabels=class_names, yticklabels=class_names,
            cmap='RdYlGn', vmin=0, vmax=1, ax=ax)
ax.set_xlabel('Vorhergesagte Klasse')
ax.set_ylabel('Wahre Klasse')
ax.set_title(f'Konfusionsmatrix (Gesamtgenauigkeit: {accuracy:.2%})')
plt.tight_layout()

Normalisierungsoptionen

Die Wahl der Normalisierung beeinflusst die Interpretation erheblich:

Zeilenormalisiert (normalize=‘true’): Jede Zeile summiert sich auf 1,0 (100 %). Diagonale Werte zeigen den Recall pro Klasse. Werte innerhalb der Zeile zeigen: „Wenn die wahre Klasse X ist, welcher Anteil wurde als welche Klasse vorhergesagt?" Dies ist die gebräuchlichste Normalisierung für die diagnostische Analyse.

Spaltennormalisiert (normalize=‘pred’): Jede Spalte summiert sich auf 1,0 (100 %). Diagonale Werte zeigen die Precision pro Klasse. Werte innerhalb der Spalte zeigen: „Wenn das Modell X vorhergesagt hat, welcher Anteil gehörte tatsächlich zu jeder wahren Klasse?" Dies ist nützlich, um die Verteilung falsch Positiver zu verstehen.

Keine Normalisierung: Rohe Zählwerte werden angezeigt. Unerlässlich zur Überprüfung der Stichprobengrößen, erschwert jedoch den Vergleich, wenn Klassen unterschiedliche Häufigkeiten haben.

Dreiwertiges Zellenformat: Jede Zelle zeigt drei Werte: rohe Anzahl, Zeilen-%, Spalten-%. Dies liefert vollständige Informationen in einer einzigen Visualisierung, kann aber bei großen Matrizen visuell überladen wirken.

Berichtsvorlagen

Für die Berichterstattung über Infrastruktur-Inspektionsmodelle umfasst die empfohlene Vorlage:

Zusammenfassungstabelle mit Statistiken oben: Gesamtgenauigkeit, Makro-F1, gewichteter F1, Cohens Kappa, Matthews-Korrelationskoeffizient
Vollständige Konfusionsmatrix-Heatmap (zeilenormalisiert mit Überlagerung roher Zählwerte): zeigt alle Klassen
Pro-Klassen-Metrik-Tabelle darunter: Klassenname, Support (Anzahl), Precision, Recall, F1-Score
Verwechslungszusammenfassung: Ein Textabsatz, der die Top-3 verwechselten Klassenpaare und empfohlene Abhilfemaßnahmen identifiziert
Schwellenwertsensitivität: Falls zutreffend, eine kleine Matrix, die zeigt, wie sich die Verwechslung bei verschiedenen Entscheidungsschwellenwerten ändert

Konfusionsmatrix über Prüfpunkte hinweg

Für die Verfolgung der Modellentwicklung sollten Konfusionsmatrizen in regelmäßigen Trainingsabständen (alle 10–20 Epochen) erstellt und protokolliert werden. Der Vergleich von Matrizen über Prüfpunkte hinweg zeigt:

Nimmt die Diagonalendichte konsistent zu (Modell verbessert sich)?
Verbessern sich bestimmte Verwechslungspaare, während andere stagnieren (gezielte Arbeit erforderlich)?
Plateauiert die Genauigkeit auf dem Validierungssatz, während sich die Trainingsmatrix weiter verbessert (Überanpassung)?
Verschieben sich Verwechslungsmuster zwischen den Klassen (Modell lernt andere Merkmale)?

Die Arena-Plattform und MLflow bieten Konfusionsmatrix-Tracking als Teil des Experimentenmanagements und generieren und versionieren automatisch Matrizen für jeden Trainingsdurchlauf.

Vermeidbare vs. unvermeidbare Verwechslung

Nicht alle Verwechslungen in der Matrix sind gleich. Fachexperten sollten Verwechslungsmuster überprüfen, um jedes außerdiagonale Paar zu klassifizieren als:

Vermeidbare Verwechslung: Die beiden Klassen sind für einen menschlichen Experten visuell unterscheidbar, und die Verwechslung des Modells weist auf ein Defizit in den Trainingsdaten, der Modellarchitektur oder dem Merkmalslernen hin. Ausblühungen vs. Korrosionsverfärbungen bei Bildern mit klaren Farbunterschieden fallen in diese Kategorie.

Unvermeidbare Verwechslung: Die beiden Klassen sind selbst für menschliche Experten schwer zu unterscheiden, oder die Unterscheidung erfordert Informationen, die im Eingabematerial nicht verfügbar sind (z. B. zeitliche Verlaufsdaten, Untergrunderkundung). Haarrisse vs. Oberflächenkratzer, bei denen beide als feine lineare Merkmale erscheinen, können allein anhand visueller Bilder unvermeidbar verwechselt werden.

Mehrdeutiger Ground Truth: Die wahre Klasse selbst ist aufgrund von Inter-Annotator-Unstimmigkeiten unsicher. Wenn zwei menschliche Prüfer bei 15 % der Fälle uneins darüber sind, ob eine Oberfläche „befriedigend" oder „schlecht" ist, kann von dem Modell nicht erwartet werden, dass es diese Übereinstimmungsgrenze überschreitet. Die Konfusionsmatrix sollte relativ zur menschlichen Übereinstimmungsbasislinie interpretiert werden – ein Modell, das eine 90 %ige Übereinstimmung mit einem Referenzstandard erreicht, kann ausgezeichnet sein, wenn die Inter-Rater-Reliabilität des Menschen nur 85 % beträgt.

Berichterstattung an Aufsichtsbehörden

Für Infrastruktur-Inspektionsmodelle, die in regulatorischen Compliance-Kontexten eingesetzt werden – wie ICAO Annex 14 Flugplatzzertifizierung oder FAA AC 150/5320-5D Befestigungsmanagement – dient die Konfusionsmatrix als zentrales Validierungsdokument. Die regulatorische Berichterstattung sollte umfassen:

Vollständige Konfusionsmatrix auf einem repräsentativen Testdatensatz
Precision und Recall pro Klasse für alle Schadens- oder Zustandsklassen
Konfusionsmatrix stratifiziert nach Umgebungsbedingungen (Beleuchtung, Oberflächenfeuchte, Aufnahmewinkel)
Vergleichsmatrix mit Modellvorhersagen vs. menschlichen Prüferbewertungen
Konfusionsmatrix bei mehreren Betriebsschwellenwerten mit Begründung für die Schwellenwertauswahl
Gewichteter Kappa-Koeffizient für ordinale Zustandsbewertungen

Die Konfusionsmatrix verwandelt bei korrekter Erstellung und Interpretation die Modellbewertung von einer einzelnen Genauigkeitszahl in ein reichhaltiges Diagnosewerkzeug, das die vollständige Fehlerstruktur eines Klassifikationssystems offenlegt. Für Infrastrukturinspektionsanwendungen, bei denen die Kosten verschiedener Fehlerarten drastisch variieren – ein übersehener Strukturschaden wiegt weit schwerer als ein Fehlalarm auf intakter Befestigung – ermöglicht dieses granulare Verständnis den Praktikern, Modelle abzustimmen, zu validieren und einzusetzen, die die spezifischen Zuverlässigkeitsanforderungen der Flugsicherheit erfüllen.

Häufig gestellte Fragen

: Eine Konfusionsmatrix ist eine Kreuztabellierung der tatsächlichen Klassenlabels (Ground Truth) gegen die von einem Klassifikationsmodell zugewiesenen vorhergesagten Klassenlabels. Zeilen repräsentieren typischerweise die wahren Klassen und Spalten die vorhergesagten Klassen. Jede Zelle (i, j) enthält die Anzahl der Instanzen, die zur wahren Klasse i gehören, aber als Klasse j vorhergesagt wurden. Die Diagonalzellen (i, i) repräsentieren korrekte Vorhersagen, und außerdiagonale Zellen repräsentieren Fehler. Bei einem binären Klassifikationsproblem ist die Matrix 2×2 mit Zellen für True Positives, False Positives, False Negatives und True Negatives. Bei Mehrklassenproblemen mit K Klassen ist die Matrix K×K, wobei jede Klasse eine eigene Zeile und Spalte hat.
: Bei der Infrastrukturinspektion führen KI-Modelle drei primäre Klassifikationsaufgaben durch: Oberflächentypklassifikation (Asphalt, Beton, Verbund, Schotter), Qualitätsstufenklassifikation (gut, befriedigend, schlecht, ausgefallen nach ICAO- oder ASTM-Normen) und Schadensklassifikation (Rissarten, Abplatzungen, Verwitterung, Fugenverschleiß). Für jede Aufgabe zeigt die Konfusionsmatrix genau, wo das Modell Fehler macht. Bei der Schadensklassifikation könnte eine Konfusionsmatrix zeigen, dass das Modell häufig Ausblühungen mit beginnender Korrosion an Betonbrückenbauteilen verwechselt oder Netzrisse mit Blockrissen auf Asphaltbefestigungen verwechselt. Durch die Analyse außerdiagonaler Muster können Modellentwickler visuell ähnliche Klassen identifizieren, die zusätzliche Trainingsdaten, spezifische Merkmalsentwicklung oder klassenspezifische Datenerweiterung benötigen, um die Verwechslungen zu reduzieren.
: Bei der binären Klassifikation (zwei Klassen, typischerweise positiv und negativ) hat die 2×2-Konfusionsmatrix vier Zellen: True Positives (korrekte positive Vorhersagen), False Positives (negative Instanzen als positiv vorhergesagt, Fehler 1. Art), False Negatives (positive Instanzen als negativ vorhergesagt, Fehler 2. Art) und True Negatives (korrekte negative Vorhersagen). Bei der Mehrklassen-Klassifikation mit K Klassen (K ≥ 3) ist die Matrix K×K. Jede Klasse wird nach dem One-vs-Rest-Prinzip bewertet – für eine bestimmte Klasse i ist die True-Positive-Anzahl die diagonale Zelle (i, i), False Positives sind die Summe der Spalte i ohne die Diagonale, und False Negatives sind die Summe der Zeile i ohne die Diagonale. Mehrklassen-Matrizen sind größer und bieten eine reichhaltigere Fehleranalyse, da sie zeigen, welche spezifischen Klassenpaare am häufigsten verwechselt werden.
: Für eine gegebene Klasse i in einer K×K-Konfusionsmatrix: Precision für Klasse i = TP_i / (TP_i + FP_i), wobei TP_i die diagonale Zelle (i, i) ist und FP_i die Summe der Spalte i minus TP_i. Recall für Klasse i = TP_i / (TP_i + FN_i), wobei FN_i die Summe der Zeile i minus TP_i ist. Beispiel: Bei einer 4-Klassen-Oberflächentypklassifikation mit Asphalt, Beton, Verbund und Schotter entspricht die Precision für ‚Asphalt‘ der Anzahl korrekt vorhergesagter Asphaltbilder geteilt durch alle als Asphalt vorhergesagten Bilder. Der Recall entspricht dem korrekt vorhergesagten Asphalt geteilt durch alle tatsächlichen Asphaltbilder. Der F1-Score ist das harmonische Mittel von Precision und Recall: F1 = 2 × (Precision × Recall) / (Precision + Recall).
: Normalisierung wandelt rohe Zählwerte in einer Konfusionsmatrix in Proportionen oder Prozentsätze um, um den Vergleich zwischen Klassen mit unterschiedlichen Stichprobengrößen zu erleichtern. Zeilenweise Normalisierung (normalize='true' in scikit-learn) teilt jede Zelle durch die Summe ihrer Zeile und zeigt für jede wahre Klasse, welcher Anteil der Instanzen als welche Klasse vorhergesagt wurde. Dies zeigt den Recall pro Klasse. Spaltenweise Normalisierung (normalize='pred') teilt durch die Spaltensummen und zeigt die Precision pro Klasse. Normalisierung ist unerlässlich, wenn die Klassenverteilungen unausgewogen sind – eine Klasse mit 10.000 Instanzen und 90 % Genauigkeit liefert 9.000 korrekte Vorhersagen, während eine Klasse mit 100 Instanzen bei 90 % Genauigkeit 90 korrekte Vorhersagen liefert. Ohne Normalisierung dominiert die größere Klasse visuell die Matrix und verbirgt schlechte Leistungen bei seltenen, aber kritischen Schadensklassen.
: Bei der Klassifikation von Oberflächentypen von Flugplatzbefestigungen nach ICAO-Normen zeigt eine Konfusionsmatrix, ob das Modell korrekt zwischen Asphalt (flexibel), Beton (starr), Verbund (Asphalt auf Beton) und Schotter/unbefestigten Oberflächen unterscheidet. Häufige Verwechslungen sind: Verbundoberflächen werden als reiner Asphalt klassifiziert, wenn die Asphaltdeckschicht dick ist; gealterter Beton wird als Verbund klassifiziert, wenn die Oberflächentextur einer Deckschicht ähnelt; und offenporige Asphaltdeckschichten (PFC) werden aufgrund ihres ausgeprägten visuellen Erscheinungsbildes falsch klassifiziert. Die Konfusionsmatrix hilft dabei, die problematischsten Oberflächentyp-Paare zu identifizieren, was gezielte Datenerfassung oder Modellverfeinerung ermöglicht. Für die ICAO-Konformität ist eine genaue Oberflächentypklassifikation entscheidend für die Berechnung von Flugzeugleistungsparametern wie Landestrecke, Bremsverhalten und Reibungskoeffizienten.
: Eine effektive Visualisierung von Konfusionsmatrizen kombiniert Farbcodierung, Annotationen und Normalisierung. Der Standardansatz verwendet eine Heatmap mit einer divergierenden Farbskala – Grün oder Blau für hohe Werte entlang der korrekten Diagonale, Rot oder warme Farben für außerdiagonale Fehler. Zellwerte werden als Textannotationen eingeblendet, entweder als rohe Zählwerte oder Prozentsätze, je nach Zielgruppe. Für technische Berichte bieten dreiwertige Zellen mit Anzahl, Zeilenprozent und Spaltenprozent vollständige Informationen. Für Führungszusammenfassungen ist eine zeilennormalisierte Matrix mit Prozentangaben und einer einheitlichen Farbskala besser verdaulich. Zu den Best Practices gehören: Sicherstellen, dass die Farbskala den gesamten Wertebereich abdeckt, alle Zeilen und Spalten klar beschriften, eine Farbskalenlegende hinzufügen und die Gesamtgenauigkeit als Bildunterschrift angeben. Python-Bibliotheken wie scikit-learn, matplotlib und seaborn bieten integrierte Funktionen zur Erstellung von publikationsreifen Konfusionsmatrix-Visualisierungen.
: Bei der Schadensklassifikation von Betoninfrastruktur könnte eine typische Konfusionsmatrix Klassen enthalten wie: Risse (mit Unterarten: Haarrisse, mäßig, schwer), Abplatzungen, Delamination, Ausblühungen, Korrosionsverfärbungen, Abblätterungen, Fugenverschleiß und gesunder Beton. Die Matrixdimensionen hängen von der Anzahl der Schadensklassen ab, die das Modell zu erkennen trainiert wurde. Jede diagonale Zelle zeigt korrekte Erkennungen pro Schadensart, während außerdiagonale Zellen spezifische Verwechslungen offenbaren – zum Beispiel werden Ausblühungen (weiße kristalline Ablagerungen) häufig mit beginnenden Korrosionsverfärbungen (weiß/rostfarbene Ablagerungen) verwechselt, oder Delamination wird mit Abplatzungen verwechselt, wenn beide als Oberflächenunregelmäßigkeiten auftreten. Die Analyse dieser Verwechslungsmuster ermöglicht gezielte Erweiterungen: Hinzufügen weiterer Trainingsbeispiele der verwechselten Paare, Anwenden von Farbtransformationen zur Betonung chemisch bedingter Farbunterschiede oder Anpassen der Klassen gewichtungen in der Verlustfunktion.
: Cohens Kappa (κ) ist eine aus der Konfusionsmatrix abgeleitete Metrik, die die Übereinstimmung zwischen vorhergesagten und tatsächlichen Klassenlabels misst und dabei die Übereinstimmung berücksichtigt, die zufällig auftreten würde. Die Formel lautet κ = (Genauigkeit - p_e) / (1 - p_e), wobei p_e die Wahrscheinlichkeit der Zufallsübereinstimmung ist, berechnet aus den Zeilen- und Spaltensummen der Konfusionsmatrix. Kappa-Werte reichen von -1 (vollständige Nichtübereinstimmung) bis +1 (perfekte Übereinstimmung), wobei 0 eine Übereinstimmung bedeutet, die nicht besser als der Zufall ist. Bei der Infrastrukturinspektion ist Kappa besonders wertvoll bei der Bewertung von Modellen auf unausgewogenen Datensätzen – ein Modell, das 95 % Genauigkeit erreicht, indem es einfach ‚gesunder Beton‘ für jedes Bild vorhersagt, hätte ein niedriges Kappa, da die Zufallsübereinstimmung hoch ist. Ein Kappa unter 0,40 zeigt eine schwache Übereinstimmung an, 0,40–0,75 eine mäßige bis gute Übereinstimmung und über 0,75 eine hervorragende Übereinstimmung jenseits des Zufalls.

Bewerten Sie Ihre Inspektionsmodelle mit Präzision

TarmacView nutzt die Konfusionsmatrix-Analyse, um KI-Modelle für die Infrastrukturinspektion bei der Klassifikation von Oberflächentypen, Qualitätsstufen und Schadensarten zu validieren. Stellen Sie sicher, dass Ihre Modelle mit pro-Klassen-Bewertungsmetriken aus umfassenden Konfusionsmatrizen zuverlässig arbeiten.

Kontaktieren Sie uns Demo vereinbaren

Mehr erfahren

Fehlerellipse

Eine Fehlerellipse ist ein statistisches und grafisches Hilfsmittel in der Vermessung, Geodäsie und Geowissenschaft, das die Positionsunsicherheit eines gemesse...

Nov 18, 2025 5 Min. Lesezeit

Surveying Geodesy +5

Defect Gating – Kontextbewusste Filterung von Defektvorhersagen

Defect Gating ist eine Inferenzstrategie, die vorhergesagte Defektlabel nach Oberflächentyp und Strukturdomäne filtert, um Falschpositive zu unterdrücken – z. B...

Jun 17, 2026 22 Min. Lesezeit

Technology Defect Detection +3

+++ title = “Transfer Learning” description = “Transfer Learning wendet Wissen aus vortrainierten Modellen auf großen, allgemeinen Datensätzen...

Jun 18, 2026 7 Min. Lesezeit

Technology Machine Learning +2

Konfusionsmatrix

Definition und Aufbau

Binäre Konfusionsmatrix

Mehrklassen-Konfusionsmatrix

Ableitung von Precision, Recall und F1 pro Klasse

Formeln für Pro-Klassen-Metriken

Makro-, Mikro- und Gewichtete Mittelung

Matthews-Korrelationskoeffizient (MCC)

Gesamtgenauigkeit aus der Konfusionsmatrix

Das Genauigkeits-Paradoxon

Klassenweise Genauigkeit

Ausgeglichene Genauigkeit

Identifizieren verwechselter Klassen

Verwechslungsmuster

Quantifizierung verwechselter Paare

Heatmap-Visualisierung

Verwechslungsgesteuerte Verbesserung

Konfusionsmatrix für die Oberflächentypklassifikation

Klassifikationsaufgabe

Konfusionsmatrix für Oberflächentypen

Betriebliche Auswirkungen

Konfusionsmatrix für die Qualitätsstufenklassifikation

Klassifikationsaufgabe

Konfusionsmatrix für Qualitätsstufen

Außerdiagonale Richtungsabhängigkeit

Kappa für ordinale Klassifikation

Konfusionsmatrix für die Schadensklassifikation

Klassifikationsaufgabe

Konfusionsmatrix für Betonschäden

Analyse der Verwechslungsmuster

Verwechslungsgesteuerte Abhilfe für Schadensmodelle

Visualisierung und Berichterstattung

Standard-Heatmap-Layout

Normalisierungsoptionen

Berichtsvorlagen

Konfusionsmatrix über Prüfpunkte hinweg

Vermeidbare vs. unvermeidbare Verwechslung

Berichterstattung an Aufsichtsbehörden

Häufig gestellte Fragen

Bewerten Sie Ihre Inspektionsmodelle mit Präzision

Mehr erfahren

Fehlerellipse

Defect Gating – Kontextbewusste Filterung von Defektvorhersagen

Cookie-Einstellungen

Notwendige Cookies

Analyse-Cookies