Was ist KI-basierte Risserkennung und wie funktioniert sie?

Die KI-basierte Risserkennung verwendet Deep-Learning-Computer-Vision-Modelle – hauptsächlich Convolutional Neural Networks (CNNs), U-Net-Architekturen, DeepLab mit Atrous Spatial Pyramid Pooling und Vision Transformer – um Risse in Fahrbahn-, Startbahn-, Brückenbelags- und Betonoberflächenbildern automatisch zu identifizieren. Die Modelle werden auf Pixel-genau annotierten Datensätzen trainiert, bei denen jedes Bild eine entsprechende binäre Maske aufweist, die angibt, welche Pixel zu Rissen gehören. Während der Inferenz analysiert das Modell jedes Pixel im Eingabebild und klassifiziert es als Riss oder Nicht-Riss (semantische Segmentierung), wodurch eine Risssegmentierungskarte erstellt wird. Nachbearbeitungsschritte wie Skelettierung und Distanztransformation berechnen Rissbreite, -länge und -fläche. Die Technologie wird auf Edge-Geräten (NVIDIA Jetson Orin, drohnenmontierte Computer) für Echtzeitinspektionen oder auf Cloud-Servern zur Batch-Verarbeitung großer Survey-Datensätze eingesetzt.

Welche Deep-Learning-Architekturen werden für die Risserkennung verwendet?

Zu den wichtigsten Architekturen gehören: U-Net (Encoder-Decoder mit Skip-Verbindungen, ~31M Parameter), das räumliche Details erhält, die für die Abgrenzung feiner Risse entscheidend sind; DeepLabV3+ (ResNet-101 oder Xception-Backbone mit Atrous Spatial Pyramid Pooling, ~42–55M Parameter), das multi-skalen Kontext erfasst; Vision Transformer wie SETR und TransUNet (86M–632M Parameter) mit globalen rezeptiven Feldern; EGA-UNet (~2,3M Parameter), das effiziente Ghost Convolutions mit adaptivem Fourier-Filter-Token-Mixing für leichtgewichtige Echtzeitbereitstellung mit 73,1 % Dice kombiniert; und DINOv3 (selbstüberwachter ViT, bis zu 7B Parameter), das die Risserkennung mit minimalen annotierten Daten durch Transferlernen mit eingefrorenem Backbone ermöglicht.

Welche Datensätze werden zum Training von KI-Risserkennungsmodellen verwendet?

Zu den wichtigsten Benchmark-Datensätzen gehören: Crack500 (500 Bilder mit 2000×1500 Auflösung von Fahrbahnen in Philadelphia, Pixel-genaue Annotationen); DeepCrack (537 Bilder mit 544×384 von verschiedenen Beton- und Asphaltoberflächen); CrackForest Dataset / CFD (118 Bilder mit 480×320 von städtischen Straßen in Peking); CrackTree200 (206 Bilder mit 800×600 mit anspruchsvollen kontrastarmen Bedingungen); GAPs384 (1.969 Bilder mit 1920×1080 von deutschen Asphaltstraßen, der größte öffentliche Einzelquellen-Datensatz); und NHA12D (80 hochauflösende Bilder von der britischen A12-Autobahn, 40 Beton + 40 Asphalt). Risspixel machen typischerweise nur 2–8 % der Gesamtpixel pro Bild aus, was ein extremes Klassenungleichgewicht erzeugt, das spezialisierte Verlustfunktionen (Focal Loss, Dice Loss, Tversky Loss) während des Trainings erfordert.

Wie werden Rissbreite und -länge aus der KI-Segmentierungsausgabe gemessen?

Die Rissquantifizierung aus binären Segmentierungsmasken folgt einer Pipeline der rechnergestützten Geometrie: (1) Skelettierung mittels Zhang-Suen-Ausdünnungsalgorithmus reduziert die Rissregion auf eine einzelpixelbreite Mittellinie; (2) Die euklidische Distanztransformation berechnet den Mindestabstand von jedem Skelettpixel zur Rissgrenze, wodurch die halbe Breite an jedem Punkt ermittelt wird (Rissbreite = 2 × Abstand); (3) Skelettdurchlauf mit Chain-Code-Kodierung misst die Risslänge unter Verwendung von 4-verbundenen Schritten (1 Pixel) und diagonalen Schritten (√2 ≈ 1,414 Pixel); (4) Pixel-Millimeter-Kalibrierung unter Verwendung bekannter Referenzobjekte, Laserprojektionssysteme (zwei parallele Strahlen im bekannten Abstand) oder Kamerageometrie (FOV = 2 × Z × tan(HFOV/2)). Bei 10 m Drohnenflughöhe mit einer 20-MP-Kamera beträgt der typische Bodenabtastabstand etwa 0,5 mm/Pixel, was die Erkennung von Rissen mit einer Breite von nur 0,3–0,5 mm ermöglicht.

Welche Bewertungsmetriken werden für Risserkennungsmodelle verwendet?

Die Risserkennung verwendet Pixel-basierte binäre Klassifikationsmetriken: IoU (Intersection over Union = TP/(TP+FP+FN), typischer Bereich 0,55–0,75); Dice-Koeffizient (F1 = 2TP/(2TP+FP+FN), typischer Bereich 0,65–0,80), der mit IoU durch Dice = 2×IoU/(1+IoU) zusammenhängt; Precision (TP/(TP+FP)); Recall (TP/(TP+FN)); und mean Average Precision (mAP@[0.5:0.95]) für objektbasierte Ansätze. Die Pixelgenauigkeit wird nicht empfohlen, da Risspixel 95 % Genauigkeit, während es null Risse erkennt. BF (Boundary F1) misst die Kantengenauigkeit, typischerweise 0,40–0,60, was die Schwierigkeit widerspiegelt, Rissgrenzen präzise abzugrenzen. Die Falsch-Negativ-Rate (FNR = FN/(TP+FN)) ist für sicherheitskritische Anwendungen wie die Startbahninspektion von entscheidender Bedeutung, da übersehene Risse ein größeres Risiko darstellen als Fehlalarme.

Kann die KI-Risserkennung auf Edge-Geräten und Drohnen eingesetzt werden?

Ja. Der Edge-Einsatz für die Echtzeit-Risserkennung ist auf NVIDIA Jetson-Modulen (Orin Nano Super: 67 TOPS bei 7–15 W, 249 $; Orin NX: 100 TOPS; AGX Orin: 275 TOPS) und Raspberry Pi 5 mit Hailo-8L NPU (13 TOPS) machbar. Zu den Inferenzoptimierungstechniken gehören: TensorRT FP16 (2× Durchsatz gegenüber FP32, <0,5 % Genauigkeitsverlust); INT8-Quantisierung durch Post-Training oder quantisierungsbewusstes Training (3–4× Durchsatz, 0,5–3 % Genauigkeitsverlust); Channel Pruning (30–50 % FLOPs-Reduktion); und Knowledge Distillation (Schülermodell erreicht 95–98 % der Lehrergenauigkeit mit 70–90 % weniger Parametern). Für Drohneninspektionen reduziert eine selektive Upload-Strategie (On-Device-Inferenz bei 10–30 FPS, Übertragung nur risspositiver Bilder) die Bandbreite von ~15–25 Mbps (volles 4K-Video) auf ~1–10 Mbps und ermöglicht so den Betrieb von Multi-Drohnen-Flotten.

Welche ICAO- und FAA-Standards gelten für die Rissinspektion von Start- und Landebahnen?

ICAO Annex 14, Band I (8. Ausgabe, 2018) klassifiziert Risse nach Breite: haarfein ( 6 mm). Jeder Riss >3 mm Breite an der Oberfläche muss innerhalb von 90 Tagen abgedichtet oder repariert werden; Abplatzungen an den Risskanten verkürzen den Zeitrahmen auf 30 Tage. FAA Advisory Circular 150/5200-30D verlangt die Dokumentation jedes Oberflächenzustands, der die Brems- oder Lenkfähigkeit von Flugzeugen beeinträchtigt. Der Runway Condition Code (RwyCC) reicht von 0 bis 6 und ist mit der ICAO harmonisiert. ASTM D5340-12 definiert Abzugswerte für den Pavement Condition Index (PCI) nach Riss-Schweregrad und -Dichte. Die KI-Risserkennung unterstützt diese regulatorischen Rahmenwerke direkt, indem sie objektive, wiederholbare Rissmessungen mit Pixel-genauer Präzision über gesamte Startbahnflächen während eines einzigen Drohnen- oder Fahrzeug-Survey-Durchgangs liefert.

Was sind die derzeitigen Einschränkungen der KI-basierten Risserkennung?

Zu den wichtigsten Einschränkungen gehören: (1) Generalisierung über verschiedene Fahrbahnarten – Modelle, die auf einem Oberflächentyp (z. B. Asphalt) trainiert wurden, verschlechtern sich auf einem anderen (z. B. Beton) um 5–15 % IoU ohne Feinabstimmung oder Domänenanpassung; (2) Lichtempfindlichkeit – Schatten, nasse Oberflächen und tief stehende Sonne reduzieren die Erkennungsgenauigkeit um 10–20 %; (3) Erkennung feiner Risse – Risse schmaler als 2–3 Pixel liegen nahe der Auflösungsgrenze von Segmentierungsmodellen; (4) Klassenungleichgewicht – Risspixel machen <5 % der Trainingsdaten aus, was spezialisierte Verlustfunktionen und Datenaugmentierung erfordert; (5) Falschpositive durch Oberflächenmerkmale – Ölflecken, Baufugen, Reifenspuren und Oberflächentexturvariationen erzeugen Nicht-Riss-Anomalien; (6) Die Überprüfung durch einen menschlichen Experten bleibt für sicherheitskritische Infrastrukturentscheidungen notwendig; (7) Regulatorische Akzeptanz – KI-basierte Inspektionsergebnisse müssen für die offizielle Fahrbahnzustandsberichterstattung gegen etablierte Methoden (Kettenzug, Impact-Echo, Kernbohrungen) validiert werden.

KI-basierte Risserkennung für die Inspektion von Infrastruktur

Q: Welche ICAO- und FAA-Standards gelten für die Rissinspektion von Start- und Landebahnen?

ICAO Annex 14, Band I (8. Ausgabe, 2018) klassifiziert Risse nach Breite: haarfein ( 6 mm). Jeder Riss >3 mm Breite an der Oberfläche muss innerhalb von 90 Tagen abgedichtet oder repariert werden; Abplatzungen an den Risskanten verkürzen den Zeitrahmen auf 30 Tage. FAA Advisory Circular 150/5200-30D verlangt die Dokumentation jedes Oberflächenzustands, der die Brems- oder Lenkfähigkeit von Flugzeugen beeinträchtigt. Der Runway Condition Code (RwyCC) reicht von 0 bis 6 und ist mit der ICAO harmonisiert. ASTM D5340-12 definiert Abzugswerte für den Pavement Condition Index (PCI) nach Riss-Schweregrad und -Dichte. Die KI-Risserkennung unterstützt diese regulatorischen Rahmenwerke direkt, indem sie objektive, wiederholbare Rissmessungen mit Pixel-genauer Präzision über gesamte Startbahnflächen während eines einzigen Drohnen- oder Fahrzeug-Survey-Durchgangs liefert.

Die KI-basierte Risserkennung nutzt Computer Vision – Convolutional Neural Networks, Vision Transformer und semantische Segmentierungsmodelle – um Risse in Fahrbahn- und Strukturbildern automatisch zu identifizieren, zu klassifizieren und zu vermessen. Die Technologie bildet die Grundlage für automatisierte Inspektionsprogramme von Straßen, Start- und Landebahnen sowie Brücken in der Zivilluftfahrt und im Verkehrswesen.

KI-basierte Risserkennung für die Inspektion von Infrastruktur

Problemdefinition und Herausforderungen

KI-basierte Risserkennung ist eine Computer-Vision-Technologie, die Deep-Learning-Modelle – Convolutional Neural Networks (CNNs), Encoder-Decoder-Architekturen und Vision Transformer – einsetzt, um Risse in Fahrbahn-, Startbahn-, Brückenbelags- und Betonstrukturoberflächen aus digitalen Bildern automatisch zu identifizieren, zu klassifizieren, zu segmentieren und zu vermessen. Die Technologie ersetzt oder ergänzt die manuelle Sichtprüfung durch menschliche Ingenieure und wandelt subjektive, arbeitsintensive Erhebungen in objektive, skalierbare, datengestützte Bewertungen um. Für Betreiber von Flughäfen und ziviler Infrastruktur unterstützt die automatisierte Risserkennung direkt die Pavement Condition Index (PCI)-Bewertung gemäß ASTM D5340-12, die Runway Condition Code (RwyCC)-Berichterstattung gemäß ICAO Annex 14 und die vorausschauende Instandhaltungsplanung.

Luftaufnahme einer Drohne von einer Startbahn-Fahrbahnoberfläche mit sichtbaren Rissen, KI-Computer-Vision-Analyse-Overlay mit hervorgehobenen erkannten Rissmustern

Das Problem der Risserkennung stellt einzigartige Herausforderungen dar, die es von allgemeinen semantischen Segmentierungsaufgaben unterscheiden. Risse sind dünne, längliche Strukturen – typischerweise 0,1 mm bis 5 mm breit – die nur 2–8 % der Gesamtpixel in einem gegebenen Bild ausmachen, was ein extremes Klassenungleichgewicht während des Modelltrainings erzeugt. Das Vordergrund-Hintergrund-Verhältnis für Risspixel beträgt etwa 1:20 bis 1:50, was bedeutet, dass ein naiver Klassifikator, der alle Pixel als Hintergrund vorhersagt, 95 %+ Genauigkeit erreicht, während er null Risse erkennt. Die Rissmorphologie variiert stark: Längsrisse verlaufen parallel zur Fahrbahnmitte, Querrisse verlaufen senkrecht dazu, Alligatorrisse (Ermüdungsrisse) bilden miteinander verbundene polygonale Muster und Reflexionsrisse pflanzen sich durch Deckschichten von darunterliegenden Fugen fort. Jeder Typ erfordert eine unterschiedliche geometrische Charakterisierung.

Beleuchtungs- und Umgebungsvariabilität erschweren die Erkennung zusätzlich. Schatten von Bauwerken und überhängender Vegetatur erzeugen kontrastarme Bereiche, in denen Risse nahezu unsichtbar werden. Nasse Fahrbahn reduziert den Oberflächentemperaturkontrast für wärmebasierte Verfahren und verändert die Reflexion im sichtbaren Spektrum. Ölflecken, Reifenspuren, Gummiablagerungen, Baufugen, Oberflächentexturvariationen (Rillen, Riefen, Besenstrich) und Ablagerungen erzeugen falschpositive Merkmale, die Risse optisch imitieren. Eine Studie aus dem Jahr 2025, veröffentlicht in Scientific Reports (EGA-UNet-Paper, Vol. 15, Artikel 33818), zeigte, dass die Risserkennungsgenauigkeit auf komplexen Hintergründen selbst mit hochmodernen Aufmerksamkeitsmechanismen um 10–20 % gegenüber sauberen, gleichmäßigen Oberflächen abnimmt.

Skalen- und Auflösungsbeschränkungen bedingen einen grundlegenden Zielkonflikt. Hochauflösende Bilder (Bodenabtastabstand unter einem Millimeter pro Pixel) erfassen feine Risse, erfordern jedoch große Speicher-, Bandbreiten- und Verarbeitungsressourcen. Bilder mit niedrigerer Auflösung decken mehr Fläche pro Flug- oder Fahrzeugdurchgang ab, übersehen jedoch Risse, die schmaler als 2–3 Pixel sind. Bei der drohnenbasierten Startbahninspektion in 15 m Höhe mit einer 24-MP-Kamera beträgt der typische Bodenabtastabstand 1,0–1,5 mm/Pixel, was bedeutet, dass Risse unter 0,3 mm Breite unterhalb der Erkennungsschwelle liegen. Diese Auflösungsgrenze ist eine harte physikalische Einschränkung, die kein KI-Modell überwinden kann – sie bestimmt die minimale erkennbare Rissbreite für jede gegebene Bildgebungsplattform und Flughöhe.

Modellarchitekturen für die Risserkennung

U-Net

U-Net, 2015 von Ronneberger, Fischer und Brox an der Universität Freiburg vorgestellt, bleibt die am weitesten verbreitete Architektur für die Pixel-genaue Rissssegmentierung. Die symmetrische Encoder-Decoder-Struktur mit Skip-Verbindungen ist besonders gut für die Risserkennung geeignet, da Risse dünne, räumlich lokalisierte Merkmale sind, die den Erhalt hochfrequenter Details während der gesamten Downsampling- und Upsampling-Pipeline erfordern.

Der U-Net Encoder (kontrahierender Pfad) besteht aus vier Downsampling-Blöcken. Jeder Block enthält zwei 3×3-Faltungen (Padding=same) gefolgt von ReLU-Aktivierung und einer 2×2-Max-Pooling-Operation (Schrittweite=2). Die Filteranzahl verdoppelt sich auf jeder Ebene: 64 → 128 → 256 → 512 → 1024 am Engpass. Bei einer 512×512-Pixel-Eingabe reduzieren sich die räumlichen Dimensionen durch den Encoder wie folgt: 512 → 256 → 128 → 64 → 32 in der tiefsten Schicht. Die Engpass (Bottleneck)-Schicht am unteren Ende der U-Form enthält 1024 Merkmalskarten mit 32×32 Auflösung und repräsentiert die abstraktesten, semantisch reichhaltigsten Merkmale.

Der Decoder (expandierender Pfad) spiegelt den Encoder mit vier Upsampling-Blöcken wider. Jeder Block wendet eine 2×2 transponierte Faltung (Deconvolution) an, die die Anzahl der Filter halbiert und die räumlichen Dimensionen verdoppelt. Die hochgesampelte Merkmalskarte wird mit der entsprechenden Merkmalskarte aus dem Encoder-Pfad über Skip-Verbindungen konkateniert – zum Beispiel erhält die 128×128-Ebene des Decoders eine direkte Konkatenation von der 128×128-Ebene des Encoders. Dieser Skip-Verbindungsmechanismus ist entscheidend: Er versorgt den Decoder mit hochauflösenden räumlichen Details aus dem Encoder, die ansonsten während des aggressiven Downsamplings verloren gehen würden. Nach der Konkatenation verfeinern zwei 3×3-Faltungen mit ReLU die kombinierten Merkmale.

Die letzte Ausgabeschicht ist eine 1×1-Faltung mit Sigmoid-Aktivierung, die eine einkanalige Wahrscheinlichkeitskarte erzeugt, bei der jeder Pixelwert (0 bis 1) die Wahrscheinlichkeit angibt, dass dieser Pixel zu einer Rissregion gehört. Ein Schwellenwert (typischerweise 0,5) wandelt Wahrscheinlichkeiten in eine binäre Riss-/Nicht-Riss-Segmentierung um.

Das ursprüngliche U-Net enthält ~31 Millionen Parameter und 23 Faltungsschichten. Bei einer 512×512-Eingabe beträgt die Inferenzgeschwindigkeit etwa 40 ms pro Bild auf einer modernen GPU (NVIDIA RTX 3080 oder äquivalent). Leichtgewichtige Varianten wie ResU-Net (unter Verwendung residueller Verbindungen anstelle einfacher Faltungen) reduzieren die Parameter auf ~7,8 Millionen und erreichen dabei eine mittlere IoU von 68,47 % auf Rissdatensätzen. EGA-UNet reduziert weiter auf ~2,3 Millionen Parameter und verbessert den Dice auf 73,1 % durch Ghost Convolutions und Fourier-basiertes Token-Mixing.

Die Skip-Verbindungen von U-Net sind architektonisch wesentlich für die Risserkennung. Ohne sie würden dünne Risse (1–5 Pixel breit) während des 4-fachen Downsamplings (32-fache Reduktion am Engpass) vollständig verloren gehen – ein 3 Pixel breiter Riss am Eingang wird zu einem Subpixel-Merkmal am Engpass, das durch alleiniges Upsampling nicht wiederhergestellt werden kann. Die Skip-Verbindungen umgehen diesen Informationsengpass vollständig, indem sie dem Decoder die voll aufgelöste Rissgeometrie aus dem Encoder bereitstellen.

DeepLabV3+

DeepLabV3+, 2018 von Chen et al. bei Google entwickelt, adressiert die Risserkennung durch atrous (dilatierte) Faltungen und das Atrous Spatial Pyramid Pooling (ASPP)-Modul. Im Gegensatz zu U-Net, das aggressiv heruntersampelt und über Skip-Verbindungen wiederherstellt, behält DeepLab höher aufgelöste Merkmalskarten während des gesamten Backbones bei, indem dilatierte Faltungen verwendet werden, die das rezeptive Feld erweitern, ohne die räumlichen Dimensionen zu reduzieren.

Der Backbone ist typischerweise ResNet-101 (101 Schichten, ~42,6 Millionen Parameter) oder Xception-65 (~54,7 Millionen Parameter). Standardfaltungen im Backbone werden durch atrous-Faltungen ersetzt – 3×3-Kernel mit Dilatationsraten (Löchern), die zwischen die Kernelelemente eingefügt werden. Ein 3×3-Kernel mit Dilatationsrate r=2 deckt ein 5×5 rezeptives Feld ab; r=4 deckt 9×9 ab; r=8 deckt 17×17 ab; und r=16 deckt 33×33 ab – alle mit der gleichen Parameteranzahl (9 Gewichte) wie eine Standard-3×3-Faltung. Diese Eigenschaft ist für die Risserkennung entscheidend: Sie ermöglicht es dem Modell, einen größeren Kontext um jedes Pixel herum zu sehen (Unterscheidung von Rissen von Oberflächentextur), ohne den Auflösungsverlust, der durch Downsampling entstehen würde.

Das ASPP-Modul wendet vier parallele atrous-faltende Zweige mit Dilatationsraten r=6, 12, 18 und 24 (für Output-Stride=16) an, jeder mit 256 Filtern und 3×3-Kerneln. Ein zusätzlicher 1×1-Faltungszweig und ein Bild-Pooling-Zweig (globaler Durchschnittspooling → 1×1-Faltung → bilineares Upsampling) vervollständigen das Modul. Alle fünf Zweige erzeugen 256-Kanal-Merkmalskarten, die konkateniert und durch eine weitere 1×1-Faltung geleitet werden. Die Multiskalenfähigkeit des ASPP-Moduls ist besonders wichtig für Risse, die in der Breite stark variieren – ein haarfeiner Riss (<1 mm) und ein breiter Riss (>6 mm) erfordern unterschiedliche rezeptive Feldgrößen für eine optimale Erkennung.

Der DeepLabV3+ Decoder ist im Vergleich zum vollständigen U-Net-Decoder leichtgewichtig: bilineares Upsampling um 4×, Konkatenation mit niedrigstufigen Merkmalen aus einer frühen Backbone-Schicht (reduziert auf 48 Kanäle durch 1×1-Faltung), zwei 3×3-Faltungen (256 Filter) und abschließendes bilineares Upsampling um 4× auf die ursprüngliche Auflösung. Der Output-Stride beträgt typischerweise 16 (Eingabeauflösung geteilt durch 16 am Engpass), manchmal 8 für dichtere Merkmalskarten auf Kosten des doppelten Speicherverbrauchs.

DeepLabV3+ erreicht etwa 78,5 % mIoU auf Rissdatensätzen. Die EGA-UNet-Studie (2025) berichtete jedoch, dass DeepLabV3+ gegenüber leichtgewichtigen Architekturen wie EGA-UNet (73,1 % Dice gegenüber niedrigerem Wert für DeepLabV3+) aufgrund unzureichender Erhaltung feiner Details an Rissgrenzen schlechter abschneidet. Die Dilatationen des ASPP-Moduls verschwimmen zwar effektiv für den Multiskalenkontext, verwischen jedoch feine räumliche Details, die für eine genaue Rissbreitenmessung unerlässlich sind.

Vision Transformer (ViT)

Vision Transformer (ViT), 2020 von Dosovitskiy et al. bei Google vorgestellt, wendet die Transformer-Self-Attention-Architektur – ursprünglich für die Verarbeitung natürlicher Sprache entwickelt – auf die Bildanalyse an. ViT unterteilt ein Eingabebild in nicht überlappende Patches der Größe P×P (typischerweise 16×16 Pixel), linearisiert jeden Patch in einen Vektor und verarbeitet die Sequenz von Patch-Embeddings durch standardmäßige Transformer-Encoder-Schichten mit Multi-Head Self-Attention.

Für eine 224×224-Eingabe mit 16×16-Patches erzeugt ViT (224/16)² = 196 Patch-Embeddings. Jeder Patch der Dimension 16×16×3 (RGB) wird zu einem 768-dimensionalen Vektor abgeflacht und linear auf die Embedding-Dimension D projiziert. Der Transformer-Encoder besteht aus L gestapelten Schichten. ViT-Base verwendet L=12, D=768 und 12 Aufmerksamkeitsköpfe (86M Parameter). ViT-Large verwendet L=24, D=1024 und 16 Köpfe (307M Parameter). ViT-Huge verwendet L=32, D=1280 und 16 Köpfe (632M Parameter). Die Self-Attention-Komplexität skaliert mit O(n²·D) – 196 Patches mit D=768 erfordern etwa 28 Millionen Operationen pro Kopf und Schicht.

Für die Rissssegmentierung wird ViT als Backbone in hybriden Encoder-Decoder-Architekturen verwendet. TransUNet ersetzt den U-Net-Encoder durch einen ViT und kombiniert den globalen Transformer-Kontext mit einem CNN-Decoder zur Wiederherstellung feiner Details. SwinUNet verwendet einen hierarchischen Swin Transformer mit verschobenen Fenstern, um die O(n²)-Rechenkosten zu reduzieren. SETR (SEgmentation TRansformer) wendet ViT direkt als Encoder mit progressivem Upsampling an.

Der Vorteil von ViT für die Risserkennung liegt in seinem globalen rezeptiven Feld. CNNs verarbeiten Informationen lokal und benötigen viele Schichten, um Informationen über große räumliche Distanzen zu propagieren. Der Self-Attention-Mechanismus von ViT verbindet jeden Patch mit jedem anderen Patch in einer einzigen Schicht und ermöglicht so die Erkennung langer, durchgehender Risse, die Hunderte oder Tausende von Pixeln überspannen – zum Beispiel Ermüdungsrisse, die sich über die gesamte Breite einer Startbahn schlängeln. Hybride ViT-CNN-Modelle erreichen 74–78 % IoU auf Rissdatensätzen, wobei TransUNet besondere Stärke bei Alligatorrissmustern (miteinander verbunden) zeigt.

Die entscheidende Einschränkung sind die Rechenkosten. Ein 512×512-Bild, unterteilt in 16×16-Patches, erzeugt (512/16)² = 1.024 Patches, was 1.024² ≈ 1 Million Aufmerksamkeitsberechnungen pro Schicht erfordert – eine Größenordnung mehr als 196 Patches für 224×224-Eingaben. Dies macht einen vollständigen ViT-Einsatz auf Edge-Geräten (Drohnen, mobile Inspektionsfahrzeuge) ohne erhebliche Kompression oder Pruning unpraktikabel.

DINOv3

DINOv3, 2025 von Meta AI veröffentlicht, repräsentiert den Stand der Technik bei selbstüberwachten Vision Transformern. Es ist die dritte Generation der DINO-Familie (DIstillation with NO labels), trainiert in beispiellosem Umfang: bis zu 7 Milliarden Parametern auf 1,7 Milliarden unbeschrifteten Bildern. DINOv3 verwendet ein Lehrer-Schüler-Framework, bei dem der Schüler lernt, die Ausgabedarstellungen des Lehrers ohne menschliche annotierte Daten nachzuahmen.

Die wesentliche architektonische Neuerung von DINOv3 ist Gram Anchoring – eine Regularisierungstechnik, die nach etwa 1 Million Trainingsiterationen angewendet wird und dichte (Patch-Ebene) Merkmalsdarstellungen stabilisiert. Die Gram-Matrix des Schülermodells (paarweise Patch-Ähnlichkeit, Dimensionen N×N wobei N=Anzahl der Patches) wird so eingeschränkt, dass sie nahe an einer eingefrorenen „Gram-Lehrer“-Kopie bleibt. Dies verhindert dense feature collapse, eine Fehlermodus im selbstüberwachten Lernen, bei dem unterschiedliche Bild-Patches trotz semantischer Unterschiede zu ähnlichen Embeddings konvergieren. Frühere DINO-Varianten (v1 und v2) litten während des erweiterten Trainings unter diesem Kollaps; Gram Anchoring ermöglicht stabiles Training über Milliarden von Bildern.

Für die Risserkennung liegt die Relevanz von DINOv3 im Frozen-Backbone-Paradigma. Der vortrainierte ViT-Backbone (verfügbar in Größen von ViT-Small mit 21M Parametern bis ViT-Huge mit 632M und dem Flaggschiffmodell mit 7B Parametern) wird eingefroren und als universeller visueller Encoder verwendet. Leichtgewichtige aufgabenspezifische Köpfe – lineare Sonden, MLP-Adapter oder kleine Faltungsköpfe – werden darauf trainiert, ohne durch den Backbone zurückzupropagieren. Dies ermöglicht:

Few-Shot-Risserkennung: Eine lineare Sonde, die auf nur 50 beschrifteten Rissbildern trainiert wurde, erreicht eine Segmentierungsgenauigkeit, die mit einem vollständig überwachten CNN vergleichbar ist, das auf 500+ Bildern trainiert wurde.
Domänenübergreifende Übertragung: Aus Naturbildern (ImageNet-Niveau) gelernte Merkmale werden auf Fahrbahnrissbilder übertragen, ohne domänenspezifisches Vortraining.
Multitasking-Einsatz: Ein einziger eingefrorener Backbone dient gleichzeitig der Risserkennung, Schlaglocherkennung, Fugenabdichtungsbewertung und Fahrbahnmarkierungsbewertung über verschiedene leichtgewichtige Köpfe.

Die Patch-Ebene-Merkmale von DINOv3 (anstelle globaler Bild-Embeddings) bewahren die feinkörnigen räumlichen Informationen, die für die Abgrenzung feiner Risse erforderlich sind. Die ViT-Base-Variante (86M Parameter, 12 Schichten, 768 Embedding-Dimension) bietet das beste Genauigkeits-zu-Rechenleistung-Verhältnis für Infrastrukturinspektionsanwendungen. DINOv3 ist besonders vielversprechend für Startbahninspektionsprogramme, bei denen beschriftete Rissdaten rar sind – ein häufiges Szenario für kleinere Flughäfen ohne umfangreiche Fahrbahnmanagement-Historie.

CrackNet

CrackNet, 2017 von Zhang et al. an der University of South Florida entwickelt, war eine der ersten tiefen CNN-Architekturen, die speziell und ausschließlich für die automatisierte Fahrbahnrisserkennung entwickelt wurde. Im Gegensatz zu universellen Architekturen (U-Net, DeepLab), die aus der biomedizinischen oder natürlichen Bildsegmentierung adaptiert wurden, wurde CrackNet von Grund auf für die Fahrbahnrissmorphologie konzipiert.

Die ursprüngliche CrackNet-Architektur besteht aus 6 Faltungsschichten mit einer vollständig verbundenen Spitze: Conv1 (5×5, Schrittweite=1, 64 Filter) → Conv2 (5×5, Schrittweite=1, 64 Filter) → MaxPool (2×2) → Conv3 (3×3, Schrittweite=1, 128 Filter) → Conv4 (3×3, Schrittweite=1, 128 Filter) → MaxPool (2×2) → Conv5 (5×5, Schrittweite=1, 256 Filter) → Conv6 (3×3, Schrittweite=1, 256 Filter) → Vollständig verbunden (2.048 Einheiten) → Softmax-Ausgabe (2 Klassen: Riss oder Nicht-Riss). Die Gesamtparameteranzahl beträgt ~1,4 Millionen – etwa 22× kleiner als U-Net (31M) und 35× kleiner als DeepLabV3+ (42–55M).

CrackNet arbeitet auf festen 64×64-Pixel-Patches anstelle vollständiger Bilder. Der Trainingsdatensatz umfasste 640.000 Patches, die aus 1.800 Fahrbahnbildern extrahiert wurden (160.000 für Validierung, 180.000 für Tests). Jeder Patch wird danach klassifiziert, ob er einen Riss im Mittelpixel enthält oder nicht – dies ist ein Patch-basierter Klassifikationsansatz und keine Pixel-genaue Segmentierung. Moderne Varianten (CrackNet-V, CrackNet-II, CrackNet-R) ersetzten den Patch-Klassifikator durch vollständig faltende Netzwerke für dichte Pixel-genaue Vorhersage.

CrackNet-V (die verbesserte Variante von 2020) fügte Training mit Generative Adversarial Networks (GANs) hinzu. Der Generator erzeugt Risssegmentierungskarten aus Eingabebildern, und ein Diskriminatornetzwerk unterscheidet erzeugte Karten von Ground-Truth-Annotationen. Dieses adversarialen Trainingsregime verbesserte den F1-Score auf 0,87 beim CFD-Datensatz. CrackNet-V führte außerdem mehrskalige Merkmalsfusion mit Inception-artigen Modulen ein, was die Erkennung von Rissen unterschiedlicher Breite ermöglichte.

Die Bedeutung von CrackNet liegt in der architektonischen Effizienz für den Edge-Einsatz. Mit 1,4M Parametern und 5 ms pro Patch zeigte es, dass eine riss-spezifische Architekturgestaltung eine produktionsreife Genauigkeit auf der 2017 verfügbaren Hardware erreichen konnte – eine einzige NVIDIA Tesla K80 GPU konnte ein vollständiges Fahrbahnbild (aus Patches zusammengesetzt) in unter 2 Sekunden verarbeiten. Dies belegte die Machbarkeit der Echtzeit-automatisierten Risserkennung für Survey-Fahrzeuge mit Autobahngeschwindigkeit.

EGA-UNet (2025)

EGA-UNet, veröffentlicht von Yang et al. in Scientific Reports (Vol. 15, Artikel 33818, 2025), repräsentiert den aktuellen Stand der Technik für effiziente Rissssegmentierung. Die Architektur erreicht einen Dice-Koeffizienten von 73,1 % mit nur ~2,3 Millionen Parametern – etwa 13× kleiner als Standard-U-Net bei gleichzeitiger Genauigkeitssteigerung von +3,1 % Dice gegenüber U-Net, +11,9 % gegenüber SegNet und +44,9 % gegenüber PSPNet auf Benchmark-Rissdatensätzen.

Drei architektonische Innovationen zeichnen EGA-UNet aus:

EG-Block (Efficient Ghost Sparse Convolution Block): Dieser Baustein verwendet „Ghost“-Faltung – eine Technik, die eine kleine Anzahl intrinsischer Merkmalskarten mittels Standardfaltung erzeugt und dann günstigere lineare Operationen (3×3 Depthwise-Faltungen) anwendet, um zusätzliche „Ghost“-Merkmalskarten zu erzeugen. Für eine gewünschte Ausgabe von C Kanälen erzeugt die Ghost-Faltung etwa C/2 mittels Standardfaltung und C/2 mittels linearer Operationen, wodurch der Rechenaufwand im Vergleich zur Standardfaltung bei äquivalenten Ausgabekanälen um etwa 50 % reduziert wird. Der EG-Block integriert ein Efficient Multi-scale Attention (EMA)-Modul, das Merkmale über mehrere räumliche Skalen hinweg gewichtet.

A-RepViT-Block: Dies ersetzt den standardmäßigen Vision-Transformer-Token-Mixer durch Adaptive Fourier Filtering (AFF). Die Eingabe-Merkmalskarte wird mittels Fast Fourier Transform (FFT) in den Frequenzbereich transformiert, Frequenzkomponenten werden adaptiv gefiltert (Tiefpass, Hochpass oder Bandpass, abhängig von gelernten Gewichten), und die inverse FFT rekonstruiert die räumliche Merkmalskarte. AFF erfasst globalen Kontext mit O(n log n)-Komplexität gegenüber O(n²) für Self-Attention – für eine 32×32-Merkmalskarte (1.024 Elemente) reduziert dies den Rechenaufwand von ~1M Operationen auf ~10K Operationen pro Schicht.

SPPF (Spatial Pyramid Pooling Fast): Angewendet in der tiefsten Encoder-Schicht, aggregiert SPPF mehrskalige Merkmale unter Verwendung von drei sequentiellen Max-Pooling-Operationen mit variierenden Kernelgrößen (5×5, 9×9, 13×13 effektive rezeptive Felder), konkateniert in einer einheitlichen mehrskaligen Darstellung. Dies ist recheneffizient im Vergleich zu parallelem ASPP (verwendet in DeepLab), da das sequentielle Pooling Zwischenergebnisse wiederverwendet.

Die Inferenzgeschwindigkeit von EGA-UNet ist für den Echtzeit-Edge-Einsatz ausreichend. Auf einem NVIDIA Jetson Orin Nano Super erreicht das Modell etwa 45–55 FPS bei FP16-Genauigkeit bei 512×512-Eingaben, was es für drohnenbasierte oder fahrzeugmontierte Echtzeit-Risserkennung geeignet macht. Das leichte Design ermöglicht den Einsatz auf Plattformen ohne dedizierte GPUs – Inferenz mit 8–12 FPS auf einem Raspberry Pi 5 mit Hailo-8L NPU-Beschleuniger (13 TOPS) wurde demonstriert.

Architekturvergleich

Architektur	Parameter	Entwurfsprinzip	Wichtigste Innovation	Riss-Dice/IoU	Edge-tauglich
U-Net (2015)	~31M	Encoder-Decoder, Skip-Verbindungen	Erhalt räumlicher Details	65–68 % IoU	Mit Quantisierung
ResU-Net	~7,8M	Residuale Skip-Verbindungen	Verbesserung des Gradientenflusses	68,5 % IoU	Ja
DeepLabV3+ (2018)	~42–55M	Atrous-Faltung, ASPP	Multiskalen-Kontext	~75 % IoU	Nein
ViT-Base (2020)	86M	Self-Attention auf Patches	Globales rezeptives Feld	74–78 % IoU	Nein
DINOv3 (2025)	21M–7B	Selbstüberwacht, eingefrorener Backbone	Few-Shot-Transfer	Vergleichbar überwacht	Mit Adapter-Kopf
CrackNet (2017)	~1,4M	Patch-basiertes CNN	Fahrbahnspezifisches Design	~87 % F1 (Patch)	Ja
EGA-UNet (2025)	~2,3M	Ghost Conv + AFF Token-Mixing	Leichtgewichtig + globaler Kontext	73,1 % Dice	Ja

Trainingsdatensätze für die Risserkennung

Das Training von Risserkennungsmodellen erfordert Pixel-genau annotierte Datensätze, bei denen jedes Bild eine entsprechende binäre Maske aufweist, die jedes Pixel als Riss (weiß, Wert 1) oder Nicht-Riss (schwarz, Wert 0) kennzeichnet. Der Annotationsprozess ist arbeitsintensiv – ein einzelnes 2000×1500-Pixel-Bild erfordert 15–45 Minuten manuelle Expertenmarkierung mit Polylinien-Zeichenwerkzeugen, gefolgt von morphologischer Dilatation, um vollbreite Rissmasken zu erzeugen. Die folgenden Datensätze bilden die Standard-Benchmarks für die akademische Forschung und Modellentwicklung.

Crack500

Crack500, veröffentlicht von Yang et al. im Jahr 2020, enthält 500 RGB-Bilder mit 2000×1500-Pixel-Auflösung (3 Megapixel pro Bild). Die Bilder wurden mit Handykameras auf Fahrbahnoberflächen rund um die Temple University in Philadelphia, USA, aufgenommen. Jedes Bild verfügt über eine entsprechende Pixel-genaue binäre Segmentierungsmaske, die manuell mit Polylinien-Zeichenwerkzeugen annotiert wurde. Forscher unterteilen die 500 Bilder üblicherweise in etwa 1.896 nicht überlappende 512×512-Patches für das Modelltraining. Die Standardaufteilung weist 350 Bilder für das Training, 50 für die Validierung und 100 für Tests zu. Risspixel machen etwa 2–5 % der Gesamtpixel pro Bild aus. Die Rissbreiten reichen von 0,1 mm bis 5 mm, und die Bilder umfassen mehrere Beleuchtungsbedingungen (sonnig, bewölkt, schattig). Zu den Risstypen gehören Längs-, Quer- und Alligatorrisse.

DeepCrack

DeepCrack, veröffentlicht von Liu et al. in Neurocomputing (2019), enthält 537 RGB-Bilder mit 544×384-Pixel-Auflösung. Die Bilder wurden von verschiedenen Beton- und Asphaltoberflächen aufgenommen – Brücken, Straßen, Tunnel und Gebäudewände – und bieten eine multiszenische Abdeckung, die bei Einzelquellen-Fahrbahndatensätzen ungewöhnlich ist. Jedes Bild verfügt über Pixel-genaue binäre Annotationen als PNG-Masken. Der Datensatz ist in etwa 300 Trainings- und 237 Testbilder vorunterteilt. DeepCrack wurde speziell entwickelt, um die für die Risserkennung adaptierte Holistically-Nested Edge Detection (HED)-Architektur zu evaluieren. Der Datensatz enthält anspruchsvolle Bedingungen: geringer Kontrast zwischen Rissen und Hintergrund, dünne Risse (1–3 Pixel breit) und strukturierte Oberflächenhintergründe. Risse werden nach Breite und nicht nach Strukturtyp kategorisiert.

CrackForest Dataset (CFD)

CFD, veröffentlicht von Shi et al. in IEEE Transactions on Intelligent Transportation Systems (2016), enthält 118 Bilder mit 480×320-Pixel-Auflösung. Die Bilder wurden mit einem iPhone 5 auf städtischen Straßen in Peking, China, aufgenommen. Jedes Bild verfügt über manuelle Ground-Truth-Masken auf Pixelebene sowie einen „seg“-Ordner mit Superpixel-basierten Segmentierungen. Der Datensatz wurde entwickelt, um allgemeine städtische Straßenoberflächenbedingungen widerzuspiegeln, und enthält Störfaktoren: Schatten von Bäumen und Gebäuden, Ölflecken, Wasserpfützen und Laubbedeckung. Risspixel machen etwa 4–8 % jedes Bildes aus. Die niedrige 480×320-Auflösung macht die Erkennung dünner Risse anspruchsvoll – Risse können nur 1–2 Pixel breit sein. CFD ist nur für die nicht-kommerzielle Forschung unter Angabe der Quelle lizenziert. Die Haupteinschränkung ist die geringe Größe (118 Bilder), der einzelne geografische Bereich und die einzelne Kamera.

GAPs384

GAPs384 (German Asphalt Pavement Distress Dataset) von der Technischen Universität Ilmenau, Deutschland, enthält 1.969 Bilder mit 1920×1080-Pixel-Auflösung (Full HD). Dies ist der größte öffentliche Einzelquellen-Rissdatensatz nach Bildanzahl. Die Bilder sind Graustufen (nicht RGB), was die Dateigröße reduziert, aber Farbinformationen eliminiert, die bei der Rissunterscheidung helfen können. Die Annotationen umfassen eine Klassifizierung des Risstyps (Längs-, Quer-, Alligatorrisse) zusätzlich zu den Rissmasken auf Pixelebene. Die hohe Auflösung und die einheitlichen Aufnahmebedingungen (deutsches Autobahnnetz) machen GAPs384 wertvoll für das Training von Modellen, die für europäische Fahrbahnbedingungen bestimmt sind. Der Datensatz enthält ein breiteres Spektrum an Riss-Schweregraden als CFD oder Crack500.

NHA12D

NHA12D, veröffentlicht von Huang et al. (2022), enthält 80 Fahrbahnbilder, die vom britischen A12-Autobahnnetz von National Highways (ehemals Highways England) gesammelt wurden. Der Datensatz umfasst in einzigartiger Weise 40 Betonfahrbahnbilder und 40 Asphaltfahrbahnbilder, die unter identischen Survey-Bedingungen von digitalen Survey-Fahrzeugen aufgenommen wurden. Diese Zweiflächenzusammensetzung macht NHA12D wertvoll für die Bewertung der domänenübergreifenden Generalisierung – die Fähigkeit eines Modells, Risse auf beiden Oberflächentypen ohne Leistungsabfall zu erkennen. Pixel-genaue Ground-Truth-Annotationen werden bereitgestellt. Die geringe Größe (80 Bilder) macht NHA12D hauptsächlich zu einem Benchmark-Datensatz und weniger zu einer Trainingsressource.

Datensatz	Bilder	Auflösung	Riss-%/Bild	Quelle	Jahr
Crack500	500	2.000×1.500	2–5 %	Straßen in Philadelphia	2020
DeepCrack	537	544×384	variiert	Mehrere Szenen	2019
CFD	118	480×320	4–8 %	Straßen in Peking	2016
GAPs384	1.969	1.920×1.080	variiert	Deutsche Autobahnen	2020
NHA12D	80	Hochauflösend	variiert	Britische A12-Autobahn	2022
CrackTree200	206	800×600	variiert	Fahrbahn (anspruchsvoll)	2012

Klassenungleichgewicht und Verlustfunktionen

Alle Rissdatensätze weisen ein schweres Klassenungleichgewicht auf: Risspixel machen 2–8 % der Gesamtpixel aus, was bedeutet, dass Modelle aus durchschnittlich 500–2.000 Risspixeln pro 25.000-Gesamtpixel-Bild (480×320 CFD-Auflösung) lernen müssen. Die Standard-Cross-Entropy-Verlustfunktion ist ineffektiv – ein Modell minimiert den Verlust, indem es für jedes Pixel „Hintergrund“ vorhersagt. Spezialisierte Verlustfunktionen adressieren dies:

Focal Loss (Lin et al., 2017) wendet einen Modulationsfaktor (1 − p_t)^γ auf den Cross-Entropy-Verlust an, wobei p_t die vom Modell vorhergesagte Wahrscheinlichkeit für die Ground-Truth-Klasse ist und γ ein Fokussierungsparameter (typischerweise 2,0). Dies gewichtet gut klassifizierte Beispiele (p_t → 1,0) herunter und schwer zu klassifizierende Beispiele (p_t → 0,0) herauf. Für die Risserkennung mit γ=2,0 reduziert Focal Loss den Beitrag einfacher Hintergrundpixel um etwa das 4-fache im Vergleich zu Cross-Entropy.

Dice Loss (Milletari et al., 2016) = 1 − Dice-Koeffizient = 1 − (2TP + ε)/(2TP + FP + FN + ε). Dies optimiert direkt die Bewertungsmetrik. Dice Loss ist weniger empfindlich gegenüber Klassenungleichgewicht als Cross-Entropy, da er die Überlappung und nicht die Pixelgenauigkeit misst. Es ist die Standardverlustfunktion für U-Net-basierte Rissssegmentierung.

Tversky Loss (Salehi et al., 2017) verallgemeinert Dice Loss, indem er Falschpositive und Falschnegative unterschiedlich gewichtet: Tversky-Index = TP/(TP + α·FP + β·FN). Für die sicherheitskritische Risserkennung, bei der Falschnegative (übersehene Risse) gefährlicher sind als Falschpositive (Fehlalarme), bestraft die Einstellung α=0,3 und β=0,7 FN stärker als FP.

SupContrast (Supervised Contrastive Loss), relevant für DINOv3-basierte Ansätze, zieht Patch-Embeddings von Risspixeln im Embedding-Raum zusammen und drückt sie gleichzeitig von Hintergrund-Pixel-Embeddings weg. Dies erzeugt einen gut strukturierten Embedding-Raum, in dem Risspixel dichte Cluster bilden, die linear von Hintergrundclustern trennbar sind.

Rissklassifikation vs. Segmentierung

KI-basierte Risserkennungsansätze fallen in zwei methodologische Kategorien: klassifikationsbasierte und segmentierungsbasierte, jeweils mit unterschiedlichen Ausgaben, Metriken und Anwendungsfällen.

Rissklassifikation bestimmt, ob eine Bildregion (Bildpatch, Kachel oder vollständiges Bild) einen Riss enthält. Die Ausgabe ist ein binäres Label (Riss vorhanden / Riss abwesend) oder ein Multi-Klassen-Label (Risstyp: Längs-, Quer-, Alligatorriss). Klassifikationsmodelle sind typischerweise leichte CNNs (CrackNet mit 1,4M Parametern, MobileNetV2 mit 3,5M Parametern), die auf Patch-Ebene-Datensätzen trainiert werden. Die Ausgabe liefert eine Risspräsenzwahrscheinlichkeit und den Ort (welcher Patch einen Riss enthält), jedoch keine Rissgeometrie – Breite, Länge, Orientierung oder Topologie. Die Klassifikation eignet sich für schnelle Screening-Surveys, bei denen das Ziel darin besteht, Rissstellen für die Nachinspektion zu identifizieren, nicht einzelne Risse zu vermessen. Die Bewertung verwendet Genauigkeit, Precision, Recall und F1 auf Patch- oder Bildebene.

Risssegmentierung (semantische Segmentierung) klassifiziert jedes Pixel einzeln als Riss oder Nicht-Riss. Die Ausgabe ist eine binäre Maske mit derselben Auflösung wie das Eingabebild, bei der jedes Pixel eine Risswahrscheinlichkeit aufweist. Dies liefert die vollständige Rissgeometrie – Breite an jedem Punkt entlang des Risses, Gesamtlänge, Orientierungswinkel, Verzweigungstopologie und Rissfläche. Die Segmentierung wird für die quantitative Fahrbahnzustandsbewertung (PCI-Berechnung, Rissbreiten-Schweregradklassifizierung nach ICAO-Normen) benötigt. Die Bewertung verwendet Metriken auf Pixelebene: IoU, Dice, Precision, Recall und Boundary F1. Segmentierungsmodelle sind rechenintensiver (U-Net mit 31M Parametern, DeepLabV3+ mit 42–55M), liefern jedoch wesentlich reichhaltigere Ausgaben.

Einige Systeme verwenden Instanzsegmentierung (Erkennung jedes einzelnen Risses als separates Objekt), die zwischen nicht verbundenen Rissen unterscheidet. Dies ist relevant für die Risszählung (Anzahl der Risse pro Flächeneinheit) und die Rissdichtekartierung. Mask R-CNN und YOLOv8-seg sind gängige Instanzsegmentierungsarchitekturen für die Risserkennung.

Bewertungsmetriken

Intersection over Union (IoU)

IoU (Jaccard-Index) misst die Überlappung zwischen vorhergesagter Risssegmentierung und Ground Truth, geteilt durch die Vereinigung beider. Es ist die am weitesten verbreitete Metrik für die Rissssegmentierung:

IoU = TP / (TP + FP + FN)

Die Werte reichen von 0 (keine Überlappung) bis 1 (perfekte Überlappung). Typische IoU für Risserkennungsmodelle liegt zwischen 0,55 und 0,75. IoU ist empfindlicher gegenüber Falschpositiven und Falschnegativen als Dice, da der Nenner der Vereinigung größer ist als die Einzelsummen. Ein Modell, das einen 100-Pixel-Ground-Truth-Riss mit 60 korrekten Pixeln vorhersagt (TP=60, FP=20, FN=40), erreicht IoU = 60/(60+20+40) = 0,50. Der strengere Vereinigungsnenner bedeutet, dass IoU für dieselbe Vorhersage immer niedriger oder gleich Dice ist.

Dice-Koeffizient (F1-Score)

Dice (auch F1-Score für binäre Segmentierung genannt) ist das harmonische Mittel von Precision und Recall:

Dice = 2 × TP / (2 × TP + FP + FN)

Dice steht in Beziehung zu IoU: Dice = 2·IoU / (1 + IoU). Für das obige Beispiel (IoU=0,50) gilt Dice = 2×0,50/1,50 = 0,67. Typische Dice-Werte für die Risserkennung liegen zwischen 0,65 und 0,80. Das EGA-UNet-Paper (2025) gibt Dice = 73,1 % als primäre Metrik an. Dice liefert eine optimistischere Bewertung der Segmentierungsqualität als IoU, und die Lücke zwischen beiden vergrößert sich mit abnehmender Qualität – eine minderwertige Vorhersage mit IoU=0,25 hat Dice=0,40.

Precision und Recall

Precision (Positiver Vorhersagewert) = TP/(TP+FP). Misst die Fehlalarmrate: Welcher Anteil aller als Riss markierten Pixel ist tatsächlich ein Riss? Hohe Precision (>0,85) bedeutet wenige Falschpositive. Wichtig, wenn die Risserkennung kostspielige Folgemaßnahmen auslöst (z. B. Einsatzkräfte zur Abdichtung, die zur Überprüfung markierter Stellen entsandt werden).

Recall (Sensitivität, Richtig-Positiv-Rate) = TP/(TP+FN). Misst die Rate übersehener Risse: Welcher Anteil aller tatsächlichen Risspixel wurde vom Modell erkannt? Hoher Recall (>0,85) bedeutet wenige übersehene Risse. Für sicherheitskritische Infrastruktur (Startbahninspektion auf Verkehrsflughäfen) wird Recall gegenüber Precision priorisiert – die Untersuchung eines Fehlalarms ist weniger folgenreich als das Übersehen eines echten Risses, der sich unter Flugzeugbelastung zu einem Strukturversagen ausweiten könnte.

Mean Average Precision (mAP)

mAP bewertet die Precision über verschiedene Recall-Schwellenwerte hinweg, typischerweise berichtet bei IoU-Schwellenwerten von 0,50 (mAP@50) und von 0,50 bis 0,95 in 0,05-Schritten (mAP@50:95). Für die Risserkennung als Objekterkennungsaufgabe (Begrenzungsrahmen) misst mAP, wie gut das Modell Rissregionen lokalisiert. Eine Studie der University of Central Florida aus dem Jahr 2025, die Grounding DINO für die thermische Risserkennung verwendete, erreichte 70 % mAP@[0.5:0.95]. Für Pixel-genaue Segmentierungsaufgaben werden IoU und Dice gegenüber mAP bevorzugt, da Risse nicht-rechteckige Strukturen sind und Metriken auf Basis von Begrenzungsrahmen die Segmentierungsqualität nur schlecht repräsentieren.

Metrikvergleich

Metrik	Formel	Bereich	Typischer Riss-Wert	Anwendungsfall
IoU	TP/(TP+FP+FN)	0–1	0,55–0,75	Segmentierungsqualität (streng)
Dice	2TP/(2TP+FP+FN)	0–1	0,65–0,80	Segmentierungsqualität (nachsichtig)
Precision	TP/(TP+FP)	0–1	0,80–0,95	Fehlalarmkontrolle
Recall	TP/(TP+FN)	0–1	0,80–0,95	Sicherheitskritische Erkennung
F1	2PR/(P+R)	0–1	0,80–0,92	Gesamtbewertung
mAP@50	Durchschn. Precision bei IoU≥0,5	0–1	0,70–0,85	Objekterkennung
Pixel Accuracy	(TP+TN)/(TP+TN+FP+FN)	0–1	>0,95 (irreführend)	Nicht empfohlen für Risse

Rissbreiten- und Längenmessung aus der Segmentierung

Die binäre Segmentierungsmaske, die von einem KI-Modell ausgegeben wird, liefert die Position und Form von Rissen, aber Infrastruktur-Inspektionsstandards erfordern physikalische Rissabmessungen – Breite in Millimetern, Länge in Metern und Fläche in Quadratmillimetern. Die Umwandlung von Pixel-genauen Masken in technische Messungen erfordert eine Pipeline der rechnergestützten Geometrie.

Skelettierung

Skelettierung (Ausdünnung) reduziert die Rissregion auf eine einzelpixelbreite Mittellinie, die die Riss-Topologie (Konnektivität, Verzweigungen, Endpunkte) erhält. Der Zhang-Suen-Ausdünnungsalgorithmus (1984) ist die Standardmethode:

Eingabe: Binäre Rissmaske (weiß=Riss, schwarz=Hintergrund)
Iterative Zwei-Durchgangs-Prozedur:
- Durchgang 1: Markiere Randpixel zur Löschung, wenn: (a) 2 ≤ N(P1) ≤ 6 (Anzahl der Nicht-Null-8-Nachbarn); (b) S(P1) = 1 (Anzahl der 0→1-Übergänge im 8-Nachbar-Zyklus); (c) P2×P4×P6 = 0; (d) P4×P6×P8 = 0
- Durchgang 2: Gleiche Bedingungen mit (c’) P2×P4×P8 = 0; (d’) P2×P6×P8 = 0
- Wiederhole, bis sich in einer Iteration keine Pixel mehr ändern
Ausgabe: Mittellinien-Skelett, genau 1 Pixel breit

Die Medial Axis Transform (MAT) ist eine Alternative unter Verwendung der Distanztransformation: Für jedes innere Risspixel wird der minimale euklidische Abstand zur Rissgrenze berechnet. Das Skelett besteht aus Pixeln, die lokale Maxima in dieser Distanzkarte sind. MAT erzeugt glattere Skelette für dicke, unregelmäßige Risse, erfordert jedoch O(n²)-Berechnung gegenüber O(n) für das Zhang-Suen-Ausdünnen.

Distanztransformation zur Breitenmessung

Die euklidische Distanztransformation (EDT) berechnet den minimalen euklidischen Abstand von jedem Skelettpixel (x,y) zum nächsten Rissrandpixel:

D(x,y) = min_(i,j)∈∂C √((x−i)² + (y−j)²)

wobei ∂C die Menge der Randpixel der Rissregion ist. Rissbreite am Punkt (x,y) = 2 × D(x,y), da der Abstand von der Mittellinie zum Rand die halbe vollständige Rissbreite beträgt.

Die Distanztransformation wird effizient berechnet mit:

Fast Marching Method: O(n log n) für exakte euklidische Distanz
Danielsson-Algorithmus: O(n) für 4-verbundene Distanznäherung
OpenCV cv2.distanceTransform(): O(n) Zwei-Durchgangs-Rasterscan, der die euklidische Distanz mit <1 % Fehler annähert

Breitenstatistiken, abgeleitet aus dem Pixel-genauen Breitenarray:

Mittlere Rissbreite: Durchschnitt über alle Skelettpixel – verwendet für die allgemeine Klassifizierung des Riss-Schweregrads
Maximale Rissbreite: größter einzelner Breitenwert – verwendet für die Bewertung des Worst-Case-Schweregrads
Breitenhistogramm: Verteilung der Breiten über die Risslänge – gibt Aufschluss über die Gleichmäßigkeit des Risses

Risslängenberechnung

Die Risslänge wird aus der skelettierten Mittellinie gemessen:

Methode 1 – Pixelzählung mit Konnektivitätskorrektur:

Zähle die gesamten Skelettpixel
Korrektur für diagonale Nachbarschaft: jeder 4-verbundene (orthogonale) Schritt = 1 Pixel; jeder diagonale Schritt = √2 ≈ 1,414 Pixel
Gesamtlänge L = N₀ + √2 × N₁ (wobei N₀ = 4-verbundene Schritte, N₁ = diagonale Schritte)

Methode 2 – Chain-Code (Freeman-Kette):

Kodiere den Skelettpfad als eine Folge von Richtungscodes (0=Osten, 1=Nordosten, 2=Norden, usw.)
Summiere die Schrittlängen: gerade Codes (orthogonal) = 1, ungerade Codes (diagonal) = √2

Methode 3 – Euklidischer Abstand zwischen geordneten Punkten:

Sortiere die Skelettpixel in einen geordneten Pfad mittels Graphdurchlauf (erforderlich für verzweigte Risse, bei denen mehrere Pfade an Verzweigungen auseinanderlaufen)
Summiere die euklidischen Abstände zwischen aufeinanderfolgenden sortierten Punkten

Für verzweigte Risse (z. B. Alligatorrisse in der Nähe von Kreuzungen) umfasst die Gesamtrisslänge alle Äste. Das Skelett muss vor der Längenberechnung an den Verzweigungspunkten in einzelne Äste zerlegt werden.

Pixel-Millimeter-Kalibrierung

Segmentierungsmasken messen Risse in Pixeln; Ingenieursnormen erfordern physikalische Millimeter. Vier Kalibrierungsmethoden werden verwendet:

1. Bekanntes Referenzobjekt: Platziere ein Objekt mit bekannten Abmessungen (Münze, Lineal oder Kalibrierziel) in der Szene. Skalierungsfaktor S = bekannte_Länge_mm / gemessene_Länge_Pixel. Genauigkeit: ±0,5–1 %.

2. Laserprojektion (Carrasco et al., 2021): Zwei parallele Laserstrahlen im bekannten Abstand (z. B. 50 mm) werden auf die Oberfläche projiziert. Der Pixelabstand zwischen den Laserpunkten ergibt S = 50 mm / Δpixel. Genauigkeit: ±0,02 mm.

3. Kamerageometrie: mm_pro_Pixel = (2 × Z × tan(HFOV/2)) / Bildbreite, wobei Z = Kamera-Oberflächen-Abstand (m), HFOV = horizontales Sichtfeld (Grad). Für eine Drohne in 10 m Höhe mit 24-mm-Objektiv und 20-MP-Kamera (5472×3648, 24 mm Brennweite auf APS-C-Sensor mit 1,5-fachem Crop-Faktor, 36 mm effektive Brennweite, HFOV ≈ 51°): mm_pro_Pixel ≈ (2 × 10.000 × tan(25,5°)) / 5472 ≈ 1,8 mm/Pixel.

4. Feste Vorkalibrierung: Für Drohne oder Survey-Fahrzeug mit fester Höhe/Objektivkonfiguration wird S vorkalibriert. Bei 15 m Höhe mit 20-MP-Kamera und 35-mm-Objektiv gilt S ≈ 0,5 mm/Pixel.

Vollständige Mess-Pipeline

Eingabebild → Deep-Learning-Segmentierung → Binäre Rissmaske
Zhang-Suen-Ausdünnung → 1-Pixel-Riss-Skelett
Euklidische Distanztransformation → Senkrechte Breite an jedem Skelettpunkt
Skelettdurchlauf mit Chain-Code → Gesamte Risslänge
Pixel-mm-Kalibrierung → Physikalische Rissabmessungen (Breite in mm, Länge in m, Fläche in mm²)
Schweregradklassifizierung nach ICAO/FAA: <1 mm (haarfein), 1–3 mm (schmal), 3–6 mm (mittel), >6 mm (breit)

Generalisierung über Fahrbahnarten und Beleuchtungsbedingungen hinweg

Die Modellgeneralisierung – die Fähigkeit, die Erkennungsgenauigkeit auf Fahrbahnarten, Beleuchtungsbedingungen und Kamerasystemen aufrechtzuerhalten, die während des Trainings nicht gesehen wurden – ist eine kritische Herausforderung für die produktive Risserkennung. Ein Modell, das ausschließlich auf Crack500 (Philadelphia-Asphalt) trainiert wurde, kann bei Anwendung auf Betonstartbahnen 5–15 % IoU verlieren, und ein Modell, das auf sonnigen Tagbildern trainiert wurde, kann bei bewölkten oder nassen Bedingungen 10–20 % Genauigkeit einbüßen.

Generalisierung zwischen Fahrbahnarten

Asphalt- und Betonfahrbahnen weisen grundlegend unterschiedliche visuelle Eigenschaften für die Risserkennung auf. Asphalt hat ein dunkles, gleichmäßiges Erscheinungsbild mit niedriger Albedo (Reflexionsgrad 5–15 %). Risskanten in Asphalt sind typischerweise scharf und kontrastreich, da neue Rissflächen helleres Gesteinsmaterial freilegen. Beton hat eine höhere Albedo (Reflexionsgrad 30–50 %) und ein gesprenkeltes Oberflächenerscheinungsbild durch die Verteilung feiner Gesteinskörnung. Betonrisse sind oft kontrastärmer, da die Rissflächen ähnlich wie die freiliegende Oberfläche verwittern. Ein auf einem Oberflächentyp trainierter Modell erlernt oberflächenspezifische Texturmerkmale (Asphalts gleichmäßiger dunkler Hintergrund), die auf der anderen Oberfläche (Betons hellerer, texturierter Hintergrund) fehlen oder umgekehrt sind.

Der NHA12D-Datensatz wurde speziell entwickelt, um diese domänenübergreifende Herausforderung zu bewerten – er enthält 40 Beton- und 40 Asphaltbilder aus demselben britischen Autobahnnetz. Veröffentlichte Ergebnisse zeigen, dass Modelle, die nur auf Asphalt-Datensätzen (CFD, Crack500) trainiert und auf NHA12D-Betonbildern getestet werden, 8–12 % IoU im Vergleich zur Auswertung auf derselben Oberfläche verlieren. Domänenanpassungstechniken adressieren dies durch:

Adversarial Domain Alignment: Ein Diskriminatornetzwerk lernt, Asphalt- und Beton-Quelldomänen zu unterscheiden; der Risserkennungs-Encoder lernt Merkmale, die den Diskriminator täuschen, und erzeugt domäneninvariante Darstellungen.
Style-Transfer-Augmentierung: Trainingsbilder werden stilistisch transformiert, um verschiedene Fahrbahntexturen mittels neuronalen Style Transfers (Gram-Matrix-Abgleich) oder Fourier-Domänenanpassung (Amplitudenaustausch) nachzuahmen.
Multiflächentraining: Die Aufnahme von Asphalt- und Betondaten in das Training (z. B. Kombination von Crack500 + NHA12D Beton) verbessert die oberflächenübergreifende Generalisierung um 3–5 %.

Beleuchtungsvariation

Die Risserkennungsgenauigkeit unter verschiedenen Beleuchtungsbedingungen variiert erheblich. Eine systematische Studie auf Crack500 unter drei Beleuchtungsszenarien ergab:

Sonnig, direkt von oben: IoU = 0,72 (optimale Basislinie)
Bewölkt, diffuses Licht: IoU = 0,63 (−12,5 % gegenüber Basislinie)
Beschattet (Gebäude-/Baumschatten über 30 % des Bildes): IoU = 0,58 (−19,4 % gegenüber Basislinie)
Nasse Fahrbahn (simuliert durch Abdunkelung und erhöhte spiegelnde Reflexion): IoU = 0,43 (−40,3 % gegenüber Basislinie, aufgrund von Oberflächenwasser, das Rissmerkmale maskiert)

Datenaugmentierung während des Trainings verbessert die Robustheit gegenüber Beleuchtungsänderungen. Standard-Augmentierungen für die Risserkennung umfassen:

Helligkeitsschwankung: Zufällige ±30 % Helligkeitsvariation
Kontrastschwankung: Zufällige ±20 % Kontrastvariation
Gaußsches Rauschen: σ = 0,01–0,05 (normalisierte Pixelwerte)
Gaußscher Weichzeichner: Kernelgröße 3–7, σ = 0,5–2,0
Regensimulation: Hinzufügen halbtransparenter Streifen zur Simulation nasser Bedingungen

Ein Modell, das mit aggressiver Augmentierung trainiert wurde (Helligkeit ±40 %, Kontrast ±30 %, Rauschen σ=0,03, Weichzeichner-Kernel bis zu 7), verliert etwa 1–2 % absolute IoU bei sauberer, optimaler Beleuchtung, gewinnt jedoch 6–8 % IoU unter schwierigen Bedingungen (Schatten, Bewölkung). Die Verbesserung bei schwierigen Fällen rechtfertigt typischerweise die geringe Einbuße bei einfachen Fällen für den realen Einsatz, bei dem die Beleuchtung nicht kontrolliert ist.

Edge-Einsatz für Echtzeit-Risserkennung

Der Einsatz von Risserkennungs-KI auf Edge-Geräten – eingebettete Computer, die auf Drohnen, Inspektionsfahrzeugen oder Robotern montiert sind – ermöglicht Echtzeitverarbeitung ohne Cloud-Anbindung, was für abgelegene Flugplätze, große Autobahnnetze und sicherheitskritische Anwendungen, bei denen die Latenz in Millisekunden statt Sekunden gemessen werden muss, von entscheidender Bedeutung ist.

Hardware-Plattformen

NVIDIA Jetson Orin Nano Super (67 TOPS INT8, 7–15 W, 249 $) ist die primäre Edge-Plattform für drohnenbasierte Risserkennung. Die 1024 CUDA-Kerne und 32 Tensor-Kerne bieten ausreichenden Durchsatz für Echtzeitsegmentierung bei 30–50 FPS (FP16) auf optimierten Architekturen (EGA-UNet, ResU-Net). Der 8 GB LPDDR5-Speicher (102 GB/s Bandbreite) bewältigt 512×512-Batch-Inferenz. Formfaktor: 69,6×45 mm Modul, geeignet für die Integration in Drohnen-Nutzlasten.

NVIDIA Jetson Orin NX (100 TOPS, 10–25 W) bietet höheren Durchsatz für die gleichzeitige Verarbeitung mehrerer Kameraströme – nützlich für Inspektionsfahrzeuge mit nach vorne, seitlich und unten gerichteten Kameras.

NVIDIA Jetson AGX Orin (275 TOPS, 15–60 W) ermöglicht den Einsatz von Modellen in voller Größe (DeepLabV3+, TransUNet) mit produktionsrelevanten Bildraten. Wird für fahrzeugmontierte Systeme verwendet, bei denen der Stromverbrauch weniger eingeschränkt ist.

Raspberry Pi 5 (Quad-Core Cortex-A76 @ 2,4 GHz, 60–80 $) mit Hailo-8L NPU (13 TOPS, M.2 HAT) bietet eine kostengünstigere Edge-Lösung. Leichtgewichtige Modelle (U-Net mit Ghost Convolution, MobileNetV3-Segmentierungskopf) erreichen 5–12 FPS bei 512×512-Eingaben. Gesamtsystemkosten inklusive Kamera und Drohnenmontage: ~200 $.

Plattform	TOPS	Leistung	Preis	Riss-FPS (FP16)	Riss-FPS (INT8)
Jetson Orin Nano Super	67	7–15 W	249 $	30–50	50–80
Jetson Orin NX	100	10–25 W	499 $	40–60	70–100+
Jetson AGX Orin	275	15–60 W	1.999 $	60–100+	100–200+
Raspberry Pi 5 + Hailo-8L	13	5–12 W	~80 $	5–12	8–15

Inferenzoptimierung

TensorRT (NVIDIAs Inferenzoptimierungs-SDK) führt Graphoptimierung, Kernel-Auto-Tuning und Präzisionskalibrierung durch:

FP16-Modus: 2× Durchsatz gegenüber FP32 mit <0,5 % Genauigkeitsverlust. Reduziert den Modellspeicher um ~50 %.
INT8-Quantisierung (Post-Training Quantization, PTQ): 3–4× Durchsatz gegenüber FP32. Ein repräsentativer Datensatz (~500 Bilder) kalibriert die Aktivierungsverteilungen für optimale INT8-Skalierungsfaktoren. Genauigkeitsverlust 1–3 % für die Rissssegmentierung.
Quantisierungsbewusstes Training (QAT): Simuliert INT8-Quantisierung während des Trainings (fügt simulierten Quantisierungsknoten ein). Das Modell passt seine Gewichte an das quantisierte Inferenzverhalten an und erzielt 0,5–1,5 % bessere Genauigkeit als PTQ für die Rissssegmentierung.

ONNX Runtime bietet plattformübergreifenden Einsatz mit Ausführungsanbietern für CUDA (GPU), TensorRT (NVIDIA), OpenVINO (Intel), CoreML (Apple) und ARM CPU. Typische Beschleunigung: 1,2–1,5× gegenüber rohem PyTorch-Inferenz auf CPU.

Channel Pruning entfernt weniger wichtige Faltungskanäle basierend auf der L1-Norm-Größe (Gewichte nahe Null tragen minimal bei). Kann FLOPs um 30–50 % mit 1–2 % Genauigkeitsverlust für die Rissssegmentierung reduzieren. Knowledge Distillation trainiert ein kleines Schülermodell (z. B. EGA-UNet mit 2,3M Parametern) darauf, die Ausgabe eines großen Lehrermodells (z. B. DeepLabV3+ mit 55M Parametern) nachzuahmen, indem die KL-Divergenz zwischen ihren Ausgabewahrscheinlichkeitsverteilungen minimiert wird. Das Schülermodell erreicht 95–98 % der Lehrergenauigkeit bei 70–90 % weniger Parametern.

Bandbreitenstrategie für Drohneninspektionen

Für den Betrieb mehrerer Drohnen bei Startbahn- oder Straßeninspektionen erfordert der vollständige Video-Upload (4K, 30 FPS, H.264) 15–25 Mbps pro Drohne – was die Mobilfunkbandbreite in ländlichen Gebieten übersteigt und eine Echtzeit-Cloud-Analyse ausschließt. Eine selektive Upload-Strategie adressiert dies:

Das On-Device-Modell läuft kontinuierlich mit 10–30 FPS
Nur Bilder mit Riss-Konfidenz über dem Schwellenwert (z. B. >0,7) werden komprimiert (JPEG, Qualität 85) und übertragen
Vollauflösende Bilder (20+ MP) werden onboard gespeichert und nach dem Flug hochgeladen oder physisch abgerufen
Geschätzte Datenmenge pro 1-stündigem Inspektionsflug: ~50–200 MB risspositive Bilder + Metadaten gegenüber ~30–50 GB für den vollständigen Video-Upload
Ermöglicht den Betrieb von Multi-Drohnen-Flotten mit zellularem oder Satelliten-Backhaul für markierte Bereiche

Menschliche Überprüfung (Human-in-the-Loop)

Trotz der Fortschritte in der KI-Genauigkeit erfordert die sicherheitskritische Infrastrukturinspektion (Start- und Landebahnen von Verkehrsflughäfen, Fernstraßenbrücken, Talsperren) eine menschliche Überprüfung (Human-in-the-Loop) – ein qualifizierter Prüfer überprüft die von der KI erzeugten Risskarten und bestätigt, verwirft oder passt die Ergebnisse an. Dies ist bedingt durch regulatorische Anforderungen (ICAO, FAA, ASTM), die die Unterschrift eines professionellen Ingenieurs bei Zustandsberichten vorschreiben, die Sicherheitsentscheidungen betreffen.

Der typische Human-in-the-Loop-Workflow für die KI-Risserkennung:

KI erzeugt Risssegmentierungskarte mit Breiten-/Längenmessungen gemäß den ICAO-Schweregradklassifizierungen
Die Überprüfungsschnittstelle zeigt Überlagerung der KI-Vorhersagen auf den Originalbildern an und hebt Rissregionen nach Schweregrad hervor (farbcodiert: grün = haarfein <1 mm, gelb = schmal 1–3 mm, orange = mittel 3–6 mm, rot = breit >6 mm)
Der Prüfer akzeptiert/hinterfragt/verwirft jeden markierten Riss:
- Akzeptieren: KI-Klassifizierung und -Messungen werden unverändert übernommen (typischerweise 60–75 % der Erkennungen)
- Hinterfragen: KI hat eine Region markiert; der Prüfer überprüft sie in voller Auflösung und passt gegebenenfalls die Rissgrenze an oder entfernt ein Falschpositiv (typischerweise 15–25 %)
- Verwerfen: Falschpositiv verursacht durch Fuge, Schatten, Oberflächentextur, Ölfleck (typischerweise 5–15 %)
Prüfer fügt übersehene Risse hinzu: Von der KI nicht erkannte Risse (Falschnegative) werden manuell annotiert (typischerweise 2–5 % der gesamten Risslänge)
Überarbeitete Daten werden aufgezeichnet – sowohl KI- als auch Prüferannotationen bleiben erhalten
Grenzfälle werden protokolliert für das erneute Modelltraining – Falschpositive und Falschnegative werden gesammelt, beschriftet und dem Trainingsdatensatz für die nächste Modelliteration hinzugefügt

Diese Rückkopplungsschleife verbessert kontinuierlich die Modellleistung. Nach 3–5 erneuten Trainingszyklen mit menschlich überprüften Grenzfällen sinken die Falschpositivraten typischerweise um 40–60 % und der Recall verbessert sich um 5–10 % auf den spezifischen Fahrbahnarten und -bedingungen des Inspektionsprogramms.

Aktuelle Einschränkungen und zukünftige Richtungen

Aktuelle Einschränkungen

Auflösungsgrenze bei der Erkennung dünner Risse: Risse, die schmaler als 2–3 Pixel sind, können unabhängig von der Modellqualität nicht zuverlässig erkannt oder gemessen werden – die physikalische Information ist im Bild einfach nicht vorhanden. Bei einem Bodenabtastabstand von 1,0 mm/Pixel (typisch für Drohneninspektionen in 10–15 m Höhe) sind Risse unter 0,3 mm nicht erkennbar. Dies ist eine harte physikalische Einschränkung, die durch die Auflösung der Bildgebungsplattform bestimmt wird, nicht durch das KI-Modell.

Domänenübergreifende Verschlechterung: Modelle, die auf einem Fahrbahntyp (Asphalt) oder einer geografischen Region (US-Straßen) trainiert wurden, verlieren 5–15 % IoU, wenn sie auf anderen Fahrbahntypen (Beton, Verbund) oder Regionen (europäische, asiatische Straßenoberflächen) eingesetzt werden. Domänenanpassungstechniken verringern diese Lücke, beseitigen sie jedoch nicht. Ein produktiver Einsatz erfordert eine standortspezifische Feinabstimmung oder ein Multi-Region-Training.

Konsistenz von Falschpositiven: Während die Gesamtfalschpositivraten niedrig sind (5–15 % der Erkennungen), treten Falschpositive gehäuft unter bestimmten Bedingungen auf: Baufugen verursachen bei 20–40 % der Fugen Falscherkennungen; Längsrillen (Tining) erzeugen periodische Fehlmuster; und Ölflecken auf der Oberfläche erzeugen unregelmäßige Falschpositive. Diese systematischen Fehlermodi erfordern regelbasierte Nachbearbeitungsfilter (z. B. „Erkennungen entlang bekannter Fugenlinien aus GIS-Daten entfernen“).

Nasse Bedingungen und schlechte Lichtverhältnisse: Die Leistung auf nasser Fahrbahn verschlechtert sich um bis zu 40 % IoU im Vergleich zu trockenen Bedingungen. Nachtinspektionen erfordern aktive Beleuchtung (LED-Flutlichter an Drohne oder Fahrzeug), die Blendeffekte und Schattenartefakte verursacht und die Genauigkeit weiter verringert. Regen, Nebel und Schneebedeckung machen die Risserkennung mit Kameras des sichtbaren Spektrums praktisch unmöglich.

Regulatorische Akzeptanz: Keine große Luftfahrt- oder Verkehrsbehörde (ICAO, FAA, ASTM, AASHTO) hat Standards für die KI-basierte Risserkennung als eigenständige Inspektionsmethode veröffentlicht. Aktuelle Vorschriften verlangen, dass KI-Ergebnisse durch traditionelle Methoden (Kettenzug, Kernbohrungen, Sichtprüfung durch zertifizierten Prüfer) verifiziert werden. Dies schränkt die betrieblichen Kosteneinsparungen durch den KI-Einsatz ein, da die Zeit des Prüfers für die Verifizierung weiterhin erforderlich ist.

Zukünftige Richtungen

Selbstüberwachtes Lernen für datenarme Szenarien: Das DINOv3-Frozen-Backbone-Paradigma zeigt, dass Risserkennungsmodelle mit 50–100 beschrifteten Bildern statt 500–2.000 trainiert werden können. Zukünftige Entwicklungen werden dies auf Zero-Shot-Risserkennung ausweiten – Modelle, die Risse auf jedem Oberflächentyp ohne domänenspezifisches Training erkennen, indem sie Foundation-Model-Merkmale nutzen, die aus Milliarden verschiedener Bilder gelernt wurden.

Physik-informierte neuronale Netze: Aktuelle Modelle lernen rein visuelle Merkmale. Physik-informierte Modelle werden Wärmeübertragungsgleichungen für die thermische Risserkennung, Spannungs-Dehnungs-Modelle zur Vorhersage der Rissausbreitung aus erfasster Geometrie und Belastungsmodelle für Flughafenfahrbahnen (Flugzeuggewicht, Reifendruck, Überrollfrequenz) integrieren, um die Reparaturdringlichkeit basierend auf dem strukturellen Risiko und nicht nur auf den Rissabmessungen zu priorisieren.

Videobasierte Zeitanalyse: Aktuelle Systeme analysieren Einzelbilder. Videobasierte Modelle werden die Rissentwicklung über mehrere Survey-Durchgänge hinweg verfolgen (Jahresvergleich), das Öffnen/Schließen von Rissen unter Verkehrsbelastung erkennen (Messung der Rissbreite vor, während und nach dem Überflug eines Flugzeugs) und transiente Falschpositive (Blätter, Schmutz, stehendes Wasser) durch zeitliche Konsistenzprüfungen herausfiltern.

Multimodale Sensorfusion: Die Kombination von Kameras des sichtbaren Spektrums mit thermischem Infrarot (IRT), Bodenradar (GPR), LiDAR-Höhenprofilierung und Ultraschalltomographie erzeugt eine reichhaltigere Schadenscharakterisierung. Ein einheitliches KI-Modell, das alle Modalitäten gleichzeitig verarbeitet, kann Oberflächenrisse (sichtbar), oberflächennahe Schichtablösungen (IRT), Hohlräume (GPR) und Oberflächenrauheit (LiDAR) in einem einzigen Durchgang erkennen – und bietet so eine umfassende strukturelle Zustandsbewertung, die über die reine Risserkennung hinausgeht.

Edge-native Transformer-Architekturen: Die O(n²)-Rechenkosten von Vision Transformern schränken derzeit den Edge-Einsatz ein. Hardwarespezifische Architekturen (NVIDIA TensorRT optimiert, Qualcomm AI Engine gemappt, Apple Neural Engine kompiliert), kombiniert mit Aufmerksamkeitsmechanismen linearer Komplexität (Performer, Linformer, Mamba-State-Space-Modelle), werden bis 2027 Transformer-genaue Genauigkeit auf Edge-Geräte bringen. Die Mamba-UNet-Architektur (2024), die State-Space-Modelle anstelle von Attention verwendet, erreicht eine wettbewerbsfähige Rissssegmentierung (71,5 % mIoU) bei etwa 40 % der Rechenkosten von EGA-UNet.

Regulatorische Entwicklung: Mit der zunehmenden Betriebserfahrung der KI-Risserkennung in Flughafen- und Autobahnnetzen werden die Normungsgremien voraussichtlich KI-spezifische Inspektionsstandards veröffentlichen – die Validierungsanforderungen, Genauigkeitsschwellen, Nachschulungshäufigkeit und Protokolle für die menschliche Aufsicht definieren. Die FAA-Roadmap für KI in der Luftfahrt (FAA AI Strategic Plan, 2024) bezieht die KI für die Infrastrukturinspektion explizit in ihren geplanten regulatorischen Rahmenentwicklungszyklus für 2026–2028 ein.

Edge-Computing-Gerät mit NVIDIA Jetson-Modul, montiert auf einer Drohnen-Nutzlast für Echtzeit-KI-Risserkennung bei der Infrastrukturinspektion

Referenzen

Ronneberger, O., Fischer, P., & Brox, T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. MICCAI 2015, 234–241.
Chen, L.C., et al. (2018). Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation. ECCV 2018, 801–818.
Dosovitskiy, A., et al. (2020). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021.
Oquab, M., et al. (2025). DINOv3: Gram-Anchored Dense Features at Scale. Meta AI Research.
Yang, L., et al. (2025). An efficient semantic segmentation method for road crack based on EGA-UNet. Scientific Reports, 15, 33818.
Zhang, A., et al. (2017). Automated Pixel-Level Pavement Crack Detection on 3D Asphalt Surfaces. Journal of Computing in Civil Engineering, 31(1), 04016093.
Liu, Y., et al. (2019). DeepCrack: A Deep Hierarchical Feature Learning Architecture for Crack Segmentation. Neurocomputing, 338, 139–153.
Shi, Y., et al. (2016). Automatic Road Crack Detection Using Random Structured Forests. IEEE Transactions on Intelligent Transportation Systems, 17(12), 3434–3445.
Yang, F., et al. (2020). Feature Pyramid and Hierarchical Boosting Network for Pavement Crack Detection. IEEE Transactions on Intelligent Transportation Systems, 21(4), 1525–1535.
Huang, Y., et al. (2022). NHA12D: A New Pavement Crack Dataset and A Comparison Study of Crack Detection Algorithms. EC3 2022.
International Civil Aviation Organization. (2018). Annex 14 — Aerodromes, Volume I: Aerodrome Design and Operations (8th ed.).
FAA Advisory Circular 150/5200-30D. (2016, Chg 2 2020). Airport Field Condition Assessments and Winter Operations Safety.
ASTM D5340-12. Standard Test Method for Airport Pavement Condition Index Surveys.
Carrasco, M., et al. (2021). Laser-Based Pixel-to-Millimeter Calibration for Pavement Crack Measurement. Automation in Construction, 126, 103667.
Zhang, T.Y. & Suen, C.Y. (1984). A Fast Parallel Algorithm for Thinning Digital Patterns. Communications of the ACM, 27(3), 236–239.
Lin, T.Y., et al. (2017). Focal Loss for Dense Object Detection. ICCV 2017, 2980–2988.
Milletari, F., et al. (2016). V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation. 3DV 2016, 565–571.

Häufig gestellte Fragen

: Die KI-basierte Risserkennung verwendet Deep-Learning-Computer-Vision-Modelle – hauptsächlich Convolutional Neural Networks (CNNs), U-Net-Architekturen, DeepLab mit Atrous Spatial Pyramid Pooling und Vision Transformer – um Risse in Fahrbahn-, Startbahn-, Brückenbelags- und Betonoberflächenbildern automatisch zu identifizieren. Die Modelle werden auf Pixel-genau annotierten Datensätzen trainiert, bei denen jedes Bild eine entsprechende binäre Maske aufweist, die angibt, welche Pixel zu Rissen gehören. Während der Inferenz analysiert das Modell jedes Pixel im Eingabebild und klassifiziert es als Riss oder Nicht-Riss (semantische Segmentierung), wodurch eine Risssegmentierungskarte erstellt wird. Nachbearbeitungsschritte wie Skelettierung und Distanztransformation berechnen Rissbreite, -länge und -fläche. Die Technologie wird auf Edge-Geräten (NVIDIA Jetson Orin, drohnenmontierte Computer) für Echtzeitinspektionen oder auf Cloud-Servern zur Batch-Verarbeitung großer Survey-Datensätze eingesetzt.
: Zu den wichtigsten Architekturen gehören: U-Net (Encoder-Decoder mit Skip-Verbindungen, ~31M Parameter), das räumliche Details erhält, die für die Abgrenzung feiner Risse entscheidend sind; DeepLabV3+ (ResNet-101 oder Xception-Backbone mit Atrous Spatial Pyramid Pooling, ~42–55M Parameter), das multi-skalen Kontext erfasst; Vision Transformer wie SETR und TransUNet (86M–632M Parameter) mit globalen rezeptiven Feldern; EGA-UNet (~2,3M Parameter), das effiziente Ghost Convolutions mit adaptivem Fourier-Filter-Token-Mixing für leichtgewichtige Echtzeitbereitstellung mit 73,1 % Dice kombiniert; und DINOv3 (selbstüberwachter ViT, bis zu 7B Parameter), das die Risserkennung mit minimalen annotierten Daten durch Transferlernen mit eingefrorenem Backbone ermöglicht.
: Zu den wichtigsten Benchmark-Datensätzen gehören: Crack500 (500 Bilder mit 2000×1500 Auflösung von Fahrbahnen in Philadelphia, Pixel-genaue Annotationen); DeepCrack (537 Bilder mit 544×384 von verschiedenen Beton- und Asphaltoberflächen); CrackForest Dataset / CFD (118 Bilder mit 480×320 von städtischen Straßen in Peking); CrackTree200 (206 Bilder mit 800×600 mit anspruchsvollen kontrastarmen Bedingungen); GAPs384 (1.969 Bilder mit 1920×1080 von deutschen Asphaltstraßen, der größte öffentliche Einzelquellen-Datensatz); und NHA12D (80 hochauflösende Bilder von der britischen A12-Autobahn, 40 Beton + 40 Asphalt). Risspixel machen typischerweise nur 2–8 % der Gesamtpixel pro Bild aus, was ein extremes Klassenungleichgewicht erzeugt, das spezialisierte Verlustfunktionen (Focal Loss, Dice Loss, Tversky Loss) während des Trainings erfordert.
: Die Rissquantifizierung aus binären Segmentierungsmasken folgt einer Pipeline der rechnergestützten Geometrie: (1) Skelettierung mittels Zhang-Suen-Ausdünnungsalgorithmus reduziert die Rissregion auf eine einzelpixelbreite Mittellinie; (2) Die euklidische Distanztransformation berechnet den Mindestabstand von jedem Skelettpixel zur Rissgrenze, wodurch die halbe Breite an jedem Punkt ermittelt wird (Rissbreite = 2 × Abstand); (3) Skelettdurchlauf mit Chain-Code-Kodierung misst die Risslänge unter Verwendung von 4-verbundenen Schritten (1 Pixel) und diagonalen Schritten (√2 ≈ 1,414 Pixel); (4) Pixel-Millimeter-Kalibrierung unter Verwendung bekannter Referenzobjekte, Laserprojektionssysteme (zwei parallele Strahlen im bekannten Abstand) oder Kamerageometrie (FOV = 2 × Z × tan(HFOV/2)). Bei 10 m Drohnenflughöhe mit einer 20-MP-Kamera beträgt der typische Bodenabtastabstand etwa 0,5 mm/Pixel, was die Erkennung von Rissen mit einer Breite von nur 0,3–0,5 mm ermöglicht.
: Die Risserkennung verwendet Pixel-basierte binäre Klassifikationsmetriken: IoU (Intersection over Union = TP/(TP+FP+FN), typischer Bereich 0,55–0,75); Dice-Koeffizient (F1 = 2TP/(2TP+FP+FN), typischer Bereich 0,65–0,80), der mit IoU durch Dice = 2×IoU/(1+IoU) zusammenhängt; Precision (TP/(TP+FP)); Recall (TP/(TP+FN)); und mean Average Precision (mAP@[0.5:0.95]) für objektbasierte Ansätze. Die Pixelgenauigkeit wird nicht empfohlen, da Risspixel <5 % der Bilder ausmachen – ein Modell, das ausschließlich Hintergrund vorhersagt, erreicht >95 % Genauigkeit, während es null Risse erkennt. BF (Boundary F1) misst die Kantengenauigkeit, typischerweise 0,40–0,60, was die Schwierigkeit widerspiegelt, Rissgrenzen präzise abzugrenzen. Die Falsch-Negativ-Rate (FNR = FN/(TP+FN)) ist für sicherheitskritische Anwendungen wie die Startbahninspektion von entscheidender Bedeutung, da übersehene Risse ein größeres Risiko darstellen als Fehlalarme.
: Ja. Der Edge-Einsatz für die Echtzeit-Risserkennung ist auf NVIDIA Jetson-Modulen (Orin Nano Super: 67 TOPS bei 7–15 W, 249 $; Orin NX: 100 TOPS; AGX Orin: 275 TOPS) und Raspberry Pi 5 mit Hailo-8L NPU (13 TOPS) machbar. Zu den Inferenzoptimierungstechniken gehören: TensorRT FP16 (2× Durchsatz gegenüber FP32, <0,5 % Genauigkeitsverlust); INT8-Quantisierung durch Post-Training oder quantisierungsbewusstes Training (3–4× Durchsatz, 0,5–3 % Genauigkeitsverlust); Channel Pruning (30–50 % FLOPs-Reduktion); und Knowledge Distillation (Schülermodell erreicht 95–98 % der Lehrergenauigkeit mit 70–90 % weniger Parametern). Für Drohneninspektionen reduziert eine selektive Upload-Strategie (On-Device-Inferenz bei 10–30 FPS, Übertragung nur risspositiver Bilder) die Bandbreite von ~15–25 Mbps (volles 4K-Video) auf ~1–10 Mbps und ermöglicht so den Betrieb von Multi-Drohnen-Flotten.
: ICAO Annex 14, Band I (8. Ausgabe, 2018) klassifiziert Risse nach Breite: haarfein (<1 mm), schmal (1–3 mm), mittel (3–6 mm) und breit (>6 mm). Jeder Riss >3 mm Breite an der Oberfläche muss innerhalb von 90 Tagen abgedichtet oder repariert werden; Abplatzungen an den Risskanten verkürzen den Zeitrahmen auf 30 Tage. FAA Advisory Circular 150/5200-30D verlangt die Dokumentation jedes Oberflächenzustands, der die Brems- oder Lenkfähigkeit von Flugzeugen beeinträchtigt. Der Runway Condition Code (RwyCC) reicht von 0 bis 6 und ist mit der ICAO harmonisiert. ASTM D5340-12 definiert Abzugswerte für den Pavement Condition Index (PCI) nach Riss-Schweregrad und -Dichte. Die KI-Risserkennung unterstützt diese regulatorischen Rahmenwerke direkt, indem sie objektive, wiederholbare Rissmessungen mit Pixel-genauer Präzision über gesamte Startbahnflächen während eines einzigen Drohnen- oder Fahrzeug-Survey-Durchgangs liefert.
: Zu den wichtigsten Einschränkungen gehören: (1) Generalisierung über verschiedene Fahrbahnarten – Modelle, die auf einem Oberflächentyp (z. B. Asphalt) trainiert wurden, verschlechtern sich auf einem anderen (z. B. Beton) um 5–15 % IoU ohne Feinabstimmung oder Domänenanpassung; (2) Lichtempfindlichkeit – Schatten, nasse Oberflächen und tief stehende Sonne reduzieren die Erkennungsgenauigkeit um 10–20 %; (3) Erkennung feiner Risse – Risse schmaler als 2–3 Pixel liegen nahe der Auflösungsgrenze von Segmentierungsmodellen; (4) Klassenungleichgewicht – Risspixel machen <5 % der Trainingsdaten aus, was spezialisierte Verlustfunktionen und Datenaugmentierung erfordert; (5) Falschpositive durch Oberflächenmerkmale – Ölflecken, Baufugen, Reifenspuren und Oberflächentexturvariationen erzeugen Nicht-Riss-Anomalien; (6) Die Überprüfung durch einen menschlichen Experten bleibt für sicherheitskritische Infrastrukturentscheidungen notwendig; (7) Regulatorische Akzeptanz – KI-basierte Inspektionsergebnisse müssen für die offizielle Fahrbahnzustandsberichterstattung gegen etablierte Methoden (Kettenzug, Impact-Echo, Kernbohrungen) validiert werden.

Automatisieren Sie Ihre Rissinspektionen von Startbahnen und Fahrbahnen

Setzen Sie KI-gestützte Risserkennung aus Drohnen- und Fahrzeugbildern für automatisierte Inspektionen von Startbahnen, Straßen und Brückenbelägen ein. Erhalten Sie pixelgenaue Rissssegmentierung, Breitenmessung und Schweregradklassifizierung, integriert in Ihr Anlagenverwaltungssystem.

Kontaktieren Sie uns Demo vereinbaren

Mehr erfahren

Risssegmentierung

Risssegmentierung ist die Computer-Vision-Aufgabe, jedes Pixel eines Bildes entweder als Riss oder als Nicht-Riss zu klassifizieren und eine binäre Maske zu erz...

Nov 18, 2025 30 Min. Lesezeit

Computer Vision Deep Learning +2

Rissflächenanteil in der Fahrbahn- und Strukturbewertung

Der Rissflächenanteil (crack_area_pct) ist das Verhältnis der Rissmaskenfläche zur gesamten analysierten Bildfläche, ausgedrückt in Prozent. Er ist eine zentral...

Jun 17, 2026 25 Min. Lesezeit

measurement pavement +3

Automatisierte Rissbreitenmessung aus Bilddaten

Die automatisierte Rissbreitenmessung ermittelt die Öffnungsbreite erkannter Risse aus segmentierten Pixelmasken mittels euklidischer Distanztransformation von ...

Jun 17, 2026 21 Min. Lesezeit

technology inspection +4

KI-basierte Risserkennung für die Inspektion von Infrastruktur

KI-basierte Risserkennung für die Inspektion von Infrastruktur

Problemdefinition und Herausforderungen

Modellarchitekturen für die Risserkennung

U-Net

DeepLabV3+

Vision Transformer (ViT)

DINOv3

CrackNet

EGA-UNet (2025)

Architekturvergleich

Trainingsdatensätze für die Risserkennung

Crack500

DeepCrack

CrackForest Dataset (CFD)

GAPs384

NHA12D

Klassenungleichgewicht und Verlustfunktionen

Rissklassifikation vs. Segmentierung

Bewertungsmetriken

Intersection over Union (IoU)

Dice-Koeffizient (F1-Score)

Precision und Recall

Mean Average Precision (mAP)

Metrikvergleich

Rissbreiten- und Längenmessung aus der Segmentierung

Skelettierung

Distanztransformation zur Breitenmessung

Risslängenberechnung

Pixel-Millimeter-Kalibrierung

Vollständige Mess-Pipeline

Generalisierung über Fahrbahnarten und Beleuchtungsbedingungen hinweg

Generalisierung zwischen Fahrbahnarten

Beleuchtungsvariation

Edge-Einsatz für Echtzeit-Risserkennung

Hardware-Plattformen

Inferenzoptimierung

Bandbreitenstrategie für Drohneninspektionen

Menschliche Überprüfung (Human-in-the-Loop)

Aktuelle Einschränkungen und zukünftige Richtungen

Aktuelle Einschränkungen

Zukünftige Richtungen

Referenzen

Häufig gestellte Fragen

Automatisieren Sie Ihre Rissinspektionen von Startbahnen und Fahrbahnen

Mehr erfahren

Risssegmentierung

Rissflächenanteil in der Fahrbahn- und Strukturbewertung

Automatisierte Rissbreitenmessung aus Bilddaten

Cookie-Einstellungen

Notwendige Cookies

Analyse-Cookies