Risssegmentierung
Risssegmentierung ist die Computer-Vision-Aufgabe, jedes Pixel eines Bildes entweder als Riss oder als Nicht-Riss zu klassifizieren und eine binäre Maske zu erz...
Die KI-basierte Risserkennung nutzt Computer Vision – Convolutional Neural Networks, Vision Transformer und semantische Segmentierungsmodelle – um Risse in Fahrbahn- und Strukturbildern automatisch zu identifizieren, zu klassifizieren und zu vermessen. Die Technologie bildet die Grundlage für automatisierte Inspektionsprogramme von Straßen, Start- und Landebahnen sowie Brücken in der Zivilluftfahrt und im Verkehrswesen.
KI-basierte Risserkennung ist eine Computer-Vision-Technologie, die Deep-Learning-Modelle – Convolutional Neural Networks (CNNs), Encoder-Decoder-Architekturen und Vision Transformer – einsetzt, um Risse in Fahrbahn-, Startbahn-, Brückenbelags- und Betonstrukturoberflächen aus digitalen Bildern automatisch zu identifizieren, zu klassifizieren, zu segmentieren und zu vermessen. Die Technologie ersetzt oder ergänzt die manuelle Sichtprüfung durch menschliche Ingenieure und wandelt subjektive, arbeitsintensive Erhebungen in objektive, skalierbare, datengestützte Bewertungen um. Für Betreiber von Flughäfen und ziviler Infrastruktur unterstützt die automatisierte Risserkennung direkt die Pavement Condition Index (PCI)-Bewertung gemäß ASTM D5340-12, die Runway Condition Code (RwyCC)-Berichterstattung gemäß ICAO Annex 14 und die vorausschauende Instandhaltungsplanung.

Das Problem der Risserkennung stellt einzigartige Herausforderungen dar, die es von allgemeinen semantischen Segmentierungsaufgaben unterscheiden. Risse sind dünne, längliche Strukturen – typischerweise 0,1 mm bis 5 mm breit – die nur 2–8 % der Gesamtpixel in einem gegebenen Bild ausmachen, was ein extremes Klassenungleichgewicht während des Modelltrainings erzeugt. Das Vordergrund-Hintergrund-Verhältnis für Risspixel beträgt etwa 1:20 bis 1:50, was bedeutet, dass ein naiver Klassifikator, der alle Pixel als Hintergrund vorhersagt, 95 %+ Genauigkeit erreicht, während er null Risse erkennt. Die Rissmorphologie variiert stark: Längsrisse verlaufen parallel zur Fahrbahnmitte, Querrisse verlaufen senkrecht dazu, Alligatorrisse (Ermüdungsrisse) bilden miteinander verbundene polygonale Muster und Reflexionsrisse pflanzen sich durch Deckschichten von darunterliegenden Fugen fort. Jeder Typ erfordert eine unterschiedliche geometrische Charakterisierung.
Beleuchtungs- und Umgebungsvariabilität erschweren die Erkennung zusätzlich. Schatten von Bauwerken und überhängender Vegetatur erzeugen kontrastarme Bereiche, in denen Risse nahezu unsichtbar werden. Nasse Fahrbahn reduziert den Oberflächentemperaturkontrast für wärmebasierte Verfahren und verändert die Reflexion im sichtbaren Spektrum. Ölflecken, Reifenspuren, Gummiablagerungen, Baufugen, Oberflächentexturvariationen (Rillen, Riefen, Besenstrich) und Ablagerungen erzeugen falschpositive Merkmale, die Risse optisch imitieren. Eine Studie aus dem Jahr 2025, veröffentlicht in Scientific Reports (EGA-UNet-Paper, Vol. 15, Artikel 33818), zeigte, dass die Risserkennungsgenauigkeit auf komplexen Hintergründen selbst mit hochmodernen Aufmerksamkeitsmechanismen um 10–20 % gegenüber sauberen, gleichmäßigen Oberflächen abnimmt.
Skalen- und Auflösungsbeschränkungen bedingen einen grundlegenden Zielkonflikt. Hochauflösende Bilder (Bodenabtastabstand unter einem Millimeter pro Pixel) erfassen feine Risse, erfordern jedoch große Speicher-, Bandbreiten- und Verarbeitungsressourcen. Bilder mit niedrigerer Auflösung decken mehr Fläche pro Flug- oder Fahrzeugdurchgang ab, übersehen jedoch Risse, die schmaler als 2–3 Pixel sind. Bei der drohnenbasierten Startbahninspektion in 15 m Höhe mit einer 24-MP-Kamera beträgt der typische Bodenabtastabstand 1,0–1,5 mm/Pixel, was bedeutet, dass Risse unter 0,3 mm Breite unterhalb der Erkennungsschwelle liegen. Diese Auflösungsgrenze ist eine harte physikalische Einschränkung, die kein KI-Modell überwinden kann – sie bestimmt die minimale erkennbare Rissbreite für jede gegebene Bildgebungsplattform und Flughöhe.
U-Net, 2015 von Ronneberger, Fischer und Brox an der Universität Freiburg vorgestellt, bleibt die am weitesten verbreitete Architektur für die Pixel-genaue Rissssegmentierung. Die symmetrische Encoder-Decoder-Struktur mit Skip-Verbindungen ist besonders gut für die Risserkennung geeignet, da Risse dünne, räumlich lokalisierte Merkmale sind, die den Erhalt hochfrequenter Details während der gesamten Downsampling- und Upsampling-Pipeline erfordern.
Der U-Net Encoder (kontrahierender Pfad) besteht aus vier Downsampling-Blöcken. Jeder Block enthält zwei 3×3-Faltungen (Padding=same) gefolgt von ReLU-Aktivierung und einer 2×2-Max-Pooling-Operation (Schrittweite=2). Die Filteranzahl verdoppelt sich auf jeder Ebene: 64 → 128 → 256 → 512 → 1024 am Engpass. Bei einer 512×512-Pixel-Eingabe reduzieren sich die räumlichen Dimensionen durch den Encoder wie folgt: 512 → 256 → 128 → 64 → 32 in der tiefsten Schicht. Die Engpass (Bottleneck)-Schicht am unteren Ende der U-Form enthält 1024 Merkmalskarten mit 32×32 Auflösung und repräsentiert die abstraktesten, semantisch reichhaltigsten Merkmale.
Der Decoder (expandierender Pfad) spiegelt den Encoder mit vier Upsampling-Blöcken wider. Jeder Block wendet eine 2×2 transponierte Faltung (Deconvolution) an, die die Anzahl der Filter halbiert und die räumlichen Dimensionen verdoppelt. Die hochgesampelte Merkmalskarte wird mit der entsprechenden Merkmalskarte aus dem Encoder-Pfad über Skip-Verbindungen konkateniert – zum Beispiel erhält die 128×128-Ebene des Decoders eine direkte Konkatenation von der 128×128-Ebene des Encoders. Dieser Skip-Verbindungsmechanismus ist entscheidend: Er versorgt den Decoder mit hochauflösenden räumlichen Details aus dem Encoder, die ansonsten während des aggressiven Downsamplings verloren gehen würden. Nach der Konkatenation verfeinern zwei 3×3-Faltungen mit ReLU die kombinierten Merkmale.
Die letzte Ausgabeschicht ist eine 1×1-Faltung mit Sigmoid-Aktivierung, die eine einkanalige Wahrscheinlichkeitskarte erzeugt, bei der jeder Pixelwert (0 bis 1) die Wahrscheinlichkeit angibt, dass dieser Pixel zu einer Rissregion gehört. Ein Schwellenwert (typischerweise 0,5) wandelt Wahrscheinlichkeiten in eine binäre Riss-/Nicht-Riss-Segmentierung um.
Das ursprüngliche U-Net enthält ~31 Millionen Parameter und 23 Faltungsschichten. Bei einer 512×512-Eingabe beträgt die Inferenzgeschwindigkeit etwa 40 ms pro Bild auf einer modernen GPU (NVIDIA RTX 3080 oder äquivalent). Leichtgewichtige Varianten wie ResU-Net (unter Verwendung residueller Verbindungen anstelle einfacher Faltungen) reduzieren die Parameter auf ~7,8 Millionen und erreichen dabei eine mittlere IoU von 68,47 % auf Rissdatensätzen. EGA-UNet reduziert weiter auf ~2,3 Millionen Parameter und verbessert den Dice auf 73,1 % durch Ghost Convolutions und Fourier-basiertes Token-Mixing.
Die Skip-Verbindungen von U-Net sind architektonisch wesentlich für die Risserkennung. Ohne sie würden dünne Risse (1–5 Pixel breit) während des 4-fachen Downsamplings (32-fache Reduktion am Engpass) vollständig verloren gehen – ein 3 Pixel breiter Riss am Eingang wird zu einem Subpixel-Merkmal am Engpass, das durch alleiniges Upsampling nicht wiederhergestellt werden kann. Die Skip-Verbindungen umgehen diesen Informationsengpass vollständig, indem sie dem Decoder die voll aufgelöste Rissgeometrie aus dem Encoder bereitstellen.
DeepLabV3+, 2018 von Chen et al. bei Google entwickelt, adressiert die Risserkennung durch atrous (dilatierte) Faltungen und das Atrous Spatial Pyramid Pooling (ASPP)-Modul. Im Gegensatz zu U-Net, das aggressiv heruntersampelt und über Skip-Verbindungen wiederherstellt, behält DeepLab höher aufgelöste Merkmalskarten während des gesamten Backbones bei, indem dilatierte Faltungen verwendet werden, die das rezeptive Feld erweitern, ohne die räumlichen Dimensionen zu reduzieren.
Der Backbone ist typischerweise ResNet-101 (101 Schichten, ~42,6 Millionen Parameter) oder Xception-65 (~54,7 Millionen Parameter). Standardfaltungen im Backbone werden durch atrous-Faltungen ersetzt – 3×3-Kernel mit Dilatationsraten (Löchern), die zwischen die Kernelelemente eingefügt werden. Ein 3×3-Kernel mit Dilatationsrate r=2 deckt ein 5×5 rezeptives Feld ab; r=4 deckt 9×9 ab; r=8 deckt 17×17 ab; und r=16 deckt 33×33 ab – alle mit der gleichen Parameteranzahl (9 Gewichte) wie eine Standard-3×3-Faltung. Diese Eigenschaft ist für die Risserkennung entscheidend: Sie ermöglicht es dem Modell, einen größeren Kontext um jedes Pixel herum zu sehen (Unterscheidung von Rissen von Oberflächentextur), ohne den Auflösungsverlust, der durch Downsampling entstehen würde.
Das ASPP-Modul wendet vier parallele atrous-faltende Zweige mit Dilatationsraten r=6, 12, 18 und 24 (für Output-Stride=16) an, jeder mit 256 Filtern und 3×3-Kerneln. Ein zusätzlicher 1×1-Faltungszweig und ein Bild-Pooling-Zweig (globaler Durchschnittspooling → 1×1-Faltung → bilineares Upsampling) vervollständigen das Modul. Alle fünf Zweige erzeugen 256-Kanal-Merkmalskarten, die konkateniert und durch eine weitere 1×1-Faltung geleitet werden. Die Multiskalenfähigkeit des ASPP-Moduls ist besonders wichtig für Risse, die in der Breite stark variieren – ein haarfeiner Riss (<1 mm) und ein breiter Riss (>6 mm) erfordern unterschiedliche rezeptive Feldgrößen für eine optimale Erkennung.
Der DeepLabV3+ Decoder ist im Vergleich zum vollständigen U-Net-Decoder leichtgewichtig: bilineares Upsampling um 4×, Konkatenation mit niedrigstufigen Merkmalen aus einer frühen Backbone-Schicht (reduziert auf 48 Kanäle durch 1×1-Faltung), zwei 3×3-Faltungen (256 Filter) und abschließendes bilineares Upsampling um 4× auf die ursprüngliche Auflösung. Der Output-Stride beträgt typischerweise 16 (Eingabeauflösung geteilt durch 16 am Engpass), manchmal 8 für dichtere Merkmalskarten auf Kosten des doppelten Speicherverbrauchs.
DeepLabV3+ erreicht etwa 78,5 % mIoU auf Rissdatensätzen. Die EGA-UNet-Studie (2025) berichtete jedoch, dass DeepLabV3+ gegenüber leichtgewichtigen Architekturen wie EGA-UNet (73,1 % Dice gegenüber niedrigerem Wert für DeepLabV3+) aufgrund unzureichender Erhaltung feiner Details an Rissgrenzen schlechter abschneidet. Die Dilatationen des ASPP-Moduls verschwimmen zwar effektiv für den Multiskalenkontext, verwischen jedoch feine räumliche Details, die für eine genaue Rissbreitenmessung unerlässlich sind.
Vision Transformer (ViT), 2020 von Dosovitskiy et al. bei Google vorgestellt, wendet die Transformer-Self-Attention-Architektur – ursprünglich für die Verarbeitung natürlicher Sprache entwickelt – auf die Bildanalyse an. ViT unterteilt ein Eingabebild in nicht überlappende Patches der Größe P×P (typischerweise 16×16 Pixel), linearisiert jeden Patch in einen Vektor und verarbeitet die Sequenz von Patch-Embeddings durch standardmäßige Transformer-Encoder-Schichten mit Multi-Head Self-Attention.
Für eine 224×224-Eingabe mit 16×16-Patches erzeugt ViT (224/16)² = 196 Patch-Embeddings. Jeder Patch der Dimension 16×16×3 (RGB) wird zu einem 768-dimensionalen Vektor abgeflacht und linear auf die Embedding-Dimension D projiziert. Der Transformer-Encoder besteht aus L gestapelten Schichten. ViT-Base verwendet L=12, D=768 und 12 Aufmerksamkeitsköpfe (86M Parameter). ViT-Large verwendet L=24, D=1024 und 16 Köpfe (307M Parameter). ViT-Huge verwendet L=32, D=1280 und 16 Köpfe (632M Parameter). Die Self-Attention-Komplexität skaliert mit O(n²·D) – 196 Patches mit D=768 erfordern etwa 28 Millionen Operationen pro Kopf und Schicht.
Für die Rissssegmentierung wird ViT als Backbone in hybriden Encoder-Decoder-Architekturen verwendet. TransUNet ersetzt den U-Net-Encoder durch einen ViT und kombiniert den globalen Transformer-Kontext mit einem CNN-Decoder zur Wiederherstellung feiner Details. SwinUNet verwendet einen hierarchischen Swin Transformer mit verschobenen Fenstern, um die O(n²)-Rechenkosten zu reduzieren. SETR (SEgmentation TRansformer) wendet ViT direkt als Encoder mit progressivem Upsampling an.
Der Vorteil von ViT für die Risserkennung liegt in seinem globalen rezeptiven Feld. CNNs verarbeiten Informationen lokal und benötigen viele Schichten, um Informationen über große räumliche Distanzen zu propagieren. Der Self-Attention-Mechanismus von ViT verbindet jeden Patch mit jedem anderen Patch in einer einzigen Schicht und ermöglicht so die Erkennung langer, durchgehender Risse, die Hunderte oder Tausende von Pixeln überspannen – zum Beispiel Ermüdungsrisse, die sich über die gesamte Breite einer Startbahn schlängeln. Hybride ViT-CNN-Modelle erreichen 74–78 % IoU auf Rissdatensätzen, wobei TransUNet besondere Stärke bei Alligatorrissmustern (miteinander verbunden) zeigt.
Die entscheidende Einschränkung sind die Rechenkosten. Ein 512×512-Bild, unterteilt in 16×16-Patches, erzeugt (512/16)² = 1.024 Patches, was 1.024² ≈ 1 Million Aufmerksamkeitsberechnungen pro Schicht erfordert – eine Größenordnung mehr als 196 Patches für 224×224-Eingaben. Dies macht einen vollständigen ViT-Einsatz auf Edge-Geräten (Drohnen, mobile Inspektionsfahrzeuge) ohne erhebliche Kompression oder Pruning unpraktikabel.
DINOv3, 2025 von Meta AI veröffentlicht, repräsentiert den Stand der Technik bei selbstüberwachten Vision Transformern. Es ist die dritte Generation der DINO-Familie (DIstillation with NO labels), trainiert in beispiellosem Umfang: bis zu 7 Milliarden Parametern auf 1,7 Milliarden unbeschrifteten Bildern. DINOv3 verwendet ein Lehrer-Schüler-Framework, bei dem der Schüler lernt, die Ausgabedarstellungen des Lehrers ohne menschliche annotierte Daten nachzuahmen.
Die wesentliche architektonische Neuerung von DINOv3 ist Gram Anchoring – eine Regularisierungstechnik, die nach etwa 1 Million Trainingsiterationen angewendet wird und dichte (Patch-Ebene) Merkmalsdarstellungen stabilisiert. Die Gram-Matrix des Schülermodells (paarweise Patch-Ähnlichkeit, Dimensionen N×N wobei N=Anzahl der Patches) wird so eingeschränkt, dass sie nahe an einer eingefrorenen „Gram-Lehrer“-Kopie bleibt. Dies verhindert dense feature collapse, eine Fehlermodus im selbstüberwachten Lernen, bei dem unterschiedliche Bild-Patches trotz semantischer Unterschiede zu ähnlichen Embeddings konvergieren. Frühere DINO-Varianten (v1 und v2) litten während des erweiterten Trainings unter diesem Kollaps; Gram Anchoring ermöglicht stabiles Training über Milliarden von Bildern.
Für die Risserkennung liegt die Relevanz von DINOv3 im Frozen-Backbone-Paradigma. Der vortrainierte ViT-Backbone (verfügbar in Größen von ViT-Small mit 21M Parametern bis ViT-Huge mit 632M und dem Flaggschiffmodell mit 7B Parametern) wird eingefroren und als universeller visueller Encoder verwendet. Leichtgewichtige aufgabenspezifische Köpfe – lineare Sonden, MLP-Adapter oder kleine Faltungsköpfe – werden darauf trainiert, ohne durch den Backbone zurückzupropagieren. Dies ermöglicht:
Die Patch-Ebene-Merkmale von DINOv3 (anstelle globaler Bild-Embeddings) bewahren die feinkörnigen räumlichen Informationen, die für die Abgrenzung feiner Risse erforderlich sind. Die ViT-Base-Variante (86M Parameter, 12 Schichten, 768 Embedding-Dimension) bietet das beste Genauigkeits-zu-Rechenleistung-Verhältnis für Infrastrukturinspektionsanwendungen. DINOv3 ist besonders vielversprechend für Startbahninspektionsprogramme, bei denen beschriftete Rissdaten rar sind – ein häufiges Szenario für kleinere Flughäfen ohne umfangreiche Fahrbahnmanagement-Historie.
CrackNet, 2017 von Zhang et al. an der University of South Florida entwickelt, war eine der ersten tiefen CNN-Architekturen, die speziell und ausschließlich für die automatisierte Fahrbahnrisserkennung entwickelt wurde. Im Gegensatz zu universellen Architekturen (U-Net, DeepLab), die aus der biomedizinischen oder natürlichen Bildsegmentierung adaptiert wurden, wurde CrackNet von Grund auf für die Fahrbahnrissmorphologie konzipiert.
Die ursprüngliche CrackNet-Architektur besteht aus 6 Faltungsschichten mit einer vollständig verbundenen Spitze: Conv1 (5×5, Schrittweite=1, 64 Filter) → Conv2 (5×5, Schrittweite=1, 64 Filter) → MaxPool (2×2) → Conv3 (3×3, Schrittweite=1, 128 Filter) → Conv4 (3×3, Schrittweite=1, 128 Filter) → MaxPool (2×2) → Conv5 (5×5, Schrittweite=1, 256 Filter) → Conv6 (3×3, Schrittweite=1, 256 Filter) → Vollständig verbunden (2.048 Einheiten) → Softmax-Ausgabe (2 Klassen: Riss oder Nicht-Riss). Die Gesamtparameteranzahl beträgt ~1,4 Millionen – etwa 22× kleiner als U-Net (31M) und 35× kleiner als DeepLabV3+ (42–55M).
CrackNet arbeitet auf festen 64×64-Pixel-Patches anstelle vollständiger Bilder. Der Trainingsdatensatz umfasste 640.000 Patches, die aus 1.800 Fahrbahnbildern extrahiert wurden (160.000 für Validierung, 180.000 für Tests). Jeder Patch wird danach klassifiziert, ob er einen Riss im Mittelpixel enthält oder nicht – dies ist ein Patch-basierter Klassifikationsansatz und keine Pixel-genaue Segmentierung. Moderne Varianten (CrackNet-V, CrackNet-II, CrackNet-R) ersetzten den Patch-Klassifikator durch vollständig faltende Netzwerke für dichte Pixel-genaue Vorhersage.
CrackNet-V (die verbesserte Variante von 2020) fügte Training mit Generative Adversarial Networks (GANs) hinzu. Der Generator erzeugt Risssegmentierungskarten aus Eingabebildern, und ein Diskriminatornetzwerk unterscheidet erzeugte Karten von Ground-Truth-Annotationen. Dieses adversarialen Trainingsregime verbesserte den F1-Score auf 0,87 beim CFD-Datensatz. CrackNet-V führte außerdem mehrskalige Merkmalsfusion mit Inception-artigen Modulen ein, was die Erkennung von Rissen unterschiedlicher Breite ermöglichte.
Die Bedeutung von CrackNet liegt in der architektonischen Effizienz für den Edge-Einsatz. Mit 1,4M Parametern und 5 ms pro Patch zeigte es, dass eine riss-spezifische Architekturgestaltung eine produktionsreife Genauigkeit auf der 2017 verfügbaren Hardware erreichen konnte – eine einzige NVIDIA Tesla K80 GPU konnte ein vollständiges Fahrbahnbild (aus Patches zusammengesetzt) in unter 2 Sekunden verarbeiten. Dies belegte die Machbarkeit der Echtzeit-automatisierten Risserkennung für Survey-Fahrzeuge mit Autobahngeschwindigkeit.
EGA-UNet, veröffentlicht von Yang et al. in Scientific Reports (Vol. 15, Artikel 33818, 2025), repräsentiert den aktuellen Stand der Technik für effiziente Rissssegmentierung. Die Architektur erreicht einen Dice-Koeffizienten von 73,1 % mit nur ~2,3 Millionen Parametern – etwa 13× kleiner als Standard-U-Net bei gleichzeitiger Genauigkeitssteigerung von +3,1 % Dice gegenüber U-Net, +11,9 % gegenüber SegNet und +44,9 % gegenüber PSPNet auf Benchmark-Rissdatensätzen.
Drei architektonische Innovationen zeichnen EGA-UNet aus:
EG-Block (Efficient Ghost Sparse Convolution Block): Dieser Baustein verwendet „Ghost“-Faltung – eine Technik, die eine kleine Anzahl intrinsischer Merkmalskarten mittels Standardfaltung erzeugt und dann günstigere lineare Operationen (3×3 Depthwise-Faltungen) anwendet, um zusätzliche „Ghost“-Merkmalskarten zu erzeugen. Für eine gewünschte Ausgabe von C Kanälen erzeugt die Ghost-Faltung etwa C/2 mittels Standardfaltung und C/2 mittels linearer Operationen, wodurch der Rechenaufwand im Vergleich zur Standardfaltung bei äquivalenten Ausgabekanälen um etwa 50 % reduziert wird. Der EG-Block integriert ein Efficient Multi-scale Attention (EMA)-Modul, das Merkmale über mehrere räumliche Skalen hinweg gewichtet.
A-RepViT-Block: Dies ersetzt den standardmäßigen Vision-Transformer-Token-Mixer durch Adaptive Fourier Filtering (AFF). Die Eingabe-Merkmalskarte wird mittels Fast Fourier Transform (FFT) in den Frequenzbereich transformiert, Frequenzkomponenten werden adaptiv gefiltert (Tiefpass, Hochpass oder Bandpass, abhängig von gelernten Gewichten), und die inverse FFT rekonstruiert die räumliche Merkmalskarte. AFF erfasst globalen Kontext mit O(n log n)-Komplexität gegenüber O(n²) für Self-Attention – für eine 32×32-Merkmalskarte (1.024 Elemente) reduziert dies den Rechenaufwand von ~1M Operationen auf ~10K Operationen pro Schicht.
SPPF (Spatial Pyramid Pooling Fast): Angewendet in der tiefsten Encoder-Schicht, aggregiert SPPF mehrskalige Merkmale unter Verwendung von drei sequentiellen Max-Pooling-Operationen mit variierenden Kernelgrößen (5×5, 9×9, 13×13 effektive rezeptive Felder), konkateniert in einer einheitlichen mehrskaligen Darstellung. Dies ist recheneffizient im Vergleich zu parallelem ASPP (verwendet in DeepLab), da das sequentielle Pooling Zwischenergebnisse wiederverwendet.
Die Inferenzgeschwindigkeit von EGA-UNet ist für den Echtzeit-Edge-Einsatz ausreichend. Auf einem NVIDIA Jetson Orin Nano Super erreicht das Modell etwa 45–55 FPS bei FP16-Genauigkeit bei 512×512-Eingaben, was es für drohnenbasierte oder fahrzeugmontierte Echtzeit-Risserkennung geeignet macht. Das leichte Design ermöglicht den Einsatz auf Plattformen ohne dedizierte GPUs – Inferenz mit 8–12 FPS auf einem Raspberry Pi 5 mit Hailo-8L NPU-Beschleuniger (13 TOPS) wurde demonstriert.
| Architektur | Parameter | Entwurfsprinzip | Wichtigste Innovation | Riss-Dice/IoU | Edge-tauglich |
|---|---|---|---|---|---|
| U-Net (2015) | ~31M | Encoder-Decoder, Skip-Verbindungen | Erhalt räumlicher Details | 65–68 % IoU | Mit Quantisierung |
| ResU-Net | ~7,8M | Residuale Skip-Verbindungen | Verbesserung des Gradientenflusses | 68,5 % IoU | Ja |
| DeepLabV3+ (2018) | ~42–55M | Atrous-Faltung, ASPP | Multiskalen-Kontext | ~75 % IoU | Nein |
| ViT-Base (2020) | 86M | Self-Attention auf Patches | Globales rezeptives Feld | 74–78 % IoU | Nein |
| DINOv3 (2025) | 21M–7B | Selbstüberwacht, eingefrorener Backbone | Few-Shot-Transfer | Vergleichbar überwacht | Mit Adapter-Kopf |
| CrackNet (2017) | ~1,4M | Patch-basiertes CNN | Fahrbahnspezifisches Design | ~87 % F1 (Patch) | Ja |
| EGA-UNet (2025) | ~2,3M | Ghost Conv + AFF Token-Mixing | Leichtgewichtig + globaler Kontext | 73,1 % Dice | Ja |
Das Training von Risserkennungsmodellen erfordert Pixel-genau annotierte Datensätze, bei denen jedes Bild eine entsprechende binäre Maske aufweist, die jedes Pixel als Riss (weiß, Wert 1) oder Nicht-Riss (schwarz, Wert 0) kennzeichnet. Der Annotationsprozess ist arbeitsintensiv – ein einzelnes 2000×1500-Pixel-Bild erfordert 15–45 Minuten manuelle Expertenmarkierung mit Polylinien-Zeichenwerkzeugen, gefolgt von morphologischer Dilatation, um vollbreite Rissmasken zu erzeugen. Die folgenden Datensätze bilden die Standard-Benchmarks für die akademische Forschung und Modellentwicklung.
Crack500, veröffentlicht von Yang et al. im Jahr 2020, enthält 500 RGB-Bilder mit 2000×1500-Pixel-Auflösung (3 Megapixel pro Bild). Die Bilder wurden mit Handykameras auf Fahrbahnoberflächen rund um die Temple University in Philadelphia, USA, aufgenommen. Jedes Bild verfügt über eine entsprechende Pixel-genaue binäre Segmentierungsmaske, die manuell mit Polylinien-Zeichenwerkzeugen annotiert wurde. Forscher unterteilen die 500 Bilder üblicherweise in etwa 1.896 nicht überlappende 512×512-Patches für das Modelltraining. Die Standardaufteilung weist 350 Bilder für das Training, 50 für die Validierung und 100 für Tests zu. Risspixel machen etwa 2–5 % der Gesamtpixel pro Bild aus. Die Rissbreiten reichen von 0,1 mm bis 5 mm, und die Bilder umfassen mehrere Beleuchtungsbedingungen (sonnig, bewölkt, schattig). Zu den Risstypen gehören Längs-, Quer- und Alligatorrisse.
DeepCrack, veröffentlicht von Liu et al. in Neurocomputing (2019), enthält 537 RGB-Bilder mit 544×384-Pixel-Auflösung. Die Bilder wurden von verschiedenen Beton- und Asphaltoberflächen aufgenommen – Brücken, Straßen, Tunnel und Gebäudewände – und bieten eine multiszenische Abdeckung, die bei Einzelquellen-Fahrbahndatensätzen ungewöhnlich ist. Jedes Bild verfügt über Pixel-genaue binäre Annotationen als PNG-Masken. Der Datensatz ist in etwa 300 Trainings- und 237 Testbilder vorunterteilt. DeepCrack wurde speziell entwickelt, um die für die Risserkennung adaptierte Holistically-Nested Edge Detection (HED)-Architektur zu evaluieren. Der Datensatz enthält anspruchsvolle Bedingungen: geringer Kontrast zwischen Rissen und Hintergrund, dünne Risse (1–3 Pixel breit) und strukturierte Oberflächenhintergründe. Risse werden nach Breite und nicht nach Strukturtyp kategorisiert.
CFD, veröffentlicht von Shi et al. in IEEE Transactions on Intelligent Transportation Systems (2016), enthält 118 Bilder mit 480×320-Pixel-Auflösung. Die Bilder wurden mit einem iPhone 5 auf städtischen Straßen in Peking, China, aufgenommen. Jedes Bild verfügt über manuelle Ground-Truth-Masken auf Pixelebene sowie einen „seg“-Ordner mit Superpixel-basierten Segmentierungen. Der Datensatz wurde entwickelt, um allgemeine städtische Straßenoberflächenbedingungen widerzuspiegeln, und enthält Störfaktoren: Schatten von Bäumen und Gebäuden, Ölflecken, Wasserpfützen und Laubbedeckung. Risspixel machen etwa 4–8 % jedes Bildes aus. Die niedrige 480×320-Auflösung macht die Erkennung dünner Risse anspruchsvoll – Risse können nur 1–2 Pixel breit sein. CFD ist nur für die nicht-kommerzielle Forschung unter Angabe der Quelle lizenziert. Die Haupteinschränkung ist die geringe Größe (118 Bilder), der einzelne geografische Bereich und die einzelne Kamera.
GAPs384 (German Asphalt Pavement Distress Dataset) von der Technischen Universität Ilmenau, Deutschland, enthält 1.969 Bilder mit 1920×1080-Pixel-Auflösung (Full HD). Dies ist der größte öffentliche Einzelquellen-Rissdatensatz nach Bildanzahl. Die Bilder sind Graustufen (nicht RGB), was die Dateigröße reduziert, aber Farbinformationen eliminiert, die bei der Rissunterscheidung helfen können. Die Annotationen umfassen eine Klassifizierung des Risstyps (Längs-, Quer-, Alligatorrisse) zusätzlich zu den Rissmasken auf Pixelebene. Die hohe Auflösung und die einheitlichen Aufnahmebedingungen (deutsches Autobahnnetz) machen GAPs384 wertvoll für das Training von Modellen, die für europäische Fahrbahnbedingungen bestimmt sind. Der Datensatz enthält ein breiteres Spektrum an Riss-Schweregraden als CFD oder Crack500.
NHA12D, veröffentlicht von Huang et al. (2022), enthält 80 Fahrbahnbilder, die vom britischen A12-Autobahnnetz von National Highways (ehemals Highways England) gesammelt wurden. Der Datensatz umfasst in einzigartiger Weise 40 Betonfahrbahnbilder und 40 Asphaltfahrbahnbilder, die unter identischen Survey-Bedingungen von digitalen Survey-Fahrzeugen aufgenommen wurden. Diese Zweiflächenzusammensetzung macht NHA12D wertvoll für die Bewertung der domänenübergreifenden Generalisierung – die Fähigkeit eines Modells, Risse auf beiden Oberflächentypen ohne Leistungsabfall zu erkennen. Pixel-genaue Ground-Truth-Annotationen werden bereitgestellt. Die geringe Größe (80 Bilder) macht NHA12D hauptsächlich zu einem Benchmark-Datensatz und weniger zu einer Trainingsressource.
| Datensatz | Bilder | Auflösung | Riss-%/Bild | Quelle | Jahr |
|---|---|---|---|---|---|
| Crack500 | 500 | 2.000×1.500 | 2–5 % | Straßen in Philadelphia | 2020 |
| DeepCrack | 537 | 544×384 | variiert | Mehrere Szenen | 2019 |
| CFD | 118 | 480×320 | 4–8 % | Straßen in Peking | 2016 |
| GAPs384 | 1.969 | 1.920×1.080 | variiert | Deutsche Autobahnen | 2020 |
| NHA12D | 80 | Hochauflösend | variiert | Britische A12-Autobahn | 2022 |
| CrackTree200 | 206 | 800×600 | variiert | Fahrbahn (anspruchsvoll) | 2012 |
Alle Rissdatensätze weisen ein schweres Klassenungleichgewicht auf: Risspixel machen 2–8 % der Gesamtpixel aus, was bedeutet, dass Modelle aus durchschnittlich 500–2.000 Risspixeln pro 25.000-Gesamtpixel-Bild (480×320 CFD-Auflösung) lernen müssen. Die Standard-Cross-Entropy-Verlustfunktion ist ineffektiv – ein Modell minimiert den Verlust, indem es für jedes Pixel „Hintergrund“ vorhersagt. Spezialisierte Verlustfunktionen adressieren dies:
Focal Loss (Lin et al., 2017) wendet einen Modulationsfaktor (1 − pt)γ auf den Cross-Entropy-Verlust an, wobei pt die vom Modell vorhergesagte Wahrscheinlichkeit für die Ground-Truth-Klasse ist und γ ein Fokussierungsparameter (typischerweise 2,0). Dies gewichtet gut klassifizierte Beispiele (pt → 1,0) herunter und schwer zu klassifizierende Beispiele (pt → 0,0) herauf. Für die Risserkennung mit γ=2,0 reduziert Focal Loss den Beitrag einfacher Hintergrundpixel um etwa das 4-fache im Vergleich zu Cross-Entropy.
Dice Loss (Milletari et al., 2016) = 1 − Dice-Koeffizient = 1 − (2TP + ε)/(2TP + FP + FN + ε). Dies optimiert direkt die Bewertungsmetrik. Dice Loss ist weniger empfindlich gegenüber Klassenungleichgewicht als Cross-Entropy, da er die Überlappung und nicht die Pixelgenauigkeit misst. Es ist die Standardverlustfunktion für U-Net-basierte Rissssegmentierung.
Tversky Loss (Salehi et al., 2017) verallgemeinert Dice Loss, indem er Falschpositive und Falschnegative unterschiedlich gewichtet: Tversky-Index = TP/(TP + α·FP + β·FN). Für die sicherheitskritische Risserkennung, bei der Falschnegative (übersehene Risse) gefährlicher sind als Falschpositive (Fehlalarme), bestraft die Einstellung α=0,3 und β=0,7 FN stärker als FP.
SupContrast (Supervised Contrastive Loss), relevant für DINOv3-basierte Ansätze, zieht Patch-Embeddings von Risspixeln im Embedding-Raum zusammen und drückt sie gleichzeitig von Hintergrund-Pixel-Embeddings weg. Dies erzeugt einen gut strukturierten Embedding-Raum, in dem Risspixel dichte Cluster bilden, die linear von Hintergrundclustern trennbar sind.
KI-basierte Risserkennungsansätze fallen in zwei methodologische Kategorien: klassifikationsbasierte und segmentierungsbasierte, jeweils mit unterschiedlichen Ausgaben, Metriken und Anwendungsfällen.
Rissklassifikation bestimmt, ob eine Bildregion (Bildpatch, Kachel oder vollständiges Bild) einen Riss enthält. Die Ausgabe ist ein binäres Label (Riss vorhanden / Riss abwesend) oder ein Multi-Klassen-Label (Risstyp: Längs-, Quer-, Alligatorriss). Klassifikationsmodelle sind typischerweise leichte CNNs (CrackNet mit 1,4M Parametern, MobileNetV2 mit 3,5M Parametern), die auf Patch-Ebene-Datensätzen trainiert werden. Die Ausgabe liefert eine Risspräsenzwahrscheinlichkeit und den Ort (welcher Patch einen Riss enthält), jedoch keine Rissgeometrie – Breite, Länge, Orientierung oder Topologie. Die Klassifikation eignet sich für schnelle Screening-Surveys, bei denen das Ziel darin besteht, Rissstellen für die Nachinspektion zu identifizieren, nicht einzelne Risse zu vermessen. Die Bewertung verwendet Genauigkeit, Precision, Recall und F1 auf Patch- oder Bildebene.
Risssegmentierung (semantische Segmentierung) klassifiziert jedes Pixel einzeln als Riss oder Nicht-Riss. Die Ausgabe ist eine binäre Maske mit derselben Auflösung wie das Eingabebild, bei der jedes Pixel eine Risswahrscheinlichkeit aufweist. Dies liefert die vollständige Rissgeometrie – Breite an jedem Punkt entlang des Risses, Gesamtlänge, Orientierungswinkel, Verzweigungstopologie und Rissfläche. Die Segmentierung wird für die quantitative Fahrbahnzustandsbewertung (PCI-Berechnung, Rissbreiten-Schweregradklassifizierung nach ICAO-Normen) benötigt. Die Bewertung verwendet Metriken auf Pixelebene: IoU, Dice, Precision, Recall und Boundary F1. Segmentierungsmodelle sind rechenintensiver (U-Net mit 31M Parametern, DeepLabV3+ mit 42–55M), liefern jedoch wesentlich reichhaltigere Ausgaben.
Einige Systeme verwenden Instanzsegmentierung (Erkennung jedes einzelnen Risses als separates Objekt), die zwischen nicht verbundenen Rissen unterscheidet. Dies ist relevant für die Risszählung (Anzahl der Risse pro Flächeneinheit) und die Rissdichtekartierung. Mask R-CNN und YOLOv8-seg sind gängige Instanzsegmentierungsarchitekturen für die Risserkennung.
IoU (Jaccard-Index) misst die Überlappung zwischen vorhergesagter Risssegmentierung und Ground Truth, geteilt durch die Vereinigung beider. Es ist die am weitesten verbreitete Metrik für die Rissssegmentierung:
IoU = TP / (TP + FP + FN)
Die Werte reichen von 0 (keine Überlappung) bis 1 (perfekte Überlappung). Typische IoU für Risserkennungsmodelle liegt zwischen 0,55 und 0,75. IoU ist empfindlicher gegenüber Falschpositiven und Falschnegativen als Dice, da der Nenner der Vereinigung größer ist als die Einzelsummen. Ein Modell, das einen 100-Pixel-Ground-Truth-Riss mit 60 korrekten Pixeln vorhersagt (TP=60, FP=20, FN=40), erreicht IoU = 60/(60+20+40) = 0,50. Der strengere Vereinigungsnenner bedeutet, dass IoU für dieselbe Vorhersage immer niedriger oder gleich Dice ist.
Dice (auch F1-Score für binäre Segmentierung genannt) ist das harmonische Mittel von Precision und Recall:
Dice = 2 × TP / (2 × TP + FP + FN)
Dice steht in Beziehung zu IoU: Dice = 2·IoU / (1 + IoU). Für das obige Beispiel (IoU=0,50) gilt Dice = 2×0,50/1,50 = 0,67. Typische Dice-Werte für die Risserkennung liegen zwischen 0,65 und 0,80. Das EGA-UNet-Paper (2025) gibt Dice = 73,1 % als primäre Metrik an. Dice liefert eine optimistischere Bewertung der Segmentierungsqualität als IoU, und die Lücke zwischen beiden vergrößert sich mit abnehmender Qualität – eine minderwertige Vorhersage mit IoU=0,25 hat Dice=0,40.
Precision (Positiver Vorhersagewert) = TP/(TP+FP). Misst die Fehlalarmrate: Welcher Anteil aller als Riss markierten Pixel ist tatsächlich ein Riss? Hohe Precision (>0,85) bedeutet wenige Falschpositive. Wichtig, wenn die Risserkennung kostspielige Folgemaßnahmen auslöst (z. B. Einsatzkräfte zur Abdichtung, die zur Überprüfung markierter Stellen entsandt werden).
Recall (Sensitivität, Richtig-Positiv-Rate) = TP/(TP+FN). Misst die Rate übersehener Risse: Welcher Anteil aller tatsächlichen Risspixel wurde vom Modell erkannt? Hoher Recall (>0,85) bedeutet wenige übersehene Risse. Für sicherheitskritische Infrastruktur (Startbahninspektion auf Verkehrsflughäfen) wird Recall gegenüber Precision priorisiert – die Untersuchung eines Fehlalarms ist weniger folgenreich als das Übersehen eines echten Risses, der sich unter Flugzeugbelastung zu einem Strukturversagen ausweiten könnte.
mAP bewertet die Precision über verschiedene Recall-Schwellenwerte hinweg, typischerweise berichtet bei IoU-Schwellenwerten von 0,50 (mAP@50) und von 0,50 bis 0,95 in 0,05-Schritten (mAP@50:95). Für die Risserkennung als Objekterkennungsaufgabe (Begrenzungsrahmen) misst mAP, wie gut das Modell Rissregionen lokalisiert. Eine Studie der University of Central Florida aus dem Jahr 2025, die Grounding DINO für die thermische Risserkennung verwendete, erreichte 70 % mAP@[0.5:0.95]. Für Pixel-genaue Segmentierungsaufgaben werden IoU und Dice gegenüber mAP bevorzugt, da Risse nicht-rechteckige Strukturen sind und Metriken auf Basis von Begrenzungsrahmen die Segmentierungsqualität nur schlecht repräsentieren.
| Metrik | Formel | Bereich | Typischer Riss-Wert | Anwendungsfall |
|---|---|---|---|---|
| IoU | TP/(TP+FP+FN) | 0–1 | 0,55–0,75 | Segmentierungsqualität (streng) |
| Dice | 2TP/(2TP+FP+FN) | 0–1 | 0,65–0,80 | Segmentierungsqualität (nachsichtig) |
| Precision | TP/(TP+FP) | 0–1 | 0,80–0,95 | Fehlalarmkontrolle |
| Recall | TP/(TP+FN) | 0–1 | 0,80–0,95 | Sicherheitskritische Erkennung |
| F1 | 2PR/(P+R) | 0–1 | 0,80–0,92 | Gesamtbewertung |
| mAP@50 | Durchschn. Precision bei IoU≥0,5 | 0–1 | 0,70–0,85 | Objekterkennung |
| Pixel Accuracy | (TP+TN)/(TP+TN+FP+FN) | 0–1 | >0,95 (irreführend) | Nicht empfohlen für Risse |
Die binäre Segmentierungsmaske, die von einem KI-Modell ausgegeben wird, liefert die Position und Form von Rissen, aber Infrastruktur-Inspektionsstandards erfordern physikalische Rissabmessungen – Breite in Millimetern, Länge in Metern und Fläche in Quadratmillimetern. Die Umwandlung von Pixel-genauen Masken in technische Messungen erfordert eine Pipeline der rechnergestützten Geometrie.
Skelettierung (Ausdünnung) reduziert die Rissregion auf eine einzelpixelbreite Mittellinie, die die Riss-Topologie (Konnektivität, Verzweigungen, Endpunkte) erhält. Der Zhang-Suen-Ausdünnungsalgorithmus (1984) ist die Standardmethode:
Die Medial Axis Transform (MAT) ist eine Alternative unter Verwendung der Distanztransformation: Für jedes innere Risspixel wird der minimale euklidische Abstand zur Rissgrenze berechnet. Das Skelett besteht aus Pixeln, die lokale Maxima in dieser Distanzkarte sind. MAT erzeugt glattere Skelette für dicke, unregelmäßige Risse, erfordert jedoch O(n²)-Berechnung gegenüber O(n) für das Zhang-Suen-Ausdünnen.
Die euklidische Distanztransformation (EDT) berechnet den minimalen euklidischen Abstand von jedem Skelettpixel (x,y) zum nächsten Rissrandpixel:
D(x,y) = min(i,j)∈∂C √((x−i)² + (y−j)²)
wobei ∂C die Menge der Randpixel der Rissregion ist. Rissbreite am Punkt (x,y) = 2 × D(x,y), da der Abstand von der Mittellinie zum Rand die halbe vollständige Rissbreite beträgt.
Die Distanztransformation wird effizient berechnet mit:
cv2.distanceTransform(): O(n) Zwei-Durchgangs-Rasterscan, der die euklidische Distanz mit <1 % Fehler annähertBreitenstatistiken, abgeleitet aus dem Pixel-genauen Breitenarray:
Die Risslänge wird aus der skelettierten Mittellinie gemessen:
Methode 1 – Pixelzählung mit Konnektivitätskorrektur:
Methode 2 – Chain-Code (Freeman-Kette):
Methode 3 – Euklidischer Abstand zwischen geordneten Punkten:
Für verzweigte Risse (z. B. Alligatorrisse in der Nähe von Kreuzungen) umfasst die Gesamtrisslänge alle Äste. Das Skelett muss vor der Längenberechnung an den Verzweigungspunkten in einzelne Äste zerlegt werden.
Segmentierungsmasken messen Risse in Pixeln; Ingenieursnormen erfordern physikalische Millimeter. Vier Kalibrierungsmethoden werden verwendet:
1. Bekanntes Referenzobjekt: Platziere ein Objekt mit bekannten Abmessungen (Münze, Lineal oder Kalibrierziel) in der Szene. Skalierungsfaktor S = bekannte_Länge_mm / gemessene_Länge_Pixel. Genauigkeit: ±0,5–1 %.
2. Laserprojektion (Carrasco et al., 2021): Zwei parallele Laserstrahlen im bekannten Abstand (z. B. 50 mm) werden auf die Oberfläche projiziert. Der Pixelabstand zwischen den Laserpunkten ergibt S = 50 mm / Δpixel. Genauigkeit: ±0,02 mm.
3. Kamerageometrie: mm_pro_Pixel = (2 × Z × tan(HFOV/2)) / Bildbreite, wobei Z = Kamera-Oberflächen-Abstand (m), HFOV = horizontales Sichtfeld (Grad). Für eine Drohne in 10 m Höhe mit 24-mm-Objektiv und 20-MP-Kamera (5472×3648, 24 mm Brennweite auf APS-C-Sensor mit 1,5-fachem Crop-Faktor, 36 mm effektive Brennweite, HFOV ≈ 51°): mm_pro_Pixel ≈ (2 × 10.000 × tan(25,5°)) / 5472 ≈ 1,8 mm/Pixel.
4. Feste Vorkalibrierung: Für Drohne oder Survey-Fahrzeug mit fester Höhe/Objektivkonfiguration wird S vorkalibriert. Bei 15 m Höhe mit 20-MP-Kamera und 35-mm-Objektiv gilt S ≈ 0,5 mm/Pixel.
Die Modellgeneralisierung – die Fähigkeit, die Erkennungsgenauigkeit auf Fahrbahnarten, Beleuchtungsbedingungen und Kamerasystemen aufrechtzuerhalten, die während des Trainings nicht gesehen wurden – ist eine kritische Herausforderung für die produktive Risserkennung. Ein Modell, das ausschließlich auf Crack500 (Philadelphia-Asphalt) trainiert wurde, kann bei Anwendung auf Betonstartbahnen 5–15 % IoU verlieren, und ein Modell, das auf sonnigen Tagbildern trainiert wurde, kann bei bewölkten oder nassen Bedingungen 10–20 % Genauigkeit einbüßen.
Asphalt- und Betonfahrbahnen weisen grundlegend unterschiedliche visuelle Eigenschaften für die Risserkennung auf. Asphalt hat ein dunkles, gleichmäßiges Erscheinungsbild mit niedriger Albedo (Reflexionsgrad 5–15 %). Risskanten in Asphalt sind typischerweise scharf und kontrastreich, da neue Rissflächen helleres Gesteinsmaterial freilegen. Beton hat eine höhere Albedo (Reflexionsgrad 30–50 %) und ein gesprenkeltes Oberflächenerscheinungsbild durch die Verteilung feiner Gesteinskörnung. Betonrisse sind oft kontrastärmer, da die Rissflächen ähnlich wie die freiliegende Oberfläche verwittern. Ein auf einem Oberflächentyp trainierter Modell erlernt oberflächenspezifische Texturmerkmale (Asphalts gleichmäßiger dunkler Hintergrund), die auf der anderen Oberfläche (Betons hellerer, texturierter Hintergrund) fehlen oder umgekehrt sind.
Der NHA12D-Datensatz wurde speziell entwickelt, um diese domänenübergreifende Herausforderung zu bewerten – er enthält 40 Beton- und 40 Asphaltbilder aus demselben britischen Autobahnnetz. Veröffentlichte Ergebnisse zeigen, dass Modelle, die nur auf Asphalt-Datensätzen (CFD, Crack500) trainiert und auf NHA12D-Betonbildern getestet werden, 8–12 % IoU im Vergleich zur Auswertung auf derselben Oberfläche verlieren. Domänenanpassungstechniken adressieren dies durch:
Die Risserkennungsgenauigkeit unter verschiedenen Beleuchtungsbedingungen variiert erheblich. Eine systematische Studie auf Crack500 unter drei Beleuchtungsszenarien ergab:
Datenaugmentierung während des Trainings verbessert die Robustheit gegenüber Beleuchtungsänderungen. Standard-Augmentierungen für die Risserkennung umfassen:
Ein Modell, das mit aggressiver Augmentierung trainiert wurde (Helligkeit ±40 %, Kontrast ±30 %, Rauschen σ=0,03, Weichzeichner-Kernel bis zu 7), verliert etwa 1–2 % absolute IoU bei sauberer, optimaler Beleuchtung, gewinnt jedoch 6–8 % IoU unter schwierigen Bedingungen (Schatten, Bewölkung). Die Verbesserung bei schwierigen Fällen rechtfertigt typischerweise die geringe Einbuße bei einfachen Fällen für den realen Einsatz, bei dem die Beleuchtung nicht kontrolliert ist.
Der Einsatz von Risserkennungs-KI auf Edge-Geräten – eingebettete Computer, die auf Drohnen, Inspektionsfahrzeugen oder Robotern montiert sind – ermöglicht Echtzeitverarbeitung ohne Cloud-Anbindung, was für abgelegene Flugplätze, große Autobahnnetze und sicherheitskritische Anwendungen, bei denen die Latenz in Millisekunden statt Sekunden gemessen werden muss, von entscheidender Bedeutung ist.
NVIDIA Jetson Orin Nano Super (67 TOPS INT8, 7–15 W, 249 $) ist die primäre Edge-Plattform für drohnenbasierte Risserkennung. Die 1024 CUDA-Kerne und 32 Tensor-Kerne bieten ausreichenden Durchsatz für Echtzeitsegmentierung bei 30–50 FPS (FP16) auf optimierten Architekturen (EGA-UNet, ResU-Net). Der 8 GB LPDDR5-Speicher (102 GB/s Bandbreite) bewältigt 512×512-Batch-Inferenz. Formfaktor: 69,6×45 mm Modul, geeignet für die Integration in Drohnen-Nutzlasten.
NVIDIA Jetson Orin NX (100 TOPS, 10–25 W) bietet höheren Durchsatz für die gleichzeitige Verarbeitung mehrerer Kameraströme – nützlich für Inspektionsfahrzeuge mit nach vorne, seitlich und unten gerichteten Kameras.
NVIDIA Jetson AGX Orin (275 TOPS, 15–60 W) ermöglicht den Einsatz von Modellen in voller Größe (DeepLabV3+, TransUNet) mit produktionsrelevanten Bildraten. Wird für fahrzeugmontierte Systeme verwendet, bei denen der Stromverbrauch weniger eingeschränkt ist.
Raspberry Pi 5 (Quad-Core Cortex-A76 @ 2,4 GHz, 60–80 $) mit Hailo-8L NPU (13 TOPS, M.2 HAT) bietet eine kostengünstigere Edge-Lösung. Leichtgewichtige Modelle (U-Net mit Ghost Convolution, MobileNetV3-Segmentierungskopf) erreichen 5–12 FPS bei 512×512-Eingaben. Gesamtsystemkosten inklusive Kamera und Drohnenmontage: ~200 $.
| Plattform | TOPS | Leistung | Preis | Riss-FPS (FP16) | Riss-FPS (INT8) |
|---|---|---|---|---|---|
| Jetson Orin Nano Super | 67 | 7–15 W | 249 $ | 30–50 | 50–80 |
| Jetson Orin NX | 100 | 10–25 W | 499 $ | 40–60 | 70–100+ |
| Jetson AGX Orin | 275 | 15–60 W | 1.999 $ | 60–100+ | 100–200+ |
| Raspberry Pi 5 + Hailo-8L | 13 | 5–12 W | ~80 $ | 5–12 | 8–15 |
TensorRT (NVIDIAs Inferenzoptimierungs-SDK) führt Graphoptimierung, Kernel-Auto-Tuning und Präzisionskalibrierung durch:
ONNX Runtime bietet plattformübergreifenden Einsatz mit Ausführungsanbietern für CUDA (GPU), TensorRT (NVIDIA), OpenVINO (Intel), CoreML (Apple) und ARM CPU. Typische Beschleunigung: 1,2–1,5× gegenüber rohem PyTorch-Inferenz auf CPU.
Channel Pruning entfernt weniger wichtige Faltungskanäle basierend auf der L1-Norm-Größe (Gewichte nahe Null tragen minimal bei). Kann FLOPs um 30–50 % mit 1–2 % Genauigkeitsverlust für die Rissssegmentierung reduzieren. Knowledge Distillation trainiert ein kleines Schülermodell (z. B. EGA-UNet mit 2,3M Parametern) darauf, die Ausgabe eines großen Lehrermodells (z. B. DeepLabV3+ mit 55M Parametern) nachzuahmen, indem die KL-Divergenz zwischen ihren Ausgabewahrscheinlichkeitsverteilungen minimiert wird. Das Schülermodell erreicht 95–98 % der Lehrergenauigkeit bei 70–90 % weniger Parametern.
Für den Betrieb mehrerer Drohnen bei Startbahn- oder Straßeninspektionen erfordert der vollständige Video-Upload (4K, 30 FPS, H.264) 15–25 Mbps pro Drohne – was die Mobilfunkbandbreite in ländlichen Gebieten übersteigt und eine Echtzeit-Cloud-Analyse ausschließt. Eine selektive Upload-Strategie adressiert dies:
Trotz der Fortschritte in der KI-Genauigkeit erfordert die sicherheitskritische Infrastrukturinspektion (Start- und Landebahnen von Verkehrsflughäfen, Fernstraßenbrücken, Talsperren) eine menschliche Überprüfung (Human-in-the-Loop) – ein qualifizierter Prüfer überprüft die von der KI erzeugten Risskarten und bestätigt, verwirft oder passt die Ergebnisse an. Dies ist bedingt durch regulatorische Anforderungen (ICAO, FAA, ASTM), die die Unterschrift eines professionellen Ingenieurs bei Zustandsberichten vorschreiben, die Sicherheitsentscheidungen betreffen.
Der typische Human-in-the-Loop-Workflow für die KI-Risserkennung:
Diese Rückkopplungsschleife verbessert kontinuierlich die Modellleistung. Nach 3–5 erneuten Trainingszyklen mit menschlich überprüften Grenzfällen sinken die Falschpositivraten typischerweise um 40–60 % und der Recall verbessert sich um 5–10 % auf den spezifischen Fahrbahnarten und -bedingungen des Inspektionsprogramms.
Auflösungsgrenze bei der Erkennung dünner Risse: Risse, die schmaler als 2–3 Pixel sind, können unabhängig von der Modellqualität nicht zuverlässig erkannt oder gemessen werden – die physikalische Information ist im Bild einfach nicht vorhanden. Bei einem Bodenabtastabstand von 1,0 mm/Pixel (typisch für Drohneninspektionen in 10–15 m Höhe) sind Risse unter 0,3 mm nicht erkennbar. Dies ist eine harte physikalische Einschränkung, die durch die Auflösung der Bildgebungsplattform bestimmt wird, nicht durch das KI-Modell.
Domänenübergreifende Verschlechterung: Modelle, die auf einem Fahrbahntyp (Asphalt) oder einer geografischen Region (US-Straßen) trainiert wurden, verlieren 5–15 % IoU, wenn sie auf anderen Fahrbahntypen (Beton, Verbund) oder Regionen (europäische, asiatische Straßenoberflächen) eingesetzt werden. Domänenanpassungstechniken verringern diese Lücke, beseitigen sie jedoch nicht. Ein produktiver Einsatz erfordert eine standortspezifische Feinabstimmung oder ein Multi-Region-Training.
Konsistenz von Falschpositiven: Während die Gesamtfalschpositivraten niedrig sind (5–15 % der Erkennungen), treten Falschpositive gehäuft unter bestimmten Bedingungen auf: Baufugen verursachen bei 20–40 % der Fugen Falscherkennungen; Längsrillen (Tining) erzeugen periodische Fehlmuster; und Ölflecken auf der Oberfläche erzeugen unregelmäßige Falschpositive. Diese systematischen Fehlermodi erfordern regelbasierte Nachbearbeitungsfilter (z. B. „Erkennungen entlang bekannter Fugenlinien aus GIS-Daten entfernen“).
Nasse Bedingungen und schlechte Lichtverhältnisse: Die Leistung auf nasser Fahrbahn verschlechtert sich um bis zu 40 % IoU im Vergleich zu trockenen Bedingungen. Nachtinspektionen erfordern aktive Beleuchtung (LED-Flutlichter an Drohne oder Fahrzeug), die Blendeffekte und Schattenartefakte verursacht und die Genauigkeit weiter verringert. Regen, Nebel und Schneebedeckung machen die Risserkennung mit Kameras des sichtbaren Spektrums praktisch unmöglich.
Regulatorische Akzeptanz: Keine große Luftfahrt- oder Verkehrsbehörde (ICAO, FAA, ASTM, AASHTO) hat Standards für die KI-basierte Risserkennung als eigenständige Inspektionsmethode veröffentlicht. Aktuelle Vorschriften verlangen, dass KI-Ergebnisse durch traditionelle Methoden (Kettenzug, Kernbohrungen, Sichtprüfung durch zertifizierten Prüfer) verifiziert werden. Dies schränkt die betrieblichen Kosteneinsparungen durch den KI-Einsatz ein, da die Zeit des Prüfers für die Verifizierung weiterhin erforderlich ist.
Selbstüberwachtes Lernen für datenarme Szenarien: Das DINOv3-Frozen-Backbone-Paradigma zeigt, dass Risserkennungsmodelle mit 50–100 beschrifteten Bildern statt 500–2.000 trainiert werden können. Zukünftige Entwicklungen werden dies auf Zero-Shot-Risserkennung ausweiten – Modelle, die Risse auf jedem Oberflächentyp ohne domänenspezifisches Training erkennen, indem sie Foundation-Model-Merkmale nutzen, die aus Milliarden verschiedener Bilder gelernt wurden.
Physik-informierte neuronale Netze: Aktuelle Modelle lernen rein visuelle Merkmale. Physik-informierte Modelle werden Wärmeübertragungsgleichungen für die thermische Risserkennung, Spannungs-Dehnungs-Modelle zur Vorhersage der Rissausbreitung aus erfasster Geometrie und Belastungsmodelle für Flughafenfahrbahnen (Flugzeuggewicht, Reifendruck, Überrollfrequenz) integrieren, um die Reparaturdringlichkeit basierend auf dem strukturellen Risiko und nicht nur auf den Rissabmessungen zu priorisieren.
Videobasierte Zeitanalyse: Aktuelle Systeme analysieren Einzelbilder. Videobasierte Modelle werden die Rissentwicklung über mehrere Survey-Durchgänge hinweg verfolgen (Jahresvergleich), das Öffnen/Schließen von Rissen unter Verkehrsbelastung erkennen (Messung der Rissbreite vor, während und nach dem Überflug eines Flugzeugs) und transiente Falschpositive (Blätter, Schmutz, stehendes Wasser) durch zeitliche Konsistenzprüfungen herausfiltern.
Multimodale Sensorfusion: Die Kombination von Kameras des sichtbaren Spektrums mit thermischem Infrarot (IRT), Bodenradar (GPR), LiDAR-Höhenprofilierung und Ultraschalltomographie erzeugt eine reichhaltigere Schadenscharakterisierung. Ein einheitliches KI-Modell, das alle Modalitäten gleichzeitig verarbeitet, kann Oberflächenrisse (sichtbar), oberflächennahe Schichtablösungen (IRT), Hohlräume (GPR) und Oberflächenrauheit (LiDAR) in einem einzigen Durchgang erkennen – und bietet so eine umfassende strukturelle Zustandsbewertung, die über die reine Risserkennung hinausgeht.
Edge-native Transformer-Architekturen: Die O(n²)-Rechenkosten von Vision Transformern schränken derzeit den Edge-Einsatz ein. Hardwarespezifische Architekturen (NVIDIA TensorRT optimiert, Qualcomm AI Engine gemappt, Apple Neural Engine kompiliert), kombiniert mit Aufmerksamkeitsmechanismen linearer Komplexität (Performer, Linformer, Mamba-State-Space-Modelle), werden bis 2027 Transformer-genaue Genauigkeit auf Edge-Geräte bringen. Die Mamba-UNet-Architektur (2024), die State-Space-Modelle anstelle von Attention verwendet, erreicht eine wettbewerbsfähige Rissssegmentierung (71,5 % mIoU) bei etwa 40 % der Rechenkosten von EGA-UNet.
Regulatorische Entwicklung: Mit der zunehmenden Betriebserfahrung der KI-Risserkennung in Flughafen- und Autobahnnetzen werden die Normungsgremien voraussichtlich KI-spezifische Inspektionsstandards veröffentlichen – die Validierungsanforderungen, Genauigkeitsschwellen, Nachschulungshäufigkeit und Protokolle für die menschliche Aufsicht definieren. Die FAA-Roadmap für KI in der Luftfahrt (FAA AI Strategic Plan, 2024) bezieht die KI für die Infrastrukturinspektion explizit in ihren geplanten regulatorischen Rahmenentwicklungszyklus für 2026–2028 ein.

Setzen Sie KI-gestützte Risserkennung aus Drohnen- und Fahrzeugbildern für automatisierte Inspektionen von Startbahnen, Straßen und Brückenbelägen ein. Erhalten Sie pixelgenaue Rissssegmentierung, Breitenmessung und Schweregradklassifizierung, integriert in Ihr Anlagenverwaltungssystem.
Risssegmentierung ist die Computer-Vision-Aufgabe, jedes Pixel eines Bildes entweder als Riss oder als Nicht-Riss zu klassifizieren und eine binäre Maske zu erz...
Der Rissflächenanteil (crack_area_pct) ist das Verhältnis der Rissmaskenfläche zur gesamten analysierten Bildfläche, ausgedrückt in Prozent. Er ist eine zentral...
Die automatisierte Rissbreitenmessung ermittelt die Öffnungsbreite erkannter Risse aus segmentierten Pixelmasken mittels euklidischer Distanztransformation von ...