Daten-Augmentierung

{

Betonstartbahnfläche mit sichtbaren Rissen und Fahrbahnschadensmarkierungen aus Drohnenperspektive während der Infrastrukturinspektion

Definition und Zweck

Daten-Augmentierung ist eine Trainingsmethode, die die Größe und Vielfalt eines gelabelten Datensatzes synthetisch erweitert, indem kontrollierte, labelerhaltende Transformationen auf vorhandene Datenstichproben angewendet werden. In Computer-Vision-Anwendungen bedeutet dies, jedes Originalbild zu nehmen und mehrere modifizierte Versionen durch geometrische Verzerrung, Farbraummanipulation, Rauschzufuhr oder komplexere generative Prozesse zu erzeugen. Der augmentierte Datensatz — Originalbilder plus ihre transformierten Varianten — wird dann zum Trainieren tiefer neuronaler Netze verwendet, wodurch das Modell einer weitaus größeren Bandbreite visueller Bedingungen ausgesetzt wird, als die rohen Felddaten allein bieten würden.

Der Kernzweck der Daten-Augmentierung ist die Verbesserung der Modellgeneralisierung — die Fähigkeit eines trainierten Modells, bei Daten, die es noch nie gesehen hat, genaue Ergebnisse zu liefern. Ein tiefes faltendes neuronales Netzwerk (CNN) mit Millionen von Parametern kann einen Trainingsdatensatz von einigen tausend Bildern leicht auswendig lernen, indem es die spezifischen Texturen, Beleuchtungsmuster und Hintergrundartefakte dieser Beispiele lernt, anstatt die zugrundeliegenden Schadenssignaturen. Dieses Phänomen, bekannt als Überanpassung, führt zu hoher Trainingsgenauigkeit, aber schlechter Validierungs- und Testleistung. Daten-Augmentierung verhindert Überanpassung, indem sie sicherstellt, dass jede Trainingsepoche dem Modell unterschiedlich transformierte Versionen jedes Bildes präsentiert, was reines Auswendiglernen unmöglich macht. Das Modell wird gezwungen, invariante Merkmale zu lernen — visuelle Muster, die über Transformationen hinweg bestehen bleiben.

Für Infrastrukturinspektionsmodelle ist Daten-Augmentierung nicht nur vorteilhaft, sondern betrieblich unerlässlich. Betrachten wir die Realitäten der Datenerfassung bei Flugplatzbefestigungsinspektionen: Eine einzige Startbahnuntersuchung mit einer UAV-Kamera könnte 10.000 hochauflösende Bilder aufnehmen, aber weniger als 200 dieser Bilder enthalten möglicherweise sichtbare Schäden. Risse, Abplatzungen, Fugenabdichtungsfehler und Oberflächenverwitterung machen zusammen weniger als 1 Prozent der gesamten Fahrbahnoberfläche zu einem bestimmten Zeitpunkt aus. Das Sammeln eines ausgewogenen, vielfältigen Datensatzes von Schäden unter allen möglichen Inspektionsbedingungen — direktes Sonnenlicht, Bewölkung, Morgendämmerung, nasse Fahrbahn, trockene Fahrbahn, verschiedene Kameraschwenkwinkel, verschiedene Höhen — wäre unerschwinglich teuer und zeitaufwendig. Daten-Augmentierung überbrückt diese Lücke, indem sie die gesamte Bandbreite der Betriebsbedingungen aus einem viel kleineren Satz feldgesammelter Beispiele simuliert.

Die Bedeutung der Augmentierung wird in den Luftfahrtinfrastrukturstandards formell anerkannt. ICAO Annex 14, Band I (Aerodrome Design and Operations) verlangt, dass Startbahnoberflächen in einem Zustand gehalten werden, der Flugzeuge nicht gefährdet. KI-basierte Inspektionssysteme, die nach diesen Standards ausgelegt sind, müssen eine robuste Leistung über die gesamte Bandbreite der im Flugplatzhandbuch festgelegten Betriebsbeleuchtungs- und Wetterbedingungen demonstrieren. Ohne umfassende Augmentierung würde ein Inspektionsmodell, das ausschließlich mit trockenen Mittagsaufnahmen trainiert wurde, Risse übersehen, die durch Schatten, nasse Stellen oder flaches Sonnenlicht verdeckt werden — und möglicherweise Schäden übersehen, die die Bremsleistung und Betriebssicherheit von Flugzeugen beeinträchtigen.

Daten-Augmentierung arbeitet auf der Datenebene und nicht auf der Modellebene, was sie von Regularisierungstechniken wie Dropout, Gewichtsabnahme oder Batch-Normalisierung unterscheidet. Während Regularisierer auf Modellebene die Fähigkeit des Netzwerks zur Überanpassung einschränken, erweitert die Augmentierung die Datenverteilung, um den realen Eingaberaum vollständiger abzudecken. Die beiden Ansätze sind komplementär: Die bewährte Praxis für Infrastrukturinspektionspipelines kombiniert aggressive Augmentierung mit architektonischer Regularisierung für maximale Generalisierung.

Geometrische Augmentierungen

Geometrische Augmentierungen verändern die räumliche Anordnung von Pixeln in einem Bild, ohne deren Intensitätswerte zu ändern. Diese Transformationen simulieren Änderungen in Kameraposition, -ausrichtung, -entfernung und Linseneigenschaften, die bei der realen Inspektionsdatenerfassung auftreten. Für die Infrastrukturinspektion sind geometrische Augmentierungen die wirkungsvollste Kategorie, da Inspektionsplattformen — UAVs, Bodenfahrzeuge, Handkameras — dieselbe Oberfläche aus sehr unterschiedlichen Perspektiven erfassen.

Rotations-Augmentierung

Die Rotations-Augmentierung wendet eine zufällige Winkeldrehung auf das Eingabebild an, die typischerweise von -180° bis +180° reicht oder für bestimmte Anwendungen auf kleinere Bereiche wie ±45° beschränkt ist. Das transformierte Bild wird erzeugt, indem jede Pixelkoordinate (x, y) um den Winkel θ um den Bildmittelpunkt mit der Standardrotationsmatrix gedreht wird:

x’ = x·cos(θ) - y·sin(θ)

y’ = x·sin(θ) + y·cos(θ)

Für die Risserkennung auf Flughafenstartbahnen und Autobahnbefestigungen ist Rotations-Augmentierung entscheidend, da die Ausrichtung von Rissen relativ zum Kamerabild willkürlich ist. Ein Längsriss parallel zur Startbahnmittellinie kann in einem Bildausschnitt horizontal und in einem anderen diagonal erscheinen, abhängig vom Gierwinkel der Kamera relativ zur Flugzeuglandeerichtung. Ohne Rotations-Augmentierung könnte ein Modell lernen, das Vorhandensein von Rissen mit einer bestimmten Winkelausrichtung zu assoziieren, und Risse, die in anderen Winkeln auftreten, nicht erkennen. Forschung von Alomar et al. (2023) zeigt, dass Rotations-Augmentierung die Klassifikationsgenauigkeit bei strukturellen Schadensdatensätzen im Vergleich zu Modellen, die ohne Rotation trainiert wurden, um 3-8 Prozent verbessert.

Der optimale Rotationsbereich hängt von der Anwendungssymmetrie ab. Für Flugplatzbefestigungen, bei denen Risse sowohl in Längs- als auch in Querrichtung relativ zum Flugzeugverkehr entstehen, ist ein voller Bereich von ±180° angemessen. Für Brückenträgerinspektionen, bei denen die Kamera immer annähernd horizontal ist, kann ein engerer Bereich von ±15° ausreichen. Rotation führt zu leeren Randbereichen an den Bildecken, die durch eine von drei Strategien behandelt werden müssen: (1) Nullpolsterung (Füllen der Ränder mit Schwarz), (2) Spiegelpolsterung (Spiegeln der Randpixel) oder (3) Nächste-Nachbarn-Polsterung. Spiegelpolsterung wird für die Infrastrukturinspektion bevorzugt, da sie vermeidet, künstliche dunkle Ränder einzuführen, die das Modell als falsche Merkmale lernen könnte.

Spiegelungs-Augmentierung

Horizontales Spiegeln (Links-Rechts-Spiegelung) und vertikales Spiegeln (Oben-Unten-Spiegelung) sind die einfachsten geometrischen Augmentierungen, die nur eine Umkehrung der Pixelspalten- oder Zeilenreihenfolge erfordern. Horizontales Spiegeln wird standardmäßig mit 50 Prozent Wahrscheinlichkeit in den meisten Augmentierungspipelines angewendet und ist universell vorteilhaft, da es die effektive Datensatzgröße verdoppelt und gleichzeitig rechenfrei ist — es erfordert keine Interpolation.

Für die Infrastrukturinspektion erhält horizontales Spiegeln das Label für die meisten Schadensarten. Ein Riss ist ein Riss, unabhängig davon, ob er auf der linken oder rechten Seite des Bildes erscheint. Einige Schäden haben jedoch eine Richtungsasymmetrie: Ausbrüche (Verlust von Gesteinskörnung an Fahrbahnrändern) treten tendenziell bevorzugt entlang des Fahrbahnrandes auf, und Stufenbildung (vertikale Verschiebung über eine Fuge) hat eine Richtungsabhängigkeit im Zusammenhang mit der Verkehrsbelastung. Für diese gerichteten Schäden muss der Praktiker überprüfen, ob die gespiegelte Version ein gültiges Trainingsbeispiel bleibt.

Vertikales Spiegeln wird für terrestrische Infrastrukturinspektionen weniger häufig verwendet, da es die schwerkraftkonsistente Ausrichtung des Bildes umkehrt. Ein Riss auf einer vertikalen Betonwand erscheint gespiegelt grundlegend anders — obwohl für Fahrbahninspektionen, bei denen die Kamera direkt nach unten schaut, vertikales Spiegeln genauso labelerhaltend ist wie horizontales Spiegeln. Für Brückeninspektionsbilder, bei denen die Kamera vertikale Oberflächen (Träger, Pfeiler, Widerlager) aufnimmt, sollte horizontales Spiegeln gegenüber vertikalem Spiegeln priorisiert werden.

Zuschneide-Augmentierung

Zufälliges Zuschneiden wählt einen rechteckigen Unterbereich des Eingabebildes aus und ändert dessen Größe auf die erwarteten Eingabeabmessungen des Netzwerks. Dies simuliert den Effekt, dass die Kamera in unterschiedlichen Entfernungen zur inspizierten Oberfläche positioniert ist — nähere Ausschnitte entsprechen Ansichten mit höherer Auflösung und mehr Details, während breitere Ausschnitte einen größeren Kontext zeigen.

Die standardmäßige Zufalls-Zuschneide-Augmentierung entnimmt eine Ausschnittsregion mit einer Fläche zwischen min_scale und max_scale (typischerweise 0,08 bis 1,0 der ursprünglichen Bildfläche) und einem Seitenverhältnis zwischen min_ratio und max_ratio (typischerweise 0,75 bis 1,33). Die zugeschnittene Region wird dann auf die feste Netzwerkeingabegröße skaliert, z. B. 512×512 Pixel für typische Risssegmentierungsmodelle.

Für die Infrastrukturinspektion erfüllt zufälliges Zuschneiden einen doppelten Zweck. Erstens erhöht es die Positionsvielfalt — ein Modell, das nur mit Vollbildern trainiert wurde, könnte lernen, Schäden mit ihrer Position im Bild zu assoziieren, und versagen, wenn derselbe Schaden in einer anderen Bildregion erscheint. Zweitens simuliert Zuschneiden mit Größenänderung unterschiedliche Inspektionshöhen und Zoomstufen, was für UAV-basierte Inspektionen entscheidend ist, bei denen die Flughöhe je nach Vorschriften und Vermessungsanforderungen zwischen 10 Metern und 50 Metern variiert. ICAO Doc 9137, Teil 9 (Airport Maintenance Practices) und ICAO Doc 9981 (PANS-Aerodromes) behandeln Inspektionsmethoden, die fahrzeugmontierte oder handgehaltene Datenerfassung umfassen können, die jeweils unterschiedliche Sichtfelder mit sich bringen. Zufälliges Zuschneiden während des Trainings stellt sicher, dass das Modell über diese Erfassungsmodalitäten hinweg generalisiert.

Perspektivtransformationen

Perspektivtransformationen (auch Perspektivverzerrungen oder Homographie-Augmentierungen genannt) wenden eine projektive Abbildung auf das Bild an, die den Effekt simuliert, dass die Kamerabene relativ zur inspizierten Oberfläche geneigt ist. Dies wird mathematisch durch eine 3×3-Homographiematrix dargestellt, die Punkte von einer Ebene auf eine andere abbildet.

Für die Infrastrukturinspektion ist Perspektiv-Augmentierung einzigartig wichtig, da reale Inspektionsaufnahmen selten aus einem perfekt orthogonalen (Nadir-) Blickwinkel aufgenommen werden. Fahrzeugmontierte Kameras erfassen die Fahrbahn in einem leichten Vorwärtswinkel. UAV-Kameras können je nach Manöver der Drohne Schwenkwinkel von 5-20 Grad aufweisen. Handgehaltene Inspektionskameras variieren in ihrer Neigung je nach Körpergröße und Armposition des Inspektors. Ein Riss, der aus einer Nadir-Ansicht linear und gleichmäßig erscheint, wird aus einem schrägen Winkel verkürzt und geometrisch verzerrt. Perspektiv-Augmentierung trainiert das Modell, Schäden unabhängig vom Aufnahmewinkel zu erkennen.

Der Grad der perspektivischen Verzerrung wird durch den Parameter Verzerrungsmaßstab gesteuert, der typischerweise zwischen 0,05 und 0,3 in normalisierten Koordinaten eingestellt wird. Höhere Werte simulieren extremere Kameraschwenkungen. Für Flugplatzinspektionen wird ein Perspektivmaßstab von 0,1–0,2 empfohlen, was Kameraschwenkwinkeln von etwa 5-15 Grad vom Nadir entspricht.

Affine Transformationen

Affine Transformationen kombinieren Skalierung, Scherung, Rotation und Translation in einer einzigen 2×3-Matrixoperation. Im Gegensatz zu Perspektivtransformationen erhalten affine Transformationen Parallelität — parallele Linien bleiben nach der Transformation parallel. Die Operation kann ausgedrückt werden als:

[x’, y’]² = A · [x, y]² + b

wobei A eine 2×2-Matrix ist, die Rotation, Skalierung und Scherung steuert, und b ein Translationsvektor ist.

Für die Infrastrukturinspektion umfasst eine übliche affine Augmentierungskonfiguration: Translation (±10 Prozent der Bildabmessungen, Simulation von Bildausrichtungsfehlern), Skalierung (0,8x bis 1,2x, Simulation von Höhenvariationen), Scherung (±10 Grad, Simulation von Kameraneigung) und Rotation (±15 Grad). Der kombinierte Effekt erzeugt Bilder, die realistisch die Positions- und Ausrichtungsvariabilität der Inspektionsdatenerfassung simulieren, ohne extreme Verzerrungen zu erfordern, die unrealistische Artefakte einführen könnten.

AugmentierungstypTypischer BereichAnwendung für Infrastruktur
Rotation±45° bis ±180°Simuliert verschiedene Kamera-Gierwinkel relativ zur Rissorientierung
Horizontale Spiegelung50% WahrscheinlichkeitVerdoppelt Datensatz; invariant für die meisten Schäden
Vertikale Spiegelung50% WahrscheinlichkeitNützlich für Nadir-Fahrbahndarstellungen
Zufallsausschnitt0,08–1,0 Skala, 0,75–1,33 SeitenverhältnisSimuliert verschiedene Inspektionshöhen und Zoomstufen
Perspektive0,05–0,3 VerzerrungsmaßstabSimuliert nicht-Nadir-Kameraneigungswinkel
Affin (Skalierung)0,8x–1,2xSimuliert Höhenvariation von UAV-Plattformen
Affin (Scherung)±5° bis ±15°Simuliert Kameraroll- und -nickbewegung
Affin (Translation)±5% bis ±15%Simuliert Positionsvariation des Bildausschnitts
Affin (Rotation)±10° bis ±30°Kombiniert mit anderen affinen Parametern

{

Nahaufnahme einer Betonbrückendeckeninspektion mit Oberflächenrissen, Abplatzungen und strukturellen Schäden für das KI-Modelltraining

Farb- und photometrische Augmentierungen

Farb- und photometrische Augmentierungen verändern die Pixelintensitätswerte eines Bildes, ohne die räumliche Anordnung der Objekte zu ändern. Diese Transformationen simulieren Variationen der Lichtverhältnisse — die bedeutendste Quelle realer Variabilität in Infrastrukturinspektionsbildern.

Helligkeits- und Kontrastanpassung

Helligkeits-Augmentierung verschiebt alle Pixelwerte linear durch Hinzufügen eines konstanten Offsets: I’ = I + δ, wobei δ gleichmäßig aus einem Bereich wie [-30, +30] auf einer 0-255-Skala abgetastet wird. Dies simuliert den Unterschied zwischen Mittagssonnenlicht (hohe Helligkeit) und bewölktem Himmel oder frühmorgendlichen Inspektionsbedingungen (geringe Helligkeit). Kontrast-Augmentierung skaliert Pixelwerte um die mittlere Intensität: I’ = α(I - μ) + μ, wobei α aus einem Bereich wie [0,7, 1,3] abgetastet wird. Niedrigere Kontrastwerte simulieren diesige oder neblige Bedingungen; höhere Werte simulieren hartes direktes Sonnenlicht, das starke Schatten erzeugt.

Für die Infrastrukturinspektion wird ein Helligkeitsbereich von ±40 Prozent empfohlen, um das gesamte Spektrum der Betriebsbeleuchtungsbedingungen abzudecken, die in Flugplatzbeleuchtungsplänen gemäß ICAO Annex 14, Kapitel 5 (Visuelle Navigationshilfen) festgelegt sind. Startbahnrandbefeuerung, Anflugbefeuerung und Vorfeldflutlicht erzeugen unterschiedliche Umgebungsbeleuchtungsniveaus, die das Inspektionsmodell bewältigen muss.

Farbton- und Sättigungsmodifikation

Farbtonverschiebung dreht alle Pixelfarben im HSV-Farbraum (Farbton, Sättigung, Wert) um einen zufälligen Winkel, typischerweise ±30° aus einem 360°-Farbkreis. Sättigungsanpassung multipliziert den Sättigungskanal mit einem zufälligen Faktor (typischerweise 0,5 bis 1,5). Diese Augmentierungen simulieren den Effekt unterschiedlicher Fahrbahnoberflächenzustände — trockener Asphalt hat eine geringere Sättigung als nasser Asphalt, gealterter Beton unterscheidet sich farblich von neuem Beton, und Reifengummiablagerungen erzeugen auf Startbahnaufsetzzonen charakteristische Farbartefakte.

Für die Risserkennung auf Asphaltbefestigungen ist Farbton-Augmentierung besonders hilfreich, da der Kontrast zwischen einem dunklen Riss und der umgebenden Fahrbahn mit der Oberflächenfeuchtigkeit variiert. Ein trockener Haarritz kann einen minimalen Farbkontrast gegen trockenen Asphalt aufweisen, während derselbe mit Wasser gefüllte Riss nach Regen als deutlich definierte dunkle Linie erscheint. Modelle, die mit Farbton- und Sättigungs-Augmentierung trainiert wurden, lernen, Risse über diesen feuchtigkeitsabhängigen Kontrastbereich hinweg zu erkennen.

Farbanpassung (Color Jitter)

Color Jitter ist eine zusammengesetzte Augmentierung, die Helligkeit, Kontrast, Sättigung und Farbton gleichzeitig zufällig anpasst. Die Standardimplementierung tastet jeden Parameter unabhängig ab: Helligkeitsfaktor in [1-δ_b, 1+δ_b], Kontrastfaktor in [1-δ_c, 1+δ_c], Sättigungsfaktor in [1-δ_s, 1+δ_s] und Farbtonrotation in [-δ_h, +δ_h]. Für die Infrastrukturinspektion werden die Bereiche δ_b=0,3, δ_c=0,3, δ_s=0,2 und δ_h=0,1 empfohlen.

Color Jitter ist ein hochwirksamer Regularisierer für Schadenserkennungsmodelle. Forschung zur Fahrbahnrissklassifikation zeigt, dass Modelle, die mit umfassendem Color Jitter trainiert wurden, die Validierungsgenauigkeit um 5-12 Prozent verbessern im Vergleich zu Modellen, die nur mit geometrischen Augmentierungen trainiert wurden. Der Effekt ist am stärksten bei feinen Rissen (< 2 mm Breite) ausgeprägt, bei denen der Riss-Fahrbahn-Kontrast bereits gering ist und zusätzliche Beleuchtungsvariation im Training das Modell dazu zwingt, kantengebundene anstelle von farbbasierten Merkmalen zu lernen.

Graustufenkonvertierung

Graustufen-Augmentierung konvertiert eine zufällige Teilmenge der Trainingsbilder in einkanalige Luminanz und entfernt alle Farbinformationen. Dies wird mit einer geringen Wahrscheinlichkeit (typischerweise 5-10 Prozent) angewendet, um sicherzustellen, dass das Modell nicht zu sehr auf Farbsignale angewiesen wird, die möglicherweise nicht unter allen Inspektionsbedingungen vorhanden sind. Für die Infrastrukturinspektion ist Graustufenkonvertierung besonders wertvoll für thermische und nahinfrarote Inspektionsmodalitäten, bei denen Farbbilder nicht verfügbar sind.

Zur Inferenzzeit kann ein Modell, das während des Trainings gelegentlich mit Graustufenbildern trainiert wurde, monochrome oder nahezu monochrome Eingaben problemlos verarbeiten, ohne dass eine Kanalkopie oder Vorverarbeitung erforderlich ist. Dies ist wichtig für die Interoperabilität mit älteren Inspektionskamerasystemen, die möglicherweise im Graustufenmodus aufnehmen, oder für die Analyse historischer Inspektionsbilder, die vor der Standardisierung digitaler Farbkameras erfasst wurden.

Rausch- und Unschärfe-Augmentierungen

Rausch- und Unschärfe-Augmentierungen simulieren die Bildqualitätsminderung, die bei realen Inspektionsdatenerfassungen aufgrund von Sensorlimitationen, Bewegungen, Fokusfehlern und widrigen Umweltbedingungen auftritt.

Gaußsches Rauschen

Gaußsche Rausch-Augmentierung fügt jedem Pixel unabhängig zufällige Pixelwertstörungen hinzu, die aus einer Normalverteilung N(0, σ²) abgetastet werden. Die Rauschstandardabweichung σ wird typischerweise zwischen 0,01 und 0,05 für normalisierte Pixelwerte (0-1-Bereich) eingestellt. Dies simuliert das Schrotrauschen, das in allen digitalen Kamerasensoren vorhanden ist und bei höheren ISO-Einstellungen zunimmt, die bei Aufnahmen bei schwachem Licht verwendet werden.

Das Hinzufügen von Gaußschem Rauschen während des Trainings zwingt die Faltungsfilter des Modells dazu, auf das zugrundeliegende Strukturmuster des Schadens zu reagieren, anstatt auf hochfrequente Pixelartefakte auf Artebene, die nicht über Aufnahmen hinweg reproduzierbar sind. Modelle, die mit Rausch-Augmentierung trainiert wurden, sind robuster gegenüber Sensorqualitätsunterschieden zwischen Inspektionskameras — derselbe Schaden, der mit einer 12-Megapixel-Handy-Kamera und einer 50-Megapixel-DSLR aufgenommen wurde, erscheint einem Modell, das nicht auf verrauschten Bildern trainiert wurde, unterschiedlich.

Gaußsche Unschärfe

Gaußsche Unschärfe-Augmentierung faltet das Bild mit einem Gauß-Kernel der Größe k×k und der Standardabweichung σ. Dies simuliert mehrere reale Bedingungen: unscharfe Aufnahme (die Kamera hat nicht perfekt auf die Fahrbahnoberfläche fokussiert), Bewegungsunschärfe (das Inspektionsfahrzeug bewegte sich während der Aufnahme), atmosphärischer Dunst (Wasserdampf oder Feinstaub in der Luft streut Licht und reduziert die Bildschärfe) und Linsenunvollkommenheiten (Staub oder Kondensation auf der Kameralinse).

Für die Infrastrukturinspektion werden die empfohlenen Gaußschen Unschärfeparameter k ∈ {3, 5, 7} und σ ∈ {0,5, 1,0, 2,0} mit einer Wahrscheinlichkeit von 20-30 Prozent angewendet. Dieser Bereich deckt moderate bis signifikante Unschärfe ab, ohne das Bild unkenntlich zu machen. Bewegungsunschärfe kann alternativ mit einem gerichteten Unschärfekernel simuliert werden, der Pixel in eine bestimmte Richtung verschmiert — dies ist realistischer für fahrzeugmontierte Kameras, bei denen die Unschärferichtung mit der Fahrzeugtrajektorie übereinstimmt.

Die Bedeutung der Unschärfe-Augmentierung wird deutlich, wenn man die Inspektionsgeschwindigkeit betrachtet. Ein Inspektionsfahrzeug, das mit 50 km/h fährt, nimmt Bilder mit etwa 3-5 Pixeln Bewegungsunschärfe bei typischen Verschlusszeiten auf. Eine Inspektionsdrohne, die sich mit 10 m/s mit einer gimbalstabilisierten Kamera bewegt, kann 1-3 Pixel Unschärfe aufweisen. Das Training mit Unschärfe-Augmentierung stellt sicher, dass das Modell zuverlässig über diese Aufnahmegeschwindigkeiten hinweg arbeitet, ohne dass der Inspektionsbediener für die Modellgenauigkeit langsamer fahren muss.

Random Erasing und Cutout

Random Erasing und Cutout sind regularisierungsfokussierte Augmentierungen, die zufällig rechteckige Regionen des Eingabebildes verdecken. Bei Cutout wird ein quadratischer Bereich mit Seitenlänge s (typischerweise 16-64 Pixel für 256×256-Bilder) zufällig positioniert und mit einem konstanten Wert (normalerweise Null oder der mittlere Pixelwert des Datensatzes) gefüllt. Random Erasing variiert das Seitenverhältnis und den Füllwert der verdeckten Region.

Für die Infrastrukturinspektion simulieren diese Augmentierungen Verdeckung durch Fremdkörper (FOD) auf Flugplatzbefestigungen — ein kritisches Sicherheitsanliegen nach ICAO-Annex-14-Standards. Zu FOD gehören lose Steine, Reifenfragmente, Gepäckanhänger, Werkzeuge und andere Gegenstände, die die Fahrbahnoberfläche teilweise verdecken. Ein mit Cutout-Augmentierung trainiertes Modell lernt, Schäden zu erkennen, selbst wenn Teile des Schadens oder der umgebenden Fahrbahn durch verdeckende Objekte verborgen sind. Dies verbessert direkt die Fähigkeit des Modells, Risse und Schäden zu identifizieren, die in den Lücken zwischen Schmutz oder Reifenspuren auf Startbahnoberflächen sichtbar sind.

Domänenspezifische Augmentierungen

Domänenspezifische Augmentierungen sind Transformationen, die auf die einzigartigen visuellen Eigenschaften von Infrastrukturinspektionsbildern zugeschnitten sind. Diese Augmentierungen gehen über generische Computer-Vision-Transformationen hinaus, um die spezifischen Umwelt- und Betriebsbedingungen zu simulieren, denen Inspektionskameras ausgesetzt sind.

Schattensimulation

Schatten auf Infrastrukturoberflächen werden von einer Vielzahl von Objekten geworfen: Brückenüberbauten, Schilderbrücken, Hangars, Terminalgebäuden, benachbarten Flugzeugen, Umzäunungen und sogar dem Inspektionsfahrzeug oder UAV selbst. Schatten erzeugen abrupte lokale Beleuchtungsminderungen, die Risse verdecken, die scheinbare Textur der Fahrbahn verändern und an Schattengrenzen falsch-positive Kantenerkennungen erzeugen können.

Schatten-Augmentierung simuliert dies, indem eine zufällige Region des Bildes mit einer weichen Maske abgedunkelt wird. Die Maske ist typischerweise ein Polygon mit weichen Kanten (Gaußsche Unschärfe auf der Maske mit σ=10-30 Pixel), die nahtlos von voller Beleuchtung zur Schattendunkelheitsstufe übergeht. Der Schattendunkelheitsfaktor wird zwischen 0,2 und 0,6 abgetastet (wobei 0,0 schwarz und 1,0 unverändert ist). Die Schattenposition, -form und -ausrichtung werden randomisiert, um zu verhindern, dass das Modell Schattenmuster mit bestimmten Bildregionen assoziiert.

Für die Brückeninspektion im Speziellen ist die Schattensimulation entscheidend, da Brückenträger, Querträger und Deckelüberhänge komplexe Schattenmuster erzeugen, die je nach Sonnenstand im Tagesverlauf variieren. FHWA-Brückeninspektionsstandards verlangen, dass Zustandsbewertungen unabhängig vom Zeitpunkt der Inspektion konsistent sind. Schatten-augmentierte Modelle erhalten diese Konsistenz und liefern eine genaue Schadenserkennung, unabhängig davon, ob die Brücke um 9:00 Uhr (lange Schatten) oder um 12:00 Uhr (minimale Schatten) inspiziert wird.

Regen- und Wassereffekte

Nasse Fahrbahn verändert das visuelle Erscheinungsbild von Oberflächenschäden dramatisch. Wasser füllt Risse und Hohlräume, verdunkelt sie und erhöht ihren visuellen Kontrast zur umgebenden Fahrbahn. Gleichzeitig erzeugt Wasser spiegelnde Reflexionen, die helle Glanzlichter einführen, insbesondere auf glatten Asphaltoberflächen. Pfützen und stehendes Wasser können darunterliegende Schäden vollständig verdecken.

Regen-Augmentierung simuliert diese Effekte durch mehrere Mechanismen:

Wasserfilmüberlagerung — Hinzufügen einer halbtransparenten blau-grauen Überlagerung zu zufälligen Bildregionen mit einer Deckkraft von 0,1-0,3, um dünne Wasserfilme zu simulieren. Spiegelnde Glanzlichterzeugung — Hinzufügen heller elliptischer oder unregelmäßiger Flecken mit hohen Luminanzwerten (200-250 auf der 0-255-Skala), um Sonnenlicht zu simulieren, das sich auf Wasseroberflächen spiegelt. Regenstreifenüberlagerung — Hinzufügen gerichteter Streifenmuster, um Regen zu simulieren, der während der Aufnahme fällt. Streifendichte, -länge (10-50 Pixel) und -winkel (typischerweise 0-30° von der Vertikalen, abhängig vom Wind) werden randomisiert.

Für die Flugplatzbefestigungsinspektion ist die Augmentierung nasser Startbahnen durch die Betriebsrealität vorgegeben. ICAO Annex 14 und FAA AC 150/5320-5D verlangen, dass die Beurteilung des Startbahnzustands die Wassereffekte auf Reibung und Schadenssichtbarkeit berücksichtigt. Ein Inspektionsmodell, das in einer Region mit 100+ jährlichen Niederschlagstagen eingesetzt wird, muss unter nassen Bedingungen genaue Ergebnisse liefern. Das Training mit Regen- und Wasserfilm-Augmentierungen stellt diese Fähigkeit sicher.

Oberflächentexturvariation

Die Fahrbahnoberflächentextur variiert erheblich in Bezug auf:

  • Fahrbahntyp: Asphalt (flexibel), Beton (starr), Verbundbeläge und poröse Reibungsschichten haben jeweils unterschiedliche visuelle Texturen
  • Alter: Neue Fahrbahn hat eine gleichmäßige Textur; gealterte Fahrbahn zeigt Gesteinsfreilegung, Ausbrüche, Oxidation und Politur
  • Wartungsgeschichte: Deckversiegelungen, Schlämmen, Mikrobeläge und Überzüge verändern jeweils die Oberflächentextur
  • Gesteinskörnungsart: Verschiedene Gesteinsquellen erzeugen unterschiedliche Farb-, Größen- und Reflexionseigenschaften

Die Augmentierung der Oberflächentexturvariation wendet lokale Kontrastverstärkung, lokale Ausgleichung und Textursynthese an, um diese Variationen zu simulieren. Fortgeschrittene Implementierungen verwenden Style-Transfer oder CycleGAN-basierte Domänenanpassung, um Bilder zwischen Texturdomänen zu transformieren — zum Beispiel ein Rissbild von neuem Asphalt zu nehmen und eine Version zu erzeugen, die als gealterter, verwitterter Asphalt erscheint.

Forschung von Krestenitis et al. (2026) zur Startbahninspektion mit UAV-Bildern zeigt, dass Modelle, die mit Oberflächentexturvariation augmentiert wurden, auf texturvielfältigen Testsätzen eine 15-20 Prozent höhere Segmentierungs-IoU (Intersection over Union) erreichen im Vergleich zu Modellen, die ausschließlich mit der ursprünglichen Texturdomäne trainiert wurden. Dies ist besonders wichtig für Flughafenbefestigungsnetze, die Startbahnen, Rollwege und Vorfelder umfassen können, die mit unterschiedlichen Materialien und zu verschiedenen Zeiten gebaut wurden.

{

Startbahn aus Asphalt bei Regen mit Wasserflächen und nasser Fahrbahntextur, sichtbare Risse

Augmentierungsstrategien

Eine Augmentierungsstrategie definiert, welche Transformationen in welcher Reihenfolge, mit welcher Wahrscheinlichkeit und mit welcher Stärke während des Trainings angewendet werden. Die Wahl der Strategie beeinflusst die Modellleistung erheblich. Es gibt drei breite Kategorien: manuelle Strategien, durchsuchte Strategien und zufällige Strategien.

Manuelles Strategiedesign

Manuelle Strategien werden von Praktikern basierend auf Domänenwissen und empirischen Tests handgefertigt. Für die Infrastrukturinspektion könnte eine typische manuelle Strategie die folgende Sequenz bei jedem Trainingsschritt anwenden:

  1. Zufälliges horizontales Spiegeln (50% Wahrscheinlichkeit)
  2. Zufallsrotation ±30° (40% Wahrscheinlichkeit)
  3. Zufallsausschnitt auf 85-100% der Bildfläche mit Größenänderung auf 512×512 (immer angewendet)
  4. Color Jitter: Helligkeit ±0,3, Kontrast ±0,3, Sättigung ±0,2, Farbton ±0,1 (50% Wahrscheinlichkeit)
  5. Gaußsche Unschärfe: Kernel 5, σ=0,5-1,5 (20% Wahrscheinlichkeit)
  6. Gaußsches Rauschen: σ=0,02 (10% Wahrscheinlichkeit)
  7. Zufallsschatten: Dunkelheit 0,2-0,5 (20% Wahrscheinlichkeit)

Manuelle Strategien sind transparent, interpretierbar und recheneffizient — sie erfordern keine Suche oder Validierung. Der Nachteil ist, dass sie möglicherweise nicht optimal sind und vorteilhafte Augmentierungskombinationen übersehen könnten.

AutoAugment — Durchsuchte Augmentierungsstrategie

AutoAugment, eingeführt von Cubuk et al. (2019) bei Google Brain, verwendet Bestärkendes Lernen, um optimale Augmentierungsstrategien zu suchen. Der Suchprozess funktioniert wie folgt:

Ein Controller-RNN schlägt Augmentierungsstrategien vor, die jeweils aus K Unterstrategien bestehen (typischerweise K=5), wobei jede Unterstrategie 2 Operationen mit ihren Stärken und Wahrscheinlichkeiten angibt. Die Strategie wird auf den Trainingsdatensatz angewendet, und ein Kindmodell wird trainiert und auf dem Validierungssatz evaluiert. Die Validierungsgenauigkeit dient als Belohnungssignal für das Controller-RNN, das mit Proximal Policy Optimization (PPO) aktualisiert wird, um bessere Strategien zu erzeugen. Die Suche erfordert typischerweise 15.000 bis 20.000 GPU-Stunden für ImageNet-große Datensätze.

AutoAugment entdeckt nicht-intuitive Strategien, die oft manuelle Entwürfe übertreffen. Zum Beispiel fand die ImageNet-Strategie, dass Scherung X/Y und Rotation mit hoher Wahrscheinlichkeit und moderater Stärke hochwirksam sind, während Equalize und Solarize (Invertieren von Pixelwerten über einem Schwellenwert) die Farbschwankungsrobustheit verbessern. Die entdeckten Strategien übertragen sich zwischen Datensätzen ähnlicher visueller Domänen — eine auf einem allgemeinen Fahrbahndatensatz gefundene Strategie kann mit guten Ergebnissen auf einen spezifischen Flugplatz-Startbahndatensatz angewendet werden.

RandAugment — Praktische Zufallsstrategie

RandAugment, eingeführt von Cubuk et al. (2020), adressiert die Rechenkosten von AutoAugment, indem der Suchprozess vollständig eliminiert wird. Die Strategie wird durch nur zwei Parameter definiert: N (Anzahl der pro Bild anzuwendenden Transformationen) und M (globaler Stärkeparameter für alle Transformationen).

Bei jedem Trainingsschritt wählt RandAugment zufällig N Transformationen aus einem festen Pool von K Operationen aus (typischerweise K=14-17, einschließlich Rotation, Scherung, Translation, Kontrast, Helligkeit, Schärfe, Solarize, Equalize, Autocontrast, Posterize, Farbe und Identität). Die ausgewählten Operationen werden nacheinander mit der Stärke M angewendet. Die Einfachheit dieses Ansatzes bedeutet keine Suche, kein Validierungssatz während des Trainings und minimale Hyperparameteroptimierung.

Für die Infrastrukturinspektion dient RandAugment mit N=2 und M=10 (auf einer 0-30-Stärkeskala) als hervorragende Standardkonfiguration. Höhere N-Werte (3-4) und M-Werte (15-20) bieten stärkere Regularisierung für größere Modelle oder kleinere Datensätze. Forschung zu Fahrbahnrissklassifikations-Benchmarks zeigt, dass RandAugment eine vergleichbare oder überlegene Leistung wie AutoAugment erreicht, während der Hyperparametersuchraum von Tausenden von GPU-Stunden auf eine einzige 2D-Gittersuche über N und M reduziert wird.

StrategieSuchkostenParameterEignung für Infrastruktur
ManuellNullVolle Kontrolle pro OperationGut für domänenspezifische Anforderungen
AutoAugment15.000+ GPU-StundenStrategie durch RL gefundenÜberlegene Leistung, hohe Kosten
RandAugmentVernachlässigbarN (int), M (float)Hervorragend, praktischer Standard
TrivialAugmentVernachlässigbarEinzelner StärkeparameterSehr einfach, wettbewerbsfähig
Fast AutoAugment~100 GPU-StundenDichteabgleichGuter Kompromiss

Augmentierung für die Risserkennung

Risserkennung — die Aufgabe, Risse in Infrastrukturoberflächen zu identifizieren und zu lokalisieren — ist die am meisten untersuchte Anwendung von Daten-Augmentierung im Bereich der Infrastrukturinspektion. Risse stellen besondere Herausforderungen dar, die Augmentierung besonders wirkungsvoll machen.

Risseigenschaften und Augmentierungsempfindlichkeit

Risse in Beton- und Asphaltoberflächen weisen die folgenden für das Augmentierungsdesign relevanten Eigenschaften auf:

Hohes Seitenverhältnis — Risse sind lang und schmal, mit Breiten-zu-Längen-Verhältnissen, die oft 1:100 überschreiten. Dies bedeutet, dass geometrische Augmentierungen, die Seitenverhältnisse stark verzerren (extreme Scherung, nicht-quadratische Ausschnitte), Risse unkenntlich machen können. Linearitätserhaltung — Die meisten strukturellen Risse folgen annähernd linearen oder sanft gekrümmten Pfaden, obwohl Netzrisse miteinander verbundene polygonale Netzwerke bilden. Augmentierungen, die die lineare Kontinuität unterbrechen (zufälliges Löschen der Rissmitte, aggressive JPEG-Komprimierung), können die Rissignatur zerstören. Geringer Kontrast — Feine Risse (Haarrisse unter 0,3 mm Breite) haben einen minimalen Kontrast zur umgebenden Fahrbahn — oft nur 5-15 Graustufenunterschiede auf einem 8-Bit-Bild. Farb-Augmentierungen müssen mit Vorsicht angewendet werden, um dieses ohnehin schwache Signal nicht auszulöschen. Texturabhängigkeit — Risse werden als Anomalien gegen die Hintergrundfahrbahntextur erkannt. Augmentierungen, die die Textur homogenisieren (übermäßige Unschärfe, starke Ausgleichung), können Risse von intakter Fahrbahn ununterscheidbar machen.

Empfohlene Augmentierungspipeline für die Risserkennung

Basierend auf veröffentlichter Forschung und empirischen Tests an Flugplatzbefestigungsdatensätzen wird die folgende Pipeline für Risserkennungsmodelle empfohlen:

Stufe 1 — Geometrischer Kern: Horizontale Spiegelung (50%), zufällige Rotation ±45° (30%), zufälliger Ausschnitt auf 80-95% mit Größenänderung (immer). Diese Augmentierungen werden immer angewendet, da Rissorientierung und -position Störvariablen sind.

Stufe 2 — Beleuchtungssimulation: Color Jitter mit Helligkeit ±0,3, Kontrast ±0,3, Sättigung ±0,2, Farbton ±0,1 (50% Wahrscheinlichkeit). Dies simuliert die gesamte Bandbreite der Betriebsbeleuchtungsbedingungen.

Stufe 3 — Qualitätssimulation: Gaußsche Unschärfe σ=0,5-2,0 (25% Wahrscheinlichkeit), Gaußsches Rauschen σ=0,01-0,03 (15% Wahrscheinlichkeit). Dies simuliert Aufnahmequalitätsschwankungen.

Stufe 4 — Domänensimulation: Schattenüberlagerung mit zufälliger Polygonmaske (20% Wahrscheinlichkeit), Nassoberflächensimulation mit erhöhter Sättigung und spiegelnden Glanzlichtern (15% Wahrscheinlichkeit). Dies simuliert Feldbedingungen.

Stufe 5 — Regularisierung: Cutout mit Patchgröße 16-32 Pixel (10% Wahrscheinlichkeit). Dies verhindert Überanpassung an bestimmte Bildregionen.

Diese Pipeline erhält die Labelgültigkeit — der Riss bleibt nach allen Transformationen ein Riss — während das Modell extremer Variabilität im Erscheinungsbild ausgesetzt wird.

Augmentierung für die Schadensklassifikation

Schadensklassifikation — die Zuordnung einer kategorialen Bezeichnung zu einem Bildausschnitt (z. B. “Riss”, “Abplatzung”, “Verwitterung”, “intakt”) — hat andere Augmentierungsanforderungen als die Pixel-für-Pixel-Segmentierung.

Klassenbalance und Augmentierung

Infrastrukturschadensdatensätze sind von Natur aus stark unausgewogen. Intakte Fahrbahn dominiert jeden Datensatz, während einzelne Schadensklassen möglicherweise nur Hunderte von Beispielen haben. Daten-Augmentierung adressiert dieses Ungleichgewicht durch klassenbewusste Augmentierung: Anwenden aggressiverer oder zahlreicherer Transformationen auf unterrepräsentierte Klassen, um deren effektive Repräsentation in jeder Trainingscharge zu erhöhen.

Wenn der Trainingsdatensatz beispielsweise 10.000 intakte Bilder, 500 Rissbilder und 200 Abplatzungsbilder enthält, kann die Augmentierungspipeline so konfiguriert werden, dass 5 zufällig ausgewählte Augmentierungen auf jedes Abplatzungsbild angewendet werden (wodurch 5×200 = 1.000 effektive Abplatzungsbeispiele pro Epoche erzeugt werden), während nur 1 Augmentierung auf jedes intakte Bild angewendet wird. Diese klassenbewusste Augmentierungsstrategie verbessert die Klassifikatorempfindlichkeit für seltene Schadensarten, ohne zusätzliche Datenerfassung zu erfordern.

Labelerhaltende vs. labelverändernde Augmentierungen

Für die Klassifikation ist es wesentlich, dass Augmentierungen labelerhaltend sind — das transformierte Bild muss weiterhin zur ursprünglichen Klasse gehören. Einige Transformationen können das Label ändern:

  • Extreme Rotation (z. B. 180°-Spiegelung eines gerichteten Schadens wie Stufenbildung) kann die scheinbare Schadensart ändern
  • Extremer Ausschnitt, der den Schaden vollständig entfernt, erzeugt ein “intaktes” Bild aus einer “schadhaften” Quelle
  • Aggressive Unschärfe, die einen Haarriss auslöscht, macht das Bild effektiv intakt

Für die Klassifikation muss die Augmentierungsstärke auf die minimale erkennbare Merkmalsgröße jeder Schadensklasse kalibriert werden. Für Haarrisse (Mindestbreite ~0,2 mm bei der Aufnahmeauflösung) sollten Unschärfen über σ=2,0 und Rotationen über ±60° mit reduzierter Wahrscheinlichkeit angewendet oder ausgeschlossen werden.

Multi-Label-Augmentierung

Infrastrukturoberflächen weisen oft mehrere gleichzeitige Schadensarten auf — ein abgeplatzter Bereich kann Risse enthalten, oder eine verwitterte Stelle kann Fugenabdichtungsversagen aufweisen. Für die Multi-Label-Klassifikation muss die Augmentierung für alle Labels eines gegebenen Bildes konsistent sein. Dieselbe geometrische Transformation, die auf das Bild angewendet wird, gilt gleichzeitig für alle Labels. Farb- und Rauschtransformationen sind für die Multi-Label-Klassifikation von Natur aus labelerhaltend, da sie das Vorhandensein oder Fehlen einer Schadensart nicht ändern.

Augmentierung und Überanpassungsvermeidung

Die Beziehung zwischen Daten-Augmentierung und Überanpassung ist grundlegend für das Verständnis der Rolle der Augmentierung im Deep Learning.

Der Überanpassungsmechanismus

Überanpassung tritt auf, wenn ein Modell mit hoher Kapazität (vielen trainierbaren Parametern) auf einem Datensatz mit unzureichender Größe oder Vielfalt trainiert wird. Das Modell lernt nicht die allgemeinen Muster der Schadensklasse, sondern die spezifischen Pixelanordnungen, Texturen und Artefakte der Trainingsbeispiele. Mathematisch äußert sich Überanpassung darin, dass das Modell eine degenerierte Abbildung von Eingabe zu Ausgabe lernt, die den Trainingsverlust minimiert, aber den erwarteten Verlust auf der wahren Datenverteilung nicht minimiert.

Bei Infrastrukturinspektionsmodellen tritt Überanpassung typischerweise nach 50-100 Trainingsepochen auf. Die Trainingsgenauigkeit steigt weiter in Richtung 100 Prozent, während die Validierungsgenauigkeit stagniert und dann abfällt. Die Lücke zwischen Trainings- und Validierungsgenauigkeit — die Generalisierungslücke — vergrößert sich zunehmend. Ohne Augmentierung wird ein ResNet-50, das auf 2.000 Rissbildern trainiert wurde, typischerweise eine Generalisierungslücke von 15-25 Prozent aufweisen. Mit umfassender Augmentierung kann diese Lücke auf 3-5 Prozent oder weniger reduziert werden.

Effektive Datensatzgröße

Der Schlüsselmechanismus, durch den Augmentierung Überanpassung verhindert, ist die Erhöhung der effektiven Trainingsdatensatzgröße. Mit On-the-fly-Augmentierung während des Trainings wird jedes Bild in jeder Epoche anders transformiert. Ein Trainingsdatensatz von 5.000 Bildern mit einer Augmentierungsstrategie, die 3 zufällige Transformationen aus einem Pool von 10 Operationen anwendet, jede mit 5 möglichen Stärken, erzeugt 5.000 × 10³ × 5³ ≈ 6,25 Millionen verschiedene Trainingsbeispiele über 100 Epochen.

Diese effektive Datensatzerweiterung ist besonders wertvoll für die Infrastrukturinspektion, weil:

  • Schadensdaten knapp sind: Das Sammeln von 50.000 gelabelten Rissbildern ist unpraktikabel
  • Feldbedingungen vielfältig sind: Selbst mit 50.000 Bildern könnte die gesamte Bandbreite an Beleuchtung, Wetter, Kamerawinkeln und Fahrbahntexturen nicht abgedeckt sein
  • Die Modellkapazität hoch ist: Moderne Vision Transformer (ViT, DINOv3) haben 80-300 Millionen Parameter, die enorme effektive Datensatzgrößen erfordern

Augmentierung als Regularisierung

Daten-Augmentierung fungiert als Regularisierer im statistischen Lernsinne. Durch die Erweiterung der Trainingsverteilung reduziert die Augmentierung die Fähigkeit des Modells, Rauschen im ursprünglichen Datensatz anzupassen. Die Varianz der gelernten Parameter nimmt ab, weil das Modell Randbedingungen aus vielen mehr effektiv unabhängigen Trainingsbeispielen erfüllen muss.

Die Regularisierungsstärke der Augmentierung wird gesteuert durch:

  • Anzahl der Augmentierungstypen: Mehr Typen bieten stärkere Regularisierung
  • Augmentierungsstärke: Höhere Stärken erhöhen die Varianz der Trainingsverteilung und erzwingen stärkere Invarianz
  • Anwendungswahrscheinlichkeit: Höhere Wahrscheinlichkeiten bedeuten, dass mehr Bilder pro Epoche augmentiert werden, was die effektive Datensatzgröße erhöht

Für Infrastrukturinspektionsmodelle wird das optimale Regularisierungs-Augmentierungs-Gleichgewicht durch Überwachung der Validierungsverlustkurve gefunden. Wenn der Validierungsverlust steigt, während der Trainingsverlust weiter sinkt (Überanpassung), sollten Augmentierungsstärke oder -wahrscheinlichkeit erhöht werden. Wenn sowohl Trainings- als auch Validierungsverlust hoch sind (Unteranpassung), sollte die Augmentierung reduziert werden, damit das Modell mehr aus den rohen Trainingsdaten lernen kann.

Augmentierung im Produktionstraining

Die Implementierung von Daten-Augmentierung in einer Produktionstrainingspipeline erfordert sorgfältige Architekturentscheidungen darüber, wann, wo und wie Augmentierungen angewendet werden.

Online- vs. Offline-Augmentierung

Offline-Augmentierung generiert augmentierte Bilder vorab und speichert sie vor Trainingsbeginn auf der Festplatte. Der augmentierte Datensatz könnte 50.000 Bilder enthalten, die aus 5.000 Originalen durch 10 feste Augmentierungen pro Bild abgeleitet wurden. Das Training erfolgt dann auf diesem festen augmentierten Datensatz.

Online-Augmentierung wendet Transformationen während des Trainings on-the-fly an, wobei jedes Bild von der Festplatte geladen, zufällig augmentiert und sofort dem Modell zugeführt wird. Es werden keine augmentierten Bilder dauerhaft gespeichert.

Online-Augmentierung ist der Standardansatz für Produktions-Infrastrukturinspektionspipelines, weil:

  • Unendliche Variation: Jede Epoche sieht andere Augmentierungen, was stärkere Regularisierung bietet
  • Kein Speicher-Overhead: Augmentierte Bilder werden nicht gespeichert, wodurch 10-100-fache Plattenspeicheranforderungen vermieden werden
  • Parameterflexibilität: Augmentierungsparameter können geändert werden, ohne den Datensatz neu zu generieren
  • Deterministische Reproduzierbarkeit: Zufallssamen können die Augmentierung für Debugging-Zwecke steuern

Der Rechenaufwand der Online-Augmentierung ist minimal — moderne GPU-beschleunigte Augmentierungsbibliotheken (NVIDIA DALI, Kornia oder PyTorchs torchvision) wenden Transformationen in Mikrosekunden pro Bild an, was typischerweise weniger als 5 Prozent der gesamten Trainingszeit ausmacht, wenn das Datenladen mit der GPU-Ausführung gepipelinet wird.

Auswahl der Augmentierungsbibliothek

Die Wahl der Augmentierungsbibliothek beeinflusst die Pipeline-Leistung, Flexibilität und Wartbarkeit:

Albumentations ist die am weitesten verbreitete Bibliothek für Infrastrukturinspektionen aufgrund ihrer Geschwindigkeit (optimiertes C++-Backend über OpenCV), ihres umfassenden Operationssatzes (70+ Transformationen) und ihrer nativen Zweikanal-Augmentierungsunterstützung für Segmentierungsmasken. Albumentations stellt sicher, dass jede auf das Bild angewendete geometrische Transformation identisch auf die Maske angewendet wird, wodurch die Pixel-für-Pixel-Ausrichtung zwischen Eingabe und Ground Truth erhalten bleibt.

NVIDIA DALI bietet GPU-beschleunigte Datenlade- und Augmentierungspipelines, die Bilder vollständig auf der GPU verarbeiten können, wodurch CPU-GPU-Transferengpässe vermieden werden. DALI wird für sehr große Trainingsdatensätze (10.000+ Bilder) empfohlen, bei denen die Datenladezeit die Trainingszeit dominiert.

torchvision.transforms (PyTorch) und tf.image (TensorFlow) bieten integrierte Augmentierungsfähigkeiten mit guter Integration in ihre jeweiligen Frameworks, haben aber weniger domänenspezifische Transformationen (Schattensimulation, Perspektive, Random Erasing) als Albumentations.

Pipeline-Integration

In einer Produktionstrainingspipeline wird Augmentierung wie folgt integriert:

[Bildlader] → [Zufallsabtaster] → [Augmentierungssequenz] → [Normalisierung] → [Zufalls-Batch-Sampler] → [Modell-Vorwärtspass]

Der Zufallsabtaster wählt aus, ob jede Augmentierung in der Strategie angewendet wird (basierend auf ihrem Wahrscheinlichkeitsparameter), und die Stärke jedes Mal. Die Augmentierungssequenz wendet Transformationen in einer festen Reihenfolge an: typischerweise zuerst geometrisch (Ausschnitt, Spiegelung, Rotation, Perspektive), dann photometrisch (Color Jitter, Helligkeit, Kontrast), dann Rauschen und Unschärfe (Gaußsches Rauschen, Gaußsche Unschärfe), dann domänenspezifisch (Schatten, Regen) und schließlich Regularisierung (Cutout).

Während der Validierung und Inferenz wird die Augmentierung auf die minimal notwendigen Transformationen reduziert: typischerweise nur Center-Crop (oder Größenänderung) und Normalisierung. Während der Evaluierung werden keine zufälligen Transformationen angewendet, um deterministische, reproduzierbare Ergebnisse zu gewährleisten.

Überwachung der Augmentierungseffekte

Produktionstrainingspipelines sollten Augmentierungsstatistiken protokollieren, um deren Auswirkung auf die Trainingsdynamik zu überwachen:

  • Augmentierungsaktivierungsrate: Der Prozentsatz der Bilder, die jede Transformation erhalten haben, um zu überprüfen, ob die Wahrscheinlichkeiten korrekt implementiert sind
  • Transformiertes Bildhistogramm: Die Verteilung der Pixelwerte nach der Augmentierung, um Abschneide- oder Sättigungsartefakte zu erkennen
  • Augmentierungsstärken-Zeitverlauf: Wie sich die Augmentierungsstärke während curriculaer Trainingspläne ändert (einige Implementierungen beginnen mit niedriger Augmentierung und erhöhen sie über die Epochen)
  • Validierungsempfindlichkeit gegenüber Augmentierung: Periodische Evaluierung mit reduzierter Augmentierung, um zu messen, ob das Modell von Augmentierungsartefakten abhängig geworden ist

Diese Überwachungsmetriken stellen sicher, dass die Augmentierung ihre beabsichtigte Wirkung erzielt — die Erweiterung der Trainingsverteilung ohne Einführung von Artefakten oder Verzerrungen, die die reale Leistung beeinträchtigen.

Das Bild mit dem Raster von Betonriss-Augmentierungen zeigt die praktische Ausgabe einer Augmentierungspipeline: Dasselbe originale Rissbild wird durch Rotation, Spiegelung, Zuschneiden, Farbanpassung und Unschärfe in 12+ verschiedene Trainingsbeispiele transformiert. Jede augmentierte Version bewahrt das Risslabel, während es in einem visuell unterschiedlichen Kontext präsentiert wird, und lehrt das Modell, Risse unabhängig von Orientierung, Beleuchtung oder Bildqualität zu erkennen.

{

Visualisierung von Trainingsdaten für maschinelles Lernen mit mehreren augmentierten Versionen von Betonrissbildern in Rasteranordnung

Häufig gestellte Fragen

Optimieren Sie Ihre Inspektions-KI mit robustem Training

TarmacView nutzt fortschrittliche Daten-Augmentierungs-Pipelines, um Infrastrukturinspektionsmodelle zu trainieren, die über verschiedene Beleuchtungs-, Wetter- und Oberflächenbedingungen hinweg generalisieren. Optimieren Sie Ihr Training zur Schadenserkennung mit domänenspezifischen Augmentierungsstrategien, die auf Flugplatzbefestigungen und Betonstrukturen zugeschnitten sind.

Mehr erfahren

+++ title = &ldquo;Transfer Learning&rdquo; description = &ldquo;Transfer Learning wendet Wissen aus vortrainierten Modellen auf großen, allgemeinen Datensätzen...

7 Min. Lesezeit
Technology Machine Learning +2
KI-basierte Risserkennung für die Inspektion von Infrastruktur

KI-basierte Risserkennung für die Inspektion von Infrastruktur

Die KI-basierte Risserkennung nutzt Computer Vision – Convolutional Neural Networks, Vision Transformer und semantische Segmentierungsmodelle – um Risse in Fahr...

34 Min. Lesezeit
Computer Vision Deep Learning +8
Änderungserkennung

Änderungserkennung

Änderungserkennung vergleicht coregistrierte Bilder oder Punktwolken derselben Struktur, die zu unterschiedlichen Zeitpunkten aufgenommen wurden, um neue, sich ...

34 Min. Lesezeit
Technology Inspection +2