Czym jest augmentacja danych i dlaczego jest kluczowa dla modeli inspekcji infrastruktury?

Augmentacja danych to proces syntetycznego rozszerzania zbioru treningowego poprzez stosowanie kontrolowanych transformacji — geometrycznych, fotometrycznych lub opartych na szumie — do istniejących obrazów. Jest kluczowa dla inspekcji infrastruktury, ponieważ zbiory danych o defektach są z natury niezrównoważone: przykłady pęknięć lub ubytków stanowią mniej niż 1 procent całkowitej powierzchni uchwyconej podczas inspekcji. Bez augmentacji modele nadmiernie dopasowują się do ograniczonej dystrybucji treningowej i nie generalizują przy wdrożeniu w różnych warunkach oświetleniowych, kątach kamery, wilgotności powierzchni czy fakturze nawierzchni. Augmentacja symuluje tę zmienność sztucznie, umożliwiając modelowi nauczenie się odporności na czynniki zakłócające, przy jednoczesnym skupieniu się na samym sygnale defektu.

Czym są augmentacje geometryczne i jak pomagają modelom wykrywania pęknięć?

Augmentacje geometryczne modyfikują przestrzenne rozmieszczenie pikseli w obrazie bez zmiany samych wartości pikseli. Typowe transformacje geometryczne obejmują obrót (zwykle ±90° lub ±180° dla obrazów infrastruktury), odbicie poziome i pionowe, losowe przycinanie, transformacje perspektywy (symulujące różne kąty kamery) oraz transformacje afiniczne (skalowanie, ścinanie, translacja). Dla wykrywania pęknięć te augmentacje są niezbędne, ponieważ pojazdy inspekcyjne i UAV rejestrują tę samą powierzchnię z różnych orientacji i odległości. Pęknięcie, które w jednej klatce jest ukośne, w następnej może być poziome; augmentacje geometryczne uczą model, że orientacja pęknięcia jest nieistotna dla obecności samego defektu.

Czym są augmentacje specyficzne dla domeny w inspekcji infrastruktury?

Augmentacje specyficzne dla domeny symulują warunki środowiskowe i operacyjne unikalne dla inspekcji infrastruktury. Obejmują one symulację cieni (dodawanie twardych lub miękkich cieni rzucanych przez konstrukcje mostów lub sąsiednie budynki), efekty deszczu i wody (mokra nawierzchnia drastycznie zmienia wygląd pęknięć), zmiany faktury powierzchni (różny stopień ekspozycji kruszywa w asfalcie) oraz rozmycie ruchowe (symulacja warunków rejestracji z pojazdu). W przeciwieństwie do ogólnych augmentacji, transformacje specyficzne dla domeny wymagają starannego dostrojenia parametrów w oparciu o rzeczywiste środowisko wdrożenia. Dla nawierzchni lotniskowych inspekcjonowanych zgodnie ze standardami ICAO Annex 14, augmentacje muszą symulować pełen zakres operacyjnego oświetlenia — świt, bezpośrednie światło słoneczne, zachmurzenie i sztuczne oświetlenie płyty lotniska.

Jak działają polityki augmentacji, takie jak AutoAugment i RandAugment?

AutoAugment wykorzystuje uczenie przez wzmacnianie do wyszukiwania optymalnych polityk augmentacji — sekwencji transformacji z określonymi wielkościami i prawdopodobieństwami — które maksymalizują dokładność walidacji na danym zbiorze danych. Wyszukiwanie jest kosztowne obliczeniowo, ale daje wysoce dostosowane strategie augmentacji. RandAugment upraszcza to poprzez losowe wybieranie z jednolitego zestawu K transformacji (np. 14 predefiniowanych operacji) w każdej iteracji treningowej, stosując je z pojedynczym globalnym parametrem wielkości M. Dla inspekcji infrastruktury RandAugment jest preferowany, ponieważ eliminuje wyszukiwanie specyficzne dla zbioru danych, jednocześnie zapewniając silną regularyzację. RandAugment z K=2 i M=10 jest powszechną konfiguracją początkową dla modeli defektów nawierzchni.

Jaki jest związek między augmentacją danych a zapobieganiem nadmiernemu dopasowaniu?

Nadmierne dopasowanie występuje, gdy model uczy się danych treningowych tak precyzyjnie, że nie generalizuje na nowe, nieznane przykłady. Augmentacja danych bezpośrednio przeciwdziała nadmiernemu dopasowaniu poprzez zwiększenie efektywnego rozmiaru zbioru treningowego: każda epoka wystawia model na różne, augmentowane wersje tych samych obrazów. Zbiór 5000 obrazów pęknięć z 10 różnymi transformacjami augmentacji na obraz staje się efektywnie 50000 unikalnych przykładów treningowych na epokę. To zmusza filtry konwolucyjne modelu do uczenia się solidnych, niezmienniczych cech — obecności wzoru pęknięcia, a nie konkretnej faktury treningowej nawierzchni. Bez augmentacji głęboka CNN z milionami parametrów po prostu zapamięta treningowe defekty, osiągając wysoką dokładność treningową, ale niską dokładność walidacyjną.

Jak augmentacja danych jest wykorzystywana w produkcyjnych potokach treningowych do inspekcji infrastruktury?

W produkcyjnych potokach treningowych augmentacja jest stosowana w czasie rzeczywistym podczas treningu, zamiast wstępnego generowania augmentowanych obrazów. Każdy obraz jest ładowany z dysku, losowy zestaw augmentacji jest próbkowany z polityki, stosowany sekwencyjnie, a augmentowany obraz jest podawany do modelu. To podejście online zapewnia, że każda epoka widzi inne augmentowane wersje, tworząc w efekcie nieskończony zbiór treningowy. Typowe produkcyjne potoki wykorzystują kombinację transformacji geometrycznych (losowy obrót ±30°, losowe przycięcie 80-100%, odbicie poziome z prawdopodobieństwem 50%), transformacji kolorów (jasność ±20%, kontrast ±20%, nasycenie ±10%), transformacji szumowych (rozmycie gaussowskie σ=0.5-2.0, szum gaussowski σ=0.01-0.05) oraz transformacji specyficznych dla domeny (symulacja cieni, smugi deszczu). Augmentacja jest stosowana tylko podczas treningu; podczas walidacji i wnioskowania stosuje się jedynie przycięcie do środka lub skalowanie.

Jak augmentacja danych pomaga w klasyfikacji defektów w porównaniu do segmentacji pęknięć?

Dla klasyfikacji defektów (czy ten fragment obrazu jest pęknięty czy nienaruszony?) augmentacja musi zachować globalną strukturę obrazu, jednocześnie zmieniając kolor, fakturę i orientację, ponieważ model musi nauczyć się, jak wygląda pęknięcie jako całościowy wzór. Dla segmentacji defektów (które piksele należą do pęknięcia?) augmentacje geometryczne muszą być stosowane jednocześnie do obrazu i odpowiadającej mu maski wzorcowej — proces zwany augmentacją synchronizowaną lub dwukanałową. Biblioteki Albumentations i imgaug natywnie obsługują augmentację świadomą masek dla zadań segmentacji. Transformacje perspektywy są szczególnie cenne dla segmentacji, ponieważ aproksymują geometrię projekcyjną rzeczywistych rejestracji kamer z różnych UAV lub kamer zamontowanych na pojazdach.

Jaka jest zalecana strategia augmentacji do trenowania modeli wykrywania pęknięć na nawierzchniach lotniskowych?

Dla wykrywania pęknięć na nawierzchniach lotniskowych zalecana strategia augmentacji łączy: (1) augmentację przez obrót od -45° do +45° z prawdopodobieństwem 40%, aby pokryć pełen zakres orientacji pęknięć względem osi pasa startowego; (2) odbicie poziome z prawdopodobieństwem 50%; (3) losowe przycięcie do 80-90% oryginalnego rozmiaru ze skalowaniem do wymiarów treningowych, aby symulować różne odległości rejestracji; (4) zmianę jasności o ±30%, aby symulować warunki oświetleniowe o świcie, w południe i przy zachmurzeniu zgodnie z wymogami inspekcji ICAO; (5) rozmycie gaussowskie z rozmiarem jądra 3-7 i σ=0.5-2.0, aby symulować rozmycie ruchowe z kamer zamontowanych na pojazdach; (6) augmentację cieni dodającą 10-30% przyciemnienia, aby symulować cienie od konstrukcji mostów, hangarów lub sąsiedniej infrastruktury; oraz (7) Cutout lub Random Erasing z prawdopodobieństwem 10-15%, aby symulować zasłonięcie przez zanieczyszczenia lub ślady opon.

Augmentacja danych

Augmentacja danych w syntetyczny sposób rozszerza zbiory treningowe poprzez stosowanie transformacji obrazów — obracanie, odbijanie, zmiana nasycenia kolorów, rozmywanie, szum, przycinanie — w celu poprawy odporności modelu na różnice w oświetleniu, orientacji i jakości obrazu. W przypadku inspekcji infrastruktury kluczowe są augmentacje specyficzne dla domeny (transformacje perspektywy, symulacja cieni, efekty pogodowe). Obejmuje strategie augmentacji i ich wpływ na generalizację modelu.

{

Powierzchnia betonowego pasa startowego z widocznymi pęknięciami i oznakowaniem uszkodzeń nawierzchni uchwycona z perspektywy drona podczas inspekcji infrastruktury

Definicja i cel

Augmentacja danych to metodologia treningowa, która w syntetyczny sposób zwiększa rozmiar i różnorodność oznakowanego zbioru danych poprzez stosowanie kontrolowanych, zachowujących etykiety transformacji do istniejących próbek danych. W aplikacjach wizji komputerowej oznacza to pobranie każdego oryginalnego obrazu i wygenerowanie wielu zmodyfikowanych wersji poprzez geometryczne przekształcenia, manipulacje przestrzenią kolorów, dodawanie szumu lub bardziej złożone procesy generatywne. Rozszerzony zbiór danych — oryginalne obrazy plus ich przekształcone warianty — jest następnie używany do trenowania głębokich sieci neuronowych, wystawiając model na znacznie szerszy zakres warunków wizualnych niż surowe dane terenowe mogłyby zapewnić.

Podstawowym celem augmentacji danych jest poprawa generalizacji modelu — zdolności wytrenowanego modelu do dokładnego działania na danych, których nigdy wcześniej nie widział. Głęboka konwolucyjna sieć neuronowa (CNN) z milionami parametrów może łatwo zapamiętać zbiór treningowy składający się z kilku tysięcy obrazów, ucząc się konkretnych tekstur, wzorców oświetlenia i artefaktów tła tych przykładów, zamiast leżących u ich podstaw sygnatur defektów. To zjawisko, znane jako nadmierne dopasowanie (overfitting), skutkuje wysoką dokładnością treningową, ale słabą wydajnością walidacyjną i testową. Augmentacja danych zapobiega nadmiernemu dopasowaniu, zapewniając, że każda epoka treningowa przedstawia modelowi różnie przekształcone wersje każdego obrazu, uniemożliwiając czyste zapamiętywanie. Model jest zmuszony do uczenia się cech niezmienniczych — wzorców wizualnych, które utrzymują się pomimo transformacji.

Dla modeli inspekcji infrastruktury augmentacja danych jest nie tylko korzystna, ale operacyjnie niezbędna. Rozważmy realia zbierania danych do inspekcji nawierzchni lotniskowych: pojedynczy przegląd pasa startowego przy użyciu kamery zamontowanej na UAV może uchwycić 10 000 obrazów w wysokiej rozdzielczości, ale mniej niż 200 z tych obrazów może zawierać widoczne defekty. Pęknięcia, ubytki, uszkodzenia uszczelnień spoin i wietrzenie powierzchni stanowią łącznie mniej niż 1 procent całkowitej powierzchni nawierzchni w danym momencie. Zebranie zrównoważonego, różnorodnego zbioru defektów we wszystkich możliwych warunkach inspekcji — bezpośrednie światło słoneczne, zachmurzenie, świt, mokra nawierzchnia, sucha nawierzchnia, różne kąty nachylenia kamery, różne wysokości — byłoby zbyt kosztowne i czasochłonne. Augmentacja danych wypełnia tę lukę poprzez symulację pełnego zakresu warunków operacyjnych na podstawie znacznie mniejszego zestawu przykładów zebranych w terenie.

Znaczenie augmentacji jest formalnie uznawane w standardach infrastruktury lotniczej. ICAO Annex 14, Volume I (Projektowanie i eksploatacja lotnisk) wymaga, aby nawierzchnie pasów startowych były utrzymywane w stanie niezagrażającym bezpieczeństwu operacji lotniczych. Systemy inspekcyjne oparte na AI interpretowane zgodnie z tymi standardami muszą wykazywać solidną wydajność w pełnym zakresie operacyjnych warunków oświetleniowych i pogodowych określonych w instrukcji lotniska. Bez kompleksowej augmentacji model inspekcyjny trenowany wyłącznie na suchych, południowych ujęciach nie wykryłby pęknięć zasłoniętych przez cienie, mokre plamy lub nisko padające światło słoneczne — potencjalnie pomijając defekty, które zagrażają skuteczności hamowania i bezpieczeństwu operacyjnemu.

Augmentacja danych działa na poziomie danych, a nie na poziomie architektury modelu, odróżniając się od technik regularyzacyjnych, takich jak dropout, waga decay czy normalizacja batch. Podczas gdy regulatory na poziomie modelu ograniczają zdolność sieci do nadmiernego dopasowania, augmentacja rozszerza dystrybucję danych, aby pełniej pokryć rzeczywistą przestrzeń wejściową. Te dwa podejścia są komplementarne: najlepsze praktyki w potokach inspekcji infrastruktury łączą agresywną augmentację z regularyzacją architektoniczną dla maksymalnej generalizacji.

Augmentacje geometryczne

Augmentacje geometryczne modyfikują przestrzenne rozmieszczenie pikseli w obrazie bez zmiany ich wartości intensywności. Te transformacje symulują zmiany położenia kamery, orientacji, odległości i charakterystyki obiektywu, które występują podczas rzeczywistego zbierania danych inspekcyjnych. Dla inspekcji infrastruktury augmentacje geometryczne są najbardziej wpływową kategorią, ponieważ platformy inspekcyjne — UAV, pojazdy naziemne, ręczne kamery — rejestrują tę samą powierzchnię z bardzo różnych perspektyw.

Augmentacja przez obrót

Augmentacja przez obrót stosuje losowy obrót kątowy do obrazu wejściowego, zazwyczaj w zakresie od -180° do +180° lub ograniczonym do mniejszych zakresów, takich jak ±45° dla konkretnych aplikacji. Przekształcony obraz jest generowany poprzez obrót każdej współrzędnej piksela (x, y) o kąt θ wokół środka obrazu przy użyciu standardowej macierzy obrotu:

x’ = x·cos(θ) - y·sin(θ)

y’ = x·sin(θ) + y·cos(θ)

Dla wykrywania pęknięć na pasach startowych lotnisk i nawierzchniach autostrad augmentacja przez obrót jest kluczowa, ponieważ orientacja pęknięć względem kadru kamery jest dowolna. Podłużne pęknięcie równoległe do osi pasa startowego może wydawać się poziome w jednym fragmencie obrazu i ukośne w innym, w zależności od kąta odchylenia kamery względem kierunku lądowania samolotu. Bez augmentacji przez obrót model może nauczyć się kojarzyć obecność pęknięcia z określoną orientacją kątową, nie wykrywając pęknięć pojawiających się pod innymi kątami. Badania Alomar i in. (2023) pokazują, że augmentacja przez obrót konsekwentnie poprawia dokładność klasyfikacji o 3-8 procent w zbiorach danych defektów konstrukcyjnych w porównaniu do modeli trenowanych bez obrotu.

Optymalny zakres obrotu zależy od symetrii aplikacji. Dla nawierzchni lotniskowych, gdzie pęknięcia rozwijają się zarówno w kierunku podłużnym, jak i poprzecznym względem ruchu samolotów, odpowiedni jest pełny zakres ±180°. Dla inspekcji dźwigarów mostowych, gdzie kamera jest zawsze mniej więcej pozioma, wystarczający może być węższy zakres ±15°. Obrót wprowadza puste obszary brzegowe w rogach obrazu, które muszą być obsłużone jedną z trzech strategii: (1) wypełnianie zerami (wypełnianie brzegów czernią), (2) wypełnianie przez odbicie (odbijanie pikseli krawędziowych) lub (3) wypełnianie najbliższym sąsiadem. Wypełnianie przez odbicie jest preferowane w inspekcji infrastruktury, ponieważ unika wprowadzania sztucznych ciemnych krawędzi, które model mógłby nauczyć się traktować jako cechy pozorne.

Augmentacja przez odbicie

Odbicie poziome (lustrzane odbicie lewo-prawo) i odbicie pionowe (lustrzane odbicie góra-dół) to najprostsze augmentacje geometryczne, wymagające jedynie odwrócenia kolejności kolumn lub wierszy pikseli. Odbicie poziome jest stosowane z 50-procentowym prawdopodobieństwem jako domyślne w większości potoków augmentacji i jest uniwersalnie korzystne, ponieważ podwaja efektywny rozmiar zbioru danych, będąc jednocześnie darmowe obliczeniowo — nie wymaga interpolacji.

Dla inspekcji infrastruktury odbicie poziome zachowuje etykietę dla większości typów defektów. Pęknięcie jest pęknięciem niezależnie od tego, czy pojawia się po lewej, czy po prawej stronie obrazu. Jednak niektóre defekty mają asymetrię kierunkową: wykruszanie (utrata kruszywa na krawędziach nawierzchni) występuje preferencyjnie wzdłuż krawędzi nawierzchni, a uskoki (pionowe przemieszczenie w poprzek spoiny) mają kierunkowość związaną z obciążeniem ruchem. W przypadku tych kierunkowych defektów praktyk musi zweryfikować, czy odbita wersja pozostaje ważnym przykładem treningowym.

Odbicie pionowe jest rzadziej używane do inspekcji infrastruktury naziemnej, ponieważ odwraca zgodną z grawitacją orientację obrazu. Pęknięcie na pionowej betonowej ścianie wygląda zasadniczo inaczej po odwróceniu — jednak w przypadku inspekcji nawierzchni, gdzie kamera skierowana jest prosto w dół, odbicie pionowe jest tak samo zachowujące etykietę jak odbicie poziome. W przypadku obrazów z inspekcji mostów, gdzie kamera rejestruje powierzchnie pionowe (dźwigary, filary, przyczółki), należy priorytetowo traktować odbicie poziome nad pionowym.

Augmentacja przez przycinanie

Losowe przycinanie wybiera prostokątny podobszar obrazu wejściowego i skaluje go do oczekiwanych wymiarów wejściowych sieci. Symuluje to efekt umieszczenia kamery w różnych odległościach od inspekcjonowanej powierzchni — bliższe przycięcia odpowiadają widokom o wyższej rozdzielczości z większą ilością szczegółów, podczas gdy szersze przycięcia pokazują szerszy kontekst.

Standardowa augmentacja losowego przycinania próbkuje obszar przycięcia o powierzchni między min_scale a max_scale (zazwyczaj 0,08 do 1,0 oryginalnej powierzchni obrazu) i proporcjach między min_ratio a max_ratio (zazwyczaj 0,75 do 1,33). Przycięty obszar jest następnie skalowany do stałego rozmiaru wejściowego sieci, na przykład 512×512 pikseli dla typowych modeli segmentacji pęknięć.

Dla inspekcji infrastruktury losowe przycinanie służy podwójnemu celowi. Po pierwsze, zwiększa różnorodność pozycyjną — model trenowany tylko na pełnoklatkowych obrazach może nauczyć się kojarzyć defekty z ich pozycją w kadrze, zawodząc, gdy ten sam defekt pojawi się w innym obszarze kadru. Po drugie, przycinanie ze skalowaniem symuluje różne wysokości i poziomy zoomu inspekcji, co jest kluczowe dla inspekcji opartej na UAV, gdzie wysokość lotu waha się między 10 a 50 metrów w zależności od przepisów i wymogów przeglądu. ICAO Doc 9137, Part 9 (Praktyki utrzymania lotnisk) oraz ICAO Doc 9981 (PANS-Aerodromes) odnoszą się do metod inspekcji, które mogą obejmować zbieranie danych z pojazdów lub ręczne, każde z różnymi polami widzenia. Losowe przycinanie podczas treningu zapewnia generalizację modelu w różnych tych modalnościach rejestracji.

Transformacje perspektywy

Transformacje perspektywy (zwane również przekształceniami perspektywicznymi lub augmentacją homograficzną) stosują odwzorowanie projekcyjne do obrazu, symulując efekt pochylenia płaszczyzny kamery względem inspekcjonowanej powierzchni. Jest to matematycznie reprezentowane przez macierz homografii 3×3, która mapuje punkty z jednej płaszczyzny na drugą.

Dla inspekcji infrastruktury augmentacja perspektywy jest wyjątkowo ważna, ponieważ rzeczywiste obrazy inspekcyjne rzadko są rejestrowane z idealnie ortogonalnego (nadir) punktu widzenia. Kamery zamontowane na pojazdach rejestrują nawierzchnię pod niewielkim kątem do przodu. Kamery UAV mogą mieć kąty nachylenia 5-20 stopni podczas manewrów drona. Ręczne kamery inspekcyjne różnią się nachyleniem w zależności od wzrostu inspektora i pozycji ramienia. Pęknięcie, które wydaje się liniowe i spójne z widoku nadiru, ulega skróceniu perspektywicznemu i zniekształceniu geometrycznemu pod kątem skośnym. Augmentacja perspektywy trenuje model do rozpoznawania defektów niezależnie od kąta rejestracji.

Stopień zniekształcenia perspektywy jest kontrolowany przez parametr skali zniekształcenia, zazwyczaj ustawiany między 0,05 a 0,3 we współrzędnych znormalizowanych. Wyższe wartości symulują bardziej ekstremalne nachylenia kamery. Dla inspekcji lotniskowej zalecana jest skala perspektywy 0,1-0,2, co odpowiada kątom nachylenia kamery około 5-15 stopni od nadiru.

Transformacje afiniczne

Transformacje afiniczne łączą skalowanie, ścinanie, obrót i translację w jedną operację macierzy 2×3. W przeciwieństwie do transformacji perspektywy, transformacje afiniczne zachowują równoległość — linie równoległe pozostają równoległe po transformacji. Operację można wyrazić jako:

[x’, y’]² = A · [x, y]² + b

gdzie A to macierz 2×2 kontrolująca obrót, skalowanie i ścinanie, a b to wektor translacji.

Dla inspekcji infrastruktury typowa konfiguracja augmentacji afinicznej obejmuje: translację (±10 procent wymiarów obrazu, symulującą nieprawidłowe ustawienie kadru), skalowanie (0,8x do 1,2x, symulujące zmianę wysokości), ścinanie (±10 stopni, symulujące pochylenie kamery) oraz obrót (±15 stopni). Łączny efekt daje obrazy, które realistycznie symulują zmienność pozycji i orientacji zbierania danych inspekcyjnych, bez konieczności ekstremalnych zniekształceń, które mogłyby wprowadzać nierealistyczne artefakty.

Typ augmentacji	Typowy zakres	Zastosowanie w infrastrukturze
Obrót	±45° do ±180°	Symuluje różne kąty odchylenia kamery względem orientacji pęknięcia
Odbicie poziome	50% prawdopodobieństwa	Podwaja zbiór danych; niezmiennicze dla większości defektów
Odbicie pionowe	50% prawdopodobieństwa	Przydatne dla obrazów nawierzchni z widoku nadiru
Losowe przycięcie	skala 0,08-1,0, proporcje 0,75-1,33	Symuluje różne wysokości i poziomy zoomu inspekcji
Perspektywa	skala zniekształcenia 0,05-0,3	Symuluje nie-nadirowe kąty nachylenia kamery
Afiniczne (skala)	0,8x-1,2x	Symuluje zmiany wysokości platform UAV
Afiniczne (ścinanie)	±5° do ±15°	Symuluje przechylenie i pochylenie kamery
Afiniczne (translacja)	±5% do ±15%	Symuluje zmiany pozycji kadru
Afiniczne (obrót)	±10° do ±30°	Łączone z innymi parametrami afinicznymi

{

Zbliżenie inspekcji betonowej płyty mostu pokazujące pęknięcia powierzchni, wykruszenia i defekty konstrukcyjne uchwycone do trenowania modeli AI

Augmentacje kolorów i fotometryczne

Augmentacje kolorów i fotometryczne modyfikują wartości intensywności pikseli obrazu bez zmiany przestrzennego rozmieszczenia obiektów. Te transformacje symulują różnice w warunkach oświetleniowych — najważniejszym źródle rzeczywistej zmienności w obrazach inspekcji infrastruktury.

Regulacja jasności i kontrastu

Augmentacja jasności liniowo przesuwa wszystkie wartości pikseli poprzez dodanie stałego przesunięcia: I’ = I + δ, gdzie δ jest próbkowane jednolicie z zakresu, np. [-30, +30] w skali 0-255. Symuluje to różnicę między południowym światłem słonecznym (wysoka jasność) a zachmurzonym niebem lub warunkami inspekcji o poranku (niska jasność). Augmentacja kontrastu skaluje wartości pikseli wokół średniej intensywności: I’ = α(I - μ) + μ, gdzie α jest próbkowane z zakresu, np. [0,7, 1,3]. Niższe wartości kontrastu symulują warunki zamglone lub mgliste; wyższe wartości symulują ostre, bezpośrednie światło słoneczne, które tworzy silne cienie.

Dla inspekcji infrastruktury zalecany zakres jasności to ±40 procent, aby pokryć pełne spektrum operacyjnych warunków oświetleniowych określonych w planach oświetlenia lotnisk zgodnie z ICAO Annex 14, Chapter 5 (Pomoce wzrokowe do nawigacji). Oświetlenie krawędzi pasa startowego, oświetlenie podejścia i oświetlenie płyty postojowej tworzą różne poziomy oświetlenia otoczenia, z którymi model inspekcyjny musi sobie radzić.

Modyfikacja odcienia i nasycenia

Przesunięcie odcienia obraca wszystkie kolory pikseli w przestrzeni kolorów HSV (Hue, Saturation, Value) o losowy kąt, typowo ±30° w 360-stopniowym kole kolorów. Regulacja nasycenia mnoży kanał nasycenia przez losowy współczynnik (zazwyczaj 0,5 do 1,5). Te augmentacje symulują efekt różnych stanów powierzchni nawierzchni — suchy asfalt ma niższe nasycenie niż mokry asfalt, starzejący się beton różni się odcieniem od nowego betonu, a osady z gumowych opon tworzą charakterystyczne artefakty kolorystyczne w strefach przyziemienia pasa startowego.

Dla wykrywania pęknięć na nawierzchniach asfaltowych augmentacja odcienia jest szczególnie pomocna, ponieważ kontrast między ciemnym pęknięciem a otaczającą nawierzchnią zmienia się wraz z wilgotnością powierzchni. Suche, włoskowate pęknięcie może mieć minimalny kontrast kolorystyczny z suchym asfaltem, podczas gdy to samo pęknięcie wypełnione wodą po deszczu pojawia się jako wyraźnie zarysowana ciemna linia. Modele trenowane z augmentacją odcienia i nasycenia uczą się wykrywać pęknięcia w tym zakresie kontrastu zależnym od wilgotności.

Zmiana nasycenia kolorów (Color Jitter)

Color jitter to złożona augmentacja, która jednocześnie losowo reguluje jasność, kontrast, nasycenie i odcień. Standardowa implementacja próbkuje każdy parametr niezależnie: współczynnik jasności w [1-δ_b, 1+δ_b], współczynnik kontrastu w [1-δ_c, 1+δ_c], współczynnik nasycenia w [1-δ_s, 1+δ_s] i obrót odcienia w [-δ_h, +δ_h]. Dla inspekcji infrastruktury zalecane zakresy to δ_b=0,3, δ_c=0,3, δ_s=0,2 i δ_h=0,1.

Color jitter jest wysoce skutecznym regularyzatorem dla modeli wykrywania defektów. Badania nad klasyfikacją pęknięć nawierzchni pokazują, że modele trenowane z kompleksowym color jitter poprawiają dokładność walidacji o 5-12 procent w porównaniu do modeli trenowanych tylko z augmentacjami geometrycznymi. Efekt jest najbardziej wyraźny w przypadku drobnych pęknięć (< 2 mm szerokości), gdzie kontrast pęknięcie-nawierzchnia jest już niski, a dodatkowa zmienność oświetlenia w treningu zmusza model do uczenia się cech opartych na krawędziach, a nie na kolorze.

Konwersja do skali szarości

Augmentacja w skali szarości konwertuje losowy podzbiór obrazów treningowych do jednokanałowej luminancji, usuwając wszystkie informacje o kolorze. Stosuje się ją z niskim prawdopodobieństwem (zwykle 5-10 procent), aby zapewnić, że model nie stanie się nadmiernie zależny od wskazówek kolorystycznych, które mogą nie być obecne we wszystkich warunkach inspekcji. Dla inspekcji infrastruktury konwersja do skali szarości jest szczególnie cenna dla termicznych i bliskiej podczerwieni modalności inspekcyjnych, gdzie obrazy kolorowe nie są dostępne.

Podczas wnioskowania model trenowany z okazjonalnymi obrazami w skali szarości podczas treningu może z łatwością obsługiwać monochromatyczne lub prawie monochromatyczne dane wejściowe bez konieczności replikacji kanałów lub wstępnego przetwarzania. Jest to ważne dla interoperacyjności ze starszymi systemami kamer inspekcyjnych, które mogą rejestrować w trybie skali szarości, lub do analizy historycznych obrazów inspekcyjnych zebranych przed upowszechnieniem się cyfrowych kamer kolorowych.

Augmentacje szumu i rozmycia

Augmentacje szumu i rozmycia symulują degradację jakości obrazu, która występuje w rzeczywistym zbieraniu danych inspekcyjnych z powodu ograniczeń czujników, ruchu, błędów ostrości i niekorzystnych warunków środowiskowych.

Szum gaussowski

Augmentacja szumu gaussowskiego dodaje losowe perturbacje wartości pikseli próbkowane z rozkładu normalnego N(0, σ²) do każdego piksela niezależnie. Odchylenie standardowe szumu σ jest zazwyczaj ustawiane między 0,01 a 0,05 dla znormalizowanych wartości pikseli (zakres 0-1). Symuluje to szum śrutowy obecny we wszystkich czujnikach kamer cyfrowych, który wzrasta przy wyższych ustawieniach ISO stosowanych w warunkach inspekcji przy słabym oświetleniu.

Dodawanie szumu gaussowskiego podczas treningu zmusza filtry konwolucyjne modelu do reagowania na leżący u podstaw wzór strukturalny defektu, a nie na wysokoczęstotliwościowe artefakty na poziomie pikseli, które nie są powtarzalne między rejestracjami. Modele trenowane z augmentacją szumu są bardziej odporne na różnice jakości czujników między kamerami inspekcyjnymi — ten sam defekt zarejestrowany kamerą telefonu 12 megapikseli i lustrzanką 50 megapikseli będzie wyglądał inaczej dla modelu nietrenowanego na obrazach zaszumionych.

Rozmycie gaussowskie

Augmentacja rozmycia gaussowskiego wykonuje konwolucję obrazu z jądrem Gaussa o rozmiarze k×k i odchyleniu standardowym σ. Symuluje to kilka rzeczywistych warunków: nieostrą rejestrację (kamera nie ustawiła idealnej ostrości na powierzchni nawierzchni), rozmycie ruchowe (pojazd inspekcyjny poruszał się podczas rejestracji obrazów), zamglenie atmosferyczne (para wodna lub cząstki stałe w powietrzu rozpraszają światło i zmniejszają ostrość obrazu) oraz niedoskonałości obiektywu (kurz lub kondensacja na soczewce kamery).

Dla inspekcji infrastruktury zalecane parametry rozmycia gaussowskiego to k ∈ {3, 5, 7} i σ ∈ {0.5, 1.0, 2.0} stosowane z 20-30 procentowym prawdopodobieństwem. Ten zakres obejmuje umiarkowane do znaczącego rozmycie bez czynienia obrazu nierozpoznawalnym. Rozmycie ruchowe można alternatywnie symulować przy użyciu kierunkowego jądra rozmycia, które rozmazuje piksele w określonym kierunku — jest to bardziej realistyczne dla kamer zamontowanych na pojazdach, gdzie kierunek rozmycia jest zgodny z trajektorią pojazdu.

Znaczenie augmentacji rozmycia staje się jasne, gdy weźmie się pod uwagę prędkość inspekcji. Pojazd inspekcyjny poruszający się z prędkością 50 km/h rejestruje obrazy z około 3-5 pikselami rozmycia ruchowego przy typowych czasach otwarcia migawki. Dron inspekcyjny poruszający się z prędkością 10 m/s z kamerą stabilizowaną żyroskopowo może mieć 1-3 piksele rozmycia. Trening z augmentacją rozmycia zapewnia niezawodne działanie modelu w tych różnych prędkościach rejestracji, bez konieczności zwalniania przez operatora inspekcji dla dokładności modelu.

Random Erasing i Cutout

Random Erasing i Cutout to augmentacje skoncentrowane na regularyzacji, które losowo zasłaniają prostokątne obszary obrazu wejściowego. W Cutout, kwadratowa łatka o boku s (zazwyczaj 16-64 piksele dla obrazów 256×256) jest losowo pozycjonowana i wypełniana stałą wartością (zwykle zero lub średnia wartość piksela zbioru danych). Random Erasing zmienia proporcje i wartość wypełnienia zasłoniętego obszaru.

Dla inspekcji infrastruktury te augmentacje symulują zasłonięcie przez ciała obce (FOD) na nawierzchniach lotniskowych — krytyczny problem bezpieczeństwa zgodnie ze standardami ICAO Annex 14. FOD obejmuje luźne kamienie, fragmenty opon, przywieszki bagażowe, narzędzia i inne zanieczyszczenia, które częściowo zasłaniają powierzchnię nawierzchni. Model trenowany z augmentacją Cutout uczy się wykrywać defekty nawet wtedy, gdy części defektu lub otaczającej nawierzchni są ukryte przez zasłaniające obiekty. To bezpośrednio poprawia zdolność modelu do identyfikacji pęknięć i defektów widocznych w szczelinach między zanieczyszczeniami a śladami opon na powierzchniach pasów startowych.

Augmentacje specyficzne dla domeny

Augmentacje specyficzne dla domeny to transformacje dostosowane do unikalnych cech wizualnych obrazów inspekcji infrastruktury. Te augmentacje wykraczają poza ogólne transformacje wizji komputerowej, aby symulować specyficzne warunki środowiskowe i operacyjne, z którymi spotykają się kamery inspekcyjne.

Symulacja cieni

Cienie na powierzchniach infrastruktury są rzucane przez szeroki zakres obiektów: konstrukcje mostów, bramownice znaków, hangary, budynki terminali, sąsiednie samoloty, ogrodzenia peryferyjne, a nawet sam pojazd inspekcyjny lub UAV. Cienie powodują gwałtowne lokalne zmniejszenie oświetlenia, które może zasłaniać pęknięcia, zmieniać pozorną fakturę nawierzchni i powodować fałszywie pozytywne detekcje krawędzi na granicach cieni.

Augmentacja cieni symuluje to poprzez przyciemnienie losowego obszaru obrazu za pomocą miękkiej maski. Maska jest zazwyczaj wielokątem z rozmytymi krawędziami (rozmycie gaussowskie na masce z σ=10-30 pikseli), który płynnie przechodzi od pełnego oświetlenia do poziomu ciemności cienia. Współczynnik ciemności cienia jest próbkowany między 0,2 a 0,6 (gdzie 0,0 to czerń, a 1,0 to brak zmian). Pozycja, kształt i orientacja cienia są losowane, aby zapobiec kojarzeniu przez model wzorców cieni z konkretnymi obszarami obrazu.

Dla inspekcji mostów w szczególności symulacja cieni jest kluczowa, ponieważ dźwigary mostowe, poprzecznice i zwisy pomostów tworzą złożone wzory cieni, które zmieniają się wraz z kątem padania słońca w ciągu dnia. Standardy inspekcji mostów FHWA wymagają, aby oceny stanu były spójne niezależnie od tego, kiedy inspekcja jest przeprowadzana. Modele z augmentacją cieni utrzymują tę spójność, dostarczając dokładne wykrywanie defektów niezależnie od tego, czy most jest inspekcjonowany o 9:00 (długie cienie) czy o 12:00 (minimalne cienie).

Efekty deszczu i wody

Mokra nawierzchnia dramatycznie zmienia wizualny wygląd defektów powierzchni. Woda wypełnia pęknięcia i puste przestrzenie, przyciemniając je i zwiększając ich kontrast wizualny z otaczającą nawierzchnią. Jednocześnie woda tworzy odbicia spekularne, które wprowadzają jasne refleksy, szczególnie na gładkich powierzchniach asfaltowych. Kałuże i stojąca woda mogą całkowicie zasłonić leżące pod nimi defekty.

Augmentacja deszczu symuluje te efekty poprzez kilka mechanizmów:

Nakładka filmu wodnego — Dodanie półprzezroczystej niebiesko-szarej nakładki do losowych obszarów obrazu z przezroczystością 0,1-0,3, aby symulować cienkie warstwy wody. Generowanie refleksów spekularnych — Dodawanie jasnych eliptycznych lub nieregularnych plam z wysokimi wartościami luminancji (200-250 w skali 0-255), aby symulować światło słoneczne odbijające się od powierzchni wody. Nakładka smug deszczu — Dodawanie kierunkowych wzorów smug, aby symulować deszcz padający podczas rejestracji. Gęstość smug, długość (10-50 pikseli) i kąt (zazwyczaj 0-30° od pionu, w zależności od wiatru) są losowane.

Dla inspekcji nawierzchni lotniskowych augmentacja mokrej nawierzchni jest wymagana przez realizm operacyjny. ICAO Annex 14 oraz FAA AC 150/5320-5D wymagają, aby ocena stanu nawierzchni pasa startowego uwzględniała wpływ wody na tarcie i widoczność defektów. Model inspekcyjny wdrożony w regionie z 100+ dni deszczowych w roku musi działać dokładnie w mokrych warunkach. Trening z augmentacjami deszczu i filmu wodnego zapewnia tę zdolność.

Zmiana faktury powierzchni

Faktura powierzchni nawierzchni różni się znacząco w zależności od:

Typu nawierzchni: Asfalt (elastyczna), beton (sztywna), kompozytowa i porowate warstwy ścieralne mają odrębne tekstury wizualne
Wieku: Nowa nawierzchnia ma jednolitą teksturę; starzejąca się nawierzchnia wykazuje ekspozycję kruszywa, wykruszanie, utlenianie i polerowanie
Historii utrzymania: Powłoki uszczelniające, zawiesiny szczelinowe, mikrodywaniki i nakładki każdy modyfikują teksturę powierzchni
Typu kruszywa: Różne źródła kruszywa dają różne cechy koloru, rozmiaru i odblaskowości

Augmentacja zmiany faktury powierzchni stosuje lokalne wzmocnienie kontrastu, lokalną wyrównanie i syntezę tekstury, aby symulować te różnice. Zaawansowane implementacje wykorzystują transfer stylu lub adaptację domeny opartą na CycleGAN do transformacji obrazów między domenami tekstur — na przykład, pobranie obrazu pęknięcia z nowego asfaltu i wygenerowanie wersji, która wygląda jak stary, zwietrzały asfalt.

Badania Krestenitisa i in. (2026) nad inspekcją pasów startowych przy użyciu obrazów z UAV pokazują, że modele augmentowane zmianą faktury powierzchni osiągają 15-20 procent wyższe IoU segmentacji (Intersection over Union) na zróżnicowanych teksturowo zestawach testowych w porównaniu do modeli trenowanych wyłącznie na oryginalnej domenie tekstury. Jest to szczególnie ważne dla sieci nawierzchni lotniskowych, które mogą obejmować pasy startowe, drogi kołowania i płyty postojowe zbudowane z różnych materiałów i w różnym czasie.

{

Asfaltowa nawierzchnia pasa startowego lotniska w deszczowych warunkach z plamami wody i mokrą fakturą nawierzchni z widocznymi pęknięciami

Polityki augmentacji

Polityka augmentacji określa, które transformacje są stosowane, w jakiej kolejności, z jakim prawdopodobieństwem i z jaką wielkością podczas treningu. Wybór polityki znacząco wpływa na wydajność modelu. Istnieją trzy główne kategorie: polityki ręczne, wyszukiwane i losowe.

Projektowanie polityki ręcznej

Polityki ręczne są tworzone ręcznie przez praktyków w oparciu o wiedzę domenową i testy empiryczne. Dla inspekcji infrastruktury typowa ręczna polityka może stosować następującą sekwencję na każdym kroku treningowym:

Losowe odbicie poziome (50% prawdopodobieństwa)
Losowy obrót ±30° (40% prawdopodobieństwa)
Losowe przycięcie do 85-100% powierzchni obrazu ze skalowaniem do 512×512 (zawsze stosowane)
Color jitter: jasność ±0,3, kontrast ±0,3, nasycenie ±0,2, odcień ±0,1 (50% prawdopodobieństwa)
Rozmycie gaussowskie: jądro 5, σ=0,5-1,5 (20% prawdopodobieństwa)
Szum gaussowski: σ=0,02 (10% prawdopodobieństwa)
Losowy cień: ciemność 0,2-0,5 (20% prawdopodobieństwa)

Polityki ręczne są przejrzyste, interpretowalne i szybkie obliczeniowo — nie wymagają wyszukiwania ani walidacji. Wadą jest to, że mogą nie być optymalne i mogą pomijać korzystne kombinacje augmentacji.

AutoAugment — wyszukiwana polityka augmentacji

AutoAugment, wprowadzony przez Cubuka i in. (2019) w Google Brain, wykorzystuje uczenie przez wzmacnianie do wyszukiwania optymalnych polityk augmentacji. Proces wyszukiwania działa następująco:

Kontroler RNN proponuje polityki augmentacji, każda składająca się z K podpolityk (zazwyczaj K=5), gdzie każda podpolityka określa 2 operacje z ich wielkościami i prawdopodobieństwami. Polityka jest stosowana do zbioru treningowego, a model potomny jest trenowany i oceniany na zbiorze walidacyjnym. Dokładność walidacji służy jako sygnał nagrody dla kontrolera RNN, który jest aktualizowany przy użyciu Proximal Policy Optimization (PPO) w celu generowania lepszych polityk. Wyszukiwanie zazwyczaj wymaga od 15 000 do 20 000 godzin GPU dla zbiorów danych skali ImageNet.

AutoAugment odkrywa nieintuicyjne polityki, które często przewyższają ręczne projekty. Na przykład polityka ImageNet odkryła, że ShearX/Y i Rotate z wysokim prawdopodobieństwem i umiarkowaną wielkością są wysoce skuteczne, podczas gdy Equalize i Solarize (odwracanie wartości pikseli powyżej progu) poprawiają odporność kolorystyczną. Odkryte polityki przenoszą się między zbiorami danych o podobnych domenach wizualnych — polityka znaleziona na ogólnym zbiorze danych nawierzchni może być zastosowana do konkretnego zbioru danych pasa startowego z dobrymi wynikami.

RandAugment — praktyczna polityka losowa

RandAugment, wprowadzony przez Cubuka i in. (2020), rozwiązuje problem kosztu obliczeniowego AutoAugment poprzez całkowite wyeliminowanie procesu wyszukiwania. Polityka jest zdefiniowana za pomocą zaledwie dwóch parametrów: N (liczba transformacji stosowanych na obraz) i M (globalny parametr wielkości dla wszystkich transformacji).

Na każdym kroku treningowym RandAugment losowo wybiera N transformacji ze stałej puli K operacji (zazwyczaj K=14-17, obejmujących rotate, shear, translate, contrast, brightness, sharpness, solarize, equalize, autocontrast, posterize, color i identity). Wybrane operacje są stosowane sekwencyjnie z wielkością M. Prostota tego podejścia oznacza brak wyszukiwania, brak zbioru walidacyjnego podczas treningu i minimalne dostrajanie hiperparametrów.

Dla inspekcji infrastruktury RandAugment z N=2 i M=10 (w skali wielkości 0-30) służy jako doskonała domyślna konfiguracja. Wyższe wartości N (3-4) i M (15-20) zapewniają silniejszą regularyzację dla większych modeli lub mniejszych zbiorów danych. Badania nad benchmarkami klasyfikacji pęknięć nawierzchni pokazują, że RandAugment osiąga porównywalną lub lepszą wydajność niż AutoAugment, jednocześnie redukując przestrzeń wyszukiwania hiperparametrów z tysięcy godzin GPU do pojedynczego 2D przeszukiwania siatki po N i M.

Polityka	Koszt wyszukiwania	Parametry	Przydatność dla infrastruktury
Ręczna	Zero	Pełna kontrola na operację	Dobra dla potrzeb specyficznych dla domeny
AutoAugment	15 000+ godzin GPU	Polityka znaleziona przez RL	Doskonała wydajność, wysoki koszt
RandAugment	Pomijalny	N (int), M (float)	Doskonała, praktyczna wartość domyślna
TrivialAugment	Pomijalny	Pojedynczy parametr siły	Bardzo prosta, konkurencyjna
Fast AutoAugment	~100 godzin GPU	Dopasowanie gęstości	Dobry kompromis

Augmentacja do wykrywania pęknięć

Wykrywanie pęknięć — zadanie identyfikacji i lokalizacji pęknięć w powierzchniach infrastruktury — jest najlepiej zbadanym zastosowaniem augmentacji danych w domenie inspekcji infrastruktury. Pęknięcia stwarzają unikalne wyzwania, które sprawiają, że augmentacja jest szczególnie wpływowa.

Charakterystyka pęknięć i wrażliwość na augmentację

Pęknięcia w powierzchniach betonowych i asfaltowych wykazują następujące właściwości istotne dla projektowania augmentacji:

Wysoki współczynnik kształtu — Pęknięcia są długie i wąskie, ze stosunkiem szerokości do długości często przekraczającym 1:100. Oznacza to, że augmentacje geometryczne, które silnie zniekształcają proporcje (ekstremalne ścinanie, niekwadratowe przycięcia), mogą uczynić pęknięcia nierozpoznawalnymi. Zachowanie liniowości — Większość pęknięć konstrukcyjnych podąża za w przybliżeniu liniowymi lub łagodnie zakrzywionymi ścieżkami, chociaż pękniacja siatkowa tworzy połączone sieci wielokątne. Augmentacje, które przerywają ciągłość liniową (losowe wymazywanie środka pęknięcia, agresywna kompresja JPEG), mogą zniszczyć sygnaturę pęknięcia. Niski kontrast — Drobne pęknięcia (włoskowate poniżej 0,3 mm szerokości) mają minimalny kontrast z otaczającą nawierzchnią — często tylko 5-15 różnic poziomów szarości w 8-bitowym obrazie. Augmentacje kolorów muszą być stosowane ostrożnie, aby nie zatrzeć tego już słabego sygnału. Zależność od tekstury — Pęknięcia są wykrywane jako anomalie względem tekstury tła nawierzchni. Augmentacje, które homogenizują teksturę (nadmierne rozmycie, silna wyrównanie), mogą sprawić, że pęknięcia staną się nieodróżnialne od nienaruszonej nawierzchni.

Zalecany potok augmentacji do wykrywania pęknięć

W oparciu o opublikowane badania i testy empiryczne na zbiorach danych nawierzchni lotniskowych, zalecany jest następujący potok dla modeli wykrywania pęknięć:

Etap 1 — Rdzeń geometryczny: Odbicie poziome (50%), losowy obrót ±45° (30%), losowe przycięcie do 80-95% ze skalowaniem (zawsze). Te augmentacje są zawsze stosowane, ponieważ orientacja i pozycja pęknięcia są zmiennymi zakłócającymi.

Etap 2 — Symulacja oświetlenia: Color jitter z jasnością ±0,3, kontrastem ±0,3, nasyceniem ±0,2, odcieniem ±0,1 (50% prawdopodobieństwa). Symuluje to pełen zakres operacyjnych warunków oświetleniowych.

Etap 3 — Symulacja jakości: Rozmycie gaussowskie σ=0,5-2,0 (25% prawdopodobieństwa), szum gaussowski σ=0,01-0,03 (15% prawdopodobieństwa). Symuluje to zmienność jakości rejestracji.

Etap 4 — Symulacja domenowa: Nakładka cienia z losową maską wielokąta (20% prawdopodobieństwa), symulacja mokrej powierzchni ze zwiększonym nasyceniem i refleksami spekularnymi (15% prawdopodobieństwa). Symuluje to warunki terenowe.

Etap 5 — Regularyzacja: Cutout z rozmiarem łatki 16-32 piksele (10% prawdopodobieństwa). Zapobiega to nadmiernemu dopasowaniu do konkretnych obszarów obrazu.

Ten potok utrzymuje ważność etykiety — pęknięcie pozostaje pęknięciem po wszystkich transformacjach — jednocześnie wystawiając model na ekstremalną zmienność wyglądu.

Augmentacja do klasyfikacji defektów

Klasyfikacja defektów — przypisywanie etykiety kategorycznej do fragmentu obrazu (np. „pęknięcie", „ubytek", „wietrzenie", „nienaruszony") — ma inne wymagania dotyczące augmentacji niż segmentacja na poziomie pikseli.

Równowaga klas a augmentacja

Zbiory danych defektów infrastruktury są z natury silnie niezrównoważone. Nienaruszona nawierzchnia dominuje w każdym zbiorze danych, podczas gdy poszczególne klasy defektów mogą mieć tylko setki przykładów. Augmentacja danych rozwiązuje ten problem nierównowagi poprzez augmentację świadomą klas: stosowanie bardziej agresywnych lub liczniejszych transformacji do niedoreprezentowanych klas, aby zwiększyć ich efektywną reprezentację w każdej partii treningowej.

Na przykład, jeśli zbiór treningowy zawiera 10 000 obrazów nienaruszonej nawierzchni, 500 obrazów pęknięć i 200 obrazów ubytków, potok augmentacji może być skonfigurowany do stosowania 5 losowo próbkowanych augmentacji do każdego obrazu ubytku (generując 5×200 = 1000 efektywnych przykładów ubytków na epokę), podczas gdy stosuje tylko 1 augmentację do każdego obrazu nienaruszonej nawierzchni. Ta strategia augmentacji świadomej klas poprawia czułość klasyfikatora na rzadkie typy defektów bez konieczności dodatkowego zbierania danych.

Augmentacje zachowujące etykietę vs. zmieniające etykietę

Dla klasyfikacji kluczowe jest, aby augmentacje były zachowujące etykietę — przekształcony obraz musi nadal należeć do oryginalnej klasy. Niektóre transformacje mogą zmienić etykietę:

Ekstremalny obrót (np. odbicie o 180° kierunkowego defektu, takiego jak uskok) może zmienić widoczny typ defektu
Ekstremalne przycięcie, które całkowicie usuwa defekt, tworzy obraz „nienaruszony" ze źródła „defektywnego"
Agresywne rozmycie, które zaciera włoskowate pęknięcie, czyni obraz efektywnie nienaruszonym

Dla klasyfikacji wielkość augmentacji musi być skalibrowana do minimalnego wykrywalnego rozmiaru cechy każdej klasy defektów. Dla włoskowatych pęknięć (minimalna szerokość ~0,2 mm przy rozdzielczości rejestracji) rozmycie przekraczające σ=2,0 i obroty powyżej ±60° powinny być stosowane ze zmniejszonym prawdopodobieństwem lub wykluczone.

Augmentacja wieloetykietowa

Powierzchnie infrastruktury często wykazują wiele współistniejących typów defektów — obszar z ubytkiem może zawierać pęknięcia, a zwietrzały fragment może mieć uszkodzone uszczelnienie spoiny. Dla klasyfikacji wieloetykietowej augmentacja musi być spójna dla wszystkich etykiet danego obrazu. Ta sama transformacja geometryczna zastosowana do obrazu odnosi się do wszystkich etykiet jednocześnie. Transformacje kolorów i szumu są z natury zachowujące etykietę dla klasyfikacji wieloetykietowej, ponieważ nie zmieniają obecności ani braku żadnego typu defektu.

Augmentacja a zapobieganie nadmiernemu dopasowaniu

Związek między augmentacją danych a nadmiernym dopasowaniem jest fundamentalny dla zrozumienia roli augmentacji w głębokim uczeniu.

Mechanizm nadmiernego dopasowania

Nadmierne dopasowanie występuje, gdy model o wysokiej pojemności (wielu parametrach trenowalnych) jest trenowany na zbiorze danych o niewystarczającym rozmiarze lub różnorodności. Model uczy się nie ogólnych wzorców klasy defektów, ale konkretnych układów pikseli, tekstur i artefaktów przykładów treningowych. Matematycznie nadmierne dopasowanie objawia się jako uczenie się przez model zdegenerowanego odwzorowania z wejścia na wyjście, które minimalizuje stratę treningową, ale nie minimalizuje oczekiwanej straty na prawdziwym rozkładzie danych.

Dla modeli inspekcji infrastruktury nadmierne dopasowanie pojawia się typowo po 50-100 epokach treningowych. Dokładność treningowa nadal rośnie w kierunku 100 procent, podczas gdy dokładność walidacyjna osiąga plateau, a następnie spada. Różnica między dokładnością treningową a walidacyjną — luka generalizacji — systematycznie się powiększa. Bez augmentacji ResNet-50 trenowany na 2000 obrazów pęknięć będzie typowo wykazywał lukę generalizacji 15-25 procent. Z kompleksową augmentacją ta luka może być zredukowana do 3-5 procent lub mniej.

Efektywny rozmiar zbioru danych

Kluczowym mechanizmem, przez który augmentacja zapobiega nadmiernemu dopasowaniu, jest zwiększenie efektywnego rozmiaru zbioru treningowego. Dzięki augmentacji stosowanej w czasie rzeczywistym podczas treningu, każdy obraz jest przekształcany inaczej w każdej epoce. Zbiór treningowy 5000 obrazów z polityką augmentacji, która stosuje 3 losowe transformacje z puli 10 operacji, każda z 5 możliwymi wielkościami, generuje 5000 × 10³ × 5³ ≈ 6,25 miliona odrębnych przykładów treningowych w ciągu 100 epok.

Ta efektywna ekspansja zbioru danych jest szczególnie cenna dla inspekcji infrastruktury, ponieważ:

Dane o defektach są rzadkie: Zebranie 50 000 oznakowanych obrazów pęknięć jest niepraktyczne
Warunki terenowe są różnorodne: Nawet przy 50 000 obrazów, pełen zakres oświetlenia, pogody, kątów kamery i tekstur nawierzchni może nie być pokryty
Pojemność modelu jest wysoka: Nowoczesne transformery wizyjne (ViT, DINOv3) mają 80-300 milionów parametrów, które wymagają ogromnych efektywnych rozmiarów zbiorów danych

Augmentacja jako regularyzacja

Augmentacja danych działa jako regularyzator w sensie statystycznego uczenia się. Poprzez rozszerzenie dystrybucji treningowej, augmentacja zmniejsza zdolność modelu do dopasowania szumu w oryginalnym zbiorze danych. Wariancja nauczonych parametrów maleje, ponieważ model musi spełniać ograniczenia z wielu bardziej efektywnie niezależnych przykładów treningowych.

Siła regularyzacji augmentacji jest kontrolowana przez:

Liczbę typów augmentacji: Więcej typów zapewnia silniejszą regularyzację
Wielkość augmentacji: Wyższe wielkości zwiększają wariancję dystrybucji treningowej, wymuszając silniejszą niezmienniczość
Prawdopodobieństwo zastosowania: Wyższe prawdopodobieństwa oznaczają, że więcej obrazów jest augmentowanych na epokę, zwiększając efektywny rozmiar zbioru danych

Dla modeli inspekcji infrastruktury optymalną równowagę regularyzacji-augmentacji znajduje się poprzez monitorowanie trajektorii straty walidacyjnej. Jeśli strata walidacyjna wzrasta, podczas gdy strata treningowa nadal maleje (nadmierne dopasowanie), wielkość lub prawdopodobieństwo augmentacji powinny zostać zwiększone. Jeśli zarówno strata treningowa, jak i walidacyjna są wysokie (niedostateczne dopasowanie), augmentacja powinna zostać zmniejszona, aby pozwolić modelowi nauczyć się więcej z surowych danych treningowych.

Augmentacja w treningu produkcyjnym

Wdrożenie augmentacji danych w produkcyjnym potoku treningowym wymaga starannych decyzji architektonicznych dotyczących tego, kiedy, gdzie i jak augmentacje są stosowane.

Augmentacja online vs. offline

Augmentacja offline wstępnie generuje augmentowane obrazy i zapisuje je na dysku przed rozpoczęciem treningu. Rozszerzony zbiór danych może zawierać 50 000 obrazów pochodzących z 5000 oryginałów poprzez 10 stałych augmentacji na obraz. Trening odbywa się następnie na tym stałym, augmentowanym zbiorze danych.

Augmentacja online stosuje transformacje w czasie rzeczywistym podczas treningu, gdzie każdy obraz jest ładowany z dysku, losowo augmentowany i natychmiast podawany do modelu. Żadne augmentowane obrazy nie są trwale przechowywane.

Augmentacja online jest standardowym podejściem dla produkcyjnych potoków inspekcji infrastruktury, ponieważ:

Nieskończona zmienność: Każda epoka widzi inne augmentacje, zapewniając silniejszą regularyzację
Brak narzutu pamięci: Augmentowane obrazy nie są zapisywane, unikając 10-100x zapotrzebowania na miejsce na dysku
Elastyczność parametrów: Parametry augmentacji mogą być zmieniane bez ponownego generowania zbioru danych
Deterministyczna powtarzalność: Losowe ziarna mogą kontrolować augmentację do debugowania

Koszt obliczeniowy augmentacji online jest minimalny — nowoczesne biblioteki augmentacji z akceleracją GPU (NVIDIA DALI, Kornia lub torchvision PyTorch) stosują transformacje w mikrosekundach na obraz, typowo stanowiąc mniej niż 5 procent całkowitego czasu treningu, gdy ładowanie danych jest potokowane z wykonaniem GPU.

Wybór biblioteki augmentacji

Wybór biblioteki augmentacji wpływa na wydajność, elastyczność i łatwość utrzymania potoku:

Albumentations jest najczęściej używaną biblioteką do inspekcji infrastruktury ze względu na szybkość (zoptymalizowane zaplecze C++ przez OpenCV), kompleksowy zestaw operacji (70+ transformacji) i natywne wsparcie augmentacji dwukanałowej dla masek segmentacji. Albumentations zapewnia, że każda transformacja geometryczna zastosowana do obrazu jest identycznie stosowana do maski, utrzymując zgodność na poziomie pikseli między wejściem a prawdą podstawową.

NVIDIA DALI zapewnia przyspieszone GPU ładowanie danych i potoki augmentacji, które mogą przetwarzać obrazy w całości na GPU, unikając wąskich gardeł transferu CPU-GPU. DALI jest zalecane dla bardzo dużych zbiorów treningowych (10 000+ obrazów), gdzie czas ładowania danych dominuje nad czasem treningu.

torchvision.transforms (PyTorch) i tf.image (TensorFlow) zapewniają wbudowane możliwości augmentacji z dobrą integracją z odpowiednimi frameworkami, ale mają mniej transformacji specyficznych dla domeny (symulacja cieni, perspektywa, losowe wymazywanie) niż Albumentations.

Integracja potoku

W produkcyjnym potoku treningowym augmentacja jest zintegrowana w następujący sposób:

[Ładowarka obrazów] → [Losowy próbnik] → [Sekwencja augmentacji] → [Normalizacja] → [Losowy próbnik partii] → [Przejście w przód modelu]

Losowy próbnik decyduje, czy każda augmentacja w polityce jest stosowana (na podstawie jej parametru prawdopodobieństwa) i z jaką wielkością za każdym razem. Sekwencja augmentacji stosuje transformacje w ustalonej kolejności: typowo najpierw geometryczne (przycięcie, odbicie, obrót, perspektywa), następnie fotometryczne (color jitter, jasność, kontrast), następnie szum i rozmycie (szum gaussowski, rozmycie gaussowskie), następnie specyficzne dla domeny (cień, deszcz), a na końcu regularyzacja (Cutout).

Podczas walidacji i wnioskowania augmentacja jest redukowana do minimalnych niezbędnych transformacji: typowo tylko przycięcie do środka (lub skalowanie) i normalizacja. Żadne losowe transformacje nie są stosowane podczas oceny, aby zapewnić deterministyczne, powtarzalne wyniki.

Monitorowanie efektów augmentacji

Produkcyjne potoki treningowe powinny rejestrować statystyki augmentacji, aby monitorować ich wpływ na dynamikę treningu:

Wskaźnik aktywacji augmentacji: Procent obrazów, które otrzymały każdą transformację, aby zweryfikować poprawność implementacji prawdopodobieństw
Histogram przekształconego obrazu: Rozkład wartości pikseli po augmentacji, aby wykryć artefakty przycinania lub nasycenia
Oś czasu wielkości augmentacji: Jak wielkość augmentacji zmienia się podczas harmonogramów treningu programowego (niektóre implementacje zaczynają od niskiej augmentacji i zwiększają ją w kolejnych epokach)
Wrażliwość walidacji na augmentację: Okresowa ocena ze zredukowaną augmentacją, aby zmierzyć, czy model stał się zależny od artefaktów augmentacji

Te metryki monitorowania zapewniają, że augmentacja osiąga zamierzony efekt — rozszerzenie dystrybucji treningowej bez wprowadzania artefaktów lub uprzedzeń, które pogarszają wydajność w rzeczywistych warunkach.

Obraz siatki augmentacji pęknięć betonu pokazuje praktyczne rezultaty działania potoku augmentacji: ten sam oryginalny obraz pęknięcia jest przekształcany w 12+ odrębnych przykładów treningowych poprzez obrót, odbicie, przycięcie, regulację kolorów i rozmycie. Każda augmentowana wersja zachowuje etykietę pęknięcia, prezentując je w wizualnie innym kontekście, ucząc model wykrywania pęknięć niezależnie od orientacji, oświetlenia czy jakości obrazu.

{

Wizualizacja danych treningowych uczenia maszynowego pokazująca wiele augmentowanych wersji obrazów pęknięć betonu ułożonych w układzie siatki

Najczęściej Zadawane Pytania

: Augmentacja danych to proces syntetycznego rozszerzania zbioru treningowego poprzez stosowanie kontrolowanych transformacji — geometrycznych, fotometrycznych lub opartych na szumie — do istniejących obrazów. Jest kluczowa dla inspekcji infrastruktury, ponieważ zbiory danych o defektach są z natury niezrównoważone: przykłady pęknięć lub ubytków stanowią mniej niż 1 procent całkowitej powierzchni uchwyconej podczas inspekcji. Bez augmentacji modele nadmiernie dopasowują się do ograniczonej dystrybucji treningowej i nie generalizują przy wdrożeniu w różnych warunkach oświetleniowych, kątach kamery, wilgotności powierzchni czy fakturze nawierzchni. Augmentacja symuluje tę zmienność sztucznie, umożliwiając modelowi nauczenie się odporności na czynniki zakłócające, przy jednoczesnym skupieniu się na samym sygnale defektu.
: Augmentacje geometryczne modyfikują przestrzenne rozmieszczenie pikseli w obrazie bez zmiany samych wartości pikseli. Typowe transformacje geometryczne obejmują obrót (zwykle ±90° lub ±180° dla obrazów infrastruktury), odbicie poziome i pionowe, losowe przycinanie, transformacje perspektywy (symulujące różne kąty kamery) oraz transformacje afiniczne (skalowanie, ścinanie, translacja). Dla wykrywania pęknięć te augmentacje są niezbędne, ponieważ pojazdy inspekcyjne i UAV rejestrują tę samą powierzchnię z różnych orientacji i odległości. Pęknięcie, które w jednej klatce jest ukośne, w następnej może być poziome; augmentacje geometryczne uczą model, że orientacja pęknięcia jest nieistotna dla obecności samego defektu.
: Augmentacje specyficzne dla domeny symulują warunki środowiskowe i operacyjne unikalne dla inspekcji infrastruktury. Obejmują one symulację cieni (dodawanie twardych lub miękkich cieni rzucanych przez konstrukcje mostów lub sąsiednie budynki), efekty deszczu i wody (mokra nawierzchnia drastycznie zmienia wygląd pęknięć), zmiany faktury powierzchni (różny stopień ekspozycji kruszywa w asfalcie) oraz rozmycie ruchowe (symulacja warunków rejestracji z pojazdu). W przeciwieństwie do ogólnych augmentacji, transformacje specyficzne dla domeny wymagają starannego dostrojenia parametrów w oparciu o rzeczywiste środowisko wdrożenia. Dla nawierzchni lotniskowych inspekcjonowanych zgodnie ze standardami ICAO Annex 14, augmentacje muszą symulować pełen zakres operacyjnego oświetlenia — świt, bezpośrednie światło słoneczne, zachmurzenie i sztuczne oświetlenie płyty lotniska.
: AutoAugment wykorzystuje uczenie przez wzmacnianie do wyszukiwania optymalnych polityk augmentacji — sekwencji transformacji z określonymi wielkościami i prawdopodobieństwami — które maksymalizują dokładność walidacji na danym zbiorze danych. Wyszukiwanie jest kosztowne obliczeniowo, ale daje wysoce dostosowane strategie augmentacji. RandAugment upraszcza to poprzez losowe wybieranie z jednolitego zestawu K transformacji (np. 14 predefiniowanych operacji) w każdej iteracji treningowej, stosując je z pojedynczym globalnym parametrem wielkości M. Dla inspekcji infrastruktury RandAugment jest preferowany, ponieważ eliminuje wyszukiwanie specyficzne dla zbioru danych, jednocześnie zapewniając silną regularyzację. RandAugment z K=2 i M=10 jest powszechną konfiguracją początkową dla modeli defektów nawierzchni.
: Nadmierne dopasowanie występuje, gdy model uczy się danych treningowych tak precyzyjnie, że nie generalizuje na nowe, nieznane przykłady. Augmentacja danych bezpośrednio przeciwdziała nadmiernemu dopasowaniu poprzez zwiększenie efektywnego rozmiaru zbioru treningowego: każda epoka wystawia model na różne, augmentowane wersje tych samych obrazów. Zbiór 5000 obrazów pęknięć z 10 różnymi transformacjami augmentacji na obraz staje się efektywnie 50000 unikalnych przykładów treningowych na epokę. To zmusza filtry konwolucyjne modelu do uczenia się solidnych, niezmienniczych cech — obecności wzoru pęknięcia, a nie konkretnej faktury treningowej nawierzchni. Bez augmentacji głęboka CNN z milionami parametrów po prostu zapamięta treningowe defekty, osiągając wysoką dokładność treningową, ale niską dokładność walidacyjną.
: W produkcyjnych potokach treningowych augmentacja jest stosowana w czasie rzeczywistym podczas treningu, zamiast wstępnego generowania augmentowanych obrazów. Każdy obraz jest ładowany z dysku, losowy zestaw augmentacji jest próbkowany z polityki, stosowany sekwencyjnie, a augmentowany obraz jest podawany do modelu. To podejście online zapewnia, że każda epoka widzi inne augmentowane wersje, tworząc w efekcie nieskończony zbiór treningowy. Typowe produkcyjne potoki wykorzystują kombinację transformacji geometrycznych (losowy obrót ±30°, losowe przycięcie 80-100%, odbicie poziome z prawdopodobieństwem 50%), transformacji kolorów (jasność ±20%, kontrast ±20%, nasycenie ±10%), transformacji szumowych (rozmycie gaussowskie σ=0.5-2.0, szum gaussowski σ=0.01-0.05) oraz transformacji specyficznych dla domeny (symulacja cieni, smugi deszczu). Augmentacja jest stosowana tylko podczas treningu; podczas walidacji i wnioskowania stosuje się jedynie przycięcie do środka lub skalowanie.
: Dla klasyfikacji defektów (czy ten fragment obrazu jest pęknięty czy nienaruszony?) augmentacja musi zachować globalną strukturę obrazu, jednocześnie zmieniając kolor, fakturę i orientację, ponieważ model musi nauczyć się, jak wygląda pęknięcie jako całościowy wzór. Dla segmentacji defektów (które piksele należą do pęknięcia?) augmentacje geometryczne muszą być stosowane jednocześnie do obrazu i odpowiadającej mu maski wzorcowej — proces zwany augmentacją synchronizowaną lub dwukanałową. Biblioteki Albumentations i imgaug natywnie obsługują augmentację świadomą masek dla zadań segmentacji. Transformacje perspektywy są szczególnie cenne dla segmentacji, ponieważ aproksymują geometrię projekcyjną rzeczywistych rejestracji kamer z różnych UAV lub kamer zamontowanych na pojazdach.
: Dla wykrywania pęknięć na nawierzchniach lotniskowych zalecana strategia augmentacji łączy: (1) augmentację przez obrót od -45° do +45° z prawdopodobieństwem 40%, aby pokryć pełen zakres orientacji pęknięć względem osi pasa startowego; (2) odbicie poziome z prawdopodobieństwem 50%; (3) losowe przycięcie do 80-90% oryginalnego rozmiaru ze skalowaniem do wymiarów treningowych, aby symulować różne odległości rejestracji; (4) zmianę jasności o ±30%, aby symulować warunki oświetleniowe o świcie, w południe i przy zachmurzeniu zgodnie z wymogami inspekcji ICAO; (5) rozmycie gaussowskie z rozmiarem jądra 3-7 i σ=0.5-2.0, aby symulować rozmycie ruchowe z kamer zamontowanych na pojazdach; (6) augmentację cieni dodającą 10-30% przyciemnienia, aby symulować cienie od konstrukcji mostów, hangarów lub sąsiedniej infrastruktury; oraz (7) Cutout lub Random Erasing z prawdopodobieństwem 10-15%, aby symulować zasłonięcie przez zanieczyszczenia lub ślady opon.

Wzmocnij swoją AI inspekcji dzięki solidnemu treningowi

TarmacView wykorzystuje zaawansowane potoki augmentacji danych do trenowania modeli inspekcji infrastruktury, które generalizują się na różne warunki oświetleniowe, pogodowe i stanu nawierzchni. Zoptymalizuj trening modeli wykrywania defektów dzięki strategiom augmentacji specyficznym dla domeny, dostosowanym do nawierzchni lotniskowych i konstrukcji betonowych.

Skontaktuj się z nami Umów prezentację

Dowiedz się więcej

Fuzja danych

Fuzja danych to systematyczny proces integrowania informacji z wielu źródeł—takich jak czujniki, bazy danych i logi—w celu uzyskania bogatszych, dokładniejszych...

Nov 18, 2025 6 min czytania

Data Management Aviation +3

Edge Computing do Inspekcji w Czasie Rzeczywistym

Edge computing wykonuje wnioskowanie AI bezpośrednio na dronie, pojeździe lub urządzeniu przenośnym w miejscu przechwytywania danych, umożliwiając wykrywanie de...

Nov 20, 2025 14 min czytania

Technology AI +5

Integracja danych

Integracja danych łączy dane z różnych źródeł w jeden, spójny i dostępny format do analiz, operacji oraz raportowania. Jest to kluczowe w lotnictwie dla zapewni...

Nov 18, 2025 7 min czytania

Aviation Data Integration +4