Augmentace dat

{

Povrch betonové dráhy s viditelnými trhlinami a značením poškození vozovky zachycený z pohledu dronu při inspekci infrastruktury

Definice a účel

Augmentace dat je tréninková metodologie, která synteticky rozšiřuje velikost a rozmanitost labelované datové sady aplikací řízených transformací zachovávajících label na stávající vzorky dat. V aplikacích počítačového vidění to znamená vzít každý původní obrázek a vygenerovat několik modifikovaných verzí prostřednictvím geometrického deformování, manipulace v barevném prostoru, vkládání šumu nebo složitějších generativních procesů. Augmentovaná datová sada — původní obrázky plus jejich transformované varianty — se pak použije k tréninku hlubokých neuronových sítí, čímž se model vystaví mnohem širší škále vizuálních podmínek, než by poskytla samotná surová terénní data.

Hlavním účelem augmentace dat je zlepšení generalizace modelu — schopnosti trénovaného modelu přesně pracovat s daty, která dosud neviděl. Hluboká konvoluční neuronová síť (CNN) s miliony parametrů si může snadno zapamatovat trénovací datovou sadu o několika tisících obrázků, naučit se specifické textury, světelné vzory a artefakty pozadí těchto příkladů, nikoli základní signatury vad. Tento jev, známý jako přeučení, vede k vysoké trénovací přesnosti, ale slabé validační a testovací výkonnosti. Augmentace dat zabraňuje přeučení tím, že zajišťuje, aby každá tréninková epocha představila modelu různě transformované verze každého obrázku, čímž znemožňuje čisté memorování. Model je nucen učit se invariantní rysy — vizuální vzory, které přetrvávají napříč transformacemi.

Pro modely inspekce infrastruktury není augmentace dat pouze přínosná, ale je provozně nezbytná. Zvažme realitu sběru dat při inspekci letištních zpevněných ploch: jediný průzkum dráhy pomocí kamery namontované na UAV může zachytit 10 000 vysoce rozlišovacích snímků, ale méně než 200 z nich může obsahovat viditelné vady. Trhliny, vydrolení, poruchy těsnění spár a povrchové zvětrávání dohromady tvoří méně než 1 procenta celkové plochy povrchu vozovky v daném okamžiku. Sběr vyvážené, rozmanité datové sady vad za všech možných inspekčních podmínek — přímé sluneční světlo, zataženo, svítání, mokrý povrch, suchý povrch, různé úhly náklonu kamery, různé výšky — by byl neúnosně nákladný a časově náročný. Augmentace dat překlenuje tuto mezeru simulací celé obálky provozních podmínek z mnohem menší sady terénních příkladů.

Význam augmentace je formálně uznán napříč standardy letecké infrastruktury. ICAO Annex 14, Volume I (Navrhování a provoz letišť) vyžaduje, aby povrchy drah byly udržovány ve stavu, který neohrožuje bezpečnost letadel. AI-based inspekční systémy interpretované podle těchto standardů musí prokazovat robustní výkonnost v celém rozsahu provozních světelných a povětrnostních podmínek specifikovaných v letištní příručce. Bez komplexní augmentace by inspekční model trénovaný výhradně na suchých poledních snímcích nedokázal detekovat trhliny zakryté stíny, mokrými místy nebo nízkým slunečním světlem — což by potenciálně vedlo k přehlédnutí vad ohrožujících brzdnou výkonnost letadel a provozní bezpečnost.

Augmentace dat působí na úrovni dat spíše než na úrovni architektury modelu, čímž se odlišuje od regularizačních technik, jako je dropout, weight decay nebo batch normalization. Zatímco regularizátory na úrovni modelu omezují kapacitu sítě k přeučení, augmentace rozšiřuje distribuci dat tak, aby úplněji pokryla reálný vstupní prostor. Oba přístupy jsou komplementární: osvědčené pipeline pro inspekci infrastruktury kombinují agresivní augmentaci s architektonickou regularizací pro maximální generalizaci.

Geometrické augmentace

Geometrické augmentace upravují prostorové uspořádání pixelů v obrázku, aniž by měnily jejich intenzitní hodnoty. Tyto transformace simulují změny polohy kamery, orientace, vzdálenosti a charakteristik objektivu, ke kterým dochází při reálném sběru inspekčních dat. Pro inspekci infrastruktury jsou geometrické augmentace nejdůležitější kategorií, protože inspekční platformy — UAV, pozemní vozidla, ruční kamery — snímaljí stejný povrch z velmi různých perspektiv.

Rotační augmentace

Rotační augmentace aplikuje na vstupní obrázek náhodné úhlové otočení, typicky v rozsahu od −180° do +180° nebo omezené na menší rozsahy, například ±45° pro specifické aplikace. Transformovaný obrázek je generován otočením každé souřadnice pixelu (x, y) o úhel θ kolem středu obrázku pomocí standardní rotační matice:

x’ = x·cos(θ) - y·sin(θ)

y’ = x·sin(θ) + y·cos(θ)

Pro detekci trhlin na letištních dráhách a dálničních vozovkách je rotační augmentace kritická, protože orientace trhlin vůči snímku kamery je libovolná. Podélná trhlina rovnoběžná s osou dráhy může v jednom výřezu vypadat horizontálně a v jiném diagonálně, v závislosti na úhlu vybočení kamery vůči směru přistání letadla. Bez rotační augmentace se model může naučit spojovat přítomnost trhliny s určitou úhlovou orientací a selhat při detekci trhlin v jiných úhlech. Výzkum Alomar et al. (2023) ukazuje, že rotační augmentace konzistentně zlepšuje přesnost klasifikace o 3–8 procent na datasetech strukturálních vad ve srovnání s modely trénovanými bez rotace.

Optimální rozsah rotace závisí na symetrii aplikace. Pro letištní zpevněné plochy, kde se trhliny vyvíjejí v podélném i příčném směru vůči leteckému provozu, je vhodný plný rozsah ±180°. Pro inspekce mostních nosníků, kde je kamera vždy přibližně horizontální, může být dostačující užší rozsah ±15°. Rotace vytváří prázdné okrajové oblasti v rozích obrázku, které je třeba řešit jednou ze tří strategií: (1) doplnění nulami (vyplnění okrajů černou), (2) doplnění odrazem (zrcadlení okrajových pixelů) nebo (3) doplnění nejbližším sousedem. Doplnění odrazem je preferováno pro inspekci infrastruktury, protože se vyhýbá vnášení umělých tmavých okrajů, které by se model mohl naučit jako falešné rysy.

Augmentace překlopením

Horizontální překlopení (zrcadlení zleva doprava) a vertikální překlopení (zrcadlení shora dolů) jsou nejjednodušší geometrické augmentace, vyžadující pouze obrácení pořadí sloupců nebo řádků pixelů. Horizontální překlopení se aplikuje s 50% pravděpodobností jako výchozí nastavení ve většině augmentačních pipeline a je univerzálně přínosné, protože zdvojnásobuje efektivní velikost datové sady, přičemž je výpočetně zdarma — nevyžaduje žádnou interpolaci.

Pro inspekci infrastruktury horizontální překlopení zachovává label u většiny typů vad. Trhlina je trhlina bez ohledu na to, zda se nachází na levé nebo pravé straně obrázku. Některé vady však mají směrovou asymetrii: vydrolení (ztráta kameniva na okrajích vozovky) se vyskytuje převážně podél okraje vozovky a posuny (vertikální přemístění přes spáru) mají směrovost související se zatížením dopravou. U těchto směrových vad musí praktik ověřit, že překlopená verze zůstává platným trénovacím příkladem.

Vertikální překlopení se pro terestrickou inspekci infrastruktury používá méně často, protože převrací orientaci obrázku konzistentní s gravitací. Trhlina na vertikální betonové zdi vypadá po překlopení zásadně jinak — nicméně pro inspekci vozovek, kde kamera směřuje přímo dolů, je vertikální překlopení stejně zachovávající label jako horizontální. Pro snímky z inspekce mostů, kde kamera zachycuje vertikální povrchy (nosníky, pilíře, opěry), by mělo být upřednostněno horizontální překlopení před vertikálním.

Augmentace ořezem

Náhodný ořez vybírá obdélníkovou podoblast vstupního obrázku a mění její velikost na očekávané vstupní rozměry sítě. To simuluje efekt kamery umístěné v různých vzdálenostech od kontrolovaného povrchu — bližší ořezy odpovídají pohledům s vyšším rozlišením a více detaily, zatímco širší ořezy ukazují širší kontext.

Standardní augmentace náhodným ořezem vzorkuje oblast ořezu s plochou mezi min_scale a max_scale (typicky 0,08 až 1,0 původní plochy obrázku) a poměrem stran mezi min_ratio a max_ratio (typicky 0,75 až 1,33). Oříznutá oblast je poté změněna na pevnou vstupní velikost sítě, například 512×512 pixelů u typických modelů segmentace trhlin.

Pro inspekci infrastruktury slouží náhodný ořez dvojímu účelu. Zaprvé zvyšuje polohovou rozmanitost — model trénovaný pouze na celosnímkových obrázcích by se mohl naučit spojovat vady s jejich polohou v rámci snímku a selhat, když se stejná vada objeví v jiné oblasti snímku. Zadruhé, ořez se změnou velikosti simuluje různé inspekční výšky a úrovně přiblížení, což je kritické pro UAV-based inspekci, kde se letová výška pohybuje mezi 10 a 50 metry v závislosti na předpisech a požadavcích průzkumu. ICAO Doc 9137, Part 9 (Postupy údržby letišť) a ICAO Doc 9981 (PANS-Aerodromes) se zabývají inspekčními metodami, které mohou zahrnovat sběr dat z vozidel nebo ručních zařízení, přičemž každá přináší různá zorná pole. Náhodný ořez během tréninku zajišťuje, že model generalizuje napříč těmito způsoby snímání.

Perspektivní transformace

Perspektivní transformace (také nazývané perspektivní deformace nebo homografické augmentace) aplikují na obrázek projektivní zobrazení, čímž simulují efekt naklonění roviny kamery vůči kontrolovanému povrchu. To je matematicky reprezentováno 3×3 homografickou maticí, která mapuje body z jedné roviny do druhé.

Pro inspekci infrastruktury je perspektivní augmentace jedinečně důležitá, protože reálné inspekční snímky jsou zřídka pořízeny z dokonale ortogonálního (nadir) pohledu. Kamery namontované na vozidlech snímají vozovku pod mírným dopředným úhlem. UAV kamery mohou mít úhly náklonu 5–20 stupňů při manévrování dronu. Ruční inspekční kamery se naklánějí v závislosti na výšce a poloze paží inspektora. Trhlina, která z nadir pohledu vypadá lineárně a konzistentně, se z šikmého úhlu jeví jako zkrácená a geometricky deformovaná. Perspektivní augmentace trénuje model rozpoznávat vady bez ohledu na úhel snímání.

Míra perspektivního zkreslení je řízena parametrem distortion scale, typicky nastaveným mezi 0,05 a 0,3 v normalizovaných souřadnicích. Vyšší hodnoty simulují extrémnější náklony kamery. Pro letištní inspekci se doporučuje perspektivní měřítko 0,1–0,2, odpovídající úhlům náklonu kamery přibližně 5–15 stupňů od nadiru.

Afinní transformace

Afinní transformace kombinují změnu měřítka, zkosení, rotaci a posun do jediné 2×3 maticové operace. Na rozdíl od perspektivních transformací zachovávají afinní transformace rovnoběžnost — rovnoběžné přímky zůstávají po transformaci rovnoběžné. Operaci lze vyjádřit jako:

[x’, y’]² = A · [x, y]² + b

kde A je 2×2 matice řídící rotaci, změnu měřítka a zkosení a b je vektor posunu.

Pro inspekci infrastruktury zahrnuje běžná konfigurace afinní augmentace: posun (±10 procent rozměrů obrázku, simulace nesouososti snímku), změnu měřítka (0,8× až 1,2×, simulace změny výšky), zkosení (±10 stupňů, simulace náklonu kamery) a rotaci (±15 stupňů). Kombinovaný efekt vytváří obrázky, které realisticky simulují polohovou a orientační variabilitu sběru inspekčních dat, aniž by vyžadovaly extrémní deformace, které by mohly vnést nerealistické artefakty.

Typ augmentaceTypický rozsahAplikace pro infrastrukturu
Rotace±45° až ±180°Simuluje různé úhly vybočení kamery vůči orientaci trhliny
Horizontální překlopení50% pravděpodobnostZdvojnásobuje datovou sadu; invariantní pro většinu vad
Vertikální překlopení50% pravděpodobnostUžitečné pro nadir snímky vozovek
Náhodný ořezměřítko 0,08–1,0, poměr stran 0,75–1,33Simuluje různé inspekční výšky a úrovně přiblížení
Perspektivadistortion scale 0,05–0,3Simuluje nenadirové úhly náklonu kamery
Afinní (měřítko)0,8×–1,2×Simuluje změnu výšky UAV platforem
Afinní (zkosení)±5° až ±15°Simuluje náklon a sklon kamery
Afinní (posun)±5 % až ±15 %Simuluje změnu polohy snímku
Afinní (rotace)±10° až ±30°Kombinováno s dalšími afinními parametry

{

Detailní záběr inspekce betonové mostovky zobrazující povrchové trhliny, vydrolení a strukturální vady zachycené pro trénink modelu AI

Barevné a fotometrické augmentace

Barevné a fotometrické augmentace upravují hodnoty intenzity pixelů v obrázku, aniž by měnily prostorové uspořádání objektů. Tyto transformace simulují variace světelných podmínek — nejvýznamnějšího zdroje reálné variability v obrazech inspekce infrastruktury.

Úprava jasu a kontrastu

Augmentace jasu lineárně posouvá všechny hodnoty pixelů přičtením konstantního offsetu: I’ = I + δ, kde δ je rovnoměrně vzorkováno z rozsahu, například [−30, +30] na stupnici 0–255. To simuluje rozdíl mezi poledním slunečním světlem (vysoký jas) a zataženou oblohou nebo časnými ranními inspekčními podmínkami (nízký jas). Augmentace kontrastu škáluje hodnoty pixelů kolem průměrné intenzity: I’ = α(I − μ) + μ, kde α je vzorkováno z rozsahu, například [0,7; 1,3]. Nižší hodnoty kontrastu simulují mlhavé nebo zamlžené podmínky; vyšší hodnoty simulují ostré přímé sluneční světlo vytvářející silné stíny.

Pro inspekci infrastruktury je doporučený rozsah jasu ±40 procent pro pokrytí celého spektra provozních světelných podmínek specifikovaných v plánech letištního osvětlení dle ICAO Annex 14, Chapter 5 (Vizuální pomůcky pro navigaci). Osvětlení okrajů drah, přibližovací osvětlení a osvětlení odbavovací plochy vytvářejí různé úrovně okolního osvětlení, se kterými si musí inspekční model poradit.

Modifikace odstínu a sytosti

Posun odstínu otáčí všechny barvy pixelů v HSV (Hue, Saturation, Value) barevném prostoru o náhodný úhel, typicky ±30° z 360° barevného kruhu. Úprava sytosti násobí kanál sytosti náhodným faktorem (typicky 0,5 až 1,5). Tyto augmentace simulují efekt různých podmínek povrchu vozovky — suchý asfalt má nižší sytost než mokrý asfalt, starý beton se liší odstínem od nového betonu a gumové pneumatiky vytvářejí výrazné barevné artefakty v dotykových zónách drah.

Pro detekci trhlin na asfaltových vozovkách je augmentace odstínu obzvláště užitečná, protože kontrast mezi tmavou trhlinou a okolní vozovkou se mění s povrchovou vlhkostí. Suchá jemná trhlina může mít minimální barevný kontrast vůči suchému asfaltu, zatímco stejná trhlina naplněná vodou po dešti vypadá jako jasně definovaná tmavá linie. Modely trénované s augmentací odstínu a sytosti se učí detekovat trhliny v tomto rozsahu kontrastu způsobeném vlhkostí.

Barevný jitter

Barevný jitter je složená augmentace, která náhodně upravuje jas, kontrast, sytost a odstín současně. Standardní implementace vzorkuje každý parametr nezávisle: faktor jasu v [1−δ_b, 1+δ_b], faktor kontrastu v [1−δ_c, 1+δ_c], faktor sytosti v [1−δ_s, 1+δ_s] a rotaci odstínu v [−δ_h, +δ_h]. Pro inspekci infrastruktury jsou doporučené rozsahy δ_b=0,3, δ_c=0,3, δ_s=0,2 a δ_h=0,1.

Barevný jitter je vysoce účinný regularizátor pro modely detekce vad. Výzkum klasifikace trhlin ve vozovkách ukazuje, že modely trénované s komplexním barevným jitterem zlepšují validační přesnost o 5–12 procent ve srovnání s modely trénovanými pouze s geometrickými augmentacemi. Efekt je nejvýraznější u jemných trhlin (< 2 mm šířka), kde je kontrast mezi trhlinou a vozovkou již nízký a další variace osvětlení v tréninku nutí model učit se rysy založené na hranách namísto barev.

Převod do odstínů šedi

Augmentace převodem do odstínů šedi převádí náhodnou podmnožinu trénovacích obrázků na jednokanálovou luminanci, čímž odstraňuje všechny barevné informace. Aplikuje se s nízkou pravděpodobností (typicky 5–10 procent), aby se zajistilo, že model není příliš závislý na barevných podnětech, které nemusí být přítomny ve všech inspekčních podmínkách. Pro inspekci infrastruktury je převod do odstínů šedi obzvláště cenný pro termální a blízké infračervené inspekční modality, kde barevné snímky nejsou k dispozici.

Při inferenci si model trénovaný s občasnými obrázky v odstínech šedi během tréninku dokáže elegantně poradit s monochromatickými nebo téměř monochromatickými vstupy bez nutnosti replikace kanálů nebo předzpracování. To je důležité pro interoperabilitu se staršími inspekčními kamerovými systémy, které mohou snímat v režimu odstínů šedi, nebo pro analýzu historických inspekčních snímků pořízených předtím, než se digitální barevné kamery staly standardem.

Augmentace šumem a rozmazáním

Augmentace šumem a rozmazáním simulují degradaci kvality obrazu, ke které dochází při reálném sběru inspekčních dat v důsledku omezení senzoru, pohybu, chyb zaostření a nepříznivých environmentálních podmínek.

Gaussovský šum

Augmentace Gaussovským šumem přidává náhodné perturbace hodnot pixelů vzorkované z normálního rozdělení N(0, σ²) ke každému pixelu nezávisle. Směrodatná odchylka šumu σ je typicky nastavena mezi 0,01 a 0,05 pro normalizované hodnoty pixelů (rozsah 0–1). To simuluje šum výstřelu přítomný ve všech senzorech digitálních kamer, který se zvyšuje při vyšších nastaveních ISO používaných za špatných světelných podmínek.

Přidávání Gaussovského šumu během tréninku nutí konvoluční filtry modelu reagovat na základní strukturální vzor vady spíše než na vysokofrekvenční artefakty na úrovni pixelů, které nejsou reprodukovatelné napříč snímky. Modely trénované s augmentací šumu jsou robustnější vůči rozdílům v kvalitě senzorů mezi inspekčními kamerami — stejná vada zachycená 12megapixelovým telefonem a 50megapixelovou DSLR bude vypadat odlišně pro model netrénovaný na zašuměných obrázcích.

Gaussovské rozmazání

Augmentace Gaussovským rozmazáním konvoluje obrázek s Gaussovským jádrem o velikosti k×k a směrodatné odchylce σ. To simuluje několik reálných podmínek: nezaostřený snímek (kamera nedosáhla dokonalého zaostření na povrch vozovky), pohybové rozmazání (inspekční vozidlo se pohybovalo při snímání), atmosférický opar (vodní pára nebo částice ve vzduchu rozptylují světlo a snižují ostrost obrazu) a nedokonalosti objektivu (prach nebo kondenzace na čočce kamery).

Pro inspekci infrastruktury jsou doporučené parametry Gaussovského rozmazání k ∈ {3, 5, 7} a σ ∈ {0,5; 1,0; 2,0} aplikované s 20–30% pravděpodobností. Tento rozsah pokrývá střední až výrazné rozmazání, aniž by byl obrázek nepoznatelný. Pohybové rozmazání lze alternativně simulovat pomocí směrového rozmazávacího jádra, které rozmazává pixely v určitém směru — to je realističtější pro kamery namontované na vozidlech, kde směr rozmazání odpovídá trajektorii vozidla.

Význam augmentace rozmazáním je zřejmý při zvažování rychlosti inspekce. Inspekční vozidlo jedoucí rychlostí 50 km/h snímá obrázky s přibližně 3–5 pixely pohybového rozmazání při typických rychlostech závěrky. Inspekční dron pohybující se rychlostí 10 m/s s kamerou stabilizovanou gimbalem může mít 1–3 pixely rozmazání. Trénink s augmentací rozmazáním zajišťuje spolehlivý výkon modelu napříč těmito rychlostmi snímání, aniž by inspekční operátor musel zpomalovat kvůli přesnosti modelu.

Random Erasing a Cutout

Random Erasing a Cutout jsou regularizačně zaměřené augmentace, které náhodně zakrývají obdélníkové oblasti vstupního obrázku. U Cutoutu je čtvercová záplata o délce strany s (typicky 16–64 pixelů u obrázků 256×256) náhodně umístěna a vyplněna konstantní hodnotou (obvykle nulou nebo průměrnou hodnotou pixelu datové sady). Random Erasing mění poměr stran a hodnotu výplně zakryté oblasti.

Pro inspekci infrastruktury tyto augmentace simulují zakrytí cizími předměty (FOD) na letištních zpevněných plochách — kritický bezpečnostní problém dle standardů ICAO Annex 14. FOD zahrnuje uvolněné kameny, fragmenty pneumatik, visačky na zavazadla, nástroje a další nečistoty, které částečně zakrývají povrch vozovky. Model trénovaný s augmentací Cutout se učí detekovat vady, i když jsou části vady nebo okolní vozovky skryty zakrývajícími objekty. To přímo zlepšuje schopnost modelu identifikovat trhliny a vady viditelné v mezerách mezi nečistotami nebo stopami pneumatik na povrchu dráhy.

Doménově specifické augmentace

Doménově specifické augmentace jsou transformace přizpůsobené jedinečným vizuálním charakteristikám obrazů inspekce infrastruktury. Tyto augmentace jdou nad rámec obecných transformací počítačového vidění a simulují specifické environmentální a provozní podmínky, se kterými se inspekční kamery setkávají.

Simulace stínů

Stíny na površích infrastruktury jsou vrhány širokou škálou objektů: mostními konstrukcemi, portály značení, hangáry, terminálovými budovami, sousedními letadly, obvodovým oplocením a dokonce i samotným inspekčním vozidlem nebo UAV. Stíny vytvářejí prudké lokální snížení osvětlení, které může zakrýt trhliny, změnit zdánlivou texturu vozovky a vytvářet falešně pozitivní detekce hran na hranicích stínů.

Stínová augmentace to simuluje ztmavením náhodné oblasti obrázku pomocí měkké masky. Maska je typicky polygon s rozmazanými okraji (Gaussovské rozmazání masky s σ=10–30 pixelů), který plynule přechází z plného osvětlení na úroveň tmy stínu. Faktor tmavosti stínu je vzorkován mezi 0,2 a 0,6 (kde 0,0 je černá a 1,0 je nezměněno). Poloha, tvar a orientace stínu jsou randomizovány, aby se zabránilo tomu, že si model spojí vzory stínů s konkrétními oblastmi obrázku.

Pro inspekci mostů je simulace stínů kritická, protože mostní nosníky, diafragmy a převisy mostovky vytvářejí složité vzory stínů, které se během dne mění s úhlem slunce. FHWA standardy pro inspekci mostů vyžadují, aby hodnocení stavu bylo konzistentní bez ohledu na to, kdy inspekce probíhá. Modely augmentované stíny udržují tuto konzistenci a poskytují přesnou detekci vad, ať už je most kontrolován v 9:00 (dlouhé stíny) nebo ve 12:00 (minimální stíny).

Efekty deště a vody

Mokrý povrch dramaticky mění vizuální vzhled povrchových vad. Voda vyplňuje trhliny a dutiny, ztmavuje je a zvyšuje jejich vizuální kontrast vůči okolní vozovce. Zároveň voda vytváří zrcadlové odrazy, které vnášejí jasné světla, zejména na hladkých asfaltových površích. Kaluže a stojatá voda mohou zcela zakrýt podkladové vady.

Dešťová augmentace simuluje tyto efekty několika mechanismy:

Vrstva vodního filmu — Přidání průsvitného modro-šedého překrytí na náhodné oblasti obrázku s neprůhledností 0,1–0,3 pro simulaci tenkých vodních filmů. Generování zrcadlových odlesků — Přidání jasných eliptických nebo nepravidelných skvrn s vysokými hodnotami luminance (200–250 na stupnici 0–255) pro simulaci odrazu slunečního světla od vodních hladin. Vrstva dešťových pruhů — Přidání směrových pruhových vzorů pro simulaci deště padajícího během snímání. Hustota pruhů, délka (10–50 pixelů) a úhel (typicky 0–30° od svislice, v závislosti na větru) jsou randomizovány.

Pro inspekci letištních zpevněných ploch je augmentace mokré dráhy vyžadována provozním realismem. ICAO Annex 14 a FAA AC 150/5320-5D vyžadují, aby hodnocení stavu povrchu dráhy zohledňovalo vliv vody na tření a viditelnost vad. Inspekční model nasazený v regionu se 100+ dny s ročními srážkami musí přesně fungovat za mokrých podmínek. Trénink s augmentacemi deště a vodního filmu tuto schopnost zajišťuje.

Variace textury povrchu

Textura povrchu vozovky se významně liší napříč:

  • Typem vozovky: Asfalt (pružný), beton (tuhý), kompozitní a porézní frikční vrstvy mají každá odlišné vizuální textury
  • Stářím: Nová vozovka má jednotnou texturu; stará vozovka vykazuje obnažení kameniva, vydrolení, oxidaci a vyleštění
  • Historií údržby: Těsnící nátěry, kalové nátěry, mikropovrchové úpravy a překryvy každý modifikují texturu povrchu
  • Typem kameniva: Různé zdroje kameniva vytvářejí odlišné charakteristiky barvy, velikosti a odrazivosti

Augmentace variace textury povrchu aplikuje lokální zvýšení kontrastu, lokální ekvalizaci a syntézu textury pro simulaci těchto variací. Pokročilé implementace používají stylový přenos nebo CycleGAN-based doménovou adaptaci k transformaci obrázků mezi texturními doménami — například vezmou obrázek trhliny z nového asfaltu a vygenerují verzi, která vypadá jako starý, zvětralý asfalt.

Výzkum Krestenitis et al. (2026) o inspekci drah pomocí UAV snímků ukazuje, že modely augmentované variací textury povrchu dosahují o 15–20 procent vyšší segmentační IoU (Intersection over Union) na texturně různorodých testovacích sadách ve srovnání s modely trénovanými výhradně na původní texturní doméně. To je obzvláště důležité pro letištní sítě zpevněných ploch, které mohou zahrnovat dráhy, pojezdové dráhy a odbavovací plochy postavené z různých materiálů a v různých časech.

{

Asfaltový povrch letištní dráhy za deštivých podmínek s kalužemi vody a mokrou texturou vozovky zobrazující viditelné trhliny

Augmentační politiky

Augmentační politika definuje které transformace se aplikují, v jakém pořadí, s jakou pravděpodobností a v jaké velikosti během tréninku. Volba politiky významně ovlivňuje výkonnost modelu. Existují tři široké kategorie: manuální politiky, prohledávané politiky a náhodné politiky.

Návrh manuální politiky

Manuální politiky jsou ručně vytvořené praktiky na základě doménových znalostí a empirického testování. Pro inspekci infrastruktury by typická manuální politika mohla aplikovat následující sekvenci v každém tréninkovém kroku:

  1. Náhodné horizontální překlopení (50% pravděpodobnost)
  2. Náhodná rotace ±30° (40% pravděpodobnost)
  3. Náhodný ořez na 85–100 % plochy obrázku se změnou velikosti na 512×512 (vždy aplikováno)
  4. Barevný jitter: jas ±0,3, kontrast ±0,3, sytost ±0,2, odstín ±0,1 (50% pravděpodobnost)
  5. Gaussovské rozmazání: jádro 5, σ=0,5–1,5 (20% pravděpodobnost)
  6. Gaussovský šum: σ=0,02 (10% pravděpodobnost)
  7. Náhodný stín: tmavost 0,2–0,5 (20% pravděpodobnost)

Manuální politiky jsou transparentní, interpretovatelné a výpočetně rychlé — nevyžadují žádné prohledávání ani validaci. Nevýhodou je, že nemusí být optimální a mohou postrádat přínosné kombinace augmentací.

AutoAugment — prohledávaná augmentační politika

AutoAugment, představený Cubuk et al. (2019) v Google Brain, používá zpětnovazební učení k prohledávání optimálních augmentačních politik. Proces prohledávání funguje následovně:

RNN controller navrhuje augmentační politiky, každá sestávající z K dílčích politik (typicky K=5), kde každá dílčí politika specifikuje 2 operace s jejich velikostmi a pravděpodobnostmi. Politika je aplikována na trénovací datovou sadu a podřízený model je trénován a vyhodnocen na validační sadě. Validační přesnost slouží jako signál odměny pro RNN controller, který je aktualizován pomocí Proximal Policy Optimization (PPO) k vytváření lepších politik. Prohledávání typicky vyžaduje 15 000 až 20 000 GPU-hodin pro datové sady velikosti ImageNet.

AutoAugment objevuje neintuitivní politiky, které často překonávají manuální návrhy. Například politika ImageNet zjistila, že ShearX/Y a Rotate s vysokou pravděpodobností a mírnou velikostí jsou vysoce účinné, zatímco Equalize a Solarize (inverze hodnot pixelů nad prahem) zlepšují barevnou robustnost. Objevené politiky se přenášejí mezi datovými sadami podobných vizuálních domén — politika nalezená na obecné datové sadě vozovek může být aplikována na specifickou datovou sadu letištních drah s dobrými výsledky.

RandAugment — praktická náhodná politika

RandAugment, představený Cubuk et al. (2020), řeší výpočetní náklady AutoAugmentu úplným odstraněním procesu prohledávání. Politika je definována pouze dvěma parametry: N (počet transformací aplikovaných na jeden obrázek) a M (globální parametr velikosti pro všechny transformace).

V každém tréninkovém kroku RandAugment náhodně vybírá N transformací z pevné sady K operací (typicky K=14–17, zahrnující rotaci, zkosení, posun, kontrast, jas, ostrost, solarizaci, ekvalizaci, autokontrast, posterizaci, barvu a identitu). Vybrané operace jsou aplikovány sekvenčně s velikostí M. Jednoduchost tohoto přístupu znamená žádné prohledávání, žádnou validační sadu během tréninku a minimální ladění hyperparametrů.

Pro inspekci infrastruktury slouží RandAugment s N=2 a M=10 (na stupnici velikosti 0–30) jako vynikající výchozí konfigurace. Vyšší hodnoty N (3–4) a M (15–20) poskytují silnější regularizaci pro větší modely nebo menší datové sady. Výzkum benchmarků klasifikace trhlin ve vozovkách ukazuje, že RandAugment dosahuje srovnatelného nebo lepšího výkonu než AutoAugment, přičemž redukuje prostor prohledávání hyperparametrů z tisíců GPU-hodin na jediné 2D gridové prohledávání N a M.

PolitikaNáklady na prohledáváníParametryVhodnost pro infrastrukturu
ManuálníNulovéPlná kontrola na operaciDobrá pro doménově specifické potřeby
AutoAugment15 000+ GPU-hodinPolitika nalezená RLLepší výkon, vysoké náklady
RandAugmentZanedbatelnéN (int), M (float)Výborná, praktická výchozí
TrivialAugmentZanedbatelnéJeden parametr sílyVelmi jednoduchá, konkurenceschopná
Fast AutoAugment~100 GPU-hodinPorovnávání hustotyDobrý kompromis

Augmentace pro detekci trhlin

Detekce trhlin — úloha identifikace a lokalizace trhlin v površích infrastruktury — je nejvíce studovanou aplikací augmentace dat v oblasti inspekce infrastruktury. Trhliny představují jedinečné výzvy, díky nimž je augmentace obzvláště účinná.

Charakteristiky trhlin a citlivost na augmentaci

Trhliny v betonových a asfaltových površích vykazují následující vlastnosti relevantní pro návrh augmentace:

Vysoký poměr stran — Trhliny jsou dlouhé a úzké, s poměrem šířky k délce často přesahujícím 1:100. To znamená, že geometrické augmentace, které silně deformují poměr stran (extrémní zkosení, nečtvercové ořezy), mohou učinit trhliny nerozpoznatelnými. Zachování linearity — Většina strukturálních trhlin sleduje přibližně lineární nebo mírně zakřivené dráhy, ačkoli aligátorové trhliny tvoří propojené polygonální sítě. Augmentace, které narušují lineární kontinuitu (náhodné vymazání středu trhliny, agresivní JPEG komprese), mohou zničit signaturu trhliny. Nízký kontrast — Jemné trhliny (vlasové trhliny pod 0,3 mm šířky) mají minimální kontrast vůči okolní vozovce — často pouze 5–15 úrovní šedi na 8bitovém obrázku. Barevné augmentace musí být aplikovány opatrně, aby nedošlo k vymazání tohoto již tak slabého signálu. Závislost na textuře — Trhliny jsou detekovány jako anomálie vůči textuře pozadí vozovky. Augmentace, které homogenizují texturu (nadměrné rozmazání, silná ekvalizace), mohou učinit trhliny nerozlišitelnými od intaktní vozovky.

Doporučená augmentační pipeline pro detekci trhlin

Na základě publikovaného výzkumu a empirického testování na datasetech letištních zpevněných ploch je pro modely detekce trhlin doporučena následující pipeline:

Fáze 1 — Geometrické jádro: Horizontální překlopení (50 %), náhodná rotace ±45° (30 %), náhodný ořez na 80–95 % se změnou velikosti (vždy). Tyto augmentace jsou vždy aplikovány, protože orientace a poloha trhliny jsou rušivé proměnné.

Fáze 2 — Simulace osvětlení: Barevný jitter s jasem ±0,3, kontrastem ±0,3, sytostí ±0,2, odstínem ±0,1 (50% pravděpodobnost). To simuluje celý rozsah provozních světelných podmínek.

Fáze 3 — Simulace kvality: Gaussovské rozmazání σ=0,5–2,0 (25% pravděpodobnost), Gaussovský šum σ=0,01–0,03 (15% pravděpodobnost). To simuluje variabilitu kvality snímání.

Fáze 4 — Simulace prostředí: Překrytí stínu náhodnou polygonální maskou (20% pravděpodobnost), simulace mokrého povrchu se zvýšenou sytostí a zrcadlovými odlesky (15% pravděpodobnost). To simuluje terénní podmínky.

Fáze 5 — Regularizace: Cutout s velikostí záplaty 16–32 pixelů (10% pravděpodobnost). To zabraňuje přeučení na specifické oblasti obrázku.

Tato pipeline zachovává platnost labelu — trhlina zůstává trhlinou po všech transformacích — a zároveň vystavuje model extrémní variabilitě vzhledu.

Augmentace pro klasifikaci vad

Klasifikace vad — přiřazení kategorického labelu výřezu obrázku (např. „trhlina", „vydrolení", „zvětrávání", „intaktní") — má odlišné požadavky na augmentaci než segmentace na úrovni pixelů.

Třídní vyváženost a augmentace

Datové sady vad infrastruktury jsou ze své podstaty silně nevyvážené. Intaktní vozovka dominuje každé datové sadě, zatímco jednotlivé třídy vad mohou mít jen stovky příkladů. Augmentace dat řeší tuto nevyváženost pomocí třídně uvědomělé augmentace: aplikací agresivnějších nebo početnějších transformací na nedostatečně zastoupené třídy za účelem zvýšení jejich reprezentace v každé tréninkové dávce.

Například pokud trénovací datová sada obsahuje 10 000 intaktních obrázků, 500 obrázků trhlin a 200 obrázků vydrolení, může být augmentační pipeline nakonfigurována tak, aby aplikovala 5 náhodně vzorkovaných augmentací na každý obrázek vydrolení (generování 5×200 = 1 000 efektivních příkladů vydrolení na epochu) a zároveň aplikovala pouze 1 augmentaci na každý intaktní obrázek. Tato třídně uvědomělá augmentační strategie zlepšuje citlivost klasifikátoru na vzácné typy vad bez nutnosti dodatečného sběru dat.

Augmentace zachovávající vs. měnící label

Pro klasifikaci je zásadní, aby augmentace byly zachovávající label — transformovaný obrázek musí stále patřit do původní třídy. Některé transformace mohou změnit label:

  • Extrémní rotace (např. 180° překlopení směrové vady, jako je posun) může změnit zdánlivý typ vady
  • Extrémní ořez, který zcela odstraní vadu, vytváří „intaktní" obrázek z „vadného" zdroje
  • Agresivní rozmazání, které vymaže vlasovou trhlinu, činí obrázek efektivně intaktním

Pro klasifikaci musí být velikost augmentace kalibrována na minimální detekovatelnou velikost rysu každé třídy vady. U vlasových trhlin (minimální šířka ~0,2 mm při rozlišení snímání) by mělo být rozmazání přesahující σ=2,0 a rotace nad ±60° aplikovány se sníženou pravděpodobností nebo vyloučeny.

Více-labelová augmentace

Povrchy infrastruktury často vykazují více souběžných typů vad — vydrolená oblast může obsahovat trhliny nebo zvětralé místo může mít selhání těsnění spár. Pro více-labelovou klasifikaci musí být augmentace konzistentní napříč všemi labely pro daný obrázek. Stejná geometrická transformace aplikovaná na obrázek se aplikuje na všechny labely současně. Barevné a šumové transformace jsou ze své podstaty zachovávající label pro více-labelovou klasifikaci, protože nemění přítomnost ani nepřítomnost žádného typu vady.

Augmentace a prevence přeučení

Vztah mezi augmentací dat a přeučením je zásadní pro pochopení role augmentace v hlubokém učení.

Mechanismus přeučení

K přeučení dochází, když je model s vysokou kapacitou (mnoha trénovatelnými parametry) trénován na datové sadě s nedostatečnou velikostí nebo rozmanitostí. Model se neučí obecné vzory třídy vady, ale specifická uspořádání pixelů, textury a artefakty trénovacích příkladů. Matematicky se přeučení projevuje jako učení degenerovaného zobrazení ze vstupu na výstup, které minimalizuje trénovací ztrátu, ale nedokáže minimalizovat očekávanou ztrátu na skutečné distribuci dat.

U modelů inspekce infrastruktury se přeučení typicky objevuje po 50–100 tréninkových epochách. Trénovací přesnost nadále stoupá ke 100 procentům, zatímco validační přesnost stagnuje a poté klesá. Rozdíl mezi trénovací a validační přesností — generalizační mezera — se postupně zvětšuje. Bez augmentace vykazuje ResNet-50 trénovaný na 2 000 obrázcích trhlin typicky generalizační mezeru 15–25 procent. S komplexní augmentací lze tuto mezeru snížit na 3–5 procent nebo méně.

Efektivní velikost datové sady

Klíčovým mechanismem, kterým augmentace zabraňuje přeučení, je zvýšení efektivní velikosti trénovací sady. S augmentací aplikovanou za běhu během tréninku je každý obrázek transformován odlišně v každé epoše. Trénovací datová sada 5 000 obrázků s augmentační politikou, která aplikuje 3 náhodné transformace z množiny 10 operací, každou s 5 možnými velikostmi, generuje 5 000 × 10³ × 5³ ≈ 6,25 milionu odlišných trénovacích příkladů za 100 epoch.

Tato expanze efektivní datové sady je obzvláště cenná pro inspekci infrastruktury, protože:

  • Data o vadách jsou vzácná: Sběr 50 000 labelovaných obrázků trhlin je nepraktický
  • Terénní podmínky jsou rozmanité: Ani s 50 000 obrázky nemusí být pokryt celý rozsah osvětlení, počasí, úhlů kamery a textur vozovky
  • Kapacita modelu je vysoká: Moderní vision transformery (ViT, DINOv3) mají 80–300 milionů parametrů, které vyžadují obrovské efektivní velikosti datových sad

Augmentace jako regularizace

Augmentace dat funguje jako regularizátor ve statistickém smyslu učení. Rozšířením trénovací distribuce augmentace snižuje schopnost modelu přizpůsobit se šumu v původní datové sadě. Rozptyl naučených parametrů klesá, protože model musí splňovat omezení z mnohem většího počtu efektivně nezávislých trénovacích příkladů.

Síla regularizace augmentace je řízena:

  • Počtem typů augmentací: Více typů poskytuje silnější regularizaci
  • Velikostí augmentace: Vyšší velikosti zvyšují rozptyl trénovací distribuce a vynucují silnější invariantnost
  • Pravděpodobností aplikace: Vyšší pravděpodobnosti znamenají, že více obrázků je augmentováno na epochu, což zvyšuje efektivní velikost datové sady

U modelů inspekce infrastruktury je optimální rovnováha regularizace a augmentace nalezena sledováním trajektorie validační ztráty. Pokud validační ztráta roste, zatímco trénovací ztráta nadále klesá (přeučení), měla by být zvýšena velikost nebo pravděpodobnost augmentace. Pokud jsou jak trénovací, tak validační ztráta vysoké (nedostatečné učení), měla by být augmentace snížena, aby se model mohl více učit ze surových trénovacích dat.

Augmentace v produkčním tréninku

Implementace augmentace dat v produkční tréninkové pipeline vyžaduje pečlivá architektonická rozhodnutí o tom, kdy, kde a jak jsou augmentace aplikovány.

Online vs. offline augmentace

Offline augmentace předgenerovává augmentované obrázky a ukládá je na disk před zahájením tréninku. Augmentovaná datová sada může obsahovat 50 000 obrázků odvozených z 5 000 originálů prostřednictvím 10 pevných augmentací na obrázek. Trénink pak probíhá na této pevné augmentované datové sadě.

Online augmentace aplikuje transformace za běhu během tréninku, přičemž každý obrázek je načten z disku, náhodně augmentován a okamžitě předán modelu. Žádné augmentované obrázky nejsou trvale ukládány.

Online augmentace je standardním přístupem pro produkční pipeline inspekce infrastruktury, protože:

  • Nekonečná variabilita: Každá epocha vidí jiné augmentace, což poskytuje silnější regularizaci
  • Žádné úložné režie: Augmentované obrázky nejsou ukládány, čímž se vyhnete 10–100× požadavkům na místo na disku
  • Flexibilita parametrů: Augmentační parametry lze měnit bez regenerace datové sady
  • Deterministická reprodukovatelnost: Náhodná semena mohou řídit augmentaci pro ladění

Výpočetní náklady online augmentace jsou minimální — moderní GPU-akcelerované augmentační knihovny (NVIDIA DALI, Kornia nebo PyTorch’s torchvision) aplikují transformace v mikrosekundách na obrázek, což typicky představuje méně než 5 procent celkového času tréninku, když je načítání dat pipelineováno s GPU prováděním.

Výběr augmentační knihovny

Volba augmentační knihovny ovlivňuje výkonnost pipeline, flexibilitu a udržovatelnost:

Albumentations je nejpoužívanější knihovnou pro inspekci infrastruktury díky své rychlosti (optimalizované C++ backend přes OpenCV), komplexní sadě operací (70+ transformací) a nativní podpoře duální augmentace pro segmentační masky. Albumentations zajišťuje, že jakákoli geometrická transformace aplikovaná na obrázek je identicky aplikována na masku, čímž je zachována zarovnání na úrovni pixelů mezi vstupem a ground truth.

NVIDIA DALI poskytuje GPU-akcelerované pipeline pro načítání dat a augmentaci, které mohou zpracovávat obrázky zcela na GPU, čímž se vyhýbají úzkým hrdlům přenosu CPU-GPU. DALI je doporučen pro velmi velké trénovací datové sady (10 000+ obrázků), kde doba načítání dat dominuje času tréninku.

torchvision.transforms (PyTorch) a tf.image (TensorFlow) poskytují vestavěné augmentační schopnosti s dobrou integrací do svých příslušných frameworků, ale mají méně doménově specifických transformací (simulace stínů, perspektiva, random erasing) než Albumentations.

Integrace pipeline

V produkční tréninkové pipeline je augmentace integrována následovně:

[Načítání obrázků] → [Náhodný výběr] → [Augmentační sekvence] → [Normalizace] → [Náhodný výběr dávek] → [Dopředný průchod modelem]

Náhodný výběr rozhoduje, zda je každá augmentace v politice aplikována (na základě jejího parametru pravděpodobnosti) a jakou má velikost. Augmentační sekvence aplikuje transformace v pevném pořadí: typicky nejprve geometrické (ořez, překlopení, rotace, perspektiva), poté fotometrické (barevný jitter, jas, kontrast), pak šum a rozmazání (Gaussovský šum, Gaussovské rozmazání), poté doménově specifické (stíny, déšť) a nakonec regularizace (Cutout).

Během validace a inference je augmentace omezena na minimum nezbytných transformací: typicky pouze ořez na střed (nebo změna velikosti) a normalizace. Během vyhodnocování nejsou aplikovány žádné náhodné transformace, aby byly zajištěny deterministické, reprodukovatelné výsledky.

Sledování efektů augmentace

Produkční tréninkové pipeline by měly logovat statistiky augmentace pro sledování jejich vlivu na dynamiku tréninku:

  • Míra aktivace augmentace: Procento obrázků, které obdržely každou transformaci, pro ověření správné implementace pravděpodobností
  • Histogram transformovaného obrázku: Distribuce hodnot pixelů po augmentaci pro detekci ořezávání nebo saturačních artefaktů
  • Časová osa velikosti augmentace: Jak se velikost augmentace mění během plánů kurikulárního tréninku (některé implementace začínají s nízkou augmentací a zvyšují ji v průběhu epoch)
  • Validační citlivost na augmentaci: Periodické vyhodnocení se sníženou augmentací pro měření, zda se model nestal závislým na artefaktech augmentace

Tyto monitorovací metriky zajišťují, že augmentace dosahuje svého zamýšleného efektu — rozšiřuje trénovací distribuci, aniž by vnášela artefakty nebo zkreslení, která by degradovala výkon v reálném světě.

Obrázek ukazující mřížku augmentací betonových trhlin demonstruje praktický výstup augmentační pipeline: stejný původní obrázek trhliny je transformován do 12+ odlišných trénovacích příkladů prostřednictvím rotace, překlopení, ořezu, úpravy barev a rozmazání. Každá augmentovaná verze zachovává label trhliny a zároveň ji prezentuje ve vizuálně odlišném kontextu, čímž učí model detekovat trhliny bez ohledu na orientaci, osvětlení nebo kvalitu obrazu.

{

Vizualizace trénovacích dat strojového učení zobrazující různé augmentované verze obrázků betonových trhlin uspořádané v mřížce

Často kladené otázky

Vylepšete svou inspekční AI pomocí robustního tréninku

TarmacView využívá pokročilé augmentační pipeline pro trénování modelů inspekce infrastruktury, které generalizují napříč světelnými, povětrnostními a povrchovými podmínkami. Optimalizujte trénink svého modelu pro detekci vad pomocí doménově specifických augmentačních strategií přizpůsobených pro letištní zpevněné plochy a betonové konstrukce.

Zjistit více

Fúze dat

Fúze dat

Fúze dat je systematický proces integrace informací z více zdrojů – jako jsou senzory, databáze a záznamy – za účelem vytvoření bohatších, přesnějších a akcesch...

6 min čtení
Data Management Aviation +3

+++ title = &ldquo;Adaptace domény&rdquo; description = &ldquo;Adaptace domény přizpůsobuje modely strojového učení natrénované na zdrojové doméně — například n...

8 min čtení
Technology Machine Learning +2
Detekce trhlin na bázi AI pro inspekci infrastruktury

Detekce trhlin na bázi AI pro inspekci infrastruktury

Detekce trhlin na bázi AI využívá počítačové vidění — konvoluční neuronové sítě, vision transformery a modely sémantické segmentace — k automatické identifikaci...

36 min čtení
Computer Vision Deep Learning +8