Fúze dat
Fúze dat je systematický proces integrace informací z více zdrojů – jako jsou senzory, databáze a záznamy – za účelem vytvoření bohatších, přesnějších a akcesch...
Augmentace dat synteticky rozšiřuje trénovací datové sady aplikací transformací obrazu — rotace, překlopení, barevný jitter, rozmazání, šum, ořez — pro zlepšení robustnosti modelu vůči variabilitě osvětlení, orientace a kvality obrazu. Pro inspekci infrastruktury jsou klíčové doménově specifické augmentace (perspektivní transformace, simulace stínů, povětrnostní efekty). Pokrývá augmentační strategie a jejich dopad na generalizaci modelu.
{
Augmentace dat je tréninková metodologie, která synteticky rozšiřuje velikost a rozmanitost labelované datové sady aplikací řízených transformací zachovávajících label na stávající vzorky dat. V aplikacích počítačového vidění to znamená vzít každý původní obrázek a vygenerovat několik modifikovaných verzí prostřednictvím geometrického deformování, manipulace v barevném prostoru, vkládání šumu nebo složitějších generativních procesů. Augmentovaná datová sada — původní obrázky plus jejich transformované varianty — se pak použije k tréninku hlubokých neuronových sítí, čímž se model vystaví mnohem širší škále vizuálních podmínek, než by poskytla samotná surová terénní data.
Hlavním účelem augmentace dat je zlepšení generalizace modelu — schopnosti trénovaného modelu přesně pracovat s daty, která dosud neviděl. Hluboká konvoluční neuronová síť (CNN) s miliony parametrů si může snadno zapamatovat trénovací datovou sadu o několika tisících obrázků, naučit se specifické textury, světelné vzory a artefakty pozadí těchto příkladů, nikoli základní signatury vad. Tento jev, známý jako přeučení, vede k vysoké trénovací přesnosti, ale slabé validační a testovací výkonnosti. Augmentace dat zabraňuje přeučení tím, že zajišťuje, aby každá tréninková epocha představila modelu různě transformované verze každého obrázku, čímž znemožňuje čisté memorování. Model je nucen učit se invariantní rysy — vizuální vzory, které přetrvávají napříč transformacemi.
Pro modely inspekce infrastruktury není augmentace dat pouze přínosná, ale je provozně nezbytná. Zvažme realitu sběru dat při inspekci letištních zpevněných ploch: jediný průzkum dráhy pomocí kamery namontované na UAV může zachytit 10 000 vysoce rozlišovacích snímků, ale méně než 200 z nich může obsahovat viditelné vady. Trhliny, vydrolení, poruchy těsnění spár a povrchové zvětrávání dohromady tvoří méně než 1 procenta celkové plochy povrchu vozovky v daném okamžiku. Sběr vyvážené, rozmanité datové sady vad za všech možných inspekčních podmínek — přímé sluneční světlo, zataženo, svítání, mokrý povrch, suchý povrch, různé úhly náklonu kamery, různé výšky — by byl neúnosně nákladný a časově náročný. Augmentace dat překlenuje tuto mezeru simulací celé obálky provozních podmínek z mnohem menší sady terénních příkladů.
Význam augmentace je formálně uznán napříč standardy letecké infrastruktury. ICAO Annex 14, Volume I (Navrhování a provoz letišť) vyžaduje, aby povrchy drah byly udržovány ve stavu, který neohrožuje bezpečnost letadel. AI-based inspekční systémy interpretované podle těchto standardů musí prokazovat robustní výkonnost v celém rozsahu provozních světelných a povětrnostních podmínek specifikovaných v letištní příručce. Bez komplexní augmentace by inspekční model trénovaný výhradně na suchých poledních snímcích nedokázal detekovat trhliny zakryté stíny, mokrými místy nebo nízkým slunečním světlem — což by potenciálně vedlo k přehlédnutí vad ohrožujících brzdnou výkonnost letadel a provozní bezpečnost.
Augmentace dat působí na úrovni dat spíše než na úrovni architektury modelu, čímž se odlišuje od regularizačních technik, jako je dropout, weight decay nebo batch normalization. Zatímco regularizátory na úrovni modelu omezují kapacitu sítě k přeučení, augmentace rozšiřuje distribuci dat tak, aby úplněji pokryla reálný vstupní prostor. Oba přístupy jsou komplementární: osvědčené pipeline pro inspekci infrastruktury kombinují agresivní augmentaci s architektonickou regularizací pro maximální generalizaci.
Geometrické augmentace upravují prostorové uspořádání pixelů v obrázku, aniž by měnily jejich intenzitní hodnoty. Tyto transformace simulují změny polohy kamery, orientace, vzdálenosti a charakteristik objektivu, ke kterým dochází při reálném sběru inspekčních dat. Pro inspekci infrastruktury jsou geometrické augmentace nejdůležitější kategorií, protože inspekční platformy — UAV, pozemní vozidla, ruční kamery — snímaljí stejný povrch z velmi různých perspektiv.
Rotační augmentace aplikuje na vstupní obrázek náhodné úhlové otočení, typicky v rozsahu od −180° do +180° nebo omezené na menší rozsahy, například ±45° pro specifické aplikace. Transformovaný obrázek je generován otočením každé souřadnice pixelu (x, y) o úhel θ kolem středu obrázku pomocí standardní rotační matice:
x’ = x·cos(θ) - y·sin(θ)
y’ = x·sin(θ) + y·cos(θ)
Pro detekci trhlin na letištních dráhách a dálničních vozovkách je rotační augmentace kritická, protože orientace trhlin vůči snímku kamery je libovolná. Podélná trhlina rovnoběžná s osou dráhy může v jednom výřezu vypadat horizontálně a v jiném diagonálně, v závislosti na úhlu vybočení kamery vůči směru přistání letadla. Bez rotační augmentace se model může naučit spojovat přítomnost trhliny s určitou úhlovou orientací a selhat při detekci trhlin v jiných úhlech. Výzkum Alomar et al. (2023) ukazuje, že rotační augmentace konzistentně zlepšuje přesnost klasifikace o 3–8 procent na datasetech strukturálních vad ve srovnání s modely trénovanými bez rotace.
Optimální rozsah rotace závisí na symetrii aplikace. Pro letištní zpevněné plochy, kde se trhliny vyvíjejí v podélném i příčném směru vůči leteckému provozu, je vhodný plný rozsah ±180°. Pro inspekce mostních nosníků, kde je kamera vždy přibližně horizontální, může být dostačující užší rozsah ±15°. Rotace vytváří prázdné okrajové oblasti v rozích obrázku, které je třeba řešit jednou ze tří strategií: (1) doplnění nulami (vyplnění okrajů černou), (2) doplnění odrazem (zrcadlení okrajových pixelů) nebo (3) doplnění nejbližším sousedem. Doplnění odrazem je preferováno pro inspekci infrastruktury, protože se vyhýbá vnášení umělých tmavých okrajů, které by se model mohl naučit jako falešné rysy.
Horizontální překlopení (zrcadlení zleva doprava) a vertikální překlopení (zrcadlení shora dolů) jsou nejjednodušší geometrické augmentace, vyžadující pouze obrácení pořadí sloupců nebo řádků pixelů. Horizontální překlopení se aplikuje s 50% pravděpodobností jako výchozí nastavení ve většině augmentačních pipeline a je univerzálně přínosné, protože zdvojnásobuje efektivní velikost datové sady, přičemž je výpočetně zdarma — nevyžaduje žádnou interpolaci.
Pro inspekci infrastruktury horizontální překlopení zachovává label u většiny typů vad. Trhlina je trhlina bez ohledu na to, zda se nachází na levé nebo pravé straně obrázku. Některé vady však mají směrovou asymetrii: vydrolení (ztráta kameniva na okrajích vozovky) se vyskytuje převážně podél okraje vozovky a posuny (vertikální přemístění přes spáru) mají směrovost související se zatížením dopravou. U těchto směrových vad musí praktik ověřit, že překlopená verze zůstává platným trénovacím příkladem.
Vertikální překlopení se pro terestrickou inspekci infrastruktury používá méně často, protože převrací orientaci obrázku konzistentní s gravitací. Trhlina na vertikální betonové zdi vypadá po překlopení zásadně jinak — nicméně pro inspekci vozovek, kde kamera směřuje přímo dolů, je vertikální překlopení stejně zachovávající label jako horizontální. Pro snímky z inspekce mostů, kde kamera zachycuje vertikální povrchy (nosníky, pilíře, opěry), by mělo být upřednostněno horizontální překlopení před vertikálním.
Náhodný ořez vybírá obdélníkovou podoblast vstupního obrázku a mění její velikost na očekávané vstupní rozměry sítě. To simuluje efekt kamery umístěné v různých vzdálenostech od kontrolovaného povrchu — bližší ořezy odpovídají pohledům s vyšším rozlišením a více detaily, zatímco širší ořezy ukazují širší kontext.
Standardní augmentace náhodným ořezem vzorkuje oblast ořezu s plochou mezi min_scale a max_scale (typicky 0,08 až 1,0 původní plochy obrázku) a poměrem stran mezi min_ratio a max_ratio (typicky 0,75 až 1,33). Oříznutá oblast je poté změněna na pevnou vstupní velikost sítě, například 512×512 pixelů u typických modelů segmentace trhlin.
Pro inspekci infrastruktury slouží náhodný ořez dvojímu účelu. Zaprvé zvyšuje polohovou rozmanitost — model trénovaný pouze na celosnímkových obrázcích by se mohl naučit spojovat vady s jejich polohou v rámci snímku a selhat, když se stejná vada objeví v jiné oblasti snímku. Zadruhé, ořez se změnou velikosti simuluje různé inspekční výšky a úrovně přiblížení, což je kritické pro UAV-based inspekci, kde se letová výška pohybuje mezi 10 a 50 metry v závislosti na předpisech a požadavcích průzkumu. ICAO Doc 9137, Part 9 (Postupy údržby letišť) a ICAO Doc 9981 (PANS-Aerodromes) se zabývají inspekčními metodami, které mohou zahrnovat sběr dat z vozidel nebo ručních zařízení, přičemž každá přináší různá zorná pole. Náhodný ořez během tréninku zajišťuje, že model generalizuje napříč těmito způsoby snímání.
Perspektivní transformace (také nazývané perspektivní deformace nebo homografické augmentace) aplikují na obrázek projektivní zobrazení, čímž simulují efekt naklonění roviny kamery vůči kontrolovanému povrchu. To je matematicky reprezentováno 3×3 homografickou maticí, která mapuje body z jedné roviny do druhé.
Pro inspekci infrastruktury je perspektivní augmentace jedinečně důležitá, protože reálné inspekční snímky jsou zřídka pořízeny z dokonale ortogonálního (nadir) pohledu. Kamery namontované na vozidlech snímají vozovku pod mírným dopředným úhlem. UAV kamery mohou mít úhly náklonu 5–20 stupňů při manévrování dronu. Ruční inspekční kamery se naklánějí v závislosti na výšce a poloze paží inspektora. Trhlina, která z nadir pohledu vypadá lineárně a konzistentně, se z šikmého úhlu jeví jako zkrácená a geometricky deformovaná. Perspektivní augmentace trénuje model rozpoznávat vady bez ohledu na úhel snímání.
Míra perspektivního zkreslení je řízena parametrem distortion scale, typicky nastaveným mezi 0,05 a 0,3 v normalizovaných souřadnicích. Vyšší hodnoty simulují extrémnější náklony kamery. Pro letištní inspekci se doporučuje perspektivní měřítko 0,1–0,2, odpovídající úhlům náklonu kamery přibližně 5–15 stupňů od nadiru.
Afinní transformace kombinují změnu měřítka, zkosení, rotaci a posun do jediné 2×3 maticové operace. Na rozdíl od perspektivních transformací zachovávají afinní transformace rovnoběžnost — rovnoběžné přímky zůstávají po transformaci rovnoběžné. Operaci lze vyjádřit jako:
[x’, y’]² = A · [x, y]² + b
kde A je 2×2 matice řídící rotaci, změnu měřítka a zkosení a b je vektor posunu.
Pro inspekci infrastruktury zahrnuje běžná konfigurace afinní augmentace: posun (±10 procent rozměrů obrázku, simulace nesouososti snímku), změnu měřítka (0,8× až 1,2×, simulace změny výšky), zkosení (±10 stupňů, simulace náklonu kamery) a rotaci (±15 stupňů). Kombinovaný efekt vytváří obrázky, které realisticky simulují polohovou a orientační variabilitu sběru inspekčních dat, aniž by vyžadovaly extrémní deformace, které by mohly vnést nerealistické artefakty.
| Typ augmentace | Typický rozsah | Aplikace pro infrastrukturu |
|---|---|---|
| Rotace | ±45° až ±180° | Simuluje různé úhly vybočení kamery vůči orientaci trhliny |
| Horizontální překlopení | 50% pravděpodobnost | Zdvojnásobuje datovou sadu; invariantní pro většinu vad |
| Vertikální překlopení | 50% pravděpodobnost | Užitečné pro nadir snímky vozovek |
| Náhodný ořez | měřítko 0,08–1,0, poměr stran 0,75–1,33 | Simuluje různé inspekční výšky a úrovně přiblížení |
| Perspektiva | distortion scale 0,05–0,3 | Simuluje nenadirové úhly náklonu kamery |
| Afinní (měřítko) | 0,8×–1,2× | Simuluje změnu výšky UAV platforem |
| Afinní (zkosení) | ±5° až ±15° | Simuluje náklon a sklon kamery |
| Afinní (posun) | ±5 % až ±15 % | Simuluje změnu polohy snímku |
| Afinní (rotace) | ±10° až ±30° | Kombinováno s dalšími afinními parametry |
{
Barevné a fotometrické augmentace upravují hodnoty intenzity pixelů v obrázku, aniž by měnily prostorové uspořádání objektů. Tyto transformace simulují variace světelných podmínek — nejvýznamnějšího zdroje reálné variability v obrazech inspekce infrastruktury.
Augmentace jasu lineárně posouvá všechny hodnoty pixelů přičtením konstantního offsetu: I’ = I + δ, kde δ je rovnoměrně vzorkováno z rozsahu, například [−30, +30] na stupnici 0–255. To simuluje rozdíl mezi poledním slunečním světlem (vysoký jas) a zataženou oblohou nebo časnými ranními inspekčními podmínkami (nízký jas). Augmentace kontrastu škáluje hodnoty pixelů kolem průměrné intenzity: I’ = α(I − μ) + μ, kde α je vzorkováno z rozsahu, například [0,7; 1,3]. Nižší hodnoty kontrastu simulují mlhavé nebo zamlžené podmínky; vyšší hodnoty simulují ostré přímé sluneční světlo vytvářející silné stíny.
Pro inspekci infrastruktury je doporučený rozsah jasu ±40 procent pro pokrytí celého spektra provozních světelných podmínek specifikovaných v plánech letištního osvětlení dle ICAO Annex 14, Chapter 5 (Vizuální pomůcky pro navigaci). Osvětlení okrajů drah, přibližovací osvětlení a osvětlení odbavovací plochy vytvářejí různé úrovně okolního osvětlení, se kterými si musí inspekční model poradit.
Posun odstínu otáčí všechny barvy pixelů v HSV (Hue, Saturation, Value) barevném prostoru o náhodný úhel, typicky ±30° z 360° barevného kruhu. Úprava sytosti násobí kanál sytosti náhodným faktorem (typicky 0,5 až 1,5). Tyto augmentace simulují efekt různých podmínek povrchu vozovky — suchý asfalt má nižší sytost než mokrý asfalt, starý beton se liší odstínem od nového betonu a gumové pneumatiky vytvářejí výrazné barevné artefakty v dotykových zónách drah.
Pro detekci trhlin na asfaltových vozovkách je augmentace odstínu obzvláště užitečná, protože kontrast mezi tmavou trhlinou a okolní vozovkou se mění s povrchovou vlhkostí. Suchá jemná trhlina může mít minimální barevný kontrast vůči suchému asfaltu, zatímco stejná trhlina naplněná vodou po dešti vypadá jako jasně definovaná tmavá linie. Modely trénované s augmentací odstínu a sytosti se učí detekovat trhliny v tomto rozsahu kontrastu způsobeném vlhkostí.
Barevný jitter je složená augmentace, která náhodně upravuje jas, kontrast, sytost a odstín současně. Standardní implementace vzorkuje každý parametr nezávisle: faktor jasu v [1−δ_b, 1+δ_b], faktor kontrastu v [1−δ_c, 1+δ_c], faktor sytosti v [1−δ_s, 1+δ_s] a rotaci odstínu v [−δ_h, +δ_h]. Pro inspekci infrastruktury jsou doporučené rozsahy δ_b=0,3, δ_c=0,3, δ_s=0,2 a δ_h=0,1.
Barevný jitter je vysoce účinný regularizátor pro modely detekce vad. Výzkum klasifikace trhlin ve vozovkách ukazuje, že modely trénované s komplexním barevným jitterem zlepšují validační přesnost o 5–12 procent ve srovnání s modely trénovanými pouze s geometrickými augmentacemi. Efekt je nejvýraznější u jemných trhlin (< 2 mm šířka), kde je kontrast mezi trhlinou a vozovkou již nízký a další variace osvětlení v tréninku nutí model učit se rysy založené na hranách namísto barev.
Augmentace převodem do odstínů šedi převádí náhodnou podmnožinu trénovacích obrázků na jednokanálovou luminanci, čímž odstraňuje všechny barevné informace. Aplikuje se s nízkou pravděpodobností (typicky 5–10 procent), aby se zajistilo, že model není příliš závislý na barevných podnětech, které nemusí být přítomny ve všech inspekčních podmínkách. Pro inspekci infrastruktury je převod do odstínů šedi obzvláště cenný pro termální a blízké infračervené inspekční modality, kde barevné snímky nejsou k dispozici.
Při inferenci si model trénovaný s občasnými obrázky v odstínech šedi během tréninku dokáže elegantně poradit s monochromatickými nebo téměř monochromatickými vstupy bez nutnosti replikace kanálů nebo předzpracování. To je důležité pro interoperabilitu se staršími inspekčními kamerovými systémy, které mohou snímat v režimu odstínů šedi, nebo pro analýzu historických inspekčních snímků pořízených předtím, než se digitální barevné kamery staly standardem.
Augmentace šumem a rozmazáním simulují degradaci kvality obrazu, ke které dochází při reálném sběru inspekčních dat v důsledku omezení senzoru, pohybu, chyb zaostření a nepříznivých environmentálních podmínek.
Augmentace Gaussovským šumem přidává náhodné perturbace hodnot pixelů vzorkované z normálního rozdělení N(0, σ²) ke každému pixelu nezávisle. Směrodatná odchylka šumu σ je typicky nastavena mezi 0,01 a 0,05 pro normalizované hodnoty pixelů (rozsah 0–1). To simuluje šum výstřelu přítomný ve všech senzorech digitálních kamer, který se zvyšuje při vyšších nastaveních ISO používaných za špatných světelných podmínek.
Přidávání Gaussovského šumu během tréninku nutí konvoluční filtry modelu reagovat na základní strukturální vzor vady spíše než na vysokofrekvenční artefakty na úrovni pixelů, které nejsou reprodukovatelné napříč snímky. Modely trénované s augmentací šumu jsou robustnější vůči rozdílům v kvalitě senzorů mezi inspekčními kamerami — stejná vada zachycená 12megapixelovým telefonem a 50megapixelovou DSLR bude vypadat odlišně pro model netrénovaný na zašuměných obrázcích.
Augmentace Gaussovským rozmazáním konvoluje obrázek s Gaussovským jádrem o velikosti k×k a směrodatné odchylce σ. To simuluje několik reálných podmínek: nezaostřený snímek (kamera nedosáhla dokonalého zaostření na povrch vozovky), pohybové rozmazání (inspekční vozidlo se pohybovalo při snímání), atmosférický opar (vodní pára nebo částice ve vzduchu rozptylují světlo a snižují ostrost obrazu) a nedokonalosti objektivu (prach nebo kondenzace na čočce kamery).
Pro inspekci infrastruktury jsou doporučené parametry Gaussovského rozmazání k ∈ {3, 5, 7} a σ ∈ {0,5; 1,0; 2,0} aplikované s 20–30% pravděpodobností. Tento rozsah pokrývá střední až výrazné rozmazání, aniž by byl obrázek nepoznatelný. Pohybové rozmazání lze alternativně simulovat pomocí směrového rozmazávacího jádra, které rozmazává pixely v určitém směru — to je realističtější pro kamery namontované na vozidlech, kde směr rozmazání odpovídá trajektorii vozidla.
Význam augmentace rozmazáním je zřejmý při zvažování rychlosti inspekce. Inspekční vozidlo jedoucí rychlostí 50 km/h snímá obrázky s přibližně 3–5 pixely pohybového rozmazání při typických rychlostech závěrky. Inspekční dron pohybující se rychlostí 10 m/s s kamerou stabilizovanou gimbalem může mít 1–3 pixely rozmazání. Trénink s augmentací rozmazáním zajišťuje spolehlivý výkon modelu napříč těmito rychlostmi snímání, aniž by inspekční operátor musel zpomalovat kvůli přesnosti modelu.
Random Erasing a Cutout jsou regularizačně zaměřené augmentace, které náhodně zakrývají obdélníkové oblasti vstupního obrázku. U Cutoutu je čtvercová záplata o délce strany s (typicky 16–64 pixelů u obrázků 256×256) náhodně umístěna a vyplněna konstantní hodnotou (obvykle nulou nebo průměrnou hodnotou pixelu datové sady). Random Erasing mění poměr stran a hodnotu výplně zakryté oblasti.
Pro inspekci infrastruktury tyto augmentace simulují zakrytí cizími předměty (FOD) na letištních zpevněných plochách — kritický bezpečnostní problém dle standardů ICAO Annex 14. FOD zahrnuje uvolněné kameny, fragmenty pneumatik, visačky na zavazadla, nástroje a další nečistoty, které částečně zakrývají povrch vozovky. Model trénovaný s augmentací Cutout se učí detekovat vady, i když jsou části vady nebo okolní vozovky skryty zakrývajícími objekty. To přímo zlepšuje schopnost modelu identifikovat trhliny a vady viditelné v mezerách mezi nečistotami nebo stopami pneumatik na povrchu dráhy.
Doménově specifické augmentace jsou transformace přizpůsobené jedinečným vizuálním charakteristikám obrazů inspekce infrastruktury. Tyto augmentace jdou nad rámec obecných transformací počítačového vidění a simulují specifické environmentální a provozní podmínky, se kterými se inspekční kamery setkávají.
Stíny na površích infrastruktury jsou vrhány širokou škálou objektů: mostními konstrukcemi, portály značení, hangáry, terminálovými budovami, sousedními letadly, obvodovým oplocením a dokonce i samotným inspekčním vozidlem nebo UAV. Stíny vytvářejí prudké lokální snížení osvětlení, které může zakrýt trhliny, změnit zdánlivou texturu vozovky a vytvářet falešně pozitivní detekce hran na hranicích stínů.
Stínová augmentace to simuluje ztmavením náhodné oblasti obrázku pomocí měkké masky. Maska je typicky polygon s rozmazanými okraji (Gaussovské rozmazání masky s σ=10–30 pixelů), který plynule přechází z plného osvětlení na úroveň tmy stínu. Faktor tmavosti stínu je vzorkován mezi 0,2 a 0,6 (kde 0,0 je černá a 1,0 je nezměněno). Poloha, tvar a orientace stínu jsou randomizovány, aby se zabránilo tomu, že si model spojí vzory stínů s konkrétními oblastmi obrázku.
Pro inspekci mostů je simulace stínů kritická, protože mostní nosníky, diafragmy a převisy mostovky vytvářejí složité vzory stínů, které se během dne mění s úhlem slunce. FHWA standardy pro inspekci mostů vyžadují, aby hodnocení stavu bylo konzistentní bez ohledu na to, kdy inspekce probíhá. Modely augmentované stíny udržují tuto konzistenci a poskytují přesnou detekci vad, ať už je most kontrolován v 9:00 (dlouhé stíny) nebo ve 12:00 (minimální stíny).
Mokrý povrch dramaticky mění vizuální vzhled povrchových vad. Voda vyplňuje trhliny a dutiny, ztmavuje je a zvyšuje jejich vizuální kontrast vůči okolní vozovce. Zároveň voda vytváří zrcadlové odrazy, které vnášejí jasné světla, zejména na hladkých asfaltových površích. Kaluže a stojatá voda mohou zcela zakrýt podkladové vady.
Dešťová augmentace simuluje tyto efekty několika mechanismy:
Vrstva vodního filmu — Přidání průsvitného modro-šedého překrytí na náhodné oblasti obrázku s neprůhledností 0,1–0,3 pro simulaci tenkých vodních filmů. Generování zrcadlových odlesků — Přidání jasných eliptických nebo nepravidelných skvrn s vysokými hodnotami luminance (200–250 na stupnici 0–255) pro simulaci odrazu slunečního světla od vodních hladin. Vrstva dešťových pruhů — Přidání směrových pruhových vzorů pro simulaci deště padajícího během snímání. Hustota pruhů, délka (10–50 pixelů) a úhel (typicky 0–30° od svislice, v závislosti na větru) jsou randomizovány.
Pro inspekci letištních zpevněných ploch je augmentace mokré dráhy vyžadována provozním realismem. ICAO Annex 14 a FAA AC 150/5320-5D vyžadují, aby hodnocení stavu povrchu dráhy zohledňovalo vliv vody na tření a viditelnost vad. Inspekční model nasazený v regionu se 100+ dny s ročními srážkami musí přesně fungovat za mokrých podmínek. Trénink s augmentacemi deště a vodního filmu tuto schopnost zajišťuje.
Textura povrchu vozovky se významně liší napříč:
Augmentace variace textury povrchu aplikuje lokální zvýšení kontrastu, lokální ekvalizaci a syntézu textury pro simulaci těchto variací. Pokročilé implementace používají stylový přenos nebo CycleGAN-based doménovou adaptaci k transformaci obrázků mezi texturními doménami — například vezmou obrázek trhliny z nového asfaltu a vygenerují verzi, která vypadá jako starý, zvětralý asfalt.
Výzkum Krestenitis et al. (2026) o inspekci drah pomocí UAV snímků ukazuje, že modely augmentované variací textury povrchu dosahují o 15–20 procent vyšší segmentační IoU (Intersection over Union) na texturně různorodých testovacích sadách ve srovnání s modely trénovanými výhradně na původní texturní doméně. To je obzvláště důležité pro letištní sítě zpevněných ploch, které mohou zahrnovat dráhy, pojezdové dráhy a odbavovací plochy postavené z různých materiálů a v různých časech.
{
Augmentační politika definuje které transformace se aplikují, v jakém pořadí, s jakou pravděpodobností a v jaké velikosti během tréninku. Volba politiky významně ovlivňuje výkonnost modelu. Existují tři široké kategorie: manuální politiky, prohledávané politiky a náhodné politiky.
Manuální politiky jsou ručně vytvořené praktiky na základě doménových znalostí a empirického testování. Pro inspekci infrastruktury by typická manuální politika mohla aplikovat následující sekvenci v každém tréninkovém kroku:
Manuální politiky jsou transparentní, interpretovatelné a výpočetně rychlé — nevyžadují žádné prohledávání ani validaci. Nevýhodou je, že nemusí být optimální a mohou postrádat přínosné kombinace augmentací.
AutoAugment, představený Cubuk et al. (2019) v Google Brain, používá zpětnovazební učení k prohledávání optimálních augmentačních politik. Proces prohledávání funguje následovně:
RNN controller navrhuje augmentační politiky, každá sestávající z K dílčích politik (typicky K=5), kde každá dílčí politika specifikuje 2 operace s jejich velikostmi a pravděpodobnostmi. Politika je aplikována na trénovací datovou sadu a podřízený model je trénován a vyhodnocen na validační sadě. Validační přesnost slouží jako signál odměny pro RNN controller, který je aktualizován pomocí Proximal Policy Optimization (PPO) k vytváření lepších politik. Prohledávání typicky vyžaduje 15 000 až 20 000 GPU-hodin pro datové sady velikosti ImageNet.
AutoAugment objevuje neintuitivní politiky, které často překonávají manuální návrhy. Například politika ImageNet zjistila, že ShearX/Y a Rotate s vysokou pravděpodobností a mírnou velikostí jsou vysoce účinné, zatímco Equalize a Solarize (inverze hodnot pixelů nad prahem) zlepšují barevnou robustnost. Objevené politiky se přenášejí mezi datovými sadami podobných vizuálních domén — politika nalezená na obecné datové sadě vozovek může být aplikována na specifickou datovou sadu letištních drah s dobrými výsledky.
RandAugment, představený Cubuk et al. (2020), řeší výpočetní náklady AutoAugmentu úplným odstraněním procesu prohledávání. Politika je definována pouze dvěma parametry: N (počet transformací aplikovaných na jeden obrázek) a M (globální parametr velikosti pro všechny transformace).
V každém tréninkovém kroku RandAugment náhodně vybírá N transformací z pevné sady K operací (typicky K=14–17, zahrnující rotaci, zkosení, posun, kontrast, jas, ostrost, solarizaci, ekvalizaci, autokontrast, posterizaci, barvu a identitu). Vybrané operace jsou aplikovány sekvenčně s velikostí M. Jednoduchost tohoto přístupu znamená žádné prohledávání, žádnou validační sadu během tréninku a minimální ladění hyperparametrů.
Pro inspekci infrastruktury slouží RandAugment s N=2 a M=10 (na stupnici velikosti 0–30) jako vynikající výchozí konfigurace. Vyšší hodnoty N (3–4) a M (15–20) poskytují silnější regularizaci pro větší modely nebo menší datové sady. Výzkum benchmarků klasifikace trhlin ve vozovkách ukazuje, že RandAugment dosahuje srovnatelného nebo lepšího výkonu než AutoAugment, přičemž redukuje prostor prohledávání hyperparametrů z tisíců GPU-hodin na jediné 2D gridové prohledávání N a M.
| Politika | Náklady na prohledávání | Parametry | Vhodnost pro infrastrukturu |
|---|---|---|---|
| Manuální | Nulové | Plná kontrola na operaci | Dobrá pro doménově specifické potřeby |
| AutoAugment | 15 000+ GPU-hodin | Politika nalezená RL | Lepší výkon, vysoké náklady |
| RandAugment | Zanedbatelné | N (int), M (float) | Výborná, praktická výchozí |
| TrivialAugment | Zanedbatelné | Jeden parametr síly | Velmi jednoduchá, konkurenceschopná |
| Fast AutoAugment | ~100 GPU-hodin | Porovnávání hustoty | Dobrý kompromis |
Detekce trhlin — úloha identifikace a lokalizace trhlin v površích infrastruktury — je nejvíce studovanou aplikací augmentace dat v oblasti inspekce infrastruktury. Trhliny představují jedinečné výzvy, díky nimž je augmentace obzvláště účinná.
Trhliny v betonových a asfaltových površích vykazují následující vlastnosti relevantní pro návrh augmentace:
Vysoký poměr stran — Trhliny jsou dlouhé a úzké, s poměrem šířky k délce často přesahujícím 1:100. To znamená, že geometrické augmentace, které silně deformují poměr stran (extrémní zkosení, nečtvercové ořezy), mohou učinit trhliny nerozpoznatelnými. Zachování linearity — Většina strukturálních trhlin sleduje přibližně lineární nebo mírně zakřivené dráhy, ačkoli aligátorové trhliny tvoří propojené polygonální sítě. Augmentace, které narušují lineární kontinuitu (náhodné vymazání středu trhliny, agresivní JPEG komprese), mohou zničit signaturu trhliny. Nízký kontrast — Jemné trhliny (vlasové trhliny pod 0,3 mm šířky) mají minimální kontrast vůči okolní vozovce — často pouze 5–15 úrovní šedi na 8bitovém obrázku. Barevné augmentace musí být aplikovány opatrně, aby nedošlo k vymazání tohoto již tak slabého signálu. Závislost na textuře — Trhliny jsou detekovány jako anomálie vůči textuře pozadí vozovky. Augmentace, které homogenizují texturu (nadměrné rozmazání, silná ekvalizace), mohou učinit trhliny nerozlišitelnými od intaktní vozovky.
Na základě publikovaného výzkumu a empirického testování na datasetech letištních zpevněných ploch je pro modely detekce trhlin doporučena následující pipeline:
Fáze 1 — Geometrické jádro: Horizontální překlopení (50 %), náhodná rotace ±45° (30 %), náhodný ořez na 80–95 % se změnou velikosti (vždy). Tyto augmentace jsou vždy aplikovány, protože orientace a poloha trhliny jsou rušivé proměnné.
Fáze 2 — Simulace osvětlení: Barevný jitter s jasem ±0,3, kontrastem ±0,3, sytostí ±0,2, odstínem ±0,1 (50% pravděpodobnost). To simuluje celý rozsah provozních světelných podmínek.
Fáze 3 — Simulace kvality: Gaussovské rozmazání σ=0,5–2,0 (25% pravděpodobnost), Gaussovský šum σ=0,01–0,03 (15% pravděpodobnost). To simuluje variabilitu kvality snímání.
Fáze 4 — Simulace prostředí: Překrytí stínu náhodnou polygonální maskou (20% pravděpodobnost), simulace mokrého povrchu se zvýšenou sytostí a zrcadlovými odlesky (15% pravděpodobnost). To simuluje terénní podmínky.
Fáze 5 — Regularizace: Cutout s velikostí záplaty 16–32 pixelů (10% pravděpodobnost). To zabraňuje přeučení na specifické oblasti obrázku.
Tato pipeline zachovává platnost labelu — trhlina zůstává trhlinou po všech transformacích — a zároveň vystavuje model extrémní variabilitě vzhledu.
Klasifikace vad — přiřazení kategorického labelu výřezu obrázku (např. „trhlina", „vydrolení", „zvětrávání", „intaktní") — má odlišné požadavky na augmentaci než segmentace na úrovni pixelů.
Datové sady vad infrastruktury jsou ze své podstaty silně nevyvážené. Intaktní vozovka dominuje každé datové sadě, zatímco jednotlivé třídy vad mohou mít jen stovky příkladů. Augmentace dat řeší tuto nevyváženost pomocí třídně uvědomělé augmentace: aplikací agresivnějších nebo početnějších transformací na nedostatečně zastoupené třídy za účelem zvýšení jejich reprezentace v každé tréninkové dávce.
Například pokud trénovací datová sada obsahuje 10 000 intaktních obrázků, 500 obrázků trhlin a 200 obrázků vydrolení, může být augmentační pipeline nakonfigurována tak, aby aplikovala 5 náhodně vzorkovaných augmentací na každý obrázek vydrolení (generování 5×200 = 1 000 efektivních příkladů vydrolení na epochu) a zároveň aplikovala pouze 1 augmentaci na každý intaktní obrázek. Tato třídně uvědomělá augmentační strategie zlepšuje citlivost klasifikátoru na vzácné typy vad bez nutnosti dodatečného sběru dat.
Pro klasifikaci je zásadní, aby augmentace byly zachovávající label — transformovaný obrázek musí stále patřit do původní třídy. Některé transformace mohou změnit label:
Pro klasifikaci musí být velikost augmentace kalibrována na minimální detekovatelnou velikost rysu každé třídy vady. U vlasových trhlin (minimální šířka ~0,2 mm při rozlišení snímání) by mělo být rozmazání přesahující σ=2,0 a rotace nad ±60° aplikovány se sníženou pravděpodobností nebo vyloučeny.
Povrchy infrastruktury často vykazují více souběžných typů vad — vydrolená oblast může obsahovat trhliny nebo zvětralé místo může mít selhání těsnění spár. Pro více-labelovou klasifikaci musí být augmentace konzistentní napříč všemi labely pro daný obrázek. Stejná geometrická transformace aplikovaná na obrázek se aplikuje na všechny labely současně. Barevné a šumové transformace jsou ze své podstaty zachovávající label pro více-labelovou klasifikaci, protože nemění přítomnost ani nepřítomnost žádného typu vady.
Vztah mezi augmentací dat a přeučením je zásadní pro pochopení role augmentace v hlubokém učení.
K přeučení dochází, když je model s vysokou kapacitou (mnoha trénovatelnými parametry) trénován na datové sadě s nedostatečnou velikostí nebo rozmanitostí. Model se neučí obecné vzory třídy vady, ale specifická uspořádání pixelů, textury a artefakty trénovacích příkladů. Matematicky se přeučení projevuje jako učení degenerovaného zobrazení ze vstupu na výstup, které minimalizuje trénovací ztrátu, ale nedokáže minimalizovat očekávanou ztrátu na skutečné distribuci dat.
U modelů inspekce infrastruktury se přeučení typicky objevuje po 50–100 tréninkových epochách. Trénovací přesnost nadále stoupá ke 100 procentům, zatímco validační přesnost stagnuje a poté klesá. Rozdíl mezi trénovací a validační přesností — generalizační mezera — se postupně zvětšuje. Bez augmentace vykazuje ResNet-50 trénovaný na 2 000 obrázcích trhlin typicky generalizační mezeru 15–25 procent. S komplexní augmentací lze tuto mezeru snížit na 3–5 procent nebo méně.
Klíčovým mechanismem, kterým augmentace zabraňuje přeučení, je zvýšení efektivní velikosti trénovací sady. S augmentací aplikovanou za běhu během tréninku je každý obrázek transformován odlišně v každé epoše. Trénovací datová sada 5 000 obrázků s augmentační politikou, která aplikuje 3 náhodné transformace z množiny 10 operací, každou s 5 možnými velikostmi, generuje 5 000 × 10³ × 5³ ≈ 6,25 milionu odlišných trénovacích příkladů za 100 epoch.
Tato expanze efektivní datové sady je obzvláště cenná pro inspekci infrastruktury, protože:
Augmentace dat funguje jako regularizátor ve statistickém smyslu učení. Rozšířením trénovací distribuce augmentace snižuje schopnost modelu přizpůsobit se šumu v původní datové sadě. Rozptyl naučených parametrů klesá, protože model musí splňovat omezení z mnohem většího počtu efektivně nezávislých trénovacích příkladů.
Síla regularizace augmentace je řízena:
U modelů inspekce infrastruktury je optimální rovnováha regularizace a augmentace nalezena sledováním trajektorie validační ztráty. Pokud validační ztráta roste, zatímco trénovací ztráta nadále klesá (přeučení), měla by být zvýšena velikost nebo pravděpodobnost augmentace. Pokud jsou jak trénovací, tak validační ztráta vysoké (nedostatečné učení), měla by být augmentace snížena, aby se model mohl více učit ze surových trénovacích dat.
Implementace augmentace dat v produkční tréninkové pipeline vyžaduje pečlivá architektonická rozhodnutí o tom, kdy, kde a jak jsou augmentace aplikovány.
Offline augmentace předgenerovává augmentované obrázky a ukládá je na disk před zahájením tréninku. Augmentovaná datová sada může obsahovat 50 000 obrázků odvozených z 5 000 originálů prostřednictvím 10 pevných augmentací na obrázek. Trénink pak probíhá na této pevné augmentované datové sadě.
Online augmentace aplikuje transformace za běhu během tréninku, přičemž každý obrázek je načten z disku, náhodně augmentován a okamžitě předán modelu. Žádné augmentované obrázky nejsou trvale ukládány.
Online augmentace je standardním přístupem pro produkční pipeline inspekce infrastruktury, protože:
Výpočetní náklady online augmentace jsou minimální — moderní GPU-akcelerované augmentační knihovny (NVIDIA DALI, Kornia nebo PyTorch’s torchvision) aplikují transformace v mikrosekundách na obrázek, což typicky představuje méně než 5 procent celkového času tréninku, když je načítání dat pipelineováno s GPU prováděním.
Volba augmentační knihovny ovlivňuje výkonnost pipeline, flexibilitu a udržovatelnost:
Albumentations je nejpoužívanější knihovnou pro inspekci infrastruktury díky své rychlosti (optimalizované C++ backend přes OpenCV), komplexní sadě operací (70+ transformací) a nativní podpoře duální augmentace pro segmentační masky. Albumentations zajišťuje, že jakákoli geometrická transformace aplikovaná na obrázek je identicky aplikována na masku, čímž je zachována zarovnání na úrovni pixelů mezi vstupem a ground truth.
NVIDIA DALI poskytuje GPU-akcelerované pipeline pro načítání dat a augmentaci, které mohou zpracovávat obrázky zcela na GPU, čímž se vyhýbají úzkým hrdlům přenosu CPU-GPU. DALI je doporučen pro velmi velké trénovací datové sady (10 000+ obrázků), kde doba načítání dat dominuje času tréninku.
torchvision.transforms (PyTorch) a tf.image (TensorFlow) poskytují vestavěné augmentační schopnosti s dobrou integrací do svých příslušných frameworků, ale mají méně doménově specifických transformací (simulace stínů, perspektiva, random erasing) než Albumentations.
V produkční tréninkové pipeline je augmentace integrována následovně:
[Načítání obrázků] → [Náhodný výběr] → [Augmentační sekvence] → [Normalizace] → [Náhodný výběr dávek] → [Dopředný průchod modelem]
Náhodný výběr rozhoduje, zda je každá augmentace v politice aplikována (na základě jejího parametru pravděpodobnosti) a jakou má velikost. Augmentační sekvence aplikuje transformace v pevném pořadí: typicky nejprve geometrické (ořez, překlopení, rotace, perspektiva), poté fotometrické (barevný jitter, jas, kontrast), pak šum a rozmazání (Gaussovský šum, Gaussovské rozmazání), poté doménově specifické (stíny, déšť) a nakonec regularizace (Cutout).
Během validace a inference je augmentace omezena na minimum nezbytných transformací: typicky pouze ořez na střed (nebo změna velikosti) a normalizace. Během vyhodnocování nejsou aplikovány žádné náhodné transformace, aby byly zajištěny deterministické, reprodukovatelné výsledky.
Produkční tréninkové pipeline by měly logovat statistiky augmentace pro sledování jejich vlivu na dynamiku tréninku:
Tyto monitorovací metriky zajišťují, že augmentace dosahuje svého zamýšleného efektu — rozšiřuje trénovací distribuci, aniž by vnášela artefakty nebo zkreslení, která by degradovala výkon v reálném světě.
Obrázek ukazující mřížku augmentací betonových trhlin demonstruje praktický výstup augmentační pipeline: stejný původní obrázek trhliny je transformován do 12+ odlišných trénovacích příkladů prostřednictvím rotace, překlopení, ořezu, úpravy barev a rozmazání. Každá augmentovaná verze zachovává label trhliny a zároveň ji prezentuje ve vizuálně odlišném kontextu, čímž učí model detekovat trhliny bez ohledu na orientaci, osvětlení nebo kvalitu obrazu.
{
TarmacView využívá pokročilé augmentační pipeline pro trénování modelů inspekce infrastruktury, které generalizují napříč světelnými, povětrnostními a povrchovými podmínkami. Optimalizujte trénink svého modelu pro detekci vad pomocí doménově specifických augmentačních strategií přizpůsobených pro letištní zpevněné plochy a betonové konstrukce.
Fúze dat je systematický proces integrace informací z více zdrojů – jako jsou senzory, databáze a záznamy – za účelem vytvoření bohatších, přesnějších a akcesch...
+++ title = “Adaptace domény” description = “Adaptace domény přizpůsobuje modely strojového učení natrénované na zdrojové doméně — například n...
Detekce trhlin na bázi AI využívá počítačové vidění — konvoluční neuronové sítě, vision transformery a modely sémantické segmentace — k automatické identifikaci...