Rozšírenie údajov

{

Povrch betónovej dráhy s viditeľnými trhlinami a značením poškodenia vozovky zachytený z perspektívy dronu počas kontroly infraštruktúry

Definícia a účel

Rozšírenie údajov je trénovacia metodika, ktorá synteticky zväčšuje veľkosť a rôznorodosť označeného datasetu aplikáciou kontrolovaných, label-zachovávajúcich transformácií na existujúce vzorky údajov. V aplikáciách počítačového videnia to znamená zobrať každý originálny obrázok a vygenerovať viacero modifikovaných verzií prostredníctvom geometrickej deformácie, manipulácie s farebným priestorom, vnášania šumu alebo zložitejších generatívnych procesov. Augmentovaný dataset — pôvodné obrázky plus ich transformované varianty — sa potom používa na trénovanie hlbokých neurónových sietí, čím sa model vystavuje oveľa širšiemu spektru vizuálnych podmienok, než by poskytli samotné surové terénne dáta.

Hlavným účelom rozšírenia údajov je zlepšenie generalizácie modelu — schopnosti trénovaného modelu presne fungovať na údajoch, ktoré nikdy predtým nevidel. Hlboká konvolučná neurónová sieť (CNN) s miliónmi parametrov si môže ľahko zapamätať trénovací dataset pozostávajúci z niekoľko tisíc obrázkov, pričom sa naučí konkrétne textúry, vzory osvetlenia a artefakty pozadia týchto príkladov namiesto základných signálov defektov. Tento jav, známy ako preučenie, vedie k vysokej trénovacej presnosti, ale slabej validačnej a testovacej výkonnosti. Rozšírenie údajov zabraňuje preučeniu tým, že zabezpečuje, aby každá trénovacia epocha predkladala modelu rôzne transformované verzie každého obrázku, čím je čisté zapamätávanie nemožné. Model je nútený učiť sa invariantné vlastnosti — vizuálne vzory, ktoré pretrvávajú naprieč transformáciami.

Pre modely kontroly infraštruktúry nie je rozšírenie údajov len prospešné, ale prevádzkovo nevyhnutné. Zvážte realitu zberu údajov pri kontrole letiskových vozoviek: jediný prieskum dráhy pomocou kamery namontovanej na UAV môže zachytiť 10 000 vysoko rozlíšených snímok, ale menej ako 200 z nich môže obsahovať viditeľné defekty. Trhliny, vydrolenia, poruchy tesnenia spojov a povrchové zvetrávanie spolu tvoria menej ako 1 percento celkovej plochy vozovky v danom čase. Zber vyváženého, rôznorodého datasetu defektov za všetkých možných inšpekčných podmienok — priame slnečné svetlo, zamračené, úsvit, mokrý povrch, suchý povrch, rôzne uhly kamery, rôzne výšky — by bol neúmerne nákladný a časovo náročný. Rozšírenie údajov prekonáva túto prekážku simuláciou celého spektra prevádzkových podmienok z oveľa menšieho súboru terénnych príkladov.

Dôležitosť augmentácie je formálne uznaná naprieč normami letiskovej infraštruktúry. ICAO Annex 14, Volume I (Letiskový dizajn a prevádzka) vyžaduje, aby povrchy dráh boli udržiavané v stave, ktorý neohrozuje prevádzku lietadiel. AI systémy kontroly interpretované podľa týchto noriem musia preukázať robustnú výkonnosť v celom rozsahu prevádzkových svetelných a poveternostných podmienok špecifikovaných v letiskovej príručke. Bez komplexnej augmentácie by model kontroly trénovaný výlučne na suchých poludňajších záberoch zlyhal pri detekcii trhlín skrytých tieňmi, mokrými miestami alebo nízkym uhlom slnka — čo by potenciálne viedlo k prehliadnutiu defektov ohrozujúcich brzdnú výkonnosť a prevádzkovú bezpečnosť lietadiel.

Rozšírenie údajov pôsobí na úrovni údajov a nie na úrovni architektúry modelu, čím sa odlišuje od regularizačných techník ako dropout, weight decay alebo batch normalizácia. Zatiaľ čo regularizátory na úrovni modelu obmedzujú kapacitu siete na preučenie, augmentácia rozširuje distribúciu údajov tak, aby úplnejšie pokrývala reálny vstupný priestor. Oba prístupy sú komplementárne: najlepšia prax v pipeline kontroly infraštruktúry kombinuje agresívnu augmentáciu s architektonickou regularizáciou pre maximálnu generalizáciu.

Geometrické augmentácie

Geometrické augmentácie menia priestorové usporiadanie pixelov v obraze bez zmeny ich intenzitných hodnôt. Tieto transformácie simulujú zmeny v polohe kamery, orientácii, vzdialenosti a charakteristikách objektívu, ku ktorým dochádza počas reálneho zberu inšpekčných údajov. Pre kontrolu infraštruktúry sú geometrické augmentácie najvplyvnejšou kategóriou, pretože inšpekčné platformy — UAV, pozemné vozidlá, ručné kamery — zachytávajú rovnaký povrch z výrazne odlišných perspektív.

Rotačná augmentácia

Rotačná augmentácia aplikuje na vstupný obrázok náhodné uhlové otočenie, typicky v rozsahu od −180° do +180° alebo obmedzené na menšie rozsahy, napríklad ±45° pre špecifické aplikácie. Transformovaný obrázok sa vytvorí otočením každej súradnice pixelu (x, y) o uhol θ okolo stredu obrázku pomocou štandardnej rotačnej matice:

x’ = x·cos(θ) − y·sin(θ)

y’ = x·sin(θ) + y·cos(θ)

Pre detekciu trhlín na letiskových dráhach a diaľničných vozovkách je rotačná augmentácia kritická, pretože orientácia trhlín voči rámu kamery je ľubovoľná. Pozdĺžna trhlina rovnobežná so stredovou osou dráhy môže byť v jednom výreze horizontálna a v inom diagonálna, v závislosti od uhla natočenia kamery voči smeru pristávania lietadla. Bez rotačnej augmentácie sa model môže naučiť spájať prítomnosť trhliny s konkrétnou uhlovou orientáciou a zlyhávať pri detekcii trhlín v iných uhloch. Výskum Alomar et al. (2023) ukazuje, že rotačná augmentácia konzistentne zlepšuje klasifikačnú presnosť o 3–8 percent na datasetoch konštrukčných defektov v porovnaní s modelmi trénovanými bez rotácie.

Optimálny rozsah rotácie závisí od symetrie aplikácie. Pre letiskové vozovky, kde sa trhliny vyvíjajú v pozdĺžnom aj priečnom smere voči leteckej doprave, je vhodný plný rozsah ±180°. Pre kontroly mostných nosníkov, kde je kamera vždy približne horizontálna, môže byť dostatočný užší rozsah ±15°. Rotácia vytvára prázdne okrajové oblasti v rohoch obrázka, ktoré je potrebné riešiť jednou z troch stratégií: (1) výplň nulami (vyplnenie okrajov čiernou farbou), (2) výplň zrkadlením (zrkadlenie okrajových pixelov) alebo (3) výplň najbližším susedom. Výplň zrkadlením je preferovaná pre kontrolu infraštruktúry, pretože zabraňuje vnášaniu umelých tmavých okrajov, ktoré by sa model mohol naučiť ako falošné znaky.

Augmentácia preklápaním

Horizontálne preklopenie (zrkadlenie zľava doprava) a vertikálne preklopenie (zrkadlenie zhora nadol) sú najjednoduchšie geometrické augmentácie, vyžadujúce iba obrátenie poradia stĺpcov alebo riadkov pixelov. Horizontálne preklopenie sa aplikuje s 50-percentnou pravdepodobnosťou ako predvolené nastavenie vo väčšine augmentačných pipeline a je univerzálne prospešné, pretože zdvojnásobuje efektívnu veľkosť datasetu a je výpočtovo zadarmo — nevyžaduje interpoláciu.

Pre kontrolu infraštruktúry horizontálne preklopenie zachováva label pre väčšinu typov defektov. Trhlina je trhlina bez ohľadu na to, či sa nachádza na ľavej alebo pravej strane obrázka. Niektoré defekty však majú smerovú asymetriu: obrusovanie (strata kameniva na okrajoch vozovky) sa vyskytuje predovšetkým pozdĺž okraja vozovky a presadanie (vertikálny posun na spoji) má smerovosť súvisiacu so zaťažením dopravou. Pri týchto smerových defektoch musí odborník overiť, že preklopená verzia zostáva platným trénovacím príkladom.

Vertikálne preklopenie sa pri pozemnej kontrole infraštruktúry používa menej často, pretože obracia gravitačne konzistentnú orientáciu obrázka. Trhlina na vertikálnej betónovej stene vyzerá po preklopení zásadne inak — hoci pri kontrole vozoviek, kde kamera smeruje priamo nadol, je vertikálne preklopenie rovnako label-zachovávajúce ako horizontálne. Pri snímkach z mostných prehliadok, kde kamera zachytáva vertikálne plochy (nosníky, piliere, opory), by sa malo uprednostniť horizontálne preklopenie pred vertikálnym.

Augmentácia orezávaním

Náhodné orezávanie vyberá obdĺžnikovú podoblast pôvodného obrázka a mení jej veľkosť na očakávané vstupné rozmery siete. To simuluje efekt kamery umiestnenej v rôznych vzdialenostiach od kontrolovaného povrchu — bližšie výrezy zodpovedajú pohľadom s vyšším rozlíšením a viac detailmi, zatiaľ čo širšie výrezy poskytujú širší kontext.

Štandardné náhodné orezávanie vyberá oblasť s plochou medzi min_scale a max_scale (typicky 0,08 až 1,0 pôvodnej plochy obrázka) a pomerom strán medzi min_ratio a max_ratio (typicky 0,75 až 1,33). Orezaná oblasť sa potom zmení na pevnú vstupnú veľkosť siete, napríklad 512×512 pixelov pre typické modely segmentácie trhlín.

Pre kontrolu infraštruktúry slúži náhodné orezávanie dvojakému účelu. Po prvé, zvyšuje polohovú rôznorodosť — model trénovaný iba na celosnímkových obrázkoch sa môže naučiť spájať defekty s ich polohou v rámci snímky a zlyhávať, keď sa rovnaký defekt objaví v inej oblasti snímky. Po druhé, orezávanie s následnou zmenou veľkosti simuluje rôzne inšpekčné výšky a úrovne priblíženia, čo je kritické pre kontrolu pomocou UAV, kde sa letová výška pohybuje medzi 10 a 50 metrami v závislosti od predpisov a požiadaviek prieskumu. ICAO Doc 9137, Part 9 (Postupy údržby letísk) a ICAO Doc 9981 (PANS-Aerodromes) sa zaoberajú inšpekčnými metódami, ktoré môžu zahŕňať zber údajov z vozidiel alebo ručných zariadení, pričom každá z nich prináša iné zorné pole. Náhodné orezávanie počas trénovania zabezpečuje, že model generalizuje naprieč týmito spôsobmi snímania.

Perspektívne transformácie

Perspektívne transformácie (tiež nazývané perspektívne deformácie alebo homografické augmentácie) aplikujú na obrázok projektívne mapovanie, čím simulujú efekt naklonenia roviny kamery voči kontrolovanému povrchu. Matematicky je to reprezentované 3×3 homografickou maticou, ktorá mapuje body z jednej roviny do druhej.

Pre kontrolu infraštruktúry je perspektívna augmentácia mimoriadne dôležitá, pretože reálne inšpekčné snímky sú len zriedka zachytené z dokonale ortogonálneho (nadirového) pohľadu. Kamery namontované na vozidlách zachytávajú vozovku pod miernym predným uhlom. Kamery UAV môžu mať uhly sklonu 5–20 stupňov počas manévrovania dronu. Ručné inšpekčné kamery sa líšia v náklone v závislosti od výšky a polohy rúk inšpektora. Trhlina, ktorá je z nadirového pohľadu lineárna a konzistentná, sa z šikmého uhla javí skrátená a geometricky deformovaná. Perspektívna augmentácia trénuje model na rozpoznávanie defektov bez ohľadu na uhol snímania.

Miera perspektívneho skreslenia je riadená parametrom distortion scale, typicky nastaveným medzi 0,05 a 0,3 v normalizovaných súradniciach. Vyššie hodnoty simulujú extrémnejšie náklony kamery. Pre letiskové kontroly sa odporúča perspektívna miera 0,1–0,2, čo zodpovedá uhlom sklonu kamery približne 5–15 stupňov od nadiru.

Afinné transformácie

Afinné transformácie kombinujú škálovanie, skosenie, rotáciu a posun do jedinej 2×3 maticovej operácie. Na rozdiel od perspektívnych transformácií si afinné transformácie zachovávajú rovnobežnosť — rovnobežné priamky zostávajú po transformácii rovnobežné. Operáciu možno vyjadriť ako:

[x’, y’]² = A · [x, y]² + b

kde A je 2×2 matica riadiaca rotáciu, škálovanie a skosenie a b je vektor posunu.

Pre kontrolu infraštruktúry typická konfigurácia afinnej augmentácie zahŕňa: posun (±10 percent rozmerov obrázka, simulácia nesúosovosti snímky), škálovanie (0,8× až 1,2×, simulácia zmeny výšky), skosenie (±10 stupňov, simulácia náklonu kamery) a rotáciu (±15 stupňov). Kombinovaný efekt vytvára obrázky, ktoré realisticky simulujú polohovú a orientačnú variabilitu zberu inšpekčných údajov bez extrémnych deformácií, ktoré by mohli vnášať nerealistické artefakty.

Typ augmentácieTypický rozsahAplikácia pre infraštruktúru
Rotácia±45° až ±180°Simulácia rôznych uhlov natočenia kamery voči orientácii trhliny
Horizontálne preklopenie50% pravdepodobnosťZdvojnásobenie datasetu; invariantné pre väčšinu defektov
Vertikálne preklopenie50% pravdepodobnosťUžitočné pre nadirové snímky vozoviek
Náhodný výrez0,08–1,0 mierka, 0,75–1,33 pomer stránSimulácia rôznych inšpekčných výšok a úrovní priblíženia
Perspektíva0,05–0,3 miera skresleniaSimulácia nenadirových uhlov sklonu kamery
Afinné (škálovanie)0,8×–1,2×Simulácia zmeny výšky UAV platforiem
Afinné (skosenie)±5° až ±15°Simulácia naklonenia a sklonu kamery
Afinné (posun)±5 % až ±15 %Simulácia zmeny polohy v rámci snímky
Afinné (rotácia)±10° až ±30°Kombinácia s inými afinnými parametrami

{

Detail betónovej mostovky počas kontroly zobrazujúci povrchové trhliny, vydrolenia a konštrukčné defekty zachytené pre trénovanie AI modelu

Farebné a fotometrické augmentácie

Farebné a fotometrické augmentácie menia hodnoty intenzity pixelov v obraze bez zmeny priestorového usporiadania objektov. Tieto transformácie simulujú zmeny svetelných podmienok — najvýznamnejší zdroj reálnej variability v snímkach z kontroly infraštruktúry.

Úprava jasu a kontrastu

Augmentácia jasu lineárne posúva všetky hodnoty pixelov pripočítaním konštantného posunu: I’ = I + δ, kde δ je rovnomerne vzorkované z rozsahu, napríklad [−30, +30] na stupnici 0–255. To simuluje rozdiel medzi poludňajším slnečným svetlom (vysoký jas) a zamračenou oblohou alebo rannými inšpekčnými podmienkami (nízky jas). Augmentácia kontrastu škáluje hodnoty pixelov okolo strednej intenzity: I’ = α(I − μ) + μ, kde α je vzorkované z rozsahu, napríklad [0,7; 1,3]. Nižšie hodnoty kontrastu simulujú hmlisté alebo zahmlené podmienky; vyššie hodnoty simulujú ostré priame slnečné svetlo vytvárajúce silné tiene.

Pre kontrolu infraštruktúry je odporúčaný rozsah jasu ±40 percent na pokrytie celého spektra prevádzkových svetelných podmienok špecifikovaných v plánoch letiskového osvetlenia podľa ICAO Annex 14, Chapter 5 (Vizuálne prostriedky pre navigáciu). Okrajové svetlá dráh, približovacie svetlá a svetlá stojánok vytvárajú rôzne úrovne okolitého osvetlenia, s ktorými sa musí model kontroly vysporiadať.

Úprava odtieňa a sýtosti

Posun odtieňa otáča všetky farby pixelov v HSV (odtieň, sýtosť, hodnota) farebnom priestore o náhodný uhol, typicky ±30° z 360° farebného kruhu. Úprava sýtosti násobí kanál sýtosti náhodným faktorom (typicky 0,5 až 1,5). Tieto augmentácie simulujú efekt rôznych stavov povrchu vozovky — suchý asfalt má nižšiu sýtosť ako mokrý asfalt, starnutý betón sa líši odtieňom od nového betónu a usadeniny gumy z pneumatík vytvárajú odlišné farebné artefakty v dotykových zónach dráh.

Pre detekciu trhlín na asfaltových vozovkách je augmentácia odtieňa obzvlášť užitočná, pretože kontrast medzi tmavou trhlinou a okolitou vozovkou sa mení s povrchovou vlhkosťou. Suchá vlasová trhlina môže mať minimálny farebný kontrast voči suchému asfaltu, zatiaľ čo tá istá trhlina naplnená vodou po daždi sa javí ako jasne definovaná tmavá čiara. Modely trénované s augmentáciou odtieňa a sýtosti sa učia detegovať trhliny v tomto rozsahu kontrastu podmieneného vlhkosťou.

Farebné variácie

Farebné variácie sú komplexnou augmentáciou, ktorá náhodne upravuje jas, kontrast, sýtosť a odtieň súčasne. Štandardná implementácia vzorkuje každý parameter nezávisle: faktor jasu v [1−δ_b, 1+δ_b], faktor kontrastu v [1−δ_c, 1+δ_c], faktor sýtosti v [1−δ_s, 1+δ_s] a rotáciu odtieňa v [−δ_h, +δ_h]. Pre kontrolu infraštruktúry sú odporúčané rozsahy δ_b=0,3, δ_c=0,3, δ_s=0,2 a δ_h=0,1.

Farebné variácie sú vysoko účinným regularizátorom pre modely detekcie defektov. Výskum klasifikácie trhlín na vozovkách ukazuje, že modely trénované s komplexnými farebnými variáciami zlepšujú validačnú presnosť o 5–12 percent v porovnaní s modelmi trénovanými iba s geometrickými augmentáciami. Efekt je najvýraznejší pri jemných trhlinách (šírka < 2 mm), kde je kontrast trhlina-vozovka už nízky a dodatočná variabilita osvetlenia v tréningu núti model učiť sa hranové, nie farebné charakteristiky.

Konverzia na odtiene šedej

Augmentácia odtieňmi šedej konvertuje náhodnú podmnožinu trénovacích obrázkov na jednokanálovú luminanciu, čím odstráni všetky farebné informácie. Aplikuje sa s nízkou pravdepodobnosťou (typicky 5–10 percent), aby sa zabránilo nadmernej závislosti modelu od farebných signálov, ktoré nemusia byť prítomné vo všetkých inšpekčných podmienkach. Pre kontrolu infraštruktúry je konverzia na odtiene šedej obzvlášť cenná pre termálne a blízko-infračervené inšpekčné modality, kde nie sú k dispozícii farebné snímky.

Počas inferencie môže model trénovaný s občasnými obrázkami v odtieňoch šedej elegantne spracovať monochromatické alebo takmer monochromatické vstupy bez potreby replikácie kanálov alebo predspracovania. To je dôležité pre interoperabilitu so staršími inšpekčnými kamerovými systémami, ktoré môžu snímať v režime odtieňov šedej, alebo pre analýzu historických inšpekčných snímok zhromaždených predtým, než sa digitálne farebné kamery stali štandardom.

Augmentácie šumu a rozmazania

Augmentácie šumu a rozmazania simulujú degradáciu kvality obrazu, ku ktorej dochádza pri reálnom zbere inšpekčných údajov v dôsledku obmedzení senzora, pohybu, chýb zaostrenia a nepriaznivých environmentálnych podmienok.

Gaussov šum

Augmentácia Gaussovým šumom pridáva náhodné perturbácie hodnôt pixelov vzorkované z normálneho rozdelenia N(0, σ²) ku každému pixelu nezávisle. Smerodajná odchýlka šumu σ je typicky nastavená medzi 0,01 a 0,05 pre normalizované hodnoty pixelov (rozsah 0–1). To simuluje senzorový šum prítomný vo všetkých digitálnych kamerách, ktorý sa zvyšuje pri vyšších hodnotách ISO používaných v podmienkach nízkeho osvetlenia počas kontroly.

Pridávanie Gaussovho šumu počas trénovania núti konvolučné filtre modelu reagovať na základnú štrukturálnu štruktúru defektu, a nie na vysokofrekvenčné artefakty na úrovni pixelov, ktoré nie sú reprodukovateľné naprieč snímkami. Modely trénované s augmentáciou šumu sú robustnejšie voči rozdielom v kvalite senzora medzi inšpekčnými kamerami — rovnaký defekt nasnímaný 12-megapixelovým fotoaparátom telefónu a 50-megapixelovou DSLR sa bude modelu neškolenému na zašumených obrázkoch javiť odlišne.

Gaussovo rozmazanie

Augmentácia Gaussovým rozmazaním konvolvuje obrázok s Gaussovým jadrom veľkosti k×k a smerodajnou odchýlkou σ. To simuluje niekoľko reálnych podmienok: nezaostrený záber (kamera nedosiahla dokonalé zaostrenie na povrch vozovky), pohybové rozmazanie (inšpekčné vozidlo sa pohybovalo počas snímania), atmosférický opar (vodná para alebo pevné častice vo vzduchu rozptyľujú svetlo a znižujú ostrosť obrazu) a nedokonalosti šošovky (prach alebo kondenzát na šošovke kamery).

Pre kontrolu infraštruktúry sú odporúčané parametre Gaussovho rozmazania k ∈ {3, 5, 7} a σ ∈ {0,5; 1,0; 2,0} aplikované s 20–30% pravdepodobnosťou. Tento rozsah pokrýva mierne až výrazné rozmazanie bez toho, aby bol obrázok nerozpoznateľný. Pohybové rozmazanie možno alternatívne simulovať pomocou smerového rozmazávacieho jadra, ktoré rozotiera pixely v konkrétnom smere — to je realistickejšie pre kamery namontované na vozidlách, kde je smer rozmazania zosúladený s trajektóriou vozidla.

Dôležitosť augmentácie rozmazaním je zrejmá pri zohľadnení rýchlosti kontroly. Inšpekčné vozidlo pohybujúce sa rýchlosťou 50 km/h zachytáva snímky s približne 3–5 pixelmi pohybového rozmazania pri typických rýchlostiach uzávierky. Inšpekčný dron pohybujúci sa rýchlosťou 10 m/s s gimbalom stabilizovanou kamerou môže mať 1–3 pixely rozmazania. Trénovanie s augmentáciou rozmazania zaručuje spoľahlivú výkonnosť modelu naprieč týmito rýchlosťami snímania bez toho, aby operátor kontroly musel spomaliť kvôli presnosti modelu.

Náhodné mazanie a Cutout

Náhodné mazanie a Cutout sú regularizačne zamerané augmentácie, ktoré náhodne zakrývajú obdĺžnikové oblasti vstupného obrázka. V prípade Cutoutu je štvorec s dĺžkou strany s (typicky 16–64 pixelov pre obrázky 256×256) náhodne umiestnený a vyplnený konštantnou hodnotou (zvyčajne nulou alebo strednou hodnotou pixelu datasetu). Náhodné mazanie mení pomer strán a hodnotu výplne zakrytej oblasti.

Pre kontrolu infraštruktúry tieto augmentácie simulujú prekrytie cudzími predmetmi (FOD) na letiskových vozovkách — kritický bezpečnostný problém podľa noriem ICAO Annex 14. FOD zahŕňa voľné kamene, úlomky pneumatík, visačky na batožinu, nástroje a iné nečistoty, ktoré čiastočne zakrývajú povrch vozovky. Model trénovaný s augmentáciou Cutout sa učí detegovať defekty aj vtedy, keď sú časti defektu alebo okolitého povrchu skryté zakrývajúcimi objektmi. To priamo zlepšuje schopnosť modelu identifikovať trhliny a defekty viditeľné v medzerách medzi nečistotami alebo stopami pneumatík na povrchu dráh.

Doménovo-špecifické augmentácie

Doménovo-špecifické augmentácie sú transformácie prispôsobené jedinečným vizuálnym charakteristikám snímok z kontroly infraštruktúry. Tieto augmentácie presahujú rámec všeobecných transformácií počítačového videnia a simulujú konkrétne environmentálne a prevádzkové podmienky, s ktorými sa inšpekčné kamery stretávajú.

Simulácia tieňov

Tiene na infraštruktúrnych povrchoch sú vrhané širokou škálou objektov: mostné konštrukcie, portálové značenia, hangáre, terminálové budovy, susedné lietadlá, obvodové ploty a dokonca aj samotné inšpekčné vozidlo alebo UAV. Tiene vytvárajú náhle lokálne zníženie osvetlenia, ktoré môže zakryť trhliny, zmeniť zdanlivú textúru vozovky a spôsobiť falošne pozitívne detekcie hrán na hraniciach tieňov.

Augmentácia tieňov simuluje toto stmavením náhodnej oblasti obrázka pomocou mäkkej masky. Maska je typicky mnohouholník s rozmazanými okrajmi (Gaussovo rozmazanie masky s σ=10–30 pixelov), ktorý plynule prechádza od plného osvetlenia k úrovni tmy tieňa. Faktor tmavosti tieňa je vzorkovaný medzi 0,2 a 0,6 (kde 0,0 je čierna a 1,0 je nezmenené). Poloha, tvar a orientácia tieňa sú náhodné, aby sa zabránilo asociácii vzorov tieňov s konkrétnymi oblasťami obrázka modelom.

Pre mostné prehliadky je simulácia tieňov kritická, pretože mostné nosníky, priečky a previsy mostovky vytvárajú komplexné vzory tieňov, ktoré sa menia s uhlom slnka počas dňa. Normy FHWA pre mostné prehliadky vyžadujú, aby hodnotenia stavu boli konzistentné bez ohľadu na to, kedy prehliadka prebieha. Modely s tieňovou augmentáciou zachovávajú túto konzistentnosť a poskytujú presnú detekciu defektov bez ohľadu na to, či je most kontrolovaný o 9:00 (dlhé tiene) alebo o 12:00 (minimálne tiene).

Efekty dažďa a vody

Mokrý povrch dramaticky mení vizuálny vzhľad povrchových defektov. Voda vypĺňa trhliny a dutiny, stmavuje ich a zvyšuje ich vizuálny kontrast voči okolitej vozovke. Zároveň voda vytvára zrkadlové odrazy, ktoré prinášajú svetlé zvýraznenia, najmä na hladkých asfaltových povrchoch. Kaluže a stojatá voda môžu úplne zakryť podpovrchové defekty.

Augmentácia dažďa simuluje tieto efekty prostredníctvom niekoľkých mechanizmov:

Prekrytie vodným filmom — Pridanie priesvitného modro-sivého prekrytia na náhodné oblasti obrázka s nepriehľadnosťou 0,1–0,3 na simuláciu tenkých vodných filmov. Generovanie zrkadlových zvýraznení — Pridanie svetlých eliptických alebo nepravidelných škvŕn s vysokými hodnotami luminancie (200–250 na stupnici 0–255) na simuláciu odrazu slnečného svetla od vodných plôch. Prekrytie dažďovými pruhmi — Pridanie smerových pruhových vzorov na simuláciu dažďa padajúceho počas snímania. Hustota pruhov, dĺžka (10–50 pixelov) a uhol (typicky 0–30° od vertikály, v závislosti od vetra) sú náhodné.

Pre kontrolu letiskových vozoviek je augmentácia mokrej dráhy vyžadovaná prevádzkovým realizmom. ICAO Annex 14 a FAA AC 150/5320-5D vyžadujú, aby hodnotenie stavu povrchu dráhy zohľadňovalo účinky vody na trenie a viditeľnosť defektov. Model kontroly nasadený v regióne so 100+ dňami zrážok ročne musí presne fungovať aj vo vlhkých podmienkach. Trénovanie s augmentáciami dažďa a vodného filmu zabezpečuje túto schopnosť.

Variácia povrchovej textúry

Povrchová textúra vozovky sa výrazne líši v závislosti od:

  • Typu vozovky: Asfalt (flexibilný), betón (tuhý), kompozitný a porézne trecie vrstvy majú každý odlišné vizuálne textúry
  • Veku: Nová vozovka má jednotnú textúru; stará vozovka vykazuje obnaženie kameniva, obrusovanie, oxidáciu a leštenie
  • Histórie údržby: Ochranné nátery, kalové nátery, mikrobrúsenie a prekrytia modifikujú povrchovú textúru
  • Typu kameniva: Rôzne zdroje kameniva produkujú odlišné farby, veľkosti a odrazové charakteristiky

Augmentácia variácie povrchovej textúry aplikuje lokálne zvýšenie kontrastu, lokálnu ekvalizáciu a syntézu textúr na simuláciu týchto variácií. Pokročilé implementácie používajú prenos štýlu alebo adaptáciu domény založenú na CycleGAN na transformáciu obrázkov medzi textúrnymi doménami — napríklad zobrať obrázok trhliny z nového asfaltu a vygenerovať verziu, ktorá vyzerá ako starý, zvetraný asfalt.

Výskum Krestenitis et al. (2026) o kontrole dráh pomocou UAV snímok ukazuje, že modely augmentované variáciou povrchovej textúry dosahujú 15–20 percent vyššiu segmentačnú IoU (Intersection over Union) na textúrne rôznorodých testovacích sadách v porovnaní s modelmi trénovanými výlučne na pôvodnej textúrnej doméne. To je obzvlášť dôležité pre siete letiskových vozoviek, ktoré môžu zahŕňať dráhy, rolovacie dráhy a stojánky postavené z rôznych materiálov a v rôznych časoch.

{

Asfaltový povrch letiskovej dráhy počas daždivých podmienok s vodnými škvrnami a mokrou textúrou vozovky zobrazujúcou viditeľné trhliny

Augmentačné politiky

Augmentačná politika definuje ktoré transformácie sa aplikujú, v akom poradí, s akou pravdepodobnosťou a s akou magnitúdou počas trénovania. Výber politiky výrazne ovplyvňuje výkonnosť modelu. Existujú tri hlavné kategórie: manuálne politiky, vyhľadávané politiky a náhodné politiky.

Návrh manuálnej politiky

Manuálne politiky sú ručne vytvorené odborníkmi na základe znalosti domény a empirického testovania. Pre kontrolu infraštruktúry by typická manuálna politika mohla aplikovať nasledujúcu sekvenciu v každom trénovacom kroku:

  1. Náhodné horizontálne preklopenie (50% pravdepodobnosť)
  2. Náhodná rotácia ±30° (40% pravdepodobnosť)
  3. Náhodný výrez na 85–100 % plochy obrázka so zmenou veľkosti na 512×512 (vždy aplikované)
  4. Farebné variácie: jas ±0,3, kontrast ±0,3, sýtosť ±0,2, odtieň ±0,1 (50% pravdepodobnosť)
  5. Gaussovo rozmazanie: jadro 5, σ=0,5–1,5 (20% pravdepodobnosť)
  6. Gaussov šum: σ=0,02 (10% pravdepodobnosť)
  7. Náhodný tieň: tmavosť 0,2–0,5 (20% pravdepodobnosť)

Manuálne politiky sú transparentné, interpretovateľné a výpočtovo rýchle — nevyžadujú vyhľadávanie ani validáciu. Nevýhodou je, že nemusia byť optimálne a môžu vynechať prospešné kombinácie augmentácií.

AutoAugment — Vyhľadávaná augmentačná politika

AutoAugment, predstavený Cubuk et al. (2019) v Google Brain, používa posilňované učenie na vyhľadávanie optimálnych augmentačných politík. Proces vyhľadávania funguje nasledovne:

RNN kontrolér navrhuje augmentačné politiky, z ktorých každá pozostáva z K podpolitík (typicky K=5), pričom každá podpolitika špecifikuje 2 operácie s ich magnitúdami a pravdepodobnosťami. Politika sa aplikuje na trénovací dataset, detský model sa trénuje a vyhodnocuje na validačnej sade. Validačná presnosť slúži ako signál odmeny pre RNN kontrolér, ktorý je aktualizovaný pomocou Proximal Policy Optimization (PPO) na generovanie lepších politík. Vyhľadávanie typicky vyžaduje 15 000 až 20 000 GPU-hodín pre datasety veľkosti ImageNet.

AutoAugment objavuje neintuitívne politiky, ktoré často prekonávajú manuálne návrhy. Napríklad politika ImageNet zistila, že ShearX/Y a Rotate s vysokou pravdepodobnosťou a miernou magnitúdou sú vysoko účinné, zatiaľ čo Equalize a Solarize (inverzia hodnôt pixelov nad prahovou hodnotou) zlepšujú farebnú robustnosť. Objavené politiky sa prenášajú medzi datasetmi podobných vizuálnych domén — politika nájdená na všeobecnom datasete vozoviek môže byť aplikovaná na špecifický dataset letiskových dráh s dobrými výsledkami.

RandAugment — Praktická náhodná politika

RandAugment, predstavený Cubuk et al. (2020), rieši výpočtové náklady AutoAugmentu úplným eliminovaním procesu vyhľadávania. Politika je definovaná iba dvomi parametrami: N (počet transformácií aplikovaných na obrázok) a M (globálny parameter magnitúdy pre všetky transformácie).

V každom trénovacom kroku RandAugment náhodne vyberá N transformácií z fixného súboru K operácií (typicky K=14–17, vrátane rotácie, skosenia, posunu, kontrastu, jasu, ostrosti, solarizácie, ekvalizácie, autokontrastu, posterizácie, farby a identity). Vybrané operácie sa aplikujú sekvenčne s magnitúdou M. Jednoduchosť tohto prístupu znamená žiadne vyhľadávanie, žiadnu validačnú sadu počas trénovania a minimálne ladenie hyperparametrov.

Pre kontrolu infraštruktúry slúži RandAugment s N=2 a M=10 (na stupnici magnitúdy 0–30) ako výborná predvolená konfigurácia. Vyššie hodnoty N (3–4) a M (15–20) poskytujú silnejšiu regularizáciu pre väčšie modely alebo menšie datasety. Výskum benchmarkov klasifikácie trhlín na vozovkách ukazuje, že RandAugment dosahuje porovnateľnú alebo lepšiu výkonnosť ako AutoAugment pri zmenšení vyhľadávacieho priestoru hyperparametrov z tisícov GPU-hodín na jediné 2D gridové vyhľadávanie cez N a M.

PolitikaNáklady na vyhľadávanieParametreVhodnosť pre infraštruktúru
ManuálnaNulovéPlná kontrola na operáciuDobrá pre doménovo-špecifické potreby
AutoAugment15 000+ GPU-hodínPolitika nájdená RLVynikajúca výkonnosť, vysoké náklady
RandAugmentZanedbateľnéN (int), M (float)Výborná, praktická predvolba
TrivialAugmentZanedbateľnéJediný parameter silyVeľmi jednoduché, konkurencieschopné
Fast AutoAugment~100 GPU-hodínZhoda hustotyDobrý kompromis

Augmentácia pre detekciu trhlín

Detekcia trhlín — úloha identifikácie a lokalizácie trhlín v infraštruktúrnych povrchoch — je najviac študovanou aplikáciou rozšírenia údajov v doméne kontroly infraštruktúry. Trhliny predstavujú jedinečné výzvy, ktoré robia augmentáciu obzvlášť účinnou.

Charakteristiky trhlín a citlivosť na augmentáciu

Trhliny v betónových a asfaltových povrchoch vykazujú nasledujúce vlastnosti relevantné pre návrh augmentácie:

Vysoký pomer strán — Trhliny sú dlhé a úzke, s pomerom šírky k dĺžke často presahujúcim 1:100. To znamená, že geometrické augmentácie, ktoré výrazne deformujú pomery strán (extrémne skosenie, neštvorcové výrezy), môžu urobiť trhliny nerozpoznateľnými. Zachovanie linearity — Väčšina konštrukčných trhlín sleduje približne lineárne alebo mierne zakrivené dráhy, hoci aligátorové trhliny tvoria vzájomne prepojené polygonálne siete. Augmentácie, ktoré narúšajú lineárnu kontinuitu (náhodné vymazanie stredu trhliny, agresívna JPEG kompresia), môžu zničiť signál trhliny. Nízky kontrast — Jemné trhliny (vlasové trhliny so šírkou pod 0,3 mm) majú minimálny kontrast voči okolitej vozovke — často len 5–15 úrovní šedej na 8-bitovom obrázku. Farebné augmentácie musia byť aplikované opatrne, aby nedošlo k vymazaniu tohto už aj tak slabého signálu. Závislosť na textúre — Trhliny sú detegované ako anomálie voči textúre pozadia vozovky. Augmentácie, ktoré homogenizujú textúru (nadmerné rozmazanie, silná ekvalizácia), môžu spôsobiť, že trhliny budú na nerozoznanie od neporušenej vozovky.

Odporúčaná augmentačná pipeline pre detekciu trhlín

Na základe publikovaného výskumu a empirického testovania na datasetoch letiskových vozoviek sa pre modely detekcie trhlín odporúča nasledujúca pipeline:

Fáza 1 — Geometrické jadro: Horizontálne preklopenie (50 %), náhodná rotácia ±45° (30 %), náhodný výrez na 80–95 % so zmenou veľkosti (vždy). Tieto augmentácie sú vždy aplikované, pretože orientácia a poloha trhliny sú irelevantné premenné.

Fáza 2 — Simulácia osvetlenia: Farebné variácie s jasom ±0,3, kontrastom ±0,3, sýtosťou ±0,2, odtieňom ±0,1 (50% pravdepodobnosť). To simuluje celý rozsah prevádzkových svetelných podmienok.

Fáza 3 — Simulácia kvality: Gaussovo rozmazanie σ=0,5–2,0 (25% pravdepodobnosť), Gaussov šum σ=0,01–0,03 (15% pravdepodobnosť). To simuluje variáciu kvality snímania.

Fáza 4 — Simulácia prostredia: Prekrytie tieňom s náhodnou polygonálnou maskou (20% pravdepodobnosť), simulácia mokrého povrchu so zvýšenou sýtosťou a zrkadlovými zvýrazneniami (15% pravdepodobnosť). To simuluje terénne podmienky.

Fáza 5 — Regularizácia: Cutout s veľkosťou výrezu 16–32 pixelov (10% pravdepodobnosť). To zabraňuje preučeniu na konkrétne oblasti obrázka.

Táto pipeline zachováva platnosť labelu — trhlina zostáva trhlinou po všetkých transformáciách — a zároveň vystavuje model extrémnej variabilite vzhľadu.

Augmentácia pre klasifikáciu defektov

Klasifikácia defektov — priradenie kategorického labelu k výseku obrazu (napr. „trhlina", „vydrolenie", „zvetrávanie", „neporušený") — má odlišné augmentačné požiadavky ako segmentácia na úrovni pixelov.

Vyváženie tried a augmentácia

Datasety defektov infraštruktúry sú prirodzene výrazne nevyvážené. Neporušená vozovka dominuje každému datasetu, zatiaľ čo jednotlivé triedy defektov môžu mať len stovky príkladov. Rozšírenie údajov rieši túto nevyváženosť prostredníctvom augmentácie zohľadňujúcej triedy: aplikáciou agresívnejších alebo početnejších transformácií na nedostatočne zastúpené triedy s cieľom zvýšiť ich efektívne zastúpenie v každej trénovacej dávke.

Napríklad, ak trénovací dataset obsahuje 10 000 neporušených obrázkov, 500 obrázkov trhlín a 200 obrázkov vydrolení, augmentačná pipeline môže byť nakonfigurovaná tak, aby aplikovala 5 náhodne vybraných augmentácií na každý obrázok vydrolenia (generujúc 5×200 = 1 000 efektívnych príkladov vydrolenia na epochu), zatiaľ čo na každý neporušený obrázok aplikuje iba 1 augmentáciu. Táto stratégia augmentácie zohľadňujúcej triedy zlepšuje citlivosť klasifikátora na zriedkavé typy defektov bez potreby dodatočného zberu údajov.

Label-zachovávajúce vs. label-meniace augmentácie

Pre klasifikáciu je nevyhnutné, aby augmentácie boli label-zachovávajúce — transformovaný obrázok musí stále patriť do pôvodnej triedy. Niektoré transformácie môžu zmeniť label:

  • Extrémna rotácia (napr. otočenie o 180° pri smerovom defekte, ako je presadanie) môže zmeniť zdanlivý typ defektu
  • Extrémny výrez, ktorý úplne odstráni defekt, vytvára „neporušený" obrázok z „defektného" zdroja
  • Agresívne rozmazanie, ktoré vymaže vlasovú trhlinu, robí obrázok efektívne neporušeným

Pre klasifikáciu musí byť magnitúda augmentácie kalibrovaná na minimálnu detekovateľnú veľkosť prvku každej triedy defektov. Pri vlasových trhlinách (minimálna šírka ~0,2 mm pri rozlíšení snímania) by sa rozmazanie presahujúce σ=2,0 a rotácie nad ±60° mali aplikovať so zníženou pravdepodobnosťou alebo úplne vylúčiť.

Viaclabelová augmentácia

Infraštruktúrne povrchy často vykazujú viacero súbežných typov defektov — vydrolená oblasť môže obsahovať trhliny alebo zvetraná škvrna môže mať poruchu tesnenia spojov. Pre viaclabelovú klasifikáciu musí byť augmentácia konzistentná naprieč všetkými labelmi pre daný obrázok. Rovnaká geometrická transformácia aplikovaná na obrázok sa aplikuje na všetky labely súčasne. Farebné a šumové transformácie sú pri viaclabelovej klasifikácii inherentne label-zachovávajúce, pretože nemenia prítomnosť alebo neprítomnosť žiadneho typu defektu.

Augmentácia a prevencia preučenia

Vzťah medzi rozšírením údajov a preučením je zásadný pre pochopenie úlohy augmentácie v hlbokom učení.

Mechanizmus preučenia

Preučenie nastáva, keď je model s vysokou kapacitou (veľa trénovateľných parametrov) trénovaný na datasete s nedostatočnou veľkosťou alebo rôznorodosťou. Model sa neučí všeobecné vzory triedy defektov, ale konkrétne usporiadanie pixelov, textúry a artefakty trénovacích príkladov. Matematicky sa preučenie prejavuje ako naučenie degenerovaného mapovania zo vstupu na výstup, ktoré minimalizuje trénovaciu stratu, ale nedokáže minimalizovať očakávanú stratu na skutočnej distribúcii údajov.

Pre modely kontroly infraštruktúry sa preučenie typicky prejavuje po 50–100 trénovacích epochách. Trénovacia presnosť naďalej stúpa k 100 percentám, zatiaľ čo validačná presnosť dosahuje plató a následne klesá. Rozdiel medzi trénovacou a validačnou presnosťou — generalizačná medzera — sa postupne zväčšuje. Bez augmentácie bude ResNet-50 trénovaný na 2 000 obrázkoch trhlín typicky vykazovať 15–25% generalizačnú medzeru. S komplexnou augmentáciou možno túto medzeru znížiť na 3–5 percent alebo menej.

Efektívna veľkosť datasetu

Kľúčovým mechanizmom, ktorým augmentácia zabraňuje preučeniu, je zvyšovanie efektívnej veľkosti trénovacej sady. Pri augmentácii aplikovanej za behu počas trénovania je každý obrázok v každej epoche transformovaný inak. Trénovací dataset s 5 000 obrázkami s augmentačnou politikou, ktorá aplikuje 3 náhodné transformácie z množiny 10 operácií, každú s 5 možnými magnitúdami, generuje 5 000 × 10³ × 5³ ≈ 6,25 milióna odlišných trénovacích príkladov počas 100 epoch.

Táto expanzia efektívneho datasetu je obzvlášť cenná pre kontrolu infraštruktúry, pretože:

  • Dáta o defektoch sú vzácne: Zber 50 000 označených obrázkov trhlín je nepraktický
  • Terénne podmienky sú rôznorodé: Dokonca ani 50 000 obrázkov nemusí pokryť celý rozsah osvetlenia, počasia, uhlov kamery a textúr vozovky
  • Kapacita modelu je vysoká: Moderné vision transformery (ViT, DINOv3) majú 80–300 miliónov parametrov, ktoré vyžadujú enormné efektívne veľkosti datasetov

Augmentácia ako regularizácia

Rozšírenie údajov funguje ako regularizátor v zmysle štatistického učenia. Rozšírením trénovacej distribúcie augmentácia znižuje schopnosť modelu prispôsobiť sa šumu v pôvodnom datasete. Rozptyl naučených parametrov klesá, pretože model musí spĺňať obmedzenia z oveľa väčšieho počtu efektívne nezávislých trénovacích príkladov.

Sila regularizácie augmentácie je riadená:

  • Počtom typov augmentácie: Viac typov poskytuje silnejšiu regularizáciu
  • Magnitúdou augmentácie: Vyššie magnitúdy zvyšujú rozptyl trénovacej distribúcie, čo núti k silnejšej invariancii
  • Pravdepodobnosťou aplikácie: Vyššie pravdepodobnosti znamenajú, že viac obrázkov je augmentovaných za epochu, čo zvyšuje efektívnu veľkosť datasetu

Pre modely kontroly infraštruktúry sa optimálna rovnováha regularizácie a augmentácie nachádza sledovaním trajektórie validačnej straty. Ak validačná strata rastie, zatiaľ čo trénovacia strata naďalej klesá (preučenie), magnitúda alebo pravdepodobnosť augmentácie by sa mala zvýšiť. Ak sú trénovacia aj validačná strata vysoké (nedostatočné učenie), augmentácia by sa mala znížiť, aby sa model mohol viac učiť z raw trénovacích údajov.

Augmentácia v produkčnom tréningu

Implementácia rozšírenia údajov v produkčnej trénovacej pipeline vyžaduje starostlivé architektonické rozhodnutia o tom, kedy, kde a ako sa augmentácie aplikujú.

Online vs. offline augmentácia

Offline augmentácia predgeneruje augmentované obrázky a uloží ich na disk pred začiatkom trénovania. Augmentovaný dataset môže obsahovať 50 000 obrázkov odvodených z 5 000 originálov prostredníctvom 10 fixných augmentácií na obrázok. Trénovanie potom prebieha na tomto fixnom augmentovanom datasete.

Online augmentácia aplikuje transformácie za behu počas trénovania, pričom každý obrázok sa načíta z disku, náhodne augmentuje a okamžite predloží modelu. Žiadne augmentované obrázky nie sú trvalo uložené.

Online augmentácia je štandardným prístupom pre produkčné pipeline kontroly infraštruktúry, pretože:

  • Nekonečná variácia: Každá epocha vidí iné augmentácie, čo poskytuje silnejšiu regularizáciu
  • Žiadna réžia úložiska: Augmentované obrázky sa neukladajú, čím sa predchádza 10–100× požiadavkám na miesto na disku
  • Flexibilita parametrov: Parametre augmentácie možno meniť bez regenerácie datasetu
  • Deterministická reprodukovateľnosť: Náhodné semienka môžu riadiť augmentáciu pre ladenie

Výpočtová náročnosť online augmentácie je minimálna — moderné GPU-akcelerované augmentačné knižnice (NVIDIA DALI, Kornia alebo PyTorch torchvision) aplikujú transformácie v mikrosekundách na obrázok, typicky predstavujúcich menej ako 5 percent celkového času trénovania, keď je načítavanie údajov pipelineované s GPU vykonávaním.

Výber augmentačnej knižnice

Výber augmentačnej knižnice ovplyvňuje výkonnosť, flexibilitu a udržiavateľnosť pipeline:

Albumentations je najpoužívanejšou knižnicou pre kontrolu infraštruktúry vďaka svojej rýchlosti (optimalizované C++ backend cez OpenCV), komplexnej sade operácií (70+ transformácií) a natívnej podpore dvojkanálovej augmentácie pre segmentačné masky. Albumentations zaručuje, že akákoľvek geometrická transformácia aplikovaná na obrázok je identicky aplikovaná aj na masku, čím sa zachováva vyrovnanie na úrovni pixelov medzi vstupom a skutočnosťou.

NVIDIA DALI poskytuje GPU-akcelerované načítavanie údajov a augmentačné pipeline, ktoré dokážu spracovávať obrázky výhradne na GPU, čím sa predchádza úzkym miestam pri prenose CPU-GPU. DALI sa odporúča pre veľmi veľké trénovacie datasety (10 000+ obrázkov), kde čas načítavania údajov dominuje času trénovania.

torchvision.transforms (PyTorch) a tf.image (TensorFlow) poskytujú vstavané augmentačné schopnosti s dobrou integráciou do svojich príslušných frameworkov, ale majú menej doménovo-špecifických transformácií (simulácia tieňov, perspektíva, náhodné mazanie) ako Albumentations.

Integrácia do pipeline

V produkčnej trénovacej pipeline je augmentácia integrovaná nasledovne:

[Načítač obrázkov] → [Náhodný vzorkovač] → [Sekvencia augmentácií] → [Normalizácia] → [Náhodný dávkový vzorkovač] → [Dopredný priechod modelom]

Náhodný vzorkovač rozhoduje, či je každá augmentácia v politike aplikovaná (na základe parametra pravdepodobnosti) a aká je magnitúda. Sekvencia augmentácií aplikuje transformácie v pevnom poradí: typicky najprv geometrické (výrez, preklopenie, rotácia, perspektíva), potom fotometrické (farebné variácie, jas, kontrast), potom šum a rozmazanie (Gaussov šum, Gaussovo rozmazanie), potom doménovo-špecifické (tieň, dážď) a nakoniec regularizačné (Cutout).

Počas validácie a inferencie je augmentácia zredukovaná na minimum nevyhnutných transformácií: typicky iba centrálny výrez (alebo zmena veľkosti) a normalizácia. Počas vyhodnocovania sa nepoužívajú žiadne náhodné transformácie, aby sa zabezpečili deterministické, reprodukovateľné výsledky.

Monitorovanie účinkov augmentácie

Produkčné trénovacie pipeline by mali zaznamenávať štatistiky augmentácie na monitorovanie jej vplyvu na dynamiku trénovania:

  • Miera aktivácie augmentácie: Percento obrázkov, ktoré prešlo každou transformáciou, na overenie správnej implementácie pravdepodobností
  • Histogram transformovaných obrázkov: Distribúcia hodnôt pixelov po augmentácii, na detekciu orezávania alebo saturačných artefaktov
  • Časová os magnitúdy augmentácie: Ako sa magnitúda augmentácie mení počas kurikulárneho trénovacieho plánu (niektoré implementácie začínajú s nízkou augmentáciou a zvyšujú ju v priebehu epoch)
  • Validačná citlivosť na augmentáciu: Pravidelné vyhodnocovanie so zníženou augmentáciou na meranie, či sa model nestal závislým na artefaktoch augmentácie

Tieto monitorovacie metriky zabezpečujú, že augmentácia dosahuje zamýšľaný efekt — rozširuje trénovaciu distribúciu bez vnášania artefaktov alebo skreslení, ktoré by degradovali výkonnosť v reálnom svete.

Obrázok zobrazujúci augmentácie betónových trhlín v mriežke demonštruje praktický výstup augmentačnej pipeline: rovnaký originálny obrázok trhliny je transformovaný na 12+ odlišných trénovacích príkladov prostredníctvom rotácie, preklápania, orezávania, úpravy farieb a rozmazania. Každá augmentovaná verzia zachováva label trhliny, pričom ju prezentuje vo vizuálne odlišnom kontexte, čím učí model detegovať trhliny bez ohľadu na orientáciu, osvetlenie alebo kvalitu obrazu.

{

Vizualizácia trénovacích údajov strojového učenia zobrazujúca viacero augmentovaných verzií obrázkov betónových trhlín usporiadaných v mriežkovom rozložení

Často kladené otázky

Vylepšite svoju AI na kontrolu pomocou robustného tréningu

TarmacView využíva pokročilé augmentačné pipeline na trénovanie modelov kontroly infraštruktúry, ktoré generalizujú naprieč svetelnými, poveternostnými a povrchovými podmienkami. Optimalizujte trénovanie modelu detekcie defektov pomocou doménovo-špecifických augmentačných stratégií prispôsobených pre letiskové vozovky a betónové konštrukcie.

Zistiť viac

+++ title = &ldquo;Prenosové učenie&rdquo; description = &ldquo;Prenosové učenie aplikuje poznatky z modelu predtrénovaného na veľkých všeobecných datasetoch (I...

7 min čítania
Technology Machine Learning +2

+++ title = &ldquo;Adaptácia domény&rdquo; description = &ldquo;Adaptácia domény prispôsobuje modely strojového učenia natrénované na zdrojovej doméne — ako sú ...

8 min čítania
Technology Machine Learning +2
Počítačové videnie

Počítačové videnie

Počítačové videnie je technológia poháňaná umelou inteligenciou, ktorá umožňuje strojom interpretovať a reagovať na vizuálne dáta, čím poháňa aplikácie ako rozp...

12 min čítania
Artificial Intelligence Aviation Technology +3