Detekcia trhlín pomocou AI pre kontrolu infraštruktúry

Detekcia trhlín pomocou AI pre kontrolu infraštruktúry

Definícia problému a výzvy

Detekcia trhlín pomocou AI je technológia počítačového videnia, ktorá aplikuje modely hlbokého učenia — konvolučné neurónové siete (CNN), architektúry enkodér-dekodér a vision transformery — na automatickú identifikáciu, klasifikáciu, segmentáciu a meranie trhlín na povrchoch vozoviek, dráh, mostových dosiek a betónových konštrukcií z digitálnych snímok. Technológia nahrádza alebo dopĺňa manuálnu vizuálnu kontrolu ľudskými inžiniermi, transformujúc subjektívne, pracovne náročné prieskumy na objektívne, škálovateľné a dátami riadené hodnotenia. Pre prevádzkovateľov letísk a civilnej infraštruktúry automatizovaná detekcia trhlín priamo podporuje skórovanie Indexu stavu vozovky (PCI) podľa ASTM D5340-12, vykazovanie Kódu stavu dráhy (RwyCC) podľa ICAO Annex 14 a plánovanie preventívnej údržby.

Letecký záber z dronu na povrch letiskovej dráhy s viditeľnými trhlinami, prekrytie analýzou počítačového videnia AI zvýrazňujúce detekované vzory trhlín

Problém detekcie trhlín predstavuje jedinečné výzvy, ktoré ho odlišujú od všeobecných úloh sémantickej segmentácie. Trhliny sú tenké, pretiahnuté štruktúry — typicky 0,1 mm až 5 mm široké — ktoré zaberajú len 2–8 % všetkých pixelov v danej snímke, čo vytvára extrémnu triednu nevyváženosť počas tréningu modelu. Pomer popredia k pozadiu pre trhlinové pixely je približne 1:20 až 1:50, čo znamená, že naivný klasifikátor predpovedajúci všetky pixely ako pozadie dosahuje viac ako 95 % presnosť, pričom detekuje nulové trhliny. Morfológia trhlín sa dramaticky líši: pozdĺžne trhliny prebiehajú rovnobežne so stredovou osou vozovky, priečne trhliny prebiehajú kolmo, aligátorové (únavové) trhliny vytvárajú vzájomne prepojené polygonálne vzory a reflexné trhliny sa šíria cez obrusné vrstvy z podkladových škár. Každý typ vyžaduje inú geometrickú charakterizáciu.

Osvetlenie a environmentálna variabilita ďalej komplikujú detekciu. Tiene z konštrukcií a previsnutej vegetácie vytvárajú oblasti s nízkym kontrastom, kde sú trhliny takmer neviditeľné. Mokrý povrch vozovky znižuje teplotný kontrast pre tepelné metódy a mení odrazivosť vo viditeľnom spektre. Olejové škvrny, stopy pneumatík, gumové usadeniny, stavebné škáry, variácie textúry povrchu (drážkovanie, ryhovanie, metlový povrch) a nečistoty vytvárajú falošne pozitívne prvky, ktoré vizuálne napodobňujú trhliny. Štúdia z roku 2025 publikovaná v Scientific Reports (EGA-UNet paper, Vol. 15, Article 33818) preukázala, že presnosť detekcie trhlín na komplexných pozadiach klesá o 10–20 % v porovnaní s čistými, jednotnými povrchmi, a to aj so špičkovými mechanizmami pozornosti.

Obmedzenia mierky a rozlíšenia vnášajú zásadný kompromis. Snímky s vysokým rozlíšením (submilimetrová vzdialenosť vzorkovania na zemi na pixel) zachytávajú jemné trhliny, ale vyžadujú veľké úložisko, šírku pásma a čas spracovania. Snímky s nižším rozlíšením pokrývajú viac plochy na jeden let alebo jazdu, ale nezachytia trhliny užšie ako 2–3 pixely. Pre dronovú kontrolu dráhy vo výške 15 m s 24 MP kamerou je typická vzdialenosť vzorkovania na zemi 1,0–1,5 mm/pixel, čo znamená, že trhliny pod šírkou 0,3 mm sú pod prahom detekcie. Tento limit rozlíšenia je tvrdým fyzikálnym obmedzením, ktoré žiadny AI model nemôže prekonať — určuje minimálnu detekovateľnú šírku trhliny pre danú zobrazovaciu platformu a výšku.

Architektúry modelov pre detekciu trhlín

U-Net

U-Net, predstavený Ronnebergerom, Fischerom a Broxom na Univerzite vo Freiburgu v roku 2015, zostáva najrozšírenejšou architektúrou pre pixelovú segmentáciu trhlín. Symetrická štruktúra enkodér-dekodér s preskakovacími spojeniami (skip connections) je obzvlášť vhodná pre detekciu trhlín, pretože trhliny sú tenké, priestorovo lokalizované prvky vyžadujúce zachovanie vysokofrekvenčných detailov počas celej pipeline podvzorkovania a prevzorkovania.

Enkodér (kontrakčná cesta) U-Net pozostáva zo štyroch podvzorkovacích blokov. Každý blok obsahuje dve 3×3 konvolúcie (padding=same) nasledované ReLU aktiváciou a 2×2 max pooling operáciou (stride=2). Počet filtrov sa na každej úrovni zdvojnásobuje: 64 → 128 → 256 → 512 → 1024 na úzkom mieste. Pre vstup 512×512 pixelov sa priestorové rozmery cez enkodér zmenšujú ako 512 → 256 → 128 → 64 → 32 v najhlbšej vrstve. Úzke miesto (bottleneck) na spodku tvaru U obsahuje 1024 feature máp v rozlíšení 32×32, čo predstavuje najabstraktnejšie, sémanticky najbohatšie prvky.

Dekodér (rozširujúca cesta) zrkadlí enkodér so štyrmi prevzorkovacími blokmi. Každý blok aplikuje 2×2 transponovanú konvolúciu (dekonvolúciu), ktorá znižuje počet filtrov na polovicu a zdvojnásobuje priestorové rozmery. Prevzorkovaná feature mapa je zreťazená so zodpovedajúcou feature mapou z enkodérovej cesty cez preskakovacie spojenia — napríklad vrstva dekodéra v rozlíšení 128×128 dostáva priame zreťazenie z enkodérovej vrstvy 128×128. Tento mechanizmus preskakovacích spojení je kritický: poskytuje dekodéru vysokorozlíšené priestorové detaily z enkodéra, ktoré by boli inak stratené počas agresívneho podvzorkovania. Po zreťazení dve 3×3 konvolúcie s ReLU upresňujú kombinované prvky.

Finálna výstupná vrstva je 1×1 konvolúcia so sigmoid aktiváciou, produkujúca jednokanálovú mapu pravdepodobností, kde každá hodnota pixelu (0 až 1) predstavuje pravdepodobnosť, že daný pixel patrí do oblasti trhliny. Prah (typicky 0,5) konvertuje pravdepodobnosti na binárnu segmentáciu trhlina/netrhilna.

Pôvodný U-Net obsahuje ~31 miliónov parametrov a 23 konvolučných vrstiev. Pre vstup 512×512 je rýchlosť inferencie približne 40 ms na snímku na modernej GPU (NVIDIA RTX 3080 alebo ekvivalent). Ľahké varianty ako ResU-Net (používajúci reziduálne spojenia namiesto obyčajných konvolúcií) redukujú parametre na ~7,8 milióna, pričom dosahujú 68,47 % stredného IoU na datasetoch trhlín. EGA-UNet ďalej redukuje na ~2,3 milióna parametrov, zatiaľ čo zlepšuje Dice na 73,1 % pomocou ghost konvolúcií a Fourier-based token mixingu.

Preskakovacie spojenia U-Net sú architektonicky nevyhnutné pre detekciu trhlín. Bez nich by boli tenké trhliny (1–5 pixelov široké) úplne stratené počas 4-násobného podvzorkovania (32× redukcia na úzkom mieste) — 3-pixelová široká trhlina na vstupe sa stáva sub-pixelovým prvkom na úzkom mieste, ktorý nemožno obnoviť samotným prevzorkovaním. Preskakovacie spojenia úplne obchádzajú toto informačné úzke miesto a poskytujú dekodéru geometriu trhliny v plnom rozlíšení z enkodéra.

DeepLabV3+

DeepLabV3+, vyvinutý Chenom et al. v Google v roku 2018, rieši detekciu trhlín pomocou atrous (dilatovaných) konvolúcií a modulu Atrous Spatial Pyramid Pooling (ASPP) . Na rozdiel od U-Net, ktorý agresívne podvzorkuje a obnovuje cez preskakovacie spojenia, DeepLab udržiava feature mapy s vyšším rozlíšením počas celej chrbtice pomocou dilatovaných konvolúcií, ktoré rozširujú receptívne pole bez zmenšovania priestorových rozmerov.

Chrbtica (backbone) je typicky ResNet-101 (101 vrstiev, ~42,6 milióna parametrov) alebo Xception-65 (~54,7 milióna parametrov). Štandardné konvolúcie v chrbtici sú nahradené atrous konvolúciami — 3×3 jadrá s dilatačnými pomermi (diery) vloženými medzi prvky jadra. 3×3 jadro s dilatačným pomerom r=2 pokrýva receptívne pole 5×5; r=4 pokrýva 9×9; r=8 pokrýva 17×17; a r=16 pokrýva 33×33 — všetky s rovnakým počtom parametrov (9 váh) ako štandardná 3×3 konvolúcia. Táto vlastnosť je kritická pre detekciu trhlín: umožňuje modelu vidieť väčší kontext okolo každého pixelu (odlíšenie trhlín od textúry povrchu) bez straty rozlíšenia, ktorá by nastala pri podvzorkovaní.

Modul ASPP aplikuje štyri paralelné atrous konvolučné vetvy s dilatačnými pomermi r=6, 12, 18 a 24 (pre výstupný krok=16), každá s 256 filtrami a 3×3 jadrami. Dodatočná 1×1 konvolučná vetva a vetva na úrovni obrazu (globálne priemerné poolovanie → 1×1 konvolúcia → bilineárne prevzorkovanie) dokončujú modul. Všetkých päť vetiev produkuje 256-kanálové feature mapy, ktoré sú zreťazené a prejdú ďalšou 1×1 konvolúciou. Viacmierková schopnosť ASPP modulu je obzvlášť dôležitá pre trhliny, ktoré sa výrazne líšia v šírke — vlásková trhlina (<1 mm) a široká trhlina (>6 mm) vyžadujú rôzne veľkosti receptívnych polí pre optimálnu detekciu.

Dekodér DeepLabV3+ je ľahký v porovnaní s plným dekodérom U-Net: bilineárne prevzorkovanie 4×, zreťazenie s nízkourovňovými prvkami z ranej vrstvy chrbtice (redukované na 48 kanálov cez 1×1 konvolúciu), dve 3×3 konvolúcie (256 filtrov) a finálne bilineárne prevzorkovanie 4× na pôvodné rozlíšenie. Výstupný krok je typicky 16 (vstupné rozlíšenie delené 16 na úzkom mieste), niekedy 8 pre hustejšie feature mapy za cenu 2× vyššej spotreby pamäte.

DeepLabV3+ dosahuje približne 78,5 % mIoU na datasetoch trhlín. Štúdia EGA-UNet (2025) však uviedla, že DeepLabV3+ nedosahuje také výsledky ako ľahké architektúry ako EGA-UNet (73,1 % Dice oproti nižšiemu pre DeepLabV3+) kvôli nedostatočnému zachovaniu jemných detailov na okrajoch trhlín. Dilatácie ASPP modulu, aj keď účinné pre viacmierkový kontext, rozmazávajú jemné priestorové detaily, ktoré sú nevyhnutné pre presné meranie šírky trhlín.

Vision Transformery (ViT)

Vision Transformery (ViT) , predstavené Dosovitskiym et al. v Google v roku 2020, aplikujú Transformer architektúru so samopozornosťou — pôvodne vyvinutú pre spracovanie prirodzeného jazyka — na analýzu obrazu. ViT rozdeľuje vstupný obraz na neprekrývajúce sa bloky (patche) veľkosti P×P (typicky 16×16 pixelov), linearizuje každý blok do vektora a spracúva sekvenciu blokových embeddingov cez štandardné Transformer enkodérové vrstvy s viachlavovou samopozornosťou.

Pre vstup 224×224 s blokmi 16×16 produkuje ViT (224/16)² = 196 blokových embeddingov. Každý blok s rozmermi 16×16×3 (RGB) je sploštený do 768-rozmerného vektora a lineárne projektovaný do embeddingovej dimenzie D. Transformer enkodér pozostáva z L vrstiev (stacked layers). ViT-Base používa L=12, D=768 a 12 hlavičiek pozornosti (86M parametrov). ViT-Large používa L=24, D=1024 a 16 hlavičiek (307M parametrov). ViT-Huge používa L=32, D=1280 a 16 hlavičiek (632M parametrov). Zložitosť samopozornosti škáluje ako O(n²·D), kde n je počet blokov — 196 blokov s D=768 vyžaduje približne 28 miliónov operácií na hlavičku na vrstvu.

Pre segmentáciu trhlín sa ViT používa ako chrbtica v hybridných architektúrach enkodér-dekodér. TransUNet nahrádza U-Net enkodér ViTom, kombinujúc Transformer globálny kontext s CNN dekodérom pre obnovu jemných detailov. SwinUNet používa hierarchický Swin Transformer s posunutými oknami na zníženie výpočtových nákladov O(n²). SETR (SEgmentation TRansformer) aplikuje ViT priamo ako enkodér s progresívnym prevzorkovaním.

Výhoda ViT pre detekciu trhlín spočíva v jeho globálnom receptívnom poli. CNN spracúvajú informácie lokálne a vyžadujú mnoho vrstiev na propagáciu informácií cez veľké priestorové vzdialenosti. Mechanizmus samopozornosti ViT spája každý blok s každým iným blokom v jedinej vrstve, čo umožňuje detekciu dlhých, súvislých trhlín, ktoré sa tiahnu cez stovky alebo tisíce pixelov — napríklad únavové trhliny kľukatiace sa cez celú šírku dráhy. Hybridné ViT-CNN modely dosahujú 74–78 % IoU na datasetoch trhlín, pričom TransUNet vykazuje osobitnú silu pri aligátorových (vzájomne prepojených) vzoroch trhlín.

Kritickým obmedzením sú výpočtové náklady. Snímka 512×512 rozdelená na bloky 16×16 produkuje (512/16)² = 1 024 blokov, vyžadujúc 1 024² ≈ 1 milión výpočtov pozornosti na vrstvu — rádovo viac ako 196 blokov pre vstupy 224×224. To robí plné nasadenie ViT na okrajových zariadeniach (drony, mobilné kontrolné vozidlá) nepraktickým bez výraznej kompresie alebo prerezania.

DINOv3

DINOv3, vydaný Meta AI v roku 2025, predstavuje špičku v oblasti samo-učiacich sa Vision Transformerov. Je treťou generáciou rodiny DINO (DIstillation with NO labels), trénovanou v bezprecedentnom rozsahu: až 7 miliárd parametrov na 1,7 miliardy neoznačených snímok. DINOv3 používa rámec učiteľ-študent, kde sa študent učí zhodovať výstupné reprezentácie učiteľa bez akýchkoľvek ľudsky označených dát.

Kľúčovou architektonickou inováciou DINOv3 je Gram Anchoring — regularizačná technika aplikovaná po približne 1 milióne tréningových iterácií, ktorá stabilizuje husté (na úrovni blokov) reprezentácie prvkov. Gramova matica študentského modelu (párová podobnosť blokov, rozmery N×N kde N=počet blokov) je obmedzená tak, aby zostala blízko skopírovanej zamrznutej “Gram učiteľke”. Toto zabraňuje kolapsu hustých prvkov (dense feature collapse) , čo je režim zlyhania v samo-učiacom sa učení, kde sa odlišné bloky obrazu zbiehajú do podobných embeddingov napriek tomu, že sú sémanticky odlišné. Staršie varianty DINO (v1 a v2) trpeli týmto kolapsom počas predĺženého tréningu; Gram Anchoring umožňuje stabilný tréning na miliardách snímok.

Pre detekciu trhlín spočíva relevantnosť DINOv3 v paradigme zamrznutej chrbtice (frozen backbone) . Predtrénovaná ViT chrbtica (dostupná vo veľkostiach od ViT-Small s 21M parametrami po ViT-Huge so 632M a vlajkový model 7B) je zmrazená a používa sa ako univerzálny vizuálny enkodér. Ľahké hlavičky špecifické pre danú úlohu — lineárne sondy, MLP adaptéry alebo malé konvolučné hlavičky — sú trénované na vrchu bez spätnej propagácie cez chrbticu. To umožňuje:

  • Detekciu trhlín s niekoľkými príkladmi (few-shot): Lineárna sonda trénovaná na iba 50 označených snímkach trhlín dosahuje presnosť segmentácie porovnateľnú s plne supervidovanou CNN trénovanou na 500+ snímkach.
  • Prenos naprieč doménami (cross-domain transfer): Prvky naučené z prirodzených snímok (dáta na úrovni ImageNet) sa prenášajú na snímky vozovkových trhlín bez doménovo špecifického predtrénovania.
  • Nasadzovanie pre viacero úloh (multi-task deployment): Jediná zamrznutá chrbtica slúži súčasne na detekciu trhlín, detekciu výtlkov, hodnotenie škárových tmelov a posudzovanie značenia vozoviek prostredníctvom rôznych ľahkých hlavičiek.

Prvky na úrovni blokov DINOv3 (nie globálne obrazové embeddingy) zachovávajú jemnozrnné priestorové informácie potrebné pre delineáciu tenkých trhlín. Variant ViT-Base (86M parametrov, 12 vrstiev, 768 embeddingová dimenzia) poskytuje najlepší pomer presnosti k výpočtom pre aplikácie kontroly infraštruktúry. DINOv3 je obzvlášť sľubný pre programy kontroly letiskových dráh, kde je označených údajov o trhlinách málo — čo je bežný scenár pre menšie letiská bez rozsiahlej histórie správy vozoviek.

CrackNet

CrackNet, vyvinutý Zhangom et al. v roku 2017 na Univerzite v Južnej Floride, bol jednou z prvých hlbokých CNN architektúr navrhnutých špecificky a výhradne pre automatizovanú detekciu trhlín na vozovkách. Na rozdiel od univerzálnych architektúr (U-Net, DeepLab) adaptovaných z biomedicínskej alebo prirodzenej segmentácie obrazu, CrackNet bol navrhnutý od základov pre morfológiu vozovkových trhlín.

Pôvodná architektúra CrackNet pozostáva z 6 konvolučných vrstiev s plne prepojeným vrchom: Conv1 (5×5, stride=1, 64 filtrov) → Conv2 (5×5, stride=1, 64 filtrov) → MaxPool (2×2) → Conv3 (3×3, stride=1, 128 filtrov) → Conv4 (3×3, stride=1, 128 filtrov) → MaxPool (2×2) → Conv5 (5×5, stride=1, 256 filtrov) → Conv6 (3×3, stride=1, 256 filtrov) → Plne prepojená (2 048 jednotiek) → Softmax výstup (2 triedy: trhlina alebo netrhilna). Celkový počet parametrov je ~1,4 milióna — približne 22× menší ako U-Net (31M) a 35× menší ako DeepLabV3+ (42–55M).

CrackNet pracuje na 64×64 pixelových blokoch pevnej veľkosti, nie na celých snímkach. Tréningový dataset pozostával z 640 000 blokov extrahovaných z 1 800 snímok vozoviek (160 000 pre validáciu, 180 000 pre testovanie). Každý blok je klasifikovaný ako obsahujúci trhlinu v stredovom pixeli alebo nie — toto je prístup klasifikácie blokov (patch-based classification) , nie pixelová segmentácia. Moderné varianty (CrackNet-V, CrackNet-II, CrackNet-R) nahradili klasifikátor blokov plne konvolučnými sieťami pre hustú predikciu na úrovni pixelov.

CrackNet-V (vylepšený variant z roku 2020) pridal tréning založený na Generatívnych adverzárnych sieťach (GAN). Generátor produkuje mapy segmentácie trhlín zo vstupných snímok a diskriminátorová sieť rozlišuje vygenerované mapy od anotácií ground truth. Tento adverzárny tréningový režim zlepšil F1-skóre na 0,87 na CFD datasete. CrackNet-V tiež zaviedol viacmierkovú fúziu prvkov s modulmi inšpirovanými inception, umožňujúc detekciu trhlín v rôznych šírkach.

Význam CrackNet spočíva v architektonickej efektívnosti pre nasadenie na okrajových zariadeniach. Pri 1,4M parametroch a 5 ms na blok preukázal, že architektúra navrhnutá špecificky pre trhliny môže dosiahnuť presnosť na produkčnej úrovni na hardvéri dostupnom v roku 2017 — jediný NVIDIA Tesla K80 GPU dokázal spracovať celú snímku vozovky (zošitú z blokov) za menej ako 2 sekundy. To preukázalo uskutočniteľnosť automatizovanej detekcie trhlín v reálnom čase pre prieskumné vozidlá pri rýchlostiach na diaľnici.

EGA-UNet (2025)

EGA-UNet, publikovaný Yangom et al. v Scientific Reports (Vol. 15, Article 33818, 2025), predstavuje súčasnú špičku v efektívnej segmentácii trhlín. Architektúra dosahuje 73,1 % Dice koeficient s iba ~2,3 milióna parametrov — približne 13× menšia ako štandardný U-Net, pričom zlepšuje presnosť o +3,1 % Dice oproti U-Net, +11,9 % oproti SegNet a +44,9 % oproti PSPNet na benchmarkových datasetoch trhlín.

Tri architektonické inovácie odlišujú EGA-UNet:

EG-Block (Efficient Ghost Sparse Convolution Block): Tento stavebný blok používa “ghost” konvolúciu — techniku, ktorá generuje malý počet vnútorných feature máp pomocou štandardnej konvolúcie a potom aplikuje lacnejšie lineárne operácie (3×3 depthwise konvolúcie) na produkciu dodatočných “ghost” feature máp. Pre požadovaný výstup C kanálov generuje ghost konvolúcia približne C/2 pomocou štandardnej konvolúcie a C/2 pomocou lineárnych operácií, čím znižuje výpočty približne o 50 % v porovnaní so štandardnou konvolúciou pri ekvivalentných výstupných kanáloch. EG-Block obsahuje Efficient Multi-scale Attention (EMA) modul, ktorý váhuje prvky naprieč viacerými priestorovými mierkami.

A-RepViT Block: Tento nahrádza štandardný Vision Transformer token mixer pomocou Adaptive Fourier Filtering (AFF) . Vstupná feature mapa je transformovaná do frekvenčnej domény pomocou Rýchlej Fourierovej transformácie (FFT), frekvenčné zložky sú adaptívne filtrované (dolnopriepustné, hornopriepustné alebo pásmové v závislosti od naučených váh) a inverzná FFT rekonštruuje priestorovú feature mapu. AFF zachytáva globálny kontext so zložitosťou O(n log n) oproti O(n²) pre samopozornosť — pre feature mapu 32×32 (1 024 prvkov) to znižuje výpočty z ~1M operácií na ~10K operácií na vrstvu.

SPPF (Spatial Pyramid Pooling Fast): Aplikovaný v najhlbšej enkodérovej vrstve, SPPF agreguje viacmierkové prvky pomocou troch sekvenčných max-poolingových operácií s rôznymi veľkosťami jadier (5×5, 9×9, 13×13 efektívne receptívne polia), zreťazených do jednotnej viacmierkovej reprezentácie. Toto je výpočtovo efektívne v porovnaní s paralelným ASPP (používaným v DeepLab), pretože sekvenčné poolovanie znovu používa medzivýsledky.

Rýchlosť inferencie EGA-UNet je dostatočná pre nasadenie v reálnom čase na okrajových zariadeniach. Na NVIDIA Jetson Orin Nano Super dosahuje model približne 45–55 FPS pri FP16 presnosti na vstupoch 512×512, čo ho robí vhodným pre dronovú alebo vozidlovú detekciu trhlín v reálnom čase. Ľahký dizajn umožňuje nasadenie na platformách bez dedikovaných GPU — bola preukázaná inferencia pri 8–12 FPS na Raspberry Pi 5 s Hailo-8L NPU akcelerátorom (13 TOPS).

Porovnanie architektúr

ArchitektúraParametreDizajnový princípKľúčová inováciaDice/IoU pre trhlinyNasaditeľná na okraji
U-Net (2015)~31MEnkodér-dekodér, skip spojeniaZachovanie priestorových detailov65–68 % IoUS kvantizáciou
ResU-Net~7,8MReziduálne skip spojeniaZlepšenie toku gradientu68,5 % IoUÁno
DeepLabV3+ (2018)~42–55MAtrous konvolúcia, ASPPViacmierkový kontext~75 % IoUNie
ViT-Base (2020)86MSamopozornosť na blokochGlobálne receptívne pole74–78 % IoUNie
DINOv3 (2025)21M–7BSamo-učenie, zamrznutá chrbticaFew-shot prenosPorovnateľné so supervidovanýmS adaptérovou hlavičkou
CrackNet (2017)~1,4MCNN na blokochDizajn špecifický pre vozovky~87 % F1 (blok)Áno
EGA-UNet (2025)~2,3MGhost konv. + AFF token mixingĽahký + globálny kontext73,1 % DiceÁno

Tréningové datasety pre detekciu trhlín

Trénovanie modelov detekcie trhlín vyžaduje pixelovo anotované datasety, kde každá snímka má zodpovedajúcu binárnu masku označujúcu každý pixel ako trhlinu (biela, hodnota 1) alebo netrhlinu (čierna, hodnota 0). Proces anotácie je pracovne náročný — jedna snímka 2000×1500 pixelov vyžaduje 15–45 minút expertného manuálneho označovania pomocou nástrojov na kreslenie lomených čiar, po ktorom nasleduje morfologická dilatácia na vytvorenie masiek trhlín v plnej šírke. Nasledujúce datasety tvoria štandardné benchmarky pre akademický výskum a vývoj modelov.

Crack500

Crack500, publikovaný Yangom et al. v roku 2020, obsahuje 500 RGB snímok v rozlíšení 2000×1500 pixelov (3 megapixely na snímku). Snímky boli nasnímané pomocou kamier mobilných telefónov na povrchoch vozoviek okolo Temple University vo Philadelphii, USA. Každá snímka má zodpovedajúcu pixelovú binárnu segmentačnú masku anotovanú manuálne pomocou nástrojov na kreslenie lomených čiar. Výskumníci bežne rozdeľujú 500 snímok na približne 1 896 neprekrývajúcich sa blokov 512×512 pre tréning modelu. Štandardné rozdelenie prideľuje 350 snímok na tréning, 50 na validáciu a 100 na testovanie. Trhlinové pixely tvoria približne 2–5 % všetkých pixelov na snímku. Šírky trhlín sa pohybujú od 0,1 mm do 5 mm a snímky zahŕňajú viacero svetelných podmienok (slnečno, zamračené, zatienené). Typy trhlín zahŕňajú pozdĺžne, priečne a aligátorové vzory.

DeepCrack

DeepCrack, publikovaný Liuom et al. v Neurocomputing (2019), obsahuje 537 RGB snímok v rozlíšení 544×384 pixelov. Snímky boli nasnímané z rôznych betónových a asfaltových povrchov — mostov, ciest, tunelov a stien budov — čo poskytuje viacscénové pokrytie, ktoré je v jednoduchých datasetoch z vozoviek nezvyčajné. Každá snímka má pixelové binárne anotácie ako PNG masky. Dataset je vopred rozdelený na približne 300 tréningových a 237 testovacích snímok. DeepCrack bol špecificky vytvorený na hodnotenie architektúry Holistically-Nested Edge Detection (HED) adaptovanej pre detekciu trhlín. Dataset zahŕňa náročné podmienky: nízky kontrast medzi trhlinami a pozadím, tenké trhliny (1–3 pixely široké) a textúrované povrchové pozadia. Trhliny sú kategorizované podľa šírky, nie podľa štrukturálneho typu.

CrackForest Dataset (CFD)

CFD, publikovaný Shiom et al. v IEEE Transactions on Intelligent Transportation Systems (2016), obsahuje 118 snímok v rozlíšení 480×320 pixelov. Snímky boli nasnímané pomocou iPhone 5 na mestských cestách v Pekingu, Čína. Každá snímka má manuálne anotované ground truth masky na úrovni pixelov, plus priečinok “seg” so segmentáciami založenými na superpixeloch. Dataset bol navrhnutý tak, aby odrážal všeobecné podmienky mestských ciest a zahŕňa faktory šumu: tiene zo stromov a budov, olejové škvrny, mláky vody a pokrytie lístím. Trhlinové pixely tvoria približne 4–8 % každej snímky. Nízke rozlíšenie 480×320 robí detekciu tenkých trhlín náročnou — trhliny môžu byť široké len 1–2 pixely. CFD je licencovaný len na nekomerčné výskumné použitie s požiadavkou na citáciu. Jeho hlavným obmedzením je malá veľkosť (118 snímok), jedna geografická oblasť a jedna kamera.

GAPs384

GAPs384 (German Asphalt Pavement Distress dataset) , z Technickej univerzity v Ilmenau, Nemecko, obsahuje 1 969 snímok v rozlíšení 1920×1080 pixelov (Full HD). Toto je najväčší verejný dataset trhlín z jedného zdroja podľa počtu snímok. Snímky sú odtiene sivej (nie RGB), čo znižuje veľkosť súboru, ale eliminuje farebné informácie, ktoré môžu pomôcť pri rozlišovaní trhlín. Anotácie zahŕňajú klasifikáciu typu trhliny (pozdĺžna, priečna, aligátorová) okrem pixelových masiek trhlín. Vysoké rozlíšenie a konzistentné podmienky snímania (nemecká diaľničná sieť) robia GAPs384 cenným pre trénovanie modelov určených pre európske podmienky vozoviek. Dataset zahŕňa širšiu škálu závažností trhlín ako CFD alebo Crack500.

NHA12D

NHA12D, publikovaný Huangom et al. (2022), obsahuje 80 snímok vozoviek zozbieraných z britskej diaľničnej siete A12 organizáciou National Highways (predtým Highways England). Dataset jedinečne zahŕňa 40 snímok betónových vozoviek a 40 snímok asfaltových vozoviek nasnímaných za rovnakých prieskumných podmienok digitálnymi prieskumnými vozidlami. Toto dvojsvrchníkové zloženie robí NHA12D cenným pre hodnotenie generalizácie naprieč doménami — schopnosť modelu detekovať trhliny na oboch typoch povrchu bez degradácie. K dispozícii sú anotácie ground truth na úrovni pixelov. Malá veľkosť (80 snímok) robí NHA12D primárne benchmarkovým datasetom, nie tréningovým zdrojom.

DatasetSnímkyRozlíšenie% trhlín/snímkaZdrojRok
Crack5005002 000 × 1 5002–5 %Cesty Philadelphia2020
DeepCrack537544 × 384rôzneViacscénový2019
CFD118480 × 3204–8 %Cesty Peking2016
GAPs3841 9691 920 × 1 080rôzneNemecké diaľnice2020
NHA12D80Vysoké rozlíšenierôzneDiaľnica A12, UK2022
CrackTree200206800 × 600rôzneVozovka (náročná)2012

Triedna nevyváženosť a loss funkcie

Všetky datasety trhlín vykazujú výraznú triednu nevyváženosť: trhlinové pixely tvoria 2–8 % všetkých pixelov, čo znamená, že modely sa musia učiť v priemere z 500–2 000 trhlinových pixelov na snímku s 25 000 celkovými pixelmi (480×320 CFD rozlíšenie). Štandardná cross-entropia loss je neúčinná — model minimalizuje loss predpovedaním “pozadia” pre každý pixel. Špecializované loss funkcie riešia tento problém:

Focal Loss (Lin et al., 2017) aplikuje modulačný faktor (1 − pt)γ na cross-entropiu loss, kde pt je predikovaná pravdepodobnosť modelu pre triedu ground truth a γ je zaostrovací parameter (typicky 2,0). Toto znižuje váhu dobre klasifikovaných príkladov (pt → 1,0) a zvyšuje váhu ťažkých, chybne klasifikovaných príkladov (pt → 0,0). Pre detekciu trhlín s γ=2,0 focal loss znižuje príspevok jednoduchých pixelov pozadia približne 4× v porovnaní s cross-entropiou.

Dice Loss (Milletari et al., 2016) = 1 − Dice koeficient = 1 − (2TP + ε)/(2TP + FP + FN + ε). Toto priamo optimalizuje metriku hodnotenia. Dice loss je menej citlivá na triednu nevyváženosť ako cross-entropia, pretože meria prekrytie, nie presnosť na pixel. Je štandardnou loss funkciou pre U-Net segmentáciu trhlín.

Tversky Loss (Saleh et al., 2017) zovšeobecňuje Dice loss vážením falošne pozitívnych a falošne negatívnych výsledkov odlišne: Tversky index = TP/(TP + α·FP + β·FN). Pre bezpečnostne kritickú detekciu trhlín, kde sú falošne negatívne výsledky (prehliadnuté trhliny) nebezpečnejšie ako falošne pozitívne (falošné poplachy), nastavenie α=0,3 a β=0,7 penalizuje FN viac ako FP.

SupContrast (Supervised Contrastive Loss) , relevantný pre prístupy založené na DINOv3, priťahuje blokové embeddingy trhlinových pixelov k sebe v embeddingovom priestore, zatiaľ čo ich odtláča od embeddingov pixelov pozadia. Toto vytvára dobre štruktúrovaný embeddingový priestor, kde trhlinové pixely tvoria tesné zhluky, ktoré sú lineárne oddeliteľné od zhlukov pozadia.

Klasifikácia vs. segmentácia trhlín

Prístupy k detekcii trhlín pomocou AI spadajú do dvoch metodologických kategórií: klasifikačné a segmentačné, každá s odlišnými výstupmi, metrikami a prípadmi použitia.

Klasifikácia trhlín určuje, či oblasť snímky (blok, dlaždica alebo celá snímka) obsahuje trhlinu. Výstupom je binárny štítok (trhlina prítomná / trhlina neprítomná) alebo viac triedny štítok (typ trhliny: pozdĺžna, priečna, aligátorová). Klasifikačné modely sú typicky ľahké CNN (CrackNet s 1,4M parametrami, MobileNetV2 s 3,5M parametrami) trénované na datasetoch na úrovni blokov. Výstup poskytuje pravdepodobnosť prítomnosti trhliny a polohu (ktorý blok obsahuje trhlinu), ale neposkytuje geometriu trhliny — šírku, dĺžku, orientáciu alebo topológiu. Klasifikácia je vhodná pre rýchly screening, kde je cieľom identifikovať miesta trhlín na následnú kontrolu, nie merať jednotlivé trhliny. Hodnotenie používa presnosť, precision, recall a F1 na úrovni bloku alebo snímky.

Segmentácia trhlín (sémantická segmentácia) klasifikuje každý pixel jednotlivo ako trhlinu alebo netrhlinu. Výstupom je binárna maska v rovnakom rozlíšení ako vstupná snímka, kde každý pixel má pravdepodobnosť trhliny. To poskytuje kompletnú geometriu trhliny — šírku v každom bode pozdĺž trhliny, celkovú dĺžku, uhol orientácie, topológiu vetvenia a plochu trhliny. Segmentácia je potrebná pre kvantitatívne hodnotenie stavu vozovky (výpočet PCI, klasifikácia závažnosti šírky trhlín podľa noriem ICAO). Hodnotenie používa metriky na úrovni pixelov: IoU, Dice, precision, recall a boundary F1. Segmentačné modely sú výpočtovo náročnejšie (U-Net s 31M parametrami, DeepLabV3+ so 42–55M), ale poskytujú podstatne bohatší výstup.

Niektoré systémy používajú inštančnú segmentáciu (detekciu každej jednotlivej trhliny ako samostatného objektu), ktorá rozlišuje medzi neprepojenými trhlinami. To je relevantné pre počítanie trhlín (počet trhlín na jednotku plochy) a mapovanie hustoty trhlín. Mask R-CNN a YOLOv8-seg sú bežné architektúry inštančnej segmentácie pre detekciu trhlín.

Metriky hodnotenia

Intersection over Union (IoU)

IoU (Jaccard Index) meria prekrytie medzi predikovanou segmentáciou trhlín a ground truth, delené zjednotením oboch. Je to najčastejšie uvádzaná metrika pre segmentáciu trhlín:

IoU = TP / (TP + FP + FN)

Hodnoty sa pohybujú od 0 (žiadne prekrytie) do 1 (dokonalé prekrytie). Typické IoU pre modely detekcie trhlín sa pohybuje od 0,55 do 0,75. IoU je citlivejšia ako Dice na falošne pozitívne a falošne negatívne výsledky, pretože menovateľ zjednotenia je väčší ako jednotlivé súčty. Model predpovedajúci 100-pixelovú ground truth trhlinu so 60 správnymi pixelmi (TP=60, FP=20, FN=40) dosahuje IoU = 60/(60+20+40) = 0,50. Prísnejší menovateľ zjednotenia znamená, že IoU je vždy nižšie alebo rovné ako Dice pre rovnakú predikciu.

Dice koeficient (F1 skóre)

Dice (tiež nazývané F1 skóre pre binárnu segmentáciu) je harmonický priemer precision a recall:

Dice = 2 × TP / (2 × TP + FP + FN)

Dice súvisí s IoU: Dice = 2·IoU / (1 + IoU). Pre príklad vyššie (IoU=0,50) je Dice = 2×0,50/1,50 = 0,67. Typické Dice pre detekciu trhlín sa pohybuje od 0,65 do 0,80. Práca EGA-UNet (2025) uvádza Dice = 73,1 % ako svoju primárnu metriku. Dice poskytuje optimistickejšie hodnotenie kvality segmentácie ako IoU a rozdiel medzi nimi sa zväčšuje, keď sa kvalita znižuje — nízko kvalitná predikcia s IoU=0,25 má Dice=0,40.

Precision a Recall

Precision (Pozitívna prediktívna hodnota) = TP/(TP+FP). Meria mieru falošných poplachov: z všetkých pixelov označených ako trhlina, aký podiel je skutočne trhlina? Vysoká precision (>0,85) znamená málo falošne pozitívnych výsledkov. Dôležitá, keď detekcia trhlín spúšťa nákladné následné akcie (napr. vyslanie utesňovacích čiat na kontrolu označených miest).

Recall (Senzitivita, miera skutočne pozitívnych) = TP/(TP+FN). Miera prehliadnutých trhlín: zo všetkých skutočných pixelov trhlín, aký podiel model detekoval? Vysoký recall (>0,85) znamená málo prehliadnutých trhlín. Pre bezpečnostne kritickú infraštruktúru (kontrola letiskových dráh na komerčných letiskách) je recall prioritnejší ako precision — vyšetrovanie falošného poplachu je menej dôležité ako prehliadnutie skutočnej trhliny, ktorá by sa mohla rozvinúť do štrukturálneho zlyhania pri zaťažení lietadlom.

Priemerná presnosť (mAP)

mAP hodnotí presnosť naprieč rôznymi recall prahmi, typicky uvádzaná pri IoU prahoch 0,50 (mAP@50) a od 0,50 do 0,95 v 0,05 krokoch (mAP@50:95). Pre detekciu trhlín ako úlohu detekcie objektov (ohraničujúce rámčeky) mAP meria, ako dobre model lokalizuje oblasti trhlín. Štúdia University of Central Florida z roku 2025 používajúca Grounding DINO na tepelnú detekciu trhlín dosiahla 70 % mAP@[0,5:0,95]. Pre úlohy pixelovej segmentácie sú IoU a Dice preferované pred mAP, pretože trhliny sú neobdĺžnikové štruktúry a metriky ohraničujúcich rámčekov slabo reprezentujú kvalitu segmentácie.

Porovnanie metrík

MetrikaVzorecRozsahTypická hodnota pre trhlinyPoužitie
IoUTP/(TP+FP+FN)0–10,55–0,75Kvalita segmentácie (prísna)
Dice2TP/(2TP+FP+FN)0–10,65–0,80Kvalita segmentácie (zhovievavá)
PrecisionTP/(TP+FP)0–10,80–0,95Kontrola falošných poplachov
RecallTP/(TP+FN)0–10,80–0,95Bezpečnostne kritická detekcia
F12PR/(P+R)0–10,80–0,92Celková
mAP@50Priem. presnosť pri IoU≥0,50–10,70–0,85Detekcia objektov
Presnosť pixelov(TP+TN)/(TP+TN+FP+FN)0–1>0,95 (zavádzajúce)Neodporúča sa pre trhliny

Meranie šírky a dĺžky trhlín zo segmentácie

Binárna segmentačná maska z AI modelu poskytuje polohu a tvar trhlín, ale normy kontroly infraštruktúry vyžadujú fyzické rozmery trhlín — šírku v milimetroch, dĺžku v metroch a plochu v štvorcových milimetroch. Prevod pixelových masiek na technické merania vyžaduje pipeline výpočtovej geometrie.

Skeletonizácia

Skeletonizácia (ztenšovanie) redukuje oblasť trhliny na jediný pixel širokú stredovú líniu, ktorá zachováva topológiu trhliny (spojitosť, vetvenie, koncové body). Zhang-Suen thinning algoritmus (1984) je štandardnou metódou:

  1. Vstup: Binárna maska trhliny (biela=trhlina, čierna=pozadie)
  2. Iteratívny dvojprechodový postup:
    • Prechod 1: Označ okrajové pixely na odstránenie, ak: (a) 2 ≤ N(P1) ≤ 6 (počet nenulových 8-susedov); (b) S(P1) = 1 (počet prechodov 0→1 v cykle 8-susedov); (c) P2×P4×P6 = 0; (d) P4×P6×P8 = 0
    • Prechod 2: Rovnaké podmienky s (c’) P2×P4×P8 = 0; (d’) P2×P6×P8 = 0
    • Opakuj, kým sa v iterácii nezmení žiadny pixel
  3. Výstup: Skeleton stredovej línie, presne 1 pixel široký

Mediálna osová transformácia (MAT) je alternatívou využívajúcou distance transform: pre každý vnútorný pixel trhliny vypočítaj minimálnu euklidovskú vzdialenosť k okraju trhliny. Skeleton pozostáva z pixelov, ktoré sú lokálnymi maximami v tejto mape vzdialeností. MAT produkuje hladšie skeletonizácie pre hrubé, nepravidelné trhliny, ale vyžaduje výpočet O(n²) oproti O(n) pre Zhang-Suen thinning.

Distance transform na meranie šírky

Euklidovská distance transform (EDT) vypočíta minimálnu euklidovskú vzdialenosť z každého skeletonového pixelu (x,y) k najbližšiemu okrajovému pixelu trhliny:

D(x,y) = min(i,j)∈∂C √((x−i)² + (y−j)²)

kde ∂C je množina okrajových pixelov oblasti trhliny. Šírka trhliny v bode (x,y) = 2 × D(x,y), pretože vzdialenosť od stredovej línie k okraju je polovica plnej šírky trhliny.

Distance transform sa efektívne počíta pomocou:

  • Fast Marching Method: O(n log n) pre presnú euklidovskú vzdialenosť
  • Danielssonovho algoritmu: O(n) pre aproximáciu 4-spojenej vzdialenosti
  • OpenCV cv2.distanceTransform(): O(n) dvojprechodový rastrový sken produkujúci aproximatívnu euklidovskú vzdialenosť s chybou <1 %

Štatistiky šírky odvodené z poľa šírok na pixel:

  • Priemerná šírka trhliny: priemer cez všetky skeletonové pixely — používa sa na celkovú klasifikáciu závažnosti trhliny
  • Maximálna šírka trhliny: najväčšia jednotlivá hodnota šírky — používa sa na hodnotenie závažnosti v najhoršom prípade
  • Histogram šírok: rozdelenie šírok pozdĺž dĺžky trhliny — indikuje rovnomernosť trhliny

Výpočet dĺžky trhliny

Dĺžka trhliny sa meria zo skeletonizovanej stredovej línie:

Metóda 1 — Počítanie pixelov s korekciou spojitosti:

  • Spočítaj celkové skeletonové pixely
  • Uprav pre diagonálnu susednosť: každý 4-spojený (ortogonálny) krok = 1 pixel; každý diagonálny krok = √2 ≈ 1,414 pixelov
  • Celková dĺžka L = N₀ + √2 × N₁ (kde N₀ = 4-spojené kroky, N₁ = diagonálne kroky)

Metóda 2 — Reťazový kód (Freeman Chain):

  • Zakóduj skeletonovú cestu ako sekvenciu smerových kódov (0=Východ, 1=Severovýchod, 2=Sever, atď.)
  • Sčítaj dĺžky krokov: párne kódy (ortogonálne) = 1, nepárne kódy (diagonálne) = √2

Metóda 3 — Euklidovská vzdialenosť medzi usporiadanými bodmi:

  • Zoraď skeletonové pixely do usporiadanej cesty pomocou prechodu grafom (potrebné pre vetviace sa trhliny, kde viacero ciest diverguje z križovatiek)
  • Sčítaj euklidovské vzdialenosti medzi po sebe nasledujúcimi usporiadanými bodmi

Pre vetviace sa trhliny (napr. aligátorové praskanie v blízkosti križovatiek) celková dĺžka trhliny zahŕňa všetky vetvy. Skeleton musí byť pred výpočtom dĺžky rozložený na jednotlivé vetvy v križovatkových bodoch.

Kalibrácia pixelov na milimetre

Segmentačné masky merajú trhliny v pixeloch; technické normy vyžadujú fyzické milimetre. Používajú sa štyri kalibračné metódy:

1. Známy referenčný objekt: Umiestni do scény objekt známych rozmerov (minca, pravítko alebo kalibračný terč). Faktor mierky S = známa_dĺžka_mm / nameraná_dĺžka_pixely. Presnosť: ±0,5–1 %.

2. Laserová projekcia (Carrasco et al., 2021): Dva paralelné laserové lúče v známej vzdialenosti (napr. 50 mm) sú projektované na povrch. Vzdialenosť pixelov medzi laserovými bodmi udáva S = 50 mm / Δpixely. Presnosť: ±0,02 mm.

3. Geometria kamery: mm_na_pixel = (2 × Z × tan(HFOV/2)) / šírka_obrazu, kde Z = vzdialenosť kamery od povrchu (m), HFOV = horizontálne zorné pole (stupne). Pre dron vo výške 10 m s 24 mm objektívom a 20 MP kamerou (5472×3648, 24 mm ohnisková vzdialenosť na APS-C senzore s 1,5× crop faktorom, 36 mm efektívna ohnisková vzdialenosť, HFOV ≈ 51°): mm_na_pixel ≈ (2 × 10 000 × tan(25,5°)) / 5472 ≈ 1,8 mm/pixel.

4. Fixná predkalibrácia: Pre dron alebo prieskumné vozidlo pri fixnej výške/konfigurácii objektívu predkalibruj S. Vo výške 15 m s 20 MP kamerou a 35 mm objektívom S ≈ 0,5 mm/pixel.

Kompletná meracia pipeline

  1. Vstupná snímka → Segmentácia hlbokým učením → Binárna maska trhliny
  2. Zhang-Suen thinning → 1-pixelový skeleton trhliny
  3. Euklidovská distance transform → Kolmá šírka v každom bode skeletonu
  4. Prechod skeletonom s reťazovým kódom → Celková dĺžka trhliny
  5. Kalibrácia pixelov na mm → Fyzické rozmery trhliny (šírka v mm, dĺžka v m, plocha v mm²)
  6. Klasifikácia závažnosti podľa ICAO/FAA: <1 mm (vlásková), 1–3 mm (úzka), 3–6 mm (stredná), >6 mm (široká)

Generalizácia naprieč typmi vozoviek a osvetlením

Generalizácia modelu — schopnosť udržať presnosť detekcie na typoch vozoviek, svetelných podmienkach a kamerových systémoch, ktoré neboli súčasťou tréningu — je kritickou výzvou pre produkčnú detekciu trhlín. Model trénovaný výhradne na Crack500 (filadelfský asfalt) môže stratiť 5–15 % IoU pri aplikácii na betónové povrchy dráh a model trénovaný na slnečných denných snímkach môže stratiť 10–20 % presnosť pri zamračených alebo mokrých podmienkach.

Generalizácia naprieč typmi vozoviek

Asfaltové a betónové vozovky predstavujú zásadne odlišné vizuálne charakteristiky pre detekciu trhlín. Asfalt má tmavý, jednotný vzhľad s nízkym albedom (odrazivosť 5–15 %). Okraje trhlín v asfalte sú typicky ostré a s vysokým kontrastom, pretože čerstvé povrchy trhlín odhaľujú svetlejšie kamenivo. Betón má vyššie albedo (odrazivosť 30–50 %) a škvrnitý vzhľad povrchu z distribúcie jemného kameniva. Betónové trhliny majú často nižší kontrast, pretože povrchy trhlín zvetrávajú podobne ako exponovaný povrch. Model trénovaný na jednom type povrchu sa učí povrchovo špecifické textúrové prvky (jednotné tmavé pozadie asfaltu), ktoré na druhom povrchu chýbajú alebo sú obrátené (svetlejšie, textúrované pozadie betónu).

Dataset NHA12D bol špecificky navrhnutý na hodnotenie tejto výzvy naprieč doménami — obsahuje 40 betónových a 40 asfaltových snímok z rovnakej britskej diaľničnej siete. Publikované výsledky ukazujú, že modely trénované na asfaltových datasetoch (CFD, Crack500) a testované na betónových snímkach NHA12D strácajú 8–12 % IoU v porovnaní s hodnotením na rovnakom povrchu. Techniky doménovej adaptácie riešia tento problém prostredníctvom:

  • Adverzárneho zosúladenia domén: Diskriminátorová doménová sieť sa učí rozlišovať asfaltové a betónové zdrojové domény; enkodér detekcie trhlín sa učí prvky, ktoré klamú diskriminátor, čím vytvára doménovo invariantné reprezentácie.
  • Augmentácie prenosom štýlu: Tréningové snímky sú štylisticky transformované tak, aby napodobňovali rôzne textúry vozoviek pomocou neurónového prenosu štýlu (Gram matrix matching) alebo Fourierovej doménovej adaptácie (výmena amplitúdy).
  • Viacpovrchového tréningu: Zahrnutie asfaltových aj betónových dát do tréningu (napr. kombinácia Crack500 + NHA12D betón) zlepšuje generalizáciu naprieč povrchmi o 3–5 %.

Variácie osvetlenia

Presnosť detekcie trhlín pri rôznych svetelných podmienkach sa výrazne líši. Systematická štúdia na Crack500 v troch svetelných scenároch zistila:

  • Slnečno, priame nadhlavové svetlo: IoU = 0,72 (základný optimálny)
  • Zamračené, difúzne svetlo: IoU = 0,63 (−12,5 % oproti základu)
  • Zatienené (tieň budovy/stromu na 30 % snímky): IoU = 0,58 (−19,4 % oproti základu)
  • Mokrý povrch (simulovaný stmavením a zvýšením zrkadlovej odrazivosti): IoU = 0,43 (−40,3 % oproti základu, kvôli maskovaniu prvkov trhlín povrchovou vodou)

Augmentácia dát počas tréningu zlepšuje robustnosť voči svetelným podmienkam. Štandardné augmentácie pre detekciu trhlín zahŕňajú:

  • Zmena jasu: Náhodná variácia jasu ±30 %
  • Zmena kontrastu: Náhodná variácia kontrastu ±20 %
  • Gaussovský šum: σ = 0,01–0,05 (normalizované hodnoty pixelov)
  • Gaussovské rozmazanie: veľkosť jadra 3–7, σ = 0,5–2,0
  • Simulácia dažďa: Pridanie polopriehľadných pruhov na simuláciu mokrých podmienok

Model trénovaný s agresívnou augmentáciou (jas ±40 %, kontrast ±30 %, šum σ=0,03, jadro rozmazania až 7) stráca približne 1–2 % absolútneho IoU na čistom, optimálnom osvetlení, ale získava 6–8 % IoU na náročných podmienkach (tieň, zamračenie). Zlepšenie na ťažkých prípadoch zvyčajne ospravedlňuje malú penalizáciu na ľahkých prípadoch pre nasadenie v reálnom svete, kde je osvetlenie nekontrolované.

Nasadzovanie na okrajových zariadeniach pre detekciu trhlín v reálnom čase

Nasadzovanie AI pre detekciu trhlín na okrajových zariadeniach — vstavané počítače namontované na dronoch, kontrolných vozidlách alebo robotoch — umožňuje spracovanie v reálnom čase bez cloudového pripojenia, čo je kritické pre vzdialené letiská, veľké diaľničné siete a bezpečnostne dôležité aplikácie, kde latencia musí byť meraná v milisekundách, nie v sekundách.

Hardvérové platformy

NVIDIA Jetson Orin Nano Super (67 TOPS INT8, 7–15W, $249) je primárna okrajová platforma pre dronovú detekciu trhlín. 1024 CUDA jadier a 32 Tensor jadier poskytuje dostatočnú priepustnosť pre segmentáciu v reálnom čase pri 30–50 FPS (FP16) na optimalizovaných architektúrach (EGA-UNet, ResU-Net). 8 GB LPDDR5 pamäte (102 GB/s šírka pásma) zvláda dávkovú inferenciu 512×512. Formát: modul 69,6×45 mm, vhodný na integráciu do dronových nákladov.

NVIDIA Jetson Orin NX (100 TOPS, 10–25W) ponúka vyššiu priepustnosť pre súčasné spracovanie viacerých kamerových tokov — užitočné pre kontrolné vozidlá s dopredu, do strán a dole smerujúcimi kamerami.

NVIDIA Jetson AGX Orin (275 TOPS, 15–60W) umožňuje nasadenie modelov v plnom rozsahu (DeepLabV3+, TransUNet) pri produkčných snímkových frekvenciách. Používa sa pre vozidlom namontované systémy, kde je spotreba energie menej obmedzená.

Raspberry Pi 5 (štvorjadrový Cortex-A76 @ 2,4 GHz, $60–80) s Hailo-8L NPU (13 TOPS, M.2 HAT) poskytuje lacnejšie okrajové riešenie. Ľahké modely (U-Net s ghost konvolúciou, MobileNetV3 segmentačná hlavička) dosahujú 5–12 FPS na vstupoch 512×512. Celkové náklady systému vrátane kamery a dronového držiaka: ~$200.

PlatformaTOPSVýkonCenaFPS trhlín (FP16)FPS trhlín (INT8)
Jetson Orin Nano Super677–15W$24930–5050–80
Jetson Orin NX10010–25W$49940–6070–100+
Jetson AGX Orin27515–60W$1 99960–100+100–200+
Raspberry Pi 5 + Hailo-8L135–12W~$805–128–15

Optimalizácia inferencie

TensorRT (NVIDIA SDK na optimalizáciu inferencie) vykonáva optimalizáciu grafu, automatické ladenie jadier a kalibráciu presnosti:

  • FP16 režim: 2× priepustnosť oproti FP32 so stratou presnosti <0,5 %. Znižuje pamäť modelu o ~50 %.
  • INT8 kvantizácia (Post-Training Quantization, PTQ): 3–4× priepustnosť oproti FP32. Reprezentatívny dataset (~500 snímok) kalibruje distribúcie aktivácií pre optimálne INT8 faktory mierky. Strata presnosti 1–3 % pre segmentáciu trhlín.
  • Kvantizačne uvedomované školenie (QAT): Simuluje INT8 kvantizáciu počas tréningu (vkladá falošné kvantizačné uzly). Model prispôsobuje svoje váhy kvantizovanému správaniu inferencie, čím dosahuje o 0,5–1,5 % lepšiu presnosť ako PTQ pre segmentáciu trhlín.

ONNX Runtime poskytuje multiplatformové nasadenie s execution providers pre CUDA (GPU), TensorRT (NVIDIA), OpenVINO (Intel), CoreML (Apple) a ARM CPU. Typické zrýchlenie: 1,2–1,5× oproti surovému PyTorch na CPU.

Prerezávananie kanálov odstraňuje menej dôležité konvolučné kanály na základe veľkosti L1-normy (váhy blízke nule prispievajú minimálne). Môže znížiť FLOPs o 30–50 % so stratou presnosti 1–2 % pre segmentáciu trhlín. Vedomostná destilácia (knowledge distillation) trénuje malý študentský model (napr. EGA-UNet s 2,3M parametrami), aby napodobňoval výstup veľkého učiteľského modelu (napr. DeepLabV3+ s 55M parametrami) minimalizáciou KL divergencie medzi ich výstupnými distribúciami pravdepodobností. Študent dosahuje 95–98 % presnosti učiteľa so 70–90 % menej parametrami.

Stratégia šírky pásma pre dronové kontroly

Pre kontroly dráh alebo diaľnic s viacerými dronmi vyžaduje plné nahrávanie videa (4K, 30 FPS, H.264) 15–25 Mbps na dron — čo presahuje kapacitu mobilného pripojenia vo vidieckych oblastiach a znemožňuje analýzu v cloude v reálnom čase. Stratégia selektívneho nahrávania rieši tento problém:

  • Model na zariadení beží nepretržite pri 10–30 FPS
  • Komprimujú sa (JPEG, kvalita 85) a prenášajú sa len snímky s istotou trhliny > prah (napr. >0,7)
  • Snímky v plnom rozlíšení (20+ MP) sa ukladajú na palube a fyzicky sťahujú
  • Odhadované dáta na 1-hodinový kontrolný let: ~50–200 MB snímok s pozitívnymi trhlinami + metadáta oproti ~30–50 GB pre plné nahrávanie videa
  • Umožňuje operácie s flotilou viacerých dronov s mobilným alebo satelitným backhaulom pre označené oblasti

Overenie s ľudským dohľadom

Napriek pokrokom v presnosti AI vyžaduje bezpečnostne kritická kontrola infraštruktúry (komerčné letiskové dráhy, medzištátne diaľničné mosty, hrádze priehrad) overenie s ľudským dohľadom (human-in-the-loop verification) — kvalifikovaný inšpektor kontroluje AI vygenerované mapy trhlín a buď potvrdzuje, zamieta alebo upravuje zistenia. Je to poháňané regulačnými požiadavkami (ICAO, FAA, ASTM), ktoré vyžadujú schválenie profesionálnym inžinierom pre správy o stave ovplyvňujúce bezpečnostné rozhodnutia.

Typický pracovný tok s ľudským dohľadom pre AI detekciu trhlín:

  1. AI generuje mapu segmentácie trhlín s meraniami šírky/dĺžky podľa klasifikácií závažnosti ICAO
  2. Prehliadacie rozhranie zobrazuje prekrytie AI predikcií na pôvodných snímkach, zvýrazňujúc oblasti trhlín podľa závažnosti (farebne kódované: zelená = vlásková <1mm, žltá = úzka 1–3mm, oranžová = stredná 3–6mm, červená = široká >6mm)
  3. Inšpektor prijíma/preveruje/zamieta každú označenú trhlinu:
    • Prijať: AI klasifikácia a merania zaznamenané bez zmeny (typicky 60–75 % detekcií)
    • Preveriť: AI označila oblasť; inšpektor kontroluje v plnom rozlíšení, potenciálne upravuje okraj trhliny alebo odstraňuje falošne pozitívny výsledok (typicky 15–25 %)
    • Zamietnuť: Falošne pozitívny výsledok spôsobený škárou, tieňom, textúrou povrchu, olejovou škvrnou (typicky 5–15 %)
  4. Inšpektor pridáva prehliadnuté trhliny: Trhliny, ktoré AI nedetekovala (falošne negatívne), sú manuálne anotované (typicky 2–5 % celkovej dĺžky trhlín)
  5. Revidované údaje sú zaznamenané s uchovaním AI aj inšpektorských anotácií
  6. Okrajové prípady sú zaznamenané pre opätovné trénovanie modelu — falošne pozitívne a falošne negatívne výsledky sú zhromaždené, označené a pridané do tréningového datasetu pre ďalšiu iteráciu modelu

Táto spätnoväzbová slučka nepretržite zlepšuje výkon modelu. Po 3–5 cykloch opätovného trénovania s ľudsky overenými okrajovými prípadmi miera falošne pozitívnych výsledkov typicky klesá o 40–60 % a recall sa zlepšuje o 5–10 % na špecifických typoch vozoviek a podmienkach v kontrolnom programe.

Súčasné obmedzenia a budúce smerovanie

Súčasné obmedzenia

Limit rozlíšenia detekcie tenkých trhlín: Trhliny užšie ako 2–3 pixely nemožno spoľahlivo detekovať ani merať bez ohľadu na kvalitu modelu — fyzická informácia v snímke jednoducho nie je prítomná. Pri vzdialenosti vzorkovania na zemi 1,0 mm/pixel (typické pre dronové kontroly vo výške 10–15 m) sú trhliny pod 0,3 mm nedetekovateľné. Toto je tvrdé fyzikálne obmedzenie dané rozlíšením zobrazovacej platformy, nie AI modelom.

Degradácia naprieč doménami: Modely trénované na jednom type vozovky (asfalt) alebo geografickej oblasti (americké cesty) strácajú 5–15 % IoU pri nasadení na rôznych typoch vozoviek (betón, kompozit) alebo oblastiach (európske, ázijské povrchy ciest). Techniky doménovej adaptácie znižujú tento rozdiel, ale neeliminujú ho. Produkčné nasadenie vyžaduje doladenie špecifické pre danú lokalitu alebo tréning na viacerých regiónoch.

Konzistencia falošne pozitívnych výsledkov: Zatiaľ čo celková miera falošne pozitívnych výsledkov je nízka (5–15 % detekcií), falošne pozitívne výsledky sa zhlukujú v špecifických podmienkach: stavebné škáry produkujú falošné detekcie na 20–40 % škár; pozdĺžne drážky (ryhovanie) produkujú periodické falošné vzory; a olejové škvrny na povrchu produkujú nepravidelné falošne pozitívne výsledky. Tieto systematické režimy zlyhania vyžadujú pravidlami riadené následné filtre (napr. “odstráň detekcie pozdĺž známych línií škár z GIS dát”).

Mokré podmienky a slabé osvetlenie: Výkon na mokrej vozovke degraduje až o 40 % IoU v porovnaní so suchými podmienkami. Nočná kontrola vyžaduje aktívne osvetlenie (LED reflektory na drone alebo vozidle), čo vnáša odlesky a artefakty tieňov, ktoré ďalej znižujú presnosť. Dážď, hmla a snehová pokrývka robia detekciu trhlín kamerami vo viditeľnom spektre prakticky nemožnou.

Regulačné prijatie: Žiadny hlavný letecký alebo dopravný úrad (ICAO, FAA, ASTM, AASHTO) nezverejnil normy pre detekciu trhlín pomocou AI ako samostatnú kontrolnú metódu. Súčasné predpisy vyžadujú overenie AI výsledkov tradičnými metódami (ťahanie reťaze, jadrové vzorkovanie, vizuálna kontrola certifikovaným inšpektorom). To obmedzuje prevádzkové úspory nákladov nasadenia AI, pretože čas inšpektora je stále potrebný na overenie.

Budúce smerovanie

Samo-učenie sa pre režimy s nízkym množstvom dát: Paradigma zamrznutej chrbtice DINOv3 ukazuje, že modely detekcie trhlín možno trénovať s 50–100 označenými snímkami namiesto 500–2000. Budúci vývoj rozšíri toto na detekciu trhlín bez príkladov (zero-shot crack detection) — modely, ktoré detekujú trhliny na akomkoľvek type povrchu bez akéhokoľvek doménovo špecifického tréningu, využitím prvkov základného modelu naučených z miliárd rôznorodých snímok.

Fyzikálne informované neurónové siete: Súčasné modely sa učia čisto vizuálne prvky. Fyzikálne informované modely budú zahŕňať rovnice prenosu tepla pre tepelnú detekciu trhlín, modely napätie-deformácia na predpovedanie šírenia trhlín z detekovanej geometrie a modely zaťaženia pre letiskové vozovky (hmotnosť lietadla, tlak pneumatík, frekvencia prejazdov) na prioritizáciu naliehavosti opráv na základe štrukturálneho rizika, nielen rozmerov trhlín.

Video-based temporálna analýza: Súčasné systémy analyzujú jednotlivé snímky. Modely založené na videu budú sledovať progresiu trhlín naprieč viacerými prieskumnými prechodmi (porovnanie rok po roku), detekovať otváranie/zatváranie trhlín pri dopravnom zaťažení (meranie šírky trhliny pred, počas a po prejazde lietadla) a filtrovať prechodné falošne pozitívne výsledky (lístie, nečistoty, stojatá voda) prostredníctvom časových konzistenčných kontrol.

Multi-modálna fúzia senzorov: Kombinácia kamier vo viditeľnom spektre s tepelnou infračervenou (IRT), georadarom (GPR), LiDAR výškovým profilovaním a ultrazvukovou tomografiou poskytuje bohatšiu charakterizáciu defektov. Jednotný AI model spracúvajúci všetky modality súčasne bude detekovať povrchové trhliny (viditeľné), podpovrchovú delamináciu (IRT), obsah dutín (GPR) a povrchovú drsnosť (LiDAR) v jednom prechode — poskytujúc komplexné hodnotenie štrukturálneho stavu presahujúce samotnú detekciu trhlín.

Transformerové architektúry natívne pre okrajové zariadenia: Výpočtové náklady O(n²) Vision Transformerov v súčasnosti obmedzujú nasadenie na okraji. Hardvérovo špecifické architektúry (NVIDIA TensorRT optimalizované, Qualcomm AI Engine mapované, Apple Neural Engine kompilované) kombinované s mechanizmami pozornosti s lineárnou zložitosťou (Performer, Linformer, Mamba state-space modely) prinesú presnosť na úrovni transformerov na okrajové zariadenia do roku 2027. Architektúra Mamba-UNet (2024) používajúca state-space modely namiesto pozornosti dosahuje konkurencieschopnú segmentáciu trhlín (71,5 % mIoU) pri približne 40 % výpočtových nákladov EGA-UNet.

Regulačný vývoj: Ako AI detekcia trhlín zhromažďuje prevádzkové dôkazy v sieťach letísk a diaľnic, normotvorné orgány sa očakávajú, že publikujú AI-špecifické kontrolné normy — definujúce požiadavky na validáciu, prahy presnosti, frekvenciu preškoľovania a protokoly ľudského dohľadu. Plán FAA pre AI v letectve (FAA AI Strategic Plan, 2024) explicitne zahŕňa AI pre kontrolu infraštruktúry v plánovanom cykle vývoja regulačného rámca na roky 2026–2028.

Okrajové výpočtové zariadenie vrátane NVIDIA Jetson modulu namontovaného na dronovom náklade pre kontrolu infraštruktúry s detekciou trhlín pomocou AI v reálnom čase

Referencie

  • Ronneberger, O., Fischer, P., & Brox, T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. MICCAI 2015, 234–241.
  • Chen, L.C., et al. (2018). Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation. ECCV 2018, 801–818.
  • Dosovitskiy, A., et al. (2020). An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale. ICLR 2021.
  • Oquab, M., et al. (2025). DINOv3: Gram-Anchored Dense Features at Scale. Meta AI Research.
  • Yang, L., et al. (2025). An efficient semantic segmentation method for road crack based on EGA-UNet. Scientific Reports, 15, 33818.
  • Zhang, A., et al. (2017). Automated Pixel-Level Pavement Crack Detection on 3D Asphalt Surfaces. Journal of Computing in Civil Engineering, 31(1), 04016093.
  • Liu, Y., et al. (2019). DeepCrack: A Deep Hierarchical Feature Learning Architecture for Crack Segmentation. Neurocomputing, 338, 139–153.
  • Shi, Y., et al. (2016). Automatic Road Crack Detection Using Random Structured Forests. IEEE Transactions on Intelligent Transportation Systems, 17(12), 3434–3445.
  • Yang, F., et al. (2020). Feature Pyramid and Hierarchical Boosting Network for Pavement Crack Detection. IEEE Transactions on Intelligent Transportation Systems, 21(4), 1525–1535.
  • Huang, Y., et al. (2022). NHA12D: A New Pavement Crack Dataset and A Comparison Study of Crack Detection Algorithms. EC3 2022.
  • International Civil Aviation Organization. (2018). Annex 14 — Aerodromes, Volume I: Aerodrome Design and Operations (8th ed.).
  • FAA Advisory Circular 150/5200-30D. (2016, Chg 2 2020). Airport Field Condition Assessments and Winter Operations Safety.
  • ASTM D5340-12. Standard Test Method for Airport Pavement Condition Index Surveys.
  • Carrasco, M., et al. (2021). Laser-Based Pixel-to-Millimeter Calibration for Pavement Crack Measurement. Automation in Construction, 126, 103667.
  • Zhang, T.Y. & Suen, C.Y. (1984). A Fast Parallel Algorithm for Thinning Digital Patterns. Communications of the ACM, 27(3), 236–239.
  • Lin, T.Y., et al. (2017). Focal Loss for Dense Object Detection. ICCV 2017, 2980–2988.
  • Milletari, F., et al. (2016). V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation. 3DV 2016, 565–571.

Často kladené otázky

Automatizujte kontroly trhlín na dráhach a vozovkách

Nasaďte detekciu trhlín poháňanú AI z dronových a vozidlových snímok pre automatizované kontroly dráh, ciest a mostových dosiek. Získajte pixelovo presnú segmentáciu trhlín, meranie šírky a klasifikáciu závažnosti integrovanú s vaším systémom správy majetku.

Zistiť viac

Sémantická segmentácia pre porozumenie infraštruktúrnych scén

Sémantická segmentácia pre porozumenie infraštruktúrnych scén

Sémantická segmentácia priraďuje každomu pixelu v obraze kategóriovú značku, čo umožňuje porozumenie celej scéne pre infraštruktúrnu inšpekciu. Zahŕňa architekt...

35 min čítania
Technology Computer Vision +3
Automatizované meranie šírky trhliny z obrazových snímok

Automatizované meranie šírky trhliny z obrazových snímok

Automatizované meranie šírky trhliny odvodzuje otváraciu šírku detegovaných trhlín z binárnych pixelových masiek pomocou euklidovskej transformácie vzdialenosti...

22 min čítania
technology inspection +4
Počítačové videnie

Počítačové videnie

Počítačové videnie je technológia poháňaná umelou inteligenciou, ktorá umožňuje strojom interpretovať a reagovať na vizuálne dáta, čím poháňa aplikácie ako rozp...

12 min čítania
Artificial Intelligence Aviation Technology +3