Sémantická segmentácia pre porozumenie infraštruktúrnych scén
Sémantická segmentácia priraďuje každomu pixelu v obraze kategóriovú značku, čo umožňuje porozumenie celej scéne pre infraštruktúrnu inšpekciu. Zahŕňa architekt...
Detekcia trhlín pomocou AI využíva počítačové videnie — konvolučné neurónové siete, vision transformery a modely sémantickej segmentácie — na automatickú identifikáciu, klasifikáciu a meranie trhlín na snímkach vozoviek a konštrukcií. Táto technológia je základom automatizovaných programov kontroly ciest, letiskových dráh a mostov v sektore civilného letectva a dopravy.
Detekcia trhlín pomocou AI je technológia počítačového videnia, ktorá aplikuje modely hlbokého učenia — konvolučné neurónové siete (CNN), architektúry enkodér-dekodér a vision transformery — na automatickú identifikáciu, klasifikáciu, segmentáciu a meranie trhlín na povrchoch vozoviek, dráh, mostových dosiek a betónových konštrukcií z digitálnych snímok. Technológia nahrádza alebo dopĺňa manuálnu vizuálnu kontrolu ľudskými inžiniermi, transformujúc subjektívne, pracovne náročné prieskumy na objektívne, škálovateľné a dátami riadené hodnotenia. Pre prevádzkovateľov letísk a civilnej infraštruktúry automatizovaná detekcia trhlín priamo podporuje skórovanie Indexu stavu vozovky (PCI) podľa ASTM D5340-12, vykazovanie Kódu stavu dráhy (RwyCC) podľa ICAO Annex 14 a plánovanie preventívnej údržby.

Problém detekcie trhlín predstavuje jedinečné výzvy, ktoré ho odlišujú od všeobecných úloh sémantickej segmentácie. Trhliny sú tenké, pretiahnuté štruktúry — typicky 0,1 mm až 5 mm široké — ktoré zaberajú len 2–8 % všetkých pixelov v danej snímke, čo vytvára extrémnu triednu nevyváženosť počas tréningu modelu. Pomer popredia k pozadiu pre trhlinové pixely je približne 1:20 až 1:50, čo znamená, že naivný klasifikátor predpovedajúci všetky pixely ako pozadie dosahuje viac ako 95 % presnosť, pričom detekuje nulové trhliny. Morfológia trhlín sa dramaticky líši: pozdĺžne trhliny prebiehajú rovnobežne so stredovou osou vozovky, priečne trhliny prebiehajú kolmo, aligátorové (únavové) trhliny vytvárajú vzájomne prepojené polygonálne vzory a reflexné trhliny sa šíria cez obrusné vrstvy z podkladových škár. Každý typ vyžaduje inú geometrickú charakterizáciu.
Osvetlenie a environmentálna variabilita ďalej komplikujú detekciu. Tiene z konštrukcií a previsnutej vegetácie vytvárajú oblasti s nízkym kontrastom, kde sú trhliny takmer neviditeľné. Mokrý povrch vozovky znižuje teplotný kontrast pre tepelné metódy a mení odrazivosť vo viditeľnom spektre. Olejové škvrny, stopy pneumatík, gumové usadeniny, stavebné škáry, variácie textúry povrchu (drážkovanie, ryhovanie, metlový povrch) a nečistoty vytvárajú falošne pozitívne prvky, ktoré vizuálne napodobňujú trhliny. Štúdia z roku 2025 publikovaná v Scientific Reports (EGA-UNet paper, Vol. 15, Article 33818) preukázala, že presnosť detekcie trhlín na komplexných pozadiach klesá o 10–20 % v porovnaní s čistými, jednotnými povrchmi, a to aj so špičkovými mechanizmami pozornosti.
Obmedzenia mierky a rozlíšenia vnášajú zásadný kompromis. Snímky s vysokým rozlíšením (submilimetrová vzdialenosť vzorkovania na zemi na pixel) zachytávajú jemné trhliny, ale vyžadujú veľké úložisko, šírku pásma a čas spracovania. Snímky s nižším rozlíšením pokrývajú viac plochy na jeden let alebo jazdu, ale nezachytia trhliny užšie ako 2–3 pixely. Pre dronovú kontrolu dráhy vo výške 15 m s 24 MP kamerou je typická vzdialenosť vzorkovania na zemi 1,0–1,5 mm/pixel, čo znamená, že trhliny pod šírkou 0,3 mm sú pod prahom detekcie. Tento limit rozlíšenia je tvrdým fyzikálnym obmedzením, ktoré žiadny AI model nemôže prekonať — určuje minimálnu detekovateľnú šírku trhliny pre danú zobrazovaciu platformu a výšku.
U-Net, predstavený Ronnebergerom, Fischerom a Broxom na Univerzite vo Freiburgu v roku 2015, zostáva najrozšírenejšou architektúrou pre pixelovú segmentáciu trhlín. Symetrická štruktúra enkodér-dekodér s preskakovacími spojeniami (skip connections) je obzvlášť vhodná pre detekciu trhlín, pretože trhliny sú tenké, priestorovo lokalizované prvky vyžadujúce zachovanie vysokofrekvenčných detailov počas celej pipeline podvzorkovania a prevzorkovania.
Enkodér (kontrakčná cesta) U-Net pozostáva zo štyroch podvzorkovacích blokov. Každý blok obsahuje dve 3×3 konvolúcie (padding=same) nasledované ReLU aktiváciou a 2×2 max pooling operáciou (stride=2). Počet filtrov sa na každej úrovni zdvojnásobuje: 64 → 128 → 256 → 512 → 1024 na úzkom mieste. Pre vstup 512×512 pixelov sa priestorové rozmery cez enkodér zmenšujú ako 512 → 256 → 128 → 64 → 32 v najhlbšej vrstve. Úzke miesto (bottleneck) na spodku tvaru U obsahuje 1024 feature máp v rozlíšení 32×32, čo predstavuje najabstraktnejšie, sémanticky najbohatšie prvky.
Dekodér (rozširujúca cesta) zrkadlí enkodér so štyrmi prevzorkovacími blokmi. Každý blok aplikuje 2×2 transponovanú konvolúciu (dekonvolúciu), ktorá znižuje počet filtrov na polovicu a zdvojnásobuje priestorové rozmery. Prevzorkovaná feature mapa je zreťazená so zodpovedajúcou feature mapou z enkodérovej cesty cez preskakovacie spojenia — napríklad vrstva dekodéra v rozlíšení 128×128 dostáva priame zreťazenie z enkodérovej vrstvy 128×128. Tento mechanizmus preskakovacích spojení je kritický: poskytuje dekodéru vysokorozlíšené priestorové detaily z enkodéra, ktoré by boli inak stratené počas agresívneho podvzorkovania. Po zreťazení dve 3×3 konvolúcie s ReLU upresňujú kombinované prvky.
Finálna výstupná vrstva je 1×1 konvolúcia so sigmoid aktiváciou, produkujúca jednokanálovú mapu pravdepodobností, kde každá hodnota pixelu (0 až 1) predstavuje pravdepodobnosť, že daný pixel patrí do oblasti trhliny. Prah (typicky 0,5) konvertuje pravdepodobnosti na binárnu segmentáciu trhlina/netrhilna.
Pôvodný U-Net obsahuje ~31 miliónov parametrov a 23 konvolučných vrstiev. Pre vstup 512×512 je rýchlosť inferencie približne 40 ms na snímku na modernej GPU (NVIDIA RTX 3080 alebo ekvivalent). Ľahké varianty ako ResU-Net (používajúci reziduálne spojenia namiesto obyčajných konvolúcií) redukujú parametre na ~7,8 milióna, pričom dosahujú 68,47 % stredného IoU na datasetoch trhlín. EGA-UNet ďalej redukuje na ~2,3 milióna parametrov, zatiaľ čo zlepšuje Dice na 73,1 % pomocou ghost konvolúcií a Fourier-based token mixingu.
Preskakovacie spojenia U-Net sú architektonicky nevyhnutné pre detekciu trhlín. Bez nich by boli tenké trhliny (1–5 pixelov široké) úplne stratené počas 4-násobného podvzorkovania (32× redukcia na úzkom mieste) — 3-pixelová široká trhlina na vstupe sa stáva sub-pixelovým prvkom na úzkom mieste, ktorý nemožno obnoviť samotným prevzorkovaním. Preskakovacie spojenia úplne obchádzajú toto informačné úzke miesto a poskytujú dekodéru geometriu trhliny v plnom rozlíšení z enkodéra.
DeepLabV3+, vyvinutý Chenom et al. v Google v roku 2018, rieši detekciu trhlín pomocou atrous (dilatovaných) konvolúcií a modulu Atrous Spatial Pyramid Pooling (ASPP) . Na rozdiel od U-Net, ktorý agresívne podvzorkuje a obnovuje cez preskakovacie spojenia, DeepLab udržiava feature mapy s vyšším rozlíšením počas celej chrbtice pomocou dilatovaných konvolúcií, ktoré rozširujú receptívne pole bez zmenšovania priestorových rozmerov.
Chrbtica (backbone) je typicky ResNet-101 (101 vrstiev, ~42,6 milióna parametrov) alebo Xception-65 (~54,7 milióna parametrov). Štandardné konvolúcie v chrbtici sú nahradené atrous konvolúciami — 3×3 jadrá s dilatačnými pomermi (diery) vloženými medzi prvky jadra. 3×3 jadro s dilatačným pomerom r=2 pokrýva receptívne pole 5×5; r=4 pokrýva 9×9; r=8 pokrýva 17×17; a r=16 pokrýva 33×33 — všetky s rovnakým počtom parametrov (9 váh) ako štandardná 3×3 konvolúcia. Táto vlastnosť je kritická pre detekciu trhlín: umožňuje modelu vidieť väčší kontext okolo každého pixelu (odlíšenie trhlín od textúry povrchu) bez straty rozlíšenia, ktorá by nastala pri podvzorkovaní.
Modul ASPP aplikuje štyri paralelné atrous konvolučné vetvy s dilatačnými pomermi r=6, 12, 18 a 24 (pre výstupný krok=16), každá s 256 filtrami a 3×3 jadrami. Dodatočná 1×1 konvolučná vetva a vetva na úrovni obrazu (globálne priemerné poolovanie → 1×1 konvolúcia → bilineárne prevzorkovanie) dokončujú modul. Všetkých päť vetiev produkuje 256-kanálové feature mapy, ktoré sú zreťazené a prejdú ďalšou 1×1 konvolúciou. Viacmierková schopnosť ASPP modulu je obzvlášť dôležitá pre trhliny, ktoré sa výrazne líšia v šírke — vlásková trhlina (<1 mm) a široká trhlina (>6 mm) vyžadujú rôzne veľkosti receptívnych polí pre optimálnu detekciu.
Dekodér DeepLabV3+ je ľahký v porovnaní s plným dekodérom U-Net: bilineárne prevzorkovanie 4×, zreťazenie s nízkourovňovými prvkami z ranej vrstvy chrbtice (redukované na 48 kanálov cez 1×1 konvolúciu), dve 3×3 konvolúcie (256 filtrov) a finálne bilineárne prevzorkovanie 4× na pôvodné rozlíšenie. Výstupný krok je typicky 16 (vstupné rozlíšenie delené 16 na úzkom mieste), niekedy 8 pre hustejšie feature mapy za cenu 2× vyššej spotreby pamäte.
DeepLabV3+ dosahuje približne 78,5 % mIoU na datasetoch trhlín. Štúdia EGA-UNet (2025) však uviedla, že DeepLabV3+ nedosahuje také výsledky ako ľahké architektúry ako EGA-UNet (73,1 % Dice oproti nižšiemu pre DeepLabV3+) kvôli nedostatočnému zachovaniu jemných detailov na okrajoch trhlín. Dilatácie ASPP modulu, aj keď účinné pre viacmierkový kontext, rozmazávajú jemné priestorové detaily, ktoré sú nevyhnutné pre presné meranie šírky trhlín.
Vision Transformery (ViT) , predstavené Dosovitskiym et al. v Google v roku 2020, aplikujú Transformer architektúru so samopozornosťou — pôvodne vyvinutú pre spracovanie prirodzeného jazyka — na analýzu obrazu. ViT rozdeľuje vstupný obraz na neprekrývajúce sa bloky (patche) veľkosti P×P (typicky 16×16 pixelov), linearizuje každý blok do vektora a spracúva sekvenciu blokových embeddingov cez štandardné Transformer enkodérové vrstvy s viachlavovou samopozornosťou.
Pre vstup 224×224 s blokmi 16×16 produkuje ViT (224/16)² = 196 blokových embeddingov. Každý blok s rozmermi 16×16×3 (RGB) je sploštený do 768-rozmerného vektora a lineárne projektovaný do embeddingovej dimenzie D. Transformer enkodér pozostáva z L vrstiev (stacked layers). ViT-Base používa L=12, D=768 a 12 hlavičiek pozornosti (86M parametrov). ViT-Large používa L=24, D=1024 a 16 hlavičiek (307M parametrov). ViT-Huge používa L=32, D=1280 a 16 hlavičiek (632M parametrov). Zložitosť samopozornosti škáluje ako O(n²·D), kde n je počet blokov — 196 blokov s D=768 vyžaduje približne 28 miliónov operácií na hlavičku na vrstvu.
Pre segmentáciu trhlín sa ViT používa ako chrbtica v hybridných architektúrach enkodér-dekodér. TransUNet nahrádza U-Net enkodér ViTom, kombinujúc Transformer globálny kontext s CNN dekodérom pre obnovu jemných detailov. SwinUNet používa hierarchický Swin Transformer s posunutými oknami na zníženie výpočtových nákladov O(n²). SETR (SEgmentation TRansformer) aplikuje ViT priamo ako enkodér s progresívnym prevzorkovaním.
Výhoda ViT pre detekciu trhlín spočíva v jeho globálnom receptívnom poli. CNN spracúvajú informácie lokálne a vyžadujú mnoho vrstiev na propagáciu informácií cez veľké priestorové vzdialenosti. Mechanizmus samopozornosti ViT spája každý blok s každým iným blokom v jedinej vrstve, čo umožňuje detekciu dlhých, súvislých trhlín, ktoré sa tiahnu cez stovky alebo tisíce pixelov — napríklad únavové trhliny kľukatiace sa cez celú šírku dráhy. Hybridné ViT-CNN modely dosahujú 74–78 % IoU na datasetoch trhlín, pričom TransUNet vykazuje osobitnú silu pri aligátorových (vzájomne prepojených) vzoroch trhlín.
Kritickým obmedzením sú výpočtové náklady. Snímka 512×512 rozdelená na bloky 16×16 produkuje (512/16)² = 1 024 blokov, vyžadujúc 1 024² ≈ 1 milión výpočtov pozornosti na vrstvu — rádovo viac ako 196 blokov pre vstupy 224×224. To robí plné nasadenie ViT na okrajových zariadeniach (drony, mobilné kontrolné vozidlá) nepraktickým bez výraznej kompresie alebo prerezania.
DINOv3, vydaný Meta AI v roku 2025, predstavuje špičku v oblasti samo-učiacich sa Vision Transformerov. Je treťou generáciou rodiny DINO (DIstillation with NO labels), trénovanou v bezprecedentnom rozsahu: až 7 miliárd parametrov na 1,7 miliardy neoznačených snímok. DINOv3 používa rámec učiteľ-študent, kde sa študent učí zhodovať výstupné reprezentácie učiteľa bez akýchkoľvek ľudsky označených dát.
Kľúčovou architektonickou inováciou DINOv3 je Gram Anchoring — regularizačná technika aplikovaná po približne 1 milióne tréningových iterácií, ktorá stabilizuje husté (na úrovni blokov) reprezentácie prvkov. Gramova matica študentského modelu (párová podobnosť blokov, rozmery N×N kde N=počet blokov) je obmedzená tak, aby zostala blízko skopírovanej zamrznutej “Gram učiteľke”. Toto zabraňuje kolapsu hustých prvkov (dense feature collapse) , čo je režim zlyhania v samo-učiacom sa učení, kde sa odlišné bloky obrazu zbiehajú do podobných embeddingov napriek tomu, že sú sémanticky odlišné. Staršie varianty DINO (v1 a v2) trpeli týmto kolapsom počas predĺženého tréningu; Gram Anchoring umožňuje stabilný tréning na miliardách snímok.
Pre detekciu trhlín spočíva relevantnosť DINOv3 v paradigme zamrznutej chrbtice (frozen backbone) . Predtrénovaná ViT chrbtica (dostupná vo veľkostiach od ViT-Small s 21M parametrami po ViT-Huge so 632M a vlajkový model 7B) je zmrazená a používa sa ako univerzálny vizuálny enkodér. Ľahké hlavičky špecifické pre danú úlohu — lineárne sondy, MLP adaptéry alebo malé konvolučné hlavičky — sú trénované na vrchu bez spätnej propagácie cez chrbticu. To umožňuje:
Prvky na úrovni blokov DINOv3 (nie globálne obrazové embeddingy) zachovávajú jemnozrnné priestorové informácie potrebné pre delineáciu tenkých trhlín. Variant ViT-Base (86M parametrov, 12 vrstiev, 768 embeddingová dimenzia) poskytuje najlepší pomer presnosti k výpočtom pre aplikácie kontroly infraštruktúry. DINOv3 je obzvlášť sľubný pre programy kontroly letiskových dráh, kde je označených údajov o trhlinách málo — čo je bežný scenár pre menšie letiská bez rozsiahlej histórie správy vozoviek.
CrackNet, vyvinutý Zhangom et al. v roku 2017 na Univerzite v Južnej Floride, bol jednou z prvých hlbokých CNN architektúr navrhnutých špecificky a výhradne pre automatizovanú detekciu trhlín na vozovkách. Na rozdiel od univerzálnych architektúr (U-Net, DeepLab) adaptovaných z biomedicínskej alebo prirodzenej segmentácie obrazu, CrackNet bol navrhnutý od základov pre morfológiu vozovkových trhlín.
Pôvodná architektúra CrackNet pozostáva z 6 konvolučných vrstiev s plne prepojeným vrchom: Conv1 (5×5, stride=1, 64 filtrov) → Conv2 (5×5, stride=1, 64 filtrov) → MaxPool (2×2) → Conv3 (3×3, stride=1, 128 filtrov) → Conv4 (3×3, stride=1, 128 filtrov) → MaxPool (2×2) → Conv5 (5×5, stride=1, 256 filtrov) → Conv6 (3×3, stride=1, 256 filtrov) → Plne prepojená (2 048 jednotiek) → Softmax výstup (2 triedy: trhlina alebo netrhilna). Celkový počet parametrov je ~1,4 milióna — približne 22× menší ako U-Net (31M) a 35× menší ako DeepLabV3+ (42–55M).
CrackNet pracuje na 64×64 pixelových blokoch pevnej veľkosti, nie na celých snímkach. Tréningový dataset pozostával z 640 000 blokov extrahovaných z 1 800 snímok vozoviek (160 000 pre validáciu, 180 000 pre testovanie). Každý blok je klasifikovaný ako obsahujúci trhlinu v stredovom pixeli alebo nie — toto je prístup klasifikácie blokov (patch-based classification) , nie pixelová segmentácia. Moderné varianty (CrackNet-V, CrackNet-II, CrackNet-R) nahradili klasifikátor blokov plne konvolučnými sieťami pre hustú predikciu na úrovni pixelov.
CrackNet-V (vylepšený variant z roku 2020) pridal tréning založený na Generatívnych adverzárnych sieťach (GAN). Generátor produkuje mapy segmentácie trhlín zo vstupných snímok a diskriminátorová sieť rozlišuje vygenerované mapy od anotácií ground truth. Tento adverzárny tréningový režim zlepšil F1-skóre na 0,87 na CFD datasete. CrackNet-V tiež zaviedol viacmierkovú fúziu prvkov s modulmi inšpirovanými inception, umožňujúc detekciu trhlín v rôznych šírkach.
Význam CrackNet spočíva v architektonickej efektívnosti pre nasadenie na okrajových zariadeniach. Pri 1,4M parametroch a 5 ms na blok preukázal, že architektúra navrhnutá špecificky pre trhliny môže dosiahnuť presnosť na produkčnej úrovni na hardvéri dostupnom v roku 2017 — jediný NVIDIA Tesla K80 GPU dokázal spracovať celú snímku vozovky (zošitú z blokov) za menej ako 2 sekundy. To preukázalo uskutočniteľnosť automatizovanej detekcie trhlín v reálnom čase pre prieskumné vozidlá pri rýchlostiach na diaľnici.
EGA-UNet, publikovaný Yangom et al. v Scientific Reports (Vol. 15, Article 33818, 2025), predstavuje súčasnú špičku v efektívnej segmentácii trhlín. Architektúra dosahuje 73,1 % Dice koeficient s iba ~2,3 milióna parametrov — približne 13× menšia ako štandardný U-Net, pričom zlepšuje presnosť o +3,1 % Dice oproti U-Net, +11,9 % oproti SegNet a +44,9 % oproti PSPNet na benchmarkových datasetoch trhlín.
Tri architektonické inovácie odlišujú EGA-UNet:
EG-Block (Efficient Ghost Sparse Convolution Block): Tento stavebný blok používa “ghost” konvolúciu — techniku, ktorá generuje malý počet vnútorných feature máp pomocou štandardnej konvolúcie a potom aplikuje lacnejšie lineárne operácie (3×3 depthwise konvolúcie) na produkciu dodatočných “ghost” feature máp. Pre požadovaný výstup C kanálov generuje ghost konvolúcia približne C/2 pomocou štandardnej konvolúcie a C/2 pomocou lineárnych operácií, čím znižuje výpočty približne o 50 % v porovnaní so štandardnou konvolúciou pri ekvivalentných výstupných kanáloch. EG-Block obsahuje Efficient Multi-scale Attention (EMA) modul, ktorý váhuje prvky naprieč viacerými priestorovými mierkami.
A-RepViT Block: Tento nahrádza štandardný Vision Transformer token mixer pomocou Adaptive Fourier Filtering (AFF) . Vstupná feature mapa je transformovaná do frekvenčnej domény pomocou Rýchlej Fourierovej transformácie (FFT), frekvenčné zložky sú adaptívne filtrované (dolnopriepustné, hornopriepustné alebo pásmové v závislosti od naučených váh) a inverzná FFT rekonštruuje priestorovú feature mapu. AFF zachytáva globálny kontext so zložitosťou O(n log n) oproti O(n²) pre samopozornosť — pre feature mapu 32×32 (1 024 prvkov) to znižuje výpočty z ~1M operácií na ~10K operácií na vrstvu.
SPPF (Spatial Pyramid Pooling Fast): Aplikovaný v najhlbšej enkodérovej vrstve, SPPF agreguje viacmierkové prvky pomocou troch sekvenčných max-poolingových operácií s rôznymi veľkosťami jadier (5×5, 9×9, 13×13 efektívne receptívne polia), zreťazených do jednotnej viacmierkovej reprezentácie. Toto je výpočtovo efektívne v porovnaní s paralelným ASPP (používaným v DeepLab), pretože sekvenčné poolovanie znovu používa medzivýsledky.
Rýchlosť inferencie EGA-UNet je dostatočná pre nasadenie v reálnom čase na okrajových zariadeniach. Na NVIDIA Jetson Orin Nano Super dosahuje model približne 45–55 FPS pri FP16 presnosti na vstupoch 512×512, čo ho robí vhodným pre dronovú alebo vozidlovú detekciu trhlín v reálnom čase. Ľahký dizajn umožňuje nasadenie na platformách bez dedikovaných GPU — bola preukázaná inferencia pri 8–12 FPS na Raspberry Pi 5 s Hailo-8L NPU akcelerátorom (13 TOPS).
| Architektúra | Parametre | Dizajnový princíp | Kľúčová inovácia | Dice/IoU pre trhliny | Nasaditeľná na okraji |
|---|---|---|---|---|---|
| U-Net (2015) | ~31M | Enkodér-dekodér, skip spojenia | Zachovanie priestorových detailov | 65–68 % IoU | S kvantizáciou |
| ResU-Net | ~7,8M | Reziduálne skip spojenia | Zlepšenie toku gradientu | 68,5 % IoU | Áno |
| DeepLabV3+ (2018) | ~42–55M | Atrous konvolúcia, ASPP | Viacmierkový kontext | ~75 % IoU | Nie |
| ViT-Base (2020) | 86M | Samopozornosť na blokoch | Globálne receptívne pole | 74–78 % IoU | Nie |
| DINOv3 (2025) | 21M–7B | Samo-učenie, zamrznutá chrbtica | Few-shot prenos | Porovnateľné so supervidovaným | S adaptérovou hlavičkou |
| CrackNet (2017) | ~1,4M | CNN na blokoch | Dizajn špecifický pre vozovky | ~87 % F1 (blok) | Áno |
| EGA-UNet (2025) | ~2,3M | Ghost konv. + AFF token mixing | Ľahký + globálny kontext | 73,1 % Dice | Áno |
Trénovanie modelov detekcie trhlín vyžaduje pixelovo anotované datasety, kde každá snímka má zodpovedajúcu binárnu masku označujúcu každý pixel ako trhlinu (biela, hodnota 1) alebo netrhlinu (čierna, hodnota 0). Proces anotácie je pracovne náročný — jedna snímka 2000×1500 pixelov vyžaduje 15–45 minút expertného manuálneho označovania pomocou nástrojov na kreslenie lomených čiar, po ktorom nasleduje morfologická dilatácia na vytvorenie masiek trhlín v plnej šírke. Nasledujúce datasety tvoria štandardné benchmarky pre akademický výskum a vývoj modelov.
Crack500, publikovaný Yangom et al. v roku 2020, obsahuje 500 RGB snímok v rozlíšení 2000×1500 pixelov (3 megapixely na snímku). Snímky boli nasnímané pomocou kamier mobilných telefónov na povrchoch vozoviek okolo Temple University vo Philadelphii, USA. Každá snímka má zodpovedajúcu pixelovú binárnu segmentačnú masku anotovanú manuálne pomocou nástrojov na kreslenie lomených čiar. Výskumníci bežne rozdeľujú 500 snímok na približne 1 896 neprekrývajúcich sa blokov 512×512 pre tréning modelu. Štandardné rozdelenie prideľuje 350 snímok na tréning, 50 na validáciu a 100 na testovanie. Trhlinové pixely tvoria približne 2–5 % všetkých pixelov na snímku. Šírky trhlín sa pohybujú od 0,1 mm do 5 mm a snímky zahŕňajú viacero svetelných podmienok (slnečno, zamračené, zatienené). Typy trhlín zahŕňajú pozdĺžne, priečne a aligátorové vzory.
DeepCrack, publikovaný Liuom et al. v Neurocomputing (2019), obsahuje 537 RGB snímok v rozlíšení 544×384 pixelov. Snímky boli nasnímané z rôznych betónových a asfaltových povrchov — mostov, ciest, tunelov a stien budov — čo poskytuje viacscénové pokrytie, ktoré je v jednoduchých datasetoch z vozoviek nezvyčajné. Každá snímka má pixelové binárne anotácie ako PNG masky. Dataset je vopred rozdelený na približne 300 tréningových a 237 testovacích snímok. DeepCrack bol špecificky vytvorený na hodnotenie architektúry Holistically-Nested Edge Detection (HED) adaptovanej pre detekciu trhlín. Dataset zahŕňa náročné podmienky: nízky kontrast medzi trhlinami a pozadím, tenké trhliny (1–3 pixely široké) a textúrované povrchové pozadia. Trhliny sú kategorizované podľa šírky, nie podľa štrukturálneho typu.
CFD, publikovaný Shiom et al. v IEEE Transactions on Intelligent Transportation Systems (2016), obsahuje 118 snímok v rozlíšení 480×320 pixelov. Snímky boli nasnímané pomocou iPhone 5 na mestských cestách v Pekingu, Čína. Každá snímka má manuálne anotované ground truth masky na úrovni pixelov, plus priečinok “seg” so segmentáciami založenými na superpixeloch. Dataset bol navrhnutý tak, aby odrážal všeobecné podmienky mestských ciest a zahŕňa faktory šumu: tiene zo stromov a budov, olejové škvrny, mláky vody a pokrytie lístím. Trhlinové pixely tvoria približne 4–8 % každej snímky. Nízke rozlíšenie 480×320 robí detekciu tenkých trhlín náročnou — trhliny môžu byť široké len 1–2 pixely. CFD je licencovaný len na nekomerčné výskumné použitie s požiadavkou na citáciu. Jeho hlavným obmedzením je malá veľkosť (118 snímok), jedna geografická oblasť a jedna kamera.
GAPs384 (German Asphalt Pavement Distress dataset) , z Technickej univerzity v Ilmenau, Nemecko, obsahuje 1 969 snímok v rozlíšení 1920×1080 pixelov (Full HD). Toto je najväčší verejný dataset trhlín z jedného zdroja podľa počtu snímok. Snímky sú odtiene sivej (nie RGB), čo znižuje veľkosť súboru, ale eliminuje farebné informácie, ktoré môžu pomôcť pri rozlišovaní trhlín. Anotácie zahŕňajú klasifikáciu typu trhliny (pozdĺžna, priečna, aligátorová) okrem pixelových masiek trhlín. Vysoké rozlíšenie a konzistentné podmienky snímania (nemecká diaľničná sieť) robia GAPs384 cenným pre trénovanie modelov určených pre európske podmienky vozoviek. Dataset zahŕňa širšiu škálu závažností trhlín ako CFD alebo Crack500.
NHA12D, publikovaný Huangom et al. (2022), obsahuje 80 snímok vozoviek zozbieraných z britskej diaľničnej siete A12 organizáciou National Highways (predtým Highways England). Dataset jedinečne zahŕňa 40 snímok betónových vozoviek a 40 snímok asfaltových vozoviek nasnímaných za rovnakých prieskumných podmienok digitálnymi prieskumnými vozidlami. Toto dvojsvrchníkové zloženie robí NHA12D cenným pre hodnotenie generalizácie naprieč doménami — schopnosť modelu detekovať trhliny na oboch typoch povrchu bez degradácie. K dispozícii sú anotácie ground truth na úrovni pixelov. Malá veľkosť (80 snímok) robí NHA12D primárne benchmarkovým datasetom, nie tréningovým zdrojom.
| Dataset | Snímky | Rozlíšenie | % trhlín/snímka | Zdroj | Rok |
|---|---|---|---|---|---|
| Crack500 | 500 | 2 000 × 1 500 | 2–5 % | Cesty Philadelphia | 2020 |
| DeepCrack | 537 | 544 × 384 | rôzne | Viacscénový | 2019 |
| CFD | 118 | 480 × 320 | 4–8 % | Cesty Peking | 2016 |
| GAPs384 | 1 969 | 1 920 × 1 080 | rôzne | Nemecké diaľnice | 2020 |
| NHA12D | 80 | Vysoké rozlíšenie | rôzne | Diaľnica A12, UK | 2022 |
| CrackTree200 | 206 | 800 × 600 | rôzne | Vozovka (náročná) | 2012 |
Všetky datasety trhlín vykazujú výraznú triednu nevyváženosť: trhlinové pixely tvoria 2–8 % všetkých pixelov, čo znamená, že modely sa musia učiť v priemere z 500–2 000 trhlinových pixelov na snímku s 25 000 celkovými pixelmi (480×320 CFD rozlíšenie). Štandardná cross-entropia loss je neúčinná — model minimalizuje loss predpovedaním “pozadia” pre každý pixel. Špecializované loss funkcie riešia tento problém:
Focal Loss (Lin et al., 2017) aplikuje modulačný faktor (1 − pt)γ na cross-entropiu loss, kde pt je predikovaná pravdepodobnosť modelu pre triedu ground truth a γ je zaostrovací parameter (typicky 2,0). Toto znižuje váhu dobre klasifikovaných príkladov (pt → 1,0) a zvyšuje váhu ťažkých, chybne klasifikovaných príkladov (pt → 0,0). Pre detekciu trhlín s γ=2,0 focal loss znižuje príspevok jednoduchých pixelov pozadia približne 4× v porovnaní s cross-entropiou.
Dice Loss (Milletari et al., 2016) = 1 − Dice koeficient = 1 − (2TP + ε)/(2TP + FP + FN + ε). Toto priamo optimalizuje metriku hodnotenia. Dice loss je menej citlivá na triednu nevyváženosť ako cross-entropia, pretože meria prekrytie, nie presnosť na pixel. Je štandardnou loss funkciou pre U-Net segmentáciu trhlín.
Tversky Loss (Saleh et al., 2017) zovšeobecňuje Dice loss vážením falošne pozitívnych a falošne negatívnych výsledkov odlišne: Tversky index = TP/(TP + α·FP + β·FN). Pre bezpečnostne kritickú detekciu trhlín, kde sú falošne negatívne výsledky (prehliadnuté trhliny) nebezpečnejšie ako falošne pozitívne (falošné poplachy), nastavenie α=0,3 a β=0,7 penalizuje FN viac ako FP.
SupContrast (Supervised Contrastive Loss) , relevantný pre prístupy založené na DINOv3, priťahuje blokové embeddingy trhlinových pixelov k sebe v embeddingovom priestore, zatiaľ čo ich odtláča od embeddingov pixelov pozadia. Toto vytvára dobre štruktúrovaný embeddingový priestor, kde trhlinové pixely tvoria tesné zhluky, ktoré sú lineárne oddeliteľné od zhlukov pozadia.
Prístupy k detekcii trhlín pomocou AI spadajú do dvoch metodologických kategórií: klasifikačné a segmentačné, každá s odlišnými výstupmi, metrikami a prípadmi použitia.
Klasifikácia trhlín určuje, či oblasť snímky (blok, dlaždica alebo celá snímka) obsahuje trhlinu. Výstupom je binárny štítok (trhlina prítomná / trhlina neprítomná) alebo viac triedny štítok (typ trhliny: pozdĺžna, priečna, aligátorová). Klasifikačné modely sú typicky ľahké CNN (CrackNet s 1,4M parametrami, MobileNetV2 s 3,5M parametrami) trénované na datasetoch na úrovni blokov. Výstup poskytuje pravdepodobnosť prítomnosti trhliny a polohu (ktorý blok obsahuje trhlinu), ale neposkytuje geometriu trhliny — šírku, dĺžku, orientáciu alebo topológiu. Klasifikácia je vhodná pre rýchly screening, kde je cieľom identifikovať miesta trhlín na následnú kontrolu, nie merať jednotlivé trhliny. Hodnotenie používa presnosť, precision, recall a F1 na úrovni bloku alebo snímky.
Segmentácia trhlín (sémantická segmentácia) klasifikuje každý pixel jednotlivo ako trhlinu alebo netrhlinu. Výstupom je binárna maska v rovnakom rozlíšení ako vstupná snímka, kde každý pixel má pravdepodobnosť trhliny. To poskytuje kompletnú geometriu trhliny — šírku v každom bode pozdĺž trhliny, celkovú dĺžku, uhol orientácie, topológiu vetvenia a plochu trhliny. Segmentácia je potrebná pre kvantitatívne hodnotenie stavu vozovky (výpočet PCI, klasifikácia závažnosti šírky trhlín podľa noriem ICAO). Hodnotenie používa metriky na úrovni pixelov: IoU, Dice, precision, recall a boundary F1. Segmentačné modely sú výpočtovo náročnejšie (U-Net s 31M parametrami, DeepLabV3+ so 42–55M), ale poskytujú podstatne bohatší výstup.
Niektoré systémy používajú inštančnú segmentáciu (detekciu každej jednotlivej trhliny ako samostatného objektu), ktorá rozlišuje medzi neprepojenými trhlinami. To je relevantné pre počítanie trhlín (počet trhlín na jednotku plochy) a mapovanie hustoty trhlín. Mask R-CNN a YOLOv8-seg sú bežné architektúry inštančnej segmentácie pre detekciu trhlín.
IoU (Jaccard Index) meria prekrytie medzi predikovanou segmentáciou trhlín a ground truth, delené zjednotením oboch. Je to najčastejšie uvádzaná metrika pre segmentáciu trhlín:
IoU = TP / (TP + FP + FN)
Hodnoty sa pohybujú od 0 (žiadne prekrytie) do 1 (dokonalé prekrytie). Typické IoU pre modely detekcie trhlín sa pohybuje od 0,55 do 0,75. IoU je citlivejšia ako Dice na falošne pozitívne a falošne negatívne výsledky, pretože menovateľ zjednotenia je väčší ako jednotlivé súčty. Model predpovedajúci 100-pixelovú ground truth trhlinu so 60 správnymi pixelmi (TP=60, FP=20, FN=40) dosahuje IoU = 60/(60+20+40) = 0,50. Prísnejší menovateľ zjednotenia znamená, že IoU je vždy nižšie alebo rovné ako Dice pre rovnakú predikciu.
Dice (tiež nazývané F1 skóre pre binárnu segmentáciu) je harmonický priemer precision a recall:
Dice = 2 × TP / (2 × TP + FP + FN)
Dice súvisí s IoU: Dice = 2·IoU / (1 + IoU). Pre príklad vyššie (IoU=0,50) je Dice = 2×0,50/1,50 = 0,67. Typické Dice pre detekciu trhlín sa pohybuje od 0,65 do 0,80. Práca EGA-UNet (2025) uvádza Dice = 73,1 % ako svoju primárnu metriku. Dice poskytuje optimistickejšie hodnotenie kvality segmentácie ako IoU a rozdiel medzi nimi sa zväčšuje, keď sa kvalita znižuje — nízko kvalitná predikcia s IoU=0,25 má Dice=0,40.
Precision (Pozitívna prediktívna hodnota) = TP/(TP+FP). Meria mieru falošných poplachov: z všetkých pixelov označených ako trhlina, aký podiel je skutočne trhlina? Vysoká precision (>0,85) znamená málo falošne pozitívnych výsledkov. Dôležitá, keď detekcia trhlín spúšťa nákladné následné akcie (napr. vyslanie utesňovacích čiat na kontrolu označených miest).
Recall (Senzitivita, miera skutočne pozitívnych) = TP/(TP+FN). Miera prehliadnutých trhlín: zo všetkých skutočných pixelov trhlín, aký podiel model detekoval? Vysoký recall (>0,85) znamená málo prehliadnutých trhlín. Pre bezpečnostne kritickú infraštruktúru (kontrola letiskových dráh na komerčných letiskách) je recall prioritnejší ako precision — vyšetrovanie falošného poplachu je menej dôležité ako prehliadnutie skutočnej trhliny, ktorá by sa mohla rozvinúť do štrukturálneho zlyhania pri zaťažení lietadlom.
mAP hodnotí presnosť naprieč rôznymi recall prahmi, typicky uvádzaná pri IoU prahoch 0,50 (mAP@50) a od 0,50 do 0,95 v 0,05 krokoch (mAP@50:95). Pre detekciu trhlín ako úlohu detekcie objektov (ohraničujúce rámčeky) mAP meria, ako dobre model lokalizuje oblasti trhlín. Štúdia University of Central Florida z roku 2025 používajúca Grounding DINO na tepelnú detekciu trhlín dosiahla 70 % mAP@[0,5:0,95]. Pre úlohy pixelovej segmentácie sú IoU a Dice preferované pred mAP, pretože trhliny sú neobdĺžnikové štruktúry a metriky ohraničujúcich rámčekov slabo reprezentujú kvalitu segmentácie.
| Metrika | Vzorec | Rozsah | Typická hodnota pre trhliny | Použitie |
|---|---|---|---|---|
| IoU | TP/(TP+FP+FN) | 0–1 | 0,55–0,75 | Kvalita segmentácie (prísna) |
| Dice | 2TP/(2TP+FP+FN) | 0–1 | 0,65–0,80 | Kvalita segmentácie (zhovievavá) |
| Precision | TP/(TP+FP) | 0–1 | 0,80–0,95 | Kontrola falošných poplachov |
| Recall | TP/(TP+FN) | 0–1 | 0,80–0,95 | Bezpečnostne kritická detekcia |
| F1 | 2PR/(P+R) | 0–1 | 0,80–0,92 | Celková |
| mAP@50 | Priem. presnosť pri IoU≥0,5 | 0–1 | 0,70–0,85 | Detekcia objektov |
| Presnosť pixelov | (TP+TN)/(TP+TN+FP+FN) | 0–1 | >0,95 (zavádzajúce) | Neodporúča sa pre trhliny |
Binárna segmentačná maska z AI modelu poskytuje polohu a tvar trhlín, ale normy kontroly infraštruktúry vyžadujú fyzické rozmery trhlín — šírku v milimetroch, dĺžku v metroch a plochu v štvorcových milimetroch. Prevod pixelových masiek na technické merania vyžaduje pipeline výpočtovej geometrie.
Skeletonizácia (ztenšovanie) redukuje oblasť trhliny na jediný pixel širokú stredovú líniu, ktorá zachováva topológiu trhliny (spojitosť, vetvenie, koncové body). Zhang-Suen thinning algoritmus (1984) je štandardnou metódou:
Mediálna osová transformácia (MAT) je alternatívou využívajúcou distance transform: pre každý vnútorný pixel trhliny vypočítaj minimálnu euklidovskú vzdialenosť k okraju trhliny. Skeleton pozostáva z pixelov, ktoré sú lokálnymi maximami v tejto mape vzdialeností. MAT produkuje hladšie skeletonizácie pre hrubé, nepravidelné trhliny, ale vyžaduje výpočet O(n²) oproti O(n) pre Zhang-Suen thinning.
Euklidovská distance transform (EDT) vypočíta minimálnu euklidovskú vzdialenosť z každého skeletonového pixelu (x,y) k najbližšiemu okrajovému pixelu trhliny:
D(x,y) = min(i,j)∈∂C √((x−i)² + (y−j)²)
kde ∂C je množina okrajových pixelov oblasti trhliny. Šírka trhliny v bode (x,y) = 2 × D(x,y), pretože vzdialenosť od stredovej línie k okraju je polovica plnej šírky trhliny.
Distance transform sa efektívne počíta pomocou:
cv2.distanceTransform(): O(n) dvojprechodový rastrový sken produkujúci aproximatívnu euklidovskú vzdialenosť s chybou <1 %Štatistiky šírky odvodené z poľa šírok na pixel:
Dĺžka trhliny sa meria zo skeletonizovanej stredovej línie:
Metóda 1 — Počítanie pixelov s korekciou spojitosti:
Metóda 2 — Reťazový kód (Freeman Chain):
Metóda 3 — Euklidovská vzdialenosť medzi usporiadanými bodmi:
Pre vetviace sa trhliny (napr. aligátorové praskanie v blízkosti križovatiek) celková dĺžka trhliny zahŕňa všetky vetvy. Skeleton musí byť pred výpočtom dĺžky rozložený na jednotlivé vetvy v križovatkových bodoch.
Segmentačné masky merajú trhliny v pixeloch; technické normy vyžadujú fyzické milimetre. Používajú sa štyri kalibračné metódy:
1. Známy referenčný objekt: Umiestni do scény objekt známych rozmerov (minca, pravítko alebo kalibračný terč). Faktor mierky S = známa_dĺžka_mm / nameraná_dĺžka_pixely. Presnosť: ±0,5–1 %.
2. Laserová projekcia (Carrasco et al., 2021): Dva paralelné laserové lúče v známej vzdialenosti (napr. 50 mm) sú projektované na povrch. Vzdialenosť pixelov medzi laserovými bodmi udáva S = 50 mm / Δpixely. Presnosť: ±0,02 mm.
3. Geometria kamery: mm_na_pixel = (2 × Z × tan(HFOV/2)) / šírka_obrazu, kde Z = vzdialenosť kamery od povrchu (m), HFOV = horizontálne zorné pole (stupne). Pre dron vo výške 10 m s 24 mm objektívom a 20 MP kamerou (5472×3648, 24 mm ohnisková vzdialenosť na APS-C senzore s 1,5× crop faktorom, 36 mm efektívna ohnisková vzdialenosť, HFOV ≈ 51°): mm_na_pixel ≈ (2 × 10 000 × tan(25,5°)) / 5472 ≈ 1,8 mm/pixel.
4. Fixná predkalibrácia: Pre dron alebo prieskumné vozidlo pri fixnej výške/konfigurácii objektívu predkalibruj S. Vo výške 15 m s 20 MP kamerou a 35 mm objektívom S ≈ 0,5 mm/pixel.
Generalizácia modelu — schopnosť udržať presnosť detekcie na typoch vozoviek, svetelných podmienkach a kamerových systémoch, ktoré neboli súčasťou tréningu — je kritickou výzvou pre produkčnú detekciu trhlín. Model trénovaný výhradne na Crack500 (filadelfský asfalt) môže stratiť 5–15 % IoU pri aplikácii na betónové povrchy dráh a model trénovaný na slnečných denných snímkach môže stratiť 10–20 % presnosť pri zamračených alebo mokrých podmienkach.
Asfaltové a betónové vozovky predstavujú zásadne odlišné vizuálne charakteristiky pre detekciu trhlín. Asfalt má tmavý, jednotný vzhľad s nízkym albedom (odrazivosť 5–15 %). Okraje trhlín v asfalte sú typicky ostré a s vysokým kontrastom, pretože čerstvé povrchy trhlín odhaľujú svetlejšie kamenivo. Betón má vyššie albedo (odrazivosť 30–50 %) a škvrnitý vzhľad povrchu z distribúcie jemného kameniva. Betónové trhliny majú často nižší kontrast, pretože povrchy trhlín zvetrávajú podobne ako exponovaný povrch. Model trénovaný na jednom type povrchu sa učí povrchovo špecifické textúrové prvky (jednotné tmavé pozadie asfaltu), ktoré na druhom povrchu chýbajú alebo sú obrátené (svetlejšie, textúrované pozadie betónu).
Dataset NHA12D bol špecificky navrhnutý na hodnotenie tejto výzvy naprieč doménami — obsahuje 40 betónových a 40 asfaltových snímok z rovnakej britskej diaľničnej siete. Publikované výsledky ukazujú, že modely trénované na asfaltových datasetoch (CFD, Crack500) a testované na betónových snímkach NHA12D strácajú 8–12 % IoU v porovnaní s hodnotením na rovnakom povrchu. Techniky doménovej adaptácie riešia tento problém prostredníctvom:
Presnosť detekcie trhlín pri rôznych svetelných podmienkach sa výrazne líši. Systematická štúdia na Crack500 v troch svetelných scenároch zistila:
Augmentácia dát počas tréningu zlepšuje robustnosť voči svetelným podmienkam. Štandardné augmentácie pre detekciu trhlín zahŕňajú:
Model trénovaný s agresívnou augmentáciou (jas ±40 %, kontrast ±30 %, šum σ=0,03, jadro rozmazania až 7) stráca približne 1–2 % absolútneho IoU na čistom, optimálnom osvetlení, ale získava 6–8 % IoU na náročných podmienkach (tieň, zamračenie). Zlepšenie na ťažkých prípadoch zvyčajne ospravedlňuje malú penalizáciu na ľahkých prípadoch pre nasadenie v reálnom svete, kde je osvetlenie nekontrolované.
Nasadzovanie AI pre detekciu trhlín na okrajových zariadeniach — vstavané počítače namontované na dronoch, kontrolných vozidlách alebo robotoch — umožňuje spracovanie v reálnom čase bez cloudového pripojenia, čo je kritické pre vzdialené letiská, veľké diaľničné siete a bezpečnostne dôležité aplikácie, kde latencia musí byť meraná v milisekundách, nie v sekundách.
NVIDIA Jetson Orin Nano Super (67 TOPS INT8, 7–15W, $249) je primárna okrajová platforma pre dronovú detekciu trhlín. 1024 CUDA jadier a 32 Tensor jadier poskytuje dostatočnú priepustnosť pre segmentáciu v reálnom čase pri 30–50 FPS (FP16) na optimalizovaných architektúrach (EGA-UNet, ResU-Net). 8 GB LPDDR5 pamäte (102 GB/s šírka pásma) zvláda dávkovú inferenciu 512×512. Formát: modul 69,6×45 mm, vhodný na integráciu do dronových nákladov.
NVIDIA Jetson Orin NX (100 TOPS, 10–25W) ponúka vyššiu priepustnosť pre súčasné spracovanie viacerých kamerových tokov — užitočné pre kontrolné vozidlá s dopredu, do strán a dole smerujúcimi kamerami.
NVIDIA Jetson AGX Orin (275 TOPS, 15–60W) umožňuje nasadenie modelov v plnom rozsahu (DeepLabV3+, TransUNet) pri produkčných snímkových frekvenciách. Používa sa pre vozidlom namontované systémy, kde je spotreba energie menej obmedzená.
Raspberry Pi 5 (štvorjadrový Cortex-A76 @ 2,4 GHz, $60–80) s Hailo-8L NPU (13 TOPS, M.2 HAT) poskytuje lacnejšie okrajové riešenie. Ľahké modely (U-Net s ghost konvolúciou, MobileNetV3 segmentačná hlavička) dosahujú 5–12 FPS na vstupoch 512×512. Celkové náklady systému vrátane kamery a dronového držiaka: ~$200.
| Platforma | TOPS | Výkon | Cena | FPS trhlín (FP16) | FPS trhlín (INT8) |
|---|---|---|---|---|---|
| Jetson Orin Nano Super | 67 | 7–15W | $249 | 30–50 | 50–80 |
| Jetson Orin NX | 100 | 10–25W | $499 | 40–60 | 70–100+ |
| Jetson AGX Orin | 275 | 15–60W | $1 999 | 60–100+ | 100–200+ |
| Raspberry Pi 5 + Hailo-8L | 13 | 5–12W | ~$80 | 5–12 | 8–15 |
TensorRT (NVIDIA SDK na optimalizáciu inferencie) vykonáva optimalizáciu grafu, automatické ladenie jadier a kalibráciu presnosti:
ONNX Runtime poskytuje multiplatformové nasadenie s execution providers pre CUDA (GPU), TensorRT (NVIDIA), OpenVINO (Intel), CoreML (Apple) a ARM CPU. Typické zrýchlenie: 1,2–1,5× oproti surovému PyTorch na CPU.
Prerezávananie kanálov odstraňuje menej dôležité konvolučné kanály na základe veľkosti L1-normy (váhy blízke nule prispievajú minimálne). Môže znížiť FLOPs o 30–50 % so stratou presnosti 1–2 % pre segmentáciu trhlín. Vedomostná destilácia (knowledge distillation) trénuje malý študentský model (napr. EGA-UNet s 2,3M parametrami), aby napodobňoval výstup veľkého učiteľského modelu (napr. DeepLabV3+ s 55M parametrami) minimalizáciou KL divergencie medzi ich výstupnými distribúciami pravdepodobností. Študent dosahuje 95–98 % presnosti učiteľa so 70–90 % menej parametrami.
Pre kontroly dráh alebo diaľnic s viacerými dronmi vyžaduje plné nahrávanie videa (4K, 30 FPS, H.264) 15–25 Mbps na dron — čo presahuje kapacitu mobilného pripojenia vo vidieckych oblastiach a znemožňuje analýzu v cloude v reálnom čase. Stratégia selektívneho nahrávania rieši tento problém:
Napriek pokrokom v presnosti AI vyžaduje bezpečnostne kritická kontrola infraštruktúry (komerčné letiskové dráhy, medzištátne diaľničné mosty, hrádze priehrad) overenie s ľudským dohľadom (human-in-the-loop verification) — kvalifikovaný inšpektor kontroluje AI vygenerované mapy trhlín a buď potvrdzuje, zamieta alebo upravuje zistenia. Je to poháňané regulačnými požiadavkami (ICAO, FAA, ASTM), ktoré vyžadujú schválenie profesionálnym inžinierom pre správy o stave ovplyvňujúce bezpečnostné rozhodnutia.
Typický pracovný tok s ľudským dohľadom pre AI detekciu trhlín:
Táto spätnoväzbová slučka nepretržite zlepšuje výkon modelu. Po 3–5 cykloch opätovného trénovania s ľudsky overenými okrajovými prípadmi miera falošne pozitívnych výsledkov typicky klesá o 40–60 % a recall sa zlepšuje o 5–10 % na špecifických typoch vozoviek a podmienkach v kontrolnom programe.
Limit rozlíšenia detekcie tenkých trhlín: Trhliny užšie ako 2–3 pixely nemožno spoľahlivo detekovať ani merať bez ohľadu na kvalitu modelu — fyzická informácia v snímke jednoducho nie je prítomná. Pri vzdialenosti vzorkovania na zemi 1,0 mm/pixel (typické pre dronové kontroly vo výške 10–15 m) sú trhliny pod 0,3 mm nedetekovateľné. Toto je tvrdé fyzikálne obmedzenie dané rozlíšením zobrazovacej platformy, nie AI modelom.
Degradácia naprieč doménami: Modely trénované na jednom type vozovky (asfalt) alebo geografickej oblasti (americké cesty) strácajú 5–15 % IoU pri nasadení na rôznych typoch vozoviek (betón, kompozit) alebo oblastiach (európske, ázijské povrchy ciest). Techniky doménovej adaptácie znižujú tento rozdiel, ale neeliminujú ho. Produkčné nasadenie vyžaduje doladenie špecifické pre danú lokalitu alebo tréning na viacerých regiónoch.
Konzistencia falošne pozitívnych výsledkov: Zatiaľ čo celková miera falošne pozitívnych výsledkov je nízka (5–15 % detekcií), falošne pozitívne výsledky sa zhlukujú v špecifických podmienkach: stavebné škáry produkujú falošné detekcie na 20–40 % škár; pozdĺžne drážky (ryhovanie) produkujú periodické falošné vzory; a olejové škvrny na povrchu produkujú nepravidelné falošne pozitívne výsledky. Tieto systematické režimy zlyhania vyžadujú pravidlami riadené následné filtre (napr. “odstráň detekcie pozdĺž známych línií škár z GIS dát”).
Mokré podmienky a slabé osvetlenie: Výkon na mokrej vozovke degraduje až o 40 % IoU v porovnaní so suchými podmienkami. Nočná kontrola vyžaduje aktívne osvetlenie (LED reflektory na drone alebo vozidle), čo vnáša odlesky a artefakty tieňov, ktoré ďalej znižujú presnosť. Dážď, hmla a snehová pokrývka robia detekciu trhlín kamerami vo viditeľnom spektre prakticky nemožnou.
Regulačné prijatie: Žiadny hlavný letecký alebo dopravný úrad (ICAO, FAA, ASTM, AASHTO) nezverejnil normy pre detekciu trhlín pomocou AI ako samostatnú kontrolnú metódu. Súčasné predpisy vyžadujú overenie AI výsledkov tradičnými metódami (ťahanie reťaze, jadrové vzorkovanie, vizuálna kontrola certifikovaným inšpektorom). To obmedzuje prevádzkové úspory nákladov nasadenia AI, pretože čas inšpektora je stále potrebný na overenie.
Samo-učenie sa pre režimy s nízkym množstvom dát: Paradigma zamrznutej chrbtice DINOv3 ukazuje, že modely detekcie trhlín možno trénovať s 50–100 označenými snímkami namiesto 500–2000. Budúci vývoj rozšíri toto na detekciu trhlín bez príkladov (zero-shot crack detection) — modely, ktoré detekujú trhliny na akomkoľvek type povrchu bez akéhokoľvek doménovo špecifického tréningu, využitím prvkov základného modelu naučených z miliárd rôznorodých snímok.
Fyzikálne informované neurónové siete: Súčasné modely sa učia čisto vizuálne prvky. Fyzikálne informované modely budú zahŕňať rovnice prenosu tepla pre tepelnú detekciu trhlín, modely napätie-deformácia na predpovedanie šírenia trhlín z detekovanej geometrie a modely zaťaženia pre letiskové vozovky (hmotnosť lietadla, tlak pneumatík, frekvencia prejazdov) na prioritizáciu naliehavosti opráv na základe štrukturálneho rizika, nielen rozmerov trhlín.
Video-based temporálna analýza: Súčasné systémy analyzujú jednotlivé snímky. Modely založené na videu budú sledovať progresiu trhlín naprieč viacerými prieskumnými prechodmi (porovnanie rok po roku), detekovať otváranie/zatváranie trhlín pri dopravnom zaťažení (meranie šírky trhliny pred, počas a po prejazde lietadla) a filtrovať prechodné falošne pozitívne výsledky (lístie, nečistoty, stojatá voda) prostredníctvom časových konzistenčných kontrol.
Multi-modálna fúzia senzorov: Kombinácia kamier vo viditeľnom spektre s tepelnou infračervenou (IRT), georadarom (GPR), LiDAR výškovým profilovaním a ultrazvukovou tomografiou poskytuje bohatšiu charakterizáciu defektov. Jednotný AI model spracúvajúci všetky modality súčasne bude detekovať povrchové trhliny (viditeľné), podpovrchovú delamináciu (IRT), obsah dutín (GPR) a povrchovú drsnosť (LiDAR) v jednom prechode — poskytujúc komplexné hodnotenie štrukturálneho stavu presahujúce samotnú detekciu trhlín.
Transformerové architektúry natívne pre okrajové zariadenia: Výpočtové náklady O(n²) Vision Transformerov v súčasnosti obmedzujú nasadenie na okraji. Hardvérovo špecifické architektúry (NVIDIA TensorRT optimalizované, Qualcomm AI Engine mapované, Apple Neural Engine kompilované) kombinované s mechanizmami pozornosti s lineárnou zložitosťou (Performer, Linformer, Mamba state-space modely) prinesú presnosť na úrovni transformerov na okrajové zariadenia do roku 2027. Architektúra Mamba-UNet (2024) používajúca state-space modely namiesto pozornosti dosahuje konkurencieschopnú segmentáciu trhlín (71,5 % mIoU) pri približne 40 % výpočtových nákladov EGA-UNet.
Regulačný vývoj: Ako AI detekcia trhlín zhromažďuje prevádzkové dôkazy v sieťach letísk a diaľnic, normotvorné orgány sa očakávajú, že publikujú AI-špecifické kontrolné normy — definujúce požiadavky na validáciu, prahy presnosti, frekvenciu preškoľovania a protokoly ľudského dohľadu. Plán FAA pre AI v letectve (FAA AI Strategic Plan, 2024) explicitne zahŕňa AI pre kontrolu infraštruktúry v plánovanom cykle vývoja regulačného rámca na roky 2026–2028.

Nasaďte detekciu trhlín poháňanú AI z dronových a vozidlových snímok pre automatizované kontroly dráh, ciest a mostových dosiek. Získajte pixelovo presnú segmentáciu trhlín, meranie šírky a klasifikáciu závažnosti integrovanú s vaším systémom správy majetku.
Sémantická segmentácia priraďuje každomu pixelu v obraze kategóriovú značku, čo umožňuje porozumenie celej scéne pre infraštruktúrnu inšpekciu. Zahŕňa architekt...
Automatizované meranie šírky trhliny odvodzuje otváraciu šírku detegovaných trhlín z binárnych pixelových masiek pomocou euklidovskej transformácie vzdialenosti...
Počítačové videnie je technológia poháňaná umelou inteligenciou, ktorá umožňuje strojom interpretovať a reagovať na vizuálne dáta, čím poháňa aplikácie ako rozp...