Čo je detekcia trhlín pomocou AI a ako funguje?

Detekcia trhlín pomocou AI využíva modely počítačového videnia s hlbokým učením — predovšetkým konvolučné neurónové siete (CNN), architektúry U-Net, DeepLab s atrous spatial pyramid pooling a Vision Transformery — na automatickú identifikáciu trhlín na snímkach vozoviek, dráh, mostových dosiek a betónových povrchov. Modely sú trénované na pixelovo anotovaných datasetoch, kde každá snímka má zodpovedajúcu binárnu masku označujúcu, ktoré pixely patria k trhlinám. Počas inferencie model analyzuje každý pixel vo vstupnej snímke a klasifikuje ho ako trhlinu alebo netrhlinu (sémantická segmentácia), čím vytvára mapu segmentácie trhlín. Následné spracovanie pomocou skeletonizácie a distance transform vypočíta šírku, dĺžku a plochu trhlín. Technológia je nasadzovaná na okrajových zariadeniach (NVIDIA Jetson Orin, dronové počítače) pre kontrolu v reálnom čase alebo na cloudových serveroch pre dávkové spracovanie veľkých prieskumných datasetov.

Aké architektúry hlbokého učenia sa používajú na detekciu trhlín?

Medzi hlavné architektúry patria: U-Net (enkodér-dekodér so skip spojeniami, ~31M parametrov), ktorý zachováva priestorové detaily kritické pre delineáciu tenkých trhlín; DeepLabV3+ (ResNet-101 alebo Xception chrbtica s Atrous Spatial Pyramid Pooling, ~42-55M parametrov), ktorý zachytáva kontext vo viacerých mierkach; Vision Transformery ako SETR a TransUNet (86M-632M parametrov) poskytujúce globálne receptívne polia; EGA-UNet (~2,3M parametrov) kombinujúci efektívne ghost konvolúcie s Adaptive Fourier Filter token mixingom pre ľahké nasadenie v reálnom čase s 73,1% Dice; a DINOv3 (samo-učiaci sa ViT, až 7B parametrov) umožňujúci detekciu trhlín s minimálnym množstvom označených údajov pomocou transfer learningu so zamrznutou chrbticou.

Aké datasety sa používajú na trénovanie modelov AI na detekciu trhlín?

Kľúčové benchmarkové datasety zahŕňajú: Crack500 (500 snímok v rozlíšení 2000×1500 z filadelfských vozoviek, pixelové anotácie); DeepCrack (537 snímok v rozlíšení 544×384 z viacscénových betónových a asfaltových povrchov); CrackForest Dataset / CFD (118 snímok v rozlíšení 480×320 z pekingských mestských ciest); CrackTree200 (206 snímok v rozlíšení 800×600 s náročnými podmienkami s nízkym kontrastom); GAPs384 (1 969 snímok v rozlíšení 1920×1080 z nemeckých asfaltových ciest, najväčší verejný dataset z jedného zdroja); a NHA12D (80 vysokorozlíšených snímok z britskej diaľnice A12, 40 betón + 40 asfalt). Trhlinové pixely zvyčajne tvoria len 2–8 % všetkých pixelov na snímku, čo vytvára extrémnu triednu nevyváženosť vyžadujúcu špecializované loss funkcie (focal loss, Dice loss, Tversky loss) počas tréningu.

Ako sa meria šírka a dĺžka trhlín z výstupu AI segmentácie?

Kvantifikácia trhlín z binárnych segmentačných masiek nasleduje pipeline výpočtovej geometrie: (1) Skeletonizácia pomocou Zhang-Suen thinning algoritmu redukuje oblasť trhliny na jediný pixel širokú stredovú líniu; (2) Euklidovská distance transform vypočíta minimálnu vzdialenosť z každého skeletonového pixelu k okraju trhliny, čo dáva polovičnú šírku v každom bode (šírka trhliny = 2 × vzdialenosť); (3) Prechod skeletonom s kódovaním reťazca meria dĺžku trhliny pomocou 4-spojených krokov (1 pixel) a diagonálnych krokov (√2 ≈ 1,414 pixelov); (4) Kalibrácia pixelov na milimetre pomocou známych referenčných objektov, laserových projekčných systémov (dva paralelné lúče v známej vzdialenosti) alebo geometrie kamery (FOV = 2 × Z × tan(HFOV/2)). Vo výške dronu 10 m s 20 MP kamerou je typická vzdialenosť vzorkovania na zemi približne 0,5 mm/pixel, čo umožňuje detekciu trhlín už od 0,3–0,5 mm.

Aké metriky hodnotenia sa používajú pre modely detekcie trhlín?

Detekcia trhlín používa pixelové metriky binárnej klasifikácie: IoU (Intersection over Union = TP/(TP+FP+FN), typický rozsah 0,55–0,75); Dice koeficient (F1 = 2TP/(2TP+FP+FN), typický rozsah 0,65–0,80), ktorý súvisí s IoU vzťahom Dice = 2×IoU/(1+IoU); presnosť (TP/(TP+FP)); recall (TP/(TP+FN)); a priemerná presnosť (mAP@[0,5:0,95]) pre prístupy založené na detekcii objektov. Presnosť pixelov sa neodporúča, pretože trhlinové pixely tvoria 95 % presnosť, pričom detekuje nulové trhliny. BF (Boundary F1) meria presnosť hrán, typicky 0,40–0,60, čo odráža náročnosť presného vymedzenia okrajov trhlín. Miera falošne negatívnych výsledkov (FNR = FN/(TP+FN)) je kritická pre bezpečnostne dôležité aplikácie ako kontrola letiskových dráh, kde prehliadnuté trhliny predstavujú väčšie riziko ako falošné poplachy.

Môže byť detekcia trhlín pomocou AI nasadená na okrajových zariadeniach a dronoch?

Áno. Nasadzovanie na okrajových zariadeniach na detekciu trhlín v reálnom čase je uskutočniteľné na moduloch NVIDIA Jetson (Orin Nano Super: 67 TOPS pri 7–15W, $249; Orin NX: 100 TOPS; AGX Orin: 275 TOPS) a Raspberry Pi 5 s Hailo-8L NPU (13 TOPS). Techniky optimalizácie inferencie zahŕňajú: TensorRT FP16 (2× priepustnosť oproti FP32, <0,5% strata presnosti); INT8 kvantizácia pomocou post-tréningovej alebo kvantizačne uvedomovanej kvantizácie (3–4× priepustnosť, 0,5–3% strata presnosti); prerezávanie kanálov (30–50 % redukcia FLOPs); a vedomostnú destiláciu (študentský model dosahuje 95–98 % presnosti učiteľa so 70–90 % menej parametrami). Pre dronové kontroly stratégia selektívneho nahrávania (inferencia na zariadení pri 10–30 FPS, prenos len snímok s pozitívnymi trhlinami) znižuje šírku pásma z ~15–25 Mbps (plné 4K video) na ~1–10 Mbps, čo umožňuje operácie s viacnásobnými dronmi.

Aké sú normy ICAO a FAA pre kontrolu trhlín na letiskových dráhach?

ICAO Annex 14, Volume I (8. vydanie, 2018) klasifikuje trhliny podľa šírky: vláskové ( 6 mm). Akákoľvek trhlina >3 mm široká na povrchu vyžaduje utesnenie alebo opravu do 90 dní; odlupovanie na okrajoch trhlín urýchľuje lehotu na 30 dní. FAA Advisory Circular 150/5200-30D vyžaduje dokumentáciu akéhokoľvek stavu povrchu ovplyvňujúceho brzdenie alebo smerové riadenie lietadla. Kód stavu dráhy (RwyCC) sa pohybuje od 0 do 6, harmonizovaný s ICAO. ASTM D5340-12 definuje zrážkové hodnoty Indexu stavu vozovky (PCI) pre závažnosť a hustotu trhlín. AI detekcia trhlín priamo podporuje tieto regulačné rámce poskytovaním objektívnych, opakovateľných meraní trhlín s pixelovou presnosťou na celom povrchu dráhy počas jediného preletu dronu alebo prejazdu vozidla.

Aké sú súčasné obmedzenia detekcie trhlín pomocou AI?

Kľúčové obmedzenia zahŕňajú: (1) Generalizáciu naprieč vozovkami — modely trénované na jednom type povrchu (napr. asfalt) degradujú na inom (napr. betón) o 5–15 % IoU bez doladenia alebo doménovej adaptácie; (2) Citlivosť na osvetlenie — tiene, mokré povrchy a nízko položené slnko znižujú presnosť detekcie o 10–20 %; (3) Detekciu tenkých trhlín — trhliny užšie ako 2–3 pixely sú na hranici rozlíšenia segmentačných modelov; (4) Triednu nevyváženosť — trhlinové pixely tvoria <5 % tréningových dát, čo vyžaduje špecializované loss funkcie a augmentáciu dát; (5) Falošne pozitívne výsledky z povrchových prvkov — olejové škvrny, stavebné škáry, stopy pneumatík a variácie textúry povrchu vytvárajú anomálie, ktoré nie sú trhlinami; (6) Overenie s ľudským dohľadom zostáva nevyhnutné pre bezpečnostne kritické infraštruktúrne rozhodnutia; (7) Regulačné prijatie — výsledky AI kontroly vyžadujú validáciu voči zavedeným metódam (ťahanie reťaze, impact-echo, jadrové vzorkovanie) pre oficiálne vykazovanie stavu vozovky.

Detekcia trhlín pomocou AI pre kontrolu infraštruktúry

Q: Aké sú normy ICAO a FAA pre kontrolu trhlín na letiskových dráhach?

ICAO Annex 14, Volume I (8. vydanie, 2018) klasifikuje trhliny podľa šírky: vláskové ( 6 mm). Akákoľvek trhlina >3 mm široká na povrchu vyžaduje utesnenie alebo opravu do 90 dní; odlupovanie na okrajoch trhlín urýchľuje lehotu na 30 dní. FAA Advisory Circular 150/5200-30D vyžaduje dokumentáciu akéhokoľvek stavu povrchu ovplyvňujúceho brzdenie alebo smerové riadenie lietadla. Kód stavu dráhy (RwyCC) sa pohybuje od 0 do 6, harmonizovaný s ICAO. ASTM D5340-12 definuje zrážkové hodnoty Indexu stavu vozovky (PCI) pre závažnosť a hustotu trhlín. AI detekcia trhlín priamo podporuje tieto regulačné rámce poskytovaním objektívnych, opakovateľných meraní trhlín s pixelovou presnosťou na celom povrchu dráhy počas jediného preletu dronu alebo prejazdu vozidla.

Detekcia trhlín pomocou AI využíva počítačové videnie — konvolučné neurónové siete, vision transformery a modely sémantickej segmentácie — na automatickú identifikáciu, klasifikáciu a meranie trhlín na snímkach vozoviek a konštrukcií. Táto technológia je základom automatizovaných programov kontroly ciest, letiskových dráh a mostov v sektore civilného letectva a dopravy.

Detekcia trhlín pomocou AI pre kontrolu infraštruktúry

Definícia problému a výzvy

Detekcia trhlín pomocou AI je technológia počítačového videnia, ktorá aplikuje modely hlbokého učenia — konvolučné neurónové siete (CNN), architektúry enkodér-dekodér a vision transformery — na automatickú identifikáciu, klasifikáciu, segmentáciu a meranie trhlín na povrchoch vozoviek, dráh, mostových dosiek a betónových konštrukcií z digitálnych snímok. Technológia nahrádza alebo dopĺňa manuálnu vizuálnu kontrolu ľudskými inžiniermi, transformujúc subjektívne, pracovne náročné prieskumy na objektívne, škálovateľné a dátami riadené hodnotenia. Pre prevádzkovateľov letísk a civilnej infraštruktúry automatizovaná detekcia trhlín priamo podporuje skórovanie Indexu stavu vozovky (PCI) podľa ASTM D5340-12, vykazovanie Kódu stavu dráhy (RwyCC) podľa ICAO Annex 14 a plánovanie preventívnej údržby.

Letecký záber z dronu na povrch letiskovej dráhy s viditeľnými trhlinami, prekrytie analýzou počítačového videnia AI zvýrazňujúce detekované vzory trhlín

Problém detekcie trhlín predstavuje jedinečné výzvy, ktoré ho odlišujú od všeobecných úloh sémantickej segmentácie. Trhliny sú tenké, pretiahnuté štruktúry — typicky 0,1 mm až 5 mm široké — ktoré zaberajú len 2–8 % všetkých pixelov v danej snímke, čo vytvára extrémnu triednu nevyváženosť počas tréningu modelu. Pomer popredia k pozadiu pre trhlinové pixely je približne 1:20 až 1:50, čo znamená, že naivný klasifikátor predpovedajúci všetky pixely ako pozadie dosahuje viac ako 95 % presnosť, pričom detekuje nulové trhliny. Morfológia trhlín sa dramaticky líši: pozdĺžne trhliny prebiehajú rovnobežne so stredovou osou vozovky, priečne trhliny prebiehajú kolmo, aligátorové (únavové) trhliny vytvárajú vzájomne prepojené polygonálne vzory a reflexné trhliny sa šíria cez obrusné vrstvy z podkladových škár. Každý typ vyžaduje inú geometrickú charakterizáciu.

Osvetlenie a environmentálna variabilita ďalej komplikujú detekciu. Tiene z konštrukcií a previsnutej vegetácie vytvárajú oblasti s nízkym kontrastom, kde sú trhliny takmer neviditeľné. Mokrý povrch vozovky znižuje teplotný kontrast pre tepelné metódy a mení odrazivosť vo viditeľnom spektre. Olejové škvrny, stopy pneumatík, gumové usadeniny, stavebné škáry, variácie textúry povrchu (drážkovanie, ryhovanie, metlový povrch) a nečistoty vytvárajú falošne pozitívne prvky, ktoré vizuálne napodobňujú trhliny. Štúdia z roku 2025 publikovaná v Scientific Reports (EGA-UNet paper, Vol. 15, Article 33818) preukázala, že presnosť detekcie trhlín na komplexných pozadiach klesá o 10–20 % v porovnaní s čistými, jednotnými povrchmi, a to aj so špičkovými mechanizmami pozornosti.

Obmedzenia mierky a rozlíšenia vnášajú zásadný kompromis. Snímky s vysokým rozlíšením (submilimetrová vzdialenosť vzorkovania na zemi na pixel) zachytávajú jemné trhliny, ale vyžadujú veľké úložisko, šírku pásma a čas spracovania. Snímky s nižším rozlíšením pokrývajú viac plochy na jeden let alebo jazdu, ale nezachytia trhliny užšie ako 2–3 pixely. Pre dronovú kontrolu dráhy vo výške 15 m s 24 MP kamerou je typická vzdialenosť vzorkovania na zemi 1,0–1,5 mm/pixel, čo znamená, že trhliny pod šírkou 0,3 mm sú pod prahom detekcie. Tento limit rozlíšenia je tvrdým fyzikálnym obmedzením, ktoré žiadny AI model nemôže prekonať — určuje minimálnu detekovateľnú šírku trhliny pre danú zobrazovaciu platformu a výšku.

Architektúry modelov pre detekciu trhlín

U-Net

U-Net, predstavený Ronnebergerom, Fischerom a Broxom na Univerzite vo Freiburgu v roku 2015, zostáva najrozšírenejšou architektúrou pre pixelovú segmentáciu trhlín. Symetrická štruktúra enkodér-dekodér s preskakovacími spojeniami (skip connections) je obzvlášť vhodná pre detekciu trhlín, pretože trhliny sú tenké, priestorovo lokalizované prvky vyžadujúce zachovanie vysokofrekvenčných detailov počas celej pipeline podvzorkovania a prevzorkovania.

Enkodér (kontrakčná cesta) U-Net pozostáva zo štyroch podvzorkovacích blokov. Každý blok obsahuje dve 3×3 konvolúcie (padding=same) nasledované ReLU aktiváciou a 2×2 max pooling operáciou (stride=2). Počet filtrov sa na každej úrovni zdvojnásobuje: 64 → 128 → 256 → 512 → 1024 na úzkom mieste. Pre vstup 512×512 pixelov sa priestorové rozmery cez enkodér zmenšujú ako 512 → 256 → 128 → 64 → 32 v najhlbšej vrstve. Úzke miesto (bottleneck) na spodku tvaru U obsahuje 1024 feature máp v rozlíšení 32×32, čo predstavuje najabstraktnejšie, sémanticky najbohatšie prvky.

Dekodér (rozširujúca cesta) zrkadlí enkodér so štyrmi prevzorkovacími blokmi. Každý blok aplikuje 2×2 transponovanú konvolúciu (dekonvolúciu), ktorá znižuje počet filtrov na polovicu a zdvojnásobuje priestorové rozmery. Prevzorkovaná feature mapa je zreťazená so zodpovedajúcou feature mapou z enkodérovej cesty cez preskakovacie spojenia — napríklad vrstva dekodéra v rozlíšení 128×128 dostáva priame zreťazenie z enkodérovej vrstvy 128×128. Tento mechanizmus preskakovacích spojení je kritický: poskytuje dekodéru vysokorozlíšené priestorové detaily z enkodéra, ktoré by boli inak stratené počas agresívneho podvzorkovania. Po zreťazení dve 3×3 konvolúcie s ReLU upresňujú kombinované prvky.

Finálna výstupná vrstva je 1×1 konvolúcia so sigmoid aktiváciou, produkujúca jednokanálovú mapu pravdepodobností, kde každá hodnota pixelu (0 až 1) predstavuje pravdepodobnosť, že daný pixel patrí do oblasti trhliny. Prah (typicky 0,5) konvertuje pravdepodobnosti na binárnu segmentáciu trhlina/netrhilna.

Pôvodný U-Net obsahuje ~31 miliónov parametrov a 23 konvolučných vrstiev. Pre vstup 512×512 je rýchlosť inferencie približne 40 ms na snímku na modernej GPU (NVIDIA RTX 3080 alebo ekvivalent). Ľahké varianty ako ResU-Net (používajúci reziduálne spojenia namiesto obyčajných konvolúcií) redukujú parametre na ~7,8 milióna, pričom dosahujú 68,47 % stredného IoU na datasetoch trhlín. EGA-UNet ďalej redukuje na ~2,3 milióna parametrov, zatiaľ čo zlepšuje Dice na 73,1 % pomocou ghost konvolúcií a Fourier-based token mixingu.

Preskakovacie spojenia U-Net sú architektonicky nevyhnutné pre detekciu trhlín. Bez nich by boli tenké trhliny (1–5 pixelov široké) úplne stratené počas 4-násobného podvzorkovania (32× redukcia na úzkom mieste) — 3-pixelová široká trhlina na vstupe sa stáva sub-pixelovým prvkom na úzkom mieste, ktorý nemožno obnoviť samotným prevzorkovaním. Preskakovacie spojenia úplne obchádzajú toto informačné úzke miesto a poskytujú dekodéru geometriu trhliny v plnom rozlíšení z enkodéra.

DeepLabV3+

DeepLabV3+, vyvinutý Chenom et al. v Google v roku 2018, rieši detekciu trhlín pomocou atrous (dilatovaných) konvolúcií a modulu Atrous Spatial Pyramid Pooling (ASPP) . Na rozdiel od U-Net, ktorý agresívne podvzorkuje a obnovuje cez preskakovacie spojenia, DeepLab udržiava feature mapy s vyšším rozlíšením počas celej chrbtice pomocou dilatovaných konvolúcií, ktoré rozširujú receptívne pole bez zmenšovania priestorových rozmerov.

Chrbtica (backbone) je typicky ResNet-101 (101 vrstiev, ~42,6 milióna parametrov) alebo Xception-65 (~54,7 milióna parametrov). Štandardné konvolúcie v chrbtici sú nahradené atrous konvolúciami — 3×3 jadrá s dilatačnými pomermi (diery) vloženými medzi prvky jadra. 3×3 jadro s dilatačným pomerom r=2 pokrýva receptívne pole 5×5; r=4 pokrýva 9×9; r=8 pokrýva 17×17; a r=16 pokrýva 33×33 — všetky s rovnakým počtom parametrov (9 váh) ako štandardná 3×3 konvolúcia. Táto vlastnosť je kritická pre detekciu trhlín: umožňuje modelu vidieť väčší kontext okolo každého pixelu (odlíšenie trhlín od textúry povrchu) bez straty rozlíšenia, ktorá by nastala pri podvzorkovaní.

Modul ASPP aplikuje štyri paralelné atrous konvolučné vetvy s dilatačnými pomermi r=6, 12, 18 a 24 (pre výstupný krok=16), každá s 256 filtrami a 3×3 jadrami. Dodatočná 1×1 konvolučná vetva a vetva na úrovni obrazu (globálne priemerné poolovanie → 1×1 konvolúcia → bilineárne prevzorkovanie) dokončujú modul. Všetkých päť vetiev produkuje 256-kanálové feature mapy, ktoré sú zreťazené a prejdú ďalšou 1×1 konvolúciou. Viacmierková schopnosť ASPP modulu je obzvlášť dôležitá pre trhliny, ktoré sa výrazne líšia v šírke — vlásková trhlina (<1 mm) a široká trhlina (>6 mm) vyžadujú rôzne veľkosti receptívnych polí pre optimálnu detekciu.

Dekodér DeepLabV3+ je ľahký v porovnaní s plným dekodérom U-Net: bilineárne prevzorkovanie 4×, zreťazenie s nízkourovňovými prvkami z ranej vrstvy chrbtice (redukované na 48 kanálov cez 1×1 konvolúciu), dve 3×3 konvolúcie (256 filtrov) a finálne bilineárne prevzorkovanie 4× na pôvodné rozlíšenie. Výstupný krok je typicky 16 (vstupné rozlíšenie delené 16 na úzkom mieste), niekedy 8 pre hustejšie feature mapy za cenu 2× vyššej spotreby pamäte.

DeepLabV3+ dosahuje približne 78,5 % mIoU na datasetoch trhlín. Štúdia EGA-UNet (2025) však uviedla, že DeepLabV3+ nedosahuje také výsledky ako ľahké architektúry ako EGA-UNet (73,1 % Dice oproti nižšiemu pre DeepLabV3+) kvôli nedostatočnému zachovaniu jemných detailov na okrajoch trhlín. Dilatácie ASPP modulu, aj keď účinné pre viacmierkový kontext, rozmazávajú jemné priestorové detaily, ktoré sú nevyhnutné pre presné meranie šírky trhlín.

Vision Transformery (ViT)

Vision Transformery (ViT) , predstavené Dosovitskiym et al. v Google v roku 2020, aplikujú Transformer architektúru so samopozornosťou — pôvodne vyvinutú pre spracovanie prirodzeného jazyka — na analýzu obrazu. ViT rozdeľuje vstupný obraz na neprekrývajúce sa bloky (patche) veľkosti P×P (typicky 16×16 pixelov), linearizuje každý blok do vektora a spracúva sekvenciu blokových embeddingov cez štandardné Transformer enkodérové vrstvy s viachlavovou samopozornosťou.

Pre vstup 224×224 s blokmi 16×16 produkuje ViT (224/16)² = 196 blokových embeddingov. Každý blok s rozmermi 16×16×3 (RGB) je sploštený do 768-rozmerného vektora a lineárne projektovaný do embeddingovej dimenzie D. Transformer enkodér pozostáva z L vrstiev (stacked layers). ViT-Base používa L=12, D=768 a 12 hlavičiek pozornosti (86M parametrov). ViT-Large používa L=24, D=1024 a 16 hlavičiek (307M parametrov). ViT-Huge používa L=32, D=1280 a 16 hlavičiek (632M parametrov). Zložitosť samopozornosti škáluje ako O(n²·D), kde n je počet blokov — 196 blokov s D=768 vyžaduje približne 28 miliónov operácií na hlavičku na vrstvu.

Pre segmentáciu trhlín sa ViT používa ako chrbtica v hybridných architektúrach enkodér-dekodér. TransUNet nahrádza U-Net enkodér ViTom, kombinujúc Transformer globálny kontext s CNN dekodérom pre obnovu jemných detailov. SwinUNet používa hierarchický Swin Transformer s posunutými oknami na zníženie výpočtových nákladov O(n²). SETR (SEgmentation TRansformer) aplikuje ViT priamo ako enkodér s progresívnym prevzorkovaním.

Výhoda ViT pre detekciu trhlín spočíva v jeho globálnom receptívnom poli. CNN spracúvajú informácie lokálne a vyžadujú mnoho vrstiev na propagáciu informácií cez veľké priestorové vzdialenosti. Mechanizmus samopozornosti ViT spája každý blok s každým iným blokom v jedinej vrstve, čo umožňuje detekciu dlhých, súvislých trhlín, ktoré sa tiahnu cez stovky alebo tisíce pixelov — napríklad únavové trhliny kľukatiace sa cez celú šírku dráhy. Hybridné ViT-CNN modely dosahujú 74–78 % IoU na datasetoch trhlín, pričom TransUNet vykazuje osobitnú silu pri aligátorových (vzájomne prepojených) vzoroch trhlín.

Kritickým obmedzením sú výpočtové náklady. Snímka 512×512 rozdelená na bloky 16×16 produkuje (512/16)² = 1 024 blokov, vyžadujúc 1 024² ≈ 1 milión výpočtov pozornosti na vrstvu — rádovo viac ako 196 blokov pre vstupy 224×224. To robí plné nasadenie ViT na okrajových zariadeniach (drony, mobilné kontrolné vozidlá) nepraktickým bez výraznej kompresie alebo prerezania.

DINOv3

DINOv3, vydaný Meta AI v roku 2025, predstavuje špičku v oblasti samo-učiacich sa Vision Transformerov. Je treťou generáciou rodiny DINO (DIstillation with NO labels), trénovanou v bezprecedentnom rozsahu: až 7 miliárd parametrov na 1,7 miliardy neoznačených snímok. DINOv3 používa rámec učiteľ-študent, kde sa študent učí zhodovať výstupné reprezentácie učiteľa bez akýchkoľvek ľudsky označených dát.

Kľúčovou architektonickou inováciou DINOv3 je Gram Anchoring — regularizačná technika aplikovaná po približne 1 milióne tréningových iterácií, ktorá stabilizuje husté (na úrovni blokov) reprezentácie prvkov. Gramova matica študentského modelu (párová podobnosť blokov, rozmery N×N kde N=počet blokov) je obmedzená tak, aby zostala blízko skopírovanej zamrznutej “Gram učiteľke”. Toto zabraňuje kolapsu hustých prvkov (dense feature collapse) , čo je režim zlyhania v samo-učiacom sa učení, kde sa odlišné bloky obrazu zbiehajú do podobných embeddingov napriek tomu, že sú sémanticky odlišné. Staršie varianty DINO (v1 a v2) trpeli týmto kolapsom počas predĺženého tréningu; Gram Anchoring umožňuje stabilný tréning na miliardách snímok.

Pre detekciu trhlín spočíva relevantnosť DINOv3 v paradigme zamrznutej chrbtice (frozen backbone) . Predtrénovaná ViT chrbtica (dostupná vo veľkostiach od ViT-Small s 21M parametrami po ViT-Huge so 632M a vlajkový model 7B) je zmrazená a používa sa ako univerzálny vizuálny enkodér. Ľahké hlavičky špecifické pre danú úlohu — lineárne sondy, MLP adaptéry alebo malé konvolučné hlavičky — sú trénované na vrchu bez spätnej propagácie cez chrbticu. To umožňuje:

Detekciu trhlín s niekoľkými príkladmi (few-shot): Lineárna sonda trénovaná na iba 50 označených snímkach trhlín dosahuje presnosť segmentácie porovnateľnú s plne supervidovanou CNN trénovanou na 500+ snímkach.
Prenos naprieč doménami (cross-domain transfer): Prvky naučené z prirodzených snímok (dáta na úrovni ImageNet) sa prenášajú na snímky vozovkových trhlín bez doménovo špecifického predtrénovania.
Nasadzovanie pre viacero úloh (multi-task deployment): Jediná zamrznutá chrbtica slúži súčasne na detekciu trhlín, detekciu výtlkov, hodnotenie škárových tmelov a posudzovanie značenia vozoviek prostredníctvom rôznych ľahkých hlavičiek.

Prvky na úrovni blokov DINOv3 (nie globálne obrazové embeddingy) zachovávajú jemnozrnné priestorové informácie potrebné pre delineáciu tenkých trhlín. Variant ViT-Base (86M parametrov, 12 vrstiev, 768 embeddingová dimenzia) poskytuje najlepší pomer presnosti k výpočtom pre aplikácie kontroly infraštruktúry. DINOv3 je obzvlášť sľubný pre programy kontroly letiskových dráh, kde je označených údajov o trhlinách málo — čo je bežný scenár pre menšie letiská bez rozsiahlej histórie správy vozoviek.

CrackNet

CrackNet, vyvinutý Zhangom et al. v roku 2017 na Univerzite v Južnej Floride, bol jednou z prvých hlbokých CNN architektúr navrhnutých špecificky a výhradne pre automatizovanú detekciu trhlín na vozovkách. Na rozdiel od univerzálnych architektúr (U-Net, DeepLab) adaptovaných z biomedicínskej alebo prirodzenej segmentácie obrazu, CrackNet bol navrhnutý od základov pre morfológiu vozovkových trhlín.

Pôvodná architektúra CrackNet pozostáva z 6 konvolučných vrstiev s plne prepojeným vrchom: Conv1 (5×5, stride=1, 64 filtrov) → Conv2 (5×5, stride=1, 64 filtrov) → MaxPool (2×2) → Conv3 (3×3, stride=1, 128 filtrov) → Conv4 (3×3, stride=1, 128 filtrov) → MaxPool (2×2) → Conv5 (5×5, stride=1, 256 filtrov) → Conv6 (3×3, stride=1, 256 filtrov) → Plne prepojená (2 048 jednotiek) → Softmax výstup (2 triedy: trhlina alebo netrhilna). Celkový počet parametrov je ~1,4 milióna — približne 22× menší ako U-Net (31M) a 35× menší ako DeepLabV3+ (42–55M).

CrackNet pracuje na 64×64 pixelových blokoch pevnej veľkosti, nie na celých snímkach. Tréningový dataset pozostával z 640 000 blokov extrahovaných z 1 800 snímok vozoviek (160 000 pre validáciu, 180 000 pre testovanie). Každý blok je klasifikovaný ako obsahujúci trhlinu v stredovom pixeli alebo nie — toto je prístup klasifikácie blokov (patch-based classification) , nie pixelová segmentácia. Moderné varianty (CrackNet-V, CrackNet-II, CrackNet-R) nahradili klasifikátor blokov plne konvolučnými sieťami pre hustú predikciu na úrovni pixelov.

CrackNet-V (vylepšený variant z roku 2020) pridal tréning založený na Generatívnych adverzárnych sieťach (GAN). Generátor produkuje mapy segmentácie trhlín zo vstupných snímok a diskriminátorová sieť rozlišuje vygenerované mapy od anotácií ground truth. Tento adverzárny tréningový režim zlepšil F1-skóre na 0,87 na CFD datasete. CrackNet-V tiež zaviedol viacmierkovú fúziu prvkov s modulmi inšpirovanými inception, umožňujúc detekciu trhlín v rôznych šírkach.

Význam CrackNet spočíva v architektonickej efektívnosti pre nasadenie na okrajových zariadeniach. Pri 1,4M parametroch a 5 ms na blok preukázal, že architektúra navrhnutá špecificky pre trhliny môže dosiahnuť presnosť na produkčnej úrovni na hardvéri dostupnom v roku 2017 — jediný NVIDIA Tesla K80 GPU dokázal spracovať celú snímku vozovky (zošitú z blokov) za menej ako 2 sekundy. To preukázalo uskutočniteľnosť automatizovanej detekcie trhlín v reálnom čase pre prieskumné vozidlá pri rýchlostiach na diaľnici.

EGA-UNet (2025)

EGA-UNet, publikovaný Yangom et al. v Scientific Reports (Vol. 15, Article 33818, 2025), predstavuje súčasnú špičku v efektívnej segmentácii trhlín. Architektúra dosahuje 73,1 % Dice koeficient s iba ~2,3 milióna parametrov — približne 13× menšia ako štandardný U-Net, pričom zlepšuje presnosť o +3,1 % Dice oproti U-Net, +11,9 % oproti SegNet a +44,9 % oproti PSPNet na benchmarkových datasetoch trhlín.

Tri architektonické inovácie odlišujú EGA-UNet:

EG-Block (Efficient Ghost Sparse Convolution Block): Tento stavebný blok používa “ghost” konvolúciu — techniku, ktorá generuje malý počet vnútorných feature máp pomocou štandardnej konvolúcie a potom aplikuje lacnejšie lineárne operácie (3×3 depthwise konvolúcie) na produkciu dodatočných “ghost” feature máp. Pre požadovaný výstup C kanálov generuje ghost konvolúcia približne C/2 pomocou štandardnej konvolúcie a C/2 pomocou lineárnych operácií, čím znižuje výpočty približne o 50 % v porovnaní so štandardnou konvolúciou pri ekvivalentných výstupných kanáloch. EG-Block obsahuje Efficient Multi-scale Attention (EMA) modul, ktorý váhuje prvky naprieč viacerými priestorovými mierkami.

A-RepViT Block: Tento nahrádza štandardný Vision Transformer token mixer pomocou Adaptive Fourier Filtering (AFF) . Vstupná feature mapa je transformovaná do frekvenčnej domény pomocou Rýchlej Fourierovej transformácie (FFT), frekvenčné zložky sú adaptívne filtrované (dolnopriepustné, hornopriepustné alebo pásmové v závislosti od naučených váh) a inverzná FFT rekonštruuje priestorovú feature mapu. AFF zachytáva globálny kontext so zložitosťou O(n log n) oproti O(n²) pre samopozornosť — pre feature mapu 32×32 (1 024 prvkov) to znižuje výpočty z ~1M operácií na ~10K operácií na vrstvu.

SPPF (Spatial Pyramid Pooling Fast): Aplikovaný v najhlbšej enkodérovej vrstve, SPPF agreguje viacmierkové prvky pomocou troch sekvenčných max-poolingových operácií s rôznymi veľkosťami jadier (5×5, 9×9, 13×13 efektívne receptívne polia), zreťazených do jednotnej viacmierkovej reprezentácie. Toto je výpočtovo efektívne v porovnaní s paralelným ASPP (používaným v DeepLab), pretože sekvenčné poolovanie znovu používa medzivýsledky.

Rýchlosť inferencie EGA-UNet je dostatočná pre nasadenie v reálnom čase na okrajových zariadeniach. Na NVIDIA Jetson Orin Nano Super dosahuje model približne 45–55 FPS pri FP16 presnosti na vstupoch 512×512, čo ho robí vhodným pre dronovú alebo vozidlovú detekciu trhlín v reálnom čase. Ľahký dizajn umožňuje nasadenie na platformách bez dedikovaných GPU — bola preukázaná inferencia pri 8–12 FPS na Raspberry Pi 5 s Hailo-8L NPU akcelerátorom (13 TOPS).

Porovnanie architektúr

Architektúra	Parametre	Dizajnový princíp	Kľúčová inovácia	Dice/IoU pre trhliny	Nasaditeľná na okraji
U-Net (2015)	~31M	Enkodér-dekodér, skip spojenia	Zachovanie priestorových detailov	65–68 % IoU	S kvantizáciou
ResU-Net	~7,8M	Reziduálne skip spojenia	Zlepšenie toku gradientu	68,5 % IoU	Áno
DeepLabV3+ (2018)	~42–55M	Atrous konvolúcia, ASPP	Viacmierkový kontext	~75 % IoU	Nie
ViT-Base (2020)	86M	Samopozornosť na blokoch	Globálne receptívne pole	74–78 % IoU	Nie
DINOv3 (2025)	21M–7B	Samo-učenie, zamrznutá chrbtica	Few-shot prenos	Porovnateľné so supervidovaným	S adaptérovou hlavičkou
CrackNet (2017)	~1,4M	CNN na blokoch	Dizajn špecifický pre vozovky	~87 % F1 (blok)	Áno
EGA-UNet (2025)	~2,3M	Ghost konv. + AFF token mixing	Ľahký + globálny kontext	73,1 % Dice	Áno

Tréningové datasety pre detekciu trhlín

Trénovanie modelov detekcie trhlín vyžaduje pixelovo anotované datasety, kde každá snímka má zodpovedajúcu binárnu masku označujúcu každý pixel ako trhlinu (biela, hodnota 1) alebo netrhlinu (čierna, hodnota 0). Proces anotácie je pracovne náročný — jedna snímka 2000×1500 pixelov vyžaduje 15–45 minút expertného manuálneho označovania pomocou nástrojov na kreslenie lomených čiar, po ktorom nasleduje morfologická dilatácia na vytvorenie masiek trhlín v plnej šírke. Nasledujúce datasety tvoria štandardné benchmarky pre akademický výskum a vývoj modelov.

Crack500

Crack500, publikovaný Yangom et al. v roku 2020, obsahuje 500 RGB snímok v rozlíšení 2000×1500 pixelov (3 megapixely na snímku). Snímky boli nasnímané pomocou kamier mobilných telefónov na povrchoch vozoviek okolo Temple University vo Philadelphii, USA. Každá snímka má zodpovedajúcu pixelovú binárnu segmentačnú masku anotovanú manuálne pomocou nástrojov na kreslenie lomených čiar. Výskumníci bežne rozdeľujú 500 snímok na približne 1 896 neprekrývajúcich sa blokov 512×512 pre tréning modelu. Štandardné rozdelenie prideľuje 350 snímok na tréning, 50 na validáciu a 100 na testovanie. Trhlinové pixely tvoria približne 2–5 % všetkých pixelov na snímku. Šírky trhlín sa pohybujú od 0,1 mm do 5 mm a snímky zahŕňajú viacero svetelných podmienok (slnečno, zamračené, zatienené). Typy trhlín zahŕňajú pozdĺžne, priečne a aligátorové vzory.

DeepCrack

DeepCrack, publikovaný Liuom et al. v Neurocomputing (2019), obsahuje 537 RGB snímok v rozlíšení 544×384 pixelov. Snímky boli nasnímané z rôznych betónových a asfaltových povrchov — mostov, ciest, tunelov a stien budov — čo poskytuje viacscénové pokrytie, ktoré je v jednoduchých datasetoch z vozoviek nezvyčajné. Každá snímka má pixelové binárne anotácie ako PNG masky. Dataset je vopred rozdelený na približne 300 tréningových a 237 testovacích snímok. DeepCrack bol špecificky vytvorený na hodnotenie architektúry Holistically-Nested Edge Detection (HED) adaptovanej pre detekciu trhlín. Dataset zahŕňa náročné podmienky: nízky kontrast medzi trhlinami a pozadím, tenké trhliny (1–3 pixely široké) a textúrované povrchové pozadia. Trhliny sú kategorizované podľa šírky, nie podľa štrukturálneho typu.

CrackForest Dataset (CFD)

CFD, publikovaný Shiom et al. v IEEE Transactions on Intelligent Transportation Systems (2016), obsahuje 118 snímok v rozlíšení 480×320 pixelov. Snímky boli nasnímané pomocou iPhone 5 na mestských cestách v Pekingu, Čína. Každá snímka má manuálne anotované ground truth masky na úrovni pixelov, plus priečinok “seg” so segmentáciami založenými na superpixeloch. Dataset bol navrhnutý tak, aby odrážal všeobecné podmienky mestských ciest a zahŕňa faktory šumu: tiene zo stromov a budov, olejové škvrny, mláky vody a pokrytie lístím. Trhlinové pixely tvoria približne 4–8 % každej snímky. Nízke rozlíšenie 480×320 robí detekciu tenkých trhlín náročnou — trhliny môžu byť široké len 1–2 pixely. CFD je licencovaný len na nekomerčné výskumné použitie s požiadavkou na citáciu. Jeho hlavným obmedzením je malá veľkosť (118 snímok), jedna geografická oblasť a jedna kamera.

GAPs384

GAPs384 (German Asphalt Pavement Distress dataset) , z Technickej univerzity v Ilmenau, Nemecko, obsahuje 1 969 snímok v rozlíšení 1920×1080 pixelov (Full HD). Toto je najväčší verejný dataset trhlín z jedného zdroja podľa počtu snímok. Snímky sú odtiene sivej (nie RGB), čo znižuje veľkosť súboru, ale eliminuje farebné informácie, ktoré môžu pomôcť pri rozlišovaní trhlín. Anotácie zahŕňajú klasifikáciu typu trhliny (pozdĺžna, priečna, aligátorová) okrem pixelových masiek trhlín. Vysoké rozlíšenie a konzistentné podmienky snímania (nemecká diaľničná sieť) robia GAPs384 cenným pre trénovanie modelov určených pre európske podmienky vozoviek. Dataset zahŕňa širšiu škálu závažností trhlín ako CFD alebo Crack500.

NHA12D

NHA12D, publikovaný Huangom et al. (2022), obsahuje 80 snímok vozoviek zozbieraných z britskej diaľničnej siete A12 organizáciou National Highways (predtým Highways England). Dataset jedinečne zahŕňa 40 snímok betónových vozoviek a 40 snímok asfaltových vozoviek nasnímaných za rovnakých prieskumných podmienok digitálnymi prieskumnými vozidlami. Toto dvojsvrchníkové zloženie robí NHA12D cenným pre hodnotenie generalizácie naprieč doménami — schopnosť modelu detekovať trhliny na oboch typoch povrchu bez degradácie. K dispozícii sú anotácie ground truth na úrovni pixelov. Malá veľkosť (80 snímok) robí NHA12D primárne benchmarkovým datasetom, nie tréningovým zdrojom.

Dataset	Snímky	Rozlíšenie	% trhlín/snímka	Zdroj	Rok
Crack500	500	2 000 × 1 500	2–5 %	Cesty Philadelphia	2020
DeepCrack	537	544 × 384	rôzne	Viacscénový	2019
CFD	118	480 × 320	4–8 %	Cesty Peking	2016
GAPs384	1 969	1 920 × 1 080	rôzne	Nemecké diaľnice	2020
NHA12D	80	Vysoké rozlíšenie	rôzne	Diaľnica A12, UK	2022
CrackTree200	206	800 × 600	rôzne	Vozovka (náročná)	2012

Triedna nevyváženosť a loss funkcie

Všetky datasety trhlín vykazujú výraznú triednu nevyváženosť: trhlinové pixely tvoria 2–8 % všetkých pixelov, čo znamená, že modely sa musia učiť v priemere z 500–2 000 trhlinových pixelov na snímku s 25 000 celkovými pixelmi (480×320 CFD rozlíšenie). Štandardná cross-entropia loss je neúčinná — model minimalizuje loss predpovedaním “pozadia” pre každý pixel. Špecializované loss funkcie riešia tento problém:

Focal Loss (Lin et al., 2017) aplikuje modulačný faktor (1 − p_t)^γ na cross-entropiu loss, kde p_t je predikovaná pravdepodobnosť modelu pre triedu ground truth a γ je zaostrovací parameter (typicky 2,0). Toto znižuje váhu dobre klasifikovaných príkladov (p_t → 1,0) a zvyšuje váhu ťažkých, chybne klasifikovaných príkladov (p_t → 0,0). Pre detekciu trhlín s γ=2,0 focal loss znižuje príspevok jednoduchých pixelov pozadia približne 4× v porovnaní s cross-entropiou.

Dice Loss (Milletari et al., 2016) = 1 − Dice koeficient = 1 − (2TP + ε)/(2TP + FP + FN + ε). Toto priamo optimalizuje metriku hodnotenia. Dice loss je menej citlivá na triednu nevyváženosť ako cross-entropia, pretože meria prekrytie, nie presnosť na pixel. Je štandardnou loss funkciou pre U-Net segmentáciu trhlín.

Tversky Loss (Saleh et al., 2017) zovšeobecňuje Dice loss vážením falošne pozitívnych a falošne negatívnych výsledkov odlišne: Tversky index = TP/(TP + α·FP + β·FN). Pre bezpečnostne kritickú detekciu trhlín, kde sú falošne negatívne výsledky (prehliadnuté trhliny) nebezpečnejšie ako falošne pozitívne (falošné poplachy), nastavenie α=0,3 a β=0,7 penalizuje FN viac ako FP.

SupContrast (Supervised Contrastive Loss) , relevantný pre prístupy založené na DINOv3, priťahuje blokové embeddingy trhlinových pixelov k sebe v embeddingovom priestore, zatiaľ čo ich odtláča od embeddingov pixelov pozadia. Toto vytvára dobre štruktúrovaný embeddingový priestor, kde trhlinové pixely tvoria tesné zhluky, ktoré sú lineárne oddeliteľné od zhlukov pozadia.

Klasifikácia vs. segmentácia trhlín

Prístupy k detekcii trhlín pomocou AI spadajú do dvoch metodologických kategórií: klasifikačné a segmentačné, každá s odlišnými výstupmi, metrikami a prípadmi použitia.

Klasifikácia trhlín určuje, či oblasť snímky (blok, dlaždica alebo celá snímka) obsahuje trhlinu. Výstupom je binárny štítok (trhlina prítomná / trhlina neprítomná) alebo viac triedny štítok (typ trhliny: pozdĺžna, priečna, aligátorová). Klasifikačné modely sú typicky ľahké CNN (CrackNet s 1,4M parametrami, MobileNetV2 s 3,5M parametrami) trénované na datasetoch na úrovni blokov. Výstup poskytuje pravdepodobnosť prítomnosti trhliny a polohu (ktorý blok obsahuje trhlinu), ale neposkytuje geometriu trhliny — šírku, dĺžku, orientáciu alebo topológiu. Klasifikácia je vhodná pre rýchly screening, kde je cieľom identifikovať miesta trhlín na následnú kontrolu, nie merať jednotlivé trhliny. Hodnotenie používa presnosť, precision, recall a F1 na úrovni bloku alebo snímky.

Segmentácia trhlín (sémantická segmentácia) klasifikuje každý pixel jednotlivo ako trhlinu alebo netrhlinu. Výstupom je binárna maska v rovnakom rozlíšení ako vstupná snímka, kde každý pixel má pravdepodobnosť trhliny. To poskytuje kompletnú geometriu trhliny — šírku v každom bode pozdĺž trhliny, celkovú dĺžku, uhol orientácie, topológiu vetvenia a plochu trhliny. Segmentácia je potrebná pre kvantitatívne hodnotenie stavu vozovky (výpočet PCI, klasifikácia závažnosti šírky trhlín podľa noriem ICAO). Hodnotenie používa metriky na úrovni pixelov: IoU, Dice, precision, recall a boundary F1. Segmentačné modely sú výpočtovo náročnejšie (U-Net s 31M parametrami, DeepLabV3+ so 42–55M), ale poskytujú podstatne bohatší výstup.

Niektoré systémy používajú inštančnú segmentáciu (detekciu každej jednotlivej trhliny ako samostatného objektu), ktorá rozlišuje medzi neprepojenými trhlinami. To je relevantné pre počítanie trhlín (počet trhlín na jednotku plochy) a mapovanie hustoty trhlín. Mask R-CNN a YOLOv8-seg sú bežné architektúry inštančnej segmentácie pre detekciu trhlín.

Metriky hodnotenia

Intersection over Union (IoU)

IoU (Jaccard Index) meria prekrytie medzi predikovanou segmentáciou trhlín a ground truth, delené zjednotením oboch. Je to najčastejšie uvádzaná metrika pre segmentáciu trhlín:

IoU = TP / (TP + FP + FN)

Hodnoty sa pohybujú od 0 (žiadne prekrytie) do 1 (dokonalé prekrytie). Typické IoU pre modely detekcie trhlín sa pohybuje od 0,55 do 0,75. IoU je citlivejšia ako Dice na falošne pozitívne a falošne negatívne výsledky, pretože menovateľ zjednotenia je väčší ako jednotlivé súčty. Model predpovedajúci 100-pixelovú ground truth trhlinu so 60 správnymi pixelmi (TP=60, FP=20, FN=40) dosahuje IoU = 60/(60+20+40) = 0,50. Prísnejší menovateľ zjednotenia znamená, že IoU je vždy nižšie alebo rovné ako Dice pre rovnakú predikciu.

Dice koeficient (F1 skóre)

Dice (tiež nazývané F1 skóre pre binárnu segmentáciu) je harmonický priemer precision a recall:

Dice = 2 × TP / (2 × TP + FP + FN)

Dice súvisí s IoU: Dice = 2·IoU / (1 + IoU). Pre príklad vyššie (IoU=0,50) je Dice = 2×0,50/1,50 = 0,67. Typické Dice pre detekciu trhlín sa pohybuje od 0,65 do 0,80. Práca EGA-UNet (2025) uvádza Dice = 73,1 % ako svoju primárnu metriku. Dice poskytuje optimistickejšie hodnotenie kvality segmentácie ako IoU a rozdiel medzi nimi sa zväčšuje, keď sa kvalita znižuje — nízko kvalitná predikcia s IoU=0,25 má Dice=0,40.

Precision a Recall

Precision (Pozitívna prediktívna hodnota) = TP/(TP+FP). Meria mieru falošných poplachov: z všetkých pixelov označených ako trhlina, aký podiel je skutočne trhlina? Vysoká precision (>0,85) znamená málo falošne pozitívnych výsledkov. Dôležitá, keď detekcia trhlín spúšťa nákladné následné akcie (napr. vyslanie utesňovacích čiat na kontrolu označených miest).

Recall (Senzitivita, miera skutočne pozitívnych) = TP/(TP+FN). Miera prehliadnutých trhlín: zo všetkých skutočných pixelov trhlín, aký podiel model detekoval? Vysoký recall (>0,85) znamená málo prehliadnutých trhlín. Pre bezpečnostne kritickú infraštruktúru (kontrola letiskových dráh na komerčných letiskách) je recall prioritnejší ako precision — vyšetrovanie falošného poplachu je menej dôležité ako prehliadnutie skutočnej trhliny, ktorá by sa mohla rozvinúť do štrukturálneho zlyhania pri zaťažení lietadlom.

Priemerná presnosť (mAP)

mAP hodnotí presnosť naprieč rôznymi recall prahmi, typicky uvádzaná pri IoU prahoch 0,50 (mAP@50) a od 0,50 do 0,95 v 0,05 krokoch (mAP@50:95). Pre detekciu trhlín ako úlohu detekcie objektov (ohraničujúce rámčeky) mAP meria, ako dobre model lokalizuje oblasti trhlín. Štúdia University of Central Florida z roku 2025 používajúca Grounding DINO na tepelnú detekciu trhlín dosiahla 70 % mAP@[0,5:0,95]. Pre úlohy pixelovej segmentácie sú IoU a Dice preferované pred mAP, pretože trhliny sú neobdĺžnikové štruktúry a metriky ohraničujúcich rámčekov slabo reprezentujú kvalitu segmentácie.

Porovnanie metrík

Metrika	Vzorec	Rozsah	Typická hodnota pre trhliny	Použitie
IoU	TP/(TP+FP+FN)	0–1	0,55–0,75	Kvalita segmentácie (prísna)
Dice	2TP/(2TP+FP+FN)	0–1	0,65–0,80	Kvalita segmentácie (zhovievavá)
Precision	TP/(TP+FP)	0–1	0,80–0,95	Kontrola falošných poplachov
Recall	TP/(TP+FN)	0–1	0,80–0,95	Bezpečnostne kritická detekcia
F1	2PR/(P+R)	0–1	0,80–0,92	Celková
mAP@50	Priem. presnosť pri IoU≥0,5	0–1	0,70–0,85	Detekcia objektov
Presnosť pixelov	(TP+TN)/(TP+TN+FP+FN)	0–1	>0,95 (zavádzajúce)	Neodporúča sa pre trhliny

Meranie šírky a dĺžky trhlín zo segmentácie

Binárna segmentačná maska z AI modelu poskytuje polohu a tvar trhlín, ale normy kontroly infraštruktúry vyžadujú fyzické rozmery trhlín — šírku v milimetroch, dĺžku v metroch a plochu v štvorcových milimetroch. Prevod pixelových masiek na technické merania vyžaduje pipeline výpočtovej geometrie.

Skeletonizácia

Skeletonizácia (ztenšovanie) redukuje oblasť trhliny na jediný pixel širokú stredovú líniu, ktorá zachováva topológiu trhliny (spojitosť, vetvenie, koncové body). Zhang-Suen thinning algoritmus (1984) je štandardnou metódou:

Vstup: Binárna maska trhliny (biela=trhlina, čierna=pozadie)
Iteratívny dvojprechodový postup:
- Prechod 1: Označ okrajové pixely na odstránenie, ak: (a) 2 ≤ N(P1) ≤ 6 (počet nenulových 8-susedov); (b) S(P1) = 1 (počet prechodov 0→1 v cykle 8-susedov); (c) P2×P4×P6 = 0; (d) P4×P6×P8 = 0
- Prechod 2: Rovnaké podmienky s (c’) P2×P4×P8 = 0; (d’) P2×P6×P8 = 0
- Opakuj, kým sa v iterácii nezmení žiadny pixel
Výstup: Skeleton stredovej línie, presne 1 pixel široký

Mediálna osová transformácia (MAT) je alternatívou využívajúcou distance transform: pre každý vnútorný pixel trhliny vypočítaj minimálnu euklidovskú vzdialenosť k okraju trhliny. Skeleton pozostáva z pixelov, ktoré sú lokálnymi maximami v tejto mape vzdialeností. MAT produkuje hladšie skeletonizácie pre hrubé, nepravidelné trhliny, ale vyžaduje výpočet O(n²) oproti O(n) pre Zhang-Suen thinning.

Distance transform na meranie šírky

Euklidovská distance transform (EDT) vypočíta minimálnu euklidovskú vzdialenosť z každého skeletonového pixelu (x,y) k najbližšiemu okrajovému pixelu trhliny:

D(x,y) = min_(i,j)∈∂C √((x−i)² + (y−j)²)

kde ∂C je množina okrajových pixelov oblasti trhliny. Šírka trhliny v bode (x,y) = 2 × D(x,y), pretože vzdialenosť od stredovej línie k okraju je polovica plnej šírky trhliny.

Distance transform sa efektívne počíta pomocou:

Fast Marching Method: O(n log n) pre presnú euklidovskú vzdialenosť
Danielssonovho algoritmu: O(n) pre aproximáciu 4-spojenej vzdialenosti
OpenCV cv2.distanceTransform(): O(n) dvojprechodový rastrový sken produkujúci aproximatívnu euklidovskú vzdialenosť s chybou <1 %

Štatistiky šírky odvodené z poľa šírok na pixel:

Priemerná šírka trhliny: priemer cez všetky skeletonové pixely — používa sa na celkovú klasifikáciu závažnosti trhliny
Maximálna šírka trhliny: najväčšia jednotlivá hodnota šírky — používa sa na hodnotenie závažnosti v najhoršom prípade
Histogram šírok: rozdelenie šírok pozdĺž dĺžky trhliny — indikuje rovnomernosť trhliny

Výpočet dĺžky trhliny

Dĺžka trhliny sa meria zo skeletonizovanej stredovej línie:

Metóda 1 — Počítanie pixelov s korekciou spojitosti:

Spočítaj celkové skeletonové pixely
Uprav pre diagonálnu susednosť: každý 4-spojený (ortogonálny) krok = 1 pixel; každý diagonálny krok = √2 ≈ 1,414 pixelov
Celková dĺžka L = N₀ + √2 × N₁ (kde N₀ = 4-spojené kroky, N₁ = diagonálne kroky)

Metóda 2 — Reťazový kód (Freeman Chain):

Zakóduj skeletonovú cestu ako sekvenciu smerových kódov (0=Východ, 1=Severovýchod, 2=Sever, atď.)
Sčítaj dĺžky krokov: párne kódy (ortogonálne) = 1, nepárne kódy (diagonálne) = √2

Metóda 3 — Euklidovská vzdialenosť medzi usporiadanými bodmi:

Zoraď skeletonové pixely do usporiadanej cesty pomocou prechodu grafom (potrebné pre vetviace sa trhliny, kde viacero ciest diverguje z križovatiek)
Sčítaj euklidovské vzdialenosti medzi po sebe nasledujúcimi usporiadanými bodmi

Pre vetviace sa trhliny (napr. aligátorové praskanie v blízkosti križovatiek) celková dĺžka trhliny zahŕňa všetky vetvy. Skeleton musí byť pred výpočtom dĺžky rozložený na jednotlivé vetvy v križovatkových bodoch.

Kalibrácia pixelov na milimetre

Segmentačné masky merajú trhliny v pixeloch; technické normy vyžadujú fyzické milimetre. Používajú sa štyri kalibračné metódy:

1. Známy referenčný objekt: Umiestni do scény objekt známych rozmerov (minca, pravítko alebo kalibračný terč). Faktor mierky S = známa_dĺžka_mm / nameraná_dĺžka_pixely. Presnosť: ±0,5–1 %.

2. Laserová projekcia (Carrasco et al., 2021): Dva paralelné laserové lúče v známej vzdialenosti (napr. 50 mm) sú projektované na povrch. Vzdialenosť pixelov medzi laserovými bodmi udáva S = 50 mm / Δpixely. Presnosť: ±0,02 mm.

3. Geometria kamery: mm_na_pixel = (2 × Z × tan(HFOV/2)) / šírka_obrazu, kde Z = vzdialenosť kamery od povrchu (m), HFOV = horizontálne zorné pole (stupne). Pre dron vo výške 10 m s 24 mm objektívom a 20 MP kamerou (5472×3648, 24 mm ohnisková vzdialenosť na APS-C senzore s 1,5× crop faktorom, 36 mm efektívna ohnisková vzdialenosť, HFOV ≈ 51°): mm_na_pixel ≈ (2 × 10 000 × tan(25,5°)) / 5472 ≈ 1,8 mm/pixel.

4. Fixná predkalibrácia: Pre dron alebo prieskumné vozidlo pri fixnej výške/konfigurácii objektívu predkalibruj S. Vo výške 15 m s 20 MP kamerou a 35 mm objektívom S ≈ 0,5 mm/pixel.

Kompletná meracia pipeline

Vstupná snímka → Segmentácia hlbokým učením → Binárna maska trhliny
Zhang-Suen thinning → 1-pixelový skeleton trhliny
Euklidovská distance transform → Kolmá šírka v každom bode skeletonu
Prechod skeletonom s reťazovým kódom → Celková dĺžka trhliny
Kalibrácia pixelov na mm → Fyzické rozmery trhliny (šírka v mm, dĺžka v m, plocha v mm²)
Klasifikácia závažnosti podľa ICAO/FAA: <1 mm (vlásková), 1–3 mm (úzka), 3–6 mm (stredná), >6 mm (široká)

Generalizácia naprieč typmi vozoviek a osvetlením

Generalizácia modelu — schopnosť udržať presnosť detekcie na typoch vozoviek, svetelných podmienkach a kamerových systémoch, ktoré neboli súčasťou tréningu — je kritickou výzvou pre produkčnú detekciu trhlín. Model trénovaný výhradne na Crack500 (filadelfský asfalt) môže stratiť 5–15 % IoU pri aplikácii na betónové povrchy dráh a model trénovaný na slnečných denných snímkach môže stratiť 10–20 % presnosť pri zamračených alebo mokrých podmienkach.

Generalizácia naprieč typmi vozoviek

Asfaltové a betónové vozovky predstavujú zásadne odlišné vizuálne charakteristiky pre detekciu trhlín. Asfalt má tmavý, jednotný vzhľad s nízkym albedom (odrazivosť 5–15 %). Okraje trhlín v asfalte sú typicky ostré a s vysokým kontrastom, pretože čerstvé povrchy trhlín odhaľujú svetlejšie kamenivo. Betón má vyššie albedo (odrazivosť 30–50 %) a škvrnitý vzhľad povrchu z distribúcie jemného kameniva. Betónové trhliny majú často nižší kontrast, pretože povrchy trhlín zvetrávajú podobne ako exponovaný povrch. Model trénovaný na jednom type povrchu sa učí povrchovo špecifické textúrové prvky (jednotné tmavé pozadie asfaltu), ktoré na druhom povrchu chýbajú alebo sú obrátené (svetlejšie, textúrované pozadie betónu).

Dataset NHA12D bol špecificky navrhnutý na hodnotenie tejto výzvy naprieč doménami — obsahuje 40 betónových a 40 asfaltových snímok z rovnakej britskej diaľničnej siete. Publikované výsledky ukazujú, že modely trénované na asfaltových datasetoch (CFD, Crack500) a testované na betónových snímkach NHA12D strácajú 8–12 % IoU v porovnaní s hodnotením na rovnakom povrchu. Techniky doménovej adaptácie riešia tento problém prostredníctvom:

Adverzárneho zosúladenia domén: Diskriminátorová doménová sieť sa učí rozlišovať asfaltové a betónové zdrojové domény; enkodér detekcie trhlín sa učí prvky, ktoré klamú diskriminátor, čím vytvára doménovo invariantné reprezentácie.
Augmentácie prenosom štýlu: Tréningové snímky sú štylisticky transformované tak, aby napodobňovali rôzne textúry vozoviek pomocou neurónového prenosu štýlu (Gram matrix matching) alebo Fourierovej doménovej adaptácie (výmena amplitúdy).
Viacpovrchového tréningu: Zahrnutie asfaltových aj betónových dát do tréningu (napr. kombinácia Crack500 + NHA12D betón) zlepšuje generalizáciu naprieč povrchmi o 3–5 %.

Variácie osvetlenia

Presnosť detekcie trhlín pri rôznych svetelných podmienkach sa výrazne líši. Systematická štúdia na Crack500 v troch svetelných scenároch zistila:

Slnečno, priame nadhlavové svetlo: IoU = 0,72 (základný optimálny)
Zamračené, difúzne svetlo: IoU = 0,63 (−12,5 % oproti základu)
Zatienené (tieň budovy/stromu na 30 % snímky): IoU = 0,58 (−19,4 % oproti základu)
Mokrý povrch (simulovaný stmavením a zvýšením zrkadlovej odrazivosti): IoU = 0,43 (−40,3 % oproti základu, kvôli maskovaniu prvkov trhlín povrchovou vodou)

Augmentácia dát počas tréningu zlepšuje robustnosť voči svetelným podmienkam. Štandardné augmentácie pre detekciu trhlín zahŕňajú:

Zmena jasu: Náhodná variácia jasu ±30 %
Zmena kontrastu: Náhodná variácia kontrastu ±20 %
Gaussovský šum: σ = 0,01–0,05 (normalizované hodnoty pixelov)
Gaussovské rozmazanie: veľkosť jadra 3–7, σ = 0,5–2,0
Simulácia dažďa: Pridanie polopriehľadných pruhov na simuláciu mokrých podmienok

Model trénovaný s agresívnou augmentáciou (jas ±40 %, kontrast ±30 %, šum σ=0,03, jadro rozmazania až 7) stráca približne 1–2 % absolútneho IoU na čistom, optimálnom osvetlení, ale získava 6–8 % IoU na náročných podmienkach (tieň, zamračenie). Zlepšenie na ťažkých prípadoch zvyčajne ospravedlňuje malú penalizáciu na ľahkých prípadoch pre nasadenie v reálnom svete, kde je osvetlenie nekontrolované.

Nasadzovanie na okrajových zariadeniach pre detekciu trhlín v reálnom čase

Nasadzovanie AI pre detekciu trhlín na okrajových zariadeniach — vstavané počítače namontované na dronoch, kontrolných vozidlách alebo robotoch — umožňuje spracovanie v reálnom čase bez cloudového pripojenia, čo je kritické pre vzdialené letiská, veľké diaľničné siete a bezpečnostne dôležité aplikácie, kde latencia musí byť meraná v milisekundách, nie v sekundách.

Hardvérové platformy

NVIDIA Jetson Orin Nano Super (67 TOPS INT8, 7–15W, $249) je primárna okrajová platforma pre dronovú detekciu trhlín. 1024 CUDA jadier a 32 Tensor jadier poskytuje dostatočnú priepustnosť pre segmentáciu v reálnom čase pri 30–50 FPS (FP16) na optimalizovaných architektúrach (EGA-UNet, ResU-Net). 8 GB LPDDR5 pamäte (102 GB/s šírka pásma) zvláda dávkovú inferenciu 512×512. Formát: modul 69,6×45 mm, vhodný na integráciu do dronových nákladov.

NVIDIA Jetson Orin NX (100 TOPS, 10–25W) ponúka vyššiu priepustnosť pre súčasné spracovanie viacerých kamerových tokov — užitočné pre kontrolné vozidlá s dopredu, do strán a dole smerujúcimi kamerami.

NVIDIA Jetson AGX Orin (275 TOPS, 15–60W) umožňuje nasadenie modelov v plnom rozsahu (DeepLabV3+, TransUNet) pri produkčných snímkových frekvenciách. Používa sa pre vozidlom namontované systémy, kde je spotreba energie menej obmedzená.

Raspberry Pi 5 (štvorjadrový Cortex-A76 @ 2,4 GHz, $60–80) s Hailo-8L NPU (13 TOPS, M.2 HAT) poskytuje lacnejšie okrajové riešenie. Ľahké modely (U-Net s ghost konvolúciou, MobileNetV3 segmentačná hlavička) dosahujú 5–12 FPS na vstupoch 512×512. Celkové náklady systému vrátane kamery a dronového držiaka: ~$200.

Platforma	TOPS	Výkon	Cena	FPS trhlín (FP16)	FPS trhlín (INT8)
Jetson Orin Nano Super	67	7–15W	$249	30–50	50–80
Jetson Orin NX	100	10–25W	$499	40–60	70–100+
Jetson AGX Orin	275	15–60W	$1 999	60–100+	100–200+
Raspberry Pi 5 + Hailo-8L	13	5–12W	~$80	5–12	8–15

Optimalizácia inferencie

TensorRT (NVIDIA SDK na optimalizáciu inferencie) vykonáva optimalizáciu grafu, automatické ladenie jadier a kalibráciu presnosti:

FP16 režim: 2× priepustnosť oproti FP32 so stratou presnosti <0,5 %. Znižuje pamäť modelu o ~50 %.
INT8 kvantizácia (Post-Training Quantization, PTQ): 3–4× priepustnosť oproti FP32. Reprezentatívny dataset (~500 snímok) kalibruje distribúcie aktivácií pre optimálne INT8 faktory mierky. Strata presnosti 1–3 % pre segmentáciu trhlín.
Kvantizačne uvedomované školenie (QAT): Simuluje INT8 kvantizáciu počas tréningu (vkladá falošné kvantizačné uzly). Model prispôsobuje svoje váhy kvantizovanému správaniu inferencie, čím dosahuje o 0,5–1,5 % lepšiu presnosť ako PTQ pre segmentáciu trhlín.

ONNX Runtime poskytuje multiplatformové nasadenie s execution providers pre CUDA (GPU), TensorRT (NVIDIA), OpenVINO (Intel), CoreML (Apple) a ARM CPU. Typické zrýchlenie: 1,2–1,5× oproti surovému PyTorch na CPU.

Prerezávananie kanálov odstraňuje menej dôležité konvolučné kanály na základe veľkosti L1-normy (váhy blízke nule prispievajú minimálne). Môže znížiť FLOPs o 30–50 % so stratou presnosti 1–2 % pre segmentáciu trhlín. Vedomostná destilácia (knowledge distillation) trénuje malý študentský model (napr. EGA-UNet s 2,3M parametrami), aby napodobňoval výstup veľkého učiteľského modelu (napr. DeepLabV3+ s 55M parametrami) minimalizáciou KL divergencie medzi ich výstupnými distribúciami pravdepodobností. Študent dosahuje 95–98 % presnosti učiteľa so 70–90 % menej parametrami.

Stratégia šírky pásma pre dronové kontroly

Pre kontroly dráh alebo diaľnic s viacerými dronmi vyžaduje plné nahrávanie videa (4K, 30 FPS, H.264) 15–25 Mbps na dron — čo presahuje kapacitu mobilného pripojenia vo vidieckych oblastiach a znemožňuje analýzu v cloude v reálnom čase. Stratégia selektívneho nahrávania rieši tento problém:

Model na zariadení beží nepretržite pri 10–30 FPS
Komprimujú sa (JPEG, kvalita 85) a prenášajú sa len snímky s istotou trhliny > prah (napr. >0,7)
Snímky v plnom rozlíšení (20+ MP) sa ukladajú na palube a fyzicky sťahujú
Odhadované dáta na 1-hodinový kontrolný let: ~50–200 MB snímok s pozitívnymi trhlinami + metadáta oproti ~30–50 GB pre plné nahrávanie videa
Umožňuje operácie s flotilou viacerých dronov s mobilným alebo satelitným backhaulom pre označené oblasti

Overenie s ľudským dohľadom

Napriek pokrokom v presnosti AI vyžaduje bezpečnostne kritická kontrola infraštruktúry (komerčné letiskové dráhy, medzištátne diaľničné mosty, hrádze priehrad) overenie s ľudským dohľadom (human-in-the-loop verification) — kvalifikovaný inšpektor kontroluje AI vygenerované mapy trhlín a buď potvrdzuje, zamieta alebo upravuje zistenia. Je to poháňané regulačnými požiadavkami (ICAO, FAA, ASTM), ktoré vyžadujú schválenie profesionálnym inžinierom pre správy o stave ovplyvňujúce bezpečnostné rozhodnutia.

Typický pracovný tok s ľudským dohľadom pre AI detekciu trhlín:

AI generuje mapu segmentácie trhlín s meraniami šírky/dĺžky podľa klasifikácií závažnosti ICAO
Prehliadacie rozhranie zobrazuje prekrytie AI predikcií na pôvodných snímkach, zvýrazňujúc oblasti trhlín podľa závažnosti (farebne kódované: zelená = vlásková <1mm, žltá = úzka 1–3mm, oranžová = stredná 3–6mm, červená = široká >6mm)
Inšpektor prijíma/preveruje/zamieta každú označenú trhlinu:
- Prijať: AI klasifikácia a merania zaznamenané bez zmeny (typicky 60–75 % detekcií)
- Preveriť: AI označila oblasť; inšpektor kontroluje v plnom rozlíšení, potenciálne upravuje okraj trhliny alebo odstraňuje falošne pozitívny výsledok (typicky 15–25 %)
- Zamietnuť: Falošne pozitívny výsledok spôsobený škárou, tieňom, textúrou povrchu, olejovou škvrnou (typicky 5–15 %)
Inšpektor pridáva prehliadnuté trhliny: Trhliny, ktoré AI nedetekovala (falošne negatívne), sú manuálne anotované (typicky 2–5 % celkovej dĺžky trhlín)
Revidované údaje sú zaznamenané s uchovaním AI aj inšpektorských anotácií
Okrajové prípady sú zaznamenané pre opätovné trénovanie modelu — falošne pozitívne a falošne negatívne výsledky sú zhromaždené, označené a pridané do tréningového datasetu pre ďalšiu iteráciu modelu

Táto spätnoväzbová slučka nepretržite zlepšuje výkon modelu. Po 3–5 cykloch opätovného trénovania s ľudsky overenými okrajovými prípadmi miera falošne pozitívnych výsledkov typicky klesá o 40–60 % a recall sa zlepšuje o 5–10 % na špecifických typoch vozoviek a podmienkach v kontrolnom programe.

Súčasné obmedzenia a budúce smerovanie

Súčasné obmedzenia

Limit rozlíšenia detekcie tenkých trhlín: Trhliny užšie ako 2–3 pixely nemožno spoľahlivo detekovať ani merať bez ohľadu na kvalitu modelu — fyzická informácia v snímke jednoducho nie je prítomná. Pri vzdialenosti vzorkovania na zemi 1,0 mm/pixel (typické pre dronové kontroly vo výške 10–15 m) sú trhliny pod 0,3 mm nedetekovateľné. Toto je tvrdé fyzikálne obmedzenie dané rozlíšením zobrazovacej platformy, nie AI modelom.

Degradácia naprieč doménami: Modely trénované na jednom type vozovky (asfalt) alebo geografickej oblasti (americké cesty) strácajú 5–15 % IoU pri nasadení na rôznych typoch vozoviek (betón, kompozit) alebo oblastiach (európske, ázijské povrchy ciest). Techniky doménovej adaptácie znižujú tento rozdiel, ale neeliminujú ho. Produkčné nasadenie vyžaduje doladenie špecifické pre danú lokalitu alebo tréning na viacerých regiónoch.

Konzistencia falošne pozitívnych výsledkov: Zatiaľ čo celková miera falošne pozitívnych výsledkov je nízka (5–15 % detekcií), falošne pozitívne výsledky sa zhlukujú v špecifických podmienkach: stavebné škáry produkujú falošné detekcie na 20–40 % škár; pozdĺžne drážky (ryhovanie) produkujú periodické falošné vzory; a olejové škvrny na povrchu produkujú nepravidelné falošne pozitívne výsledky. Tieto systematické režimy zlyhania vyžadujú pravidlami riadené následné filtre (napr. “odstráň detekcie pozdĺž známych línií škár z GIS dát”).

Mokré podmienky a slabé osvetlenie: Výkon na mokrej vozovke degraduje až o 40 % IoU v porovnaní so suchými podmienkami. Nočná kontrola vyžaduje aktívne osvetlenie (LED reflektory na drone alebo vozidle), čo vnáša odlesky a artefakty tieňov, ktoré ďalej znižujú presnosť. Dážď, hmla a snehová pokrývka robia detekciu trhlín kamerami vo viditeľnom spektre prakticky nemožnou.

Regulačné prijatie: Žiadny hlavný letecký alebo dopravný úrad (ICAO, FAA, ASTM, AASHTO) nezverejnil normy pre detekciu trhlín pomocou AI ako samostatnú kontrolnú metódu. Súčasné predpisy vyžadujú overenie AI výsledkov tradičnými metódami (ťahanie reťaze, jadrové vzorkovanie, vizuálna kontrola certifikovaným inšpektorom). To obmedzuje prevádzkové úspory nákladov nasadenia AI, pretože čas inšpektora je stále potrebný na overenie.

Budúce smerovanie

Samo-učenie sa pre režimy s nízkym množstvom dát: Paradigma zamrznutej chrbtice DINOv3 ukazuje, že modely detekcie trhlín možno trénovať s 50–100 označenými snímkami namiesto 500–2000. Budúci vývoj rozšíri toto na detekciu trhlín bez príkladov (zero-shot crack detection) — modely, ktoré detekujú trhliny na akomkoľvek type povrchu bez akéhokoľvek doménovo špecifického tréningu, využitím prvkov základného modelu naučených z miliárd rôznorodých snímok.

Fyzikálne informované neurónové siete: Súčasné modely sa učia čisto vizuálne prvky. Fyzikálne informované modely budú zahŕňať rovnice prenosu tepla pre tepelnú detekciu trhlín, modely napätie-deformácia na predpovedanie šírenia trhlín z detekovanej geometrie a modely zaťaženia pre letiskové vozovky (hmotnosť lietadla, tlak pneumatík, frekvencia prejazdov) na prioritizáciu naliehavosti opráv na základe štrukturálneho rizika, nielen rozmerov trhlín.

Video-based temporálna analýza: Súčasné systémy analyzujú jednotlivé snímky. Modely založené na videu budú sledovať progresiu trhlín naprieč viacerými prieskumnými prechodmi (porovnanie rok po roku), detekovať otváranie/zatváranie trhlín pri dopravnom zaťažení (meranie šírky trhliny pred, počas a po prejazde lietadla) a filtrovať prechodné falošne pozitívne výsledky (lístie, nečistoty, stojatá voda) prostredníctvom časových konzistenčných kontrol.

Multi-modálna fúzia senzorov: Kombinácia kamier vo viditeľnom spektre s tepelnou infračervenou (IRT), georadarom (GPR), LiDAR výškovým profilovaním a ultrazvukovou tomografiou poskytuje bohatšiu charakterizáciu defektov. Jednotný AI model spracúvajúci všetky modality súčasne bude detekovať povrchové trhliny (viditeľné), podpovrchovú delamináciu (IRT), obsah dutín (GPR) a povrchovú drsnosť (LiDAR) v jednom prechode — poskytujúc komplexné hodnotenie štrukturálneho stavu presahujúce samotnú detekciu trhlín.

Transformerové architektúry natívne pre okrajové zariadenia: Výpočtové náklady O(n²) Vision Transformerov v súčasnosti obmedzujú nasadenie na okraji. Hardvérovo špecifické architektúry (NVIDIA TensorRT optimalizované, Qualcomm AI Engine mapované, Apple Neural Engine kompilované) kombinované s mechanizmami pozornosti s lineárnou zložitosťou (Performer, Linformer, Mamba state-space modely) prinesú presnosť na úrovni transformerov na okrajové zariadenia do roku 2027. Architektúra Mamba-UNet (2024) používajúca state-space modely namiesto pozornosti dosahuje konkurencieschopnú segmentáciu trhlín (71,5 % mIoU) pri približne 40 % výpočtových nákladov EGA-UNet.

Regulačný vývoj: Ako AI detekcia trhlín zhromažďuje prevádzkové dôkazy v sieťach letísk a diaľnic, normotvorné orgány sa očakávajú, že publikujú AI-špecifické kontrolné normy — definujúce požiadavky na validáciu, prahy presnosti, frekvenciu preškoľovania a protokoly ľudského dohľadu. Plán FAA pre AI v letectve (FAA AI Strategic Plan, 2024) explicitne zahŕňa AI pre kontrolu infraštruktúry v plánovanom cykle vývoja regulačného rámca na roky 2026–2028.

Okrajové výpočtové zariadenie vrátane NVIDIA Jetson modulu namontovaného na dronovom náklade pre kontrolu infraštruktúry s detekciou trhlín pomocou AI v reálnom čase

Referencie

Ronneberger, O., Fischer, P., & Brox, T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. MICCAI 2015, 234–241.
Chen, L.C., et al. (2018). Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation. ECCV 2018, 801–818.
Dosovitskiy, A., et al. (2020). An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale. ICLR 2021.
Oquab, M., et al. (2025). DINOv3: Gram-Anchored Dense Features at Scale. Meta AI Research.
Yang, L., et al. (2025). An efficient semantic segmentation method for road crack based on EGA-UNet. Scientific Reports, 15, 33818.
Zhang, A., et al. (2017). Automated Pixel-Level Pavement Crack Detection on 3D Asphalt Surfaces. Journal of Computing in Civil Engineering, 31(1), 04016093.
Liu, Y., et al. (2019). DeepCrack: A Deep Hierarchical Feature Learning Architecture for Crack Segmentation. Neurocomputing, 338, 139–153.
Shi, Y., et al. (2016). Automatic Road Crack Detection Using Random Structured Forests. IEEE Transactions on Intelligent Transportation Systems, 17(12), 3434–3445.
Yang, F., et al. (2020). Feature Pyramid and Hierarchical Boosting Network for Pavement Crack Detection. IEEE Transactions on Intelligent Transportation Systems, 21(4), 1525–1535.
Huang, Y., et al. (2022). NHA12D: A New Pavement Crack Dataset and A Comparison Study of Crack Detection Algorithms. EC3 2022.
International Civil Aviation Organization. (2018). Annex 14 — Aerodromes, Volume I: Aerodrome Design and Operations (8th ed.).
FAA Advisory Circular 150/5200-30D. (2016, Chg 2 2020). Airport Field Condition Assessments and Winter Operations Safety.
ASTM D5340-12. Standard Test Method for Airport Pavement Condition Index Surveys.
Carrasco, M., et al. (2021). Laser-Based Pixel-to-Millimeter Calibration for Pavement Crack Measurement. Automation in Construction, 126, 103667.
Zhang, T.Y. & Suen, C.Y. (1984). A Fast Parallel Algorithm for Thinning Digital Patterns. Communications of the ACM, 27(3), 236–239.
Lin, T.Y., et al. (2017). Focal Loss for Dense Object Detection. ICCV 2017, 2980–2988.
Milletari, F., et al. (2016). V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation. 3DV 2016, 565–571.

Často kladené otázky

: Detekcia trhlín pomocou AI využíva modely počítačového videnia s hlbokým učením — predovšetkým konvolučné neurónové siete (CNN), architektúry U-Net, DeepLab s atrous spatial pyramid pooling a Vision Transformery — na automatickú identifikáciu trhlín na snímkach vozoviek, dráh, mostových dosiek a betónových povrchov. Modely sú trénované na pixelovo anotovaných datasetoch, kde každá snímka má zodpovedajúcu binárnu masku označujúcu, ktoré pixely patria k trhlinám. Počas inferencie model analyzuje každý pixel vo vstupnej snímke a klasifikuje ho ako trhlinu alebo netrhlinu (sémantická segmentácia), čím vytvára mapu segmentácie trhlín. Následné spracovanie pomocou skeletonizácie a distance transform vypočíta šírku, dĺžku a plochu trhlín. Technológia je nasadzovaná na okrajových zariadeniach (NVIDIA Jetson Orin, dronové počítače) pre kontrolu v reálnom čase alebo na cloudových serveroch pre dávkové spracovanie veľkých prieskumných datasetov.
: Medzi hlavné architektúry patria: U-Net (enkodér-dekodér so skip spojeniami, ~31M parametrov), ktorý zachováva priestorové detaily kritické pre delineáciu tenkých trhlín; DeepLabV3+ (ResNet-101 alebo Xception chrbtica s Atrous Spatial Pyramid Pooling, ~42-55M parametrov), ktorý zachytáva kontext vo viacerých mierkach; Vision Transformery ako SETR a TransUNet (86M-632M parametrov) poskytujúce globálne receptívne polia; EGA-UNet (~2,3M parametrov) kombinujúci efektívne ghost konvolúcie s Adaptive Fourier Filter token mixingom pre ľahké nasadenie v reálnom čase s 73,1% Dice; a DINOv3 (samo-učiaci sa ViT, až 7B parametrov) umožňujúci detekciu trhlín s minimálnym množstvom označených údajov pomocou transfer learningu so zamrznutou chrbticou.
: Kľúčové benchmarkové datasety zahŕňajú: Crack500 (500 snímok v rozlíšení 2000×1500 z filadelfských vozoviek, pixelové anotácie); DeepCrack (537 snímok v rozlíšení 544×384 z viacscénových betónových a asfaltových povrchov); CrackForest Dataset / CFD (118 snímok v rozlíšení 480×320 z pekingských mestských ciest); CrackTree200 (206 snímok v rozlíšení 800×600 s náročnými podmienkami s nízkym kontrastom); GAPs384 (1 969 snímok v rozlíšení 1920×1080 z nemeckých asfaltových ciest, najväčší verejný dataset z jedného zdroja); a NHA12D (80 vysokorozlíšených snímok z britskej diaľnice A12, 40 betón + 40 asfalt). Trhlinové pixely zvyčajne tvoria len 2–8 % všetkých pixelov na snímku, čo vytvára extrémnu triednu nevyváženosť vyžadujúcu špecializované loss funkcie (focal loss, Dice loss, Tversky loss) počas tréningu.
: Kvantifikácia trhlín z binárnych segmentačných masiek nasleduje pipeline výpočtovej geometrie: (1) Skeletonizácia pomocou Zhang-Suen thinning algoritmu redukuje oblasť trhliny na jediný pixel širokú stredovú líniu; (2) Euklidovská distance transform vypočíta minimálnu vzdialenosť z každého skeletonového pixelu k okraju trhliny, čo dáva polovičnú šírku v každom bode (šírka trhliny = 2 × vzdialenosť); (3) Prechod skeletonom s kódovaním reťazca meria dĺžku trhliny pomocou 4-spojených krokov (1 pixel) a diagonálnych krokov (√2 ≈ 1,414 pixelov); (4) Kalibrácia pixelov na milimetre pomocou známych referenčných objektov, laserových projekčných systémov (dva paralelné lúče v známej vzdialenosti) alebo geometrie kamery (FOV = 2 × Z × tan(HFOV/2)). Vo výške dronu 10 m s 20 MP kamerou je typická vzdialenosť vzorkovania na zemi približne 0,5 mm/pixel, čo umožňuje detekciu trhlín už od 0,3–0,5 mm.
: Detekcia trhlín používa pixelové metriky binárnej klasifikácie: IoU (Intersection over Union = TP/(TP+FP+FN), typický rozsah 0,55–0,75); Dice koeficient (F1 = 2TP/(2TP+FP+FN), typický rozsah 0,65–0,80), ktorý súvisí s IoU vzťahom Dice = 2×IoU/(1+IoU); presnosť (TP/(TP+FP)); recall (TP/(TP+FN)); a priemerná presnosť (mAP@[0,5:0,95]) pre prístupy založené na detekcii objektov. Presnosť pixelov sa neodporúča, pretože trhlinové pixely tvoria <5 % snímok — model predpovedajúci celé pozadie dosahuje >95 % presnosť, pričom detekuje nulové trhliny. BF (Boundary F1) meria presnosť hrán, typicky 0,40–0,60, čo odráža náročnosť presného vymedzenia okrajov trhlín. Miera falošne negatívnych výsledkov (FNR = FN/(TP+FN)) je kritická pre bezpečnostne dôležité aplikácie ako kontrola letiskových dráh, kde prehliadnuté trhliny predstavujú väčšie riziko ako falošné poplachy.
: Áno. Nasadzovanie na okrajových zariadeniach na detekciu trhlín v reálnom čase je uskutočniteľné na moduloch NVIDIA Jetson (Orin Nano Super: 67 TOPS pri 7–15W, $249; Orin NX: 100 TOPS; AGX Orin: 275 TOPS) a Raspberry Pi 5 s Hailo-8L NPU (13 TOPS). Techniky optimalizácie inferencie zahŕňajú: TensorRT FP16 (2× priepustnosť oproti FP32, <0,5% strata presnosti); INT8 kvantizácia pomocou post-tréningovej alebo kvantizačne uvedomovanej kvantizácie (3–4× priepustnosť, 0,5–3% strata presnosti); prerezávanie kanálov (30–50 % redukcia FLOPs); a vedomostnú destiláciu (študentský model dosahuje 95–98 % presnosti učiteľa so 70–90 % menej parametrami). Pre dronové kontroly stratégia selektívneho nahrávania (inferencia na zariadení pri 10–30 FPS, prenos len snímok s pozitívnymi trhlinami) znižuje šírku pásma z ~15–25 Mbps (plné 4K video) na ~1–10 Mbps, čo umožňuje operácie s viacnásobnými dronmi.
: ICAO Annex 14, Volume I (8. vydanie, 2018) klasifikuje trhliny podľa šírky: vláskové (<1 mm), úzke (1–3 mm), stredné (3–6 mm) a široké (>6 mm). Akákoľvek trhlina >3 mm široká na povrchu vyžaduje utesnenie alebo opravu do 90 dní; odlupovanie na okrajoch trhlín urýchľuje lehotu na 30 dní. FAA Advisory Circular 150/5200-30D vyžaduje dokumentáciu akéhokoľvek stavu povrchu ovplyvňujúceho brzdenie alebo smerové riadenie lietadla. Kód stavu dráhy (RwyCC) sa pohybuje od 0 do 6, harmonizovaný s ICAO. ASTM D5340-12 definuje zrážkové hodnoty Indexu stavu vozovky (PCI) pre závažnosť a hustotu trhlín. AI detekcia trhlín priamo podporuje tieto regulačné rámce poskytovaním objektívnych, opakovateľných meraní trhlín s pixelovou presnosťou na celom povrchu dráhy počas jediného preletu dronu alebo prejazdu vozidla.
: Kľúčové obmedzenia zahŕňajú: (1) Generalizáciu naprieč vozovkami — modely trénované na jednom type povrchu (napr. asfalt) degradujú na inom (napr. betón) o 5–15 % IoU bez doladenia alebo doménovej adaptácie; (2) Citlivosť na osvetlenie — tiene, mokré povrchy a nízko položené slnko znižujú presnosť detekcie o 10–20 %; (3) Detekciu tenkých trhlín — trhliny užšie ako 2–3 pixely sú na hranici rozlíšenia segmentačných modelov; (4) Triednu nevyváženosť — trhlinové pixely tvoria <5 % tréningových dát, čo vyžaduje špecializované loss funkcie a augmentáciu dát; (5) Falošne pozitívne výsledky z povrchových prvkov — olejové škvrny, stavebné škáry, stopy pneumatík a variácie textúry povrchu vytvárajú anomálie, ktoré nie sú trhlinami; (6) Overenie s ľudským dohľadom zostáva nevyhnutné pre bezpečnostne kritické infraštruktúrne rozhodnutia; (7) Regulačné prijatie — výsledky AI kontroly vyžadujú validáciu voči zavedeným metódam (ťahanie reťaze, impact-echo, jadrové vzorkovanie) pre oficiálne vykazovanie stavu vozovky.

Automatizujte kontroly trhlín na dráhach a vozovkách

Nasaďte detekciu trhlín poháňanú AI z dronových a vozidlových snímok pre automatizované kontroly dráh, ciest a mostových dosiek. Získajte pixelovo presnú segmentáciu trhlín, meranie šírky a klasifikáciu závažnosti integrovanú s vaším systémom správy majetku.

Kontaktujte nás Dohodnúť ukážku

Zistiť viac

Sémantická segmentácia pre porozumenie infraštruktúrnych scén

Sémantická segmentácia priraďuje každomu pixelu v obraze kategóriovú značku, čo umožňuje porozumenie celej scéne pre infraštruktúrnu inšpekciu. Zahŕňa architekt...

Jun 17, 2026 35 min čítania

Technology Computer Vision +3

Automatizované meranie šírky trhliny z obrazových snímok

Automatizované meranie šírky trhliny odvodzuje otváraciu šírku detegovaných trhlín z binárnych pixelových masiek pomocou euklidovskej transformácie vzdialenosti...

Jun 17, 2026 22 min čítania

technology inspection +4

Počítačové videnie

Počítačové videnie je technológia poháňaná umelou inteligenciou, ktorá umožňuje strojom interpretovať a reagovať na vizuálne dáta, čím poháňa aplikácie ako rozp...

Nov 18, 2025 12 min čítania

Artificial Intelligence Aviation Technology +3

Detekcia trhlín pomocou AI pre kontrolu infraštruktúry

Detekcia trhlín pomocou AI pre kontrolu infraštruktúry

Definícia problému a výzvy

Architektúry modelov pre detekciu trhlín

U-Net

DeepLabV3+

Vision Transformery (ViT)

DINOv3

CrackNet

EGA-UNet (2025)

Porovnanie architektúr

Tréningové datasety pre detekciu trhlín

Crack500

DeepCrack

CrackForest Dataset (CFD)

GAPs384

NHA12D

Triedna nevyváženosť a loss funkcie

Klasifikácia vs. segmentácia trhlín

Metriky hodnotenia

Intersection over Union (IoU)

Dice koeficient (F1 skóre)

Precision a Recall

Priemerná presnosť (mAP)

Porovnanie metrík

Meranie šírky a dĺžky trhlín zo segmentácie

Skeletonizácia

Distance transform na meranie šírky

Výpočet dĺžky trhliny

Kalibrácia pixelov na milimetre

Kompletná meracia pipeline

Generalizácia naprieč typmi vozoviek a osvetlením

Generalizácia naprieč typmi vozoviek

Variácie osvetlenia

Nasadzovanie na okrajových zariadeniach pre detekciu trhlín v reálnom čase

Hardvérové platformy

Optimalizácia inferencie

Stratégia šírky pásma pre dronové kontroly

Overenie s ľudským dohľadom

Súčasné obmedzenia a budúce smerovanie

Súčasné obmedzenia

Budúce smerovanie

Referencie

Často kladené otázky

Automatizujte kontroly trhlín na dráhach a vozovkách

Zistiť viac

Sémantická segmentácia pre porozumenie infraštruktúrnych scén

Automatizované meranie šírky trhliny z obrazových snímok

Počítačové videnie

Nastavenia cookies

Nevyhnutné cookies

Analytické cookies