Detekce trhlin na bázi AI pro inspekci infrastruktury

Detekce trhlin na bázi AI pro inspekci infrastruktury

Definice problému a výzvy

Detekce trhlin na bázi AI je technologie počítačového vidění, která aplikuje modely hlubokého učení — konvoluční neuronové sítě (CNN), architektury encoder-decoder a vision transformery — k automatické identifikaci, klasifikaci, segmentaci a měření trhlin na povrchu vozovek, runwayí, mostovek a betonových konstrukcí z digitálních snímků. Tato technologie nahrazuje nebo doplňuje manuální vizuální inspekci prováděnou lidskými inženýry, čímž transformuje subjektivní, pracně náročné průzkumy na objektivní, škálovatelná a datově řízená hodnocení. Pro provozovatele letišť a civilní infrastruktury automatická detekce trhlin přímo podporuje bodování Indexu stavu vozovky (PCI) dle ASTM D5340-12, vykazování Kódu stavu runwaye (RwyCC) dle ICAO Annex 14 a plánování preventivní údržby.

Letecký záběr dronu na povrch letištní runwaye s viditelnými trhlinami, překryv analýzy počítačového vidění AI zvýrazňující detekované vzory trhlin

Problém detekce trhlin představuje jedinečné výzvy, které jej odlišují od běžných úloh sémantické segmentace. Trhliny jsou tenké, protáhlé struktury — typicky 0,1 mm až 5 mm široké — které zabírají pouze 2–8 % všech pixelů v daném snímku, což vytváří extrémní třídní nevyváženost během trénování modelu. Poměr popředí k pozadí u trhlinových pixelů je přibližně 1:20 až 1:50, což znamená, že naivní klasifikátor predikující všechny pixely jako pozadí dosahuje >95% přesnosti, přičemž detekuje nulové trhliny. Morfologie trhlin se dramaticky liší: podélné trhliny probíhají rovnoběžně se středovou osou vozovky, příčné trhliny probíhají kolmo, aligátorové (únavové) trhliny vytvářejí vzájemně propojené polygonální vzory a odrazové trhliny se šíří překryvnými vrstvami z podkladových spár. Každý typ vyžaduje odlišnou geometrickou charakterizaci.

Variabilita osvětlení a prostředí dále komplikuje detekci. Stíny od konstrukcí a převislé vegetace vytvářejí oblasti s nízkým kontrastem, kde trhliny téměř nejsou vidět. Mokrý povrch vozovky snižuje kontrast povrchové teploty u tepelných metod a mění odrazivost ve viditelném spektru. Olejové skvrny, stopy pneumatik, gumové depozity, dilatační spáry, variace textury povrchu (drážkování, rýhování, smetákový povrch) a nečistoty vytvářejí falešně pozitivní rysy, které vizuálně napodobují trhliny. Studie z roku 2025 publikovaná v Scientific Reports (EGA-UNet, Vol. 15, Article 33818) prokázala, že přesnost detekce trhlin na komplexních pozadích klesá o 10–20 % oproti čistým, jednotným povrchům, a to i se špičkovými mechanismy pozornosti.

Omezení měřítka a rozlišení ukládá zásadní kompromis. Snímky s vysokým rozlišením (submilimetrová vzdálenost vzorkování na zemi na pixel) zachycují jemné trhliny, ale vyžadují velké úložiště, šířku pásma a dobu zpracování. Snímky s nižším rozlišením pokrývají větší plochu na jeden let nebo jízdu, ale nezachycují trhliny užší než 2–3 pixely. Pro dronovou inspekci runwayí ve výšce 15 m s 24MP kamerou je typická vzdálenost vzorkování na zemi 1,0–1,5 mm/pixel, což znamená, že trhliny pod šířkou 0,3 mm klesají pod práh detekce. Toto rozlišení je tvrdé fyzikální omezení, které žádný AI model nemůže překonat — určuje minimální detekovatelnou šířku trhliny pro danou zobrazovací platformu a výšku.

Architektury modelů pro detekci trhlin

U-Net

U-Net, představený Ronnebergerem, Fischerem a Broxem z Univerzity ve Freiburgu v roce 2015, zůstává nejpoužívanější architekturou pro segmentaci trhlin na úrovni pixelů. Symetrická struktura encoder-decoder s přeskočenými spoji (skip connections) je obzvláště vhodná pro detekci trhlin, protože trhliny jsou tenké, prostorově lokalizované rysy vyžadující zachování vysokofrekvenčních detailů v průběhu celého pipeline podvzorkování a nadvzorkování.

Encoder (kontrahující cesta) U-Netu se skládá ze čtyř bloků podvzorkování. Každý blok obsahuje dvě 3×3 konvoluce (padding=same) následované ReLU aktivací a 2×2 max pooling operací (stride=2). Počet filtrů se na každé úrovni zdvojnásobuje: 64 → 128 → 256 → 512 → 1024 v bottlenecku. Pro vstup 512×512 pixelů se prostorové rozměry encoderem redukují jako 512 → 256 → 128 → 64 → 32 v nejhlubší vrstvě. Bottleneck vrstva na dně tvaru U obsahuje 1024 příznakových map v rozlišení 32×32, představující nejabstraktnější, sémanticky nejbohatší rysy.

Decoder (expandující cesta) zrcadlí encoder se čtyřmi bloky nadvzorkování. Každý blok aplikuje 2×2 transponovanou konvoluci (dekonvoluci), která snižuje počet filtrů na polovinu a zdvojnásobuje prostorové rozměry. Nadvzorkovaná příznaková mapa je zřetězena s odpovídající příznakovou mapou z encoderové cesty prostřednictvím přeskočených spojů — například vrstva decoderu 128×128 přijímá přímé zřetězení z encoderové vrstvy 128×128. Tento mechanismus přeskočených spojů je kritický: poskytuje decoderu vysokorozlišené prostorové detaily z encoderu, které by byly jinak ztraceny během agresivního podvzorkování. Po zřetězení dvě 3×3 konvoluce s ReLU dolaďují kombinované rysy.

Výstupní vrstva je 1×1 konvoluce se sigmoidní aktivací, vytvářející jednokanálovou mapu pravděpodobností, kde každá hodnota pixelu (0 až 1) představuje pravděpodobnost, že daný pixel patří do oblasti trhliny. Práh (typicky 0,5) převádí pravděpodobnosti na binární segmentaci trhlina/netrhlína.

Původní U-Net obsahuje ~31 milionů parametrů a 23 konvolučních vrstev. Pro vstup 512×512 je rychlost inference přibližně 40 ms na snímek na moderním GPU (NVIDIA RTX 3080 nebo ekvivalent). Odlehčené varianty jako ResU-Net (používající reziduální spoje místo běžných konvolucí) snižují parametry na ~7,8 milionu při dosažení 68,47% středního IoU na datasetech trhlin. EGA-UNet dále snižuje parametry na ~2,3 milionu při zlepšení Dice na 73,1 % pomocí ghost konvolucí a Fourier-based token mixingu.

Přeskočené spoje U-Netu jsou architektonicky nezbytné pro detekci trhlin. Bez nich by tenké trhliny (1–5 pixelů široké) byly zcela ztraceny během 4× podvzorkování (32× redukce v bottlenecku) — 3 pixely široká trhlina na vstupu se stává subpixelovým rysem v bottlenecku, který nelze samotným nadvzorkováním obnovit. Přeskočené spoje tento informační bottleneck zcela obcházejí a poskytují decoderu geometrii trhliny v plném rozlišení z encoderu.

DeepLabV3+

DeepLabV3+, vyvinutý Chenem et al. v Google v roce 2018, řeší detekci trhlin pomocí atrous (dilatovaných) konvolucí a modulu Atrous Spatial Pyramid Pooling (ASPP). Na rozdíl od U-Netu, který agresivně podvzorkovává a obnovuje pomocí přeskočených spojů, DeepLab udržuje příznakové mapy s vyšším rozlišením v celém backbone pomocí dilatovaných konvolucí, které rozšiřují receptivní pole bez snižování prostorových rozměrů.

Backbone je typicky ResNet-101 (101 vrstev, ~42,6 milionů parametrů) nebo Xception-65 (~54,7 milionů parametrů). Standardní konvoluce v backbone jsou nahrazeny atrous konvolucemi — 3×3 jádry s dilatačními rychlostmi (dírami) vloženými mezi prvky jádra. 3×3 jádro s dilatační rychlostí r=2 pokrývá receptivní pole 5×5; r=4 pokrývá 9×9; r=8 pokrývá 17×17; a r=16 pokrývá 33×33 — vše se stejným počtem parametrů (9 vah) jako standardní 3×3 konvoluce. Tato vlastnost je kritická pro detekci trhlin: umožňuje modelu vidět větší kontext kolem každého pixelu (odlišení trhlin od textury povrchu) bez ztráty rozlišení, která by nastala při podvzorkování.

Modul ASPP aplikuje čtyři paralelní větve atrous konvolucí s dilatačními rychlostmi r=6, 12, 18 a 24 (pro výstupní krok=16), každou s 256 filtry a 3×3 jádry. Další 1×1 konvoluční větev a větev sdružování na úrovni obrazu (globální průměrové sdružování → 1×1 konvoluce → bilineární nadvzorkování) dokončují modul. Všech pět větví produkuje 256kanálové příznakové mapy, které jsou zřetězeny a procházejí další 1×1 konvolucí. Víceškálová schopnost modulu ASPP je obzvláště důležitá pro trhliny, které se výrazně liší šířkou — vlásečnicová trhlina (<1 mm) a široká trhlina (>6 mm) vyžadují různé velikosti receptivních polí pro optimální detekci.

Decoder DeepLabV3+ je lehký ve srovnání s plným decoderem U-Netu: bilineární nadvzorkování 4×, zřetězení s nízkoúrovňovými rysy z rané backbone vrstvy (redukované na 48 kanálů pomocí 1×1 konvoluce), dvě 3×3 konvoluce (256 filtrů) a finální bilineární nadvzorkování 4× na původní rozlišení. Výstupní krok je typicky 16 (vstupní rozlišení dělené 16 v bottlenecku), někdy 8 pro hustší příznakové mapy za cenu 2× vyšší spotřeby paměti.

DeepLabV3+ dosahuje přibližně 78,5% mIoU na datasetech trhlin. Studie EGA-UNet (2025) však uvedla, že DeepLabV3+ zaostává za lehkými architekturami jako EGA-UNet (73,1% Dice vs. nižší pro DeepLabV3+) kvůli nedostatečnému zachování jemných detailů na okrajích trhlin. Dilatace modulu ASPP, i když účinné pro víceškálový kontext, rozmazávají jemné prostorové detaily nezbytné pro přesné měření šířky trhlin.

Vision Transformery (ViT)

Vision Transformery (ViT) , představené Dosovitskiým et al. v Google v roce 2020, aplikují Transformer architekturu self-attention — původně vyvinutou pro zpracování přirozeného jazyka — na analýzu obrazu. ViT rozděluje vstupní obraz na nepřekrývající se dlaždice (patche) o velikosti P×P (typicky 16×16 pixelů), linearizuje každou dlaždici do vektoru a zpracovává sekvenci embeddingů dlaždic standardními vrstvami Transformer encoderu s multi-head self-attention.

Pro vstup 224×224 s dlaždicemi 16×16 produkuje ViT (224/16)² = 196 embeddingů dlaždic. Každá dlaždice o rozměrech 16×16×3 (RGB) je zploštěna do 768-rozměrného vektoru a lineárně projektována do embeddingové dimenze D. Transformer encoder se skládá z L vrstvených vrstev. ViT-Base používá L=12, D=768 a 12 hlav pozornosti (86M parametrů). ViT-Large používá L=24, D=1024 a 16 hlav (307M parametrů). ViT-Huge používá L=32, D=1280 a 16 hlav (632M parametrů). Složitost self-attention škáluje jako O(n²·D), kde n je počet dlaždic — 196 dlaždic s D=768 vyžaduje přibližně 28 milionů operací na hlavu na vrstvu.

Pro segmentaci trhlin je ViT používán jako backbone v hybridních architekturách encoder-decoder. TransUNet nahrazuje U-Net encoder ViTem, kombinující globální kontext Transformeru s CNN decoderem pro obnovu jemných detailů. SwinUNet používá hierarchický Swin Transformer s posunovanými okny ke snížení výpočetních nákladů O(n²). SETR (SEgmentation TRansformer) aplikuje ViT přímo jako encoder s progresivním nadvzorkováním.

Výhoda ViTu pro detekci trhlin spočívá v jeho globálním receptivním poli. CNN zpracovávají informace lokálně a vyžadují mnoho vrstev k propagaci informací přes velké prostorové vzdálenosti. Mechanismus self-attention ViTu propojuje každou dlaždici s každou další dlaždicí v jediné vrstvě, což umožňuje detekovat dlouhé, souvislé trhliny překlenující stovky nebo tisíce pixelů — například únavové trhliny vinoucí se přes celou šířku runwaye. Hybridní modely ViT-CNN dosahují 74–78% IoU na datasetech trhlin, přičemž TransUNet vykazuje zvláštní sílu u aligátorových (vzájemně propojených) vzorů trhlin.

Kritickým omezením je výpočetní náročnost. Obraz 512×512 rozdělený na dlaždice 16×16 produkuje (512/16)² = 1 024 dlaždic, vyžadujících 1 024² ≈ 1 milion výpočtů pozornosti na vrstvu — řádově více než 196 dlaždic u vstupů 224×224. To činí plné nasazení ViTu na okrajových zařízeních (drony, mobilní inspekční vozidla) nepraktickým bez výrazné komprese nebo prořezávání.

DINOv3

DINOv3, vydaný Meta AI v roce 2025, představuje nejmodernější stav samořízených Vision Transformerů. Jedná se o třetí generaci rodiny DINO (DIstillation with NO labels), trénovanou v nebývalém měřítku: až 7 miliard parametrů na 1,7 miliardě neoznačených snímků. DINOv3 využívá framework učitel-žák, kde se žák učí napodobovat výstupní reprezentace učitele bez jakýchkoli lidsky anotovaných dat.

Klíčovou architektonickou inovací v DINOv3 je Gram Anchoring — regularizační technika aplikovaná po přibližně 1 milionu tréninkových iterací, která stabilizuje husté (na úrovni dlaždic) příznakové reprezentace. Gramova matice studentského modelu (párová podobnost dlaždic, rozměry N×N, kde N=počet dlaždic) je omezena tak, aby zůstala blízká zmrazené kopii “Gram učitele”. Tím se zabraňuje kolapsu hustých rysů, selhávacímu režimu v samořízeném učení, kdy se odlišné obrazové dlaždice sbíhají k podobným embeddingům, přestože jsou sémanticky odlišné. Dřívější varianty DINO (v1 a v2) trpěly tímto kolapsem během prodlouženého trénování; Gram Anchoring umožňuje stabilní trénování na miliardách snímků.

Pro detekci trhlin spočívá relevance DINOv3 v paradigmatu zmrazeného backbone. Předtrénovaný ViT backbone (dostupný ve velikostech od ViT-Small s 21M parametry po ViT-Huge s 632M a vlajkový model s 7B parametry) je zmrazen a používán jako univerzální vizuální encoder. Lehké hlavy specifické pro daný úkol — lineární sondy, MLP adaptéry nebo malé konvoluční hlavy — jsou trénovány na vrcholu bez zpětné propagace přes backbone. To umožňuje:

  • Detekci trhlin s malým počtem příkladů (few-shot): Lineární sonda trénovaná na pouhých 50 označených snímcích trhlin dosahuje přesnosti segmentace srovnatelné s plně řízenou CNN trénovanou na 500+ snímcích.
  • Transfer napříč doménami: Rysy naučené z přirozených snímků (data na úrovni ImageNet) se přenášejí na snímky trhlin ve vozovkách bez doménově specifického předtrénování.
  • Víceúčelové nasazení: Jeden zmrazený backbone slouží současně detekci trhlin, detekci výtluků, hodnocení těsnění spár a posuzování značení vozovek prostřednictvím různých lehkých hlav.

Rysy DINOv3 na úrovni dlaždic (nikoli globální embeddingy obrazu) zachovávají jemnozrnné prostorové informace potřebné pro vykreslení tenkých trhlin. Varianta ViT-Base (86M parametrů, 12 vrstev, 768 embeddingová dimenze) poskytuje nejlepší poměr přesnosti k výpočtům pro aplikace inspekce infrastruktury. DINOv3 je obzvláště slibný pro programy inspekce runwayí, kde je k dispozici málo označených dat o trhlinách — běžný scénář menších letišť bez rozsáhlé historie správy vozovek.

CrackNet

CrackNet, vyvinutý Zhangem et al. v roce 2017 na Univerzitě Jižní Floridy, byl jednou z prvních hlubokých CNN architektur navržených specificky a výhradně pro automatickou detekci trhlin ve vozovkách. Na rozdíl od univerzálních architektur (U-Net, DeepLab) adaptovaných z biomedicínské nebo přirozené segmentace obrazu byl CrackNet navržen od základů pro morfologii trhlin ve vozovkách.

Původní architektura CrackNet se skládá z 6 konvolučních vrstev s plně propojeným vrcholem: Conv1 (5×5, stride=1, 64 filtrů) → Conv2 (5×5, stride=1, 64 filtrů) → MaxPool (2×2) → Conv3 (3×3, stride=1, 128 filtrů) → Conv4 (3×3, stride=1, 128 filtrů) → MaxPool (2×2) → Conv5 (5×5, stride=1, 256 filtrů) → Conv6 (3×3, stride=1, 256 filtrů) → Plně propojená (2 048 jednotek) → Softmax výstup (2 třídy: trhlina nebo netrhlína). Celkový počet parametrů je ~1,4 milionu — přibližně 22× méně než U-Net (31M) a 35× méně než DeepLabV3+ (42–55M).

CrackNet pracuje na dlaždicích pevné velikosti 64×64 pixelů namísto celých snímků. Tréninkový dataset sestával z 640 000 dlaždic extrahovaných z 1 800 snímků vozovek (160 000 pro validaci, 180 000 pro testování). Každá dlaždice je klasifikována jako obsahující nebo neobsahující trhlinu ve středovém pixelu — jedná se o klasifikační přístup založený na dlaždicích namísto segmentace na úrovni pixelů. Moderní varianty (CrackNet-V, CrackNet-II, CrackNet-R) nahradily klasifikátor dlaždic plně konvolučními sítěmi pro hustou predikci na úrovni pixelů.

CrackNet-V (vylepšená varianta z roku 2020) přidal trénování založené na Generativních Adversariálních Sítích (GAN). Generátor produkuje mapy segmentace trhlin ze vstupních snímků a diskriminátor rozlišuje generované mapy od anotací ground truth. Tento adversariální tréninkový režim zlepšil F1-skóre na 0,87 na datasetu CFD. CrackNet-V také zavedl víceškálovou fúzi rysů s moduly inception stylu, umožňující detekci trhlin různých šířek.

Význam CrackNetu spočívá v architektonické efektivitě pro okrajové nasazení. S 1,4M parametry a 5 ms na dlaždici prokázal, že architektura navržená specificky pro trhliny může dosáhnout provozní přesnosti na hardwaru dostupném v roce 2017 — jediný GPU NVIDIA Tesla K80 mohl zpracovat celý snímek vozovky (slepený z dlaždic) za méně než 2 sekundy. To potvrdilo proveditelnost automatické detekce trhlin v reálném čase pro průzkumná vozidla pohybující se dálniční rychlostí.

EGA-UNet (2025)

EGA-UNet, publikovaný Yangem et al. v Scientific Reports (Vol. 15, Article 33818, 2025), představuje současný nejmodernější stav efektivní segmentace trhlin. Architektura dosahuje 73,1% Dice koeficientu s pouhými ~2,3 miliony parametrů — přibližně 13× méně než standardní U-Net při současném zlepšení přesnosti o +3,1 % Dice oproti U-Netu, +11,9 % oproti SegNetu a +44,9 % oproti PSPNetu na benchmarkových datasetech trhlin.

Tři architektonické inovace odlišují EGA-UNet:

EG-Block (Efficient Ghost Sparse Convolution Block): Tento stavební blok používá “ghost” konvoluci — techniku, která generuje malý počet intrinsických příznakových map pomocí standardní konvoluce a poté aplikuje levnější lineární operace (3×3 depthwise konvoluce) k vytvoření dalších “ghost” příznakových map. Pro požadovaný výstup C kanálů generuje ghost konvoluce přibližně C/2 pomocí standardní konvoluce a C/2 pomocí lineárních operací, čímž snižuje výpočty přibližně o 50 % oproti standardní konvoluci při ekvivalentních výstupních kanálech. EG-Block zahrnuje Efficient Multi-scale Attention (EMA) modul, který váží rysy napříč více prostorovými měřítky.

A-RepViT Block: Tento blok nahrazuje standardní Vision Transformer token mixer Adaptive Fourier Filtering (AFF) . Vstupní příznaková mapa je transformována do frekvenční domény pomocí Fast Fourier Transform (FFT), frekvenční složky jsou adaptivně filtrovány (dolní propust, horní propust nebo pásmová propust v závislosti na naučených vahách) a inverzní FFT rekonstruuje prostorovou příznakovou mapu. AFF zachycuje globální kontext s komplexitou O(n log n) oproti O(n²) pro self-attention — pro příznakovou mapu 32×32 (1 024 prvků) to snižuje výpočty z ~1M operací na ~10K operací na vrstvu.

SPPF (Spatial Pyramid Pooling Fast): Aplikován v nejhlubší encoderové vrstvě, SPPF agreguje víceškálové rysy pomocí tří sekvenčních max-pooling operací různých velikostí jader (5×5, 9×9, 13×13 efektivních receptivních polí), zřetězených do jednotné víceškálové reprezentace. To je výpočetně efektivní ve srovnání s paralelním ASPP (používaným v DeepLab), protože sekvenční sdružování znovu využívá mezivýsledky.

Rychlost inference EGA-UNet je dostačující pro okrajové nasazení v reálném čase. Na NVIDIA Jetson Orin Nano Super dosahuje model přibližně 45–55 FPS při FP16 preciznosti na vstupech 512×512, což jej činí vhodným pro dronovou nebo vozidlovou detekci trhlin v reálném čase. Lehký design umožňuje nasazení na platformách bez dedikovaných GPU — byla prokázána inference při 8–12 FPS na Raspberry Pi 5 s Hailo-8L NPU akcelerátorem (13 TOPS).

Srovnání architektur

ArchitekturaParametryPrincip návrhuKlíčová inovaceDice/IoU trhlinNasazení na okraji
U-Net (2015)~31MEncoder-decoder, přeskočené spojeZachování prostorových detailů65–68% IoUS kvantizací
ResU-Net~7,8MReziduální přeskočené spojeZlepšení toku gradientu68,5% IoUAno
DeepLabV3+ (2018)~42–55MAtrous konvoluce, ASPPVíceškálový kontext~75% IoUNe
ViT-Base (2020)86MSelf-attention na dlaždicíchGlobální receptivní pole74–78% IoUNe
DINOv3 (2025)21M–7BSamořízený, zmrazený backboneFew-shot transferSrovnatelné s řízenýmS adaptérovou hlavou
CrackNet (2017)~1,4MCNN na dlaždicíchDesign specifický pro vozovky~87% F1 (dlaždice)Ano
EGA-UNet (2025)~2,3MGhost konv. + AFF token mixingLehký + globální kontext73,1% DiceAno

Tréninkové datasety pro detekci trhlin

Trénování modelů detekce trhlin vyžaduje anotované datasety na úrovni pixelů, kde každý snímek má odpovídající binární masku označující každý pixel jako trhlinu (bílá, hodnota 1) nebo netrhlínu (černá, hodnota 0). Proces anotace je pracně náročný — jeden snímek 2000×1500 pixelů vyžaduje 15–45 minut expertního ručního značení pomocí nástrojů pro kreslení lomených čar následovaných morfologickou dilatací k vytvoření masek trhlin v plné šířce. Následující datasety tvoří standardní benchmarky pro akademický výzkum a vývoj modelů.

Crack500

Crack500, publikovaný Yangem et al. v roce 2020, obsahuje 500 RGB snímků v rozlišení 2000×1500 pixelů (3 megapixely na snímek). Snímky byly pořízeny fotoaparáty mobilních telefonů na povrchu vozovek v okolí Temple University ve Filadelfii, USA. Každý snímek má odpovídající binární segmentační masku na úrovni pixelů anotovanou ručně pomocí nástrojů pro kreslení lomených čar. Výzkumníci běžně rozdělují 500 snímků na přibližně 1 896 nepřekrývajících se dlaždic 512×512 pro trénování modelu. Standardní rozdělení přiděluje 350 snímků pro trénování, 50 pro validaci a 100 pro testování. Trhlinové pixely tvoří přibližně 2–5 % všech pixelů na snímek. Šířky trhlin se pohybují od 0,1 mm do 5 mm a snímky zahrnují různé světelné podmínky (slunečno, zataženo, stín). Typy trhlin zahrnují podélné, příčné a aligátorové vzory.

DeepCrack

DeepCrack, publikovaný Liuem et al. v Neurocomputing (2019), obsahuje 537 RGB snímků v rozlišení 544×384 pixelů. Snímky byly pořízeny z různých betonových a asfaltových povrchů — mostů, silnic, tunelů a stěn budov — poskytujících pokrytí z různých scén, což je u jednostranných datasetů vozovek neobvyklé. Každý snímek má binární anotace na úrovni pixelů jako PNG masky. Dataset je předrozdělen na přibližně 300 tréninkových a 237 testovacích snímků. DeepCrack byl specificky vytvořen pro vyhodnocení architektury Holistically-Nested Edge Detection (HED) adaptované pro detekci trhlin. Dataset zahrnuje náročné podmínky: nízký kontrast mezi trhlinami a pozadím, tenké trhliny (1–3 pixely široké) a texturovaná pozadí. Trhliny jsou kategorizovány podle šířky, nikoli podle strukturálního typu.

CrackForest Dataset (CFD)

CFD, publikovaný Shiem et al. v IEEE Transactions on Intelligent Transportation Systems (2016), obsahuje 118 snímků v rozlišení 480×320 pixelů. Snímky byly pořízeny iPhonem 5 na městských silnicích v Pekingu, Čína. Každý snímek má ručně anotované ground truth masky na úrovni pixelů a složku “seg” se segmentacemi založenými na superpixelech. Dataset byl navržen tak, aby odrážel běžné podmínky městských silničních povrchů a zahrnuje rušivé faktory: stíny od stromů a budov, olejové skvrny, louže a pokrytí listím. Trhlinové pixely tvoří přibližně 4–8 % každého snímku. Nízké rozlišení 480×320 činí detekci tenkých trhlin náročnou — trhliny mohou být široké jen 1–2 pixely. CFD je licencován pouze pro nekomerční výzkumné použití s požadavkem na citaci. Jeho hlavním omezením je malá velikost (118 snímků), jediná geografická oblast a jediná kamera.

GAPs384

GAPs384 (German Asphalt Pavement Distress dataset) , z Technické univerzity Ilmenau, Německo, obsahuje 1 969 snímků v rozlišení 1920×1080 pixelů (Full HD). Toto je největší veřejný jednostranný dataset trhlin podle počtu snímků. Snímky jsou ve stupních šedi (nikoli RGB), což snižuje velikost souboru, ale eliminuje barevné informace, které mohou pomoci při rozlišování trhlin. Anotace zahrnují klasifikaci typu trhliny (podélná, příčná, aligátorová) kromě masek trhlin na úrovni pixelů. Vysoké rozlišení a konzistentní podmínky snímání (německá dálniční síť) činí GAPs384 cenným pro trénování modelů určených pro evropské podmínky vozovek. Dataset zahrnuje širší spektrum závažnosti trhlin než CFD nebo Crack500.

NHA12D

NHA12D, publikovaný Huangem et al. (2022), obsahuje 80 snímků vozovek shromážděných z britské dálniční sítě A12 organizací National Highways (dříve Highways England). Dataset unikátně zahrnuje 40 snímků betonových vozovek a 40 snímků asfaltových vozovek pořízených za identických průzkumných podmínek digitálními průzkumnými vozidly. Toto složení dvou typů povrchů činí NHA12D cenným pro vyhodnocení generalizace napříč doménami — schopnosti modelu detekovat trhliny na obou typech povrchů bez degradace. Ground truth anotace na úrovni pixelů jsou poskytnuty. Malá velikost (80 snímků) činí NHA12D primárně benchmarkovým datasetem, nikoli tréninkovým zdrojem.

DatasetSnímkyRozlišeníTrhliny %/snímekZdrojRok
Crack5005002 000×1 5002–5 %Silnice ve Filadelfii2020
DeepCrack537544×384různéVíce scén2019
CFD118480×3204–8 %Silnice v Pekingu2016
GAPs3841 9691 920×1 080různéNěmecké dálnice2020
NHA12D80Vysoké rozlišenírůznéBritská dálnice A122022
CrackTree200206800×600různéVozovky (náročné)2012

Třídní nevyváženost a ztrátové funkce

Všechny datasety trhlin vykazují vážnou třídní nevyváženost: trhlinové pixely tvoří 2–8 % všech pixelů, což znamená, že modely se musí učit z průměrně 500–2 000 trhlinových pixelů na snímek o 25 000 celkových pixelech (rozlišení CFD 480×320). Standardní cross-entropy loss je neúčinná — model minimalizuje ztrátu predikcí “pozadí” pro každý pixel. Specializované ztrátové funkce to řeší:

Focal Loss (Lin et al., 2017) aplikuje modulační faktor (1 − pt)γ na cross-entropy loss, kde pt je predikovaná pravděpodobnost modelu pro třídu ground truth a γ je zaostřovací parametr (typicky 2,0). Tím se snižuje váha dobře klasifikovaných příkladů (pt → 1,0) a zvyšuje váha obtížných, chybně klasifikovaných příkladů (pt → 0,0). Pro detekci trhlin s γ=2,0 snižuje focal loss příspěvek snadných pixelů pozadí přibližně 4× oproti cross-entropy.

Dice Loss (Milletari et al., 2016) = 1 − Dice koeficient = 1 − (2TP + ε)/(2TP + FP + FN + ε). Tato funkce přímo optimalizuje hodnotící metriku. Dice loss je méně citlivá na třídní nevyváženost než cross-entropy, protože měří překryv spíše než přesnost na pixel. Je standardní ztrátovou funkcí pro segmentaci trhlin založenou na U-Netu.

Tversky Loss (Salehi et al., 2017) zobecňuje Dice loss odlišným vážením falešně pozitivních a falešně negativních výsledků: Tversky index = TP/(TP + α·FP + β·FN). Pro bezpečnostně kritickou detekci trhlin, kde jsou falešně negativní výsledky (přehlédnuté trhliny) nebezpečnější než falešně pozitivní (falešné poplachy), nastavení α=0,3 a β=0,7 penalizuje FN více než FP.

SupContrast (řízená kontrastivní ztráta) , relevantní pro přístupy založené na DINOv3, přitahuje embeddingy dlaždic trhlinových pixelů dohromady v embeddingovém prostoru, zatímco je oddaluje od embeddingů pixelů pozadí. Tím vzniká dobře strukturovaný embeddingový prostor, kde trhlinové pixely tvoří těsné shluky lineárně oddělitelné od shluků pozadí.

Klasifikace vs. segmentace trhlin

Přístupy k detekci trhlin na bázi AI spadají do dvou metodologických kategorií: klasifikační a segmentační, každá s odlišnými výstupy, metrikami a případy použití.

Klasifikace trhlin určuje, zda oblast snímku (dlaždice snímku, dlaždice nebo celý snímek) obsahuje trhlinu. Výstupem je binární štítek (trhlina přítomna / trhlina nepřítomna) nebo více třídní štítek (typ trhliny: podélná, příčná, aligátorová). Klasifikační modely jsou typicky lehké CNN (CrackNet s 1,4M parametry, MobileNetV2 s 3,5M parametry) trénované na datasetech na úrovni dlaždic. Výstup poskytuje pravděpodobnost přítomnosti trhliny a umístění (která dlaždice obsahuje trhlinu), ale neposkytuje geometrii trhliny — šířku, délku, orientaci nebo topologii. Klasifikace je vhodná pro rychlé průzkumné prohlídky, kde je cílem identifikovat místa trhlin pro následnou inspekci, nikoli měřit jednotlivé trhliny. Hodnocení používá přesnost, preciznost, recall a F1 na úrovni dlaždic nebo snímků.

Segmentace trhlin (sémantická segmentace) klasifikuje každý pixel individuálně jako trhlinu nebo netrhlínu. Výstupem je binární maska ve stejném rozlišení jako vstupní snímek, kde každý pixel má pravděpodobnost trhliny. To poskytuje plnou geometrii trhliny — šířku v každém bodě podél trhliny, celkovou délku, orientační úhel, topologii větvení a plochu trhliny. Segmentace je vyžadována pro kvantitativní hodnocení stavu vozovky (výpočet PCI, klasifikace závažnosti šířky trhlin dle standardů ICAO). Hodnocení používá metriky na úrovni pixelů: IoU, Dice, preciznost, recall a boundary F1. Segmentační modely jsou výpočetně náročnější (U-Net s 31M parametry, DeepLabV3+ s 42–55M), ale poskytují podstatně bohatší výstup.

Některé systémy používají instanční segmentaci (detekci každé jednotlivé trhliny jako samostatného objektu), která rozlišuje mezi nepropojenými trhlinami. To je relevantní pro počítání trhlin (počet trhlin na jednotku plochy) a mapování hustoty trhlin. Mask R-CNN a YOLOv8-seg jsou běžné architektury instanční segmentace pro detekci trhlin.

Hodnotící metriky

Intersection over Union (IoU)

IoU (Jaccardův index) měří překryv mezi predikovanou segmentací trhlin a ground truth, dělený sjednocením obou. Je to nejčastěji uváděná metrika pro segmentaci trhlin:

IoU = TP / (TP + FP + FN)

Hodnoty se pohybují od 0 (žádný překryv) do 1 (dokonalý překryv). Typické IoU pro modely detekce trhlin se pohybuje od 0,55 do 0,75. IoU je citlivější než Dice na falešně pozitivní a falešně negativní výsledky, protože jmenovatel sjednocení je větší než jednotlivé součty. Model predikující trhlinu ground truth o 100 pixelech s 60 správnými pixely (TP=60, FP=20, FN=40) dosahuje IoU = 60/(60+20+40) = 0,50. Přísnější jmenovatel sjednocení znamená, že IoU je vždy nižší nebo rovno Dice pro stejnou predikci.

Dice koeficient (F1 skóre)

Dice (také nazývaný F1 skóre pro binární segmentaci) je harmonický průměr preciznosti a recallu:

Dice = 2 × TP / (2 × TP + FP + FN)

Dice souvisí s IoU: Dice = 2·IoU / (1 + IoU). Pro výše uvedený příklad (IoU=0,50) platí Dice = 2×0,50/1,50 = 0,67. Typické Dice pro detekci trhlin se pohybuje od 0,65 do 0,80. Článek EGA-UNet (2025) uvádí Dice = 73,1 % jako svou primární metriku. Dice poskytuje optimističtější hodnocení kvality segmentace než IoU a rozdíl mezi nimi se zvětšuje s klesající kvalitou — predikce nízké kvality s IoU=0,25 má Dice=0,40.

Preciznost a Recall

Preciznost (Positive Predictive Value) = TP/(TP+FP). Měří míru falešných poplachů: ze všech pixelů označených jako trhlina, jaký zlomek je skutečně trhlina? Vysoká preciznost (>0,85) znamená málo falešně pozitivních výsledků. Důležité, když detekce trhlin spouští nákladná následná opatření (např. vyslání týmů k utěsnění na označená místa).

Recall (Senzitivita, True Positive Rate) = TP/(TP+FN). Měří míru přehlédnutých trhlin: ze všech skutečných trhlinových pixelů, jaký zlomek model detekoval? Vysoký recall (>0,85) znamená málo přehlédnutých trhlin. Pro bezpečnostně kritickou infrastrukturu (inspekce runwayí na komerčních letištích) je recall upřednostňován před precizností — vyšetřování falešného poplachu je méně závažné než přehlédnutí skutečné trhliny, která by se mohla rozvinout ve strukturální selhání při zatížení letadlem.

Střední průměrná preciznost (mAP)

mAP vyhodnocuje preciznost napříč různými prahovými hodnotami recallu, typicky uváděnými při prahových hodnotách IoU 0,50 (mAP@50) a od 0,50 do 0,95 v krocích po 0,05 (mAP@50:95). Pro detekci trhlin jako úlohu detekce objektů (ohraničující rámečky) mAP měří, jak dobře model lokalizuje oblasti trhlin. Studie Univerzity Střední Floridy z roku 2025 používající Grounding DINO pro tepelnou detekci trhlin dosáhla 70% mAP@[0,5:0,95]. Pro úlohy segmentace na úrovni pixelů jsou preferovány IoU a Dice před mAP, protože trhliny jsou nerectangulární struktury a metriky ohraničujících rámečků špatně reprezentují kvalitu segmentace.

Srovnání metrik

MetrikaVzorecRozsahTypická hodnota trhlinPoužití
IoUTP/(TP+FP+FN)0–10,55–0,75Kvalita segmentace (přísná)
Dice2TP/(2TP+FP+FN)0–10,65–0,80Kvalita segmentace (mírná)
PreciznostTP/(TP+FP)0–10,80–0,95Kontrola falešných poplachů
RecallTP/(TP+FN)0–10,80–0,95Bezpečnostně kritická detekce
F12PR/(P+R)0–10,80–0,92Celkové
mAP@50Prům. preciznost při IoU≥0,50–10,70–0,85Detekce objektů
Přesnost pixelů(TP+TN)/(TP+TN+FP+FN)0–1>0,95 (zavádějící)Nedoporučuje se pro trhliny

Měření šířky a délky trhlin ze segmentace

Binární segmentační maska výstupu z AI modelu poskytuje umístění a tvar trhliny, ale standardy inspekce infrastruktury vyžadují fyzické rozměry trhliny — šířku v milimetrech, délku v metrech a plochu v milimetrech čtverečních. Převod masek na úrovni pixelů na inženýrská měření vyžaduje výpočetní geometrické pipeline.

Skeletonizace

Skeletonizace (ztenčování) redukuje oblast trhliny na středovou linii o šířce jednoho pixelu, která zachovává topologii trhliny (spojitost, větvení, koncové body). Zhang-Suenův ztenčovací algoritmus (1984) je standardní metodou:

  1. Vstup: Binární maska trhliny (bílá=trhlina, černá=pozadí)
  2. Iterativní dvouprůchodový postup:
    • Průchod 1: Označ okrajové pixely ke smazání, pokud: (a) 2 ≤ N(P1) ≤ 6 (počet nenulových 8-sousedů); (b) S(P1) = 1 (počet přechodů 0→1 v cyklu 8-sousedů); (c) P2×P4×P6 = 0; (d) P4×P6×P8 = 0
    • Průchod 2: Stejné podmínky s (c’) P2×P4×P8 = 0; (d’) P2×P6×P8 = 0
    • Opakuj, dokud se v iteraci nezmění žádné pixely
  3. Výstup: Skeleton středové linie, přesně 1 pixel široký

Medial Axis Transform (MAT) je alternativou využívající distance transform: pro každý vnitřní pixel trhliny vypočítej minimální euklidovskou vzdálenost k okraji trhliny. Skeleton tvoří pixely, které jsou lokálními maximy v této mapě vzdáleností. MAT produkuje hladší skeleton pro silné, nepravidelné trhliny, ale vyžaduje výpočet O(n²) oproti O(n) pro Zhang-Suenovo ztenčování.

Distance Transform pro měření šířky

Euklidovská distance transform (EDT) vypočítá minimální euklidovskou vzdálenost od každého pixelu skeletonu (x,y) k nejbližšímu okrajovému pixelu trhliny:

D(x,y) = min(i,j)∈∂C √((x−i)² + (y−j)²)

kde ∂C je množina okrajových pixelů oblasti trhliny. Šířka trhliny v bodě (x,y) = 2 × D(x,y), protože vzdálenost od středové linie k okraji je polovina plné šířky trhliny.

Distance transform se efektivně počítá pomocí:

  • Fast Marching Method: O(n log n) pro přesnou euklidovskou vzdálenost
  • Danielssonův algoritmus: O(n) pro aproximaci 4-spojité vzdálenosti
  • OpenCV cv2.distanceTransform(): O(n) dvouprůchodový rastrový scan produkující přibližnou euklidovskou vzdálenost s chybou <1 %

Statistiky šířky odvozené z pole šířek na pixel:

  • Průměrná šířka trhliny: průměr přes všechny pixely skeletonu — používá se pro celkovou klasifikaci závažnosti trhliny
  • Maximální šířka trhliny: největší jednotlivá hodnota šířky — používá se pro posouzení závažnosti v nejhorším případě
  • Histogram šířky: rozložení šířek podél délky trhliny — indikuje rovnoměrnost trhliny

Výpočet délky trhliny

Délka trhliny se měří ze skeletonizované středové linie:

Metoda 1 — Počítání pixelů s korekcí spojitosti:

  • Spočítej celkové pixely skeletonu
  • Uprav pro diagonální sousednost: každý 4-spojitý (ortogonální) krok = 1 pixel; každý diagonální krok = √2 ≈ 1,414 pixelu
  • Celková délka L = N₀ + √2 × N₁ (kde N₀ = 4-spojité kroky, N₁ = diagonální kroky)

Metoda 2 — Řetězový kód (Freeman Chain):

  • Zakóduj cestu skeletonu jako sekvenci směrových kódů (0=Východ, 1=Severovýchod, 2=Sever atd.)
  • Sečti délky kroků: sudé kódy (ortogonální) = 1, liché kódy (diagonální) = √2

Metoda 3 — Euklidovská vzdálenost mezi uspořádanými body:

  • Seřaď pixely skeletonu do uspořádané cesty pomocí průchodu grafem (vyžadováno pro větvící se trhliny, kde se více cest odchyluje z uzlů)
  • Sečti euklidovské vzdálenosti mezi po sobě jdoucími seřazenými body

Pro větvící se trhliny (např. aligátorové praskání v blízkosti křižovatek) celková délka trhliny zahrnuje všechny větve. Skeleton musí být před výpočtem délky rozložen na jednotlivé větve v místech uzlů.

Kalibrace pixelů na milimetry

Segmentační masky měří trhliny v pixelech; inženýrské standardy vyžadují fyzické milimetry. Používají se čtyři kalibrační metody:

1. Známý referenční objekt: Umísti objekt známých rozměrů (mince, pravítko nebo kalibrační terč) do scény. Měřítko S = známá_délka_mm / naměřená_délka_pixely. Přesnost: ±0,5–1 %.

2. Laserová projekce (Carrasco et al., 2021): Dva paralelní laserové paprsky ve známé vzdálenosti (např. 50 mm) jsou promítány na povrch. Vzdálenost pixelů mezi laserovými body udává S = 50 mm / Δpixely. Přesnost: ±0,02 mm.

3. Geometrie kamery: mm_na_pixel = (2 × Z × tan(HFOV/2)) / šířka_obrazu, kde Z = vzdálenost kamery od povrchu (m), HFOV = horizontální zorné pole (stupně). Pro dron ve výšce 10 m s 24mm objektivem a 20MP kamerou (5472×3648, 24mm ohnisková vzdálenost na APS-C senzoru s 1,5× crop faktorem, 36mm efektivní ohnisková vzdálenost, HFOV ≈ 51°): mm_na_pixel ≈ (2 × 10 000 × tan(25,5°)) / 5472 ≈ 1,8 mm/pixel.

4. Pevná předkalibrace: Pro dron nebo průzkumné vozidlo s pevnou výškou/konfigurací objektivu předkalibruj S. Při výšce 15 m s 20MP kamerou a 35mm objektivem S ≈ 0,5 mm/pixel.

Kompletní měřicí pipeline

  1. Vstupní snímek → Segmentace hlubokým učením → Binární maska trhliny
  2. Zhang-Suenovo ztenčování → Skeleton trhliny o šířce 1 pixelu
  3. Euklidovská distance transform → Kolmá šířka v každém bodě skeletonu
  4. Průchod skeletonu s řetězovým kódem → Celková délka trhliny
  5. Kalibrace pixelů na mm → Fyzické rozměry trhliny (šířka v mm, délka v m, plocha v mm²)
  6. Klasifikace závažnosti dle ICAO/FAA: <1 mm (vlásečnicová), 1–3 mm (úzká), 3–6 mm (střední), >6 mm (široká)

Generalizace napříč typy vozovek a osvětlením

Generalizace modelu — schopnost udržet přesnost detekce na typech vozovek, světelných podmínkách a kamerových systémech, které nebyly viděny během tréninku — je kritickou výzvou pro produkční detekci trhlin. Model trénovaný výhradně na Crack500 (filadelfský asfalt) může ztratit 5–15 % IoU při aplikaci na betonové povrchy runwayí a model trénovaný na slunečných denních snímcích může ztratit 10–20 % přesnosti při zatažené nebo mokré obloze.

Generalizace napříč typy vozovek

Asfaltové a betonové vozovky představují zásadně odlišné vizuální charakteristiky pro detekci trhlin. Asfalt má tmavý, jednotný vzhled s nízkým albedem (odrazivost 5–15 %). Okraje trhlin v asfaltu jsou typicky ostré a vysoce kontrastní, protože nové plochy trhlin odhalují světlejší kamenivo. Beton má vyšší albedo (odrazivost 30–50 %) a skvrnitý povrchový vzhled v důsledku rozložení jemného kameniva. Betonové trhliny jsou často méně kontrastní, protože plochy trhlin zvětrávají podobně jako exponovaný povrch. Model trénovaný na jednom typu povrchu se učí texturní rysy specifické pro daný povrch (jednotné tmavé pozadí asfaltu), které na druhém povrchu chybí nebo jsou obrácené (světlejší, texturované pozadí betonu).

Dataset NHA12D byl speciálně navržen k vyhodnocení této výzvy napříč doménami — obsahuje 40 betonových a 40 asfaltových snímků ze stejné britské dálniční sítě. Publikované výsledky ukazují, že modely trénované na asfaltových datasetech (CFD, Crack500) a testované na betonových snímcích NHA12D ztrácejí 8–12 % IoU oproti hodnocení na stejném povrchu. Techniky doménové adaptace to řeší pomocí:

  • Adversariálního zarovnání domén: Diskriminátor domény se učí rozlišovat asfaltové a betonové zdrojové domény; encoder detekce trhlin se učí rysy, které diskriminátor oklamou, čímž vytváří doménově invariantní reprezentace.
  • Augmentace stylovým přenosem: Tréninkové snímky jsou stylově transformovány tak, aby napodobovaly různé textury vozovek pomocí neuronového stylového přenosu (párování Gramovy matice) nebo Fourierovy doménové adaptace (výměna amplitud).
  • Vícepovrchového tréninku: Zahrnutí dat z asfaltu i betonu do tréninku (např. kombinace Crack500 + NHA12D beton) zlepšuje generalizaci napříč povrchy o 3–5 %.

Variabilita osvětlení

Přesnost detekce trhlin v různých světelných podmínkách se podstatně liší. Systematická studie na Crack500 ve třech světelných scénářích zjistila:

  • Slunečno, přímé osvětlení shora: IoU = 0,72 (základní optimální)
  • Zataženo, difuzní světlo: IoU = 0,63 (−12,5 % oproti základu)
  • Stín (stín budovy/stromu přes 30 % snímku): IoU = 0,58 (−19,4 % oproti základu)
  • Mokrý povrch (simulován ztmavením a zvýšením zrcadlového odrazu): IoU = 0,43 (−40,3 % oproti základu, kvůli povrchové vodě maskující rysy trhlin)

Augmentace dat během tréninku zlepšuje robustnost vůči osvětlení. Standardní augmentace pro detekci trhlin zahrnují:

  • Změny jasu: Náhodná ±30 % variace jasu
  • Změny kontrastu: Náhodná ±20 % variace kontrastu
  • Gaussovský šum: σ = 0,01–0,05 (normalizované hodnoty pixelů)
  • Gaussovské rozostření: velikost jádra 3–7, σ = 0,5–2,0
  • Simulace deště: Přidání poloprůhledných pruhů pro simulaci mokrých podmínek

Model trénovaný s agresivní augmentací (jas ±40 %, kontrast ±30 %, šum σ=0,03, rozostřovací jádro až 7) ztrácí přibližně 1–2 % absolutního IoU na čistém, optimálním osvětlení, ale získává 6–8 % IoU za náročných podmínek (stín, zataženo). Zlepšení na obtížných případech obvykle ospravedlňuje malou penalizaci na snadných případech pro reálné nasazení, kde osvětlení není řízeno.

Okrajové nasazení pro detekci trhlin v reálném čase

Nasazení AI detekce trhlin na okrajových zařízeních — vestavěných počítačích namontovaných na dronech, inspekčních vozidlech nebo robotech — umožňuje zpracování v reálném čase bez cloudového připojení, což je kritické pro vzdálená letiště, rozsáhlé dálniční sítě a bezpečnostně kritické aplikace, kde latence musí být měřena v milisekundách, nikoli sekundách.

Hardwarové platformy

NVIDIA Jetson Orin Nano Super (67 TOPS INT8, 7–15W, $249) je primární okrajová platforma pro dronovou detekci trhlin. 1024 CUDA jader a 32 Tensor jader poskytuje dostatečnou propustnost pro segmentaci v reálném čase při 30–50 FPS (FP16) na optimalizovaných architekturách (EGA-UNet, ResU-Net). 8 GB LPDDR5 paměti (102 GB/s šířka pásma) zvládá dávkovou inferenci 512×512. Formát: modul 69,6×45 mm, vhodný pro integraci do dronové zátěže.

NVIDIA Jetson Orin NX (100 TOPS, 10–25W) nabízí vyšší propustnost pro zpracování více kamerových streamů současně — užitečné pro inspekční vozidla s dopřednými, bočními a dolů směřujícími kamerami.

NVIDIA Jetson AGX Orin (275 TOPS, 15–60W) umožňuje nasazení modelů v plném měřítku (DeepLabV3+, TransUNet) při produkčních snímkových frekvencích. Používá se pro vozidlové systémy, kde je spotřeba energie méně omezená.

Raspberry Pi 5 (čtyřjádrový Cortex-A76 @ 2,4 GHz, $60–80) s Hailo-8L NPU (13 TOPS, M.2 HAT) poskytuje levnější okrajové řešení. Lehké modely (U-Net s ghost konvolucí, MobileNetV3 segmentační hlava) dosahují 5–12 FPS na vstupech 512×512. Celkové náklady na systém včetně kamery a dronového montážního držáku: ~$200.

PlatformaTOPSVýkonCenaFPS trhlin (FP16)FPS trhlin (INT8)
Jetson Orin Nano Super677–15W$24930–5050–80
Jetson Orin NX10010–25W$49940–6070–100+
Jetson AGX Orin27515–60W$1 99960–100+100–200+
Raspberry Pi 5 + Hailo-8L135–12W~$805–128–15

Optimalizace inference

TensorRT (NVIDIA SDK pro optimalizaci inference) provádí optimalizaci grafu, automatické ladění jader a kalibraci preciznosti:

  • FP16 režim: 2× propustnost oproti FP32 s <0,5% ztrátou přesnosti. Snižuje paměť modelu ~50 %.
  • INT8 kvantizace (Post-Training Quantization, PTQ): 3–4× propustnost oproti FP32. Reprezentativní dataset (~500 snímků) kalibruje rozložení aktivací pro optimální INT8 škálovací faktory. Ztráta přesnosti 1–3 % pro segmentaci trhlin.
  • Quantization-Aware Training (QAT): Simuluje INT8 kvantizaci během tréninku (vkládá falešné kvantizační uzly). Model adaptuje své váhy na kvantizované chování inference, což přináší 0,5–1,5 % lepší přesnost než PTQ pro segmentaci trhlin.

ONNX Runtime poskytuje multiplatformní nasazení s poskytovateli provádění pro CUDA (GPU), TensorRT (NVIDIA), OpenVINO (Intel), CoreML (Apple) a ARM CPU. Typické zrychlení: 1,2–1,5× oproti čisté PyTorch inferenci na CPU.

Prořezávání kanálů odstraňuje méně důležité konvoluční kanály na základě velikosti L1-normy (váhy blízké nule přispívají minimálně). Může snížit FLOPs o 30–50 % s 1–2% ztrátou přesnosti pro segmentaci trhlin. Znalostní destilace trénuje malý studentský model (např. EGA-UNet s 2,3M parametry), aby napodoboval výstup velkého učitelského modelu (např. DeepLabV3+ s 55M parametry) minimalizací KL divergence mezi jejich výstupními rozděleními pravděpodobností. Student dosahuje 95–98 % přesnosti učitele se 70–90 % méně parametry.

Strategie šířky pásma pro dronové inspekce

Pro více dronové inspekce runwayí nebo dálnic vyžaduje plné nahrávání videa (4K, 30 FPS, H.264) 15–25 Mbps na dron — což překračuje mobilní šířku pásma ve venkovských oblastech a znemožňuje cloudovou analýzu v reálném čase. Strategie selektivního nahrávání to řeší:

  • Model na zařízení běží nepřetržitě při 10–30 FPS
  • Pouze snímky s jistotou trhliny > práh (např. >0,7) jsou komprimovány (JPEG, kvalita 85) a přenášeny
  • Snímky v plném rozlišení (20+ MP) jsou ukládány na palubě a nahrány po letu nebo fyzicky získány
  • Odhadovaná data na 1 hodinu inspekčního letu: ~50–200 MB snímků s pozitivními trhlinami + metadata oproti ~30–50 GB pro plné nahrávání videa
  • Umožňuje provoz flotily více dronů s celulárním nebo satelitním zpětným spojením pro označené oblasti

Ověření s lidským dohledem

Navzdory pokrokům v přesnosti AI vyžaduje bezpečnostně kritická inspekce infrastruktury (komerční letištní runwaye, dálniční mosty, hráze přehrad) ověření s lidským dohledem — kvalifikovaný inspektor přezkoumává mapy trhlin generované AI a buď potvrzuje, zamítá nebo upravuje zjištění. To je motivováno regulačními požadavky (ICAO, FAA, ASTM), které nařizují schválení kvalifikovaným inženýrem u zpráv o stavu ovlivňujících bezpečnostní rozhodnutí.

Typický pracovní postup s lidským dohledem pro AI detekci trhlin:

  1. AI generuje mapu segmentace trhlin s měřeními šířky/délky dle klasifikací závažnosti ICAO
  2. Rozhraní pro přezkum zobrazuje překryv AI predikcí na původních snímcích, zvýrazňující oblasti trhlin podle závažnosti (barevně odlišené: zelená = vlásečnicová <1mm, žlutá = úzká 1–3mm, oranžová = střední 3–6mm, červená = široká >6mm)
  3. Inspektor přijímá/dotazuje se/zamítá každou označenou trhlinu:
    • Přijmout: AI klasifikace a měření zaznamenány beze změny (typicky 60–75 % detekcí)
    • Dotaz: AI označila oblast; inspektor přezkoumává v plném rozlišení, potenciálně upravuje okraj trhliny nebo odstraňuje falešně pozitivní výsledek (typicky 15–25 %)
    • Zamítnout: Falešně pozitivní výsledek způsobený spárou, stínem, texturou povrchu, olejovou skvrnou (typicky 5–15 %)
  4. Inspektor přidává přehlédnuté trhliny: Trhliny, které AI nedetekovala (falešně negativní), jsou ručně anotovány (typicky 2–5 % celkové délky trhlin)
  5. Revidovaná data jsou zaznamenána s uchováním anotací AI i inspektora
  6. Okrajové případy jsou protokolovány pro přetrénování modelu — falešně pozitivní a falešně negativní výsledky jsou shromážděny, označkovány a přidány do tréninkového datasetu pro další iteraci modelu

Tato zpětná vazba kontinuálně zlepšuje výkon modelu. Po 3–5 cyklech přetrénování s lidsky ověřenými okrajovými případy se míra falešně pozitivních výsledků typicky snižuje o 40–60 % a recall se zlepšuje o 5–10 % na konkrétních typech vozovek a podmínkách v inspekčním programu.

Současná omezení a budoucí směry

Současná omezení

Limit rozlišení detekce tenkých trhlin: Trhliny užší než 2–3 pixely nelze spolehlivě detekovat ani měřit bez ohledu na kvalitu modelu — fyzická informace v obraze prostě není přítomna. Při vzdálenosti vzorkování na zemi 1,0 mm/pixel (typické pro dronové inspekce ve výšce 10–15 m) jsou trhliny pod 0,3 mm nedetekovatelné. Toto je tvrdé fyzikální omezení dané rozlišením zobrazovací platformy, nikoli AI modelem.

Degradace napříč doménami: Modely trénované na jednom typu vozovky (asfalt) nebo geografické oblasti (americké silnice) ztrácejí 5–15 % IoU při nasazení na jiné typy vozovek (beton, kompozit) nebo regiony (evropské, asijské silniční povrchy). Techniky doménové adaptace tento rozdíl snižují, ale neeliminují. Produkční nasazení vyžaduje doladění pro konkrétní lokalitu nebo trénink napříč regiony.

Konzistence falešně pozitivních výsledků: Zatímco celková míra falešně pozitivních výsledků je nízká (5–15 % detekcí), falešně pozitivní výsledky se shlukují za specifických podmínek: dilatační spáry produkují falešné detekce na 20–40 % spár; podélné drážky vytvářejí periodické falešné vzory; a povrchové olejové skvrny produkují nepravidelné falešně pozitivní výsledky. Tyto systematické režimy selhání vyžadují pravidlové post-processingové filtry (např. “odstraň detekce podél známých linií spár z GIS dat”).

Mokré a špatně osvětlené podmínky: Výkon na mokré vozovce klesá až o 40 % IoU oproti suchým podmínkám. Noční inspekce vyžaduje aktivní osvětlení (LED reflektory na dronu nebo vozidle), které vnáší odlesky a stínové artefakty dále snižující přesnost. Déšť, mlha a sněhová pokrývka činí detekci trhlin s kamerami viditelného spektra prakticky nemožnou.

Regulační akceptace: Žádný významný letecký nebo dopravní úřad (ICAO, FAA, ASTM, AASHTO) nezveřejnil standardy pro AI detekci trhlin jako samostatnou inspekční metodu. Současné předpisy vyžadují, aby výsledky AI byly ověřeny tradičními metodami (řetězové tažení, jádrové vývrty, vizuální inspekce certifikovaným inspektorem). To omezuje provozní úspory nákladů při nasazení AI, protože čas inspektora je stále vyžadován pro ověření.

Budoucí směry

Samořízené učení pro režimy s malým množstvím dat: Paradigma zmrazeného backbone DINOv3 demonstruje, že modely detekce trhlin lze trénovat s 50–100 označenými snímky namísto 500–2000. Budoucí vývoj rozšíří toto na detekci trhlin bez příkladů (zero-shot) — modely, které detekují trhliny na jakémkoli typu povrchu bez jakéhokoli doménově specifického tréninku, využitím rysů základního modelu naučených z miliard různorodých snímků.

Fyzikálně informované neuronové sítě: Současné modely se učí čistě vizuální rysy. Fyzikálně informované modely budou integrovat rovnice přenosu tepla pro tepelnou detekci trhlin, modely napětí-deformace pro predikci šíření trhlin z detekované geometrie a modely zatížení pro letištní vozovky (hmotnost letadla, tlak pneumatik, frekvence přejezdů) k určení priority oprav na základě strukturálního rizika, nikoli pouze rozměrů trhlin.

Časová analýza založená na videu: Současné systémy analyzují jednotlivé snímky. Modely založené na videu budou sledovat progresi trhlin napříč více průzkumnými přelevy (srovnání rok po roce), detekovat otevírání/zavírání trhlin při dopravním zatížení (měření šířky trhliny před, během a po přejezdu letadla) a filtrovat přechodné falešně pozitivní výsledky (listí, nečistoty, stojatá voda) pomocí časových kontrol konzistence.

Multi-modální fúze senzorů: Kombinace kamer viditelného spektra s tepelným infračerveným (IRT) zářením, georadarem (GPR), výškovým profilováním LiDAR a ultrazvukovou tomografií poskytuje bohatší charakterizaci vad. Jednotný AI model zpracovávající všechny modality současně detekuje povrchové trhliny (viditelné), podpovrchovou delaminaci (IRT), obsah dutin (GPR) a povrchovou drsnost (LiDAR) v jediném průchodu — poskytující komplexní posouzení strukturálního stavu nad rámec samotné detekce trhlin.

Okrajové nativní transformerové architektury: Výpočetní náklady O(n²) Vision Transformerů v současnosti omezují okrajové nasazení. Hardwarově specifické architektury (NVIDIA TensorRT optimalizované, Qualcomm AI Engine mapované, Apple Neural Engine kompilované) kombinované s mechanismy pozornosti s lineární komplexitou (Performer, Linformer, Mamba state-space modely) přinesou přesnost na úrovni transformerů do okrajových zařízení do roku 2027. Architektura Mamba-UNet (2024) používající state-space modely místo pozornosti dosahuje konkurenceschopné segmentace trhlin (71,5% mIoU) při přibližně 40 % výpočetních nákladů EGA-UNet.

Regulační vývoj: Jak AI detekce trhlin shromažďuje provozní důkazy napříč letištními a dálničními sítěmi, očekává se, že normalizační orgány zveřejní inspekční standardy specifické pro AI — definující validační požadavky, prahy přesnosti, frekvenci přetrénování a protokoly lidského dohledu. Plán FAA pro AI v letectví (FAA AI Strategic Plan, 2024) výslovně zahrnuje AI pro inspekci infrastruktury do svého plánovaného cyklu vývoje regulačního rámce pro roky 2026–2028.

Okrajové výpočetní zařízení včetně modulu NVIDIA Jetson namontovaného na dronové zátěži pro detekci trhlin s AI v reálném čase pro inspekci infrastruktury

Reference

  • Ronneberger, O., Fischer, P., & Brox, T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. MICCAI 2015, 234–241.
  • Chen, L.C., et al. (2018). Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation. ECCV 2018, 801–818.
  • Dosovitskiy, A., et al. (2020). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021.
  • Oquab, M., et al. (2025). DINOv3: Gram-Anchored Dense Features at Scale. Meta AI Research.
  • Yang, L., et al. (2025). An efficient semantic segmentation method for road crack based on EGA-UNet. Scientific Reports, 15, 33818.
  • Zhang, A., et al. (2017). Automated Pixel-Level Pavement Crack Detection on 3D Asphalt Surfaces. Journal of Computing in Civil Engineering, 31(1), 04016093.
  • Liu, Y., et al. (2019). DeepCrack: A Deep Hierarchical Feature Learning Architecture for Crack Segmentation. Neurocomputing, 338, 139–153.
  • Shi, Y., et al. (2016). Automatic Road Crack Detection Using Random Structured Forests. IEEE Transactions on Intelligent Transportation Systems, 17(12), 3434–3445.
  • Yang, F., et al. (2020). Feature Pyramid and Hierarchical Boosting Network for Pavement Crack Detection. IEEE Transactions on Intelligent Transportation Systems, 21(4), 1525–1535.
  • Huang, Y., et al. (2022). NHA12D: A New Pavement Crack Dataset and A Comparison Study of Crack Detection Algorithms. EC3 2022.
  • International Civil Aviation Organization. (2018). Annex 14 — Aerodromes, Volume I: Aerodrome Design and Operations (8th ed.).
  • FAA Advisory Circular 150/5200-30D. (2016, Chg 2 2020). Airport Field Condition Assessments and Winter Operations Safety.
  • ASTM D5340-12. Standard Test Method for Airport Pavement Condition Index Surveys.
  • Carrasco, M., et al. (2021). Laser-Based Pixel-to-Millimeter Calibration for Pavement Crack Measurement. Automation in Construction, 126, 103667.
  • Zhang, T.Y. & Suen, C.Y. (1984). A Fast Parallel Algorithm for Thinning Digital Patterns. Communications of the ACM, 27(3), 236–239.
  • Lin, T.Y., et al. (2017). Focal Loss for Dense Object Detection. ICCV 2017, 2980–2988.
  • Milletari, F., et al. (2016). V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation. 3DV 2016, 565–571.

Často kladené otázky

Automatizujte své inspekce trhlin na runwayích a vozovkách

Nasazujte detekci trhlin poháněnou AI z dronových a vozidlových snímků pro automatizované inspekce runwayí, silnic a mostovek. Získejte pixelově přesnou segmentaci trhlin, měření šířky a klasifikaci závažnosti integrovanou s vaším systémem správy majetku.

Zjistit více

Segmentace trhlin

Segmentace trhlin

Segmentace trhlin je úloha počítačového vidění, která klasifikuje každý pixel obrazu jako trhlinu nebo netrhlínu, čímž vytváří binární masku umožňující přesné m...

31 min čtení
Computer Vision Deep Learning +2
Počítačové vidění

Počítačové vidění

Počítačové vidění je technologie poháněná umělou inteligencí, která umožňuje strojům interpretovat a reagovat na vizuální data. Pohání aplikace jako je rozpozná...

12 min čtení
Artificial Intelligence Aviation Technology +3
Automatizované měření šířky trhlin z obrazových dat

Automatizované měření šířky trhlin z obrazových dat

Automatizované měření šířky trhlin odvozuje šířku otevření detekovaných trhlin z pixelových segmentačních masek pomocí Euklidovské distance transformace od okra...

20 min čtení
technology inspection +4