Mi az AI-alapú repedésfelismerés és hogyan működik?

Az AI-alapú repedésfelismerés mélytanuló számítógépes látás modelleket – elsősorban konvolúciós neurális hálózatokat (CNN), U-Net architektúrákat, DeepLab-ot atrous térbeli piramis poolinggal és víziótranszformátorokat – használ a repedések automatikus azonosítására burkolati, futópálya-, hídfedélzeti és betonfelületi képeken. A modelleket pixelszintű annotált adathalmazokon tanítják, ahol minden képhez tartozik egy bináris maszk, amely jelzi, hogy mely pixelek tartoznak repedésekhez. A következtetés során a modell a bemeneti kép minden egyes pixelét elemzi és repedésként vagy nem repedésként (szemantikus szegmentáció) osztályozza, létrehozva egy repedés-szegmentációs térképet. Az utófeldolgozási lépések, mint a skeletonizáció és távolságtranszformáció, kiszámítják a repedés szélességét, hosszát és területét. A technológia élvonalbeli eszközökre (NVIDIA Jetson Orin, drónba épített számítógépek) telepíthető valós idejű ellenőrzéshez, vagy felhőszerverekre nagyméretű felmérési adatsorok batch feldolgozásához.

Milyen mélytanuló architektúrákat használnak a repedésfelismeréshez?

A fő architektúrák a következők: U-Net (kódoló-dekódoló skip kapcsolatokkal, ~31M paraméter), amely megőrzi a vékony repedések körvonalazásához kritikus térbeli részleteket; DeepLabV3+ (ResNet-101 vagy Xception gerinccel és Atrous Spatial Pyramid Pooling-gal, ~42-55M paraméter), amely többléptékű kontextust rögzít; víziótranszformátorok, mint a SETR és TransUNet (86M-632M paraméter), amelyek globális receptív mezőket biztosítanak; EGA-UNet (~2,3M paraméter), amely hatékony ghost konvolúciókat kombinál adaptív Fourier-szűrő token-keveréssel könnyű súlyú valós idejű telepítéshez 73,1%-os Dice-szal; valamint a DINOv3 (önfelügyelt ViT, akár 7B paraméter), amely minimális címkézett adattal teszi lehetővé a repedésfelismerést fagyasztott gerincű transzfer tanulással.

Milyen adathalmazokat használnak a repedésfelismerő AI-modellek betanításához?

A legfontosabb benchmark adathalmazok közé tartozik: Crack500 (500 kép 2000×1500 felbontásban philadelphiai burkolatokról, pixelszintű annotációkkal); DeepCrack (537 kép 544×384 felbontásban többféle beton- és aszfaltfelületről); CrackForest Dataset / CFD (118 kép 480×320 felbontásban pekingi városi utakról); CrackTree200 (206 kép 800×600 felbontásban, kihívást jelentő alacsony kontrasztú körülményekkel); GAPs384 (1969 kép 1920×1080 felbontásban német aszfaltutakról, a legnagyobb egyforrású nyilvános adathalmaz); és NHA12D (80 nagy felbontású kép az UK A12 autópályáról, 40 beton + 40 aszfalt). A repedéspixelek jellemzően csak a képpontok 2-8%-át teszik ki, ami szélsőséges osztályegyensúlytalanságot hoz létre, ami speciális veszteségfüggvényeket (fókuszált veszteség, Dice-veszteség, Tversky-veszteség) igényel a képzés során.

Hogyan mérik a repedés szélességét és hosszát az AI szegmentációs kimenetből?

A repedések számszerűsítése a bináris szegmentációs maszkokból egy számítási geometriai csővezetéket követ: (1) Skeletonizáció a Zhang-Suen vékonyítási algoritmussal, amely a repedés régiót egypixel széles középvonalra redukálja; (2) Euklideszi távolságtranszformáció, amely kiszámítja a minimális távolságot minden skeleton pixelből a repedés határáig, megadva a fél szélességet minden pontban (repedésszélesség = 2 × távolság); (3) Skeleton bejárás lánckódolással, amely a repedés hosszát 4-kapcsolt lépésekkel (1 pixel) és átlós lépésekkel (√2 ≈ 1,414 pixel) méri; (4) Pixel-milliméter kalibráció ismert referenciaobjektumok, lézer vetítőrendszerek (két párhuzamos nyaláb ismert távolságban) vagy kamera-geometria segítségével (FOV = 2 × Z × tan(HFOV/2)). 10 m-es drónmagasságnál 20 MP-es kamerával a tipikus talajmintavételi távolság körülbelül 0,5 mm/pixel, lehetővé téve akár 0,3-0,5 mm széles repedések észlelését.

Milyen kiértékelési mutatókat használnak a repedésfelismerő modellekhez?

A repedésfelismerés pixelszintű bináris osztályozási mutatókat használ: IoU (Intersection over Union = TP/(TP+FP+FN), tipikus tartomány 0,55-0,75); Dice-együttható (F1 = 2TP/(2TP+FP+FN), tipikus tartomány 0,65-0,80), amely az IoU-hoz kapcsolódik: Dice = 2×IoU/(1+IoU); precizitás (TP/(TP+FP)); visszahívás (TP/(TP+FN)); és átlagos átlagpontosság (mAP@[0,5:0,95]) objektumdetekción alapuló megközelítésekhez. A pixelpontosság nem ajánlott, mert a repedéspixelek a képek kevesebb mint 5%-át teszik ki – egy olyan modell, amely minden pixelt háttérként jelez, >95%-os pontosságot ér el, miközben nulla repedést észlel. A BF (Boundary F1) az élpontosságot méri, jellemzően 0,40-0,60, tükrözve a repedések határainak pontos körvonalazásának nehézségét. A hamis negatív arány (FNR = FN/(TP+FN)) kritikus a biztonság szempontjából kritikus alkalmazásoknál, mint a futópálya-ellenőrzés, ahol a nem észlelt repedések nagyobb kockázatot jelentenek, mint a téves riasztások.

Telepíthető az AI repedésfelismerés élvonalbeli eszközökre és drónokra?

Igen. Az élvonalbeli telepítés valós idejű repedésfelismeréshez megvalósítható NVIDIA Jetson modulokon (Orin Nano Super: 67 TOPS 7-15W-on, $249; Orin NX: 100 TOPS; AGX Orin: 275 TOPS) és Raspberry Pi 5-ön Hailo-8L NPU-val (13 TOPS). A következtetésoptimalizálási technikák közé tartozik: TensorRT FP16 (2× áteresztőképesség az FP32-hez képest, <0,5% pontosságvesztés); INT8 kvantálás képzés utáni vagy kvantálás-tudatos képzéssel (3-4× áteresztőképesség, 0,5-3% pontosságvesztés); csatornanyírás (30-50% FLOPs csökkentés); és tudásdesztilláció (a tanulómodell a tanító modell pontosságának 95-98%-át éri el 70-90%-kal kevesebb paraméterrel). Drónos ellenőrzéseknél a szelektív feltöltési stratégia (eszközön végzett következtetés 10-30 FPS-en, csak repedés-pozitív képkockák továbbítása) csökkenti a sávszélességet ~15-25 Mbps-ról (teljes 4K videó) ~1-10 Mbps-ra, lehetővé téve a több drónból álló flotta műveleteket.

Milyen ICAO és FAA szabványok vonatkoznak a futópálya-repedés ellenőrzésre?

Az ICAO Annex 14, I. kötet (8. kiadás, 2018) szélesség szerint osztályozza a repedéseket: hajszálrepedés ( 6 mm). Bármely 3 mm-nél szélesebb felületi repedés tömítést vagy javítást igényel 90 napon belül; a repedésélek mentén jelentkező szétforgácsolódás 30 napra gyorsítja a határidőt. Az FAA 150/5200-30D számú tanácsadó körlevele megköveteli a fékezést vagy irányítást befolyásoló felületi állapotok dokumentálását. A futópálya állapotkódja (RwyCC) 0-tól 6-ig terjed, összehangolva az ICAO-val. Az ASTM D5340-12 meghatározza a Burkolatállapot Index (PCI) levonási értékeit a repedés súlyossága és sűrűsége alapján. Az AI repedésfelismerés közvetlenül támogatja ezeket a szabályozási kereteket azáltal, hogy objektív, reprodukálható repedésméréseket biztosít pixelszintű pontossággal a teljes futópálya-felületen egyetlen drón vagy járműves felmérési áthaladás során.

Mik az AI-alapú repedésfelismerés jelenlegi korlátai?

A fő korlátok közé tartozik: (1) Általánosítás a burkolatok között – az egyik felülettípuson (pl. aszfalt) tanított modellek egy másikon (pl. beton) 5-15%-os IoU romlást mutatnak finomhangolás vagy domain-adaptáció nélkül; (2) Fényérzékenység – árnyékok, nedves felületek és alacsony napszög 10-20%-kal csökkentik a felismerési pontosságot; (3) Vékony repedések észlelése – a 2-3 pixelnél keskenyebb repedések a szegmentációs modellek felbontási korlátja közelében vannak; (4) Osztályegyensúlytalanság – a repedéspixelek a képzési adatok <5%-át teszik ki, speciális veszteségfüggvényeket és adatbővítést igényelve; (5) Téves pozitívok felületi jellemzőkből – olajfoltok, építési hézagok, gumiabroncsnyomok és felületi textúra-változatok nem repedés anomáliákat produkálnak; (6) Ember a hurokban verifikáció továbbra is szükséges a biztonság szempontjából kritikus infrastruktúra-döntésekhez; (7) Szabályozási elfogadás – az AI-alapú ellenőrzési eredmények validálást igényelnek a bevett módszerekkel (lánchúzás, visszhang-impakt, magmintavétel) szemben a hivatalos burkolatállapot-jelentésekhez.

AI-alapú repedésfelismerés infrastruktúra-ellenőrzéshez

Q: Milyen ICAO és FAA szabványok vonatkoznak a futópálya-repedés ellenőrzésre?

Az ICAO Annex 14, I. kötet (8. kiadás, 2018) szélesség szerint osztályozza a repedéseket: hajszálrepedés ( 6 mm). Bármely 3 mm-nél szélesebb felületi repedés tömítést vagy javítást igényel 90 napon belül; a repedésélek mentén jelentkező szétforgácsolódás 30 napra gyorsítja a határidőt. Az FAA 150/5200-30D számú tanácsadó körlevele megköveteli a fékezést vagy irányítást befolyásoló felületi állapotok dokumentálását. A futópálya állapotkódja (RwyCC) 0-tól 6-ig terjed, összehangolva az ICAO-val. Az ASTM D5340-12 meghatározza a Burkolatállapot Index (PCI) levonási értékeit a repedés súlyossága és sűrűsége alapján. Az AI repedésfelismerés közvetlenül támogatja ezeket a szabályozási kereteket azáltal, hogy objektív, reprodukálható repedésméréseket biztosít pixelszintű pontossággal a teljes futópálya-felületen egyetlen drón vagy járműves felmérési áthaladás során.

Az AI-alapú repedésfelismerés számítógépes látást – konvolúciós neurális hálózatokat, víziótranszformátorokat és szemantikus szegmentációs modelleket – használ a repedések automatikus azonosítására, osztályozására és mérésére burkolati és szerkezeti képeken. A technológia az automatizált út-, futópálya- és hídellenőrzési programok alapját képezi a polgári repülés és a közlekedési ágazatok területén.

AI-alapú repedésfelismerés infrastruktúra-ellenőrzéshez

Problémameghatározás és kihívások

Az AI-alapú repedésfelismerés egy számítógépes látás technológia, amely mélytanuló modelleket – konvolúciós neurális hálózatokat (CNN), kódoló-dekódoló architektúrákat és víziótranszformátorokat – alkalmaz a repedések automatikus azonosítására, osztályozására, szegmentálására és mérésére burkolati, futópálya-, hídfedélzeti és beton szerkezeti felületeken digitális képekből. A technológia felváltja vagy kiegészíti a mérnökök által végzett manuális vizuális ellenőrzést, a szubjektív, munkaigényes felméréseket objektív, skálázható, adatvezérelt értékelésekké alakítva. Repülőtéri és polgári infrastruktúra-üzemeltetők számára az automatizált repedésfelismerés közvetlenül támogatja a Burkolatállapot Index (PCI) pontozást az ASTM D5340-12 szerint, a Futópálya Állapotkód (RwyCC) jelentést az ICAO Annex 14 szerint, valamint a megelőző karbantartási tervezést.

Drónos légifelvétel futópálya burkolatáról látható repedésekkel, AI számítógépes látás elemzési átfedéssel kiemelve a felismert repedésmintázatokat

A repedésfelismerési probléma egyedi kihívásokat jelent, amelyek megkülönböztetik az általános szemantikus szegmentációs feladatoktól. A repedések vékony, elnyújtott struktúrák – jellemzően 0,1 mm és 5 mm közötti szélességgel –, amelyek bármely adott képen a pixelek mindössze 2-8%-át foglalják el, ami szélsőséges osztályegyensúlytalanságot teremt a modellképzés során. A repedéspixelek előtér-háttér aránya körülbelül 1:20 és 1:50 közötti, ami azt jelenti, hogy egy naiv osztályozó, amely minden pixelt háttérként jelez, 95%+ pontosságot ér el, miközben nulla repedést észlel. A repedések morfológiája drámaian változik: a hosszirányú repedések párhuzamosak a burkolat középvonalával, a keresztirányú repedések merőlegesek rá, az alligátor (fáradásos) repedések összekapcsolódó sokszögmintákat alkotnak, és a tükröződő repedések az alatta lévő hézagokból terjednek át a fedőrétegen. Minden típus eltérő geometriai jellemzést igényel.

A megvilágítási és környezeti változékonyság tovább bonyolítja a felismerést. Az épületek és túlnyúló növényzet árnyékai alacsony kontrasztú régiókat hoznak létre, ahol a repedések szinte láthatatlanná válnak. A nedves burkolat csökkenti a felületi hőmérséklet-kontrasztot a termikus alapú módszereknél és megváltoztatja a látható spektrumú reflektivitást. Olajfoltok, gumiabroncsnyomok, gumilerakódások, építési hézagok, felületi textúra-változatok (bordázás, hornyolás, seprűzött felület) és törmelék olyan téves pozitív jellemzőket produkálnak, amelyek vizuálisan utánozzák a repedéseket. Egy 2025-ös, a Scientific Reports folyóiratban publikált tanulmány (EGA-UNet cikk, 15. kötet, 33818. cikk) kimutatta, hogy a repedésfelismerési pontosság összetett háttereken 10-20%-kal romlik a tiszta, egységes felületekhez képest, még a legmodernebb figyelmi mechanizmusokkal is.

A lépték- és felbontási korlátok alapvető kompromisszumot kényszerítenek ki. A nagy felbontású képek (szubmilliméter/pixel talajmintavételi távolság) rögzítik a finom repedéseket, de nagy tárhelyet, sávszélességet és feldolgozási időt igényelnek. Az alacsonyabb felbontású képek több területet fednek le repülésenként vagy áthaladásonként, de nem észlelik a 2-3 pixelnél keskenyebb repedéseket. Drónos futópálya-ellenőrzésnél 15 m magasságban 24 MP-es kamerával a tipikus talajmintavételi távolság 1,0-1,5 mm/pixel, ami azt jelenti, hogy a 0,3 mm szélesség alatti repedések az észlelési küszöb alá esnek. Ez a felbontási korlát egy merev fizikai korlát, amelyet egyetlen AI-modell sem képes áthidalni – ez határozza meg a minimális észlelhető repedésszélességet bármely adott képalkotó platform és magasság esetén.

Modellarchitektúrák repedésfelismeréshez

U-Net

Az U-Net-et, amelyet Ronneberger, Fischer és Brox mutatott be a Freiburgi Egyetemen 2015-ben, továbbra is a legszélesebb körben alkalmazott architektúra pixelszintű repedésszegmentációhoz. Az architektúra szimmetrikus kódoló-dekódoló struktúrája skip kapcsolatokkal kifejezetten jól alkalmazható a repedésfelismeréshez, mivel a repedések vékony, térben lokalizált jellemzők, amelyek megkövetelik a nagyfrekvenciás részletek megőrzését a mintavételezési és felskálázási csővezeték során.

Az U-Net kódolója (összehúzó ág) négy mintavételező blokkból áll. Minden blokk két 3×3-as konvolúciót (padding=azonos) tartalmaz, amelyet ReLU aktiváció és egy 2×2-es max pooling művelet (lépésköz=2) követ. A szűrők száma minden szinten megduplázódik: 64 → 128 → 256 → 512 → 1024 a szűk keresztmetszetben. Egy 512×512 pixeles bemenet esetén a térbeli méretek a kódolón keresztül 512 → 256 → 128 → 64 → 32-re csökkennek a legmélyebb rétegben. A szűk keresztmetszet réteg az U-alak alján 1024 jellemzőtérképet tartalmaz 32×32-es felbontásban, ami a legabsztraktabb, szemantikailag leggazdagabb jellemzőket képviseli.

A dekódoló (táguló ág) tükrözi a kódolót négy felskálázó blokkal. Minden blokk egy 2×2-es transzponált konvolúciót alkalmaz, amely megfelezi a szűrők számát és megduplázza a térbeli méreteket. A felskálázott jellemzőtérkép összefűzésre kerül a kódoló útvonal megfelelő jellemzőtérképével skip kapcsolatokon keresztül – például a dekódoló 128×128-as rétege közvetlen összefűzést kap a kódoló 128×128-as rétegétől. Ez a skip kapcsolati mechanizmus kritikus: nagy felbontású térbeli részleteket biztosít a dekódolónak a kódolóból, amelyek egyébként elvesznének az agresszív mintavételezés során. Az összefűzés után két 3×3-as konvolúció ReLU-val finomítja a kombinált jellemzőket.

A végső kimeneti réteg egy 1×1-es konvolúció szigmoid aktivációval, amely egy egycsatornás valószínűségi térképet hoz létre, ahol minden pixelérték (0-tól 1-ig) annak a valószínűségét jelenti, hogy az adott pixel egy repedés régióhoz tartozik. Egy küszöbérték (jellemzően 0,5) konvertálja a valószínűségeket bináris repedés/nem repedés szegmentációvá.

Az eredeti U-Net ~31 millió paramétert és 23 konvolúciós réteget tartalmaz. Egy 512×512-es bemenet esetén a következtetési sebesség körülbelül 40 ms/kép egy modern GPU-n (NVIDIA RTX 3080 vagy azzal egyenértékű). A könnyű súlyú változatok, mint a ResU-Net (reziduális kapcsolatokat használva egyszerű konvolúciók helyett) a paramétereket ~7,8 millióra csökkentik, miközben 68,47%-os átlagos IoU-t érnek el a repedés adathalmazokon. Az EGA-UNet tovább csökkenti ~2,3 millió paraméterre, miközben a Dice-t 73,1%-ra javítja ghost konvolúciók és Fourier-alapú token-keverés révén.

Az U-Net skip kapcsolatai építészetileg elengedhetetlenek a repedésfelismeréshez. Nélkülük a vékony repedések (1-5 pixel széles) teljesen elvesznének a 4×-es mintavételezés során (32×-es redukció a szűk keresztmetszetnél) – egy 3 pixel széles repedés a bemeneten szubpixel-jellemzővé válik a szűk keresztmetszetben, amelyet a felskálázás önmagában nem tud helyreállítani. A skip kapcsolatok teljesen megkerülik ezt az információs szűk keresztmetszetet, biztosítva a dekódoló számára a repedés teljes felbontású geometriáját a kódolóból.

DeepLabV3+

A DeepLabV3+-t, amelyet Chen és munkatársai fejlesztettek ki a Google-nél 2018-ban, a repedésfelismerést atrousz (dilatált) konvolúciók és az Atrous Spatial Pyramid Pooling (ASPP) modul segítségével kezeli. Ellentétben az U-Net-tel, amely agresszíven mintavételez és skip kapcsolatokon keresztül állít helyre, a DeepLab nagyobb felbontású jellemzőtérképeket tart fenn a gerincben dilatált konvolúciók használatával, amelyek kiterjesztik a receptív mezőt anélkül, hogy csökkentenék a térbeli méreteket.

A gerinc jellemzően ResNet-101 (101 réteg, ~42,6 millió paraméter) vagy Xception-65 (~54,7 millió paraméter). A szabványos konvolúciókat a gerincben atrousz konvolúciók váltják fel – 3×3-as magok dilatációs rátákkal (lyukakkal) a mag elemek között. Egy 3×3-as mag r=2 dilatációs rátával egy 5×5-ös receptív mezőt fed le; r=4 esetén 9×9-et; r=8 esetén 17×17-et; és r=16 esetén 33×33-at – mindegyik azonos paraméterszámmal (9 súly), mint egy szabványos 3×3-as konvolúció. Ez a tulajdonság kritikus a repedésfelismeréshez: lehetővé teszi a modell számára, hogy nagyobb kontextust lásson az egyes pixelek körül (megkülönböztetve a repedéseket a felületi textúrától) anélkül a felbontásvesztés nélkül, amely a mintavételezésből származna.

Az ASPP modul négy párhuzamos atrousz konvolúciós ágat alkalmaz r=6, 12, 18 és 24 dilatációs rátákkal (kimeneti lépésköz=16 esetén), mindegyik 256 szűrővel és 3×3-as maggal. Egy további 1×1-es konvolúciós ág és egy képszintű pooling ág (globális átlagpooling → 1×1 konvolúció → bilineáris felskálázás) egészíti ki a modult. Mind az öt ág 256 csatornás jellemzőtérképeket hoz létre, amelyek összefűzésre kerülnek és egy újabb 1×1-es konvolúción mennek keresztül. Az ASPP modul többléptékű képessége különösen fontos a szélességükben jelentősen eltérő repedéseknél – egy hajszálrepedés (<1 mm) és egy széles repedés (>6 mm) eltérő receptív mező méreteket igényel az optimális észleléshez.

A DeepLabV3+ dekódolója könnyű súlyú az U-Net teljes dekódolójához képest: bilineáris felskálázás 4×-esen, összefűzés alacsony szintű jellemzőkkel egy korai gerincrétegből (48 csatornára redukálva 1×1 konvolúcióval), két 3×3-as konvolúció (256 szűrő), és végső bilineáris felskálázás 4×-esen az eredeti felbontásra. A kimeneti lépésköz jellemzően 16 (bemeneti felbontás osztva 16-tal a szűk keresztmetszetben), néha 8 a sűrűbb jellemzőtérképekhez a 2×-es memóriahasználat árán.

A DeepLabV3+ körülbelül 78,5%-os mIoU-t ér el a repedés adathalmazokon. Az EGA-UNet tanulmány (2025) azonban arról számolt be, hogy a DeepLabV3+ alulteljesít a könnyű súlyú architektúrákhoz, mint az EGA-UNet (73,1% Dice vs. alacsonyabb a DeepLabV3+ esetében) képest a repedéshatárokon jelentkező elégtelen finom részletmegőrzés miatt. Az ASPP modul dilatációi, bár hatékonyak a többléptékű kontextushoz, elmossák azokat a finom térbeli részleteket, amelyek elengedhetetlenek a pontos repedésszélesség-méréshez.

Víziótranszformátorok (ViT)

A víziótranszformátorokat (ViT) , amelyeket Dosovitskiy és munkatársai mutattak be a Google-nél 2020-ban, a Transformer önfigyelem architektúrát – amelyet eredetileg természetes nyelvi feldolgozásra fejlesztettek ki – alkalmazzák képfeldolgozásra. A ViT egy bemeneti képet nem átfedő, P×P méretű (jellemzően 16×16 pixel) foltokra oszt, minden foltot vektorosít, és a foltbeágyazások sorozatát szabványos Transformer kódoló rétegeken keresztül dolgozza fel többszörös fejű önfigyelemmel.

Egy 224×224-es bemenetnél 16×16-os foltokkal a ViT (224/16)² = 196 foltbeágyazást hoz létre. Minden 16×16×3 (RGB) méretű folt egy 768-dimenziós vektorba van laposítva és lineárisan a D beágyazási dimenzióba vetítve. A Transformer kódoló L egymásra épülő rétegből áll. A ViT-Base L=12, D=768 és 12 figyelmi fejet használ (86M paraméter). A ViT-Large L=24, D=1024 és 16 fejet használ (307M paraméter). A ViT-Huge L=32, D=1280 és 16 fejet használ (632M paraméter). Az önfigyelem komplexitása O(n²·D), ahol n a foltok száma – 196 folt D=768-cal körülbelül 28 millió műveletet igényel fejenként és rétegenként.

Repedésszegmentációhoz a ViT-t hibrid kódoló-dekódoló architektúrákban használják gerincként. A TransUNet az U-Net kódolót egy ViT-re cseréli, kombinálva a Transformer globális kontextusát egy CNN dekódolóval a finom részletek helyreállításához. A SwinUNet hierarchikus Swin Transformatort használ eltolt ablakokkal az O(n²) számítási költség csökkentésére. A SETR (SEgmentation TRansformer) közvetlenül ViT-t alkalmaz kódolóként progresszív felskálázással.

A ViT előnye a repedésfelismerésben a globális receptív mezőben rejlik. A CNN-ek lokálisan dolgozzák fel az információt, sok rétegre van szükségük az információ nagy térbeli távolságokon történő továbbításához. A ViT önfigyelem mechanizmusa minden foltot minden másik folttal összeköt egyetlen rétegben, lehetővé téve hosszú, folyamatos repedések észlelését, amelyek több száz vagy ezer pixelen át húzódnak – például fáradásos repedések, amelyek egy teljes futópályán át kanyarognak. A hibrid ViT-CNN modellek 74-78%-os IoU-t érnek el repedés adathalmazokon, a TransUNet különösen erős az alligátor (összekapcsolódó) repedésmintázatokban.

A kritikus korlát a számítási költség. Egy 512×512-es kép 16×16-os foltokra osztva (512/16)² = 1024 foltot hoz létre, ami rétegenként 1024² ≈ 1 millió figyelemszámítást igényel – egy nagyságrenddel többet, mint a 196 folt a 224×224-es bemeneteknél. Ez a teljes ViT telepítését élvonalbeli eszközökön (drónok, mobil ellenőrző járművek) nem praktikussá teszi jelentős tömörítés vagy nyírás nélkül.

DINOv3

A DINOv3, amelyet a Meta AI adott ki 2025-ben, a legmodernebb önfelügyelt víziótranszformátorokat képviseli. Ez a DINO (DIstillation with NO labels) család harmadik generációja, példátlan léptékben betanítva: akár 7 milliárd paraméterrel 1,7 milliárd címkézetlen képen. A DINOv3 tanár-tanuló keretrendszert használ, ahol a tanuló megtanulja megfeleltetni a tanár kimeneti reprezentációit emberi címkézett adatok nélkül.

A DINOv3 kulcsfontosságú építészeti újítása a Gram Horgonyzás (Gram Anchoring) – egy regularizációs technika, amelyet körülbelül 1 millió képzési iteráció után alkalmaznak, stabilizálva a sűrű (folt-szintű) jellemzőreprezentációkat. A tanuló modell Gram-mátrixa (páronkénti folt-hasonlóság, N×N méretekkel, ahol N a foltok száma) közel van tartva egy fagyasztott “Gram tanár” másolathoz. Ez megakadályozza a sűrű jellemző összeomlást, egy olyan meghibásodási módot az önfelügyelt tanulásban, ahol különböző képfoltok hasonló beágyazásokba konvergálnak annak ellenére, hogy szemantikailag különbözőek. A korábbi DINO változatok (v1 és v2) szenvedtek ettől az összeomlástól hosszabb képzés során; a Gram Horgonyzás stabil képzést tesz lehetővé milliárdnyi képen keresztül.

A repedésfelismerés szempontjából a DINOv3 jelentősége a fagyasztott gerinc paradigmában rejlik. Az előre betanított ViT gerinc (ViT-Small 21M paramétertől ViT-Huge 632M-ig és a zászlóshajó 7B modellig terjedő méretekben elérhető) fagyasztva van és univerzális vizuális kódolóként használható. Könnyű súlyú feladatspecifikus fejek – lineáris próbák, MLP adapterek vagy kis konvolúciós fejek – kerülnek betanításra a tetején anélkül, hogy a gerincen keresztül visszaterjesztenének. Ez lehetővé teszi:

Kevés példás repedésfelismerést: Egy lineáris próba, amelyet akár csak 50 címkézett repedésképen tanítanak, a teljesen felügyelt, 500+ képen tanított CNN-nel összehasonlítható szegmentációs pontosságot ér el.
Tartományok közötti átvitelt: A természetes képekből (ImageNet-szintű adatok) tanult jellemzők átvihetők burkolati repedésképekre tartományspecifikus előképzés nélkül.
Többfeladatos telepítést: Egyetlen fagyasztott gerinc szolgálja ki a repedésfelismerést, kátyúérzékelést, hézagtömítés-értékelést és burkolati jelzések felmérését egyidejűleg különböző könnyű súlyú fejeken keresztül.

A DINOv3 folt-szintű jellemzői (a globális képbeágyazásokkal szemben) megőrzik a vékony repedések körvonalazásához szükséges finom szemcséjű térbeli információt. A ViT-Base változat (86M paraméter, 12 réteg, 768 beágyazási dimenzió) biztosítja a legjobb pontosság-számítási teljesítmény arányt infrastruktúra-ellenőrzési alkalmazásokhoz. A DINOv3 különösen ígéretes futópálya-ellenőrzési programokhoz, ahol kevés a címkézett repedésadat – ez gyakori forgatókönyv kisebb repülőtereken, amelyek nem rendelkeznek kiterjedt burkolatgazdálkodási előzményekkel.

CrackNet

A CrackNet-et, amelyet Zhang és munkatársai fejlesztettek ki 2017-ben a Dél-Floridai Egyetemen, az egyik első mély CNN architektúra volt, amelyet kifejezetten és kizárólag automatizált burkolati repedésfelismerésre terveztek. Az általános célú architektúrákkal (U-Net, DeepLab) ellentétben, amelyeket biomedikai vagy természetes képszegmentációból adaptáltak, a CrackNetet a burkolati repedésmorfológiára építették a semmiből.

Az eredeti CrackNet architektúra 6 konvolúciós rétegből áll, teljesen kapcsolt tetejjel: Conv1 (5×5, lépésköz=1, 64 szűrő) → Conv2 (5×5, lépésköz=1, 64 szűrő) → MaxPool (2×2) → Conv3 (3×3, lépésköz=1, 128 szűrő) → Conv4 (3×3, lépésköz=1, 128 szűrő) → MaxPool (2×2) → Conv5 (5×5, lépésköz=1, 256 szűrő) → Conv6 (3×3, lépésköz=1, 256 szűrő) → Teljesen Kapcsolt (2048 egység) → Softmax kimenet (2 osztály: repedés vagy nem repedés). A teljes paraméterszám ~1,4 millió – körülbelül 22× kisebb, mint az U-Net (31M) és 35× kisebb, mint a DeepLabV3+ (42-55M).

A CrackNet fix méretű 64×64 pixeles foltokon működik, nem teljes képeken. A képzési adathalmaz 640 000, 1800 burkolati képből kinyert foltot tartalmazott (160 000 validációhoz, 180 000 teszteléshez). Minden foltot annak alapján osztályoznak, hogy a középső pixel repedést tartalmaz-e vagy sem – ez egy folt-alapú osztályozási megközelítés, nem pixelszintű szegmentáció. A modern változatok (CrackNet-V, CrackNet-II, CrackNet-R) a folt osztályozót teljesen konvolúciós hálózatokra cserélték a sűrű pixelszintű előrejelzéshez.

A CrackNet-V (a 2020-as javított változat) hozzáadta a Generatív Ellenálló Hálózaton (GAN) alapuló képzést. A generátor repedés-szegmentációs térképeket hoz létre a bemeneti képekből, és egy diszkriminátor hálózat megkülönbözteti a generált térképeket a valóságfeltáró annotációktól. Ez az ellenálló képzési rendszer az F1-pontszámot 0,87-re javította a CFD adathalmazon. A CrackNet-V többléptékű jellemzőfúziót is bevezetett inception-stílusú modulokkal, lehetővé téve a különböző szélességű repedések észlelését.

A CrackNet jelentősége az építészeti hatékonyságban rejlik az élvonalbeli telepítéshez. 1,4M paraméterrel és 5 ms/folt sebességgel demonstrálta, hogy a repedés-specifikus architektúra-tervezés gyártási szintű pontosságot érhet el a 2017-ben elérhető hardveren – egyetlen NVIDIA Tesla K80 GPU kevesebb mint 2 másodperc alatt tudott feldolgozni egy teljes burkolati képet (foltokból összeállítva). Ez megalapozta a valós idejű automatizált repedésfelismerés megvalósíthatóságát autópálya-sebességű felmérő járművek számára.

EGA-UNet (2025)

Az EGA-UNet, amelyet Yang és munkatársai publikáltak a Scientific Reports folyóiratban (15. kötet, 33818. cikk, 2025), a jelenlegi legmodernebb hatékony repedésszegmentációt képviseli. Az architektúra 73,1%-os Dice-együtthatót ér el mindössze ~2,3 millió paraméterrel – körülbelül 13× kisebb, mint a szabványos U-Net, miközben +3,1%-kal jobb Dice-t ér el az U-Net-hez, +11,9%-kal a SegNet-hez és +44,9%-kal a PSPNet-hez képest benchmark repedés adathalmazokon.

Három építészeti újítás különbözteti meg az EGA-UNet-et:

EG-Block (Efficient Ghost Sparse Convolution Block): Ez az építőelem “ghost” konvolúciót használ – egy technikát, amely kis számú belső jellemzőtérképet hoz létre szabványos konvolúcióval, majd olcsóbb lineáris műveleteket (3×3 mélységi konvolúciók) alkalmaz további “ghost” jellemzőtérképek előállításához. Egy kívánt C csatornás kimenethez a ghost konvolúció körülbelül C/2-t generál szabványos konv-val és C/2-t lineáris műveletekkel, csökkentve a számítást körülbelül 50%-kal a szabványos konvolúcióhoz képest azonos kimeneti csatornák mellett. Az EG-Block egy Efficient Multi-scale Attention (EMA) modult is tartalmaz, amely több térbeli léptékben súlyozza a jellemzőket.

A-RepViT Block: Ez a szabványos Vision Transformer token-keverőt Adaptive Fourier Filtering (AFF) -ra cseréli. A bemeneti jellemzőtérkép a frekvenciatartományba kerül Fast Fourier Transzform (FFT) útján, a frekvenciakomponensek adaptív szűrésre kerülnek (aluláteresztő, felüláteresztő vagy sáváteresztő a tanult súlyoktól függően), és az inverz FFT rekonstruálja a térbeli jellemzőtérképet. Az AFF O(n log n) komplexitással rögzíti a globális kontextust szemben az O(n²)-vel az önfigyelem esetében – egy 32×32-es jellemzőtérképnél (1024 elem) ez a számítást ~1M műveletről ~10K műveletre csökkenti rétegenként.

SPPF (Spatial Pyramid Pooling Fast): A legmélyebb kódoló rétegben alkalmazva az SPPF többléptékű jellemzőket aggregál három szekvenciális max-pooling művelet segítségével, változó magméretekkel (5×5, 9×9, 13×13 effektív receptív mezők), amelyek egy egységes többléptékű reprezentációba kerülnek összefűzésre. Ez számításilag hatékonyabb a párhuzamos ASPP-hez képest (amelyet a DeepLab-ban használnak), mivel a szekvenciális pooling újra felhasználja a köztes eredményeket.

Az EGA-UNet következtetési sebessége elegendő a valós idejű élvonalbeli telepítéshez. Egy NVIDIA Jetson Orin Nano Super-en a modell körülbelül 45-55 FPS-t ér el FP16 pontossággal 512×512-es bemeneteken, ami alkalmassá teszi drón-alapú vagy járműre szerelt valós idejű repedésfelismerésre. A könnyű súlyú kialakítás lehetővé teszi a telepítést dedikált GPU nélküli platformokon – 8-12 FPS-es következtetést mutattak ki egy Raspberry Pi 5-ön Hailo-8L NPU gyorsítóval (13 TOPS).

Architektúra-összehasonlítás

Architektúra	Paraméterek	Tervezési elv	Kulcsinnováció	Repedés Dice/IoU	Élvonalbeli telepíthető
U-Net (2015)	~31M	Kódoló-dekódoló, skip kapcsolatok	Térbeli részletek megőrzése	65-68% IoU	Kvantálással
ResU-Net	~7,8M	Reziduális skip kapcsolatok	Gradiens áramlás javítása	68,5% IoU	Igen
DeepLabV3+ (2018)	~42-55M	Atrous konvolúció, ASPP	Többléptékű kontextus	~75% IoU	Nem
ViT-Base (2020)	86M	Önfigyelem foltokon	Globális receptív mező	74-78% IoU	Nem
DINOv3 (2025)	21M-7B	Önfelügyelt, fagyasztott gerinc	Kevés példás átvitel	Összehasonlítható felügyelttel	Adapter fejjel
CrackNet (2017)	~1,4M	Folt-alapú CNN	Burkolat-specifikus tervezés	~87% F1 (folt)	Igen
EGA-UNet (2025)	~2,3M	Ghost konv + AFF token-keverés	Könnyű súlyú + globális kontextus	73,1% Dice	Igen

Képzési adathalmazok repedésfelismeréshez

A repedésfelismerő modellek betanításához pixelszintű annotált adathalmazok szükségesek, ahol minden képhez tartozik egy bináris maszk, amely minden pixelt repedésként (fehér, 1-es érték) vagy nem repedésként (fekete, 0-s érték) címkéz meg. Az annotációs folyamat munkaigényes – egyetlen 2000×1500 pixeles kép 15-45 perc szakértői manuális címkézést igényel vonalrajzoló eszközök használatával, majd morfológiai tágítást a teljes szélességű repedésmaszkok előállításához. A következő adathalmazok alkotják a standard benchmarkokat az akadémiai kutatás és modellfejlesztés számára.

Crack500

A Crack500, amelyet Yang és munkatársai publikáltak 2020-ban, 500 RGB képet tartalmaz 2000×1500 pixel felbontásban (3 megapixel/kép). A képeket mobiltelefon-kamerákkal rögzítették burkolati felületeken a philadelphiai Temple University környékén, USA-ban. Minden képhez tartozik egy pixelszintű bináris szegmentációs maszk, amelyet manuálisan annotáltak vonalrajzoló eszközökkel. A kutatók általában az 500 képet körülbelül 1896 nem átfedő 512×512-es foltra osztják fel a modellképzéshez. A szabványos felosztás 350 képet allokál képzésre, 50-et validációra és 100-at tesztelésre. A repedéspixelek a képenkénti összes pixel körülbelül 2-5%-át teszik ki. A repedésszélességek 0,1 mm-től 5 mm-ig terjednek, és a képek többféle megvilágítási körülményt (napos, borult, árnyékos) tartalmaznak. A repedéstípusok közé tartoznak a hosszirányú, keresztirányú és alligátor mintázatok.

DeepCrack

A DeepCrack, amelyet Liu és munkatársai publikáltak a Neurocomputing folyóiratban (2019), 537 RGB képet tartalmaz 544×384 pixel felbontásban. A képeket különböző beton- és aszfaltfelületekről – hidak, utak, alagutak és épületfalak – rögzítették, biztosítva a több helyszínre kiterjedő lefedettséget, ami ritka az egyforrású burkolati adathalmazokban. Minden képhez pixelszintű bináris annotációk tartoznak PNG maszkként. Az adathalmaz előre fel van osztva körülbelül 300 képzési és 237 tesztképre. A DeepCrack-ot kifejezetten a repedésfelismeréshez adaptált Holistically-Nested Edge Detection (HED) architektúra értékelésére hozták létre. Az adathalmaz kihívást jelentő körülményeket tartalmaz: alacsony kontraszt a repedések és a háttér között, vékony repedések (1-3 pixel széles) és texturált felületű hátterek. A repedéseket szélesség szerint kategorizálják, nem szerkezeti típus szerint.

CrackForest Dataset (CFD)

A CFD, amelyet Shi és munkatársai publikáltak az IEEE Transactions on Intelligent Transportation Systems folyóiratban (2016), 118 képet tartalmaz 480×320 pixel felbontásban. A képeket iPhone 5-tel rögzítették Peking városi útjain, Kínában. Minden képhez pixelszintű manuális valóságfeltáró maszkok tartoznak, plusz egy “seg” mappa szuperpixel-alapú szegmentációkkal. Az adathalmazt az általános városi útfelületi körülmények tükrözésére tervezték, és zajtényezőket tartalmaz: árnyékok fákról és épületekről, olajfoltok, víztócsák és levéltakarás. A repedéspixelek az egyes képek körülbelül 4-8%-át teszik ki. Az alacsony 480×320-as felbontás kihívást jelent a vékony repedések észlelésében – a repedések akár 1-2 pixel szélesek is lehetnek. A CFD csak nem kereskedelmi kutatási célokra engedélyezett, idézési követelménnyel. Elsődleges korlátai a kis méret (118 kép), az egyetlen földrajzi terület és az egyetlen kamera.

GAPs384

A GAPs384 (German Asphalt Pavement Distress dataset) , a németországi Ilmenau Műszaki Egyetemről, 1969 képet tartalmaz 1920×1080 pixel felbontásban (Full HD). Ez a legnagyobb egyforrású nyilvános repedés adathalmaz képszám szerint. A képek szürkeárnyalatosak (nem RGB), ami csökkenti a fájlméretet, de kiküszöböli a repedések megkülönböztetését segítő színinformációt. Az annotációk tartalmazzák a repedéstípus osztályozást (hosszirányú, keresztirányú, alligátor) a pixelszintű repedésmaszkok mellett. A nagy felbontás és a konzisztens rögzítési körülmények (német autópálya-hálózat) értékessé teszik a GAPs384-et az európai burkolati viszonyokra szánt modellek betanításához. Az adathalmaz a repedéssúlyosságok szélesebb skáláját tartalmazza, mint a CFD vagy a Crack500.

NHA12D

Az NHA12D, amelyet Huang és munkatársai publikáltak (2022), 80 burkolati képet tartalmaz, amelyeket az UK A12 autópálya-hálózatról gyűjtött a National Highways (korábban Highways England). Az adathalmaz egyedülállóan 40 beton burkolati képet és 40 aszfalt burkolati képet tartalmaz, amelyeket azonos felmérési körülmények között rögzítettek digitális felmérő járművekkel. Ez a kettős felületű összetétel teszi az NHA12D-t értékessé a tartományok közötti általánosítás értékeléséhez – a modell azon képességéhez, hogy mindkét felülettípuson észlelje a repedéseket romlás nélkül. Pixelszintű valóságfeltáró annotációk tartoznak hozzá. A kis méret (80 kép) az NHA12D-t elsősorban benchmark adathalmazzá teszi, nem pedig képzési erőforrássá.

Adathalmaz	Képek	Felbontás	Repedés%/kép	Forrás	Év
Crack500	500	2000×1500	2-5%	Philadelphia utak	2020
DeepCrack	537	544×384	változó	Több helyszín	2019
CFD	118	480×320	4-8%	Peking utak	2016
GAPs384	1969	1920×1080	változó	Német autópályák	2020
NHA12D	80	Nagy felbontás	változó	UK A12 autópálya	2022
CrackTree200	206	800×600	változó	Burkolat (kihívást jelentő)	2012

Osztályegyensúlytalanság és veszteségfüggvények

Minden repedés adathalmaz súlyos osztályegyensúlytalanságot mutat: a repedéspixelek a teljes pixelek 2-8%-át teszik ki, ami azt jelenti, hogy a modelleknek átlagosan 500-2000 repedéspixelből kell tanulniuk 25 000 teljes pixeles képenként (480×320 CFD felbontás). A standard keresztentrópia veszteség hatástalan – egy modell minimalizálja a veszteséget azzal, hogy “hátteret” jósol minden pixelre. Speciális veszteségfüggvények kezelik ezt:

Fókuszveszteség (Focal Loss) (Lin és munkatársai, 2017) egy moduláló tényezőt (1 − p_t)^γ alkalmaz a keresztentrópia veszteségre, ahol p_t a modell által a valóságfeltáró osztályra előre jelzett valószínűség, és γ egy fókuszáló paraméter (jellemzően 2,0). Ez csökkenti a jól osztályozott példák (p_t → 1,0) súlyát és növeli a nehéz, rosszul osztályozott példák (p_t → 0,0) súlyát. Repedésfelismerésnél γ=2,0 mellett a fókuszveszteség körülbelül 4×-esen csökkenti a könnyű háttérpixelek hozzájárulását a keresztentrópiához képest.

Dice-veszteség (Dice Loss) (Milletari és munkatársai, 2016) = 1 − Dice-együttható = 1 − (2TP + ε)/(2TP + FP + FN + ε). Ez közvetlenül optimalizálja a kiértékelési metrikát. A Dice-veszteség kevésbé érzékeny az osztályegyensúlytalanságra, mint a keresztentrópia, mivel az átfedést méri a pixelenkénti pontosság helyett. Ez a standard veszteségfüggvény az U-Net-alapú repedésszegmentációhoz.

Tversky-veszteség (Tversky Loss) (Salehi és munkatársai, 2017) általánosítja a Dice-veszteséget a hamis pozitívok és hamis negatívok eltérő súlyozásával: Tversky index = TP/(TP + α·FP + β·FN). Biztonság szempontjából kritikus repedésfelismerésnél, ahol a hamis negatívok (nem észlelt repedések) veszélyesebbek, mint a hamis pozitívok (téves riasztások), az α=0,3 és β=0,7 beállítás erősebben bünteti az FN-t, mint az FP-t.

SupContrast (Felügyelt Kontrasztív Veszteség) , amely a DINOv3-alapú megközelítésekhez kapcsolódik, összehúzza a repedéspixelek foltbeágyazásait a beágyazási térben, miközben eltávolítja őket a háttérpixel-beágyazásoktól. Ez egy jól strukturált beágyazási teret hoz létre, ahol a repedéspixelek szoros klasztereket alkotnak, amelyek lineárisan elkülöníthetők a háttér klaszterektől.

Repedésosztályozás vs. szegmentáció

Az AI-alapú repedésfelismerési megközelítések két módszertani kategóriába sorolhatók: osztályozás-alapú és szegmentáció-alapú, mindegyik eltérő kimenetekkel, metrikákkal és felhasználási esetekkel.

A repedésosztályozás meghatározza, hogy egy képrégió (képfolt, csempe vagy teljes kép) tartalmaz-e repedést. A kimenet egy bináris címke (repedés jelen / repedés hiányzik) vagy egy többosztályos címke (repedéstípus: hosszirányú, keresztirányú, alligátor). Az osztályozó modellek jellemzően könnyű súlyú CNN-ek (CrackNet 1,4M paraméterrel, MobileNetV2 3,5M paraméterrel), amelyeket foltszintű adathalmazokon tanítanak. A kimenet megadja a repedés jelenlétének valószínűségét és helyét (melyik folt tartalmaz repedést), de nem adja meg a repedés geometriáját – szélességet, hosszúságot, irányultságot vagy topológiát. Az osztályozás alkalmas gyors szűrővizsgálatokra, ahol a cél a repedések helyeinek azonosítása a nyomonkövetési ellenőrzéshez, nem az egyes repedések mérése. Az értékelés pontosságot, precizitást, visszahívást és F1-et használ a folt vagy kép szintjén.

A repedésszegmentáció (szemantikus szegmentáció) minden egyes pixelt egyénileg repedésként vagy nem repedésként osztályoz. A kimenet egy bináris maszk a bemeneti képpel azonos felbontásban, ahol minden pixelnek van egy repedésvalószínűsége. Ez teljes repedésgeometriát biztosít – szélességet a repedés minden pontján, teljes hosszúságot, irányszöget, elágazási topológiát és repedésterületet. A szegmentáció szükséges a mennyiségi burkolatállapot-értékeléshez (PCI számítás, repedésszélesség súlyossági besorolása ICAO szabványok szerint). Az értékelés pixelszintű metrikákat használ: IoU, Dice, precizitás, visszahívás és boundary F1. A szegmentációs modellek számításilag nehezebbek (U-Net 31M paraméterrel, DeepLabV3+ 42-55M paraméterrel), de lényegesen gazdagabb kimenetet biztosítanak.

Egyes rendszerek példányszegmentációt (instance segmentation) használnak (minden egyes repedést külön objektumként észlelve), amely megkülönbözteti az egymással nem összefüggő repedéseket. Ez releváns a repedésszámláláshoz (repedések száma egységnyi területen) és a repedéssűrűség-térképezéshez. A Mask R-CNN és a YOLOv8-seg gyakori példányszegmentációs architektúrák a repedésfelismeréshez.

Kiértékelési metrikák

Intersection over Union (IoU)

Az IoU (Jaccard Index) a repedés-előrejelzés és a valóságfeltárás közötti átfedést méri, osztva a kettő uniójával. Ez a legszélesebb körben jelentett metrika a repedésszegmentációhoz:

IoU = TP / (TP + FP + FN)

Az értékek 0-tól (nincs átfedés) 1-ig (tökéletes átfedés) terjednek. A jellemző IoU a repedésfelismerő modelleknél 0,55 és 0,75 között van. Az IoU érzékenyebb a hamis pozitívokra és hamis negatívokra, mint a Dice, mert az unió nevezője nagyobb, mint az egyedi összegek. Egy modell, amely egy 100 pixeles valóságfeltáró repedést 60 helyes pixellel jósol (TP=60, FP=20, FN=40), IoU = 60/(60+20+40) = 0,50 értéket ér el. A szigorúbb unió nevező miatt az IoU mindig alacsonyabb vagy egyenlő, mint a Dice ugyanazon előrejelzésnél.

Dice-együttható (F1-pontszám)

A Dice (más néven F1-pontszám bináris szegmentációhoz) a precizitás és a visszahívás harmonikus közepe:

Dice = 2 × TP / (2 × TP + FP + FN)

A Dice kapcsolata az IoU-val: Dice = 2·IoU / (1 + IoU). A fenti példában (IoU=0,50) Dice = 2×0,50/1,50 = 0,67. A jellemző Dice a repedésfelismeréshez 0,65 és 0,80 között van. Az EGA-UNet cikk (2025) Dice = 73,1%-ot jelent elsődleges metrikájaként. A Dice optimistább értékelést ad a szegmentációs minőségről, mint az IoU, és a kettő közötti különbség növekszik a minőség csökkenésével – egy alacsony minőségű előrejelzés IoU=0,25-tel Dice=0,40-et eredményez.

Precizitás és visszahívás

Precizitás (Pozitív Prediktív Érték) = TP/(TP+FP). A téves riasztási arányt méri: az összes repedésként címkézett pixel hányada valóban repedés? A magas precizitás (>0,85) kevés hamis pozitívot jelent. Fontos, amikor a repedésfelismerés költséges nyomon követési intézkedéseket indít el (pl. tömítő csapatok kiküldése a megjelölt helyek ellenőrzésére).

Visszahívás (Érzékenység, Valódi Pozitív Arány) = TP/(TP+FN). A nem észlelt repedések arányát méri: az összes valódi repedéspixel hányadát észlelte a modell? A magas visszahívás (>0,85) kevés nem észlelt repedést jelent. Biztonság szempontjából kritikus infrastruktúránál (futópálya-ellenőrzés kereskedelmi repülőtereken) a visszahívás előnyt élvez a precizitással szemben – egy téves riasztás kivizsgálása kevésbé súlyos következményekkel jár, mint egy valódi repedés figyelmen kívül hagyása, amely szerkezeti meghibásodáshoz vezethet a repülőgép terhelése alatt.

Átlagos átlagpontosság (mAP)

Az mAP a precizitást értékeli a különböző visszahívási küszöbértékek között, jellemzően 0,50-es IoU küszöbnél (mAP@50) és 0,50-től 0,95-ig 0,05-ös lépésekben (mAP@50:95). Repedésfelismerésnél objektumdetekciós feladatként (határolókeretek) az mAP azt méri, hogy a modell mennyire jól lokalizálja a repedés régiókat. Egy 2025-ös Közép-Floridai Egyetemi tanulmány, amely a Grounding DINO-t használta termikus repedésfelismerésre, 70%-os mAP@[0,5:0,95] értéket ért el. Pixelszintű szegmentációs feladatokhoz az IoU és a Dice előnyösebb, mint az mAP, mivel a repedések nem téglalap alakú struktúrák, és a határolókeret metrikák rosszul reprezentálják a szegmentációs minőséget.

Metrika-összehasonlítás

Metrika	Képlet	Tartomány	Jellemző repedésérték	Felhasználási eset
IoU	TP/(TP+FP+FN)	0–1	0,55–0,75	Szegmentációs minőség (szigorú)
Dice	2TP/(2TP+FP+FN)	0–1	0,65–0,80	Szegmentációs minőség (megengedő)
Precizitás	TP/(TP+FP)	0–1	0,80–0,95	Téves riasztás ellenőrzés
Visszahívás	TP/(TP+FN)	0–1	0,80–0,95	Biztonság-kritikus észlelés
F1	2PR/(P+R)	0–1	0,80–0,92	Összesség
mAP@50	Átl. precizitás IoU≥0,5-nél	0–1	0,70–0,85	Objektumdetekció
Pixelpontosság	(TP+TN)/(TP+TN+FP+FN)	0–1	>0,95 (félrevezető)	Nem ajánlott repedésekre

Repedésszélesség és -hosszmérés szegmentációból

Az AI modell bináris szegmentációs maszk kimenete megadja a repedés helyét és alakját, de az infrastruktúra-ellenőrzési szabványok fizikai repedésméreteket igényelnek – szélességet milliméterben, hosszúságot méterben és területet négyzetmilliméterben. A pixelszintű maszkok mérnöki mérésekké alakítása számítási geometriai csővezetéket igényel.

Skeletonizáció

A skeletonizáció (vékonyítás) a repedés régiót egyetlen pixel széles középvonalra redukálja, amely megőrzi a repedés topológiáját (kapcsolódás, elágazás, végpontok). A Zhang-Suen vékonyítási algoritmus (1984) a standard módszer:

Bemenet: Bináris repedésmaszk (fehér=repedés, fekete=háttér)
Iteratív kétmenetes eljárás:
- 1. menet: Határpixelek megjelölése törlésre, ha: (a) 2 ≤ N(P1) ≤ 6 (nem nulla 8-szomszédok száma); (b) S(P1) = 1 (0→1 átmenetek száma a 8-szomszéd ciklusban); (c) P2×P4×P6 = 0; (d) P4×P6×P8 = 0
- 2. menet: Ugyanazok a feltételek (c’) P2×P4×P8 = 0; (d’) P2×P6×P8 = 0
- Ismétlés, amíg egy iterációban nem változik pixel
Kimenet: Középvonal skeleton, pontosan 1 pixel széles

A Mediális Tengely Transzformáció (MAT) egy alternatív módszer a távolságtranszformációt használva: minden belső repedéspixelre számítsa ki a minimális euklideszi távolságot a repedés határáig. A skeleton azokból a pixelekből áll, amelyek lokális maximumok ebben a távolságtérképben. A MAT simább skeletonokat hoz létre vastag, szabálytalan repedésekhez, de O(n²) számítást igényel szemben a Zhang-Suen vékonyítás O(n)-ével.

Távolságtranszformáció szélességméréshez

Az Euklideszi Távolság Transzformáció (EDT) kiszámítja a minimális euklideszi távolságot minden skeleton pixelből (x,y) a legközelebbi repedés határ pixelhez:

D(x,y) = min_(i,j)∈∂C √((x−i)² + (y−j)²)

ahol ∂C a repedés régió határpixeleinek halmaza. A repedés szélessége az (x,y) pontban = 2 × D(x,y), mivel a középvonaltól a határig mért távolság a teljes repedésszélesség fele.

A távolságtranszformáció hatékonyan számítható:

Fast Marching módszer: O(n log n) pontos euklideszi távolsághoz
Danielsson algoritmusa: O(n) 4-kapcsolt távolság közelítéshez
OpenCV cv2.distanceTransform(): O(n) kétszeres raszter letapogatás, <1%-os hibájú közelítő euklideszi távolságot előállítva

Szélességi statisztikák a pixelenkénti szélességi tömbből származtatva:

Átlagos repedésszélesség: átlag az összes skeleton pixelre – általános repedéssúlyossági besoroláshoz
Maximális repedésszélesség: legnagyobb egyedi szélességérték – legrosszabb eset súlyossági értékeléshez
Szélességi hisztogram: szélességek eloszlása a repedés hossza mentén – repedés egyenletességét jelzi

Repedéshossz számítás

A repedés hossza a skeletonizált középvonalból mérhető:

1. módszer – Pixel számlálás kapcsolódási korrekcióval:

Teljes skeleton pixelek megszámlálása
Korrekció diagonális szomszédságra: minden 4-kapcsolt (merőleges) lépés = 1 pixel; minden diagonális lépés = √2 ≈ 1,414 pixel
Teljes hossz L = N₀ + √2 × N₁ (ahol N₀ = 4-kapcsolt lépések, N₁ = diagonális lépések)

2. módszer – Lánckód (Freeman-lánc):

A skeleton útvonal kódolása iránykódok sorozataként (0=Kelet, 1=Északkelet, 2=Észak, stb.)
Lépéshosszak összegzése: páros kódok (merőleges) = 1, páratlan kódok (diagonális) = √2

3. módszer – Euklideszi távolság rendezett pontok között:

Skeleton pixelek rendezése egy útvonalba gráfbejárással (szükséges elágazó repedéseknél, ahol több útvonal ágazik el a csomópontoktól)
Euklideszi távolságok összegzése egymást követő rendezett pontok között

Elágazó repedéseknél (pl. alligátor repedések kereszteződések közelében) a teljes repedéshossz az összes ágat tartalmazza. A skeleton-t egyedi ágakra kell bontani a csomópontoknál a hosszszámítás előtt.

Pixel-milliméter kalibráció

A szegmentációs maszkok a repedéseket pixelekben mérik; a mérnöki szabványok fizikai millimétereket igényelnek. Négy kalibrációs módszer használatos:

1. Ismert referenciaobjektum: Helyezzen egy ismert méretű objektumot (érme, vonalzó vagy kalibrációs célpont) a jelenetbe. Léptéktényező S = ismert_hossz_mm / mért_hossz_pixel. Pontosság: ±0,5-1%.

2. Lézer vetítés (Carrasco és munkatársai, 2021): Két párhuzamos lézersugár ismert távolságban (pl. 50 mm) a felületre vetítve. A lézerfoltok közötti pixel távolság megadja S = 50 mm / Δpixelt. Pontosság: ±0,02 mm.

3. Kamera geometria: mm_per_pixel = (2 × Z × tan(HFOV/2)) / Képszélesség, ahol Z = kamera-felület távolság (m), HFOV = vízszintes látómező (fok). Egy 10 m magasságban lévő drónnál 24 mm-es lencsével és 20 MP-es kamerával (5472×3648, 24 mm fókusztávolság APS-C érzékelőn 1,5× kivágási tényezővel, 36 mm effektív fókusztávolság, HFOV ≈ 51°): mm_per_pixel ≈ (2 × 10 000 × tan(25,5°)) / 5472 ≈ 1,8 mm/pixel.

4. Fix előkalibráció: Rögzített magasságú/lencsekonfigurációjú drónnál vagy felmérő járműnél előre kalibrálja S-t. 15 m magasságnál 20 MP-es kamerával és 35 mm-es lencsével S ≈ 0,5 mm/pixel.

Teljes mérési csővezeték

Bemeneti kép → Mélytanuló szegmentáció → Bináris repedésmaszk
Zhang-Suen vékonyítás → 1 pixeles repedés skeleton
Euklideszi távolságtranszformáció → Merőleges szélesség minden skeleton pontban
Skeleton bejárás lánckóddal → Teljes repedéshossz
Pixel-mm kalibráció → Fizikai repedésméretek (szélesség mm-ben, hossz m-ben, terület mm²-ben)
Súlyossági besorolás ICAO/FAA szerint: <1 mm (hajszálrepedés), 1-3 mm (keskeny), 3-6 mm (közepes), >6 mm (széles)

Általánosítás burkolattípusok és megvilágítás között

A modell általánosítása – a felismerési pontosság fenntartásának képessége olyan burkolattípusokon, megvilágítási körülményeken és kamerarendszereken, amelyeket nem látott a képzés során – kritikus kihívás a gyártási repedésfelismerésben. Egy kizárólag a Crack500-on (philadelphiai aszfalt) tanított modell 5-15%-os IoU-t veszíthet beton futópálya felületekre alkalmazva, és egy napos nappali képeken tanított modell 10-20%-os pontosságot veszíthet borult vagy nedves körülmények között.

Burkolatok közötti általánosítás

Az aszfalt és beton burkolatok alapvetően eltérő vizuális jellemzőket mutatnak a repedésfelismerés szempontjából. Az aszfalt sötét, egységes megjelenésű, alacsony albedóval (reflektancia 5-15%). A repedésélek aszfaltban jellemzően élesek és nagy kontrasztúak, mert az új repedésfelületek világosabb adalékanyagot tárnak fel. A beton magasabb albedóval (reflektancia 30-50%) és pettyezett felületi megjelenéssel rendelkezik a finom adalékanyag-eloszlás miatt. A betonrepedések gyakran alacsonyabb kontrasztúak, mert a repedésfelületek hasonlóan mállanak, mint a kitett felület. Az egyik felülettípuson tanított modell felület-specifikus textúra jellemzőket tanul meg (aszfalt egységes sötét háttere), amelyek hiányoznak vagy fordítottak a másik felületen (beton világosabb, texturált háttere).

Az NHA12D adathalmazt kifejezetten ennek a tartományok közötti kihívásnak az értékelésére tervezték – 40 beton és 40 aszfalt képet tartalmaz ugyanabból az UK autópálya-hálózatból. A publikált eredmények szerint a kizárólag aszfalt adathalmazokon (CFD, Crack500) tanított és NHA12D betonképeken tesztelt modellek 8-12%-os IoU-t veszítenek az azonos felületű értékeléshez képest. A domain-adaptációs technikák a következőkkel kezelik ezt:

Ellenálló domain-igazítás: Egy domain diszkriminátor hálózat megtanulja megkülönböztetni az aszfalt és beton forrástartományokat; a repedésfelismerő kódoló olyan jellemzőket tanul, amelyek becsapják a diszkriminátort, domain-invariáns reprezentációkat létrehozva.
Stílusátviteli adatbővítés: A képzési képek stilisztikailag átalakításra kerülnek különböző burkolati textúrák utánzásához neurális stílusátvitellel (Gram-mátrix illesztés) vagy Fourier domain-adaptációval (amplitúdócsere).
Többfelületű képzés: Mind aszfalt, mind beton adatok bevonása a képzésbe (pl. Crack500 + NHA12D beton kombinálása) 3-5%-kal javítja a felületek közötti általánosítást.

Megvilágítási változékonyság

A repedésfelismerési pontosság különböző megvilágítási körülmények között jelentősen változik. Egy szisztematikus tanulmány a Crack500-on három megvilágítási forgatókönyv alatt a következőket találta:

Napos, közvetlen felülről: IoU = 0,72 (alapvonali optimális)
Borult, diffúz fény: IoU = 0,63 (−12,5% az alapvonalhoz képest)
Árnyékos (épület/fa árnyéka a kép 30%-án): IoU = 0,58 (−19,4% az alapvonalhoz képest)
Nedves burkolat (szimulálva sötétítéssel és fokozott tükröződéssel): IoU = 0,43 (−40,3% az alapvonalhoz képest, a felületi víz repedésjellemzőket maszkoló hatása miatt)

Adatbővítés (data augmentation) a képzés során javítja a megvilágítási robusztusságot. A repedésfelismerés szabványos adatbővítései közé tartozik:

Fényerő ingadoztatása: Véletlenszerű ±30%-os fényerőváltozás
Kontraszt ingadoztatása: Véletlenszerű ±20%-os kontrasztváltozás
Gauss-zaj: σ = 0,01-0,05 (normalizált pixelértékek)
Gauss-életlenítés: magméret 3-7, σ = 0,5-2,0
Eső szimuláció: Félig áttetsző csíkok hozzáadása nedves körülmények szimulálásához

Egy agresszív adatbővítéssel (fényerő ±40%, kontraszt ±30%, zaj σ=0,03, életlenítés mag akár 7-ig) tanított modell körülbelül 1-2% abszolút IoU-t veszít tiszta, optimális megvilágításban, de 6-8% IoU-t nyer kihívást jelentő körülmények között (árnyék, borult). A nehéz eseteken elért javulás jellemzően indokolja a könnyű eseteken elszenvedett kis büntetést valós környezetben, ahol a megvilágítás nem ellenőrzött.

Élvonalbeli telepítés valós idejű repedésfelismeréshez

A repedésfelismerő AI élvonalbeli eszközökön – drónokra, ellenőrző járművekre vagy robotokra szerelt beágyazott számítógépeken – történő telepítése lehetővé teszi a valós idejű feldolgozást felhőkapcsolat nélkül, ami kritikus távoli repülőterek, nagy autópálya-hálózatok és biztonság szempontjából kritikus alkalmazások esetében, ahol a késleltetést ezredmásodpercekben kell mérni, nem másodpercekben.

Hardver platformok

NVIDIA Jetson Orin Nano Super (67 TOPS INT8, 7-15W, $249) az elsődleges élvonalbeli platform drón-alapú repedésfelismeréshez. A 1024 CUDA mag és 32 Tensor mag elegendő áteresztőképességet biztosít a valós idejű szegmentációhoz 30-50 FPS (FP16) sebességgel optimalizált architektúrákon (EGA-UNet, ResU-Net). A 8 GB LPDDR5 memória (102 GB/s sávszélesség) kezeli az 512×512-es batch következtetést. Formátum: 69,6×45 mm modul, alkalmas drónrakomány-integrációra.

NVIDIA Jetson Orin NX (100 TOPS, 10-25W) nagyobb áteresztőképességet kínál több kamerafolyam egyidejű feldolgozásához – hasznos előre-, oldal- és lefelé néző kamerákkal felszerelt ellenőrző járműveknél.

NVIDIA Jetson AGX Orin (275 TOPS, 15-60W) lehetővé teszi teljes méretű modellek (DeepLabV3+, TransUNet) telepítését gyártási képkockasebességgel. Járműre szerelt rendszerekhez használják, ahol az energiafogyasztás kevésbé korlátozott.

Raspberry Pi 5 (quad-core Cortex-A76 @ 2,4 GHz, $60-80) Hailo-8L NPU-val (13 TOPS, M.2 HAT) alacsonyabb költségű élvonalbeli megoldást nyújt. Könnyű súlyú modellek (U-Net ghost konvolúcióval, MobileNetV3 szegmentációs fej) 5-12 FPS-t érnek el 512×512-es bemeneteken. Teljes rendszerköltség kamerával és drónrögzítéssel együtt: ~$200.

Platform	TOPS	Teljesítmény	Ár	Repedés FPS (FP16)	Repedés FPS (INT8)
Jetson Orin Nano Super	67	7-15W	$249	30-50	50-80
Jetson Orin NX	100	10-25W	$499	40-60	70-100+
Jetson AGX Orin	275	15-60W	$1,999	60-100+	100-200+
Raspberry Pi 5 + Hailo-8L	13	5-12W	~$80	5-12	8-15

Következtetésoptimalizálás

TensorRT (NVIDIA következtetésoptimalizáló SDK) gráfoptimalizálást, kernel automatikus hangolást és pontosságkalibrációt végez:

FP16 mód: 2× áteresztőképesség az FP32-hez képest <0,5% pontosságvesztéssel. Csökkenti a modell memóriáját ~50%-kal.
INT8 kvantálás (Post-Training Quantization, PTQ): 3-4× áteresztőképesség az FP32-hez képest. Egy reprezentatív adathalmaz (~500 kép) kalibrálja az aktivációs eloszlásokat az optimális INT8 léptéktényezőkhöz. Pontosságvesztés 1-3% a repedésszegmentációhoz.
Kvantálás-Tudatos Képzés (QAT): INT8 kvantálást szimulál a képzés során (hamis kvantálási csomópontokat illeszt be). A modell hozzáigazítja súlyait a kvantált következtetési viselkedéshez, 0,5-1,5%-kal jobb pontosságot eredményezve, mint a PTQ a repedésszegmentációhoz.

ONNX Runtime platformok közötti telepítést biztosít végrehajtási szolgáltatókkal CUDA (GPU), TensorRT (NVIDIA), OpenVINO (Intel), CoreML (Apple) és ARM CPU számára. Tipikus gyorsítás: 1,2-1,5× a nyers PyTorch következtetéshez képest CPU-n.

Csatornanyírás eltávolítja a kevésbé fontos konvolúciós csatornákat L1-norma nagyság alapján (a nullához közeli súlyok minimálisan járulnak hozzá). 30-50%-kal csökkentheti a FLOPs-ot 1-2% pontosságvesztéssel a repedésszegmentációhoz. Tudásdesztilláció egy kis tanuló modellt (pl. EGA-UNet 2,3M paraméterrel) tanít be, hogy utánozza a nagy tanító modell (pl. DeepLabV3+ 55M paraméterrel) kimenetét a KL-divergencia minimalizálásával a kimeneti valószínűségi eloszlások között. A tanuló eléri a tanító pontosságának 95-98%-át 70-90%-kal kevesebb paraméterrel.

Sávszélesség-stratégia drónos ellenőrzésekhez

Több drónos futópálya- vagy autópálya-ellenőrzéseknél a teljes videó feltöltése (4K, 30 FPS, H.264) 15-25 Mbps-ot igényel drónonként – meghaladva a cellás sávszélességet vidéki területeken és kizárva a valós idejű felhőalapú elemzést. Egy szelektív feltöltési stratégia kezeli ezt:

Az eszközön futó modell folyamatosan működik 10-30 FPS-en
Csak a repedés valószínűség > küszöbérték (pl. >0,7) képkockák kerülnek tömörítésre (JPEG, minőség 85) és továbbításra
Teljes felbontású képek (20+ MP) mentése az eszközön és feltöltés a repülés után, vagy fizikai visszanyerés
Becsült adat 1 órás ellenőrző repülésenként: ~50-200 MB repedés-pozitív kép + metaadatok vs. ~30-50 GB teljes videó feltöltéshez
Lehetővé teszi több drónból álló flotta műveleteket cellás vagy műholdas visszirányú kapcsolattal a megjelölt területekhez

Ember a hurokban verifikáció

Az AI pontosság fejlődése ellenére a biztonság szempontjából kritikus infrastruktúra-ellenőrzés (kereskedelmi repülőtéri futópályák, államközi autópálya-hidak, gátfelületek) ember a hurokban verifikációt igényel – egy képzett ellenőr áttekinti az AI által generált repedéstérképeket, és megerősíti, elutasítja vagy módosítja a megállapításokat. Ezt szabályozási követelmények (ICAO, FAA, ASTM) vezérlik, amelyek szakmérnöki jóváhagyást írnak elő a biztonsági döntéseket érintő állapotjelentéseken.

A tipikus ember a hurokban munkafolyamat AI repedésfelismeréshez:

AI generál repedés-szegmentációs térképet szélesség-/hosszmérésekkel ICAO súlyossági besorolások szerint
Áttekintő felület mutatja az átfedést az AI előrejelzésekről az eredeti képeken, kiemelve a repedés régiókat súlyosság szerint (színkódolt: zöld = hajszálrepedés <1mm, sárga = keskeny 1-3mm, narancs = közepes 3-6mm, piros = széles >6mm)
Az ellenőr elfogadja/megkérdőjelezi/elutasítja a megjelölt repedéseket:
- Elfogad: AI osztályozás és mérések rögzítése változtatás nélkül (jellemzően az észlelések 60-75%-a)
- Megkérdőjelez: AI megjelölt egy régiót; az ellenőr teljes felbontásban áttekinti, potenciálisan módosítva a repedés határát vagy eltávolítva a hamis pozitívot (jellemzően 15-25%)
- Elutasít: Hamis pozitív, amelyet hézag, árnyék, felületi textúra, olajfolt okozott (jellemzően 5-15%)
Az ellenőr hozzáadja a nem észlelt repedéseket: Az AI által nem észlelt repedések (hamis negatívok) manuális annotálása (jellemzően a teljes repedéshossz 2-5%-a)
A módosított adatok rögzítése mind az AI, mind az ellenőri annotációk megőrzésével
A szélsőséges esetek naplózása a modell újratanításához – a hamis pozitívok és hamis negatívok összegyűjtése, címkézése és hozzáadása a képzési adathalmazhoz a következő modell iterációhoz

Ez a visszacsatolási hurok folyamatosan javítja a modell teljesítményét. 3-5 újratanítási ciklus után ember által ellenőrzött szélsőséges esetekkel a hamis pozitív arányok jellemzően 40-60%-kal csökkennek, és a visszahívás 5-10%-kal javul az ellenőrzési programban szereplő burkolattípusokon és körülményeken.

Jelenlegi korlátok és jövőbeli irányok

Jelenlegi korlátok

Vékony repedés észlelési felbontási korlát: A 2-3 pixelnél keskenyebb repedések nem észlelhetők vagy mérhetők megbízhatóan a modell minőségétől függetlenül – a fizikai információ egyszerűen nincs jelen a képen. 1,0 mm/pixel talajmintavételi távolságnál (jellemző drónos ellenőrzéseknél 10-15 m magasságban) a 0,3 mm alatti repedések nem észlelhetők. Ez egy merev fizikai korlát, amelyet a képalkotó platform felbontása határoz, nem az AI modell.

Tartományok közötti romlás: Az egyik burkolattípuson (aszfalt) vagy földrajzi régióban (USA utak) tanított modellek 5-15%-os IoU-t veszítenek, ha eltérő burkolattípusokra (beton, kompozit) vagy régiókra (európai, ázsiai útfelületek) telepítik őket. A domain-adaptációs technikák csökkentik ezt a különbséget, de nem szüntetik meg teljesen. A gyártási telepítés helyspecifikus finomhangolást vagy több régiós képzést igényel.

Hamis pozitív konzisztencia: Míg az általános hamis pozitív arány alacsony (az észlelések 5-15%-a), a hamis pozitívok specifikus körülmények között csoportosulnak: az építési hézagok az illesztések 20-40%-án produkálnak hamis észleléseket; a hosszirányú hornyok (bordázás) periodikus hamis mintázatokat hoznak létre; és a felületi olajfoltok szabálytalan hamis pozitívokat eredményeznek. Ezek a szisztematikus meghibásodási módok szabályalapú utófeldolgozási szűrőket igényelnek (pl. “észlelések eltávolítása ismert hézagvonalak mentén GIS adatokból”).

Nedves és gyenge fényviszonyok: A nedves burkolaton a teljesítmény akár 40%-os IoU-val romlik a száraz körülményekhez képest. Az éjszakai ellenőrzés aktív megvilágítást igényel (LED reflektorok drónon vagy járművön), amely tükröződést és árnyék műtermékeket okoz, tovább csökkentve a pontosságot. Eső, köd és hóborítás gyakorlatilag lehetetlenné teszi a repedésfelismerést látható spektrumú kamerákkal.

Szabályozási elfogadás: Egyetlen jelentős légi közlekedési vagy közlekedési hatóság (ICAO, FAA, ASTM, AASHTO) sem publikált szabványokat az AI-alapú repedésfelismerésre mint önálló ellenőrzési módszerre. A jelenlegi előírások megkövetelik az AI eredmények ellenőrzését hagyományos módszerekkel (lánchúzás, magmintavétel, vizuális ellenőrzés hitelesített ellenőr által). Ez korlátozza az AI telepítésének működési költségmegtakarítását, mivel az ellenőri idő továbbra is szükséges a verifikációhoz.

Jövőbeli irányok

Önfelügyelt tanulás alacsony adatmennyiségű környezetekhez: A DINOv3 fagyasztott gerinc paradigmája demonstrálja, hogy a repedésfelismerő modellek 50-100 címkézett képpel taníthatók 500-2000 helyett. A jövőbeli fejlesztések ezt nulla példás repedésfelismerésre terjesztik ki – olyan modellekre, amelyek bármilyen felülettípuson észlelik a repedéseket tartományspecifikus képzés nélkül, kihasználva a milliárdnyi változatos képből tanult alapmodell jellemzőket.

Fizikai információs neurális hálózatok: A jelenlegi modellek tisztán vizuális jellemzőket tanulnak. A fizikai információs modellek hőátadási egyenleteket fognak tartalmazni a termikus repedésfelismeréshez, feszültség-nyúlás modelleket a repedésterjedés előrejelzéséhez a detektált geometriából, valamint tehermodelleket a repülőtéri burkolatokhoz (repülőgép súly, gumiabroncsnyomás, áthaladási gyakoriság) a javítási sürgősség rangsorolásához szerkezeti kockázat alapján, nem csak repedésméretek alapján.

Videó-alapú időbeli elemzés: A jelenlegi rendszerek egyedi képkockákat elemeznek. A videó-alapú modellek követni fogják a repedések előrehaladását több felmérési áthaladáson keresztül (évről évre összehasonlítás), észlelik a repedések nyílását/záródását forgalmi terhelés alatt (repedésszélesség mérése repülőgép áthaladása előtt, alatt és után), és szűrik az átmeneti hamis pozitívokat (levelek, törmelék, állóvíz) időbeli konzisztencia-ellenőrzéseken keresztül.

Többmodalitású érzékelőfúzió: A látható spektrumú kamerák kombinálása termikus infravörössel (IRT), talajradarral (GPR), LiDAR magassági profilkészítéssel és ultrahangos tomográfiával gazdagabb hibajellemzést eredményez. Egy egységes AI modell, amely minden modalitást egyidejűleg dolgoz fel, felületi repedéseket (látható), felszín alatti delaminációt (IRT), üregtartalmat (GPR) és felületi érdességet (LiDAR) észlel egyetlen áthaladás során – átfogó szerkezeti állapotfelmérést biztosítva a repedésfelismerésen túl.

Élvonalbeli natív transzformer architektúrák: A Vision Transformerek O(n²) számítási költsége jelenleg korlátozza az élvonalbeli telepítést. A hardverspecifikus architektúrák (NVIDIA TensorRT-re optimalizált, Qualcomm AI Engine-re leképezett, Apple Neural Engine-re fordított) kombinálva lineáris komplexitású figyelmi mechanizmusokkal (Performer, Linformer, Mamba állapottér modellek) transzformer-szintű pontosságot hoznak az élvonalbeli eszközökre 2027-re. A Mamba-UNet architektúra (2024), amely állapottér modelleket használ figyelem helyett, versenyképes repedésszegmentációt ér el (71,5% mIoU) az EGA-UNet számítási költségének körülbelül 40%-ánál.

Szabályozási fejlődés: Ahogy az AI repedésfelismerés működési bizonyítékokat halmoz fel repülőtéri és autópálya-hálózatokon keresztül, a szabványügyi testületek várhatóan AI-specifikus ellenőrzési szabványokat publikálnak – meghatározva a validálási követelményeket, pontossági küszöbértékeket, újratanítási gyakoriságot és emberi felügyeleti protokollokat. Az FAA AI ütemterve a repülésben (FAA AI Strategic Plan, 2024) kifejezetten tartalmazza az infrastruktúra-ellenőrző AI-t a tervezett szabályozási keretrendszer-fejlesztési ciklusában 2026-2028-ra.

Élvonalbeli számítástechnikai eszköz, beleértve az NVIDIA Jetson modult drónrakományra szerelve valós idejű AI repedésfelismerő infrastruktúra-ellenőrzéshez

Hivatkozások

Ronneberger, O., Fischer, P., & Brox, T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. MICCAI 2015, 234–241.
Chen, L.C., et al. (2018). Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation. ECCV 2018, 801–818.
Dosovitskiy, A., et al. (2020). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021.
Oquab, M., et al. (2025). DINOv3: Gram-Anchored Dense Features at Scale. Meta AI Research.
Yang, L., et al. (2025). An efficient semantic segmentation method for road crack based on EGA-UNet. Scientific Reports, 15, 33818.
Zhang, A., et al. (2017). Automated Pixel-Level Pavement Crack Detection on 3D Asphalt Surfaces. Journal of Computing in Civil Engineering, 31(1), 04016093.
Liu, Y., et al. (2019). DeepCrack: A Deep Hierarchical Feature Learning Architecture for Crack Segmentation. Neurocomputing, 338, 139–153.
Shi, Y., et al. (2016). Automatic Road Crack Detection Using Random Structured Forests. IEEE Transactions on Intelligent Transportation Systems, 17(12), 3434–3445.
Yang, F., et al. (2020). Feature Pyramid and Hierarchical Boosting Network for Pavement Crack Detection. IEEE Transactions on Intelligent Transportation Systems, 21(4), 1525–1535.
Huang, Y., et al. (2022). NHA12D: A New Pavement Crack Dataset and A Comparison Study of Crack Detection Algorithms. EC3 2022.
International Civil Aviation Organization. (2018). Annex 14 — Aerodromes, Volume I: Aerodrome Design and Operations (8th ed.).
FAA Advisory Circular 150/5200-30D. (2016, Chg 2 2020). Airport Field Condition Assessments and Winter Operations Safety.
ASTM D5340-12. Standard Test Method for Airport Pavement Condition Index Surveys.
Carrasco, M., et al. (2021). Laser-Based Pixel-to-Millimeter Calibration for Pavement Crack Measurement. Automation in Construction, 126, 103667.
Zhang, T.Y. & Suen, C.Y. (1984). A Fast Parallel Algorithm for Thinning Digital Patterns. Communications of the ACM, 27(3), 236–239.
Lin, T.Y., et al. (2017). Focal Loss for Dense Object Detection. ICCV 2017, 2980–2988.
Milletari, F., et al. (2016). V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation. 3DV 2016, 565–571.

Gyakran Ismételt Kérdések

: Az AI-alapú repedésfelismerés mélytanuló számítógépes látás modelleket – elsősorban konvolúciós neurális hálózatokat (CNN), U-Net architektúrákat, DeepLab-ot atrous térbeli piramis poolinggal és víziótranszformátorokat – használ a repedések automatikus azonosítására burkolati, futópálya-, hídfedélzeti és betonfelületi képeken. A modelleket pixelszintű annotált adathalmazokon tanítják, ahol minden képhez tartozik egy bináris maszk, amely jelzi, hogy mely pixelek tartoznak repedésekhez. A következtetés során a modell a bemeneti kép minden egyes pixelét elemzi és repedésként vagy nem repedésként (szemantikus szegmentáció) osztályozza, létrehozva egy repedés-szegmentációs térképet. Az utófeldolgozási lépések, mint a skeletonizáció és távolságtranszformáció, kiszámítják a repedés szélességét, hosszát és területét. A technológia élvonalbeli eszközökre (NVIDIA Jetson Orin, drónba épített számítógépek) telepíthető valós idejű ellenőrzéshez, vagy felhőszerverekre nagyméretű felmérési adatsorok batch feldolgozásához.
: A fő architektúrák a következők: U-Net (kódoló-dekódoló skip kapcsolatokkal, ~31M paraméter), amely megőrzi a vékony repedések körvonalazásához kritikus térbeli részleteket; DeepLabV3+ (ResNet-101 vagy Xception gerinccel és Atrous Spatial Pyramid Pooling-gal, ~42-55M paraméter), amely többléptékű kontextust rögzít; víziótranszformátorok, mint a SETR és TransUNet (86M-632M paraméter), amelyek globális receptív mezőket biztosítanak; EGA-UNet (~2,3M paraméter), amely hatékony ghost konvolúciókat kombinál adaptív Fourier-szűrő token-keveréssel könnyű súlyú valós idejű telepítéshez 73,1%-os Dice-szal; valamint a DINOv3 (önfelügyelt ViT, akár 7B paraméter), amely minimális címkézett adattal teszi lehetővé a repedésfelismerést fagyasztott gerincű transzfer tanulással.
: A legfontosabb benchmark adathalmazok közé tartozik: Crack500 (500 kép 2000×1500 felbontásban philadelphiai burkolatokról, pixelszintű annotációkkal); DeepCrack (537 kép 544×384 felbontásban többféle beton- és aszfaltfelületről); CrackForest Dataset / CFD (118 kép 480×320 felbontásban pekingi városi utakról); CrackTree200 (206 kép 800×600 felbontásban, kihívást jelentő alacsony kontrasztú körülményekkel); GAPs384 (1969 kép 1920×1080 felbontásban német aszfaltutakról, a legnagyobb egyforrású nyilvános adathalmaz); és NHA12D (80 nagy felbontású kép az UK A12 autópályáról, 40 beton + 40 aszfalt). A repedéspixelek jellemzően csak a képpontok 2-8%-át teszik ki, ami szélsőséges osztályegyensúlytalanságot hoz létre, ami speciális veszteségfüggvényeket (fókuszált veszteség, Dice-veszteség, Tversky-veszteség) igényel a képzés során.
: A repedések számszerűsítése a bináris szegmentációs maszkokból egy számítási geometriai csővezetéket követ: (1) Skeletonizáció a Zhang-Suen vékonyítási algoritmussal, amely a repedés régiót egypixel széles középvonalra redukálja; (2) Euklideszi távolságtranszformáció, amely kiszámítja a minimális távolságot minden skeleton pixelből a repedés határáig, megadva a fél szélességet minden pontban (repedésszélesség = 2 × távolság); (3) Skeleton bejárás lánckódolással, amely a repedés hosszát 4-kapcsolt lépésekkel (1 pixel) és átlós lépésekkel (√2 ≈ 1,414 pixel) méri; (4) Pixel-milliméter kalibráció ismert referenciaobjektumok, lézer vetítőrendszerek (két párhuzamos nyaláb ismert távolságban) vagy kamera-geometria segítségével (FOV = 2 × Z × tan(HFOV/2)). 10 m-es drónmagasságnál 20 MP-es kamerával a tipikus talajmintavételi távolság körülbelül 0,5 mm/pixel, lehetővé téve akár 0,3-0,5 mm széles repedések észlelését.
: A repedésfelismerés pixelszintű bináris osztályozási mutatókat használ: IoU (Intersection over Union = TP/(TP+FP+FN), tipikus tartomány 0,55-0,75); Dice-együttható (F1 = 2TP/(2TP+FP+FN), tipikus tartomány 0,65-0,80), amely az IoU-hoz kapcsolódik: Dice = 2×IoU/(1+IoU); precizitás (TP/(TP+FP)); visszahívás (TP/(TP+FN)); és átlagos átlagpontosság (mAP@[0,5:0,95]) objektumdetekción alapuló megközelítésekhez. A pixelpontosság nem ajánlott, mert a repedéspixelek a képek kevesebb mint 5%-át teszik ki – egy olyan modell, amely minden pixelt háttérként jelez, >95%-os pontosságot ér el, miközben nulla repedést észlel. A BF (Boundary F1) az élpontosságot méri, jellemzően 0,40-0,60, tükrözve a repedések határainak pontos körvonalazásának nehézségét. A hamis negatív arány (FNR = FN/(TP+FN)) kritikus a biztonság szempontjából kritikus alkalmazásoknál, mint a futópálya-ellenőrzés, ahol a nem észlelt repedések nagyobb kockázatot jelentenek, mint a téves riasztások.
: Igen. Az élvonalbeli telepítés valós idejű repedésfelismeréshez megvalósítható NVIDIA Jetson modulokon (Orin Nano Super: 67 TOPS 7-15W-on, $249; Orin NX: 100 TOPS; AGX Orin: 275 TOPS) és Raspberry Pi 5-ön Hailo-8L NPU-val (13 TOPS). A következtetésoptimalizálási technikák közé tartozik: TensorRT FP16 (2× áteresztőképesség az FP32-hez képest, <0,5% pontosságvesztés); INT8 kvantálás képzés utáni vagy kvantálás-tudatos képzéssel (3-4× áteresztőképesség, 0,5-3% pontosságvesztés); csatornanyírás (30-50% FLOPs csökkentés); és tudásdesztilláció (a tanulómodell a tanító modell pontosságának 95-98%-át éri el 70-90%-kal kevesebb paraméterrel). Drónos ellenőrzéseknél a szelektív feltöltési stratégia (eszközön végzett következtetés 10-30 FPS-en, csak repedés-pozitív képkockák továbbítása) csökkenti a sávszélességet ~15-25 Mbps-ról (teljes 4K videó) ~1-10 Mbps-ra, lehetővé téve a több drónból álló flotta műveleteket.
: Az ICAO Annex 14, I. kötet (8. kiadás, 2018) szélesség szerint osztályozza a repedéseket: hajszálrepedés (<1 mm), keskeny (1-3 mm), közepes (3-6 mm) és széles (>6 mm). Bármely 3 mm-nél szélesebb felületi repedés tömítést vagy javítást igényel 90 napon belül; a repedésélek mentén jelentkező szétforgácsolódás 30 napra gyorsítja a határidőt. Az FAA 150/5200-30D számú tanácsadó körlevele megköveteli a fékezést vagy irányítást befolyásoló felületi állapotok dokumentálását. A futópálya állapotkódja (RwyCC) 0-tól 6-ig terjed, összehangolva az ICAO-val. Az ASTM D5340-12 meghatározza a Burkolatállapot Index (PCI) levonási értékeit a repedés súlyossága és sűrűsége alapján. Az AI repedésfelismerés közvetlenül támogatja ezeket a szabályozási kereteket azáltal, hogy objektív, reprodukálható repedésméréseket biztosít pixelszintű pontossággal a teljes futópálya-felületen egyetlen drón vagy járműves felmérési áthaladás során.
: A fő korlátok közé tartozik: (1) Általánosítás a burkolatok között – az egyik felülettípuson (pl. aszfalt) tanított modellek egy másikon (pl. beton) 5-15%-os IoU romlást mutatnak finomhangolás vagy domain-adaptáció nélkül; (2) Fényérzékenység – árnyékok, nedves felületek és alacsony napszög 10-20%-kal csökkentik a felismerési pontosságot; (3) Vékony repedések észlelése – a 2-3 pixelnél keskenyebb repedések a szegmentációs modellek felbontási korlátja közelében vannak; (4) Osztályegyensúlytalanság – a repedéspixelek a képzési adatok <5%-át teszik ki, speciális veszteségfüggvényeket és adatbővítést igényelve; (5) Téves pozitívok felületi jellemzőkből – olajfoltok, építési hézagok, gumiabroncsnyomok és felületi textúra-változatok nem repedés anomáliákat produkálnak; (6) Ember a hurokban verifikáció továbbra is szükséges a biztonság szempontjából kritikus infrastruktúra-döntésekhez; (7) Szabályozási elfogadás – az AI-alapú ellenőrzési eredmények validálást igényelnek a bevett módszerekkel (lánchúzás, visszhang-impakt, magmintavétel) szemben a hivatalos burkolatállapot-jelentésekhez.

Automatizálja futópálya- és burkolati repedésvizsgálatait

Telepítsen AI-alapú repedésfelismerést drón- és járműfelvételekből automatizált futópálya-, út- és hídfedélzet-ellenőrzésekhez. Kapjon pixelpontos repedésszegmentációt, szélességmérést és súlyossági besorolást, integrálva az eszközgazdálkodási rendszerébe.

Vegye fel velünk a kapcsolatot Kérjen bemutatót

Tudjon meg többet

Szemantikai szegmentáció infrastruktúra-jelenetek értelmezéséhez

A szemantikai szegmentáció kategóriacímkét rendel minden pixelhez egy képben, lehetővé téve a teljes jelenet értelmezését infrastruktúra-ellenőrzés során. Lefed...

Jun 17, 2026 35 perc olvasás

Technology Computer Vision +3

Számítógépes látás

A számítógépes látás mesterséges intelligencián alapuló technológia, amely lehetővé teszi a gépek számára, hogy értelmezzék és feldolgozzák a vizuális adatokat....

Nov 18, 2025 11 perc olvasás

Artificial Intelligence Aviation Technology +3

Automatizált repedésszélesség-mérés képi adatokból

Az automatizált repedésszélesség-mérés a felismert repedések nyílásszélességét határozza meg szegmentált pixelmaszkokból, euklideszi távolságtranszformáció segí...

Jun 17, 2026 21 perc olvasás

technology inspection +4

AI-alapú repedésfelismerés infrastruktúra-ellenőrzéshez

AI-alapú repedésfelismerés infrastruktúra-ellenőrzéshez

Problémameghatározás és kihívások

Modellarchitektúrák repedésfelismeréshez

U-Net

DeepLabV3+

Víziótranszformátorok (ViT)

DINOv3

CrackNet

EGA-UNet (2025)

Architektúra-összehasonlítás

Képzési adathalmazok repedésfelismeréshez

Crack500

DeepCrack

CrackForest Dataset (CFD)

GAPs384

NHA12D

Osztályegyensúlytalanság és veszteségfüggvények

Repedésosztályozás vs. szegmentáció

Kiértékelési metrikák

Intersection over Union (IoU)

Dice-együttható (F1-pontszám)

Precizitás és visszahívás

Átlagos átlagpontosság (mAP)

Metrika-összehasonlítás

Repedésszélesség és -hosszmérés szegmentációból

Skeletonizáció

Távolságtranszformáció szélességméréshez

Repedéshossz számítás

Pixel-milliméter kalibráció

Teljes mérési csővezeték

Általánosítás burkolattípusok és megvilágítás között

Burkolatok közötti általánosítás

Megvilágítási változékonyság

Élvonalbeli telepítés valós idejű repedésfelismeréshez

Hardver platformok

Következtetésoptimalizálás

Sávszélesség-stratégia drónos ellenőrzésekhez

Ember a hurokban verifikáció

Jelenlegi korlátok és jövőbeli irányok

Jelenlegi korlátok

Jövőbeli irányok

Hivatkozások

Gyakran Ismételt Kérdések

Automatizálja futópálya- és burkolati repedésvizsgálatait

Tudjon meg többet

Szemantikai szegmentáció infrastruktúra-jelenetek értelmezéséhez

Számítógépes látás

Automatizált repedésszélesség-mérés képi adatokból

Süti Beállítások

Szükséges Sütik

Analitikai Sütik