Szemantikai szegmentáció infrastruktúra-jelenetek értelmezéséhez
A szemantikai szegmentáció kategóriacímkét rendel minden pixelhez egy képben, lehetővé téve a teljes jelenet értelmezését infrastruktúra-ellenőrzés során. Lefed...
Az AI-alapú repedésfelismerés számítógépes látást – konvolúciós neurális hálózatokat, víziótranszformátorokat és szemantikus szegmentációs modelleket – használ a repedések automatikus azonosítására, osztályozására és mérésére burkolati és szerkezeti képeken. A technológia az automatizált út-, futópálya- és hídellenőrzési programok alapját képezi a polgári repülés és a közlekedési ágazatok területén.
Az AI-alapú repedésfelismerés egy számítógépes látás technológia, amely mélytanuló modelleket – konvolúciós neurális hálózatokat (CNN), kódoló-dekódoló architektúrákat és víziótranszformátorokat – alkalmaz a repedések automatikus azonosítására, osztályozására, szegmentálására és mérésére burkolati, futópálya-, hídfedélzeti és beton szerkezeti felületeken digitális képekből. A technológia felváltja vagy kiegészíti a mérnökök által végzett manuális vizuális ellenőrzést, a szubjektív, munkaigényes felméréseket objektív, skálázható, adatvezérelt értékelésekké alakítva. Repülőtéri és polgári infrastruktúra-üzemeltetők számára az automatizált repedésfelismerés közvetlenül támogatja a Burkolatállapot Index (PCI) pontozást az ASTM D5340-12 szerint, a Futópálya Állapotkód (RwyCC) jelentést az ICAO Annex 14 szerint, valamint a megelőző karbantartási tervezést.

A repedésfelismerési probléma egyedi kihívásokat jelent, amelyek megkülönböztetik az általános szemantikus szegmentációs feladatoktól. A repedések vékony, elnyújtott struktúrák – jellemzően 0,1 mm és 5 mm közötti szélességgel –, amelyek bármely adott képen a pixelek mindössze 2-8%-át foglalják el, ami szélsőséges osztályegyensúlytalanságot teremt a modellképzés során. A repedéspixelek előtér-háttér aránya körülbelül 1:20 és 1:50 közötti, ami azt jelenti, hogy egy naiv osztályozó, amely minden pixelt háttérként jelez, 95%+ pontosságot ér el, miközben nulla repedést észlel. A repedések morfológiája drámaian változik: a hosszirányú repedések párhuzamosak a burkolat középvonalával, a keresztirányú repedések merőlegesek rá, az alligátor (fáradásos) repedések összekapcsolódó sokszögmintákat alkotnak, és a tükröződő repedések az alatta lévő hézagokból terjednek át a fedőrétegen. Minden típus eltérő geometriai jellemzést igényel.
A megvilágítási és környezeti változékonyság tovább bonyolítja a felismerést. Az épületek és túlnyúló növényzet árnyékai alacsony kontrasztú régiókat hoznak létre, ahol a repedések szinte láthatatlanná válnak. A nedves burkolat csökkenti a felületi hőmérséklet-kontrasztot a termikus alapú módszereknél és megváltoztatja a látható spektrumú reflektivitást. Olajfoltok, gumiabroncsnyomok, gumilerakódások, építési hézagok, felületi textúra-változatok (bordázás, hornyolás, seprűzött felület) és törmelék olyan téves pozitív jellemzőket produkálnak, amelyek vizuálisan utánozzák a repedéseket. Egy 2025-ös, a Scientific Reports folyóiratban publikált tanulmány (EGA-UNet cikk, 15. kötet, 33818. cikk) kimutatta, hogy a repedésfelismerési pontosság összetett háttereken 10-20%-kal romlik a tiszta, egységes felületekhez képest, még a legmodernebb figyelmi mechanizmusokkal is.
A lépték- és felbontási korlátok alapvető kompromisszumot kényszerítenek ki. A nagy felbontású képek (szubmilliméter/pixel talajmintavételi távolság) rögzítik a finom repedéseket, de nagy tárhelyet, sávszélességet és feldolgozási időt igényelnek. Az alacsonyabb felbontású képek több területet fednek le repülésenként vagy áthaladásonként, de nem észlelik a 2-3 pixelnél keskenyebb repedéseket. Drónos futópálya-ellenőrzésnél 15 m magasságban 24 MP-es kamerával a tipikus talajmintavételi távolság 1,0-1,5 mm/pixel, ami azt jelenti, hogy a 0,3 mm szélesség alatti repedések az észlelési küszöb alá esnek. Ez a felbontási korlát egy merev fizikai korlát, amelyet egyetlen AI-modell sem képes áthidalni – ez határozza meg a minimális észlelhető repedésszélességet bármely adott képalkotó platform és magasság esetén.
Az U-Net-et, amelyet Ronneberger, Fischer és Brox mutatott be a Freiburgi Egyetemen 2015-ben, továbbra is a legszélesebb körben alkalmazott architektúra pixelszintű repedésszegmentációhoz. Az architektúra szimmetrikus kódoló-dekódoló struktúrája skip kapcsolatokkal kifejezetten jól alkalmazható a repedésfelismeréshez, mivel a repedések vékony, térben lokalizált jellemzők, amelyek megkövetelik a nagyfrekvenciás részletek megőrzését a mintavételezési és felskálázási csővezeték során.
Az U-Net kódolója (összehúzó ág) négy mintavételező blokkból áll. Minden blokk két 3×3-as konvolúciót (padding=azonos) tartalmaz, amelyet ReLU aktiváció és egy 2×2-es max pooling művelet (lépésköz=2) követ. A szűrők száma minden szinten megduplázódik: 64 → 128 → 256 → 512 → 1024 a szűk keresztmetszetben. Egy 512×512 pixeles bemenet esetén a térbeli méretek a kódolón keresztül 512 → 256 → 128 → 64 → 32-re csökkennek a legmélyebb rétegben. A szűk keresztmetszet réteg az U-alak alján 1024 jellemzőtérképet tartalmaz 32×32-es felbontásban, ami a legabsztraktabb, szemantikailag leggazdagabb jellemzőket képviseli.
A dekódoló (táguló ág) tükrözi a kódolót négy felskálázó blokkal. Minden blokk egy 2×2-es transzponált konvolúciót alkalmaz, amely megfelezi a szűrők számát és megduplázza a térbeli méreteket. A felskálázott jellemzőtérkép összefűzésre kerül a kódoló útvonal megfelelő jellemzőtérképével skip kapcsolatokon keresztül – például a dekódoló 128×128-as rétege közvetlen összefűzést kap a kódoló 128×128-as rétegétől. Ez a skip kapcsolati mechanizmus kritikus: nagy felbontású térbeli részleteket biztosít a dekódolónak a kódolóból, amelyek egyébként elvesznének az agresszív mintavételezés során. Az összefűzés után két 3×3-as konvolúció ReLU-val finomítja a kombinált jellemzőket.
A végső kimeneti réteg egy 1×1-es konvolúció szigmoid aktivációval, amely egy egycsatornás valószínűségi térképet hoz létre, ahol minden pixelérték (0-tól 1-ig) annak a valószínűségét jelenti, hogy az adott pixel egy repedés régióhoz tartozik. Egy küszöbérték (jellemzően 0,5) konvertálja a valószínűségeket bináris repedés/nem repedés szegmentációvá.
Az eredeti U-Net ~31 millió paramétert és 23 konvolúciós réteget tartalmaz. Egy 512×512-es bemenet esetén a következtetési sebesség körülbelül 40 ms/kép egy modern GPU-n (NVIDIA RTX 3080 vagy azzal egyenértékű). A könnyű súlyú változatok, mint a ResU-Net (reziduális kapcsolatokat használva egyszerű konvolúciók helyett) a paramétereket ~7,8 millióra csökkentik, miközben 68,47%-os átlagos IoU-t érnek el a repedés adathalmazokon. Az EGA-UNet tovább csökkenti ~2,3 millió paraméterre, miközben a Dice-t 73,1%-ra javítja ghost konvolúciók és Fourier-alapú token-keverés révén.
Az U-Net skip kapcsolatai építészetileg elengedhetetlenek a repedésfelismeréshez. Nélkülük a vékony repedések (1-5 pixel széles) teljesen elvesznének a 4×-es mintavételezés során (32×-es redukció a szűk keresztmetszetnél) – egy 3 pixel széles repedés a bemeneten szubpixel-jellemzővé válik a szűk keresztmetszetben, amelyet a felskálázás önmagában nem tud helyreállítani. A skip kapcsolatok teljesen megkerülik ezt az információs szűk keresztmetszetet, biztosítva a dekódoló számára a repedés teljes felbontású geometriáját a kódolóból.
A DeepLabV3+-t, amelyet Chen és munkatársai fejlesztettek ki a Google-nél 2018-ban, a repedésfelismerést atrousz (dilatált) konvolúciók és az Atrous Spatial Pyramid Pooling (ASPP) modul segítségével kezeli. Ellentétben az U-Net-tel, amely agresszíven mintavételez és skip kapcsolatokon keresztül állít helyre, a DeepLab nagyobb felbontású jellemzőtérképeket tart fenn a gerincben dilatált konvolúciók használatával, amelyek kiterjesztik a receptív mezőt anélkül, hogy csökkentenék a térbeli méreteket.
A gerinc jellemzően ResNet-101 (101 réteg, ~42,6 millió paraméter) vagy Xception-65 (~54,7 millió paraméter). A szabványos konvolúciókat a gerincben atrousz konvolúciók váltják fel – 3×3-as magok dilatációs rátákkal (lyukakkal) a mag elemek között. Egy 3×3-as mag r=2 dilatációs rátával egy 5×5-ös receptív mezőt fed le; r=4 esetén 9×9-et; r=8 esetén 17×17-et; és r=16 esetén 33×33-at – mindegyik azonos paraméterszámmal (9 súly), mint egy szabványos 3×3-as konvolúció. Ez a tulajdonság kritikus a repedésfelismeréshez: lehetővé teszi a modell számára, hogy nagyobb kontextust lásson az egyes pixelek körül (megkülönböztetve a repedéseket a felületi textúrától) anélkül a felbontásvesztés nélkül, amely a mintavételezésből származna.
Az ASPP modul négy párhuzamos atrousz konvolúciós ágat alkalmaz r=6, 12, 18 és 24 dilatációs rátákkal (kimeneti lépésköz=16 esetén), mindegyik 256 szűrővel és 3×3-as maggal. Egy további 1×1-es konvolúciós ág és egy képszintű pooling ág (globális átlagpooling → 1×1 konvolúció → bilineáris felskálázás) egészíti ki a modult. Mind az öt ág 256 csatornás jellemzőtérképeket hoz létre, amelyek összefűzésre kerülnek és egy újabb 1×1-es konvolúción mennek keresztül. Az ASPP modul többléptékű képessége különösen fontos a szélességükben jelentősen eltérő repedéseknél – egy hajszálrepedés (<1 mm) és egy széles repedés (>6 mm) eltérő receptív mező méreteket igényel az optimális észleléshez.
A DeepLabV3+ dekódolója könnyű súlyú az U-Net teljes dekódolójához képest: bilineáris felskálázás 4×-esen, összefűzés alacsony szintű jellemzőkkel egy korai gerincrétegből (48 csatornára redukálva 1×1 konvolúcióval), két 3×3-as konvolúció (256 szűrő), és végső bilineáris felskálázás 4×-esen az eredeti felbontásra. A kimeneti lépésköz jellemzően 16 (bemeneti felbontás osztva 16-tal a szűk keresztmetszetben), néha 8 a sűrűbb jellemzőtérképekhez a 2×-es memóriahasználat árán.
A DeepLabV3+ körülbelül 78,5%-os mIoU-t ér el a repedés adathalmazokon. Az EGA-UNet tanulmány (2025) azonban arról számolt be, hogy a DeepLabV3+ alulteljesít a könnyű súlyú architektúrákhoz, mint az EGA-UNet (73,1% Dice vs. alacsonyabb a DeepLabV3+ esetében) képest a repedéshatárokon jelentkező elégtelen finom részletmegőrzés miatt. Az ASPP modul dilatációi, bár hatékonyak a többléptékű kontextushoz, elmossák azokat a finom térbeli részleteket, amelyek elengedhetetlenek a pontos repedésszélesség-méréshez.
A víziótranszformátorokat (ViT) , amelyeket Dosovitskiy és munkatársai mutattak be a Google-nél 2020-ban, a Transformer önfigyelem architektúrát – amelyet eredetileg természetes nyelvi feldolgozásra fejlesztettek ki – alkalmazzák képfeldolgozásra. A ViT egy bemeneti képet nem átfedő, P×P méretű (jellemzően 16×16 pixel) foltokra oszt, minden foltot vektorosít, és a foltbeágyazások sorozatát szabványos Transformer kódoló rétegeken keresztül dolgozza fel többszörös fejű önfigyelemmel.
Egy 224×224-es bemenetnél 16×16-os foltokkal a ViT (224/16)² = 196 foltbeágyazást hoz létre. Minden 16×16×3 (RGB) méretű folt egy 768-dimenziós vektorba van laposítva és lineárisan a D beágyazási dimenzióba vetítve. A Transformer kódoló L egymásra épülő rétegből áll. A ViT-Base L=12, D=768 és 12 figyelmi fejet használ (86M paraméter). A ViT-Large L=24, D=1024 és 16 fejet használ (307M paraméter). A ViT-Huge L=32, D=1280 és 16 fejet használ (632M paraméter). Az önfigyelem komplexitása O(n²·D), ahol n a foltok száma – 196 folt D=768-cal körülbelül 28 millió műveletet igényel fejenként és rétegenként.
Repedésszegmentációhoz a ViT-t hibrid kódoló-dekódoló architektúrákban használják gerincként. A TransUNet az U-Net kódolót egy ViT-re cseréli, kombinálva a Transformer globális kontextusát egy CNN dekódolóval a finom részletek helyreállításához. A SwinUNet hierarchikus Swin Transformatort használ eltolt ablakokkal az O(n²) számítási költség csökkentésére. A SETR (SEgmentation TRansformer) közvetlenül ViT-t alkalmaz kódolóként progresszív felskálázással.
A ViT előnye a repedésfelismerésben a globális receptív mezőben rejlik. A CNN-ek lokálisan dolgozzák fel az információt, sok rétegre van szükségük az információ nagy térbeli távolságokon történő továbbításához. A ViT önfigyelem mechanizmusa minden foltot minden másik folttal összeköt egyetlen rétegben, lehetővé téve hosszú, folyamatos repedések észlelését, amelyek több száz vagy ezer pixelen át húzódnak – például fáradásos repedések, amelyek egy teljes futópályán át kanyarognak. A hibrid ViT-CNN modellek 74-78%-os IoU-t érnek el repedés adathalmazokon, a TransUNet különösen erős az alligátor (összekapcsolódó) repedésmintázatokban.
A kritikus korlát a számítási költség. Egy 512×512-es kép 16×16-os foltokra osztva (512/16)² = 1024 foltot hoz létre, ami rétegenként 1024² ≈ 1 millió figyelemszámítást igényel – egy nagyságrenddel többet, mint a 196 folt a 224×224-es bemeneteknél. Ez a teljes ViT telepítését élvonalbeli eszközökön (drónok, mobil ellenőrző járművek) nem praktikussá teszi jelentős tömörítés vagy nyírás nélkül.
A DINOv3, amelyet a Meta AI adott ki 2025-ben, a legmodernebb önfelügyelt víziótranszformátorokat képviseli. Ez a DINO (DIstillation with NO labels) család harmadik generációja, példátlan léptékben betanítva: akár 7 milliárd paraméterrel 1,7 milliárd címkézetlen képen. A DINOv3 tanár-tanuló keretrendszert használ, ahol a tanuló megtanulja megfeleltetni a tanár kimeneti reprezentációit emberi címkézett adatok nélkül.
A DINOv3 kulcsfontosságú építészeti újítása a Gram Horgonyzás (Gram Anchoring) – egy regularizációs technika, amelyet körülbelül 1 millió képzési iteráció után alkalmaznak, stabilizálva a sűrű (folt-szintű) jellemzőreprezentációkat. A tanuló modell Gram-mátrixa (páronkénti folt-hasonlóság, N×N méretekkel, ahol N a foltok száma) közel van tartva egy fagyasztott “Gram tanár” másolathoz. Ez megakadályozza a sűrű jellemző összeomlást, egy olyan meghibásodási módot az önfelügyelt tanulásban, ahol különböző képfoltok hasonló beágyazásokba konvergálnak annak ellenére, hogy szemantikailag különbözőek. A korábbi DINO változatok (v1 és v2) szenvedtek ettől az összeomlástól hosszabb képzés során; a Gram Horgonyzás stabil képzést tesz lehetővé milliárdnyi képen keresztül.
A repedésfelismerés szempontjából a DINOv3 jelentősége a fagyasztott gerinc paradigmában rejlik. Az előre betanított ViT gerinc (ViT-Small 21M paramétertől ViT-Huge 632M-ig és a zászlóshajó 7B modellig terjedő méretekben elérhető) fagyasztva van és univerzális vizuális kódolóként használható. Könnyű súlyú feladatspecifikus fejek – lineáris próbák, MLP adapterek vagy kis konvolúciós fejek – kerülnek betanításra a tetején anélkül, hogy a gerincen keresztül visszaterjesztenének. Ez lehetővé teszi:
A DINOv3 folt-szintű jellemzői (a globális képbeágyazásokkal szemben) megőrzik a vékony repedések körvonalazásához szükséges finom szemcséjű térbeli információt. A ViT-Base változat (86M paraméter, 12 réteg, 768 beágyazási dimenzió) biztosítja a legjobb pontosság-számítási teljesítmény arányt infrastruktúra-ellenőrzési alkalmazásokhoz. A DINOv3 különösen ígéretes futópálya-ellenőrzési programokhoz, ahol kevés a címkézett repedésadat – ez gyakori forgatókönyv kisebb repülőtereken, amelyek nem rendelkeznek kiterjedt burkolatgazdálkodási előzményekkel.
A CrackNet-et, amelyet Zhang és munkatársai fejlesztettek ki 2017-ben a Dél-Floridai Egyetemen, az egyik első mély CNN architektúra volt, amelyet kifejezetten és kizárólag automatizált burkolati repedésfelismerésre terveztek. Az általános célú architektúrákkal (U-Net, DeepLab) ellentétben, amelyeket biomedikai vagy természetes képszegmentációból adaptáltak, a CrackNetet a burkolati repedésmorfológiára építették a semmiből.
Az eredeti CrackNet architektúra 6 konvolúciós rétegből áll, teljesen kapcsolt tetejjel: Conv1 (5×5, lépésköz=1, 64 szűrő) → Conv2 (5×5, lépésköz=1, 64 szűrő) → MaxPool (2×2) → Conv3 (3×3, lépésköz=1, 128 szűrő) → Conv4 (3×3, lépésköz=1, 128 szűrő) → MaxPool (2×2) → Conv5 (5×5, lépésköz=1, 256 szűrő) → Conv6 (3×3, lépésköz=1, 256 szűrő) → Teljesen Kapcsolt (2048 egység) → Softmax kimenet (2 osztály: repedés vagy nem repedés). A teljes paraméterszám ~1,4 millió – körülbelül 22× kisebb, mint az U-Net (31M) és 35× kisebb, mint a DeepLabV3+ (42-55M).
A CrackNet fix méretű 64×64 pixeles foltokon működik, nem teljes képeken. A képzési adathalmaz 640 000, 1800 burkolati képből kinyert foltot tartalmazott (160 000 validációhoz, 180 000 teszteléshez). Minden foltot annak alapján osztályoznak, hogy a középső pixel repedést tartalmaz-e vagy sem – ez egy folt-alapú osztályozási megközelítés, nem pixelszintű szegmentáció. A modern változatok (CrackNet-V, CrackNet-II, CrackNet-R) a folt osztályozót teljesen konvolúciós hálózatokra cserélték a sűrű pixelszintű előrejelzéshez.
A CrackNet-V (a 2020-as javított változat) hozzáadta a Generatív Ellenálló Hálózaton (GAN) alapuló képzést. A generátor repedés-szegmentációs térképeket hoz létre a bemeneti képekből, és egy diszkriminátor hálózat megkülönbözteti a generált térképeket a valóságfeltáró annotációktól. Ez az ellenálló képzési rendszer az F1-pontszámot 0,87-re javította a CFD adathalmazon. A CrackNet-V többléptékű jellemzőfúziót is bevezetett inception-stílusú modulokkal, lehetővé téve a különböző szélességű repedések észlelését.
A CrackNet jelentősége az építészeti hatékonyságban rejlik az élvonalbeli telepítéshez. 1,4M paraméterrel és 5 ms/folt sebességgel demonstrálta, hogy a repedés-specifikus architektúra-tervezés gyártási szintű pontosságot érhet el a 2017-ben elérhető hardveren – egyetlen NVIDIA Tesla K80 GPU kevesebb mint 2 másodperc alatt tudott feldolgozni egy teljes burkolati képet (foltokból összeállítva). Ez megalapozta a valós idejű automatizált repedésfelismerés megvalósíthatóságát autópálya-sebességű felmérő járművek számára.
Az EGA-UNet, amelyet Yang és munkatársai publikáltak a Scientific Reports folyóiratban (15. kötet, 33818. cikk, 2025), a jelenlegi legmodernebb hatékony repedésszegmentációt képviseli. Az architektúra 73,1%-os Dice-együtthatót ér el mindössze ~2,3 millió paraméterrel – körülbelül 13× kisebb, mint a szabványos U-Net, miközben +3,1%-kal jobb Dice-t ér el az U-Net-hez, +11,9%-kal a SegNet-hez és +44,9%-kal a PSPNet-hez képest benchmark repedés adathalmazokon.
Három építészeti újítás különbözteti meg az EGA-UNet-et:
EG-Block (Efficient Ghost Sparse Convolution Block): Ez az építőelem “ghost” konvolúciót használ – egy technikát, amely kis számú belső jellemzőtérképet hoz létre szabványos konvolúcióval, majd olcsóbb lineáris műveleteket (3×3 mélységi konvolúciók) alkalmaz további “ghost” jellemzőtérképek előállításához. Egy kívánt C csatornás kimenethez a ghost konvolúció körülbelül C/2-t generál szabványos konv-val és C/2-t lineáris műveletekkel, csökkentve a számítást körülbelül 50%-kal a szabványos konvolúcióhoz képest azonos kimeneti csatornák mellett. Az EG-Block egy Efficient Multi-scale Attention (EMA) modult is tartalmaz, amely több térbeli léptékben súlyozza a jellemzőket.
A-RepViT Block: Ez a szabványos Vision Transformer token-keverőt Adaptive Fourier Filtering (AFF) -ra cseréli. A bemeneti jellemzőtérkép a frekvenciatartományba kerül Fast Fourier Transzform (FFT) útján, a frekvenciakomponensek adaptív szűrésre kerülnek (aluláteresztő, felüláteresztő vagy sáváteresztő a tanult súlyoktól függően), és az inverz FFT rekonstruálja a térbeli jellemzőtérképet. Az AFF O(n log n) komplexitással rögzíti a globális kontextust szemben az O(n²)-vel az önfigyelem esetében – egy 32×32-es jellemzőtérképnél (1024 elem) ez a számítást ~1M műveletről ~10K műveletre csökkenti rétegenként.
SPPF (Spatial Pyramid Pooling Fast): A legmélyebb kódoló rétegben alkalmazva az SPPF többléptékű jellemzőket aggregál három szekvenciális max-pooling művelet segítségével, változó magméretekkel (5×5, 9×9, 13×13 effektív receptív mezők), amelyek egy egységes többléptékű reprezentációba kerülnek összefűzésre. Ez számításilag hatékonyabb a párhuzamos ASPP-hez képest (amelyet a DeepLab-ban használnak), mivel a szekvenciális pooling újra felhasználja a köztes eredményeket.
Az EGA-UNet következtetési sebessége elegendő a valós idejű élvonalbeli telepítéshez. Egy NVIDIA Jetson Orin Nano Super-en a modell körülbelül 45-55 FPS-t ér el FP16 pontossággal 512×512-es bemeneteken, ami alkalmassá teszi drón-alapú vagy járműre szerelt valós idejű repedésfelismerésre. A könnyű súlyú kialakítás lehetővé teszi a telepítést dedikált GPU nélküli platformokon – 8-12 FPS-es következtetést mutattak ki egy Raspberry Pi 5-ön Hailo-8L NPU gyorsítóval (13 TOPS).
| Architektúra | Paraméterek | Tervezési elv | Kulcsinnováció | Repedés Dice/IoU | Élvonalbeli telepíthető |
|---|---|---|---|---|---|
| U-Net (2015) | ~31M | Kódoló-dekódoló, skip kapcsolatok | Térbeli részletek megőrzése | 65-68% IoU | Kvantálással |
| ResU-Net | ~7,8M | Reziduális skip kapcsolatok | Gradiens áramlás javítása | 68,5% IoU | Igen |
| DeepLabV3+ (2018) | ~42-55M | Atrous konvolúció, ASPP | Többléptékű kontextus | ~75% IoU | Nem |
| ViT-Base (2020) | 86M | Önfigyelem foltokon | Globális receptív mező | 74-78% IoU | Nem |
| DINOv3 (2025) | 21M-7B | Önfelügyelt, fagyasztott gerinc | Kevés példás átvitel | Összehasonlítható felügyelttel | Adapter fejjel |
| CrackNet (2017) | ~1,4M | Folt-alapú CNN | Burkolat-specifikus tervezés | ~87% F1 (folt) | Igen |
| EGA-UNet (2025) | ~2,3M | Ghost konv + AFF token-keverés | Könnyű súlyú + globális kontextus | 73,1% Dice | Igen |
A repedésfelismerő modellek betanításához pixelszintű annotált adathalmazok szükségesek, ahol minden képhez tartozik egy bináris maszk, amely minden pixelt repedésként (fehér, 1-es érték) vagy nem repedésként (fekete, 0-s érték) címkéz meg. Az annotációs folyamat munkaigényes – egyetlen 2000×1500 pixeles kép 15-45 perc szakértői manuális címkézést igényel vonalrajzoló eszközök használatával, majd morfológiai tágítást a teljes szélességű repedésmaszkok előállításához. A következő adathalmazok alkotják a standard benchmarkokat az akadémiai kutatás és modellfejlesztés számára.
A Crack500, amelyet Yang és munkatársai publikáltak 2020-ban, 500 RGB képet tartalmaz 2000×1500 pixel felbontásban (3 megapixel/kép). A képeket mobiltelefon-kamerákkal rögzítették burkolati felületeken a philadelphiai Temple University környékén, USA-ban. Minden képhez tartozik egy pixelszintű bináris szegmentációs maszk, amelyet manuálisan annotáltak vonalrajzoló eszközökkel. A kutatók általában az 500 képet körülbelül 1896 nem átfedő 512×512-es foltra osztják fel a modellképzéshez. A szabványos felosztás 350 képet allokál képzésre, 50-et validációra és 100-at tesztelésre. A repedéspixelek a képenkénti összes pixel körülbelül 2-5%-át teszik ki. A repedésszélességek 0,1 mm-től 5 mm-ig terjednek, és a képek többféle megvilágítási körülményt (napos, borult, árnyékos) tartalmaznak. A repedéstípusok közé tartoznak a hosszirányú, keresztirányú és alligátor mintázatok.
A DeepCrack, amelyet Liu és munkatársai publikáltak a Neurocomputing folyóiratban (2019), 537 RGB képet tartalmaz 544×384 pixel felbontásban. A képeket különböző beton- és aszfaltfelületekről – hidak, utak, alagutak és épületfalak – rögzítették, biztosítva a több helyszínre kiterjedő lefedettséget, ami ritka az egyforrású burkolati adathalmazokban. Minden képhez pixelszintű bináris annotációk tartoznak PNG maszkként. Az adathalmaz előre fel van osztva körülbelül 300 képzési és 237 tesztképre. A DeepCrack-ot kifejezetten a repedésfelismeréshez adaptált Holistically-Nested Edge Detection (HED) architektúra értékelésére hozták létre. Az adathalmaz kihívást jelentő körülményeket tartalmaz: alacsony kontraszt a repedések és a háttér között, vékony repedések (1-3 pixel széles) és texturált felületű hátterek. A repedéseket szélesség szerint kategorizálják, nem szerkezeti típus szerint.
A CFD, amelyet Shi és munkatársai publikáltak az IEEE Transactions on Intelligent Transportation Systems folyóiratban (2016), 118 képet tartalmaz 480×320 pixel felbontásban. A képeket iPhone 5-tel rögzítették Peking városi útjain, Kínában. Minden képhez pixelszintű manuális valóságfeltáró maszkok tartoznak, plusz egy “seg” mappa szuperpixel-alapú szegmentációkkal. Az adathalmazt az általános városi útfelületi körülmények tükrözésére tervezték, és zajtényezőket tartalmaz: árnyékok fákról és épületekről, olajfoltok, víztócsák és levéltakarás. A repedéspixelek az egyes képek körülbelül 4-8%-át teszik ki. Az alacsony 480×320-as felbontás kihívást jelent a vékony repedések észlelésében – a repedések akár 1-2 pixel szélesek is lehetnek. A CFD csak nem kereskedelmi kutatási célokra engedélyezett, idézési követelménnyel. Elsődleges korlátai a kis méret (118 kép), az egyetlen földrajzi terület és az egyetlen kamera.
A GAPs384 (German Asphalt Pavement Distress dataset) , a németországi Ilmenau Műszaki Egyetemről, 1969 képet tartalmaz 1920×1080 pixel felbontásban (Full HD). Ez a legnagyobb egyforrású nyilvános repedés adathalmaz képszám szerint. A képek szürkeárnyalatosak (nem RGB), ami csökkenti a fájlméretet, de kiküszöböli a repedések megkülönböztetését segítő színinformációt. Az annotációk tartalmazzák a repedéstípus osztályozást (hosszirányú, keresztirányú, alligátor) a pixelszintű repedésmaszkok mellett. A nagy felbontás és a konzisztens rögzítési körülmények (német autópálya-hálózat) értékessé teszik a GAPs384-et az európai burkolati viszonyokra szánt modellek betanításához. Az adathalmaz a repedéssúlyosságok szélesebb skáláját tartalmazza, mint a CFD vagy a Crack500.
Az NHA12D, amelyet Huang és munkatársai publikáltak (2022), 80 burkolati képet tartalmaz, amelyeket az UK A12 autópálya-hálózatról gyűjtött a National Highways (korábban Highways England). Az adathalmaz egyedülállóan 40 beton burkolati képet és 40 aszfalt burkolati képet tartalmaz, amelyeket azonos felmérési körülmények között rögzítettek digitális felmérő járművekkel. Ez a kettős felületű összetétel teszi az NHA12D-t értékessé a tartományok közötti általánosítás értékeléséhez – a modell azon képességéhez, hogy mindkét felülettípuson észlelje a repedéseket romlás nélkül. Pixelszintű valóságfeltáró annotációk tartoznak hozzá. A kis méret (80 kép) az NHA12D-t elsősorban benchmark adathalmazzá teszi, nem pedig képzési erőforrássá.
| Adathalmaz | Képek | Felbontás | Repedés%/kép | Forrás | Év | |
|---|---|---|---|---|---|---|
| Crack500 | 500 | 2000×1500 | 2-5% | Philadelphia utak | 2020 | |
| DeepCrack | 537 | 544×384 | változó | Több helyszín | 2019 | |
| CFD | 118 | 480×320 | 4-8% | Peking utak | 2016 | |
| GAPs384 | 1969 | 1920×1080 | változó | Német autópályák | 2020 | |
| NHA12D | 80 | Nagy felbontás | változó | UK A12 autópálya | 2022 | |
| CrackTree200 | 206 | 800×600 | változó | Burkolat (kihívást jelentő) | 2012 |
Minden repedés adathalmaz súlyos osztályegyensúlytalanságot mutat: a repedéspixelek a teljes pixelek 2-8%-át teszik ki, ami azt jelenti, hogy a modelleknek átlagosan 500-2000 repedéspixelből kell tanulniuk 25 000 teljes pixeles képenként (480×320 CFD felbontás). A standard keresztentrópia veszteség hatástalan – egy modell minimalizálja a veszteséget azzal, hogy “hátteret” jósol minden pixelre. Speciális veszteségfüggvények kezelik ezt:
Fókuszveszteség (Focal Loss) (Lin és munkatársai, 2017) egy moduláló tényezőt (1 − pt)γ alkalmaz a keresztentrópia veszteségre, ahol pt a modell által a valóságfeltáró osztályra előre jelzett valószínűség, és γ egy fókuszáló paraméter (jellemzően 2,0). Ez csökkenti a jól osztályozott példák (pt → 1,0) súlyát és növeli a nehéz, rosszul osztályozott példák (pt → 0,0) súlyát. Repedésfelismerésnél γ=2,0 mellett a fókuszveszteség körülbelül 4×-esen csökkenti a könnyű háttérpixelek hozzájárulását a keresztentrópiához képest.
Dice-veszteség (Dice Loss) (Milletari és munkatársai, 2016) = 1 − Dice-együttható = 1 − (2TP + ε)/(2TP + FP + FN + ε). Ez közvetlenül optimalizálja a kiértékelési metrikát. A Dice-veszteség kevésbé érzékeny az osztályegyensúlytalanságra, mint a keresztentrópia, mivel az átfedést méri a pixelenkénti pontosság helyett. Ez a standard veszteségfüggvény az U-Net-alapú repedésszegmentációhoz.
Tversky-veszteség (Tversky Loss) (Salehi és munkatársai, 2017) általánosítja a Dice-veszteséget a hamis pozitívok és hamis negatívok eltérő súlyozásával: Tversky index = TP/(TP + α·FP + β·FN). Biztonság szempontjából kritikus repedésfelismerésnél, ahol a hamis negatívok (nem észlelt repedések) veszélyesebbek, mint a hamis pozitívok (téves riasztások), az α=0,3 és β=0,7 beállítás erősebben bünteti az FN-t, mint az FP-t.
SupContrast (Felügyelt Kontrasztív Veszteség) , amely a DINOv3-alapú megközelítésekhez kapcsolódik, összehúzza a repedéspixelek foltbeágyazásait a beágyazási térben, miközben eltávolítja őket a háttérpixel-beágyazásoktól. Ez egy jól strukturált beágyazási teret hoz létre, ahol a repedéspixelek szoros klasztereket alkotnak, amelyek lineárisan elkülöníthetők a háttér klaszterektől.
Az AI-alapú repedésfelismerési megközelítések két módszertani kategóriába sorolhatók: osztályozás-alapú és szegmentáció-alapú, mindegyik eltérő kimenetekkel, metrikákkal és felhasználási esetekkel.
A repedésosztályozás meghatározza, hogy egy képrégió (képfolt, csempe vagy teljes kép) tartalmaz-e repedést. A kimenet egy bináris címke (repedés jelen / repedés hiányzik) vagy egy többosztályos címke (repedéstípus: hosszirányú, keresztirányú, alligátor). Az osztályozó modellek jellemzően könnyű súlyú CNN-ek (CrackNet 1,4M paraméterrel, MobileNetV2 3,5M paraméterrel), amelyeket foltszintű adathalmazokon tanítanak. A kimenet megadja a repedés jelenlétének valószínűségét és helyét (melyik folt tartalmaz repedést), de nem adja meg a repedés geometriáját – szélességet, hosszúságot, irányultságot vagy topológiát. Az osztályozás alkalmas gyors szűrővizsgálatokra, ahol a cél a repedések helyeinek azonosítása a nyomonkövetési ellenőrzéshez, nem az egyes repedések mérése. Az értékelés pontosságot, precizitást, visszahívást és F1-et használ a folt vagy kép szintjén.
A repedésszegmentáció (szemantikus szegmentáció) minden egyes pixelt egyénileg repedésként vagy nem repedésként osztályoz. A kimenet egy bináris maszk a bemeneti képpel azonos felbontásban, ahol minden pixelnek van egy repedésvalószínűsége. Ez teljes repedésgeometriát biztosít – szélességet a repedés minden pontján, teljes hosszúságot, irányszöget, elágazási topológiát és repedésterületet. A szegmentáció szükséges a mennyiségi burkolatállapot-értékeléshez (PCI számítás, repedésszélesség súlyossági besorolása ICAO szabványok szerint). Az értékelés pixelszintű metrikákat használ: IoU, Dice, precizitás, visszahívás és boundary F1. A szegmentációs modellek számításilag nehezebbek (U-Net 31M paraméterrel, DeepLabV3+ 42-55M paraméterrel), de lényegesen gazdagabb kimenetet biztosítanak.
Egyes rendszerek példányszegmentációt (instance segmentation) használnak (minden egyes repedést külön objektumként észlelve), amely megkülönbözteti az egymással nem összefüggő repedéseket. Ez releváns a repedésszámláláshoz (repedések száma egységnyi területen) és a repedéssűrűség-térképezéshez. A Mask R-CNN és a YOLOv8-seg gyakori példányszegmentációs architektúrák a repedésfelismeréshez.
Az IoU (Jaccard Index) a repedés-előrejelzés és a valóságfeltárás közötti átfedést méri, osztva a kettő uniójával. Ez a legszélesebb körben jelentett metrika a repedésszegmentációhoz:
IoU = TP / (TP + FP + FN)
Az értékek 0-tól (nincs átfedés) 1-ig (tökéletes átfedés) terjednek. A jellemző IoU a repedésfelismerő modelleknél 0,55 és 0,75 között van. Az IoU érzékenyebb a hamis pozitívokra és hamis negatívokra, mint a Dice, mert az unió nevezője nagyobb, mint az egyedi összegek. Egy modell, amely egy 100 pixeles valóságfeltáró repedést 60 helyes pixellel jósol (TP=60, FP=20, FN=40), IoU = 60/(60+20+40) = 0,50 értéket ér el. A szigorúbb unió nevező miatt az IoU mindig alacsonyabb vagy egyenlő, mint a Dice ugyanazon előrejelzésnél.
A Dice (más néven F1-pontszám bináris szegmentációhoz) a precizitás és a visszahívás harmonikus közepe:
Dice = 2 × TP / (2 × TP + FP + FN)
A Dice kapcsolata az IoU-val: Dice = 2·IoU / (1 + IoU). A fenti példában (IoU=0,50) Dice = 2×0,50/1,50 = 0,67. A jellemző Dice a repedésfelismeréshez 0,65 és 0,80 között van. Az EGA-UNet cikk (2025) Dice = 73,1%-ot jelent elsődleges metrikájaként. A Dice optimistább értékelést ad a szegmentációs minőségről, mint az IoU, és a kettő közötti különbség növekszik a minőség csökkenésével – egy alacsony minőségű előrejelzés IoU=0,25-tel Dice=0,40-et eredményez.
Precizitás (Pozitív Prediktív Érték) = TP/(TP+FP). A téves riasztási arányt méri: az összes repedésként címkézett pixel hányada valóban repedés? A magas precizitás (>0,85) kevés hamis pozitívot jelent. Fontos, amikor a repedésfelismerés költséges nyomon követési intézkedéseket indít el (pl. tömítő csapatok kiküldése a megjelölt helyek ellenőrzésére).
Visszahívás (Érzékenység, Valódi Pozitív Arány) = TP/(TP+FN). A nem észlelt repedések arányát méri: az összes valódi repedéspixel hányadát észlelte a modell? A magas visszahívás (>0,85) kevés nem észlelt repedést jelent. Biztonság szempontjából kritikus infrastruktúránál (futópálya-ellenőrzés kereskedelmi repülőtereken) a visszahívás előnyt élvez a precizitással szemben – egy téves riasztás kivizsgálása kevésbé súlyos következményekkel jár, mint egy valódi repedés figyelmen kívül hagyása, amely szerkezeti meghibásodáshoz vezethet a repülőgép terhelése alatt.
Az mAP a precizitást értékeli a különböző visszahívási küszöbértékek között, jellemzően 0,50-es IoU küszöbnél (mAP@50) és 0,50-től 0,95-ig 0,05-ös lépésekben (mAP@50:95). Repedésfelismerésnél objektumdetekciós feladatként (határolókeretek) az mAP azt méri, hogy a modell mennyire jól lokalizálja a repedés régiókat. Egy 2025-ös Közép-Floridai Egyetemi tanulmány, amely a Grounding DINO-t használta termikus repedésfelismerésre, 70%-os mAP@[0,5:0,95] értéket ért el. Pixelszintű szegmentációs feladatokhoz az IoU és a Dice előnyösebb, mint az mAP, mivel a repedések nem téglalap alakú struktúrák, és a határolókeret metrikák rosszul reprezentálják a szegmentációs minőséget.
| Metrika | Képlet | Tartomány | Jellemző repedésérték | Felhasználási eset |
|---|---|---|---|---|
| IoU | TP/(TP+FP+FN) | 0–1 | 0,55–0,75 | Szegmentációs minőség (szigorú) |
| Dice | 2TP/(2TP+FP+FN) | 0–1 | 0,65–0,80 | Szegmentációs minőség (megengedő) |
| Precizitás | TP/(TP+FP) | 0–1 | 0,80–0,95 | Téves riasztás ellenőrzés |
| Visszahívás | TP/(TP+FN) | 0–1 | 0,80–0,95 | Biztonság-kritikus észlelés |
| F1 | 2PR/(P+R) | 0–1 | 0,80–0,92 | Összesség |
| mAP@50 | Átl. precizitás IoU≥0,5-nél | 0–1 | 0,70–0,85 | Objektumdetekció |
| Pixelpontosság | (TP+TN)/(TP+TN+FP+FN) | 0–1 | >0,95 (félrevezető) | Nem ajánlott repedésekre |
Az AI modell bináris szegmentációs maszk kimenete megadja a repedés helyét és alakját, de az infrastruktúra-ellenőrzési szabványok fizikai repedésméreteket igényelnek – szélességet milliméterben, hosszúságot méterben és területet négyzetmilliméterben. A pixelszintű maszkok mérnöki mérésekké alakítása számítási geometriai csővezetéket igényel.
A skeletonizáció (vékonyítás) a repedés régiót egyetlen pixel széles középvonalra redukálja, amely megőrzi a repedés topológiáját (kapcsolódás, elágazás, végpontok). A Zhang-Suen vékonyítási algoritmus (1984) a standard módszer:
A Mediális Tengely Transzformáció (MAT) egy alternatív módszer a távolságtranszformációt használva: minden belső repedéspixelre számítsa ki a minimális euklideszi távolságot a repedés határáig. A skeleton azokból a pixelekből áll, amelyek lokális maximumok ebben a távolságtérképben. A MAT simább skeletonokat hoz létre vastag, szabálytalan repedésekhez, de O(n²) számítást igényel szemben a Zhang-Suen vékonyítás O(n)-ével.
Az Euklideszi Távolság Transzformáció (EDT) kiszámítja a minimális euklideszi távolságot minden skeleton pixelből (x,y) a legközelebbi repedés határ pixelhez:
D(x,y) = min(i,j)∈∂C √((x−i)² + (y−j)²)
ahol ∂C a repedés régió határpixeleinek halmaza. A repedés szélessége az (x,y) pontban = 2 × D(x,y), mivel a középvonaltól a határig mért távolság a teljes repedésszélesség fele.
A távolságtranszformáció hatékonyan számítható:
cv2.distanceTransform(): O(n) kétszeres raszter letapogatás, <1%-os hibájú közelítő euklideszi távolságot előállítvaSzélességi statisztikák a pixelenkénti szélességi tömbből származtatva:
A repedés hossza a skeletonizált középvonalból mérhető:
1. módszer – Pixel számlálás kapcsolódási korrekcióval:
2. módszer – Lánckód (Freeman-lánc):
3. módszer – Euklideszi távolság rendezett pontok között:
Elágazó repedéseknél (pl. alligátor repedések kereszteződések közelében) a teljes repedéshossz az összes ágat tartalmazza. A skeleton-t egyedi ágakra kell bontani a csomópontoknál a hosszszámítás előtt.
A szegmentációs maszkok a repedéseket pixelekben mérik; a mérnöki szabványok fizikai millimétereket igényelnek. Négy kalibrációs módszer használatos:
1. Ismert referenciaobjektum: Helyezzen egy ismert méretű objektumot (érme, vonalzó vagy kalibrációs célpont) a jelenetbe. Léptéktényező S = ismert_hossz_mm / mért_hossz_pixel. Pontosság: ±0,5-1%.
2. Lézer vetítés (Carrasco és munkatársai, 2021): Két párhuzamos lézersugár ismert távolságban (pl. 50 mm) a felületre vetítve. A lézerfoltok közötti pixel távolság megadja S = 50 mm / Δpixelt. Pontosság: ±0,02 mm.
3. Kamera geometria: mm_per_pixel = (2 × Z × tan(HFOV/2)) / Képszélesség, ahol Z = kamera-felület távolság (m), HFOV = vízszintes látómező (fok). Egy 10 m magasságban lévő drónnál 24 mm-es lencsével és 20 MP-es kamerával (5472×3648, 24 mm fókusztávolság APS-C érzékelőn 1,5× kivágási tényezővel, 36 mm effektív fókusztávolság, HFOV ≈ 51°): mm_per_pixel ≈ (2 × 10 000 × tan(25,5°)) / 5472 ≈ 1,8 mm/pixel.
4. Fix előkalibráció: Rögzített magasságú/lencsekonfigurációjú drónnál vagy felmérő járműnél előre kalibrálja S-t. 15 m magasságnál 20 MP-es kamerával és 35 mm-es lencsével S ≈ 0,5 mm/pixel.
A modell általánosítása – a felismerési pontosság fenntartásának képessége olyan burkolattípusokon, megvilágítási körülményeken és kamerarendszereken, amelyeket nem látott a képzés során – kritikus kihívás a gyártási repedésfelismerésben. Egy kizárólag a Crack500-on (philadelphiai aszfalt) tanított modell 5-15%-os IoU-t veszíthet beton futópálya felületekre alkalmazva, és egy napos nappali képeken tanított modell 10-20%-os pontosságot veszíthet borult vagy nedves körülmények között.
Az aszfalt és beton burkolatok alapvetően eltérő vizuális jellemzőket mutatnak a repedésfelismerés szempontjából. Az aszfalt sötét, egységes megjelenésű, alacsony albedóval (reflektancia 5-15%). A repedésélek aszfaltban jellemzően élesek és nagy kontrasztúak, mert az új repedésfelületek világosabb adalékanyagot tárnak fel. A beton magasabb albedóval (reflektancia 30-50%) és pettyezett felületi megjelenéssel rendelkezik a finom adalékanyag-eloszlás miatt. A betonrepedések gyakran alacsonyabb kontrasztúak, mert a repedésfelületek hasonlóan mállanak, mint a kitett felület. Az egyik felülettípuson tanított modell felület-specifikus textúra jellemzőket tanul meg (aszfalt egységes sötét háttere), amelyek hiányoznak vagy fordítottak a másik felületen (beton világosabb, texturált háttere).
Az NHA12D adathalmazt kifejezetten ennek a tartományok közötti kihívásnak az értékelésére tervezték – 40 beton és 40 aszfalt képet tartalmaz ugyanabból az UK autópálya-hálózatból. A publikált eredmények szerint a kizárólag aszfalt adathalmazokon (CFD, Crack500) tanított és NHA12D betonképeken tesztelt modellek 8-12%-os IoU-t veszítenek az azonos felületű értékeléshez képest. A domain-adaptációs technikák a következőkkel kezelik ezt:
A repedésfelismerési pontosság különböző megvilágítási körülmények között jelentősen változik. Egy szisztematikus tanulmány a Crack500-on három megvilágítási forgatókönyv alatt a következőket találta:
Adatbővítés (data augmentation) a képzés során javítja a megvilágítási robusztusságot. A repedésfelismerés szabványos adatbővítései közé tartozik:
Egy agresszív adatbővítéssel (fényerő ±40%, kontraszt ±30%, zaj σ=0,03, életlenítés mag akár 7-ig) tanított modell körülbelül 1-2% abszolút IoU-t veszít tiszta, optimális megvilágításban, de 6-8% IoU-t nyer kihívást jelentő körülmények között (árnyék, borult). A nehéz eseteken elért javulás jellemzően indokolja a könnyű eseteken elszenvedett kis büntetést valós környezetben, ahol a megvilágítás nem ellenőrzött.
A repedésfelismerő AI élvonalbeli eszközökön – drónokra, ellenőrző járművekre vagy robotokra szerelt beágyazott számítógépeken – történő telepítése lehetővé teszi a valós idejű feldolgozást felhőkapcsolat nélkül, ami kritikus távoli repülőterek, nagy autópálya-hálózatok és biztonság szempontjából kritikus alkalmazások esetében, ahol a késleltetést ezredmásodpercekben kell mérni, nem másodpercekben.
NVIDIA Jetson Orin Nano Super (67 TOPS INT8, 7-15W, $249) az elsődleges élvonalbeli platform drón-alapú repedésfelismeréshez. A 1024 CUDA mag és 32 Tensor mag elegendő áteresztőképességet biztosít a valós idejű szegmentációhoz 30-50 FPS (FP16) sebességgel optimalizált architektúrákon (EGA-UNet, ResU-Net). A 8 GB LPDDR5 memória (102 GB/s sávszélesség) kezeli az 512×512-es batch következtetést. Formátum: 69,6×45 mm modul, alkalmas drónrakomány-integrációra.
NVIDIA Jetson Orin NX (100 TOPS, 10-25W) nagyobb áteresztőképességet kínál több kamerafolyam egyidejű feldolgozásához – hasznos előre-, oldal- és lefelé néző kamerákkal felszerelt ellenőrző járműveknél.
NVIDIA Jetson AGX Orin (275 TOPS, 15-60W) lehetővé teszi teljes méretű modellek (DeepLabV3+, TransUNet) telepítését gyártási képkockasebességgel. Járműre szerelt rendszerekhez használják, ahol az energiafogyasztás kevésbé korlátozott.
Raspberry Pi 5 (quad-core Cortex-A76 @ 2,4 GHz, $60-80) Hailo-8L NPU-val (13 TOPS, M.2 HAT) alacsonyabb költségű élvonalbeli megoldást nyújt. Könnyű súlyú modellek (U-Net ghost konvolúcióval, MobileNetV3 szegmentációs fej) 5-12 FPS-t érnek el 512×512-es bemeneteken. Teljes rendszerköltség kamerával és drónrögzítéssel együtt: ~$200.
| Platform | TOPS | Teljesítmény | Ár | Repedés FPS (FP16) | Repedés FPS (INT8) | |
|---|---|---|---|---|---|---|
| Jetson Orin Nano Super | 67 | 7-15W | $249 | 30-50 | 50-80 | |
| Jetson Orin NX | 100 | 10-25W | $499 | 40-60 | 70-100+ | |
| Jetson AGX Orin | 275 | 15-60W | $1,999 | 60-100+ | 100-200+ | |
| Raspberry Pi 5 + Hailo-8L | 13 | 5-12W | ~$80 | 5-12 | 8-15 |
TensorRT (NVIDIA következtetésoptimalizáló SDK) gráfoptimalizálást, kernel automatikus hangolást és pontosságkalibrációt végez:
ONNX Runtime platformok közötti telepítést biztosít végrehajtási szolgáltatókkal CUDA (GPU), TensorRT (NVIDIA), OpenVINO (Intel), CoreML (Apple) és ARM CPU számára. Tipikus gyorsítás: 1,2-1,5× a nyers PyTorch következtetéshez képest CPU-n.
Csatornanyírás eltávolítja a kevésbé fontos konvolúciós csatornákat L1-norma nagyság alapján (a nullához közeli súlyok minimálisan járulnak hozzá). 30-50%-kal csökkentheti a FLOPs-ot 1-2% pontosságvesztéssel a repedésszegmentációhoz. Tudásdesztilláció egy kis tanuló modellt (pl. EGA-UNet 2,3M paraméterrel) tanít be, hogy utánozza a nagy tanító modell (pl. DeepLabV3+ 55M paraméterrel) kimenetét a KL-divergencia minimalizálásával a kimeneti valószínűségi eloszlások között. A tanuló eléri a tanító pontosságának 95-98%-át 70-90%-kal kevesebb paraméterrel.
Több drónos futópálya- vagy autópálya-ellenőrzéseknél a teljes videó feltöltése (4K, 30 FPS, H.264) 15-25 Mbps-ot igényel drónonként – meghaladva a cellás sávszélességet vidéki területeken és kizárva a valós idejű felhőalapú elemzést. Egy szelektív feltöltési stratégia kezeli ezt:
Az AI pontosság fejlődése ellenére a biztonság szempontjából kritikus infrastruktúra-ellenőrzés (kereskedelmi repülőtéri futópályák, államközi autópálya-hidak, gátfelületek) ember a hurokban verifikációt igényel – egy képzett ellenőr áttekinti az AI által generált repedéstérképeket, és megerősíti, elutasítja vagy módosítja a megállapításokat. Ezt szabályozási követelmények (ICAO, FAA, ASTM) vezérlik, amelyek szakmérnöki jóváhagyást írnak elő a biztonsági döntéseket érintő állapotjelentéseken.
A tipikus ember a hurokban munkafolyamat AI repedésfelismeréshez:
Ez a visszacsatolási hurok folyamatosan javítja a modell teljesítményét. 3-5 újratanítási ciklus után ember által ellenőrzött szélsőséges esetekkel a hamis pozitív arányok jellemzően 40-60%-kal csökkennek, és a visszahívás 5-10%-kal javul az ellenőrzési programban szereplő burkolattípusokon és körülményeken.
Vékony repedés észlelési felbontási korlát: A 2-3 pixelnél keskenyebb repedések nem észlelhetők vagy mérhetők megbízhatóan a modell minőségétől függetlenül – a fizikai információ egyszerűen nincs jelen a képen. 1,0 mm/pixel talajmintavételi távolságnál (jellemző drónos ellenőrzéseknél 10-15 m magasságban) a 0,3 mm alatti repedések nem észlelhetők. Ez egy merev fizikai korlát, amelyet a képalkotó platform felbontása határoz, nem az AI modell.
Tartományok közötti romlás: Az egyik burkolattípuson (aszfalt) vagy földrajzi régióban (USA utak) tanított modellek 5-15%-os IoU-t veszítenek, ha eltérő burkolattípusokra (beton, kompozit) vagy régiókra (európai, ázsiai útfelületek) telepítik őket. A domain-adaptációs technikák csökkentik ezt a különbséget, de nem szüntetik meg teljesen. A gyártási telepítés helyspecifikus finomhangolást vagy több régiós képzést igényel.
Hamis pozitív konzisztencia: Míg az általános hamis pozitív arány alacsony (az észlelések 5-15%-a), a hamis pozitívok specifikus körülmények között csoportosulnak: az építési hézagok az illesztések 20-40%-án produkálnak hamis észleléseket; a hosszirányú hornyok (bordázás) periodikus hamis mintázatokat hoznak létre; és a felületi olajfoltok szabálytalan hamis pozitívokat eredményeznek. Ezek a szisztematikus meghibásodási módok szabályalapú utófeldolgozási szűrőket igényelnek (pl. “észlelések eltávolítása ismert hézagvonalak mentén GIS adatokból”).
Nedves és gyenge fényviszonyok: A nedves burkolaton a teljesítmény akár 40%-os IoU-val romlik a száraz körülményekhez képest. Az éjszakai ellenőrzés aktív megvilágítást igényel (LED reflektorok drónon vagy járművön), amely tükröződést és árnyék műtermékeket okoz, tovább csökkentve a pontosságot. Eső, köd és hóborítás gyakorlatilag lehetetlenné teszi a repedésfelismerést látható spektrumú kamerákkal.
Szabályozási elfogadás: Egyetlen jelentős légi közlekedési vagy közlekedési hatóság (ICAO, FAA, ASTM, AASHTO) sem publikált szabványokat az AI-alapú repedésfelismerésre mint önálló ellenőrzési módszerre. A jelenlegi előírások megkövetelik az AI eredmények ellenőrzését hagyományos módszerekkel (lánchúzás, magmintavétel, vizuális ellenőrzés hitelesített ellenőr által). Ez korlátozza az AI telepítésének működési költségmegtakarítását, mivel az ellenőri idő továbbra is szükséges a verifikációhoz.
Önfelügyelt tanulás alacsony adatmennyiségű környezetekhez: A DINOv3 fagyasztott gerinc paradigmája demonstrálja, hogy a repedésfelismerő modellek 50-100 címkézett képpel taníthatók 500-2000 helyett. A jövőbeli fejlesztések ezt nulla példás repedésfelismerésre terjesztik ki – olyan modellekre, amelyek bármilyen felülettípuson észlelik a repedéseket tartományspecifikus képzés nélkül, kihasználva a milliárdnyi változatos képből tanult alapmodell jellemzőket.
Fizikai információs neurális hálózatok: A jelenlegi modellek tisztán vizuális jellemzőket tanulnak. A fizikai információs modellek hőátadási egyenleteket fognak tartalmazni a termikus repedésfelismeréshez, feszültség-nyúlás modelleket a repedésterjedés előrejelzéséhez a detektált geometriából, valamint tehermodelleket a repülőtéri burkolatokhoz (repülőgép súly, gumiabroncsnyomás, áthaladási gyakoriság) a javítási sürgősség rangsorolásához szerkezeti kockázat alapján, nem csak repedésméretek alapján.
Videó-alapú időbeli elemzés: A jelenlegi rendszerek egyedi képkockákat elemeznek. A videó-alapú modellek követni fogják a repedések előrehaladását több felmérési áthaladáson keresztül (évről évre összehasonlítás), észlelik a repedések nyílását/záródását forgalmi terhelés alatt (repedésszélesség mérése repülőgép áthaladása előtt, alatt és után), és szűrik az átmeneti hamis pozitívokat (levelek, törmelék, állóvíz) időbeli konzisztencia-ellenőrzéseken keresztül.
Többmodalitású érzékelőfúzió: A látható spektrumú kamerák kombinálása termikus infravörössel (IRT), talajradarral (GPR), LiDAR magassági profilkészítéssel és ultrahangos tomográfiával gazdagabb hibajellemzést eredményez. Egy egységes AI modell, amely minden modalitást egyidejűleg dolgoz fel, felületi repedéseket (látható), felszín alatti delaminációt (IRT), üregtartalmat (GPR) és felületi érdességet (LiDAR) észlel egyetlen áthaladás során – átfogó szerkezeti állapotfelmérést biztosítva a repedésfelismerésen túl.
Élvonalbeli natív transzformer architektúrák: A Vision Transformerek O(n²) számítási költsége jelenleg korlátozza az élvonalbeli telepítést. A hardverspecifikus architektúrák (NVIDIA TensorRT-re optimalizált, Qualcomm AI Engine-re leképezett, Apple Neural Engine-re fordított) kombinálva lineáris komplexitású figyelmi mechanizmusokkal (Performer, Linformer, Mamba állapottér modellek) transzformer-szintű pontosságot hoznak az élvonalbeli eszközökre 2027-re. A Mamba-UNet architektúra (2024), amely állapottér modelleket használ figyelem helyett, versenyképes repedésszegmentációt ér el (71,5% mIoU) az EGA-UNet számítási költségének körülbelül 40%-ánál.
Szabályozási fejlődés: Ahogy az AI repedésfelismerés működési bizonyítékokat halmoz fel repülőtéri és autópálya-hálózatokon keresztül, a szabványügyi testületek várhatóan AI-specifikus ellenőrzési szabványokat publikálnak – meghatározva a validálási követelményeket, pontossági küszöbértékeket, újratanítási gyakoriságot és emberi felügyeleti protokollokat. Az FAA AI ütemterve a repülésben (FAA AI Strategic Plan, 2024) kifejezetten tartalmazza az infrastruktúra-ellenőrző AI-t a tervezett szabályozási keretrendszer-fejlesztési ciklusában 2026-2028-ra.

Telepítsen AI-alapú repedésfelismerést drón- és járműfelvételekből automatizált futópálya-, út- és hídfedélzet-ellenőrzésekhez. Kapjon pixelpontos repedésszegmentációt, szélességmérést és súlyossági besorolást, integrálva az eszközgazdálkodási rendszerébe.
A szemantikai szegmentáció kategóriacímkét rendel minden pixelhez egy képben, lehetővé téve a teljes jelenet értelmezését infrastruktúra-ellenőrzés során. Lefed...
A számítógépes látás mesterséges intelligencián alapuló technológia, amely lehetővé teszi a gépek számára, hogy értelmezzék és feldolgozzák a vizuális adatokat....
Az automatizált repedésszélesség-mérés a felismert repedések nyílásszélességét határozza meg szegmentált pixelmaszkokból, euklideszi távolságtranszformáció segí...