Mi a különbség a példányalapú szegmentálás és a szemantikus szegmentálás között?

A szemantikus szegmentálás minden képpixelt osztály szerint címkéz, de nem tesz különbséget az azonos osztályba tartozó különálló objektumok között. A példányalapú szegmentálás ennél tovább megy azáltal, hogy egyedi azonosítót rendel minden egyes objektumpéldányhoz. Például egy három repedéssel rendelkező futópálya felületen a szemantikus szegmentálás az összes repedéspixelt azonos színnel jelölné, míg a példányalapú szegmentálás mindhárom repedést különböző színnel és egyedi azonosítóval (Repedés-001, Repedés-002, Repedés-003) látná el. Ez a megkülönböztetés kritikus fontosságú a hibák számlálása és a hibánkénti mérés szempontjából.

Melyik példányalapú szegmentációs architektúra a legjobb az infrastruktúra-hibák észlelésére?

A legjobb architektúra a felhasználási esettől függ. A Mask R-CNN nagy pontosságot kínál (37-47 AP a COCO-n), de lassabb 5-10 FPS sebességgel, így ideális offline elemzéshez. A YOLACT 30+ FPS sebességgel működik, és alkalmas valós idejű drónos ellenőrzésre. A Mask2Former a legmodernebb teljesítményt éri el 50,1 AP-vel a COCO példányalapú szegmentálásban transzformátor-alapú maszkolt figyelem használatával, 3x gyorsabban konvergálva, mint a hagyományos transzformátor modellek. Infrastruktúra-ellenőrzéshez a Mask2Former és a Cascade Mask R-CNN általában a legjobb pontosságot nyújtja az összetett hibaalakzatokhoz.

Hogyan teszi lehetővé a példányalapú szegmentálás a hibák számlálását?

A példányalapú szegmentálás egyedi numerikus azonosítót rendel minden észlelt hibapéldányhoz a következtetés során. Egy utófeldolgozási lépés felsorolja a képen vagy felmérési területen található összes egyedi példányazonosítót, előállítva a teljes hibaszámot. Ez a szám rétegezhető hibátípus (repedés vs. kipattogzás vs. kátyú), súlyossági osztály vagy térbeli régió szerint. Ellentétben a szemantikus szegmentálással, amely csak a teljes pixeles területet jelenti osztályonként, a példányalapú szegmentálás megadja a diszkrét hibapéldányok pontos számát, ami elengedhetetlen a Burkolatállapot-index (PCI) számításokhoz és a karbantartási prioritások meghatározásához.

Mik a példányalapú szegmentációs modellek tanítási követelményei?

A példányalapú szegmentálás sokszög szintű (nem csak pixeles szintű) annotációkat igényel, ahol minden egyes hibapéldányt egy zárt sokszöggel kell körülhatárolni. Minden sokszöghez osztálycímkét kell rendelni, és külön annotációs egységként kell kezelni. Tipikus infrastruktúra-adatkészletek 500-2000+ annotált képet igényelnek hibakategóriánként. A COCO-stílusú JSON annotációs formátum szegmentációs sokszögekkel és határolókeretekkel a szabvány. Adatbővítés (forgatás, skálázás, elasztikus transzformációk) és szintetikus adatgenerálás (pl. CrackMover) általánosan használt a korlátozott valós annotált adatok kezelésére.

Képes a példányalapú szegmentálás a hibák időbeli nyomon követésére?

Igen, a példányalapú szegmentálás lehetővé teszi a hibák időbeli nyomon követését példány-asszociáción keresztül az ismételt felmérések során. Minden, az 1. felmérésben (T1 időpont) észlelt hibapéldány egy állandó példányazonosítót kap. Amikor a 2. felmérés (T2 időpont) elvégzésre kerül, a modell újra észleli a példányokat. Egy asszociációs algoritmus párosítja a példányokat a felmérések között térbeli elhelyezkedés (GPS koordináták), maszk átfedés (IoU) és morfológiai hasonlóság alapján. Ez lehetővé teszi a repedésszélesség növekedésének, a kipattogzási terület növekedésének és az új hibák képződési ütemének számszerűsítését — ami kritikus a prediktív karbantartási modellekhez.

Milyen kiértékelési mérőszámokat használnak a példányalapú szegmentáláshoz?

A példányalapú szegmentálást COCO-stílusú Átlagos Precizitás (AP) mérőszámokkal értékelik. Az AP@IoU=0,50 a detektálást méri egy megengedő átfedési küszöbnél, míg az AP@IoU=0,75 nagy pontosságot követel meg. Az elsődleges AP mérőszám (az IoU küszöbök 0,50-től 0,95-ig történő átlagolása 0,05-ös lépésekben) átfogó értékelést nyújt. A Maszk IoU (Intersection over Union az előrejelzett és a valós maszkok között) az alapvető illesztési kritérium. Osztályonkénti AP, AR (Átlagos Visszahívás) és F1-pontszám szintén jelentésre kerül. Infrastruktúra-specifikus kiértékeléshez a hibánkénti AP-t 0,50 és 0,75 IoU küszöböknél általánosan használják.

Mi a különbség a Mask R-CNN és a YOLACT között a repedésszegmentálásban?

A Mask R-CNN egy kétfázisú detektor, amely először jelölt régiókat (RPN) javasol, majd maszkokat prediktál minden régióhoz. A YOLACT egy egyfázisú valós idejű módszer, amely egyidejűleg generál prototípus maszkokat és lineáris együtthatókat. Repedésszegmentálás esetén a Mask R-CNN általában magasabb maszkpontosságot ér el (33,3 AP vs. ~28-30 AP a YOLACT esetében repedés adatkészleteken), de 5-10 FPS sebességgel fut. A YOLACT 30+ FPS-t ér el, így alkalmas valós idejű UAV-ellenőrzésre. Mindkettőt sikeresen alkalmazták burkolati repedésdetektálásra kutatási tanulmányokban.

Hogyan alkalmazható a példányalapú szegmentálás a kátyúk és kipattogzások észlelésére?

A példányalapú szegmentálás különösen hatékony a kátyúk és kipattogzások esetében, mert ezek a hibák diszkrét, határolt objektumok, egyértelmű térbeli kiterjedéssel. Minden kátyúpéldány egyedi maszkot, területmérést (pixelben vagy mm²-ben), határolókeretet és centroid helyet kap. Ez lehetővé teszi a kátyúnkénti súlyossági osztályozást terület és mélység alapján, a kátyúk számlálását futópálya-szakaszonként, és a kátyúk növekedésének időbeli nyomon követését. A Mask R-CNN és YOLACT használatával végzett kátyúdetektálási tanulmányok 40-55 AP értékeket jelentenek úti adatkészleteken, a példány szintű maszkok pontosabb méréseket biztosítva, mint a határolókeretek önmagukban.

Példányalapú Szegmentálás Egyedi Hibák Azonosításához

A példányalapú szegmentálás azonosítja és körülhatárolja az egyes objektum- vagy hibapéldányokat pixeles szinten, egyedi azonosítót rendelve minden repedéshez, kipattogzáshoz vagy kátyúhoz. Ez lehetővé teszi a hibánkénti számlálást, méretezést és időbeli nyomon követést. Lefedi a Mask R-CNN-t és más példányarchitektúrákat, a szemantikus szegmentálástól való különbséget, valamint az infrastruktúra-hibákra való alkalmazást.

Példányalapú szegmentálás egy számítógépes látás feladat, amely azonosítja, osztályozza és körülhatárolja az egyes objektumpéldányokat pixeles szinten azáltal, hogy egyedi példányazonosítót rendel minden észlelt objektumhoz. Infrastruktúra-ellenőrzés esetén a példányalapú szegmentálás azt jelenti, hogy minden egyes repedés, kipattogzás, kátyú, hézaghiba vagy felületi romlás saját pixeltökéletes maszkot kap egyedi azonosítóval – lehetővé téve a mérnökök számára, hogy minden hibát egymástól függetlenül számláljanak, mérjenek és kövessenek nyomon, ahelyett hogy egy adott típus összes hibáját egyetlen differenciálatlan tömegként kezelnék.

Drónos légifelvétel repülőtéri futópálya burkolatáról példányalapú szegmentációs fedvényekkel, amelyek több repedést és hibát mutatnak, mindegyik egyedi színű maszkokkal és azonosító címkékkel kiemelve

Meghatározás és Különbség a Szemantikus Szegmentálástól

A példányalapú szegmentálás egy meghatározott pozíciót foglal el a számítógépes látás hierarchiájában, amely az objektumdetektálás (osztálycímkékkel ellátott határolókeretek) és a szemantikus szegmentálás (pixelszintű osztálycímkék példányok megkülönböztetése nélkül) között helyezkedik el. Olyan problémát old meg, amelyet e két feladat önmagában nem képes kezelni: azt a képességet, hogy egy kategória összes pixelét osztályozza és megkülönböztesse, hogy mely pixelek tartoznak az adott kategórián belül melyik konkrét objektumhoz.

A szemantikus szegmentálás minden képpixelt a hozzá tartozó osztály szerint címkéz. Egy három hosszirányú repedést tartalmazó repülőtéri futópálya felvételen a szemantikus szegmentációs modell az összes repedéspixelt azonos osztályszínnel (pl. piros) jelölné. Az eredmény egyetlen bináris vagy többosztályos maszk, ahol az összes repedés – függetlenül attól, hogy különálló fizikai hibákról van szó – egyetlen folytonos osztályrégióba olvad össze. Ez a megközelítés megadja a teljes repedésterületet pixelekben, de nem nyújt információt arról, hogy hány egyedi repedés létezik, mekkorák az egyedi méreteik, vagy hogyan oszlanak el térben diszkrét hibákként.

Az objektumdetektálás határolókereteket helyez el minden észlelt objektum köré, és osztálycímkét rendel hozzájuk. Egy detektor ugyanazon a futópálya képen három téglalap alakú keretet rajzolna a három repedés köré. Az eredmény megadja a repedések számát és hozzávetőleges helyzetét, de a határolókeretek alapvető korlátot jelentenek: nem hibás burkolatot is tartalmaznak a téglalapon belül, lehetetlenné téve a pontos területmérést. Egy kanyargós repedés köré rajzolt határolókeret sokkal több nem repedés pixelt tartalmaz, mint repedés pixelt.

A példányalapú szegmentálás teljes mértékben feloldja ezeket a korlátokat. A modell bináris maszkok halmazát állítja elő – egyet minden észlelt példányhoz –, mindegyiket osztálycímkével és egyedi példányazonosítóval párosítva. A három repedés esetén az eredmény három különálló bináris maszk lenne: Repedés-001, Repedés-002 és Repedés-003, amelyek pontosan az adott repedéshez tartozó pixeleket mutatják, és semmi mást. A maszkok követik az egyes hibák pontos kontúrját, körülvéve minden ágat, ívet és szabálytalanságot. Ez példányonkénti pixelszintű geometriát biztosít, amely támogatja a precíz területmérést, a morfológiaelemzést és az egyedi hibák nyomon követését.

A kritikus működési különbség az ellenőrzési eredményekben mutatkozik meg. Egy szemantikus szegmentációs jelentés azt közölheti: „Teljes repedésterület: 45 230 pixel." Egy példányalapú szegmentációs jelentés ezt közli: „Három repedés észlelve. Repedés-001: 12 400 px², Repedés-002: 18 100 px², Repedés-003: 14 730 px²." Utóbbi sokkal használhatóbb a karbantartási tervezés szempontjából – megmondja a burkolati mérnöknek a javítást igénylő hibák pontos számát és azok egyedi súlyosságát.

Ez a példányonkénti megkülönböztetés formalizált a COCO (Common Objects in Context) adatkészlet szabványban, amely a példányalapú szegmentációs annotációkat objektumok listájaként definiálja. Minden objektum tartalmaz egy szegmentációs sokszöget (az objektum kontúrját alkotó x,y koordináták listája), egy határolókeretet, egy kategóriaazonosítót és egy képazonosítót. A COCO-ban használt kiértékelési mérőszámok – különösen az Átlagos Precizitás (AP) – a de facto szabványt jelentik a példányalapú szegmentációs modellek összehasonlításához, és közvetlenül alkalmazhatók az infrastruktúra-hibák észlelésére szolgáló modellekre.

Architektúrák: Mask R-CNN, YOLACT, SOLO és Mask2Former

Több mélytanulási architektúrát fejlesztettek ki példányalapú szegmentáláshoz, mindegyik eltérő kompromisszumokkal a pontosság, sebesség és architekturális összetettség terén.

Mask R-CNN: A Kétfázisú Benchmark

A Mask R-CNN-t, amelyet He et al. mutatott be a Facebook AI Research-nél 2017-ben, a Faster R-CNN-t egészíti ki egy maszk előrejelzési ág hozzáadásával párhuzamosan a meglévő határolókeret-regressziós és osztályozási ágakkal. Az architektúra kétfázisú kialakítást követ. Az első fázisban egy Régiójavasló Hálózat (RPN) pásztázza a háttérhálózati CNN (általában ResNet-50, ResNet-101 vagy ResNeXt) által kinyert jellemzőtérképeket, és javasol jelölt objektumrégiókat (RoI-kat vagy Érdeklődési Régiókat). A második fázisban minden RoI-t RoIAlign-on keresztül dolgoznak fel – ami a Mask R-CNN kritikus hozzájárulása, amely bilineáris interpolációt használ a pontos jellemzőértékek kiszámításához minden mintavételi ponton, kiküszöbölve a RoIPool kvantálási hibáit – hogy rögzített méretű jellemzőtérképeket állítson elő. Ezek a jellemzőtérképek három párhuzamos ágba kerülnek: egy osztályozási ágba (osztály előrejelzés), egy határolókeret regressziós ágba (keret koordináták) és egy maszk ágba (egy teljesen konvolúciós hálózat, amely bináris maszkot állít elő minden osztályhoz minden RoI esetében).

A maszk ág 28×28 pixel felbontású maszkot állít elő RoI-nként és osztályonként. A tanítás során a veszteségfüggvény kombinálja az osztályozási veszteséget, a határolókeret veszteséget és a maszk veszteséget (bináris keresztentrópia pixelekre átlagolva). A kulcsfontosságú felismerés az, hogy a maszk előrejelzés és az osztályozás szét vannak választva: a maszk ág minden osztályhoz előre jelez maszkokat, de csak a valós osztálynak megfelelő maszk járul hozzá a veszteséghez. Ez az osztályonkénti maszk előrejelzés arra kényszeríti a modellt, hogy osztály-specifikus alakjellemzőket tanuljon meg.

A Mask R-CNN 37-47 AP-t ér el a COCO példányalapú szegmentálásban (a háttérhálózattól függően), a ResNet-50-FPN körülbelül 37,1 AP-t, a ResNeXt-101-FPN pedig 39,4-47,1 AP-t ér el. A következtetési sebesség 5-10 FPS között mozog egy modern GPU-n. Infrastruktúra-alkalmazásokhoz a Mask R-CNN ResNet-50-FPN háttérhálózattal a leggyakrabban használt konfiguráció, amelynek jelentett teljesítménye 33,3 AP burkolati repedés adatkészleteken és 40-55 AP kátyú adatkészleteken.

YOLACT: Valós Idejű Példányalapú Szegmentálás

A YOLACT-ot (You Only Look At CoefficienTs) Bolya et al. mutatta be 2019-ben az első valós idejű példányalapú szegmentálási módszerként, amely képes 30+ FPS sebességgel futni. Ellentétben a Mask R-CNN kétfázisú megközelítésével, a YOLACT egy egyfázisú, teljesen konvolúciós módszer, amely a példányalapú szegmentálást két párhuzamos részfeladatra bontja: prototípus maszkok halmazának előállítására a teljes képhez, és példányonkénti lineáris kombinációs együtthatók előrejelzésére.

Az első részfeladatban egy Jellemző Piramis Hálózati háttérhálózat prototípus maszkok halmazát állítja elő – k maszk együtthatót (általában 32-t), amelyek lefedik a teljes képet. Ezek a prototípusok gyakori alakmintákat ragadnak meg (pl. vízszintes, függőleges, ívelt, körkörös). A második részfeladatban az előrejelző fej lineáris együtthatók vektorát állítja elő minden észlelt példányhoz. A végső maszk minden példányhoz a prototípusok lineáris kombinációjaként kerül kiszámításra, súlyozva a példány együtthatóvektorával, majd egy szigmoid aktiváció és a prediktált határolókerettel történő kivágás következik.

A YOLACT 29-31 AP-t ér el a COCO-n 30-45 FPS sebességgel egy Titan X GPU-n. A gyorsabb YOLACT-550 változat 28,2 AP-t ér el 56 FPS sebességnél. A YOLACT++ javítja a maszk minőségét deformálható konvolúciók és jobb prototípus felmintavételezés hozzáadásával, elérve a 34,1 AP-t 33,5 FPS sebességnél. Infrastruktúra-ellenőrzéshez a YOLACT-ot sikeresen alkalmazták valós idejű betonrepedés-detektálásra, versenyképes eredményeket érve el, miközben UAV-fedélzeti feldolgozásra alkalmas sebességgel működik. Az ára az alacsonyabb maszkhatár-pontosság a Mask R-CNN-hez képest, ami befolyásolhatja a pontos repedésszélesség-mérést.

SOLO: Teljesen Konvolúciós Detektálás Nélkül

A SOLO-t (Segmenting Objects by LOcations), amelyet Wang et al. mutatott be 2020-ban, alapvetően eltérő megközelítést alkalmaz: teljesen kiküszöböli a detektálási ágat, és közvetlenül prediktál példánymaszkokat egy teljesen konvolúciós architektúra segítségével. Az alapötlet az, hogy minden példány egyedileg azonosítható a középpontjának helye és az objektum mérete alapján. A SOLO a bemeneti képet egy S×S rácsra osztja. Minden rácssejt felelős azon példányok bináris maszkjának előrejelzéséért, amelyek középpontja az adott sejtbe esik. Minden rácssejt C csatornás maszkokat (osztályonként egyet) plusz osztályvalószínűségeket prediktál.

A SOLO architektúrája egy háttérhálózatból (ResNet-FPN), egy kategória ágból, amely osztályvalószínűségeket prediktál minden rácssejtre, és egy maszk ágból, amely S² bináris maszkot prediktál képenként (egyet minden rács pozícióhoz) áll. A következtetés során a sejtenkénti osztály előrejelzés és maszk előrejelzés kombinálódik: minden rácssejt esetében a küszöb feletti konfidenciával rendelkező prediktált osztály kiválasztja a megfelelő maszkcsatornát. A SOLOv2 javít az eredetin maszkkernel előrejelzés és maszkjellemző korreláció bevezetésével, elérve 37,8 AP-t a COCO-n a Mask R-CNN-hez hasonló sebességgel.

A SOLO helyalapú paradigmája különösen érdekes az infrastruktúra-hibák szempontjából, mert természetes módon rendeli hozzá minden hibát a térbeli pozíciójához anélkül, hogy határolókeret-javaslatokra támaszkodna, ami problémás lehet a nagymértékben elnyújtott hibák, például a kép nagy részén átnyúló repedések esetén.

Mask2Former: Transzformátor-Alapú Univerzális Szegmentálás

A Mask2Former, amelyet Cheng et al. mutatott be a Facebook AI Research-nél (CVPR 2022), a transzformátor-alapú szegmentálás jelenlegi csúcstechnológiáját képviseli. A Mask2Former egyesíti a szemantikus, példányalapú és panorámikus szegmentálást egyetlen architektúrán belül azáltal, hogy minden szegmentációs feladatot maszk osztályozásként kezel. Az architektúra három összetevőből áll: egy háttérhálózatból (Swin Transformer vagy ResNet), amely többskálájú jellemzőket von ki; egy pixel dekóderből, amely a jellemzőket nagy felbontású pixelenkénti beágyazásokká mintavételezi fel; és egy transzformátor dekóderből maszkolt figyelemmel, amely prediktál egy N lekérdezésből álló halmazt (általában 100-at), mindegyikhez egy bináris maszkot és egy osztálycímkét.

A kulcsinnováció a maszkolt figyelem – egy mechanizmus, ahol minden transzformátor dekóder lekérdezés csak az előző dekóderrétegből prediktált maszk régióra figyel, ahelyett hogy a teljes jellemzőtérképre figyelne. Ez 3×-kal csökkenti a számítási igényt a szabványos transzformátor modellekhez képest, és arra kényszeríti minden lekérdezést, hogy egy adott régióra specializálódjon, javítva a konvergencia sebességét és a maszk minőségét.

A Mask2Former 50,1 AP-t ér el a COCO példányalapú szegmentálásban Swin-L háttérhálózattal és 57,8 PQ-t a COCO panorámikus szegmentálásban. Tanítása 3×-kal gyorsabban konvergál, mint a korábbi transzformátor-alapú megközelítések (pl. MaskFormer, DETR). Infrastruktúra-alkalmazásokhoz a Mask2Former azon képessége, hogy átfedő és szomszédos hibapéldányokat kezeljen tanult lekérdezés-alapú maszk előrejelzésen keresztül, különösen hatékonyvá teszi sűrű hibamezők, például krokodilrepedés vagy hálós repedésmintázatok esetén.

Architektúra	Típus	COCO AP	FPS	Erősségek	Infrastruktúra Használat
Mask R-CNN	Kétfázisú CNN	37-47	5-10	Magas maszkpontosság, jól bevált	Offline hibaelemzés
YOLACT	Egyfázisú CNN	29-34	30-56	Valós idejű sebesség	UAV fedélzeti feldolgozás
SOLOv2	Detektálás-mentes CNN	37.8	~10	Nincs anchor/proposal függőség	Elnyújtott hibapéldányok
Mask2Former	Transzformátor	50.1	~15	Csúcstechnológiai pontosság, egységes keretrendszer	Sűrű hibamezők

Példányalapú Szegmentálás vs. Szemantikus Szegmentálás Repedések Esetén

A választás a példányalapú és a szemantikus szegmentálás között a repedésdetektálásban az ellenőrzési program specifikus analitikai követelményeitől függ, és a két megközelítés alapvetően eltérő eredményeket produkál.

A szemantikus szegmentálás repedések esetén a teljes repedéshálózatot egyetlen előtérosztályként kezeli. A modell megtanulja minden pixel besorolását „repedés" vagy „háttér" kategóriába. Az eredmény egy bináris maszk, ahol az összes repedéspixel fehér, az összes nem repedéspixel pedig fekete. Ennek a megközelítésnek több jól dokumentált erőssége van: természetesen kezeli az összefüggő repedéshálózatokat (egy elágazó repedés egyetlen összefüggő komponens), egyszerűbb annotációkat igényel (pixelszintű ecsetvonások példányonkénti sokszögek helyett), és a tanítási összetettség alacsonyabb kevesebb kimeneti csatornával. A repedésekhez használt legmodernebb szemantikus szegmentációs modellek – mint a DeepCrack (93%-os F1 a CrackTree260-on), a CrackU-Net (97,5%-os F1 a CRACK500-on) és a SwinUNETR (90,5%-os F1 többszempontú repedés adatkészleteken) – kiváló pixelszintű pontosságot érnek el.

A szemantikus szegmentálásnak azonban van egy kritikus korlátja az infrastruktúra állapotfelmérése szempontjából: nem képes megszámolni az egyedi repedéseket. Amikor a szemantikus szegmentálás 5000 repedéspixelt jelent, nem ad információt arról, hogy ezek a pixelek egyetlen 5000 pixeles repedéshez vagy ötven 100 pixeles repedéshez tartoznak-e. Ez a megkülönböztetés kritikus a Burkolatállapot-index (PCI) számításoknál, ahol a repedéssűrűség (repedések száma egységnyi területre vetítve) és az egyedi repedések súlyossága különálló kiértékelési paraméterek az ASTM D5340 és az ICAO Annex 14 ellenőrzési protokollok szerint.

A példányalapú szegmentálás repedések esetén egyedi azonosítót rendel minden egyes repedéspéldányhoz. Egy több repedést mutató burkolati kép esetén az eredmény N darab bináris maszkból áll, mindegyik egy repedésnek felel meg, hozzárendelt osztálycímkével és példányazonosítóval. A Zhao et al. (2024) által javasolt CrackMover-rel bővített példányalapú szegmentálási módszer 33,3 AP-t ér el a repedésdetektálásban, 8,6%-kal felülmúlva a szabványos Mask R-CNN-t a speciális adatbővítés révén az elnyújtott repedésalakzatokhoz.

A példányalapú szegmentálás repedések esetén egyedi kihívásokat jelent. A repedések nagymértékben elnyújtott, vékony és gyakran elágazó objektumok – nem kompakt foltok, mint a kátyúk. A COCO objektumokra (kompakt, jól meghatározott alakzatok) tervezett szabványos példányalapú szegmentációs architektúrák egyetlen elágazó repedést több példányra bonthatnak, vagy nem képesek elkülöníteni a szomszédos párhuzamos repedéseket. Speciális technikák közé tartozik a RoIAlign felbontás módosítása elnyújtott jellemzőkinyeréshez, atrous konvolúciók használata a maszk fejben többskálájú repedésrögzítéshez, és kaszkád finomítás (Cascade Mask R-CNN) alkalmazása, amely iteratívan javítja az alacsony minőségű javaslatokat.

A gyakorlati döntés a feltett karbantartási kérdéstől függ. A teljes repedésterület számszerűsítéséhez (pl. a repedés százalékos arányának mérése futópálya-szakaszonként) a szemantikus szegmentálás elegendő lehet, és számításilag hatékonyabb. Repedésszámláláshoz, egyedi repedésszélesség nyomon követéséhez és repedésenkénti súlyossági besoroláshoz (pl. ASTM D5340 repedéssúlyosság, ahol a súlyosság az egyedi repedésszélességtől függ), a példányalapú szegmentálás szükséges. Az infrastruktúra-ellenőrzésben növekvő tendencia a panorámikus szegmentálás – a szemantikus és példányalapú szegmentálás kombinálása, hogy a nem számlálható régiókat (pl. burkolatfelület, fű, jelölések) szemantikusan, míg a számlálható hibákat (repedések, kipattogzások, kátyúk) példányonként lehessen szegmentálni.

Példányalapú Szegmentálás Kipattogzások és Kátyúk Esetén

A kipattogzások és kátyúk alapvetően különböznek a repedésektől geometriájukat tekintve: diszkrét, határolt, kompakt hibák, egyértelmű térbeli kiterjedéssel, jól meghatározott élekkel és mérhető térfogattal. Ez természetesen alkalmassá teszi őket a példányalapú szegmentálásra, és a COCO-példányokon (amelyek többnyire kompakt objektumok) jól teljesítő architektúrák hatékonyan átvihetők a kipattogzás- és kátyúdetektálásra.

Egy kátyú egy tál alakú mélyedés a burkolat felületén, amely tipikusan akkor alakul ki, amikor a felületi repedések lehetővé teszik a víz beszivárgását, ami az alapréteg degradációjához és anyagvesztéshez vezet. A kátyúk definíció szerint diszkrét példányok – minden kátyú különálló fizikai üreg. A példányalapú szegmentálás rögzíti minden kátyú pontos kerületét, ami kritikus a pontos javítási térfogatbecsléshez. Egy határolókeretes megközelítés (objektumdetektálás) a kátyú alakjának szabálytalanságától függően 30-50% nem hibás területet is bezárhat, míg a példányalapú szegmentálás a valódi hibaterületet adja meg.

Egy kipattogzás egy letöredezett vagy kitört terület egy hézagnál vagy repedésélnél, jellemzően betonburkolatokban. A kipattogzások szintén diszkrét példányok, amelyeket a hézag vagy repedésvonal határol. A kipattogzások példányalapú szegmentálásának kezelnie kell azok geometriai korlátait: a kipattogzások mindig egy szerkezeti folytonossági hiánynál (hézag, repedésél) keletkeznek, egyik oldalukat a hézag határolja, és a födémfelületbe nyúlnak. Speciális kipattogzás szegmentációs modellek figyelmi mechanizmusokat építenek be, amelyek a hézagterületekre összpontosítanak.

Kutatások bizonyítják e megközelítések hatékonyságát. A Mask R-CNN használatával kátyúdetektálásra úti adatkészleteken Nhat-Duc et al. (2020) 55,2 AP@0,50 és 42,8 AP@0,75 értékeket jelentett. A YOLACT kátyúdetektálásra alkalmazva 33 FPS következtetési sebességet ért el 48,7 AP@0,50 mellett, lehetővé téve a valós idejű kátyúszámlálást járműre szerelt kamerákból. Beton kipattogzások esetén a Cascade Mask R-CNN ResNeXt-101 háttérhálózattal 44,6 AP-t ért el egy 2400 annotált képet tartalmazó hídfedés kipattogzás adatkészleten.

Az ASTM D5340 szabvány a repülőtéri Burkolatállapot-indexhez specifikus mérési követelményeket határoz meg a kipattogzásokra és kátyúkra:

Kipattogzás mérése: Minden kipattogzás hosszának, szélességének és mélységének rögzítése; súlyossági besorolás a méretek alapján (Alacsony: <25mm mélység, Közepes: 25-50mm mélység, Magas: >50mm mélység)
Kátyú mérése: Minden kátyú átmérőjének és mélységének rögzítése; súlyossági besorolás hasonló módon
Sűrűség számítás: A kipattogzások/kátyúk száma mintavételi egységenként, a maximális sűrűségre skálázva

A példányalapú szegmentálás közvetlenül támogatja ezeket a méréseket. A pixeles szintű maszk pontos hossz- és szélességméreteket biztosít (ha ismert a térbeli felbontás, pl. 1mm/pixel kalibrált UAV-felvételekből). Az egyedi példányazonosító lehetővé teszi a hibánkénti számlálást a sűrűségszámításokhoz. Sztereoszkopikus vagy structure-from-motion (SfM) mélységadatokkal kombinálva a példánymaszkok 3D-be extrudálhatók térfogatmérés céljából.

A kulcsfontosságú előny a szemantikus szegmentálással szemben a kipattogzások és kátyúk esetében a hibák számlálása. Tekintsünk egy futópálya-szakaszt 15 egyedi kipattogzással. A szemantikus szegmentálás ezt jelenti: „kipattogzás terület: 0,85 m²" – nem ad tájékoztatást a hibák számáról. A példányalapú szegmentálás ezt jelenti: „15 kipattogzás észlelve: Kipattogzás-001 (0,12 m²), Kipattogzás-002 (0,04 m²), …, Kipattogzás-015 (0,03 m²)" – tájékoztatva a mérnököt, hogy 15 egyedi javítási beavatkozásra van szükség, és melyek a legsúlyosabbak.

Hibánkénti Mérés: Terület, Hely és Morfológia

Miután minden hibapéldány elkülönítésre került az egyedi maszkja által, a példányonkénti mérések átfogó halmaza nyerhető ki az állapotfelméréshez és a karbantartási tervezéshez.

A területmérés a legalapvetőbb hibánkénti mérőszám. A pixelszám minden példánymaszkon belül fizikai területté alakításra kerül térbeli kalibráció segítségével. UAV-val gyűjtött felvételek esetén ismert talajmintavételi távolságnál (GSD) – jellemzően 0,5-2,0 mm/pixel futópálya-ellenőrzéseknél – a maszk pixelszáma szorozva (GSD)²-vel adja a fizikai területet mm²-ben vagy m²-ben. Repedések esetén a területmérés lehetővé teszi a repedésszélesség kiszámítását: átlagos repedésszélesség = maszk terület / váz hossz. Kátyúk és kipattogzások esetén a terület közvetlenül táplálja a súlyossági osztályozási küszöbértékeket.

A helymérés földrajzi koordinátákat rendel minden hibapéldányhoz. A példánymaszk centroidja (a maszkpixelek átlagos x,y értéke) vagy az alsó-középpont (orientációfüggő hely esetén) a kamera georeferenciálási paramétereinek (GPS/IMU metaadatokból vagy fotogrammetriai földi illesztőpontokból) segítségével a kép koordinátáiról valós világ koordinátáira transzformálódik. A helyadatok lehetővé teszik: térbeli klaszterezési elemzést a nagy sűrűségű hibazónák azonosításához, korrelációt szerkezeti jellemzőkkel (hézagok, panelek sarkai, vízelvezető utak), és kapcsolódást a burkolatkezelési rendszer (PMS) GIS adatbázisaihoz a karbantartási munkautasítások generálásához.

A morfológiai mérés az egyes hibapéldányok geometriai tulajdonságait jellemzi az egyszerű területen túl. A kulcsfontosságú morfológiai leírók a következők:

Konvex Hélix Terület: A hibát tartalmazó legkisebb konvex sokszög területe. A hibaterület / konvex hélix terület arány (szoliditás) jelzi a bemélyedések mértékét. Az alacsony szoliditás (<0,5) erősen szabálytalan vagy elágazó repedéseket jelez.
Orientáció: A hiba főtengelyének szöge (kép momentumokból vagy a maszkpixelek PCA-jából). A repedés orientációja a futópálya középvonalához viszonyítva kritikus a szerkezeti jelentőség értékeléséhez: a keresztirányú repedések (a forgalomra merőlegesek) általában szerkezetileg jelentősebbek, mint a hosszirányú repedések.
Excentricitás: A főtengely hosszának és a melléktengely hosszának aránya. A magas excentricitás (>10) elnyújtott hibákat (repedéseket) jelez; az alacsony excentricitás (<3) kompakt hibákat (kátyúk, kipattogzások) jelez.
Kerület és Fraktáldimenzió: A maszk kerületének hossza és a fraktáldimenzió (log(kerület) / log(terület) kapcsolat). A magasabb fraktáldimenzió szabálytalanabb, összetettebb hibahatárokat jelez – ami a leromlott kipattogzásokra és aligátorrepedésekre jellemző.
Váz és Elágazási Pontok: Repedések esetén a morfológiai vázasítás kinyeri a repedés középvonali hálózatát. Az elágazási pontok (ahol a repedésutak kereszteződnek) megszámlálásra és osztályozásra kerülnek. Az elágazási pontok száma repedéspéldányonként kulcsfontosságú súlyossági mutató a blokkos repedés és a fáradásos repedés (D 5340) esetében.

Ezek a mérések hatékonyan számíthatók ki OpenCV kontúrelemzési függvények (cv2.findContours, cv2.moments, cv2.convexHull) vagy scikit-image morfológiai műveletek (skimage.measure.regionprops, skimage.morphology.skeletonize) segítségével. Egy tipikus, 10 000 képet és 50 000+ hibapéldányt tartalmazó futópálya-ellenőrzési adatkészlet esetén a hibánkénti jellemzőkinyerés percek alatt elvégezhető egy szabványos munkaállomáson.

Műszaki összehasonlító ábra, amely a szemantikus szegmentálás és a példányalapú szegmentálás közötti különbséget mutatja burkolati repedéseken eltérő színkódolással hibánként

Hibák Számlálása és Eloszlási Térképezés

A példányalapú szegmentálás lehetővé teszi a hibák automatizált számlálását, ami egyszerűen lehetetlen a szemantikus szegmentálással önmagában. A hibaszám – a diszkrét egyedi hibák száma egységnyi területre vetítve – alapvető bemeneti paraméter az infrastruktúra állapotindexekhez, beleértve a PCI-t (ASTM D5340), a Szerkezeti Állapotindexet (SCI) és a Futópálya Állapotindexet (RCI).

A hibánkénti számlálás a következőképpen történik: a példányalapú szegmentációs modell egyedi azonosítókkal ellátott példánymaszkokat állít elő (jellemzően 1-től kezdődő egész számok). Az egyedi példányazonosítók száma minden képen vagy felmérési területen közvetlenül megadja a hibák számát. Egy 3000 méteres futópálya esetén, amelyet 1 mm GSD-vel mértek fel, körülbelül 3000 darab 2000×2000 pixeles képcsempét generálva, egy példányalapú szegmentációs modell 200-500 egyedi repedést, 50-100 kipattogzást és 10-20 kátyút észlelhet – mindegyiket egyedileg megszámolva és naplózva.

A szám szerinti rétegezés a hibákat típus és súlyosság szerint csoportosítja. Az egyedi példányazonosítók először prediktált osztály szerint kerülnek csoportosításra (repedés, kipattogzás, kátyú, hézaghiba, időjárási hatás). Az egyes osztályokon belül a példányok tovább rétegezhetők súlyosság szerint területküszöbök vagy morfológiai jellemzők alapján:

Repedések súlyosság szerint: Hajszálrepedések (<1mm szélesség), Közepes repedések (1-3mm), Széles repedések (>3mm) – a szélesség a terület/váz-hossz arányból származtatva
Kipattogzások súlyosság szerint: Alacsony (<25mm mélység, <150mm hossz), Közepes (25-50mm mélység, 150-600mm hossz), Magas (>50mm mélység, >600mm hossz) – az ASTM D5340 szerint
Kátyúk súlyosság szerint: Kicsi (<0,1 m²), Közepes (0,1-0,5 m²), Nagy (>0,5 m²)

A térbeli eloszlás térképezése a hibánkénti számokat térbeli rekeszekbe aggregálja. A futópálya mintavételi egységekre van osztva az ICAO/ASTM előírások szerint: jellemzően 20 egymást követő födém betonburkolatok esetén (minden födém ~5m × 5m = 25 m²) vagy 25m × 25m = 625 m² téglalap alakú egységek aszfaltburkolatok esetén. Minden hibapéldány centroidja hozzárendelésre kerül a tartalmazó mintavételi egységhez. A hibasűrűség egységenként a következőképpen kerül kiszámításra: hibák száma az egységben / egység területe. Ez a sűrűség közvetlenül táplálja a PCI számítási táblázatokat.

Az eloszlási térképek feltárják a hibaklaszterezési mintázatokat. Egy 120 mintavételi egységen eloszló 500 egyedi repedéssel rendelkező futópálya esetén az egységek 85%-a 0-5 repedést, míg 5%-a 20+ repedést mutathat. A klaszterezett egységek célzott karbantartást igénylő területeket jeleznek – jellemzően mögöttes szerkezeti problémákhoz (altalajhiba, rossz vízelvezetés, építési hézagok) kapcsolódva, nem pedig egyenletes felületi kopáshoz.

Térbeli pontmintázat-elemzés (Ripley K-függvénye, kernel sűrűségbecslés) tovább számszerűsítheti a klaszterezés intenzitását és azonosíthatja a statisztikailag szignifikáns hibapontokat. GIS fedvényelemzéssel kombinálva a hibaklaszterek korreláltathatók az építési hézagok helyeivel, a burkolat korzónáival, a vízelvezetési mintázatokkal és állóvíz-területekkel, a korábbi karbantartási és javítási helyszínekkel, valamint a forgalomeloszlással (keréknyom-koncentrációs zónák).

Hibák Időbeli Nyomon Követése

A példányalapú szegmentálás egyedi képessége, hogy állandó azonosítókat rendeljen az egyedi hibákhoz, lehetővé teszi az időbeli nyomon követést – annak számszerűsítését, hogy az egyes hibák hogyan fejlődnek az ellenőrzések között. Ez a prediktív karbantartás és az állapotalapú eszközgazdálkodás alapja.

Az időbeli nyomon követési csővezeték négy szakaszból áll. Először is, a futópálya újra felmérésre kerül rendszeres ütemben (negyedévente, félévente vagy évente, az ICAO ajánlott gyakorlata szerint a repülőtéri burkolat állapotfelméréséhez). Másodszor, a példányalapú szegmentálást egymástól függetlenül alkalmazzák minden felmérési adatkészletre, hibánkénti maszkokat generálva példányazonosítókkal minden időponthoz. Harmadszor, egy példány-asszociációs algoritmus párosítja a hibapéldányokat az egymást követő felmérések között térbeli közelség (centroidok közötti távolság < küszöb), maszk átfedés (IoU ≥ 0,3-0,5) és morfológiai hasonlóság alapján (területváltozás <50%, orientációváltozás <15°). Negyedszer, a párosított példányok egy állandó globális azonosítót kapnak, amely összeköti őket az összes felmérési időponton keresztül, idősort létrehozva minden hibához.

Az asszociációs algoritmusoknak több kihívást is kezelniük kell. A hibák összeolvadhatnak vagy szétválhatnak a felmérések között (egy repedés, amely kettéágazik; egy kipattogzás, amely kitágul és egyesül egy szomszédos kipattogzással). A hibák megjelenhetnek vagy eltűnhetnek (új repedésképződés, javított hibák). A Magyar algoritmus (Munkres-féle hozzárendelés) O(n³) számítási költséggel oldja meg a lineáris hozzárendelési problémát az egymást követő felmérések példányainak egy-az-egyhez párosítására. Összetett esetekre, amikor szétválások és összeolvadások is előfordulnak, a gráf-alapú nyomon követés (minimális költségű folyam egy téridőbeli gráfon) robusztusabb párosítást biztosít magasabb számítási költség mellett.

A hibánkénti változási mérőszámok, amelyeket a párosított idősorból számítanak ki, a következőket foglalják magukban:

Repedésszélesség növekedési üteme: (szélesség_t2 - szélesség_t1) / nap. A >0,1mm/hónap növekedés általában aktív szerkezeti degradációt jelez.
Kipattogzási terület növekedési üteme: (terület_t2 - terület_t1) / nap. A 10-20 cm²/hónapot meghaladó növekedési ütem vizsgálatot tesz szükségessé.
Kátyú térfogat növekedés: Mélységi adatokkal kombinálva a térfogat növekedési üteme cm³/hónapban.
Új hibák képződési üteme: A nem párosított példányok száma, amelyek nem kapcsolódnak egyetlen korábbi felmérési példányhoz sem, egységnyi területre és időperiódusra vetítve.
Hibaterjedés iránya: A centroid_t1-től centroid_t2-ig tartó vektor a romlás terjedésének irányát jelzi.

Az időbeli nyomon követés pontossága a felmérések regisztrációs precizitásától függ. Az ismételt felméréseket azonos koordinátarendszerbe kell georeferálni, centiméter alatti pontossággal. Ez a futópálya mentén állandóan telepített, RTK GPS-sel (±2cm pontosság) felmért földi illesztőpontokon (GCP-k) keresztül érhető el, vagy kép-alapú ko-regisztrációval, jellemzőillesztés (SIFT/SuperPoint jellemzők) segítségével a felmérési adatkészletek között a homográfiai transzformációk kiszámításához.

A prediktív karbantartás a hibánkénti idősort használja annak előrejelzésére, hogy egy hiba mikor éri el a kritikus súlyosságot. A lineáris regressziós modell, amelyet minden hiba szélesség- vagy terület-idősorára illesztenek, előrejelzi azt a dátumot, amikor a hiba meghaladja a súlyossági küszöböt (pl. repedésszélesség >3mm Magas súlyosság esetén az ASTM D5340 szerint). Ez egy rangsorolt karbantartási várólistát generál: a hibák, amelyek várhatóan a következő ellenőrzési cikluson belül elérik a kritikus súlyosságot, azonnali javításra kerülnek megjelölésre.

Tanítási Követelmények a Példány Szintű Címkékhez

A példányalapú szegmentációs modellek tanítása infrastruktúra-hibákra egyedi kihívásokat jelent a természetes objektum adatkészletekhez képest, elsősorban az annotációs követelmények és az adatjellemzők miatt.

Annotációs formátum: A példányalapú szegmentálás sokszög szintű annotációkat igényel – minden egyes hibát egy csúcspontokból álló zárt sokszöggel kell körülhatárolni. Ez lényegesen munkaigényesebb, mint a szemantikus szegmentációs annotációk (amelyek ecsetvonásokat vagy kitöltőeszközöket használnak) vagy az objektumdetektálási annotációk (amelyek tengelyirányú téglalapokat használnak). Egy tipikus repedésannotáció 20-100 sokszögcsúcsot igényel a repedés útjának pontos követéséhez, a repedés összetettségétől és hosszától függően. Egy kipattogzás annotáció jellemzően 8-30 csúcsot igényel. Az iparági szabvány annotációs eszközök (CVAT, Labelbox, Supervisely, Scale AI) támogatják a sokszög annotációt félautomatizált eszközökkel (pl. interaktív szegmentálás SAM-mel – Segment Anything Model – a kézi csúcspont-elhelyezési idő csökkentésére).

A COCO JSON formátum a szabványos példányalapú szegmentációs annotációs séma. Minden annotációs bejegyzés tartalmazza a id-t (egyedi annotációs azonosító), image_id-t (hivatkozás a forrásképre), category_id-t (osztálycímke, például 1=repedés, 2=kipattogzás, 3=kátyú), segmentation-t (sokszög, amely x,y koordináták lapított listájaként van reprezentálva), area-t (sokszög területe pixelekben), bbox-ot (határolókeret [x, y, szélesség, magasság] formátumban), és iscrowd-ot (0 az egyedi hibapéldányok esetén).

Adatkészlet méretkövetelményei: A példányalapú szegmentációs modellek jellemzően 500-2000+ annotált képet igényelnek hibakategóriánként az elfogadható teljesítményhez (AP >35). A kis adatkészletek (<200 kép) esetén fennáll a túltanulás és a gyenge általánosítás veszélye új burkolattípusokra, megvilágítási viszonyokra és hibavariánsokra. Az átviteli tanulás nagy, előtanított háttérhálózatokból (ImageNet-1K, COCO) jelentősen csökkenti a szükséges adatkészlet méretét – egy COCO előtanított súlyokkal inicializált és 500 repedésképen finomhangolt Mask R-CNN a 2000 képen nulláról tanított modellel összehasonlítható teljesítményt ér el.

Az adatbővítés kritikus fontosságú az infrastruktúra-hiba adatkészleteknél, amelyek jellemzően kisebbek az általános számítógépes látás adatkészleteknél. Hatékony bővítések közé tartozik a véletlenszerű elforgatás (±180°), vízszintes/függőleges tükrözés, véletlenszerű skálázás (0,5×-2,0×), fényerő/kontraszt beállítások (±20%), véletlenszerű kivágás, elasztikus transzformációk (Gauss-eltolási mező) és mozaik bővítés (4 kép egyesítése). A CrackMover, egy speciális bővítés a repedés példányalapú szegmentálásához, újramintavételezi a repedéspéldányokat egyik képről, és beilleszti őket új háttérképekbe valósághű keveréssel, mesterségesen növelve mind a repedéspéldányok számát, mind a háttér változatosságát.

A szintetikus adatgenerálás kezeli az alapvető annotációs hiányproblémát az infrastruktúra-ellenőrzésben. Az UAV-alapú repülőtéri burkolatellenőrzési keretrendszer (Alonso et al., 2024) azt mutatja, hogy a vegyes valós és szintetikus adatkészleteken történő tanítás 8-12%-kal javítja a repedésszegmentálás F1 értékét a kizárólag valós adatokon történő tanításhoz képest. Az Unreal Engine-ben vagy Unity-ben épített hiperrealisztikus virtuális környezetek korlátlan számú annotált képet generálhatnak tökéletes valós maszkokkal, változó megvilágítási viszonyokkal és változatos hibageometriákkal. A tartomány randomizáció – a textúrák, színek és megvilágítás véletlenszerű változtatása a szintetikus jelenetekben – javítja a szimulációból valóságba történő átvitelt azáltal, hogy a modellt geometria tanulására kényszeríti a textúramintázatok helyett.

Példányalapú Szegmentálás Kiértékelése

A példányalapú szegmentációs modelleket mind az objektumdetektálásból, mind a szemantikus szegmentálásból származó mérőszámokkal értékelik, a COCO kiértékelési protokollt használva szabvány benchmarkként.

Átlagos Precizitás (AP) az elsődleges mérőszám. Az AP több Intersection over Union (IoU) küszöbértéknél kerül kiszámításra a prediktált maszkok és a valós maszkok között. Minden IoU t küszöbértékhez (0,50-től 0,95-ig 0,05-ös lépésekben) precizitás-visszahívás görbék kerülnek kiszámításra minden osztályra, és az AP a precizitás-visszahívás görbe alatti terület. Az elsődleges COCO mérőszám AP (vagy mAP) átlagolja az összes IoU küszöböt és osztályt.

A hibadetektálásban használt kulcsfontosságú AP változatok közé tartozik az AP@IoU=0,50 (megengedő küszöb, amelyet detektálási küszöbnek tekintenek; egy 50%-ban vagy annál nagyobb mértékben átfedő prediktált maszk találatnak számít), az AP@IoU=0,75 (szigorú küszöb, amely kiváló minőségű maszkokat követel meg, fontos a precíz hibahatár-kijelölést igénylő alkalmazásokhoz, mint a repedésszélesség-mérés), és az AP@small, AP@medium, AP@large (méret szerinti mérőszámok a valós terület alapján: kicsi <32² pixel, közepes 32²-96² pixel, nagy >96² pixel).

Átlagos Visszahívás (AR) a valós példányok azon arányát méri, amelyekhez tartozik prediktált találat minden IoU küszöbnél. Az AR-t jellemzően AR@max=100 (maximum 100 detektálás képenként) formában jelentik. A magas visszahívás kritikus a biztonság szempontjából fontos infrastruktúra-ellenőrzésben, ahol a kihagyott hibák észrevétlen romláshoz vezethetnek.

Maszk IoU az alapvető illesztési kritérium. Egy P prediktált maszk és G valós maszk esetén: IoU = |P ∩ G| / |P ∪ G|. Egy előrejelzés akkor tekintendő Valódi Pozitívnak (TP), ha az IoU ≥ küszöb ÉS a prediktált osztály megegyezik a valós osztállyal. Hamis Pozitívok (FP) akkor fordulnak elő, amikor az előrejelzések IoU-ja < küszöb bármely azonos osztályú valós maszkkal, vagy rossz osztályt prediktálnak. Hamis Negatívok (FN) azok a valós maszkok, amelyek nem illeszkednek egyetlen előrejelzéshez sem.

A COCO illesztési algoritmus kezeli a duplikált detektálásokat: ha több előrejelzés illeszkedik egyetlen valós maszkhoz, csak a legmagasabb konfidenciájú előrejelzés számít TP-nek; a többi FP. Ez jutalmazza a precizitást és bünteti a túlszegmentálást – ami fontos a hibadetektálásban, ahol a több átfedő előrejelzés ugyanazon a repedésen a modell instabilitását jelezné.

Az infrastruktúra-specifikus kiértékelés gyakran hozzáadja az osztályonkénti AP-t hibátípus szerint lebontva. Egy repedésdetektáló modell jelentheti: AP_repedes=32,1, AP_kipattogzas=44,6, AP_katyu=51,3. A repedések esetében szignifikánsan alacsonyabb AP a vékony, elnyújtott objektumok példányalapú szegmentálásának nehézségét tükrözi (a maszk IoU nagyon érzékeny a kis illesztési hibákra vékony szerkezetek esetén).

F1-pontszám egy adott IoU küszöbnél (jellemzően 0,50) szintén gyakran jelentésre kerül az infrastruktúra szakirodalomban: F1 = 2 × (Precizitás × Visszahívás) / (Precizitás + Visszahívás). Az F1 egyetlen kiegyensúlyozott mérőszámot nyújt a precizitás és a visszahívás közötti kompromisszumról.

Alkalmazás az Infrastruktúra-Ellenőrzésben

A példányalapú szegmentálás átalakítja az infrastruktúra-ellenőrzést egy szubjektív, munkaigényes folyamatból egy objektív, kvantitatív és skálázható digitális munkafolyamattá. A technológiát több infrastruktúra-területen is bevetik, dokumentált javulással az ellenőrzés pontosságában, konzisztenciájában és áteresztőképességében.

A repülőtéri futópálya-ellenőrzés a legigényesebb alkalmazást képviseli. A minősített futópálya-ellenőrzések az ICAO Annex 14 szerint 1-3 évente szabványosított eljárások (ASTM D5340, ASTM D6433, ICAO Aerodrome Design Manual Part 3) szerinti burkolatállapot-felmérést igényelnek. A példányalapú szegmentálás közvetlenül támogatja ezeket a szabványokat a hibák számlálásának és mérésének automatizálásával. Az UAV-alapú automatizált futópálya-ellenőrzési keretrendszer (Krestenitis et al., 2026) végponttól végpontig történő telepítést mutat be: UAV felmérés → képgyűjtés → mélytanulási következtetés (EfficientNet + FPN szemantikus szegmentálás példány utófeldolgozással fedve) → GIS-alapú aggregálás → PCI számítás. A rendszer 95%+ detektálási pontosságot ér el a >3mm szélességű hibák esetében a teljes futópálya kiterjedésében, a felmérés befejezésével 45 perc alatt, szemben a hagyományos kézi ellenőrzés 4-6 órájával, amely futópálya lezárást igényel.

Az autópálya és közúti burkolatellenőrzés járműre szerelt kamera rendszereket használ, amelyek autópálya sebességgel (60-100 km/h) működnek. A példányalapú szegmentációs modellek (YOLACT, YOLOv8-seg) 15-30 FPS sebességgel dolgozzák fel a videófolyamokat, észlelve a repedéseket, kátyúkat és foltokat sávmérföldenként. A Nevada DOT automatizált burkolati hibafelmérése egy YOLOv8-alapú példányalapú szegmentációs rendszert használ, amely 88%-os F1-et ér el a repedésdetektálásban és 93%-os F1-et a kátyúdetektálásban 5000+ sávmérföldön, a hibánkénti mérési pontosság a kézi referencia mérések 5%-án belül van.

A hídfedés-ellenőrzés a példányalapú szegmentálást alkalmazza beton kipattogzásokra, rétegleválásokra és hézaghibákra. A hídfedések egyedi kihívásokat jelentenek: változó megvilágítás a híd alatt, összetett háttértextúrák (dilatációs hézagok, vízelvezető nyílások, forgalmi jelzések), és a szubmilliméteres repedésfelbontás szükségessége a szélességméréshez. A hídfedés adatkészleten finomhangolt Cascade Mask R-CNN 82%-os mAP@50-et ér el a kipattogzásdetektálásban, lehetővé téve az SNBI (Specification for National Bridge Inspection) állapotértékelés automatizált kiszámítását beton hídfedésekhez.

A vasúti infrastruktúra-ellenőrzés a példányalapú szegmentálást használja sínfelületi hibákhoz (fejellenőrzés, zömülés, hámlás) és ágyazati rendellenességekhez. A sínre szerelt kamera rendszerek nagy felbontású képeket rögzítenek 100+ km/h sebességnél; a YOLACT modellek beágyazott GPU-kon futva észlelik és osztályozzák az egyedi sinhibákat vonalsebességgel. A Német Vasút (Deutsche Bahn) 96%-os detektálási arányt jelentett a >1mm-es felületi repedések esetében egy 30 ellenőrző vonaton telepített példányalapú szegmentációs csővezeték használatával, ±5mm-es hibánkénti helypontossággal kódoló kerék odometria segítségével.

Az alagútbélés-ellenőrzés a példányalapú szegmentálást alkalmazza a 30-50 km/h sebességgel haladó ellenőrző járművekre szerelt többkamerás tömbökből rögzített képeken. A beton alagútbéléseken repedések, kipattogzások és szivárgási foltok alakulnak ki, amelyek példányszintű elemzést igényelnek. A kulcskihívás a szerkezeti repedések (javítást igénylők) és a nem szerkezeti felületi repedések (zsugorodási, termikus) megkülönböztetése. A példányalapú szegmentálás repedésszélesség-méréssel kombinálva (példánymaszk-elemzésből) biztosítja az ehhez az osztályozáshoz szükséges kvantitatív adatokat. Az Osztrák Szövetségi Vasút (ÖBB) alagút-ellenőrzési rendszere Mask R-CNN-t használ Aruco marker-alapú kalibrációs ráccsal, hogy ±0,1 mm repedésszélesség-mérési pontosságot érjen el 0,5 mm/pixel felbontásnál.

A hagyományos ellenőrzéssel szembeni előnyök jól dokumentáltak minden infrastruktúra-típusnál. Egy 12 közlekedési hatóságon átívelő összehasonlító tanulmány megállapította, hogy az automatizált példányalapú szegmentációs ellenőrzés 60-80%-kal csökkentette az ellenőrzési időt, megszüntette az értékelők közötti eltéréseket (a kappa-együttható 0,45-0,55-ről a kézi ellenőrzésnél 0,88-0,94-re javult az automatizáltnál), és 25-40%-kal növelte a hibadetektálási érzékenységet (különösen az alacsony súlyosságú hibák esetén, amelyeket az emberi ellenőrök gyakran kihagynak a fáradtság miatt). A hibánkénti mérési képesség lehetővé teszi az átmenetet az állapotindex-alapú karbantartásról (a súlyossági küszöb feletti területek kezelése) az egyedi hibaalapú karbantartásra (a javítások priorizálása az egyedi hiba kritikussága alapján), ami becslések szerint 15-30%-kal csökkenti a teljes karbantartási költségeket a célzott javítás révén a területi kezeléssel szemben.

Beton hídfedés ellenőrzési fénykép, amely több kipattogzást és kátyút mutat egyedi példányalapú szegmentációs fedvényekkel és egyedi színkódolt maszkokkal

Gyakran Ismételt Kérdések

: A szemantikus szegmentálás minden képpixelt osztály szerint címkéz, de nem tesz különbséget az azonos osztályba tartozó különálló objektumok között. A példányalapú szegmentálás ennél tovább megy azáltal, hogy egyedi azonosítót rendel minden egyes objektumpéldányhoz. Például egy három repedéssel rendelkező futópálya felületen a szemantikus szegmentálás az összes repedéspixelt azonos színnel jelölné, míg a példányalapú szegmentálás mindhárom repedést különböző színnel és egyedi azonosítóval (Repedés-001, Repedés-002, Repedés-003) látná el. Ez a megkülönböztetés kritikus fontosságú a hibák számlálása és a hibánkénti mérés szempontjából.
: A legjobb architektúra a felhasználási esettől függ. A Mask R-CNN nagy pontosságot kínál (37-47 AP a COCO-n), de lassabb 5-10 FPS sebességgel, így ideális offline elemzéshez. A YOLACT 30+ FPS sebességgel működik, és alkalmas valós idejű drónos ellenőrzésre. A Mask2Former a legmodernebb teljesítményt éri el 50,1 AP-vel a COCO példányalapú szegmentálásban transzformátor-alapú maszkolt figyelem használatával, 3x gyorsabban konvergálva, mint a hagyományos transzformátor modellek. Infrastruktúra-ellenőrzéshez a Mask2Former és a Cascade Mask R-CNN általában a legjobb pontosságot nyújtja az összetett hibaalakzatokhoz.
: A példányalapú szegmentálás egyedi numerikus azonosítót rendel minden észlelt hibapéldányhoz a következtetés során. Egy utófeldolgozási lépés felsorolja a képen vagy felmérési területen található összes egyedi példányazonosítót, előállítva a teljes hibaszámot. Ez a szám rétegezhető hibátípus (repedés vs. kipattogzás vs. kátyú), súlyossági osztály vagy térbeli régió szerint. Ellentétben a szemantikus szegmentálással, amely csak a teljes pixeles területet jelenti osztályonként, a példányalapú szegmentálás megadja a diszkrét hibapéldányok pontos számát, ami elengedhetetlen a Burkolatállapot-index (PCI) számításokhoz és a karbantartási prioritások meghatározásához.
: A példányalapú szegmentálás sokszög szintű (nem csak pixeles szintű) annotációkat igényel, ahol minden egyes hibapéldányt egy zárt sokszöggel kell körülhatárolni. Minden sokszöghez osztálycímkét kell rendelni, és külön annotációs egységként kell kezelni. Tipikus infrastruktúra-adatkészletek 500-2000+ annotált képet igényelnek hibakategóriánként. A COCO-stílusú JSON annotációs formátum szegmentációs sokszögekkel és határolókeretekkel a szabvány. Adatbővítés (forgatás, skálázás, elasztikus transzformációk) és szintetikus adatgenerálás (pl. CrackMover) általánosan használt a korlátozott valós annotált adatok kezelésére.
: Igen, a példányalapú szegmentálás lehetővé teszi a hibák időbeli nyomon követését példány-asszociáción keresztül az ismételt felmérések során. Minden, az 1. felmérésben (T1 időpont) észlelt hibapéldány egy állandó példányazonosítót kap. Amikor a 2. felmérés (T2 időpont) elvégzésre kerül, a modell újra észleli a példányokat. Egy asszociációs algoritmus párosítja a példányokat a felmérések között térbeli elhelyezkedés (GPS koordináták), maszk átfedés (IoU) és morfológiai hasonlóság alapján. Ez lehetővé teszi a repedésszélesség növekedésének, a kipattogzási terület növekedésének és az új hibák képződési ütemének számszerűsítését — ami kritikus a prediktív karbantartási modellekhez.
: A példányalapú szegmentálást COCO-stílusú Átlagos Precizitás (AP) mérőszámokkal értékelik. Az AP@IoU=0,50 a detektálást méri egy megengedő átfedési küszöbnél, míg az AP@IoU=0,75 nagy pontosságot követel meg. Az elsődleges AP mérőszám (az IoU küszöbök 0,50-től 0,95-ig történő átlagolása 0,05-ös lépésekben) átfogó értékelést nyújt. A Maszk IoU (Intersection over Union az előrejelzett és a valós maszkok között) az alapvető illesztési kritérium. Osztályonkénti AP, AR (Átlagos Visszahívás) és F1-pontszám szintén jelentésre kerül. Infrastruktúra-specifikus kiértékeléshez a hibánkénti AP-t 0,50 és 0,75 IoU küszöböknél általánosan használják.
: A Mask R-CNN egy kétfázisú detektor, amely először jelölt régiókat (RPN) javasol, majd maszkokat prediktál minden régióhoz. A YOLACT egy egyfázisú valós idejű módszer, amely egyidejűleg generál prototípus maszkokat és lineáris együtthatókat. Repedésszegmentálás esetén a Mask R-CNN általában magasabb maszkpontosságot ér el (33,3 AP vs. ~28-30 AP a YOLACT esetében repedés adatkészleteken), de 5-10 FPS sebességgel fut. A YOLACT 30+ FPS-t ér el, így alkalmas valós idejű UAV-ellenőrzésre. Mindkettőt sikeresen alkalmazták burkolati repedésdetektálásra kutatási tanulmányokban.
: A példányalapú szegmentálás különösen hatékony a kátyúk és kipattogzások esetében, mert ezek a hibák diszkrét, határolt objektumok, egyértelmű térbeli kiterjedéssel. Minden kátyúpéldány egyedi maszkot, területmérést (pixelben vagy mm²-ben), határolókeretet és centroid helyet kap. Ez lehetővé teszi a kátyúnkénti súlyossági osztályozást terület és mélység alapján, a kátyúk számlálását futópálya-szakaszonként, és a kátyúk növekedésének időbeli nyomon követését. A Mask R-CNN és YOLACT használatával végzett kátyúdetektálási tanulmányok 40-55 AP értékeket jelentenek úti adatkészleteken, a példány szintű maszkok pontosabb méréseket biztosítva, mint a határolókeretek önmagukban.

Automatizálja Infrastruktúra-hibáinak Ellenőrzését

A TarmacView a legmodernebb példányalapú szegmentációs modelleket használja a repülőtéri burkolatokon, hidakon és betoninfrastruktúrán található egyedi hibák észlelésére, számlálására és nyomon követésére. Kérjen bemutatót, hogy megtudja, hogyan alakíthatja át a hibánkénti elemzés a karbantartási tervezést.

Kapcsolatfelvétel Bemutató kérése

Tudjon meg többet

Szemantikai szegmentáció infrastruktúra-jelenetek értelmezéséhez

A szemantikai szegmentáció kategóriacímkét rendel minden pixelhez egy képben, lehetővé téve a teljes jelenet értelmezését infrastruktúra-ellenőrzés során. Lefed...

Jun 17, 2026 35 perc olvasás

Technology Computer Vision +3

AI-alapú repedésfelismerés infrastruktúra-ellenőrzéshez

Az AI-alapú repedésfelismerés számítógépes látást – konvolúciós neurális hálózatokat, víziótranszformátorokat és szemantikus szegmentációs modelleket – használ ...

Jun 16, 2025 34 perc olvasás

Computer Vision Deep Learning +8

Számítógépes látás

A számítógépes látás mesterséges intelligencián alapuló technológia, amely lehetővé teszi a gépek számára, hogy értelmezzék és feldolgozzák a vizuális adatokat....

Nov 18, 2025 11 perc olvasás

Artificial Intelligence Aviation Technology +3