Segmentácia inštancií pre identifikáciu jednotlivých defektov

Segmentácia inštancií je úloha počítačového videnia, ktorá identifikuje, klasifikuje a ohraničuje každú jednotlivú inštanciu objektu na úrovni pixelov tým, že každému detekovanému objektu priraďuje jedinečný identifikátor inštancie. Pre inšpekciu infraštruktúry to znamená, že každá jednotlivá trhlina, výtlk, diera, porucha škáry alebo povrchová degradácia dostane svoju vlastnú pixelovo presnú masku s odlišným ID – čo umožňuje inžinierom počítať, merať a sledovať každý defekt nezávisle, namiesto toho, aby sa všetky defekty rovnakého typu považovali za jednu nediferencovanú masu.

Letecký záber dronom na letiskovú spevnenú plochu s prekryvmi segmentácie inštancií zobrazujúcimi viacero trhlín a defektov, každý zvýraznený jedinečnými farebnými maskami a ID štítkami

Definícia a rozdiel oproti sémantickej segmentácii

Segmentácia inštancií zaujíma osobitné postavenie v hierarchii počítačového videnia, ktoré sa nachádza medzi detekciou objektov (ohraničujúce rámčeky s triedami) a sémantickou segmentáciou (triedy na úrovni pixelov bez rozlíšenia inštancií). Rieši problém, ktorý žiadna z týchto úloh sama osebe nedokáže adresovať: schopnosť klasifikovať každý pixel patriaci do kategórie a zároveň rozlíšiť, ktoré pixely patria ku ktorému konkrétnemu objektu v rámci tejto kategórie.

Sémantická segmentácia označuje každý pixel v obraze podľa triedy, do ktorej patrí. Na obrázku povrchu letiskovej dráhy s tromi pozdĺžnymi trhlinami by sémantický segmentačný model vyfarbil všetky pixely trhlín rovnakou farbou triedy (napr. červenou). Výstupom je jedna binárna alebo viac triedna maska, kde sú všetky trhliny, bez ohľadu na to, že ide o samostatné fyzické defekty, zlúčené do jednej súvislej oblasti triedy. Tento prístup poskytuje celkovú plochu trhlín v pixeloch, ale neposkytuje žiadne informácie o tom, koľko jednotlivých trhlín existuje, aké sú ich jednotlivé veľkosti alebo ich priestorové rozloženie ako diskrétnych defektov.

Detekcia objektov umiestňuje ohraničujúce rámčeky okolo každého detekovaného objektu a priraďuje triedu. Detektor na rovnakom obrázku dráhy by nakreslil tri obdĺžnikové rámčeky okolo troch trhlín. Výstup poskytuje počet trhlín a približnú polohu, ale ohraničujúce rámčeky prinášajú zásadné obmedzenie: zahŕňajú aj povrch bez defektov v rámci obdĺžnika, čo znemožňuje presné meranie plochy. Ohraničujúci rámček okolo kľukatej trhliny zachytáva oveľa viac pixelov bez trhliny ako pixelov samotnej trhliny.

Segmentácia inštancií tieto obmedzenia úplne odstraňuje. Model vytvára sadu binárnych masiek – jednu na každú detekovanú inštanciu – pričom každá je spárovaná s triedou a jedinečným ID inštancie. Pre tri trhliny by výstupom boli tri odlišné binárne masky: Trhlina-001, Trhlina-002 a Trhlina-003, pričom každá zobrazuje presne tie pixely, ktoré patria ku konkrétnej trhline a žiadne iné. Masky kopírujú presný obrys každého defektu a obopínajú každú vetvu, krivku a nepravidelnosť. To poskytuje geometriu na úrovni pixelov pre jednotlivé inštancie, ktorá umožňuje presné meranie plochy, analýzu morfológie a sledovanie jednotlivých defektov.

Kritický operačný rozdiel sa prejavuje vo výstupe inšpekcie. Správa zo sémantickej segmentácie by mohla uvádzať: “Celková plocha trhlín: 45 230 pixelov.” Správa zo segmentácie inštancií uvádza: “Detekované tri trhliny. Trhlina-001: 12 400 px², Trhlina-002: 18 100 px², Trhlina-003: 14 730 px².” To druhé je oveľa užitočnejšie pre plánovanie údržby – hovorí inžinierovi presný počet defektov vyžadujúcich opravu a ich individuálnu závažnosť.

Toto rozlíšenie medzi inštanciami je formalizované v štandarde datasetu COCO (Common Objects in Context), ktorý definuje anotácie segmentácie inštancií ako zoznam objektov, pričom každý obsahuje segmentačný polygón (zoznam x,y súradníc tvoriacich obrys objektu), ohraničujúci rámček, ID kategórie a ID obrázka. Metriky hodnotenia používané v COCO – najmä priemerná presnosť (AP) – sú de facto štandardom pre porovnávanie modelov segmentácie inštancií a priamo sa aplikujú na modely detekcie defektov infraštruktúry.

Architektúry: Mask R-CNN, YOLACT, SOLO a Mask2Former

Pre segmentáciu inštancií bolo vyvinutých viacero architektúr hlbokého učenia, z ktorých každá má odlišné kompromisy medzi presnosťou, rýchlosťou a architektonickou zložitosťou.

Mask R-CNN: Dvojstupňový benchmark

Mask R-CNN, predstavený He et al. z Facebook AI Research v roku 2017, rozširuje Faster R-CNN pridaním vetvy na predikciu masiek paralelne s existujúcimi vetvami regresie ohraničujúcich rámčekov a klasifikácie. Architektúra nasleduje dvojstupňový dizajn. V prvom stupni prehľadáva sieť na navrhovanie oblastí (RPN) mapy vlastností extrahované backbone CNN (zvyčajne ResNet-50, ResNet-101 alebo ResNeXt) a navrhuje kandidátske oblasti objektov (RoI – oblasti záujmu). V druhom stupni je každá RoI spracovaná pomocou RoIAlign – kľúčového prínosu Mask R-CNN, ktorý používa bilineárnu interpoláciu na výpočet presných hodnôt vlastností v každom vzorkovacom bode, čím eliminuje kvantizačné chyby RoIPool – na vytvorenie máp vlastností s pevnou veľkosťou. Tieto mapy vlastností vstupujú do troch paralelných hláv: klasifikačnej hlavy (predikcia triedy), hlavy regresie ohraničujúcich rámčekov (súradnice rámčeka) a maskovacej hlavy (plne konvolučná sieť, ktorá pre každú RoI vytvára binárnu masku pre každú triedu).

Maskovacia hlava vytvára masku s rozlíšením 28×28 pixelov na RoI na triedu. Počas trénovania strata kombinuje klasifikačnú stratu, stratu ohraničujúceho rámčeka a stratu masky (binárna krížová entropia spriemerovaná cez pixely). Kľúčovým poznatkom je, že predikcia masky a klasifikácia sú oddelené: maskovacia hlava predikuje masky pre všetky triedy, ale iba maska zodpovedajúca skutočnej triede prispieva k strate. Táto predikcia masiek na triedu núti model učiť sa tvarové znaky špecifické pre danú triedu.

Mask R-CNN dosahuje 37-47 AP na COCO segmentácii inštancií (v závislosti od backbone), pričom ResNet-50-FPN dosahuje približne 37,1 AP a ResNeXt-101-FPN dosahuje 39,4-47,1 AP. Rýchlosť inferencie sa pohybuje od 5-10 FPS na modernom GPU. Pre infraštruktúrne aplikácie je Mask R-CNN s backbone ResNet-50-FPN najčastejšie používanou konfiguráciou s uvádzaným výkonom 33,3 AP na datasetoch trhlín na vozovkách a 40-55 AP na datasetoch dier.

YOLACT: Segmentácia inštancií v reálnom čase

YOLACT (You Only Look At CoefficienTs) bol predstavený Bolya et al. v roku 2019 ako prvá metóda segmentácie inštancií v reálnom čase schopná pracovať pri 30+ FPS. Na rozdiel od dvojstupňového prístupu Mask R-CNN, YOLACT je jednostupňová, plne konvolučná metóda, ktorá rozdeľuje segmentáciu inštancií na dve paralelné podúlohy: generovanie sady prototypových masiek pre celý obrázok a predikciu lineárnych kombinačných koeficientov na inštanciu.

V prvej podúlohe produkuje Feature Pyramid Network backbone sadu prototypových masiek – k maskovacích koeficientov (zvyčajne 32), ktoré pokrývajú celý obrázok. Tieto prototypy zachytávajú bežné vzory tvarov (napr. horizontálne, vertikálne, zakrivené, kruhové). V druhej podúlohe predikčná hlava vytvára vektor lineárnych koeficientov pre každú detekovanú inštanciu. Výsledná maska pre každú inštanciu sa vypočíta ako lineárna kombinácia prototypov vážená vektorom koeficientov inštancie, po ktorej nasleduje sigmoidná aktivácia a orezanie pomocou predikovaného ohraničujúceho rámčeka.

YOLACT dosahuje 29-31 AP na COCO pri 30-45 FPS na GPU Titan X. Rýchlejšia varianta YOLACT-550 dosahuje 28,2 AP pri 56 FPS. YOLACT++ zlepšuje kvalitu masiek pridaním deformovateľných konvolúcií a lepšieho upsamplingu prototypov, čím dosahuje 34,1 AP pri 33,5 FPS. Pre inšpekciu infraštruktúry bol YOLACT úspešne aplikovaný na detekciu betónových trhlín v reálnom čase, pričom dosahuje konkurencieschopné výsledky pri rýchlostiach vhodných pre spracovanie na UAV. Kompromisom je nižšia presnosť okrajov masiek v porovnaní s Mask R-CNN, čo môže ovplyvniť presné meranie šírky trhlín.

SOLO: Plne konvolučná bez detekcie

SOLO (Segmenting Objects by LOcations), predstavený Wang et al. v roku 2020, používa zásadne odlišný prístup: úplne eliminuje detekčnú vetvu a predikuje masky inštancií priamo pomocou plne konvolučnej architektúry. Základnou myšlienkou je, že každú inštanciu možno jednoznačne identifikovať podľa jej stredovej polohy a veľkosti objektu. SOLO rozdeľuje vstupný obrázok do mriežky S×S. Každá bunka mriežky je zodpovedná za predikciu binárnej masky akejkoľvek inštancie, ktorej stred spadá do tejto bunky. Každá bunka mriežky predikuje C-kanálové masky (jedna na triedu) plus pravdepodobnosti tried.

Architektúra SOLO pozostáva z backbone (ResNet-FPN), kategóriovej vetvy, ktorá predikuje pravdepodobnosti tried pre každú bunku mriežky, a maskovacej vetvy, ktorá predikuje S² binárnych masiek na obrázok (jedna na pozíciu v mriežke). Počas inferencie sa kombinuje predikcia triedy na bunku a predikcia masky: pre každú bunku mriežky sa predikovaná trieda s istotou nad prahom vyberie ako zodpovedajúci kanál masky. SOLOv2 vylepšuje originál zavedením predikcie jadra masky a korelácie vlastností masky, čím dosahuje 37,8 AP na COCO pri porovnateľnej rýchlosti s Mask R-CNN.

Paradigma SOLO založená na polohe je obzvlášť zaujímavá pre defekty infraštruktúry, pretože prirodzene priraďuje každý defekt k jeho priestorovej polohe bez spoliehania sa na návrhy ohraničujúcich rámčekov, čo môže byť problematické pre vysoko pretiahnuté defekty, ako sú trhliny, ktoré sa tiahnu cez veľké časti obrázka.

Mask2Former: Transformerová univerzálna segmentácia

Mask2Former, predstavený Cheng et al. z Facebook AI Research (CVPR 2022), predstavuje špičku v oblasti transformerovej segmentácie. Mask2Former zjednocuje sémantickú, inštančnú a panoptickú segmentáciu v rámci jednej architektúry tým, že všetky segmentačné úlohy považuje za klasifikáciu masiek. Architektúra má tri komponenty: backbone (Swin Transformer alebo ResNet), ktorý extrahuje viacúrovňové vlastnosti, pixelový dekóder, ktorý upsampluje vlastnosti na vysokorozlíšené embeddingy na pixel, a transformerový dekóder s maskovanou pozornosťou, ktorý predikuje sadu N dotazov (zvyčajne 100), pričom každý vytvára binárnu masku a triedu.

Kľúčovou inováciou je maskovaná pozornosť – mechanizmus, kde každý transformerový dekódovací dotaz venuje pozornosť iba predikovanej oblasti masky z predchádzajúcej dekódovacej vrstvy, namiesto pozornosti venovanej celej mape vlastností. To znižuje výpočetnú náročnosť 3× v porovnaní so štandardnými transformerovými modelmi a núti každý dotaz špecializovať sa na konkrétnu oblasť, čo zlepšuje rýchlosť konvergencie a kvalitu masiek.

Mask2Former dosahuje 50,1 AP na COCO segmentácii inštancií s backbone Swin-L a 57,8 PQ na COCO panoptickej segmentácii. Jeho trénovanie konverguje 3× rýchlejšie ako predchádzajúce transformerové prístupy (napr. MaskFormer, DETR). Pre infraštruktúrne aplikácie je schopnosť Mask2Former spracovávať prekrývajúce sa a susediace inštancie defektov prostredníctvom učenia založeného na dotazoch obzvlášť účinná pre husté polia defektov, ako je krokodílová alebo sieťová trhlinovitosť.

ArchitektúraTypCOCO APFPSSilné stránkyPoužitie v infraštruktúre
Mask R-CNNDvojstupňová CNN37-475-10Vysoká presnosť masiek, dobre zavedenáOffline analýza defektov
YOLACTJednostupňová CNN29-3430-56Rýchlosť v reálnom časeSpracovanie na UAV
SOLOv2CNN bez detekcie37,8~10Nezávislosť od anchor/návrhovPretiahnuté inštancie defektov
Mask2FormerTransformer50,1~15Špičková presnosť, jednotný rámecHusté polia defektov

Segmentácia inštancií vs. sémantická segmentácia pre trhliny

Výber medzi inštančnou a sémantickou segmentáciou pre detekciu trhlín závisí od konkrétnych analytických požiadaviek inšpekčného programu a tieto dva prístupy produkujú zásadne odlišné výstupy.

Sémantická segmentácia pre trhliny považuje celú sieť trhlín za jednu triedu popredia. Model sa učí klasifikovať každý pixel ako “trhlina” alebo “pozadie.” Výstupom je binárna maska, kde sú všetky pixely trhlín biele a všetky pixely bez trhlín čierne. Tento prístup má niekoľko dobre zdokumentovaných silných stránok: prirodzene spája súvislé trhlinové siete (vetviaca sa trhlina je jeden súvislý komponent), vyžaduje jednoduchšie anotácie (ťahy štetcom na úrovni pixelov namiesto polygónov na inštanciu) a trénovacia zložitosť je nižšia s menším počtom výstupných kanálov. Najmodernejšie modely sémantickej segmentácie pre trhliny – ako DeepCrack (93% F1 na CrackTree260), CrackU-Net (97,5% F1 na CRACK500) a SwinUNETR (90,5% F1 na viacčasových datasetoch trhlín) – dosahujú vynikajúcu presnosť na úrovni pixelov.

Sémantická segmentácia má však zásadné obmedzenie pre hodnotenie stavu infraštruktúry: nedokáže počítať jednotlivé trhliny. Keď sémantická segmentácia nahlási 5 000 pixelov trhlín, neposkytuje žiadnu informáciu o tom, či tieto pixely patria k jednej 5 000-pixelovej trhline alebo päťdesiatim 100-pixelovým trhlinám. Tento rozdiel je kľúčový pre výpočty indexu stavu vozovky (PCI), kde hustota trhlín (počet trhlín na jednotku plochy) a závažnosť jednotlivých trhlín sú samostatné hodnotiace parametre podľa inšpekčných protokolov ASTM D5340 a ICAO Annex 14.

Segmentácia inštancií pre trhliny priraďuje jedinečné ID každej jednotlivej inštancii trhliny. Pre obrázok vozovky s viacerými trhlinami výstup pozostáva z N binárnych masiek, z ktorých každá zodpovedá jednej trhline, s príslušnou triedou a ID inštancie. Metóda segmentácie inštancií rozšírená o CrackMover navrhnutá Zhao et al. (2024) dosahuje 33,3 AP na detekcii trhlín, čo predstavuje prekonanie štandardnej Mask R-CNN o 8,6% prostredníctvom špecializovanej augmentácie dát pre pretiahnuté tvary trhlín.

Segmentácia inštancií pre trhliny prináša jedinečné výzvy. Trhliny sú vysoko pretiahnuté, tenké a často sa vetviace objekty – nie kompaktné bloby ako diery. Štandardné architektúry segmentácie inštancií navrhnuté pre COCO objekty (kompaktné, dobre definované tvary) môžu rozdeliť jednu vetviacu sa trhlinu na viacero inštancií alebo nedokážu oddeliť susediace paralelné trhliny. Špecializované techniky zahŕňajú úpravu rozlíšenia RoIAlign pre extrakciu pretiahnutých vlastností, použitie atróznych konvolúcií v maskovacej hlave pre viacúrovňové zachytenie trhlín a aplikáciu kaskádového spresnenia (Cascade Mask R-CNN), ktoré iteratívne zlepšuje nekvalitné návrhy.

Praktické rozhodnutie závisí od otázky údržby, ktorá sa kladie. Pre kvantifikáciu celkovej plochy trhlín (napr. meranie percenta trhlinovitosti na úsek dráhy) môže byť sémantická segmentácia dostatočná a je výpočtovo efektívnejšia. Pre počítanie trhlín, sledovanie šírky jednotlivých trhlín a hodnotenie závažnosti jednotlivých trhlín (napr. ASTM D5340, kde závažnosť závisí od šírky jednotlivej trhliny) je nevyhnutná segmentácia inštancií. Rastúcim trendom v inšpekcii infraštruktúry je panoptická segmentácia – kombinácia sémantickej a inštančnej segmentácie na sémantickú klasifikáciu nespočítateľných oblastí (napr. povrch vozovky, tráva, značenie) a zároveň inštančnú segmentáciu spočítateľných defektov (trhliny, výtlky, diery).

Segmentácia inštancií pre výtlky a diery

Výtlky a diery sú z hľadiska geometrie zásadne odlišné od trhlín: sú to diskrétne, ohraničené, kompaktné defekty s jasným priestorovým rozsahom, dobre definovanými okrajmi a merateľným objemom. To ich robí prirodzene vhodnými pre segmentáciu inštancií a architektúry, ktoré fungujú dobre na COCO inštanciách (ktoré sú väčšinou kompaktné objekty), sa efektívne prenášajú na detekciu výtlkov a dier.

Diera je miskovitá priehlbina na povrchu vozovky, ktorá typicky vzniká, keď povrchové trhliny umožnia infiltráciu vody, čo vedie k degradácii podkladovej vrstvy a strate materiálu. Diery sú svojou podstatou diskrétne inštancie – každá diera je samostatná fyzická dutina. Segmentácia inštancií zachytáva presný obvod každej diery, čo je kľúčové pre presný odhad objemu opravy. Prístup s ohraničujúcimi rámčekmi (detekcia objektov) by mohol v závislosti od nepravidelnosti tvaru diery ohraničovať 30-50% plochy bez defektu, zatiaľ čo segmentácia inštancií poskytuje skutočnú plochu defektu.

Výtlk je odštiepená alebo rozbitá oblasť na okraji škáry alebo trhliny, typicky v betónových vozovkách. Výtlky sú tiež diskrétne inštancie ohraničené líniou škáry alebo trhliny. Segmentácia inštancií pre výtlky musí zohľadňovať ich geometrické obmedzenia: výtlky vždy vznikajú na štrukturálnej diskontinuite (škára, okraj trhliny), majú jednu stranu ohraničenú škárou a zasahujú do plochy dosky. Špecializované modely segmentácie inštancií pre výtlky zahŕňajú mechanizmy pozornosti zamerané na oblasti škár.

Výskum demonštruje účinnosť týchto prístupov. Použitím Mask R-CNN na detekciu dier na cestných datasetoch Nhat-Duc et al. (2020) uviedli AP@0,50 na úrovni 55,2 a AP@0,75 na úrovni 42,8. YOLACT aplikovaný na detekciu dier dosiahol rýchlosť inferencie 33 FPS s AP@0,50 na úrovni 48,7, čo umožňuje počítanie dier v reálnom čase z kamier namontovaných na vozidlách. Pre betónové výtlky dosiahol Cascade Mask R-CNN s backbone ResNeXt-101 44,6 AP na datasete výtlkov mostoviek s 2 400 anotovanými obrázkami.

Norma ASTM D5340 pre index stavu vozovky (PCI) na letiskách definuje špecifické požiadavky na meranie výtlkov a dier:

  • Meranie výtlkov: Zaznamenať dĺžku, šírku a hĺbku každého výtlku; klasifikovať závažnosť podľa rozmerov (Nízka: <25mm hĺbka, Stredná: 25-50mm hĺbka, Vysoká: >50mm hĺbka)
  • Meranie dier: Zaznamenať priemer a hĺbku každej diery; klasifikovať závažnosť podobne
  • Výpočet hustoty: Počet výtlkov/dier na vzorkovaciu jednotku, škálovaný na maximálnu hustotu

Segmentácia inštancií priamo podporuje všetky tieto merania. Maska na úrovni pixelov poskytuje presné rozmery dĺžky a šírky (v kombinácii so známym priestorovým rozlíšením, napr. 1mm/pixel z kalibrovanej UAV snímky). Jedinečné ID inštancie umožňuje počítanie jednotlivých defektov pre výpočty hustoty. V kombinácii so stereoskopickými údajmi o hĺbke alebo údajmi z fotogrametrie (Structure-from-Motion, SfM) možno masky inštancií previesť do 3D na meranie objemu.

Kľúčovou výhodou oproti sémantickej segmentácii pre výtlky a diery je počítanie defektov. Predstavte si úsek dráhy s 15 jednotlivými výtlkmi. Sémantická segmentácia nahlási “plocha výtlkov: 0,85 m²” – bez uvedenia počtu defektov. Segmentácia inštancií nahlási “Detekovaných 15 výtlkov: Výtlk-001 (0,12 m²), Výtlk-002 (0,04 m²), …, Výtlk-015 (0,03 m²)” – čo informuje inžiniera, že je potrebných 15 samostatných opráv a ktoré sú najzávažnejšie.

Meranie jednotlivých defektov: Plocha, poloha a morfológia

Keď je každá inštancia defektu izolovaná svojou jedinečnou maskou, možno z nej získať komplexnú sadu meraní na inštanciu pre hodnotenie stavu a plánovanie údržby.

Meranie plochy je najzákladnejšia metrika na defekt. Počet pixelov v rámci každej masky inštancie sa prepočíta na fyzickú plochu pomocou priestorovej kalibrácie. Pre snímky získané UAV so známou vzdialenosťou vzorkovania na zemi (GSD) – typicky 0,5-2,0 mm/pixel pre inšpekcie dráh – sa počet pixelov masky vynásobený (GSD)² prepočíta na fyzickú plochu v mm² alebo m². Pre trhliny umožňuje meranie plochy výpočet šírky trhliny: priemerná šírka trhliny = plocha masky / dĺžka skeletu. Pre diery a výtlky plocha priamo vstupuje do prahov klasifikácie závažnosti.

Meranie polohy priraďuje geografické súradnice každej inštancii defektu. Ťažisko masky inštancie (priemer x,y pixelov masky) alebo stred spodného bodu (pre polohu s ohľadom na orientáciu) sa transformuje z obrazových súradníc na súradnice reálneho sveta pomocou georeferenčných parametrov kamery (z GPS/IMU metadát alebo z fotogrametrických pozemných kontrolných bodov). Údaje o polohe umožňujú: priestorovú klastrovú analýzu na identifikáciu zón s vysokou hustotou defektov, koreláciu so štrukturálnymi prvkami (škáry, rohy panelov, drenážne cesty) a prepojenie s GIS databázami systému správy vozoviek (PMS) pre generovanie príkazov na údržbu.

Meranie morfológie charakterizuje geometrické vlastnosti každej inštancie defektu nad rámec jednoduchej plochy. Kľúčové morfologické deskriptory zahŕňajú:

  • Plocha konvexného obalu: Plocha najmenšieho konvexného polygónu obsahujúceho defekt. Pomer plocha defektu / plocha konvexného obalu (solidita) indikuje konkávnosť tvaru. Nízka solidita (<0,5) indikuje vysoko nepravidelné alebo vetviace sa trhliny.
  • Orientácia: Uhol hlavnej osi defektu (z momentov obrazu alebo PCA pixelov masky). Orientácia trhliny voči osi dráhy je kľúčová pre hodnotenie štrukturálneho významu: priečne trhliny (kolmé na dopravu) sú typicky štrukturálne významnejšie ako pozdĺžne trhliny.
  • Excentricita: Pomer dĺžky hlavnej osi k dĺžke vedľajšej osi. Vysoká excentricita (>10) indikuje pretiahnuté defekty (trhliny); nízka excentricita (<3) indikuje kompaktné defekty (diery, výtlky).
  • Obvod a fraktálna dimenzia: Dĺžka obvodu masky a fraktálna dimenzia (vzťah log(obvod) / log(plocha)). Vyššia fraktálna dimenzia indikuje nepravidelnejšie, komplexnejšie hranice defektov – charakteristické pre degradované výtlky a aligátorovitú trhlinovitosť.
  • Skelet a vetviace body: Pre trhliny morfologická skeletonizácia extrahuje sieť stredovej línie trhliny. Vetviace body (spojnice, kde sa trhlinové cesty pretínajú) sa počítajú a klasifikujú. Počet vetviacich bodov na inštanciu trhliny je kľúčový indikátor závažnosti pre blokovú a únavovú trhlinovitosť (D 5340).

Tieto merania sa efektívne počítajú pomocou funkcií analýzy kontúr v OpenCV (cv2.findContours, cv2.moments, cv2.convexHull) alebo morfologických operácií v scikit-image (skimage.measure.regionprops, skimage.morphology.skeletonize). Pre typický inšpekčný dataset dráhy s 10 000 obrázkami a 50 000+ inštanciami defektov trvá extrakcia vlastností na inštanciu minúty na štandardnej pracovnej stanici.

Technické porovnanie sémantickej segmentácie a segmentácie inštancií na trhlinách vozovky s rôznym farebným kódovaním na defekt

Počítanie defektov a mapovanie distribúcie

Segmentácia inštancií umožňuje automatizované počítanie defektov, ktoré je s čisto sémantickou segmentáciou jednoducho nemožné. Počet defektov – počet diskrétnych jednotlivých defektov na jednotku plochy – je základným vstupom pre indexy stavu infraštruktúry vrátane PCI (ASTM D5340), indexu štrukturálneho stavu (SCI) a indexu stavu dráhy (RCI).

Počítanie na defekt prebieha nasledovne: model segmentácie inštancií vytvára masky inštancií s jedinečnými ID (typicky celé čísla začínajúce od 1). Počet jedinečných ID inštancií v každom obrázku alebo oblasti prieskumu priamo udáva počet defektov. Pre 3 000-metrovú dráhu snímanú s GSD 1mm, generujúcu približne 3 000 dlaždíc obrázkov s veľkosťou 2000×2000 pixelov, by model segmentácie inštancií mohol detekovať 200-500 jednotlivých trhlín, 50-100 výtlkov a 10-20 dier – každá spočítaná a zaznamenaná individuálne.

Stratifikácia počtu zoskupuje defekty podľa typu a závažnosti. Jedinečné ID inštancií sa najprv zoskupia podľa predikovanej triedy (trhlina, výtlk, diera, porucha škáry, zvetrávanie). V rámci každej triedy možno inštancie ďalej stratifikovať podľa závažnosti na základe prahov plochy alebo morfologických vlastností:

  • Trhliny podľa závažnosti: Vláskové trhliny (<1mm šírka), Stredné trhliny (1-3mm), Široké trhliny (>3mm) – šírka odvodená z pomeru plocha/dĺžka skeletu
  • Výtlky podľa závažnosti: Nízka (<25mm hĺbka, <150mm dĺžka), Stredná (25-50mm hĺbka, 150-600mm dĺžka), Vysoká (>50mm hĺbka, >600mm dĺžka) – podľa ASTM D5340
  • Diery podľa závažnosti: Malé (<0,1 m²), Stredné (0,1-0,5 m²), Veľké (>0,5 m²)

Mapovanie priestorovej distribúcie agreguje počty na defekt do priestorových intervalov. Dráha je rozdelená na vzorkovacie jednotky podľa špecifikácií ICAO/ASTM: typicky 20 súvislých dosiek pre betónové vozovky (každá doska ~5m × 5m = 25 m²) alebo obdĺžnikové jednotky 25m × 25m = 625 m² pre asfaltové vozovky. Ťažisko každej inštancie defektu je mapované na príslušnú vzorkovaciu jednotku. Hustota defektov na jednotku sa vypočíta ako: počet defektov v jednotke / plocha jednotky. Táto hustota priamo vstupuje do výpočtových tabuliek PCI.

Distribučné mapy odhaľujú vzory zhlukovania defektov. Dráha s 500 jednotlivými trhlinami rozloženými v 120 vzorkovacích jednotkách by mohla vykazovať 85% jednotiek s 0-5 trhlinami a 5% jednotiek s 20+ trhlinami. Zhlukované jednotky indikujú oblasti vyžadujúce cielenú údržbu – typicky spojené so základnými štrukturálnymi problémami (zlyhanie podložia, slabá drenáž, stavebné škáry) a nie s rovnomerným povrchovým opotrebovaním.

Priestorová bodová analýza (Ripleyho K-funkcia, jadrové odhady hustoty) môže ďalej kvantifikovať intenzitu zhlukovania a identifikovať štatisticky významné hotspoty defektov. V kombinácii s GIS prekryvnou analýzou možno zhluky defektov korelovať s polohami stavebných škár, vekovými zónami vozovky, drenážnymi vzormi a oblasťami stojatej vody, predchádzajúcimi opravami a údržbou a distribúciou dopravy (zóny koncentrácie kolies).

Sledovanie inštancií v čase

Jedinečná schopnosť segmentácie inštancií priraďovať trvalé ID jednotlivým defektom umožňuje časové sledovanie – kvantifikáciu toho, ako sa každý defekt vyvíja medzi inšpekciami. To je základom prediktívnej údržby a správy majetku založenej na stave.

Pipela časového sledovania zahŕňa štyri fázy. Po prvé, dráha je opätovne snímaná v pravidelnom rytme (štvrťročne, polročne alebo ročne, podľa odporúčaných postupov ICAO pre prieskumy stavu letiskových spevnených plôch). Po druhé, segmentácia inštancií sa aplikuje nezávisle na každý dataset prieskumu, čím sa generujú masky na defekt s ID inštancií pre každý časový bod. Po tretie, algoritmus asociácie inštancií spája inštancie defektov medzi po sebe nasledujúcimi prieskumami na základe priestorovej blízkosti (vzdialenosť medzi ťažiskami < prah), prekrytia masiek (IoU ≥ 0,3-0,5) a morfologickej podobnosti (zmena plochy <50%, zmena orientácie <15°). Po štvrté, spárované inštancie dostanú trvalé globálne ID, ktoré ich spája vo všetkých epochách prieskumu, čím sa vytvára časový rad pre každý defekt.

Asociačné algoritmy musia zvládnuť niekoľko výziev. Defekty sa môžu medzi prieskumami zlúčiť alebo rozdeliť (trhlina, ktorá sa rozdvojí, výtlk, ktorý sa rozšíri a spojí so susedným výtlkom). Defekty sa môžu objaviť alebo zmiznúť (tvorba novej trhliny, opravené defekty). Maďarský algoritmus (Munkresovo priradenie) rieši problém lineárneho priradenia pre párovanie jedna ku jednej medzi inštanciami v po sebe nasledujúcich prieskumoch s výpočtovou náročnosťou O(n³). Pre komplexné prípady s rozdeleniami a zlúčeniami poskytuje sledovanie založené na grafoch (tok s minimálnymi nákladmi na časopriestorovom grafe) robustnejšie párovanie za cenu vyššej výpočtovej náročnosti.

Metriky zmeny na defekt vypočítané z párových časových radov zahŕňajú:

  • Rýchlosť rastu šírky trhliny: (šírka_t2 - šírka_t1) / dni. Nárast >0,1mm/mesiac typicky indikuje aktívnu štrukturálnu degradáciu.
  • Rýchlosť expanzie plochy výtlku: (plocha_t2 - plocha_t1) / dni. Rýchlosť expanzie presahujúca 10-20 cm²/mesiac si vyžaduje vyšetrenie.
  • Rast objemu diery: V kombinácii s údajmi o hĺbke rýchlosť rastu objemu v cm³/mesiac.
  • Miera tvorby nových defektov: Počet nespárovaných inštancií neasociovaných so žiadnou predchádzajúcou inštanciou prieskumu na jednotku plochy za časové obdobie.
  • Smer šírenia defektu: Vektor z ťažiska_t1 do ťažiska_t2 indikuje smer šírenia degradácie.

Presnosť časového sledovania závisí od presnosti registrácie prieskumov. Opakované prieskumy musia byť georeferencované v rovnakom súradnicovom systéme s presnosťou pod centimeter. To sa dosahuje prostredníctvom pozemných kontrolných bodov (GCP) trvale inštalovaných pozdĺž dráhy a snímaných s RTK GPS (presnosť ±2cm) alebo prostredníctvom obrazovej koregistrácie pomocou párovania vlastností (SIFT/SuperPoint vlastnosti) medzi datasetmi prieskumov na výpočet homografických transformácií.

Prediktívna údržba používa časové rady na defekt na predpovedanie, kedy defekt dosiahne kritickú závažnosť. Lineárny regresný model prispôsobený časovému radu šírky alebo plochy každého defektu predpovedá dátum, kedy defekt prekročí prah závažnosti (napr. šírka trhliny >3mm pre Vysokú závažnosť podľa ASTM D5340). To generuje prioritný front údržby: defekty, ktoré by mali dosiahnuť kritickú závažnosť v nasledujúcom inšpekčnom cykle, sú označené na okamžitú opravu.

Trénovacie požiadavky pre anotácie na úrovni inštancií

Trénovanie modelov segmentácie inštancií pre defekty infraštruktúry prináša jedinečné výzvy v porovnaní s datasetmi prírodných objektov, predovšetkým kvôli požiadavkám na anotácie a charakteristikám dát.

Formát anotácií: Segmentácia inštancií vyžaduje anotácie na úrovni polygónov – každý jednotlivý defekt musí byť ohraničený uzavretým polygónom vrcholov. To je podstatne náročnejšie na prácu ako anotácie pre sémantickú segmentáciu (ktoré používajú ťahy štetcom alebo nástroje na vyplnenie) alebo anotácie pre detekciu objektov (ktoré používajú osovo zarovnané obdĺžniky). Typická anotácia trhliny vyžaduje 20-100 vrcholov polygónu na presné obkreslenie cesty trhliny v závislosti od komplexnosti a dĺžky trhliny. Anotácia výtlku typicky vyžaduje 8-30 vrcholov. Priemyselné štandardné anotačné nástroje (CVAT, Labelbox, Supervisely, Scale AI) podporujú polygónové anotácie s poloautomatizovanými nástrojmi (napr. interaktívna segmentácia so SAM – Segment Anything Model – na zníženie času manuálneho umiestňovania vrcholov).

COCO JSON formát je štandardná schéma anotácií segmentácie inštancií. Každý anotačný záznam obsahuje id (jedinečný identifikátor anotácie), image_id (odkaz na zdrojový obrázok), category_id (trieda, napr. 1=trhlina, 2=výtlk, 3=diera), segmentation (polygón reprezentovaný ako sploštený zoznam x,y súradníc), area (plocha polygónu v pixeloch), bbox (ohraničujúci rámček ako [x, y, šírka, výška]) a iscrowd (0 pre jednotlivé inštancie defektov).

Požiadavky na veľkosť datasetu: Modely segmentácie inštancií typicky vyžadujú 500-2 000+ anotovaných obrázkov na kategóriu defektov pre akceptovateľný výkon (AP >35). Malé datasety (<200 obrázkov) riskujú preučenie a slabú generalizáciu na nové typy vozoviek, svetelné podmienky a varianty defektov. Transferové učenie z veľkých predtrénovaných backbone (ImageNet-1K, COCO) výrazne znižuje požadovanú veľkosť datasetu – Mask R-CNN inicializovaná s COCO predtrénovanými váhami a dolaďovaná na 500 obrázkoch trhlín dosahuje porovnateľný výkon s modelom trénovaným od nuly na 2 000 obrázkoch.

Augmentácia dát je kľúčová pre datasety defektov infraštruktúry, ktoré sú typicky menšie ako všeobecné datasety počítačového videnia. Efektívne augmentácie zahŕňajú náhodnú rotáciu (±180°), horizontálne/vertikálne preklopenie, náhodné škálovanie (0,5×-2,0×), úpravy jasu/kontrastu (±20%), náhodné orezávanie, elastické transformácie (Gaussovo pole posunu) a mozaikovú augmentáciu (kombinácia 4 obrázkov do jedného). CrackMover, špecializovaná augmentácia pre segmentáciu inštancií trhlín, presampluje inštancie trhlín z jedného obrázka a vkladá ich do nových obrázkov pozadia s realistickým prelínaním, čím umelo zvyšuje počet inštancií trhlín aj diverzitu pozadia.

Generovanie syntetických dát rieši základný problém nedostatku anotácií v inšpekcii infraštruktúry. Rámec UAV-based inšpekcie letiskových spevnených plôch (Alonso et al., 2024) demonštruje, že trénovanie na zmiešaných reálnych a syntetických datasetoch zlepšuje F1 segmentácie trhlín o 8-12% v porovnaní s trénovaním len na reálnych dátach. Hyperrealistické virtuálne prostredia vytvorené v Unreal Engine alebo Unity môžu generovať neobmedzené množstvo anotovaných obrázkov s dokonalými skutočnými maskami, rôznymi svetelnými podmienkami a rôznymi geometriami defektov. Doménová randomizácia – náhodné menenie textúr, farieb a osvetlenia v syntetických scénach – zlepšuje prenos sim-to-real tým, že núti model učiť sa geometriu namiesto textúrových vzorov.

Hodnotenie segmentácie inštancií

Modely segmentácie inštancií sa hodnotia pomocou metrík prevzatých z detekcie objektov aj sémantickej segmentácie, pričom štandardným benchmarkom je hodnotiaci protokol COCO.

Priemerná presnosť (AP) je primárna metrika. AP sa počíta pri viacerých prahoch Intersection over Union (IoU) medzi predikovanými maskami a skutočnými maskami. Pre každý prah IoU t (v rozsahu 0,50 až 0,95 v krokoch po 0,05) sa vypočítajú krivky precision-recall pre každú triedu a AP je plocha pod krivkou precision-recall. Hlavná COCO metrika AP (alebo mAP) spriemerováva cez všetky prahy IoU a triedy.

Kľúčové varianty AP používané pri detekcii defektov zahŕňajú AP@IoU=0,50 (mierny prah považovaný za prah detekcie; predikovaná maska prekrývajúca 50% alebo viac so skutočnosťou sa počíta ako správna), AP@IoU=0,75 (prísny prah vyžadujúci vysoko kvalitné masky, dôležitý pre aplikácie vyžadujúce presné ohraničenie defektov, ako je meranie šírky trhlín) a AP@small, AP@medium, AP@large (metriky podľa veľkosti definované plochou skutočnosti: malé <32² pixelov, stredné 32²-96² pixelov, veľké >96² pixelov).

Priemerná recall (AR) meria podiel skutočných inštancií, ktoré majú predikovanú zhodu pri každom prahu IoU. AR sa typicky uvádza ako AR@max=100 (maximálne 100 detekcií na obrázok). Vysoká recall je kľúčová pre bezpečnostne kritické inšpekcie infraštruktúry, kde by nezistené defekty mohli viesť k nezistenej degradácii.

Mask IoU je základným kritériom párovania. Pre predikovanú masku P a skutočnú masku G platí IoU = |P ∩ G| / |P ∪ G|. Predikcia sa považuje za True Positive (TP), ak IoU ≥ prah A predikovaná trieda sa zhoduje so skutočnou triedou. False Positives (FP) nastávajú, keď má predikcia IoU < prah s akoukoľvek skutočnou maskou rovnakej triedy alebo predikuje nesprávnu triedu. False Negatives (FN) sú skutočné masky, ktoré sa nezhodujú so žiadnou predikciou.

COCO párovací algoritmus rieši duplicitné detekcie: ak sa viacero predikcií zhoduje s jednou skutočnosťou, iba predikcia s najvyššou istotou sa počíta ako TP; ostatné sú FP. To odmeňuje presnosť a penalizuje nadmernú segmentáciu – dôležité pre detekciu defektov, kde by viacnásobné prekrývajúce sa predikcie na rovnakej trhline indikovali nestabilitu modelu.

Infraštruktúrne špecifické hodnotenie často pridáva AP na triedu rozčlenenú podľa typu defektu. Model detekcie trhlín by mohol vykazovať AP_trhlina=32,1, AP_výtlk=44,6, AP_diera=51,3. Výrazne nižšia AP pre trhliny odráža náročnosť segmentácie inštancií pre tenké, pretiahnuté objekty (mask IoU je vysoko citlivý na malé chyby zarovnania pri tenkých štruktúrach).

F1-skóre pri špecifickom prahu IoU (typicky 0,50) sa tiež bežne uvádza v infraštruktúrnej literatúre: F1 = 2 × (Precision × Recall) / (Precision + Recall). F1 poskytuje jediné vyvážené meranie kompromisu medzi presnosťou a recall.

Aplikácia v inšpekcii infraštruktúry

Segmentácia inštancií transformuje inšpekciu infraštruktúry zo subjektívneho, pracovne náročného procesu na objektívny, kvantitatívny a škálovateľný digitálny pracovný postup. Technológia je nasadzovaná v mnohých infraštruktúrnych doménach s dokázaným zlepšením presnosti, konzistencie a priepustnosti inšpekcie.

Inšpekcia letiskových dráh predstavuje najnáročnejšiu aplikáciu. Kvalifikované inšpekcie dráh podľa ICAO Annex 14 vyžadujú prieskumy stavu vozoviek každé 1-3 roky pomocou štandardizovaných postupov (ASTM D5340, ASTM D6433, ICAO Aerodrome Design Manual Part 3). Segmentácia inštancií priamo podporuje tieto štandardy automatizáciou počítania a merania defektov. Rámec automatizovanej UAV inšpekcie dráh (Krestenitis et al., 2026) demonštruje end-to-end nasadenie: UAV prieskum → získavanie snímok → inferencia hlbokého učenia (EfficientNet + FPN sémantická segmentácia s dodatočným inštančným spracovaním) → GIS agregácia → výpočet PCI. Systém dosahuje 95%+ presnosť detekcie defektov >3mm šírka v celom rozsahu dráhy, pričom prieskum je dokončený za 45 minút oproti 4-6 hodinám pre tradičnú manuálnu inšpekciu vyžadujúcu uzavretie dráhy.

Inšpekcia diaľničných a cestných vozoviek používa kamerové systémy namontované na vozidlách pohybujúcich sa rýchlosťami (60-100 km/h). Modely segmentácie inštancií (YOLACT, YOLOv8-seg) spracúvajú video streamy pri 15-30 FPS, detekujúc trhliny, diery a záplaty na mílu jazdného pruhu. Automatizovaný prieskum stavu vozoviek Nevada DOT používa systém segmentácie inštancií založený na YOLOv8 dosahujúci 88% F1 pre detekciu trhlín a 93% F1 pre detekciu dier v rozsahu 5 000+ míľ jazdných pruhov, s presnosťou merania na defekt v rozmedzí 5% manuálnych referenčných meraní.

Inšpekcia mostoviek aplikuje segmentáciu inštancií na betónové výtlky, delaminácie a poruchy škár. Mostovky predstavujú jedinečné výzvy: premenlivé osvetlenie pod mostnou konštrukciou, komplexné textúry pozadia (dilatačné škáry, vpusty, dopravné značenie) a potreba sub-milimetrovej presnosti trhlín pre meranie šírky. Cascade Mask R-CNN dolaďovaná na datasete mostoviek dosahuje 82% mAP@50 pre detekciu výtlkov, čo umožňuje automatizovaný výpočet hodnotenia stavu podľa SNBI (Specification for National Bridge Inspection) pre betónové mostovky.

Inšpekcia železničnej infraštruktúry používa segmentáciu inštancií na povrchové defekty koľajníc (hlavové trhliny, squatty, šupiny) a anomálie koľajového lôžka. Kamerové systémy namontované na koľajových vozidlách zachytávajú vysokorozlíšené snímky pri rýchlostiach 100+ km/h; YOLACT modely bežiace na vstavaných GPU detekujú a klasifikujú jednotlivé defekty koľajníc v reálnom čase. Nemecké železnice (Deutsche Bahn) uviedli 96% mieru detekcie povrchových trhlín >1mm pomocou pipeliny segmentácie inštancií nasadenej na 30 inšpekčných vlakoch, s presnosťou polohy na defekt ±5mm pomocou odometrie enkodérov kolies.

Inšpekcia tunelových ostení nasadzuje segmentáciu inštancií na snímky zachytené z polí viacerých kamier namontovaných na inšpekčných vozidlách pohybujúcich sa rýchlosťou 30-50 km/h. Betónové tunelové ostenia vytvárajú trhliny, výtlky a škvrny od zatekania, ktoré vyžadujú analýzu na úrovni inštancií. Kľúčovou výzvou je rozlíšenie medzi štrukturálnymi trhlinami (vyžadujúcimi opravu) a neštrukturálnymi povrchovými trhlinami (zmrašťovacie, tepelné). Segmentácia inštancií v kombinácii s meraním šírky trhlín (z analýzy masiek na inštanciu) poskytuje kvantitatívne údaje potrebné pre túto klasifikáciu. Rakúske spolkové železnice (ÖBB) používajú systém inšpekcie tunelov s Mask R-CNN a kalibračnou mriežkou založenou na Aruco markeroch na dosiahnutie presnosti merania šírky trhlín ±0,1mm pri rozlíšení 0,5mm/pixel.

Výhody oproti tradičnej inšpekcii sú dobre zdokumentované vo všetkých typoch infraštruktúry. Porovnávacia štúdia naprieč 12 dopravnými agentúrami zistila, že automatizovaná inšpekcia pomocou segmentácie inštancií znížila čas inšpekcie o 60-80%, eliminovala variabilitu medzi hodnotiteľmi (kappa koeficient sa zlepšil z 0,45-0,55 pre manuálnu inšpekciu na 0,88-0,94 pre automatizovanú) a zvýšila citlivosť detekcie defektov o 25-40% (najmä pre defekty nízkej závažnosti, ktoré inšpektori často prehliadajú v dôsledku únavy). Schopnosť merania na defekt umožňuje prechod od údržby založenej na indexe stavu (ošetrovanie oblastí nad prahom závažnosti) k údržbe založenej na jednotlivých defektoch (prioritizácia opráv podľa kritickosti jednotlivých defektov), čím sa znižujú celkové náklady na údržbu o odhadovaných 15-30% prostredníctvom cielenej opravy namiesto plošného ošetrenia.

Fotografia inšpekcie betónovej mostovky zobrazujúca viacero výtlkov a dier s individuálnymi prekryvmi segmentácie inštancií a jedinečne farebne kódovanými maskami

Často kladené otázky

Automatizujte inšpekciu defektov vašej infraštruktúry

TarmacView používa najmodernejšie modely segmentácie inštancií na detekciu, počítanie a sledovanie každého jednotlivého defektu na letiskových spevnených plochách, mostoch a betónových konštrukciách. Dohodnite si demonštráciu a zistite, ako môže analýza jednotlivých defektov transformovať vaše plánovanie údržby.

Zistiť viac

Sémantická segmentácia pre porozumenie infraštruktúrnych scén

Sémantická segmentácia pre porozumenie infraštruktúrnych scén

Sémantická segmentácia priraďuje každomu pixelu v obraze kategóriovú značku, čo umožňuje porozumenie celej scéne pre infraštruktúrnu inšpekciu. Zahŕňa architekt...

35 min čítania
Technology Computer Vision +3
Detekcia trhlín pomocou AI pre kontrolu infraštruktúry

Detekcia trhlín pomocou AI pre kontrolu infraštruktúry

Detekcia trhlín pomocou AI využíva počítačové videnie — konvolučné neurónové siete, vision transformery a modely sémantickej segmentácie — na automatickú identi...

36 min čítania
Computer Vision Deep Learning +8
Percentuálny podiel trhlín na vozovke a hodnotenie konštrukcie

Percentuálny podiel trhlín na vozovke a hodnotenie konštrukcie

Percentuálny podiel plochy trhlín (crack_area_pct) je pomer plochy masky trhlín k celkovej analyzovanej ploche obrazu, vyjadrený v percentách. Je to kľúčová kva...

27 min čítania
measurement pavement +3