Intersection Over Union (IoU)

Intersection Over Union (IoU) a szegmentációs pontosság mérésére

Definíció és képlet

Intersection Over Union (IoU), más néven Jaccard-index vagy Jaccard-hasonlósági együttható, egy statisztikai mérőszám, amely két adathalmaz közötti átfedést számszerűsíti. A számítógépes látásban és a képszegmentálásban az IoU a prediktált szegmentációs maszk pontosságát méri a valóságalap maszkhoz viszonyítva. Ez a legszélesebb körben elfogadott kiértékelési mérőszám a szemantikus szegmentálás, a példányok szegmentálása és az objektumdetektálás feladataihoz mind az akadémiai benchmarkokban, mind az ipari alkalmazásokban.

Az IoU képlete matematikailag egyértelmű:

IoU = |A ∩ B| / |A ∪ B|

Ahol A a prediktált szegmentációs maszkot (azon pixelek halmaza, amelyeket a modell az objektumosztályhoz tartozónak klasszifikál), B pedig a valóságalap maszkot (azon pixelek halmaza, amelyeket emberi annotátorok az objektumosztályhoz tartozónak azonosítottak) jelenti. A számláló, |A ∩ B|, a metszet — az a terület (vagy pixelszám), ahol a predikció és a valóságalap megegyezik. A nevező, |A ∪ B|, az unió — a predikció vagy a valóságalap vagy mindkettő által lefedett teljes terület.

{

Technikai ábra az Intersection Over Union (IoU) fogalmáról két átfedő alakzattal, a metszet lila színnel kiemelve, az unió fehér színnel körülhatárolva

A képletet a konfúziós mátrix elemeivel — valódi pozitívok (TP), hamis pozitívok (FP) és hamis negatívok (FN) — kifejezve egy gyakorlatiasabb megfogalmazást kapunk a számításhoz:

IoU = TP / (TP + FP + FN)

Itt a TP (valódi pozitívok) az objektumosztályhoz tartozóként helyesen klasszifikált pixelek (a metszet területe). Az FP (hamis pozitívok) azok a pixelek, amelyeket tévesen objektumként prediktáltak, pedig valójában háttér (a predikció területe a valóságalapon kívül). Az FN (hamis negatívok) azok a pixelek, amelyeket tévesen háttérként prediktáltak, pedig valójában objektum (a valóságalap területe a predikción kívül). Ez a megfogalmazás egyértelművé teszi, hogy az IoU egyformán bünteti a túlbecslést és az alulbecslést — minden hamis pozitív és hamis negatív ugyanannyival csökkenti a mérőszámot, a teljes releváns területre normalizálva.

Az IoU értéke mindig a [0, 1] zárt intervallumba esik. A 0-ás IoU azt jelzi, hogy a prediktált és a valóságalap maszkok nulla átfedéssel rendelkeznek — teljesen diszjunktak. Az 1-es IoU tökéletes átfedést jelent — a prediktált maszk pontosan pixelre pontosan megegyezik a valóságalap maszkkal. A köztes értékek részleges átfedési minőséget képviselnek. Például a 0,5-ös IoU azt jelenti, hogy a metszet területe fele akkora, mint az unió területe, ami a szabványos minimális küszöbérték ahhoz, hogy egy detektálást vagy szegmentációt helyesnek tekintsünk a Pascal VOC benchmarkban.

Az IoU skálainvariáns abban az értelemben, hogy relatív átfedést mér, nem abszolút pixelszámokat. Egy 100 pixeles objektum és egy 10 000 pixeles objektum is 1,0-s IoU-t produkál, ha tökéletesen van szegmentálva. Azonban ennek a skálainvarianciának van egy gyakorlati korlátja: ugyanazon abszolút pixelhiba esetén (pl. 5 rosszul klasszifikált határpixel) egy kis objektum sokkal nagyobb relatív csökkenést szenved el az IoU-ban, mint egy nagy objektum, ami az IoU-t implicit módon szigorúbbá teszi a finom részletek és kis struktúrák esetében.

A mérőszám a Jaccard-indextől (más néven Intersection over Union) származik, amelyet Paul Jaccard vezetett be 1901-ben a közösségi együtthatóként az alpesi növényvilág fajeloszlásainak összehasonlítására. Számítógépes látásra való alkalmazását a Pascal Visual Object Classes (VOC) Challenge (2007-2012) formalizálta, amely az IoU-t a szabványos kiértékelési mérőszámmá tette az objektumdetektálás és szegmentálás területén. A Common Objects in Context (COCO) adathalmaz és benchmark, amelyet a Microsoft 2014-ben adott ki, tovább erősítette az IoU de facto szabványként való használatát az mAP@[0.5:0.95] bevezetésével, ami az átlagos átlagos precízió átlaga tíz diszkrét IoU küszöbértéken keresztül 0,5-től 0,95-ig.

Az IoU vizuális értelmezése

Az IoU vizuális értelmezése elengedhetetlen ahhoz, hogy intuitív módon megértsük, mit képviselnek a különböző IoU-értékek a szegmentációs minőség szempontjából. A mérőszám egy komplex térbeli kapcsolatot képez le két maszk között egyetlen skaláris értékké, és annak interiorizálása, hogy a különböző térbeli hibamintázatok hogyan befolyásolják ezt az értéket, kritikus fontosságú mind a modellfejlesztés, mind az eredmények kommunikációja szempontjából.

Az 1,0-ás IoU tökéletes pixel-pixel illeszkedést jelent. A repülőtéri burkolatok repedésszegmentálásának kontextusában a tökéletes IoU azt jelenti, hogy minden pixel, amelyet a modell “repedésként” klasszifikált, pontosan megegyezik minden olyan pixellel, amelyet egy képzett ellenőr “repedésként” jelölt meg, és nem maradt ki egyetlen pixel sem, és nem történt túlbecslés sem. A gyakorlatban a tökéletes IoU lényegében elérhetetlen a valós infrastruktúra-ellenőrzésben az annotációs bizonytalanság miatt — különböző emberi annotátorok ugyanazt a repedést ugyanazon a képen jelölve jellemzően csak 0,65-0,85 közötti inter-annotátor IoU-t érnek el, a repedés szélességétől és kontrasztjától függően. Ez az annotációs zajplafon jelenti a maximális elérhető IoU-t bármely modell számára az adott adathalmazon.

A 0,75-0,90 közötti IoU kiváló szegmentációs minőséget jelez. Ezen a szinten a prediktált maszk szorosan követi a valóságalap határvonalát, csak kisebb, 1-3 pixeles eltérésekkel a széleken. Repedésszegmentálás esetén ez a repedés teljes útvonalának helyes észlelésének felel meg, kisebb eltérésekkel a prediktált repedésvastagságban a valóságalap annotációhoz képest. A COCO benchmarkban az AP75 (átlagos precízió 0,75-ös IoU küszöbértéknél) a pontos lokalizációs képesség erős mutatójának tekinthető.

A 0,50-0,75 közötti IoU jó szegmentációs minőséget jelez. A modell helyesen azonosítja az objektum helyét és általános alakját, de a határok pontossága mérsékelt. A burkolati repedésészlelésnél az ebben a tartományban lévő IoU azt jelenti, hogy a modell megbízhatóan megtalálja a repedést (magas valódi pozitív arány), de a repedést valamivel vastagabbnak vagy vékonyabbnak predikálhatja a valóságalapnál, vagy kisebb fragmentáltság léphet fel, ahol egy folytonos repedést rövid, szakaszos szegmensekként prediktál. Ez a jellemző működési tartomány a termelésben használt repedésszegmentációs rendszerek számára valós repülőtéri burkolati képeken, ahol a TarmacView DINOv3-alapú modellje 0,519-es teszt IoU-t ér el.

{

Három IoU-pontszám (0,3, 0,5 és 0,75) technikai összehasonlítása repedésészleléshez burkolaton, a valóságalap zölddel, a predikció pirossal jelölve

A 0,30-0,50 közötti IoU marginális szegmentációs minőséget jelez. A modell érzékeli az objektum jelenlétét, de jelentős lokalizációs hibákkal. A prediktált maszk eltolódhat, rossz alakú lehet, vagy lényegesen eltérhet méretben a valóságalaptól. A burkolati repedésészlelésben ez azt jelentheti, hogy a modell azonosítja a repedés által érintett területeket, de nem követi pontosan a repedés geometriáját, inkább foltokat prediktál lineáris jellemzők helyett. A 0,5 alatti IoU általában nem tekinthető sikeres detektálásnak vagy szegmentációnak a Pascal VOC szabvány szerint.

A 0-0,30 közötti IoU gyenge szegmentációt jelez. A modell vagy egyáltalán nem érzékeli az objektumot (a prediktált maszk üres, IoU=0), vagy olyan maszkot produkál, amely csak véletlenszerűen, egy sokkal nagyobb, rosszul prediktált régió széleinél fedi át a valóságalapot. Az infrastruktúra-ellenőrzés kontextusában az ezen az IoU-szinten működő modellek kritikus hibákat hagynának észrevétlenül, vagy olyan sok hamis pozitívot produkálnának, hogy a kimenet operatív szempontból nem lenne használható.

A vizuális értelmezés egyik kulcsfontosságú felismerése, hogy az IoU nem lineáris az észlelt minőségben. A 0,90-es és a 0,95-ös IoU közötti különbség sokkal kisebb tényleges javulást jelent a pixelpontosságban, mint a 0,50-es és 0,55-ös IoU közötti különbség. Ennek az az oka, hogy magas IoU-szinteknél az unió már nagyon közel van a metszethez, így a további javulások egyre pontosabb határvonal-illesztést igényelnek. Ezzel szemben alacsony és közepes IoU esetén viszonylag nagy javulásokra van szükség a szegmentációs minőségben ahhoz, hogy a mérőszám néhány százalékpontot változzon.

IoU számítás

Az IoU kiszámítása szegmentációs maszkokhoz szisztematikus megközelítést igényel, amely kezeli a maszkreprezentáció, a koordinátarendszerek és a határesetek sajátosságait.

Határolókeret IoU számítás

Határolókeret-alapú predikciókhoz (amelyeket objektumdetektálásban vagy régiójavaslatokként használnak) az IoU-t a tengelyekkel párhuzamos téglalap koordinátái segítségével számítják ki. Minden keretet a bal felső sarok (x₁, y₁) és a jobb alsó sarok (x₂, y₂) határoz meg. A metszet téglalapjának kiszámítása:

x_bal   = max(pred_x₁, gt_x₁)
y_felso = max(pred_y₁, gt_y₁)
x_jobb  = min(pred_x₂, gt_x₂)
y_also  = min(pred_y₂, gt_y₂)

A metszet területe:

metszet = max(0, x_jobb - x_bal) × max(0, y_also - y_felso)

A max(0, …) művelet kritikus — ha a keretek nem fedik át egymást egyik dimenzióban sem, a negatív érték nullára csökken, helyesen nulla metszeti területet eredményezve. Az egyes határolókeretek területe:

terulet_pred = (pred_x₂ - pred_x₁) × (pred_y₂ - pred_y₁)
terulet_gt   = (gt_x₂ - gt_x₁) × (gt_y₂ - gt_y₁)

Az unió ezt követően:

unio = terulet_pred + terulet_gt - metszet

És végül:

IoU = metszet / unio

Szegmentációs maszk IoU számítás

Pixelszintű szegmentációs maszkok esetén az IoU-t úgy számítják ki, hogy minden maszkot bináris képként kezelnek, ahol az 1-es pixelérték az objektumosztályt, a 0-s pixelérték a hátteret jelöli. A számítás elemenkénti logikai műveletekkel történik:

metszet = osszeg(pred_mask ES gt_mask)      // pixelenkénti logikai ÉS
unio = osszeg(pred_mask VAGY gt_mask)       // pixelenkénti logikai VAGY
IoU = metszet / unio

A gyakorlatban a NumPy-t vagy PyTorch-ot használó implementációk ezt vektorizálják:

import torch

def compute_iou(pred_mask: torch.Tensor, gt_mask: torch.Tensor) -> float:
    """
    pred_mask and gt_mask are binary tensors of shape (H, W)
    with values 0 (background) or 1 (object)
    """
    intersection = (pred_mask & gt_mask).sum().item()
    union = (pred_mask | gt_mask).sum().item()
    if union == 0:
        return float('nan')  # both masks empty
    return intersection / union

Az unio == 0 határeset akkor fordul elő, amikor mind a predikció, mind a valóságalap üres — egyik maszk sem tartalmaz objektumpixeleket. Ebben a degenerált esetben a mérőszám NaN-t ad vissza, és a különböző benchmarkok eltérően kezelik ezt. A COCO kiértékelési protokoll kizárja az ilyen eseteket az átlagból. A PyTorch Lightning MeanIoU implementáció -1,0-t ad vissza azokra az osztályokra, amelyek teljesen hiányoznak mind a predikcióból, mind a valóságalapból.

Többosztályos szegmentáció kezelése

Többosztályos szegmentáció esetén (pl. egy olyan modell, amely egyszerre prediktál repedést, tömítőanyagot, burkolatot és illesztési osztályokat) az IoU-t osztályonként számítják ki, majd átlagolják. Minden c osztályhoz egy bináris maszkot készítenek, ahol a pixel (i,j) értéke 1, ha a prediktált vagy valóságalap osztály egyenlő c-vel, egyébként 0. Az osztályonkénti IoU:

IoU_c = TP_c / (TP_c + FP_c + FN_c)

Egy C osztályú szegmentációs probléma esetén az átlagos IoU (mIoU):

mIoU = (1/C) × Σℂ=1…C IoU_c

Fontos szempont, hogy a háttérosztályt (a nem objektumhoz tartozó pixeleket) bele kell-e venni az mIoU számításba. A háttér belefoglalása általában növeli az mIoU-t, mert a háttér dominálja a pixelszámot, és a szegmentációs modellek általában jól teljesítenek rajta. A háttér kizárása őszintébb értékelést ad az objektumszegmentáció minőségéről. A TorchMetrics MeanIoU implementációjának include_background paramétere vezérli ezt a viselkedést.

Az mIoU alternatívája a gyakorisággal súlyozott IoU (FWIoU) , amely az egyes osztályok IoU-ját az osztály valóságalapbeli gyakoriságával súlyozza:

FWIoU = (1/Σℂ n_c) × Σℂ n_c × IoU_c

ahol n_c a c osztályba tartozó valóságalap pixelek száma. Az FWIoU nagyobb súlyt ad a nagyobb osztályoknak és kevesebbet a ritka osztályoknak. A burkolati repedésszegmentálásnál, ahol a repedéspixelek a teljes terület kevesebb mint 1 százalékát teszik ki, az FWIoU elfedné a repedésteljesítményt a burkolat teljesítménye mögött. Az mIoU (súlyozatlan átlag) erősen ajánlott az infrastruktúra-ellenőrzéshez, mert a ritka, de kritikus hibásztályokat egyenlő mértékben kezeli a többségi osztályokkal.

Numerikus precíziós szempontok

Amikor az IoU-t tréning veszteségfüggvényként használják (differenciálható IoU-változatok), a numerikus precízió fontossá válik. A standard IoU nem differenciálható, mert a bináris logikai műveleteknek (ÉS, VAGY, ÖSSZEG) mindenhol nulla a gradiense, kivéve a küszöbnél, ahol a gradiens nem definiált. A differenciálható szurrogátok — soft IoU vagy IoU loss — folytonos közelítéseket használnak:

soft_IoU = Σ(p_i × g_i) / Σ(p_i + g_i - p_i × g_i)

ahol p_i ∈ [0,1] a softmax valószínűség az i pixelre és g_i ∈ {0,1} a valóságalap címke. A p_i × g_i szorzat a logikai ÉS folytonos relaxációja, a p_i + g_i - p_i × g_i összeg pedig a logikai VAGY folytonos relaxációja.

A kiértékeléshez (nem differenciálható) a binarizált maszkokat egy küszöbértékkel (jellemzően 0,5 a softmax valószínűségen) használják. A bináris keresztentrópia veszteség marad a legtöbb repedésszegmentációs modell szabványos képzési célfüggvénye, ahol az IoU utólag számított kiértékelési mérőszámként szolgál.

IoU vs Dice-együttható (F1 a szegmentáláshoz)

A Dice Hasonlósági Együttható (DSC) , más néven Sørensen-Dice-index, ami egyenértékű a bináris szegmentálás F1-pontszámával, a leggyakoribb alternatíva az IoU helyett a szegmentáció kiértékelésében. A két mérőszám közötti kapcsolat megértése elengedhetetlen a szegmentációs pontosság helyes értelmezéséhez.

Matematikai kapcsolat

A Dice-együttható meghatározása:

DSC = 2|A ∩ B| / (|A| + |B|)

A konfúziós mátrix elemeivel kifejezve:

DSC = 2TP / (2TP + FP + FN)

A DSC és az IoU közötti matematikai kapcsolat bijektív és monoton:

DSC = 2 × IoU / (1 + IoU)

IoU = DSC / (2 - DSC)

Ez azt jelenti, hogy bármely adott szegmentáció esetén a DSC közvetlenül kiszámítható az IoU-ból és fordítva. Az átváltás pontos és determinisztikus — nincs információveszteség a két mérőszám közötti átváltáskor.

Legfontosabb különbségek a gyakorlatban

A pontos matematikai kapcsolat ellenére a DSC és az IoU szisztematikusan eltér a numerikus értékükben és értelmezésükben. A legfontosabb tulajdonságok:

DSC ≥ IoU minden tökéletlen szegmentáció esetén. Az egyenlőtlenség szigorú, kivéve a DSC = IoU = 1 (tökéletes) és a DSC = IoU = 0 (nincs átfedés) eseteket. Ennek az az oka, hogy a DSC nevezőjében a TP kétszer szerepel (2TP + FP + FN), míg az IoU-ban a TP csak egyszer (TP + FP + FN), így a DSC nevezője kisebb a számlálójához képest. Például egy TP=80, FP=20, FN=20 paraméterű szegmentáció esetén:

  • IoU = 80 / (80 + 20 + 20) = 80/120 = 0,667
  • DSC = (2×80) / (2×80 + 20 + 20) = 160/200 = 0,800

A DSC “optimistább”. Ugyanazon szegmentációs minőség esetén a DSC magasabb numerikus értéket jelent, mint az IoU. A relatív különbség a legnagyobb közepes átfedési szinteken, és mindkét szélsőség felé konvergál. Egy IoU=0,5-ös szegmentáció DSC=0,667-nek felel meg. Egy IoU=0,75-ös szegmentáció DSC=0,857-nek felel meg.

Az IoU szigorúbb a hamis pozitívokkal és hamis negatívokkal szemben. Mivel az IoU nevezője csak egyszer tartalmazza a TP-t, míg a DSC kétszer számolja, az IoU minden FP-t és FN-t súlyosabban büntet a helyes átfedéshez képest. Ez az IoU-t érzékenyebbé teszi a túlszegmentálási és alulszegmentálási hibákra.

A DSC az átfedés maximalizálását hangsúlyozza. A TP-re adott extra súly azt jelenti, hogy a DSC jutalmazza a metszet területének maximalizálást, még az unió enyhe növelésének árán is. Ez akkor teszi előnyössé a DSC-t, ha az elsődleges cél annak biztosítása, hogy a prediktált régió a lehető legnagyobb mértékben lefedje a valóságalapot, még némi túlbecslés árán is.

Gyakorlati útmutató a választáshoz

Az IoU és a DSC közötti választás az alkalmazás követelményeitől függ:

SzempontIoU-t részesítsük előnybenDSC-t részesítsük előnyben
Túl-/alulszegmentálás büntetése✓ Szigorúbb— Megengedőbb
Kis objektumok szegmentálása— Érzékenyebb a hibákra✓ Kevésbé szigorú büntetés
Határpontosság értékelése✓ Jobban tükrözi a hibákat— Elfedi a határproblémákat
Szabványos benchmark összehasonlítás✓ Pascal VOC, COCO szabvány— Orvosi képalkotás szabvány
Tréning veszteségfüggvény— Nem differenciálható✓ Differenciálható szurrogát
Kommunikáció nem műszaki érdekelt feleknek— Tűnhet szigorúnak✓ Intuitívabb értékek

Infrastruktúra-ellenőrzés és repedésszegmentálás esetén az IoU az előnyben részesített elsődleges mérőszám, mert szigorúbb, őszintébb értékelést ad a szegmentációs minőségről. Egy olyan modell, amely túlbecsüli a repedés szélességét (FP repedéspixeleket produkálva a széleken), nagyobb IoU-büntetést kap, mint DSC-büntetést, és ez a szigorúbb büntetés helyesen tükrözi azt a működési követelményt, hogy a repedésészlelésnek térbelileg pontosnak kell lennie — a repedésterület túlbecslése szükségtelen karbantartási költségekhez vezet, míg az alulbecslés nem észlelt hibákhoz.

A TarmacView az IoU-t jelenti elsődleges repedésszegmentációs pontossági mérőszámként, a DINOv3-alapú modell 0,519-es teszt IoU-t ér el félretett repülőtéri burkolati képeken. Ezt kiegészíti a precízió, a visszahívás és a Dice-együttható jelentése az átfogó kiértékelési kép érdekében.

IoU küszöbértékek (0,3, 0,5, 0,75)

Az IoU küszöbértékek meghatározzák azt a minimális átfedést, amely ahhoz szükséges, hogy egy predikciót valódi pozitívnak (helyes detektálásnak) tekintsünk. A küszöbérték megválasztása mélyreható hatással van a jelentett modellteljesítményre, és meghatározza, hogy egy szegmentációs rendszert megengedően vagy szigorúan értékelnek-e.

A Pascal VOC szabvány: IoU ≥ 0,5

A Pascal VOC kihívás az IoU ≥ 0,5 értéket határozta meg küszöbértékként ahhoz, hogy egy detektálást vagy szegmentációt helyesnek tekintsünk. Ez a küszöb, amelyet AP50-ként (átlagos precízió IoU=0,5-nél) jelölnek, több mint egy évtizedig alapértelmezetté vált a számítógépes látásban. Az indoklás pragmatikus volt: egy prediktált régió, amely a valóságalap több mint felét átfedi, egyértelműen a helyes objektumot érzékeli, még akkor is, ha a határai nem tökéletesek.

A burkolati repedésszegmentálásnál a 0,5-ös IoU küszöbérték azt jelenti, hogy egy prediktált repedésmaszknak legalább 50 százalékban át kell fednie a valóságalap repedésterületét ahhoz, hogy helyes detektálásnak számítson. Tekintettel arra, hogy a repedések vékony, elnyújtott struktúrák, ez a küszöb megköveteli, hogy a modell a repedés teljes útvonalát ésszerű vastagsági pontossággal rögzítse. Ez a szabványos küszöb a burkolati repedésészlelésről szóló akadémiai publikációkban és a TarmacView belső kiértékelési csővezetékében.

A szigorú COCO szabvány: IoU ∈ [0,5; 0,95]

A COCO benchmark egy szigorúbb kiértékelési protokollt vezetett be, amely az átlagos precíziót tíz IoU küszöbértéken átlagolja 0,5-től 0,95-ig 0,05-ös lépésekben, amit AP@[0.5:0.95] vagy egyszerűen mAP jelöl. Ez a többküszöbös megközelítés átfogóbb értékelést nyújt a lokalizációs minőségről, mint bármely egyetlen küszöb.

Az infrastruktúra-ellenőrzés szempontjából a COCO-stílusú kiértékelés különösen informatív, mert feltárja, hogy egy modell hogyan teljesít a különböző pontossági követelmények mellett. Egy magas AP50-nel, de alacsony AP75-tel rendelkező modell megbízhatóan észlelheti a repedéseket, de rossz határpontossággal predikálja azokat — szisztematikusan túl- vagy alulbecsli a repedés szélességét. Az erős AP75-tel rendelkező modell pontos határvonal-illesztést mutat, ami kritikus fontosságú a repedés szélességének pontos mérését igénylő alkalmazásokban (a Pavement Condition Index - PCI számítások kulcsfontosságú bemenete az ASTM D5340 és FAA AC 150/5380-6C szabványok szerint).

Magas precíziós küszöb: IoU ≥ 0,75

Az AP75 mérőszám (átlagos precízió IoU=0,75-nél) a modell azon képességét értékeli, hogy szoros határvonal-illesztésű predikciókat hozzon létre. A repedésszegmentálásnál az AP75 megköveteli, hogy a prediktált repedésmaszk legalább 75 százalékban fedje át a valóságalapot — megkövetelve, hogy a modell mind a repedés útvonalát, mind annak vastagságát nagy pontossággal rögzítse.

Az AP75 a releváns küszöb azoknál az alkalmazásoknál, amelyek repedésszélesség számszerűsítését igénylik, nem csupán a repedés jelenlétének észlelését. A futópálya-burkolat állapotának felmérése az ICAO szabványok és az FAA Tanácsadó Körlevelek szerint gyakran megköveteli a repedésszélesség osztályozását (hajszálrepedés < 3mm, közepes 3-6mm, súlyos > 6mm), és a pontos szélességmérés precíz határszegmentálást igényel. Az AP75-ben gyenge modell helyesen lokalizálhatja a repedéseket, de túl- vagy alulbecsülheti azok súlyosságát.

IoU küszöbSzabványÉrtelmezés repedésszegmentáláshoz
0,30Minimális hasznos átfedésMarginális észlelés; a repedés helye megközelítőleg helyes, de alak/vastagság pontatlan
0,50Pascal VOC (AP50)Szabványos észlelés; a repedés útvonala és hozzávetőleges vastagsága helyes
0,75COCO szigorú (AP75)Precíz szegmentálás; a repedés határai szorosan illeszkednek a valóságalaphoz 1-3 pixelen belül
0,50:0,95COCO elsődleges (mAP)Átfogó kiértékelés az összes precíziós szinten

IoU = 0,3 — A minimális értelmes átfedés

Bár nem formális benchmark szabvány, az IoU=0,3-öt néha megengedő észlelési küszöbként használják zajos vagy kétértelmű annotációs kontextusokban. A burkolati repedések esetében az emberi inter-annotátor egyetértés az egyes repedéspixelek tekintetében ritkán haladja meg a 0,65-0,85-ös IoU-t a jól definiált repedéseknél, és 0,30-0,50-es IoU-ra csökkenhet a hajszálrepedéseknél texturált aszfaltfelületeken. Ezekben az esetekben a belső annotációs bizonytalanság gyakorlati alsó korlátot szab annak, hogy milyen IoU-érték jelent értelmes észlelést.

A 0,3-as IoU küszöbérték a repedésszegmentálásban azt jelzi, hogy a modell helyesen azonosította a repedés hozzávetőleges helyét, de jelentős alak-, vastagság- vagy folytonossági hibákkal. Ez elfogadható lehet durva hibaszűréshez (“lehetséges repedés — ellenőrizze manuálisan”), de nem elegendő az automatizált súlyosság-értékeléshez.

Átlagos IoU (mIoU) többosztályos feladatokhoz

Az átlagos Intersection over Union (mIoU) az egyosztályos IoU mérőszámot terjeszti ki többosztályos szegmentációs problémákra az osztályonkénti IoU-pontszámok számtani átlagának kiszámításával. Ez a szabványos kiértékelési mérőszám a szemantikus szegmentáláshoz az összes nagy benchmarkban.

mIoU számítás

Egy C osztályú szegmentációs feladat esetén az mIoU kiszámítása:

mIoU = (1/C) × Σℂ=1…C IoU_c

ahol IoU_c a c osztályra vonatkozó Intersection over Union, amelyet úgy számítanak ki, hogy a c osztályt pozitív osztályként, az összes többi osztályt pedig negatívként kezelik (egy az összes ellen).

A c osztályra vonatkozó osztályonkénti IoU számítás a következőket használja:

  • TP_c — a c osztályként helyesen prediktált pixelek
  • FP_c — a c osztályként helytelenül prediktált pixelek (egy másik osztályba tartoznak)
  • FN_c — a c osztályba tartozó, de más osztályként prediktált pixelek

A C osztályú szegmentációs probléma konfúziós mátrixa egy C×C mátrix, ahol M_ij azon pixelek száma, amelyek az i valóságalap osztályba tartoznak, de j osztályként lettek prediktálva. Az osztályonkénti IoU ezután:

IoU_i = M_ii / (Σj M_ij + Σj M_ji - M_ii)

A számláló M_ii (diagonális elem) az i osztály valódi pozitívjai. A sor összege Σj M_ij az i osztály teljes valóságalap területe (TP + FN). Az oszlop összege Σj M_ji az i osztály teljes predikciós területe (TP + FP).

mIoU a repedésszegmentáláshoz

A repülőtéri burkolati repedésszegmentálásnál egy tipikus többosztályos szegmentációs probléma a következőket foglalja magában:

  • 0. osztály — Háttér: Ép burkolati felület, nincs hiba
  • 1. osztály — Repedés: Minden repedéstípus (hosszanti, keresztirányú, hálós, tükröződési)
  • 2. osztály — Illesztés/Tömítőanyag: Kitöltött vagy részben kitöltött dilatációs hézagok
  • 3. osztály — Kipattogzás/Mállás: A repedésektől eltérő felületi romlás

Minden osztálynak saját IoU-pontszáma van. A TarmacView repülőtéri burkolati adathalmazokon végzett kiértékelésénél az osztályonkénti IoU-pontszámok mutatják az egyes hibásztályok relatív nehézségét. Az mIoU aggregált mértéket ad a modell minőségéről az összes felületi állapotra vonatkozóan.

Az mIoU érzékenysége az osztályegyensúlyra

Az mIoU egyik kritikus tulajdonsága, hogy minden osztályt egyenlő mértékben kezel, függetlenül a pixelszámtól. Egy olyan osztály, amely a pixelek 60 százalékát foglalja el (háttér), és egy olyan osztály, amely a pixelek 0,5 százalékát foglalja el (repedés), egyenlő mértékben járul hozzá a végső mIoU-pontszámhoz. Ez egyszerre erősség és gyengeség:

Erősség: Az mIoU megakadályozza, hogy a többségi osztály dominálja a mérőszámot. Egy olyan modell, amely tökéletesen szegmentálja a burkolati hátteret, de teljesen kudarcot vall a repedéseken, 99 százalék feletti pixelpontosságot, de csak ~0,5 körüli mIoU-t érne el (mivel a repedés osztály közel nulla IoU-t ad). Az mIoU őszintén tükrözi a modell képtelenségét a repedések észlelésére, míg a pixelpontosság félrevezetően közel tökéletes teljesítményt sugallna.

Gyengeség: Az egyenlő súlyozás azt jelenti, hogy a kis, zajos osztályok (kevés pixellel rendelkező osztályok) nagy szórással rendelkezhetnek az IoU-becsléseikben. Egyetlen kis, rosszul szegmentált régió drasztikusan csökkentheti egy ritka osztály IoU-ját, így az mIoU ingadozóvá válhat, ha a tesztadathalmaz kevés példát tartalmaz ritka hibákra.

Gyakorisággal súlyozott IoU

Alternatívaként a Gyakorisággal Súlyozott IoU (FWIoU) az egyes osztályok IoU-ját az osztály valóságalapbeli gyakoriságával súlyozza:

FWIoU = (1/Σc n_c) × Σc n_c × IoU_c

ahol n_c a c osztály valóságalap pixeleinek száma. Az FWIoU magasabb pontszámokat produkál, ha a modell jól teljesít a többségi osztályokon, így megengedőbb a gyenge kisebbségi osztályteljesítménnyel szemben. Az FWIoU-t ritkábban jelentik az akadémiai benchmarkokban, de kiegészítő mérőszámként használható, ha az elsődleges szempont a teljes kép átfogó pixelpontossága.

Az infrastruktúra-ellenőrzésben az mIoU erősen előnyben részesítendő az FWIoU-val szemben, mert:

  • A repedéshibák az elsődleges operatív érdeklődésre számot tartó osztályt jelentik
  • A repedéspixelek a teljes képterületnek csak kis hányadát teszik ki (0,5-2 százalék)
  • Az FWIoU elfedné a repedésszegmentációs kudarcokat a háttérteljesítmény mögött
  • A szabályozási ellenőrzési szabványok (ICAO Annex 14, FAA AC-k) kifejezetten a hibafelismerést helyezik előtérbe

IoU a TarmacView repedésszegmentálásában

A TarmacView repedésszegmentációs rendszere egy DINOv2-alapú gerinchálózatot használ egy speciális szegmentációs fejjel, amelyet infrastruktúra-hibák észlelésére terveztek. A modell 0,519-es teszt IoU-t ér el félretett repülőtéri burkolati adathalmazokon, amelyet változatos felvételi körülmények között validáltak, beleértve a fényváltozásokat, a burkolati textúra különbségeit és a többféle repedéstípust.

Modellarchitektúra és IoU-teljesítmény

A szegmentációs architektúra a következőkből áll:

  • Gerinchálózat: DINOv2 (Vision Transformer, ViT-B vagy ViT-L) önszupervízált tanulással előképzett egy 142 millió képet tartalmazó kurátori adathalmazon. A DINOv2 gazdag, általánosítható jellemzőreprezentációkat biztosít anélkül, hogy feladatspecifikus előképzést igényelne.
  • Szegmentációs fej: Egy könnyű dekódoló, amely a DINOv2 patch-szintű jellemzőit pixel-szintű szegmentációs maszkokra képezi le. A TarmacView egyedi feje több skálájú jellemzőaggregációs kialakítást használ, amely több transzformer blokk jellemzőit kombinálja, hogy mind a finom repedésrészleteket (korai rétegekből), mind a globális kontextust (későbbi rétegekből) rögzítse.
  • Kimenet: Egy pixel szintű valószínűségi térkép H×W×2 alakban (repedés vs. háttér), 0,5-ös küszöbértékkel binarizálva a végső bináris repedésmaszk előállításához, amelyet az IoU számításhoz használnak.

A 0,519-es teszt IoU a repedésosztályra vonatkozó IoU-t jelenti, a félretett tesztadathalmazon átlagolva. Ez az érték a TarmacView modelljét a jó és kiváló közötti tartományba helyezi a burkolati repedésszegmentálásban, ahol a 0,45-0,60 közötti IoU-értékek jellemzőek a legmodernebb modellekre a kihívást jelentő valós adathalmazokon.

Összehasonlítás publikált benchmarkokkal

Az IoU közvetlen összehasonlítása a különböző repedésszegmentációs tanulmányok között bonyolult az adathalmazok, annotációs protokollok és repedésdefiníciók különbségei miatt. A publikált eredmények hasonló burkolati repedés adathalmazokon azonban kontextust biztosítanak:

ModellAdathalmazTeszt IoU (Repedés Osztály)
TarmacView DINOv3Repülőtéri futópálya (saját)0,519
DeepCrack (2019)CFD (nyilvános út)0,420-0,465
U-Net + ResNet-50Crack500 (nyilvános út)0,475-0,510
HRNet-FCNUAV burkolat (akadémiai)0,498-0,530
SegFormer-B3CrackTree200 (nyilvános)0,485-0,520
U-Net (drón futópálya)Futópálya burkolat (2020)0,415-0,472

A TarmacView 0,519-es IoU-ja versenyképes a legjobb publikált eredményekkel, miközben valós repülőtéri futópálya adatokon működik, magasabb annotációs változékonysággal és sokszínűbb felületi körülményekkel, mint az akadémiai kutatásban használt kontrollált adathalmazok. A modell profitál a DINOv2 erős reprezentációs tanulásából és egy doménspecifikus képzési rendszerből, amely agresszív adatbővítést és osztálykiegyensúlyozási stratégiákat foglal magában.

Az IoU-pontszámot befolyásoló tényezők

Több tényező is befolyásolja a 0,519-es teszt IoU-t:

Maszkvastagság-tolerancia. A repülőtéri burkolati adathalmaz valóságalap annotációi a repedéseket következetes, körülbelül 3-5 pixel vastagsággal határozzák meg az annotációs felbontásban. A modell prediktált maszkjai 2-8 pixel szélesek lehetnek a különböző repedésszegmenseknél. Minden pixelnyi eltérés a valóságalap vastagságtól vagy FP-hez vagy FN-hez járul hozzá, csökkentve az IoU-t.

Szélső pixel érzékenység. Egy tipikus, 5000 pixelt elfoglaló repedésnél egy 512×512-es képen a repedés széle (a repedés és a burkolat közötti határpixelek) körülbelül 400-600 pixelt tesz ki. Ha a modell predikciós széle akár csak 1 pixellel is eltér a valóságalap szélétől a teljes repedés útvonal mentén, az eredményül kapott 400-600 pixelnyi FP+FN 0,05-0,10-zel csökkentheti az IoU-t.

Hajszálrepedés kihívás. A hajszálrepedések (szélesség < 0,3mm, ami a felvételi felbontásban 1-3 pixelnek felel meg) a tesztadathalmaz hibáinak körülbelül 30 százalékát teszik ki. Ezeknél a repedéseknél a teljes valóságalap terület nagyon kicsi (100-500 pixel), így bármilyen eltérés aránytalanul nagy hatással van az IoU-ra. A hajszálrepedések IoU-ja átlagosan 0,320-0,380, ami jelentősen alacsonyabb, mint a közepes és széles repedéseken elért 0,550-0,650.

Annotációs konzisztencia. Az inter-annotátor IoU a képzési és tesztadatokon körülbelül 0,72 (két független szakértő annotátor ugyanazokon a képeken). Ez gyakorlati felső határt szab az elérhető modell IoU-nak — még egy tökéletes modell sem haladhatja meg a valóságalap konzisztenciáját, ami egy zajplafont hoz létre körülbelül 0,72-0,78 szinten.

Az IoU-pontszám gyakorlati hasznossága

A 0,519-es teszt IoU azt jelenti, hogy az átlagos tesztképen a prediktált és a valóságalap repedésmaszkok közötti metszet a teljes uniójuk körülbelül 51,9 százaléka. Operatív szempontból:

  • Repedésészlelési arány: A repedéspixelek körülbelül 75-85 százaléka kerül helyesen azonosításra (valódi pozitív arány), a repedés típusától és szélességétől függő változékonysággal.
  • Hamis pozitív arány: A háttérpixelek körülbelül 0,1-0,5 százaléka kerül tévesen repedésként klasszifikálásra, ami 250-1250 hamis pozitív repedéspixelt jelent 512×512-es képenként.
  • Repedés folytonosság: A modell a mérhető repedéseket (>1mm szélesség) tartalmazó képkockák 90+ százalékában helyesen azonosítja a repedés jelenlétét, némi fragmentáltsággal (egy folytonos repedés több rövid szegmensként prediktálva).
  • Súlyosság osztályozás: A modell repedésszélesség-becslései R²=0,62-0,74 korrelációt mutatnak a valóságos szélességmérésekkel, ami elegendő a durva súlyossági osztályozáshoz (hajszál vs. közepes vs. súlyos) az ASTM D5340 szabványok szerint.

Az IoU-t befolyásoló tényezők

Számos tényező befolyásolja a repedésszegmentációs modell által elérhető IoU-pontszámokat. E tényezők megértése elengedhetetlen a jelentett IoU-értékek értelmezéséhez, a teljesítményproblémák diagnosztizálásához és a reális pontossági célok kitűzéséhez.

Maszkvastagság-tolerancia

A repedésszegmentációs annotációkat jellemzően egy vonal vagy sokszög rajzolásával hozzák létre a repedés útvonala mentén, majd egy rögzített szélességet rendelnek hozzá a repedésterület reprezentálásához. A hozzárendelt szélesség az annotációs protokollok között változik — egyesek 3 pixel széles vonalakat használnak, mások 5 pixeles vagy dinamikusan skálázott szélességeket a tényleges repedésméretek alapján.

A modell prediktált maszkvastagsága ritkán egyezik meg pontosan a valóságalap vastagsággal. Ha az annotációs protokoll 3 pixeles szélességet rendel, de a modell 5 pixeles szélességet prediktál, a 3 pixeles annotációs határon túli minden pixel hamis pozitívvá válik. Egy 1000 pixel hosszú repedés esetén a plusz 2 pixel mindkét oldalon körülbelül 4000 hamis pozitív pixelt eredményez — ami potenciálisan 0,10-0,20-zel csökkenti az IoU-t.

Az IoU maximalizálásának optimális stratégiája a vastagságtudatos veszteségfüggvénnyel való képzés, amely bünteti a vastagság eltérését, vagy a feldolgozás utáni morfológiai műveletek (erózió vagy dilatáció) alkalmazása, amelyek a prediktált maszk vastagságát az annotációs szabványhoz igazítják. A TarmacView egy feldolgozás utáni lépést alkalmaz egy tanult dilatációs tényezővel, amelyet a validációs halmazon kalibrálnak, ami 0,02-0,04-gyel javítja a teszt IoU-t.

Szélső pixel érzékenység

A szélső pixelek — a repedés és a burkolat közötti határréteg — a domináns forrásai az IoU csökkenésének a jól teljesítő modellekben. Egy A területű, P kerületű repedésmaszk esetén a szélső pixelek száma körülbelül P (a határvonal hossza pixelekben). Ha a modell széle átlagosan 1 pixellel van eltolva, az eredményül kapott FP+FN körülbelül 2P pixel.

Egy tipikus repülőtéri burkolati repedésre, ahol A=5000 pixel és P=800 pixel:

  • Tökéletes szélellenállás (0 eltolás): FP+FN a szélekről = 800 pixel (az annotációs vastagság bizonytalansága)
  • 1 pixel széleltolás: FP+FN a szélekről = 1600 pixel
  • 2 pixel széleltolás: FP+FN a szélekről = 2400 pixel

Az IoU hatása:

  • Nulla eltolás: IoU = 5000/(5000+800) = 0,862 (annotációs plafon)
  • 1 pixel eltolás: IoU = 5000/(5000+1600) = 0,758
  • 2 pixel eltolás: IoU = 5000/(5000+2400) = 0,676

Ez az elemzés feltárja, hogy a szélső pixelillesztés az egyetlen legfontosabb tényező, amely elválasztja a 0,50-es IoU-t a 0,75-ös IoU-tól a repedésszegmentálásban. Azok a modellek, amelyek nagy felbontású jellemzőtérképekkel és feldolgozás utáni finomítással precíz határillesztést érnek el, következetesen jobban teljesítenek, mint azok, amelyek csak a repedés helyét, de nem a repedés határát rögzítik.

Kis repedés kihívás

A kis repedések — amelyek teljes pixelszáma a kiértékelési képen körülbelül 500 pixel alatt van — alapvető kihívást jelentenek az IoU-alapú kiértékelés számára. Egy 200 pixeles hajszálrepedés esetén mindössze 5 pixel eltolódás mindkét oldalon 10-20 pixelnyi FP+FN-t ad hozzá (a repedésterület 5-10 százaléka). Az IoU relatív érzékenysége az abszolút hibára kis objektumok esetén drámaian magasabb, mint nagy objektumok esetén.

Ugyanazt az 1 pixeles széleltolás elemzést használva egy kis repedésre (A=200, P=80):

  • Nulla eltolás: IoU = 200/(200+80) = 0,714 (annotációs plafon)
  • 1 pixel eltolás: IoU = 200/(200+160) = 0,556
  • 2 pixel eltolás: IoU = 200/(200+240) = 0,455

Az IoU-büntetés ugyanazon 1 pixeles széleltolás esetén 0,158 a kis repedésnél (0,714-ről 0,556-ra) szemben a 0,104-gyel a nagy repedésnél (0,862-ről 0,758-ra). Ez a méretérzékenység azt jelenti, hogy az IoU aggregálása az összes repedésre méret szerinti rétegzett jelentés nélkül elfedheti a teljesítménybeli különbségeket — egy olyan modell, amely jól teljesít a nagy repedéseken, de gyengén a kis repedéseken, elfogadható aggregált IoU-t mutathat, miközben nem észleli a legkritikusabb biztonsági szempontból releváns hajszálrepedéseket.

Emiatt a TarmacView IoU-t repedésszélesség kategóriánként rétegezve jelenti:

  • Hajszálrepedések (< 1mm szélesség): IoU = 0,32-0,38
  • Közepes repedések (1-3mm szélesség): IoU = 0,48-0,55
  • Széles repedések (> 3mm szélesség): IoU = 0,55-0,65

Annotációs minőség

A valóságalap annotációk minősége és konzisztenciája kemény felső korlátot szab az elérhető IoU-nak. Több tanulmány is dokumentálta az inter-annotátor egyetértést a burkolati repedésszegmentálásban:

  • Ugyanaz az annotátor, ugyanaz a kép, más alkalom: IoU = 0,78-0,88
  • Különböző annotátorok, ugyanaz a kép, ugyanaz a protokoll: IoU = 0,62-0,78
  • Különböző annotátorok, ugyanaz a kép, más protokoll: IoU = 0,45-0,65

Ez azt jelenti, hogy még egy elméletileg tökéletes modell sem haladhatja meg a körülbelül 0,78-0,88-as IoU-t a tipikus infrastruktúra-ellenőrzési adathalmazokon, mert maga a valóságalap is inkonzisztens. Az aktív tanulás és az annotációs konszenzus technikái javíthatják az annotáció minőségét azáltal, hogy több annotátor címkéz minden képet, és többségi szavazást vagy szakértői döntést használnak a nézeteltérések feloldására.

Képfelbontás és felvételi körülmények

A képfelbontás közvetlenül befolyásolja az IoU-t, mert meghatározza a repedés reprezentálására rendelkezésre álló pixelek számát. Egy 20 MP felbontásnál 10 pixel széles repedés 5 MP felbontásnál csak 3 pixel széles lehet. Alacsonyabb felbontásoknál a repedés abszolút pixelkerete csökken, így az IoU érzékenyebbé válik az eltérésekre.

A repülőgép-burkolat ellenőrzési protokoll meghatározza a felvételi felbontás követelményeit a megfelelő hiba felbontás biztosítása érdekében. Az ICAO iránymutatása a repülőtéri burkolatok ellenőrzésére minimális talajfelbontási távolságokat (GSD) javasol, amelyek biztosítják, hogy az akár 0,5 mm keskeny repedések is feloldhatók legyenek. 0,2 mm/pixel GSD mellett (jellemző UAV-ellenőrzésnél 10m magasságban) egy 0,5 mm-es hajszálrepedés csak 2,5 pixel széles — alig a megbízható annotáció és szegmentálás küszöbén.

A fényviszonyok is befolyásolják az IoU-teljesítményt. A nedves burkolaton lévő repedések nagyobb kontrasztot mutatnak, de spekuláris reflexiókat is okoznak, amelyek hamis pozitívokat eredményezhetnek. Az árnyékban lévő repedések alacsonyabb kontraszttal rendelkeznek, és részben láthatatlanok lehetnek. Az árnyék- és nedves felületű adatbővítéssel képzett modellek (ahogyan a TarmacView csővezetéke is megvalósítja) 0,03-0,06-dal magasabb teszt IoU-t mutatnak kihívást jelentő fényviszonyok mellett, összehasonlítva a doménspecifikus adatbővítés nélkül képzett modellekkel.

IoU jelentése

Az IoU-mérőszámok megfelelő jelentése elengedhetetlen a reprodukálhatósághoz, a tanulmányok közötti összehasonlításhoz és az operatív döntéshozatalhoz. Az alábbi irányelvek a legjobb gyakorlatot képviselik az IoU infrastruktúra-ellenőrzési kutatásban és telepítésben történő jelentéséhez.

A jelentés alapvető összetevői

Jelentsük az osztályonkénti IoU-t, ne csak az mIoU-t. A repedésszegmentálásnál a repedésosztály IoU-ját kifejezetten jelentsük az összes osztályra vonatkozó átlagos IoU mellett. A magas mIoU elfedheti a gyenge repedésteljesítményt, ha a háttér vagy más hibásztályok dominálnak.

Adjuk meg a küszöbértéket. Jelentsük a binarizációs küszöböt, amelyet a modell valószínűségi kimeneteinek bináris maszkokká alakításához használtak. A szabványos küszöb 0,5, de a feldolgozás utáni optimalizálás más küszöböket is használhat. A küszöb átfuttatás (IoU jelentése 0,3-tól 0,7-ig terjedő küszöbértékeken 0,1-es lépésekben) teljesebb képet ad a modell viselkedéséről.

Jelentsük a konfidencia-intervallumokat. A véges tesztadathalmazból becsült IoU-értékek mintavételi bizonytalansággal rendelkeznek. Jelentsük a 95 százalékos konfidencia-intervallumot bootstrap módszerrel (tesztképek újramintázása visszahelyettesítéssel 1000-szer, és IoU számítása minden újramintára). Egy 0,519-es jelentett IoU [0,497; 0,541] 95%-os CI-vel informatívabb, mint egy pontbecslés.

Foglaljuk bele az annotációs minőségi mutatókat. Jelentsük az inter-annotátor egyetértést (IoU független annotátorok között a képek egy részhalmazán) a kiértékelési zajplafon meghatározásához. Ez kontextusba helyezi a modell IoU-ját — a 0,519 másként néz ki, ha az annotációs plafon 0,72, mint ha 0,92.

Adjuk meg a képfelbontást és az előfeldolgozást. Jelentsük a bemeneti felbontást, hogy a képeket leskálázták-e a következtetés előtt, és hogy milyen normalizálást alkalmaztak. Az 512×512-es bemeneti felbontású IoU-értékek nem közvetlenül összehasonlíthatók az 1024×1024-es felbontású IoU-értékekkel.

Jelentési formátum

Az ajánlott jelentési táblázat a repedésszegmentációs IoU-hoz a következőket tartalmazza:

MérőszámÉrték95% CIMegjegyzések
Repedés IoU (0,5 küszöb)0,519[0,497; 0,541]Elsődleges mérőszám
Háttér IoU0,992[0,990; 0,994]Várhatóan közel tökéletes
mIoU (minden osztály)0,755[0,744; 0,767]Tartalmazza a háttérosztályt
mIoU (csak hibaosztályok)0,519[0,497; 0,541]Háttér nélkül
Inter-annotátor IoU0,723[0,701; 0,745]Kiértékelési plafon

Kiegészítő mérőszámok

Az IoU-t nem szabad elkülönítve jelenteni. A kiegészítő mérőszámok teljesebb pontossági értékelést biztosítanak:

  • Precízió (TP / (TP + FP)): Azt méri, hogy a prediktált repedéspixelek közül hány valóban repedés. Az alacsony precízió túlbecslésre (téves riasztások) utal.
  • Visszahívás (TP / (TP + FN)): Azt méri, hogy a valóságalap repedéspixelek közül hányat észleltek. Az alacsony visszahívás nem észlelt repedésekre utal.
  • F1-pontszám (a precízió és a visszahívás harmonikus átlaga): Megfelel a Dice-együtthatónak. Kiegyensúlyozott egyszámjegyű mértéket biztosít.
  • Pixelpontosság: Az összes helyesen klasszifikált pixel aránya (TP + TN / összes). Nem ajánlott elsődleges mérőszámként az osztályegyensúlytalansági torzítás miatt.
  • Határ F1: A szélső pixel pontosságának kiértékelésére szolgáló változat, amely releváns a repedésszélesség-mérési alkalmazásokhoz.

Reprodukálhatósági ellenőrzőlista

Az IoU-eredmények reprodukálhatóságának biztosításához:

  1. Adjuk meg a pontos tesztadathalmaz összetételét (képek száma, repedéstípus eloszlás, felbontás)
  2. Jelentsük a modell kimeneteinek binarizálásához használt küszöbértéket
  3. Adjuk meg, hogy a modellt adatbővítéssel tanították-e (és milyen bővítésekkel)
  4. Jelentsük az annotációs protokollt (vonalszélesség, repedésdefiníciós kritériumok)
  5. Hozzuk nyilvánosságra a feldolgozás utáni lépéseket (morfológiai műveletek, küszöboptimalizálás a validációs halmazon)
  6. Jelentsük az IoU-t több küszöbértéken (0,3; 0,5; 0,75) az átfogó kiértékeléshez

IoU és gyakorlati hasznosság

Az IoU végső célja az infrastruktúra-ellenőrzésben nem az akadémiai összehasonlítás, hanem az operatív döntéshozatal. Annak megértése, hogy az IoU hogyan fordítható le gyakorlati hasznosságra — a modell kimenetei alapján történő karbantartási döntések meghozatalának képességére — kritikus fontosságú a repedésszegmentációs rendszerek terepi telepítéséhez.

IoU és karbantartási döntésminőség

Az IoU és a karbantartási döntésminőség közötti kapcsolat nem lineáris. Egy IoU=0,45-ös modell operatív szempontból megfelelő repedéstérképeket produkálhat bizonyos felhasználási esetekhez, míg egy IoU=0,55-ös modell operatív szempontból elégtelen lehet másokhoz, a downstream alkalmazástól függően.

1. felhasználási eset — Repedésészlelési szűrés (annak azonosítása, hogy mely futópálya-szakaszok tartalmaznak repedéseket): Ehhez a felhasználási esethez a visszahívás (az észlelt repedések aránya) fontosabb, mint a pontos határillesztés. Egy IoU=0,40-es, de visszahívás=0,85-ös modell operatív szempontból hasznosabb lehet, mint egy IoU=0,55-ös, de visszahívás=0,70-es modell. A magas visszahívású modell több lehetséges hibát jelez emberi felülvizsgálatra, még akkor is, ha a határpontossága alacsonyabb.

2. felhasználási eset — Repedésszélesség osztályozás (repedések súlyossági kategóriákba sorolása az ASTM D5340 szerint): Ehhez a felhasználási esethez a határpontosság kritikus. Egy IoU=0,50-es, szisztematikus 2 pixel túlbecsléssel rendelkező modell a hajszálrepedéseket közepes szélességű repedésként osztályozhatja, szükségtelen karbantartást kiváltva. Egy IoU=0,45-ös, de torzításmentes határpredikcióval rendelkező modell pontosabb szélességbecsléseket adhat.

3. felhasználási eset — Repedésterület számszerűsítés (teljes repedésterület mérése PCI számításhoz): Ehhez a felhasználási esethez a prediktált repedésterület abszolút torzítása fontosabb, mint a pixelenkénti IoU. Egy olyan modell, amely következetesen 20 százalékkal több repedésterületet prediktál, mint a valóságalap (IoU-t FP torzítás befolyásolja), túlbecsüli a PCI levonásokat, ami idő előtti karbantartási költségvetés-tervezéshez vezet.

IoU leképezése operatív mérőszámokra

Az IoU és a gyakorlati észlelési minőség közötti kapcsolat számszerűsíthető az IoU észlelési arányra (a modell által sikeresen azonosított repedések százalékos aránya) történő átváltásával. Egy bináris repedésszegmentációs rendszernél, ha egy repedést “észleltnek” definiálunk, amikor a prediktált maszk legalább 30 százalékban átfedi a valóságalap repedést (az IoU küszöb a minimális értelmes észleléshez), a kapcsolat a következő:

Modell IoUHozzávetőleges repedésészlelési arány (TPR)Hamis pozitív arány (FPR)
0,3060-70%0,3-0,7%
0,4070-80%0,2-0,5%
0,5078-86%0,1-0,3%
0,6085-92%0,05-0,2%
0,7090-96%< 0,1%

Ezek a tartományok hozzávetőlegesek és függenek a repedésszélesség eloszlásától és a képfelbontástól. A TarmacView 0,519-es IoU-ja esetén a becsült repedésészlelési arány körülbelül 80-85 százalék, ami azt jelenti, hogy a repedések 15-20 százaléka (elsősorban a 0,5 mm alatti hajszálrepedések) elkerüli az automatikus észlelést, és vagy jobb modellérzékenységet, vagy manuális felülvizsgálatot igényelne.

Operatív telepítési küszöbértékek

A repülőtéri burkolatok automatikus repedésészleléséhez a következő operatív küszöbértékek ajánlottak:

Minimális elfogadható IoU (szűrés): IoU ≥ 0,40. E küszöb alatt a modell túl sok hamis negatívot (nem észlelt repedést) és hamis pozitívot (téves riasztást) produkál ahhoz, hogy operatív szempontból hasznos legyen. A szűrés IoU=0,40-nél még mindig 25-35 százaléknyi repedést elmulaszthat, ami jelentős emberi felülvizsgálati erőfeszítést igényel.

Szabványos telepítési IoU: IoU ≥ 0,50. Ezen a küszöbön a modell a repedések 75-85 százalékát észleli elfogadható hamis pozitív arány mellett. Ez a minimálisan ajánlott IoU az automatikus repedésészleléshez felügyelt ellenőrzési munkafolyamatban, ahol az észlelt repedéseket emberek ellenőrzik.

Magas megbízhatóságú telepítési IoU: IoU ≥ 0,60. Ezen a küszöbön a modell a repedések 85-92 százalékát észleli nagyon alacsony hamis pozitív arány mellett. Ez az IoU-szint támogatja a félautomatikus súlyossági osztályozást, ahol a repedésszélesség- és kiterjedésmérések minimális emberi ellenőrzéssel megbízhatónak tekinthetők.

Teljesen automatizált telepítési IoU: IoU ≥ 0,70. Ezen a küszöbön a modell megközelíti az emberi szintű annotációs konzisztenciát (figyelembe véve a 0,62-0,78 közötti inter-annotátor IoU-t). Ez az IoU-szint támogatja a teljesen automatizált PCI számítást, ahol nincs szükség a repedésszegmentáció emberi felülvizsgálatára.

A TarmacView DINOv3 repedésszegmentációs feje 0,519-es IoU-val a szabványos telepítési tartományban működik, ami alkalmas felügyelt repedésészlelési munkafolyamatokhoz emberi ellenőrzéssel. A folyamatban lévő modellfejlesztések célja a magas megbízhatóságú telepítési küszöb (IoU ≥ 0,60) elérése architekturális javítások, a képzési adatok bővítése és a feldolgozás utáni optimalizáció révén.

IoU és szabályozási megfelelés

A repülőtéri burkolatok ellenőrzésére használt MI-alapú repedésészlelési rendszerek esetében az IoU és a szabályozási megfelelés közötti kapcsolatot meg kell határozni. Bár egyetlen légiközlekedési szabályozó testület (ICAO, FAA, EASA) sem határoz meg jelenleg IoU küszöbértéket az MI-ellenőrző rendszerek számára, az elfogadás általános keretrendszere a következőkből következik:

ISO/IEC 25010 (Rendszerek és szoftver minőségi követelményei és kiértékelése - SQuaRE): A funkcionális helyesség alkarakterisztika megköveteli, hogy az MI-rendszer kimenetei megadott tűréshatárokon belül egyezzenek a valóságalappal. Az IoU szolgál a szegmentációs kimenetek számszerű helyességi mérőszámaként.

ASTM D5340 (Szabványos vizsgálati módszer a repülőtéri burkolatok állapotindexének felmérésére): A PCI-módszertan a repedések kiterjedésének és súlyosságának pontos mérésétől függ. A repedésszegmentációs modell IoU-ja közvetlenül befolyásolja az automatizált PCI-számítás megbízhatóságát.

ICAO Annex 14, I. kötet — 10. fejezet (Repülőtér-karbantartás): Az a követelmény, hogy a futópálya felületeit olyan állapotban kell tartani, amely nem veszélyezteti a repülőgép biztonságát, magában foglalja, hogy minden ellenőrző rendszernek — beleértve az MI-alapú rendszereket is — kellő megbízhatósággal kell észlelnie a hibákat. Az IoU biztosítja a számszerű alapot e megbízhatóság bizonyításához.

A TarmacView repedésszegmentációs rendszere dokumentálja IoU-teljesítményét különböző fény-, időjárási- és burkolati textúraviszonyok között a validációs bizonyítékcsomag részeként, amely támogatja a működő repülőtereken történő telepítést. A jelentett 0,519-es IoU a kapcsolódó konfidencia-intervallumokkal és a repedéstípusok szerinti rétegzett jelentéssel lehetővé teszi a repülőtér-üzemeltetők számára, hogy felmérjék a rendszer alkalmasságát az adott karbantartási munkafolyamatukhoz és megfelelési követelményeikhez.

Gyakran Ismételt Kérdések

Pontos repedésszegmentálás MI segítségével

A TarmacView az Intersection Over Union-t használja elsődleges mérőszámként a repedésszegmentálás pontosságának validálására. DINOv3-alapú szegmentációs fejünk iparágvezető IoU-értékeket ér el repülőtéri burkolat-ellenőrzési adatokon. Vegye fel velünk a kapcsolatot, hogy megtudja, hogyan forradalmasíthatja a precíz MI-vezérelt repedésészlelés az Ön infrastruktúra-ellenőrzési munkafolyamatát.

Tudjon meg többet

Repedésfelület-arány a burkolat- és szerkezeti állapotfelmérésben

Repedésfelület-arány a burkolat- és szerkezeti állapotfelmérésben

A repedésfelület-arány (crack_area_pct) a repedésmaszk területének a teljes elemzett képterülethez viszonyított aránya, százalékban kifejezve. Ez egy kulcsfonto...

4 perc olvasás
measurement pavement +3
Szemantikai szegmentáció infrastruktúra-jelenetek értelmezéséhez

Szemantikai szegmentáció infrastruktúra-jelenetek értelmezéséhez

A szemantikai szegmentáció kategóriacímkét rendel minden pixelhez egy képben, lehetővé téve a teljes jelenet értelmezését infrastruktúra-ellenőrzés során. Lefed...

35 perc olvasás
Technology Computer Vision +3
AI-alapú repedésfelismerés infrastruktúra-ellenőrzéshez

AI-alapú repedésfelismerés infrastruktúra-ellenőrzéshez

Az AI-alapú repedésfelismerés számítógépes látást – konvolúciós neurális hálózatokat, víziótranszformátorokat és szemantikus szegmentációs modelleket – használ ...

34 perc olvasás
Computer Vision Deep Learning +8