Mi az Intersection Over Union (IoU) és hogyan számítják ki?

Az Intersection Over Union (IoU), más néven Jaccard-index, egy olyan mérőszám, amely két régió — jellemzően egy prediktált szegmentációs maszk és egy valóságalap maszk — közötti átfedést számszerűsíti. Kiszámítása: IoU = |A ∩ B| / |A ∪ B|, ahol A a prediktált régió és B a valóságalap. A számlálóban lévő |A ∩ B| azt a területet (vagy pixelszámot) jelenti, ahol a két maszk megegyezik. A nevezőben lévő |A ∪ B| a két maszk által együttesen lefedett teljes területet jelenti. A valódi pozitívok (TP), hamis pozitívok (FP) és hamis negatívok (FN) segítségével az IoU a következőképpen fejezhető ki: IoU = TP / (TP + FP + FN). Az eredmény egy 0 (nincs átfedés) és 1 (tökéletes átfedés) közötti érték.

Mi számít jó IoU-értéknek a repedésszegmentálásban?

A repülőtéri burkolatok és infrastrukturális felületek repedésszegmentálása esetén a 0,5 feletti IoU-érték általánosan elfogadhatónak tekinthető, míg a 0,7 feletti értékek kiváló szegmentációs minőséget jeleznek. A TarmacView DINOv3-alapú repedésszegmentációs feje 0,519-es teszt IoU-t ér el, ami erős teljesítménynek számít a repedésszegmentálás inherent nehézségei miatt — a repedések a teljes képterületnek csak nagyon kis hányadát foglalják el (gyakran kevesebb mint 1-2 százalékot), ami különösen kihívássá teszi ezt a mérőszámot. Az orvosi képalkotásban a 0,6-0,8 közötti IoU-értékek jellemzőek a szervek szegmentálásánál, ahol az objektumok nagyok. Az utak és futópályák repedésészlelésénél az összehasonlítást megnehezíti a repedéspixelek és a háttérpixelek közötti extrém osztályegyensúlytalanság.

Mi a különbség az IoU és a Dice-együttható között?

A Dice-együttható (más néven Dice Hasonlósági Együttható vagy DSC, ami megfelel az F1-pontszámnak) szorosan kapcsolódik az IoU-hoz, de nagyobb súlyt ad az átfedő régiónak. A Dice kiszámítása: DSC = 2|A ∩ B| / (|A| + |B|), vagy ezzel egyenértékűen: DSC = 2TP / (2TP + FP + FN). A legfontosabb különbség, hogy a Dice kétszer számítja a valódi pozitívokat mind a számlálóban, mind a nevezőben, ami általában magasabb értékeket eredményez, mint az IoU ugyanazon szegmentációs minőség esetén. A matematikai kapcsolat: DSC = 2×IoU / (1+IoU), és fordítva: IoU = DSC / (2-DSC). Tökéletlen szegmentációk esetén a Dice mindig nagyobb vagy egyenlő, mint az IoU. A tökéletes szegmentáció mindkét mérőszám esetén 1-et ad.

Milyen IoU küszöbértékeket használnak a szabványos kiértékelési benchmarkokban?

A legelterjedtebb IoU küszöbérték a 0,5 (AP50), ami a Pascal VOC szabvány — egy detektálás vagy szegmentáció akkor tekinthető helyesnek, ha legalább 50 százalékban átfedi a valóságalapot. A COCO benchmark szigorúbb kiértékelést használ, az AP-t az IoU küszöbértékek 0,5-től 0,95-ig terjedő tartományán átlagolja 0,05-ös lépésekben, amit AP@[0.5:0.95]-ként jelölnek. A 0,75-ös IoU küszöbértéket (AP75) olyan modellek kiértékelésére használják, amelyek szorosabb lokalizációt igényelnek. A futópálya-burkolatok ellenőrzésénél, ahol akár a kis méretű, nem észlelt repedések is szerkezeti meghibásodásokhoz vezethetnek, a szakemberek gyakran több küszöbértéken is kiértékelik a modellt, hogy megértsék annak viselkedését a különböző pontossági követelmények mellett.

Miért nehéz optimalizálni az IoU-t a repedésszegmentáláshoz?

A repedésszegmentálás egyedi kihívásokat jelent az IoU optimalizálása szempontjából. A repedések a teljes képterületnek csak nagyon kis hányadát foglalják el — jellemzően 0,5-2 százalékot. Ez az extrém osztályegyensúlytalanság azt jelenti, hogy a repedések határainál elkövetett apró pixelesztályozási hibák is jelentősen befolyásolják a mérőszámot. Egy olyan modell, amely a repedéspixelek 90 százalékát helyesen előrejelzi, de a repedés szélességét 2-3 pixellel túlbecsüli, lényegesen csökkentett IoU-t fog produkálni, mert a repedés szélein lévő hamis pozitív pixelek növelik az uniót anélkül, hogy arányosan növelnék a metszetet. Emellett a repedések nagy képaránnyal rendelkeznek (hosszúak és keskenyek), így a szélső pixelek a repedés teljes területének sokkal nagyobb hányadát teszik ki, mint a kompakt objektumok esetében.

Hogyan használják az IoU-t a TarmacView repedésszegmentációs rendszerében?

A TarmacView az IoU-t használja elsődleges kiértékelési mérőszámként a DINOv3-alapú repedésszegmentációs fejéhez. A modell 0,519-es teszt IoU-t ér el repülőtéri burkolati adathalmazokon, a teljesítményt különböző fényviszonyok, burkolati textúrák és repedéstípusok (hosszanti, keresztirányú, hálós és tükröződési repedések) mellett validálva. Az IoU-t a tesztadathalmazon jelentik a képzés befejezése után, olyan félretett képek felhasználásával, amelyeket a modell sem a képzés, sem a validáció során nem látott. A mérőszám irányítja az architekturális döntéseket, mint a maszkfej kialakítása, a veszteségfüggvény súlyozása és a feldolgozás utáni paraméterek. A TarmacView az IoU jelentését kiegészíti a precízió, a visszahívás és az F1-pontszám közzétételével, hogy átfogó képet adjon a szegmentációs minőségről.

Milyen tényezők befolyásolják az IoU-értékeket a szegmentációs modellekben?

Több tényező is befolyásolja az IoU-értékeket. Maszkvastagság-tolerancia — az IoU egyformán bünteti a túlbecslést (túl sok repedéspixel előrejelzése) és az alulbecslést, így a maszk vastagsága közvetlenül befolyásolja a pontszámot. Szélső pixel pontosság — a határpixelek, ahol a predikció nem pontosan illeszkedik a valóságalaphoz, hozzájárulnak mind a hamis pozitívokhoz, mind a hamis negatívokhoz. Kis repedések — a 0,3 mm-nél keskenyebb hajszálrepedések nagyon kevés pixellel rendelkeznek, így a kis eltérések aránytalanul nagy IoU-csökkenést okoznak. Annotációs minőség — az inkonzisztens valóságalap-annotációk (különböző emberi annotátorok ugyanazt a repedést kissé eltérő szélességgel jelölik) zajt visznek a rendszerbe, ami korlátozza az elérhető IoU-t. Képfelbontás — a nagyobb felbontás több repedésrészletet rögzít, de felnagyítja a pixelek szintjén jelentkező eltéréseket is.

Miért ad magasabb értékeket a Dice-együttható, mint az IoU?

A Dice-együttható következetesen magasabb értékeket ad, mint az IoU minden tökéletlen szegmentáció esetén, mert kétszer számolja a valódi pozitív területet. Matematikailag: DSC = 2TP / (2TP + FP + FN), míg IoU = TP / (TP + FP + FN). A DSC számlálójában és nevezőjében szereplő 2-es szorzó azt jelenti, hogy a valódi pozitívok nagyobb súlyt kapnak a hamis pozitívokhoz és hamis negatívokhoz képest. Például egy TP=80, FP=20, FN=20 paraméterű szegmentáció esetén IoU = 80/120 = 0,667 és DSC = 160/200 = 0,800. A relatív különbség a legnagyobb alacsony átfedési szinteken, és a szegmentációs minőség javulásával csökken. Ez a tulajdonság optimistábbá teszi a Dice-értéket, ami néha előnyös az orvosi képalkotásban, ahol a prioritás az észlelt átfedés maximalizálása, nem pedig a határvonalak pontos illeszkedése.

Hogyan kell jelenteni az IoU-eredményeket az infrastruktúra-ellenőrzésben?

Az IoU infrastruktúra-ellenőrzésben történő jelentésének legjobb gyakorlata a következőket foglalja magában: (1) az osztályonkénti IoU és az összes osztályra vonatkozó átlagos IoU (mIoU) együttes jelentése; (2) a modell kimeneteinek binarizálásához használt maszkküszöb megadása az IoU kiszámítása előtt; (3) a szórás vagy a 95%-os konfidencia-intervallum feltüntetése a tesztadathalmazon; (4) az IoU jelentése kiegészítő mérőszámokkal — precízió, visszahívás, F1-pontszám és Dice-együttható — a teljes pontossági kép érdekében; (5) a képfelbontás és az annotációs protokoll megadása az elérhető IoU-plafon kontextusba helyezéséhez; (6) repedés-specifikus mérőszámok esetén a Repedés-IoU (csak a repedés osztály pixeleire számított IoU) elkülönített jelentése a háttér-IoU-tól.

Intersection Over Union (IoU)

Q: Mi az átlagos IoU (mIoU) és hogyan használják?

Az átlagos IoU (mIoU) a többosztályos szegmentációs probléma egyes osztályaira külön-külön kiszámított IoU-értékek számtani átlaga. Például egy háromosztályos szegmentációs feladatban ahol az osztályok 'repedés', 'tömítőanyag' és 'ép burkolat', az mIoU = (IoU_repedés + IoU_tömítőanyag + IoU_burkolat) / 3. Az mIoU minden osztályt egyenlő mértékben kezel, függetlenül attól, hogy hány pixelt foglal el, így igazságos mérőszámot biztosít a kiegyensúlyozatlan adathalmazokhoz, ahol a repedéspixelek a teljes terület kevesebb mint 1 százalékát tehetik ki. A magas mIoU eléréséhez a modellnek minden osztályon egyszerre kell jól teljesítenie, nem csak a többségi osztályon.

Az Intersection Over Union (IoU), más néven Jaccard-index, a prediktált szegmentációs maszk és a valóságalap (ground truth) maszk közötti átfedést méri: IoU = |A∩B| / |A∪B|. Ez az elsődleges mérőszám a repedésszegmentálás pontosságához, ahol az IoU > 0,5 jó eredménynek számít. A TarmacView DINOv3 repedésszegmentációs feje teszt IoU értéke 0,519. A cikk kiterjed az IoU kiszámítására, értelmezésére, a Dice-együtthatóhoz való viszonyára és az elfogadható küszöbértékekre.

Intersection Over Union (IoU) a szegmentációs pontosság mérésére

Definíció és képlet

Intersection Over Union (IoU), más néven Jaccard-index vagy Jaccard-hasonlósági együttható, egy statisztikai mérőszám, amely két adathalmaz közötti átfedést számszerűsíti. A számítógépes látásban és a képszegmentálásban az IoU a prediktált szegmentációs maszk pontosságát méri a valóságalap maszkhoz viszonyítva. Ez a legszélesebb körben elfogadott kiértékelési mérőszám a szemantikus szegmentálás, a példányok szegmentálása és az objektumdetektálás feladataihoz mind az akadémiai benchmarkokban, mind az ipari alkalmazásokban.

Az IoU képlete matematikailag egyértelmű:

IoU = |A ∩ B| / |A ∪ B|

Ahol A a prediktált szegmentációs maszkot (azon pixelek halmaza, amelyeket a modell az objektumosztályhoz tartozónak klasszifikál), B pedig a valóságalap maszkot (azon pixelek halmaza, amelyeket emberi annotátorok az objektumosztályhoz tartozónak azonosítottak) jelenti. A számláló, |A ∩ B|, a metszet — az a terület (vagy pixelszám), ahol a predikció és a valóságalap megegyezik. A nevező, |A ∪ B|, az unió — a predikció vagy a valóságalap vagy mindkettő által lefedett teljes terület.

{

Technikai ábra az Intersection Over Union (IoU) fogalmáról két átfedő alakzattal, a metszet lila színnel kiemelve, az unió fehér színnel körülhatárolva

A képletet a konfúziós mátrix elemeivel — valódi pozitívok (TP), hamis pozitívok (FP) és hamis negatívok (FN) — kifejezve egy gyakorlatiasabb megfogalmazást kapunk a számításhoz:

IoU = TP / (TP + FP + FN)

Itt a TP (valódi pozitívok) az objektumosztályhoz tartozóként helyesen klasszifikált pixelek (a metszet területe). Az FP (hamis pozitívok) azok a pixelek, amelyeket tévesen objektumként prediktáltak, pedig valójában háttér (a predikció területe a valóságalapon kívül). Az FN (hamis negatívok) azok a pixelek, amelyeket tévesen háttérként prediktáltak, pedig valójában objektum (a valóságalap területe a predikción kívül). Ez a megfogalmazás egyértelművé teszi, hogy az IoU egyformán bünteti a túlbecslést és az alulbecslést — minden hamis pozitív és hamis negatív ugyanannyival csökkenti a mérőszámot, a teljes releváns területre normalizálva.

Az IoU értéke mindig a [0, 1] zárt intervallumba esik. A 0-ás IoU azt jelzi, hogy a prediktált és a valóságalap maszkok nulla átfedéssel rendelkeznek — teljesen diszjunktak. Az 1-es IoU tökéletes átfedést jelent — a prediktált maszk pontosan pixelre pontosan megegyezik a valóságalap maszkkal. A köztes értékek részleges átfedési minőséget képviselnek. Például a 0,5-ös IoU azt jelenti, hogy a metszet területe fele akkora, mint az unió területe, ami a szabványos minimális küszöbérték ahhoz, hogy egy detektálást vagy szegmentációt helyesnek tekintsünk a Pascal VOC benchmarkban.

Az IoU skálainvariáns abban az értelemben, hogy relatív átfedést mér, nem abszolút pixelszámokat. Egy 100 pixeles objektum és egy 10 000 pixeles objektum is 1,0-s IoU-t produkál, ha tökéletesen van szegmentálva. Azonban ennek a skálainvarianciának van egy gyakorlati korlátja: ugyanazon abszolút pixelhiba esetén (pl. 5 rosszul klasszifikált határpixel) egy kis objektum sokkal nagyobb relatív csökkenést szenved el az IoU-ban, mint egy nagy objektum, ami az IoU-t implicit módon szigorúbbá teszi a finom részletek és kis struktúrák esetében.

A mérőszám a Jaccard-indextől (más néven Intersection over Union) származik, amelyet Paul Jaccard vezetett be 1901-ben a közösségi együtthatóként az alpesi növényvilág fajeloszlásainak összehasonlítására. Számítógépes látásra való alkalmazását a Pascal Visual Object Classes (VOC) Challenge (2007-2012) formalizálta, amely az IoU-t a szabványos kiértékelési mérőszámmá tette az objektumdetektálás és szegmentálás területén. A Common Objects in Context (COCO) adathalmaz és benchmark, amelyet a Microsoft 2014-ben adott ki, tovább erősítette az IoU de facto szabványként való használatát az mAP@[0.5:0.95] bevezetésével, ami az átlagos átlagos precízió átlaga tíz diszkrét IoU küszöbértéken keresztül 0,5-től 0,95-ig.

Az IoU vizuális értelmezése

Az IoU vizuális értelmezése elengedhetetlen ahhoz, hogy intuitív módon megértsük, mit képviselnek a különböző IoU-értékek a szegmentációs minőség szempontjából. A mérőszám egy komplex térbeli kapcsolatot képez le két maszk között egyetlen skaláris értékké, és annak interiorizálása, hogy a különböző térbeli hibamintázatok hogyan befolyásolják ezt az értéket, kritikus fontosságú mind a modellfejlesztés, mind az eredmények kommunikációja szempontjából.

Az 1,0-ás IoU tökéletes pixel-pixel illeszkedést jelent. A repülőtéri burkolatok repedésszegmentálásának kontextusában a tökéletes IoU azt jelenti, hogy minden pixel, amelyet a modell “repedésként” klasszifikált, pontosan megegyezik minden olyan pixellel, amelyet egy képzett ellenőr “repedésként” jelölt meg, és nem maradt ki egyetlen pixel sem, és nem történt túlbecslés sem. A gyakorlatban a tökéletes IoU lényegében elérhetetlen a valós infrastruktúra-ellenőrzésben az annotációs bizonytalanság miatt — különböző emberi annotátorok ugyanazt a repedést ugyanazon a képen jelölve jellemzően csak 0,65-0,85 közötti inter-annotátor IoU-t érnek el, a repedés szélességétől és kontrasztjától függően. Ez az annotációs zajplafon jelenti a maximális elérhető IoU-t bármely modell számára az adott adathalmazon.

A 0,75-0,90 közötti IoU kiváló szegmentációs minőséget jelez. Ezen a szinten a prediktált maszk szorosan követi a valóságalap határvonalát, csak kisebb, 1-3 pixeles eltérésekkel a széleken. Repedésszegmentálás esetén ez a repedés teljes útvonalának helyes észlelésének felel meg, kisebb eltérésekkel a prediktált repedésvastagságban a valóságalap annotációhoz képest. A COCO benchmarkban az AP75 (átlagos precízió 0,75-ös IoU küszöbértéknél) a pontos lokalizációs képesség erős mutatójának tekinthető.

A 0,50-0,75 közötti IoU jó szegmentációs minőséget jelez. A modell helyesen azonosítja az objektum helyét és általános alakját, de a határok pontossága mérsékelt. A burkolati repedésészlelésnél az ebben a tartományban lévő IoU azt jelenti, hogy a modell megbízhatóan megtalálja a repedést (magas valódi pozitív arány), de a repedést valamivel vastagabbnak vagy vékonyabbnak predikálhatja a valóságalapnál, vagy kisebb fragmentáltság léphet fel, ahol egy folytonos repedést rövid, szakaszos szegmensekként prediktál. Ez a jellemző működési tartomány a termelésben használt repedésszegmentációs rendszerek számára valós repülőtéri burkolati képeken, ahol a TarmacView DINOv3-alapú modellje 0,519-es teszt IoU-t ér el.

{

Három IoU-pontszám (0,3, 0,5 és 0,75) technikai összehasonlítása repedésészleléshez burkolaton, a valóságalap zölddel, a predikció pirossal jelölve

A 0,30-0,50 közötti IoU marginális szegmentációs minőséget jelez. A modell érzékeli az objektum jelenlétét, de jelentős lokalizációs hibákkal. A prediktált maszk eltolódhat, rossz alakú lehet, vagy lényegesen eltérhet méretben a valóságalaptól. A burkolati repedésészlelésben ez azt jelentheti, hogy a modell azonosítja a repedés által érintett területeket, de nem követi pontosan a repedés geometriáját, inkább foltokat prediktál lineáris jellemzők helyett. A 0,5 alatti IoU általában nem tekinthető sikeres detektálásnak vagy szegmentációnak a Pascal VOC szabvány szerint.

A 0-0,30 közötti IoU gyenge szegmentációt jelez. A modell vagy egyáltalán nem érzékeli az objektumot (a prediktált maszk üres, IoU=0), vagy olyan maszkot produkál, amely csak véletlenszerűen, egy sokkal nagyobb, rosszul prediktált régió széleinél fedi át a valóságalapot. Az infrastruktúra-ellenőrzés kontextusában az ezen az IoU-szinten működő modellek kritikus hibákat hagynának észrevétlenül, vagy olyan sok hamis pozitívot produkálnának, hogy a kimenet operatív szempontból nem lenne használható.

A vizuális értelmezés egyik kulcsfontosságú felismerése, hogy az IoU nem lineáris az észlelt minőségben. A 0,90-es és a 0,95-ös IoU közötti különbség sokkal kisebb tényleges javulást jelent a pixelpontosságban, mint a 0,50-es és 0,55-ös IoU közötti különbség. Ennek az az oka, hogy magas IoU-szinteknél az unió már nagyon közel van a metszethez, így a további javulások egyre pontosabb határvonal-illesztést igényelnek. Ezzel szemben alacsony és közepes IoU esetén viszonylag nagy javulásokra van szükség a szegmentációs minőségben ahhoz, hogy a mérőszám néhány százalékpontot változzon.

IoU számítás

Az IoU kiszámítása szegmentációs maszkokhoz szisztematikus megközelítést igényel, amely kezeli a maszkreprezentáció, a koordinátarendszerek és a határesetek sajátosságait.

Határolókeret IoU számítás

Határolókeret-alapú predikciókhoz (amelyeket objektumdetektálásban vagy régiójavaslatokként használnak) az IoU-t a tengelyekkel párhuzamos téglalap koordinátái segítségével számítják ki. Minden keretet a bal felső sarok (x₁, y₁) és a jobb alsó sarok (x₂, y₂) határoz meg. A metszet téglalapjának kiszámítása:

x_bal   = max(pred_x₁, gt_x₁)
y_felso = max(pred_y₁, gt_y₁)
x_jobb  = min(pred_x₂, gt_x₂)
y_also  = min(pred_y₂, gt_y₂)

A metszet területe:

metszet = max(0, x_jobb - x_bal) × max(0, y_also - y_felso)

A max(0, …) művelet kritikus — ha a keretek nem fedik át egymást egyik dimenzióban sem, a negatív érték nullára csökken, helyesen nulla metszeti területet eredményezve. Az egyes határolókeretek területe:

terulet_pred = (pred_x₂ - pred_x₁) × (pred_y₂ - pred_y₁)
terulet_gt   = (gt_x₂ - gt_x₁) × (gt_y₂ - gt_y₁)

Az unió ezt követően:

unio = terulet_pred + terulet_gt - metszet

És végül:

IoU = metszet / unio

Szegmentációs maszk IoU számítás

Pixelszintű szegmentációs maszkok esetén az IoU-t úgy számítják ki, hogy minden maszkot bináris képként kezelnek, ahol az 1-es pixelérték az objektumosztályt, a 0-s pixelérték a hátteret jelöli. A számítás elemenkénti logikai műveletekkel történik:

metszet = osszeg(pred_mask ES gt_mask)      // pixelenkénti logikai ÉS
unio = osszeg(pred_mask VAGY gt_mask)       // pixelenkénti logikai VAGY
IoU = metszet / unio

A gyakorlatban a NumPy-t vagy PyTorch-ot használó implementációk ezt vektorizálják:

import torch

def compute_iou(pred_mask: torch.Tensor, gt_mask: torch.Tensor) -> float:
    """
    pred_mask and gt_mask are binary tensors of shape (H, W)
    with values 0 (background) or 1 (object)
    """
    intersection = (pred_mask & gt_mask).sum().item()
    union = (pred_mask | gt_mask).sum().item()
    if union == 0:
        return float('nan')  # both masks empty
    return intersection / union

Az unio == 0 határeset akkor fordul elő, amikor mind a predikció, mind a valóságalap üres — egyik maszk sem tartalmaz objektumpixeleket. Ebben a degenerált esetben a mérőszám NaN-t ad vissza, és a különböző benchmarkok eltérően kezelik ezt. A COCO kiértékelési protokoll kizárja az ilyen eseteket az átlagból. A PyTorch Lightning MeanIoU implementáció -1,0-t ad vissza azokra az osztályokra, amelyek teljesen hiányoznak mind a predikcióból, mind a valóságalapból.

Többosztályos szegmentáció kezelése

Többosztályos szegmentáció esetén (pl. egy olyan modell, amely egyszerre prediktál repedést, tömítőanyagot, burkolatot és illesztési osztályokat) az IoU-t osztályonként számítják ki, majd átlagolják. Minden c osztályhoz egy bináris maszkot készítenek, ahol a pixel (i,j) értéke 1, ha a prediktált vagy valóságalap osztály egyenlő c-vel, egyébként 0. Az osztályonkénti IoU:

IoU_c = TP_c / (TP_c + FP_c + FN_c)

Egy C osztályú szegmentációs probléma esetén az átlagos IoU (mIoU):

mIoU = (1/C) × Σℂ=1…C IoU_c

Fontos szempont, hogy a háttérosztályt (a nem objektumhoz tartozó pixeleket) bele kell-e venni az mIoU számításba. A háttér belefoglalása általában növeli az mIoU-t, mert a háttér dominálja a pixelszámot, és a szegmentációs modellek általában jól teljesítenek rajta. A háttér kizárása őszintébb értékelést ad az objektumszegmentáció minőségéről. A TorchMetrics MeanIoU implementációjának include_background paramétere vezérli ezt a viselkedést.

Az mIoU alternatívája a gyakorisággal súlyozott IoU (FWIoU) , amely az egyes osztályok IoU-ját az osztály valóságalapbeli gyakoriságával súlyozza:

FWIoU = (1/Σℂ n_c) × Σℂ n_c × IoU_c

ahol n_c a c osztályba tartozó valóságalap pixelek száma. Az FWIoU nagyobb súlyt ad a nagyobb osztályoknak és kevesebbet a ritka osztályoknak. A burkolati repedésszegmentálásnál, ahol a repedéspixelek a teljes terület kevesebb mint 1 százalékát teszik ki, az FWIoU elfedné a repedésteljesítményt a burkolat teljesítménye mögött. Az mIoU (súlyozatlan átlag) erősen ajánlott az infrastruktúra-ellenőrzéshez, mert a ritka, de kritikus hibásztályokat egyenlő mértékben kezeli a többségi osztályokkal.

Numerikus precíziós szempontok

Amikor az IoU-t tréning veszteségfüggvényként használják (differenciálható IoU-változatok), a numerikus precízió fontossá válik. A standard IoU nem differenciálható, mert a bináris logikai műveleteknek (ÉS, VAGY, ÖSSZEG) mindenhol nulla a gradiense, kivéve a küszöbnél, ahol a gradiens nem definiált. A differenciálható szurrogátok — soft IoU vagy IoU loss — folytonos közelítéseket használnak:

soft_IoU = Σ(p_i × g_i) / Σ(p_i + g_i - p_i × g_i)

ahol p_i ∈ [0,1] a softmax valószínűség az i pixelre és g_i ∈ {0,1} a valóságalap címke. A p_i × g_i szorzat a logikai ÉS folytonos relaxációja, a p_i + g_i - p_i × g_i összeg pedig a logikai VAGY folytonos relaxációja.

A kiértékeléshez (nem differenciálható) a binarizált maszkokat egy küszöbértékkel (jellemzően 0,5 a softmax valószínűségen) használják. A bináris keresztentrópia veszteség marad a legtöbb repedésszegmentációs modell szabványos képzési célfüggvénye, ahol az IoU utólag számított kiértékelési mérőszámként szolgál.

IoU vs Dice-együttható (F1 a szegmentáláshoz)

A Dice Hasonlósági Együttható (DSC) , más néven Sørensen-Dice-index, ami egyenértékű a bináris szegmentálás F1-pontszámával, a leggyakoribb alternatíva az IoU helyett a szegmentáció kiértékelésében. A két mérőszám közötti kapcsolat megértése elengedhetetlen a szegmentációs pontosság helyes értelmezéséhez.

Matematikai kapcsolat

A Dice-együttható meghatározása:

DSC = 2|A ∩ B| / (|A| + |B|)

A konfúziós mátrix elemeivel kifejezve:

DSC = 2TP / (2TP + FP + FN)

A DSC és az IoU közötti matematikai kapcsolat bijektív és monoton:

DSC = 2 × IoU / (1 + IoU)

IoU = DSC / (2 - DSC)

Ez azt jelenti, hogy bármely adott szegmentáció esetén a DSC közvetlenül kiszámítható az IoU-ból és fordítva. Az átváltás pontos és determinisztikus — nincs információveszteség a két mérőszám közötti átváltáskor.

Legfontosabb különbségek a gyakorlatban

A pontos matematikai kapcsolat ellenére a DSC és az IoU szisztematikusan eltér a numerikus értékükben és értelmezésükben. A legfontosabb tulajdonságok:

DSC ≥ IoU minden tökéletlen szegmentáció esetén. Az egyenlőtlenség szigorú, kivéve a DSC = IoU = 1 (tökéletes) és a DSC = IoU = 0 (nincs átfedés) eseteket. Ennek az az oka, hogy a DSC nevezőjében a TP kétszer szerepel (2TP + FP + FN), míg az IoU-ban a TP csak egyszer (TP + FP + FN), így a DSC nevezője kisebb a számlálójához képest. Például egy TP=80, FP=20, FN=20 paraméterű szegmentáció esetén:

IoU = 80 / (80 + 20 + 20) = 80/120 = 0,667
DSC = (2×80) / (2×80 + 20 + 20) = 160/200 = 0,800

A DSC “optimistább”. Ugyanazon szegmentációs minőség esetén a DSC magasabb numerikus értéket jelent, mint az IoU. A relatív különbség a legnagyobb közepes átfedési szinteken, és mindkét szélsőség felé konvergál. Egy IoU=0,5-ös szegmentáció DSC=0,667-nek felel meg. Egy IoU=0,75-ös szegmentáció DSC=0,857-nek felel meg.

Az IoU szigorúbb a hamis pozitívokkal és hamis negatívokkal szemben. Mivel az IoU nevezője csak egyszer tartalmazza a TP-t, míg a DSC kétszer számolja, az IoU minden FP-t és FN-t súlyosabban büntet a helyes átfedéshez képest. Ez az IoU-t érzékenyebbé teszi a túlszegmentálási és alulszegmentálási hibákra.

A DSC az átfedés maximalizálását hangsúlyozza. A TP-re adott extra súly azt jelenti, hogy a DSC jutalmazza a metszet területének maximalizálást, még az unió enyhe növelésének árán is. Ez akkor teszi előnyössé a DSC-t, ha az elsődleges cél annak biztosítása, hogy a prediktált régió a lehető legnagyobb mértékben lefedje a valóságalapot, még némi túlbecslés árán is.

Gyakorlati útmutató a választáshoz

Az IoU és a DSC közötti választás az alkalmazás követelményeitől függ:

Szempont	IoU-t részesítsük előnyben	DSC-t részesítsük előnyben
Túl-/alulszegmentálás büntetése	✓ Szigorúbb	— Megengedőbb
Kis objektumok szegmentálása	— Érzékenyebb a hibákra	✓ Kevésbé szigorú büntetés
Határpontosság értékelése	✓ Jobban tükrözi a hibákat	— Elfedi a határproblémákat
Szabványos benchmark összehasonlítás	✓ Pascal VOC, COCO szabvány	— Orvosi képalkotás szabvány
Tréning veszteségfüggvény	— Nem differenciálható	✓ Differenciálható szurrogát
Kommunikáció nem műszaki érdekelt feleknek	— Tűnhet szigorúnak	✓ Intuitívabb értékek

Infrastruktúra-ellenőrzés és repedésszegmentálás esetén az IoU az előnyben részesített elsődleges mérőszám, mert szigorúbb, őszintébb értékelést ad a szegmentációs minőségről. Egy olyan modell, amely túlbecsüli a repedés szélességét (FP repedéspixeleket produkálva a széleken), nagyobb IoU-büntetést kap, mint DSC-büntetést, és ez a szigorúbb büntetés helyesen tükrözi azt a működési követelményt, hogy a repedésészlelésnek térbelileg pontosnak kell lennie — a repedésterület túlbecslése szükségtelen karbantartási költségekhez vezet, míg az alulbecslés nem észlelt hibákhoz.

A TarmacView az IoU-t jelenti elsődleges repedésszegmentációs pontossági mérőszámként, a DINOv3-alapú modell 0,519-es teszt IoU-t ér el félretett repülőtéri burkolati képeken. Ezt kiegészíti a precízió, a visszahívás és a Dice-együttható jelentése az átfogó kiértékelési kép érdekében.

IoU küszöbértékek (0,3, 0,5, 0,75)

Az IoU küszöbértékek meghatározzák azt a minimális átfedést, amely ahhoz szükséges, hogy egy predikciót valódi pozitívnak (helyes detektálásnak) tekintsünk. A küszöbérték megválasztása mélyreható hatással van a jelentett modellteljesítményre, és meghatározza, hogy egy szegmentációs rendszert megengedően vagy szigorúan értékelnek-e.

A Pascal VOC szabvány: IoU ≥ 0,5

A Pascal VOC kihívás az IoU ≥ 0,5 értéket határozta meg küszöbértékként ahhoz, hogy egy detektálást vagy szegmentációt helyesnek tekintsünk. Ez a küszöb, amelyet AP50-ként (átlagos precízió IoU=0,5-nél) jelölnek, több mint egy évtizedig alapértelmezetté vált a számítógépes látásban. Az indoklás pragmatikus volt: egy prediktált régió, amely a valóságalap több mint felét átfedi, egyértelműen a helyes objektumot érzékeli, még akkor is, ha a határai nem tökéletesek.

A burkolati repedésszegmentálásnál a 0,5-ös IoU küszöbérték azt jelenti, hogy egy prediktált repedésmaszknak legalább 50 százalékban át kell fednie a valóságalap repedésterületét ahhoz, hogy helyes detektálásnak számítson. Tekintettel arra, hogy a repedések vékony, elnyújtott struktúrák, ez a küszöb megköveteli, hogy a modell a repedés teljes útvonalát ésszerű vastagsági pontossággal rögzítse. Ez a szabványos küszöb a burkolati repedésészlelésről szóló akadémiai publikációkban és a TarmacView belső kiértékelési csővezetékében.

A szigorú COCO szabvány: IoU ∈ [0,5; 0,95]

A COCO benchmark egy szigorúbb kiértékelési protokollt vezetett be, amely az átlagos precíziót tíz IoU küszöbértéken átlagolja 0,5-től 0,95-ig 0,05-ös lépésekben, amit AP@[0.5:0.95] vagy egyszerűen mAP jelöl. Ez a többküszöbös megközelítés átfogóbb értékelést nyújt a lokalizációs minőségről, mint bármely egyetlen küszöb.

Az infrastruktúra-ellenőrzés szempontjából a COCO-stílusú kiértékelés különösen informatív, mert feltárja, hogy egy modell hogyan teljesít a különböző pontossági követelmények mellett. Egy magas AP50-nel, de alacsony AP75-tel rendelkező modell megbízhatóan észlelheti a repedéseket, de rossz határpontossággal predikálja azokat — szisztematikusan túl- vagy alulbecsli a repedés szélességét. Az erős AP75-tel rendelkező modell pontos határvonal-illesztést mutat, ami kritikus fontosságú a repedés szélességének pontos mérését igénylő alkalmazásokban (a Pavement Condition Index - PCI számítások kulcsfontosságú bemenete az ASTM D5340 és FAA AC 150/5380-6C szabványok szerint).

Magas precíziós küszöb: IoU ≥ 0,75

Az AP75 mérőszám (átlagos precízió IoU=0,75-nél) a modell azon képességét értékeli, hogy szoros határvonal-illesztésű predikciókat hozzon létre. A repedésszegmentálásnál az AP75 megköveteli, hogy a prediktált repedésmaszk legalább 75 százalékban fedje át a valóságalapot — megkövetelve, hogy a modell mind a repedés útvonalát, mind annak vastagságát nagy pontossággal rögzítse.

Az AP75 a releváns küszöb azoknál az alkalmazásoknál, amelyek repedésszélesség számszerűsítését igénylik, nem csupán a repedés jelenlétének észlelését. A futópálya-burkolat állapotának felmérése az ICAO szabványok és az FAA Tanácsadó Körlevelek szerint gyakran megköveteli a repedésszélesség osztályozását (hajszálrepedés < 3mm, közepes 3-6mm, súlyos > 6mm), és a pontos szélességmérés precíz határszegmentálást igényel. Az AP75-ben gyenge modell helyesen lokalizálhatja a repedéseket, de túl- vagy alulbecsülheti azok súlyosságát.

IoU küszöb	Szabvány	Értelmezés repedésszegmentáláshoz
0,30	Minimális hasznos átfedés	Marginális észlelés; a repedés helye megközelítőleg helyes, de alak/vastagság pontatlan
0,50	Pascal VOC (AP50)	Szabványos észlelés; a repedés útvonala és hozzávetőleges vastagsága helyes
0,75	COCO szigorú (AP75)	Precíz szegmentálás; a repedés határai szorosan illeszkednek a valóságalaphoz 1-3 pixelen belül
0,50:0,95	COCO elsődleges (mAP)	Átfogó kiértékelés az összes precíziós szinten

IoU = 0,3 — A minimális értelmes átfedés

Bár nem formális benchmark szabvány, az IoU=0,3-öt néha megengedő észlelési küszöbként használják zajos vagy kétértelmű annotációs kontextusokban. A burkolati repedések esetében az emberi inter-annotátor egyetértés az egyes repedéspixelek tekintetében ritkán haladja meg a 0,65-0,85-ös IoU-t a jól definiált repedéseknél, és 0,30-0,50-es IoU-ra csökkenhet a hajszálrepedéseknél texturált aszfaltfelületeken. Ezekben az esetekben a belső annotációs bizonytalanság gyakorlati alsó korlátot szab annak, hogy milyen IoU-érték jelent értelmes észlelést.

A 0,3-as IoU küszöbérték a repedésszegmentálásban azt jelzi, hogy a modell helyesen azonosította a repedés hozzávetőleges helyét, de jelentős alak-, vastagság- vagy folytonossági hibákkal. Ez elfogadható lehet durva hibaszűréshez (“lehetséges repedés — ellenőrizze manuálisan”), de nem elegendő az automatizált súlyosság-értékeléshez.

Átlagos IoU (mIoU) többosztályos feladatokhoz

Az átlagos Intersection over Union (mIoU) az egyosztályos IoU mérőszámot terjeszti ki többosztályos szegmentációs problémákra az osztályonkénti IoU-pontszámok számtani átlagának kiszámításával. Ez a szabványos kiértékelési mérőszám a szemantikus szegmentáláshoz az összes nagy benchmarkban.

mIoU számítás

Egy C osztályú szegmentációs feladat esetén az mIoU kiszámítása:

mIoU = (1/C) × Σℂ=1…C IoU_c

ahol IoU_c a c osztályra vonatkozó Intersection over Union, amelyet úgy számítanak ki, hogy a c osztályt pozitív osztályként, az összes többi osztályt pedig negatívként kezelik (egy az összes ellen).

A c osztályra vonatkozó osztályonkénti IoU számítás a következőket használja:

TP_c — a c osztályként helyesen prediktált pixelek
FP_c — a c osztályként helytelenül prediktált pixelek (egy másik osztályba tartoznak)
FN_c — a c osztályba tartozó, de más osztályként prediktált pixelek

A C osztályú szegmentációs probléma konfúziós mátrixa egy C×C mátrix, ahol M_ij azon pixelek száma, amelyek az i valóságalap osztályba tartoznak, de j osztályként lettek prediktálva. Az osztályonkénti IoU ezután:

IoU_i = M_ii / (Σj M_ij + Σj M_ji - M_ii)

A számláló M_ii (diagonális elem) az i osztály valódi pozitívjai. A sor összege Σj M_ij az i osztály teljes valóságalap területe (TP + FN). Az oszlop összege Σj M_ji az i osztály teljes predikciós területe (TP + FP).

mIoU a repedésszegmentáláshoz

A repülőtéri burkolati repedésszegmentálásnál egy tipikus többosztályos szegmentációs probléma a következőket foglalja magában:

0. osztály — Háttér: Ép burkolati felület, nincs hiba
1. osztály — Repedés: Minden repedéstípus (hosszanti, keresztirányú, hálós, tükröződési)
2. osztály — Illesztés/Tömítőanyag: Kitöltött vagy részben kitöltött dilatációs hézagok
3. osztály — Kipattogzás/Mállás: A repedésektől eltérő felületi romlás

Minden osztálynak saját IoU-pontszáma van. A TarmacView repülőtéri burkolati adathalmazokon végzett kiértékelésénél az osztályonkénti IoU-pontszámok mutatják az egyes hibásztályok relatív nehézségét. Az mIoU aggregált mértéket ad a modell minőségéről az összes felületi állapotra vonatkozóan.

Az mIoU érzékenysége az osztályegyensúlyra

Az mIoU egyik kritikus tulajdonsága, hogy minden osztályt egyenlő mértékben kezel, függetlenül a pixelszámtól. Egy olyan osztály, amely a pixelek 60 százalékát foglalja el (háttér), és egy olyan osztály, amely a pixelek 0,5 százalékát foglalja el (repedés), egyenlő mértékben járul hozzá a végső mIoU-pontszámhoz. Ez egyszerre erősség és gyengeség:

Erősség: Az mIoU megakadályozza, hogy a többségi osztály dominálja a mérőszámot. Egy olyan modell, amely tökéletesen szegmentálja a burkolati hátteret, de teljesen kudarcot vall a repedéseken, 99 százalék feletti pixelpontosságot, de csak ~0,5 körüli mIoU-t érne el (mivel a repedés osztály közel nulla IoU-t ad). Az mIoU őszintén tükrözi a modell képtelenségét a repedések észlelésére, míg a pixelpontosság félrevezetően közel tökéletes teljesítményt sugallna.

Gyengeség: Az egyenlő súlyozás azt jelenti, hogy a kis, zajos osztályok (kevés pixellel rendelkező osztályok) nagy szórással rendelkezhetnek az IoU-becsléseikben. Egyetlen kis, rosszul szegmentált régió drasztikusan csökkentheti egy ritka osztály IoU-ját, így az mIoU ingadozóvá válhat, ha a tesztadathalmaz kevés példát tartalmaz ritka hibákra.

Gyakorisággal súlyozott IoU

Alternatívaként a Gyakorisággal Súlyozott IoU (FWIoU) az egyes osztályok IoU-ját az osztály valóságalapbeli gyakoriságával súlyozza:

FWIoU = (1/Σc n_c) × Σc n_c × IoU_c

ahol n_c a c osztály valóságalap pixeleinek száma. Az FWIoU magasabb pontszámokat produkál, ha a modell jól teljesít a többségi osztályokon, így megengedőbb a gyenge kisebbségi osztályteljesítménnyel szemben. Az FWIoU-t ritkábban jelentik az akadémiai benchmarkokban, de kiegészítő mérőszámként használható, ha az elsődleges szempont a teljes kép átfogó pixelpontossága.

Az infrastruktúra-ellenőrzésben az mIoU erősen előnyben részesítendő az FWIoU-val szemben, mert:

A repedéshibák az elsődleges operatív érdeklődésre számot tartó osztályt jelentik
A repedéspixelek a teljes képterületnek csak kis hányadát teszik ki (0,5-2 százalék)
Az FWIoU elfedné a repedésszegmentációs kudarcokat a háttérteljesítmény mögött
A szabályozási ellenőrzési szabványok (ICAO Annex 14, FAA AC-k) kifejezetten a hibafelismerést helyezik előtérbe

IoU a TarmacView repedésszegmentálásában

A TarmacView repedésszegmentációs rendszere egy DINOv2-alapú gerinchálózatot használ egy speciális szegmentációs fejjel, amelyet infrastruktúra-hibák észlelésére terveztek. A modell 0,519-es teszt IoU-t ér el félretett repülőtéri burkolati adathalmazokon, amelyet változatos felvételi körülmények között validáltak, beleértve a fényváltozásokat, a burkolati textúra különbségeit és a többféle repedéstípust.

Modellarchitektúra és IoU-teljesítmény

A szegmentációs architektúra a következőkből áll:

Gerinchálózat: DINOv2 (Vision Transformer, ViT-B vagy ViT-L) önszupervízált tanulással előképzett egy 142 millió képet tartalmazó kurátori adathalmazon. A DINOv2 gazdag, általánosítható jellemzőreprezentációkat biztosít anélkül, hogy feladatspecifikus előképzést igényelne.
Szegmentációs fej: Egy könnyű dekódoló, amely a DINOv2 patch-szintű jellemzőit pixel-szintű szegmentációs maszkokra képezi le. A TarmacView egyedi feje több skálájú jellemzőaggregációs kialakítást használ, amely több transzformer blokk jellemzőit kombinálja, hogy mind a finom repedésrészleteket (korai rétegekből), mind a globális kontextust (későbbi rétegekből) rögzítse.
Kimenet: Egy pixel szintű valószínűségi térkép H×W×2 alakban (repedés vs. háttér), 0,5-ös küszöbértékkel binarizálva a végső bináris repedésmaszk előállításához, amelyet az IoU számításhoz használnak.

A 0,519-es teszt IoU a repedésosztályra vonatkozó IoU-t jelenti, a félretett tesztadathalmazon átlagolva. Ez az érték a TarmacView modelljét a jó és kiváló közötti tartományba helyezi a burkolati repedésszegmentálásban, ahol a 0,45-0,60 közötti IoU-értékek jellemzőek a legmodernebb modellekre a kihívást jelentő valós adathalmazokon.

Összehasonlítás publikált benchmarkokkal

Az IoU közvetlen összehasonlítása a különböző repedésszegmentációs tanulmányok között bonyolult az adathalmazok, annotációs protokollok és repedésdefiníciók különbségei miatt. A publikált eredmények hasonló burkolati repedés adathalmazokon azonban kontextust biztosítanak:

Modell	Adathalmaz	Teszt IoU (Repedés Osztály)
TarmacView DINOv3	Repülőtéri futópálya (saját)	0,519
DeepCrack (2019)	CFD (nyilvános út)	0,420-0,465
U-Net + ResNet-50	Crack500 (nyilvános út)	0,475-0,510
HRNet-FCN	UAV burkolat (akadémiai)	0,498-0,530
SegFormer-B3	CrackTree200 (nyilvános)	0,485-0,520
U-Net (drón futópálya)	Futópálya burkolat (2020)	0,415-0,472

A TarmacView 0,519-es IoU-ja versenyképes a legjobb publikált eredményekkel, miközben valós repülőtéri futópálya adatokon működik, magasabb annotációs változékonysággal és sokszínűbb felületi körülményekkel, mint az akadémiai kutatásban használt kontrollált adathalmazok. A modell profitál a DINOv2 erős reprezentációs tanulásából és egy doménspecifikus képzési rendszerből, amely agresszív adatbővítést és osztálykiegyensúlyozási stratégiákat foglal magában.

Az IoU-pontszámot befolyásoló tényezők

Több tényező is befolyásolja a 0,519-es teszt IoU-t:

Maszkvastagság-tolerancia. A repülőtéri burkolati adathalmaz valóságalap annotációi a repedéseket következetes, körülbelül 3-5 pixel vastagsággal határozzák meg az annotációs felbontásban. A modell prediktált maszkjai 2-8 pixel szélesek lehetnek a különböző repedésszegmenseknél. Minden pixelnyi eltérés a valóságalap vastagságtól vagy FP-hez vagy FN-hez járul hozzá, csökkentve az IoU-t.

Szélső pixel érzékenység. Egy tipikus, 5000 pixelt elfoglaló repedésnél egy 512×512-es képen a repedés széle (a repedés és a burkolat közötti határpixelek) körülbelül 400-600 pixelt tesz ki. Ha a modell predikciós széle akár csak 1 pixellel is eltér a valóságalap szélétől a teljes repedés útvonal mentén, az eredményül kapott 400-600 pixelnyi FP+FN 0,05-0,10-zel csökkentheti az IoU-t.

Hajszálrepedés kihívás. A hajszálrepedések (szélesség < 0,3mm, ami a felvételi felbontásban 1-3 pixelnek felel meg) a tesztadathalmaz hibáinak körülbelül 30 százalékát teszik ki. Ezeknél a repedéseknél a teljes valóságalap terület nagyon kicsi (100-500 pixel), így bármilyen eltérés aránytalanul nagy hatással van az IoU-ra. A hajszálrepedések IoU-ja átlagosan 0,320-0,380, ami jelentősen alacsonyabb, mint a közepes és széles repedéseken elért 0,550-0,650.

Annotációs konzisztencia. Az inter-annotátor IoU a képzési és tesztadatokon körülbelül 0,72 (két független szakértő annotátor ugyanazokon a képeken). Ez gyakorlati felső határt szab az elérhető modell IoU-nak — még egy tökéletes modell sem haladhatja meg a valóságalap konzisztenciáját, ami egy zajplafont hoz létre körülbelül 0,72-0,78 szinten.

Az IoU-pontszám gyakorlati hasznossága

A 0,519-es teszt IoU azt jelenti, hogy az átlagos tesztképen a prediktált és a valóságalap repedésmaszkok közötti metszet a teljes uniójuk körülbelül 51,9 százaléka. Operatív szempontból:

Repedésészlelési arány: A repedéspixelek körülbelül 75-85 százaléka kerül helyesen azonosításra (valódi pozitív arány), a repedés típusától és szélességétől függő változékonysággal.
Hamis pozitív arány: A háttérpixelek körülbelül 0,1-0,5 százaléka kerül tévesen repedésként klasszifikálásra, ami 250-1250 hamis pozitív repedéspixelt jelent 512×512-es képenként.
Repedés folytonosság: A modell a mérhető repedéseket (>1mm szélesség) tartalmazó képkockák 90+ százalékában helyesen azonosítja a repedés jelenlétét, némi fragmentáltsággal (egy folytonos repedés több rövid szegmensként prediktálva).
Súlyosság osztályozás: A modell repedésszélesség-becslései R²=0,62-0,74 korrelációt mutatnak a valóságos szélességmérésekkel, ami elegendő a durva súlyossági osztályozáshoz (hajszál vs. közepes vs. súlyos) az ASTM D5340 szabványok szerint.

Az IoU-t befolyásoló tényezők

Számos tényező befolyásolja a repedésszegmentációs modell által elérhető IoU-pontszámokat. E tényezők megértése elengedhetetlen a jelentett IoU-értékek értelmezéséhez, a teljesítményproblémák diagnosztizálásához és a reális pontossági célok kitűzéséhez.

Maszkvastagság-tolerancia

A repedésszegmentációs annotációkat jellemzően egy vonal vagy sokszög rajzolásával hozzák létre a repedés útvonala mentén, majd egy rögzített szélességet rendelnek hozzá a repedésterület reprezentálásához. A hozzárendelt szélesség az annotációs protokollok között változik — egyesek 3 pixel széles vonalakat használnak, mások 5 pixeles vagy dinamikusan skálázott szélességeket a tényleges repedésméretek alapján.

A modell prediktált maszkvastagsága ritkán egyezik meg pontosan a valóságalap vastagsággal. Ha az annotációs protokoll 3 pixeles szélességet rendel, de a modell 5 pixeles szélességet prediktál, a 3 pixeles annotációs határon túli minden pixel hamis pozitívvá válik. Egy 1000 pixel hosszú repedés esetén a plusz 2 pixel mindkét oldalon körülbelül 4000 hamis pozitív pixelt eredményez — ami potenciálisan 0,10-0,20-zel csökkenti az IoU-t.

Az IoU maximalizálásának optimális stratégiája a vastagságtudatos veszteségfüggvénnyel való képzés, amely bünteti a vastagság eltérését, vagy a feldolgozás utáni morfológiai műveletek (erózió vagy dilatáció) alkalmazása, amelyek a prediktált maszk vastagságát az annotációs szabványhoz igazítják. A TarmacView egy feldolgozás utáni lépést alkalmaz egy tanult dilatációs tényezővel, amelyet a validációs halmazon kalibrálnak, ami 0,02-0,04-gyel javítja a teszt IoU-t.

Szélső pixel érzékenység

A szélső pixelek — a repedés és a burkolat közötti határréteg — a domináns forrásai az IoU csökkenésének a jól teljesítő modellekben. Egy A területű, P kerületű repedésmaszk esetén a szélső pixelek száma körülbelül P (a határvonal hossza pixelekben). Ha a modell széle átlagosan 1 pixellel van eltolva, az eredményül kapott FP+FN körülbelül 2P pixel.

Egy tipikus repülőtéri burkolati repedésre, ahol A=5000 pixel és P=800 pixel:

Tökéletes szélellenállás (0 eltolás): FP+FN a szélekről = 800 pixel (az annotációs vastagság bizonytalansága)
1 pixel széleltolás: FP+FN a szélekről = 1600 pixel
2 pixel széleltolás: FP+FN a szélekről = 2400 pixel

Az IoU hatása:

Nulla eltolás: IoU = 5000/(5000+800) = 0,862 (annotációs plafon)
1 pixel eltolás: IoU = 5000/(5000+1600) = 0,758
2 pixel eltolás: IoU = 5000/(5000+2400) = 0,676

Ez az elemzés feltárja, hogy a szélső pixelillesztés az egyetlen legfontosabb tényező, amely elválasztja a 0,50-es IoU-t a 0,75-ös IoU-tól a repedésszegmentálásban. Azok a modellek, amelyek nagy felbontású jellemzőtérképekkel és feldolgozás utáni finomítással precíz határillesztést érnek el, következetesen jobban teljesítenek, mint azok, amelyek csak a repedés helyét, de nem a repedés határát rögzítik.

Kis repedés kihívás

A kis repedések — amelyek teljes pixelszáma a kiértékelési képen körülbelül 500 pixel alatt van — alapvető kihívást jelentenek az IoU-alapú kiértékelés számára. Egy 200 pixeles hajszálrepedés esetén mindössze 5 pixel eltolódás mindkét oldalon 10-20 pixelnyi FP+FN-t ad hozzá (a repedésterület 5-10 százaléka). Az IoU relatív érzékenysége az abszolút hibára kis objektumok esetén drámaian magasabb, mint nagy objektumok esetén.

Ugyanazt az 1 pixeles széleltolás elemzést használva egy kis repedésre (A=200, P=80):

Nulla eltolás: IoU = 200/(200+80) = 0,714 (annotációs plafon)
1 pixel eltolás: IoU = 200/(200+160) = 0,556
2 pixel eltolás: IoU = 200/(200+240) = 0,455

Az IoU-büntetés ugyanazon 1 pixeles széleltolás esetén 0,158 a kis repedésnél (0,714-ről 0,556-ra) szemben a 0,104-gyel a nagy repedésnél (0,862-ről 0,758-ra). Ez a méretérzékenység azt jelenti, hogy az IoU aggregálása az összes repedésre méret szerinti rétegzett jelentés nélkül elfedheti a teljesítménybeli különbségeket — egy olyan modell, amely jól teljesít a nagy repedéseken, de gyengén a kis repedéseken, elfogadható aggregált IoU-t mutathat, miközben nem észleli a legkritikusabb biztonsági szempontból releváns hajszálrepedéseket.

Emiatt a TarmacView IoU-t repedésszélesség kategóriánként rétegezve jelenti:

Hajszálrepedések (< 1mm szélesség): IoU = 0,32-0,38
Közepes repedések (1-3mm szélesség): IoU = 0,48-0,55
Széles repedések (> 3mm szélesség): IoU = 0,55-0,65

Annotációs minőség

A valóságalap annotációk minősége és konzisztenciája kemény felső korlátot szab az elérhető IoU-nak. Több tanulmány is dokumentálta az inter-annotátor egyetértést a burkolati repedésszegmentálásban:

Ugyanaz az annotátor, ugyanaz a kép, más alkalom: IoU = 0,78-0,88
Különböző annotátorok, ugyanaz a kép, ugyanaz a protokoll: IoU = 0,62-0,78
Különböző annotátorok, ugyanaz a kép, más protokoll: IoU = 0,45-0,65

Ez azt jelenti, hogy még egy elméletileg tökéletes modell sem haladhatja meg a körülbelül 0,78-0,88-as IoU-t a tipikus infrastruktúra-ellenőrzési adathalmazokon, mert maga a valóságalap is inkonzisztens. Az aktív tanulás és az annotációs konszenzus technikái javíthatják az annotáció minőségét azáltal, hogy több annotátor címkéz minden képet, és többségi szavazást vagy szakértői döntést használnak a nézeteltérések feloldására.

Képfelbontás és felvételi körülmények

A képfelbontás közvetlenül befolyásolja az IoU-t, mert meghatározza a repedés reprezentálására rendelkezésre álló pixelek számát. Egy 20 MP felbontásnál 10 pixel széles repedés 5 MP felbontásnál csak 3 pixel széles lehet. Alacsonyabb felbontásoknál a repedés abszolút pixelkerete csökken, így az IoU érzékenyebbé válik az eltérésekre.

A repülőgép-burkolat ellenőrzési protokoll meghatározza a felvételi felbontás követelményeit a megfelelő hiba felbontás biztosítása érdekében. Az ICAO iránymutatása a repülőtéri burkolatok ellenőrzésére minimális talajfelbontási távolságokat (GSD) javasol, amelyek biztosítják, hogy az akár 0,5 mm keskeny repedések is feloldhatók legyenek. 0,2 mm/pixel GSD mellett (jellemző UAV-ellenőrzésnél 10m magasságban) egy 0,5 mm-es hajszálrepedés csak 2,5 pixel széles — alig a megbízható annotáció és szegmentálás küszöbén.

A fényviszonyok is befolyásolják az IoU-teljesítményt. A nedves burkolaton lévő repedések nagyobb kontrasztot mutatnak, de spekuláris reflexiókat is okoznak, amelyek hamis pozitívokat eredményezhetnek. Az árnyékban lévő repedések alacsonyabb kontraszttal rendelkeznek, és részben láthatatlanok lehetnek. Az árnyék- és nedves felületű adatbővítéssel képzett modellek (ahogyan a TarmacView csővezetéke is megvalósítja) 0,03-0,06-dal magasabb teszt IoU-t mutatnak kihívást jelentő fényviszonyok mellett, összehasonlítva a doménspecifikus adatbővítés nélkül képzett modellekkel.

IoU jelentése

Az IoU-mérőszámok megfelelő jelentése elengedhetetlen a reprodukálhatósághoz, a tanulmányok közötti összehasonlításhoz és az operatív döntéshozatalhoz. Az alábbi irányelvek a legjobb gyakorlatot képviselik az IoU infrastruktúra-ellenőrzési kutatásban és telepítésben történő jelentéséhez.

A jelentés alapvető összetevői

Jelentsük az osztályonkénti IoU-t, ne csak az mIoU-t. A repedésszegmentálásnál a repedésosztály IoU-ját kifejezetten jelentsük az összes osztályra vonatkozó átlagos IoU mellett. A magas mIoU elfedheti a gyenge repedésteljesítményt, ha a háttér vagy más hibásztályok dominálnak.

Adjuk meg a küszöbértéket. Jelentsük a binarizációs küszöböt, amelyet a modell valószínűségi kimeneteinek bináris maszkokká alakításához használtak. A szabványos küszöb 0,5, de a feldolgozás utáni optimalizálás más küszöböket is használhat. A küszöb átfuttatás (IoU jelentése 0,3-tól 0,7-ig terjedő küszöbértékeken 0,1-es lépésekben) teljesebb képet ad a modell viselkedéséről.

Jelentsük a konfidencia-intervallumokat. A véges tesztadathalmazból becsült IoU-értékek mintavételi bizonytalansággal rendelkeznek. Jelentsük a 95 százalékos konfidencia-intervallumot bootstrap módszerrel (tesztképek újramintázása visszahelyettesítéssel 1000-szer, és IoU számítása minden újramintára). Egy 0,519-es jelentett IoU [0,497; 0,541] 95%-os CI-vel informatívabb, mint egy pontbecslés.

Foglaljuk bele az annotációs minőségi mutatókat. Jelentsük az inter-annotátor egyetértést (IoU független annotátorok között a képek egy részhalmazán) a kiértékelési zajplafon meghatározásához. Ez kontextusba helyezi a modell IoU-ját — a 0,519 másként néz ki, ha az annotációs plafon 0,72, mint ha 0,92.

Adjuk meg a képfelbontást és az előfeldolgozást. Jelentsük a bemeneti felbontást, hogy a képeket leskálázták-e a következtetés előtt, és hogy milyen normalizálást alkalmaztak. Az 512×512-es bemeneti felbontású IoU-értékek nem közvetlenül összehasonlíthatók az 1024×1024-es felbontású IoU-értékekkel.

Jelentési formátum

Az ajánlott jelentési táblázat a repedésszegmentációs IoU-hoz a következőket tartalmazza:

Mérőszám	Érték	95% CI	Megjegyzések
Repedés IoU (0,5 küszöb)	0,519	[0,497; 0,541]	Elsődleges mérőszám
Háttér IoU	0,992	[0,990; 0,994]	Várhatóan közel tökéletes
mIoU (minden osztály)	0,755	[0,744; 0,767]	Tartalmazza a háttérosztályt
mIoU (csak hibaosztályok)	0,519	[0,497; 0,541]	Háttér nélkül
Inter-annotátor IoU	0,723	[0,701; 0,745]	Kiértékelési plafon

Kiegészítő mérőszámok

Az IoU-t nem szabad elkülönítve jelenteni. A kiegészítő mérőszámok teljesebb pontossági értékelést biztosítanak:

Precízió (TP / (TP + FP)): Azt méri, hogy a prediktált repedéspixelek közül hány valóban repedés. Az alacsony precízió túlbecslésre (téves riasztások) utal.
Visszahívás (TP / (TP + FN)): Azt méri, hogy a valóságalap repedéspixelek közül hányat észleltek. Az alacsony visszahívás nem észlelt repedésekre utal.
F1-pontszám (a precízió és a visszahívás harmonikus átlaga): Megfelel a Dice-együtthatónak. Kiegyensúlyozott egyszámjegyű mértéket biztosít.
Pixelpontosság: Az összes helyesen klasszifikált pixel aránya (TP + TN / összes). Nem ajánlott elsődleges mérőszámként az osztályegyensúlytalansági torzítás miatt.
Határ F1: A szélső pixel pontosságának kiértékelésére szolgáló változat, amely releváns a repedésszélesség-mérési alkalmazásokhoz.

Reprodukálhatósági ellenőrzőlista

Az IoU-eredmények reprodukálhatóságának biztosításához:

Adjuk meg a pontos tesztadathalmaz összetételét (képek száma, repedéstípus eloszlás, felbontás)
Jelentsük a modell kimeneteinek binarizálásához használt küszöbértéket
Adjuk meg, hogy a modellt adatbővítéssel tanították-e (és milyen bővítésekkel)
Jelentsük az annotációs protokollt (vonalszélesség, repedésdefiníciós kritériumok)
Hozzuk nyilvánosságra a feldolgozás utáni lépéseket (morfológiai műveletek, küszöboptimalizálás a validációs halmazon)
Jelentsük az IoU-t több küszöbértéken (0,3; 0,5; 0,75) az átfogó kiértékeléshez

IoU és gyakorlati hasznosság

Az IoU végső célja az infrastruktúra-ellenőrzésben nem az akadémiai összehasonlítás, hanem az operatív döntéshozatal. Annak megértése, hogy az IoU hogyan fordítható le gyakorlati hasznosságra — a modell kimenetei alapján történő karbantartási döntések meghozatalának képességére — kritikus fontosságú a repedésszegmentációs rendszerek terepi telepítéséhez.

IoU és karbantartási döntésminőség

Az IoU és a karbantartási döntésminőség közötti kapcsolat nem lineáris. Egy IoU=0,45-ös modell operatív szempontból megfelelő repedéstérképeket produkálhat bizonyos felhasználási esetekhez, míg egy IoU=0,55-ös modell operatív szempontból elégtelen lehet másokhoz, a downstream alkalmazástól függően.

1. felhasználási eset — Repedésészlelési szűrés (annak azonosítása, hogy mely futópálya-szakaszok tartalmaznak repedéseket): Ehhez a felhasználási esethez a visszahívás (az észlelt repedések aránya) fontosabb, mint a pontos határillesztés. Egy IoU=0,40-es, de visszahívás=0,85-ös modell operatív szempontból hasznosabb lehet, mint egy IoU=0,55-ös, de visszahívás=0,70-es modell. A magas visszahívású modell több lehetséges hibát jelez emberi felülvizsgálatra, még akkor is, ha a határpontossága alacsonyabb.

2. felhasználási eset — Repedésszélesség osztályozás (repedések súlyossági kategóriákba sorolása az ASTM D5340 szerint): Ehhez a felhasználási esethez a határpontosság kritikus. Egy IoU=0,50-es, szisztematikus 2 pixel túlbecsléssel rendelkező modell a hajszálrepedéseket közepes szélességű repedésként osztályozhatja, szükségtelen karbantartást kiváltva. Egy IoU=0,45-ös, de torzításmentes határpredikcióval rendelkező modell pontosabb szélességbecsléseket adhat.

3. felhasználási eset — Repedésterület számszerűsítés (teljes repedésterület mérése PCI számításhoz): Ehhez a felhasználási esethez a prediktált repedésterület abszolút torzítása fontosabb, mint a pixelenkénti IoU. Egy olyan modell, amely következetesen 20 százalékkal több repedésterületet prediktál, mint a valóságalap (IoU-t FP torzítás befolyásolja), túlbecsüli a PCI levonásokat, ami idő előtti karbantartási költségvetés-tervezéshez vezet.

IoU leképezése operatív mérőszámokra

Az IoU és a gyakorlati észlelési minőség közötti kapcsolat számszerűsíthető az IoU észlelési arányra (a modell által sikeresen azonosított repedések százalékos aránya) történő átváltásával. Egy bináris repedésszegmentációs rendszernél, ha egy repedést “észleltnek” definiálunk, amikor a prediktált maszk legalább 30 százalékban átfedi a valóságalap repedést (az IoU küszöb a minimális értelmes észleléshez), a kapcsolat a következő:

Modell IoU	Hozzávetőleges repedésészlelési arány (TPR)	Hamis pozitív arány (FPR)
0,30	60-70%	0,3-0,7%
0,40	70-80%	0,2-0,5%
0,50	78-86%	0,1-0,3%
0,60	85-92%	0,05-0,2%
0,70	90-96%	< 0,1%

Ezek a tartományok hozzávetőlegesek és függenek a repedésszélesség eloszlásától és a képfelbontástól. A TarmacView 0,519-es IoU-ja esetén a becsült repedésészlelési arány körülbelül 80-85 százalék, ami azt jelenti, hogy a repedések 15-20 százaléka (elsősorban a 0,5 mm alatti hajszálrepedések) elkerüli az automatikus észlelést, és vagy jobb modellérzékenységet, vagy manuális felülvizsgálatot igényelne.

Operatív telepítési küszöbértékek

A repülőtéri burkolatok automatikus repedésészleléséhez a következő operatív küszöbértékek ajánlottak:

Minimális elfogadható IoU (szűrés): IoU ≥ 0,40. E küszöb alatt a modell túl sok hamis negatívot (nem észlelt repedést) és hamis pozitívot (téves riasztást) produkál ahhoz, hogy operatív szempontból hasznos legyen. A szűrés IoU=0,40-nél még mindig 25-35 százaléknyi repedést elmulaszthat, ami jelentős emberi felülvizsgálati erőfeszítést igényel.

Szabványos telepítési IoU: IoU ≥ 0,50. Ezen a küszöbön a modell a repedések 75-85 százalékát észleli elfogadható hamis pozitív arány mellett. Ez a minimálisan ajánlott IoU az automatikus repedésészleléshez felügyelt ellenőrzési munkafolyamatban, ahol az észlelt repedéseket emberek ellenőrzik.

Magas megbízhatóságú telepítési IoU: IoU ≥ 0,60. Ezen a küszöbön a modell a repedések 85-92 százalékát észleli nagyon alacsony hamis pozitív arány mellett. Ez az IoU-szint támogatja a félautomatikus súlyossági osztályozást, ahol a repedésszélesség- és kiterjedésmérések minimális emberi ellenőrzéssel megbízhatónak tekinthetők.

Teljesen automatizált telepítési IoU: IoU ≥ 0,70. Ezen a küszöbön a modell megközelíti az emberi szintű annotációs konzisztenciát (figyelembe véve a 0,62-0,78 közötti inter-annotátor IoU-t). Ez az IoU-szint támogatja a teljesen automatizált PCI számítást, ahol nincs szükség a repedésszegmentáció emberi felülvizsgálatára.

A TarmacView DINOv3 repedésszegmentációs feje 0,519-es IoU-val a szabványos telepítési tartományban működik, ami alkalmas felügyelt repedésészlelési munkafolyamatokhoz emberi ellenőrzéssel. A folyamatban lévő modellfejlesztések célja a magas megbízhatóságú telepítési küszöb (IoU ≥ 0,60) elérése architekturális javítások, a képzési adatok bővítése és a feldolgozás utáni optimalizáció révén.

IoU és szabályozási megfelelés

A repülőtéri burkolatok ellenőrzésére használt MI-alapú repedésészlelési rendszerek esetében az IoU és a szabályozási megfelelés közötti kapcsolatot meg kell határozni. Bár egyetlen légiközlekedési szabályozó testület (ICAO, FAA, EASA) sem határoz meg jelenleg IoU küszöbértéket az MI-ellenőrző rendszerek számára, az elfogadás általános keretrendszere a következőkből következik:

ISO/IEC 25010 (Rendszerek és szoftver minőségi követelményei és kiértékelése - SQuaRE): A funkcionális helyesség alkarakterisztika megköveteli, hogy az MI-rendszer kimenetei megadott tűréshatárokon belül egyezzenek a valóságalappal. Az IoU szolgál a szegmentációs kimenetek számszerű helyességi mérőszámaként.

ASTM D5340 (Szabványos vizsgálati módszer a repülőtéri burkolatok állapotindexének felmérésére): A PCI-módszertan a repedések kiterjedésének és súlyosságának pontos mérésétől függ. A repedésszegmentációs modell IoU-ja közvetlenül befolyásolja az automatizált PCI-számítás megbízhatóságát.

ICAO Annex 14, I. kötet — 10. fejezet (Repülőtér-karbantartás): Az a követelmény, hogy a futópálya felületeit olyan állapotban kell tartani, amely nem veszélyezteti a repülőgép biztonságát, magában foglalja, hogy minden ellenőrző rendszernek — beleértve az MI-alapú rendszereket is — kellő megbízhatósággal kell észlelnie a hibákat. Az IoU biztosítja a számszerű alapot e megbízhatóság bizonyításához.

A TarmacView repedésszegmentációs rendszere dokumentálja IoU-teljesítményét különböző fény-, időjárási- és burkolati textúraviszonyok között a validációs bizonyítékcsomag részeként, amely támogatja a működő repülőtereken történő telepítést. A jelentett 0,519-es IoU a kapcsolódó konfidencia-intervallumokkal és a repedéstípusok szerinti rétegzett jelentéssel lehetővé teszi a repülőtér-üzemeltetők számára, hogy felmérjék a rendszer alkalmasságát az adott karbantartási munkafolyamatukhoz és megfelelési követelményeikhez.

Gyakran Ismételt Kérdések

: Az Intersection Over Union (IoU), más néven Jaccard-index, egy olyan mérőszám, amely két régió — jellemzően egy prediktált szegmentációs maszk és egy valóságalap maszk — közötti átfedést számszerűsíti. Kiszámítása: IoU = |A ∩ B| / |A ∪ B|, ahol A a prediktált régió és B a valóságalap. A számlálóban lévő |A ∩ B| azt a területet (vagy pixelszámot) jelenti, ahol a két maszk megegyezik. A nevezőben lévő |A ∪ B| a két maszk által együttesen lefedett teljes területet jelenti. A valódi pozitívok (TP), hamis pozitívok (FP) és hamis negatívok (FN) segítségével az IoU a következőképpen fejezhető ki: IoU = TP / (TP + FP + FN). Az eredmény egy 0 (nincs átfedés) és 1 (tökéletes átfedés) közötti érték.
: A repülőtéri burkolatok és infrastrukturális felületek repedésszegmentálása esetén a 0,5 feletti IoU-érték általánosan elfogadhatónak tekinthető, míg a 0,7 feletti értékek kiváló szegmentációs minőséget jeleznek. A TarmacView DINOv3-alapú repedésszegmentációs feje 0,519-es teszt IoU-t ér el, ami erős teljesítménynek számít a repedésszegmentálás inherent nehézségei miatt — a repedések a teljes képterületnek csak nagyon kis hányadát foglalják el (gyakran kevesebb mint 1-2 százalékot), ami különösen kihívássá teszi ezt a mérőszámot. Az orvosi képalkotásban a 0,6-0,8 közötti IoU-értékek jellemzőek a szervek szegmentálásánál, ahol az objektumok nagyok. Az utak és futópályák repedésészlelésénél az összehasonlítást megnehezíti a repedéspixelek és a háttérpixelek közötti extrém osztályegyensúlytalanság.
: A Dice-együttható (más néven Dice Hasonlósági Együttható vagy DSC, ami megfelel az F1-pontszámnak) szorosan kapcsolódik az IoU-hoz, de nagyobb súlyt ad az átfedő régiónak. A Dice kiszámítása: DSC = 2|A ∩ B| / (|A| + |B|), vagy ezzel egyenértékűen: DSC = 2TP / (2TP + FP + FN). A legfontosabb különbség, hogy a Dice kétszer számítja a valódi pozitívokat mind a számlálóban, mind a nevezőben, ami általában magasabb értékeket eredményez, mint az IoU ugyanazon szegmentációs minőség esetén. A matematikai kapcsolat: DSC = 2×IoU / (1+IoU), és fordítva: IoU = DSC / (2-DSC). Tökéletlen szegmentációk esetén a Dice mindig nagyobb vagy egyenlő, mint az IoU. A tökéletes szegmentáció mindkét mérőszám esetén 1-et ad.
: A legelterjedtebb IoU küszöbérték a 0,5 (AP50), ami a Pascal VOC szabvány — egy detektálás vagy szegmentáció akkor tekinthető helyesnek, ha legalább 50 százalékban átfedi a valóságalapot. A COCO benchmark szigorúbb kiértékelést használ, az AP-t az IoU küszöbértékek 0,5-től 0,95-ig terjedő tartományán átlagolja 0,05-ös lépésekben, amit AP@[0.5:0.95]-ként jelölnek. A 0,75-ös IoU küszöbértéket (AP75) olyan modellek kiértékelésére használják, amelyek szorosabb lokalizációt igényelnek. A futópálya-burkolatok ellenőrzésénél, ahol akár a kis méretű, nem észlelt repedések is szerkezeti meghibásodásokhoz vezethetnek, a szakemberek gyakran több küszöbértéken is kiértékelik a modellt, hogy megértsék annak viselkedését a különböző pontossági követelmények mellett.
: Az átlagos IoU (mIoU) a többosztályos szegmentációs probléma egyes osztályaira külön-külön kiszámított IoU-értékek számtani átlaga. Például egy háromosztályos szegmentációs feladatban ahol az osztályok 'repedés', 'tömítőanyag' és 'ép burkolat', az mIoU = (IoU_repedés + IoU_tömítőanyag + IoU_burkolat) / 3. Az mIoU minden osztályt egyenlő mértékben kezel, függetlenül attól, hogy hány pixelt foglal el, így igazságos mérőszámot biztosít a kiegyensúlyozatlan adathalmazokhoz, ahol a repedéspixelek a teljes terület kevesebb mint 1 százalékát tehetik ki. A magas mIoU eléréséhez a modellnek minden osztályon egyszerre kell jól teljesítenie, nem csak a többségi osztályon.
: A repedésszegmentálás egyedi kihívásokat jelent az IoU optimalizálása szempontjából. A repedések a teljes képterületnek csak nagyon kis hányadát foglalják el — jellemzően 0,5-2 százalékot. Ez az extrém osztályegyensúlytalanság azt jelenti, hogy a repedések határainál elkövetett apró pixelesztályozási hibák is jelentősen befolyásolják a mérőszámot. Egy olyan modell, amely a repedéspixelek 90 százalékát helyesen előrejelzi, de a repedés szélességét 2-3 pixellel túlbecsüli, lényegesen csökkentett IoU-t fog produkálni, mert a repedés szélein lévő hamis pozitív pixelek növelik az uniót anélkül, hogy arányosan növelnék a metszetet. Emellett a repedések nagy képaránnyal rendelkeznek (hosszúak és keskenyek), így a szélső pixelek a repedés teljes területének sokkal nagyobb hányadát teszik ki, mint a kompakt objektumok esetében.
: A TarmacView az IoU-t használja elsődleges kiértékelési mérőszámként a DINOv3-alapú repedésszegmentációs fejéhez. A modell 0,519-es teszt IoU-t ér el repülőtéri burkolati adathalmazokon, a teljesítményt különböző fényviszonyok, burkolati textúrák és repedéstípusok (hosszanti, keresztirányú, hálós és tükröződési repedések) mellett validálva. Az IoU-t a tesztadathalmazon jelentik a képzés befejezése után, olyan félretett képek felhasználásával, amelyeket a modell sem a képzés, sem a validáció során nem látott. A mérőszám irányítja az architekturális döntéseket, mint a maszkfej kialakítása, a veszteségfüggvény súlyozása és a feldolgozás utáni paraméterek. A TarmacView az IoU jelentését kiegészíti a precízió, a visszahívás és az F1-pontszám közzétételével, hogy átfogó képet adjon a szegmentációs minőségről.
: Több tényező is befolyásolja az IoU-értékeket. Maszkvastagság-tolerancia — az IoU egyformán bünteti a túlbecslést (túl sok repedéspixel előrejelzése) és az alulbecslést, így a maszk vastagsága közvetlenül befolyásolja a pontszámot. Szélső pixel pontosság — a határpixelek, ahol a predikció nem pontosan illeszkedik a valóságalaphoz, hozzájárulnak mind a hamis pozitívokhoz, mind a hamis negatívokhoz. Kis repedések — a 0,3 mm-nél keskenyebb hajszálrepedések nagyon kevés pixellel rendelkeznek, így a kis eltérések aránytalanul nagy IoU-csökkenést okoznak. Annotációs minőség — az inkonzisztens valóságalap-annotációk (különböző emberi annotátorok ugyanazt a repedést kissé eltérő szélességgel jelölik) zajt visznek a rendszerbe, ami korlátozza az elérhető IoU-t. Képfelbontás — a nagyobb felbontás több repedésrészletet rögzít, de felnagyítja a pixelek szintjén jelentkező eltéréseket is.
: A Dice-együttható következetesen magasabb értékeket ad, mint az IoU minden tökéletlen szegmentáció esetén, mert kétszer számolja a valódi pozitív területet. Matematikailag: DSC = 2TP / (2TP + FP + FN), míg IoU = TP / (TP + FP + FN). A DSC számlálójában és nevezőjében szereplő 2-es szorzó azt jelenti, hogy a valódi pozitívok nagyobb súlyt kapnak a hamis pozitívokhoz és hamis negatívokhoz képest. Például egy TP=80, FP=20, FN=20 paraméterű szegmentáció esetén IoU = 80/120 = 0,667 és DSC = 160/200 = 0,800. A relatív különbség a legnagyobb alacsony átfedési szinteken, és a szegmentációs minőség javulásával csökken. Ez a tulajdonság optimistábbá teszi a Dice-értéket, ami néha előnyös az orvosi képalkotásban, ahol a prioritás az észlelt átfedés maximalizálása, nem pedig a határvonalak pontos illeszkedése.
: Az IoU infrastruktúra-ellenőrzésben történő jelentésének legjobb gyakorlata a következőket foglalja magában: (1) az osztályonkénti IoU és az összes osztályra vonatkozó átlagos IoU (mIoU) együttes jelentése; (2) a modell kimeneteinek binarizálásához használt maszkküszöb megadása az IoU kiszámítása előtt; (3) a szórás vagy a 95%-os konfidencia-intervallum feltüntetése a tesztadathalmazon; (4) az IoU jelentése kiegészítő mérőszámokkal — precízió, visszahívás, F1-pontszám és Dice-együttható — a teljes pontossági kép érdekében; (5) a képfelbontás és az annotációs protokoll megadása az elérhető IoU-plafon kontextusba helyezéséhez; (6) repedés-specifikus mérőszámok esetén a Repedés-IoU (csak a repedés osztály pixeleire számított IoU) elkülönített jelentése a háttér-IoU-tól.

Pontos repedésszegmentálás MI segítségével

A TarmacView az Intersection Over Union-t használja elsődleges mérőszámként a repedésszegmentálás pontosságának validálására. DINOv3-alapú szegmentációs fejünk iparágvezető IoU-értékeket ér el repülőtéri burkolat-ellenőrzési adatokon. Vegye fel velünk a kapcsolatot, hogy megtudja, hogyan forradalmasíthatja a precíz MI-vezérelt repedésészlelés az Ön infrastruktúra-ellenőrzési munkafolyamatát.

Kapcsolatfelvétel Bemutató egyeztetése

Tudjon meg többet

Repedésfelület-arány a burkolat- és szerkezeti állapotfelmérésben

A repedésfelület-arány (crack_area_pct) a repedésmaszk területének a teljes elemzett képterülethez viszonyított aránya, százalékban kifejezve. Ez egy kulcsfonto...

Jun 17, 2026 4 perc olvasás

measurement pavement +3

Szemantikai szegmentáció infrastruktúra-jelenetek értelmezéséhez

A szemantikai szegmentáció kategóriacímkét rendel minden pixelhez egy képben, lehetővé téve a teljes jelenet értelmezését infrastruktúra-ellenőrzés során. Lefed...

Jun 17, 2026 35 perc olvasás

Technology Computer Vision +3

AI-alapú repedésfelismerés infrastruktúra-ellenőrzéshez

Az AI-alapú repedésfelismerés számítógépes látást – konvolúciós neurális hálózatokat, víziótranszformátorokat és szemantikus szegmentációs modelleket – használ ...

Jun 16, 2025 34 perc olvasás

Computer Vision Deep Learning +8