Čo je Intersekcia nad Uniou (IoU) a ako sa vypočítava?

Intersekcia nad Uniou (IoU), tiež označovaná ako Jaccardov index, je metrika, ktorá kvantifikuje prekrytie medzi dvomi oblasťami — typicky predikovanou segmentačnou maskou a maskou skutočnosti. Vypočítava sa ako IoU = |A ∩ B| / |A ∪ B|, kde A je predikovaná oblasť a B je skutočnosť. Čitateľ |A ∩ B| predstavuje plochu (alebo počet pixelov), kde sa obe masky zhodujú. Menovateľ |A ∪ B| predstavuje celkovú plochu pokrytú ktoroukoľvek maskou. V termínoch skutočne pozitívnych (TP), falošne pozitívnych (FP) a falošne negatívnych (FN) možno IoU vyjadriť ako IoU = TP / (TP + FP + FN). Výsledkom je hodnota medzi 0 (žiadne prekrytie) a 1 (dokonalé prekrytie).

Čo je dobré IoU skóre pre segmentáciu trhlín?

Pre segmentáciu trhlín na letiskových spevnených plochách a povrchoch infraštruktúry sa IoU skóre nad 0,5 všeobecne považuje za prijateľné, zatiaľ čo skóre nad 0,7 indikuje vynikajúcu kvalitu segmentácie. Segmentačná hlava TarmacView založená na DINOv3 dosahuje testovacie IoU 0,519, čo predstavuje silný výkon vzhľadom na inherentnú obtiažnosť segmentácie trhlín — trhliny zaberajú veľmi malú časť celkovej plochy obrazu (často menej ako 1-2 percentá), čo robí metriku obzvlášť náročnou. V medicínskom zobrazovaní sú typické hodnoty IoU 0,6-0,8 pre segmentáciu orgánov, kde sú objekty veľké. Pre detekciu trhlín na cestách a vzletových dráhach je porovnanie komplikované extrémnou triedovou nevyváženosťou medzi pixelmi trhlín a pixelmi pozadia.

Aký je rozdiel medzi IoU a Dice koeficientom?

Dice koeficient (tiež nazývaný Dice Similarity Coefficient alebo DSC a ekvivalentný F1-skóre) je úzko príbuzný s IoU, ale dáva väčšiu váhu prekrývajúcej sa oblasti. Dice sa vypočítava ako DSC = 2|A ∩ B| / (|A| + |B|), alebo ekvivalentne DSC = 2TP / (2TP + FP + FN). Kľúčový rozdiel je v tom, že Dice váži skutočne pozitívne dvakrát v čitateli aj menovateli, čo vo všeobecnosti vedie k vyšším hodnotám ako IoU pre rovnakú kvalitu segmentácie. Matematický vzťah je DSC = 2×IoU / (1+IoU) a opačne IoU = DSC / (2-DSC). Pre nedokonalé segmentácie je Dice vždy väčší alebo rovný IoU. Dokonalá segmentácia dáva obe metriky rovné 1.

Aké prahové hodnoty IoU sa používajú v štandardných evalvačných benchmarkoch?

Najbežnejšia prahová hodnota IoU je 0,5 (AP50), čo je štandard Pascal VOC — detekcia alebo segmentácia sa považuje za správnu, ak prekrýva aspoň 50 percent so skutočnosťou. COCO benchmark používa prísnejšiu evalváciu, spriemerovaním AP cez IoU prahové hodnoty od 0,5 do 0,95 v krokoch po 0,05, označované ako AP@[0.5:0.95]. IoU prahová hodnota 0,75 (AP75) sa používa na vyhodnotenie modelov vyžadujúcich presnejšiu lokalizáciu. Pre kontrolu letiskových spevnených plôch, kde aj malé vynechané segmenty trhlín môžu viesť k štrukturálnym poruchám, odborníci často vyhodnocujú na viacerých prahových hodnotách, aby pochopili správanie modelu naprieč požiadavkami na presnosť.

Čo je Mean IoU (mIoU) a ako sa používa?

Mean IoU (mIoU) je aritmetický priemer IoU skóre vypočítaných samostatne pre každú triedu v multi-triednom segmentačnom probléme. Napríklad v trojtriednom segmentačnom probléme s triedami 'trhlina', 'tmel' a 'nepoškodená spevnená plocha' je mIoU = (IoU_trhlina + IoU_tmel + IoU_plocha) / 3. mIoU zaobchádza s každou triedou rovnako bez ohľadu na to, koľko pixelov zaberá, čo z nej robí férovú metriku pre nevyvážené datasety, kde pixely trhlín môžu tvoriť menej ako 1 percento celku. Vysoké mIoU vyžaduje, aby model fungoval dobre na všetkých triedach súčasne, nielen na väčšinovej triede.

Prečo je IoU ťažké optimalizovať pre segmentáciu trhlín?

Segmentácia trhlín predstavuje jedinečné výzvy pre optimalizáciu IoU. Trhliny zaberajú veľmi malú časť celkovej plochy obrazu — typicky 0,5-2 percentá. Táto extrémna triedová nevyváženosť znamená, že aj malé chyby v klasifikácii pixelov na okrajoch trhlín výrazne ovplyvňujú metriku. Model, ktorý správne predikuje 90 percent pixelov trhlín, ale nadhodnocuje šírku trhliny o 2-3 pixely, bude mať výrazne znížené IoU, pretože falošne pozitívne pixely na okrajoch trhlín pridávajú do únie bez proporcionálneho zvýšenia intersekcie. Navyše trhliny majú vysoký pomer strán (sú dlhé a úzke), takže okrajové pixely tvoria oveľa väčšiu časť celkovej plochy trhliny v porovnaní s kompaktnými objektmi.

Ako sa IoU používa v systéme segmentácie trhlín TarmacView?

TarmacView používa IoU ako primárnu evalvačnú metriku pre svoju segmentačnú hlavu založenú na DINOv3. Model dosahuje testovacie IoU 0,519 na datasetoch letiskových spevnených plôch, pričom výkon je validovaný naprieč rôznymi svetelnými podmienkami, textúrami spevnených plôch a typmi trhlín (pozdĺžne, priečne, sieťové a odrazové trhliny). IoU sa reportuje na testovacej sade po dokončení tréningu, pričom sa používajú vyhradené snímky, ktoré model nevidel počas tréningu ani validácie. Metrika usmerňuje architektonické rozhodnutia, ako je návrh maskovacej hlavy, váhovanie stratovej funkcie a parametre následného spracovania. TarmacView dopĺňa reportovanie IoU o presnosť (precision), úplnosť (recall) a F1-skóre, aby poskytol komplexný pohľad na kvalitu segmentácie.

Aké faktory ovplyvňujú IoU skóre v segmentačných modeloch?

IoU skóre ovplyvňuje niekoľko faktorov. Tolerancia hrúbky masky — IoU rovnako penalizuje nadmerné predikovanie (predikovanie príliš veľa pixelov trhlín) aj podpredikovanie, takže hrúbka masky priamo ovplyvňuje skóre. Presnosť okrajových pixelov — hraničné pixely, kde sa predikcia presne nezhoduje so skutočnosťou, prispievajú k falošne pozitívnym aj falošne negatívnym výsledkom. Malé trhliny — jemné vlasové trhliny so šírkou pod 0,3 mm majú veľmi málo pixelov, takže malé nepresnosti spôsobujú neprimerane veľké poklesy IoU. Kvalita anotácií — nekonzistentné anotácie skutočnosti (rôzni ľudskí anotátori označujúci rovnakú trhlinu s mierne odlišnými šírkami) vnášajú šum, ktorý obmedzuje dosiahnuteľné IoU. Rozlíšenie obrazu — vyššie rozlíšenie zachytáva viac detailov trhlín, ale tiež zväčšuje nezrovnalosti na úrovni pixelov.

Prečo Dice koeficient dáva vyššie hodnoty ako IoU?

Dice koeficient konzistentne dáva vyššie hodnoty ako IoU pre akúkoľvek nedokonalú segmentáciu, pretože dvojnásobne započítava skutočne pozitívnu oblasť. Matematicky DSC = 2TP / (2TP + FP + FN), zatiaľ čo IoU = TP / (TP + FP + FN). Dodatočný faktor 2 v čitateli a menovateli DSC znamená, že skutočne pozitívne sú vážené silnejšie vzhľadom na falošne pozitívne a falošne negatívne. Napríklad segmentácia s TP=80, FP=20, FN=20 dáva IoU = 80/120 = 0,667 a DSC = 160/200 = 0,800. Relatívny rozdiel je najväčší pri nízkych úrovniach prekrytia a konverguje, keď sa kvalita segmentácie blíži k dokonalosti. Táto vlastnosť robí Dice opticky optimistickejším, čo je niekedy preferované v medicínskom zobrazovaní, kde prioritou je maximalizácia detekovaného prekrytia a nie presná hraničná presnosť.

Ako reportujete IoU výsledky pre kontrolu infraštruktúry?

Najlepšia prax pre reportovanie IoU pri kontrole infraštruktúry zahŕňa: (1) reportovanie IoU pre jednotlivé triedy aj priemerného IoU (mIoU) naprieč všetkými triedami; (2) uvedenie prahu masky použitého na binarizáciu výstupov modelu pred výpočtom IoU; (3) zahrnutie smerodajnej odchýlky alebo 95% intervalu spoľahlivosti naprieč testovacou sadou; (4) reportovanie IoU spolu s doplnkovými metrikami — presnosť, úplnosť, F1-skóre a Dice koeficient — pre úplný obraz o presnosti; (5) uvedenie rozlíšenia obrazu a anotačného protokolu na kontextualizáciu dosiahnuteľného stropu IoU; (6) pre metriky špecifické pre trhliny reportovanie Crack-IoU (IoU vypočítané len na pixeloch triedy trhlín) oddelene od IoU pozadia.

Intersekcia nad Uniou (IoU)

Intersekcia nad Uniou (IoU), tiež nazývaný Jaccardov index, meria prekrytie medzi predikovanou segmentačnou maskou a maskou skutočnosti (ground truth): IoU = |A∩B| / |A∪B|. Je to primárna metrika presnosti segmentácie trhlín, pričom IoU > 0,5 sa považuje za dobrú. Segmentačná hlava DINOv3 od TarmacView dosahuje testovacie IoU 0,519. Zahŕňa výpočet IoU, interpretáciu, vzťah k Dice koeficientu a prijateľné prahové hodnoty.

Intersekcia nad Uniou (IoU) pre presnosť segmentácie

Definícia a vzorec

Intersekcia nad Uniou (IoU), tiež známa ako Jaccardov index alebo Jaccardov koeficient podobnosti, je štatistická miera, ktorá kvantifikuje prekrytie medzi dvomi sadami údajov. V počítačovom videní a segmentácii obrazu meria IoU presnosť predikovanej segmentačnej masky voči maske skutočnosti. Je to najrozšírenejšia evalvačná metrika pre sémantickú segmentáciu, segmentáciu inštancií a úlohy detekcie objektov naprieč akademickými benchmarkmi aj priemyselnými aplikáciami.

Vzorec pre IoU je matematicky priamočiary:

IoU = |A ∩ B| / |A ∪ B|

Kde A predstavuje predikovanú segmentačnú masku (množinu pixelov, ktoré model klasifikuje ako patriace do triedy objektu) a B predstavuje masku skutočnosti (množinu pixelov, ktoré ľudskí anotátori identifikovali ako patriace do triedy objektu). Čitateľ, |A ∩ B|, je intersekcia — plocha (alebo počet pixelov), kde sa predikcia a skutočnosť zhodujú. Menovateľ, |A ∪ B|, je únia — celková plocha pokrytá buď predikciou, alebo skutočnosťou, alebo obomi.

{

Technický diagram zobrazujúci koncept Intersekcie nad Uniou (IoU) s dvomi prekrývajúcimi sa tvarmi, intersekcia zvýraznená purpurovou, únia ohraničená bielou

Rozšírenie vzorca v termínoch prvkov matice zmätkov — skutočne pozitívne (TP), falošne pozitívne (FP) a falošne negatívne (FN) — poskytuje praktickejšiu formuláciu pre výpočet:

IoU = TP / (TP + FP + FN)

Tu TP (true positives) sú pixely správne klasifikované ako patriace do triedy objektu (plocha intersekcie). FP (false positives) sú pixely nesprávne predikované ako objekt, keď v skutočnosti patria pozadiu (plocha predikcie mimo skutočnosti). FN (false negatives) sú pixely nesprávne predikované ako pozadie, keď v skutočnosti patria objektu (plocha skutočnosti mimo predikcie). Táto formulácia explicitne ukazuje, že IoU rovnako penalizuje nadmerné predikovanie aj podpredikovanie — každý falošne pozitívny a každý falošne negatívny pixel znižuje metriku o rovnakú mieru, normalizovanú celkovou relevantnou plochou.

Hodnota IoU vždy spadá do uzavretého intervalu [0, 1]. IoU 0 znamená, že predikovaná maska a maska skutočnosti majú nulové prekrytie — sú úplne disjunktné. IoU 1 znamená dokonalé prekrytie — predikovaná maska sa presne zhoduje s maskou skutočnosti pixel po pixeli. Stredné hodnoty predstavujú čiastočnú kvalitu prekrytia. Napríklad IoU 0,5 znamená, že plocha intersekcie je polovičná oproti ploche únie, čo je štandardná minimálna prahová hodnota pre považovanie detekcie alebo segmentácie za správnu v benchmarku Pascal VOC.

IoU je mierovo invariantná v tom zmysle, že meria relatívne prekrytie, nie absolútne počty pixelov. 100-pixelový objekt aj 10 000-pixelový objekt majú IoU 1,0, keď sú dokonale segmentované. Táto mierová invariancia má však praktické obmedzenie: pri rovnakej absolútnej chybe pixelov (napr. 5 nesprávne klasifikovaných hraničných pixelov) malý objekt zaznamená oveľa väčší relatívny pokles IoU ako veľký objekt, čo robí IoU implicitne prísnejším pre jemné detaily a malé štruktúry.

Metrika pochádza z Jaccardovho indexu (tiež nazývaného Intersekcia nad Uniou), ktorý zaviedol Paul Jaccard v roku 1901 ako koeficient komunity na porovnávanie distribúcií druhov v alpínskej flóre. Jeho aplikácia v počítačovom videní bola formalizovaná v Pascal Visual Object Classes (VOC) Challenge (2007-2012), ktorá ustanovila IoU ako štandardnú evalvačnú metriku pre detekciu objektov a segmentáciu. Dataset Common Objects in Context (COCO) a benchmark, vydaný spoločnosťou Microsoft v roku 2014, ďalej upevnili IoU ako de facto štandard zavedením mAP@[0.5:0.95], priemeru strednej priemernej presnosti vypočítanej naprieč desiatimi diskrétnymi prahovými hodnotami IoU od 0,5 do 0,95.

Vizuálna interpretácia IoU

Vizuálna interpretácia IoU je nevyhnutná na rozvoj intuitívneho pochopenia toho, čo rôzne IoU skóre v skutočnosti predstavujú z hľadiska kvality segmentácie. Metrika mapuje komplexný priestorový vzťah medzi dvomi maskami do jedinej skalárnej hodnoty a internalizácia toho, ako rôzne vzory priestorových chýb ovplyvňujú túto hodnotu, je kritická pre vývoj modelu aj komunikáciu výsledkov.

IoU 1,0 predstavuje dokonalú zhodu pixel po pixeli. V kontexte segmentácie trhlín na letiskových spevnených plochách dokonalé IoU znamená, že každý pixel, ktorý model klasifikoval ako “trhlina”, sa presne zhoduje s každým pixelom, ktorý vyškolený inšpektor označil ako “trhlina”, a žiadne pixely neboli vynechané ani nadmerne predikované. V praxi je dokonalé IoU v podstate nedosiahnuteľné pre reálnu kontrolu infraštruktúry kvôli anotačnej nejednoznačnosti — rôzni ľudskí anotátori označujúci rovnakú trhlinu na rovnakej snímke zvyčajne dosahujú inter-anotačné IoU len 0,65-0,85 v závislosti od šírky a kontrastu trhliny. Tento anotačný šumový strop predstavuje maximálne dosiahnuteľné IoU pre akýkoľvek model na danom datasete.

IoU 0,75-0,90 indikuje vynikajúcu kvalitu segmentácie. Na tejto úrovni predikovaná maska tesne sleduje hranicu skutočnosti s len malými odchýlkami 1-3 pixelov na okrajoch. Pre segmentáciu trhlín to zodpovedá správnej detekcii celej dráhy trhliny s miernymi rozdielmi v predikovanej hrúbke trhliny v porovnaní s anotáciou skutočnosti. Na COCO benchmarku sa AP75 (Average Precision pri IoU prahu 0,75) považuje za silný indikátor presnej lokalizačnej schopnosti.

IoU 0,50-0,75 indikuje dobrú kvalitu segmentácie. Model správne identifikuje polohu a všeobecný tvar objektu, ale presnosť hraníc je mierna. Pre detekciu trhlín na spevnených plochách IoU v tomto rozsahu znamená, že model spoľahlivo nachádza trhlinu (vysoká miera skutočne pozitívnych), ale môže predikovať trhlinu ako o niečo hrubšiu alebo tenšiu ako je skutočnosť, alebo môže mať menšiu fragmentáciu, kde je súvislá trhlina predikovaná ako krátke nesúvislé segmenty. Toto je typický prevádzkový rozsah pre produkčné systémy segmentácie trhlín pracujúce na reálnych snímkach letiskových spevnených plôch, kde model TarmacView založený na DINOv3 dosahuje testovacie IoU 0,519.

{

Technické porovnanie troch IoU skóre 0,3, 0,5 a 0,75 pre detekciu trhlín na spevnenej ploche so skutočnosťou v zelenej a predikciou v červenej

IoU 0,30-0,50 indikuje marginálnu kvalitu segmentácie. Model deteguje prítomnosť objektu, ale s významnými lokalizačnými chybami. Predikovaná maska môže byť posunutá, nesprávne tvarovaná alebo podstatne odlišnej veľkosti od skutočnosti. Pri detekcii trhlín na spevnených plochách by to mohlo znamenať, že model identifikuje všeobecné oblasti postihnuté trhlinami, ale nedokáže presne sledovať geometriu trhliny, pričom predikuje škvrny namiesto líniových prvkov. IoU pod 0,5 sa všeobecne nepovažuje za úspešnú detekciu alebo segmentáciu podľa štandardu Pascal VOC.

IoU 0-0,30 indikuje zlú segmentáciu. Model buď úplne zlyhá pri detekcii objektu (predikovaná maska je prázdna, čo dáva IoU=0), alebo produkuje masku, ktorá sa prekrýva so skutočnosťou len náhodne na okrajoch oveľa väčšej nesprávne predikovanej oblasti. V kontexte kontroly infraštruktúry by modely pracujúce na tejto úrovni IoU vynechali kritické defekty alebo produkovali toľko falošne pozitívnych výsledkov, že výstup nie je prevádzkovo užitočný.

Kľúčový poznatok pre vizuálnu interpretáciu je, že IoU je nelineárne z hľadiska vnímanej kvality. Rozdiel medzi IoU=0,90 a IoU=0,95 predstavuje oveľa menšie skutočné zlepšenie presnosti pixelov ako rozdiel medzi IoU=0,50 a IoU=0,55. Je to preto, že pri vysokých úrovniach IoU je únia už veľmi blízka intersekcii, takže ďalšie zlepšenia vyžadujú čoraz presnejšie zarovnanie hraníc. Naopak, pri nízkom až strednom IoU sú potrebné relatívne veľké zlepšenia kvality segmentácie na posun metriky o niekoľko percentuálnych bodov.

Výpočet IoU

Výpočet IoU pre segmentačné masky vyžaduje systematický prístup, ktorý zohľadňuje špecifiká reprezentácie masiek, súradnicových systémov a okrajových prípadov.

Výpočet IoU pre ohraničujúce obdĺžniky

Pre predikcie založené na ohraničujúcich obdĺžnikoch (používané pri detekcii objektov alebo ako návrhy oblastí) sa IoU vypočítava pomocou súradníc osovo zarovnaného obdĺžnika. Každý obdĺžnik je definovaný svojím ľavým horným rohom (x₁, y₁) a pravým dolným rohom (x₂, y₂). Intersekčný obdĺžnik sa vypočíta ako:

x_left   = max(pred_x₁, gt_x₁)
y_top    = max(pred_y₁, gt_y₁)
x_right  = min(pred_x₂, gt_x₂)
y_bottom = min(pred_y₂, gt_y₂)

Plocha intersekcie je:

intersekcia = max(0, x_right - x_left) × max(0, y_bottom - y_top)

Operácia max(0, …) je kritická — ak sa obdĺžniky neprekrývajú v žiadnom rozmere, záporná hodnota sa nastaví na nulu, čo správne dáva nulovú plochu intersekcie. Plocha každého ohraničujúceho obdĺžnika je:

plocha_pred = (pred_x₂ - pred_x₁) × (pred_y₂ - pred_y₁)
plocha_gt   = (gt_x₂ - gt_x₁) × (gt_y₂ - gt_y₁)

Únia je potom:

unia = plocha_pred + plocha_gt - intersekcia

A nakoniec:

IoU = intersekcia / unia

Výpočet IoU pre segmentačné masky

Pre segmentačné masky na úrovni pixelov sa IoU vypočítava tak, že každá maska sa považuje za binárny obraz, kde hodnota pixelu 1 označuje triedu objektu a hodnota 0 označuje pozadie. Výpočet prebieha pomocou elementárnych logických operácií:

intersekcia = sum(pred_mask AND gt_mask)   // logické AND po prvkoch
unia = sum(pred_mask OR gt_mask)           // logické OR po prvkoch
IoU = intersekcia / unia

V praxi implementácie používajúce NumPy alebo PyTorch vektorizujú toto ako:

import torch

def compute_iou(pred_mask: torch.Tensor, gt_mask: torch.Tensor) -> float:
    """
    pred_mask a gt_mask sú binárne tenzory tvaru (H, W)
    s hodnotami 0 (pozadie) alebo 1 (objekt)
    """
    intersection = (pred_mask & gt_mask).sum().item()
    union = (pred_mask | gt_mask).sum().item()
    if union == 0:
        return float('nan')  # obe masky prázdne
    return intersection / union

Okrajový prípad union == 0 nastáva, keď sú predikcia aj skutočnosť prázdne — ani jedna maska neobsahuje žiadne pixely objektu. V tomto degenerovanom prípade metrika vracia NaN a rôzne benchmarky s tým zaobchádzajú odlišne. COCO evalvačný protokol takéto prípady vylučuje z priemeru. Implementácia PyTorch Lightning MeanIoU vracia -1,0 pre triedy, ktoré sú úplne neprítomné v predikcii aj skutočnosti.

Práca s multi-triednou segmentáciou

Pre multi-triednu segmentáciu (napr. model, ktorý súčasne predikuje triedy trhlina, tmel, spevnená plocha a škára) sa IoU vypočítava pre každú triedu a potom sa spriemeruje. Pre každú triedu c sa vytvorí binárna maska, kde pixel (i,j) je 1, ak predikovaná alebo skutočná trieda rovná c, a 0 inak. IoU pre triedu je:

IoU_c = TP_c / (TP_c + FP_c + FN_c)

Pre segmentačný problém s C triedami je Mean IoU (mIoU):

mIoU = (1/C) × Σℂ=1…C IoU_c

Dôležitým zreteľom je, či zahrnúť triedu pozadia (pixely nepatriace žiadnemu objektu) do výpočtu mIoU. Zahrnutie pozadia typicky nafukuje mIoU, pretože pozadie dominuje počtu pixelov a segmentačné modely na ňom zvyčajne fungujú dobre. Vylúčenie pozadia poskytuje čestnejšie hodnotenie kvality segmentácie objektov. Parameter include_background v implementácii MeanIoU od TorchMetrics riadi toto správanie.

Alternatívou k mIoU je Frequency Weighted IoU (FWIoU), ktorá váži IoU každej triedy jej frekvenciou v skutočnosti:

FWIoU = (1/Σℂ n_c) × Σℂ n_c × IoU_c

kde n_c je počet pixelov skutočnosti patriacich triede c. FWIoU dáva väčšiu váhu väčším triedam a menšiu zriedkavým triedam. Pre segmentáciu trhlín na spevnených plochách, kde pixely trhlín tvoria menej ako 1 percento celku, by FWIoU zakrylo výkon na trhlinách za výkonom na spevnenej ploche. mIoU (nevážený priemer) je výrazne preferované pre kontrolu infraštruktúry, pretože zaobchádza so zriedkavými, ale kritickými triedami defektov rovnako ako s väčšinovými triedami.

Zretele na numerickú presnosť

Keď sa IoU používa ako tréningová stratová funkcia (diferencovateľné varianty IoU), numerická presnosť sa stáva dôležitou. Štandardné IoU nie je diferencovateľné, pretože binárne logické operácie (AND, OR, SUM) majú nulové gradienty všade okrem prahu, kde je gradient nedefinovaný. Diferencovateľné náhrady — soft IoU alebo IoU loss — používajú spojité aproximácie:

soft_IoU = Σ(p_i × g_i) / Σ(p_i + g_i - p_i × g_i)

kde p_i ∈ [0,1] je softmax pravdepodobnosť pre pixel i a g_i ∈ {0,1} je označenie skutočnosti. Súčin p_i × g_i je spojité uvoľnenie logického AND a súčet p_i + g_i - p_i × g_i je spojité uvoľnenie logického OR.

Pre vyhodnotenie (nediferencovateľné) sa používajú binarizované masky s prahom (typicky 0,5 na softmax pravdepodobnosti). Binárna krížová entropia zostáva štandardným tréningovým cieľom pre väčšinu modelov segmentácie trhlín, pričom IoU slúži ako evalvačná metrika vypočítaná dodatočne.

IoU vs Dice koeficient (F1 pre segmentáciu)

Dice Similarity Coefficient (DSC), tiež nazývaný Sørensen-Dice index a ekvivalentný F1-skóre pre binárnu segmentáciu, je najbežnejšou alternatívou k IoU pre vyhodnotenie segmentácie. Pochopenie vzťahu medzi týmito dvomi metrikami je nevyhnutné pre správnu interpretáciu presnosti segmentácie.

Matematický vzťah

Dice koeficient je definovaný ako:

DSC = 2|A ∩ B| / (|A| + |B|)

V termínoch prvkov matice zmätkov:

DSC = 2TP / (2TP + FP + FN)

Matematický vzťah medzi DSC a IoU je bijektívny a monotónny:

DSC = 2 × IoU / (1 + IoU)

IoU = DSC / (2 - DSC)

To znamená, že pre akúkoľvek danú segmentáciu možno DSC vypočítať priamo z IoU a naopak. Konverzia je presná a deterministická — pri konverzii medzi týmito dvomi metrikami nedochádza k strate informácie.

Kľúčové rozdiely v praxi

Napriek presnému matematickému vzťahu sa DSC a IoU systematicky líšia vo svojich numerických hodnotách a interpretácii. Kľúčové vlastnosti sú:

DSC ≥ IoU pre všetky nedokonalé segmentácie. Nerovnosť je prísna okrem DSC = IoU = 1 (dokonalé) a DSC = IoU = 0 (žiadne prekrytie). Je to preto, že menovateľ v DSC pridáva TP dvakrát (2TP + FP + FN), zatiaľ čo IoU pridáva TP len raz (TP + FP + FN), čo robí menovateľ DSC menším vzhľadom na jeho čitateľ. Napríklad segmentácia s TP=80, FP=20, FN=20 dáva:

IoU = 80 / (80 + 20 + 20) = 80/120 = 0,667
DSC = (2×80) / (2×80 + 20 + 20) = 160/200 = 0,800

DSC je “optimistickejší.” Pre rovnakú kvalitu segmentácie DSC reportuje vyššiu numerickú hodnotu ako IoU. Relatívny rozdiel je najväčší pri stredných úrovniach prekrytia a konverguje na oboch extrémoch. Segmentácia s IoU=0,5 zodpovedá DSC=0,667. Segmentácia s IoU=0,75 zodpovedá DSC=0,857.

IoU je prísnejšie na falošne pozitívne a falošne negatívne. Pretože menovateľ IoU zahŕňa TP len raz, zatiaľ čo DSC dvojnásobne započítava TP, IoU penalizuje každý FP a FN ťažšie vzhľadom na správne prekrytie. To robí IoU citlivejším na chyby nadmernej a nedostatočnej segmentácie.

DSC zdôrazňuje maximalizáciu prekrytia. Dodatočná váha na TP znamená, že DSC odmeňuje maximalizáciu plochy intersekcie aj na úkor mierneho zvýšenia únie. To robí DSC preferovaným, keď je primárnym cieľom zabezpečiť, aby predikovaná oblasť pokrývala čo najviac zo skutočnosti, aj za cenu určitého nadmerného predikovania.

Praktické usmernenie pre výber

Výber medzi IoU a DSC závisí od požiadaviek aplikácie:

Kritérium	Preferovať IoU	Preferovať DSC
Penalizácia nadmernej/nedostatočnej segmentácie	✓ Prísnejšie	— Zhovievavejšie
Segmentácia malých objektov	— Citlivejšie na chyby	✓ Miernejšia penalizácia
Hodnotenie presnosti hraníc	✓ Lepšie odráža chyby	— Maskuje problémy s hranicami
Porovnanie so štandardnými benchmarkmi	✓ Pascal VOC, COCO štandard	— Medicínske zobrazovanie štandard
Tréningová stratová funkcia	— Nie je diferencovateľné	✓ Diferencovateľná náhrada
Komunikácia s netechnickými zainteresovanými	— Môže pôsobiť prísne	✓ Intuitívnejšie hodnoty

Pre kontrolu infraštruktúry a segmentáciu trhlín je IoU preferovanou primárnou metrikou, pretože poskytuje prísnejšie, čestnejšie hodnotenie kvality segmentácie. Model, ktorý nadmerne predikuje šírku trhliny (produkuje FP pixely trhlín na okrajoch), bude mať svoje IoU penalizované viac ako jeho DSC, a táto prísnejšia penalizácia správne odráža prevádzkovú požiadavku, že detekcia trhlín musí byť priestorovo presná — nadmerné predikovanie plochy trhlín vedie k zbytočným nákladom na údržbu, zatiaľ čo podpredikovanie vedie k vynechaným defektom.

TarmacView reportuje IoU ako primárnu metriku presnosti segmentácie trhlín, pričom model založený na DINOv3 dosahuje testovacie IoU 0,519 na vyhradených snímkach letiskových spevnených plôch. Toto je doplnené reportovaním presnosti, úplnosti a Dice koeficientu pre komplexný evalvačný obraz.

IoU prahové hodnoty (0,3, 0,5, 0,75)

IoU prahové hodnoty definujú minimálne prekrytie potrebné na to, aby sa predikcia považovala za skutočne pozitívnu (správna detekcia). Voľba prahu má hlboké dôsledky pre reportovaný výkon modelu a určuje, či je segmentačný systém hodnotený ako zhovievavý alebo prísny.

Štandard Pascal VOC: IoU ≥ 0,5

Pascal VOC challenge ustanovil IoU ≥ 0,5 ako prah pre považovanie detekcie alebo segmentácie za správnu. Tento prah, označovaný ako AP50 (Average Precision pri IoU=0,5), sa stal predvoleným v počítačovom videní na viac ako desaťročie. Zdôvodnenie bolo pragmatické: predikovaná oblasť, ktorá sa prekrýva s viac ako polovicou skutočnosti, jednoznačne deteguje správny objekt, aj keď sú jej hranice nedokonalé.

Pre segmentáciu trhlín na spevnených plochách prahová hodnota IoU 0,5 znamená, že predikovaná maska trhliny sa musí prekrývať aspoň s 50 percentami plochy skutočnej trhliny, aby sa počítala ako správna detekcia. Vzhľadom na to, že trhliny sú tenké, pretiahnuté štruktúry, tento prah vyžaduje, aby model zachytil celú dráhu trhliny s primeranou presnosťou hrúbky. Je to štandardný prah používaný v akademických publikáciách o detekcii trhlín na spevnených plochách a v internom evalvačnom pipeline TarmacView.

Prísny štandard COCO: IoU ∈ [0,5; 0,95]

COCO benchmark zaviedol rigoróznejší evalvačný protokol, spriemerovaním Average Precision cez desať prahových hodnôt IoU od 0,5 do 0,95 v krokoch po 0,05, označovaný ako AP@[0.5:0.95] alebo jednoducho mAP. Tento multi-prahový prístup poskytuje komplexnejšie hodnotenie lokalizačnej kvality, než aký môže poskytnúť akýkoľvek jednotlivý prah.

Pre kontrolu infraštruktúry je COCO-štýlová evalvácia obzvlášť informatívna, pretože odhaľuje, ako model funguje naprieč požiadavkami na presnosť. Model s vysokým AP50, ale nízkym AP75 môže spoľahlivo detegovať trhliny, ale predikovať ich so zlou presnosťou hraníc — systematicky nadhodnocovať alebo podhodnocovať šírku trhliny. Model so silným AP75 demonštruje presné zarovnanie hraníc, čo je kritické pre aplikácie vyžadujúce presné meranie šírky trhlín (kľúčový vstup pre výpočet indexu stavu spevnenej plochy - PCI podľa ASTM D5340 a FAA AC 150/5380-6C).

Prah vysokej presnosti: IoU ≥ 0,75

Metrika AP75 (Average Precision pri IoU=0,75) vyhodnocuje schopnosť modelu produkovať predikcie s tesným zarovnaním hraníc. Pre segmentáciu trhlín AP75 vyžaduje, aby sa predikovaná maska trhliny prekrývala so skutočnosťou aspoň na 75 percent — čo vyžaduje, aby model zachytil dráhu trhliny aj jej hrúbku s vysokou presnosťou.

AP75 je relevantný prah pre aplikácie vyžadujúce kvantifikáciu šírky trhliny a nie len detekciu prítomnosti trhliny. Hodnotenie stavu letiskových spevnených plôch podľa štandardov ICAO a FAA Advisory Circulars často vyžaduje klasifikáciu šírky trhlín (vlasové < 3 mm, stredné 3-6 mm, závažné > 6 mm) a presné meranie šírky vyžaduje presnú hraničnú segmentáciu. Model degradovaný v AP75 môže správne lokalizovať trhliny, ale nad- alebo podhodnocovať ich závažnosť.

Prah IoU	Štandard	Interpretácia pre segmentáciu trhlín
0,30	Minimálne užitočné prekrytie	Marginálna detekcia; poloha trhliny približne správna, ale tvar/hrúbka nepresné
0,50	Pascal VOC (AP50)	Štandardná detekcia; dráha trhliny a približná hrúbka správne
0,75	COCO prísny (AP75)	Presná segmentácia; hranice trhliny sa tesne zhodujú so skutočnosťou v rozmedzí 1-3 pixelov
0,50:0,95	COCO primárny (mAP)	Komplexné hodnotenie naprieč všetkými úrovňami presnosti

IoU = 0,3 — Minimálne zmysluplné prekrytie

Hoci nejde o formálny benchmarkový štandard, IoU=0,3 sa niekedy používa ako zhovievavý detekčný prah v hlučných alebo nejednoznačných anotačných kontextoch. Pri trhlinách na spevnených plochách medzianotátorská zhoda na jednotlivých pixeloch trhlín zriedka presahuje IoU=0,65-0,85 pre dobre definované trhliny a môže klesnúť na IoU=0,30-0,50 pre vlasové trhliny na textúrovaných asfaltových povrchoch. V týchto prípadoch inherentná anotačná neistota stanovuje praktické dno toho, aká hodnota IoU predstavuje zmysluplnú detekciu.

Prahová hodnota IoU 0,3 pre segmentáciu trhlín indikuje, že model správne identifikoval približnú polohu trhliny, ale s podstatnými chybami v tvare, hrúbke alebo kontinuite. To môže byť prijateľné pre hrubé triedenie defektov (označenie “možná trhlina — overiť manuálne”), ale je nedostatočné pre automatizované hodnotenie závažnosti.

Mean IoU (mIoU) pre viac tried

Mean Intersection over Union (mIoU) rozširuje jednoduchú IoU metriku na multi-triedne segmentačné problémy výpočtom aritmetického priemeru IoU skóre jednotlivých tried. Toto je štandardná evalvačná metrika pre sémantickú segmentáciu naprieč všetkými hlavnými benchmarkmi.

Výpočet mIoU

Pre segmentačnú úlohu s C triedami sa mIoU vypočítava ako:

mIoU = (1/C) × Σℂ=1…C IoU_c

kde IoU_c je Intersekcia nad Uniou pre triedu c, vypočítaná tak, že trieda c sa považuje za pozitívnu triedu a všetky ostatné triedy za negatívne (one-vs-rest).

Výpočet IoU pre triedu c používa:

TP_c — pixely správne predikované ako trieda c
FP_c — pixely nesprávne predikované ako trieda c (v skutočnosti patria inej triede)
FN_c — pixely patriace triede c, ale predikované ako iná trieda

Matica zmätkov pre C-triedny segmentačný problém je matica C×C, kde M_ij je počet pixelov patriacich do skutočnej triedy i, ktoré boli predikované ako trieda j. IoU pre triedu je potom:

IoU_i = M_ii / (Σj M_ij + Σj M_ji - M_ii)

Čitateľ M_ii (diagonálny prvok) sú skutočne pozitívne pre triedu i. Súčet cez riadok Σj M_ij je celková plocha skutočnosti pre triedu i (TP + FN). Súčet cez stĺpec Σj M_ji je celková predikovaná plocha pre triedu i (TP + FP).

mIoU pre segmentáciu trhlín

Pre segmentáciu trhlín na letiskových spevnených plochách typický multi-triedny segmentačný problém zahŕňa:

Trieda 0 — Pozadie: Nepoškodený povrch spevnenej plochy, bez defektov
Trieda 1 — Trhlina: Všetky typy trhlín (pozdĺžne, priečne, sieťové, odrazové)
Trieda 2 — Škára/Tmel: Vyplnené alebo čiastočne vyplnené dilatačné škáry
Trieda 3 — Vydrolenie/Zvetranie: Povrchová degradácia odlišná od trhlín

Každá trieda má svoje vlastné IoU skóre. Pre vyhodnotenie TarmacView na datasetoch letiskových spevnených plôch IoU skóre jednotlivých tried demonštruje relatívnu obtiažnosť každého typu defektu. mIoU poskytuje agregovanú mieru kvality modelu naprieč všetkými povrchovými podmienkami.

Citlivosť mIoU na triedovú vyváženosť

Kritickou vlastnosťou mIoU je, že zaobchádza s každou triedou rovnako bez ohľadu na počet pixelov. Trieda, ktorá zaberá 60 percent pixelov (pozadie), a trieda, ktorá zaberá 0,5 percenta pixelov (trhlina), prispievajú rovnako k výslednému mIoU skóre. Toto je zároveň sila aj slabosť:

Sila: mIoU zabraňuje tomu, aby väčšinová trieda dominovala metrike. Model, ktorý dokonale segmentuje pozadie spevnenej plochy, ale úplne zlyháva na trhlinách, by dosiahol 99%+ presnosť pixelov, ale mIoU len ~0,5 (keďže trieda trhlín prispieva IoU blízkym nule). mIoU čestne odráža neschopnosť modelu detegovať trhliny, zatiaľ čo presnosť pixelov by klamlivo naznačovala takmer dokonalý výkon.

Slabosť: Rovnaké váhovanie znamená, že malé, hlučné triedy (triedy s málo pixelmi) môžu mať vysokú variabilitu svojich IoU odhadov. Jediná malá nesprávne segmentovaná oblasť môže drasticky znížiť IoU zriedkavej triedy, čo robí mIoU volatilným, keď testovacia sada obsahuje málo príkladov zriedkavých defektov.

Frekvenčne vážené IoU

Ako alternatíva, Frequency Weighted IoU (FWIoU) váži IoU každej triedy jej frekvenciou v skutočnosti:

FWIoU = (1/Σc n_c) × Σc n_c × IoU_c

kde n_c je počet pixelov skutočnosti pre triedu c. FWIoU produkuje vyššie skóre, keď model funguje dobre na väčšinových triedach, čo ho robí zhovievavejším k zlému výkonu na menšinových triedach. FWIoU je menej často reportované v akademických benchmarkoch, ale môže sa použiť ako doplnková metrika, keď je primárnym záujmom celková presnosť na úrovni pixelov naprieč celým obrazom.

Pre kontrolu infraštruktúry je mIoU výrazne preferované pred FWIoU, pretože:

Trhliny sú triedou primárneho prevádzkového záujmu
Pixely trhlín tvoria nepatrnú časť (0,5-2 percentá) celkovej plochy obrazu
FWIoU by zakrylo zlyhania segmentácie trhlín za výkonom na pozadí
Regulačné normy kontroly (ICAO Annex 14, FAA AC) prioritizujú konkrétne detekciu defektov

IoU v TarmacView segmentácii trhlín

Systém segmentácie trhlín TarmacView používa DINOv2-based backbone so špecializovanou segmentačnou hlavou navrhnutou na detekciu defektov infraštruktúry. Model dosahuje testovacie IoU 0,519 na vyhradených datasetoch letiskových spevnených plôch, validovaných naprieč rôznymi podmienkami snímania vrátane variability osvetlenia, rozdielov v textúre spevnenej plochy a viacerých typov trhlín.

Architektúra modelu a IoU výkon

Segmentačná architektúra pozostáva z:

Backbone: DINOv2 (Vision Transformer, ViT-B alebo ViT-L) predtrénovaný pomocou samoučeného učenia na kurátorovanej sade 142 miliónov obrázkov. DINOv2 poskytuje bohaté, generalizovateľné reprezentácie prvkov bez potreby úlohovo špecifického predtrénovania.
Segmentačná hlava: Ľahký dekóder, ktorý mapuje prvky na úrovni blokov z DINOv2 na segmentačné masky na úrovni pixelov. Vlastná hlava TarmacView používa multi-škálový dizajn agregácie prvkov, ktorý kombinuje prvky z viacerých transformer blokov na zachytenie jemných detailov trhlín (z prvých vrstiev) aj globálneho kontextu (z neskorších vrstiev).
Výstup: Mapa pravdepodobnosti na úrovni pixelov tvaru H×W×2 (trhlina vs. pozadie), prahovaná na 0,5 pre vytvorenie výslednej binárnej masky trhliny použitej na výpočet IoU.

Testovacie IoU 0,519 predstavuje IoU pre triedu trhlín spriemerované cez vyhradenú testovaciu sadu. Táto hodnota umiestňuje model TarmacView do dobrého až vynikajúceho rozsahu pre segmentáciu trhlín na spevnených plochách, kde sú hodnoty IoU 0,45-0,60 typické pre najmodernejšie modely na náročných reálnych datasetoch.

Porovnanie s publikovanými benchmarkmi

Priame porovnanie IoU naprieč rôznymi štúdiami segmentácie trhlín je komplikované rozdielmi v datasetoch, anotačných protokoloch a definíciách trhlín. Publikované výsledky na podobných datasetoch trhlín na spevnených plochách však poskytujú kontext:

Model	Dataset	Testovacie IoU (trieda trhlín)
TarmacView DINOv3	Letisková vzletová dráha (proprietárny)	0,519
DeepCrack (2019)	CFD (verejná cesta)	0,420-0,465
U-Net + ResNet-50	Crack500 (verejná cesta)	0,475-0,510
HRNet-FCN	UAV spevnená plocha (akademický)	0,498-0,530
SegFormer-B3	CrackTree200 (verejný)	0,485-0,520
U-Net (dronová vzletová dráha)	Spevnená plocha vzletovej dráhy (2020)	0,415-0,472

IoU 0,519 od TarmacView je konkurencieschopné s najlepšími publikovanými výsledkami, pričom pracuje na reálnych dátach z letiskových vzletových dráh s vyššou anotačnou variabilitou a rozmanitejšími povrchovými podmienkami ako kontrolované datasety používané v akademickom výskume. Model profituje zo silného reprezentačného učenia DINOv2 a doménovo špecifického tréningového režimu, ktorý zahŕňa agresívne rozširovanie dát a stratégie vyvažovania tried.

Faktory prispievajúce k IoU skóre

Testovacie IoU 0,519 ovplyvňuje niekoľko faktorov:

Tolerancia hrúbky masky. Anotácie skutočnosti pre dataset letiskových spevnených plôch definujú trhliny s konzistentnou hrúbkou približne 3-5 pixelov pri anotačnom rozlíšení. Predikované masky modelu môžu byť široké 2-8 pixelov v rôznych segmentoch trhlín. Každý pixel odlišný od hrúbky skutočnosti pridáva buď do FP alebo FN, čím znižuje IoU.

Citlivosť okrajových pixelov. Pre typickú trhlinu zaberajúcu 5 000 pixelov v obraze 512×512 tvorí okraj trhliny (pixely na hranici medzi trhlinou a spevnenou plochou) približne 400-600 pixelov. Ak je okraj predikcie modelu čo i len 1 pixel posunutý od okraja skutočnosti pozdĺž celej dráhy trhliny, výsledný FP+FN v rozsahu 400-600 pixelov môže znížiť IoU o 0,05-0,10.

Výzva vlasových trhlín. Vlasové trhliny (šírka < 0,3 mm, zodpovedajúce 1-3 pixelom pri rozlíšení snímania) tvoria približne 30 percent defektov v testovacej sade. Pre tieto trhliny je celková plocha skutočnosti veľmi malá (100-500 pixelov), takže akákoľvek nepresnosť má neprimerane veľký vplyv na IoU. IoU vlasových trhlín v priemere dosahuje 0,320-0,380, čo je výrazne menej ako 0,550-0,650 dosiahnuté na stredných a širokých trhlinách.

Konzistencia anotácií. Inter-anotačné IoU na tréningových a testovacích dátach je približne 0,72 (dvaja nezávislí expertní anotátori na rovnakých snímkach). Toto stanovuje praktickú hornú hranicu dosiahnuteľného IoU modelu — ani dokonalý model nemôže prekročiť konzistenciu svojej skutočnosti, čo vytvára šumový strop približne 0,72-0,78.

Praktická užitočnosť IoU skóre

Testovacie IoU 0,519 znamená, že na priemernej testovacej snímke je intersekcia medzi predikovanou maskou trhliny a maskou skutočnosti približne 51,9 percent ich únie. Z prevádzkového hľadiska:

Miera detekcie trhlín: Približne 75-85 percent pixelov trhlín je správne identifikovaných (miera skutočne pozitívnych), s variabilitou podľa šírky.
Miera falošne pozitívnych: Približne 0,1-0,5 percenta pixelov pozadia je nesprávne klasifikovaných ako trhlina, čo predstavuje 250-1 250 falošne pozitívnych pixelov trhlín na snímku 512×512.
Kontinuita trhlín: Model správne identifikuje prítomnosť trhliny v 90+ percentách snímok obsahujúcich merateľné trhliny (>1 mm šírka), s určitou fragmentáciou (jedna súvislá trhlina predikovaná ako viacero krátkych segmentov).
Klasifikácia závažnosti: Odhady šírky trhlín modelom korelujú s meraniami skutočnej šírky pri R²=0,62-0,74, čo je dostatočné pre hrubú klasifikáciu závažnosti (vlasová vs. stredná vs. závažná) podľa noriem ASTM D5340.

Faktory ovplyvňujúce IoU

Viaceré faktory ovplyvňujú IoU skóre dosiahnuteľné modelom segmentácie trhlín. Pochopenie týchto faktorov je nevyhnutné pre interpretáciu reportovaných hodnôt IoU, diagnostiku výkonnostných problémov a stanovenie realistických cieľov presnosti.

Tolerancia hrúbky masky

Anotácie segmentácie trhlín sa typicky vytvárajú nakreslením čiary alebo polygónu pozdĺž dráhy trhliny, potom sa priradí fixná šírka reprezentujúca plochu trhliny. Priradená šírka sa líši medzi anotačnými protokolmi — niektoré používajú čiary široké 3 pixely, iné 5 pixelov alebo dynamicky škálované šírky na základe skutočných rozmerov trhliny.

Predikovaná hrúbka masky modelu sa len zriedka presne zhoduje s hrúbkou skutočnosti. Ak anotačný protokol priradí šírku 3 pixely, ale model predikuje šírku 5 pixelov, každý pixel nad rámec 3-pixelovej anotačnej hranice sa stáva falošne pozitívnym. Pre 1 000 pixelov dlhú trhlinu produkuje dodatočné 2 pixely na každej strane približne 4 000 falošne pozitívnych pixelov — potenciálne znižujúcich IoU o 0,10-0,20.

Optimálnou stratégiou pre maximalizáciu IoU je trénovať so stratovou funkciou citlivou na hrúbku, ktorá penalizuje odchýlky hrúbky, alebo aplikovať následné morfologické operácie (eróziu alebo dilatáciu), ktoré upravujú predikovanú hrúbku masky tak, aby zodpovedala anotačnému štandardu. TarmacView aplikuje krok následného spracovania pomocou naučeného dilatačného faktora kalibrovaného na validačnej sade, čo zlepšuje testovacie IoU o 0,02-0,04.

Citlivosť okrajových pixelov

Okrajové pixely — hraničná vrstva medzi trhlinou a spevnenou plochou — sú dominantným zdrojom zníženia IoU v dobre fungujúcich modeloch. Pre masku trhliny s plochou A a obvodom P je počet okrajových pixelov približne P (dĺžka hranice v pixeloch). Ak je zarovnanie okraja modelu odchýlené v priemere o 1 pixel, výsledný FP+FN je zhruba 2P pixelov.

Pre typickú trhlinu na letiskovej spevnenej ploche s A=5 000 pixelov a P=800 pixelov:

Dokonalé zarovnanie okraja (0 odchýlka): FP+FN z okrajov = 800 pixelov (anotačná neistota hrúbky)
Odchýlka okraja o 1 pixel: FP+FN z okrajov = 1 600 pixelov
Odchýlka okraja o 2 pixely: FP+FN z okrajov = 2 400 pixelov

Vplyv na IoU je:

Nulová odchýlka: IoU = 5000/(5000+800) = 0,862 (anotačný strop)
Odchýlka 1 pixel: IoU = 5000/(5000+1600) = 0,758
Odchýlka 2 pixely: IoU = 5000/(5000+2400) = 0,676

Táto analýza odhaľuje, že zarovnanie okrajových pixelov je najdôležitejším faktorom oddeľujúcim IoU 0,50 od IoU 0,75 pre segmentáciu trhlín. Modely, ktoré dosahujú presné zarovnanie hraníc prostredníctvom máp prvkov s vysokým rozlíšením a následného spresnenia, konzistentne prekonávajú tie, ktoré zachytávajú polohu trhliny, ale nie jej hranice.

Výzva malých trhlín

Malé trhliny — tie s celkovým počtom pixelov pod približne 500 pixelov v evalvačnom obraze — predstavujú zásadnú výzvu pre vyhodnotenie založené na IoU. Pre 200-pixelovú vlasovú trhlinu pridáva nepresnosť len 5 pixelov na každej strane 10-20 pixelov FP+FN (5-10 percent plochy trhliny). Relatívna citlivosť IoU na absolútnu chybu pre malé objekty je dramaticky vyššia ako pre veľké objekty.

Pri použití rovnakej analýzy odchýlky okraja o 1 pixel pre malú trhlinu (A=200, P=80):

Nulová odchýlka: IoU = 200/(200+80) = 0,714 (anotačný strop)
Odchýlka 1 pixel: IoU = 200/(200+160) = 0,556
Odchýlka 2 pixely: IoU = 200/(200+240) = 0,455

Penalizácia IoU pre rovnakú odchýlku okraja o 1 pixel je 0,158 pre malú trhlinu (0,714 na 0,556) oproti 0,104 pre veľkú trhlinu (0,862 na 0,758). Táto citlivosť na mierku znamená, že agregovanie IoU naprieč trhlinami všetkých veľkostí bez reportovania stratifikovaného podľa veľkosti môže zakryť rozdiely vo výkone — model, ktorý funguje dobre na veľkých trhlinách, ale zle na malých, môže vykazovať prijateľné agregované IoU, pričom vynecháva najkritickejšie bezpečnostne relevantné vlasové trhliny.

Z tohto dôvodu TarmacView reportuje IoU stratifikované podľa kategórie šírky trhliny:

Vlasové trhliny (< 1 mm šírka): IoU = 0,32-0,38
Stredné trhliny (1-3 mm šírka): IoU = 0,48-0,55
Široké trhliny (> 3 mm šírka): IoU = 0,55-0,65

Kvalita anotácií

Kvalita a konzistencia anotácií skutočnosti stanovuje tvrdú hornú hranicu dosiahnuteľného IoU. Viaceré štúdie zdokumentovali medzianotátorskú zhodu pre segmentáciu trhlín na spevnených plochách:

Rovnaký anotátor, rovnaká snímka, iné sedenie: IoU = 0,78-0,88
Rôzni anotátori, rovnaká snímka, rovnaký protokol: IoU = 0,62-0,78
Rôzni anotátori, rovnaká snímka, iný protokol: IoU = 0,45-0,65

To znamená, že ani teoreticky dokonalý model nemôže prekročiť približne 0,78-0,88 IoU na typických datasetoch kontroly infraštruktúry, pretože samotná skutočnosť je nekonzistentná. Techniky aktívneho učenia a anotačného konsenzu môžu zlepšiť kvalitu anotácií tým, že viacerí anotátori označia každú snímku a na vyriešenie nezhôd sa použije väčšinové hlasovanie alebo expertné rozhodovanie.

Rozlíšenie obrazu a podmienky snímania

Rozlíšenie obrazu priamo ovplyvňuje IoU, pretože určuje počet pixelov dostupných na reprezentáciu trhliny. Trhlina, ktorá je široká 10 pixelov pri rozlíšení 20 MP, môže byť široká len 3 pixely pri rozlíšení 5 MP. Pri nižších rozlíšeniach sa absolútny pixelový rozpočet pre trhlinu zmenšuje, čo robí IoU citlivejším na nepresnosti.

Protokol kontroly letiskových spevnených plôch špecifikuje požiadavky na rozlíšenie snímania, aby sa zabezpečilo adekvátne rozlíšenie defektov. Usmernenie ICAO pre kontroly letiskových spevnených plôch odporúča minimálne vzdialenosti vzorkovania na zemi (GSD), ktoré zabezpečujú, že trhliny také úzke ako 0,5 mm možno rozlíšiť. Pri GSD 0,2 mm/pixel (typické pre UAV kontrolu vo výške 10 m) je 0,5 mm vlasová trhlina široká len 2,5 pixela — sotva na prahu spoľahlivej anotácie a segmentácie.

Svetelné podmienky tiež ovplyvňujú IoU výkon. Trhliny na mokrej spevnenej ploche majú vyšší kontrast, ale tiež produkujú zrkadlové odrazy, ktoré môžu spôsobiť falošne pozitívne výsledky. Trhliny v tieni majú nižší kontrast a môžu byť čiastočne neviditeľné. Modely trénované s rozšírením o tiene a mokrý povrch (ako implementuje pipeline TarmacView) vykazujú o 0,03-0,06 vyššie testovacie IoU na náročných svetelných podmienkach v porovnaní s modelmi trénovanými bez doménovo špecifického rozšírenia.

Reportovanie IoU

Správne reportovanie IoU metrík je nevyhnutné pre reprodukovateľnosť, porovnanie naprieč štúdiami a prevádzkové rozhodovanie. Nasledujúce usmernenia predstavujú najlepšiu prax pre reportovanie IoU vo výskume a nasadení kontroly infraštruktúry.

Základné komponenty reportovania

Reportujte IoU pre jednotlivé triedy, nielen mIoU. Pre segmentáciu trhlín explicitne uveďte IoU pre triedu trhlín spolu s priemerným IoU naprieč všetkými triedami. Vysoké mIoU môže skrývať zlý výkon na trhlinách, ak dominuje pozadie alebo iné triedy defektov.

Uveďte prah. Reportujte binarizačný prah použitý na konverziu pravdepodobnostných výstupov modelu na binárne masky. Štandardný prah je 0,5, ale optimalizácia následného spracovania môže používať iné prahy. Sweep prahov (reportovanie IoU pri prahoch od 0,3 do 0,7 v krokoch po 0,1) poskytuje úplnejší obraz o správaní modelu.

Reportujte intervaly spoľahlivosti. Hodnoty IoU odhadnuté z konečnej testovacej sady majú výberovú neistotu. Reportujte 95% interval spoľahlivosti pomocou bootstrappingu (opakované vzorkovanie testovacích snímok s nahradením 1 000-krát a výpočet IoU pre každú vzorku). Reportované IoU 0,519 s 95% CI [0,497, 0,541] je informatívnejšie ako bodový odhad.

Zahrňte metriky kvality anotácií. Reportujte medzianotátorskú zhodu (IoU medzi nezávislými anotátormi na podmnožine snímok) na stanovenie evalvačného šumového stropu. To kontextualizuje IoU modelu — 0,519 vyzerá inak, keď je anotačný strop 0,72 oproti 0,92.

Uveďte rozlíšenie obrazu a predspracovanie. Reportujte vstupné rozlíšenie, či sa snímky zmenšujú pred inferenciou a aká normalizácia sa aplikuje. Hodnoty IoU pri vstupnom rozlíšení 512×512 nie sú priamo porovnateľné s IoU pri 1024×1024.

Formát reportovania

Odporúčaná reportovacia tabuľka pre IoU segmentácie trhlín zahŕňa:

Metrika	Hodnota	95% CI	Poznámky
IoU trhlín (prah 0,5)	0,519	[0,497, 0,541]	Primárna metrika
IoU pozadia	0,992	[0,990, 0,994]	Očakáva sa takmer dokonalé
mIoU (všetky triedy)	0,755	[0,744, 0,767]	Zahŕňa triedu pozadia
mIoU (iba triedy defektov)	0,519	[0,497, 0,541]	Vylučuje pozadie
Inter-anotačné IoU	0,723	[0,701, 0,745]	Evalvačný strop

Doplnkové metriky

IoU by sa nemalo reportovať izolovane. Doplnkové metriky poskytujú úplnejšie hodnotenie presnosti:

Presnosť (Precision) (TP / (TP + FP)): Meria, koľko z predikovaných pixelov trhlín je skutočne trhlín. Nízka presnosť indikuje nadmerné predikovanie (falošné poplachy).
Úplnosť (Recall) (TP / (TP + FN)): Meria, koľko pixelov trhlín skutočnosti bolo detegovaných. Nízka úplnosť indikuje vynechané trhliny.
F1-Skóre (harmonický priemer presnosti a úplnosti): Ekvivalentné Dice koeficientu. Poskytuje vyvážené jednohodnotové meranie.
Presnosť pixelov: Podiel všetkých správne klasifikovaných pixelov (TP + TN / celkom). Neodporúča sa ako primárna metrika kvôli skresleniu triedovou nevyváženosťou.
Boundary F1: Variant, ktorý vyhodnocuje presnosť okrajových pixelov špecificky, relevantný pre aplikácie merania šírky trhlín.

Často kladené otázky

: Intersekcia nad Uniou (IoU), tiež označovaná ako Jaccardov index, je metrika, ktorá kvantifikuje prekrytie medzi dvomi oblasťami — typicky predikovanou segmentačnou maskou a maskou skutočnosti. Vypočítava sa ako IoU = |A ∩ B| / |A ∪ B|, kde A je predikovaná oblasť a B je skutočnosť. Čitateľ |A ∩ B| predstavuje plochu (alebo počet pixelov), kde sa obe masky zhodujú. Menovateľ |A ∪ B| predstavuje celkovú plochu pokrytú ktoroukoľvek maskou. V termínoch skutočne pozitívnych (TP), falošne pozitívnych (FP) a falošne negatívnych (FN) možno IoU vyjadriť ako IoU = TP / (TP + FP + FN). Výsledkom je hodnota medzi 0 (žiadne prekrytie) a 1 (dokonalé prekrytie).
: Pre segmentáciu trhlín na letiskových spevnených plochách a povrchoch infraštruktúry sa IoU skóre nad 0,5 všeobecne považuje za prijateľné, zatiaľ čo skóre nad 0,7 indikuje vynikajúcu kvalitu segmentácie. Segmentačná hlava TarmacView založená na DINOv3 dosahuje testovacie IoU 0,519, čo predstavuje silný výkon vzhľadom na inherentnú obtiažnosť segmentácie trhlín — trhliny zaberajú veľmi malú časť celkovej plochy obrazu (často menej ako 1-2 percentá), čo robí metriku obzvlášť náročnou. V medicínskom zobrazovaní sú typické hodnoty IoU 0,6-0,8 pre segmentáciu orgánov, kde sú objekty veľké. Pre detekciu trhlín na cestách a vzletových dráhach je porovnanie komplikované extrémnou triedovou nevyváženosťou medzi pixelmi trhlín a pixelmi pozadia.
: Dice koeficient (tiež nazývaný Dice Similarity Coefficient alebo DSC a ekvivalentný F1-skóre) je úzko príbuzný s IoU, ale dáva väčšiu váhu prekrývajúcej sa oblasti. Dice sa vypočítava ako DSC = 2|A ∩ B| / (|A| + |B|), alebo ekvivalentne DSC = 2TP / (2TP + FP + FN). Kľúčový rozdiel je v tom, že Dice váži skutočne pozitívne dvakrát v čitateli aj menovateli, čo vo všeobecnosti vedie k vyšším hodnotám ako IoU pre rovnakú kvalitu segmentácie. Matematický vzťah je DSC = 2×IoU / (1+IoU) a opačne IoU = DSC / (2-DSC). Pre nedokonalé segmentácie je Dice vždy väčší alebo rovný IoU. Dokonalá segmentácia dáva obe metriky rovné 1.
: Najbežnejšia prahová hodnota IoU je 0,5 (AP50), čo je štandard Pascal VOC — detekcia alebo segmentácia sa považuje za správnu, ak prekrýva aspoň 50 percent so skutočnosťou. COCO benchmark používa prísnejšiu evalváciu, spriemerovaním AP cez IoU prahové hodnoty od 0,5 do 0,95 v krokoch po 0,05, označované ako AP@[0.5:0.95]. IoU prahová hodnota 0,75 (AP75) sa používa na vyhodnotenie modelov vyžadujúcich presnejšiu lokalizáciu. Pre kontrolu letiskových spevnených plôch, kde aj malé vynechané segmenty trhlín môžu viesť k štrukturálnym poruchám, odborníci často vyhodnocujú na viacerých prahových hodnotách, aby pochopili správanie modelu naprieč požiadavkami na presnosť.
: Mean IoU (mIoU) je aritmetický priemer IoU skóre vypočítaných samostatne pre každú triedu v multi-triednom segmentačnom probléme. Napríklad v trojtriednom segmentačnom probléme s triedami 'trhlina', 'tmel' a 'nepoškodená spevnená plocha' je mIoU = (IoU_trhlina + IoU_tmel + IoU_plocha) / 3. mIoU zaobchádza s každou triedou rovnako bez ohľadu na to, koľko pixelov zaberá, čo z nej robí férovú metriku pre nevyvážené datasety, kde pixely trhlín môžu tvoriť menej ako 1 percento celku. Vysoké mIoU vyžaduje, aby model fungoval dobre na všetkých triedach súčasne, nielen na väčšinovej triede.
: Segmentácia trhlín predstavuje jedinečné výzvy pre optimalizáciu IoU. Trhliny zaberajú veľmi malú časť celkovej plochy obrazu — typicky 0,5-2 percentá. Táto extrémna triedová nevyváženosť znamená, že aj malé chyby v klasifikácii pixelov na okrajoch trhlín výrazne ovplyvňujú metriku. Model, ktorý správne predikuje 90 percent pixelov trhlín, ale nadhodnocuje šírku trhliny o 2-3 pixely, bude mať výrazne znížené IoU, pretože falošne pozitívne pixely na okrajoch trhlín pridávajú do únie bez proporcionálneho zvýšenia intersekcie. Navyše trhliny majú vysoký pomer strán (sú dlhé a úzke), takže okrajové pixely tvoria oveľa väčšiu časť celkovej plochy trhliny v porovnaní s kompaktnými objektmi.
: TarmacView používa IoU ako primárnu evalvačnú metriku pre svoju segmentačnú hlavu založenú na DINOv3. Model dosahuje testovacie IoU 0,519 na datasetoch letiskových spevnených plôch, pričom výkon je validovaný naprieč rôznymi svetelnými podmienkami, textúrami spevnených plôch a typmi trhlín (pozdĺžne, priečne, sieťové a odrazové trhliny). IoU sa reportuje na testovacej sade po dokončení tréningu, pričom sa používajú vyhradené snímky, ktoré model nevidel počas tréningu ani validácie. Metrika usmerňuje architektonické rozhodnutia, ako je návrh maskovacej hlavy, váhovanie stratovej funkcie a parametre následného spracovania. TarmacView dopĺňa reportovanie IoU o presnosť (precision), úplnosť (recall) a F1-skóre, aby poskytol komplexný pohľad na kvalitu segmentácie.
: IoU skóre ovplyvňuje niekoľko faktorov. Tolerancia hrúbky masky — IoU rovnako penalizuje nadmerné predikovanie (predikovanie príliš veľa pixelov trhlín) aj podpredikovanie, takže hrúbka masky priamo ovplyvňuje skóre. Presnosť okrajových pixelov — hraničné pixely, kde sa predikcia presne nezhoduje so skutočnosťou, prispievajú k falošne pozitívnym aj falošne negatívnym výsledkom. Malé trhliny — jemné vlasové trhliny so šírkou pod 0,3 mm majú veľmi málo pixelov, takže malé nepresnosti spôsobujú neprimerane veľké poklesy IoU. Kvalita anotácií — nekonzistentné anotácie skutočnosti (rôzni ľudskí anotátori označujúci rovnakú trhlinu s mierne odlišnými šírkami) vnášajú šum, ktorý obmedzuje dosiahnuteľné IoU. Rozlíšenie obrazu — vyššie rozlíšenie zachytáva viac detailov trhlín, ale tiež zväčšuje nezrovnalosti na úrovni pixelov.
: Dice koeficient konzistentne dáva vyššie hodnoty ako IoU pre akúkoľvek nedokonalú segmentáciu, pretože dvojnásobne započítava skutočne pozitívnu oblasť. Matematicky DSC = 2TP / (2TP + FP + FN), zatiaľ čo IoU = TP / (TP + FP + FN). Dodatočný faktor 2 v čitateli a menovateli DSC znamená, že skutočne pozitívne sú vážené silnejšie vzhľadom na falošne pozitívne a falošne negatívne. Napríklad segmentácia s TP=80, FP=20, FN=20 dáva IoU = 80/120 = 0,667 a DSC = 160/200 = 0,800. Relatívny rozdiel je najväčší pri nízkych úrovniach prekrytia a konverguje, keď sa kvalita segmentácie blíži k dokonalosti. Táto vlastnosť robí Dice opticky optimistickejším, čo je niekedy preferované v medicínskom zobrazovaní, kde prioritou je maximalizácia detekovaného prekrytia a nie presná hraničná presnosť.
: Najlepšia prax pre reportovanie IoU pri kontrole infraštruktúry zahŕňa: (1) reportovanie IoU pre jednotlivé triedy aj priemerného IoU (mIoU) naprieč všetkými triedami; (2) uvedenie prahu masky použitého na binarizáciu výstupov modelu pred výpočtom IoU; (3) zahrnutie smerodajnej odchýlky alebo 95% intervalu spoľahlivosti naprieč testovacou sadou; (4) reportovanie IoU spolu s doplnkovými metrikami — presnosť, úplnosť, F1-skóre a Dice koeficient — pre úplný obraz o presnosti; (5) uvedenie rozlíšenia obrazu a anotačného protokolu na kontextualizáciu dosiahnuteľného stropu IoU; (6) pre metriky špecifické pre trhliny reportovanie Crack-IoU (IoU vypočítané len na pixeloch triedy trhlín) oddelene od IoU pozadia.

Presná segmentácia trhlín pomocou AI

TarmacView používa Intersekciu nad Uniou ako primárnu metriku na validáciu presnosti segmentácie trhlín. Naša segmentačná hlava založená na DINOv3 dosahuje popredné IoU skóre na dátach z kontroly letiskových spevnených plôch. Kontaktujte nás a zistite, ako môže presná AI detekcia trhlín transformovať váš pracovný postup kontroly infraštruktúry.

Kontaktujte nás Dohodnúť demo

Zistiť viac

Sémantická segmentácia pre porozumenie infraštruktúrnych scén

Sémantická segmentácia priraďuje každomu pixelu v obraze kategóriovú značku, čo umožňuje porozumenie celej scéne pre infraštruktúrnu inšpekciu. Zahŕňa architekt...

Jun 17, 2026 35 min čítania

Technology Computer Vision +3

Percentuálny podiel trhlín na vozovke a hodnotenie konštrukcie

Percentuálny podiel plochy trhlín (crack_area_pct) je pomer plochy masky trhlín k celkovej analyzovanej ploche obrazu, vyjadrený v percentách. Je to kľúčová kva...

Jun 17, 2026 27 min čítania

measurement pavement +3

+++ title = “Matica zámen” description = “Matica zámen tabuľkovo porovnáva predpovede modelu so skutočnými hodnotami: riadky predstavujú skuto...

32 min čítania