Sémantická segmentácia pre porozumenie infraštruktúrnych scén
Sémantická segmentácia priraďuje každomu pixelu v obraze kategóriovú značku, čo umožňuje porozumenie celej scéne pre infraštruktúrnu inšpekciu. Zahŕňa architekt...
Intersekcia nad Uniou (IoU), tiež nazývaný Jaccardov index, meria prekrytie medzi predikovanou segmentačnou maskou a maskou skutočnosti (ground truth): IoU = |A∩B| / |A∪B|. Je to primárna metrika presnosti segmentácie trhlín, pričom IoU > 0,5 sa považuje za dobrú. Segmentačná hlava DINOv3 od TarmacView dosahuje testovacie IoU 0,519. Zahŕňa výpočet IoU, interpretáciu, vzťah k Dice koeficientu a prijateľné prahové hodnoty.
Intersekcia nad Uniou (IoU), tiež známa ako Jaccardov index alebo Jaccardov koeficient podobnosti, je štatistická miera, ktorá kvantifikuje prekrytie medzi dvomi sadami údajov. V počítačovom videní a segmentácii obrazu meria IoU presnosť predikovanej segmentačnej masky voči maske skutočnosti. Je to najrozšírenejšia evalvačná metrika pre sémantickú segmentáciu, segmentáciu inštancií a úlohy detekcie objektov naprieč akademickými benchmarkmi aj priemyselnými aplikáciami.
Vzorec pre IoU je matematicky priamočiary:
IoU = |A ∩ B| / |A ∪ B|
Kde A predstavuje predikovanú segmentačnú masku (množinu pixelov, ktoré model klasifikuje ako patriace do triedy objektu) a B predstavuje masku skutočnosti (množinu pixelov, ktoré ľudskí anotátori identifikovali ako patriace do triedy objektu). Čitateľ, |A ∩ B|, je intersekcia — plocha (alebo počet pixelov), kde sa predikcia a skutočnosť zhodujú. Menovateľ, |A ∪ B|, je únia — celková plocha pokrytá buď predikciou, alebo skutočnosťou, alebo obomi.
{
Rozšírenie vzorca v termínoch prvkov matice zmätkov — skutočne pozitívne (TP), falošne pozitívne (FP) a falošne negatívne (FN) — poskytuje praktickejšiu formuláciu pre výpočet:
IoU = TP / (TP + FP + FN)
Tu TP (true positives) sú pixely správne klasifikované ako patriace do triedy objektu (plocha intersekcie). FP (false positives) sú pixely nesprávne predikované ako objekt, keď v skutočnosti patria pozadiu (plocha predikcie mimo skutočnosti). FN (false negatives) sú pixely nesprávne predikované ako pozadie, keď v skutočnosti patria objektu (plocha skutočnosti mimo predikcie). Táto formulácia explicitne ukazuje, že IoU rovnako penalizuje nadmerné predikovanie aj podpredikovanie — každý falošne pozitívny a každý falošne negatívny pixel znižuje metriku o rovnakú mieru, normalizovanú celkovou relevantnou plochou.
Hodnota IoU vždy spadá do uzavretého intervalu [0, 1]. IoU 0 znamená, že predikovaná maska a maska skutočnosti majú nulové prekrytie — sú úplne disjunktné. IoU 1 znamená dokonalé prekrytie — predikovaná maska sa presne zhoduje s maskou skutočnosti pixel po pixeli. Stredné hodnoty predstavujú čiastočnú kvalitu prekrytia. Napríklad IoU 0,5 znamená, že plocha intersekcie je polovičná oproti ploche únie, čo je štandardná minimálna prahová hodnota pre považovanie detekcie alebo segmentácie za správnu v benchmarku Pascal VOC.
IoU je mierovo invariantná v tom zmysle, že meria relatívne prekrytie, nie absolútne počty pixelov. 100-pixelový objekt aj 10 000-pixelový objekt majú IoU 1,0, keď sú dokonale segmentované. Táto mierová invariancia má však praktické obmedzenie: pri rovnakej absolútnej chybe pixelov (napr. 5 nesprávne klasifikovaných hraničných pixelov) malý objekt zaznamená oveľa väčší relatívny pokles IoU ako veľký objekt, čo robí IoU implicitne prísnejším pre jemné detaily a malé štruktúry.
Metrika pochádza z Jaccardovho indexu (tiež nazývaného Intersekcia nad Uniou), ktorý zaviedol Paul Jaccard v roku 1901 ako koeficient komunity na porovnávanie distribúcií druhov v alpínskej flóre. Jeho aplikácia v počítačovom videní bola formalizovaná v Pascal Visual Object Classes (VOC) Challenge (2007-2012), ktorá ustanovila IoU ako štandardnú evalvačnú metriku pre detekciu objektov a segmentáciu. Dataset Common Objects in Context (COCO) a benchmark, vydaný spoločnosťou Microsoft v roku 2014, ďalej upevnili IoU ako de facto štandard zavedením mAP@[0.5:0.95], priemeru strednej priemernej presnosti vypočítanej naprieč desiatimi diskrétnymi prahovými hodnotami IoU od 0,5 do 0,95.
Vizuálna interpretácia IoU je nevyhnutná na rozvoj intuitívneho pochopenia toho, čo rôzne IoU skóre v skutočnosti predstavujú z hľadiska kvality segmentácie. Metrika mapuje komplexný priestorový vzťah medzi dvomi maskami do jedinej skalárnej hodnoty a internalizácia toho, ako rôzne vzory priestorových chýb ovplyvňujú túto hodnotu, je kritická pre vývoj modelu aj komunikáciu výsledkov.
IoU 1,0 predstavuje dokonalú zhodu pixel po pixeli. V kontexte segmentácie trhlín na letiskových spevnených plochách dokonalé IoU znamená, že každý pixel, ktorý model klasifikoval ako “trhlina”, sa presne zhoduje s každým pixelom, ktorý vyškolený inšpektor označil ako “trhlina”, a žiadne pixely neboli vynechané ani nadmerne predikované. V praxi je dokonalé IoU v podstate nedosiahnuteľné pre reálnu kontrolu infraštruktúry kvôli anotačnej nejednoznačnosti — rôzni ľudskí anotátori označujúci rovnakú trhlinu na rovnakej snímke zvyčajne dosahujú inter-anotačné IoU len 0,65-0,85 v závislosti od šírky a kontrastu trhliny. Tento anotačný šumový strop predstavuje maximálne dosiahnuteľné IoU pre akýkoľvek model na danom datasete.
IoU 0,75-0,90 indikuje vynikajúcu kvalitu segmentácie. Na tejto úrovni predikovaná maska tesne sleduje hranicu skutočnosti s len malými odchýlkami 1-3 pixelov na okrajoch. Pre segmentáciu trhlín to zodpovedá správnej detekcii celej dráhy trhliny s miernymi rozdielmi v predikovanej hrúbke trhliny v porovnaní s anotáciou skutočnosti. Na COCO benchmarku sa AP75 (Average Precision pri IoU prahu 0,75) považuje za silný indikátor presnej lokalizačnej schopnosti.
IoU 0,50-0,75 indikuje dobrú kvalitu segmentácie. Model správne identifikuje polohu a všeobecný tvar objektu, ale presnosť hraníc je mierna. Pre detekciu trhlín na spevnených plochách IoU v tomto rozsahu znamená, že model spoľahlivo nachádza trhlinu (vysoká miera skutočne pozitívnych), ale môže predikovať trhlinu ako o niečo hrubšiu alebo tenšiu ako je skutočnosť, alebo môže mať menšiu fragmentáciu, kde je súvislá trhlina predikovaná ako krátke nesúvislé segmenty. Toto je typický prevádzkový rozsah pre produkčné systémy segmentácie trhlín pracujúce na reálnych snímkach letiskových spevnených plôch, kde model TarmacView založený na DINOv3 dosahuje testovacie IoU 0,519.
{
IoU 0,30-0,50 indikuje marginálnu kvalitu segmentácie. Model deteguje prítomnosť objektu, ale s významnými lokalizačnými chybami. Predikovaná maska môže byť posunutá, nesprávne tvarovaná alebo podstatne odlišnej veľkosti od skutočnosti. Pri detekcii trhlín na spevnených plochách by to mohlo znamenať, že model identifikuje všeobecné oblasti postihnuté trhlinami, ale nedokáže presne sledovať geometriu trhliny, pričom predikuje škvrny namiesto líniových prvkov. IoU pod 0,5 sa všeobecne nepovažuje za úspešnú detekciu alebo segmentáciu podľa štandardu Pascal VOC.
IoU 0-0,30 indikuje zlú segmentáciu. Model buď úplne zlyhá pri detekcii objektu (predikovaná maska je prázdna, čo dáva IoU=0), alebo produkuje masku, ktorá sa prekrýva so skutočnosťou len náhodne na okrajoch oveľa väčšej nesprávne predikovanej oblasti. V kontexte kontroly infraštruktúry by modely pracujúce na tejto úrovni IoU vynechali kritické defekty alebo produkovali toľko falošne pozitívnych výsledkov, že výstup nie je prevádzkovo užitočný.
Kľúčový poznatok pre vizuálnu interpretáciu je, že IoU je nelineárne z hľadiska vnímanej kvality. Rozdiel medzi IoU=0,90 a IoU=0,95 predstavuje oveľa menšie skutočné zlepšenie presnosti pixelov ako rozdiel medzi IoU=0,50 a IoU=0,55. Je to preto, že pri vysokých úrovniach IoU je únia už veľmi blízka intersekcii, takže ďalšie zlepšenia vyžadujú čoraz presnejšie zarovnanie hraníc. Naopak, pri nízkom až strednom IoU sú potrebné relatívne veľké zlepšenia kvality segmentácie na posun metriky o niekoľko percentuálnych bodov.
Výpočet IoU pre segmentačné masky vyžaduje systematický prístup, ktorý zohľadňuje špecifiká reprezentácie masiek, súradnicových systémov a okrajových prípadov.
Pre predikcie založené na ohraničujúcich obdĺžnikoch (používané pri detekcii objektov alebo ako návrhy oblastí) sa IoU vypočítava pomocou súradníc osovo zarovnaného obdĺžnika. Každý obdĺžnik je definovaný svojím ľavým horným rohom (x₁, y₁) a pravým dolným rohom (x₂, y₂). Intersekčný obdĺžnik sa vypočíta ako:
x_left = max(pred_x₁, gt_x₁)
y_top = max(pred_y₁, gt_y₁)
x_right = min(pred_x₂, gt_x₂)
y_bottom = min(pred_y₂, gt_y₂)
Plocha intersekcie je:
intersekcia = max(0, x_right - x_left) × max(0, y_bottom - y_top)
Operácia max(0, …) je kritická — ak sa obdĺžniky neprekrývajú v žiadnom rozmere, záporná hodnota sa nastaví na nulu, čo správne dáva nulovú plochu intersekcie. Plocha každého ohraničujúceho obdĺžnika je:
plocha_pred = (pred_x₂ - pred_x₁) × (pred_y₂ - pred_y₁)
plocha_gt = (gt_x₂ - gt_x₁) × (gt_y₂ - gt_y₁)
Únia je potom:
unia = plocha_pred + plocha_gt - intersekcia
A nakoniec:
IoU = intersekcia / unia
Pre segmentačné masky na úrovni pixelov sa IoU vypočítava tak, že každá maska sa považuje za binárny obraz, kde hodnota pixelu 1 označuje triedu objektu a hodnota 0 označuje pozadie. Výpočet prebieha pomocou elementárnych logických operácií:
intersekcia = sum(pred_mask AND gt_mask) // logické AND po prvkoch
unia = sum(pred_mask OR gt_mask) // logické OR po prvkoch
IoU = intersekcia / unia
V praxi implementácie používajúce NumPy alebo PyTorch vektorizujú toto ako:
import torch
def compute_iou(pred_mask: torch.Tensor, gt_mask: torch.Tensor) -> float:
"""
pred_mask a gt_mask sú binárne tenzory tvaru (H, W)
s hodnotami 0 (pozadie) alebo 1 (objekt)
"""
intersection = (pred_mask & gt_mask).sum().item()
union = (pred_mask | gt_mask).sum().item()
if union == 0:
return float('nan') # obe masky prázdne
return intersection / union
Okrajový prípad union == 0 nastáva, keď sú predikcia aj skutočnosť prázdne — ani jedna maska neobsahuje žiadne pixely objektu. V tomto degenerovanom prípade metrika vracia NaN a rôzne benchmarky s tým zaobchádzajú odlišne. COCO evalvačný protokol takéto prípady vylučuje z priemeru. Implementácia PyTorch Lightning MeanIoU vracia -1,0 pre triedy, ktoré sú úplne neprítomné v predikcii aj skutočnosti.
Pre multi-triednu segmentáciu (napr. model, ktorý súčasne predikuje triedy trhlina, tmel, spevnená plocha a škára) sa IoU vypočítava pre každú triedu a potom sa spriemeruje. Pre každú triedu c sa vytvorí binárna maska, kde pixel (i,j) je 1, ak predikovaná alebo skutočná trieda rovná c, a 0 inak. IoU pre triedu je:
IoU_c = TP_c / (TP_c + FP_c + FN_c)
Pre segmentačný problém s C triedami je Mean IoU (mIoU):
mIoU = (1/C) × Σℂ=1…C IoU_c
Dôležitým zreteľom je, či zahrnúť triedu pozadia (pixely nepatriace žiadnemu objektu) do výpočtu mIoU. Zahrnutie pozadia typicky nafukuje mIoU, pretože pozadie dominuje počtu pixelov a segmentačné modely na ňom zvyčajne fungujú dobre. Vylúčenie pozadia poskytuje čestnejšie hodnotenie kvality segmentácie objektov. Parameter include_background v implementácii MeanIoU od TorchMetrics riadi toto správanie.
Alternatívou k mIoU je Frequency Weighted IoU (FWIoU), ktorá váži IoU každej triedy jej frekvenciou v skutočnosti:
FWIoU = (1/Σℂ n_c) × Σℂ n_c × IoU_c
kde n_c je počet pixelov skutočnosti patriacich triede c. FWIoU dáva väčšiu váhu väčším triedam a menšiu zriedkavým triedam. Pre segmentáciu trhlín na spevnených plochách, kde pixely trhlín tvoria menej ako 1 percento celku, by FWIoU zakrylo výkon na trhlinách za výkonom na spevnenej ploche. mIoU (nevážený priemer) je výrazne preferované pre kontrolu infraštruktúry, pretože zaobchádza so zriedkavými, ale kritickými triedami defektov rovnako ako s väčšinovými triedami.
Keď sa IoU používa ako tréningová stratová funkcia (diferencovateľné varianty IoU), numerická presnosť sa stáva dôležitou. Štandardné IoU nie je diferencovateľné, pretože binárne logické operácie (AND, OR, SUM) majú nulové gradienty všade okrem prahu, kde je gradient nedefinovaný. Diferencovateľné náhrady — soft IoU alebo IoU loss — používajú spojité aproximácie:
soft_IoU = Σ(p_i × g_i) / Σ(p_i + g_i - p_i × g_i)
kde p_i ∈ [0,1] je softmax pravdepodobnosť pre pixel i a g_i ∈ {0,1} je označenie skutočnosti. Súčin p_i × g_i je spojité uvoľnenie logického AND a súčet p_i + g_i - p_i × g_i je spojité uvoľnenie logického OR.
Pre vyhodnotenie (nediferencovateľné) sa používajú binarizované masky s prahom (typicky 0,5 na softmax pravdepodobnosti). Binárna krížová entropia zostáva štandardným tréningovým cieľom pre väčšinu modelov segmentácie trhlín, pričom IoU slúži ako evalvačná metrika vypočítaná dodatočne.
Dice Similarity Coefficient (DSC), tiež nazývaný Sørensen-Dice index a ekvivalentný F1-skóre pre binárnu segmentáciu, je najbežnejšou alternatívou k IoU pre vyhodnotenie segmentácie. Pochopenie vzťahu medzi týmito dvomi metrikami je nevyhnutné pre správnu interpretáciu presnosti segmentácie.
Dice koeficient je definovaný ako:
DSC = 2|A ∩ B| / (|A| + |B|)
V termínoch prvkov matice zmätkov:
DSC = 2TP / (2TP + FP + FN)
Matematický vzťah medzi DSC a IoU je bijektívny a monotónny:
DSC = 2 × IoU / (1 + IoU)
IoU = DSC / (2 - DSC)
To znamená, že pre akúkoľvek danú segmentáciu možno DSC vypočítať priamo z IoU a naopak. Konverzia je presná a deterministická — pri konverzii medzi týmito dvomi metrikami nedochádza k strate informácie.
Napriek presnému matematickému vzťahu sa DSC a IoU systematicky líšia vo svojich numerických hodnotách a interpretácii. Kľúčové vlastnosti sú:
DSC ≥ IoU pre všetky nedokonalé segmentácie. Nerovnosť je prísna okrem DSC = IoU = 1 (dokonalé) a DSC = IoU = 0 (žiadne prekrytie). Je to preto, že menovateľ v DSC pridáva TP dvakrát (2TP + FP + FN), zatiaľ čo IoU pridáva TP len raz (TP + FP + FN), čo robí menovateľ DSC menším vzhľadom na jeho čitateľ. Napríklad segmentácia s TP=80, FP=20, FN=20 dáva:
DSC je “optimistickejší.” Pre rovnakú kvalitu segmentácie DSC reportuje vyššiu numerickú hodnotu ako IoU. Relatívny rozdiel je najväčší pri stredných úrovniach prekrytia a konverguje na oboch extrémoch. Segmentácia s IoU=0,5 zodpovedá DSC=0,667. Segmentácia s IoU=0,75 zodpovedá DSC=0,857.
IoU je prísnejšie na falošne pozitívne a falošne negatívne. Pretože menovateľ IoU zahŕňa TP len raz, zatiaľ čo DSC dvojnásobne započítava TP, IoU penalizuje každý FP a FN ťažšie vzhľadom na správne prekrytie. To robí IoU citlivejším na chyby nadmernej a nedostatočnej segmentácie.
DSC zdôrazňuje maximalizáciu prekrytia. Dodatočná váha na TP znamená, že DSC odmeňuje maximalizáciu plochy intersekcie aj na úkor mierneho zvýšenia únie. To robí DSC preferovaným, keď je primárnym cieľom zabezpečiť, aby predikovaná oblasť pokrývala čo najviac zo skutočnosti, aj za cenu určitého nadmerného predikovania.
Výber medzi IoU a DSC závisí od požiadaviek aplikácie:
| Kritérium | Preferovať IoU | Preferovať DSC |
|---|---|---|
| Penalizácia nadmernej/nedostatočnej segmentácie | ✓ Prísnejšie | — Zhovievavejšie |
| Segmentácia malých objektov | — Citlivejšie na chyby | ✓ Miernejšia penalizácia |
| Hodnotenie presnosti hraníc | ✓ Lepšie odráža chyby | — Maskuje problémy s hranicami |
| Porovnanie so štandardnými benchmarkmi | ✓ Pascal VOC, COCO štandard | — Medicínske zobrazovanie štandard |
| Tréningová stratová funkcia | — Nie je diferencovateľné | ✓ Diferencovateľná náhrada |
| Komunikácia s netechnickými zainteresovanými | — Môže pôsobiť prísne | ✓ Intuitívnejšie hodnoty |
Pre kontrolu infraštruktúry a segmentáciu trhlín je IoU preferovanou primárnou metrikou, pretože poskytuje prísnejšie, čestnejšie hodnotenie kvality segmentácie. Model, ktorý nadmerne predikuje šírku trhliny (produkuje FP pixely trhlín na okrajoch), bude mať svoje IoU penalizované viac ako jeho DSC, a táto prísnejšia penalizácia správne odráža prevádzkovú požiadavku, že detekcia trhlín musí byť priestorovo presná — nadmerné predikovanie plochy trhlín vedie k zbytočným nákladom na údržbu, zatiaľ čo podpredikovanie vedie k vynechaným defektom.
TarmacView reportuje IoU ako primárnu metriku presnosti segmentácie trhlín, pričom model založený na DINOv3 dosahuje testovacie IoU 0,519 na vyhradených snímkach letiskových spevnených plôch. Toto je doplnené reportovaním presnosti, úplnosti a Dice koeficientu pre komplexný evalvačný obraz.
IoU prahové hodnoty definujú minimálne prekrytie potrebné na to, aby sa predikcia považovala za skutočne pozitívnu (správna detekcia). Voľba prahu má hlboké dôsledky pre reportovaný výkon modelu a určuje, či je segmentačný systém hodnotený ako zhovievavý alebo prísny.
Pascal VOC challenge ustanovil IoU ≥ 0,5 ako prah pre považovanie detekcie alebo segmentácie za správnu. Tento prah, označovaný ako AP50 (Average Precision pri IoU=0,5), sa stal predvoleným v počítačovom videní na viac ako desaťročie. Zdôvodnenie bolo pragmatické: predikovaná oblasť, ktorá sa prekrýva s viac ako polovicou skutočnosti, jednoznačne deteguje správny objekt, aj keď sú jej hranice nedokonalé.
Pre segmentáciu trhlín na spevnených plochách prahová hodnota IoU 0,5 znamená, že predikovaná maska trhliny sa musí prekrývať aspoň s 50 percentami plochy skutočnej trhliny, aby sa počítala ako správna detekcia. Vzhľadom na to, že trhliny sú tenké, pretiahnuté štruktúry, tento prah vyžaduje, aby model zachytil celú dráhu trhliny s primeranou presnosťou hrúbky. Je to štandardný prah používaný v akademických publikáciách o detekcii trhlín na spevnených plochách a v internom evalvačnom pipeline TarmacView.
COCO benchmark zaviedol rigoróznejší evalvačný protokol, spriemerovaním Average Precision cez desať prahových hodnôt IoU od 0,5 do 0,95 v krokoch po 0,05, označovaný ako AP@[0.5:0.95] alebo jednoducho mAP. Tento multi-prahový prístup poskytuje komplexnejšie hodnotenie lokalizačnej kvality, než aký môže poskytnúť akýkoľvek jednotlivý prah.
Pre kontrolu infraštruktúry je COCO-štýlová evalvácia obzvlášť informatívna, pretože odhaľuje, ako model funguje naprieč požiadavkami na presnosť. Model s vysokým AP50, ale nízkym AP75 môže spoľahlivo detegovať trhliny, ale predikovať ich so zlou presnosťou hraníc — systematicky nadhodnocovať alebo podhodnocovať šírku trhliny. Model so silným AP75 demonštruje presné zarovnanie hraníc, čo je kritické pre aplikácie vyžadujúce presné meranie šírky trhlín (kľúčový vstup pre výpočet indexu stavu spevnenej plochy - PCI podľa ASTM D5340 a FAA AC 150/5380-6C).
Metrika AP75 (Average Precision pri IoU=0,75) vyhodnocuje schopnosť modelu produkovať predikcie s tesným zarovnaním hraníc. Pre segmentáciu trhlín AP75 vyžaduje, aby sa predikovaná maska trhliny prekrývala so skutočnosťou aspoň na 75 percent — čo vyžaduje, aby model zachytil dráhu trhliny aj jej hrúbku s vysokou presnosťou.
AP75 je relevantný prah pre aplikácie vyžadujúce kvantifikáciu šírky trhliny a nie len detekciu prítomnosti trhliny. Hodnotenie stavu letiskových spevnených plôch podľa štandardov ICAO a FAA Advisory Circulars často vyžaduje klasifikáciu šírky trhlín (vlasové < 3 mm, stredné 3-6 mm, závažné > 6 mm) a presné meranie šírky vyžaduje presnú hraničnú segmentáciu. Model degradovaný v AP75 môže správne lokalizovať trhliny, ale nad- alebo podhodnocovať ich závažnosť.
| Prah IoU | Štandard | Interpretácia pre segmentáciu trhlín |
|---|---|---|
| 0,30 | Minimálne užitočné prekrytie | Marginálna detekcia; poloha trhliny približne správna, ale tvar/hrúbka nepresné |
| 0,50 | Pascal VOC (AP50) | Štandardná detekcia; dráha trhliny a približná hrúbka správne |
| 0,75 | COCO prísny (AP75) | Presná segmentácia; hranice trhliny sa tesne zhodujú so skutočnosťou v rozmedzí 1-3 pixelov |
| 0,50:0,95 | COCO primárny (mAP) | Komplexné hodnotenie naprieč všetkými úrovňami presnosti |
Hoci nejde o formálny benchmarkový štandard, IoU=0,3 sa niekedy používa ako zhovievavý detekčný prah v hlučných alebo nejednoznačných anotačných kontextoch. Pri trhlinách na spevnených plochách medzianotátorská zhoda na jednotlivých pixeloch trhlín zriedka presahuje IoU=0,65-0,85 pre dobre definované trhliny a môže klesnúť na IoU=0,30-0,50 pre vlasové trhliny na textúrovaných asfaltových povrchoch. V týchto prípadoch inherentná anotačná neistota stanovuje praktické dno toho, aká hodnota IoU predstavuje zmysluplnú detekciu.
Prahová hodnota IoU 0,3 pre segmentáciu trhlín indikuje, že model správne identifikoval približnú polohu trhliny, ale s podstatnými chybami v tvare, hrúbke alebo kontinuite. To môže byť prijateľné pre hrubé triedenie defektov (označenie “možná trhlina — overiť manuálne”), ale je nedostatočné pre automatizované hodnotenie závažnosti.
Mean Intersection over Union (mIoU) rozširuje jednoduchú IoU metriku na multi-triedne segmentačné problémy výpočtom aritmetického priemeru IoU skóre jednotlivých tried. Toto je štandardná evalvačná metrika pre sémantickú segmentáciu naprieč všetkými hlavnými benchmarkmi.
Pre segmentačnú úlohu s C triedami sa mIoU vypočítava ako:
mIoU = (1/C) × Σℂ=1…C IoU_c
kde IoU_c je Intersekcia nad Uniou pre triedu c, vypočítaná tak, že trieda c sa považuje za pozitívnu triedu a všetky ostatné triedy za negatívne (one-vs-rest).
Výpočet IoU pre triedu c používa:
Matica zmätkov pre C-triedny segmentačný problém je matica C×C, kde M_ij je počet pixelov patriacich do skutočnej triedy i, ktoré boli predikované ako trieda j. IoU pre triedu je potom:
IoU_i = M_ii / (Σj M_ij + Σj M_ji - M_ii)
Čitateľ M_ii (diagonálny prvok) sú skutočne pozitívne pre triedu i. Súčet cez riadok Σj M_ij je celková plocha skutočnosti pre triedu i (TP + FN). Súčet cez stĺpec Σj M_ji je celková predikovaná plocha pre triedu i (TP + FP).
Pre segmentáciu trhlín na letiskových spevnených plochách typický multi-triedny segmentačný problém zahŕňa:
Každá trieda má svoje vlastné IoU skóre. Pre vyhodnotenie TarmacView na datasetoch letiskových spevnených plôch IoU skóre jednotlivých tried demonštruje relatívnu obtiažnosť každého typu defektu. mIoU poskytuje agregovanú mieru kvality modelu naprieč všetkými povrchovými podmienkami.
Kritickou vlastnosťou mIoU je, že zaobchádza s každou triedou rovnako bez ohľadu na počet pixelov. Trieda, ktorá zaberá 60 percent pixelov (pozadie), a trieda, ktorá zaberá 0,5 percenta pixelov (trhlina), prispievajú rovnako k výslednému mIoU skóre. Toto je zároveň sila aj slabosť:
Sila: mIoU zabraňuje tomu, aby väčšinová trieda dominovala metrike. Model, ktorý dokonale segmentuje pozadie spevnenej plochy, ale úplne zlyháva na trhlinách, by dosiahol 99%+ presnosť pixelov, ale mIoU len ~0,5 (keďže trieda trhlín prispieva IoU blízkym nule). mIoU čestne odráža neschopnosť modelu detegovať trhliny, zatiaľ čo presnosť pixelov by klamlivo naznačovala takmer dokonalý výkon.
Slabosť: Rovnaké váhovanie znamená, že malé, hlučné triedy (triedy s málo pixelmi) môžu mať vysokú variabilitu svojich IoU odhadov. Jediná malá nesprávne segmentovaná oblasť môže drasticky znížiť IoU zriedkavej triedy, čo robí mIoU volatilným, keď testovacia sada obsahuje málo príkladov zriedkavých defektov.
Ako alternatíva, Frequency Weighted IoU (FWIoU) váži IoU každej triedy jej frekvenciou v skutočnosti:
FWIoU = (1/Σc n_c) × Σc n_c × IoU_c
kde n_c je počet pixelov skutočnosti pre triedu c. FWIoU produkuje vyššie skóre, keď model funguje dobre na väčšinových triedach, čo ho robí zhovievavejším k zlému výkonu na menšinových triedach. FWIoU je menej často reportované v akademických benchmarkoch, ale môže sa použiť ako doplnková metrika, keď je primárnym záujmom celková presnosť na úrovni pixelov naprieč celým obrazom.
Pre kontrolu infraštruktúry je mIoU výrazne preferované pred FWIoU, pretože:
Systém segmentácie trhlín TarmacView používa DINOv2-based backbone so špecializovanou segmentačnou hlavou navrhnutou na detekciu defektov infraštruktúry. Model dosahuje testovacie IoU 0,519 na vyhradených datasetoch letiskových spevnených plôch, validovaných naprieč rôznymi podmienkami snímania vrátane variability osvetlenia, rozdielov v textúre spevnenej plochy a viacerých typov trhlín.
Segmentačná architektúra pozostáva z:
Testovacie IoU 0,519 predstavuje IoU pre triedu trhlín spriemerované cez vyhradenú testovaciu sadu. Táto hodnota umiestňuje model TarmacView do dobrého až vynikajúceho rozsahu pre segmentáciu trhlín na spevnených plochách, kde sú hodnoty IoU 0,45-0,60 typické pre najmodernejšie modely na náročných reálnych datasetoch.
Priame porovnanie IoU naprieč rôznymi štúdiami segmentácie trhlín je komplikované rozdielmi v datasetoch, anotačných protokoloch a definíciách trhlín. Publikované výsledky na podobných datasetoch trhlín na spevnených plochách však poskytujú kontext:
| Model | Dataset | Testovacie IoU (trieda trhlín) |
|---|---|---|
| TarmacView DINOv3 | Letisková vzletová dráha (proprietárny) | 0,519 |
| DeepCrack (2019) | CFD (verejná cesta) | 0,420-0,465 |
| U-Net + ResNet-50 | Crack500 (verejná cesta) | 0,475-0,510 |
| HRNet-FCN | UAV spevnená plocha (akademický) | 0,498-0,530 |
| SegFormer-B3 | CrackTree200 (verejný) | 0,485-0,520 |
| U-Net (dronová vzletová dráha) | Spevnená plocha vzletovej dráhy (2020) | 0,415-0,472 |
IoU 0,519 od TarmacView je konkurencieschopné s najlepšími publikovanými výsledkami, pričom pracuje na reálnych dátach z letiskových vzletových dráh s vyššou anotačnou variabilitou a rozmanitejšími povrchovými podmienkami ako kontrolované datasety používané v akademickom výskume. Model profituje zo silného reprezentačného učenia DINOv2 a doménovo špecifického tréningového režimu, ktorý zahŕňa agresívne rozširovanie dát a stratégie vyvažovania tried.
Testovacie IoU 0,519 ovplyvňuje niekoľko faktorov:
Tolerancia hrúbky masky. Anotácie skutočnosti pre dataset letiskových spevnených plôch definujú trhliny s konzistentnou hrúbkou približne 3-5 pixelov pri anotačnom rozlíšení. Predikované masky modelu môžu byť široké 2-8 pixelov v rôznych segmentoch trhlín. Každý pixel odlišný od hrúbky skutočnosti pridáva buď do FP alebo FN, čím znižuje IoU.
Citlivosť okrajových pixelov. Pre typickú trhlinu zaberajúcu 5 000 pixelov v obraze 512×512 tvorí okraj trhliny (pixely na hranici medzi trhlinou a spevnenou plochou) približne 400-600 pixelov. Ak je okraj predikcie modelu čo i len 1 pixel posunutý od okraja skutočnosti pozdĺž celej dráhy trhliny, výsledný FP+FN v rozsahu 400-600 pixelov môže znížiť IoU o 0,05-0,10.
Výzva vlasových trhlín. Vlasové trhliny (šírka < 0,3 mm, zodpovedajúce 1-3 pixelom pri rozlíšení snímania) tvoria približne 30 percent defektov v testovacej sade. Pre tieto trhliny je celková plocha skutočnosti veľmi malá (100-500 pixelov), takže akákoľvek nepresnosť má neprimerane veľký vplyv na IoU. IoU vlasových trhlín v priemere dosahuje 0,320-0,380, čo je výrazne menej ako 0,550-0,650 dosiahnuté na stredných a širokých trhlinách.
Konzistencia anotácií. Inter-anotačné IoU na tréningových a testovacích dátach je približne 0,72 (dvaja nezávislí expertní anotátori na rovnakých snímkach). Toto stanovuje praktickú hornú hranicu dosiahnuteľného IoU modelu — ani dokonalý model nemôže prekročiť konzistenciu svojej skutočnosti, čo vytvára šumový strop približne 0,72-0,78.
Testovacie IoU 0,519 znamená, že na priemernej testovacej snímke je intersekcia medzi predikovanou maskou trhliny a maskou skutočnosti približne 51,9 percent ich únie. Z prevádzkového hľadiska:
Viaceré faktory ovplyvňujú IoU skóre dosiahnuteľné modelom segmentácie trhlín. Pochopenie týchto faktorov je nevyhnutné pre interpretáciu reportovaných hodnôt IoU, diagnostiku výkonnostných problémov a stanovenie realistických cieľov presnosti.
Anotácie segmentácie trhlín sa typicky vytvárajú nakreslením čiary alebo polygónu pozdĺž dráhy trhliny, potom sa priradí fixná šírka reprezentujúca plochu trhliny. Priradená šírka sa líši medzi anotačnými protokolmi — niektoré používajú čiary široké 3 pixely, iné 5 pixelov alebo dynamicky škálované šírky na základe skutočných rozmerov trhliny.
Predikovaná hrúbka masky modelu sa len zriedka presne zhoduje s hrúbkou skutočnosti. Ak anotačný protokol priradí šírku 3 pixely, ale model predikuje šírku 5 pixelov, každý pixel nad rámec 3-pixelovej anotačnej hranice sa stáva falošne pozitívnym. Pre 1 000 pixelov dlhú trhlinu produkuje dodatočné 2 pixely na každej strane približne 4 000 falošne pozitívnych pixelov — potenciálne znižujúcich IoU o 0,10-0,20.
Optimálnou stratégiou pre maximalizáciu IoU je trénovať so stratovou funkciou citlivou na hrúbku, ktorá penalizuje odchýlky hrúbky, alebo aplikovať následné morfologické operácie (eróziu alebo dilatáciu), ktoré upravujú predikovanú hrúbku masky tak, aby zodpovedala anotačnému štandardu. TarmacView aplikuje krok následného spracovania pomocou naučeného dilatačného faktora kalibrovaného na validačnej sade, čo zlepšuje testovacie IoU o 0,02-0,04.
Okrajové pixely — hraničná vrstva medzi trhlinou a spevnenou plochou — sú dominantným zdrojom zníženia IoU v dobre fungujúcich modeloch. Pre masku trhliny s plochou A a obvodom P je počet okrajových pixelov približne P (dĺžka hranice v pixeloch). Ak je zarovnanie okraja modelu odchýlené v priemere o 1 pixel, výsledný FP+FN je zhruba 2P pixelov.
Pre typickú trhlinu na letiskovej spevnenej ploche s A=5 000 pixelov a P=800 pixelov:
Vplyv na IoU je:
Táto analýza odhaľuje, že zarovnanie okrajových pixelov je najdôležitejším faktorom oddeľujúcim IoU 0,50 od IoU 0,75 pre segmentáciu trhlín. Modely, ktoré dosahujú presné zarovnanie hraníc prostredníctvom máp prvkov s vysokým rozlíšením a následného spresnenia, konzistentne prekonávajú tie, ktoré zachytávajú polohu trhliny, ale nie jej hranice.
Malé trhliny — tie s celkovým počtom pixelov pod približne 500 pixelov v evalvačnom obraze — predstavujú zásadnú výzvu pre vyhodnotenie založené na IoU. Pre 200-pixelovú vlasovú trhlinu pridáva nepresnosť len 5 pixelov na každej strane 10-20 pixelov FP+FN (5-10 percent plochy trhliny). Relatívna citlivosť IoU na absolútnu chybu pre malé objekty je dramaticky vyššia ako pre veľké objekty.
Pri použití rovnakej analýzy odchýlky okraja o 1 pixel pre malú trhlinu (A=200, P=80):
Penalizácia IoU pre rovnakú odchýlku okraja o 1 pixel je 0,158 pre malú trhlinu (0,714 na 0,556) oproti 0,104 pre veľkú trhlinu (0,862 na 0,758). Táto citlivosť na mierku znamená, že agregovanie IoU naprieč trhlinami všetkých veľkostí bez reportovania stratifikovaného podľa veľkosti môže zakryť rozdiely vo výkone — model, ktorý funguje dobre na veľkých trhlinách, ale zle na malých, môže vykazovať prijateľné agregované IoU, pričom vynecháva najkritickejšie bezpečnostne relevantné vlasové trhliny.
Z tohto dôvodu TarmacView reportuje IoU stratifikované podľa kategórie šírky trhliny:
Kvalita a konzistencia anotácií skutočnosti stanovuje tvrdú hornú hranicu dosiahnuteľného IoU. Viaceré štúdie zdokumentovali medzianotátorskú zhodu pre segmentáciu trhlín na spevnených plochách:
To znamená, že ani teoreticky dokonalý model nemôže prekročiť približne 0,78-0,88 IoU na typických datasetoch kontroly infraštruktúry, pretože samotná skutočnosť je nekonzistentná. Techniky aktívneho učenia a anotačného konsenzu môžu zlepšiť kvalitu anotácií tým, že viacerí anotátori označia každú snímku a na vyriešenie nezhôd sa použije väčšinové hlasovanie alebo expertné rozhodovanie.
Rozlíšenie obrazu priamo ovplyvňuje IoU, pretože určuje počet pixelov dostupných na reprezentáciu trhliny. Trhlina, ktorá je široká 10 pixelov pri rozlíšení 20 MP, môže byť široká len 3 pixely pri rozlíšení 5 MP. Pri nižších rozlíšeniach sa absolútny pixelový rozpočet pre trhlinu zmenšuje, čo robí IoU citlivejším na nepresnosti.
Protokol kontroly letiskových spevnených plôch špecifikuje požiadavky na rozlíšenie snímania, aby sa zabezpečilo adekvátne rozlíšenie defektov. Usmernenie ICAO pre kontroly letiskových spevnených plôch odporúča minimálne vzdialenosti vzorkovania na zemi (GSD), ktoré zabezpečujú, že trhliny také úzke ako 0,5 mm možno rozlíšiť. Pri GSD 0,2 mm/pixel (typické pre UAV kontrolu vo výške 10 m) je 0,5 mm vlasová trhlina široká len 2,5 pixela — sotva na prahu spoľahlivej anotácie a segmentácie.
Svetelné podmienky tiež ovplyvňujú IoU výkon. Trhliny na mokrej spevnenej ploche majú vyšší kontrast, ale tiež produkujú zrkadlové odrazy, ktoré môžu spôsobiť falošne pozitívne výsledky. Trhliny v tieni majú nižší kontrast a môžu byť čiastočne neviditeľné. Modely trénované s rozšírením o tiene a mokrý povrch (ako implementuje pipeline TarmacView) vykazujú o 0,03-0,06 vyššie testovacie IoU na náročných svetelných podmienkach v porovnaní s modelmi trénovanými bez doménovo špecifického rozšírenia.
Správne reportovanie IoU metrík je nevyhnutné pre reprodukovateľnosť, porovnanie naprieč štúdiami a prevádzkové rozhodovanie. Nasledujúce usmernenia predstavujú najlepšiu prax pre reportovanie IoU vo výskume a nasadení kontroly infraštruktúry.
Reportujte IoU pre jednotlivé triedy, nielen mIoU. Pre segmentáciu trhlín explicitne uveďte IoU pre triedu trhlín spolu s priemerným IoU naprieč všetkými triedami. Vysoké mIoU môže skrývať zlý výkon na trhlinách, ak dominuje pozadie alebo iné triedy defektov.
Uveďte prah. Reportujte binarizačný prah použitý na konverziu pravdepodobnostných výstupov modelu na binárne masky. Štandardný prah je 0,5, ale optimalizácia následného spracovania môže používať iné prahy. Sweep prahov (reportovanie IoU pri prahoch od 0,3 do 0,7 v krokoch po 0,1) poskytuje úplnejší obraz o správaní modelu.
Reportujte intervaly spoľahlivosti. Hodnoty IoU odhadnuté z konečnej testovacej sady majú výberovú neistotu. Reportujte 95% interval spoľahlivosti pomocou bootstrappingu (opakované vzorkovanie testovacích snímok s nahradením 1 000-krát a výpočet IoU pre každú vzorku). Reportované IoU 0,519 s 95% CI [0,497, 0,541] je informatívnejšie ako bodový odhad.
Zahrňte metriky kvality anotácií. Reportujte medzianotátorskú zhodu (IoU medzi nezávislými anotátormi na podmnožine snímok) na stanovenie evalvačného šumového stropu. To kontextualizuje IoU modelu — 0,519 vyzerá inak, keď je anotačný strop 0,72 oproti 0,92.
Uveďte rozlíšenie obrazu a predspracovanie. Reportujte vstupné rozlíšenie, či sa snímky zmenšujú pred inferenciou a aká normalizácia sa aplikuje. Hodnoty IoU pri vstupnom rozlíšení 512×512 nie sú priamo porovnateľné s IoU pri 1024×1024.
Odporúčaná reportovacia tabuľka pre IoU segmentácie trhlín zahŕňa:
| Metrika | Hodnota | 95% CI | Poznámky |
|---|---|---|---|
| IoU trhlín (prah 0,5) | 0,519 | [0,497, 0,541] | Primárna metrika |
| IoU pozadia | 0,992 | [0,990, 0,994] | Očakáva sa takmer dokonalé |
| mIoU (všetky triedy) | 0,755 | [0,744, 0,767] | Zahŕňa triedu pozadia |
| mIoU (iba triedy defektov) | 0,519 | [0,497, 0,541] | Vylučuje pozadie |
| Inter-anotačné IoU | 0,723 | [0,701, 0,745] | Evalvačný strop |
IoU by sa nemalo reportovať izolovane. Doplnkové metriky poskytujú úplnejšie hodnotenie presnosti:
TarmacView používa Intersekciu nad Uniou ako primárnu metriku na validáciu presnosti segmentácie trhlín. Naša segmentačná hlava založená na DINOv3 dosahuje popredné IoU skóre na dátach z kontroly letiskových spevnených plôch. Kontaktujte nás a zistite, ako môže presná AI detekcia trhlín transformovať váš pracovný postup kontroly infraštruktúry.
Sémantická segmentácia priraďuje každomu pixelu v obraze kategóriovú značku, čo umožňuje porozumenie celej scéne pre infraštruktúrnu inšpekciu. Zahŕňa architekt...
Percentuálny podiel plochy trhlín (crack_area_pct) je pomer plochy masky trhlín k celkovej analyzovanej ploche obrazu, vyjadrený v percentách. Je to kľúčová kva...
+++ title = “Matica zámen” description = “Matica zámen tabuľkovo porovnáva predpovede modelu so skutočnými hodnotami: riadky predstavujú skuto...