Czym jest Intersection Over Union (IoU) i jak jest obliczany?

Intersection Over Union (IoU), nazywany również indeksem Jaccarda, jest metryką określającą ilościowo nakładanie się dwóch obszarów — zazwyczaj przewidywanej maski segmentacyjnej i maski rzeczywistej. Oblicza się go jako IoU = |A ∩ B| / |A ∪ B|, gdzie A to obszar przewidywany, a B to obszar rzeczywisty. Licznik |A ∩ B| reprezentuje obszar (lub liczbę pikseli), gdzie obie maski są zgodne. Mianownik |A ∪ B| reprezentuje całkowity obszar pokryty przez którąkolwiek z masek. W kategoriach prawdziwie pozytywnych (TP), fałszywie pozytywnych (FP) i fałszywie negatywnych (FN), IoU można wyrazić jako IoU = TP / (TP + FP + FN). Wynik to wartość między 0 (brak nakładania) a 1 (idealne nakładanie).

Jaki jest dobry wynik IoU dla segmentacji pęknięć?

Dla segmentacji pęknięć na nawierzchniach lotniskowych i powierzchniach infrastrukturalnych, wynik IoU powyżej 0,5 jest ogólnie uznawany za akceptowalny, podczas gdy wyniki powyżej 0,7 wskazują na doskonałą jakość segmentacji. Głowica segmentacji pęknięć TarmacView oparta na DINOv3 osiąga IoU testowe 0,519, co stanowi dobry wynik, biorąc pod uwagę nieodłączną trudność segmentacji pęknięć — pęknięcia zajmują bardzo mały ułamek całkowitej powierzchni obrazu (często mniej niż 1-2 procent), co czyni tę metrykę szczególnie wymagającą. W obrazowaniu medycznym wartości IoU 0,6-0,8 są typowe dla segmentacji narządów, gdzie obiekty są duże. Dla wykrywania pęknięć na drogach i pasach startowych porównanie komplikuje ekstremalna nierównowaga klas między pikselami pęknięć a pikselami tła.

Jaka jest różnica między IoU a współczynnikiem Dice'a?

Współczynnik Dice'a (zwany również Współczynnikiem Podobieństwa Dice'a lub DSC, odpowiednik F1-score) jest ściśle powiązany z IoU, ale nadaje większą wagę obszarowi nakładania się. Dice oblicza się jako DSC = 2|A ∩ B| / (|A| + |B|), lub równoważnie DSC = 2TP / (2TP + FP + FN). Kluczowa różnica polega na tym, że Dice podwaja wagę prawdziwie pozytywnych zarówno w liczniku, jak i mianowniku, co sprawia, że generalnie daje wyższe wartości niż IoU dla tej samej jakości segmentacji. Zależność matematyczna to DSC = 2×IoU / (1+IoU), i odwrotnie IoU = DSC / (2-DSC). Dla niedoskonałych segmentacji, Dice jest zawsze większe lub równe IoU. Idealna segmentacja daje obie metryki równe 1.

Jakie progi IoU są używane w standardowych benchmarkach ewaluacyjnych?

Najczęstszym progiem IoU jest 0,5 (AP50), który jest standardem Pascal VOC — detekcja lub segmentacja jest uznawana za poprawną, jeśli nakłada się co najmniej w 50 procentach z rzeczywistością. Benchmark COCO stosuje ostrzejszą ocenę, uśredniając AP dla progów IoU od 0,5 do 0,95 w krokach co 0,05, oznaczane jako AP@[0.5:0.95]. Próg IoU 0,75 (AP75) jest używany do oceny modeli wymagających dokładniejszej lokalizacji. W przypadku inspekcji nawierzchni lotniskowych, gdzie nawet małe pominięte segmenty pęknięć mogą prowadzić do uszkodzeń strukturalnych, praktycy często oceniają przy wielu progach, aby zrozumieć zachowanie modelu na różnych poziomach wymagań precyzyjnych.

Czym jest Mean IoU (mIoU) i jak jest używany?

Mean IoU (mIoU) to średnia arytmetyczna wyników IoU obliczonych osobno dla każdej klasy w problemie segmentacji wieloklasowej. Na przykład, w problemie segmentacji trzech klas z klasami 'pęknięcie', 'uszczelniacz' i 'nienaruszona nawierzchnia', mIoU = (IoU_pęknięcie + IoU_uszczelniacz + IoU_nawierzchnia) / 3. mIoU traktuje każdą klasę równo, niezależnie od tego, ile pikseli zajmuje, co czyni go sprawiedliwą metryką dla niezbalansowanych zbiorów danych, gdzie piksele pęknięć mogą stanowić mniej niż 1 procent całości. Wysokie mIoU wymaga, aby model dobrze radził sobie ze wszystkimi klasami jednocześnie, a nie tylko z klasą większościową.

Dlaczego optymalizacja IoU jest trudna dla segmentacji pęknięć?

Segmentacja pęknięć stwarza wyjątkowe wyzwania dla optymalizacji IoU. Pęknięcia zajmują bardzo mały ułamek całkowitej powierzchni obrazu — zazwyczaj 0,5-2 procent. Ta ekstremalna nierównowaga klas oznacza, że nawet małe błędy w klasyfikacji pikseli na granicach pęknięć znacząco wpływają na metrykę. Model, który poprawnie przewiduje 90 procent pikseli pęknięć, ale przeszacowuje szerokość pęknięcia o 2-3 piksele, będzie miał znacznie obniżone IoU, ponieważ fałszywie pozytywne piksele na krawędziach pęknięć dodają się do sumy bez proporcjonalnego zwiększania części wspólnej. Dodatkowo, pęknięcia mają wysokie współczynniki kształtu (długie i wąskie), więc piksele krawędziowe stanowią znacznie większy ułamek całkowitej powierzchni pęknięcia w porównaniu do zwartych obiektów.

Jak IoU jest używany w systemie segmentacji pęknięć TarmacView?

TarmacView używa IoU jako podstawowej metryki ewaluacyjnej dla swojej głowicy segmentacji pęknięć opartej na DINOv3. Model osiąga IoU testowe 0,519 na zbiorach danych nawierzchni lotniskowych, z wydajnością walidowaną w różnych warunkach oświetleniowych, teksturach nawierzchni i typach pęknięć (podłużne, poprzeczne, siatkowe i odbiciowe). IoU jest raportowane na zbiorze testowym po zakończeniu treningu, przy użyciu obrazów wyodrębnionych, które nie były widziane podczas treningu ani walidacji. Metryka kieruje decyzjami architektonicznymi, takimi jak projekt głowicy maski, ważenie funkcji straty i parametry przetwarzania końcowego. TarmacView uzupełnia raportowanie IoU o precyzję, czułość i F1-score, aby zapewnić kompleksowy obraz jakości segmentacji.

Jakie czynniki wpływają na wyniki IoU w modelach segmentacji?

Na wyniki IoU wpływa kilka czynników. Tolerancja grubości maski — IoU karze zarówno nadprzewidywanie (przewidywanie zbyt wielu pikseli pęknięć), jak i niedoprzewidywanie w równym stopniu, więc grubość maski bezpośrednio wpływa na wynik. Dokładność pikseli krawędziowych — piksele graniczne, w których przewidywanie nie pokrywa się dokładnie z rzeczywistością, przyczyniają się zarówno do fałszywie pozytywnych, jak i fałszywie negatywnych. Małe pęknięcia — cienkie pęknięcia włoskowate o szerokości poniżej 0,3 mm mają bardzo mało pikseli, więc małe niedopasowania powodują nieproporcjonalnie duże spadki IoU. Jakość adnotacji — niespójne adnotacje rzeczywistości (różni adnotatorzy oznaczający to samo pęknięcie z nieco różnymi szerokościami) wprowadzają szum, który ogranicza osiągalne IoU. Rozdzielczość obrazu — wyższa rozdzielczość wychwytuje więcej szczegółów pęknięcia, ale także powiększa niezgodności na poziomie pikseli.

Dlaczego współczynnik Dice'a daje wyższe wartości niż IoU?

Współczynnik Dice'a konsekwentnie daje wyższe wartości niż IoU dla każdej niedoskonałej segmentacji, ponieważ podwójnie zlicza obszar prawdziwie pozytywny. Matematycznie, DSC = 2TP / (2TP + FP + FN), podczas gdy IoU = TP / (TP + FP + FN). Dodatkowy współczynnik 2 w liczniku i mianowniku DSC oznacza, że prawdziwie pozytywne są ważone bardziej w stosunku do fałszywie pozytywnych i fałszywie negatywnych. Na przykład segmentacja z TP=80, FP=20, FN=20 daje IoU = 80/120 = 0,667 i DSC = 160/200 = 0,800. Względna różnica jest największa przy niskich poziomach nakładania i zbiega się, gdy jakość segmentacji zbliża się do perfekcji. Ta właściwość sprawia, że Dice wydaje się bardziej optymistyczny, co jest czasem preferowane w obrazowaniu medycznym, gdzie priorytetem jest maksymalizacja wykrytego nakładania, a nie dokładność granic.

Jak raportować wyniki IoU dla inspekcji infrastruktury?

Najlepsze praktyki raportowania IoU w inspekcji infrastruktury obejmują: (1) raportowanie zarówno IoU dla każdej klasy, jak i średniego IoU (mIoU) dla wszystkich klas; (2) określenie progu maski użytego do binaryzacji wyników modelu przed obliczeniem IoU; (3) podanie odchylenia standardowego lub 95% przedziału ufności dla zbioru testowego; (4) raportowanie IoU wraz z metrykami uzupełniającymi — precyzją, czułością, F1-score i współczynnikiem Dice'a — dla pełnego obrazu dokładności; (5) podanie rozdzielczości obrazu i protokołu adnotacji, aby kontekstualizować osiągalny pułap IoU; (6) dla metryk specyficznych dla pęknięć, raportowanie Crack-IoU (IoU obliczone tylko na pikselach klasy pęknięcia) oddzielnie od IoU tła.

Intersection Over Union (IoU)

Intersection Over Union (IoU), nazywany również indeksem Jaccarda, mierzy nakładanie się przewidywanej maski segmentacyjnej na maskę rzeczywistą: IoU = |A∩B| / |A∪B|. Jest to podstawowa metryka dokładności segmentacji pęknięć, gdzie IoU > 0,5 uznaje się za dobry wynik. Głowica segmentacji pęknięć DINOv3 TarmacView osiąga IoU testowe 0,519. Obejmuje obliczanie IoU, interpretację, związek ze współczynnikiem Dice’a oraz dopuszczalne progi.

Intersection Over Union (IoU) dla Dokładności Segmentacji

Definicja i Wzór

Intersection Over Union (IoU), znany również jako indeks Jaccarda lub współczynnik podobieństwa Jaccarda, jest miarą statystyczną określającą ilościowo nakładanie się dwóch zbiorów danych. W wizji komputerowej i segmentacji obrazów, IoU mierzy dokładność przewidywanej maski segmentacyjnej względem maski rzeczywistej. Jest to najszerzej przyjęta metryka ewaluacyjna dla segmentacji semantycznej, segmentacji instancji i detekcji obiektów, zarówno w benchmarkach akademickich, jak i zastosowaniach przemysłowych.

Wzór na IoU jest matematycznie prosty:

IoU = |A ∩ B| / |A ∪ B|

Gdzie A reprezentuje przewidywaną maskę segmentacyjną (zbiór pikseli, które model klasyfikuje jako należące do klasy obiektu), a B reprezentuje maskę rzeczywistą (zbiór pikseli, które adnotatorzy zidentyfikowali jako należące do klasy obiektu). Licznik, |A ∩ B|, to część wspólna — obszar (lub liczba pikseli), gdzie przewidywanie i rzeczywistość są zgodne. Mianownik, |A ∪ B|, to suma — całkowity obszar pokryty przez przewidywanie, rzeczywistość lub oba.

{

Technical diagram showing Intersection Over Union (IoU) concept with two overlapping shapes, intersection highlighted in purple, union outlined in white

Rozszerzając wzór w kategoriach elementów macierzy konfuzji — prawdziwie pozytywnych (TP), fałszywie pozytywnych (FP) i fałszywie negatywnych (FN) — otrzymujemy bardziej praktyczne sformułowanie do obliczeń:

IoU = TP / (TP + FP + FN)

Tutaj TP (prawdziwie pozytywne) to piksele poprawnie sklasyfikowane jako należące do klasy obiektu (obszar części wspólnej). FP (fałszywie pozytywne) to piksele błędnie przewidziane jako obiekt, gdy w rzeczywistości są tłem (obszar przewidywania poza rzeczywistością). FN (fałszywie negatywne) to piksele błędnie przewidziane jako tło, gdy w rzeczywistości są obiektem (obszar rzeczywistości poza przewidywaniem). To sformułowanie wprost pokazuje, że IoU karze równocześnie nadprzewidywanie i niedoprzewidywanie — każdy fałszywie pozytywny i każdy fałszywie negatywny obniża metrykę o tę samą wartość, znormalizowaną przez całkowity istotny obszar.

Wartość IoU zawsze mieści się w zamkniętym przedziale [0, 1]. IoU równe 0 oznacza, że przewidywana i rzeczywista maska nie nakładają się wcale — są całkowicie rozłączne. IoU równe 1 oznacza idealne nakładanie — przewidywana maska dokładnie odpowiada rzeczywistej masce piksel po pikselu. Wartości pośrednie reprezentują częściową jakość nakładania. Na przykład IoU równe 0,5 oznacza, że obszar części wspólnej jest o połowę mniejszy od obszaru sumy, co jest standardowym minimalnym progiem uznania detekcji lub segmentacji za poprawną w benchmarku Pascal VOC.

IoU jest niezmienniczy względem skali w tym sensie, że mierzy względne nakładanie, a nie bezwzględną liczbę pikseli. Obiekt o 100 pikselach i obiekt o 10 000 pikseli oba dają IoU równe 1,0, gdy są idealnie segmentowane. Jednak ta niezmienniczość skalowa ma praktyczne zastrzeżenie: dla tego samego bezwzględnego błędu pikselowego (np. 5 błędnie sklasyfikowanych pikseli granicznych), mały obiekt doświadcza znacznie większego względnego spadku IoU niż duży obiekt, co sprawia, że IoU jest domyślnie bardziej rygorystyczny dla drobnych szczegółów i małych struktur.

Metryka pochodzi od indeksu Jaccarda (zwanego również Intersection over Union) wprowadzonego przez Paula Jaccarda w 1901 roku jako współczynnika wspólnoty do porównywania rozmieszczenia gatunków w florze alpejskiej. Jego zastosowanie w wizji komputerowej zostało sformalizowane w Pascal Visual Object Classes (VOC) Challenge (2007-2012), który ustanowił IoU jako standardową metrykę ewaluacyjną dla detekcji obiektów i segmentacji. Zbiór danych Common Objects in Context (COCO) i benchmark, wydane przez Microsoft w 2014 roku, dodatkowo ugruntowały IoU jako de facto standard poprzez wprowadzenie mAP@[0.5:0.95], średniej średniej precyzji obliczonej dla dziesięciu dyskretnych progów IoU od 0,5 do 0,95.

Wizualna Interpretacja IoU

Wizualna interpretacja IoU jest niezbędna do rozwijania intuicyjnego zrozumienia tego, co różne wyniki IoU faktycznie reprezentują w kategoriach jakości segmentacji. Metryka odwzorowuje złożoną zależność przestrzenną między dwiema maskami w pojedynczą wartość skalarną, a internalizacja tego, jak różne wzorce błędów przestrzennych wpływają na tę wartość, jest kluczowa zarówno dla rozwoju modelu, jak i komunikacji wyników.

IoU równe 1,0 reprezentuje idealne dopasowanie piksel po pikselu. W kontekście segmentacji pęknięć na nawierzchniach lotniskowych, idealne IoU oznacza, że każdy piksel sklasyfikowany przez model jako „pęknięcie" dokładnie odpowiada każdemu pikselowi oznaczonemu przez przeszkolonego inspektora jako „pęknięcie" i żadne piksele nie zostały pominięte ani nadprzewidziane. W praktyce idealne IoU jest zasadniczo nieosiągalne dla rzeczywistej inspekcji infrastruktury ze względu na niejednoznaczność adnotacji — różni adnotatorzy oznaczający to samo pęknięcie na tym samym obrazie osiągają zazwyczaj IoU między adnotatorami wynoszący zaledwie 0,65-0,85, w zależności od szerokości i kontrastu pęknięcia. Ten pułap szumu adnotacyjnego reprezentuje maksymalne osiągalne IoU dla dowolnego modelu na tym zbiorze danych.

IoU równe 0,75-0,90 wskazuje na doskonałą jakość segmentacji. Na tym poziomie przewidywana maska ściśle podąża za granicą rzeczywistości z tylko niewielkimi odchyleniami 1-3 pikseli na krawędziach. Dla segmentacji pęknięć odpowiada to poprawnemu wykryciu pełnej ścieżki pęknięcia z niewielkimi różnicami w przewidywanej grubości pęknięcia w porównaniu z adnotacją rzeczywistą. W benchmarku COCO, AP75 (Average Precision przy progu IoU 0,75) jest uważany za silny wskaźnik precyzyjnej zdolności lokalizacji.

IoU równe 0,50-0,75 wskazuje na dobrą jakość segmentacji. Model poprawnie identyfikuje lokalizację i ogólny kształt obiektu, ale dokładność granic jest umiarkowana. Dla wykrywania pęknięć nawierzchni, IoU w tym zakresie oznacza, że model niezawodnie znajduje pęknięcie (wysoki wskaźnik prawdziwie pozytywnych), ale może przewidywać pęknięcie jako nieco grubsze lub cieńsze niż w rzeczywistości, lub może wykazywać niewielką fragmentację, gdzie ciągłe pęknięcie jest przewidywane jako krótkie, niepołączone segmenty. Jest to typowy zakres operacyjny dla produkcyjnych systemów segmentacji pęknięć działających na rzeczywistych obrazach nawierzchni lotniskowych, gdzie model TarmacView oparty na DINOv3 osiąga IoU testowe 0,519.

{

Technical comparison of three IoU scores 0.3, 0.5, and 0.75 for crack detection on pavement with ground truth in green and prediction in red

IoU równe 0,30-0,50 wskazuje na marginalną jakość segmentacji. Model wykrywa obecność obiektu, ale ze znacznymi błędami lokalizacji. Przewidywana maska może być przesunięta, nieprawidłowo ukształtowana lub znacznie różnić się rozmiarem od rzeczywistości. W wykrywaniu pęknięć nawierzchni może to oznaczać, że model identyfikuje ogólne obszary dotknięte pęknięciami, ale nie precyzyjnie podąża za geometrią pęknięcia, przewidując plamy zamiast liniowych cech. IoU poniżej 0,5 nie jest ogólnie uznawane za udaną detekcję lub segmentację zgodnie ze standardem Pascal VOC.

IoU równe 0-0,30 wskazuje na słabą segmentację. Model albo całkowicie nie wykrywa obiektu (przewidywana maska jest pusta, co daje IoU=0), albo tworzy maskę, która nakłada się na rzeczywistość tylko przypadkowo na krawędziach znacznie większego błędnie przewidzianego obszaru. W kontekście inspekcji infrastruktury, modele działające na tym poziomie IoU pomijałyby krytyczne defekty lub generowały tak wiele fałszywie pozytywnych wyników, że wynik nie byłby użyteczny operacyjnie.

Kluczowym spostrzeżeniem dla interpretacji wizualnej jest to, że IoU jest nieliniowy względem postrzeganej jakości. Różnica między IoU=0,90 a IoU=0,95 reprezentuje znacznie mniejszą rzeczywistą poprawę dokładności pikselowej niż różnica między IoU=0,50 a IoU=0,55. Wynika to z faktu, że przy wysokich poziomach IoU suma jest już bardzo bliska części wspólnej, więc dalsze ulepszenia wymagają coraz bardziej precyzyjnego dopasowania granic. Odwrotnie, przy niskim do umiarkowanego IoU, potrzebne są stosunkowo duże poprawy jakości segmentacji, aby przesunąć metrykę o kilka punktów procentowych.

Obliczanie IoU

Obliczanie IoU dla masek segmentacyjnych wymaga systematycznego podejścia uwzględniającego specyfikę reprezentacji maski, układów współrzędnych i przypadków brzegowych.

Obliczanie IoU dla Prostokątów Otaczających

Dla przewidywań opartych na prostokątach otaczających (używanych w detekcji obiektów lub jako propozycje regionów), IoU jest obliczane przy użyciu współrzędnych prostokątów wyrównanych do osi. Każdy prostokąt jest zdefiniowany przez jego górny lewy róg (x₁, y₁) i dolny prawy róg (x₂, y₂). Prostokąt części wspólnej jest obliczany jako:

x_left   = max(pred_x₁, gt_x₁)
y_top    = max(pred_y₁, gt_y₁)
x_right  = min(pred_x₂, gt_x₂)
y_bottom = min(pred_y₂, gt_y₂)

Pole części wspólnej wynosi:

intersection = max(0, x_right - x_left) × max(0, y_bottom - y_top)

Operacja max(0, …) jest krytyczna — jeśli prostokąty nie nakładają się w żadnym wymiarze, wartość ujemna jest przycinana do zera, poprawnie dając zerowe pole części wspólnej. Pole każdego prostokąta otaczającego wynosi:

area_pred = (pred_x₂ - pred_x₁) × (pred_y₂ - pred_y₁)
area_gt   = (gt_x₂ - gt_x₁) × (gt_y₂ - gt_y₁)

Suma wynosi wówczas:

union = area_pred + area_gt - intersection

I ostatecznie:

IoU = intersection / union

Obliczanie IoU dla Masek Segmentacyjnych

Dla masek segmentacyjnych na poziomie pikseli, IoU jest obliczane poprzez traktowanie każdej maski jako obrazu binarnego, gdzie wartość piksela 1 oznacza klasę obiektu, a wartość 0 oznacza tło. Obliczenia przebiegają poprzez logiczne operacje elementarne:

intersection = sum(pred_mask AND gt_mask)   // logiczna AND dla każdego piksela
union = sum(pred_mask OR gt_mask)           // logiczna OR dla każdego piksela
IoU = intersection / union

W praktyce implementacje używające NumPy lub PyTorch wektoryzują to w następujący sposób:

import torch

def compute_iou(pred_mask: torch.Tensor, gt_mask: torch.Tensor) -> float:
    """
    pred_mask and gt_mask are binary tensors of shape (H, W)
    with values 0 (background) or 1 (object)
    """
    intersection = (pred_mask & gt_mask).sum().item()
    union = (pred_mask | gt_mask).sum().item()
    if union == 0:
        return float('nan')  # both masks empty
    return intersection / union

Przypadek brzegowy union == 0 występuje, gdy zarówno przewidywanie, jak i rzeczywistość są puste — żadna maska nie zawiera pikseli obiektu. W tym zdegenerowanym przypadku metryka zwraca NaN, a różne benchmarki różnie to obsługują. Protokół ewaluacji COCO wyklucza takie przypadki ze średniej. Implementacja MeanIoU w PyTorch Lightning zwraca -1,0 dla klas, które są całkowicie nieobecne zarówno w przewidywaniu, jak i rzeczywistości.

Obsługa Segmentacji Wieloklasowej

Dla segmentacji wieloklasowej (np. model jednocześnie przewidujący klasy pęknięcia, uszczelniacza, nawierzchni i spoin), IoU jest obliczane dla każdej klasy i następnie uśredniane. Dla każdej klasy c tworzona jest binarna maska, gdzie piksel (i,j) ma wartość 1, jeśli przewidywana lub rzeczywista klasa jest równa c, a 0 w przeciwnym razie. IoU dla klasy wynosi:

IoU_c = TP_c / (TP_c + FP_c + FN_c)

Dla problemu segmentacji z C klasami, Mean IoU (mIoU) wynosi:

mIoU = (1/C) × Σℂ=1…C IoU_c

Ważnym rozważaniem jest to, czy uwzględnić klasę tła (piksele nienależące do żadnego obiektu) w obliczaniu mIoU. Uwzględnienie tła zazwyczaj zawyża mIoU, ponieważ tło dominuje w liczbie pikseli, a modele segmentacji zwykle dobrze sobie z nim radzą. Wykluczenie tła daje bardziej uczciwą ocenę jakości segmentacji obiektów. Parametr include_background w implementacji MeanIoU w TorchMetrics kontroluje to zachowanie.

Alternatywą dla mIoU jest Frequency Weighted IoU (FWIoU), który waży IoU każdej klasy przez jej częstość w rzeczywistości:

FWIoU = (1/Σℂ n_c) × Σℂ n_c × IoU_c

gdzie n_c to liczba pikseli rzeczywistych należących do klasy c. FWIoU nadaje większą wagę większym klasom, a mniejszą rzadkim klasom. Dla segmentacji pęknięć na nawierzchniach, gdzie piksele pęknięć stanowią mniej niż 1 procent całości, FWIoU przesłoniłby wydajność wykrywania pęknięć wydajnością nawierzchni. mIoU (średnia nieważona) jest zdecydowanie preferowany dla inspekcji infrastruktury, ponieważ traktuje rzadkie, ale krytyczne klasy defektów równorzędnie z klasami większościowymi.

Uwagi dotyczące Precyzji Numerycznej

Gdy IoU jest używany jako funkcja straty podczas treningu (różniczkowalne warianty IoU), precyzja numeryczna staje się istotna. Standardowy IoU nie jest różniczkowalny, ponieważ binarne operacje logiczne (AND, OR, SUM) mają zerowe gradienty wszędzie z wyjątkiem progu, gdzie gradient jest niezdefiniowany. Różniczkowalne funkcje zastępcze — soft IoU lub IoU loss — używają ciągłych przybliżeń:

soft_IoU = Σ(p_i × g_i) / Σ(p_i + g_i - p_i × g_i)

gdzie p_i ∈ [0,1] to prawdopodobieństwo softmax dla piksela i, a g_i ∈ {0,1} to etykieta rzeczywista. Iloczyn p_i × g_i jest ciągłym rozluźnieniem logicznej AND, a suma p_i + g_i - p_i × g_i jest ciągłym rozluźnieniem logicznej OR.

Do ewaluacji (nie różniczkowalnej), używane są maski binaryzowane z progiem (zazwyczaj 0,5 dla prawdopodobieństwa softmax). Binarna entropia krzyżowa pozostaje standardowym celem treningowym dla większości modeli segmentacji pęknięć, a IoU służy jako metryka ewaluacyjna obliczana post-hoc.

IoU a Współczynnik Dice’a (F1 dla Segmentacji)

Współczynnik Podobieństwa Dice’a (DSC), zwany również indeksem Sørensena-Dice’a i odpowiadający F1-score dla segmentacji binarnej, jest najczęstszą alternatywą dla IoU w ocenie segmentacji. Zrozumienie związku między tymi dwiema metrykami jest niezbędne do prawidłowej interpretacji dokładności segmentacji.

Zależność Matematyczna

Współczynnik Dice’a jest zdefiniowany jako:

DSC = 2|A ∩ B| / (|A| + |B|)

W kategoriach elementów macierzy konfuzji:

DSC = 2TP / (2TP + FP + FN)

Zależność matematyczna między DSC a IoU jest bijektywna i monotoniczna:

DSC = 2 × IoU / (1 + IoU)

IoU = DSC / (2 - DSC)

Oznacza to, że dla dowolnej segmentacji DSC można obliczyć bezpośrednio z IoU i odwrotnie. Konwersja jest dokładna i deterministyczna — nie ma utraty informacji przy konwersji między tymi dwiema metrykami.

Kluczowe Różnice w Praktyce

Pomimo dokładnej zależności matematycznej, DSC i IoU różnią się systematycznie pod względem wartości liczbowych i interpretacji. Kluczowe właściwości to:

DSC ≥ IoU dla wszystkich niedoskonałych segmentacji. Nierówność jest ścisła, z wyjątkiem DSC = IoU = 1 (idealna) i DSC = IoU = 0 (brak nakładania). Wynika to z faktu, że mianownik w DSC dodaje TP dwukrotnie (2TP + FP + FN), podczas gdy IoU dodaje TP tylko raz (TP + FP + FN), co sprawia, że mianownik DSC jest mniejszy względem jego licznika. Na przykład segmentacja z TP=80, FP=20, FN=20 daje:

IoU = 80 / (80 + 20 + 20) = 80/120 = 0,667
DSC = (2×80) / (2×80 + 20 + 20) = 160/200 = 0,800

DSC jest bardziej „optymistyczny". Dla tej samej jakości segmentacji DSC raportuje wyższą wartość liczbową niż IoU. Względna różnica jest największa przy umiarkowanych poziomach nakładania i zbiega się na obu krańcach. Segmentacja z IoU=0,5 odpowiada DSC=0,667. Segmentacja z IoU=0,75 odpowiada DSC=0,857.

IoU jest bardziej rygorystyczny wobec fałszywie pozytywnych i fałszywie negatywnych. Ponieważ mianownik IoU zawiera TP tylko raz, podczas gdy DSC podwójnie zlicza TP, IoU karze każdy FP i FN bardziej w stosunku do poprawnego nakładania. To sprawia, że IoU jest bardziej wrażliwy na błędy nadsegmentacji i niedosegmentacji.

DSC kładzie nacisk na maksymalizację nakładania. Dodatkowa waga TP oznacza, że DSC nagradza maksymalizację obszaru części wspólnej, nawet kosztem niewielkiego zwiększenia sumy. To sprawia, że DSC jest preferowany, gdy głównym celem jest zapewnienie, że przewidywany region pokrywa jak najwięcej rzeczywistości, kosztem pewnego nadprzewidywania.

Praktyczne Wskazówki dotyczące Wyboru

Wybór między IoU a DSC zależy od wymagań aplikacji:

Kryterium	Preferuj IoU	Preferuj DSC
Karanie nad-/niedosegmentacji	✓ Bardziej rygorystyczny	— Bardziej pobłażliwy
Segmentacja małych obiektów	— Bardziej wrażliwy na błędy	✓ Łagodniejsza kara
Ocena dokładności granic	✓ Lepiej odzwierciedla błędy	— Maskuje problemy graniczne
Porównanie z benchmarkami	✓ Standard Pascal VOC, COCO	— Standard obrazowania medycznego
Funkcja straty treningowej	— Nie różniczkowalny	✓ Różniczkowalna funkcja zastępcza
Komunikacja z interesariuszami nietechnicznymi	— Może wydawać się surowy	✓ Bardziej intuicyjne wartości

Dla inspekcji infrastruktury i segmentacji pęknięć, IoU jest preferowaną podstawową metryką, ponieważ zapewnia bardziej rygorystyczną, uczciwszą ocenę jakości segmentacji. Model, który nadprzewiduje szerokość pęknięcia (generując FP piksele pęknięć na krawędziach), będzie miał IoU bardziej obniżone niż DSC, a ta surowsza kara poprawnie odzwierciedla wymóg operacyjny, że wykrywanie pęknięć musi być precyzyjne przestrzennie — nadprzewidywanie obszaru pęknięcia prowadzi do niepotrzebnych kosztów utrzymania, podczas gdy niedoprzewidywanie prowadzi do pominięcia defektów.

TarmacView raportuje IoU jako podstawową metrykę dokładności segmentacji pęknięć, a model oparty na DINOv3 osiąga IoU testowe 0,519 na wyodrębnionych obrazach nawierzchni lotniskowych. Jest to uzupełnione raportowaniem precyzji, czułości i współczynnika Dice’a dla kompleksowego obrazu oceny.

Progi IoU (0,3; 0,5; 0,75)

Progi IoU definiują minimalne nakładanie wymagane do uznania przewidywania za prawdziwie pozytywne (poprawna detekcja). Wybór progu ma głębokie implikacje dla raportowanej wydajności modelu i decyduje o tym, czy system segmentacji jest oceniany jako pobłażliwy, czy rygorystyczny.

Standard Pascal VOC: IoU ≥ 0,5

Wyzwanie Pascal VOC ustanowiło IoU ≥ 0,5 jako próg uznania detekcji lub segmentacji za poprawną. Próg ten, oznaczany jako AP50 (Average Precision przy IoU=0,5), stał się domyślnym w wizji komputerowej na ponad dekadę. Rozumowanie było pragmatyczne: przewidywany region, który nakłada się na więcej niż połowę rzeczywistości, wyraźnie wykrywa poprawny obiekt, nawet jeśli jego granice są niedoskonałe.

Dla segmentacji pęknięć na nawierzchniach, próg IoU 0,5 oznacza, że przewidywana maska pęknięcia musi nakładać się co najmniej w 50 procentach na rzeczywisty obszar pęknięcia, aby zostać uznana za poprawną detekcję. Biorąc pod uwagę, że pęknięcia są cienkimi, wydłużonymi strukturami, próg ten wymaga, aby model uchwycił pełną ścieżkę pęknięcia z rozsądną dokładnością grubości. Jest to standardowy próg stosowany w publikacjach akademickich na temat wykrywania pęknięć nawierzchni oraz w wewnętrznym potoku ewaluacji TarmacView.

Rygorystyczny Standard COCO: IoU ∈ [0,5; 0,95]

Benchmark COCO wprowadził bardziej rygorystyczny protokół ewaluacyjny, uśredniając Average Precision dla dziesięciu progów IoU od 0,5 do 0,95 w krokach co 0,05, oznaczany jako AP@[0.5:0.95] lub po prostu mAP. To wieloprogowe podejście zapewnia bardziej kompleksową ocenę jakości lokalizacji niż jakikolwiek pojedynczy próg.

Dla inspekcji infrastruktury, ewaluacja w stylu COCO jest szczególnie pouczająca, ponieważ ujawnia, jak model radzi sobie na różnych poziomach wymagań precyzyjnych. Model z wysokim AP50, ale niskim AP75 może niezawodnie wykrywać pęknięcia, ale przewidywać je z niską dokładnością granic — systematycznie przeszacowując lub niedoszacowując szerokość pęknięcia. Model z silnym AP75 demonstruje precyzyjne dopasowanie granic, co jest kluczowe dla aplikacji wymagających dokładnego pomiaru szerokości pęknięcia (kluczowe dane wejściowe do obliczeń Pavement Condition Index - PCI zgodnie z ASTM D5340 i FAA AC 150/5380-6C).

Próg Wysokiej Precyzji: IoU ≥ 0,75

Metryka AP75 (Average Precision przy IoU=0,75) ocenia zdolność modelu do tworzenia przewidywań z ścisłym dopasowaniem granic. Dla segmentacji pęknięć, AP75 wymaga, aby przewidywana maska pęknięcia nakładała się na rzeczywistość co najmniej w 75 procentach — co wymaga, aby model uchwycił zarówno ścieżkę pęknięcia, jak i jego grubość z wysoką dokładnością.

AP75 jest odpowiednim progiem dla aplikacji wymagających kwantyfikacji szerokości pęknięcia, a nie tylko wykrywania obecności pęknięcia. Ocena stanu nawierzchni pasów startowych zgodnie z normami ICAO i Okólnikami Doradczymi FAA często wymaga klasyfikacji szerokości pęknięć (włoskowate < 3mm, średnie 3-6mm, poważne > 6mm), a dokładny pomiar szerokości wymaga precyzyjnej segmentacji granic. Model z obniżoną wydajnością AP75 może poprawnie lokalizować pęknięcia, ale przeszacowywać lub niedoszacowywać ich dotkliwość.

Próg IoU	Standard	Interpretacja dla Segmentacji Pęknięć
0,30	Minimalne użyteczne nakładanie	Marginalna detekcja; lokalizacja pęknięcia w przybliżeniu poprawna, ale kształt/grubość niedokładna
0,50	Pascal VOC (AP50)	Standardowa detekcja; ścieżka pęknięcia i przybliżona grubość poprawne
0,75	COCO rygorystyczny (AP75)	Precyzyjna segmentacja; granice pęknięcia ściśle odpowiadają rzeczywistości w granicach 1-3 pikseli
0,50:0,95	COCO podstawowy (mAP)	Kompleksowa ocena na wszystkich poziomach precyzji

IoU = 0,3 — Minimalne Znaczące Nakładanie

Choć nie jest to formalny standard benchmarkowy, IoU=0,3 jest czasami używany jako pobłażliwy próg detekcji w kontekstach o szumnych lub niejednoznacznych adnotacjach. Dla pęknięć nawierzchni, zgodność między adnotatorami dla poszczególnych pikseli pęknięć rzadko przekracza IoU=0,65-0,85 dla dobrze zdefiniowanych pęknięć i może spaść do IoU=0,30-0,50 dla pęknięć włoskowatych na teksturowanych powierzchniach asfaltowych. W tych przypadkach nieodłączna niepewność adnotacji ustanawia praktyczną dolną granicę tego, jaka wartość IoU stanowi znaczącą detekcję.

Próg IoU 0,3 dla segmentacji pęknięć wskazuje, że model poprawnie zidentyfikował przybliżoną lokalizację pęknięcia, ale z istotnymi błędami kształtu, grubości lub ciągłości. Może to być akceptowalne dla wstępnego przesiewu defektów (oznaczanie „możliwe pęknięcie — zweryfikuj ręcznie"), ale jest niewystarczające do zautomatyzowanej oceny dotkliwości.

Mean IoU (mIoU) dla Wielu Klas

Mean Intersection over Union (mIoU) rozszerza metrykę IoU dla pojedynczej klasy na problemy segmentacji wieloklasowej poprzez obliczanie średniej arytmetycznej wyników IoU dla każdej klasy. Jest to standardowa metryka ewaluacyjna dla segmentacji semantycznej we wszystkich głównych benchmarkach.

Obliczanie mIoU

Dla zadania segmentacji z C klasami, mIoU oblicza się jako:

mIoU = (1/C) × Σℂ=1…C IoU_c

gdzie IoU_c to Intersection over Union dla klasy c, obliczane poprzez traktowanie klasy c jako klasy pozytywnej, a wszystkich innych klas jako negatywnych (one-vs-rest).

Obliczanie IoU dla klasy c wykorzystuje:

TP_c — piksele poprawnie przewidziane jako klasa c
FP_c — piksele błędnie przewidziane jako klasa c (należą do innej klasy)
FN_c — piksele należące do klasy c, ale przewidziane jako inna klasa

Macierz konfuzji dla problemu segmentacji z C klasami to macierz C×C, gdzie M_ij to liczba pikseli należących do rzeczywistej klasy i, które zostały przewidziane jako klasa j. IoU dla klasy wynosi wówczas:

IoU_i = M_ii / (Σj M_ij + Σj M_ji - M_ii)

Licznik M_ii (element diagonalny) to prawdziwie pozytywne dla klasy i. Suma wiersza Σj M_ij to całkowity rzeczywisty obszar dla klasy i (TP + FN). Suma kolumny Σj M_ji to całkowity przewidywany obszar dla klasy i (TP + FP).

mIoU dla Segmentacji Pęknięć

Dla segmentacji pęknięć nawierzchni lotniskowych, typowy problem segmentacji wieloklasowej obejmuje:

Klasa 0 — Tło: Nienaruszona powierzchnia nawierzchni, brak defektów
Klasa 1 — Pęknięcie: Wszystkie typy pęknięć (podłużne, poprzeczne, siatkowe, odbiciowe)
Klasa 2 — Spoina/Uszczelniacz pęknięć: Wypełnione lub częściowo wypełnione szczeliny dylatacyjne
Klasa 3 — Wykruszenie/Weathering: Pogorszenie powierzchni odróżnialne od pęknięć

Każda klasa ma swój własny wynik IoU. W ocenie TarmacView na zbiorach danych nawierzchni lotniskowych, wyniki IoU dla poszczególnych klas pokazują względną trudność każdego typu defektu. mIoU daje zagregowaną miarę jakości modelu we wszystkich stanach powierzchni.

Wrażliwość mIoU na Równowagę Klas

Krytyczną właściwością mIoU jest to, że traktuje każdą klasę równo, niezależnie od liczby pikseli. Klasa zajmująca 60 procent pikseli (tło) i klasa zajmująca 0,5 procent pikseli (pęknięcie) mają równy wkład do końcowego wyniku mIoU. Jest to zarówno zaleta, jak i wada:

Zaleta: mIoU zapobiega dominacji klasy większościowej nad metryką. Model, który doskonale segmentuje tło nawierzchni, ale całkowicie zawodzi w przypadku pęknięć, osiągnąłby ponad 99-procentową dokładność pikselową, ale mIoU wynoszące tylko ~0,5 (ponieważ klasa pęknięcia wnosi IoU bliskie zeru). mIoU uczciwie odzwierciedla niezdolność modelu do wykrywania pęknięć, podczas gdy dokładność pikselowa sugerowałaby myląco bliską perfekcji wydajność.

Wada: Równe ważenie oznacza, że małe, szumne klasy (klasy z małą liczbą pikseli) mogą mieć wysoką wariancję w swoich estymacjach IoU. Pojedynczy mały, błędnie segmentowany obszar może drastycznie obniżyć IoU rzadkiej klasy, czyniąc mIoU niestabilnym, gdy zestaw testowy zawiera mało przykładów rzadkich defektów.

Frequency-Weighted IoU

Jako alternatywa, Frequency Weighted IoU (FWIoU) waży IoU każdej klasy przez jej częstość w rzeczywistości:

FWIoU = (1/Σc n_c) × Σc n_c × IoU_c

gdzie n_c to liczba pikseli rzeczywistych dla klasy c. FWIoU daje wyższe wyniki, gdy model dobrze radzi sobie z klasami większościowymi, co czyni go bardziej wybaczającym słabą wydajność w klasach mniejszościowych. FWIoU jest rzadziej raportowany w benchmarkach akademickich, ale może być używany jako metryka uzupełniająca, gdy głównym zmartwieniem jest ogólna dokładność pikselowa w całym obrazie.

Dla inspekcji infrastruktury, mIoU jest zdecydowanie preferowany nad FWIoU, ponieważ:

Defekty pęknięć są klasą podstawowego zainteresowania operacyjnego
Piksele pęknięć stanowią niewielki ułamek (0,5-2 procent) całkowitej powierzchni obrazu
FWIoU przesłoniłby niepowodzenia segmentacji pęknięć wydajnością tła
Regulacyjne standardy inspekcji (ICAO Annex 14, FAA AC) priorytetowo traktują wykrywanie defektów

IoU w Segmentacji Pęknięć TarmacView

System segmentacji pęknięć TarmacView używa szkieletu opartego na DINOv2 z wyspecjalizowaną głowicą segmentacyjną zaprojektowaną do wykrywania defektów infrastruktury. Model osiąga IoU testowe 0,519 na wyodrębnionych zbiorach danych nawierzchni lotniskowych, walidowanych w zróżnicowanych warunkach akwizycji, obejmujących zmienność oświetlenia, różnice w teksturze nawierzchni i wiele typów pęknięć.

Architektura Modelu i Wydajność IoU

Architektura segmentacji składa się z:

Szkielet (Backbone): DINOv2 (Vision Transformer, ViT-B lub ViT-L) wstępnie trenowany poprzez uczenie samonadzorowane na starannie dobranym zbiorze 142 milionów obrazów. DINOv2 zapewnia bogate, generalizowalne reprezentacje cech bez konieczności trenowania specyficznego dla zadania.
Głowica segmentacyjna (Segmentation Head): Lekki dekoder mapujący cechy na poziomie łat (patches) DINOv2 na maski segmentacyjne na poziomie pikseli. Niestandardowa głowica TarmacView wykorzystuje projekt wieloskalowej agregacji cech, który łączy cechy z wielu bloków transformera, aby uchwycić zarówno drobne szczegóły pęknięć (z wczesnych warstw), jak i globalny kontekst (z późniejszych warstw).
Wyjście: Mapa prawdopodobieństwa na piksel o kształcie H×W×2 (pęknięcie vs. tło), progowa przy 0,5 w celu uzyskania końcowej binarnej maski pęknięcia używanej do obliczania IoU.

IoU testowe 0,519 reprezentuje IoU dla klasy pęknięcia uśrednione dla wyodrębnionego zestawu testowego. Ta wartość plasuje model TarmacView w zakresie od dobrego do doskonałego dla segmentacji pęknięć nawierzchni, gdzie wartości IoU 0,45-0,60 są typowe dla najnowocześniejszych modeli na wymagających rzeczywistych zbiorach danych.

Porównanie z Opublikowanymi Benchmarkami

Bezpośrednie porównanie IoU między różnymi badaniami segmentacji pęknięć jest skomplikowane ze względu na różnice w zbiorach danych, protokołach adnotacji i definicjach pęknięć. Jednak opublikowane wyniki na podobnych zbiorach danych pęknięć nawierzchni dostarczają kontekstu:

Model	Zbiór danych	IoU testowe (klasa pęknięcia)
TarmacView DINOv3	Pas startowy lotniska (własnościowy)	0,519
DeepCrack (2019)	CFD (droga publiczna)	0,420-0,465
U-Net + ResNet-50	Crack500 (droga publiczna)	0,475-0,510
HRNet-FCN	Nawierzchnia z UAV (akademicki)	0,498-0,530
SegFormer-B3	CrackTree200 (publiczny)	0,485-0,520
U-Net (dron, pas startowy)	Nawierzchnia pasa startowego (2020)	0,415-0,472

IoU TarmacView wynoszące 0,519 jest konkurencyjne w stosunku do najlepszych opublikowanych wyników, działając jednocześnie na rzeczywistych danych z pasów startowych lotnisk o wyższej zmienności adnotacji i bardziej zróżnicowanych warunkach powierzchniowych niż kontrolowane zbiory danych używane w badaniach akademickich. Model korzysta z silnego uczenia reprezentacji DINOv2 i specyficznego dla domeny reżimu treningowego obejmującego agresywną augmentację danych i strategie równoważenia klas.

Czynniki Wpływające na Wynik IoU

Na IoU testowe 0,519 wpływa kilka czynników:

Tolerancja grubości maski. Adnotacje rzeczywiste dla zbioru danych nawierzchni lotniskowych definiują pęknięcia o spójnej grubości wynoszącej około 3-5 pikseli w rozdzielczości adnotacji. Przewidywane maski modelu mogą mieć szerokość 2-8 pikseli w różnych segmentach pęknięć. Każda różnica pikselowa względem rzeczywistej grubości dodaje się do FP lub FN, zmniejszając IoU.

Wrażliwość pikseli krawędziowych. Dla typowego pęknięcia zajmującego 5000 pikseli w obrazie 512×512, krawędź pęknięcia (piksele na granicy między pęknięciem a nawierzchnią) stanowi około 400-600 pikseli. Jeśli krawędź przewidywania modelu jest przesunięta nawet o 1 piksel względem rzeczywistej krawędzi wzdłuż całej ścieżki pęknięcia, wynikowa suma FP+FN wynosząca 400-600 pikseli może obniżyć IoU o 0,05-0,10.

Wyzwanie pęknięć włoskowatych. Pęknięcia włoskowate (szerokość < 0,3 mm, odpowiadające 1-3 pikselom w rozdzielczości akwizycji) stanowią około 30 procent defektów w zestawie testowym. Dla tych pęknięć całkowity rzeczywisty obszar jest bardzo mały (100-500 pikseli), więc każde niedopasowanie ma nieproporcjonalnie duży wpływ na IoU. IoU dla pęknięć włoskowatych wynosi średnio 0,320-0,380, znacznie niżej niż 0,550-0,650 osiągane dla pęknięć średnich i szerokich.

Spójność adnotacji. IoU między adnotatorami na danych treningowych i testowych wynosi około 0,72 (dwóch niezależnych ekspertów adnotujących te same obrazy). To ustanawia praktyczną górną granicę osiągalnego IoU modelu — nawet doskonały model nie może przekroczyć spójności swojej rzeczywistości, ustanawiając pułap szumu wynoszący około 0,72-0,78.

Praktyczna Użyteczność Wyniku IoU

IoU testowe 0,519 oznacza, że na przeciętnym obrazie testowym część wspólna między przewidywaną a rzeczywistą maską pęknięcia stanowi około 51,9 procent ich sumy. W kategoriach operacyjnych:

Wskaźnik wykrywania pęknięć: Około 75-85 procent pikseli pęknięć jest poprawnie identyfikowanych (wskaźnik prawdziwie pozytywnych), ze zmiennością zależną od szerokości pęknięcia.
Wskaźnik fałszywie pozytywnych: Około 0,1-0,5 procent pikseli tła jest błędnie klasyfikowanych jako pęknięcie, co przekłada się na 250-1250 fałszywie pozytywnych pikseli pęknięcia na obraz 512×512.
Ciągłość pęknięcia: Model poprawnie identyfikuje obecność pęknięcia w 90+ procentach klatek obrazu zawierających mierzalne pęknięcia (>1mm szerokości), z pewną fragmentacją (pojedyncze ciągłe pęknięcie przewidywane jako wiele krótkich segmentów).
Klasyfikacja dotkliwości: Estymacje szerokości pęknięcia modelu korelują z pomiarami rzeczywistej szerokości przy R²=0,62-0,74, co jest wystarczające do klasyfikacji dotkliwości (włoskowate vs. średnie vs. poważne) zgodnie z normami ASTM D5340.

Czynniki Wpływające na IoU

Wiele czynników wpływa na wyniki IoU osiągalne przez model segmentacji pęknięć. Zrozumienie tych czynników jest niezbędne do interpretacji raportowanych wartości IoU, diagnozowania problemów z wydajnością i wyznaczania realistycznych celów dokładności.

Tolerancja Grubości Maski

Adnotacje segmentacji pęknięć są zazwyczaj tworzone poprzez rysowanie linii lub wielokąta wzdłuż ścieżki pęknięcia, a następnie przypisanie stałej szerokości reprezentującej obszar pęknięcia. Przypisana szerokość różni się między protokołami adnotacji — niektóre używają linii o szerokości 3 pikseli, inne 5 pikseli lub dynamicznie skalowanych szerokości w oparciu o rzeczywiste wymiary pęknięcia.

Grubość przewidywanej maski modelu rzadko dokładnie odpowiada grubości rzeczywistej. Jeśli protokół adnotacji przypisuje szerokość 3 pikseli, ale model przewiduje szerokość 5 pikseli, każdy piksel poza granicą adnotacji 3 pikseli staje się fałszywie pozytywny. Dla pęknięcia o długości 1000 pikseli, dodatkowe 2 piksele z każdej strony dają około 4000 fałszywie pozytywnych pikseli — potencjalnie obniżając IoU o 0,10-0,20.

Optymalną strategią maksymalizacji IoU jest trenowanie z funkcją straty uwzględniającą grubość, która karze odchylenia grubości, lub zastosowanie operacji przetwarzania końcowego (erozja lub dylatacja), które dostosowują grubość przewidywanej maski do standardu adnotacji. TarmacView stosuje krok przetwarzania końcowego z użyciem wyuczonego współczynnika dylatacji skalibrowanego na zbiorze walidacyjnym, co poprawia IoU testowe o 0,02-0,04.

Wrażliwość Pikseli Krawędziowych

Piksele krawędziowe — warstwa graniczna między pęknięciem a nawierzchnią — są dominującym źródłem redukcji IoU w dobrze działających modelach. Dla maski pęknięcia o obszarze A i obwodzie P, liczba pikseli krawędziowych wynosi około P (długość granicy w pikselach). Jeśli dopasowanie krawędzi modelu jest przesunięte średnio o 1 piksel, wynikowe FP+FN wynosi około 2P pikseli.

Dla typowego pęknięcia nawierzchni lotniskowej z A=5 000 pikseli i P=800 pikseli:

Idealne dopasowanie krawędzi (przesunięcie 0): FP+FN z krawędzi = 800 pikseli (niepewność grubości adnotacji)
Przesunięcie krawędzi o 1 piksel: FP+FN z krawędzi = 1 600 pikseli
Przesunięcie krawędzi o 2 piksele: FP+FN z krawędzi = 2 400 pikseli

Wpływ na IoU wynosi:

Przesunięcie zerowe: IoU = 5000/(5000+800) = 0,862 (pułap adnotacji)
Przesunięcie o 1 piksel: IoU = 5000/(5000+1600) = 0,758
Przesunięcie o 2 piksele: IoU = 5000/(5000+2400) = 0,676

Ta analiza ujawnia, że dopasowanie pikseli krawędziowych jest najważniejszym pojedynczym czynnikiem oddzielającym IoU 0,50 od IoU 0,75 dla segmentacji pęknięć. Modele, które osiągają precyzyjne dopasowanie granic poprzez mapy cech o wysokiej rozdzielczości i udoskonalanie w przetwarzaniu końcowym, konsekwentnie przewyższają te, które wychwytują lokalizację pęknięcia, ale nie jego granicę.

Wyzwanie Małych Pęknięć

Małe pęknięcia — te o całkowitej liczbie pikseli poniżej około 500 pikseli w obrazie ewaluacyjnym — stanowią fundamentalne wyzwanie dla oceny opartej na IoU. Dla włoskowatego pęknięcia o 200 pikselach, przesunięcie zaledwie 5 pikseli z każdej strony dodaje 10-20 pikseli FP+FN (5-10 procent obszaru pęknięcia). Względna wrażliwość IoU na błąd bezwzględny dla małych obiektów jest radykalnie wyższa niż dla dużych obiektów.

Stosując tę samą analizę przesunięcia krawędzi o 1 piksel dla małego pęknięcia (A=200, P=80):

Przesunięcie zerowe: IoU = 200/(200+80) = 0,714 (pułap adnotacji)
Przesunięcie o 1 piksel: IoU = 200/(200+160) = 0,556
Przesunięcie o 2 piksele: IoU = 200/(200+240) = 0,455

Kara IoU za to samo przesunięcie krawędzi o 1 piksel wynosi 0,158 dla małego pęknięcia (0,714 do 0,556) w porównaniu do 0,104 dla dużego pęknięcia (0,862 do 0,758). Ta wrażliwość na skalę oznacza, że agregacja IoU dla pęknięć wszystkich rozmiarów bez raportowania stratyfikowanego według rozmiaru może przesłaniać różnice w wydajności — model, który dobrze radzi sobie z dużymi pęknięciami, ale słabo z małymi, może wykazywać akceptowalne zagregowane IoU, jednocześnie pomijając najbardziej krytyczne dla bezpieczeństwa pęknięcia włoskowate.

Z tego powodu TarmacView raportuje IoU stratyfikowane według kategorii szerokości pęknięcia:

Pęknięcia włoskowate (< 1mm szerokości): IoU = 0,32-0,38
Pęknięcia średnie (1-3mm szerokości): IoU = 0,48-0,55
Pęknięcia szerokie (> 3mm szerokości): IoU = 0,55-0,65

Jakość Adnotacji

Jakość i spójność adnotacji rzeczywistych ustanawia twardą górną granicę osiągalnego IoU. Wiele badań udokumentowało zgodność między adnotatorami dla segmentacji pęknięć nawierzchni:

Ten sam adnotator, ten sam obraz, inna sesja: IoU = 0,78-0,88
Różni adnotatorzy, ten sam obraz, ten sam protokół: IoU = 0,62-0,78
Różni adnotatorzy, ten sam obraz, inny protokół: IoU = 0,45-0,65

Oznacza to, że nawet teoretycznie doskonały model nie może przekroczyć około 0,78-0,88 IoU na typowych zbiorach danych inspekcji infrastruktury, ponieważ sama rzeczywistość jest niespójna. Techniki uczenia aktywnego i konsensusu adnotacji mogą poprawić jakość adnotacji poprzez adnotowanie każdego obrazu przez wielu adnotatorów i stosowanie głosowania większościowego lub rozstrzygania eksperckiego w celu rozwiązywania niezgodności.

Rozdzielczość Obrazu i Warunki Akwizycji

Rozdzielczość obrazu bezpośrednio wpływa na IoU, ponieważ determinuje liczbę pikseli dostępnych do reprezentacji pęknięcia. Pęknięcie o szerokości 10 pikseli w rozdzielczości 20 MP może mieć tylko 3 piksele w rozdzielczości 5 MP. Przy niższych rozdzielczościach bezwzględny budżet pikselowy dla pęknięcia maleje, czyniąc IoU bardziej wrażliwym na niedopasowanie.

Protokół inspekcji nawierzchni lotniczych określa wymagania dotyczące rozdzielczości akwizycji, aby zapewnić odpowiednią rozdzielczość defektów. Wytyczne ICAO dotyczące inspekcji nawierzchni lotniskowych zalecają minimalne odległości próbkowania w terenie (GSD), które zapewniają rozdzielczość pęknięć o szerokości zaledwie 0,5 mm. Przy GSD 0,2 mm/piksel (typowe dla inspekcji UAV na wysokości 10 m), włoskowate pęknięcie o szerokości 0,5 mm ma tylko 2,5 piksela — ledwie na progu niezawodnej adnotacji i segmentacji.

Warunki oświetleniowe również wpływają na wydajność IoU. Pęknięcia na mokrej nawierzchni mają wyższy kontrast, ale także wytwarzają odbicia zwierciadlane, które mogą powodować fałszywie pozytywne wyniki. Pęknięcia w cieniu mają niższy kontrast i mogą być częściowo niewidoczne. Modele trenowane z augmentacją cienia i mokrej powierzchni (jak w potoku TarmacView) wykazują o 0,03-0,06 wyższe IoU testowe w trudnych warunkach oświetleniowych w porównaniu do modeli trenowanych bez augmentacji specyficznej dla domeny.

Raportowanie IoU

Prawidłowe raportowanie metryk IoU jest niezbędne dla powtarzalności, porównań między badaniami i podejmowania decyzji operacyjnych. Poniższe wytyczne stanowią najlepsze praktyki raportowania IoU w badaniach i wdrożeniach inspekcji infrastruktury.

Niezbędne Elementy Raportowania

Raportuj IoU dla każdej klasy, nie tylko mIoU. Dla segmentacji pęknięć, raportuj IoU dla klasy pęknięcia jawnie obok średniego IoU dla wszystkich klas. Wysokie mIoU może ukrywać słabą wydajność pęknięć, jeśli tło lub inne klasy defektów dominują.

Określ próg. Raportuj próg binaryzacji używany do konwersji wyjść prawdopodobieństwa modelu na maski binarne. Standardowy próg to 0,5, ale optymalizacja przetwarzania końcowego może używać innych progów. Przebieg progowy (raportowanie IoU dla progów od 0,3 do 0,7 w krokach co 0,1) zapewnia pełniejszy obraz zachowania modelu.

Raportuj przedziały ufności. Wartości IoU oszacowane z skończonego zbioru testowego mają niepewność próbkowania. Raportuj 95-procentowy przedział ufności przy użyciu bootstrapu (ponowne próbkowanie obrazów testowych ze zwracaniem 1000 razy i obliczanie IoU dla każdej próbki). Raportowane IoU 0,519 z 95-procentowym przedziałem ufności [0,497, 0,541] jest bardziej informacyjne niż estymacja punktowa.

Uwzględnij metryki jakości adnotacji. Raportuj zgodność między adnotatorami (IoU między niezależnymi adnotatorami na podzbiorze obrazów), aby ustalić pułap szumu ewaluacyjnego. To kontekstualizuje IoU modelu — 0,519 wygląda inaczej, gdy pułap adnotacji wynosi 0,72 w porównaniu do 0,92.

Określ rozdzielczość obrazu i przetwarzanie wstępne. Raportuj rozdzielczość wejściową, czy obrazy są zmniejszane przed inferencją i jakie normalizacje są stosowane. Wartości IoU przy rozdzielczości wejściowej 512×512 nie są bezpośrednio porównywalne z IoU przy 1024×1024.

Format Raportowania

Zalecana tabela raportowania dla IoU segmentacji pęknięć obejmuje:

Metryka	Wartość	95% CI	Uwagi
IoU pęknięć (próg 0,5)	0,519	[0,497, 0,541]	Metryka podstawowa
IoU tła	0,992	[0,990, 0,994]	Oczekiwany bliski perfekcji
mIoU (wszystkie klasy)	0,755	[0,744, 0,767]	Obejmuje klasę tła
mIoU (tylko klasy defektów)	0,519	[0,497, 0,541]	Wyklucza tło
IoU między adnotatorami	0,723	[0,701, 0,745]	Pułap ewaluacyjny

Metryki Uzupełniające

IoU nie powinien być raportowany w izolacji. Metryki uzupełniające zapewniają pełniejszą ocenę dokładności:

Precyzja (TP / (TP + FP)): Mierzy, ile przewidywanych pikseli pęknięć to rzeczywiście pęknięcia. Niska precyzja wskazuje na nadprzewidywanie (fałszywe alarmy).
Czułość (Recall) (TP / (TP + FN)): Mierzy, ile rzeczywistych pikseli pęknięć zostało wykrytych. Niska czułość wskazuje na pominięte pęknięcia.
F1-Score (średnia harmoniczna precyzji i czułości): Odpowiednik współczynnika Dice’a. Zapewnia zrównoważoną miarę jednowynikową.
Dokładność pikselowa: Ułamek wszystkich poprawnie sklasyfikowanych pikseli (TP + TN / suma). Niewskazana jako podstawowa metryka ze względu na stronniczość wynikającą z nierównowagi klas.
Boundary F1: Wariant oceniający dokładność pikseli krawędziowych, istotny dla aplikacji pomiaru szerokości pęknięcia.

Lista Kontrolna Powtarzalności

Aby zapewnić powtarzalność wyników IoU:

Określ dokładny skład zestawu testowego (liczba obrazów, rozkład typów pęknięć, rozdzielczość)
Raportuj próg binaryzacji wyników modelu
Określ, czy model był trenowany z augmentacją danych (i jakimi augmentacjami)
Raportuj protokół adnotacji (szerokość linii, kryteria definicji pęknięcia)
Ujawnij wszelkie przetwarzanie końcowe (operacje morfologiczne, optymalizacja progu na zbiorze walidacyjnym)
Raportuj IoU dla wielu progów (0,3; 0,5; 0,75) dla kompleksowej oceny

IoU a Użyteczność Praktyczna

Ostatecznym celem IoU w inspekcji infrastruktury nie jest porównanie akademickie, ale podejmowanie decyzji operacyjnych. Zrozumienie, jak IoU przekłada się na praktyczną użyteczność — zdolność do podejmowania decyzji konserwacyjnych w oparciu o wyniki modelu — jest kluczowe dla wdrażania systemów segmentacji pęknięć w terenie.

IoU a Jakość Decyzji Konserwacyjnych

Związek między IoU a jakością decyzji konserwacyjnych nie jest liniowy. Model z IoU=0,45 może tworzyć mapy pęknięć, które są operacyjnie wystarczające dla niektórych przypadków użycia, podczas gdy model z IoU=0,55 może być operacyjnie niewystarczający dla innych, w zależności od aplikacji końcowej.

Przypadek użycia 1 — Przesiewowe wykrywanie pęknięć (identyfikacja, które sekcje pasa startowego zawierają pęknięcia): Dla tego przypadku użycia, czułość (ułamek wykrytych pęknięć) jest ważniejsza niż precyzyjne dopasowanie granic. Model z IoU=0,40, ale czułością=0,85 może być bardziej użyteczny operacyjnie niż model z IoU=0,55, ale czułością=0,70. Model o wysokiej czułości oznacza więcej potencjalnych defektów do przeglądu przez człowieka, nawet jeśli jego dokładność granic jest niższa.

Przypadek użycia 2 — Klasyfikacja szerokości pęknięć (przypisywanie pęknięć do kategorii dotkliwości zgodnie z ASTM D5340): Dla tego przypadku użycia, dokładność granic jest krytyczna. Model z IoU=0,50 i systematycznym nadprzewidywaniem o 2 piksele może klasyfikować pęknięcia włoskowate jako pęknięcia średniej szerokości, wywołując niepotrzebne czynności konserwacyjne. Model z IoU=0,45, ale bezstronnym przewidywaniem granic może generować dokładniejsze estymacje szerokości.

Przypadek użycia 3 — Kwantyfikacja obszaru pęknięć (pomiar całkowitego obszaru pęknięć do obliczenia PCI): Dla tego przypadku użycia, bezwzględne obciążenie w przewidywanym obszarze pęknięcia ma większe znaczenie niż IoU dla poszczególnych pikseli. Model, który konsekwentnie przewiduje o 20 procent więcej obszaru pęknięcia niż rzeczywistość (IoU dotknięty obciążeniem FP), będzie przeszacowywać odliczenia PCI, prowadząc do przedwczesnego budżetowania konserwacji.

Mapowanie IoU na Metryki Operacyjne

Związek między IoU a praktyczną jakością detekcji można określić ilościowo, konwertując IoU na wskaźnik wykrywalności (procent pęknięć, które model pomyślnie identyfikuje). Dla binarnego systemu segmentacji pęknięć, jeśli zdefiniujemy pęknięcie jako „wykryte", gdy przewidywana maska nakłada się na rzeczywiste pęknięcie co najmniej w 30 procentach (próg IoU dla minimalnego znaczącego wykrycia), zależność kształtuje się następująco:

IoU modelu	Przybliżony wskaźnik wykrywalności pęknięć (TPR)	Wskaźnik fałszywie pozytywnych (FPR)
0,30	60-70%	0,3-0,7%
0,40	70-80%	0,2-0,5%
0,50	78-86%	0,1-0,3%
0,60	85-92%	0,05-0,2%
0,70	90-96%	< 0,1%

Te zakresy są przybliżone i zależą od rozkładu szerokości pęknięć oraz rozdzielczości obrazu. Dla IoU TarmacView wynoszącego 0,519, szacowany wskaźnik wykrywalności pęknięć wynosi około 80-85 procent, co oznacza, że 15-20 procent pęknięć (głównie pęknięcia włoskowate poniżej 0,5 mm szerokości) umyka automatycznemu wykrywaniu i wymagałoby albo poprawy czułości modelu, albo ręcznego przeglądu.

Operacyjne Progi Wdrożeniowe

Dla automatycznego wykrywania pęknięć na nawierzchniach lotniskowych zalecane są następujące progi operacyjne:

Minimalny akceptowalny IoU (przesiew): IoU ≥ 0,40. Poniżej tego progu model generuje zbyt wiele fałszywie negatywnych (pominięte pęknięcia) i fałszywie pozytywnych (fałszywe alarmy), aby być użytecznym operacyjnie. Przesiew przy IoU=0,40 może nadal pomijać 25-35 procent pęknięć, wymagając znacznego wysiłku przeglądu przez człowieka.

Standardowy IoU wdrożeniowy: IoU ≥ 0,50. Przy tym progu model wykrywa 75-85 procent pęknięć z akceptowalnymi wskaźnikami fałszywie pozytywnych. Jest to minimalny zalecany IoU dla automatycznego wykrywania pęknięć w nadzorowanym przepływie pracy inspekcji, gdzie wykryte pęknięcia są weryfikowane przez ludzi.

IoU wdrożeniowy wysokiej pewności: IoU ≥ 0,60. Przy tym progu model wykrywa 85-92 procent pęknięć z bardzo niskimi wskaźnikami fałszywie pozytywnych. Ten poziom IoU wspiera półautomatyczną klasyfikację dotkliwości, gdzie pomiary szerokości i zasięgu pęknięć są zaufane przy minimalnej weryfikacji przez człowieka.

IoU wdrożeniowy w pełni automatyczny: IoU ≥ 0,70. Przy tym progu model zbliża się do poziomu spójności adnotacji ludzkich (przy IoU między adnotatorami 0,62-0,78). Ten poziom IoU wspiera w pełni automatyczne obliczanie PCI, gdzie nie jest wymagany przegląd segmentacji pęknięć przez człowieka.

Głowica segmentacji pęknięć DINOv3 TarmacView przy IoU=0,519 działa w zakresie standardowego wdrożenia, odpowiednim dla nadzorowanych przepływów pracy wykrywania pęknięć z weryfikacją przez człowieka. Trwające ulepszenia modelu mają na celu osiągnięcie progu wdrożeniowego wysokiej pewności (IoU ≥ 0,60) poprzez ulepszenia architektoniczne, rozszerzenie danych treningowych i optymalizację przetwarzania końcowego.

IoU a Zgodność Regulacyjna

Dla systemów wykrywania pęknięć opartych na AI używanych w inspekcji nawierzchni lotniskowych, należy ustalić związek między IoU a zgodnością regulacyjną. Chociaż żaden organ regulacyjny lotnictwa (ICAO, FAA, EASA) nie określa obecnie progu IoU dla systemów inspekcji AI, ogólne ramy akceptacji wynikają z:

ISO/IEC 25010 (Systemy i oprogramowanie — Wymagania jakościowe i ocena — SQuaRE): Podcharakterystyka poprawności funkcjonalnej wymaga, aby wyniki systemu AI odpowiadały rzeczywistości w określonych tolerancjach. IoU służy jako ilościowa metryka poprawności dla wyników segmentacji.

ASTM D5340 (Standardowa metoda badania wskaźnika stanu nawierzchni lotnisk — PCI): Metodologia PCI zależy od dokładnych pomiarów zasięgu i dotkliwości pęknięć. IoU modelu segmentacji pęknięć bezpośrednio wpływa na niezawodność automatycznego obliczania PCI.

ICAO Annex 14, Tom I — Rozdział 10 (Utrzymanie lotnisk): Wymóg, aby nawierzchnie pasów startowych były utrzymywane w stanie niezagrażającym bezpieczeństwu statków powietrznych, implikuje, że każdy system inspekcji — w tym systemy oparte na AI — musi wykrywać defekty z wystarczającą niezawodnością. IoU zapewnia ilościową podstawę do wykazania tej niezawodności.

System segmentacji pęknięć TarmacView dokumentuje swoją wydajność IoU w różnych warunkach oświetleniowych, teksturze nawierzchni i typach pęknięć jako część pakietu dowodów walidacyjnych wspierających wdrożenie na operacyjnych lotniskach. Raportowane IoU 0,519, wraz z powiązanymi przedziałami ufności i raportowaniem stratyfikowanym według typów pęknięć, umożliwia operatorom lotnisk ocenę przydatności systemu do ich konkretnego przepływu pracy konserwacyjnej i wymogów zgodności.

Najczęściej Zadawane Pytania

: Intersection Over Union (IoU), nazywany również indeksem Jaccarda, jest metryką określającą ilościowo nakładanie się dwóch obszarów — zazwyczaj przewidywanej maski segmentacyjnej i maski rzeczywistej. Oblicza się go jako IoU = |A ∩ B| / |A ∪ B|, gdzie A to obszar przewidywany, a B to obszar rzeczywisty. Licznik |A ∩ B| reprezentuje obszar (lub liczbę pikseli), gdzie obie maski są zgodne. Mianownik |A ∪ B| reprezentuje całkowity obszar pokryty przez którąkolwiek z masek. W kategoriach prawdziwie pozytywnych (TP), fałszywie pozytywnych (FP) i fałszywie negatywnych (FN), IoU można wyrazić jako IoU = TP / (TP + FP + FN). Wynik to wartość między 0 (brak nakładania) a 1 (idealne nakładanie).
: Dla segmentacji pęknięć na nawierzchniach lotniskowych i powierzchniach infrastrukturalnych, wynik IoU powyżej 0,5 jest ogólnie uznawany za akceptowalny, podczas gdy wyniki powyżej 0,7 wskazują na doskonałą jakość segmentacji. Głowica segmentacji pęknięć TarmacView oparta na DINOv3 osiąga IoU testowe 0,519, co stanowi dobry wynik, biorąc pod uwagę nieodłączną trudność segmentacji pęknięć — pęknięcia zajmują bardzo mały ułamek całkowitej powierzchni obrazu (często mniej niż 1-2 procent), co czyni tę metrykę szczególnie wymagającą. W obrazowaniu medycznym wartości IoU 0,6-0,8 są typowe dla segmentacji narządów, gdzie obiekty są duże. Dla wykrywania pęknięć na drogach i pasach startowych porównanie komplikuje ekstremalna nierównowaga klas między pikselami pęknięć a pikselami tła.
: Współczynnik Dice'a (zwany również Współczynnikiem Podobieństwa Dice'a lub DSC, odpowiednik F1-score) jest ściśle powiązany z IoU, ale nadaje większą wagę obszarowi nakładania się. Dice oblicza się jako DSC = 2|A ∩ B| / (|A| + |B|), lub równoważnie DSC = 2TP / (2TP + FP + FN). Kluczowa różnica polega na tym, że Dice podwaja wagę prawdziwie pozytywnych zarówno w liczniku, jak i mianowniku, co sprawia, że generalnie daje wyższe wartości niż IoU dla tej samej jakości segmentacji. Zależność matematyczna to DSC = 2×IoU / (1+IoU), i odwrotnie IoU = DSC / (2-DSC). Dla niedoskonałych segmentacji, Dice jest zawsze większe lub równe IoU. Idealna segmentacja daje obie metryki równe 1.
: Najczęstszym progiem IoU jest 0,5 (AP50), który jest standardem Pascal VOC — detekcja lub segmentacja jest uznawana za poprawną, jeśli nakłada się co najmniej w 50 procentach z rzeczywistością. Benchmark COCO stosuje ostrzejszą ocenę, uśredniając AP dla progów IoU od 0,5 do 0,95 w krokach co 0,05, oznaczane jako AP@[0.5:0.95]. Próg IoU 0,75 (AP75) jest używany do oceny modeli wymagających dokładniejszej lokalizacji. W przypadku inspekcji nawierzchni lotniskowych, gdzie nawet małe pominięte segmenty pęknięć mogą prowadzić do uszkodzeń strukturalnych, praktycy często oceniają przy wielu progach, aby zrozumieć zachowanie modelu na różnych poziomach wymagań precyzyjnych.
: Mean IoU (mIoU) to średnia arytmetyczna wyników IoU obliczonych osobno dla każdej klasy w problemie segmentacji wieloklasowej. Na przykład, w problemie segmentacji trzech klas z klasami 'pęknięcie', 'uszczelniacz' i 'nienaruszona nawierzchnia', mIoU = (IoU_pęknięcie + IoU_uszczelniacz + IoU_nawierzchnia) / 3. mIoU traktuje każdą klasę równo, niezależnie od tego, ile pikseli zajmuje, co czyni go sprawiedliwą metryką dla niezbalansowanych zbiorów danych, gdzie piksele pęknięć mogą stanowić mniej niż 1 procent całości. Wysokie mIoU wymaga, aby model dobrze radził sobie ze wszystkimi klasami jednocześnie, a nie tylko z klasą większościową.
: Segmentacja pęknięć stwarza wyjątkowe wyzwania dla optymalizacji IoU. Pęknięcia zajmują bardzo mały ułamek całkowitej powierzchni obrazu — zazwyczaj 0,5-2 procent. Ta ekstremalna nierównowaga klas oznacza, że nawet małe błędy w klasyfikacji pikseli na granicach pęknięć znacząco wpływają na metrykę. Model, który poprawnie przewiduje 90 procent pikseli pęknięć, ale przeszacowuje szerokość pęknięcia o 2-3 piksele, będzie miał znacznie obniżone IoU, ponieważ fałszywie pozytywne piksele na krawędziach pęknięć dodają się do sumy bez proporcjonalnego zwiększania części wspólnej. Dodatkowo, pęknięcia mają wysokie współczynniki kształtu (długie i wąskie), więc piksele krawędziowe stanowią znacznie większy ułamek całkowitej powierzchni pęknięcia w porównaniu do zwartych obiektów.
: TarmacView używa IoU jako podstawowej metryki ewaluacyjnej dla swojej głowicy segmentacji pęknięć opartej na DINOv3. Model osiąga IoU testowe 0,519 na zbiorach danych nawierzchni lotniskowych, z wydajnością walidowaną w różnych warunkach oświetleniowych, teksturach nawierzchni i typach pęknięć (podłużne, poprzeczne, siatkowe i odbiciowe). IoU jest raportowane na zbiorze testowym po zakończeniu treningu, przy użyciu obrazów wyodrębnionych, które nie były widziane podczas treningu ani walidacji. Metryka kieruje decyzjami architektonicznymi, takimi jak projekt głowicy maski, ważenie funkcji straty i parametry przetwarzania końcowego. TarmacView uzupełnia raportowanie IoU o precyzję, czułość i F1-score, aby zapewnić kompleksowy obraz jakości segmentacji.
: Na wyniki IoU wpływa kilka czynników. Tolerancja grubości maski — IoU karze zarówno nadprzewidywanie (przewidywanie zbyt wielu pikseli pęknięć), jak i niedoprzewidywanie w równym stopniu, więc grubość maski bezpośrednio wpływa na wynik. Dokładność pikseli krawędziowych — piksele graniczne, w których przewidywanie nie pokrywa się dokładnie z rzeczywistością, przyczyniają się zarówno do fałszywie pozytywnych, jak i fałszywie negatywnych. Małe pęknięcia — cienkie pęknięcia włoskowate o szerokości poniżej 0,3 mm mają bardzo mało pikseli, więc małe niedopasowania powodują nieproporcjonalnie duże spadki IoU. Jakość adnotacji — niespójne adnotacje rzeczywistości (różni adnotatorzy oznaczający to samo pęknięcie z nieco różnymi szerokościami) wprowadzają szum, który ogranicza osiągalne IoU. Rozdzielczość obrazu — wyższa rozdzielczość wychwytuje więcej szczegółów pęknięcia, ale także powiększa niezgodności na poziomie pikseli.
: Współczynnik Dice'a konsekwentnie daje wyższe wartości niż IoU dla każdej niedoskonałej segmentacji, ponieważ podwójnie zlicza obszar prawdziwie pozytywny. Matematycznie, DSC = 2TP / (2TP + FP + FN), podczas gdy IoU = TP / (TP + FP + FN). Dodatkowy współczynnik 2 w liczniku i mianowniku DSC oznacza, że prawdziwie pozytywne są ważone bardziej w stosunku do fałszywie pozytywnych i fałszywie negatywnych. Na przykład segmentacja z TP=80, FP=20, FN=20 daje IoU = 80/120 = 0,667 i DSC = 160/200 = 0,800. Względna różnica jest największa przy niskich poziomach nakładania i zbiega się, gdy jakość segmentacji zbliża się do perfekcji. Ta właściwość sprawia, że Dice wydaje się bardziej optymistyczny, co jest czasem preferowane w obrazowaniu medycznym, gdzie priorytetem jest maksymalizacja wykrytego nakładania, a nie dokładność granic.
: Najlepsze praktyki raportowania IoU w inspekcji infrastruktury obejmują: (1) raportowanie zarówno IoU dla każdej klasy, jak i średniego IoU (mIoU) dla wszystkich klas; (2) określenie progu maski użytego do binaryzacji wyników modelu przed obliczeniem IoU; (3) podanie odchylenia standardowego lub 95% przedziału ufności dla zbioru testowego; (4) raportowanie IoU wraz z metrykami uzupełniającymi — precyzją, czułością, F1-score i współczynnikiem Dice'a — dla pełnego obrazu dokładności; (5) podanie rozdzielczości obrazu i protokołu adnotacji, aby kontekstualizować osiągalny pułap IoU; (6) dla metryk specyficznych dla pęknięć, raportowanie Crack-IoU (IoU obliczone tylko na pikselach klasy pęknięcia) oddzielnie od IoU tła.

Dokładna Segmentacja Pęknięć z AI

TarmacView wykorzystuje Intersection Over Union jako podstawową metrykę do walidacji dokładności segmentacji pęknięć. Nasza głowica segmentacyjna oparta na DINOv3 osiąga wiodące w branży wyniki IoU na danych z inspekcji nawierzchni lotniskowych. Skontaktuj się z nami, aby zobaczyć, jak precyzyjne wykrywanie pęknięć oparte na AI może przekształcić Twój przepływ pracy w inspekcji infrastruktury.

Skontaktuj się Umów prezentację

Dowiedz się więcej

Procentowy udział powierzchni spękań w ocenie nawierzchni i konstrukcji

Procentowy udział powierzchni spękań (crack_area_pct) to stosunek powierzchni maski spękań do całkowitej analizowanej powierzchni obrazu, wyrażony w procentach....

Jun 17, 2026 26 min czytania

measurement pavement +3

Precyzja, czułość i wynik F1 w wykrywaniu defektów

Precyzja, czułość i wynik F1 to metryki klasyfikacji służące do oceny wydajności modeli AI i uczenia maszynowego w wykrywaniu defektów nawierzchni i infrastrukt...

Jun 18, 2026

AI Machine Learning +3

Segmentacja Semantyczna dla Rozumienia Scen Infrastrukturalnych

Segmentacja semantyczna przypisuje etykietę kategorii do każdego piksela obrazu, umożliwiając pełne zrozumienie sceny do inspekcji infrastruktury. Obejmuje arch...

Jun 17, 2026 36 min czytania

Technology Computer Vision +3