Qu'est-ce que l'Intersection sur Union (IoU) et comment est-elle calculée ?

L'Intersection sur Union (IoU), également appelée indice de Jaccard, est une métrique qui quantifie le recouvrement entre deux régions — généralement un masque de segmentation prédit et un masque de vérité terrain. Elle est calculée comme IoU = |A ∩ B| / |A ∪ B|, où A est la région prédite et B est la vérité terrain. Le numérateur |A ∩ B| représente la zone (ou le nombre de pixels) où les deux masques concordent. Le dénominateur |A ∪ B| représente la zone totale couverte par l'un ou l'autre masque. En termes de vrais positifs (VP), faux positifs (FP) et faux négatifs (FN), l'IoU peut s'exprimer comme IoU = VP / (VP + FP + FN). Le résultat est une valeur comprise entre 0 (aucun recouvrement) et 1 (recouvrement parfait).

Quel est un bon score IoU pour la segmentation des fissures ?

Pour la segmentation des fissures sur les chaussées aéroportuaires et les surfaces d'infrastructures, un score IoU supérieur à 0,5 est généralement considéré comme acceptable, tandis que des scores supérieurs à 0,7 indiquent une excellente qualité de segmentation. La tête de segmentation des fissures basée sur DINOv3 de TarmacView atteint un IoU de test de 0,519, ce qui représente une performance solide compte tenu de la difficulté inhérente à la segmentation des fissures — les fissures occupent une très petite fraction de la surface totale de l'image (souvent moins de 1 à 2 pour cent), rendant la métrique particulièrement exigeante. En imagerie médicale, des valeurs d'IoU de 0,6 à 0,8 sont typiques pour la segmentation d'organes où les objets sont grands. Pour la détection des fissures sur les routes et les pistes, la comparaison est compliquée par le déséquilibre extrême des classes entre les pixels de fissure et les pixels d'arrière-plan.

Quelle est la différence entre l'IoU et le coefficient de Dice ?

Le coefficient de Dice (également appelé coefficient de similarité de Dice ou DSC, et équivalent au F1-score) est étroitement lié à l'IoU mais accorde plus de poids à la région de recouvrement. Le Dice est calculé comme DSC = 2|A ∩ B| / (|A| + |B|), ou de manière équivalente DSC = 2VP / (2VP + FP + FN). La différence clé est que le Dice pondère les vrais positifs deux fois à la fois au numérateur et au dénominateur, ce qui produit généralement des valeurs plus élevées que l'IoU pour une même qualité de segmentation. La relation mathématique est DSC = 2×IoU / (1+IoU), et inversement IoU = DSC / (2-DSC). Pour les segmentations imparfaites, le Dice est toujours supérieur ou égal à l'IoU. Une segmentation parfaite donne aux deux métriques une valeur de 1.

Quels seuils d'IoU sont utilisés dans les benchmarks d'évaluation standards ?

Le seuil d'IoU le plus courant est 0,5 (AP50), qui est la norme Pascal VOC — une détection ou segmentation est considérée comme correcte si elle recouvre au moins 50 pour cent de la vérité terrain. Le benchmark COCO utilise une évaluation plus stricte, en faisant la moyenne de l'AP à travers les seuils d'IoU de 0,5 à 0,95 par pas de 0,05, noté AP@[0.5:0.95]. Le seuil d'IoU de 0,75 (AP75) est utilisé pour évaluer les modèles nécessitant une localisation plus précise. Pour l'inspection des chaussées de pistes où même de petits segments de fissures manqués peuvent se propager en défaillances structurelles, les praticiens évaluent souvent à plusieurs seuils pour comprendre le comportement du modèle selon différentes exigences de précision.

Pourquoi l'IoU est-elle difficile à optimiser pour la segmentation des fissures ?

La segmentation des fissures présente des défis uniques pour l'optimisation de l'IoU. Les fissures occupent une très petite fraction de la surface totale de l'image — généralement 0,5 à 2 pour cent. Ce déséquilibre extrême des classes signifie que même de petites erreurs dans la classification des pixels aux limites des fissures impactent significativement la métrique. Un modèle qui prédit correctement 90 pour cent des pixels de fissure mais surestime la largeur de la fissure de 2 à 3 pixels verra son IoU considérablement réduit car les pixels faux positifs aux bords de la fissure s'ajoutent à l'union sans augmenter proportionnellement l'intersection. De plus, les fissures ont des rapports d'aspect élevés (longues et étroites), donc les pixels de bord constituent une fraction beaucoup plus grande de la surface totale de la fissure par rapport aux objets compacts.

Comment l'IoU est-elle utilisée dans le système de segmentation des fissures de TarmacView ?

TarmacView utilise l'IoU comme métrique d'évaluation principale pour sa tête de segmentation des fissures basée sur DINOv3. Le modèle atteint un IoU de test de 0,519 sur les ensembles de données de chaussées aéroportuaires, avec des performances validées dans différentes conditions d'éclairage, textures de chaussée et types de fissures (longitudinales, transversales, en maillage et de réflexion). L'IoU est rapportée sur l'ensemble de test après la fin de l'entraînement, en utilisant des images retenues jamais vues pendant l'entraînement ou la validation. La métrique guide les décisions architecturales telles que la conception de la tête de masque, la pondération des fonctions de perte et les paramètres de post-traitement. TarmacView complète le rapport d'IoU avec la précision, le rappel et le F1-score pour fournir une vue complète de la qualité de segmentation.

Quels facteurs affectent les scores IoU dans les modèles de segmentation ?

Plusieurs facteurs affectent les scores IoU. La tolérance d'épaisseur du masque — l'IoU pénalise à la fois la sur-prédiction (prédire trop de pixels de fissure) et la sous-prédiction de manière égale, donc l'épaisseur du masque impacte directement le score. La précision des pixels de bord — les pixels de limite où la prédiction ne s'aligne pas exactement avec la vérité terrain contribuent à la fois aux faux positifs et aux faux négatifs. Les petites fissures — les fissures capillaires fines de moins de 0,3 mm de largeur ont très peu de pixels, donc de petits désalignements provoquent des chutes d'IoU disproportionnées. La qualité d'annotation — des annotations de vérité terrain incohérentes (différents annotateurs humains marquant la même fissure avec des largeurs légèrement différentes) introduisent du bruit qui plafonne l'IoU réalisable. La résolution d'image — une résolution plus élevée capture plus de détails de fissure mais amplifie également les désaccords au niveau des pixels.

Pourquoi le coefficient de Dice donne-t-il des valeurs plus élevées que l'IoU ?

Le coefficient de Dice donne systématiquement des valeurs plus élevées que l'IoU pour toute segmentation imparfaite car il double-compter la zone de vrais positifs. Mathématiquement, DSC = 2VP / (2VP + FP + FN) tandis que IoU = VP / (VP + FP + FN). Le facteur supplémentaire de 2 au numérateur et au dénominateur de DSC signifie que les vrais positifs sont pondérés plus lourdement par rapport aux faux positifs et faux négatifs. Par exemple, une segmentation avec VP=80, FP=20, FN=20 donne IoU = 80/120 = 0,667 et DSC = 160/200 = 0,800. La différence relative est la plus grande à de faibles niveaux de recouvrement et converge à mesure que la qualité de segmentation se rapproche de la perfection. Cette propriété rend le Dice plus optimiste, ce qui est parfois préféré en imagerie médicale où la priorité est de maximiser le recouvrement détecté plutôt que la précision exacte des limites.

Comment rapporter les résultats d'IoU pour l'inspection d'infrastructures ?

Les bonnes pratiques pour rapporter l'IoU dans l'inspection d'infrastructures comprennent : (1) rapporter à la fois l'IoU par classe et l'IoU moyen (mIoU) pour toutes les classes ; (2) spécifier le seuil de masque utilisé pour binariser les sorties du modèle avant le calcul de l'IoU ; (3) inclure l'écart type ou l'intervalle de confiance à 95 % sur l'ensemble de test ; (4) rapporter l'IoU accompagnée de métriques complémentaires — précision, rappel, F1-score et coefficient de Dice — pour une image complète de la précision ; (5) indiquer la résolution d'image et le protocole d'annotation pour contextualiser le plafond d'IoU réalisable ; (6) pour les métriques spécifiques aux fissures, rapporter l'IoU des fissures (IoU calculée uniquement sur les pixels de la classe fissure) séparément de l'IoU d'arrière-plan.

Intersection sur Union (IoU)

Q: Qu'est-ce que l'IoU moyen (mIoU) et comment est-il utilisé ?

L'IoU moyen (mIoU) est la moyenne arithmétique des scores IoU calculés séparément pour chaque classe dans un problème de segmentation multi-classes. Par exemple, dans un problème de segmentation à trois classes avec les classes « fissure », « joint d'étanchéité » et « chaussée intacte », mIoU = (IoU_fissure + IoU_joint + IoU_chaussée) / 3. Le mIoU traite chaque classe de manière égale, indépendamment du nombre de pixels qu'elle occupe, ce qui en fait une métrique équitable pour les ensembles de données déséquilibrés où les pixels de fissure peuvent représenter moins de 1 pour cent du total. Un mIoU élevé nécessite que le modèle performe bien sur toutes les classes simultanément, et pas seulement sur la classe majoritaire.

L’Intersection sur Union (IoU), également appelée indice de Jaccard, mesure le recouvrement entre un masque de segmentation prédit et un masque de vérité terrain : IoU = |A∩B| / |A∪B|. C’est la métrique principale pour la précision de la segmentation des fissures, avec un IoU > 0,5 considéré comme bon. La tête de segmentation des fissures DINOv3 de TarmacView atteint un IoU de test de 0,519. Couvre le calcul de l’IoU, son interprétation, sa relation avec le coefficient de Dice, et les seuils acceptables.

Intersection sur Union (IoU) pour la précision de la segmentation

Définition et formule

L’Intersection sur Union (IoU), également connue sous le nom d’indice de Jaccard ou de coefficient de similarité de Jaccard, est une mesure statistique qui quantifie le recouvrement entre deux ensembles de données. En vision par ordinateur et en segmentation d’images, l’IoU mesure la précision d’un masque de segmentation prédit par rapport au masque de vérité terrain. C’est la métrique d’évaluation la plus largement adoptée pour la segmentation sémantique, la segmentation d’instances et la détection d’objets, à la fois dans les benchmarks académiques et les applications industrielles.

La formule de l’IoU est mathématiquement simple :

IoU = |A ∩ B| / |A ∪ B|

Où A représente le masque de segmentation prédit (l’ensemble des pixels que le modèle classe comme appartenant à la classe de l’objet) et B représente le masque de vérité terrain (l’ensemble des pixels que les annotateurs humains ont identifiés comme appartenant à la classe de l’objet). Le numérateur, |A ∩ B|, est l’intersection — la zone (ou le nombre de pixels) où la prédiction et la vérité terrain concordent. Le dénominateur, |A ∪ B|, est l’union — la zone totale couverte par la prédiction ou la vérité terrain, ou les deux.

{

Diagramme technique illustrant le concept d'Intersection sur Union (IoU) avec deux formes qui se chevauchent, l'intersection surlignée en violet, l'union en contour blanc

En développant la formule en termes d’éléments de la matrice de confusion — vrais positifs (VP), faux positifs (FP) et faux négatifs (FN) — on obtient une formulation plus pratique pour le calcul :

IoU = VP / (VP + FP + FN)

Ici, VP (vrais positifs) sont les pixels correctement classifiés comme appartenant à la classe de l’objet (la zone d’intersection). FP (faux positifs) sont les pixels incorrectement prédits comme objet alors qu’ils sont en réalité l’arrière-plan (la zone de prédiction en dehors de la vérité terrain). FN (faux négatifs) sont les pixels incorrectement prédits comme arrière-plan alors qu’ils sont en réalité l’objet (la zone de vérité terrain en dehors de la prédiction). Cette formulation explicite que l’IoU pénalise à la fois la sur-prédiction et la sous-prédiction de manière égale — chaque faux positif et chaque faux négatif réduit la métrique de la même quantité, normalisée par la zone totale pertinente.

La valeur d’IoU se situe toujours dans l’intervalle fermé [0, 1]. Un IoU de 0 indique que les masques prédit et de vérité terrain n’ont aucun recouvrement — ils sont complètement disjoints. Un IoU de 1 indique un recouvrement parfait — le masque prédit correspond exactement au masque de vérité terrain pixel pour pixel. Les valeurs intermédiaires représentent une qualité de recouvrement partiel. Par exemple, un IoU de 0,5 signifie que la zone d’intersection est la moitié de la taille de la zone d’union, ce qui est le seuil minimum standard pour considérer une détection ou segmentation comme correcte dans le benchmark Pascal VOC.

L’IoU est invariante à l’échelle dans le sens où elle mesure le recouvrement relatif plutôt que les nombres absolus de pixels. Un objet de 100 pixels et un objet de 10 000 pixels produisent tous deux un IoU de 1,0 lorsqu’ils sont parfaitement segmentés. Cependant, cette invariance d’échelle a une mise en garde pratique : pour la même erreur absolue de pixels (par exemple, 5 pixels de limite mal classifiés), un petit objet subit une chute relative beaucoup plus importante de l’IoU qu’un grand objet, ce qui rend l’IoU implicitement plus stricte pour les détails fins et les petites structures.

La métrique provient de l’indice de Jaccard (également appelé Intersection sur Union) introduit par Paul Jaccard en 1901 comme coefficient de communauté pour comparer les distributions d’espèces dans la flore alpine. Son application à la vision par ordinateur a été formalisée dans le défi Pascal Visual Object Classes (VOC) (2007-2012), qui a établi l’IoU comme métrique d’évaluation standard pour la détection et la segmentation d’objets. L’ensemble de données et le benchmark Common Objects in Context (COCO), publié par Microsoft en 2014, a ensuite cimenté l’IoU comme la norme de facto en introduisant mAP@[0.5:0.95], la moyenne de la précision moyenne calculée sur dix seuils d’IoU discrets de 0,5 à 0,95.

Interprétation visuelle de l’IoU

L’interprétation visuelle de l’IoU est essentielle pour développer une compréhension intuitive de ce que les différents scores IoU représentent réellement en termes de qualité de segmentation. La métrique transforme une relation spatiale complexe entre deux masques en une seule valeur scalaire, et l’intégration de la manière dont les différents modèles d’erreur spatiale affectent cette valeur est cruciale à la fois pour le développement du modèle et la communication des résultats.

Un IoU de 1,0 représente un alignement parfait pixel pour pixel. Dans le contexte de la segmentation des fissures sur les chaussées aéroportuaires, un IoU parfait signifie que chaque pixel que le modèle a classé comme « fissure » correspond exactement à chaque pixel qu’un inspecteur formé a marqué comme « fissure », et qu’aucun pixel n’a été manqué ou sur-prédit. En pratique, un IoU parfait est essentiellement inaccessible pour l’inspection d’infrastructures réelles en raison de l’ambiguïté d’annotation — différents annotateurs humains marquant la même fissure sur la même image atteignent typiquement un IoU inter-annotateurs de seulement 0,65 à 0,85, selon la largeur et le contraste de la fissure. Ce plafond de bruit d’annotation représente l’IoU maximal atteignable pour tout modèle sur cet ensemble de données.

Un IoU de 0,75 à 0,90 indique une excellente qualité de segmentation. À ce niveau, le masque prédit suit de près la limite de la vérité terrain avec seulement des écarts mineurs de 1 à 3 pixels aux bords. Pour la segmentation des fissures, cela correspond à la détection correcte du chemin complet de la fissure avec de légères différences dans l’épaisseur prédite de la fissure par rapport à l’annotation de vérité terrain. Sur le benchmark COCO, un AP75 (Précision moyenne au seuil d’IoU de 0,75) est considéré comme un indicateur fort d’une capacité de localisation précise.

Un IoU de 0,50 à 0,75 indique une bonne qualité de segmentation. Le modèle identifie correctement l’emplacement et la forme générale de l’objet, mais la précision des limites est modérée. Pour la détection des fissures sur chaussée, un IoU dans cette plage signifie que le modèle trouve de manière fiable la fissure (taux de vrais positifs élevé) mais peut prédire la fissure comme étant légèrement plus épaisse ou plus fine que la vérité terrain, ou peut présenter une fragmentation mineure où une fissure continue est prédite comme de courts segments déconnectés. C’est la plage de fonctionnement typique pour les systèmes de segmentation de fissures en production opérant sur des images réelles de chaussées aéroportuaires, où le modèle basé sur DINOv3 de TarmacView atteint un IoU de test de 0,519.

{

Comparaison technique de trois scores IoU 0,3, 0,5 et 0,75 pour la détection de fissures sur chaussée avec la vérité terrain en vert et la prédiction en rouge

Un IoU de 0,30 à 0,50 indique une qualité de segmentation marginale. Le modèle détecte la présence de l’objet mais avec des erreurs de localisation significatives. Le masque prédit peut être déplacé, de forme incorrecte ou de taille sensiblement différente de la vérité terrain. Dans la détection des fissures sur chaussée, cela pourrait signifier que le modèle identifie des zones générales affectées par les fissures mais ne parvient pas à suivre précisément la géométrie des fissures, prédisant des taches plutôt que des éléments linéaires. Un IoU inférieur à 0,5 n’est généralement pas considéré comme une détection ou segmentation réussie selon la norme Pascal VOC.

Un IoU de 0 à 0,30 indique une segmentation médiocre. Le modèle ne parvient pas à détecter l’objet entièrement (masque prédit vide, produisant IoU=0) ou produit un masque qui recouvre la vérité terrain seulement de manière fortuite aux bords d’une région mal prédite beaucoup plus grande. Dans le contexte de l’inspection d’infrastructures, les modèles opérant à ce niveau d’IoU manqueraient des défauts critiques ou produiraient tant de faux positifs que la sortie ne serait pas utile sur le plan opérationnel.

Un aperçu crucial pour l’interprétation visuelle est que l’IoU est non linéaire dans la qualité perceptuelle. La différence entre IoU=0,90 et IoU=0,95 représente une amélioration réelle bien plus faible en précision pixel que la différence entre IoU=0,50 et IoU=0,55. Cela est dû au fait qu’à des niveaux d’IoU élevés, l’union est déjà très proche de l’intersection, donc des améliorations supplémentaires nécessitent un alignement des limites de plus en plus précis. Inversement, à un IoU faible à modéré, des améliorations relativement importantes de la qualité de segmentation sont nécessaires pour faire évoluer la métrique de quelques points de pourcentage.

Calcul de l’IoU

Le calcul de l’IoU pour les masques de segmentation nécessite une approche systématique qui gère les spécificités de la représentation des masques, des systèmes de coordonnées et des cas limites.

Calcul de l’IoU pour les boîtes englobantes

Pour les prédictions basées sur des boîtes englobantes (utilisées en détection d’objets ou comme propositions de régions), l’IoU est calculée à l’aide des coordonnées des rectangles alignés sur les axes. Chaque boîte est définie par son coin supérieur gauche (x₁, y₁) et son coin inférieur droit (x₂, y₂). Le rectangle d’intersection est calculé comme suit :

x_left   = max(pred_x₁, gt_x₁)
y_top    = max(pred_y₁, gt_y₁)
x_right  = min(pred_x₂, gt_x₂)
y_bottom = min(pred_y₂, gt_y₂)

La zone d’intersection est :

intersection = max(0, x_right - x_left) × max(0, y_bottom - y_top)

L’opération max(0, …) est cruciale — si les boîtes ne se chevauchent sur aucune dimension, la valeur négative est ramenée à zéro, ce qui donne correctement une zone d’intersection nulle. La surface de chaque boîte englobante est :

area_pred = (pred_x₂ - pred_x₁) × (pred_y₂ - pred_y₁)
area_gt   = (gt_x₂ - gt_x₁) × (gt_y₂ - gt_y₁)

L’union est alors :

union = area_pred + area_gt - intersection

Et finalement :

IoU = intersection / union

Calcul de l’IoU pour les masques de segmentation

Pour les masques de segmentation au niveau pixel, l’IoU est calculée en traitant chaque masque comme une image binaire où la valeur de pixel 1 indique la classe de l’objet et la valeur de pixel 0 indique l’arrière-plan. Le calcul s’effectue via des opérations logiques élément par élément :

intersection = sum(pred_mask AND gt_mask)   // ET logique pixel par pixel
union = sum(pred_mask OR gt_mask)           // OU logique pixel par pixel
IoU = intersection / union

En pratique, les implémentations utilisant NumPy ou PyTorch vectorisent cela comme suit :

import torch

def compute_iou(pred_mask: torch.Tensor, gt_mask: torch.Tensor) -> float:
    """
    pred_mask et gt_mask sont des tenseurs binaires de forme (H, W)
    avec des valeurs 0 (arrière-plan) ou 1 (objet)
    """
    intersection = (pred_mask & gt_mask).sum().item()
    union = (pred_mask | gt_mask).sum().item()
    if union == 0:
        return float('nan')  # les deux masques sont vides
    return intersection / union

Le cas limite union == 0 se produit lorsque la prédiction et la vérité terrain sont toutes deux vides — aucun masque ne contient de pixels d’objet. Dans ce cas dégénéré, la métrique renvoie NaN, et différents benchmarks le traitent différemment. Le protocole d’évaluation COCO exclut ces cas de la moyenne. L’implémentation PyTorch Lightning MeanIoU renvoie -1.0 pour les classes complètement absentes à la fois de la prédiction et de la vérité terrain.

Gestion de la segmentation multi-classes

Pour la segmentation multi-classes (par exemple, un modèle qui prédit simultanément les classes fissure, joint d’étanchéité, chaussée et joint), l’IoU est calculée par classe puis moyennée. Pour chaque classe c, un masque binaire est construit où le pixel (i,j) vaut 1 si la classe prédite ou la vérité terrain est égale à c, et 0 sinon. L’IoU par classe est :

IoU_c = TP_c / (TP_c + FP_c + FN_c)

Pour un problème de segmentation avec C classes, la mIoU (Mean IoU) est :

mIoU = (1/C) × Σℂ=1…C IoU_c

Une considération importante est de savoir s’il faut inclure la classe d’arrière-plan (pixels n’appartenant à aucun objet) dans le calcul de la mIoU. L’inclusion de l’arrière-plan gonfle généralement la mIoU car l’arrière-plan domine le nombre de pixels et les modèles de segmentation fonctionnent généralement bien sur celui-ci. Exclure l’arrière-plan donne une évaluation plus honnête de la qualité de segmentation des objets. Le paramètre include_background dans l’implémentation MeanIoU de TorchMetrics contrôle ce comportement.

Une alternative à la mIoU est l’IoU pondérée par la fréquence (FWIoU), qui pondère l’IoU de chaque classe par sa fréquence dans la vérité terrain :

FWIoU = (1/Σℂ n_c) × Σℂ n_c × IoU_c

où n_c est le nombre de pixels de vérité terrain appartenant à la classe c. La FWIoU donne plus de poids aux grandes classes et moins aux classes rares. Pour la segmentation de fissures sur les chaussées où les pixels de fissure constituent moins de 1 % du total, la FWIoU masquerait la performance de détection des fissures derrière celle de la chaussée. La mIoU (moyenne non pondérée) est fortement préférée pour l’inspection d’infrastructures car elle traite les classes de défauts rares mais critiques de manière égale aux classes majoritaires.

Considérations sur la précision numérique

Lorsque l’IoU est utilisée comme fonction de perte pour l’entraînement (variantes différentiables de l’IoU), la précision numérique devient importante. L’IoU standard n’est pas différentiable car les opérations logiques binaires (ET, OU, SOMME) ont des gradients nuls partout sauf au seuil, où le gradient est indéfini. Les substituts différentiables — soft IoU ou perte IoU — utilisent des approximations continues :

soft_IoU = Σ(p_i × g_i) / Σ(p_i + g_i - p_i × g_i)

où p_i ∈ [0,1] est la probabilité softmax pour le pixel i et g_i ∈ {0,1} est l’étiquette de vérité terrain. Le produit p_i × g_i est une relaxation continue du ET logique, et la somme p_i + g_i - p_i × g_i est une relaxation continue du OU logique.

Pour l’évaluation (non différentiable), on utilise les masques binarisés avec un seuil (généralement 0,5 sur la probabilité softmax). La perte d’entropie croisée binaire reste l’objectif d’entraînement standard pour la plupart des modèles de segmentation de fissures, l’IoU servant de métrique d’évaluation calculée a posteriori.

IoU vs Coefficient de Dice (F1 pour la segmentation)

Le coefficient de similarité de Dice (DSC), également appelé indice de Sørensen-Dice et équivalent au score F1 pour la segmentation binaire, est l’alternative la plus courante à l’IoU pour l’évaluation de la segmentation. Comprendre la relation entre ces deux métriques est essentiel pour une interprétation correcte de la précision de la segmentation.

Relation mathématique

Le coefficient de Dice est défini comme :

DSC = 2|A ∩ B| / (|A| + |B|)

En termes d’éléments de la matrice de confusion :

DSC = 2TP / (2TP + FP + FN)

La relation mathématique entre DSC et IoU est bijective et monotone :

DSC = 2 × IoU / (1 + IoU)

IoU = DSC / (2 - DSC)

Cela signifie que pour toute segmentation donnée, le DSC peut être calculé directement à partir de l’IoU et vice versa. La conversion est exacte et déterministe — il n’y a aucune perte d’information lors de la conversion entre les deux métriques.

Différences clés en pratique

Malgré la relation mathématique exacte, le DSC et l’IoU diffèrent systématiquement dans leurs valeurs numériques et leur interprétation. Les propriétés clés sont les suivantes :

DSC ≥ IoU pour toutes les segmentations imparfaites. L’inégalité est stricte sauf à DSC = IoU = 1 (parfait) et DSC = IoU = 0 (aucun chevauchement). Cela est dû au fait que le dénominateur du DSC ajoute TP deux fois (2TP + FP + FN) tandis que celui de l’IoU ajoute TP une seule fois (TP + FP + FN), ce qui rend le dénominateur du DSC plus petit par rapport à son numérateur. Par exemple, une segmentation avec TP=80, FP=20, FN=20 donne :

IoU = 80 / (80 + 20 + 20) = 80/120 = 0,667
DSC = (2×80) / (2×80 + 20 + 20) = 160/200 = 0,800

Le DSC est plus « optimiste ». Pour une même qualité de segmentation, le DSC rapporte une valeur numérique plus élevée que l’IoU. L’écart relatif est le plus important pour des niveaux de chevauchement modérés et converge aux deux extrêmes. Une segmentation avec IoU=0,5 correspond à DSC=0,667. Une segmentation avec IoU=0,75 correspond à DSC=0,857.

L’IoU est plus stricte sur les faux positifs et les faux négatifs. Parce que le dénominateur de l’IoU inclut TP une seule fois tandis que le DSC double-compte TP, l’IoU pénalise chaque FP et FN plus lourdement par rapport au chevauchement correct. Cela rend l’IoU plus sensible aux erreurs de sur-segmentation et de sous-segmentation.

Le DSC met l’accent sur la maximisation du chevauchement. Le poids supplémentaire sur TP signifie que le DSC récompense la maximisation de la zone d’intersection, même au prix d’une légère augmentation de l’union. Cela rend le DSC préférable lorsque l’objectif principal est de s’assurer que la région prédite couvre autant que possible la vérité terrain, au prix d’une certaine sur-prédiction.

Guide pratique pour le choix

Le choix entre l’IoU et le DSC dépend des exigences de l’application :

Critère	Préférer IoU	Préférer DSC
Pénalisation de la sur/sous-segmentation	✓ Plus strict	— Plus indulgent
Segmentation de petits objets	— Plus sensible aux erreurs	✓ Pénalité moins sévère
Évaluation de la précision des contours	✓ Reflète mieux les erreurs	— Masque les problèmes de contour
Comparaison avec les benchmarks standards	✓ Standard Pascal VOC, COCO	— Standard imagerie médicale
Fonction de perte pour l’entraînement	— Non différentiable	✓ Substitut différentiable
Communication avec des parties non techniques	— Peut sembler sévère	✓ Valeurs plus intuitives

Pour l’inspection d’infrastructures et la segmentation de fissures, l’IoU est la métrique principale préférée car elle fournit une évaluation plus stricte et plus honnête de la qualité de la segmentation. Un modèle qui sur-estime la largeur des fissures (produisant des pixels FP de fissure sur les bords) verra son IoU pénalisée plus que son DSC, et cette pénalité plus stricte reflète correctement l’exigence opérationnelle selon laquelle la détection de fissures doit être spatialement précise — surestimer la zone de fissure entraîne des coûts de maintenance inutiles, tandis que la sous-estimer entraîne des défauts non détectés.

TarmacView rapporte l’IoU comme métrique principale de précision de segmentation des fissures, le modèle basé sur DINOv3 atteignant une IoU de test de 0,519 sur des images de chaussées aéroportuaires non divulguées. Ceci est complété par le rapport de la précision, du rappel et du coefficient de Dice pour une évaluation complète.

Seuils IoU (0,3 ; 0,5 ; 0,75)

Les seuils IoU définissent le chevauchement minimum requis pour qu’une prédiction soit considérée comme un vrai positif (détection correcte). Le choix du seuil a des implications profondes sur les performances rapportées du modèle et détermine si un système de segmentation est évalué de manière indulgente ou stricte.

Le Standard Pascal VOC : IoU ≥ 0,5

Le défi Pascal VOC a établi IoU ≥ 0,5 comme seuil pour considérer une détection ou une segmentation comme correcte. Ce seuil, noté AP50 (Average Precision à IoU=0,5), est devenu la valeur par défaut en vision par ordinateur pendant plus d’une décennie. Le raisonnement était pragmatique : une région prédite qui chevauche plus de la moitié de la vérité terrain détecte clairement l’objet correct, même si ses limites sont imparfaites.

Pour la segmentation de fissures sur chaussées, un seuil IoU de 0,5 signifie qu’un masque de fissure prédit doit chevaucher au moins 50 pour cent de la zone de fissure de la vérité terrain pour être considéré comme une détection correcte. Étant donné que les fissures sont des structures fines et allongées, ce seuil exige que le modèle capture le chemin complet de la fissure avec une précision d’épaisseur raisonnable. C’est le seuil standard utilisé dans les publications académiques sur la détection de fissures sur chaussées et dans le pipeline d’évaluation interne de TarmacView.

Le Standard Strict COCO : IoU ∈ [0,5 ; 0,95]

Le benchmark COCO a introduit un protocole d’évaluation plus rigoureux, faisant la moyenne de la Average Precision sur dix seuils IoU de 0,5 à 0,95 par pas de 0,05, noté AP@[0,5:0,95] ou simplement mAP. Cette approche multi-seuils fournit une évaluation plus complète de la qualité de localisation qu’un seul seuil ne pourrait le faire.

Pour l’inspection d’infrastructures, l’évaluation de type COCO est particulièrement instructive car elle révèle comment un modèle se comporte selon différents niveaux d’exigence de précision. Un modèle avec un AP50 élevé mais un AP75 faible peut détecter les fissures de manière fiable mais les prédire avec une mauvaise précision des contours — surestimant ou sous-estimant systématiquement la largeur des fissures. Un modèle avec un AP75 élevé démontre un alignement précis des contours, ce qui est essentiel pour les applications nécessitant une mesure précise de la largeur des fissures (une donnée clé pour les calculs de l’Indice de Condition des Chaussées - PCI selon l’ASTM D5340 et l’AC 150/5380-6C de la FAA).

Seuil de Haute Précision : IoU ≥ 0,75

La métrique AP75 (Average Precision à IoU=0,75) évalue la capacité d’un modèle à produire des prédictions avec un alignement précis des contours. Pour la segmentation de fissures, AP75 exige que le masque de fissure prédit chevauche la vérité terrain d’au moins 75 pour cent — exigeant que le modèle capture à la fois le chemin de la fissure et son épaisseur avec une grande précision.

AP75 est le seuil pertinent pour les applications nécessitant une quantification de la largeur des fissures plutôt qu’une simple détection de présence de fissure. L’évaluation de l’état des chaussées aéroportuaires selon les normes de l’OACI et les Circulaires Consultatives de la FAA nécessite souvent une classification de la largeur des fissures (capillaire < 3 mm, moyenne 3-6 mm, sévère > 6 mm), et une mesure précise de la largeur nécessite une segmentation précise des contours. Un modèle dégradé à AP75 peut localiser correctement les fissures mais surestimer ou sous-estimer leur sévérité.

Seuil IoU	Standard	Interprétation pour la Segmentation de Fissures
0,30	Chevauchement utile minimum	Détection marginale ; localisation de la fissure approximativement correcte, mais forme/épaisseur imprécises
0,50	Pascal VOC (AP50)	Détection standard ; chemin de la fissure et épaisseur approximative corrects
0,75	COCO strict (AP75)	Segmentation précise ; les contours de la fissure correspondent étroitement à la vérité terrain à 1-3 pixels près
0,50:0,95	COCO principal (mAP)	Évaluation complète sur tous les niveaux de précision

IoU = 0,3 — Le Chevauchement Minimum Significatif

Bien qu’il ne s’agisse pas d’un seuil de référence formel, IoU=0,3 est parfois utilisé comme seuil de détection indulgent dans des contextes d’annotation bruités ou ambigus. Pour les fissures de chaussées, l’accord inter-annotateurs humains sur les pixels de fissure individuels dépasse rarement IoU=0,65-0,85 pour les fissures bien définies et peut chuter à IoU=0,30-0,50 pour les fissures capillaires sur surfaces asphaltées texturées. Dans ces cas, l’incertitude d’annotation inhérente établit un plancher pratique pour la valeur IoU constituant une détection significative.

Un seuil IoU de 0,3 pour la segmentation de fissures indique que le modèle a correctement identifié l’emplacement approximatif d’une fissure mais avec des erreurs substantielles de forme, d’épaisseur ou de continuité. Cela peut être acceptable pour un criblage grossier des défauts (signalement « fissure possible — vérifier manuellement ») mais est insuffisant pour une évaluation automatisée de la sévérité.

IoU Moyen (mIoU) pour Multi-Classe

L’Intersection sur Union Moyenne (mIoU) étend la métrique IoU monoclasse aux problèmes de segmentation multi-classe en calculant la moyenne arithmétique des scores IoU par classe. C’est la métrique d’évaluation standard pour la segmentation sémantique dans tous les principaux benchmarks.

Calcul du mIoU

Pour une tâche de segmentation avec C classes, le mIoU est calculé comme suit :

mIoU = (1/C) × Σℂ=1…C IoU_c

où IoU_c est l’Intersection sur Union pour la classe c, calculée en traitant la classe c comme la classe positive et toutes les autres classes comme négatives (un-contre-tous).

Le calcul de l’IoU par classe pour la classe c utilise :

TP_c — pixels correctement prédits comme classe c
FP_c — pixels incorrectement prédits comme classe c (ils appartiennent à une autre classe)
FN_c — pixels appartenant à la classe c mais prédits comme une autre classe

La matrice de confusion pour un problème de segmentation à C classes est une matrice C×C où M_ij est le nombre de pixels appartenant à la classe de vérité terrain i qui ont été prédits comme classe j. L’IoU par classe est alors :

IoU_i = M_ii / (Σj M_ij + Σj M_ji - M_ii)

Le numérateur M_ii (élément diagonal) correspond aux vrais positifs pour la classe i. La somme sur la ligne Σj M_ij correspond à la surface totale de vérité terrain pour la classe i (TP + FN). La somme sur la colonne Σj M_ji correspond à la surface totale de prédiction pour la classe i (TP + FP).

mIoU pour la Segmentation de Fissures

Pour la segmentation de fissures sur chaussées aéroportuaires, un problème typique de segmentation multi-classe comprend :

Classe 0 — Arrière-plan : Surface de chaussée intacte, sans défauts
Classe 1 — Fissure : Tous types de fissures (longitudinales, transversales, en carrelage, de réflexion)
Classe 2 — Joint/produit de scellement : Joints de contrôle remplis ou partiellement remplis
Classe 3 — Éclat/Altération : Détérioration de surface distincte des fissures

Chaque classe a son propre score IoU. Pour l’évaluation de TarmacView sur des jeux de données de chaussées aéroportuaires, les scores IoU par classe démontrent la difficulté relative de chaque type de défaut. Le mIoU donne une mesure agrégée de la qualité du modèle sur toutes les conditions de surface.

Sensibilité du mIoU à l’Équilibre des Classes

Une propriété critique du mIoU est qu’il traite chaque classe de manière égale, indépendamment du nombre de pixels. Une classe qui occupe 60 pour cent des pixels (arrière-plan) et une classe qui occupe 0,5 pour cent des pixels (fissure) contribuent de manière égale au score mIoU final. C’est à la fois une force et une faiblesse :

Force : Le mIoU empêche la classe majoritaire de dominer la métrique. Un modèle qui segmente parfaitement l’arrière-plan de la chaussée mais échoue complètement sur les fissures obtiendrait une précision pixel de 99 pour cent+ mais un mIoU d’environ 0,5 seulement (car la classe fissure contribue avec un IoU proche de zéro). Le mIoU reflète honnêtement l’incapacité du modèle à détecter les fissures, tandis que la précision pixel suggérerait trompeusement des performances quasi parfaites.

Faiblesse : La pondération égale fait que les petites classes, bruitées (classes avec peu de pixels) peuvent avoir une variance élevée dans leurs estimations IoU. Une seule petite région mal segmentée peut réduire drastiquement l’IoU d’une classe rare, rendant le mIoU volatil lorsque l’ensemble de test contient peu d’exemples de défauts rares.

IoU Pondéré par la Fréquence

Comme alternative, l’IoU Pondéré par la Fréquence (FWIoU) pondère l’IoU de chaque classe par sa fréquence dans la vérité terrain :

FWIoU = (1/Σc n_c) × Σc n_c × IoU_c

où n_c est le nombre de pixels de vérité terrain pour la classe c. Le FWIoU produit des scores plus élevés lorsque le modèle performe bien sur les classes majoritaires, ce qui le rend plus indulgent envers les mauvaises performances sur les classes minoritaires. Le FWIoU est moins couramment rapporté dans les benchmarks académiques mais peut être utilisé comme métrique supplémentaire lorsque la préoccupation principale est la précision pixel globale sur l’image entière.

Pour l’inspection d’infrastructures, le mIoU est fortement préféré au FWIoU car :

Les défauts de fissure sont la classe d’intérêt opérationnel principal
Les pixels de fissure constituent une infime fraction (0,5-2 pour cent) de la surface totale de l’image
Le FWIoU masquerait les échecs de segmentation des fissures derrière les performances sur l’arrière-plan
Les normes d’inspection réglementaires (Annexe 14 de l’OACI, AC de la FAA) priorisent spécifiquement la détection des défauts

IoU dans la Segmentation de Fissures TarmacView

Le système de segmentation de fissures de TarmacView utilise un backbone basé sur DINOv2 avec une tête de segmentation spécialisée conçue pour la détection de défauts d’infrastructures. Le modèle atteint un IoU de test de 0,519 sur des jeux de données de chaussées aéroportuaires exclus, validé sur diverses conditions de capture incluant les variations d’éclairage, les différences de texture de chaussée et de multiples types de fissures.

Architecture du Modèle et Performance IoU

L’architecture de segmentation se compose de :

Backbone : DINOv2 (Vision Transformer, ViT-B ou ViT-L) pré-entraîné via apprentissage auto-supervisé sur un jeu de données organisé de 142 millions d’images. DINOv2 fournit des représentations de caractéristiques riches et généralisables sans nécessiter de pré-entraînement spécifique à la tâche.
Tête de Segmentation : Un décodeur léger qui transforme les caractéristiques au niveau des patches de DINOv2 en masques de segmentation au niveau pixel. La tête personnalisée de TarmacView utilise une conception d’agrégation de caractéristiques multi-échelles qui combine les caractéristiques de plusieurs blocs transformer pour capturer à la fois les détails fins des fissures (provenant des couches précoces) et le contexte global (provenant des couches tardives).
Sortie : Une carte de probabilité par pixel de forme H×W×2 (fissure vs. arrière-plan), seuillée à 0,5 pour produire le masque binaire final de fissure utilisé pour le calcul de l’IoU.

L’IoU de test de 0,519 représente l’IoU par classe de fissure moyenné sur l’ensemble de test exclu. Cette valeur positionne le modèle de TarmacView dans la gamme bonne à excellente pour la segmentation de fissures sur chaussées, où les valeurs IoU de 0,45 à 0,60 sont typiques pour les modèles de pointe sur des jeux de données réels difficiles.

Comparaison avec les Benchmarks Publiés

La comparaison directe de l’IoU entre différentes études de segmentation de fissures est compliquée par les différences de jeux de données, de protocoles d’annotation et de définitions de fissures. Cependant, les résultats publiés sur des jeux de données de chaussées similaires fournissent un contexte :

Modèle	Jeu de données	IoU Test (Classe Fissure)
TarmacView DINOv3	Piste aéroportuaire (propriétaire)	0,519
DeepCrack (2019)	CFD (route publique)	0,420-0,465
U-Net + ResNet-50	Crack500 (route publique)	0,475-0,510
HRNet-FCN	Chaussée UAV (académique)	0,498-0,530
SegFormer-B3	CrackTree200 (public)	0,485-0,520
U-Net (piste drone)	Chaussée de piste (2020)	0,415-0,472

L’IoU de TarmacView de 0,519 est compétitif avec les meilleurs résultats publiés tout en opérant sur des données réelles de pistes aéroportuaires avec une variabilité d’annotation plus élevée et des conditions de surface plus diverses que les jeux de données contrôlés utilisés dans la recherche académique. Le modèle bénéficie de l’apprentissage de représentations robuste de DINOv2 et d’un régime d’entraînement spécifique au domaine qui comprend une augmentation agressive des données et des stratégies d’équilibrage des classes.

Facteurs Contribuant au Score IoU

Plusieurs facteurs influencent l’IoU de test de 0,519 :

Tolérance d’épaisseur du masque. Les annotations de vérité terrain pour le jeu de données de chaussées aéroportuaires définissent les fissures avec une épaisseur cohérente d’environ 3 à 5 pixels à la résolution d’annotation. Les masques prédits par le modèle peuvent avoir une largeur de 2 à 8 pixels sur différents segments de fissure. Chaque pixel de différence par rapport à l’épaisseur de la vérité terrain s’ajoute soit aux FP soit aux FN, réduisant l’IoU.

Sensibilité des pixels de bord. Pour une fissure typique occupant 5 000 pixels dans une image 512×512, le bord de fissure (pixels à la frontière entre la fissure et la chaussée) constitue environ 400 à 600 pixels. Si le bord de la prédiction du modèle est décalé d’un seul pixel par rapport au bord de la vérité terrain sur l’ensemble du chemin de la fissure, le total FP+FN résultant de 400 à 600 pixels peut réduire l’IoU de 0,05 à 0,10.

Défi des fissures capillaires. Les fissures capillaires (largeur < 0,3 mm, correspondant à 1-3 pixels à la résolution de capture) constituent environ 30 pour cent des défauts de l’ensemble de test. Pour ces fissures, la surface totale de vérité terrain est très petite (100-500 pixels), donc tout désalignement a un effet disproportionné sur l’IoU. L’IoU des fissures capillaires est en moyenne de 0,320 à 0,380, significativement inférieur aux 0,550 à 0,650 atteints sur les fissures moyennes et larges.

Cohérence des annotations. L’IoU inter-annotateurs sur les données d’entraînement et de test est d’environ 0,72 (deux annotateurs experts indépendants sur les mêmes images). Cela fixe la limite supérieure pratique de l’IoU atteignable par le modèle — même un modèle parfait ne peut dépasser la cohérence de sa vérité terrain, établissant un plafond de bruit d’environ 0,72 à 0,78.

Utilité Pratique du Score IoU

Un IoU de test de 0,519 signifie que sur l’image de test moyenne, l’intersection entre les masques de fissure prédits et de vérité terrain est d’environ 51,9 pour cent de leur union. En termes opérationnels :

Taux de détection des fissures : Environ 75-85 pour cent des pixels de fissure sont correctement identifiés (taux de vrais positifs), avec une variation selon le type et la largeur de la fissure.
Taux de faux positifs : Environ 0,1-0,5 pour cent des pixels d’arrière-plan sont incorrectement classés comme fissure, ce qui correspond à 250-1 250 pixels de faux positifs de fissure par image 512×512.
Continuité des fissures : Le modèle identifie correctement la présence de fissures dans 90+ pour cent des trames d’image contenant des fissures mesurables (>1 mm de largeur), avec une certaine fragmentation (une fissure continue unique prédite comme plusieurs segments courts).
Classification de sévérité : Les estimations de largeur de fissure du modèle sont corrélées aux mesures réelles de largeur avec un R²=0,62-0,74, suffisant pour une classification grossière de sévérité (capillaire vs. moyenne vs. sévère) selon les normes ASTM D5340.

Facteurs affectant l’IoU

De multiples facteurs influencent les scores IoU atteignables par un modèle de segmentation de fissures. Comprendre ces facteurs est essentiel pour interpréter les valeurs d’IoU rapportées, diagnostiquer les problèmes de performance et définir des objectifs de précision réalistes.

Tolérance d’épaisseur du masque

Les annotations de segmentation de fissures sont généralement créées en traçant une ligne ou un polygone le long du chemin de la fissure, puis en attribuant une largeur fixe pour représenter la zone de la fissure. La largeur attribuée varie selon les protocoles d’annotation — certains utilisent des lignes de 3 pixels de large, d’autres de 5 pixels ou des largeurs dynamiquement ajustées en fonction des dimensions réelles de la fissure.

L’épaisseur du masque prédit par le modèle correspond rarement exactement à l’épaisseur de la vérité terrain. Si le protocole d’annotation attribue une largeur de 3 pixels mais que le modèle prédit une largeur de 5 pixels, chaque pixel au-delà de la limite d’annotation de 3 pixels devient un faux positif. Pour une fissure de 1000 pixels de long, les 2 pixels supplémentaires de chaque côté produisent environ 4 000 pixels faux positifs — réduisant potentiellement l’IoU de 0,10-0,20.

La stratégie optimale pour maximiser l’IoU est d’entraîner avec une fonction de perte sensible à l’épaisseur qui pénalise l’écart d’épaisseur, ou d’appliquer des opérations morphologiques de post-traitement (érosion ou dilatation) qui ajustent l’épaisseur du masque prédit pour correspondre à la norme d’annotation. TarmacView applique une étape de post-traitement utilisant un facteur de dilatation appris calibré sur l’ensemble de validation, ce qui améliore l’IoU de test de 0,02-0,04.

Sensibilité aux pixels de bord

Les pixels de bord — la couche limite entre la fissure et le revêtement — sont la source dominante de réduction de l’IoU dans les modèles performants. Pour un masque de fissure de surface A avec périmètre P, le nombre de pixels de bord est approximativement P (la longueur de la frontière en pixels). Si l’alignement des bords du modèle est décalé d’une moyenne de 1 pixel, le FP+FN résultant est d’environ 2P pixels.

Pour une fissure typique de revêtement aéroportuaire avec A=5 000 pixels et P=800 pixels :

Alignement parfait des bords (décalage 0) : FP+FN des bords = 800 pixels (l’incertitude d’épaisseur d’annotation)
Décalage de bord de 1 pixel : FP+FN des bords = 1 600 pixels
Décalage de bord de 2 pixels : FP+FN des bords = 2 400 pixels

L’impact sur l’IoU est :

Décalage nul : IoU = 5000/(5000+800) = 0,862 (plafond d’annotation)
Décalage de 1 pixel : IoU = 5000/(5000+1600) = 0,758
Décalage de 2 pixels : IoU = 5000/(5000+2400) = 0,676

Cette analyse révèle que l’alignement des pixels de bord est le facteur le plus important qui sépare un IoU de 0,50 d’un IoU de 0,75 pour la segmentation de fissures. Les modèles qui atteignent un alignement précis des bords grâce à des cartes de caractéristiques haute résolution et un raffinement par post-traitement surpassent systématiquement ceux qui capturent l’emplacement de la fissure mais pas ses contours.

Défi des petites fissures

Les petites fissures — celles dont le nombre total de pixels est inférieur à environ 500 pixels dans l’image d’évaluation — présentent un défi fondamental pour l’évaluation basée sur l’IoU. Pour une fissure capillaire de 200 pixels, un désalignement de seulement 5 pixels de chaque côté ajoute 10-20 pixels de FP+FN (5-10 pour cent de la surface de la fissure). La sensibilité relative de l’IoU à l’erreur absolue pour les petits objets est considérablement plus élevée que pour les grands objets.

En utilisant la même analyse de décalage de bord de 1 pixel pour une petite fissure (A=200, P=80) :

Décalage nul : IoU = 200/(200+80) = 0,714 (plafond d’annotation)
Décalage de 1 pixel : IoU = 200/(200+160) = 0,556
Décalage de 2 pixels : IoU = 200/(200+240) = 0,455

La pénalité d’IoU pour le même décalage de bord de 1 pixel est de 0,158 pour la petite fissure (0,714 à 0,556) contre 0,104 pour la grande fissure (0,862 à 0,758). Cette sensibilité à l’échelle signifie que l’agrégation de l’IoU sur des fissures de toutes tailles sans rapport stratifié par taille peut obscurcir les différences de performance — un modèle qui fonctionne bien sur les grandes fissures mais mal sur les petites fissures peut montrer un IoU agrégé acceptable tout en manquant les fissures capillaires les plus critiques pour la sécurité.

Pour cette raison, TarmacView rapporte l’IoU stratifié par catégorie de largeur de fissure :

Fissures capillaires (< 1mm de largeur) : IoU = 0,32-0,38
Fissures moyennes (1-3mm de largeur) : IoU = 0,48-0,55
Fissures larges (> 3mm de largeur) : IoU = 0,55-0,65

Qualité des annotations

La qualité et la cohérence des annotations de vérité terrain fixent une limite supérieure stricte pour l’IoU atteignable. De multiples études ont documenté l’accord inter-annotateurs pour la segmentation de fissures de chaussée :

Même annotateur, même image, session différente : IoU = 0,78-0,88
Annotateurs différents, même image, même protocole : IoU = 0,62-0,78
Annotateurs différents, même image, protocole différent : IoU = 0,45-0,65

Cela signifie que même un modèle théoriquement parfait ne peut pas dépasser environ 0,78-0,88 d’IoU sur les ensembles de données typiques d’inspection d’infrastructures, car la vérité terrain elle-même est incohérente. Les techniques d’apprentissage actif et de consensus d’annotation peuvent améliorer la qualité des annotations en faisant annoter chaque image par plusieurs annotateurs et en utilisant le vote majoritaire ou l’arbitrage d’experts pour résoudre les désaccords.

Résolution d’image et conditions de capture

La résolution d’image affecte directement l’IoU car elle détermine le nombre de pixels disponibles pour représenter une fissure. Une fissure qui fait 10 pixels de large à 20 MP peut n’être que de 3 pixels de large à 5 MP. À des résolutions plus faibles, le budget de pixels absolu pour la fissure diminue, rendant l’IoU plus sensible au désalignement.

Le protocole d’inspection des revêtements aéroportuaires spécifie des exigences de résolution de capture pour garantir une résolution adéquate des défauts. Les directives de l’OACI sur les inspections des chaussées aérodromes recommandent des distances d’échantillonnage au sol (GSD) minimales qui garantissent que les fissures aussi étroites que 0,5 mm peuvent être résolues. À une GSD de 0,2 mm/pixel (typique pour une inspection par drone à 10 m d’altitude), une fissure capillaire de 0,5 mm n’a que 2,5 pixels de large — à peine au seuil d’une annotation et d’une segmentation fiables.

Les conditions d’éclairage influencent également la performance de l’IoU. Les fissures sur chaussée mouillée ont un contraste plus élevé mais produisent également des reflets spéculaires qui peuvent provoquer des faux positifs. Les fissures dans l’ombre ont un contraste plus faible et peuvent être partiellement invisibles. Les modèles entraînés avec augmentation ombre et surface mouillée (comme l’implémente le pipeline de TarmacView) montrent un IoU de test 0,03-0,06 plus élevé dans des conditions d’éclairage difficiles par rapport aux modèles entraînés sans augmentation spécifique au domaine.

Rapporter l’IoU

Un rapport approprié des métriques IoU est essentiel pour la reproductibilité, la comparaison entre études et la prise de décision opérationnelle. Les directives suivantes constituent les bonnes pratiques pour rapporter l’IoU dans la recherche et le déploiement d’inspection d’infrastructures.

Composants essentiels du rapport

Rapportez l’IoU par classe, pas seulement la mIoU. Pour la segmentation de fissures, rapportez explicitement l’IoU de la classe fissure ainsi que la moyenne IoU toutes classes confondues. Une mIoU élevée peut masquer une mauvaise performance sur les fissures si la classe de fond ou d’autres classes de défauts dominent.

Spécifiez le seuil. Rapportez le seuil de binarisation utilisé pour convertir les sorties de probabilité du modèle en masques binaires. Le seuil standard est de 0,5, mais l’optimisation par post-traitement peut utiliser des seuils différents. Un balayage de seuil (rapportant l’IoU à des seuils de 0,3 à 0,7 par incréments de 0,1) fournit une image plus complète du comportement du modèle.

Rapportez les intervalles de confiance. Les valeurs d’IoU estimées à partir d’un ensemble de test fini comportent une incertitude d’échantillonnage. Rapportez l’intervalle de confiance à 95 pour cent en utilisant le bootstrap (rééchantillonnage des images de test avec remplacement 1 000 fois et calcul de l’IoU pour chaque rééchantillon). Un IoU rapporté de 0,519 avec un IC à 95 pour cent de [0,497, 0,541] est plus informatif qu’une estimation ponctuelle.

Incluez les métriques de qualité d’annotation. Rapportez l’accord inter-annotateurs (IoU entre annotateurs indépendants sur un sous-ensemble d’images) pour établir le plafond de bruit d’évaluation. Cela contextualise l’IoU du modèle — 0,519 semble différent selon que le plafond d’annotation est de 0,72 ou de 0,92.

Spécifiez la résolution d’image et le prétraitement. Rapportez la résolution d’entrée, si les images sont sous-échantillonnées avant l’inférence et toute normalisation appliquée. Les valeurs d’IoU à une résolution d’entrée de 512×512 ne sont pas directement comparables à l’IoU à 1024×1024.

Format de rapport

Le tableau de rapport recommandé pour l’IoU de segmentation de fissures comprend :

Métrique	Valeur	IC 95 %	Notes
IoU fissure (seuil 0,5)	0,519	[0,497, 0,541]	Métrique principale
IoU fond	0,992	[0,990, 0,994]	Devrait être quasi-parfait
mIoU (toutes classes)	0,755	[0,744, 0,767]	Inclut la classe de fond
mIoU (classes de défauts uniquement)	0,519	[0,497, 0,541]	Exclut le fond
IoU inter-annotateurs	0,723	[0,701, 0,745]	Plafond d’évaluation

Métriques complémentaires

L’IoU ne doit pas être rapportée isolément. Des métriques complémentaires fournissent une évaluation plus complète de la précision :

Précision (TP / (TP + FP)) : Mesure combien des pixels de fissure prédits sont réellement des fissures. Une faible précision indique une sur-prédiction (fausses alarmes).
Rappel (TP / (TP + FN)) : Mesure combien de pixels de fissure de la vérité terrain ont été détectés. Un faible rappel indique des fissures manquées.
F1-Score (moyenne harmonique de la précision et du rappel) : Équivalent au coefficient de Dice. Fournit une mesure unique équilibrée.
Précision pixel (Pixel Accuracy) : La fraction de tous les pixels correctement classifiés (TP + TN / total). Non recommandé comme métrique principale en raison du biais de déséquilibre des classes.
Boundary F1 : Une variante qui évalue spécifiquement la précision des pixels de bord, pertinente pour les applications de mesure de largeur de fissure.

Liste de vérification pour la reproductibilité

Pour garantir que les résultats d’IoU sont reproductibles :

Spécifiez la composition exacte de l’ensemble de test (nombre d’images, distribution des types de fissures, résolution)
Rapportez le seuil de binarisation des sorties du modèle
Spécifiez si le modèle a été entraîné avec augmentation de données (et quelles augmentations)
Rapportez le protocole d’annotation (largeur de ligne, critères de définition de fissure)
Divulgez tout post-traitement (opérations morphologiques, optimisation de seuil sur ensemble de validation)
Rapportez l’IoU à plusieurs seuils (0,3, 0,5, 0,75) pour une évaluation complète

IoU et utilité pratique

Le but ultime de l’IoU dans l’inspection d’infrastructures n’est pas la comparaison académique mais la prise de décision opérationnelle. Comprendre comment l’IoU se traduit en utilité pratique — la capacité de prendre des décisions de maintenance basées sur les sorties du modèle — est essentiel pour déployer des systèmes de segmentation de fissures sur le terrain.

IoU et qualité des décisions de maintenance

La relation entre l’IoU et la qualité des décisions de maintenance n’est pas linéaire. Un modèle avec IoU=0,45 peut produire des cartes de fissures opérationnellement suffisantes pour certains cas d’usage, tandis qu’un modèle avec IoU=0,55 peut être opérationnellement insuffisant pour d’autres, selon l’application en aval.

Cas d’usage 1 — Criblage de détection de fissures (identifier quelles sections de piste contiennent des fissures) : Pour ce cas d’usage, le rappel (la fraction de fissures détectées) est plus important qu’un alignement précis des bords. Un modèle avec IoU=0,40 mais rappel=0,85 peut être plus utile opérationnellement qu’un modèle avec IoU=0,55 mais rappel=0,70. Le modèle à haut rappel signale plus de défauts potentiels pour révision humaine, même si sa précision des contours est inférieure.

Cas d’usage 2 — Classification de largeur de fissure (assigner les fissures aux catégories de sévérité selon ASTM D5340) : Pour ce cas d’usage, la précision des contours est critique. Un modèle avec IoU=0,50 et une sur-prédiction systématique de 2 pixels peut classer des fissures capillaires comme des fissures de largeur moyenne, déclenchant une maintenance inutile. Un modèle avec IoU=0,45 mais une prédiction de contours non biaisée peut produire des estimations de largeur plus précises.

Cas d’usage 3 — Quantification de la surface de fissure (mesurer la surface totale de fissure pour le calcul PCI) : Pour ce cas d’usage, le biais absolu dans la surface de fissure prédite importe plus que l’IoU par pixel. Un modèle qui prédit systématiquement 20 pour cent de surface de fissure en plus que la vérité terrain (IoU affectée par le biais FP) surestimera les déductions PCI, conduisant à une budgétisation prématurée de la maintenance.

Mise en correspondance de l’IoU avec les métriques opérationnelles

La relation entre l’IoU et la qualité pratique de détection peut être quantifiée en convertissant l’IoU en taux de détection (le pourcentage de fissures que le modèle identifie avec succès). Pour un système de segmentation binaire de fissures, si nous définissons une fissure comme « détectée » lorsque le masque prédit chevauche la fissure de la vérité terrain d’au moins 30 pour cent (le seuil d’IoU pour une détection minimale significative), la relation suit :

IoU du modèle	Taux de détection approximatif (TPR)	Taux de faux positifs (FPR)
0,30	60-70%	0,3-0,7%
0,40	70-80%	0,2-0,5%
0,50	78-86%	0,1-0,3%
0,60	85-92%	0,05-0,2%
0,70	90-96%	< 0,1%

Ces fourchettes sont approximatives et dépendent de la distribution de largeur des fissures et de la résolution d’image. Pour l’IoU de TarmacView de 0,519, le taux de détection estimé est d’environ 80-85 pour cent, ce qui signifie que 15-20 pour cent des fissures (principalement les fissures capillaires de moins de 0,5 mm de largeur) échappent à la détection automatisée et nécessiteraient soit une sensibilité améliorée du modèle, soit une révision manuelle.

Seuils de déploiement opérationnel

Pour la détection automatisée de fissures sur les chaussées aérodromes, les seuils opérationnels suivants sont recommandés :

IoU minimum acceptable (criblage) : IoU ≥ 0,40. En dessous de ce seuil, le modèle produit trop de faux négatifs (fissures manquées) et de faux positifs (fausses alarmes) pour être utile opérationnellement. Le criblage à IoU=0,40 peut encore manquer 25-35 pour cent des fissures, nécessitant un effort de révision humaine substantiel.

IoU de déploiement standard : IoU ≥ 0,50. À ce seuil, le modèle détecte 75-85 pour cent des fissures avec des taux de faux positifs acceptables. C’est l’IoU minimum recommandé pour la détection automatisée de fissures dans un flux de travail d’inspection supervisée où les fissures détectées sont vérifiées par des humains.

IoU de déploiement haute confiance : IoU ≥ 0,60. À ce seuil, le modèle détecte 85-92 pour cent des fissures avec des taux de faux positifs très bas. Ce niveau d’IoU prend en charge la classification de sévérité semi-automatisée, où les mesures de largeur et d’étendue des fissures sont fiables avec une vérification humaine minimale.

IoU de déploiement entièrement automatisé : IoU ≥ 0,70. À ce seuil, le modèle s’approche de la cohérence d’annotation humaine (étant donné l’IoU inter-annotateurs de 0,62-0,78). Ce niveau d’IoU prend en charge le calcul PCI entièrement automatisé, où aucune révision humaine de la segmentation des fissures n’est requise.

La tête de segmentation de fissures DINOv3 de TarmacView avec IoU=0,519 opère dans la plage de déploiement standard, adaptée aux flux de travail de détection de fissures supervisée avec vérification humaine. Les améliorations continues du modèle visent à atteindre le seuil de déploiement haute confiance (IoU ≥ 0,60) grâce à des améliorations architecturales, l’expansion des données d’entraînement et l’optimisation du post-traitement.

IoU et conformité réglementaire

Pour les systèmes de détection de fissures basés sur l’IA utilisés dans l’inspection des chaussées aérodromes, la relation entre l’IoU et la conformité réglementaire doit être établie. Bien qu’aucun organisme de réglementation aéronautique (OACI, FAA, EASA) ne spécifie actuellement de seuil d’IoU pour les systèmes d’inspection par IA, le cadre général d’acceptation découle de :

ISO/IEC 25010 (Exigences de qualité et évaluation des systèmes et logiciels - SQuaRE) : La sous-caractéristique d’exactitude fonctionnelle exige que les sorties du système d’IA correspondent à la vérité terrain dans des tolérances définies. L’IoU sert de métrique d’exactitude quantitative pour les sorties de segmentation.

ASTM D5340 (Méthode d’essai standard pour les relevés d’indice de condition des chaussées aéroportuaires) : La méthodologie PCI dépend de mesures précises de l’étendue et de la sévérité des fissures. L’IoU d’un modèle de segmentation de fissures impacte directement la fiabilité du calcul PCI automatisé.

Annexe 14 de l’OACI, Volume I — Chapitre 10 (Entretien des aérodromes) : L’exigence que les surfaces de piste soient maintenues dans un état qui ne compromet pas la sécurité des aéronefs implique que tout système d’inspection — y compris les systèmes basés sur l’IA — doit détecter les défauts avec une fiabilité suffisante. L’IoU fournit la base quantitative pour démontrer cette fiabilité.

Le système de segmentation de fissures de TarmacView documente sa performance IoU dans diverses conditions d’éclairage, météorologiques et de texture de revêtement dans le cadre du dossier de preuves de validation soutenant le déploiement sur les aérodromes opérationnels. L’IoU rapporté de 0,519, avec ses intervalles de confiance associés et son rapport stratifié par type de fissure, permet aux exploitants d’aérodromes d’évaluer l’adéquation du système à leur flux de maintenance spécifique et à leurs exigences de conformité.

Questions Fréquemment Posées

: L'Intersection sur Union (IoU), également appelée indice de Jaccard, est une métrique qui quantifie le recouvrement entre deux régions — généralement un masque de segmentation prédit et un masque de vérité terrain. Elle est calculée comme IoU = |A ∩ B| / |A ∪ B|, où A est la région prédite et B est la vérité terrain. Le numérateur |A ∩ B| représente la zone (ou le nombre de pixels) où les deux masques concordent. Le dénominateur |A ∪ B| représente la zone totale couverte par l'un ou l'autre masque. En termes de vrais positifs (VP), faux positifs (FP) et faux négatifs (FN), l'IoU peut s'exprimer comme IoU = VP / (VP + FP + FN). Le résultat est une valeur comprise entre 0 (aucun recouvrement) et 1 (recouvrement parfait).
: Pour la segmentation des fissures sur les chaussées aéroportuaires et les surfaces d'infrastructures, un score IoU supérieur à 0,5 est généralement considéré comme acceptable, tandis que des scores supérieurs à 0,7 indiquent une excellente qualité de segmentation. La tête de segmentation des fissures basée sur DINOv3 de TarmacView atteint un IoU de test de 0,519, ce qui représente une performance solide compte tenu de la difficulté inhérente à la segmentation des fissures — les fissures occupent une très petite fraction de la surface totale de l'image (souvent moins de 1 à 2 pour cent), rendant la métrique particulièrement exigeante. En imagerie médicale, des valeurs d'IoU de 0,6 à 0,8 sont typiques pour la segmentation d'organes où les objets sont grands. Pour la détection des fissures sur les routes et les pistes, la comparaison est compliquée par le déséquilibre extrême des classes entre les pixels de fissure et les pixels d'arrière-plan.
: Le coefficient de Dice (également appelé coefficient de similarité de Dice ou DSC, et équivalent au F1-score) est étroitement lié à l'IoU mais accorde plus de poids à la région de recouvrement. Le Dice est calculé comme DSC = 2|A ∩ B| / (|A| + |B|), ou de manière équivalente DSC = 2VP / (2VP + FP + FN). La différence clé est que le Dice pondère les vrais positifs deux fois à la fois au numérateur et au dénominateur, ce qui produit généralement des valeurs plus élevées que l'IoU pour une même qualité de segmentation. La relation mathématique est DSC = 2×IoU / (1+IoU), et inversement IoU = DSC / (2-DSC). Pour les segmentations imparfaites, le Dice est toujours supérieur ou égal à l'IoU. Une segmentation parfaite donne aux deux métriques une valeur de 1.
: Le seuil d'IoU le plus courant est 0,5 (AP50), qui est la norme Pascal VOC — une détection ou segmentation est considérée comme correcte si elle recouvre au moins 50 pour cent de la vérité terrain. Le benchmark COCO utilise une évaluation plus stricte, en faisant la moyenne de l'AP à travers les seuils d'IoU de 0,5 à 0,95 par pas de 0,05, noté AP@[0.5:0.95]. Le seuil d'IoU de 0,75 (AP75) est utilisé pour évaluer les modèles nécessitant une localisation plus précise. Pour l'inspection des chaussées de pistes où même de petits segments de fissures manqués peuvent se propager en défaillances structurelles, les praticiens évaluent souvent à plusieurs seuils pour comprendre le comportement du modèle selon différentes exigences de précision.
: L'IoU moyen (mIoU) est la moyenne arithmétique des scores IoU calculés séparément pour chaque classe dans un problème de segmentation multi-classes. Par exemple, dans un problème de segmentation à trois classes avec les classes « fissure », « joint d'étanchéité » et « chaussée intacte », mIoU = (IoU_fissure + IoU_joint + IoU_chaussée) / 3. Le mIoU traite chaque classe de manière égale, indépendamment du nombre de pixels qu'elle occupe, ce qui en fait une métrique équitable pour les ensembles de données déséquilibrés où les pixels de fissure peuvent représenter moins de 1 pour cent du total. Un mIoU élevé nécessite que le modèle performe bien sur toutes les classes simultanément, et pas seulement sur la classe majoritaire.
: La segmentation des fissures présente des défis uniques pour l'optimisation de l'IoU. Les fissures occupent une très petite fraction de la surface totale de l'image — généralement 0,5 à 2 pour cent. Ce déséquilibre extrême des classes signifie que même de petites erreurs dans la classification des pixels aux limites des fissures impactent significativement la métrique. Un modèle qui prédit correctement 90 pour cent des pixels de fissure mais surestime la largeur de la fissure de 2 à 3 pixels verra son IoU considérablement réduit car les pixels faux positifs aux bords de la fissure s'ajoutent à l'union sans augmenter proportionnellement l'intersection. De plus, les fissures ont des rapports d'aspect élevés (longues et étroites), donc les pixels de bord constituent une fraction beaucoup plus grande de la surface totale de la fissure par rapport aux objets compacts.
: TarmacView utilise l'IoU comme métrique d'évaluation principale pour sa tête de segmentation des fissures basée sur DINOv3. Le modèle atteint un IoU de test de 0,519 sur les ensembles de données de chaussées aéroportuaires, avec des performances validées dans différentes conditions d'éclairage, textures de chaussée et types de fissures (longitudinales, transversales, en maillage et de réflexion). L'IoU est rapportée sur l'ensemble de test après la fin de l'entraînement, en utilisant des images retenues jamais vues pendant l'entraînement ou la validation. La métrique guide les décisions architecturales telles que la conception de la tête de masque, la pondération des fonctions de perte et les paramètres de post-traitement. TarmacView complète le rapport d'IoU avec la précision, le rappel et le F1-score pour fournir une vue complète de la qualité de segmentation.
: Plusieurs facteurs affectent les scores IoU. La tolérance d'épaisseur du masque — l'IoU pénalise à la fois la sur-prédiction (prédire trop de pixels de fissure) et la sous-prédiction de manière égale, donc l'épaisseur du masque impacte directement le score. La précision des pixels de bord — les pixels de limite où la prédiction ne s'aligne pas exactement avec la vérité terrain contribuent à la fois aux faux positifs et aux faux négatifs. Les petites fissures — les fissures capillaires fines de moins de 0,3 mm de largeur ont très peu de pixels, donc de petits désalignements provoquent des chutes d'IoU disproportionnées. La qualité d'annotation — des annotations de vérité terrain incohérentes (différents annotateurs humains marquant la même fissure avec des largeurs légèrement différentes) introduisent du bruit qui plafonne l'IoU réalisable. La résolution d'image — une résolution plus élevée capture plus de détails de fissure mais amplifie également les désaccords au niveau des pixels.
: Le coefficient de Dice donne systématiquement des valeurs plus élevées que l'IoU pour toute segmentation imparfaite car il double-compter la zone de vrais positifs. Mathématiquement, DSC = 2VP / (2VP + FP + FN) tandis que IoU = VP / (VP + FP + FN). Le facteur supplémentaire de 2 au numérateur et au dénominateur de DSC signifie que les vrais positifs sont pondérés plus lourdement par rapport aux faux positifs et faux négatifs. Par exemple, une segmentation avec VP=80, FP=20, FN=20 donne IoU = 80/120 = 0,667 et DSC = 160/200 = 0,800. La différence relative est la plus grande à de faibles niveaux de recouvrement et converge à mesure que la qualité de segmentation se rapproche de la perfection. Cette propriété rend le Dice plus optimiste, ce qui est parfois préféré en imagerie médicale où la priorité est de maximiser le recouvrement détecté plutôt que la précision exacte des limites.
: Les bonnes pratiques pour rapporter l'IoU dans l'inspection d'infrastructures comprennent : (1) rapporter à la fois l'IoU par classe et l'IoU moyen (mIoU) pour toutes les classes ; (2) spécifier le seuil de masque utilisé pour binariser les sorties du modèle avant le calcul de l'IoU ; (3) inclure l'écart type ou l'intervalle de confiance à 95 % sur l'ensemble de test ; (4) rapporter l'IoU accompagnée de métriques complémentaires — précision, rappel, F1-score et coefficient de Dice — pour une image complète de la précision ; (5) indiquer la résolution d'image et le protocole d'annotation pour contextualiser le plafond d'IoU réalisable ; (6) pour les métriques spécifiques aux fissures, rapporter l'IoU des fissures (IoU calculée uniquement sur les pixels de la classe fissure) séparément de l'IoU d'arrière-plan.

Segmentation précise des fissures avec l'IA

TarmacView utilise l'Intersection sur Union comme métrique principale pour valider la précision de la segmentation des fissures. Notre tête de segmentation basée sur DINOv3 atteint des scores IoU de premier plan sur les données d'inspection des chaussées aéroportuaires. Contactez-nous pour découvrir comment une détection précise des fissures par IA peut transformer votre flux de travail d'inspection d'infrastructures.

Nous contacter Planifier une démo

En savoir plus

Pourcentage de surface fissurée dans l'évaluation des chaussées et des structures

Le pourcentage de surface fissurée (crack_area_pct) est le rapport entre la surface du masque de fissures et la surface totale de l'image analysée, exprimé en p...

Jun 17, 2026 36 min de lecture

measurement pavement +3

Segmentation de fissures

La segmentation de fissures est une tâche de vision par ordinateur consistant à classer chaque pixel d'une image comme fissure ou non-fissure, produisant un mas...

Nov 18, 2025 41 min de lecture

Computer Vision Deep Learning +2

Détection de fissures par IA pour l'inspection des infrastructures

La détection de fissures par IA utilise la vision par ordinateur — réseaux de neurones convolutifs, vision transformers et modèles de segmentation sémantique — ...

Jun 16, 2025 46 min de lecture

Computer Vision Deep Learning +8