Détection de fissures par IA pour l'inspection des infrastructures

Détection de fissures par IA pour l’inspection des infrastructures

Définition du problème et défis

La détection de fissures par IA est une technologie de vision par ordinateur qui applique des modèles d’apprentissage profond — réseaux de neurones convolutifs (CNN), architectures encodeur-décodeur et vision transformers — pour identifier, classer, segmenter et mesurer automatiquement les fissures dans l’imagerie de chaussées, pistes, tabliers de ponts et surfaces structurelles en béton à partir d’images numériques. Cette technologie remplace ou augmente l’inspection visuelle manuelle par des ingénieurs, transformant des relevés subjectifs et à forte intensité de main-d’œuvre en évaluations objectives, évolutives et fondées sur les données. Pour les exploitants d’aéroports et d’infrastructures civiles, la détection automatisée des fissures soutient directement le calcul de l’Indice de Condition de Chaussée (PCI) selon l’ASTM D5340-12, le rapport du Code de Condition de Piste (RwyCC) selon l’Annexe 14 de l’OACI et la planification de la maintenance préventive.

Vue aérienne par drone de la surface d'une piste aéroportuaire avec fissures visibles, superposition d'analyse par vision par ordinateur IA mettant en évidence les motifs de fissures détectés

Le problème de la détection de fissures présente des défis uniques qui le distinguent des tâches générales de segmentation sémantique. Les fissures sont des structures minces et allongées — typiquement de 0,1 mm à 5 mm de largeur — qui n’occupent que 2 à 8% du total des pixels dans une image donnée, créant un déséquilibre de classe extrême lors de l’entraînement du modèle. Le rapport premier-plan/arrière-plan pour les pixels de fissures est d’environ 1:20 à 1:50, ce qui signifie qu’un classifieur naïf prédisant tous les pixels comme arrière-plan atteint 95%+ de précision tout en détectant zéro fissure. La morphologie des fissures varie considérablement : les fissures longitudinales sont parallèles à l’axe de la chaussée, les fissures transversales sont perpendiculaires, les fissures en peau de crocodile (fatigue) forment des motifs polygonaux interconnectés, et les fissures de réflexion se propagent à travers les revêtements à partir des joints sous-jacents. Chaque type nécessite une caractérisation géométrique différente.

La variabilité d’éclairage et environnementale complique davantage la détection. Les ombres des structures et de la végétation suspendue créent des régions à faible contraste où les fissures deviennent presque invisibles. Les chaussées mouillées réduisent le contraste de température de surface pour les méthodes thermiques et modifient la réflectivité dans le spectre visible. Les taches d’huile, marques de pneus, dépôts de caoutchouc, joints de construction, variations de texture de surface (striage, rainurage, finition à la brosse) et débris produisent des caractéristiques de faux positifs qui imitent visuellement les fissures. Une étude de 2025 publiée dans Scientific Reports (article EGA-UNet, Vol. 15, Article 33818) a démontré que la précision de la détection de fissures sur des arrière-plans complexes se dégrade de 10 à 20% par rapport à des surfaces propres et uniformes, même avec des mécanismes d’attention de pointe.

Les contraintes d’échelle et de résolution imposent un compromis fondamental. L’imagerie à haute résolution (distance d’échantillonnage au sol inférieure au millimètre par pixel) capture les fissures fines mais nécessite un grand espace de stockage, de la bande passante et du temps de traitement. L’imagerie à plus basse résolution couvre plus de surface par vol ou trajet mais manque les fissures plus étroites que 2-3 pixels. Pour l’inspection de pistes par drone à 15 m d’altitude avec un appareil photo 24 MP, la distance d’échantillonnage au sol typique est de 1,0-1,5 mm/pixel, ce qui signifie que les fissures de moins de 0,3 mm de largeur tombent sous le seuil de détection. Cette limite de résolution est une contrainte physique irréductible qu’aucun modèle d’IA ne peut surmonter — elle régit la largeur de fissure minimale détectable pour toute plateforme d’imagerie et altitude données.

Architectures de modèles pour la détection de fissures

U-Net

U-Net, introduit par Ronneberger, Fischer et Brox à l’Université de Fribourg en 2015, reste l’architecture la plus largement adoptée pour la segmentation de fissures au niveau pixel. La structure symétrique encodeur-décodeur avec connexions de saut de l’architecture est particulièrement bien adaptée à la détection de fissures car les fissures sont des caractéristiques fines et spatialement localisées qui nécessitent la préservation des détails haute fréquence tout au long du pipeline de sous-échantillonnage et de sur-échantillonnage.

L’encodeur (chemin de contraction) de l’U-Net se compose de quatre blocs de sous-échantillonnage. Chaque bloc contient deux convolutions 3×3 (padding=same) suivies d’une activation ReLU et d’une opération de max pooling 2×2 (stride=2). Le nombre de filtres double à chaque niveau : 64 → 128 → 256 → 512 → 1024 au goulot d’étranglement. Pour une entrée de 512×512 pixels, les dimensions spatiales se réduisent à travers l’encodeur comme suit : 512 → 256 → 128 → 64 → 32 à la couche la plus profonde. La couche de goulot d’étranglement au bas de la forme en U contient 1024 cartes de caractéristiques à une résolution de 32×32, représentant les caractéristiques les plus abstraites et sémantiquement les plus riches.

Le décodeur (chemin d’expansion) est le miroir de l’encodeur avec quatre blocs de sur-échantillonnage. Chaque bloc applique une convolution transposée 2×2 (déconvolution) qui réduit de moitié le nombre de filtres et double les dimensions spatiales. La carte de caractéristiques sur-échantillonnée est concaténée avec la carte de caractéristiques correspondante du chemin de l’encodeur via les connexions de saut — par exemple, la couche 128×128 du décodeur reçoit une concaténation directe de la couche 128×128 de l’encodeur. Ce mécanisme de connexion de saut est critique : il fournit au décodeur les détails spatiaux haute résolution de l’encodeur qui seraient autrement perdus lors du sous-échantillonnage agressif. Après concaténation, deux convolutions 3×3 avec ReLU affinent les caractéristiques combinées.

La couche de sortie finale est une convolution 1×1 avec activation sigmoïde, produisant une carte de probabilité à un canal où chaque valeur de pixel (0 à 1) représente la probabilité que ce pixel appartienne à une région de fissure. Un seuil (typiquement 0,5) convertit les probabilités en segmentation binaire fissure/non-fissure.

L’U-Net original contient ~31 millions de paramètres et 23 couches convolutionnelles. Pour une entrée de 512×512, la vitesse d’inférence est d’environ 40 ms par image sur un GPU moderne (NVIDIA RTX 3080 ou équivalent). Des variantes légères comme ResU-Net (utilisant des connexions résiduelles au lieu de convolutions simples) réduisent les paramètres à ~7,8 millions tout en atteignant 68,47% d’IoU moyen sur les ensembles de données de fissures. EGA-UNet réduit encore à ~2,3 millions de paramètres tout en améliorant le Dice à 73,1% grâce à des convolutions fantômes et un mélange de jetons basé sur Fourier.

Les connexions de saut de l’U-Net sont architecturalement essentielles pour la détection de fissures. Sans elles, les fissures fines (1-5 pixels de largeur) seraient complètement perdues lors du sous-échantillonnage 4× (réduction de 32× au goulot d’étranglement) — une fissure de 3 pixels de large à l’entrée devient une caractéristique sous-pixel au goulot d’étranglement qui ne peut pas être récupérée par le seul sur-échantillonnage. Les connexions de saut contournent entièrement ce goulot d’étranglement d’information, fournissant au décodeur la géométrie de fissure en pleine résolution depuis l’encodeur.

DeepLabV3+

DeepLabV3+, développé par Chen et al. chez Google en 2018, aborde la détection de fissures grâce aux convolutions atrous (dilatées) et au module Atrous Spatial Pyramid Pooling (ASPP) . Contrairement à U-Net, qui sous-échantillonne agressivement et récupère via des connexions de saut, DeepLab maintient des cartes de caractéristiques à plus haute résolution dans toute l’architecture de base en utilisant des convolutions dilatées qui élargissent le champ réceptif sans réduire les dimensions spatiales.

L’architecture de base est généralement ResNet-101 (101 couches, ~42,6 millions de paramètres) ou Xception-65 (~54,7 millions de paramètres). Les convolutions standard de l’architecture de base sont remplacées par des convolutions atrous — des noyaux 3×3 avec des taux de dilatation (trous) insérés entre les éléments du noyau. Un noyau 3×3 avec un taux de dilatation r=2 couvre un champ réceptif de 5×5 ; r=4 couvre 9×9 ; r=8 couvre 17×17 ; et r=16 couvre 33×33 — tous avec le même nombre de paramètres (9 poids) qu’une convolution 3×3 standard. Cette propriété est essentielle pour la détection de fissures : elle permet au modèle de voir un contexte plus large autour de chaque pixel (distinguant les fissures de la texture de surface) sans la perte de résolution qui résulterait d’un sous-échantillonnage.

Le module ASPP applique quatre branches convolutionnelles atrous parallèles avec des taux de dilatation r=6, 12, 18 et 24 (pour un stride de sortie=16), chacune avec 256 filtres et des noyaux 3×3. Une branche convolutionnelle 1×1 supplémentaire et une branche de pooling au niveau de l’image (global average pooling → convolution 1×1 → sur-échantillonnage bilinéaire) complètent le module. Les cinq branches produisent des cartes de caractéristiques à 256 canaux qui sont concaténées et passées à travers une autre convolution 1×1. La capacité multi-échelle du module ASPP est particulièrement importante pour les fissures dont la largeur varie considérablement — une fissure capillaire (<1 mm) et une fissure large (>6 mm) nécessitent des tailles de champ réceptif différentes pour une détection optimale.

Le décodeur de DeepLabV3+ est léger comparé au décodeur complet d’U-Net : sur-échantillonnage bilinéaire par 4×, concaténation avec des caractéristiques de bas niveau d’une couche précoce de l’architecture de base (réduites à 48 canaux via convolution 1×1), deux convolutions 3×3 (256 filtres), et sur-échantillonnage bilinéaire final par 4× jusqu’à la résolution originale. Le stride de sortie est typiquement de 16 (résolution d’entrée divisée par 16 au goulot d’étranglement), parfois 8 pour des cartes de caractéristiques plus denses au prix d’une utilisation mémoire 2× plus élevée.

DeepLabV3+ atteint environ 78,5% mIoU sur les ensembles de données de fissures. Cependant, l’étude EGA-UNet (2025) a rapporté que DeepLabV3+ sous-performe par rapport aux architectures légères comme EGA-UNet (73,1% Dice vs. inférieur pour DeepLabV3+) en raison d’une préservation insuffisante des détails fins aux limites des fissures. Les dilatations du module ASPP, bien qu’efficaces pour le contexte multi-échelle, brouillent les détails spatiaux fins essentiels pour une mesure précise de la largeur des fissures.

Vision Transformers (ViT)

Les Vision Transformers (ViT) , introduits par Dosovitskiy et al. chez Google en 2020, appliquent l’architecture Transformer à auto-attention — développée à l’origine pour le traitement du langage naturel — à l’analyse d’images. ViT divise une image d’entrée en patches non chevauchants de taille P×P (typiquement 16×16 pixels), linéarise chaque patch en un vecteur, et traite la séquence d’embeddings de patches à travers des couches standard d’encodeur Transformer avec auto-attention multi-têtes.

Pour une entrée de 224×224 avec des patches de 16×16, ViT produit (224/16)² = 196 embeddings de patches. Chaque patch de dimensions 16×16×3 (RVB) est aplati en un vecteur de 768 dimensions et projeté linéairement à la dimension d’embedding D. L’encodeur Transformer se compose de L couches empilées. ViT-Base utilise L=12, D=768 et 12 têtes d’attention (86M paramètres). ViT-Large utilise L=24, D=1024 et 16 têtes (307M paramètres). ViT-Huge utilise L=32, D=1280 et 16 têtes (632M paramètres). La complexité de l’auto-attention évolue en O(n²·D) où n est le nombre de patches — 196 patches avec D=768 nécessite environ 28 millions d’opérations par tête et par couche.

Pour la segmentation de fissures, ViT est utilisé comme architecture de base dans des architectures hybrides encodeur-décodeur. TransUNet remplace l’encodeur d’U-Net par un ViT, combinant le contexte global du Transformer avec un décodeur CNN pour la récupération des détails fins. SwinUNet utilise un Swin Transformer hiérarchique avec fenêtres décalées pour réduire le coût de calcul O(n²). SETR (SEgmentation TRansformer) applique ViT directement comme encodeur avec sur-échantillonnage progressif.

L’avantage de ViT pour la détection de fissures réside dans son champ réceptif global. Les CNN traitent l’information localement, nécessitant de nombreuses couches pour propager l’information sur de grandes distances spatiales. Le mécanisme d’auto-attention de ViT connecte chaque patch à tous les autres patches en une seule couche, lui permettant de détecter des fissures longues et continues qui s’étendent sur des centaines ou milliers de pixels — les fissures de fatigue qui serpentent sur toute la largeur d’une piste, par exemple. Les modèles hybrides ViT-CNN atteignent 74-78% d’IoU sur les ensembles de données de fissures, TransUNet montrant une force particulière sur les motifs de fissures en peau de crocodile (interconnectées).

La limitation critique est le coût de calcul. Une image de 512×512 divisée en patches de 16×16 produit (512/16)² = 1 024 patches, nécessitant 1 024² ≈ 1 million de calculs d’attention par couche — un ordre de grandeur de plus que 196 patches pour des entrées de 224×224. Cela rend le déploiement complet de ViT sur des dispositifs embarqués (drones, véhicules d’inspection mobiles) impractical sans compression ou élagage significatifs.

DINOv3

DINOv3, publié par Meta AI en 2025, représente l’état de l’art des Vision Transformers auto-supervisés. Il s’agit de la troisième génération de la famille DINO (DIstillation with NO labels), entraînée à une échelle sans précédent : jusqu’à 7 milliards de paramètres sur 1,7 milliard d’images non étiquetées. DINOv3 utilise un cadre enseignant-élève où l’élève apprend à correspondre aux représentations de sortie de l’enseignant sans aucune donnée étiquetée par des humains.

L’innovation architecturale clé de DINOv3 est le Gram Anchoring — une technique de régularisation appliquée après environ 1 million d’itérations d’entraînement qui stabilise les représentations de caractéristiques denses (au niveau des patches). La matrice de Gram du modèle élève (similarité par paires de patches, dimensions N×N où N=nombre de patches) est contrainte de rester proche d’une copie figée du « Gram teacher ». Cela empêche l’effondrement des caractéristiques denses, un mode de défaillance dans l’apprentissage auto-supervisé où des patches d’image distincts convergent vers des embeddings similaires malgré des différences sémantiques. Les variantes antérieures de DINO (v1 et v2) souffraient de cet effondrement lors d’un entraînement prolongé ; le Gram Anchoring permet un entraînement stable sur des milliards d’images.

Pour la détection de fissures, la pertinence de DINOv3 réside dans le paradigme de l’architecture de base figée. L’architecture de base ViT pré-entraînée (disponible en tailles allant de ViT-Small à 21M paramètres jusqu’à ViT-Huge à 632M et le modèle phare de 7B paramètres) est figée et utilisée comme encodeur visuel universel. Des têtes légères spécifiques à la tâche — sondes linéaires, adaptateurs MLP ou petites têtes convolutionnelles — sont entraînées par-dessus sans rétropropager à travers l’architecture de base. Cela permet :

  • La détection de fissures en quelques exemples : Une sonde linéaire entraînée sur aussi peu que 50 images de fissures étiquetées atteint une précision de segmentation comparable à un CNN entièrement supervisé entraîné sur 500+ images.
  • Le transfert inter-domaines : Les caractéristiques apprises à partir d’images naturelles (données de niveau ImageNet) se transfèrent aux images de fissures de chaussées sans pré-entraînement spécifique au domaine.
  • Le déploiement multi-tâches : Une seule architecture de base figée sert simultanément la détection de fissures, la détection de nids-de-poule, l’évaluation des joints d’étanchéité et l’évaluation du marquage de la chaussée via différentes têtes légères.

Les caractéristiques au niveau des patches de DINOv3 (plutôt que les embeddings d’image globaux) préservent les informations spatiales fines nécessaires à la délimitation des fissures fines. La variante ViT-Base (86M paramètres, 12 couches, dimension d’embedding 768) offre le meilleur rapport précision/calcul pour les applications d’inspection des infrastructures. DINOv3 est particulièrement prometteur pour les programmes d’inspection de pistes où les données de fissures étiquetées sont rares — un scénario courant pour les petits aéroports sans historique étendu de gestion des chaussées.

CrackNet

CrackNet, développé par Zhang et al. en 2017 à l’Université de Floride du Sud, a été l’une des premières architectures CNN profondes conçues spécifiquement et exclusivement pour la détection automatisée de fissures de chaussées. Contrairement aux architectures polyvalentes (U-Net, DeepLab) adaptées de la segmentation d’images biomédicales ou naturelles, CrackNet a été architecturé de fond en comble pour la morphologie des fissures de chaussées.

L’architecture originale de CrackNet se compose de 6 couches convolutionnelles avec une partie entièrement connectée : Conv1 (5×5, stride=1, 64 filtres) → Conv2 (5×5, stride=1, 64 filtres) → MaxPool (2×2) → Conv3 (3×3, stride=1, 128 filtres) → Conv4 (3×3, stride=1, 128 filtres) → MaxPool (2×2) → Conv5 (5×5, stride=1, 256 filtres) → Conv6 (3×3, stride=1, 256 filtres) → Fully Connected (2 048 unités) → Sortie Softmax (2 classes : fissure ou non-fissure). Le nombre total de paramètres est d’environ ~1,4 million — environ 22× plus petit que U-Net (31M) et 35× plus petit que DeepLabV3+ (42-55M).

CrackNet opère sur des patches de taille fixe 64×64 pixels plutôt que sur des images complètes. L’ensemble de données d’entraînement comprenait 640 000 patches extraits de 1 800 images de chaussées (160 000 pour la validation, 180 000 pour les tests). Chaque patch est classifié comme contenant ou non une fissure dans le pixel central — il s’agit d’une approche de classification par patches plutôt que de segmentation au niveau pixel. Les variantes modernes (CrackNet-V, CrackNet-II, CrackNet-R) ont remplacé le classifieur par patches par des réseaux entièrement convolutionnels pour une prédiction dense au niveau pixel.

CrackNet-V (la variante améliorée de 2020) a ajouté un entraînement basé sur les Réseaux Antagonistes Génératifs (GAN). Le générateur produit des cartes de segmentation de fissures à partir d’images d’entrée, et un réseau discriminateur distingue les cartes générées des annotations de vérité terrain. Ce régime d’entraînement adversarial a amélioré le score F1 à 0,87 sur l’ensemble de données CFD. CrackNet-V a également introduit la fusion de caractéristiques multi-échelle avec des modules de type inception, permettant la détection de fissures à différentes largeurs.

L’importance de CrackNet réside dans son efficacité architecturale pour le déploiement embarqué. Avec 1,4M paramètres et 5 ms par patch, il a démontré qu’une conception d’architecture spécifique aux fissures pouvait atteindre une précision de niveau production sur le matériel disponible en 2017 — un seul GPU NVIDIA Tesla K80 pouvait traiter une image de chaussée complète (assemblée à partir de patches) en moins de 2 secondes. Cela a établi la faisabilité de la détection automatisée en temps réel des fissures pour les véhicules de relevé à vitesse autoroutière.

EGA-UNet (2025)

EGA-UNet, publié par Yang et al. dans Scientific Reports (Vol. 15, Article 33818, 2025), représente l’état de l’art actuel pour la segmentation efficace des fissures. L’architecture atteint un coefficient de Dice de 73,1% avec seulement ~2,3 millions de paramètres — environ 13× plus petit que l’U-Net standard tout en améliorant la précision de +3,1% de Dice par rapport à U-Net, +11,9% par rapport à SegNet et +44,9% par rapport à PSPNet sur les ensembles de données de référence de fissures.

Trois innovations architecturales distinguent EGA-UNet :

EG-Block (Efficient Ghost Sparse Convolution Block) : Ce bloc de construction utilise la convolution « fantôme » — une technique qui génère un petit nombre de cartes de caractéristiques intrinsèques via une convolution standard, puis applique des opérations linéaires moins coûteuses (convolutions depthwise 3×3) pour produire des cartes de caractéristiques « fantômes » supplémentaires. Pour une sortie souhaitée de C canaux, la convolution fantôme génère environ C/2 via convolution standard et C/2 via opérations linéaires, réduisant le calcul d’environ 50% par rapport à une convolution standard à canaux de sortie équivalents. L’EG-Block intègre un module Efficient Multi-scale Attention (EMA) qui pondère les caractéristiques à travers plusieurs échelles spatiales.

A-RepViT Block : Celui-ci remplace le mélangeur de jetons standard du Vision Transformer par un Filtrage de Fourier Adaptatif (AFF) . La carte de caractéristiques d’entrée est transformée dans le domaine fréquentiel via la Transformée de Fourier Rapide (FFT), les composantes fréquentielles sont filtrées de manière adaptative (passe-bas, passe-haut ou passe-bande selon les poids appris), et la FFT inverse reconstruit la carte de caractéristiques spatiales. AFF capture le contexte global avec une complexité O(n log n) contre O(n²) pour l’auto-attention — pour une carte de caractéristiques 32×32 (1 024 éléments), cela réduit le calcul d’environ 1 million d’opérations à environ 10 000 opérations par couche.

SPPF (Spatial Pyramid Pooling Fast) : Appliqué dans la couche d’encodeur la plus profonde, SPPF agrège les caractéristiques multi-échelles en utilisant trois opérations de max-pooling séquentielles de différentes tailles de noyau (champs réceptifs effectifs de 5×5, 9×9, 13×13), concaténées en une représentation multi-échelle unifiée. Ceci est efficace en termes de calcul par rapport à l’ASPP parallèle (utilisé dans DeepLab) car le pooling séquentiel réutilise les résultats intermédiaires.

La vitesse d’inférence d’EGA-UNet est suffisante pour un déploiement embarqué en temps réel. Sur un NVIDIA Jetson Orin Nano Super, le modèle atteint environ 45-55 FPS en précision FP16 sur des entrées de 512×512, ce qui le rend adapté à la détection de fissures en temps réel sur drone ou véhicule. La conception légère permet un déploiement sur des plateformes sans GPU dédié — une inférence à 8-12 FPS sur un Raspberry Pi 5 avec accélérateur NPU Hailo-8L (13 TOPS) a été démontrée.

Comparaison des architectures

ArchitectureParamètresPrincipe de conceptionInnovation cléDice/IoU fissuresDéploiement embarqué
U-Net (2015)~31MEncodeur-décodeur, connexions de sautPréservation des détails spatiaux65-68% IoUAvec quantification
ResU-Net~7,8MConnexions résiduellesAmélioration du flux de gradient68,5% IoUOui
DeepLabV3+ (2018)~42-55MConvolution atrous, ASPPContexte multi-échelle~75% IoUNon
ViT-Base (2020)86MAuto-attention sur patchesChamp réceptif global74-78% IoUNon
DINOv3 (2025)21M-7BAuto-supervisé, architecture figéeTransfert en quelques exemplesComparable superviséAvec tête adaptatrice
CrackNet (2017)~1,4MCNN par patchesConception spécifique aux chaussées~87% F1 (patch)Oui
EGA-UNet (2025)~2,3MGhost conv + mélange de jetons AFFLéger + contexte global73,1% DiceOui

Ensembles de données d’entraînement pour la détection de fissures

L’entraînement des modèles de détection de fissures nécessite des ensembles de données annotés au niveau pixel où chaque image possède un masque binaire correspondant étiquetant chaque pixel comme fissure (blanc, valeur 1) ou non-fissure (noir, valeur 0). Le processus d’annotation est à forte intensité de main-d’œuvre — une seule image de 2000×1500 pixels nécessite 15 à 45 minutes d’étiquetage manuel par des experts utilisant des outils de dessin polyligne suivis d’une dilatation morphologique pour produire des masques de fissure en pleine largeur. Les ensembles de données suivants constituent les références standard pour la recherche académique et le développement de modèles.

Crack500

Crack500, publié par Yang et al. en 2020, contient 500 images RVB à une résolution de 2000×1500 pixels (3 mégapixels par image). Les images ont été capturées à l’aide d’appareils photo de téléphones mobiles sur des surfaces de chaussées autour de l’Université Temple à Philadelphie, États-Unis. Chaque image possède un masque de segmentation binaire au niveau pixel correspondant, annoté manuellement à l’aide d’outils de dessin polyligne. Les chercheurs subdivisent couramment les 500 images en environ 1 896 patches non chevauchants de 512×512 pour l’entraînement du modèle. La répartition standard alloue 350 images pour l’entraînement, 50 pour la validation et 100 pour les tests. Les pixels de fissures constituent environ 2 à 5% du total des pixels par image. Les largeurs de fissures vont de 0,1 mm à 5 mm, et les images incluent plusieurs conditions d’éclairage (ensoleillé, nuageux, ombré). Les types de fissures incluent les motifs longitudinalx, transversaux et en peau de crocodile.

DeepCrack

DeepCrack, publié par Liu et al. dans Neurocomputing (2019), contient 537 images RVB à une résolution de 544×384 pixels. Les images ont été capturées à partir de diverses surfaces en béton et asphalte — ponts, routes, tunnels et murs de bâtiments — offrant une couverture multi-scènes rare dans les ensembles de données de chaussées mono-source. Chaque image possède des annotations binaires au niveau pixel sous forme de masques PNG. L’ensemble de données est prédécoupé en environ 300 images d’entraînement et 237 images de test. DeepCrack a été spécifiquement construit pour évaluer l’architecture de détection de contours holistiquement nichée (HED) adaptée à la détection de fissures. L’ensemble de données inclut des conditions difficiles : faible contraste entre les fissures et l’arrière-plan, fissures fines (1-3 pixels de largeur) et arrière-plans à surface texturée. Les fissures sont catégorisées par largeur plutôt que par type structurel.

CrackForest Dataset (CFD)

CFD, publié par Shi et al. dans IEEE Transactions on Intelligent Transportation Systems (2016), contient 118 images à une résolution de 480×320 pixels. Les images ont été capturées à l’aide d’un iPhone 5 sur des routes urbaines à Pékin, Chine. Chaque image possède des masques de vérité terrain manuels au niveau pixel, plus un dossier « seg » avec des segmentations basées sur superpixels. L’ensemble de données a été conçu pour refléter les conditions générales des surfaces routières urbaines et inclut des facteurs de bruit : ombres d’arbres et de bâtiments, taches d’huile, flaques d’eau et couverture de feuilles. Les pixels de fissures représentent environ 4 à 8% de chaque image. La faible résolution de 480×320 rend la détection des fissures fines difficile — les fissures peuvent être aussi étroites que 1-2 pixels. CFD est sous licence de recherche non commerciale uniquement avec obligation de citation. Sa principale limitation est sa petite taille (118 images), une seule zone géographique et un seul appareil photo.

GAPs384

GAPs384 (German Asphalt Pavement Distress dataset) , de l’Université de Technologie d’Ilmenau, Allemagne, contient 1 969 images à une résolution de 1920×1080 pixels (Full HD). C’est le plus grand ensemble de données public mono-source de fissures par nombre d’images. Les images sont en niveaux de gris (pas RVB), ce qui réduit la taille des fichiers mais élimine les informations de couleur qui peuvent aider à la discrimination des fissures. Les annotations incluent la classification du type de fissure (longitudinale, transversale, en peau de crocodile) en plus des masques de fissure au niveau pixel. La haute résolution et les conditions de capture uniformes (réseau autoroutier allemand) font de GAPs384 une ressource précieuse pour l’entraînement de modèles destinés aux conditions de chaussées européennes. L’ensemble de données inclut une gamme plus large de sévérités de fissures que CFD ou Crack500.

NHA12D

NHA12D, publié par Huang et al. (2022), contient 80 images de chaussées collectées sur le réseau autoroutier A12 au Royaume-Uni par National Highways (anciennement Highways England). L’ensemble de données inclut de manière unique 40 images de chaussées en béton et 40 images de chaussées en asphalte capturées dans des conditions de relevé identiques par des véhicules de relevé numériques. Cette composition double-surface rend NHA12D précieux pour évaluer la généralisation inter-domaines — la capacité d’un modèle à détecter les fissures sur les deux types de surface sans dégradation. Des annotations de vérité terrain au niveau pixel sont fournies. La petite taille (80 images) fait de NHA12D principalement un ensemble de données de référence plutôt qu’une ressource d’entraînement.

Ensemble de donnéesImagesRésolution% Fissure/ImageSourceAnnée
Crack5005002 000×1 5002-5%Routes de Philadelphie2020
DeepCrack537544×384variableMulti-scène2019
CFD118480×3204-8%Routes de Pékin2016
GAPs3841 9691 920×1 080variableAutoroutes allemandes2020
NHA12D80Haute résolutionvariableAutoroute A12 UK2022
CrackTree200206800×600variableChaussées (difficile)2012

Déséquilibre de classe et fonctions de perte

Tous les ensembles de données de fissures présentent un déséquilibre de classe sévère : les pixels de fissures constituent 2 à 8% du total des pixels, ce qui signifie que les modèles doivent apprendre à partir d’une moyenne de 500 à 2 000 pixels de fissures par image de 25 000 pixels totaux (résolution CFD 480×320). La fonction de perte d’entropie croisée standard est inefficace — un modèle minimise la perte en prédisant « arrière-plan » pour chaque pixel. Des fonctions de perte spécialisées répondent à ce problème :

Focal Loss (Lin et al., 2017) applique un facteur de modulation (1 − pt)γ à la perte d’entropie croisée, où pt est la probabilité prédite par le modèle pour la classe de vérité terrain et γ est un paramètre de focalisation (typiquement 2,0). Cela réduit le poids des exemples bien classifiés (pt → 1,0) et augmente le poids des exemples difficiles mal classifiés (pt → 0,0). Pour la détection de fissures avec γ=2,0, la focal loss réduit la contribution des pixels d’arrière-plan faciles d’environ 4× par rapport à l’entropie croisée.

Dice Loss (Milletari et al., 2016) = 1 − coefficient de Dice = 1 − (2VP + ε)/(2VP + FP + FN + ε). Cela optimise directement la métrique d’évaluation. La Dice loss est moins sensible au déséquilibre de classe que l’entropie croisée car elle mesure le chevauchement plutôt que la précision par pixel. C’est la fonction de perte standard pour la segmentation de fissures basée sur U-Net.

Tversky Loss (Salehi et al., 2017) généralise la Dice loss en pondérant différemment les faux positifs et les faux négatifs : indice de Tversky = VP/(VP + α·FP + β·FN). Pour la détection de fissures critique pour la sécurité où les faux négatifs (fissures manquées) sont plus dangereux que les faux positifs (fausses alarmes), le réglage α=0,3 et β=0,7 pénalise les FN plus lourdement que les FP.

SupContrast (Supervised Contrastive Loss) , pertinent pour les approches basées sur DINOv3, rapproche les embeddings de patches de pixels de fissures dans l’espace d’embedding tout en les éloignant des embeddings de pixels d’arrière-plan. Cela crée un espace d’embedding bien structuré où les pixels de fissures forment des grappes denses qui sont linéairement séparables des grappes d’arrière-plan.

Classification vs Segmentation des fissures

Les approches de détection de fissures par IA se répartissent en deux catégories méthodologiques : basée sur la classification et basée sur la segmentation, chacune avec des sorties, métriques et cas d’utilisation distincts.

La classification des fissures détermine si une région d’image (patch d’image, tuile ou image complète) contient une fissure. La sortie est une étiquette binaire (fissure présente / fissure absente) ou une étiquette multi-classe (type de fissure : longitudinale, transversale, en peau de crocodile). Les modèles de classification sont généralement des CNN légers (CrackNet à 1,4M paramètres, MobileNetV2 à 3,5M paramètres) entraînés sur des ensembles de données au niveau des patches. La sortie fournit une probabilité de présence de fissure et un emplacement (quel patch contient une fissure) mais ne fournit pas la géométrie de la fissure — largeur, longueur, orientation ou topologie. La classification est appropriée pour les relevés de dépistage rapide où l’objectif est d’identifier les emplacements de fissures pour une inspection de suivi, et non de mesurer des fissures individuelles. L’évaluation utilise la précision, le rappel et le F1 au niveau du patch ou de l’image.

La segmentation des fissures (segmentation sémantique) classifie chaque pixel individuellement comme fissure ou non-fissure. La sortie est un masque binaire à la même résolution que l’image d’entrée, où chaque pixel a une probabilité de fissure. Cela fournit la géométrie complète de la fissure — largeur à chaque point le long de la fissure, longueur totale, angle d’orientation, topologie de ramification et surface de fissure. La segmentation est requise pour l’évaluation quantitative de l’état des chaussées (calcul du PCI, classification de la sévérité par largeur de fissure selon les normes OACI). L’évaluation utilise des métriques au niveau pixel : IoU, Dice, précision, rappel et F1 de contour. Les modèles de segmentation sont plus lourds en calcul (U-Net à 31M paramètres, DeepLabV3+ à 42-55M) mais fournissent une sortie considérablement plus riche.

Certains systèmes utilisent la segmentation d’instances (détection de chaque fissure individuelle comme un objet séparé), qui distingue les fissures déconnectées entre elles. Ceci est pertinent pour le comptage de fissures (nombre de fissures par unité de surface) et la cartographie de densité de fissures. Mask R-CNN et YOLOv8-seg sont des architectures courantes de segmentation d’instances pour la détection de fissures.

Métriques d’évaluation

Intersection over Union (IoU)

L’IoU (Indice de Jaccard) mesure le chevauchement entre la segmentation de fissure prédite et la vérité terrain, divisé par l’union des deux. C’est la métrique la plus largement rapportée pour la segmentation de fissures :

IoU = VP / (VP + FP + FN)

Les valeurs vont de 0 (aucun chevauchement) à 1 (chevauchement parfait). L’IoU typique pour les modèles de détection de fissures varie de 0,55 à 0,75. L’IoU est plus sensible que le Dice aux faux positifs et faux négatifs car le dénominateur de l’union est plus grand que les sommes individuelles. Un modèle prédisant une fissure de vérité terrain de 100 pixels avec 60 pixels corrects (VP=60, FP=20, FN=40) atteint IoU = 60/(60+20+40) = 0,50. Le dénominateur d’union plus strict signifie que l’IoU est toujours inférieure ou égale au Dice pour la même prédiction.

Coefficient de Dice (Score F1)

Le Dice (également appelé score F1 pour la segmentation binaire) est la moyenne harmonique de la précision et du rappel :

Dice = 2 × VP / (2 × VP + FP + FN)

Le Dice est lié à l’IoU : Dice = 2·IoU / (1 + IoU). Pour l’exemple ci-dessus (IoU=0,50), Dice = 2×0,50/1,50 = 0,67. Le Dice typique pour la détection de fissures varie de 0,65 à 0,80. L’article EGA-UNet (2025) rapporte Dice = 73,1% comme métrique principale. Le Dice donne une évaluation plus optimiste de la qualité de segmentation que l’IoU, et l’écart entre les deux s’élargit à mesure que la qualité diminue — une prédiction de faible qualité avec IoU=0,25 a un Dice=0,40.

Précision et Rappel

Précision (Valeur Prédictive Positive) = VP/(VP+FP). Mesure le taux de fausses alarmes : de tous les pixels étiquetés comme fissure, quelle fraction est réellement une fissure ? Une haute précision (>0,85) signifie peu de faux positifs. Important lorsque la détection de fissures déclenche des actions de suivi coûteuses (par exemple, des équipes de scellement dépêchées pour inspecter les emplacements signalés).

Rappel (Sensibilité, Taux de Vrais Positifs) = VP/(VP+FN). Mesure le taux de fissures manquées : de tous les pixels de fissure réels, quelle fraction le modèle a-t-il détectée ? Un rappel élevé (>0,85) signifie peu de fissures manquées. Pour les infrastructures critiques pour la sécurité (inspection de pistes dans les aéroports commerciaux), le rappel est priorisé sur la précision — enquêter sur une fausse alarme est moins grave que de manquer une fissure réelle qui pourrait se propager en une défaillance structurelle sous le chargement des aéronefs.

Moyenne de la Précision Moyenne (mAP)

La mAP évalue la précision à travers différents seuils de rappel, typiquement rapportée à des seuils d’IoU de 0,50 (mAP@50) et de 0,50 à 0,95 par incréments de 0,05 (mAP@50:95). Pour la détection de fissures en tant que tâche de détection d’objets (boîtes englobantes), la mAP mesure la capacité du modèle à localiser les régions de fissures. Une étude de 2025 de l’Université de Floride Centrale utilisant Grounding DINO pour la détection de fissures thermiques a atteint 70% mAP@[0,5:0,95]. Pour les tâches de segmentation au niveau pixel, l’IoU et le Dice sont préférés à la mAP car les fissures sont des structures non rectangulaires et les métriques de boîtes englobantes représentent mal la qualité de la segmentation.

Comparaison des métriques

MétriqueFormulePlageValeur typique fissuresCas d’utilisation
IoUVP/(VP+FP+FN)0-10,55-0,75Qualité de segmentation (strict)
Dice2VP/(2VP+FP+FN)0-10,65-0,80Qualité de segmentation (tolérant)
PrécisionVP/(VP+FP)0-10,80-0,95Contrôle des fausses alarmes
RappelVP/(VP+FN)0-10,80-0,95Détection critique pour la sécurité
F12PR/(P+R)0-10,80-0,92Global
mAP@50Précision moyenne à IoU≥0,50-10,70-0,85Détection d’objets
Précision pixel(VP+VN)/(VP+VN+FP+FN)0-1>0,95 (trompeur)Non recommandé pour les fissures

Mesure de la largeur et de la longueur des fissures à partir de la segmentation

Le masque de segmentation binaire produit par un modèle d’IA fournit l’emplacement et la forme des fissures, mais les normes d’inspection des infrastructures exigent des dimensions physiques des fissures — largeur en millimètres, longueur en mètres et surface en millimètres carrés. La conversion des masques au niveau pixel en mesures d’ingénierie nécessite un pipeline de géométrie computationnelle.

Squelettisation

La squelettisation (amincissement) réduit la région de fissure à une ligne centrale d’un seul pixel de large qui préserve la topologie de la fissure (connectivité, ramifications, points d’extrémité). L’algorithme d’amincissement de Zhang-Suen (1984) est la méthode standard :

  1. Entrée : Masque binaire de fissure (blanc=fissure, noir=arrière-plan)
  2. Procédure itérative en deux passes :
    • Passe 1 : Marquer les pixels de contour pour suppression si : (a) 2 ≤ N(P1) ≤ 6 (nombre de 8-voisins non nuls) ; (b) S(P1) = 1 (nombre de transitions 0→1 dans le cycle des 8-voisins) ; (c) P2×P4×P6 = 0 ; (d) P4×P6×P8 = 0
    • Passe 2 : Mêmes conditions avec (c’) P2×P4×P8 = 0 ; (d’) P2×P6×P8 = 0
    • Répéter jusqu’à ce qu’aucun pixel ne change dans une itération
  3. Sortie : Squelette de la ligne centrale, exactement 1 pixel de large

La Transformée de l’Axe Médian (MAT) est une alternative utilisant la transformée de distance : pour chaque pixel intérieur de fissure, calculer la distance euclidienne minimale jusqu’à la limite de la fissure. Le squelette est constitué des pixels qui sont des maxima locaux dans cette carte de distance. MAT produit des squelettes plus lisses pour les fissures épaisses et irrégulières mais nécessite un calcul O(n²) contre O(n) pour l’amincissement de Zhang-Suen.

Transformée de distance pour la mesure de largeur

La Transformée de Distance Euclidienne (EDT) calcule la distance euclidienne minimale de chaque pixel du squelette (x,y) au pixel de contour de fissure le plus proche :

D(x,y) = min(i,j)∈∂C √((x−i)² + (y−j)²)

où ∂C est l’ensemble des pixels de contour de la région de fissure. La largeur de fissure au point (x,y) = 2 × D(x,y), car la distance de la ligne centrale au contour est la moitié de la largeur totale de la fissure.

La transformée de distance est calculée efficacement en utilisant :

  • Fast Marching Method : O(n log n) pour la distance euclidienne exacte
  • Algorithme de Danielsson : O(n) pour l’approximation de distance 4-connexe
  • cv2.distanceTransform() d’OpenCV : O(n) balayage raster en deux passes produisant une distance euclidienne approchée avec <1% d’erreur

Statistiques de largeur dérivées du tableau de largeur par pixel :

  • Largeur moyenne de fissure : moyenne sur tous les pixels du squelette — utilisée pour la classification globale de la sévérité des fissures
  • Largeur maximale de fissure : plus grande valeur de largeur unique — utilisée pour l’évaluation de la sévérité dans le pire cas
  • Histogramme de largeur : distribution des largeurs sur la longueur de la fissure — indique l’uniformité de la fissure

Calcul de la longueur de fissure

La longueur de fissure est mesurée à partir de la ligne centrale squelettisée :

Méthode 1 — Comptage de pixels avec correction de connectivité :

  • Compter le nombre total de pixels du squelette
  • Ajuster pour la adjacency diagonale : chaque pas 4-connexe (orthogonal) = 1 pixel ; chaque pas diagonal = √2 ≈ 1,414 pixels
  • Longueur totale L = N₀ + √2 × N₁ (où N₀ = pas 4-connexes, N₁ = pas diagonaux)

Méthode 2 — Code de chaîne (Freeman Chain) :

  • Coder le chemin du squelette comme une séquence de codes de direction (0=Est, 1=Nord-Est, 2=Nord, etc.)
  • Somme des longueurs de pas : codes pairs (orthogonaux) = 1, codes impairs (diagonaux) = √2

Méthode 3 — Distance euclidienne entre points ordonnés :

  • Trier les pixels du squelette en un chemin ordonné en utilisant un parcours de graphe (nécessaire pour les fissures ramifiées où plusieurs chemins divergent aux jonctions)
  • Somme des distances euclidiennes entre les points triés consécutifs

Pour les fissures ramifiées (par exemple, fissures en peau de crocodile près des intersections), la longueur totale de fissure inclut toutes les branches. Le squelette doit être décomposé en branches individuelles aux points de jonction avant le calcul de la longueur.

Étalonnage pixel-millimètre

Les masques de segmentation mesurent les fissures en pixels ; les normes d’ingénierie exigent des millimètres physiques. Quatre méthodes d’étalonnage sont utilisées :

1. Objet de référence connu : Placer un objet de dimensions connues (pièce de monnaie, règle ou cible d’étalonnage) dans la scène. Facteur d’échelle S = longueur_connue_mm / longueur_mesurée_pixels. Précision : ±0,5-1%.

2. Projection laser (Carrasco et al., 2021) : Deux faisceaux laser parallèles à distance connue (par exemple, 50 mm) sont projetés sur la surface. La distance en pixels entre les points laser donne S = 50 mm / Δpixels. Précision : ±0,02 mm.

3. Géométrie de la caméra : mm_par_pixel = (2 × Z × tan(HFOV/2)) / Largeur_image, où Z = distance caméra-surface (m), HFOV = champ de vision horizontal (degrés). Pour un drone à 10 m d’altitude avec un objectif de 24 mm et un appareil photo 20 MP (5472×3648, focale 24 mm sur capteur APS-C avec facteur de recadrage 1,5×, focale effective 36 mm, HFOV ≈ 51°) : mm_par_pixel ≈ (2 × 10 000 × tan(25,5°)) / 5472 ≈ 1,8 mm/pixel.

4. Pré-étalonnage fixe : Pour un drone ou véhicule de relevé à altitude/configurations d’objectif fixes, pré-étalonner S. À 15 m d’altitude avec un appareil photo 20 MP et un objectif de 35 mm, S ≈ 0,5 mm/pixel.

Pipeline de mesure complet

  1. Image d’entrée → Segmentation par apprentissage profond → Masque binaire de fissure
  2. Amincissement de Zhang-Suen → Squelette de fissure à 1 pixel
  3. Transformée de distance euclidienne → Largeur perpendiculaire à chaque point du squelette
  4. Parcours du squelette avec code de chaîne → Longueur totale de fissure
  5. Étalonnage pixel-mm → Dimensions physiques de la fissure (largeur en mm, longueur en m, surface en mm²)
  6. Classification de sévérité selon OACI/FAA : <1 mm (capillaire), 1-3 mm (étroite), 3-6 mm (moyenne), >6 mm (large)

Généralisation entre types de chaussées et conditions d’éclairage

La généralisation du modèle — la capacité à maintenir la précision de détection sur des types de chaussées, conditions d’éclairage et systèmes de caméra non vus pendant l’entraînement — est un défi critique pour la détection de fissures en production. Un modèle entraîné exclusivement sur Crack500 (asphalte de Philadelphie) peut perdre 5-15% d’IoU lorsqu’il est appliqué à des surfaces de pistes en béton, et un modèle entraîné sur des images diurnes ensoleillées peut perdre 10-20% de précision dans des conditions nuageuses ou humides.

Généralisation inter-chaussées

Les chaussées en asphalte et en béton présentent des caractéristiques visuelles fondamentalement différentes pour la détection de fissures. L’asphalte a une apparence sombre et uniforme avec un faible albédo (réflectance 5-15%). Les bords de fissures dans l’asphalte sont généralement nets et à fort contraste car les nouvelles faces de fissures exposent des granulats plus clairs. Le béton a un albédo plus élevé (réflectance 30-50%) et une apparence de surface marbrée due à la distribution des granulats fins. Les fissures dans le béton sont souvent à plus faible contraste car les faces fissurées vieillissent de manière similaire à la surface exposée. Un modèle entraîné sur un type de surface apprend des caractéristiques de texture spécifiques à cette surface (fond sombre uniforme de l’asphalte) qui sont absentes ou inversées sur l’autre surface (fond plus clair et texturé du béton).

L’ensemble de données NHA12D a été spécialement conçu pour évaluer ce défi inter-domaines — il contient 40 images de béton et 40 images d’asphalte provenant du même réseau autoroutier britannique. Les résultats publiés montrent que les modèles entraînés sur des ensembles de données d’asphalte uniquement (CFD, Crack500) et testés sur les images en béton de NHA12D perdent 8-12% d’IoU par rapport à l’évaluation sur la même surface. Les techniques d’adaptation au domaine répondent à ce problème par :

  • Alignement adversarial de domaine : Un réseau discriminateur de domaine apprend à distinguer les domaines source asphalte et béton ; l’encodeur de détection de fissures apprend des caractéristiques qui trompent le discriminateur, produisant des représentations invariantes au domaine.
  • Augmentation par transfert de style : Les images d’entraînement sont transformées stylistiquement pour imiter différentes textures de chaussées en utilisant le transfert de style neuronal (appariement de matrice de Gram) ou l’adaptation de domaine par Fourier (échange d’amplitude).
  • Entraînement multi-surfaces : L’inclusion de données d’asphalte et de béton dans l’entraînement (par exemple, combinaison de Crack500 + NHA12D béton) améliore la généralisation inter-surfaces de 3-5%.

Variation d’éclairage

La précision de la détection de fissures sous différentes conditions d’éclairage varie considérablement. Une étude systématique sur Crack500 sous trois scénarios d’éclairage a révélé :

  • Ensoleillé, direct zénithal : IoU = 0,72 (référence optimale)
  • Nuageux, lumière diffuse : IoU = 0,63 (−12,5% par rapport à la référence)
  • Ombré (ombre de bâtiment/arbre sur 30% de l’image) : IoU = 0,58 (−19,4% par rapport à la référence)
  • Chaussée mouillée (simulée par assombrissement et augmentation de la réflexion spéculaire) : IoU = 0,43 (−40,3% par rapport à la référence, en raison de l’eau de surface masquant les caractéristiques des fissures)

L’augmentation de données pendant l’entraînement améliore la robustesse à l’éclairage. Les augmentations standard pour la détection de fissures incluent :

  • Variation de luminosité : Variation aléatoire de luminosité de ±30%
  • Variation de contraste : Variation aléatoire de contraste de ±20%
  • Bruit gaussien : σ = 0,01-0,05 (valeurs de pixels normalisées)
  • Flou gaussien : taille de noyau 3-7, σ = 0,5-2,0
  • Simulation de pluie : Ajout de traînées semi-transparentes pour simuler des conditions humides

Un modèle entraîné avec une augmentation agressive (luminosité ±40%, contraste ±30%, bruit σ=0,03, noyau de flou jusqu’à 7) perd environ 1-2% d’IoU absolu sur un éclairage optimal propre, mais gagne 6-8% d’IoU sur des conditions difficiles (ombre, nuageux). L’amélioration sur les cas difficiles justifie généralement la petite pénalité sur les cas faciles pour un déploiement réel où l’éclairage n’est pas contrôlé.

Déploiement embarqué pour la détection de fissures en temps réel

Déployer l’IA de détection de fissures sur des dispositifs embarqués — ordinateurs intégrés montés sur des drones, véhicules d’inspection ou robots — permet un traitement en temps réel sans connectivité cloud, essentiel pour les pistes éloignées, les grands réseaux autoroutiers et les applications critiques pour la sécurité où la latence doit être mesurée en millisecondes plutôt qu’en secondes.

Plateformes matérielles

NVIDIA Jetson Orin Nano Super (67 TOPS INT8, 7-15W, 249 $) est la plateforme embarquée principale pour la détection de fissures par drone. Les 1024 cœurs CUDA et 32 cœurs Tensor offrent un débit suffisant pour la segmentation en temps réel à 30-50 FPS (FP16) sur des architectures optimisées (EGA-UNet, ResU-Net). Les 8 Go de mémoire LPDDR5 (102 Go/s de bande passante) gèrent l’inférence par lots de 512×512. Facteur de forme : module de 69,6×45 mm, adapté à l’intégration en charge utile de drone.

NVIDIA Jetson Orin NX (100 TOPS, 10-25W) offre un débit plus élevé pour le traitement simultané de plusieurs flux caméra — utile pour les véhicules d’inspection avec des caméras avant, latérales et orientées vers le bas.

NVIDIA Jetson AGX Orin (275 TOPS, 15-60W) permet le déploiement de modèles à grande échelle (DeepLabV3+, TransUNet) à des cadences de production. Utilisé pour les systèmes montés sur véhicule où la consommation électrique est moins contrainte.

Raspberry Pi 5 (quad-core Cortex-A76 @ 2,4 GHz, 60-80 $) avec NPU Hailo-8L (13 TOPS, M.2 HAT) offre une solution embarquée à moindre coût. Les modèles légers (U-Net avec convolution fantôme, tête de segmentation MobileNetV3) atteignent 5-12 FPS sur des entrées de 512×512. Coût total du système, caméra et montage drone inclus : ~200 $.

PlateformeTOPSPuissancePrixFPS fissures (FP16)FPS fissures (INT8)
Jetson Orin Nano Super677-15W249 $30-5050-80
Jetson Orin NX10010-25W499 $40-6070-100+
Jetson AGX Orin27515-60W1 999 $60-100+100-200+
Raspberry Pi 5 + Hailo-8L135-12W~80 $5-128-15

Optimisation de l’inférence

TensorRT (SDK d’optimisation d’inférence de NVIDIA) effectue l’optimisation de graphe, le réglage automatique des noyaux et l’étalonnage de précision :

  • Mode FP16 : 2× le débit vs FP32 avec <0,5% de perte de précision. Réduit la mémoire du modèle d’environ 50%.
  • Quantification INT8 (Post-Training Quantization, PTQ) : 3-4× le débit vs FP32. Un ensemble de données représentatif (~500 images) étalonne les distributions d’activation pour des facteurs d’échelle INT8 optimaux. Perte de précision de 1-3% pour la segmentation de fissures.
  • Quantification consciente de l’entraînement (QAT) : Simule la quantification INT8 pendant l’entraînement (insère des nœuds de quantification factices). Le modèle adapte ses poids au comportement d’inférence quantifié, offrant une précision supérieure de 0,5-1,5% par rapport à la PTQ pour la segmentation de fissures.

ONNX Runtime fournit un déploiement multiplateforme avec des fournisseurs d’exécution pour CUDA (GPU), TensorRT (NVIDIA), OpenVINO (Intel), CoreML (Apple) et CPU ARM. Accélération typique : 1,2-1,5× par rapport à l’inférence PyTorch brute sur CPU.

L’élagage de canaux supprime les canaux convolutionnels les moins importants en fonction de la magnitude de la norme L1 (les poids proches de zéro contribuent minimalement). Peut réduire les FLOPs de 30-50% avec 1-2% de perte de précision pour la segmentation de fissures. La distillation de connaissances entraîne un petit modèle étudiant (par exemple, EGA-UNet à 2,3M paramètres) à imiter la sortie d’un grand modèle enseignant (par exemple, DeepLabV3+ à 55M paramètres) en minimisant la divergence KL entre leurs distributions de probabilité de sortie. L’étudiant atteint 95-98% de la précision de l’enseignant avec 70-90% de paramètres en moins.

Stratégie de bande passante pour les inspections par drone

Pour les inspections multi-drones de pistes ou d’autoroutes, le téléchargement vidéo complet (4K, 30 FPS, H.264) nécessite 15-25 Mbps par drone — dépassant la bande passante cellulaire dans les zones rurales et excluant l’analyse cloud en temps réel. Une stratégie de téléchargement sélectif répond à ce problème :

  • Le modèle sur dispositif fonctionne en continu à 10-30 FPS
  • Seules les images avec une confiance de fissure > seuil (par exemple, >0,7) sont compressées (JPEG, qualité 85) et transmises
  • Les images en pleine résolution (20+ MP) sont sauvegardées à bord et téléchargées après le vol ou récupérées physiquement
  • Données estimées par heure de vol d’inspection : ~50-200 Mo d’images positives aux fissures + métadonnées contre ~30-50 Go pour le téléchargement vidéo complet
  • Permet des opérations de flottes multi-drones avec liaison cellulaire ou satellite pour les zones signalées

Vérification humaine dans la boucle

Malgré les progrès de la précision de l’IA, l’inspection des infrastructures critiques pour la sécurité (pistes d’aéroports commerciaux, ponts autoroutiers inter-États, faces de barrages) nécessite une vérification humaine dans la boucle — un inspecteur qualifié examine les cartes de fissures générées par l’IA et confirme, rejette ou ajuste les résultats. Cela est dicté par les exigences réglementaires (OACI, FAA, ASTM) qui imposent la validation par un ingénieur professionnel des rapports d’état affectant les décisions de sécurité.

Le flux de travail typique de vérification humaine dans la boucle pour la détection de fissures par IA :

  1. L’IA génère une carte de segmentation de fissures avec mesures de largeur/longueur selon les classifications de sévérité de l’OACI
  2. L’interface de révision présente une superposition des prédictions de l’IA sur l’imagerie originale, mettant en évidence les régions de fissures par sévérité (code couleur : vert = capillaire <1mm, jaune = étroite 1-3mm, orange = moyenne 3-6mm, rouge = large >6mm)
  3. L’inspecteur accepte/interroge/rejette chaque fissure signalée :
    • Accepter : Classification et mesures de l’IA enregistrées sans modification (typiquement 60-75% des détections)
    • Interroger : L’IA a signalé une région ; l’inspecteur examine en pleine résolution, ajustant potentiellement le contour de la fissure ou supprimant le faux positif (typiquement 15-25%)
    • Rejeter : Faux positif causé par un joint, une ombre, une texture de surface, une tache d’huile (typiquement 5-15%)
  4. L’inspecteur ajoute les fissures manquées : Les fissures que l’IA n’a pas détectées (faux négatifs) sont annotées manuellement (typiquement 2-5% de la longueur totale des fissures)
  5. Les données révisées sont enregistrées avec les annotations de l’IA et de l’inspecteur préservées
  6. Les cas limites sont enregistrés pour le réentraînement du modèle — les faux positifs et faux négatifs sont collectés, étiquetés et ajoutés à l’ensemble de données d’entraînement pour la prochaine itération du modèle

Cette boucle de rétroaction améliore en continu les performances du modèle. Après 3 à 5 cycles de réentraînement avec des cas limites vérifiés par des humains, les taux de faux positifs diminuent généralement de 40 à 60% et le rappel s’améliore de 5 à 10% sur les types de chaussées et conditions spécifiques du programme d’inspection.

Limitations actuelles et orientations futures

Limitations actuelles

Limite de résolution pour la détection des fissures fines : Les fissures plus étroites que 2-3 pixels ne peuvent pas être détectées ou mesurées de manière fiable, quelle que soit la qualité du modèle — l’information physique n’est tout simplement pas présente dans l’image. À 1,0 mm/pixel de distance d’échantillonnage au sol (typique pour les inspections par drone à 10-15 m d’altitude), les fissures de moins de 0,3 mm sont indétectables. Il s’agit d’une contrainte physique irréductible régie par la résolution de la plateforme d’imagerie, et non par le modèle d’IA.

Dégradation inter-domaines : Les modèles entraînés sur un type de chaussée (asphalte) ou une région géographique (routes américaines) perdent 5-15% d’IoU lorsqu’ils sont déployés sur différents types de chaussées (béton, composite) ou régions (surfaces routières européennes, asiatiques). Les techniques d’adaptation au domaine réduisent cet écart mais ne l’éliminent pas. Un déploiement en production nécessite un réglage fin spécifique au site ou un entraînement multi-régions.

Cohérence des faux positifs : Bien que les taux globaux de faux positifs soient faibles (5-15% des détections), les faux positifs se regroupent dans des conditions spécifiques : les joints de construction produisent des fausses détections sur 20-40% des joints ; les rainures longitudinales (striage) produisent des motifs périodiques de faux positifs ; et les taches d’huile de surface produisent des faux positifs irréguliers. Ces modes de défaillance systématiques nécessitent des filtres de post-traitement basés sur des règles (par exemple, « supprimer les détections le long des lignes de joint connues issues des données SIG »).

Conditions humides et de faible luminosité : Les performances sur chaussée mouillée se dégradent jusqu’à 40% d’IoU par rapport aux conditions sèches. L’inspection de nuit nécessite un éclairage actif (projecteurs LED sur drone ou véhicule), ce qui introduit des artefacts d’éblouissement et d’ombre qui réduisent encore la précision. La pluie, le brouillard et la neige rendent la détection de fissures effectivement impossible avec des caméras à spectre visible.

Acceptation réglementaire : Aucune autorité majeure de l’aviation ou des transports (OACI, FAA, ASTM, AASHTO) n’a publié de normes pour la détection de fissures par IA en tant que méthode d’inspection autonome. Les réglementations actuelles exigent que les résultats de l’IA soient vérifiés par des méthodes traditionnelles (chaîne traînée, carottage, inspection visuelle par un inspecteur certifié). Cela limite les économies de coûts opérationnels du déploiement de l’IA, car le temps d’inspecteur reste nécessaire pour la vérification.

Orientations futures

Apprentissage auto-supervisé pour les régimes à faibles données : Le paradigme de l’architecture de base figée de DINOv3 démontre que les modèles de détection de fissures peuvent être entraînés avec 50 à 100 images étiquetées au lieu de 500 à 2000. Les développements futurs étendront ceci à la détection de fissures en zéro exemple — des modèles qui détectent les fissures sur tout type de surface sans aucun entraînement spécifique au domaine, en exploitant les caractéristiques des modèles fondamentaux apprises à partir de milliards d’images diverses.

Réseaux de neurones informés par la physique : Les modèles actuels apprennent des caractéristiques purement visuelles. Les modèles informés par la physique incorporeront des équations de transfert de chaleur pour la détection thermique des fissures, des modèles contrainte-déformation pour prédire la propagation des fissures à partir de la géométrie détectée, et des modèles de chargement pour les chaussées aéroportuaires (poids des aéronefs, pression des pneus, fréquence de passage) pour prioriser l’urgence des réparations en fonction du risque structurel, et non seulement des dimensions des fissures.

Analyse temporelle vidéo : Les systèmes actuels analysent des images uniques. Les modèles vidéo suivront la progression des fissures à travers plusieurs passages de relevé (comparaison d’une année sur l’autre), détecteront l’ouverture/fermeture des fissures sous le trafic (mesure de la largeur de fissure avant, pendant et après le passage d’un aéronef), et filtreront les faux positifs transitoires (feuilles, débris, eau stagnante) par des vérifications de cohérence temporelle.

Fusion de capteurs multi-modaux : La combinaison de caméras à spectre visible avec l’infrarouge thermique (IRT), le radar à pénétration de sol (GPR), le profilage d’élévation LiDAR et la tomographie ultrasonore produit une caractérisation plus riche des défauts. Un modèle d’IA unifié traitant toutes les modalités simultanément détectera les fissures de surface (visible), la délamination sous-surface (IRT), le contenu des vides (GPR) et la rugosité de surface (LiDAR) en un seul passage — fournissant une évaluation complète de l’état structurel au-delà de la simple détection de fissures.

Architectures Transformer natives pour l’embarqué : Le coût de calcul O(n²) des Vision Transformers limite actuellement le déploiement embarqué. Les architectures spécifiques au matériel (optimisées pour NVIDIA TensorRT, mappées sur Qualcomm AI Engine, compilées pour Apple Neural Engine) combinées à des mécanismes d’attention à complexité linéaire (Performer, Linformer, modèles d’espace d’état Mamba) apporteront une précision de niveau transformer aux dispositifs embarqués d’ici 2027. L’architecture Mamba-UNet (2024) utilisant des modèles d’espace d’état au lieu de l’attention atteint une segmentation de fissures compétitive (71,5% mIoU) à environ 40% du coût de calcul d’EGA-UNet.

Évolution réglementaire : À mesure que la détection de fissures par IA accumule des preuves opérationnelles dans les réseaux aéroportuaires et autoroutiers, les organismes de normalisation devraient publier des normes d’inspection spécifiques à l’IA — définissant les exigences de validation, les seuils de précision, la fréquence de réentraînement et les protocoles de supervision humaine. La feuille de route de la FAA pour l’IA dans l’aviation (FAA AI Strategic Plan, 2024) inclut explicitement l’IA d’inspection des infrastructures dans son cycle de développement de cadre réglementaire prévu pour 2026-2028.

Dispositif informatique embarqué incluant un module NVIDIA Jetson monté sur charge utile de drone pour l'inspection d'infrastructures par détection de fissures par IA en temps réel

Références

  • Ronneberger, O., Fischer, P., & Brox, T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. MICCAI 2015, 234–241.
  • Chen, L.C., et al. (2018). Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation. ECCV 2018, 801–818.
  • Dosovitskiy, A., et al. (2020). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021.
  • Oquab, M., et al. (2025). DINOv3: Gram-Anchored Dense Features at Scale. Meta AI Research.
  • Yang, L., et al. (2025). An efficient semantic segmentation method for road crack based on EGA-UNet. Scientific Reports, 15, 33818.
  • Zhang, A., et al. (2017). Automated Pixel-Level Pavement Crack Detection on 3D Asphalt Surfaces. Journal of Computing in Civil Engineering, 31(1), 04016093.
  • Liu, Y., et al. (2019). DeepCrack: A Deep Hierarchical Feature Learning Architecture for Crack Segmentation. Neurocomputing, 338, 139–153.
  • Shi, Y., et al. (2016). Automatic Road Crack Detection Using Random Structured Forests. IEEE Transactions on Intelligent Transportation Systems, 17(12), 3434–3445.
  • Yang, F., et al. (2020). Feature Pyramid and Hierarchical Boosting Network for Pavement Crack Detection. IEEE Transactions on Intelligent Transportation Systems, 21(4), 1525–1535.
  • Huang, Y., et al. (2022). NHA12D: A New Pavement Crack Dataset and A Comparison Study of Crack Detection Algorithms. EC3 2022.
  • International Civil Aviation Organization. (2018). Annex 14 — Aerodromes, Volume I: Aerodrome Design and Operations (8th ed.).
  • FAA Advisory Circular 150/5200-30D. (2016, Chg 2 2020). Airport Field Condition Assessments and Winter Operations Safety.
  • ASTM D5340-12. Standard Test Method for Airport Pavement Condition Index Surveys.
  • Carrasco, M., et al. (2021). Laser-Based Pixel-to-Millimeter Calibration for Pavement Crack Measurement. Automation in Construction, 126, 103667.
  • Zhang, T.Y. & Suen, C.Y. (1984). A Fast Parallel Algorithm for Thinning Digital Patterns. Communications of the ACM, 27(3), 236–239.
  • Lin, T.Y., et al. (2017). Focal Loss for Dense Object Detection. ICCV 2017, 2980–2988.
  • Milletari, F., et al. (2016). V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation. 3DV 2016, 565–571.

Questions Fréquemment Posées

Automatisez vos inspections de fissures sur pistes et chaussées

Déployez la détection de fissures par IA à partir d'images de drones et de véhicules pour des inspections automatisées des pistes, routes et tabliers de ponts. Obtenez une segmentation des fissures précise au pixel, une mesure de la largeur et une classification de la sévérité intégrées à votre système de gestion des actifs.

En savoir plus

Segmentation de fissures

Segmentation de fissures

La segmentation de fissures est une tâche de vision par ordinateur consistant à classer chaque pixel d'une image comme fissure ou non-fissure, produisant un mas...

41 min de lecture
Computer Vision Deep Learning +2
Mesure Automatisée de la Largeur des Fissures à partir d'Imagerie

Mesure Automatisée de la Largeur des Fissures à partir d'Imagerie

La mesure automatisée de la largeur des fissures calcule l'ouverture des fissures détectées à partir de masques de pixels segmentés en utilisant la transformée ...

30 min de lecture
technology inspection +4

Qu&rsquo;est-ce que la Segmentation Sémantique pour la Compréhension de Scènes d&rsquo;Infrastructure ? Définition et Distinction des Tâches Connexes de Vision ...

23 min de lecture
Technology Computer Vision +3