Detección de Grietas Basada en IA para Inspección de Infraestructura

Detección de Grietas Basada en IA para Inspección de Infraestructura

Definición del Problema y Desafíos

La detección de grietas basada en IA es una tecnología de visión por computadora que aplica modelos de aprendizaje profundo — redes neuronales convolucionales (CNN), arquitecturas codificador-decodificador y transformadores de visión — para identificar, clasificar, segmentar y medir automáticamente grietas en pavimentos, pistas de aterrizaje, tableros de puentes y superficies estructurales de concreto a partir de imágenes digitales. La tecnología reemplaza o aumenta la inspección visual manual realizada por ingenieros humanos, transformando evaluaciones subjetivas e intensivas en mano de obra en evaluaciones objetivas, escalables y basadas en datos. Para operadores de aeropuertos e infraestructura civil, la detección automatizada de grietas respalda directamente la puntuación del Índice de Condición de Pavimento (PCI) según ASTM D5340-12, el informe del Código de Condición de Pista (RwyCC) según el Anexo 14 de la OACI y la planificación de mantenimiento preventivo.

Vista aérea de dron de la superficie de una pista de aterrizaje con grietas visibles, superposición de análisis de visión por computadora con IA destacando patrones de grietas detectados

El problema de la detección de grietas presenta desafíos únicos que lo distinguen de las tareas generales de segmentación semántica. Las grietas son estructuras delgadas y alargadas — típicamente de 0.1 mm a 5 mm de ancho — que ocupan solo el 2–8% del total de píxeles en cualquier imagen dada, creando un desequilibrio de clases extremo durante el entrenamiento del modelo. La relación primer plano-fondo para píxeles de grieta es de aproximadamente 1:20 a 1:50, lo que significa que un clasificador ingenuo que predice todos los píxeles como fondo logra una precisión del 95%+ mientras detecta cero grietas. La morfología de las grietas varía drásticamente: las grietas longitudinales corren paralelas a la línea central del pavimento, las grietas transversales corren perpendiculares, las grietas de piel de cocodrilo (fatiga) forman patrones poligonales interconectados, y las grietas de reflexión se propagan a través de las capas de repavimentación desde juntas subyacentes. Cada tipo requiere una caracterización geométrica diferente.

La variabilidad de iluminación y ambiental complica aún más la detección. Las sombras de estructuras y vegetación colgante crean regiones de bajo contraste donde las grietas se vuelven casi invisibles. El pavimento mojado reduce el contraste de temperatura superficial para métodos basados en térmica y altera la reflectividad del espectro visible. Las manchas de aceite, marcas de neumáticos, depósitos de caucho, juntas de construcción, variaciones de textura superficial (estriado, acanalado, acabado de cepillo) y escombros producen características de falsos positivos que imitan visualmente las grietas. Un estudio de 2025 publicado en Scientific Reports (artículo EGA-UNet, Vol. 15, Artículo 33818) demostró que la precisión de detección de grietas en fondos complejos se degrada entre un 10–20% en comparación con superficies limpias y uniformes, incluso con mecanismos de atención de última generación.

Las restricciones de escala y resolución imponen una compensación fundamental. Las imágenes de alta resolución (distancia de muestreo en terreno submilimétrica por píxel) capturan grietas finas pero requieren gran almacenamiento, ancho de banda y tiempo de procesamiento. Las imágenes de menor resolución cubren más área por vuelo o recorrido pero pasan por alto grietas de menos de 2–3 píxeles de ancho. Para la inspección de pistas con drones a 15 m de altitud con una cámara de 24 MP, la distancia de muestreo en terreno típica es de 1.0–1.5 mm/píxel, lo que significa que las grietas de menos de 0.3 mm de ancho quedan por debajo del umbral de detección. Este límite de resolución es una restricción física ineludible que ningún modelo de IA puede superar — determina el ancho mínimo detectable de grieta para cualquier plataforma de imagen y altitud dadas.

Arquitecturas de Modelos para Detección de Grietas

U-Net

U-Net, presentado por Ronneberger, Fischer y Brox en la Universidad de Friburgo en 2015, sigue siendo la arquitectura más adoptada para la segmentación de grietas a nivel de píxel. La estructura simétrica de codificador-decodificador con conexiones de salto de la arquitectura es particularmente adecuada para la detección de grietas porque las grietas son características delgadas y espacialmente localizadas que requieren la preservación de detalles de alta frecuencia a lo largo del proceso de submuestreo y sobremuestreo.

El codificador de U-Net (ruta de contracción) consta de cuatro bloques de submuestreo. Cada bloque contiene dos convoluciones 3×3 (padding=same) seguidas de activación ReLU y una operación de agrupación máxima 2×2 (stride=2). El número de filtros se duplica en cada nivel: 64 → 128 → 256 → 512 → 1024 en el cuello de botella. Para una entrada de 512×512 píxeles, las dimensiones espaciales se reducen a través del codificador como 512 → 256 → 128 → 64 → 32 en la capa más profunda. La capa de cuello de botella en la parte inferior de la forma de U contiene 1024 mapas de características a resolución 32×32, representando las características más abstractas y semánticamente ricas.

El decodificador (ruta de expansión) refleja al codificador con cuatro bloques de sobremuestreo. Cada bloque aplica una convolución transpuesta 2×2 (deconvolución) que reduce a la mitad el número de filtros y duplica las dimensiones espaciales. El mapa de características sobremuestreado se concatena con el mapa de características correspondiente de la ruta del codificador a través de conexiones de salto — por ejemplo, la capa de 128×128 del decodificador recibe una concatenación directa de la capa de 128×128 del codificador. Este mecanismo de conexión de salto es crítico: proporciona al decodificador detalles espaciales de alta resolución del codificador que de otra manera se perderían durante el agresivo submuestreo. Después de la concatenación, dos convoluciones 3×3 con ReLU refinan las características combinadas.

La capa de salida final es una convolución 1×1 con activación sigmoide, produciendo un mapa de probabilidad de un solo canal donde cada valor de píxel (0 a 1) representa la probabilidad de que ese píxel pertenezca a una región de grieta. Un umbral (típicamente 0.5) convierte las probabilidades en segmentación binaria grieta/no grieta.

El U-Net original contiene ~31 millones de parámetros y 23 capas convolucionales. Para una entrada de 512×512, la velocidad de inferencia es de aproximadamente 40 ms por imagen en una GPU moderna (NVIDIA RTX 3080 o equivalente). Variantes ligeras como ResU-Net (que usa conexiones residuales en lugar de convoluciones simples) reducen los parámetros a ~7.8 millones mientras logran un 68.47% de IoU medio en conjuntos de datos de grietas. EGA-UNet reduce aún más a ~2.3 millones de parámetros mientras mejora el Dice al 73.1% mediante convoluciones fantasma y mezcla de tokens basada en Fourier.

Las conexiones de salto de U-Net son arquitectónicamente esenciales para la detección de grietas. Sin ellas, las grietas delgadas (de 1 a 5 píxeles de ancho) se perderían completamente durante el submuestreo 4× (reducción de 32× en el cuello de botella) — una grieta de 3 píxeles de ancho en la entrada se convierte en una característica sub-píxel en el cuello de botella que no puede recuperarse solo con el sobremuestreo. Las conexiones de salto evitan por completo este cuello de botella de información, proporcionando al decodificador la geometría completa de la grieta a resolución completa desde el codificador.

DeepLabV3+

DeepLabV3+, desarrollado por Chen et al. en Google en 2018, aborda la detección de grietas mediante convoluciones atrous (dilatadas) y el módulo de Agrupación Piramidal Espacial de Atrous (ASPP) . A diferencia de U-Net, que submuestrea agresivamente y recupera mediante conexiones de salto, DeepLab mantiene mapas de características de mayor resolución a lo largo del backbone mediante el uso de convoluciones dilatadas que expanden el campo receptivo sin reducir las dimensiones espaciales.

El backbone es típicamente ResNet-101 (101 capas, ~42.6 millones de parámetros) o Xception-65 (~54.7 millones de parámetros). Las convoluciones estándar en el backbone se reemplazan con convoluciones atrous — kernels 3×3 con tasas de dilatación (agujeros) insertados entre los elementos del kernel. Un kernel 3×3 con tasa de dilatación r=2 cubre un campo receptivo de 5×5; r=4 cubre 9×9; r=8 cubre 17×17; y r=16 cubre 33×33 — todos con el mismo número de parámetros (9 pesos) que una convolución 3×3 estándar. Esta propiedad es crítica para la detección de grietas: permite que el modelo vea un contexto más amplio alrededor de cada píxel (distinguiendo grietas de la textura superficial) sin la pérdida de resolución que ocurriría con el submuestreo.

El módulo ASPP aplica cuatro ramas convolucionales atrous paralelas con tasas de dilatación r=6, 12, 18 y 24 (para stride de salida=16), cada una con 256 filtros y kernels 3×3. Una rama adicional de convolución 1×1 y una rama de agrupación a nivel de imagen (agrupación promedio global → convolución 1×1 → sobremuestreo bilineal) completan el módulo. Las cinco ramas producen mapas de características de 256 canales que se concatenan y pasan a través de otra convolución 1×1. La capacidad multiescala del módulo ASPP es particularmente importante para grietas que varían significativamente en ancho — una grieta capilar (<1 mm) y una grieta ancha (>6 mm) requieren diferentes tamaños de campo receptivo para una detección óptima.

El decodificador de DeepLabV3+ es ligero en comparación con el decodificador completo de U-Net: sobremuestreo bilineal por 4×, concatenación con características de bajo nivel de una capa temprana del backbone (reducidas a 48 canales mediante convolución 1×1), dos convoluciones 3×3 (256 filtros) y sobremuestreo bilineal final por 4× a la resolución original. El stride de salida es típicamente 16 (resolución de entrada dividida por 16 en el cuello de botella), a veces 8 para mapas de características más densos a costa de 2× más uso de memoria.

DeepLabV3+ alcanza aproximadamente 78.5% de mIoU en conjuntos de datos de grietas. Sin embargo, el estudio de EGA-UNet (2025) reportó que DeepLabV3+ rinde por debajo de arquitecturas ligeras como EGA-UNet (73.1% Dice vs. menor para DeepLabV3+) debido a la preservación insuficiente de detalles finos en los bordes de las grietas. Las dilataciones del módulo ASPP, aunque efectivas para contexto multiescala, difuminan los detalles espaciales finos que son esenciales para una medición precisa del ancho de grieta.

Vision Transformers (ViT)

Los Vision Transformers (ViT) , presentados por Dosovitskiy et al. en Google en 2020, aplican la arquitectura de autoatención del Transformer — desarrollada originalmente para el procesamiento del lenguaje natural — al análisis de imágenes. ViT divide una imagen de entrada en parches no superpuestos de tamaño P×P (típicamente 16×16 píxeles), linealiza cada parche en un vector y procesa la secuencia de incrustaciones de parches a través de capas estándar de codificador Transformer con autoatención de múltiples cabezas.

Para una entrada de 224×224 con parches de 16×16, ViT produce (224/16)² = 196 incrustaciones de parches. Cada parche de dimensiones 16×16×3 (RGB) se aplana a un vector de 768 dimensiones y se proyecta linealmente a la dimensión de incrustación D. El codificador Transformer consta de L capas apiladas. ViT-Base usa L=12, D=768 y 12 cabezas de atención (86M de parámetros). ViT-Large usa L=24, D=1024 y 16 cabezas (307M de parámetros). ViT-Huge usa L=32, D=1280 y 16 cabezas (632M de parámetros). La complejidad de la autoatención escala como O(n²·D) donde n es el número de parches — 196 parches con D=768 requiere aproximadamente 28 millones de operaciones por cabeza por capa.

Para la segmentación de grietas, ViT se utiliza como backbone en arquitecturas híbridas de codificador-decodificador. TransUNet reemplaza el codificador de U-Net con un ViT, combinando el contexto global del Transformer con un decodificador CNN para la recuperación de detalles finos. SwinUNet utiliza un Swin Transformer jerárquico con ventanas desplazadas para reducir el costo computacional O(n²). SETR (SEgmentation TRansformer) aplica ViT directamente como codificador con sobremuestreo progresivo.

La ventaja de ViT para la detección de grietas radica en su campo receptivo global. Las CNN procesan información localmente, requiriendo muchas capas para propagar información a través de grandes distancias espaciales. El mecanismo de autoatención de ViT conecta cada parche con todos los demás en una sola capa, permitiéndole detectar grietas largas y continuas que abarcan cientos o miles de píxeles — grietas de fatiga que serpentean a lo largo de todo el ancho de una pista, por ejemplo. Los modelos híbridos ViT-CNN alcanzan un 74–78% de IoU en conjuntos de datos de grietas, con TransUNet mostrando una fortaleza particular en patrones de grietas de piel de cocodrilo (interconectadas).

La limitación crítica es el costo computacional. Una imagen de 512×512 dividida en parches de 16×16 produce (512/16)² = 1024 parches, requiriendo 1024² ≈ 1 millón de cálculos de atención por capa — un orden de magnitud más que los 196 parches para entradas de 224×224. Esto hace que la implementación completa de ViT en dispositivos periféricos (drones, vehículos de inspección móviles) sea impracticable sin una compresión o poda significativa.

DINOv3

DINOv3, lanzado por Meta AI en 2025, representa el estado del arte en Vision Transformers auto-supervisados. Es la tercera generación de la familia DINO (DIstillation with NO labels), entrenada a una escala sin precedentes: hasta 7 mil millones de parámetros en 1.7 mil millones de imágenes sin etiquetar. DINOv3 utiliza un marco profesor-alumno donde el alumno aprende a igualar las representaciones de salida del profesor sin ningún dato etiquetado por humanos.

La innovación arquitectónica clave en DINOv3 es el Anclaje Gram — una técnica de regularización aplicada después de aproximadamente 1 millón de iteraciones de entrenamiento que estabiliza las representaciones densas de características (a nivel de parche). La matriz Gram del modelo alumno (similitud de pares de parches, dimensiones N×N donde N=número de parches) se restringe para mantenerse cerca de una copia congelada del “profesor Gram”. Esto evita el colapso denso de características, un modo de fallo en el aprendizaje auto-supervisado donde parches de imagen distintos convergen a incrustaciones similares a pesar de ser semánticamente diferentes. Las variantes anteriores de DINO (v1 y v2) sufrían este colapso durante el entrenamiento prolongado; el Anclaje Gram permite un entrenamiento estable a través de miles de millones de imágenes.

Para la detección de grietas, la relevancia de DINOv3 radica en el paradigma de backbone congelado. El backbone ViT preentrenado (disponible en tamaños desde ViT-Small con 21M de parámetros hasta ViT-Huge con 632M y el modelo insignia de 7B) se congela y se utiliza como un codificador visual universal. Cabezas ligeras específicas para tareas — sondas lineales, adaptadores MLP o cabezas convolucionales pequeñas — se entrenan encima sin retropropagar a través del backbone. Esto permite:

  • Detección de grietas con pocos ejemplos: Una sonda lineal entrenada con tan solo 50 imágenes etiquetadas de grietas logra una precisión de segmentación comparable a una CNN supervisada entrenada con 500+ imágenes.
  • Transferencia entre dominios: Las características aprendidas de imágenes naturales (datos a nivel de ImageNet) se transfieren a imágenes de grietas de pavimento sin entrenamiento previo específico del dominio.
  • Implementación multitarea: Un único backbone congelado sirve para detección de grietas, detección de baches, evaluación de selladores de juntas y evaluación de marcas de pavimento simultáneamente a través de diferentes cabezas ligeras.

Las características a nivel de parche de DINOv3 (en lugar de incrustaciones globales de imagen) preservan la información espacial de grano fino necesaria para la delineación de grietas delgadas. La variante ViT-Base (86M de parámetros, 12 capas, dimensión de incrustación 768) proporciona la mejor relación precisión-cómputo para aplicaciones de inspección de infraestructura. DINOv3 es particularmente prometedor para programas de inspección de pistas donde los datos etiquetados de grietas son escasos — un escenario común en aeropuertos más pequeños sin un historial extenso de gestión de pavimentos.

CrackNet

CrackNet, desarrollado por Zhang et al. en 2017 en la Universidad del Sur de Florida, fue una de las primeras arquitecturas CNN profundas diseñadas específica y exclusivamente para la detección automatizada de grietas en pavimentos. A diferencia de las arquitecturas de propósito general (U-Net, DeepLab) adaptadas de la segmentación de imágenes biomédicas o naturales, CrackNet fue arquitecturado desde cero para la morfología de grietas en pavimentos.

La arquitectura original de CrackNet consta de 6 capas convolucionales con una parte superior completamente conectada: Conv1 (5×5, stride=1, 64 filtros) → Conv2 (5×5, stride=1, 64 filtros) → MaxPool (2×2) → Conv3 (3×3, stride=1, 128 filtros) → Conv4 (3×3, stride=1, 128 filtros) → MaxPool (2×2) → Conv5 (5×5, stride=1, 256 filtros) → Conv6 (3×3, stride=1, 256 filtros) → Completamente Conectado (2048 unidades) → Salida Softmax (2 clases: grieta o no grieta). El número total de parámetros es de ~1.4 millones — aproximadamente 22× más pequeño que U-Net (31M) y 35× más pequeño que DeepLabV3+ (42–55M).

CrackNet opera en parches de tamaño fijo de 64×64 píxeles en lugar de imágenes completas. El conjunto de datos de entrenamiento comprendía 640,000 parches extraídos de 1,800 imágenes de pavimento (160,000 para validación, 180,000 para prueba). Cada parche se clasifica como si contiene una grieta en el píxel central o no — este es un enfoque de clasificación basada en parches en lugar de segmentación a nivel de píxel. Las variantes modernas (CrackNet-V, CrackNet-II, CrackNet-R) reemplazaron el clasificador de parches con redes completamente convolucionales para predicción densa a nivel de píxel.

CrackNet-V (la variante mejorada de 2020) añadió entrenamiento basado en Red Generativa Antagónica (GAN). El generador produce mapas de segmentación de grietas a partir de imágenes de entrada, y una red discriminadora distingue los mapas generados de las anotaciones de referencia. Este régimen de entrenamiento antagónico mejoró la puntuación F1 a 0.87 en el conjunto de datos CFD. CrackNet-V también introdujo fusión de características multiescala con módulos de tipo inception, permitiendo la detección de grietas de diferentes anchos.

La importancia de CrackNet reside en la eficiencia arquitectónica para la implementación periférica. Con 1.4M de parámetros y 5 ms por parche, demostró que el diseño de arquitectura específica para grietas podía lograr precisión de grado de producción en el hardware disponible en 2017 — una sola GPU NVIDIA Tesla K80 podía procesar una imagen completa de pavimento (cosida a partir de parches) en menos de 2 segundos. Esto estableció la viabilidad de la detección automatizada de grietas en tiempo real para vehículos de inspección a velocidad de autopista.

EGA-UNet (2025)

EGA-UNet, publicado por Yang et al. en Scientific Reports (Vol. 15, Artículo 33818, 2025), representa el estado del arte actual para la segmentación eficiente de grietas. La arquitectura alcanza un coeficiente Dice de 73.1% con solo ~2.3 millones de parámetros — aproximadamente 13× más pequeño que el U-Net estándar mientras mejora la precisión en +3.1% Dice sobre U-Net, +11.9% sobre SegNet y +44.9% sobre PSPNet en conjuntos de datos de referencia de grietas.

Tres innovaciones arquitectónicas distinguen a EGA-UNet:

EG-Block (Bloque Convolucional Fantasma Disperso Eficiente): Este bloque constitutivo utiliza convolución “fantasma” — una técnica que genera un pequeño número de mapas de características intrínsecas mediante convolución estándar y luego aplica operaciones lineales más económicas (convoluciones profundas 3×3) para producir mapas de características “fantasma” adicionales. Para una salida deseada de C canales, la convolución fantasma genera aproximadamente C/2 mediante convolución estándar y C/2 mediante operaciones lineales, reduciendo el cómputo en aproximadamente un 50% en comparación con la convolución estándar con canales de salida equivalentes. El EG-Block incorpora un módulo de Atención Multiescala Eficiente (EMA) que pondera las características en múltiples escalas espaciales.

Bloque A-RepViT: Este reemplaza el mezclador de tokens estándar de Vision Transformer con Filtrado Adaptativo de Fourier (AFF) . El mapa de características de entrada se transforma al dominio de la frecuencia mediante la Transformada Rápida de Fourier (FFT), los componentes de frecuencia se filtran adaptativamente (paso bajo, paso alto o paso banda dependiendo de los pesos aprendidos), y la FFT inversa reconstruye el mapa de características espacial. AFF captura contexto global con complejidad O(n log n) versus O(n²) para la autoatención — para un mapa de características de 32×32 (1024 elementos), esto reduce el cómputo de ~1M de operaciones a ~10K de operaciones por capa.

SPPF (Agrupación Piramidal Espacial Rápida): Aplicada en la capa más profunda del codificador, SPPF agrega características multiescala utilizando tres operaciones secuenciales de agrupación máxima de diferentes tamaños de kernel (campos receptivos efectivos de 5×5, 9×9, 13×13), concatenadas en una representación multiescala unificada. Esto es computacionalmente eficiente en comparación con ASPP paralelo (utilizado en DeepLab) porque la agrupación secuencial reutiliza resultados intermedios.

La velocidad de inferencia de EGA-UNet es suficiente para la implementación periférica en tiempo real. En un NVIDIA Jetson Orin Nano Super, el modelo alcanza aproximadamente 45–55 FPS con precisión FP16 en entradas de 512×512, lo que lo hace adecuado para la detección de grietas en tiempo real basada en drones o vehículos. El diseño ligero permite la implementación en plataformas sin GPU dedicadas — se ha demostrado inferencia a 8–12 FPS en una Raspberry Pi 5 con acelerador NPU Hailo-8L (13 TOPS).

Comparación de Arquitecturas

ArquitecturaParámetrosPrincipio de DiseñoInnovación ClaveDice/IoU de GrietasImplementable en Periferia
U-Net (2015)~31MCodificador-decodificador, conexiones de saltoPreservación de detalles espaciales65–68% IoUCon cuantización
ResU-Net~7.8MConexiones de salto residualesMejora del flujo de gradientes68.5% IoU
DeepLabV3+ (2018)~42–55MConvolución atrous, ASPPContexto multiescala~75% IoUNo
ViT-Base (2020)86MAutoatención en parchesCampo receptivo global74–78% IoUNo
DINOv3 (2025)21M–7BAuto-supervisado, backbone congeladoTransferencia con pocos ejemplosComparable a supervisadoCon cabeza adaptadora
CrackNet (2017)~1.4MCNN basada en parchesDiseño específico para pavimentos~87% F1 (parche)
EGA-UNet (2025)~2.3MConv fantasma + mezcla de tokens AFFLigero + contexto global73.1% Dice

Conjuntos de Datos de Entrenamiento para Detección de Grietas

Entrenar modelos de detección de grietas requiere conjuntos de datos anotados a nivel de píxel donde cada imagen tiene una máscara binaria correspondiente que etiqueta cada píxel como grieta (blanco, valor 1) o no grieta (negro, valor 0). El proceso de anotación requiere mucho trabajo — una sola imagen de 2000×1500 píxeles requiere de 15 a 45 minutos de etiquetado manual experto utilizando herramientas de dibujo de polilíneas seguidas de dilatación morfológica para producir máscaras de grieta de ancho completo. Los siguientes conjuntos de datos constituyen los puntos de referencia estándar para la investigación académica y el desarrollo de modelos.

Crack500

Crack500, publicado por Yang et al. en 2020, contiene 500 imágenes RGB a resolución de 2000×1500 píxeles (3 megapíxeles por imagen). Las imágenes fueron capturadas usando cámaras de teléfonos móviles en superficies de pavimento alrededor de la Universidad de Temple en Filadelfia, EE. UU. Cada imagen tiene una máscara de segmentación binaria a nivel de píxel correspondiente anotada manualmente usando herramientas de dibujo de polilíneas. Los investigadores comúnmente subdividen las 500 imágenes en aproximadamente 1896 parches de 512×512 sin superposición para el entrenamiento del modelo. La división estándar asigna 350 imágenes para entrenamiento, 50 para validación y 100 para prueba. Los píxeles de grieta constituyen aproximadamente el 2–5% del total de píxeles por imagen. Los anchos de grieta varían de 0.1 mm a 5 mm, y las imágenes incluyen múltiples condiciones de iluminación (soleado, nublado, sombreado). Los tipos de grietas incluyen patrones longitudinales, transversales y de piel de cocodrilo.

DeepCrack

DeepCrack, publicado por Liu et al. en Neurocomputing (2019), contiene 537 imágenes RGB a resolución de 544×384 píxeles. Las imágenes fueron capturadas de diversas superficies de concreto y asfalto — puentes, carreteras, túneles y paredes de edificios — proporcionando una cobertura de múltiples escenas poco común en conjuntos de datos de pavimento de una sola fuente. Cada imagen tiene anotaciones binarias a nivel de píxel como máscaras PNG. El conjunto de datos está pre-dividido en aproximadamente 300 imágenes de entrenamiento y 237 de prueba. DeepCrack fue construido específicamente para evaluar la arquitectura de Detección de Bordes Holísticamente Anidada (HED) adaptada para la detección de grietas. El conjunto de datos incluye condiciones desafiantes: bajo contraste entre grietas y fondo, grietas delgadas (1–3 píxeles de ancho) y fondos de superficie texturizada. Las grietas se clasifican por ancho en lugar de tipo estructural.

CrackForest Dataset (CFD)

CFD, publicado por Shi et al. en IEEE Transactions on Intelligent Transportation Systems (2016), contiene 118 imágenes a resolución de 480×320 píxeles. Las imágenes fueron capturadas usando un iPhone 5 en carreteras urbanas de Beijing, China. Cada imagen tiene máscaras de referencia manual a nivel de píxel, además de una carpeta “seg” con segmentaciones basadas en superpíxeles. El conjunto de datos fue diseñado para reflejar condiciones generales de superficies de carreteras urbanas e incluye factores de ruido: sombras de árboles y edificios, manchas de aceite, charcos de agua y cobertura de hojas. Los píxeles de grieta representan aproximadamente el 4–8% de cada imagen. La baja resolución de 480×320 hace que la detección de grietas delgadas sea un desafío — las grietas pueden tener tan solo 1–2 píxeles de ancho. CFD tiene licencia solo para uso en investigación no comercial con requisito de citación. Su limitación principal es el tamaño pequeño (118 imágenes), una sola área geográfica y una sola cámara.

GAPs384

GAPs384 (Conjunto de Datos de Deterioro de Pavimento Asfáltico Alemán) , de la Universidad Tecnológica de Ilmenau, Alemania, contiene 1969 imágenes a resolución de 1920×1080 píxeles (Full HD). Este es el conjunto de datos público de grietas de fuente única más grande por cantidad de imágenes. Las imágenes son en escala de grises (no RGB), lo que reduce el tamaño del archivo pero elimina la información de color que puede ayudar a la discriminación de grietas. Las anotaciones incluyen clasificación del tipo de grieta (longitudinal, transversal, piel de cocodrilo) además de las máscaras de grieta a nivel de píxel. La alta resolución y las condiciones de captura consistentes (red de autopistas alemanas) hacen que GAPs384 sea valioso para entrenar modelos destinados a condiciones de pavimento europeas. El conjunto de datos incluye una gama más amplia de severidades de grietas que CFD o Crack500.

NHA12D

NHA12D, publicado por Huang et al. (2022), contiene 80 imágenes de pavimento recopiladas de la red de autopistas A12 del Reino Unido por National Highways (anteriormente Highways England). El conjunto de datos incluye de manera única 40 imágenes de pavimento de concreto y 40 imágenes de pavimento de asfalto capturadas bajo condiciones de inspección idénticas por vehículos de inspección digital. Esta composición de dos superficies hace que NHA12D sea valioso para evaluar la generalización entre dominios — la capacidad de un modelo para detectar grietas en ambos tipos de superficie sin degradación. Se proporcionan anotaciones de referencia a nivel de píxel. El tamaño pequeño (80 imágenes) hace que NHA12D sea principalmente un conjunto de datos de referencia más que un recurso de entrenamiento.

Conjunto de DatosImágenesResolución% Grietas/ImagenFuenteAño
Crack5005002000×15002–5%Carreteras de Filadelfia2020
DeepCrack537544×384variableMulti-escena2019
CFD118480×3204–8%Carreteras de Beijing2016
GAPs38419691920×1080variableAutopistas alemanas2020
NHA12D80Alta resoluciónvariableAutopista A12 Reino Unido2022
CrackTree200206800×600variablePavimento (desafiante)2012

Desequilibrio de Clases y Funciones de Pérdida

Todos los conjuntos de datos de grietas exhiben un desequilibrio de clases severo: los píxeles de grieta constituyen el 2–8% del total de píxeles, lo que significa que los modelos deben aprender de un promedio de 500–2000 píxeles de grieta por cada 25,000 píxeles totales de imagen (resolución CFD de 480×320). La función de pérdida de entropía cruzada estándar es ineficaz — un modelo minimiza la pérdida prediciendo “fondo” para cada píxel. Funciones de pérdida especializadas abordan esto:

Pérdida Focal (Lin et al., 2017) aplica un factor modulador (1 − pt)γ a la pérdida de entropía cruzada, donde pt es la probabilidad predicha por el modelo para la clase de referencia y γ es un parámetro de enfoque (típicamente 2.0). Esto reduce el peso de los ejemplos bien clasificados (pt → 1.0) y aumenta el peso de los ejemplos difíciles mal clasificados (pt → 0.0). Para la detección de grietas con γ=2.0, la pérdida focal reduce la contribución de los píxeles de fondo fáciles en aproximadamente 4× en comparación con la entropía cruzada.

Pérdida Dice (Milletari et al., 2016) = 1 − coeficiente Dice = 1 − (2VP + ε)/(2VP + FP + FN + ε). Esto optimiza directamente la métrica de evaluación. La pérdida Dice es menos sensible al desequilibrio de clases que la entropía cruzada porque mide la superposición en lugar de la precisión por píxel. Es la función de pérdida estándar para la segmentación de grietas basada en U-Net.

Pérdida Tversky (Salehi et al., 2017) generaliza la pérdida Dice ponderando los falsos positivos y los falsos negativos de manera diferente: índice Tversky = VP/(VP + α·FP + β·FN). Para la detección de grietas crítica para la seguridad donde los falsos negativos (grietas no detectadas) son más peligrosos que los falsos positivos (falsas alarmas), establecer α=0.3 y β=0.7 penaliza los FN más fuertemente que los FP.

SupContrast (Pérdida Contrastiva Supervisada) , relevante para enfoques basados en DINOv3, agrupa las incrustaciones de parches de píxeles de grieta en el espacio de incrustación mientras las separa de las incrustaciones de píxeles de fondo. Esto crea un espacio de incrustación bien estructurado donde los píxeles de grieta forman grupos compactos que son linealmente separables de los grupos de fondo.

Clasificación vs. Segmentación de Grietas

Los enfoques de detección de grietas basados en IA se dividen en dos categorías metodológicas: basados en clasificación y basados en segmentación, cada uno con salidas, métricas y casos de uso distintos.

La clasificación de grietas determina si una región de imagen (parche de imagen, tesela o imagen completa) contiene una grieta. La salida es una etiqueta binaria (grieta presente / grieta ausente) o una etiqueta multiclase (tipo de grieta: longitudinal, transversal, piel de cocodrilo). Los modelos de clasificación son típicamente CNN ligeras (CrackNet con 1.4M de parámetros, MobileNetV2 con 3.5M de parámetros) entrenadas en conjuntos de datos a nivel de parche. La salida proporciona probabilidad de presencia de grieta y ubicación (qué parche contiene una grieta) pero no proporciona geometría de la grieta — ancho, largo, orientación o topología. La clasificación es apropiada para estudios de detección rápida donde el objetivo es identificar ubicaciones de grietas para una inspección de seguimiento, no medir grietas individuales. La evaluación utiliza precisión, exactitud, exhaustividad y F1 a nivel de parche o imagen.

La segmentación de grietas (segmentación semántica) clasifica cada píxel individualmente como grieta o no grieta. La salida es una máscara binaria a la misma resolución que la imagen de entrada, donde cada píxel tiene una probabilidad de grieta. Esto proporciona la geometría completa de la grieta — ancho en cada punto a lo largo de la grieta, longitud total, ángulo de orientación, topología de ramificación y área de la grieta. La segmentación es necesaria para la evaluación cuantitativa de la condición del pavimento (cálculo de PCI, clasificación de severidad del ancho de grieta según estándares de la OACI). La evaluación utiliza métricas a nivel de píxel: IoU, Dice, precisión, exhaustividad y F1 de borde. Los modelos de segmentación son computacionalmente más pesados (U-Net con 31M de parámetros, DeepLabV3+ con 42–55M) pero proporcionan una salida sustancialmente más rica.

Algunos sistemas utilizan segmentación de instancias (detectando cada grieta individual como un objeto separado), que distingue entre grietas desconectadas. Esto es relevante para el conteo de grietas (número de grietas por unidad de área) y el mapeo de densidad de grietas. Mask R-CNN y YOLOv8-seg son arquitecturas comunes de segmentación de instancias para la detección de grietas.

Métricas de Evaluación

Intersección sobre Unión (IoU)

La IoU (Índice de Jaccard) mide la superposición entre la segmentación de grieta predicha y la referencia, dividida por la unión de ambas. Es la métrica más ampliamente reportada para la segmentación de grietas:

IoU = VP / (VP + FP + FN)

Los valores varían de 0 (sin superposición) a 1 (superposición perfecta). La IoU típica para modelos de detección de grietas varía de 0.55 a 0.75. La IoU es más sensible que Dice a los falsos positivos y falsos negativos porque el denominador de la unión es mayor que las sumas individuales. Un modelo que predice una grieta de referencia de 100 píxeles con 60 píxeles correctos (VP=60, FP=20, FN=40) logra IoU = 60/(60+20+40) = 0.50. El denominador de unión más estricto significa que la IoU siempre es menor o igual que Dice para la misma predicción.

Coeficiente Dice (Puntuación F1)

Dice (también llamado puntuación F1 para segmentación binaria) es la media armónica de precisión y exhaustividad:

Dice = 2 × VP / (2 × VP + FP + FN)

Dice se relaciona con IoU: Dice = 2·IoU / (1 + IoU). Para el ejemplo anterior (IoU=0.50), Dice = 2×0.50/1.50 = 0.67. El Dice típico para detección de grietas varía de 0.65 a 0.80. El artículo de EGA-UNet (2025) reporta Dice = 73.1% como su métrica principal. Dice proporciona una evaluación más optimista de la calidad de segmentación que IoU, y la brecha entre ambos se amplía a medida que la calidad disminuye — una predicción de baja calidad con IoU=0.25 tiene Dice=0.40.

Precisión y Exhaustividad

Precisión (Valor Predictivo Positivo) = VP/(VP+FP). Mide la tasa de falsas alarmas: de todos los píxeles etiquetados como grieta, ¿qué fracción es realmente grieta? Una precisión alta (>0.85) significa pocos falsos positivos. Importante cuando la detección de grietas desencadena acciones de seguimiento costosas (ej., cuadrillas de sellado enviadas a inspeccionar ubicaciones marcadas).

Exhaustividad (Sensibilidad, Tasa de Verdaderos Positivos) = VP/(VP+FN). Mide la tasa de grietas no detectadas: de todos los píxeles de grieta reales, ¿qué fracción detectó el modelo? Una exhaustividad alta (>0.85) significa pocas grietas no detectadas. Para infraestructura crítica para la seguridad (inspección de pistas en aeropuertos comerciales), la exhaustividad tiene prioridad sobre la precisión — investigar una falsa alarma es menos grave que pasar por alto una grieta real que podría propagarse hasta convertirse en una falla estructural bajo la carga de una aeronave.

Precisión Promedio Media (mAP)

La mAP evalúa la precisión en diferentes umbrales de exhaustividad, típicamente reportada en umbrales de IoU de 0.50 (mAP@50) y de 0.50 a 0.95 en incrementos de 0.05 (mAP@50:95). Para la detección de grietas como una tarea de detección de objetos (cajas delimitadoras), la mAP mide qué tan bien el modelo localiza las regiones de grietas. Un estudio de 2025 de la Universidad de Florida Central utilizando Grounding DINO para detección térmica de grietas logró un 70% de mAP@[0.5:0.95]. Para tareas de segmentación a nivel de píxel, se prefieren IoU y Dice sobre mAP porque las grietas son estructuras no rectangulares y las métricas de cajas delimitadoras representan pobremente la calidad de la segmentación.

Comparación de Métricas

MétricaFórmulaRangoValor Típico en GrietasCaso de Uso
IoUVP/(VP+FP+FN)0–10.55–0.75Calidad de segmentación (estricta)
Dice2VP/(2VP+FP+FN)0–10.65–0.80Calidad de segmentación (indulgente)
PrecisiónVP/(VP+FP)0–10.80–0.95Control de falsas alarmas
ExhaustividadVP/(VP+FN)0–10.80–0.95Detección crítica para seguridad
F12PR/(P+R)0–10.80–0.92General
mAP@50Precisión promedio en IoU≥0.50–10.70–0.85Detección de objetos
Precisión de Píxel(VP+VN)/(VP+VN+FP+FN)0–1>0.95 (engañoso)No recomendada para grietas

Medición de Ancho y Largo de Grietas a partir de la Segmentación

La máscara de segmentación binaria producida por un modelo de IA proporciona la ubicación y forma de la grieta, pero los estándares de inspección de infraestructura requieren dimensiones físicas de la grieta — ancho en milímetros, largo en metros y área en milímetros cuadrados. Convertir máscaras a nivel de píxel en mediciones de ingeniería requiere un proceso de geometría computacional.

Esqueletización

La esqueletización (adelgazamiento) reduce la región de la grieta a una línea central de un píxel de ancho que preserva la topología de la grieta (conectividad, ramificación, puntos finales). El algoritmo de adelgazamiento de Zhang-Suen (1984) es el método estándar:

  1. Entrada: Máscara binaria de grieta (blanco=grieta, negro=fondo)
  2. Procedimiento iterativo de dos pasadas:
    • Pasada 1: Marcar píxeles de borde para eliminación si: (a) 2 ≤ N(P1) ≤ 6 (número de 8-vecinos no cero); (b) S(P1) = 1 (número de transiciones 0→1 en el ciclo de 8-vecinos); (c) P2×P4×P6 = 0; (d) P4×P6×P8 = 0
    • Pasada 2: Mismas condiciones con (c’) P2×P4×P8 = 0; (d’) P2×P6×P8 = 0
    • Repetir hasta que ningún píxel cambie en una iteración
  3. Salida: Esqueleto de línea central, exactamente 1 píxel de ancho

La Transformada del Eje Medio (MAT) es una alternativa que utiliza la transformada de distancia: para cada píxel interior de grieta, calcular la distancia euclidiana mínima al borde de la grieta. El esqueleto consiste en píxeles que son máximos locales en este mapa de distancias. MAT produce esqueletos más suaves para grietas gruesas e irregulares pero requiere cómputo O(n²) versus O(n) para el adelgazamiento de Zhang-Suen.

Transformada de Distancia para Medición de Ancho

La Transformada de Distancia Euclidiana (EDT) calcula la distancia euclidiana mínima desde cada píxel del esqueleto (x,y) al píxel de borde de grieta más cercano:

D(x,y) = min(i,j)∈∂C √((x−i)² + (y−j)²)

donde ∂C es el conjunto de píxeles de borde de la región de la grieta. Ancho de grieta en el punto (x,y) = 2 × D(x,y), porque la distancia desde la línea central hasta el borde es la mitad del ancho total de la grieta.

La transformada de distancia se calcula eficientemente usando:

  • Método de Marcha Rápida: O(n log n) para distancia euclidiana exacta
  • Algoritmo de Danielsson: O(n) para aproximación de distancia de 4-conexión
  • cv2.distanceTransform() de OpenCV: O(n) de barrido raster de dos pasadas que produce distancia euclidiana aproximada con <1% de error

Estadísticas de ancho derivadas del arreglo de ancho por píxel:

  • Ancho medio de grieta: promedio en todos los píxeles del esqueleto — utilizado para la clasificación general de severidad de la grieta
  • Ancho máximo de grieta: valor de ancho único más grande — utilizado para la evaluación de severidad en el peor caso
  • Histograma de ancho: distribución de anchos a lo largo de la grieta — indica uniformidad de la grieta

Cálculo de la Longitud de la Grieta

La longitud de la grieta se mide a partir de la línea central esqueletizada:

Método 1 — Conteo de Píxeles con Corrección de Conectividad:

  • Contar el total de píxeles del esqueleto
  • Ajustar por adyacencia diagonal: cada paso de 4-conexión (ortogonal) = 1 píxel; cada paso diagonal = √2 ≈ 1.414 píxeles
  • Longitud total L = N₀ + √2 × N₁ (donde N₀ = pasos de 4-conexión, N₁ = pasos diagonales)

Método 2 — Código de Cadena (Cadena de Freeman):

  • Codificar la ruta del esqueleto como una secuencia de códigos de dirección (0=Este, 1=Noreste, 2=Norte, etc.)
  • Sumar longitudes de paso: códigos pares (ortogonales) = 1, códigos impares (diagonales) = √2

Método 3 — Distancia Euclidiana Entre Puntos Ordenados:

  • Ordenar los píxeles del esqueleto en una ruta ordenada usando recorrido de grafos (necesario para grietas ramificadas donde múltiples rutas divergen de las uniones)
  • Sumar distancias euclidianas entre puntos ordenados consecutivos

Para grietas ramificadas (ej., grietas de piel de cocodrilo cerca de intersecciones), la longitud total de la grieta incluye todas las ramas. El esqueleto debe descomponerse en ramas individuales en los puntos de unión antes del cálculo de longitud.

Calibración Píxel a Milímetro

Las máscaras de segmentación miden las grietas en píxeles; los estándares de ingeniería requieren milímetros físicos. Se utilizan cuatro métodos de calibración:

1. Objeto de Referencia Conocido: Colocar un objeto de dimensiones conocidas (moneda, regla o blanco de calibración) en la escena. Factor de escala S = longitud_conocida_mm / longitud_medida_píxeles. Precisión: ±0.5–1%.

2. Proyección Láser (Carrasco et al., 2021): Dos haces láser paralelos a distancia conocida (ej., 50 mm) se proyectan sobre la superficie. La distancia en píxeles entre los puntos láser da S = 50 mm / Δpíxeles. Precisión: ±0.02 mm.

3. Geometría de Cámara: mm_por_píxel = (2 × Z × tan(HFOV/2)) / Ancho_imagen, donde Z = distancia cámara-superficie (m), HFOV = campo de visión horizontal (grados). Para un dron a 10 m de altitud con lente de 24 mm y cámara de 20 MP (5472×3648, distancia focal de 24 mm en sensor APS-C con factor de recorte de 1.5×, distancia focal efectiva de 36 mm, HFOV ≈ 51°): mm_por_píxel ≈ (2 × 10,000 × tan(25.5°)) / 5472 ≈ 1.8 mm/píxel.

4. Precalibración Fija: Para drones o vehículos de inspección a altitud/configuración de lente fija, precalibrar S. A 15 m de altitud con cámara de 20 MP y lente de 35 mm, S ≈ 0.5 mm/píxel.

Proceso Completo de Medición

  1. Imagen de entrada → Segmentación con aprendizaje profundo → Máscara binaria de grieta
  2. Adelgazamiento de Zhang-Suen → Esqueleto de grieta de 1 píxel
  3. Transformada de distancia euclidiana → Ancho perpendicular en cada punto del esqueleto
  4. Recorrido del esqueleto con código de cadena → Longitud total de la grieta
  5. Calibración píxel a mm → Dimensiones físicas de la grieta (ancho en mm, largo en m, área en mm²)
  6. Clasificación de severidad según OACI/FAA: <1 mm (capilar), 1–3 mm (estrecha), 3–6 mm (mediana), >6 mm (ancha)

Generalización entre Tipos de Pavimento e Iluminación

La generalización del modelo — la capacidad de mantener la precisión de detección en tipos de pavimento, condiciones de iluminación y sistemas de cámara no vistos durante el entrenamiento — es un desafío crítico para la detección de grietas en producción. Un modelo entrenado exclusivamente en Crack500 (asfalto de Filadelfia) puede perder 5–15% de IoU cuando se aplica a superficies de pistas de concreto, y un modelo entrenado en imágenes diurnas soleadas puede perder 10–20% de precisión en condiciones nubladas o mojadas.

Generalización entre Pavimentos

Los pavimentos de asfalto y concreto presentan características visuales fundamentalmente diferentes para la detección de grietas. El asfalto tiene una apariencia oscura y uniforme con bajo albedo (reflectancia 5–15%). Los bordes de grietas en asfalto son típicamente nítidos y de alto contraste porque las nuevas caras de la grieta exponen agregado más claro. El concreto tiene mayor albedo (reflectancia 30–50%) y una apariencia superficial moteada por la distribución de agregados finos. Las grietas en concreto son a menudo de menor contraste porque las caras fracturadas se meteorizan de manera similar a la superficie expuesta. Un modelo entrenado en un tipo de superficie aprende características de textura específicas de esa superficie (el fondo oscuro uniforme del asfalto) que están ausentes o invertidas en la otra superficie (el fondo más claro y texturizado del concreto).

El conjunto de datos NHA12D fue diseñado específicamente para evaluar este desafío entre dominios — contiene 40 imágenes de concreto y 40 de asfalto de la misma red de autopistas del Reino Unido. Los resultados publicados muestran que los modelos entrenados solo en conjuntos de datos de asfalto (CFD, Crack500) y probados en imágenes de concreto de NHA12D pierden 8–12% de IoU en comparación con la evaluación en la misma superficie. Las técnicas de adaptación de dominio abordan esto mediante:

  • Alineación adversarial de dominio: Una red discriminadora de dominio aprende a distinguir las fuentes de dominio de asfalto y concreto; el codificador de detección de grietas aprende características que engañan al discriminador, produciendo representaciones invariantes al dominio.
  • Aumento por transferencia de estilo: Las imágenes de entrenamiento se transforman estilísticamente para imitar diferentes texturas de pavimento mediante transferencia de estilo neuronal (coincidencia de matriz Gram) o adaptación de dominio en Fourier (intercambio de amplitud).
  • Entrenamiento con múltiples superficies: Incluir datos tanto de asfalto como de concreto en el entrenamiento (ej., combinando Crack500 + concreto de NHA12D) mejora la generalización entre superficies en un 3–5%.

Variación de Iluminación

La precisión de la detección de grietas bajo diferentes condiciones de iluminación varía sustancialmente. Un estudio sistemático en Crack500 bajo tres escenarios de iluminación encontró:

  • Soleado, directo cenital: IoU = 0.72 (línea base óptima)
  • Nublado, luz difusa: IoU = 0.63 (−12.5% respecto a la línea base)
  • Sombreado (sombra de edificio/árbol sobre 30% de la imagen): IoU = 0.58 (−19.4% respecto a la línea base)
  • Pavimento mojado (simulado oscureciendo y aumentando el reflejo especular): IoU = 0.43 (−40.3% respecto a la línea base, debido a que el agua superficial enmascara las características de la grieta)

El aumento de datos durante el entrenamiento mejora la robustez a la iluminación. Los aumentos estándar para la detección de grietas incluyen:

  • Variación de brillo: Variación aleatoria de ±30% en brillo
  • Variación de contraste: Variación aleatoria de ±20% en contraste
  • Ruido gaussiano: σ = 0.01–0.05 (valores de píxel normalizados)
  • Desenfoque gaussiano: tamaño de kernel 3–7, σ = 0.5–2.0
  • Simulación de lluvia: Añadir rayas semitransparentes para simular condiciones de humedad

Un modelo entrenado con aumento agresivo (brillo ±40%, contraste ±30%, ruido σ=0.03, kernel de desenfoque hasta 7) pierde aproximadamente 1–2% de IoU absoluto en iluminación óptima limpia pero gana 6–8% de IoU en condiciones desafiantes (sombra, nublado). La mejora en casos difíciles típicamente justifica la pequeña penalización en casos fáciles para la implementación en el mundo real donde la iluminación no está controlada.

Implementación en la Periferia para Detección de Grietas en Tiempo Real

Implementar la IA de detección de grietas en dispositivos periféricos — computadoras embebidas montadas en drones, vehículos de inspección o robots — permite el procesamiento en tiempo real sin conectividad a la nube, algo crítico para aeródromos remotos, grandes redes de autopistas y aplicaciones críticas para la seguridad donde la latencia debe medirse en milisegundos en lugar de segundos.

Plataformas de Hardware

NVIDIA Jetson Orin Nano Super (67 TOPS INT8, 7–15W, $249) es la plataforma periférica principal para la detección de grietas basada en drones. Los 1024 núcleos CUDA y 32 núcleos Tensor proporcionan suficiente rendimiento para segmentación en tiempo real a 30–50 FPS (FP16) en arquitecturas optimizadas (EGA-UNet, ResU-Net). Los 8 GB de memoria LPDDR5 (102 GB/s de ancho de banda) manejan inferencia por lotes de 512×512. Factor de forma: módulo de 69.6×45 mm, adecuado para integración en carga útil de dron.

NVIDIA Jetson Orin NX (100 TOPS, 10–25W) ofrece mayor rendimiento para procesar múltiples flujos de cámara simultáneamente — útil para vehículos de inspección con cámaras frontales, laterales e inferiores.

NVIDIA Jetson AGX Orin (275 TOPS, 15–60W) permite la implementación de modelos a gran escala (DeepLabV3+, TransUNet) a velocidades de fotogramas de producción. Se utiliza en sistemas montados en vehículos donde el consumo de energía está menos restringido.

Raspberry Pi 5 (Cortex-A76 de cuatro núcleos a 2.4 GHz, $60–80) con NPU Hailo-8L (13 TOPS, M.2 HAT) proporciona una solución periférica de menor costo. Los modelos ligeros (U-Net con convolución fantasma, cabeza de segmentación MobileNetV3) logran 5–12 FPS en entradas de 512×512. Costo total del sistema incluyendo cámara y montaje en dron: ~$200.

PlataformaTOPSPotenciaPrecioFPS de Grietas (FP16)FPS de Grietas (INT8)
Jetson Orin Nano Super677–15W$24930–5050–80
Jetson Orin NX10010–25W$49940–6070–100+
Jetson AGX Orin27515–60W$1,99960–100+100–200+
Raspberry Pi 5 + Hailo-8L135–12W~$805–128–15

Optimización de Inferencia

TensorRT (SDK de optimización de inferencia de NVIDIA) realiza optimización de grafos, sintonización automática de kernels y calibración de precisión:

  • Modo FP16: 2× rendimiento vs. FP32 con <0.5% de pérdida de precisión. Reduce la memoria del modelo en ~50%.
  • Cuantización INT8 (Cuantización Posteriores al Entrenamiento, PTQ): 3–4× rendimiento vs. FP32. Un conjunto de datos representativo (~500 imágenes) calibra las distribuciones de activación para factores de escala INT8 óptimos. Pérdida de precisión del 1–3% para segmentación de grietas.
  • Entrenamiento Consciente de Cuantización (QAT): Simula la cuantización INT8 durante el entrenamiento (inserta nodos de cuantización falsos). El modelo adapta sus pesos al comportamiento de inferencia cuantizada, obteniendo 0.5–1.5% mejor precisión que PTQ para segmentación de grietas.

ONNX Runtime proporciona implementación multiplataforma con proveedores de ejecución para CUDA (GPU), TensorRT (NVIDIA), OpenVINO (Intel), CoreML (Apple) y CPU ARM. Aceleración típica: 1.2–1.5× sobre la inferencia PyTorch pura en CPU.

La poda de canales elimina canales convolucionales menos importantes basándose en la magnitud de la norma L1 (los pesos cercanos a cero contribuyen mínimamente). Puede reducir FLOPs en un 30–50% con 1–2% de pérdida de precisión para segmentación de grietas. La destilación de conocimiento entrena un modelo estudiante pequeño (ej., EGA-UNet con 2.3M de parámetros) para imitar la salida de un modelo profesor grande (ej., DeepLabV3+ con 55M de parámetros) minimizando la divergencia KL entre sus distribuciones de probabilidad de salida. El estudiante alcanza 95–98% de la precisión del profesor con 70–90% menos parámetros.

Estrategia de Ancho de Banda para Inspecciones con Drones

Para inspecciones de pistas o autopistas con múltiples drones, la carga completa de video (4K, 30 FPS, H.264) requiere 15–25 Mbps por dron — superando el ancho de banda celular en áreas rurales e impidiendo el análisis en la nube en tiempo real. Una estrategia de carga selectiva aborda esto:

  • El modelo en el dispositivo se ejecuta continuamente a 10–30 FPS
  • Solo los fotogramas con confianza de grieta > umbral (ej., >0.7) se comprimen (JPEG, calidad 85) y transmiten
  • Las imágenes de resolución completa (20+ MP) se guardan a bordo y se cargan después del vuelo o se recuperan físicamente
  • Datos estimados por hora de vuelo de inspección: ~50–200 MB de imágenes con grietas positivas + metadatos vs. ~30–50 GB para carga completa de video
  • Permite operaciones con flotas de múltiples drones con enlace celular o satelital para áreas marcadas

Verificación Humana en el Circuito

A pesar de los avances en precisión de la IA, la inspección de infraestructura crítica para la seguridad (pistas de aeropuertos comerciales, puentes de autopistas interestatales, paramentos de presas) requiere verificación humana en el circuito — un inspector calificado revisa los mapas de grietas generados por IA y confirma, rechaza o ajusta los hallazgos. Esto está impulsado por requisitos regulatorios (OACI, FAA, ASTM) que exigen la aprobación de un ingeniero profesional en los informes de condición que afectan las decisiones de seguridad.

El flujo de trabajo típico de verificación humana en el circuito para la detección de grietas con IA:

  1. La IA genera un mapa de segmentación de grietas con mediciones de ancho/largo según las clasificaciones de severidad de la OACI
  2. La interfaz de revisión presenta una superposición de las predicciones de IA sobre la imagen original, destacando las regiones de grietas por severidad (codificadas por colores: verde = capilar <1mm, amarillo = estrecha 1–3mm, naranja = mediana 3–6mm, rojo = ancha >6mm)
  3. El inspector acepta/consulta/rechaza cada grieta marcada:
    • Aceptar: Clasificación y mediciones de IA registradas sin cambios (típicamente 60–75% de las detecciones)
    • Consultar: La IA marcó una región; el inspector revisa a resolución completa, ajustando potencialmente el borde de la grieta o eliminando el falso positivo (típicamente 15–25%)
    • Rechazar: Falso positivo causado por junta, sombra, textura superficial, mancha de aceite (típicamente 5–15%)
  4. El inspector añade grietas no detectadas: Las grietas que la IA no detectó (falsos negativos) se anotan manualmente (típicamente 2–5% de la longitud total de grietas)
  5. Los datos revisados se registran conservando tanto las anotaciones de la IA como las del inspector
  6. Los casos límite se registran para el reentrenamiento del modelo — los falsos positivos y falsos negativos se recopilan, etiquetan y añaden al conjunto de datos de entrenamiento para la siguiente iteración del modelo

Este bucle de retroalimentación mejora continuamente el rendimiento del modelo. Después de 3–5 ciclos de reentrenamiento con casos límite verificados por humanos, las tasas de falsos positivos típicamente disminuyen en un 40–60% y la exhaustividad mejora en un 5–10% en los tipos de pavimento y condiciones específicos del programa de inspección.

Limitaciones Actuales y Direcciones Futuras

Limitaciones Actuales

Límite de resolución para detección de grietas finas: Las grietas de menos de 2–3 píxeles de ancho no pueden detectarse ni medirse de manera confiable independientemente de la calidad del modelo — la información física simplemente no está presente en la imagen. A 1.0 mm/píxel de distancia de muestreo en terreno (típico para inspecciones con drones a 10–15 m de altitud), las grietas de menos de 0.3 mm son indetectables. Esta es una restricción física ineludible determinada por la resolución de la plataforma de imagen, no por el modelo de IA.

Degradación entre dominios: Los modelos entrenados en un tipo de pavimento (asfalto) o región geográfica (carreteras de EE. UU.) pierden 5–15% de IoU cuando se implementan en diferentes tipos de pavimento (concreto, compuesto) o regiones (superficies de carreteras europeas, asiáticas). Las técnicas de adaptación de dominio reducen esta brecha pero no la eliminan. Una implementación en producción requiere ajuste fino específico del sitio o entrenamiento multi-regional.

Consistencia de falsos positivos: Si bien las tasas generales de falsos positivos son bajas (5–15% de las detecciones), los falsos positivos se agrupan en condiciones específicas: las juntas de construcción producen falsas detecciones en el 20–40% de las juntas; las ranuras longitudinales (estriado) producen patrones falsos periódicos; y las manchas de aceite superficial producen falsos positivos irregulares. Estos modos de fallo sistemáticos requieren filtros de postprocesamiento basados en reglas (ej., “eliminar detecciones a lo largo de líneas de juntas conocidas de datos SIG”).

Condiciones de humedad y baja luminosidad: El rendimiento en pavimento mojado se degrada hasta en un 40% de IoU en comparación con condiciones secas. La inspección nocturna requiere iluminación activa (reflectores LED en el dron o vehículo), que introduce deslumbramiento y artefactos de sombra que reducen aún más la precisión. La lluvia, niebla y capa de nieve hacen que la detección de grietas sea efectivamente imposible con cámaras de espectro visible.

Aceptación regulatoria: Ninguna autoridad importante de aviación o transporte (OACI, FAA, ASTM, AASHTO) ha publicado estándares para la detección de grietas basada en IA como método de inspección independiente. Las regulaciones actuales requieren que los resultados de IA sean verificados por métodos tradicionales (arrastre de cadena, muestreo de núcleos, inspección visual por inspector certificado). Esto limita el ahorro operativo de costos de la implementación de IA, ya que el tiempo del inspector sigue siendo necesario para la verificación.

Direcciones Futuras

Aprendizaje auto-supervisado para regímenes de datos escasos: El paradigma de backbone congelado de DINOv3 demuestra que los modelos de detección de grietas pueden entrenarse con 50–100 imágenes etiquetadas en lugar de 500–2000. Los desarrollos futuros extenderán esto a la detección de grietas con cero ejemplos — modelos que detectan grietas en cualquier tipo de superficie sin ningún entrenamiento específico del dominio, aprovechando características de modelos fundamentales aprendidas de miles de millones de imágenes diversas.

Redes neuronales informadas por la física: Los modelos actuales aprenden características puramente visuales. Los modelos informados por la física incorporarán ecuaciones de transferencia de calor para la detección térmica de grietas, modelos tensión-deformación para predecir la propagación de grietas a partir de la geometría detectada, y modelos de carga para pavimentos aeroportuarios (peso de aeronave, presión de neumáticos, frecuencia de pasadas) para priorizar la urgencia de reparación basada en el riesgo estructural, no solo en las dimensiones de la grieta.

Análisis temporal basado en video: Los sistemas actuales analizan fotogramas individuales. Los modelos basados en video seguirán la progresión de grietas a través de múltiples pasadas de inspección (comparación año tras año), detectarán la apertura/cierre de grietas bajo carga de tráfico (midiendo el ancho de la grieta antes, durante y después del paso de la aeronave), y filtrarán falsos positivos transitorios (hojas, escombros, agua estancada) mediante controles de consistencia temporal.

Fusión de sensores multimodales: La combinación de cámaras de espectro visible con infrarrojo térmico (IRT), radar de penetración terrestre (GPR), perfilado de elevación LiDAR y tomografía ultrasónica produce una caracterización de defectos más rica. Un modelo de IA unificado que procese todas las modalidades simultáneamente detectará grietas superficiales (visible), delaminación subsuperficial (IRT), contenido de vacíos (GPR) y rugosidad superficial (LiDAR) en una sola pasada — proporcionando una evaluación integral de la condición estructural más allá de la detección de grietas por sí sola.

Arquitecturas Transformer nativas para la periferia: El costo computacional O(n²) de los Vision Transformers actualmente limita la implementación en la periferia. Las arquitecturas específicas de hardware (optimizadas para TensorRT de NVIDIA, mapeadas para motor Qualcomm AI, compiladas para Apple Neural Engine) combinadas con mecanismos de atención de complejidad lineal (Performer, Linformer, modelos de espacio de estados Mamba) llevarán la precisión a nivel de Transformer a dispositivos periféricos para 2027. La arquitectura Mamba-UNet (2024) que utiliza modelos de espacio de estados en lugar de atención logra una segmentación de grietas competitiva (71.5% de mIoU) a aproximadamente el 40% del costo computacional de EGA-UNet.

Evolución regulatoria: A medida que la detección de grietas con IA acumula evidencia operativa en redes de aeropuertos y autopistas, se espera que los organismos de normalización publiquen estándares de inspección específicos para IA — definiendo requisitos de validación, umbrales de precisión, frecuencia de reentrenamiento y protocolos de supervisión humana. La hoja de ruta de la FAA para IA en aviación (Plan Estratégico de IA de la FAA, 2024) incluye explícitamente la IA de inspección de infraestructura en su ciclo de desarrollo de marco regulatorio planificado para 2026–2028.

Dispositivo de computación periférica que incluye módulo NVIDIA Jetson montado en carga útil de dron para inspección de infraestructura con detección de grietas mediante IA en tiempo real

Referencias

  • Ronneberger, O., Fischer, P., & Brox, T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. MICCAI 2015, 234–241.
  • Chen, L.C., et al. (2018). Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation. ECCV 2018, 801–818.
  • Dosovitskiy, A., et al. (2020). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021.
  • Oquab, M., et al. (2025). DINOv3: Gram-Anchored Dense Features at Scale. Meta AI Research.
  • Yang, L., et al. (2025). An efficient semantic segmentation method for road crack based on EGA-UNet. Scientific Reports, 15, 33818.
  • Zhang, A., et al. (2017). Automated Pixel-Level Pavement Crack Detection on 3D Asphalt Surfaces. Journal of Computing in Civil Engineering, 31(1), 04016093.
  • Liu, Y., et al. (2019). DeepCrack: A Deep Hierarchical Feature Learning Architecture for Crack Segmentation. Neurocomputing, 338, 139–153.
  • Shi, Y., et al. (2016). Automatic Road Crack Detection Using Random Structured Forests. IEEE Transactions on Intelligent Transportation Systems, 17(12), 3434–3445.
  • Yang, F., et al. (2020). Feature Pyramid and Hierarchical Boosting Network for Pavement Crack Detection. IEEE Transactions on Intelligent Transportation Systems, 21(4), 1525–1535.
  • Huang, Y., et al. (2022). NHA12D: A New Pavement Crack Dataset and A Comparison Study of Crack Detection Algorithms. EC3 2022.
  • International Civil Aviation Organization. (2018). Annex 14 — Aerodromes, Volume I: Aerodrome Design and Operations (8th ed.).
  • FAA Advisory Circular 150/5200-30D. (2016, Chg 2 2020). Airport Field Condition Assessments and Winter Operations Safety.
  • ASTM D5340-12. Standard Test Method for Airport Pavement Condition Index Surveys.
  • Carrasco, M., et al. (2021). Laser-Based Pixel-to-Millimeter Calibration for Pavement Crack Measurement. Automation in Construction, 126, 103667.
  • Zhang, T.Y. & Suen, C.Y. (1984). A Fast Parallel Algorithm for Thinning Digital Patterns. Communications of the ACM, 27(3), 236–239.
  • Lin, T.Y., et al. (2017). Focal Loss for Dense Object Detection. ICCV 2017, 2980–2988.
  • Milletari, F., et al. (2016). V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation. 3DV 2016, 565–571.

Preguntas Frecuentes

Automatice Sus Inspecciones de Grietas en Pistas y Pavimentos

Implemente detección de grietas impulsada por IA a partir de imágenes de drones y vehículos para inspecciones automatizadas de pistas, carreteras y tableros de puentes. Obtenga segmentación de grietas con precisión de píxel, medición de ancho y clasificación de severidad integradas con su sistema de gestión de activos.

Saber más

Segmentación de Grietas

Segmentación de Grietas

La segmentación de grietas es la tarea de visión por computadora que clasifica cada píxel de una imagen como grieta o no grieta, produciendo una máscara binaria...

40 min de lectura
Computer Vision Deep Learning +2
Medición Automatizada del Ancho de Grietas a partir de Imágenes

Medición Automatizada del Ancho de Grietas a partir de Imágenes

La medición automatizada del ancho de grietas obtiene la apertura de grietas detectadas a partir de máscaras de píxeles segmentadas mediante la transformada de ...

29 min de lectura
technology inspection +4
Inspección automatizada de infraestructura con drones

Inspección automatizada de infraestructura con drones

La inspección automatizada con drones utiliza rutas de vuelo preprogramadas, visión artificial y análisis de IA para inspeccionar activos de infraestructura, in...

42 min de lectura
Drone Inspection Automation +6