Segmentación de Grietas
La segmentación de grietas es la tarea de visión por computadora que clasifica cada píxel de una imagen como grieta o no grieta, produciendo una máscara binaria...
La detección de grietas basada en IA utiliza visión por computadora — redes neuronales convolucionales, transformadores de visión y modelos de segmentación semántica — para identificar, clasificar y medir automáticamente grietas en pavimentos e imágenes estructurales. La tecnología respalda programas automatizados de inspección de carreteras, pistas de aterrizaje y puentes en los sectores de aviación civil y transporte.
La detección de grietas basada en IA es una tecnología de visión por computadora que aplica modelos de aprendizaje profundo — redes neuronales convolucionales (CNN), arquitecturas codificador-decodificador y transformadores de visión — para identificar, clasificar, segmentar y medir automáticamente grietas en pavimentos, pistas de aterrizaje, tableros de puentes y superficies estructurales de concreto a partir de imágenes digitales. La tecnología reemplaza o aumenta la inspección visual manual realizada por ingenieros humanos, transformando evaluaciones subjetivas e intensivas en mano de obra en evaluaciones objetivas, escalables y basadas en datos. Para operadores de aeropuertos e infraestructura civil, la detección automatizada de grietas respalda directamente la puntuación del Índice de Condición de Pavimento (PCI) según ASTM D5340-12, el informe del Código de Condición de Pista (RwyCC) según el Anexo 14 de la OACI y la planificación de mantenimiento preventivo.

El problema de la detección de grietas presenta desafíos únicos que lo distinguen de las tareas generales de segmentación semántica. Las grietas son estructuras delgadas y alargadas — típicamente de 0.1 mm a 5 mm de ancho — que ocupan solo el 2–8% del total de píxeles en cualquier imagen dada, creando un desequilibrio de clases extremo durante el entrenamiento del modelo. La relación primer plano-fondo para píxeles de grieta es de aproximadamente 1:20 a 1:50, lo que significa que un clasificador ingenuo que predice todos los píxeles como fondo logra una precisión del 95%+ mientras detecta cero grietas. La morfología de las grietas varía drásticamente: las grietas longitudinales corren paralelas a la línea central del pavimento, las grietas transversales corren perpendiculares, las grietas de piel de cocodrilo (fatiga) forman patrones poligonales interconectados, y las grietas de reflexión se propagan a través de las capas de repavimentación desde juntas subyacentes. Cada tipo requiere una caracterización geométrica diferente.
La variabilidad de iluminación y ambiental complica aún más la detección. Las sombras de estructuras y vegetación colgante crean regiones de bajo contraste donde las grietas se vuelven casi invisibles. El pavimento mojado reduce el contraste de temperatura superficial para métodos basados en térmica y altera la reflectividad del espectro visible. Las manchas de aceite, marcas de neumáticos, depósitos de caucho, juntas de construcción, variaciones de textura superficial (estriado, acanalado, acabado de cepillo) y escombros producen características de falsos positivos que imitan visualmente las grietas. Un estudio de 2025 publicado en Scientific Reports (artículo EGA-UNet, Vol. 15, Artículo 33818) demostró que la precisión de detección de grietas en fondos complejos se degrada entre un 10–20% en comparación con superficies limpias y uniformes, incluso con mecanismos de atención de última generación.
Las restricciones de escala y resolución imponen una compensación fundamental. Las imágenes de alta resolución (distancia de muestreo en terreno submilimétrica por píxel) capturan grietas finas pero requieren gran almacenamiento, ancho de banda y tiempo de procesamiento. Las imágenes de menor resolución cubren más área por vuelo o recorrido pero pasan por alto grietas de menos de 2–3 píxeles de ancho. Para la inspección de pistas con drones a 15 m de altitud con una cámara de 24 MP, la distancia de muestreo en terreno típica es de 1.0–1.5 mm/píxel, lo que significa que las grietas de menos de 0.3 mm de ancho quedan por debajo del umbral de detección. Este límite de resolución es una restricción física ineludible que ningún modelo de IA puede superar — determina el ancho mínimo detectable de grieta para cualquier plataforma de imagen y altitud dadas.
U-Net, presentado por Ronneberger, Fischer y Brox en la Universidad de Friburgo en 2015, sigue siendo la arquitectura más adoptada para la segmentación de grietas a nivel de píxel. La estructura simétrica de codificador-decodificador con conexiones de salto de la arquitectura es particularmente adecuada para la detección de grietas porque las grietas son características delgadas y espacialmente localizadas que requieren la preservación de detalles de alta frecuencia a lo largo del proceso de submuestreo y sobremuestreo.
El codificador de U-Net (ruta de contracción) consta de cuatro bloques de submuestreo. Cada bloque contiene dos convoluciones 3×3 (padding=same) seguidas de activación ReLU y una operación de agrupación máxima 2×2 (stride=2). El número de filtros se duplica en cada nivel: 64 → 128 → 256 → 512 → 1024 en el cuello de botella. Para una entrada de 512×512 píxeles, las dimensiones espaciales se reducen a través del codificador como 512 → 256 → 128 → 64 → 32 en la capa más profunda. La capa de cuello de botella en la parte inferior de la forma de U contiene 1024 mapas de características a resolución 32×32, representando las características más abstractas y semánticamente ricas.
El decodificador (ruta de expansión) refleja al codificador con cuatro bloques de sobremuestreo. Cada bloque aplica una convolución transpuesta 2×2 (deconvolución) que reduce a la mitad el número de filtros y duplica las dimensiones espaciales. El mapa de características sobremuestreado se concatena con el mapa de características correspondiente de la ruta del codificador a través de conexiones de salto — por ejemplo, la capa de 128×128 del decodificador recibe una concatenación directa de la capa de 128×128 del codificador. Este mecanismo de conexión de salto es crítico: proporciona al decodificador detalles espaciales de alta resolución del codificador que de otra manera se perderían durante el agresivo submuestreo. Después de la concatenación, dos convoluciones 3×3 con ReLU refinan las características combinadas.
La capa de salida final es una convolución 1×1 con activación sigmoide, produciendo un mapa de probabilidad de un solo canal donde cada valor de píxel (0 a 1) representa la probabilidad de que ese píxel pertenezca a una región de grieta. Un umbral (típicamente 0.5) convierte las probabilidades en segmentación binaria grieta/no grieta.
El U-Net original contiene ~31 millones de parámetros y 23 capas convolucionales. Para una entrada de 512×512, la velocidad de inferencia es de aproximadamente 40 ms por imagen en una GPU moderna (NVIDIA RTX 3080 o equivalente). Variantes ligeras como ResU-Net (que usa conexiones residuales en lugar de convoluciones simples) reducen los parámetros a ~7.8 millones mientras logran un 68.47% de IoU medio en conjuntos de datos de grietas. EGA-UNet reduce aún más a ~2.3 millones de parámetros mientras mejora el Dice al 73.1% mediante convoluciones fantasma y mezcla de tokens basada en Fourier.
Las conexiones de salto de U-Net son arquitectónicamente esenciales para la detección de grietas. Sin ellas, las grietas delgadas (de 1 a 5 píxeles de ancho) se perderían completamente durante el submuestreo 4× (reducción de 32× en el cuello de botella) — una grieta de 3 píxeles de ancho en la entrada se convierte en una característica sub-píxel en el cuello de botella que no puede recuperarse solo con el sobremuestreo. Las conexiones de salto evitan por completo este cuello de botella de información, proporcionando al decodificador la geometría completa de la grieta a resolución completa desde el codificador.
DeepLabV3+, desarrollado por Chen et al. en Google en 2018, aborda la detección de grietas mediante convoluciones atrous (dilatadas) y el módulo de Agrupación Piramidal Espacial de Atrous (ASPP) . A diferencia de U-Net, que submuestrea agresivamente y recupera mediante conexiones de salto, DeepLab mantiene mapas de características de mayor resolución a lo largo del backbone mediante el uso de convoluciones dilatadas que expanden el campo receptivo sin reducir las dimensiones espaciales.
El backbone es típicamente ResNet-101 (101 capas, ~42.6 millones de parámetros) o Xception-65 (~54.7 millones de parámetros). Las convoluciones estándar en el backbone se reemplazan con convoluciones atrous — kernels 3×3 con tasas de dilatación (agujeros) insertados entre los elementos del kernel. Un kernel 3×3 con tasa de dilatación r=2 cubre un campo receptivo de 5×5; r=4 cubre 9×9; r=8 cubre 17×17; y r=16 cubre 33×33 — todos con el mismo número de parámetros (9 pesos) que una convolución 3×3 estándar. Esta propiedad es crítica para la detección de grietas: permite que el modelo vea un contexto más amplio alrededor de cada píxel (distinguiendo grietas de la textura superficial) sin la pérdida de resolución que ocurriría con el submuestreo.
El módulo ASPP aplica cuatro ramas convolucionales atrous paralelas con tasas de dilatación r=6, 12, 18 y 24 (para stride de salida=16), cada una con 256 filtros y kernels 3×3. Una rama adicional de convolución 1×1 y una rama de agrupación a nivel de imagen (agrupación promedio global → convolución 1×1 → sobremuestreo bilineal) completan el módulo. Las cinco ramas producen mapas de características de 256 canales que se concatenan y pasan a través de otra convolución 1×1. La capacidad multiescala del módulo ASPP es particularmente importante para grietas que varían significativamente en ancho — una grieta capilar (<1 mm) y una grieta ancha (>6 mm) requieren diferentes tamaños de campo receptivo para una detección óptima.
El decodificador de DeepLabV3+ es ligero en comparación con el decodificador completo de U-Net: sobremuestreo bilineal por 4×, concatenación con características de bajo nivel de una capa temprana del backbone (reducidas a 48 canales mediante convolución 1×1), dos convoluciones 3×3 (256 filtros) y sobremuestreo bilineal final por 4× a la resolución original. El stride de salida es típicamente 16 (resolución de entrada dividida por 16 en el cuello de botella), a veces 8 para mapas de características más densos a costa de 2× más uso de memoria.
DeepLabV3+ alcanza aproximadamente 78.5% de mIoU en conjuntos de datos de grietas. Sin embargo, el estudio de EGA-UNet (2025) reportó que DeepLabV3+ rinde por debajo de arquitecturas ligeras como EGA-UNet (73.1% Dice vs. menor para DeepLabV3+) debido a la preservación insuficiente de detalles finos en los bordes de las grietas. Las dilataciones del módulo ASPP, aunque efectivas para contexto multiescala, difuminan los detalles espaciales finos que son esenciales para una medición precisa del ancho de grieta.
Los Vision Transformers (ViT) , presentados por Dosovitskiy et al. en Google en 2020, aplican la arquitectura de autoatención del Transformer — desarrollada originalmente para el procesamiento del lenguaje natural — al análisis de imágenes. ViT divide una imagen de entrada en parches no superpuestos de tamaño P×P (típicamente 16×16 píxeles), linealiza cada parche en un vector y procesa la secuencia de incrustaciones de parches a través de capas estándar de codificador Transformer con autoatención de múltiples cabezas.
Para una entrada de 224×224 con parches de 16×16, ViT produce (224/16)² = 196 incrustaciones de parches. Cada parche de dimensiones 16×16×3 (RGB) se aplana a un vector de 768 dimensiones y se proyecta linealmente a la dimensión de incrustación D. El codificador Transformer consta de L capas apiladas. ViT-Base usa L=12, D=768 y 12 cabezas de atención (86M de parámetros). ViT-Large usa L=24, D=1024 y 16 cabezas (307M de parámetros). ViT-Huge usa L=32, D=1280 y 16 cabezas (632M de parámetros). La complejidad de la autoatención escala como O(n²·D) donde n es el número de parches — 196 parches con D=768 requiere aproximadamente 28 millones de operaciones por cabeza por capa.
Para la segmentación de grietas, ViT se utiliza como backbone en arquitecturas híbridas de codificador-decodificador. TransUNet reemplaza el codificador de U-Net con un ViT, combinando el contexto global del Transformer con un decodificador CNN para la recuperación de detalles finos. SwinUNet utiliza un Swin Transformer jerárquico con ventanas desplazadas para reducir el costo computacional O(n²). SETR (SEgmentation TRansformer) aplica ViT directamente como codificador con sobremuestreo progresivo.
La ventaja de ViT para la detección de grietas radica en su campo receptivo global. Las CNN procesan información localmente, requiriendo muchas capas para propagar información a través de grandes distancias espaciales. El mecanismo de autoatención de ViT conecta cada parche con todos los demás en una sola capa, permitiéndole detectar grietas largas y continuas que abarcan cientos o miles de píxeles — grietas de fatiga que serpentean a lo largo de todo el ancho de una pista, por ejemplo. Los modelos híbridos ViT-CNN alcanzan un 74–78% de IoU en conjuntos de datos de grietas, con TransUNet mostrando una fortaleza particular en patrones de grietas de piel de cocodrilo (interconectadas).
La limitación crítica es el costo computacional. Una imagen de 512×512 dividida en parches de 16×16 produce (512/16)² = 1024 parches, requiriendo 1024² ≈ 1 millón de cálculos de atención por capa — un orden de magnitud más que los 196 parches para entradas de 224×224. Esto hace que la implementación completa de ViT en dispositivos periféricos (drones, vehículos de inspección móviles) sea impracticable sin una compresión o poda significativa.
DINOv3, lanzado por Meta AI en 2025, representa el estado del arte en Vision Transformers auto-supervisados. Es la tercera generación de la familia DINO (DIstillation with NO labels), entrenada a una escala sin precedentes: hasta 7 mil millones de parámetros en 1.7 mil millones de imágenes sin etiquetar. DINOv3 utiliza un marco profesor-alumno donde el alumno aprende a igualar las representaciones de salida del profesor sin ningún dato etiquetado por humanos.
La innovación arquitectónica clave en DINOv3 es el Anclaje Gram — una técnica de regularización aplicada después de aproximadamente 1 millón de iteraciones de entrenamiento que estabiliza las representaciones densas de características (a nivel de parche). La matriz Gram del modelo alumno (similitud de pares de parches, dimensiones N×N donde N=número de parches) se restringe para mantenerse cerca de una copia congelada del “profesor Gram”. Esto evita el colapso denso de características, un modo de fallo en el aprendizaje auto-supervisado donde parches de imagen distintos convergen a incrustaciones similares a pesar de ser semánticamente diferentes. Las variantes anteriores de DINO (v1 y v2) sufrían este colapso durante el entrenamiento prolongado; el Anclaje Gram permite un entrenamiento estable a través de miles de millones de imágenes.
Para la detección de grietas, la relevancia de DINOv3 radica en el paradigma de backbone congelado. El backbone ViT preentrenado (disponible en tamaños desde ViT-Small con 21M de parámetros hasta ViT-Huge con 632M y el modelo insignia de 7B) se congela y se utiliza como un codificador visual universal. Cabezas ligeras específicas para tareas — sondas lineales, adaptadores MLP o cabezas convolucionales pequeñas — se entrenan encima sin retropropagar a través del backbone. Esto permite:
Las características a nivel de parche de DINOv3 (en lugar de incrustaciones globales de imagen) preservan la información espacial de grano fino necesaria para la delineación de grietas delgadas. La variante ViT-Base (86M de parámetros, 12 capas, dimensión de incrustación 768) proporciona la mejor relación precisión-cómputo para aplicaciones de inspección de infraestructura. DINOv3 es particularmente prometedor para programas de inspección de pistas donde los datos etiquetados de grietas son escasos — un escenario común en aeropuertos más pequeños sin un historial extenso de gestión de pavimentos.
CrackNet, desarrollado por Zhang et al. en 2017 en la Universidad del Sur de Florida, fue una de las primeras arquitecturas CNN profundas diseñadas específica y exclusivamente para la detección automatizada de grietas en pavimentos. A diferencia de las arquitecturas de propósito general (U-Net, DeepLab) adaptadas de la segmentación de imágenes biomédicas o naturales, CrackNet fue arquitecturado desde cero para la morfología de grietas en pavimentos.
La arquitectura original de CrackNet consta de 6 capas convolucionales con una parte superior completamente conectada: Conv1 (5×5, stride=1, 64 filtros) → Conv2 (5×5, stride=1, 64 filtros) → MaxPool (2×2) → Conv3 (3×3, stride=1, 128 filtros) → Conv4 (3×3, stride=1, 128 filtros) → MaxPool (2×2) → Conv5 (5×5, stride=1, 256 filtros) → Conv6 (3×3, stride=1, 256 filtros) → Completamente Conectado (2048 unidades) → Salida Softmax (2 clases: grieta o no grieta). El número total de parámetros es de ~1.4 millones — aproximadamente 22× más pequeño que U-Net (31M) y 35× más pequeño que DeepLabV3+ (42–55M).
CrackNet opera en parches de tamaño fijo de 64×64 píxeles en lugar de imágenes completas. El conjunto de datos de entrenamiento comprendía 640,000 parches extraídos de 1,800 imágenes de pavimento (160,000 para validación, 180,000 para prueba). Cada parche se clasifica como si contiene una grieta en el píxel central o no — este es un enfoque de clasificación basada en parches en lugar de segmentación a nivel de píxel. Las variantes modernas (CrackNet-V, CrackNet-II, CrackNet-R) reemplazaron el clasificador de parches con redes completamente convolucionales para predicción densa a nivel de píxel.
CrackNet-V (la variante mejorada de 2020) añadió entrenamiento basado en Red Generativa Antagónica (GAN). El generador produce mapas de segmentación de grietas a partir de imágenes de entrada, y una red discriminadora distingue los mapas generados de las anotaciones de referencia. Este régimen de entrenamiento antagónico mejoró la puntuación F1 a 0.87 en el conjunto de datos CFD. CrackNet-V también introdujo fusión de características multiescala con módulos de tipo inception, permitiendo la detección de grietas de diferentes anchos.
La importancia de CrackNet reside en la eficiencia arquitectónica para la implementación periférica. Con 1.4M de parámetros y 5 ms por parche, demostró que el diseño de arquitectura específica para grietas podía lograr precisión de grado de producción en el hardware disponible en 2017 — una sola GPU NVIDIA Tesla K80 podía procesar una imagen completa de pavimento (cosida a partir de parches) en menos de 2 segundos. Esto estableció la viabilidad de la detección automatizada de grietas en tiempo real para vehículos de inspección a velocidad de autopista.
EGA-UNet, publicado por Yang et al. en Scientific Reports (Vol. 15, Artículo 33818, 2025), representa el estado del arte actual para la segmentación eficiente de grietas. La arquitectura alcanza un coeficiente Dice de 73.1% con solo ~2.3 millones de parámetros — aproximadamente 13× más pequeño que el U-Net estándar mientras mejora la precisión en +3.1% Dice sobre U-Net, +11.9% sobre SegNet y +44.9% sobre PSPNet en conjuntos de datos de referencia de grietas.
Tres innovaciones arquitectónicas distinguen a EGA-UNet:
EG-Block (Bloque Convolucional Fantasma Disperso Eficiente): Este bloque constitutivo utiliza convolución “fantasma” — una técnica que genera un pequeño número de mapas de características intrínsecas mediante convolución estándar y luego aplica operaciones lineales más económicas (convoluciones profundas 3×3) para producir mapas de características “fantasma” adicionales. Para una salida deseada de C canales, la convolución fantasma genera aproximadamente C/2 mediante convolución estándar y C/2 mediante operaciones lineales, reduciendo el cómputo en aproximadamente un 50% en comparación con la convolución estándar con canales de salida equivalentes. El EG-Block incorpora un módulo de Atención Multiescala Eficiente (EMA) que pondera las características en múltiples escalas espaciales.
Bloque A-RepViT: Este reemplaza el mezclador de tokens estándar de Vision Transformer con Filtrado Adaptativo de Fourier (AFF) . El mapa de características de entrada se transforma al dominio de la frecuencia mediante la Transformada Rápida de Fourier (FFT), los componentes de frecuencia se filtran adaptativamente (paso bajo, paso alto o paso banda dependiendo de los pesos aprendidos), y la FFT inversa reconstruye el mapa de características espacial. AFF captura contexto global con complejidad O(n log n) versus O(n²) para la autoatención — para un mapa de características de 32×32 (1024 elementos), esto reduce el cómputo de ~1M de operaciones a ~10K de operaciones por capa.
SPPF (Agrupación Piramidal Espacial Rápida): Aplicada en la capa más profunda del codificador, SPPF agrega características multiescala utilizando tres operaciones secuenciales de agrupación máxima de diferentes tamaños de kernel (campos receptivos efectivos de 5×5, 9×9, 13×13), concatenadas en una representación multiescala unificada. Esto es computacionalmente eficiente en comparación con ASPP paralelo (utilizado en DeepLab) porque la agrupación secuencial reutiliza resultados intermedios.
La velocidad de inferencia de EGA-UNet es suficiente para la implementación periférica en tiempo real. En un NVIDIA Jetson Orin Nano Super, el modelo alcanza aproximadamente 45–55 FPS con precisión FP16 en entradas de 512×512, lo que lo hace adecuado para la detección de grietas en tiempo real basada en drones o vehículos. El diseño ligero permite la implementación en plataformas sin GPU dedicadas — se ha demostrado inferencia a 8–12 FPS en una Raspberry Pi 5 con acelerador NPU Hailo-8L (13 TOPS).
| Arquitectura | Parámetros | Principio de Diseño | Innovación Clave | Dice/IoU de Grietas | Implementable en Periferia |
|---|---|---|---|---|---|
| U-Net (2015) | ~31M | Codificador-decodificador, conexiones de salto | Preservación de detalles espaciales | 65–68% IoU | Con cuantización |
| ResU-Net | ~7.8M | Conexiones de salto residuales | Mejora del flujo de gradientes | 68.5% IoU | Sí |
| DeepLabV3+ (2018) | ~42–55M | Convolución atrous, ASPP | Contexto multiescala | ~75% IoU | No |
| ViT-Base (2020) | 86M | Autoatención en parches | Campo receptivo global | 74–78% IoU | No |
| DINOv3 (2025) | 21M–7B | Auto-supervisado, backbone congelado | Transferencia con pocos ejemplos | Comparable a supervisado | Con cabeza adaptadora |
| CrackNet (2017) | ~1.4M | CNN basada en parches | Diseño específico para pavimentos | ~87% F1 (parche) | Sí |
| EGA-UNet (2025) | ~2.3M | Conv fantasma + mezcla de tokens AFF | Ligero + contexto global | 73.1% Dice | Sí |
Entrenar modelos de detección de grietas requiere conjuntos de datos anotados a nivel de píxel donde cada imagen tiene una máscara binaria correspondiente que etiqueta cada píxel como grieta (blanco, valor 1) o no grieta (negro, valor 0). El proceso de anotación requiere mucho trabajo — una sola imagen de 2000×1500 píxeles requiere de 15 a 45 minutos de etiquetado manual experto utilizando herramientas de dibujo de polilíneas seguidas de dilatación morfológica para producir máscaras de grieta de ancho completo. Los siguientes conjuntos de datos constituyen los puntos de referencia estándar para la investigación académica y el desarrollo de modelos.
Crack500, publicado por Yang et al. en 2020, contiene 500 imágenes RGB a resolución de 2000×1500 píxeles (3 megapíxeles por imagen). Las imágenes fueron capturadas usando cámaras de teléfonos móviles en superficies de pavimento alrededor de la Universidad de Temple en Filadelfia, EE. UU. Cada imagen tiene una máscara de segmentación binaria a nivel de píxel correspondiente anotada manualmente usando herramientas de dibujo de polilíneas. Los investigadores comúnmente subdividen las 500 imágenes en aproximadamente 1896 parches de 512×512 sin superposición para el entrenamiento del modelo. La división estándar asigna 350 imágenes para entrenamiento, 50 para validación y 100 para prueba. Los píxeles de grieta constituyen aproximadamente el 2–5% del total de píxeles por imagen. Los anchos de grieta varían de 0.1 mm a 5 mm, y las imágenes incluyen múltiples condiciones de iluminación (soleado, nublado, sombreado). Los tipos de grietas incluyen patrones longitudinales, transversales y de piel de cocodrilo.
DeepCrack, publicado por Liu et al. en Neurocomputing (2019), contiene 537 imágenes RGB a resolución de 544×384 píxeles. Las imágenes fueron capturadas de diversas superficies de concreto y asfalto — puentes, carreteras, túneles y paredes de edificios — proporcionando una cobertura de múltiples escenas poco común en conjuntos de datos de pavimento de una sola fuente. Cada imagen tiene anotaciones binarias a nivel de píxel como máscaras PNG. El conjunto de datos está pre-dividido en aproximadamente 300 imágenes de entrenamiento y 237 de prueba. DeepCrack fue construido específicamente para evaluar la arquitectura de Detección de Bordes Holísticamente Anidada (HED) adaptada para la detección de grietas. El conjunto de datos incluye condiciones desafiantes: bajo contraste entre grietas y fondo, grietas delgadas (1–3 píxeles de ancho) y fondos de superficie texturizada. Las grietas se clasifican por ancho en lugar de tipo estructural.
CFD, publicado por Shi et al. en IEEE Transactions on Intelligent Transportation Systems (2016), contiene 118 imágenes a resolución de 480×320 píxeles. Las imágenes fueron capturadas usando un iPhone 5 en carreteras urbanas de Beijing, China. Cada imagen tiene máscaras de referencia manual a nivel de píxel, además de una carpeta “seg” con segmentaciones basadas en superpíxeles. El conjunto de datos fue diseñado para reflejar condiciones generales de superficies de carreteras urbanas e incluye factores de ruido: sombras de árboles y edificios, manchas de aceite, charcos de agua y cobertura de hojas. Los píxeles de grieta representan aproximadamente el 4–8% de cada imagen. La baja resolución de 480×320 hace que la detección de grietas delgadas sea un desafío — las grietas pueden tener tan solo 1–2 píxeles de ancho. CFD tiene licencia solo para uso en investigación no comercial con requisito de citación. Su limitación principal es el tamaño pequeño (118 imágenes), una sola área geográfica y una sola cámara.
GAPs384 (Conjunto de Datos de Deterioro de Pavimento Asfáltico Alemán) , de la Universidad Tecnológica de Ilmenau, Alemania, contiene 1969 imágenes a resolución de 1920×1080 píxeles (Full HD). Este es el conjunto de datos público de grietas de fuente única más grande por cantidad de imágenes. Las imágenes son en escala de grises (no RGB), lo que reduce el tamaño del archivo pero elimina la información de color que puede ayudar a la discriminación de grietas. Las anotaciones incluyen clasificación del tipo de grieta (longitudinal, transversal, piel de cocodrilo) además de las máscaras de grieta a nivel de píxel. La alta resolución y las condiciones de captura consistentes (red de autopistas alemanas) hacen que GAPs384 sea valioso para entrenar modelos destinados a condiciones de pavimento europeas. El conjunto de datos incluye una gama más amplia de severidades de grietas que CFD o Crack500.
NHA12D, publicado por Huang et al. (2022), contiene 80 imágenes de pavimento recopiladas de la red de autopistas A12 del Reino Unido por National Highways (anteriormente Highways England). El conjunto de datos incluye de manera única 40 imágenes de pavimento de concreto y 40 imágenes de pavimento de asfalto capturadas bajo condiciones de inspección idénticas por vehículos de inspección digital. Esta composición de dos superficies hace que NHA12D sea valioso para evaluar la generalización entre dominios — la capacidad de un modelo para detectar grietas en ambos tipos de superficie sin degradación. Se proporcionan anotaciones de referencia a nivel de píxel. El tamaño pequeño (80 imágenes) hace que NHA12D sea principalmente un conjunto de datos de referencia más que un recurso de entrenamiento.
| Conjunto de Datos | Imágenes | Resolución | % Grietas/Imagen | Fuente | Año |
|---|---|---|---|---|---|
| Crack500 | 500 | 2000×1500 | 2–5% | Carreteras de Filadelfia | 2020 |
| DeepCrack | 537 | 544×384 | variable | Multi-escena | 2019 |
| CFD | 118 | 480×320 | 4–8% | Carreteras de Beijing | 2016 |
| GAPs384 | 1969 | 1920×1080 | variable | Autopistas alemanas | 2020 |
| NHA12D | 80 | Alta resolución | variable | Autopista A12 Reino Unido | 2022 |
| CrackTree200 | 206 | 800×600 | variable | Pavimento (desafiante) | 2012 |
Todos los conjuntos de datos de grietas exhiben un desequilibrio de clases severo: los píxeles de grieta constituyen el 2–8% del total de píxeles, lo que significa que los modelos deben aprender de un promedio de 500–2000 píxeles de grieta por cada 25,000 píxeles totales de imagen (resolución CFD de 480×320). La función de pérdida de entropía cruzada estándar es ineficaz — un modelo minimiza la pérdida prediciendo “fondo” para cada píxel. Funciones de pérdida especializadas abordan esto:
Pérdida Focal (Lin et al., 2017) aplica un factor modulador (1 − pt)γ a la pérdida de entropía cruzada, donde pt es la probabilidad predicha por el modelo para la clase de referencia y γ es un parámetro de enfoque (típicamente 2.0). Esto reduce el peso de los ejemplos bien clasificados (pt → 1.0) y aumenta el peso de los ejemplos difíciles mal clasificados (pt → 0.0). Para la detección de grietas con γ=2.0, la pérdida focal reduce la contribución de los píxeles de fondo fáciles en aproximadamente 4× en comparación con la entropía cruzada.
Pérdida Dice (Milletari et al., 2016) = 1 − coeficiente Dice = 1 − (2VP + ε)/(2VP + FP + FN + ε). Esto optimiza directamente la métrica de evaluación. La pérdida Dice es menos sensible al desequilibrio de clases que la entropía cruzada porque mide la superposición en lugar de la precisión por píxel. Es la función de pérdida estándar para la segmentación de grietas basada en U-Net.
Pérdida Tversky (Salehi et al., 2017) generaliza la pérdida Dice ponderando los falsos positivos y los falsos negativos de manera diferente: índice Tversky = VP/(VP + α·FP + β·FN). Para la detección de grietas crítica para la seguridad donde los falsos negativos (grietas no detectadas) son más peligrosos que los falsos positivos (falsas alarmas), establecer α=0.3 y β=0.7 penaliza los FN más fuertemente que los FP.
SupContrast (Pérdida Contrastiva Supervisada) , relevante para enfoques basados en DINOv3, agrupa las incrustaciones de parches de píxeles de grieta en el espacio de incrustación mientras las separa de las incrustaciones de píxeles de fondo. Esto crea un espacio de incrustación bien estructurado donde los píxeles de grieta forman grupos compactos que son linealmente separables de los grupos de fondo.
Los enfoques de detección de grietas basados en IA se dividen en dos categorías metodológicas: basados en clasificación y basados en segmentación, cada uno con salidas, métricas y casos de uso distintos.
La clasificación de grietas determina si una región de imagen (parche de imagen, tesela o imagen completa) contiene una grieta. La salida es una etiqueta binaria (grieta presente / grieta ausente) o una etiqueta multiclase (tipo de grieta: longitudinal, transversal, piel de cocodrilo). Los modelos de clasificación son típicamente CNN ligeras (CrackNet con 1.4M de parámetros, MobileNetV2 con 3.5M de parámetros) entrenadas en conjuntos de datos a nivel de parche. La salida proporciona probabilidad de presencia de grieta y ubicación (qué parche contiene una grieta) pero no proporciona geometría de la grieta — ancho, largo, orientación o topología. La clasificación es apropiada para estudios de detección rápida donde el objetivo es identificar ubicaciones de grietas para una inspección de seguimiento, no medir grietas individuales. La evaluación utiliza precisión, exactitud, exhaustividad y F1 a nivel de parche o imagen.
La segmentación de grietas (segmentación semántica) clasifica cada píxel individualmente como grieta o no grieta. La salida es una máscara binaria a la misma resolución que la imagen de entrada, donde cada píxel tiene una probabilidad de grieta. Esto proporciona la geometría completa de la grieta — ancho en cada punto a lo largo de la grieta, longitud total, ángulo de orientación, topología de ramificación y área de la grieta. La segmentación es necesaria para la evaluación cuantitativa de la condición del pavimento (cálculo de PCI, clasificación de severidad del ancho de grieta según estándares de la OACI). La evaluación utiliza métricas a nivel de píxel: IoU, Dice, precisión, exhaustividad y F1 de borde. Los modelos de segmentación son computacionalmente más pesados (U-Net con 31M de parámetros, DeepLabV3+ con 42–55M) pero proporcionan una salida sustancialmente más rica.
Algunos sistemas utilizan segmentación de instancias (detectando cada grieta individual como un objeto separado), que distingue entre grietas desconectadas. Esto es relevante para el conteo de grietas (número de grietas por unidad de área) y el mapeo de densidad de grietas. Mask R-CNN y YOLOv8-seg son arquitecturas comunes de segmentación de instancias para la detección de grietas.
La IoU (Índice de Jaccard) mide la superposición entre la segmentación de grieta predicha y la referencia, dividida por la unión de ambas. Es la métrica más ampliamente reportada para la segmentación de grietas:
IoU = VP / (VP + FP + FN)
Los valores varían de 0 (sin superposición) a 1 (superposición perfecta). La IoU típica para modelos de detección de grietas varía de 0.55 a 0.75. La IoU es más sensible que Dice a los falsos positivos y falsos negativos porque el denominador de la unión es mayor que las sumas individuales. Un modelo que predice una grieta de referencia de 100 píxeles con 60 píxeles correctos (VP=60, FP=20, FN=40) logra IoU = 60/(60+20+40) = 0.50. El denominador de unión más estricto significa que la IoU siempre es menor o igual que Dice para la misma predicción.
Dice (también llamado puntuación F1 para segmentación binaria) es la media armónica de precisión y exhaustividad:
Dice = 2 × VP / (2 × VP + FP + FN)
Dice se relaciona con IoU: Dice = 2·IoU / (1 + IoU). Para el ejemplo anterior (IoU=0.50), Dice = 2×0.50/1.50 = 0.67. El Dice típico para detección de grietas varía de 0.65 a 0.80. El artículo de EGA-UNet (2025) reporta Dice = 73.1% como su métrica principal. Dice proporciona una evaluación más optimista de la calidad de segmentación que IoU, y la brecha entre ambos se amplía a medida que la calidad disminuye — una predicción de baja calidad con IoU=0.25 tiene Dice=0.40.
Precisión (Valor Predictivo Positivo) = VP/(VP+FP). Mide la tasa de falsas alarmas: de todos los píxeles etiquetados como grieta, ¿qué fracción es realmente grieta? Una precisión alta (>0.85) significa pocos falsos positivos. Importante cuando la detección de grietas desencadena acciones de seguimiento costosas (ej., cuadrillas de sellado enviadas a inspeccionar ubicaciones marcadas).
Exhaustividad (Sensibilidad, Tasa de Verdaderos Positivos) = VP/(VP+FN). Mide la tasa de grietas no detectadas: de todos los píxeles de grieta reales, ¿qué fracción detectó el modelo? Una exhaustividad alta (>0.85) significa pocas grietas no detectadas. Para infraestructura crítica para la seguridad (inspección de pistas en aeropuertos comerciales), la exhaustividad tiene prioridad sobre la precisión — investigar una falsa alarma es menos grave que pasar por alto una grieta real que podría propagarse hasta convertirse en una falla estructural bajo la carga de una aeronave.
La mAP evalúa la precisión en diferentes umbrales de exhaustividad, típicamente reportada en umbrales de IoU de 0.50 (mAP@50) y de 0.50 a 0.95 en incrementos de 0.05 (mAP@50:95). Para la detección de grietas como una tarea de detección de objetos (cajas delimitadoras), la mAP mide qué tan bien el modelo localiza las regiones de grietas. Un estudio de 2025 de la Universidad de Florida Central utilizando Grounding DINO para detección térmica de grietas logró un 70% de mAP@[0.5:0.95]. Para tareas de segmentación a nivel de píxel, se prefieren IoU y Dice sobre mAP porque las grietas son estructuras no rectangulares y las métricas de cajas delimitadoras representan pobremente la calidad de la segmentación.
| Métrica | Fórmula | Rango | Valor Típico en Grietas | Caso de Uso |
|---|---|---|---|---|
| IoU | VP/(VP+FP+FN) | 0–1 | 0.55–0.75 | Calidad de segmentación (estricta) |
| Dice | 2VP/(2VP+FP+FN) | 0–1 | 0.65–0.80 | Calidad de segmentación (indulgente) |
| Precisión | VP/(VP+FP) | 0–1 | 0.80–0.95 | Control de falsas alarmas |
| Exhaustividad | VP/(VP+FN) | 0–1 | 0.80–0.95 | Detección crítica para seguridad |
| F1 | 2PR/(P+R) | 0–1 | 0.80–0.92 | General |
| mAP@50 | Precisión promedio en IoU≥0.5 | 0–1 | 0.70–0.85 | Detección de objetos |
| Precisión de Píxel | (VP+VN)/(VP+VN+FP+FN) | 0–1 | >0.95 (engañoso) | No recomendada para grietas |
La máscara de segmentación binaria producida por un modelo de IA proporciona la ubicación y forma de la grieta, pero los estándares de inspección de infraestructura requieren dimensiones físicas de la grieta — ancho en milímetros, largo en metros y área en milímetros cuadrados. Convertir máscaras a nivel de píxel en mediciones de ingeniería requiere un proceso de geometría computacional.
La esqueletización (adelgazamiento) reduce la región de la grieta a una línea central de un píxel de ancho que preserva la topología de la grieta (conectividad, ramificación, puntos finales). El algoritmo de adelgazamiento de Zhang-Suen (1984) es el método estándar:
La Transformada del Eje Medio (MAT) es una alternativa que utiliza la transformada de distancia: para cada píxel interior de grieta, calcular la distancia euclidiana mínima al borde de la grieta. El esqueleto consiste en píxeles que son máximos locales en este mapa de distancias. MAT produce esqueletos más suaves para grietas gruesas e irregulares pero requiere cómputo O(n²) versus O(n) para el adelgazamiento de Zhang-Suen.
La Transformada de Distancia Euclidiana (EDT) calcula la distancia euclidiana mínima desde cada píxel del esqueleto (x,y) al píxel de borde de grieta más cercano:
D(x,y) = min(i,j)∈∂C √((x−i)² + (y−j)²)
donde ∂C es el conjunto de píxeles de borde de la región de la grieta. Ancho de grieta en el punto (x,y) = 2 × D(x,y), porque la distancia desde la línea central hasta el borde es la mitad del ancho total de la grieta.
La transformada de distancia se calcula eficientemente usando:
cv2.distanceTransform() de OpenCV: O(n) de barrido raster de dos pasadas que produce distancia euclidiana aproximada con <1% de errorEstadísticas de ancho derivadas del arreglo de ancho por píxel:
La longitud de la grieta se mide a partir de la línea central esqueletizada:
Método 1 — Conteo de Píxeles con Corrección de Conectividad:
Método 2 — Código de Cadena (Cadena de Freeman):
Método 3 — Distancia Euclidiana Entre Puntos Ordenados:
Para grietas ramificadas (ej., grietas de piel de cocodrilo cerca de intersecciones), la longitud total de la grieta incluye todas las ramas. El esqueleto debe descomponerse en ramas individuales en los puntos de unión antes del cálculo de longitud.
Las máscaras de segmentación miden las grietas en píxeles; los estándares de ingeniería requieren milímetros físicos. Se utilizan cuatro métodos de calibración:
1. Objeto de Referencia Conocido: Colocar un objeto de dimensiones conocidas (moneda, regla o blanco de calibración) en la escena. Factor de escala S = longitud_conocida_mm / longitud_medida_píxeles. Precisión: ±0.5–1%.
2. Proyección Láser (Carrasco et al., 2021): Dos haces láser paralelos a distancia conocida (ej., 50 mm) se proyectan sobre la superficie. La distancia en píxeles entre los puntos láser da S = 50 mm / Δpíxeles. Precisión: ±0.02 mm.
3. Geometría de Cámara: mm_por_píxel = (2 × Z × tan(HFOV/2)) / Ancho_imagen, donde Z = distancia cámara-superficie (m), HFOV = campo de visión horizontal (grados). Para un dron a 10 m de altitud con lente de 24 mm y cámara de 20 MP (5472×3648, distancia focal de 24 mm en sensor APS-C con factor de recorte de 1.5×, distancia focal efectiva de 36 mm, HFOV ≈ 51°): mm_por_píxel ≈ (2 × 10,000 × tan(25.5°)) / 5472 ≈ 1.8 mm/píxel.
4. Precalibración Fija: Para drones o vehículos de inspección a altitud/configuración de lente fija, precalibrar S. A 15 m de altitud con cámara de 20 MP y lente de 35 mm, S ≈ 0.5 mm/píxel.
La generalización del modelo — la capacidad de mantener la precisión de detección en tipos de pavimento, condiciones de iluminación y sistemas de cámara no vistos durante el entrenamiento — es un desafío crítico para la detección de grietas en producción. Un modelo entrenado exclusivamente en Crack500 (asfalto de Filadelfia) puede perder 5–15% de IoU cuando se aplica a superficies de pistas de concreto, y un modelo entrenado en imágenes diurnas soleadas puede perder 10–20% de precisión en condiciones nubladas o mojadas.
Los pavimentos de asfalto y concreto presentan características visuales fundamentalmente diferentes para la detección de grietas. El asfalto tiene una apariencia oscura y uniforme con bajo albedo (reflectancia 5–15%). Los bordes de grietas en asfalto son típicamente nítidos y de alto contraste porque las nuevas caras de la grieta exponen agregado más claro. El concreto tiene mayor albedo (reflectancia 30–50%) y una apariencia superficial moteada por la distribución de agregados finos. Las grietas en concreto son a menudo de menor contraste porque las caras fracturadas se meteorizan de manera similar a la superficie expuesta. Un modelo entrenado en un tipo de superficie aprende características de textura específicas de esa superficie (el fondo oscuro uniforme del asfalto) que están ausentes o invertidas en la otra superficie (el fondo más claro y texturizado del concreto).
El conjunto de datos NHA12D fue diseñado específicamente para evaluar este desafío entre dominios — contiene 40 imágenes de concreto y 40 de asfalto de la misma red de autopistas del Reino Unido. Los resultados publicados muestran que los modelos entrenados solo en conjuntos de datos de asfalto (CFD, Crack500) y probados en imágenes de concreto de NHA12D pierden 8–12% de IoU en comparación con la evaluación en la misma superficie. Las técnicas de adaptación de dominio abordan esto mediante:
La precisión de la detección de grietas bajo diferentes condiciones de iluminación varía sustancialmente. Un estudio sistemático en Crack500 bajo tres escenarios de iluminación encontró:
El aumento de datos durante el entrenamiento mejora la robustez a la iluminación. Los aumentos estándar para la detección de grietas incluyen:
Un modelo entrenado con aumento agresivo (brillo ±40%, contraste ±30%, ruido σ=0.03, kernel de desenfoque hasta 7) pierde aproximadamente 1–2% de IoU absoluto en iluminación óptima limpia pero gana 6–8% de IoU en condiciones desafiantes (sombra, nublado). La mejora en casos difíciles típicamente justifica la pequeña penalización en casos fáciles para la implementación en el mundo real donde la iluminación no está controlada.
Implementar la IA de detección de grietas en dispositivos periféricos — computadoras embebidas montadas en drones, vehículos de inspección o robots — permite el procesamiento en tiempo real sin conectividad a la nube, algo crítico para aeródromos remotos, grandes redes de autopistas y aplicaciones críticas para la seguridad donde la latencia debe medirse en milisegundos en lugar de segundos.
NVIDIA Jetson Orin Nano Super (67 TOPS INT8, 7–15W, $249) es la plataforma periférica principal para la detección de grietas basada en drones. Los 1024 núcleos CUDA y 32 núcleos Tensor proporcionan suficiente rendimiento para segmentación en tiempo real a 30–50 FPS (FP16) en arquitecturas optimizadas (EGA-UNet, ResU-Net). Los 8 GB de memoria LPDDR5 (102 GB/s de ancho de banda) manejan inferencia por lotes de 512×512. Factor de forma: módulo de 69.6×45 mm, adecuado para integración en carga útil de dron.
NVIDIA Jetson Orin NX (100 TOPS, 10–25W) ofrece mayor rendimiento para procesar múltiples flujos de cámara simultáneamente — útil para vehículos de inspección con cámaras frontales, laterales e inferiores.
NVIDIA Jetson AGX Orin (275 TOPS, 15–60W) permite la implementación de modelos a gran escala (DeepLabV3+, TransUNet) a velocidades de fotogramas de producción. Se utiliza en sistemas montados en vehículos donde el consumo de energía está menos restringido.
Raspberry Pi 5 (Cortex-A76 de cuatro núcleos a 2.4 GHz, $60–80) con NPU Hailo-8L (13 TOPS, M.2 HAT) proporciona una solución periférica de menor costo. Los modelos ligeros (U-Net con convolución fantasma, cabeza de segmentación MobileNetV3) logran 5–12 FPS en entradas de 512×512. Costo total del sistema incluyendo cámara y montaje en dron: ~$200.
| Plataforma | TOPS | Potencia | Precio | FPS de Grietas (FP16) | FPS de Grietas (INT8) |
|---|---|---|---|---|---|
| Jetson Orin Nano Super | 67 | 7–15W | $249 | 30–50 | 50–80 |
| Jetson Orin NX | 100 | 10–25W | $499 | 40–60 | 70–100+ |
| Jetson AGX Orin | 275 | 15–60W | $1,999 | 60–100+ | 100–200+ |
| Raspberry Pi 5 + Hailo-8L | 13 | 5–12W | ~$80 | 5–12 | 8–15 |
TensorRT (SDK de optimización de inferencia de NVIDIA) realiza optimización de grafos, sintonización automática de kernels y calibración de precisión:
ONNX Runtime proporciona implementación multiplataforma con proveedores de ejecución para CUDA (GPU), TensorRT (NVIDIA), OpenVINO (Intel), CoreML (Apple) y CPU ARM. Aceleración típica: 1.2–1.5× sobre la inferencia PyTorch pura en CPU.
La poda de canales elimina canales convolucionales menos importantes basándose en la magnitud de la norma L1 (los pesos cercanos a cero contribuyen mínimamente). Puede reducir FLOPs en un 30–50% con 1–2% de pérdida de precisión para segmentación de grietas. La destilación de conocimiento entrena un modelo estudiante pequeño (ej., EGA-UNet con 2.3M de parámetros) para imitar la salida de un modelo profesor grande (ej., DeepLabV3+ con 55M de parámetros) minimizando la divergencia KL entre sus distribuciones de probabilidad de salida. El estudiante alcanza 95–98% de la precisión del profesor con 70–90% menos parámetros.
Para inspecciones de pistas o autopistas con múltiples drones, la carga completa de video (4K, 30 FPS, H.264) requiere 15–25 Mbps por dron — superando el ancho de banda celular en áreas rurales e impidiendo el análisis en la nube en tiempo real. Una estrategia de carga selectiva aborda esto:
A pesar de los avances en precisión de la IA, la inspección de infraestructura crítica para la seguridad (pistas de aeropuertos comerciales, puentes de autopistas interestatales, paramentos de presas) requiere verificación humana en el circuito — un inspector calificado revisa los mapas de grietas generados por IA y confirma, rechaza o ajusta los hallazgos. Esto está impulsado por requisitos regulatorios (OACI, FAA, ASTM) que exigen la aprobación de un ingeniero profesional en los informes de condición que afectan las decisiones de seguridad.
El flujo de trabajo típico de verificación humana en el circuito para la detección de grietas con IA:
Este bucle de retroalimentación mejora continuamente el rendimiento del modelo. Después de 3–5 ciclos de reentrenamiento con casos límite verificados por humanos, las tasas de falsos positivos típicamente disminuyen en un 40–60% y la exhaustividad mejora en un 5–10% en los tipos de pavimento y condiciones específicos del programa de inspección.
Límite de resolución para detección de grietas finas: Las grietas de menos de 2–3 píxeles de ancho no pueden detectarse ni medirse de manera confiable independientemente de la calidad del modelo — la información física simplemente no está presente en la imagen. A 1.0 mm/píxel de distancia de muestreo en terreno (típico para inspecciones con drones a 10–15 m de altitud), las grietas de menos de 0.3 mm son indetectables. Esta es una restricción física ineludible determinada por la resolución de la plataforma de imagen, no por el modelo de IA.
Degradación entre dominios: Los modelos entrenados en un tipo de pavimento (asfalto) o región geográfica (carreteras de EE. UU.) pierden 5–15% de IoU cuando se implementan en diferentes tipos de pavimento (concreto, compuesto) o regiones (superficies de carreteras europeas, asiáticas). Las técnicas de adaptación de dominio reducen esta brecha pero no la eliminan. Una implementación en producción requiere ajuste fino específico del sitio o entrenamiento multi-regional.
Consistencia de falsos positivos: Si bien las tasas generales de falsos positivos son bajas (5–15% de las detecciones), los falsos positivos se agrupan en condiciones específicas: las juntas de construcción producen falsas detecciones en el 20–40% de las juntas; las ranuras longitudinales (estriado) producen patrones falsos periódicos; y las manchas de aceite superficial producen falsos positivos irregulares. Estos modos de fallo sistemáticos requieren filtros de postprocesamiento basados en reglas (ej., “eliminar detecciones a lo largo de líneas de juntas conocidas de datos SIG”).
Condiciones de humedad y baja luminosidad: El rendimiento en pavimento mojado se degrada hasta en un 40% de IoU en comparación con condiciones secas. La inspección nocturna requiere iluminación activa (reflectores LED en el dron o vehículo), que introduce deslumbramiento y artefactos de sombra que reducen aún más la precisión. La lluvia, niebla y capa de nieve hacen que la detección de grietas sea efectivamente imposible con cámaras de espectro visible.
Aceptación regulatoria: Ninguna autoridad importante de aviación o transporte (OACI, FAA, ASTM, AASHTO) ha publicado estándares para la detección de grietas basada en IA como método de inspección independiente. Las regulaciones actuales requieren que los resultados de IA sean verificados por métodos tradicionales (arrastre de cadena, muestreo de núcleos, inspección visual por inspector certificado). Esto limita el ahorro operativo de costos de la implementación de IA, ya que el tiempo del inspector sigue siendo necesario para la verificación.
Aprendizaje auto-supervisado para regímenes de datos escasos: El paradigma de backbone congelado de DINOv3 demuestra que los modelos de detección de grietas pueden entrenarse con 50–100 imágenes etiquetadas en lugar de 500–2000. Los desarrollos futuros extenderán esto a la detección de grietas con cero ejemplos — modelos que detectan grietas en cualquier tipo de superficie sin ningún entrenamiento específico del dominio, aprovechando características de modelos fundamentales aprendidas de miles de millones de imágenes diversas.
Redes neuronales informadas por la física: Los modelos actuales aprenden características puramente visuales. Los modelos informados por la física incorporarán ecuaciones de transferencia de calor para la detección térmica de grietas, modelos tensión-deformación para predecir la propagación de grietas a partir de la geometría detectada, y modelos de carga para pavimentos aeroportuarios (peso de aeronave, presión de neumáticos, frecuencia de pasadas) para priorizar la urgencia de reparación basada en el riesgo estructural, no solo en las dimensiones de la grieta.
Análisis temporal basado en video: Los sistemas actuales analizan fotogramas individuales. Los modelos basados en video seguirán la progresión de grietas a través de múltiples pasadas de inspección (comparación año tras año), detectarán la apertura/cierre de grietas bajo carga de tráfico (midiendo el ancho de la grieta antes, durante y después del paso de la aeronave), y filtrarán falsos positivos transitorios (hojas, escombros, agua estancada) mediante controles de consistencia temporal.
Fusión de sensores multimodales: La combinación de cámaras de espectro visible con infrarrojo térmico (IRT), radar de penetración terrestre (GPR), perfilado de elevación LiDAR y tomografía ultrasónica produce una caracterización de defectos más rica. Un modelo de IA unificado que procese todas las modalidades simultáneamente detectará grietas superficiales (visible), delaminación subsuperficial (IRT), contenido de vacíos (GPR) y rugosidad superficial (LiDAR) en una sola pasada — proporcionando una evaluación integral de la condición estructural más allá de la detección de grietas por sí sola.
Arquitecturas Transformer nativas para la periferia: El costo computacional O(n²) de los Vision Transformers actualmente limita la implementación en la periferia. Las arquitecturas específicas de hardware (optimizadas para TensorRT de NVIDIA, mapeadas para motor Qualcomm AI, compiladas para Apple Neural Engine) combinadas con mecanismos de atención de complejidad lineal (Performer, Linformer, modelos de espacio de estados Mamba) llevarán la precisión a nivel de Transformer a dispositivos periféricos para 2027. La arquitectura Mamba-UNet (2024) que utiliza modelos de espacio de estados en lugar de atención logra una segmentación de grietas competitiva (71.5% de mIoU) a aproximadamente el 40% del costo computacional de EGA-UNet.
Evolución regulatoria: A medida que la detección de grietas con IA acumula evidencia operativa en redes de aeropuertos y autopistas, se espera que los organismos de normalización publiquen estándares de inspección específicos para IA — definiendo requisitos de validación, umbrales de precisión, frecuencia de reentrenamiento y protocolos de supervisión humana. La hoja de ruta de la FAA para IA en aviación (Plan Estratégico de IA de la FAA, 2024) incluye explícitamente la IA de inspección de infraestructura en su ciclo de desarrollo de marco regulatorio planificado para 2026–2028.

Implemente detección de grietas impulsada por IA a partir de imágenes de drones y vehículos para inspecciones automatizadas de pistas, carreteras y tableros de puentes. Obtenga segmentación de grietas con precisión de píxel, medición de ancho y clasificación de severidad integradas con su sistema de gestión de activos.
La segmentación de grietas es la tarea de visión por computadora que clasifica cada píxel de una imagen como grieta o no grieta, produciendo una máscara binaria...
La medición automatizada del ancho de grietas obtiene la apertura de grietas detectadas a partir de máscaras de píxeles segmentadas mediante la transformada de ...
La inspección automatizada con drones utiliza rutas de vuelo preprogramadas, visión artificial y análisis de IA para inspeccionar activos de infraestructura, in...