Aumento de Datos

{

Concrete runway surface with visible cracks and pavement distress markings captured from drone perspective during infrastructure inspection

Definición y Propósito

El aumento de datos es una metodología de entrenamiento que expande sintéticamente el tamaño y la diversidad de un conjunto de datos etiquetado aplicando transformaciones controladas que preservan la etiqueta a muestras de datos existentes. En aplicaciones de visión por computadora, esto significa tomar cada imagen original y generar múltiples versiones modificadas mediante deformación geométrica, manipulación del espacio de color, inyección de ruido o procesos generativos más complejos. El conjunto de datos aumentado — imágenes originales más sus variantes transformadas — se utiliza entonces para entrenar redes neuronales profundas, exponiendo al modelo a un rango mucho más amplio de condiciones visuales del que los datos de campo brutos proporcionarían por sí solos.

El propósito central del aumento de datos es mejorar la generalización del modelo — la capacidad de un modelo entrenado para desempeñarse con precisión en datos que nunca ha visto antes. Una red neuronal convolucional profunda (CNN) con millones de parámetros puede memorizar fácilmente un conjunto de datos de entrenamiento de unos pocos miles de imágenes, aprendiendo las texturas específicas, los patrones de iluminación y los artefactos de fondo de esos ejemplos en lugar de las firmas subyacentes del defecto. Este fenómeno, conocido como sobreajuste, resulta en una alta precisión de entrenamiento pero un bajo rendimiento en validación y prueba. El aumento de datos previene el sobreajuste asegurando que cada época de entrenamiento presente al modelo versiones transformadas de manera diferente de cada imagen, haciendo imposible la memorización pura. El modelo se ve forzado a aprender características invariantes — patrones visuales que persisten a través de las transformaciones.

Para los modelos de inspección de infraestructura, el aumento de datos no es meramente beneficioso sino operativamente esencial. Considérese la realidad de la recolección de datos en la inspección de pavimentos aeroportuarios: un solo estudio de pista utilizando una cámara montada en UAV podría capturar 10 000 imágenes de alta resolución, pero menos de 200 de esas imágenes pueden contener defectos visibles. Las grietas, los desconchados, las fallas en el sellado de juntas y la meteorización superficial constituyen en conjunto menos del 1 por ciento del área superficial total del pavimento en un momento dado. Recolectar un conjunto de datos equilibrado y diverso de defectos bajo todas las condiciones posibles de inspección — luz solar directa, nublado, amanecer, pavimento mojado, pavimento seco, diferentes ángulos de inclinación de cámara, diferentes altitudes — sería prohibitivamente costoso y consumiría mucho tiempo. El aumento de datos cierra esta brecha simulando el envolvente completo de condiciones operativas a partir de un conjunto mucho más pequeño de ejemplos recolectados en campo.

La importancia del aumento está formalmente reconocida en los estándares de infraestructura aeronáutica. El Anexo 14 de la OACI, Volumen I (Diseño y Operaciones de Aeródromos) requiere que las superficies de las pistas se mantengan en una condición que no ponga en peligro las operaciones de las aeronaves. Los sistemas de inspección basados en IA interpretados bajo estos estándares deben demostrar un rendimiento robusto en todo el rango de condiciones operativas de iluminación y clima especificadas en el manual del aeródromo. Sin un aumento integral, un modelo de inspección entrenado exclusivamente en capturas secas de mediodía no detectaría grietas ocultas por sombras, parches húmedos o luz solar rasante — potencialmente pasando por alto defectos que comprometen el rendimiento de frenado de las aeronaves y la seguridad operativa.

El aumento de datos opera a nivel de datos en lugar de a nivel de arquitectura del modelo, distinguiéndose de técnicas de regularización como dropout, decaimiento de pesos o normalización por lotes. Mientras que los regularizadores a nivel de modelo restringen la capacidad de la red para sobreajustarse, el aumento expande la distribución de datos para cubrir más completamente el espacio de entrada del mundo real. Los dos enfoques son complementarios: las mejores prácticas en canalizaciones de inspección de infraestructura combinan un aumento agresivo con regularización arquitectónica para una máxima generalización.

Aumentaciones Geométricas

Las aumentaciones geométricas modifican la disposición espacial de los píxeles en una imagen sin alterar sus valores de intensidad. Estas transformaciones simulan cambios en la posición de la cámara, orientación, distancia y características del objetivo que ocurren durante la recolección real de datos de inspección. Para la inspección de infraestructura, las aumentaciones geométricas son la categoría de mayor impacto porque las plataformas de inspección — UAV, vehículos terrestres, cámaras portátiles — capturan la misma superficie desde perspectivas ampliamente variables.

Aumento por Rotación

El aumento por rotación aplica una rotación angular aleatoria a la imagen de entrada, típicamente desde -180° hasta +180° o restringida a rangos más pequeños como ±45° para aplicaciones específicas. La imagen transformada se genera rotando cada coordenada de píxel (x, y) por un ángulo θ alrededor del centro de la imagen usando la matriz de rotación estándar:

x’ = x·cos(θ) - y·sin(θ)

y’ = x·sin(θ) + y·cos(θ)

Para la detección de grietas en pistas de aeropuertos y pavimentos de carreteras, el aumento por rotación es crítico porque la orientación de las grietas respecto al plano de la cámara es arbitraria. Una grieta longitudinal paralela al eje de la pista puede aparecer horizontal en un recorte de imagen y diagonal en otro, dependiendo del ángulo de guiñada de la cámara respecto a la dirección de aterrizaje de la aeronave. Sin aumento por rotación, un modelo puede aprender a asociar la presencia de grietas con una orientación angular particular, fallando al detectar grietas que aparecen en otros ángulos. Investigaciones de Alomar et al. (2023) demuestran que el aumento por rotación mejora consistentemente la precisión de clasificación en un 3-8 por ciento en conjuntos de datos de defectos estructurales en comparación con modelos entrenados sin rotación.

El rango óptimo de rotación depende de la simetría de la aplicación. Para pavimentos aeroportuarios donde las grietas se desarrollan tanto en direcciones longitudinales como transversales al tráfico de aeronaves, un rango completo de ±180° es apropiado. Para inspecciones de vigas de puentes donde la cámara está siempre aproximadamente horizontal, un rango más ajustado de ±15° puede ser suficiente. La rotación introduce regiones de borde vacías en las esquinas de la imagen, que deben manejarse mediante una de tres estrategias: (1) relleno con ceros (llenando los bordes con negro), (2) relleno por reflexión (reflejando los píxeles del borde) o (3) relleno por vecino más cercano. El relleno por reflexión es preferido para la inspección de infraestructura porque evita introducir bordes oscuros artificiales que el modelo podría aprender como características espurias.

Aumento por Volteo

El volteo horizontal (reflejo izquierda-derecha) y el volteo vertical (reflejo arriba-abajo) son las aumentaciones geométricas más simples, que requieren solo una inversión del orden de las columnas o filas de píxeles. El volteo horizontal se aplica con una probabilidad del 50 por ciento como valor predeterminado en la mayoría de las canalizaciones de aumento y es universalmente beneficioso porque duplica el tamaño efectivo del conjunto de datos mientras que no tiene costo computacional — no requiere interpolación.

Para la inspección de infraestructura, el volteo horizontal preserva la etiqueta para la mayoría de los tipos de defectos. Una grieta es una grieta independientemente de si aparece en el lado izquierdo o derecho de la imagen. Sin embargo, algunos defectos tienen asimetría direccional: la desintegración (pérdida de agregado en los bordes del pavimento) tiende a ocurrir preferentemente a lo largo del borde del pavimento, y el escalonamiento (desplazamiento vertical a través de una junta) tiene una direccionalidad relacionada con la carga del tráfico. Para estos defectos direccionales, el profesional debe verificar que la versión volteada siga siendo un ejemplo de entrenamiento válido.

El volteo vertical se usa menos comúnmente para la inspección de infraestructura terrestre porque invierte la orientación consistente con la gravedad de la imagen. Una grieta en un muro de concreto vertical se ve fundamentalmente diferente cuando se voltea — aunque para la inspección de pavimentos donde la cámara mira directamente hacia abajo, el volteo vertical preserva la etiqueta tanto como el volteo horizontal. Para imágenes de inspección de puentes donde la cámara captura superficies verticales (vigas, pilares, estribos), el volteo horizontal debe priorizarse sobre el volteo vertical.

Aumento por Recorte

El recorte aleatorio selecciona una subregión rectangular de la imagen de entrada y la redimensiona a las dimensiones de entrada esperadas de la red. Esto simula el efecto de la cámara posicionada a diferentes distancias de la superficie que se inspecciona — los recortes más cercanos corresponden a vistas de mayor resolución con más detalle, mientras que los recortes más amplios muestran un contexto más amplio.

El aumento por recorte aleatorio estándar muestrea una región de recorte con un área entre escala_mín y escala_máx (típicamente 0.08 a 1.0 del área de la imagen original) y una relación de aspecto entre relación_mín y relación_máx (típicamente 0.75 a 1.33). La región recortada se redimensiona luego al tamaño fijo de entrada de la red, por ejemplo 512×512 píxeles para modelos típicos de segmentación de grietas.

Para la inspección de infraestructura, el recorte aleatorio tiene un propósito dual. Primero, aumenta la diversidad posicional — un modelo entrenado solo con imágenes de cuadro completo puede aprender a asociar defectos con su posición dentro del cuadro, fallando cuando el mismo defecto aparece en una región diferente del cuadro. Segundo, el recorte con redimensionamiento simula diferentes altitudes de inspección y niveles de zoom, lo cual es crítico para la inspección basada en UAV donde la altitud de vuelo varía entre 10 metros y 50 metros dependiendo de las regulaciones y los requisitos del estudio. El Doc. 9137 de la OACI, Parte 9 (Prácticas de Mantenimiento Aeroportuario) y el Doc. 9981 de la OACI (PANS-Aeródromos) abordan métodos de inspección que pueden implicar recolección de datos montada en vehículos o manual, cada uno introduciendo diferentes campos de visión. El recorte aleatorio durante el entrenamiento asegura que el modelo generalice a través de estas modalidades de captura.

Transformaciones de Perspectiva

Las transformaciones de perspectiva (también llamadas deformaciones de perspectiva o aumentaciones por homografía) aplican un mapeo proyectivo a la imagen, simulando el efecto del plano de la cámara inclinado respecto a la superficie que se inspecciona. Esto se representa matemáticamente mediante una matriz de homografía de 3×3 que mapea puntos de un plano a otro.

Para la inspección de infraestructura, el aumento por perspectiva es particularmente importante porque las imágenes de inspección reales rara vez se capturan desde un punto de vista perfectamente ortogonal (nadir). Las cámaras montadas en vehículos capturan el pavimento con un ligero ángulo hacia adelante. Las cámaras de UAV pueden tener ángulos de inclinación de 5 a 20 grados mientras el dron maniobra. Las cámaras de inspección manual varían en inclinación dependiendo de la altura del inspector y la posición del brazo. Una grieta que parece lineal y consistente desde una vista nadir se acorta y distorsiona geométricamente desde un ángulo oblicuo. El aumento por perspectiva entrena al modelo para reconocer defectos independientemente del ángulo de captura.

El grado de distorsión de perspectiva se controla mediante el parámetro de escala de distorsión, típicamente establecido entre 0.05 y 0.3 en coordenadas normalizadas. Valores más altos simulan inclinaciones de cámara más extremas. Para la inspección aeroportuaria, se recomienda una escala de perspectiva de 0.1-0.2, correspondiente a ángulos de inclinación de cámara de aproximadamente 5-15 grados desde el nadir.

Transformaciones Afines

Las transformaciones afines combinan escalado, cizallamiento, rotación y traslación en una sola operación matricial de 2×3. A diferencia de las transformaciones de perspectiva, las transformaciones afines preservan el paralelismo — las líneas paralelas permanecen paralelas después de la transformación. La operación puede expresarse como:

[x’, y’]² = A · [x, y]² + b

donde A es una matriz de 2×2 que controla rotación, escalado y cizallamiento, y b es un vector de traslación.

Para la inspección de infraestructura, una configuración común de aumento afín incluye: traslación (±10 por ciento de las dimensiones de la imagen, simulando desalineación del cuadro), escalado (0.8x a 1.2x, simulando variación de altitud), cizallamiento (±10 grados, simulando inclinación de cámara) y rotación (±15 grados). El efecto combinado produce imágenes que simulan de manera realista la variabilidad posicional y de orientación de la recolección de datos de inspección sin requerir distorsiones extremas que podrían introducir artefactos irreales.

Tipo de AumentoRango TípicoAplicación para Infraestructura
Rotación±45° a ±180°Simula diferentes ángulos de guiñada de cámara respecto a la orientación de la grieta
Volteo Horizontal50% de probabilidadDuplica el conjunto de datos; invariante para la mayoría de defectos
Volteo Vertical50% de probabilidadÚtil para imágenes de pavimento nadir
Recorte AleatorioEscala 0.08-1.0, aspecto 0.75-1.33Simula diferentes altitudes de inspección y niveles de zoom
PerspectivaEscala de distorsión 0.05-0.3Simula ángulos de inclinación de cámara no nadir
Afín (escala)0.8x-1.2xSimula variación de altitud de plataformas UAV
Afín (cizallamiento)±5° a ±15°Simula balanceo y cabeceo de cámara
Afín (traslación)±5% a ±15%Simula variación de posición del cuadro
Afín (rotación)±10° a ±30°Combinado con otros parámetros afines

{

Close-up of concrete bridge deck inspection showing surface cracks, spalling, and structural defects captured for AI model training

Aumentaciones de Color y Fotométricas

Las aumentaciones de color y fotométricas modifican los valores de intensidad de los píxeles de una imagen sin cambiar la disposición espacial de los objetos. Estas transformaciones simulan variaciones en las condiciones de iluminación — la fuente más significativa de variabilidad del mundo real en las imágenes de inspección de infraestructura.

Ajuste de Brillo y Contraste

El aumento de brillo desplaza linealmente todos los valores de píxeles añadiendo un desplazamiento constante: I’ = I + δ, donde δ se muestrea uniformemente de un rango como [-30, +30] en una escala de 0-255. Esto simula la diferencia entre la luz solar del mediodía (alto brillo) y el cielo nublado o las condiciones de inspección matutinas (bajo brillo). El aumento de contraste escala los valores de píxeles alrededor de la intensidad media: I’ = α(I - μ) + μ, donde α se muestrea de un rango como [0.7, 1.3]. Valores de contraste más bajos simulan condiciones de neblina o niebla; valores más altos simulan luz solar directa intensa que produce sombras fuertes.

Para la inspección de infraestructura, el rango de brillo recomendado es ±40 por ciento para cubrir el espectro completo de condiciones de iluminación operativa especificadas en los planes de iluminación de aeródromos según el Anexo 14 de la OACI, Capítulo 5 (Ayudas Visuales para la Navegación). La iluminación de borde de pista, la iluminación de aproximación y la iluminación de plataforma crean diferentes niveles de iluminación ambiental que el modelo de inspección debe manejar.

Modificación de Tono y Saturación

El desplazamiento de tono rota todos los colores de los píxeles en el espacio de color HSV (Tono, Saturación, Valor) por un ángulo aleatorio, típicamente ±30° de una rueda de color de 360°. El ajuste de saturación multiplica el canal de saturación por un factor aleatorio (típicamente 0.5 a 1.5). Estas aumentaciones simulan el efecto de diferentes condiciones de la superficie del pavimento — el asfalto seco tiene menor saturación que el asfalto mojado, el concreto envejecido difiere en tono del concreto nuevo, y los depósitos de caucho de neumáticos crean artefactos de color distintivos en las zonas de toma de contacto de las pistas.

Para la detección de grietas en pavimentos asfálticos, el aumento de tono es particularmente útil porque el contraste entre una grieta oscura y el pavimento circundante varía con la humedad superficial. Una grieta capilar seca puede tener un contraste de color mínimo contra el asfalto seco, mientras que la misma grieta llena de agua después de la lluvia aparece como una línea oscura claramente definida. Los modelos entrenados con aumento de tono y saturación aprenden a detectar grietas en este rango de contraste impulsado por la humedad.

Variación de Color (Color Jitter)

La variación de color es una aumentación compuesta que ajusta aleatoriamente el brillo, el contraste, la saturación y el tono simultáneamente. La implementación estándar muestrea cada parámetro de forma independiente: factor de brillo en [1-δ_b, 1+δ_b], factor de contraste en [1-δ_c, 1+δ_c], factor de saturación en [1-δ_s, 1+δ_s] y rotación de tono en [-δ_h, +δ_h]. Para la inspección de infraestructura, los rangos recomendados son δ_b=0.3, δ_c=0.3, δ_s=0.2 y δ_h=0.1.

La variación de color es un regularizador altamente efectivo para modelos de detección de defectos. Investigaciones sobre clasificación de grietas en pavimentos muestran que los modelos entrenados con variación de color integral mejoran la precisión de validación en un 5-12 por ciento en comparación con modelos entrenados solo con aumentaciones geométricas. El efecto es más pronunciado para grietas finas (< 2 mm de ancho) donde el contraste grieta-pavimento ya es bajo y la variación adicional de iluminación en el entrenamiento obliga al modelo a aprender características basadas en bordes en lugar de basadas en color.

Conversión a Escala de Grises

El aumento a escala de grises convierte un subconjunto aleatorio de imágenes de entrenamiento a luminancia de un solo canal, eliminando toda la información de color. Esto se aplica con una probabilidad baja (típicamente 5-10 por ciento) para asegurar que el modelo no se vuelva demasiado dependiente de señales de color que pueden no estar presentes en todas las condiciones de inspección. Para la inspección de infraestructura, la conversión a escala de grises es particularmente valiosa para modalidades de inspección térmica e infrarroja cercana donde no se dispone de imágenes en color.

En el momento de la inferencia, un modelo entrenado con imágenes ocasionales en escala de grises durante el entrenamiento puede manejar adecuadamente entradas monocromáticas o casi monocromáticas sin requerir replicación de canales o preprocesamiento. Esto es importante para la interoperabilidad con sistemas de cámaras de inspección más antiguos que pueden capturar en modo de escala de grises o para el análisis de imágenes históricas de inspección recolectadas antes de que las cámaras digitales a color se convirtieran en estándar.

Aumentaciones de Ruido y Desenfoque

Las aumentaciones de ruido y desenfoque simulan la degradación de la calidad de imagen que ocurre en la recolección de datos de inspección del mundo real debido a limitaciones del sensor, movimiento, errores de enfoque y condiciones ambientales adversas.

Ruido Gaussiano

El aumento por ruido gaussiano añade perturbaciones aleatorias de valores de píxeles muestreadas de una distribución normal N(0, σ²) a cada píxel de forma independiente. La desviación estándar del ruido σ se establece típicamente entre 0.01 y 0.05 para valores de píxeles normalizados (rango 0-1). Esto simula el ruido de disparo presente en todos los sensores de cámaras digitales, que aumenta a configuraciones ISO más altas utilizadas en condiciones de inspección con poca luz.

Añadir ruido gaussiano durante el entrenamiento obliga a los filtros convolucionales del modelo a responder al patrón estructural subyacente del defecto en lugar de a artefactos de píxeles de alta frecuencia que no son reproducibles entre capturas. Los modelos entrenados con aumento de ruido son más robustos a las diferencias de calidad del sensor entre cámaras de inspección — el mismo defecto capturado con una cámara de teléfono de 12 megapíxeles y una DSLR de 50 megapíxeles se verá diferente para un modelo no entrenado con imágenes ruidosas.

Desenfoque Gaussiano

El aumento por desenfoque gaussiano convoluciona la imagen con un kernel gaussiano de tamaño k×k y desviación estándar σ. Esto simula varias condiciones del mundo real: captura desenfocada (la cámara no logró un enfoque perfecto en la superficie del pavimento), desenfoque de movimiento (el vehículo de inspección se movía mientras capturaba imágenes), neblina atmosférica (vapor de agua o partículas en el aire dispersan la luz y reducen la nitidez de la imagen) e imperfecciones del lente (polvo o condensación en el lente de la cámara).

Para la inspección de infraestructura, los parámetros de desenfoque gaussiano recomendados son k ∈ {3, 5, 7} y σ ∈ {0.5, 1.0, 2.0} aplicados con una probabilidad del 20-30 por ciento. Este rango cubre desde desenfoque moderado hasta significativo sin hacer que la imagen sea irreconocible. El desenfoque de movimiento también puede simularse usando un kernel de desenfoque direccional que embarra los píxeles en una dirección específica — esto es más realista para cámaras montadas en vehículos donde la dirección del desenfoque está alineada con la trayectoria del vehículo.

La importancia del aumento por desenfoque queda clara al considerar la velocidad de inspección. Un vehículo de inspección que viaja a 50 km/h (31 mph) captura imágenes con aproximadamente 3-5 píxeles de desenfoque de movimiento a velocidades de obturación típicas. Un dron de inspección que se mueve a 10 m/s con una cámara estabilizada por cardán puede tener 1-3 píxeles de desenfoque. Entrenar con aumento por desenfoque asegura que el modelo funcione de manera confiable a través de estas velocidades de captura sin requerir que el operador de inspección reduzca la velocidad para obtener precisión del modelo.

Borrado Aleatorio y Cutout

El Borrado Aleatorio (Random Erasing) y Cutout son aumentaciones centradas en la regularización que ocultan aleatoriamente regiones rectangulares de la imagen de entrada. En Cutout, un parche cuadrado de longitud lateral s (típicamente 16-64 píxeles para imágenes de 256×256) se posiciona aleatoriamente y se rellena con un valor constante (generalmente cero o el valor medio de píxel del conjunto de datos). El Borrado Aleatorio varía la relación de aspecto y el valor de relleno de la región ocluida.

Para la inspección de infraestructura, estas aumentaciones simulan la oclusión por objetos extraños (FOD) en pavimentos aeroportuarios — una preocupación crítica de seguridad según los estándares del Anexo 14 de la OACI. Los FOD incluyen piedras sueltas, fragmentos de neumáticos, etiquetas de equipaje, herramientas y otros desechos que oscurecen parcialmente la superficie del pavimento. Un modelo entrenado con aumento Cutout aprende a detectar defectos incluso cuando porciones del defecto o del pavimento circundante están ocultas por objetos oclusivos. Esto mejora directamente la capacidad del modelo para identificar grietas y defectos visibles en los espacios entre escombros o marcas de neumáticos en las superficies de las pistas.

Aumentaciones Específicas del Dominio

Las aumentaciones específicas del dominio son transformaciones adaptadas a las características visuales únicas de las imágenes de inspección de infraestructura. Estas aumentaciones van más allá de las transformaciones genéricas de visión por computadora para simular las condiciones ambientales y operativas específicas que encuentran las cámaras de inspección.

Simulación de Sombras

Las sombras en las superficies de infraestructura son proyectadas por una amplia gama de objetos: superestructuras de puentes, pórticos de señalización, hangares, edificios terminales, aeronaves adyacentes, cercas perimetrales e incluso el propio vehículo de inspección o UAV. Las sombras crean reducciones abruptas y localizadas de la iluminación que pueden ocultar grietas, alterar la textura aparente del pavimento y producir detecciones falsas positivas de bordes en los límites de las sombras.

El aumento de sombras simula esto oscureciendo una región aleatoria de la imagen usando una máscara suave. La máscara es típicamente un polígono con bordes difuminados (desenfoque gaussiano en la máscara con σ=10-30 píxeles) que transiciona suavemente desde la iluminación completa hasta el nivel de oscuridad de la sombra. El factor de oscuridad de la sombra se muestrea entre 0.2 y 0.6 (donde 0.0 es negro y 1.0 no tiene cambios). La posición, forma y orientación de la sombra se aleatorizan para evitar que el modelo asocie patrones de sombra con regiones específicas de la imagen.

Para la inspección de puentes específicamente, la simulación de sombras es crítica porque las vigas del puente, los diafragmas y los voladizos de la cubierta crean patrones de sombra complejos que varían con el ángulo solar a lo largo del día. Los estándares de inspección de puentes de la FHWA requieren que las clasificaciones de condición sean consistentes independientemente de cuándo se realice la inspección. Los modelos aumentados con sombras mantienen esta consistencia, ofreciendo una detección precisa de defectos ya sea que el puente se inspeccione a las 9:00 AM (sombras largas) o a las 12:00 PM (sombras mínimas).

Efectos de Lluvia y Agua

El pavimento mojado cambia drásticamente la apariencia visual de los defectos superficiales. El agua llena las grietas y huecos, oscureciéndolos y aumentando su contraste visual contra el pavimento circundante. Al mismo tiempo, el agua crea reflejos especulares que introducen brillos intensos, particularmente en superficies de asfalto liso. Los charcos y el agua estancada pueden ocultar completamente los defectos subyacentes.

El aumento de lluvia simula estos efectos mediante varios mecanismos:

Superposición de película de agua — Añadir una superposición semitransparente de color gris azulado a regiones aleatorias de la imagen con opacidad 0.1-0.3 para simular películas delgadas de agua. Generación de brillos especulares — Añadir parches brillantes elípticos o irregulares con valores de luminancia altos (200-250 en escala 0-255) para simular la luz solar reflejándose en superficies de agua. Superposición de estrías de lluvia — Añadir patrones de estrías direccionales para simular lluvia cayendo durante la captura. La densidad de las estrías, la longitud (10-50 píxeles) y el ángulo (típicamente 0-30° desde la vertical, dependiendo del viento) se aleatorizan.

Para la inspección de pavimentos aeroportuarios, el aumento por pista mojada es obligatorio por realismo operativo. El Anexo 14 de la OACI y la AC 150/5320-5D de la FAA requieren que la evaluación de la condición de la superficie de la pista considere los efectos del agua sobre la fricción y la visibilidad de los defectos. Un modelo de inspección desplegado en una región con más de 100 días de precipitación anual debe funcionar con precisión en condiciones húmedas. Entrenar con aumentaciones de lluvia y película de agua asegura esta capacidad.

Variación de Textura Superficial

La textura de la superficie del pavimento varía significativamente entre:

  • Tipo de pavimento: Asfalto (flexible), concreto (rígido), compuesto y cursos de fricción porosos, cada uno con texturas visuales distintas
  • Edad: El pavimento nuevo tiene textura uniforme; el pavimento envejecido muestra exposición del agregado, desintegración, oxidación y pulido
  • Historial de mantenimiento: Los sellos de capa, los sellos de lechada, los microrevestimientos y las sobrecapas modifican cada uno la textura superficial
  • Tipo de agregado: Diferentes fuentes de agregado producen diferentes características de color, tamaño y reflectividad

El aumento de variación de textura superficial aplica mejora de contraste local, ecualización local y síntesis de textura para simular estas variaciones. Las implementaciones avanzadas utilizan transferencia de estilo o adaptación de dominio basada en CycleGAN para transformar imágenes entre dominios de textura — por ejemplo, tomar una imagen de grieta de asfalto nuevo y generar una versión que parezca asfalto envejecido y meteorizado.

Investigaciones de Krestenitis et al. (2026) sobre inspección de pistas utilizando imágenes de UAV demuestran que los modelos aumentados con variación de textura superficial logran un IoU (Intersección sobre Unión) de segmentación entre un 15 y un 20 por ciento más alto en conjuntos de prueba con diversidad de textura en comparación con modelos entrenados exclusivamente en el dominio de textura original. Esto es particularmente importante para redes de pavimentos aeroportuarios que pueden incluir pistas, calles de rodaje y plataformas construidas con diferentes materiales y en diferentes momentos.

{

Asphalt airport runway surface during rainy conditions with water patches and wet pavement texture showing visible cracks

Políticas de Aumento

Una política de aumento define qué transformaciones se aplican, en qué orden, con qué probabilidad y con qué magnitud durante el entrenamiento. La elección de la política impacta significativamente el rendimiento del modelo. Existen tres categorías generales: políticas manuales, políticas buscadas y políticas aleatorias.

Diseño de Políticas Manuales

Las políticas manuales son diseñadas artesanalmente por los profesionales basándose en conocimiento del dominio y pruebas empíricas. Para la inspección de infraestructura, una política manual típica podría aplicar la siguiente secuencia en cada paso de entrenamiento:

  1. Volteo horizontal aleatorio (50% de probabilidad)
  2. Rotación aleatoria ±30° (40% de probabilidad)
  3. Recorte aleatorio al 85-100% del área de la imagen con redimensionamiento a 512×512 (siempre aplicado)
  4. Variación de color: brillo ±0.3, contraste ±0.3, saturación ±0.2, tono ±0.1 (50% de probabilidad)
  5. Desenfoque gaussiano: kernel 5, σ=0.5-1.5 (20% de probabilidad)
  6. Ruido gaussiano: σ=0.02 (10% de probabilidad)
  7. Sombra aleatoria: oscuridad 0.2-0.5 (20% de probabilidad)

Las políticas manuales son transparentes, interpretables y computacionalmente rápidas — no requieren búsqueda ni validación. La desventaja es que pueden no ser óptimas y pueden omitir combinaciones de aumento beneficiosas.

AutoAugment — Política de Aumento Buscada

AutoAugment, presentado por Cubuk et al. (2019) en Google Brain, utiliza aprendizaje por refuerzo para buscar políticas de aumento óptimas. El proceso de búsqueda funciona de la siguiente manera:

Una RNN controladora propone políticas de aumento, cada una compuesta por K subpolíticas (típicamente K=5), donde cada subpolítica especifica 2 operaciones con sus magnitudes y probabilidades. La política se aplica al conjunto de datos de entrenamiento, y un modelo hijo se entrena y evalúa en el conjunto de validación. La precisión de validación sirve como la señal de recompensa para la RNN controladora, que se actualiza mediante Optimización de Política Proximal (PPO) para generar mejores políticas. La búsqueda típicamente requiere de 15 000 a 20 000 horas-GPU para conjuntos de datos a escala de ImageNet.

AutoAugment descubre políticas no intuitivas que a menudo superan a los diseños manuales. Por ejemplo, la política de ImageNet encontró que ShearX/Y y Rotate con alta probabilidad y magnitud moderada son altamente efectivos, mientras que Equalize y Solarize (invertir valores de píxel por encima de un umbral) mejoran la robustez del color. Las políticas descubiertas se transfieren entre conjuntos de datos de dominios visuales similares — una política encontrada en un conjunto de datos de pavimento general puede aplicarse a un conjunto de datos específico de pista aeroportuaria con buenos resultados.

RandAugment — Política Aleatoria Práctica

RandAugment, presentado por Cubuk et al. (2020), aborda el costo computacional de AutoAugment eliminando por completo el proceso de búsqueda. La política se define con solo dos parámetros: N (número de transformaciones a aplicar por imagen) y M (parámetro de magnitud global para todas las transformaciones).

En cada paso de entrenamiento, RandAugment selecciona aleatoriamente N transformaciones de un conjunto fijo de K operaciones (típicamente K=14-17, que incluye rotar, cizallar, trasladar, contraste, brillo, nitidez, solarizar, ecualizar, autocontraste, posterizar, color e identidad). Las operaciones seleccionadas se aplican secuencialmente con magnitud M. La simplicidad de este enfoque significa que no hay búsqueda, no hay conjunto de validación durante el entrenamiento y un ajuste mínimo de hiperparámetros.

Para la inspección de infraestructura, RandAugment con N=2 y M=10 (en una escala de magnitud 0-30) sirve como una excelente configuración predeterminada. Valores más altos de N (3-4) y M (15-20) proporcionan una regularización más fuerte para modelos más grandes o conjuntos de datos más pequeños. Investigaciones en puntos de referencia de clasificación de grietas en pavimentos muestran que RandAugment logra un rendimiento comparable o superior a AutoAugment mientras reduce el espacio de búsqueda de hiperparámetros de miles de horas-GPU a una sola búsqueda en cuadrícula 2D sobre N y M.

PolíticaCosto de BúsquedaParámetrosIdoneidad para Infraestructura
ManualCeroControl total por operaciónBuena para necesidades específicas del dominio
AutoAugment15 000+ horas-GPUPolítica encontrada por RLRendimiento superior, alto costo
RandAugmentInsignificanteN (int), M (float)Excelente, valor predeterminado práctico
TrivialAugmentInsignificanteParámetro único de intensidadMuy simple, competitivo
Fast AutoAugment~100 horas-GPUCoincidencia de densidadBuen compromiso

Aumento para Detección de Grietas

La detección de grietas — la tarea de identificar y localizar grietas en superficies de infraestructura — es la aplicación más estudiada del aumento de datos en el dominio de la inspección de infraestructura. Las grietas presentan desafíos únicos que hacen que el aumento sea particularmente impactante.

Características de las Grietas y Sensibilidad al Aumento

Las grietas en superficies de concreto y asfalto exhiben las siguientes propiedades relevantes para el diseño de aumento:

Alta relación de aspecto — Las grietas son largas y estrechas, con relaciones ancho-largo que a menudo superan 1:100. Esto significa que las aumentaciones geométricas que distorsionan fuertemente las relaciones de aspecto (cizallamiento extremo, recortes no cuadrados) pueden hacer que las grietas sean irreconocibles. Preservación de la linealidad — La mayoría de las grietas estructurales siguen trayectorias aproximadamente lineales o suavemente curvas, aunque el agrietamiento por cocodrilo forma redes poligonales interconectadas. Las aumentaciones que rompen la continuidad lineal (borrado aleatorio del centro de la grieta, compresión JPEG agresiva) pueden destruir la firma de la grieta. Bajo contraste — Las grietas finas (grietas capilares de menos de 0.3 mm de ancho) tienen un contraste mínimo contra el pavimento circundante — a menudo solo diferencias de 5-15 niveles de gris en una imagen de 8 bits. Las aumentaciones de color deben aplicarse con cuidado para no borrar esta señal ya débil. Dependencia de la textura — Las grietas se detectan como anomalías contra la textura de fondo del pavimento. Las aumentaciones que homogeneizan la textura (desenfoque excesivo, ecualización fuerte) pueden hacer que las grietas sean indistinguibles del pavimento intacto.

Canalización de Aumento Recomendada para Detección de Grietas

Basándose en investigaciones publicadas y pruebas empíricas en conjuntos de datos de pavimentos aeroportuarios, se recomienda la siguiente canalización para modelos de detección de grietas:

Etapa 1 — Núcleo geométrico: Volteo horizontal (50%), rotación aleatoria ±45° (30%), recorte aleatorio al 80-95% con redimensionamiento (siempre). Estas aumentaciones se aplican siempre porque la orientación y posición de la grieta son variables molestas.

Etapa 2 — Simulación de iluminación: Variación de color con brillo ±0.3, contraste ±0.3, saturación ±0.2, tono ±0.1 (50% de probabilidad). Esto simula el rango completo de condiciones de iluminación operativa.

Etapa 3 — Simulación de calidad: Desenfoque gaussiano σ=0.5-2.0 (25% de probabilidad), ruido gaussiano σ=0.01-0.03 (15% de probabilidad). Esto simula la variación en la calidad de captura.

Etapa 4 — Simulación de dominio: Superposición de sombra con máscara poligonal aleatoria (20% de probabilidad), simulación de superficie mojada con saturación aumentada y brillos especulares (15% de probabilidad). Esto simula condiciones de campo.

Etapa 5 — Regularización: Cutout con tamaño de parche de 16-32 píxeles (10% de probabilidad). Esto previene el sobreajuste a regiones específicas de la imagen.

Esta canalización mantiene la validez de la etiqueta — la grieta sigue siendo una grieta después de todas las transformaciones — mientras expone al modelo a una variabilidad extrema en la apariencia.

Aumento para Clasificación de Defectos

La clasificación de defectos — asignar una etiqueta categórica a una región de imagen (por ejemplo, “grieta”, “desconchado”, “meteorización”, “intacto”) — tiene requisitos de aumento diferentes a los de la segmentación a nivel de píxel.

Balance de Clases y Aumento

Los conjuntos de datos de defectos de infraestructura están severamente desbalanceados por naturaleza. El pavimento intacto domina cada conjunto de datos, mientras que las clases de defectos individuales pueden tener solo cientos de ejemplos. El aumento de datos aborda este desbalance mediante el aumento consciente de clases: aplicar transformaciones más agresivas o más numerosas a las clases subrepresentadas para aumentar su representación efectiva en cada lote de entrenamiento.

Por ejemplo, si el conjunto de datos de entrenamiento contiene 10 000 imágenes intactas, 500 imágenes de grietas y 200 imágenes de desconchados, la canalización de aumento puede configurarse para aplicar 5 aumentaciones muestreadas aleatoriamente a cada imagen de desconchado (generando 5×200 = 1000 ejemplos efectivos de desconchado por época) mientras se aplica solo 1 aumentación a cada imagen intacta. Esta estrategia de aumento consciente de clases mejora la sensibilidad del modelo a tipos de defectos raros sin requerir recolección adicional de datos.

Aumentaciones que Preservan la Etiqueta vs. que Cambian la Etiqueta

Para la clasificación, es esencial que las aumentaciones preserven la etiqueta — la imagen transformada debe seguir perteneciendo a la clase original. Algunas transformaciones pueden cambiar la etiqueta:

  • La rotación extrema (por ejemplo, un volteo de 180° de un defecto direccional como el escalonamiento) puede cambiar el tipo de defecto aparente
  • El recorte extremo que elimina el defecto por completo produce una imagen “intacta” a partir de una fuente “defectuosa”
  • El desenfoque agresivo que borra una grieta capilar hace que la imagen sea efectivamente intacta

Para la clasificación, la magnitud del aumento debe calibrarse según el tamaño mínimo de característica detectable de cada clase de defecto. Para grietas capilares (ancho mínimo ~0.2 mm a la resolución de captura), el desenfoque que excede σ=2.0 y las rotaciones más allá de ±60° deben aplicarse con probabilidad reducida o excluirse.

Aumento Multietiqueta

Las superficies de infraestructura a menudo exhiben múltiples tipos de defectos concurrentes — un área desconchada puede contener grietas, o un parche meteorizado puede tener fallas en el sellado de juntas. Para la clasificación multietiqueta, el aumento debe ser consistente en todas las etiquetas para una imagen dada. La misma transformación geométrica aplicada a la imagen se aplica a todas las etiquetas simultáneamente. Las transformaciones de color y ruido son inherentemente preservadoras de etiquetas para la clasificación multietiqueta porque no cambian la presencia o ausencia de ningún tipo de defecto.

Aumento y Prevención del Sobreajuste

La relación entre el aumento de datos y el sobreajuste es fundamental para entender el papel del aumento en el aprendizaje profundo.

El Mecanismo del Sobreajuste

El sobreajuste ocurre cuando un modelo con alta capacidad (muchos parámetros entrenables) se entrena en un conjunto de datos con tamaño o diversidad insuficientes. El modelo aprende no los patrones generales de la clase de defecto sino las disposiciones específicas de píxeles, texturas y artefactos de los ejemplos de entrenamiento. Matemáticamente, el sobreajuste se manifiesta como el modelo aprendiendo un mapeo degenerado de entrada a salida que minimiza la pérdida de entrenamiento pero no logra minimizar la pérdida esperada en la verdadera distribución de datos.

Para los modelos de inspección de infraestructura, el sobreajuste típicamente aparece después de 50-100 épocas de entrenamiento. La precisión de entrenamiento continúa aumentando hacia el 100 por ciento mientras que la precisión de validación se estabiliza y luego disminuye. La brecha entre la precisión de entrenamiento y validación — la brecha de generalización — se ensancha progresivamente. Sin aumento, un ResNet-50 entrenado en 2000 imágenes de grietas mostrará típicamente una brecha de generalización del 15-25 por ciento. Con un aumento integral, esta brecha puede reducirse al 3-5 por ciento o menos.

Tamaño Efectivo del Conjunto de Datos

El mecanismo clave mediante el cual el aumento previene el sobreajuste es aumentar el tamaño efectivo del conjunto de entrenamiento. Con el aumento aplicado sobre la marcha durante el entrenamiento, cada imagen se transforma de manera diferente en cada época. Un conjunto de datos de entrenamiento de 5000 imágenes con una política de aumento que aplica 3 transformaciones aleatorias de un conjunto de 10 operaciones, cada una con 5 magnitudes posibles, genera 5000 × 10³ × 5³ ≈ 6.25 millones de ejemplos de entrenamiento distintos en 100 épocas.

Esta expansión efectiva del conjunto de datos es particularmente valiosa para la inspección de infraestructura porque:

  • Los datos de defectos son escasos: Recolectar 50 000 imágenes de grietas etiquetadas no es práctico
  • Las condiciones de campo son diversas: Incluso con 50 000 imágenes, el rango completo de iluminación, clima, ángulos de cámara y texturas de pavimento puede no estar cubierto
  • La capacidad del modelo es alta: Los transformadores de visión modernos (ViT, DINOv3) tienen 80-300 millones de parámetros que requieren tamaños efectivos de conjuntos de datos enormes

El Aumento como Regularización

El aumento de datos funciona como un regularizador en el sentido del aprendizaje estadístico. Al expandir la distribución de entrenamiento, el aumento reduce la capacidad del modelo para ajustar el ruido en el conjunto de datos original. La varianza de los parámetros aprendidos disminuye porque el modelo debe satisfacer restricciones de muchos más ejemplos de entrenamiento efectivamente independientes.

La fuerza de regularización del aumento se controla mediante:

  • Número de tipos de aumento: Más tipos proporcionan una regularización más fuerte
  • Magnitud del aumento: Magnitudes más altas aumentan la varianza de la distribución de entrenamiento, forzando una invariancia más fuerte
  • Probabilidad de aplicación: Probabilidades más altas significan que más imágenes se aumentan por época, aumentando el tamaño efectivo del conjunto de datos

Para los modelos de inspección de infraestructura, el equilibrio óptimo entre regularización y aumento se encuentra monitoreando la trayectoria de la pérdida de validación. Si la pérdida de validación aumenta mientras la pérdida de entrenamiento continúa disminuyendo (sobreajuste), la magnitud o probabilidad del aumento debe incrementarse. Si tanto la pérdida de entrenamiento como la de validación son altas (subajuste), el aumento debe reducirse para permitir que el modelo aprenda más de los datos de entrenamiento brutos.

Aumento en Entrenamiento de Producción

Implementar el aumento de datos en una canalización de entrenamiento de producción requiere decisiones arquitectónicas cuidadosas sobre cuándo, dónde y cómo se aplican las aumentaciones.

Aumento en Línea vs. Fuera de Línea

El aumento fuera de línea pregenera imágenes aumentadas y las guarda en disco antes de que comience el entrenamiento. El conjunto de datos aumentado podría contener 50 000 imágenes derivadas de 5000 originales mediante 10 aumentaciones fijas por imagen. El entrenamiento procede entonces sobre este conjunto de datos aumentado fijo.

El aumento en línea aplica transformaciones sobre la marcha durante el entrenamiento, con cada imagen cargada desde el disco, aumentada aleatoriamente y alimentada al modelo inmediatamente. No se almacenan permanentemente imágenes aumentadas.

El aumento en línea es el enfoque estándar para las canalizaciones de producción de inspección de infraestructura porque:

  • Variación infinita: Cada época ve diferentes aumentaciones, proporcionando una regularización más fuerte
  • Sin sobrecarga de almacenamiento: Las imágenes aumentadas no se guardan, evitando requisitos de espacio en disco de 10-100x
  • Flexibilidad de parámetros: Los parámetros de aumento pueden cambiarse sin regenerar el conjunto de datos
  • Reproducibilidad determinista: Las semillas aleatorias pueden controlar el aumento para depuración

El costo computacional del aumento en línea es mínimo — las bibliotecas modernas de aumento aceleradas por GPU (NVIDIA DALI, Kornia o torchvision de PyTorch) aplican transformaciones en microsegundos por imagen, representando típicamente menos del 5 por ciento del tiempo total de entrenamiento cuando la carga de datos está canalizada con la ejecución de la GPU.

Selección de Biblioteca de Aumento

La elección de la biblioteca de aumento impacta el rendimiento, la flexibilidad y el mantenimiento de la canalización:

Albumentations es la biblioteca más utilizada para la inspección de infraestructura debido a su velocidad (backend optimizado en C++ mediante OpenCV), su conjunto integral de operaciones (más de 70 transformaciones) y su soporte nativo de aumento de doble canal para máscaras de segmentación. Albumentations asegura que cualquier transformación geométrica aplicada a la imagen se aplique de manera idéntica a la máscara, manteniendo la alineación a nivel de píxel entre la entrada y la verdad fundamental.

NVIDIA DALI proporciona canalizaciones de carga de datos y aumento aceleradas por GPU que pueden procesar imágenes completamente en la GPU, evitando los cuellos de botella de transferencia CPU-GPU. DALI se recomienda para conjuntos de datos de entrenamiento muy grandes (más de 10 000 imágenes) donde el tiempo de carga de datos domina el tiempo de entrenamiento.

torchvision.transforms (PyTorch) y tf.image (TensorFlow) proporcionan capacidades de aumento integradas con buena integración con sus respectivos marcos, pero tienen menos transformaciones específicas del dominio (simulación de sombras, perspectiva, borrado aleatorio) que Albumentations.

Integración en la Canalización

En una canalización de entrenamiento de producción, el aumento se integra de la siguiente manera:

[Image Loader] → [Random Sampler] → [Augmentation Sequence] → [Normalize] → [Random Batch Sampler] → [Model Forward Pass]

El muestreador aleatorio selecciona si cada aumento en la política se aplica (basado en su parámetro de probabilidad) y la magnitud cada vez. La secuencia de aumento aplica las transformaciones en un orden fijo: típicamente primero las geométricas (recorte, volteo, rotación, perspectiva), luego las fotométricas (variación de color, brillo, contraste), luego las de ruido y desenfoque (ruido gaussiano, desenfoque gaussiano), luego las específicas del dominio (sombra, lluvia) y finalmente las de regularización (Cutout).

Durante la validación e inferencia, el aumento se reduce al mínimo de transformaciones necesarias: típicamente solo recorte central (o redimensionamiento) y normalización. No se aplican transformaciones aleatorias durante la evaluación para asegurar resultados deterministas y reproducibles.

Monitoreo de los Efectos del Aumento

Las canalizaciones de entrenamiento de producción deben registrar estadísticas de aumento para monitorear su efecto en la dinámica del entrenamiento:

  • Tasa de activación de aumento: El porcentaje de imágenes que recibió cada transformación, para verificar que las probabilidades están correctamente implementadas
  • Histograma de imágenes transformadas: La distribución de valores de píxel después del aumento, para detectar artefactos de recorte o saturación
  • Línea de tiempo de magnitud de aumento: Cómo cambia la magnitud del aumento durante los programas de entrenamiento curricular (algunas implementaciones comienzan con poco aumento y aumentan a lo largo de las épocas)
  • Sensibilidad de validación al aumento: Evaluación periódica con aumento reducido para medir si el modelo se ha vuelto dependiente de los artefactos del aumento

Estas métricas de monitoreo aseguran que el aumento está logrando el efecto deseado — expandir la distribución de entrenamiento sin introducir artefactos o sesgos que degraden el rendimiento en el mundo real.

La imagen de la cuadrícula de aumentaciones de grietas en concreto demuestra el resultado práctico de una canalización de aumento: la misma imagen de grieta original se transforma en más de 12 ejemplos de entrenamiento distintos mediante rotación, volteo, recorte, ajuste de color y desenfoque. Cada versión aumentada preserva la etiqueta de grieta mientras la presenta en un contexto visual diferente, enseñando al modelo a detectar grietas independientemente de la orientación, iluminación o calidad de imagen.

{

Machine learning training data visualization showing multiple augmented versions of concrete crack images arranged in grid layout

Preguntas Frecuentes

Mejora tu IA de Inspección con un Entrenamiento Robusto

TarmacView aprovecha canalizaciones avanzadas de aumento de datos para entrenar modelos de inspección de infraestructura que generalizan a través de condiciones de iluminación, clima y superficie. Optimiza el entrenamiento de tu modelo de detección de defectos con estrategias de aumento específicas del dominio adaptadas para pavimentos aeroportuarios y estructuras de concreto.

Saber más

+++ title = &ldquo;Adaptación de dominio&rdquo; description = &ldquo;La adaptación de dominio adapta modelos de aprendizaje automático entrenados en un dominio ...

10 min de lectura
Technology Machine Learning +2
Detección de Grietas Basada en IA para Inspección de Infraestructura

Detección de Grietas Basada en IA para Inspección de Infraestructura

La detección de grietas basada en IA utiliza visión por computadora — redes neuronales convolucionales, transformadores de visión y modelos de segmentación semá...

45 min de lectura
Computer Vision Deep Learning +8
Visión por Computadora

Visión por Computadora

La visión por computadora es la tecnología impulsada por IA que permite a las máquinas interpretar y actuar sobre datos visuales, impulsando aplicaciones como e...

16 min de lectura
Artificial Intelligence Aviation Technology +3