Matriz de Confusión

Espacio de trabajo de analista de datos mostrando visualización de matriz de confusión en mapa de calor en monitor de computadora con diagonal verde y celdas fuera de diagonal rojas

Definición y Estructura

Una matriz de confusión, también conocida como matriz de error, es un diseño de tabla específico que permite una visualización detallada del rendimiento de un algoritmo de clasificación. Es una de las herramientas más fundamentales e informativas en la evaluación de modelos de aprendizaje automático, proporcionando una imagen completa de dónde el modelo tiene éxito y, más importante aún, dónde falla. La matriz tabula de forma cruzada las etiquetas de clase reales (verdad fundamental) frente a las etiquetas de clase predichas producidas por el modelo, donde cada celda contiene el recuento de instancias que caen en esa combinación.

La convención estándar coloca las clases reales como filas y las clases predichas como columnas. Para un problema de clasificación con K clases distintas, la matriz de confusión tiene dimensiones K×K. El elemento en la posición C[i][j] representa el número de instancias que pertenecen a la clase real i que fueron predichas como clase j por el modelo. Los elementos diagonales C[i][i] representan por lo tanto clasificaciones correctas — instancias donde la clase predicha coincide con la clase real. Todos los elementos fuera de la diagonal representan clasificaciones incorrectas de varios tipos y gravedad.

La matriz de confusión deriva su nombre de la información que proporciona sobre qué clases el modelo “confunde” entre sí. Un modelo que distingue de manera confiable entre superficies de asfalto y concreto pero confunde frecuentemente el pavimento compuesto con asfalto mostrará valores altos a lo largo de las diagonales asfalto-asfalto y concreto-concreto, pero una concentración significativa fuera de la diagonal en la intersección compuesto-asfalto. Este patrón le dice al desarrollador del modelo exactamente dónde enfocar los esfuerzos de mejora.

La base matemática de la matriz de confusión está enraizada en el análisis de tablas de contingencia, un método estadístico que se remonta al trabajo de Karl Pearson a principios del siglo XX sobre pruebas de chi-cuadrado para datos categóricos. En contextos de aprendizaje automático, la matriz fue formalizada como una herramienta de evaluación estándar en la década de 1960 con el desarrollo de sistemas automatizados de reconocimiento de patrones. Hoy en día, todos los principales marcos de aprendizaje automático incluyen el cálculo de matrices de confusión — scikit-learn proporciona sklearn.metrics.confusion_matrix, TensorFlow ofrece tf.math.confusion_matrix, y PyTorch puede calcular matrices a través de torchmetrics.ConfusionMatrix. La implementación de scikit-learn es la más utilizada en tuberías de inspección de infraestructura basadas en Python, aceptando arreglos de etiquetas reales y predichas y devolviendo la matriz K×K con opciones de normalización configurables.

Matriz de Confusión Binaria

La matriz de confusión binaria es la forma más simple y más enseñada, aplicable cuando el problema de clasificación tiene exactamente dos clases — convencionalmente etiquetadas como positiva y negativa. Para la inspección de infraestructura, un problema binario podría ser: “¿contiene esta imagen de pavimento una grieta?” (positivo = grieta presente) o “¿está sano este componente de puente?” (positivo = defecto detectado).

La matriz binaria de 2×2 contiene exactamente cuatro celdas:

Predicho PositivoPredicho Negativo
Real PositivoVerdadero Positivo (VP)Falso Negativo (FN)
Real NegativoFalso Positivo (FP)Verdadero Negativo (VN)

Verdaderos Positivos (VP) — Instancias correctamente identificadas como pertenecientes a la clase positiva. Para un modelo de detección de grietas, VP es el recuento de imágenes que contienen grietas que el modelo marcó correctamente como agrietadas. Cada verdadero positivo representa un defecto correctamente identificado, permitiendo una acción de mantenimiento oportuna. Un alto conteo de VP indica una alta sensibilidad o recuperación — el modelo detecta los defectos que está diseñado para encontrar.

Falsos Positivos (FP) — Instancias negativas clasificadas incorrectamente como positivas. También se denominan errores Tipo I en la prueba de hipótesis estadística. Un falso positivo en la detección de grietas significa que el modelo marcó pavimento intacto como agrietado. Si bien los falsos positivos no causan problemas de seguridad estructural (ningún defecto pasa desapercibido), generan falsas alarmas que desperdician recursos de inspección — cuadrillas enviadas a investigar defectos inexistentes, presupuestos de mantenimiento asignados a reparaciones innecesarias y una erosión general de la confianza en el sistema de IA. En operaciones aeroportuarias donde el cumplimiento del Anexo 14 de ICAO requiere hallazgos de inspección documentados, los falsos positivos excesivos sobrecargan el flujo de trabajo de informes.

Falsos Negativos (FN) — Instancias positivas clasificadas incorrectamente como negativas. Son errores Tipo II y generalmente se consideran el tipo de error más peligroso en la inspección de infraestructura. Un falso negativo significa que un defecto real — una grieta, un descascaramiento, una mancha de corrosión — pasa desapercibido. Para pavimentos de aeródromos sujetos a cargas de aeronaves, una grieta no detectada puede propagarse bajo la carga repetida de neumáticos, lo que lleva a un deterioro acelerado del pavimento y la posible generación de objetos extraños (FOD). Los falsos negativos representan defectos críticos de seguridad no detectados y deben minimizarse incluso al costo de aceptar más falsos positivos.

Verdaderos Negativos (VN) — Instancias correctamente identificadas como no pertenecientes a la clase positiva. Representan áreas de pavimento intacto correctamente identificadas. Si bien los verdaderos negativos no contribuyen directamente al descubrimiento de defectos, son esenciales para validar la precisión general del modelo y para calcular métricas como la especificidad (tasa de verdaderos negativos).

La relación entre estos cuatro valores determina todas las métricas derivadas:

Precisión General = (VP + VN) / (VP + VN + FP + FN) — La proporción de todas las predicciones que son correctas.

Precisión (Valor Predictivo Positivo) = VP / (VP + FP) — De todas las instancias predichas como positivas, qué proporción son realmente positivas. Una alta precisión significa pocas falsas alarmas.

Recuperación (Sensibilidad, Tasa de Verdaderos Positivos) = VP / (VP + FN) — De todas las instancias reales positivas, qué proporción detectó el modelo. Una alta recuperación significa pocos defectos pasados por alto.

Especificidad (Tasa de Verdaderos Negativos) = VN / (VN + FP) — De todas las instancias reales negativas, qué proporción fueron correctamente identificadas como negativas.

Puntuación F1 = 2 × (Precisión × Recuperación) / (Precisión + Recuperación) — La media armónica de precisión y recuperación, proporcionando una métrica única y equilibrada.

Para la inspección de infraestructura, el equilibrio precisión-recuperación se gestiona a través del umbral de decisión del modelo. Un modelo de detección de grietas podría generar una puntuación de probabilidad entre 0 y 1 para cada imagen. Establecer el umbral en 0.5 proporciona un equilibrio estándar entre precisión y recuperación. Reducir el umbral a 0.3 aumenta la recuperación (menos grietas pasadas por alto) pero disminuye la precisión (más falsas alarmas). Elevar el umbral a 0.8 mejora la precisión pero corre el riesgo de pasar por alto grietas sutiles. El umbral óptimo depende del contexto operativo: para pavimentos críticos de aeródromos donde pasar por alto una grieta podría generar FOD, es apropiado un umbral más bajo que favorezca la recuperación. Para inspecciones visuales de rutina donde las falsas alarmas desperdician presupuestos de mantenimiento limitados, puede ser preferible un umbral más alto que favorezca la precisión.

Matriz de Confusión Multiclase

Cuando la tarea de clasificación involucra tres o más clases, la matriz de confusión se expande a dimensiones K×K, donde K es el número de clases. La clasificación multiclase es el paradigma dominante en la IA de inspección de infraestructura, donde los modelos deben distinguir entre múltiples tipos de superficie, múltiples categorías de defectos o múltiples grados de calidad simultáneamente.

Un ejemplo de 3 clases para la clasificación del tipo de superficie en pavimentos de aeródromos podría tener las clases: Asfalto (A), Concreto (C) y Compuesto (O). Una matriz de confusión hipotética para 1,000 imágenes de validación:

Real \ PredichoAsfaltoConcretoCompuestoTotal
Asfalto4201515450
Concreto1028010300
Compuesto3020200250
Total4603152251000

La diagonal muestra las predicciones correctas: 420 asfalto, 280 concreto, 200 compuesto — totalizando 900 correctas de 1,000, dando un 90% de precisión general. Las celdas fuera de la diagonal revelan la estructura de errores: el Asfalto se confundió con Concreto (15 instancias) y Compuesto (15 instancias) de manera aproximadamente equitativa. El Concreto se confundió con Asfalto (10) y Compuesto (10) por igual. El Compuesto se confundió con mayor frecuencia con Asfalto (30 instancias) — casi el doble de la confusión con Concreto (20). Este patrón le dice al desarrollador del modelo que las superficies compuestas son la clase más desafiante, particularmente cuando visualmente se asemejan al asfalto puro.

Para matrices de confusión multiclase, el enfoque uno-contra-todos convierte el problema de K clases en K subproblemas binarios para el cálculo de métricas. Para una clase dada i:

  • VP(i) = C[i][i] (elemento diagonal)
  • FP(i) = suma(C[:][i]) - C[i][i] (suma de la columna i, menos la diagonal)
  • FN(i) = suma(C[i][:]) - C[i][i] (suma de la fila i, menos la diagonal)
  • VN(i) = total_muestras - VP(i) - FP(i) - FN(i)

Para la clase Compuesto en el ejemplo anterior:

  • VP = 200
  • FP = (15 + 10) = 25 (predicciones de Compuesto desde las filas de Asfalto y Concreto)
  • FN = (30 + 20) = 50 (reales de Compuesto predichos como Asfalto o Concreto)
  • VN = 1000 - 200 - 25 - 50 = 725
  • Precisión = 200 / (200 + 25) = 0.889
  • Recuperación = 200 / (200 + 50) = 0.800
  • F1 = 2 × (0.889 × 0.800) / (0.889 + 0.800) = 0.842

La matriz de confusión multiclase escala a cualquier número de clases. Para modelos de inspección de infraestructura con 10-15 tipos de defectos, la matriz se convierte en una rica fuente de información que revela no solo qué clases tienen un rendimiento deficiente, sino exactamente qué pares de clases son problemáticos. Esto es fundamentalmente más informativo que un solo número de precisión.

Derivación de Precisión, Recuperación y F1 por Clase

La matriz de confusión es la fuente de la que se derivan todas las métricas de clasificación por clase. Comprender la derivación permite a los profesionales interpretar correctamente el rendimiento del modelo e identificar qué clases necesitan mejora.

Fórmulas de Métricas por Clase

Para cada clase i en un problema de clasificación de K clases:

Precisión_i = C[i][i] / suma(C[:][i]) = VP / (VP + FP)

La precisión responde: “Cuando el modelo predice la clase i, ¿con qué frecuencia es correcta?” También se denomina valor predictivo positivo. Para la clasificación de defectos, una alta precisión en la clase “grieta estructural crítica” significa que cuando el modelo señala una grieta severa, los inspectores pueden confiar en ese hallazgo.

Recuperación_i = C[i][i] / suma(C[i][:]) = VP / (VP + FN)

La recuperación responde: “De todas las instancias reales de la clase i, ¿cuántas encontró el modelo?” También se denomina sensibilidad o tasa de verdaderos positivos. Para la clasificación de defectos, una alta recuperación en “descascaramiento” significa que la mayoría de los descascaramientos reales se detectan, minimizando el deterioro no detectado.

F1_i = 2 × (Precisión_i × Recuperación_i) / (Precisión_i + Recuperación_i)

F1 es la media armónica, siempre situada entre la precisión y la recuperación. F1 se prefiere sobre la media aritmética porque penaliza el desequilibrio extremo — un modelo con precisión=1.0 y recuperación=0.0 tiene F1=0.0, indicando correctamente que el modelo es inútil a pesar de la media aritmética de 0.5.

Promedio Macro, Micro y Ponderado

Para comparar modelos en todas las clases, existen tres métodos de promedio:

Promedio Macro calcula la métrica de forma independiente para cada clase y las promedia con igual peso: Macro-Precisión = (1/K) × suma(Precisión_i). Esto trata a todas las clases por igual independientemente de su frecuencia. Para el ejemplo de 3 superficies: Macro-Precisión = (420/460 + 280/315 + 200/225) / 3 = (0.913 + 0.889 + 0.889) / 3 = 0.897. El promedio macro es apropiado cuando todas las clases son igualmente importantes — por ejemplo, clasificar tipos de daño en pavimentos donde incluso los defectos raros importan para la seguridad.

Promedio Micro agrega los recuentos en todas las clases antes de calcular la métrica: Micro-Precisión = suma(VP_i) / suma(VP_i + FP_i). Para el ejemplo: Micro-Precisión = (420+280+200) / (420+280+200+15+15+10+10+30+20) = 900 / 1000 = 0.900. Es notable que la precisión micro promedio es igual a la precisión general para la clasificación de una sola etiqueta. El promedio micro está impulsado por las clases más frecuentes y es apropiado cuando la corrección general es la prioridad.

Promedio Ponderado calcula la métrica por clase y promedia ponderado por el número de instancias reales por clase: Precisión-Ponderada = suma(Precisión_i × n_i) / suma(n_i), donde n_i es el conteo real para la clase i. Para el ejemplo: Precisión-Ponderada = (0.913 × 450 + 0.889 × 300 + 0.889 × 250) / 1000 = (410.85 + 266.70 + 222.25) / 1000 = 0.900. El promedio ponderado es el valor predeterminado recomendado para conjuntos de datos desbalanceados porque tiene en cuenta la frecuencia de clase sin ocultar el rendimiento deficiente en clases minoritarias.

Método de PromedioFórmulaMejor Para
Macro(1/K) × Σ Métrica_iIgual importancia de clases, defectos raros importan
MicroΣ VP / (Σ VP + Σ FP)Corrección general del conjunto de datos
PonderadoΣ (Métrica_i × n_i) / Σ n_iClases desbalanceadas, valor predeterminado práctico

Coeficiente de Correlación de Matthews (MCC)

El MCC se deriva de la matriz de confusión y proporciona una métrica única que resume toda la matriz de una manera robusta al desequilibrio de clases. Para la clasificación multiclase, el MCC varía de -1 a +1, donde +1 indica predicción perfecta, 0 indica predicción aleatoria y -1 indica desacuerdo total. El MCC se define como:

MCC = [suma(suma(C[k][l] × C[m][n] - C[k][n] × C[m][l]))] / raíz( [suma(suma(C[p][q] * C[p][r]))] × [suma(suma(C[s][t] * C[u][t]))] )

donde las sumas se realizan sobre los rangos de índice apropiados según lo definido por Gorodkin (2004). El MCC es ampliamente considerado la métrica única más informativa para la evaluación de clasificadores porque utiliza los cuatro cuadrantes de la matriz de confusión (en binario) o todas las K² celdas (en multiclase), a diferencia de la precisión que solo utiliza la diagonal.

Precisión General a partir de la Matriz de Confusión

La precisión general es la métrica más intuitivamente comprendida derivada de la matriz de confusión: la suma de la diagonal (predicciones correctas) dividida por el número total de muestras. Para cualquier matriz de confusión, la precisión general se calcula como:

Precisión General = Σ C[i][i] / Σ C[i][j] para todo i, j

La precisión representa la proporción de todas las predicciones que el modelo acertó. Aunque intuitiva, la precisión tiene limitaciones críticas que la propia matriz de confusión ayuda a diagnosticar.

La Paradoja de la Precisión

La paradoja de la precisión describe situaciones donde una alta precisión no indica un buen rendimiento del modelo debido al desequilibrio de clases. Considere un modelo de defectos en pavimentos evaluado en un conjunto de datos donde el 95% de las imágenes muestran pavimento intacto (negativo) y el 5% muestran grietas (positivo). Un modelo trivial que predice “intacto” para cada imagen alcanza un 95% de precisión — sin embargo, detecta cero grietas. La matriz de confusión expone inmediatamente este fallo: el modelo tiene VP=0, FP=0, FN=500 (todas las grietas pasadas por alto), VN=9,500 (todo lo intacto correctamente identificado). A pesar del 95% de precisión general, la recuperación para la clase de grietas es del 0%.

La matriz de confusión hace visible la paradoja de la precisión. La precisión por sí sola no puede distinguir entre:

  • Un modelo equilibrado que detecta el 95% de las grietas y marca el 5% de las superficies intactas como agrietadas
  • Un modelo degenerado que predice intacto para todo

Para la inspección de infraestructura, esta distinción es crítica para la seguridad. El Anexo 14 de ICAO requiere que las inspecciones de superficies de pistas identifiquen todos los defectos que podrían comprometer las operaciones de aeronaves. Un modelo con un 99% de precisión que pasa por alto el 100% de un tipo de defecto raro pero peligroso (como una grieta estructural profunda en la zona de toma de contacto de la pista) representa un riesgo de seguridad que la precisión por sí sola enmascararía.

Precisión por Clase

A partir de la matriz de confusión, los profesionales pueden calcular la precisión por clase (también llamada recuperación o sensibilidad para la clase positiva en entornos binarios):

Precisión_Clase_i = C[i][i] / suma(C[i][:])

Esto indica la proporción de instancias reales de la clase i que el modelo clasificó correctamente. Para conjuntos de datos desbalanceados, la precisión por clase es mucho más informativa que la precisión general. Un enfoque útil para informes es presentar la precisión general junto con la precisión mínima por clase — la clase con la precisión individual más baja se convierte en el punto débil del modelo que requiere atención.

Precisión Balanceada

La precisión balanceada aborda el desequilibrio de clases promediando la recuperación en todas las clases:

Precisión Balanceada = (1/K) × Σ (C[i][i] / suma(C[i][:]))

Para el ejemplo del 95% intacto / 5% grietas con un modelo trivial siempre-intacto: Precisión Balanceada = (Recuperación_intacto + Recuperación_grieta) / 2 = (9500/9500 + 0/500) / 2 = (1.0 + 0.0) / 2 = 0.50. La precisión balanceada identifica correctamente este modelo como no mejor que el azar (0.50), mientras que la precisión general (0.95) es engañosamente alta.

Identificación de Clases Confundidas

La capacidad de diagnóstico más poderosa de la matriz de confusión es su capacidad para revelar qué clases específicas se confunden con cuáles — el patrón de errores fuera de la diagonal. Esta información guía directamente las estrategias de mejora del modelo.

Patrones de Confusión

Los patrones de confusión comunes en modelos de inspección de infraestructura incluyen:

Confusión dentro de categoría — Dos tipos de defectos visualmente similares se confunden frecuentemente entre sí. La eflorescencia (depósitos de sal cristalina blanca en concreto) y la corrosión en etapa temprana (manchas de color óxido) se confunden frecuentemente porque ambas se presentan como decoloración superficial. En pavimentos asfálticos, el agrietamiento por fatiga (polígonos interconectados por fatiga) a veces se confunde con el agrietamiento en bloques (bloques rectangulares por contracción) cuando la densidad de la red de grietas es moderada.

Confusión jerárquica — El modelo identifica correctamente la categoría general pero confunde el subtipo específico. Un modelo puede detectar correctamente que una superficie está “agrietada” pero confundir “grieta transversal” con “grieta longitudinal” — ambas son grietas lineales que difieren solo en la orientación con respecto a la línea central del pavimento o la dirección del tráfico.

Confusión entre categorías — Una condición de superficie se confunde con una condición fundamentalmente diferente. Los bordes de sombra en el pavimento pueden confundirse con bordes de grietas debido a gradientes de contraste similares. El material de sellado de juntas puede confundirse con material de relleno de grietas. Las marcas de derrape de neumáticos en las zonas de toma de contacto de pistas pueden confundirse con deterioro superficial.

Cuantificación de Pares Confundidos

La fracción de confusión para un par de clases (i, j) es:

Confusión(i → j) = C[i][j] / suma(C[i][:])

Esto indica, para instancias reales de la clase i, qué proporción fueron clasificadas erróneamente como clase j. Una fracción de confusión de 0.15 entre compuesto (real) y asfalto (predicho) significa que el 15% de las superficies compuestas se confunden con asfalto — el modo de fallo principal para esa clase.

De manera similar, la matriz de confusión normalizada con normalización por filas establece que cada fila sume 1.0, mostrando directamente la proporción de cada clase real distribuida entre las clases predichas. Este es el formato de visualización más común para matrices de confusión multiclase porque hace que los patrones de confusión sean inmediatamente visibles independientemente de los tamaños de muestra de las clases.

Visualización en Mapa de Calor

La matriz de confusión normalizada se muestra típicamente como un mapa de calor utilizando un esquema de colores divergente. La diagonal (predicciones correctas) se muestra en verde o azul, creando una “cresta correcta” visible que debería ser la característica visual dominante. Las celdas fuera de la diagonal se muestran en rojo o colores cálidos, con intensidad proporcional a la fracción de confusión. Esta codificación visual permite la identificación inmediata de:

  • Celdas diagonales oscuras: Clases con alta recuperación (la mayoría de las instancias reales correctamente clasificadas)
  • Celdas diagonales tenues: Clases con recuperación pobre que requieren mejora
  • Puntos calientes rojos fuera de la diagonal: Pares confundidos específicos que necesitan remediación dirigida
  • Enrojecimiento en toda la fila: Una clase que se confunde ampliamente con muchas otras, indicando que la clase misma puede necesitar una mejor definición o más datos de entrenamiento

Mejora Guiada por Confusión

Una vez que se identifican los pares de clases confundidas, se pueden aplicar las siguientes estrategias dirigidas:

  1. Recolección de datos: Adquirir más ejemplos de entrenamiento específicamente del par confundido, especialmente casos límite que resalten sus características distintivas
  2. Ingeniería de características: Para modelos no basados en aprendizaje profundo, diseñar características que discriminen específicamente entre las clases confundidas — para eflorescencia vs. corrosión, características que capturen temperatura de color y granularidad de textura
  3. Énfasis en aumento de datos: Aplicar transformaciones que enfaticen las características distintivas — para agrietamiento por fatiga vs. en bloques, aumentar patrones de conectividad de grietas
  4. Pesos de clase: Aumentar el peso de la función de pérdida para las clases confundidas durante el entrenamiento para penalizar más las clasificaciones erróneas
  5. Modificación de arquitectura: Agregar mecanismos de atención que se centren en las regiones específicas de la imagen más discriminativas entre las clases confundidas
  6. Clasificación jerárquica: Si la confusión es jerárquica (categoría correcta, subtipo incorrecto), considerar un clasificador de dos etapas que primero identifique la categoría general y luego distinga los subtipos

Matriz de Confusión para Clasificación de Tipo de Superficie

La clasificación del tipo de superficie es una tarea fundamental en la inspección de infraestructura. Para pavimentos de aeródromos, la Organización de Aviación Civil Internacional (ICAO) y la Administración Federal de Aviación (FAA) requieren una identificación precisa del tipo de superficie para los cálculos de rendimiento de aeronaves.

Tarea de Clasificación

Un modelo típico de clasificación del tipo de superficie para pavimentos de aeródromos debe distinguir entre:

  • Asfalto (Pavimento Flexible): Superficies ligadas con betún, caracterizadas por coloración negro/marrón oscuro, textura de agregado visible y superficie continua sin juntas
  • Concreto (Pavimento Rígido): Superficies de concreto de cemento Portland, caracterizadas por coloración gris claro, juntas de contracción visibles a intervalos regulares y textura superficial más lisa
  • Compuesto: Capa de asfalto sobre sustrato de concreto, caracterizada por apariencia de asfalto con patrones de agrietamiento reflectante de juntas subyacentes
  • Grava/Sin Pavimentar: Superficies de agregado compactado para aviación general, caracterizadas por material superficial suelto, coloración marrón/tan y sin marcas de pavimento
  • Curso de Fricción Poroso (PFC): Superficie de asfalto de granulometría abierta especializada para drenaje de agua, caracterizada por textura gruesa y porosa y apariencia más oscura

Matriz de Confusión para Tipos de Superficie

Una matriz de confusión para un modelo de 4 tipos de superficie evaluado en 2,000 imágenes de validación podría aparecer como:

Real \ PredichoAsfaltoConcretoCompuestoGrava
Asfalto (n=600)5646246
Concreto (n=500)10465205
Compuesto (n=400)482831212
Grava (n=500)5105480

Esta matriz revela:

Asfalto (94.0% recuperación): 24 de 600 imágenes de asfalto fueron clasificadas erróneamente como compuesto — la confusión más significativa para esta clase. Esto ocurre cuando las superficies de asfalto tienen patrones de agrietamiento reflectante que visualmente se asemejan al pavimento compuesto (asfalto sobre concreto con reflexión de grietas). Las 6 clasificaciones erróneas como concreto pueden ocurrir en asfalto oxidado de color claro que se asemeja al concreto envejecido.

Concreto (93.0% recuperación): La confusión principal son 20 imágenes clasificadas erróneamente como compuesto — típicamente superficies de concreto con parches delgados de asfalto o tiras de sobrecapa que crean una apariencia similar a compuesto.

Compuesto (78.0% recuperación): Esta es la clase problemática. 48 de 400 imágenes compuestas (12%) fueron clasificadas como asfalto puro. Esto sucede cuando la capa de asfalto es lo suficientemente gruesa como para que la textura y las juntas del concreto subyacente no sean visibles en las imágenes capturadas. Otras 28 (7%) fueron clasificadas como concreto puro — típicamente cuando la capa de asfalto se ha desgastado en áreas de tráfico, exponiendo el sustrato de concreto. El modelo tiene dificultades porque la apariencia del pavimento compuesto abarca el rango entre asfalto puro y concreto puro.

Grava (96.0% recuperación): La grava es la clase más distinta visualmente y alcanza la mayor recuperación.

Implicaciones Operativas

Para el cumplimiento ICAO, la confusión entre compuesto y asfalto puro es la más significativa operativamente. Los cálculos de rendimiento de aeronaves — particularmente las distancias de despegue y aterrizaje — dependen del tipo de superficie. Confundir pavimento compuesto con asfalto puro podría llevar a estimaciones incorrectas del coeficiente de frenado, afectando los márgenes de seguridad.

Las mejoras dirigidas para la clase compuesta incluyen: capturar imágenes de entrenamiento con múltiples edades de sobrecapa (sobrecapa nueva gruesa vs. sobrecapa desgastada delgada), agregar imágenes que muestren patrones de agrietamiento reflectante específicos de la construcción compuesta, y entrenar un discriminador binario dedicado entre asfalto puro y sobrecapa compuesta.

Matriz de Confusión para Clasificación de Grado de Calidad

La clasificación del grado de calidad asigna una calificación categórica de condición a las superficies de infraestructura. Para pavimentos de aeródromos, los sistemas de calificación comunes incluyen el Índice de Condición del Pavimento (PCI) según ASTM D5340 y la Clasificación de Condición de Pavimentos Aeroportuarios utilizada en los sistemas de gestión de pavimentos aeroportuarios referenciados por ICAO.

Tarea de Clasificación

Los grados de calidad típicamente siguen una escala de 4 o 5 niveles:

GradoRango PCIDescripciónIndicadores Visuales
Bueno86-100Deterioro menor o nuloPocas grietas, sin descascaramiento, juntas intactas
Regular71-85Deterioro moderadoAlgunas grietas, descascaramiento menor, ligera meteorización
Malo56-70Deterioro significativoGrietas extensas, descascaramiento moderado, desgaste visible
Grave/Fallado0-55Deterioro severoGrietas extensas interconectadas, descascaramiento severo, defectos estructurales

Matriz de Confusión para Grados de Calidad

Una matriz de confusión para la clasificación del grado de calidad en 1,000 secciones de pavimento de pista:

Real \ PredichoBuenoRegularMaloFallado
Bueno (n=350)3152870
Regular (n=300)36237243
Malo (n=200)03015218
Fallado (n=150)0016134

Esta matriz revela el patrón característico de confusión de clasificación ordinal: los errores se concentran en grados adyacentes. El modelo rara vez confunde Bueno con Fallado (0 instancias) o Fallado con Bueno (0 instancias) porque estas clases son visualmente muy diferentes. Sin embargo, la confusión entre grados adyacentes es común:

Bueno ↔ Regular (28 + 36 = 64 confusiones): Estos dos grados son el par más frecuentemente confundido, representando casos límite donde hay agrietamiento menor presente pero la condición general está cerca del límite Bueno-Regular (PCI ≈ 85). Las 28 secciones Bueno clasificadas como Regular pueden tener agrietamiento capilar temprano que el modelo interpreta como significativo; las 36 secciones Regular clasificadas como Bueno pueden tener agrietamiento muy fino por debajo del umbral de detección del modelo.

Regular ↔ Malo (24 + 30 = 54 confusiones): La calificación del deterioro moderado es subjetiva incluso entre inspectores humanos. Las 24 secciones Regular clasificadas como Malo probablemente tienen densidades de grietas cerca del límite Regular-Malo; las 30 secciones Malo clasificadas como Regular pueden representar casos donde la gravedad de la grieta es límite.

Malo ↔ Fallado (18 + 16 = 34 confusiones): En el extremo severo, la confusión entre Malo (grietas extensas) y Fallado (deterioro estructural) es relativamente baja porque el pavimento fallado muestra daños cualitativamente diferentes — descascaramiento, escalonamiento y desintegración superficial más allá del simple agrietamiento.

Direccionalidad Fuera de la Diagonal

La matriz es asimétrica: la confusión Bueno→Regular (28) es menor que la confusión Regular→Bueno (36). Esto significa que el modelo es más conservador para las secciones Regular (tendiendo a degradar las secciones Bueno a Regular) que para las secciones Bueno (tendiendo a mejorar Regular a Bueno). Esta asimetría es relevante para la planificación de mantenimiento — las clasificaciones erróneas conservadoras (calificar un pavimento mejor como peor) son operativamente más seguras porque conducen a una intervención de mantenimiento más temprana en lugar de una acción retrasada.

Kappa para Clasificación Ordinal

El Kappa ponderado de Cohen es particularmente apropiado para matrices de confusión de grados de calidad porque tiene en cuenta el orden de las clases. Los errores de grado adyacente (Regular clasificado como Malo) se penalizan con menos severidad que los errores distantes (Bueno clasificado como Fallado). La ponderación lineal penaliza proporcionalmente a la separación de grado, mientras que la ponderación cuadrática penaliza el cuadrado de la separación de grado — más apropiada cuando las diferencias de grado tienen implicaciones de seguridad no lineales.

Para la matriz anterior, el Kappa ponderado (lineal) podría ser aproximadamente 0.78, indicando un acuerdo sustancial más allá del azar, mientras que el Kappa no ponderado sería más bajo, aproximadamente 0.72, porque trata todos los errores fuera de la diagonal por igual independientemente de la gravedad.

Matriz de Confusión para Clasificación de Defectos

La clasificación de defectos es la tarea más compleja y crítica para la seguridad en los modelos de IA de inspección de infraestructura. Para componentes de puentes de concreto o pavimentos de aeródromos, un modelo puede necesitar reconocer de 10 a 15 tipos distintos de defectos simultáneamente.

Tarea de Clasificación

Las clases típicas de defectos para la inspección de infraestructura de concreto incluyen:

  • Agrietamiento Capilar: Grietas muy finas (< 0.3 mm de ancho), a menudo cosméticas pero pueden indicar deterioro temprano
  • Agrietamiento Estructural: Grietas más anchas (≥ 0.3 mm) que pueden comprometer la integridad estructural o facilitar la entrada de agua
  • Agrietamiento por Fatiga (Asfalto): Red de grietas interconectadas por carga de fatiga
  • Agrietamiento Longitudinal/Transversal: Grietas lineales en el pavimento paralelas/perpendiculares a la dirección del tráfico
  • Descascaramiento: Rotura de la superficie del concreto en astillas o fragmentos más grandes
  • Delaminación: Separación de capas de concreto, detectable por sondeo pero no siempre visualmente obvia
  • Eflorescencia: Depósitos de sal cristalina blanca por migración de agua a través del concreto
  • Manchas de Corrosión: Decoloración de color óxido que indica corrosión del acero de refuerzo
  • Escamación: Descamación o pelado del mortero superficial exponiendo el agregado
  • Fallo del Sellador de Juntas: Deterioro o despegue del material sellador de juntas
  • Meteorización/Desgaste: Erosión superficial que expone el agregado en superficies asfálticas
  • Escalonamiento: Desplazamiento vertical a través de juntas del pavimento
  • Superficie Intacta: Sin defectos presentes, condición sana
Inspector de pista de aeropuerto examinando superficie de pavimento de concreto con defectos y grietas, sosteniendo tableta que muestra resultados de análisis de IA

Matriz de Confusión para Defectos en Concreto

Una matriz de confusión parcial centrada en los pares de defectos más frecuentemente confundidos para un modelo de inspección de tablero de puente de concreto:

Real \ PredichoGrieta CapilarGrieta EstructuralDescascaramientoEflorescenciaMancha de CorrosiónIntacto
Grieta Capilar820305401095
Grieta Estructural15440205155
Descascaramiento0102855200
Eflorescencia25051456015
Mancha de Corrosión55153518010
Intacto650010151910

Análisis de Patrones de Confusión

Eflorescencia ↔ Mancha de Corrosión (60 + 35 = 95 confusiones): El par de confusión más significativo en la clasificación de defectos en concreto. Ambos se presentan como decoloración superficial — eflorescencia como depósitos cristalinos blancos, manchas de corrosión como parches de color óxido. Cuando la eflorescencia incorpora suciedad o cuando la mancha de corrosión está en etapas tempranas (color óxido pero aún sin patrón definido), los dos son visualmente indistinguibles. Esta confusión tiene implicaciones materiales: la eflorescencia indica migración de agua (un problema de mantenimiento), mientras que las manchas de corrosión indican corrosión activa del refuerzo (un problema de seguridad estructural). Confundir uno con el otro podría llevar a una priorización de mantenimiento dramáticamente incorrecta.

Grieta Capilar ↔ Intacto (95 + 65 = 160 confusiones): Las grietas capilares cerca del límite de resolución del modelo (aproximadamente 0.2 mm a la resolución de captura de 0.5 mm/píxel) se pasan por alto con frecuencia. 95 grietas capilares fueron clasificadas como intactas (falsos negativos), representando deterioro temprano no detectado. 65 superficies intactas fueron clasificadas como grieta capilar (falsos positivos), representando falsas alarmas. Este es el clásico equilibrio de sensibilidad de detección en el límite perceptual.

Descascaramiento ↔ Mancha de Corrosión (20 + 15 = 35 confusiones): Las áreas descascaradas que exponen barras de refuerzo corroídas a menudo tienen manchas de color óxido alrededor de los bordes del descascaramiento, lo que lleva a confusión entre las dos clases. En muchos casos, ambos defectos coexisten — un descascaramiento causado por corrosión subyacente — haciendo que la tarea de clasificación de una sola etiqueta sea inherentemente ambigua.

Grieta Estructural ↔ Grieta Capilar (30 + 15 = 45 confusiones): Las grietas cerca del límite capilar-estructural (aproximadamente 0.3 mm de ancho) se confunden según el ancho percibido. Sin una capacidad de medición submilimétrica precisa en las imágenes de inspección estándar, esta confusión es esperada y puede ser aceptable si ambos tipos de grietas se señalan para inspección.

Remedición Guiada por Confusión para Modelos de Defectos

Basándose en los patrones de confusión, las estrategias de remediación específicas incluyen:

  1. Eflorescencia vs. Mancha de Corrosión: Agregar datos de entrenamiento que muestren eflorescencia con suciedad incrustada (tono amarillento) y corrosión temprana sin óxido visible (tono verdoso). Aplicar aumento de color enfatizando estas diferencias espectrales sutiles. Considerar agregar canales de infrarrojo cercano o multiespectrales que detecten diferencias de composición química.

  2. Grieta Capilar vs. Intacto: Mejorar la resolución de captura o implementar preprocesamiento de superresolución. Aplicar aumento de datos dirigido que simule grietas capilares en diferentes texturas de superficie. Considerar rechazar predicciones límite y señalarlas para revisión humana.

  3. Descascaramiento vs. Mancha de Corrosión: El entrenamiento del modelo debe usar anotación multietiqueta donde el descascaramiento y la corrosión puedan coexistir. Alternativamente, crear un clasificador jerárquico que primero detecte “área de deterioro” y luego distinga descascaramiento de manchas en el segundo nivel.

  4. Estructural vs. Grieta Capilar: Integrar la estimación del ancho de grieta como una cabeza de regresión en lugar de clasificación. Usar la estimación de ancho continuo para establecer umbrales de gravedad que puedan ajustarse por estándar de inspección.

Visualización e Informes

La visualización y los informes efectivos de matrices de confusión son esenciales para comunicar el rendimiento del modelo a las partes interesadas — desde científicos de datos hasta gerentes de mantenimiento de aeropuertos y autoridades reguladoras.

Diseño Estándar de Mapa de Calor

El formato de visualización estándar para una matriz de confusión es un mapa de calor con las siguientes convenciones:

  • Filas: Clases reales (etiquetas reales), etiquetadas a la izquierda
  • Columnas: Clases predichas, etiquetadas en la parte superior
  • Celdas diagonales: Resaltadas con un color distintivo (típicamente verde o azul)
  • Celdas fuera de la diagonal: Coloreadas en una escala de blanco (cero) a rojo (valores altos)
  • Valores de celda: Anotados como recuentos, porcentajes o ambos
  • Barra de color: Una leyenda que mapea colores a valores
  • Título: Incluye el nombre del conjunto de datos y la precisión general

Para figuras de calidad de publicación, el enfoque estándar utiliza matplotlib con seaborn.heatmap en Python:

import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import confusion_matrix

cm = confusion_matrix(y_true, y_pred, labels=class_names)
cm_normalized = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]

fig, ax = plt.subplots(figsize=(10, 8))
sns.heatmap(cm_normalized, annot=True, fmt='.2f',
            xticklabels=class_names, yticklabels=class_names,
            cmap='RdYlGn', vmin=0, vmax=1, ax=ax)
ax.set_xlabel('Clase Predicha')
ax.set_ylabel('Clase Real')
ax.set_title(f'Matriz de Confusión (Precisión General: {accuracy:.2%})')
plt.tight_layout()

Opciones de Normalización

La elección de normalización afecta significativamente la interpretación:

Normalizada por filas (normalize=‘true’): Cada fila suma 1.0 (100%). Los valores diagonales muestran la recuperación por clase. Los valores a lo largo de las filas muestran “cuando la clase real es X, ¿qué proporción fue predicha como cada clase?” Esta es la normalización más común para el análisis de diagnóstico.

Normalizada por columnas (normalize=‘pred’): Cada columna suma 1.0 (100%). Los valores diagonales muestran la precisión por clase. Los valores hacia abajo en las columnas muestran “cuando el modelo predijo X, ¿qué proporción pertenecía realmente a cada clase real?” Esto es útil para comprender las distribuciones de falsos positivos.

Sin normalización: Se muestran los recuentos brutos. Esencial para verificar los tamaños de muestra pero dificulta la comparación cuando las clases tienen diferentes frecuencias.

Formato de triple celda: Cada celda muestra tres valores: recuento bruto, % de fila y % de columna. Esto proporciona información completa en una sola visualización pero puede estar visualmente saturado para matrices grandes.

Plantillas de Informes

Para informes de modelos de inspección de infraestructura, la plantilla recomendada incluye:

  1. Tabla de estadísticas resumidas en la parte superior: precisión general, F1 macro, F1 ponderado, Kappa de Cohen, Coeficiente de Correlación de Matthews
  2. Mapa de calor de matriz de confusión completa (normalizada por filas con superposición de recuentos brutos): mostrando todas las clases
  3. Tabla de métricas por clase debajo: nombre de clase, soporte (recuento), precisión, recuperación, puntuación F1
  4. Resumen de confusión: Un párrafo de texto que identifica los 3 pares de clases más confundidos y la remediación recomendada
  5. Sensibilidad al umbral: Si corresponde, una pequeña matriz que muestra cómo cambia la confusión en diferentes umbrales de decisión

Matriz de Confusión a Través de Puntos de Control

Para el seguimiento del desarrollo del modelo, las matrices de confusión deben generarse y registrarse en puntos de control regulares de entrenamiento (cada 10-20 épocas). Comparar matrices a través de puntos de control revela:

  • ¿Aumenta la densidad diagonal de manera consistente (el modelo mejora)?
  • ¿Mejoran pares de confusión específicos mientras otros se estancan (necesitan trabajo dirigido)?
  • ¿Se estabiliza la precisión en el conjunto de validación mientras la matriz de entrenamiento continúa mejorando (sobreajuste)?
  • ¿Cambian los patrones de confusión entre clases (el modelo aprende características diferentes)?

La plataforma Arena y MLflow proporcionan seguimiento de matrices de confusión como parte de la gestión de experimentos, generando y versionando automáticamente matrices para cada ejecución de entrenamiento.

Confusión Evitable vs. Inevitable

No toda la confusión en la matriz es igual. Los expertos en el dominio deben revisar los patrones de confusión para clasificar cada par fuera de la diagonal como:

Confusión evitable: Las dos clases son visualmente distintas para un experto humano, y la confusión del modelo indica una deficiencia en los datos de entrenamiento, la arquitectura del modelo o el aprendizaje de características. La eflorescencia vs. las manchas de corrosión en imágenes con diferencias de color claras cae en esta categoría.

Confusión inevitable: Las dos clases son genuinamente difíciles de distinguir incluso para expertos humanos, o la diferenciación requiere información no disponible en la entrada (por ejemplo, datos de progresión temporal, detección subsuperficial). La grieta capilar vs. el rayón superficial, donde ambos aparecen como características lineales finas, pueden confundirse inevitablemente solo a partir de imágenes visuales.

Verdad fundamental ambigua: La clase real en sí misma es incierta debido al desacuerdo entre anotadores. Si dos inspectores humanos discrepan sobre si una superficie es de grado “regular” o “malo” el 15% de las veces, no se puede esperar que el modelo supere este techo de acuerdo. La matriz de confusión debe interpretarse en relación con la línea base de acuerdo humano — un modelo que alcanza un 90% de acuerdo con un estándar de referencia puede ser excelente si la confiabilidad entre evaluadores humanos es solo del 85%.

Informes a Organismos Reguladores

Para modelos de inspección de infraestructura utilizados en contextos de cumplimiento regulatorio — como la certificación de aeródromos del Anexo 14 de ICAO o la gestión de pavimentos FAA AC 150/5320-5D — la matriz de confusión es un artefacto de validación central. Los informes regulatorios deben incluir:

  • Matriz de confusión completa en un conjunto de datos de prueba representativo
  • Precisión y recuperación por clase para todas las clases de defectos o condiciones
  • Matriz de confusión estratificada por condiciones ambientales (iluminación, humedad superficial, ángulo de captura)
  • Matriz comparativa que muestre predicciones del modelo vs. evaluaciones de inspectores humanos
  • Matriz de confusión en múltiples umbrales operativos con justificación para la selección del umbral
  • Coeficiente Kappa ponderado para calificaciones de condición ordinal

La matriz de confusión, cuando se construye e interpreta adecuadamente, transforma la evaluación del modelo de un solo número de precisión a una herramienta de diagnóstico rica que revela la estructura completa de errores de un sistema de clasificación. Para aplicaciones de inspección de infraestructura donde el costo de diferentes tipos de error varía dramáticamente — un defecto estructural no detectado cuesta mucho más que una falsa alarma en pavimento intacto — esta comprensión granular permite a los profesionales ajustar, validar e implementar modelos que cumplan con los requisitos específicos de confiabilidad de la seguridad aeronáutica.

Preguntas Frecuentes

Evalúe sus Modelos de Inspección con Precisión

TarmacView utiliza análisis de matrices de confusión para validar modelos de IA de inspección de infraestructura en tareas de clasificación de tipo de superficie, grado de calidad y defectos. Asegúrese de que sus modelos funcionen de manera confiable con métricas de evaluación por clase derivadas de matrices de confusión exhaustivas.

Saber más

Elipse de error

Elipse de error

Una elipse de error es una herramienta estadística y gráfica utilizada en topografía, geodesia y ciencias geoespaciales para representar la incertidumbre posici...

6 min de lectura
Surveying Geodesy +5
Detección de Grietas Basada en IA para Inspección de Infraestructura

Detección de Grietas Basada en IA para Inspección de Infraestructura

La detección de grietas basada en IA utiliza visión por computadora — redes neuronales convolucionales, transformadores de visión y modelos de segmentación semá...

45 min de lectura
Computer Vision Deep Learning +8
Detección de Objetos para Defectos y Elementos de Infraestructura

Detección de Objetos para Defectos y Elementos de Infraestructura

La detección de objetos localiza y clasifica objetos en imágenes mediante cajas delimitadoras — para la inspección de infraestructura, esto incluye baches, parc...

41 min de lectura
technology machine-learning +6