Matriz de confusión

En el campo del aprendizaje automático, y específicamente en el problema de la clasificación estadística, una matriz de confusión (también conocida como matriz de errores) es una tabla que permite visualizar el rendimiento de un algoritmo de clasificación, normalmente supervisado; en el aprendizaje no supervisado suele llamarse matriz de coincidencia.

Cada fila de la matriz representa las instancias en una clase real, mientras que cada columna representa las instancias en una clase predicha (o viceversa; ambas variantes aparecen en la literatura). La diagonal de la matriz representa las instancias correctamente clasificadas. El nombre proviene de que facilita ver si el sistema está confundiendo dos clases (es decir, etiquetando incorrectamente una como la otra).

Es un tipo especial de tabla de contingencia, con dos dimensiones ("real" y "predicha"), y conjuntos idénticos de clases en ambas dimensiones.

Ejemplo

Dado un conjunto de 12 individuos: 8 con cáncer (clase 1) y 4 sanos (clase 0), podemos representarlo así:

Número de individuo 1 2 3 4 5 6 7 8 9 10 11 12
Clasificación real 1 1 1 1 1 1 1 1 0 0 0 0

Tras pasar los datos por un clasificador, se obtienen 9 predicciones correctas y 3 incorrectas: 2 falsos negativos y 1 falso positivo.

Número de individuo 1 2 3 4 5 6 7 8 9 10 11 12
Clasificación real 1 1 1 1 1 1 1 1 0 0 0 0
Clasificación predicha 0 0 1 1 1 1 1 1 1 0 0 0
Resultado FN FN VP VP VP VP VP VP FP VN VN VN

Donde:

  • VP (Verdadero Positivo): Clasificado correctamente como positivo.
  • FN (Falso Negativo): Clasificado erróneamente como negativo.
  • FP (Falso Positivo): Clasificado erróneamente como positivo.
  • VN (Verdadero Negativo): Clasificado correctamente como negativo.

Matriz de confusión resultante:

Real \ Predicha Cáncer No cáncer
Cáncer (8) 6 2
No cáncer (4) 1 3

Tabla de confusión

En análisis predictivo, la tabla de confusión informa los conteos de VP, FN, FP y VN. Esto proporciona más detalle que simplemente la exactitud, que puede ser engañosa en conjuntos desequilibrados.

Por ejemplo, si el 95 % de los datos son positivos, un clasificador que siempre predice "positivo" tendrá un 95 % de exactitud, pero 0 % de sensibilidad para la clase negativa. En estos casos, métricas como la informedness o el coeficiente de correlación de Matthews (MCC) son más adecuadas.[1]

Matriz extendida de evaluación

Condición predicha Fuentes:[2][3][4][5][6][1][7][8]
Población total
= P + N
Predicho positivo Predicho negativo Informedness, bookmarked informedness (BM)
= TPR + TNR − 1
Umbral de prevalencia (PT)
= TPR × FPR − FPR/TPR − FPR
Condición real Positivo (P) [9] Verdadero positivo (VP),
acierto[10]
Falso negativo (FN),
fallo, subestimación
Tasa de verdaderos positivos (TPR), exhaustividad (recall), sensibilidad (SEN), probabilidad de detección, tasa de aciertos, potencia
= VP/P = 1 − FNR
Tasa de falsos negativos (FNR),
Error tipo II
= FN/P = 1 − TPR
Negativo (N) [11] Falso positivo (FP),
falsa alarma, sobreestimación
Verdadero negativo (VN),
rechazo correcto[12]
Tasa de falsos positivos (FPR),
Error tipo I
= FP/N = 1 − TNR
Tasa de verdaderos negativos (TNR), especificidad
= VN/N = 1 − FPR
Prevalencia
= P/P + N
Valor predictivo positivo (PPV), precisión
= VP/VP + FP = 1 − FDR
Valor predictivo negativo (NPV)
= VN/VN + FN = 1 − FOR
Razón de verosimilitud positiva (LR⁺)
= TPR/FPR
Razón de verosimilitud negativa (LR⁻)
= FNR/TNR
Exactitud (ACC)
= VP + VN/P + N
Tasa de descubrimiento falso (FDR)
= FP/VP + FP = 1 − PPV
Tasa de falsas omisiones (FOR)
= FN/VN + FN = 1 − NPV
Markedness (MK) (Marcabilidad), deltaP (Δp)
= PPV + NPV − 1
Cociente de probabilidades diagnóstico (DOR)
= LR⁺/LR⁻
Exactitud balanceada (BA)
= TPR + TNR/2
Puntaje F1
= 2 PPV × TPR/PPV + TPR = 2 VP/2 VP + FP + FN
Índice de Fowlkes–Mallows (FM)
= PPV × TPR
Coeficiente phi o Coeficiente de correlación de Matthews (MCC)
= TPR × TNR × PPV × NPVFNR × FPR × FOR × FDR
Índice de amenaza (TS), índice de éxito crítico (CSI), Índice de Jaccard
= VP/VP + FN + FP
  1. a b Chicco, D., & Jurman, G. (2020). "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation". BMC Genomics, 21(1), 6. https://doi.org/10.1186/s12864-019-6413-7
  2. Fawcett, T. (2006). "An Introduction to ROC Analysis". Pattern Recognition Letters, 27(8): 861–874. https://doi.org/10.1016/j.patrec.2005.10.010
  3. Provost, F. & Fawcett, T. (2013). Data Science for Business. O'Reilly Media.
  4. Powers, D.M.W. (2011). "Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies, 2(1): 37–63.
  5. Ting, K.M. (2011). In: Sammut & Webb (eds.) Encyclopedia of Machine Learning, Springer.
  6. Brooks et al. (2015). WWRP/WGNE Verification Research. https://www.cawcr.gov.au/projects/verification/
  7. Chicco, D., Toetsch, N., & Jurman, G. (2021). BioData Mining, 14(13). https://doi.org/10.1186/s13040-021-00244-z
  8. Tharwat, A. (2018). Applied Computing and Informatics, 17: 168–192.
  9. Número de casos positivos reales en los datos.
  10. Resultado de prueba que indica correctamente la presencia de una condición o característica.
  11. Número de casos negativos reales en los datos.
  12. Resultado de prueba que indica correctamente la ausencia de una condición o característica.

Matrices de confusión con más de dos categorías

Las matrices de confusión pueden extenderse a clasificadores multiclase. La matriz es cuadrada, con dimensiones iguales al número de clases. Las entradas diagonales indican clasificaciones correctas.

Ejemplo (lenguaje silbado):[1]

Vocal producida \ Percibida i e a o u
i 15 0 1 0 0
e 1 0 1 0 0
a 0 0 79 5 0
o 0 0 4 15 3
u 0 0 0 2 2

Matrices de confusión en clasificación multi-etiqueta y etiquetas suaves

También se pueden extender a clasificación multi-etiqueta y con etiquetas suaves. Una extensión es la Matriz de Confusión basada en Transporte (TCM), que usa teoría del transporte óptimo y máxima entropía para distribuir los errores entre clases. En casos de una sola etiqueta, TCM equivale a la matriz estándar.[2]

Véase también

Referencias

  1. Rialland, A. (2005). "Phonological and phonetic aspects of whistled languages". Phonology, 22(2): 237–271. https://doi.org/10.1017/S0952675705000552
  2. Erbani, J.; Portier, P.-É.; Egyed-Zsigmond, É.; Nurbakova, D. (2024). "Confusion Matrices: A Unified Theory". IEEE Access.