Matriz de confusión

En el campo del aprendizaje automático, y específicamente en el problema de la clasificación estadística, una matriz de confusión (también conocida como matriz de errores) es una tabla que permite visualizar el rendimiento de un algoritmo de clasificación, normalmente supervisado; en el aprendizaje no supervisado suele llamarse matriz de coincidencia.

Cada fila de la matriz representa las instancias en una clase real, mientras que cada columna representa las instancias en una clase predicha (o viceversa; ambas variantes aparecen en la literatura). La diagonal de la matriz representa las instancias correctamente clasificadas. El nombre proviene de que facilita ver si el sistema está confundiendo dos clases (es decir, etiquetando incorrectamente una como la otra).

Es un tipo especial de tabla de contingencia, con dos dimensiones ("real" y "predicha"), y conjuntos idénticos de clases en ambas dimensiones.

Ejemplo

Dado un conjunto de 12 individuos: 8 con cáncer (clase 1) y 4 sanos (clase 0), podemos representarlo así:

Número de individuo	1	2	3	4	5	6	7	8	9	10	11	12
Clasificación real	1	1	1	1	1	1	1	1	0	0	0	0

Tras pasar los datos por un clasificador, se obtienen 9 predicciones correctas y 3 incorrectas: 2 falsos negativos y 1 falso positivo.

Número de individuo	1	2	3	4	5	6	7	8	9	10	11	12
Clasificación real	1	1	1	1	1	1	1	1	0	0	0	0
Clasificación predicha	0	0	1	1	1	1	1	1	1	0	0	0
Resultado	FN	FN	VP	VP	VP	VP	VP	VP	FP	VN	VN	VN

Donde:

VP (Verdadero Positivo): Clasificado correctamente como positivo.
FN (Falso Negativo): Clasificado erróneamente como negativo.
FP (Falso Positivo): Clasificado erróneamente como positivo.
VN (Verdadero Negativo): Clasificado correctamente como negativo.

Matriz de confusión resultante:

Real \ Predicha	Cáncer	No cáncer
Cáncer (8)	6	2
No cáncer (4)	1	3

Tabla de confusión

En análisis predictivo, la tabla de confusión informa los conteos de VP, FN, FP y VN. Esto proporciona más detalle que simplemente la exactitud, que puede ser engañosa en conjuntos desequilibrados.

Por ejemplo, si el 95 % de los datos son positivos, un clasificador que siempre predice "positivo" tendrá un 95 % de exactitud, pero 0 % de sensibilidad para la clase negativa. En estos casos, métricas como la informedness o el coeficiente de correlación de Matthews (MCC) son más adecuadas.^[1]

Matriz extendida de evaluación

		Condición predicha		^Fuentes:^[2]^[3]^[4]^[5]^[6]^[1]^[7]^[8]
	Población total $= P + N$	Predicho positivo	Predicho negativo	Informedness, bookmarked informedness (BM) $= TPR + TNR - 1$	Umbral de prevalencia (PT) $= \sqrt TPR \times FPR - FPR / TPR - FPR$
Condición real	Positivo (P) ^[9]	Verdadero positivo (VP), acierto^[10]	Falso negativo (FN), fallo, subestimación	Tasa de verdaderos positivos (TPR), exhaustividad (recall), sensibilidad (SEN), probabilidad de detección, tasa de aciertos, potencia $= VP / P$ $= 1 - FNR$	Tasa de falsos negativos (FNR), Error tipo II $= FN / P$ $= 1 - TPR$
Condición real	Negativo (N) ^[11]	Falso positivo (FP), falsa alarma, sobreestimación	Verdadero negativo (VN), rechazo correcto^[12]	Tasa de falsos positivos (FPR), Error tipo I $= FP / N$ $= 1 - TNR$	Tasa de verdaderos negativos (TNR), especificidad $= VN / N$ $= 1 - FPR$
	Prevalencia $= P / P + N$	Valor predictivo positivo (PPV), precisión $= VP / VP + FP$ $= 1 - FDR$	Valor predictivo negativo (NPV) $= VN / VN + FN$ $= 1 - FOR$	Razón de verosimilitud positiva (LR⁺) $= TPR / FPR$	Razón de verosimilitud negativa (LR⁻) $= FNR / TNR$
	Exactitud (ACC) $= VP + VN / P + N$	Tasa de descubrimiento falso (FDR) $= FP / VP + FP$ $= 1 - PPV$	Tasa de falsas omisiones (FOR) $= FN / VN + FN$ $= 1 - NPV$	Markedness (MK) (Marcabilidad), deltaP (Δp) $= PPV + NPV - 1$	Cociente de probabilidades diagnóstico (DOR) $= LR⁺ / LR⁻$
	Exactitud balanceada (BA) $= TPR + TNR / 2$	Puntaje F₁ $= 2 PPV \times TPR / PPV + TPR$ $= 2 VP / 2 VP + FP + FN$	Índice de Fowlkes–Mallows (FM) $= \sqrt PPV \times TPR$	Coeficiente phi o Coeficiente de correlación de Matthews (MCC) $= \sqrt TPR \times TNR \times PPV \times NPV$ − $\sqrt FNR \times FPR \times FOR \times FDR$	Índice de amenaza (TS), índice de éxito crítico (CSI), Índice de Jaccard $= VP / VP + FN + FP$

↑ ^a ^b Chicco, D., & Jurman, G. (2020). "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation". BMC Genomics, 21(1), 6. https://doi.org/10.1186/s12864-019-6413-7
↑ Fawcett, T. (2006). "An Introduction to ROC Analysis". Pattern Recognition Letters, 27(8): 861–874. https://doi.org/10.1016/j.patrec.2005.10.010
↑ Provost, F. & Fawcett, T. (2013). Data Science for Business. O'Reilly Media.
↑ Powers, D.M.W. (2011). "Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies, 2(1): 37–63.
↑ Ting, K.M. (2011). In: Sammut & Webb (eds.) Encyclopedia of Machine Learning, Springer.
↑ Brooks et al. (2015). WWRP/WGNE Verification Research. https://www.cawcr.gov.au/projects/verification/
↑ Chicco, D., Toetsch, N., & Jurman, G. (2021). BioData Mining, 14(13). https://doi.org/10.1186/s13040-021-00244-z
↑ Tharwat, A. (2018). Applied Computing and Informatics, 17: 168–192.
↑ Número de casos positivos reales en los datos.
↑ Resultado de prueba que indica correctamente la presencia de una condición o característica.
↑ Número de casos negativos reales en los datos.
↑ Resultado de prueba que indica correctamente la ausencia de una condición o característica.

Matrices de confusión con más de dos categorías

Las matrices de confusión pueden extenderse a clasificadores multiclase. La matriz es cuadrada, con dimensiones iguales al número de clases. Las entradas diagonales indican clasificaciones correctas.

Ejemplo (lenguaje silbado):^[1]

Vocal producida \ Percibida	i	a	o	u
i	15	1	0	0
e	1	1	0	0
a	0	79	5	0
o	0	4	15	3
u	0	0	2	2

Matrices de confusión en clasificación multi-etiqueta y etiquetas suaves

También se pueden extender a clasificación multi-etiqueta y con etiquetas suaves. Una extensión es la Matriz de Confusión basada en Transporte (TCM), que usa teoría del transporte óptimo y máxima entropía para distribuir los errores entre clases. En casos de una sola etiqueta, TCM equivale a la matriz estándar.^[2]

Véase también

Valores predictivos (positivos y negativos)

Referencias

↑ Rialland, A. (2005). "Phonological and phonetic aspects of whistled languages". Phonology, 22(2): 237–271. https://doi.org/10.1017/S0952675705000552
↑ Erbani, J.; Portier, P.-É.; Egyed-Zsigmond, É.; Nurbakova, D. (2024). "Confusion Matrices: A Unified Theory". IEEE Access.

[Chicco2020-1] Chicco, D., & Jurman, G. (2020). "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation". BMC Genomics, 21(1), 6. https://doi.org/10.1186/s12864-019-6413-7

[2] Fawcett, T. (2006). "An Introduction to ROC Analysis". Pattern Recognition Letters, 27(8): 861–874. https://doi.org/10.1016/j.patrec.2005.10.010

[3] Provost, F. & Fawcett, T. (2013). Data Science for Business. O'Reilly Media.

[4] Powers, D.M.W. (2011). "Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies, 2(1): 37–63.

[5] Ting, K.M. (2011). In: Sammut & Webb (eds.) Encyclopedia of Machine Learning, Springer.

[6] Brooks et al. (2015). WWRP/WGNE Verification Research. https://www.cawcr.gov.au/projects/verification/

[7] Chicco, D., Toetsch, N., & Jurman, G. (2021). BioData Mining, 14(13). https://doi.org/10.1186/s13040-021-00244-z

[8] Tharwat, A. (2018). Applied Computing and Informatics, 17: 168–192.

[9] Número de casos positivos reales en los datos.

[10] Resultado de prueba que indica correctamente la presencia de una condición o característica.

[11] Número de casos negativos reales en los datos.

[12] Resultado de prueba que indica correctamente la ausencia de una condición o característica.

[13] Rialland, A. (2005). "Phonological and phonetic aspects of whistled languages". Phonology, 22(2): 237–271. https://doi.org/10.1017/S0952675705000552

[14] Erbani, J.; Portier, P.-É.; Egyed-Zsigmond, É.; Nurbakova, D. (2024). "Confusion Matrices: A Unified Theory". IEEE Access.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[1]

[2]