Regresión isotónica

En estadística y análisis numérico, la regresión isotónica o regresión monótona es un tipo de regresión no paramétrica para ajustar una línea de forma libre a una secuencia de observaciones de tal manera que la línea ajustada sea no decreciente (o no creciente) en todas partes, y se sitúe lo más cerca posible de las observaciones.
Aplicaciones
La regresión isotónica tiene aplicaciones en inferencia estadística. Por ejemplo, puede usarse para ajustar una curva isotónica a las medias de un conjunto de resultados experimentales cuando se espera un aumento en esas medias según un orden particular. Una ventaja de la regresión isotónica es que no está restringida por ninguna forma funcional, como la linealidad impuesta por la regresión lineal, siempre que la función sea monótona creciente.
Otra aplicación es el escalamiento multidimensional no métrico,[1] donde se busca un encaje de baja dimensión para puntos de datos tal que el orden de las distancias entre puntos en el encaje coincida con el orden de disimilitud entre puntos. La regresión isotónica se usa iterativamente para ajustar distancias ideales que preserven el orden relativo de disimilitud.
La regresión isotónica también se utiliza en clasificación probabilística para calibrar las probabilidades predichas de modelos de aprendizaje automático supervisado.[2]
La regresión isotónica para el caso simplemente ordenado con variables univariadas se ha aplicado a la estimación de relaciones dosis-respuesta continuas en campos como la anestesiología o la toxicología. Estrictamente hablando, la regresión isotónica solo proporciona estimaciones puntuales en los valores observados de La estimación de la curva completa de dosis-respuesta sin suposiciones adicionales generalmente se realiza mediante interpolación lineal entre las estimaciones puntuales. [3]
Se ha desarrollado software para calcular la regresión isotónica (monótona) para R,[4][5][6] Stata y Python.[7]
Enunciado del problema y algoritmos
Sean un conjunto dado de observaciones, donde los y los pertenecen a algún conjunto parcialmente ordenado. Para generalizar, cada observación puede tener un peso , aunque comúnmente para todo .
La regresión isotónica busca un ajuste por mínimos cuadrados ponderados para todo , sujeto a la restricción de que siempre que . Esto da lugar la siguiente suma de cuadrados en las variables :
- sujeto a
donde especifica el orden parcial de las entradas observadas (y puede considerarse como el conjunto de aristas de algún grafo acíclico dirigido (DAG) con vértices ). Problemas de esta forma pueden resolverse con técnicas genéricas de programación cuadrática.
En el caso usual donde los valores pertenecen a un conjunto totalmente ordenado como , podemos asumir, sin pérdida de generalidad, que las observaciones se han ordenado de modo que , y tomar . En este caso, un simple algoritmo iterativo para resolver el programa cuadrático es el algoritmo de violaciones adyacentes agrupadas. Por otro lado, Best y Chakravarti[8] estudiaron el problema como un problema de identificación de conjunto activo y propusieron un algoritmo primal. Estos dos algoritmos pueden verse como duales entre sí, y ambos tienen una complejidad computacional de en datos ya ordenados.[8]
Para completar la tarea de regresión isotónica, podemos elegir cualquier función no decreciente tal que para todo i. Cualquier función así obviamente resuelve
- sujeto a que sea no decreciente
y puede usarse para predecir los valores de para nuevos valores de . Una elección común cuando sería interpolar linealmente entre los puntos , como se ilustra en la figura, dando lugar a una función continua lineal por tramos:
Regresión isotónica centrada
Como muestra la primera figura de este artículo, en presencia de violaciones de monotonicidad la curva interpolada resultante tendrá intervalos planos (constantes). En aplicaciones de dosis-respuesta generalmente se sabe que no solo es monótona sino también suave. Los intervalos planos son incompatibles con la forma asumida de , y pueden demostrarse sesgados. Una mejora simple para tales aplicaciones, llamada regresión isotónica centrada (CIR), fue desarrollada por Oron y Flournoy y demostró reducir sustancialmente el error de estimación tanto para aplicaciones de dosis-respuesta como de búsqueda de dosis.[9] Tanto CIR como la regresión isotónica estándar para el caso univariado simplemente ordenado están implementadas en el paquete de R "cir".[4] Este paquete también proporciona estimaciones analíticas de intervalos de confianza.
Referencias
- ↑ Kruskal, J. B. (1964). «Nonmetric Multidimensional Scaling: A numerical method». Psychometrika 29 (2): 115-129. S2CID 11709679. doi:10.1007/BF02289694.
- ↑ Niculescu-Mizil, Alexandru; Caruana, Rich (2005). «Predicting good probabilities with supervised learning». En De Raedt, Luc; Wrobel, Stefan, eds. Proceedings of the Twenty-Second International Conference on Machine Learning (ICML 2005), Bonn, Alemania. ACM International Conference Proceeding Series 119. Association for Computing Machinery. pp. 625-632. doi:10.1145/1102351.1102430.
- ↑ Stylianou, MP; Flournoy, N (2002). «Dose finding using the biased coin up-and-down design and isotonic regression». Biometrics 58 (1): 171-177. PMID 11890313. S2CID 8743090. doi:10.1111/j.0006-341x.2002.00171.x.
- ↑ a b Oron, Assaf. «Package 'cir'». CRAN. R Foundation for Statistical Computing. Consultado el 26 December 2020.
- ↑ Leeuw, Jan de; Hornik, Kurt; Mair, Patrick (2009). «Isotone Optimization in R: Pool-Adjacent-Violators Algorithm (PAVA) and Active Set Methods». Journal of Statistical Software 32 (5): 1-24. ISSN 1548-7660. doi:10.18637/jss.v032.i05.
- ↑ Xu, Zhipeng; Sun, Chenkai; Karunakaran, Aman. «Package UniIsoRegression». CRAN. R Foundation for Statistical Computing. Consultado el 29 October 2021.
- ↑ Pedregosa, Fabian (2011). «Scikit-learn:Machine learning in Python». Journal of Machine Learning Research 12: 2825-2830. Bibcode:2011JMLR...12.2825P. arXiv:1201.0490.
- ↑ a b Best, Michael J.; Chakravarti, Nilotpal (1990). «Active set algorithms for isotonic regression; A unifying framework». Mathematical Programming 47 (1–3): 425-439. ISSN 0025-5610. S2CID 31879613. doi:10.1007/bf01580873.
- ↑ Oron, AP; Flournoy, N (2017). «Centered Isotonic Regression: Point and Interval Estimation for Dose-Response Studies». Statistics in Biopharmaceutical Research 9 (3): 258-267. S2CID 88521189. arXiv:1701.05964. doi:10.1080/19466315.2017.1286256.
Bibliografía
- Robertson, T.; Wright, F. T.; Dykstra, R. L. (1988). Order restricted statistical inference. New York: Wiley. ISBN 978-0-471-91787-8.
- Barlow, R. E.; Bartholomew, D. J.; Bremner, J. M.; Brunk, H. D. (1972). Statistical inference under order restrictions; the theory and application of isotonic regression. New York: Wiley. ISBN 978-0-471-04970-8.
- Shively, T.S., Sager, T.W., Walker, S.G. (2009). «A Bayesian approach to non-parametric monotone function estimation». Journal of the Royal Statistical Society, Series B 71 (1): 159-175. S2CID 119761196. doi:10.1111/j.1467-9868.2008.00677.x.
- Wu, W. B.; Woodroofe, M.; Mentz, G. (2001). «Isotonic regression: Another look at the changepoint problem». Biometrika 88 (3): 793-804. doi:10.1093/biomet/88.3.793.