Artículo de revista
Comparación empírica de la eficiencia de algunas técnicas de tratamiento de datos faltantes aplicadas al análisis de regresión lineal múltiple.
Autor
Polo Yepes, Claudia J.
Behar Gutiérrez, Roberto
Institución
Resumen
En este trabajo se caracterizan algunas de las más comunes técnicas estadísticas de tratamiento de datos faltantes y
se comparan empíricamente a través de una simulación para determinar cuál es la más eficiente en la estimación de
los coeficientes de regresión y de determinación de un modelo lineal de regresión múltiple con dos variables
explicativas y un patrón univariado de datos faltantes sobre una de las variables. Se midieron la eficiencia relativa a
través del error cuadrático medio y con base en las estimaciones por intervalos de confianza de los coeficientes de
regresión a través de su cubierta y amplitud. Los resultados sugieren que análisis de casos completos, debe ser usado
cuando el porcentaje de faltantes es pequeño y bajo mecanismos completamente al azar. En general, para todas las
técnicas cuando el porcentaje aumenta, las estimaciones de los coeficientes de determinación y regresión se vuelven
ineficientes alterando la cubierta y amplitud de los intervalos de confianza de los coeficientes de regresión. El
análisis de casos disponibles y la imputación de la media no condicional y condicional no son recomendables porque
producen en muchos casos estimaciones ineficientes de los coeficientes de determinación y de regresión. El
algoritmo EM es una técnica eficiente y menos sensible a mecanismos que no son completamente al azar.