poster
Estimación robusta multivariada en presencia de datos faltantes
Date
2020-10Author
Marfia, Martín
Kudraszow, Nadia L.
Institutions
Abstract
Existen dos problemas principales relacionados con la calidad de los datos, los datos atípicos, y la presencia de datos faltantes. Estos problemas han sido muy estudiados de forma separada y recientemente de forma conjunta. Métodos robustos como los MM-estimadores pueden dar buenos resultados aun en presencia de datos atípicos, pero no pueden lidiar con datos faltantes a menos que se consideren únicamente los casos completos lo cual no siempre es óptimo. Cuando no hay datos atípicos se suele asumir normalidad y utilizar el algoritmo EM, que maximiza la verosimilitud de los datos observados.
Asumimos que nuestros datos están completamente perdidos al azar (MCAR), lo que quiere decir que las componentes de una observación se pierdan no depende de los valores que tome esa observación. Nuestro objetivo es proponer una generalización del estimador de tipo MM [1] para el modelo de posición y escala multivariado que sea capaz de enfrentar ambos problemas. Para ello, nuestro enfoque es considerar como estimador de escala inicial la escala de las distancias de Mahalanobis parciales del S-estimador generalizado [2], y usarlo como punto de partida para calcular un M-estimador cuya función rho tiene un parámetro para controlar la eficiencia.
Estudiamos condiciones de existencia del estimador, y encontramos un algoritmo iterativo que nos permite calcular la solución aproximada con cierto nivel de tolerancia preestablecido. Realizamos simulaciones Monte Carlo y un ejemplo con datos reales. Evidenciamos un buen desempeño en muestras con y sin datos atípicos y en presencia de datos faltantes.