info:eu-repo/semantics/masterThesis
Clusterización basada en una mixtura con distribuciones normales contaminadas multivariadas con datos incompletos: Una aplicación a la evaluación de habilidades socioemocionales
Autor
Zegarra López, Ángel Christopher
Institución
Resumen
Aunque la distribución normal es útil en una variedad de contextos, enfrenta ciertas limitaciones
al modelar datos que contienen valores extremos. Estos valores pueden generar “colas”
más pesadas en la distribución, en contraste con las colas más ligeras de la distribución normal.
Por lo tanto, en tales circunstancias, la distribución normal contaminada se presenta
como una alternativa efectiva. Este ajuste es especialmente significativo en aplicaciones como
la agrupación basada en modelos. En este método, es habitual emplear distribuciones
normales multivariadas como fundamento para la agrupación. No obstante, la estimación de
parámetros puede verse afectada por la presencia de valores extremos. En este estudio, implementamos
la distribución normal contaminada multivariada como base para la agrupación
basada en modelos, tal como propone Tong y Tortora (2022). Explicamos las características
del modelo y llevamos a cabo un estudio de simulación para contrastar su desempeño con
la distribución normal multivariada y la distribución t multivariada. Finalmente, aplicamos
un proceso de agrupación basado en una mezcla de distribuciones normales contaminadas
multivariadas a un conjunto de datos reales. Estos datos se derivan de los resultados de la
Evaluación de Habilidades Socioemocionales, una iniciativa implementada por el Ministerio
de Educación de Perú en 2021. The normal distribution has limitations when modeling data with outliers. The presence
of outliers implies heavier tails in the distribution; whereas, the normal distribution has very
light tails. For this reason, the contaminated normal distribution is used as a better alternative
to model in these cases. One of the applications where this change is pertinent is in model-based
clustering. In this approach, using multivariate normal distributions as the basis for
clustering is common practice; however, the parameter estimates may be biased due to the
presence of outliers. In this thesis, the multivariate contaminated normal distribution is used
as the basis for model-based clustering. The characteristics of the model were presented,
as well as a simulation study that compares the performance of the model with respect to
the multivariate normal distribution and the multivariate t-distribution. Finally, a clustering
process was carried out based on a mixture of multivariate contaminated normal distributions
to a data set of the results of the Socio-emotional Skills assessment, an operation implemented
by the Ministry of Education of Peru in 2021.