dissertação
Métodos para detecção de Outliers multivariados: Via uso dos estimadores robustos
Methods for detection of multivariate outliers: via the use of robust estimators
Registro en:
MARTINS, H. M. Métodos para detecção de Outliers multivariados: Via uso dos estimadores robustos. 2022. 90 p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária) - Universidade Federal de Lavras, Lavras, 2022.
Autor
Martins, Humberto Marcílio
Institución
Resumen
In the application of the multivariate analysis, it is necessary to follow some procedures in order
not to obtain an erroneous relationship between the phenomenon of interest and the other varia-
bles, that is, the model needs to be well adjusted to the characteristics of the phenomenon under
study. The detection of outliers is an important method to be applied in statistical analyses,
because a single outlier can cause changes in parameter estimates, also interfere with norma-
lity and correlation tests between variables, in addition to alter the results of any other inference
procedure. Therefore, the objective of this work is to present and compare some methods for de-
tecting outliers in multivariate data. The minimum volume ellipsoid (MVE), minimum volume
covariance (MCD), orthogonalized Gnanadesikan and Kettenring (OGK) methods, principal
components for detection of outliers (PCOut) and Comedian were compared. To perform the
comparisons, a series of simulations was used, predicting different situations using the conta-
minated normal distribution. Comparisons were evaluated through the success rate (TS), which
indicates the percentage of outliers that the methods correctly identified, and the false detec-
tion rate (TFD), which indicates the percentage of observations that are not outliers, but were
identified as outliers. It is concluded that the ideal is to use at least two methods to detect ou-
tliers, since pointing out the only method as the best is a difficult task. However, the PCOut
and Comedian methods obtained the best TS in most of the simulated scenarios. The comedian
method obtained the best TFD. Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) Na aplicação da análise multivariada é necessário seguir alguns procedimentos para não obter
uma relação equivocada do fenômeno de interesse com as demais variáveis, ou seja, o modelo
precisa ser bem ajustado às características do fenômeno sob estudo. A detecção de outliers é
um importante método a ser aplicado nas análises estatísticas, pois um único outlier pode cau-
sar mudanças nas estimativas dos parâmetros, interferir também nos testes de normalidade e de
correlação entre as variáveis, além de alterar os resultados de qualquer outro procedimento de
inferência. Portanto, o objetivo desse trabalho é apresentar e comparar alguns métodos de de-
tecção de outliers em dados multivariados. Foram comparados os métodos elipsóide de volume
mínimo (MVE), Covariância de volume mínimo (MCD), Ortogonalizado de Gnanadesikan e
Kettenring (OGK), componentes principais para detecção de outliers (PCOut) e o Comedian.
Para realizar as comparações foi utilizado uma série de simulações prevendo diversas situações
utilizando a distribuição normal contaminada. As comparações foram avaliadas atráves da taxa
de sucesso (TS), que aponta a porcentagem de outliers que os métodos identificaram correta-
mente e da taxa de falsa detecção (TFD), que aponta a porcentagem de observações que não são
outliers, mas foram identificadas como outliers. Conclui-se que o ideal é utlizar ao menos dois
métodos de detecção de outliers, visto que apontar o único método como melhor é uma tarefa
díficil. No entanto, os métodos PCOut e Comedian obtiveram as TS melhores na maioria dos
cenários simulados. O método comedian obteve as melhores TFD.