info:eu-repo/semantics/article
The influence of outliers on metric studies of information: an analysis of univariate data
A influência de outliers nos estudos métricos da informação: uma análise de dados univariados
Autor
Maia Lima, Luís Fernando
Maroldi, Alexandre Masson
Silva, Dávilla Vieira Odízio da
Hayashi, Carlos Roberto Massao
Hayashi, Maria Cristina Piumbato Innocentini
Resumen
This paper presents a new formula for detecting outliers through Exploratory Data Analysis, while taking data asymmetry into account. The effect of removing outliers from the original dataset was also assessed. The new formula was applied on three datasets published in the literature on metric studies of information. The first dataset presented five lower outliers. The average of aggregate data conveyed a false impression that 40 universities, from a total of 49, were above average. The removal of the five lower outliers leads to a new average in which only 22 universities were above average. In the second dataset, there were five lower outliers and one upper outlier. In this case, the upper outlier eventually weaken the effect of the lower outliers. In the third dataset, five upper outliers and one lower outlier are detected. The average of aggregate data revealed that 10 universities were above average. Removing the six outliers from the original dataset, it was found that 28 universities were above the new average score. For the three datasets analyzed, the assessment demonstrated the effect of the outliers on the interval estimation (statistical inference): the removal of outliers generated a mean and standard deviation that were more representative of the sample analyzed. Therefore, became evident how outliers could influence results and conclusions in metric studies of the information. However, the formula for outliers’ detection is open for future research. Este artigo apresenta uma nova fórmula de detecção de outliers via Análise Exploratória de Dados, levando em conta a assimetria dos dados, e também estuda o efeito da remoção dos outliers dos dados originais. Aplica-se a fórmula para três conjuntos de dados publicados na literatura de estudos métricos da informação. O primeiro conjunto de dados apresenta cinco outliers inferiores. A média, dos dados agregados, conduz à falsa impressão de que 40 universidades, de um total de 49, estão acima da média. A remoção dos cinco outliers inferiores conduz a uma nova média em que somente 22 universidades estão acima da média. No segundo conjunto de dados há a presença de cinco outliers inferiores e um outlier superior. Neste caso, o outlier superior ameniza o efeito dos outliers inferiores. No terceiro conjunto de dados, detectam-se cinco outliers superiores e um outlier inferior. A média, dos dados agregados, aponta que dez universidades estão acima da média. Removendo-se os seis outliers dos dados originais, encontra-se que 28 universidades estão acima do novo valor da média. Para os três conjuntos de dados analisados o trabalho também demonstra o efeito dos outliers na estimativa intervalar (inferência estatística): a remoção dos outliers gera valores mais representativos tanto para a média como para o desvio padrão da amostra analisada. Portanto, evidencia-se como outliers podem afetar resultados e conclusões nos estudos métricos da informação. Todavia, a fórmula para a detecção de outliers apresenta-se aberta para futuras pesquisas.