Trabalho de Conclusão de Curso
Avaliação da eficiência de planos amostrais em big data de registros administrativos
Autor
Fernandes, Filipe Oliveira
Institución
Resumen
New technologies of the XXI century provided a great increase in the production of
data, which caused the phenomenon known as Big Data. Increasingly complex and difficult-
to-analyse databases are emerging that require new infrastructure and increased computational
processing power. A solution to this problem would be the use of probabilistic sampling
techniques. The purpose of this study was to carry out a simulation study considering different
sample designs through the software R and with the assistance of a server. Simple and
complex sample designs were compared based on the standard error and coverage level in
order to obtain estimates with the best properties from reduced sample sizes in order to allow
data analysis also to the user of a desktop. In this study, data from the CadÚnico (Single
Register for Social Programs of the Government), which has more than 20 million records and
is distinguished as the platform for access to Bolsa Família, were considered. Simple Random
Sampling has stood out as the fastest and most accurate method even in the smallest sample
sizes. As novas tecnologias do século XXI propiciaram um grande aumento na produção de
dados, o que ocasionou no fenômeno conhecido como Big Data. Surgem bancos de dados
cada vez mais complexos e difíceis de serem analisados, que requerem uma nova
infraestrutura e capacidade maior de processamento computacional. Uma solução para esse
problema seria o uso de técnicas de amostragem probabilística. A proposta deste estudo foi a
realização de um estudo de simulação considerando diferentes desenhos amostrais através do
software R e com o auxílio de um servidor. Planos amostrais simples e complexos foram
comparados quanto ao erro padrão e nível de cobertura, na finalidade de obter estimativas
com as melhores propriedades a partir de tamanhos de amostra reduzidos, a fim de possibilitar
a análise dos dados também ao usuário de um desktop. Nesse estudo foram considerados
dados do CadUnico (Cadastro Único para Programas Sociais do Governo), que possui mais
de 20 milhões de registros e distingue-se como a plataforma de acesso ao Bolsa Família. A
Amostragem Aleatória Simples destacou-se como o método mais rápido e também o mais
preciso inclusive nos menores tamanhos de amostra.