Texto para Discussão (TD)
Sobrenomes e ancestralidade no Brasil
Texto para Discussão (TD) 2229 : Sobrenomes e ancestralidade no Brasil
Autor
Monasterio, Leonardo Monteiro
Resumen
Este trabalho apresenta um método de classificação da ancestralidade dos sobrenomes dos brasileiros nas seguintes classes: ibérica, italiana, japonesa, alemã e leste europeia. A partir de fontes históricas diversas, montou-se uma base de dados da ancestralidade dos sobrenomes. Essas informações formam a base para a aplicação de algoritmos de classificação de fuzzy matching e de machine learning nos mais de 46 milhões de trabalhadores da Relação Anual de Informações Sociais (Rais) Migra de 2013. A imensa maioria (96,4%) dos sobrenomes únicos da Rais foi identificada com o processo de fuzzy matching e os demais com o método proposto por Cavnar e Trenkle (1994). A comparação dos resultados do procedimento com dados sobre estrangeiros no Censo Demográfico de 1920 e a distribuição geográfica dos sobrenomes não ibéricos reforçam a acurácia do procedimento. 25 p. : il.