Texto para Discussão (TD) 2420 : O Desafio do pareamento de grandes bases de dados : mapeamento de métodos de record linkage probabilístico e diagnóstico de sua viabilidade empírica

dc.creatorYaohao, Peng
dc.creatorMation, Lucas Ferreira
dc.date2018-10-31T20:18:57Z
dc.date2018-10-31T20:18:57Z
dc.date2018-10
dc.date.accessioned2023-09-28T19:18:40Z
dc.date.available2023-09-28T19:18:40Z
dc.identifierhttp://repositorio.ipea.gov.br/handle/11058/8705
dc.identifier.urihttps://repositorioslatinoamericanos.uchile.cl/handle/2250/9036127
dc.descriptionEste trabalho verificou o desempenho preditivo de algoritmos de pareamento de registros (record linkage – RL) probabilístico para a integração de bases de dados reais de grande porte, avaliando os efeitos da definição das variáveis de blocking (blocagem ou indexação), de funções de distanciamento de strings (sequência de caracteres) e de algoritmos de pareamento fonético em relação à qualidade das previsões e à complexidade computacional. Realizou-se um levantamento bibliográfico dos principais métodos de RL determinístico e probabilístico, bem como de avanços recentes aliando técnicas de machine learning (aprendizado de máquinas) e principais pacotes e implementações disponíveis em linguagem open-source (código aberto) R. Os resultados podem fornecer heurísticas para problemas de integração de registros administrativos em escala nacional e são de potencial valia para a formulação e a avaliação de políticas públicas.
dc.description48 p. : il.
dc.formatapplication/pdf
dc.formatapplication/pdf
dc.languagept-BR
dc.publisherInstituto de Pesquisa Econômica Aplicada (Ipea)
dc.rightsInstituto de Pesquisa Econômica Aplicada (Ipea)
dc.rightsÉ permitida a reprodução deste texto e dos dados nele contidos, desde que citada a fonte. Reproduções para fins comerciais são proibidas.
dc.sourcehttp://www.ipea.gov.br
dc.subjectIPEA::Informação. Documentação::Informação::Serviços de Informação::Bases de Dados
dc.subjectIPEA::Ciência. Pesquisa. Metodologia::Coleta de Dados::Coleta de Dados::Pesquisas
dc.subjectIPEA::Informação. Documentação::Documentos::Relatórios::Relatórios de Pesquisa
dc.subjectPareamento de registros
dc.subjectBlocking
dc.subjectRegistros administrativos
dc.subjectBig Data
dc.subjectR - Statistical computing
dc.titleO Desafio do pareamento de grandes bases de dados : mapeamento de métodos de record linkage probabilístico e diagnóstico de sua viabilidade empírica
dc.titleTexto para Discussão (TD) 2420 : O Desafio do pareamento de grandes bases de dados : mapeamento de métodos de record linkage probabilístico e diagnóstico de sua viabilidade empírica
dc.typeTexto para Discussão (TD)
dc.coverageBrasil


Este ítem pertenece a la siguiente institución