O Desafio do pareamento de grandes bases de dados : mapeamento de métodos de record linkage probabilístico e diagnóstico de sua viabilidade empírica
Texto para Discussão (TD) 2420 : O Desafio do pareamento de grandes bases de dados : mapeamento de métodos de record linkage probabilístico e diagnóstico de sua viabilidade empírica
dc.creator | Yaohao, Peng | |
dc.creator | Mation, Lucas Ferreira | |
dc.date | 2018-10-31T20:18:57Z | |
dc.date | 2018-10-31T20:18:57Z | |
dc.date | 2018-10 | |
dc.date.accessioned | 2023-09-28T19:18:40Z | |
dc.date.available | 2023-09-28T19:18:40Z | |
dc.identifier | http://repositorio.ipea.gov.br/handle/11058/8705 | |
dc.identifier.uri | https://repositorioslatinoamericanos.uchile.cl/handle/2250/9036127 | |
dc.description | Este trabalho verificou o desempenho preditivo de algoritmos de pareamento de registros (record linkage – RL) probabilístico para a integração de bases de dados reais de grande porte, avaliando os efeitos da definição das variáveis de blocking (blocagem ou indexação), de funções de distanciamento de strings (sequência de caracteres) e de algoritmos de pareamento fonético em relação à qualidade das previsões e à complexidade computacional. Realizou-se um levantamento bibliográfico dos principais métodos de RL determinístico e probabilístico, bem como de avanços recentes aliando técnicas de machine learning (aprendizado de máquinas) e principais pacotes e implementações disponíveis em linguagem open-source (código aberto) R. Os resultados podem fornecer heurísticas para problemas de integração de registros administrativos em escala nacional e são de potencial valia para a formulação e a avaliação de políticas públicas. | |
dc.description | 48 p. : il. | |
dc.format | application/pdf | |
dc.format | application/pdf | |
dc.language | pt-BR | |
dc.publisher | Instituto de Pesquisa Econômica Aplicada (Ipea) | |
dc.rights | Instituto de Pesquisa Econômica Aplicada (Ipea) | |
dc.rights | É permitida a reprodução deste texto e dos dados nele contidos, desde que citada a fonte. Reproduções para fins comerciais são proibidas. | |
dc.source | http://www.ipea.gov.br | |
dc.subject | IPEA::Informação. Documentação::Informação::Serviços de Informação::Bases de Dados | |
dc.subject | IPEA::Ciência. Pesquisa. Metodologia::Coleta de Dados::Coleta de Dados::Pesquisas | |
dc.subject | IPEA::Informação. Documentação::Documentos::Relatórios::Relatórios de Pesquisa | |
dc.subject | Pareamento de registros | |
dc.subject | Blocking | |
dc.subject | Registros administrativos | |
dc.subject | Big Data | |
dc.subject | R - Statistical computing | |
dc.title | O Desafio do pareamento de grandes bases de dados : mapeamento de métodos de record linkage probabilístico e diagnóstico de sua viabilidade empírica | |
dc.title | Texto para Discussão (TD) 2420 : O Desafio do pareamento de grandes bases de dados : mapeamento de métodos de record linkage probabilístico e diagnóstico de sua viabilidade empírica | |
dc.type | Texto para Discussão (TD) | |
dc.coverage | Brasil |